このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211002となっている論文です。

PDF登録状況(公開日: 20211002)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 文と部分文の埋め込み空間に対するクラスタリングとネットワーク解析 [全文訳有]

Clustering and Network Analysis for the Embedding Spaces of Sentences and Sub-Sentences ( http://arxiv.org/abs/2110.00697v1 )

ライセンス: CC BY 4.0
Yuan An and Alexander Kalinowski and Jane Greenberg(参考訳) 文埋め込みメソッドは、短いテキスト構造や単語のシーケンスを扱うための強力なアプローチを提供する。 文を高密度な数値ベクトルとして表現することで、多くの自然言語処理(NLP)アプリケーションの性能が向上した。 しかし, 文埋め込みの潜伏構造についてはほとんど理解されていない。 具体的には,文の長さや構造が文の埋め込み空間やトポロジに影響を及ぼすかどうかについて論じていない。 本稿では,文とサブ文の埋め込みを対象とする包括的クラスタリングとネットワーク解析について検討する。 その結果,1つの手法が最もクラスタリング可能な埋め込みを生成することがわかった。 一般に、スパン部分文の埋め込みは、原文よりもクラスタリング特性が優れている。 この結果は将来の文埋め込みモデルや応用に影響を及ぼす。

Sentence embedding methods offer a powerful approach for working with short textual constructs or sequences of words. By representing sentences as dense numerical vectors, many natural language processing (NLP) applications have improved their performance. However, relatively little is understood about the latent structure of sentence embeddings. Specifically, research has not addressed whether the length and structure of sentences impact the sentence embedding space and topology. This paper reports research on a set of comprehensive clustering and network analyses targeting sentence and sub-sentence embedding spaces. Results show that one method generates the most clusterable embeddings. In general, the embeddings of span sub-sentences have better clustering properties than the original sentences. The results have implications for future sentence embedding models and applications.
翻訳日:2021-10-07 05:18:25 公開日:2021-10-02
# (参考訳) 手書き文書コレクションに関する質問 [全文訳有]

Asking questions on handwritten document collections ( http://arxiv.org/abs/2110.00711v1 )

ライセンス: CC BY 4.0
Minesh Mathew, Lluis Gomez, Dimosthenis Karatzas and CV Jawahar(参考訳) 本研究は手書き文書コレクションにおける質問回答(QA)の問題に対処する。 一般的なqaや視覚質問応答(vqa)とは異なり、私たちは答えが短いテキストである文書スニペットを見つけることを目指しています。 提案手法は文書中のテキストを認識せずに機能する。 テキスト認識が堅牢な場合が多い手書き文書や歴史資料には認識フリーアプローチが適していると主張する。 同時に、人間のユーザにとって、回答を含む文書イメージスニペットは、テキスト回答の有効な代替手段として機能する。 提案手法では,テキストワードと単語イメージの両方を共通部分空間に投影する,既製のディープ埋め込みネットワークを用いている。 この埋め込みはテキストドメインとビジュアルドメインをブリッジし、質問に答える可能性のあるドキュメントスニペットの検索を支援する。 2つの新しいデータセットに対する提案手法の結果を評価する。 (i)HW-SQuAD:SQuAD1.0 データセットに対応する合成手書き文書画像 (ii)ベンタムQA:有名なベンタム写本コレクションの文書に定義された小さなQAペア。 また,OCRを用いて画像から認識されたテキストを用いた認識ベースアプローチと比較して,認識自由アプローチの徹底的な分析を行う。 この作業で提示されたデータセットはdocvqa.orgでダウンロードできる。

This work addresses the problem of Question Answering (QA) on handwritten document collections. Unlike typical QA and Visual Question Answering (VQA) formulations where the answer is a short text, we aim to locate a document snippet where the answer lies. The proposed approach works without recognizing the text in the documents. We argue that the recognition-free approach is suitable for handwritten documents and historical collections where robust text recognition is often difficult. At the same time, for human users, document image snippets containing answers act as a valid alternative to textual answers. The proposed approach uses an off-the-shelf deep embedding network which can project both textual words and word images into a common sub-space. This embedding bridges the textual and visual domains and helps us retrieve document snippets that potentially answer a question. We evaluate results of the proposed approach on two new datasets: (i) HW-SQuAD: a synthetic, handwritten document image counterpart of SQuAD1.0 dataset and (ii) BenthamQA: a smaller set of QA pairs defined on documents from the popular Bentham manuscripts collection. We also present a thorough analysis of the proposed recognition-free approach compared to a recognition-based approach which uses text recognized from the images using an OCR. Datasets presented in this work are available to download at docvqa.org
翻訳日:2021-10-07 05:03:29 公開日:2021-10-02
# (参考訳) 複数データセットを用いたMRI再構成のための最適化型メタラーニングモデル [全文訳有]

An Optimization-Based Meta-Learning Model for MRI Reconstruction with Diverse Dataset ( http://arxiv.org/abs/2110.00715v1 )

ライセンス: CC BY 4.0
Wanyu Bian, Yunmei Chen, Xiaojing Ye, Qingchao Zhang(参考訳) 目的: 本研究の目的は, メタラーニングフレームワークにおけるmri再構成モデルの構築である。 メタラーニングの標準ベンチマークは、多様なタスク分布の学習によって挑戦される。 提案するネットワークは,変分モデルで正規化関数を学習し,異種データセットを利用してトレーニングデータに現れる可能性のある様々なアンダーサンプリング比やパターンでMR画像を再構成する。 方法: 学習可能最適化アルゴリズム(LOA)により誘導される非凸非平滑変動モデルのMRI再構成のためのアンローリングネットワークを提案する。 このモデルでは、学習可能な正規化関数は、浅層ネットワークで表されるタスク不変共通特徴エンコーダとタスク固有学習器を含む。 ネットワークをトレーニングするために、トレーニングデータをトレーニングと検証の2つに分割し、バイレベル最適化アルゴリズムを導入します。 低レベル最適化は、トレーニングデータセット上でタスク固有学習者の固定パラメータを持つ特徴エンコーダのタスク不変パラメータを訓練し、上位レベルは検証データセット上のタスク固有学習者のパラメータを最適化する。 結果: CS比の平均PSNRは, 従来の教師あり学習を通して学習したネットワークと比較して有意に増加した。 結論:我々は,ベースネットワークアーキテクチャ,正規化の設計,二段階最適化に基づくトレーニングからなるメタ学習フレームワークを提案した。 ネットワークはLOAの収束特性と変分モデルの解釈を継承する。 指定正規化および二段階最適化に基づくトレーニングアルゴリズムにより一般化能力が向上する。

Purpose: This work aims at developing a generalizable MRI reconstruction model in the meta-learning framework. The standard benchmarks in meta-learning are challenged by learning on diverse task distributions. The proposed network learns the regularization function in a variational model and reconstructs MR images with various under-sampling ratios or patterns that may or may not be seen in the training data by leveraging a heterogeneous dataset. Methods: We propose an unrolling network induced by learnable optimization algorithms (LOA) for solving our nonconvex nonsmooth variational model for MRI reconstruction. In this model, the learnable regularization function contains a task-invariant common feature encoder and task-specific learner represented by a shallow network. To train the network we split the training data into two parts: training and validation, and introduce a bilevel optimization algorithm. The lower-level optimization trains task-invariant parameters for the feature encoder with fixed parameters of the task-specific learner on the training dataset, and the upper-level optimizes the parameters of the task-specific learner on the validation dataset. Results: The average PSNR increases significantly compared to the network trained through conventional supervised learning on the seen CS ratios. We test the result of quick adaption on the unseen tasks after meta-training and in the meanwhile saving half of the training time; Conclusion: We proposed a meta-learning framework consisting of the base network architecture, design of regularization, and bi-level optimization-based training. The network inherits the convergence property of the LOA and interpretation of the variational model. The generalization ability is improved by the designated regularization and bilevel optimization-based training algorithm.
翻訳日:2021-10-07 04:42:15 公開日:2021-10-02
# (参考訳) 教師付き機械学習による太陽電池モジュールMPPT技術の実装 [全文訳有]

Implementation of MPPT Technique of Solar Module with Supervised Machine Learning ( http://arxiv.org/abs/2110.00728v1 )

ライセンス: CC BY 4.0
Ruhi Sharmin, Sayeed Shafayet Chowdhury, Farihal Abedin, and Kazi Mujibur Rahman(参考訳) 本稿では,太陽PVシステムにおける教師付きMLを用いたMPPT解析手法を提案する。 この目的のために、PVシステムの全体図を設計、シミュレーションし、MATLAB/Simulinkでデータセットを作成する。 そこで、太陽電池モジュールの出力特性を解析することにより、ニューラルネットワーク(NN)法に基づく改良MPPTアルゴリズムを前進させ、太陽電池モジュールの最大パワーポイント(MPP)を追跡する。 この課題を遂行するために、列車データセットの広い範囲をサポートする小さなデータでも最適な訓練アルゴリズムとしてベイズ正規化手法が選択された。 理論的な結果から,改良NN MPPTアルゴリズムは,同じ環境下でのPerturbとObserve法と比較して効率が良く,PVシステムは振動や誤判定の確率を伴わずにMPPで動作し続けることが示唆された。 したがって、誤判定を減らすだけでなく、MPP周辺の電力損失を回避することができる。 さらに,このアルゴリズムをハードウェアに実装し,実験データと比較した理論結果の検証を行った。

In this paper, we proposed a method using supervised ML in solar PV system for MPPT analysis. For this purpose, an overall schematic diagram of a PV system is designed and simulated to create a dataset in MATLAB/ Simulink. Thus, by analyzing the output characteristics of a solar cell, an improved MPPT algorithm on the basis of neural network (NN) method is put forward to track the maximum power point (MPP) of solar cell modules. To perform the task, Bayesian Regularization method was chosen as the training algorithm as it works best even for smaller data supporting the wide range of the train data set. The theoretical results show that the improved NN MPPT algorithm has higher efficiency compared with the Perturb and Observe method in the same environment, and the PV system can keep working at MPP without oscillation and probability of any kind of misjudgment. So it can not only reduce misjudgment, but also avoid power loss around the MPP. Moreover, we implemented the algorithm in a hardware set-up and verified the theoretical result comparing it with the empirical data.
翻訳日:2021-10-07 04:13:24 公開日:2021-10-02
# (参考訳) FICGAN: 顔認識のための顔認証制御可能なGAN [全文訳有]

FICGAN: Facial Identity Controllable GAN for De-identification ( http://arxiv.org/abs/2110.00740v1 )

ライセンス: CC BY 4.0
Yonghyun Jeong, Jooyoung Choi, Sungwon Kim, Youngmin Ro, Tae-Hyun Oh, Doyeon Kim, Heonseok Ha, Sungroh Yoon(参考訳) 本研究では、プライバシー保護を保証した高品質な非識別顔画像を生成するだけでなく、データユーティリティ向上のための属性保存に関する詳細な制御性も提供する。 我々は,2つの要因に基づく顔識別において,望ましくない機能に取り組む。 まず、画像品質を損なうことなく、非識別タスクにおける高いレベルのプライバシー保護を得るための課題に焦点をあてる。 第2に,アイデンティティと非アイデンティティに関連する顔属性を分析し,顔認証の程度と情報源属性の保存とのトレードオフを検討した。 この分析に基づいて,顔画像上の非同一性属性から識別属性をアンタングルする自己エンコーダに基づく条件生成モデルである顔識別制御GAN(FICGAN)を開発した。 本手法は,k-sameアルゴリズムを用いてセキュリティ強化のためのk-匿名性を満たすことにより,非識別顔画像におけるプライバシ保護の強化を実現する。 多くの実験により、顔の識別の様々なシナリオにおいて、我々のモデルが他のモデルよりも優れていることが示された。

In this work, we present Facial Identity Controllable GAN (FICGAN) for not only generating high-quality de-identified face images with ensured privacy protection, but also detailed controllability on attribute preservation for enhanced data utility. We tackle the less-explored yet desired functionality in face de-identification based on the two factors. First, we focus on the challenging issue to obtain a high level of privacy protection in the de-identification task while uncompromising the image quality. Second, we analyze the facial attributes related to identity and non-identity and explore the trade-off between the degree of face de-identification and preservation of the source attributes for enhanced data utility. Based on the analysis, we develop Facial Identity Controllable GAN (FICGAN), an autoencoder-based conditional generative model that learns to disentangle the identity attributes from non-identity attributes on a face image. By applying the manifold k-same algorithm to satisfy k-anonymity for strengthened security, our method achieves enhanced privacy protection in de-identified face images. Numerous experiments demonstrate that our model outperforms others in various scenarios of face de-identification.
翻訳日:2021-10-07 03:57:29 公開日:2021-10-02
# (参考訳) 複合重畳畳み込み型畳み込みニューラルネットワークによる複合音響エコーキャンセラと雑音抑制 [全文訳有]

End-to-End Complex-Valued Multidilated Convolutional Neural Network for Joint Acoustic Echo Cancellation and Noise Suppression ( http://arxiv.org/abs/2110.00745v1 )

ライセンス: CC BY-SA 4.0
Karn N. Watcharasupat, Thi Ngoc Tho Nguyen, Woon-Seng Gan, Shengkui Zhao, and Bin Ma(参考訳) エコーとノイズ抑圧は、全二重通信システムにおいて不可欠な部分である。 最近の多くの音響エコーキャンセレーション(aec)システムは、線形エコー抑圧のための分離適応フィルタリングモジュールと、残留エコー抑圧のためのニューラルモジュールに依存している。 しかしながら、適応的なフィルタリングモジュールは収束を必要とし、音響環境の変化に影響を受けやすいだけでなく、この2段階のフレームワークは、神経モジュールが既に線形および非線形エコー抑圧が可能な場合、しばしばAECシステムに不要な遅延をもたらす。 本稿では,複雑な時間周波数マスクのオフセット補償機能を活用し,エンドツーエンドの複雑なニューラルネットワークアーキテクチャを提案する。 提案モデルのビルディングブロックは, 密結合型DenseNet (D3Net) ビルディングブロックに基づく擬似複雑拡張であり, 354Kパラメータの非常に小さなネットワークとなる。 このアーキテクチャはD3Netビルディングブロックのマルチレゾリューション特性を利用してプールの必要性をなくし、出力解像度を失うことなく大きな受信フィールドを使って特徴を抽出した。 また,同時音声強調による統合エコーと雑音抑圧のためのデュアルマスク手法を提案する。 人工と実両方のテストセットの評価は、複数のエネルギーベースのメトリクスと知覚プロキシで有望な結果を示した。

Echo and noise suppression is an integral part of a full-duplex communication system. Many recent acoustic echo cancellation (AEC) systems rely on a separate adaptive filtering module for linear echo suppression and a neural module for residual echo suppression. However, not only do adaptive filtering modules require convergence and remain susceptible to changes in acoustic environments, but this two-stage framework also often introduces unnecessary delays to the AEC system when neural modules are already capable of both linear and nonlinear echo suppression. In this paper, we exploit the offset-compensating ability of complex time-frequency masks and propose an end-to-end complex-valued neural network architecture. The building block of the proposed model is a pseudocomplex extension based on the densely-connected multidilated DenseNet (D3Net) building block, resulting in a very small network of only 354K parameters. The architecture utilized the multi-resolution nature of the D3Net building blocks to eliminate the need for pooling, allowing the network to extract features using large receptive fields without any loss of output resolution. We also propose a dual-mask technique for joint echo and noise suppression with simultaneous speech enhancement. Evaluation on both synthetic and real test sets demonstrated promising results across multiple energy-based metrics and perceptual proxies.
翻訳日:2021-10-07 03:41:40 公開日:2021-10-02
# (参考訳) 説明可能なイベント認識 [全文訳有]

Explainable Event Recognition ( http://arxiv.org/abs/2110.00755v1 )

ライセンス: CC BY 4.0
Imran Khan, Kashif Ahmad, Namra Gul, Talhat Khan, Nasir Ahmad, Ala-Al-Fuqaha(参考訳) この文献は、画像中の事象認識におけるCNNの卓越した能力を示している。 しかし、モデルの決定の背後にある潜在的な原因を分析し、予測がイベントサリアンなオブジェクトや領域に基づいているかどうかを調べる試みは少ない。 イベント認識の重要な側面を探るため,本研究では,grad-camとxceptionアーキテクチャに基づくcnnモデルを用いた,説明可能なイベント認識フレームワークを提案する。 さまざまな自然災害、社会、スポーツイベントを含む3つの大規模なデータセットで実験を行う。 モデルでは, 自然災害, 社会, スポーツイベントにおいて, f1-scoreの総合値が0.01, 0.94, 0.97であった。 さらに,Grad-CAMを用いて生成したモデルサンプルのアクティベーションマップの主観的解析を行うため,クラウドソーシングにより,モデルの予測が事象関連対象/領域に基づいているか否かを解析する。 その結果, 自然災害, スポーツ, 社会イベントデータセットにおけるモデル決定の78%, 84%, 78%が, オネベント関連対象または地域に基づいていたことが示唆された。

The literature shows outstanding capabilities for CNNs in event recognition in images. However, fewer attempts are made to analyze the potential causes behind the decisions of the models and exploring whether the predictions are based on event-salient objects or regions? To explore this important aspect of event recognition, in this work, we propose an explainable event recognition framework relying on Grad-CAM and an Xception architecture-based CNN model. Experiments are conducted on three large-scale datasets covering a diversified set of natural disasters, social, and sports events. Overall, the model showed outstanding generalization capabilities obtaining overall F1-scores of 0.91, 0.94, and 0.97 on natural disasters, social, and sports events, respectively. Moreover, for subjective analysis of activation maps generated through Grad-CAM for the predicted samples of the model, a crowdsourcing study is conducted to analyze whether the model's predictions are based on event-related objects/regions or not? The results of the study indicate that 78%, 84%, and 78% of the model decisions on natural disasters, sports, and social events datasets, respectively, are based onevent-related objects or regions.
翻訳日:2021-10-07 03:28:53 公開日:2021-10-02
# (参考訳) TopiOCQA: トピックスイッチによるオープンドメイン会話質問応答 [全文訳有]

TopiOCQA: Open-domain Conversational Question Answeringwith Topic Switching ( http://arxiv.org/abs/2110.00768v1 )

ライセンス: CC BY 4.0
Vaibhav Adlakha, Shehzaad Dhuliawala, Kaheer Suleman, Harm de Vries, Siva Reddy(参考訳) 会話型質問応答シナリオでは、質問者は、一連の相互依存的な質問や回答を通じてトピックに関する情報を抽出しようとする。 会話が進むにつれて、情報検索のセッションでよく見られる現象である関連トピックに切り替えることができる。 しかし、会話型質問応答のための現在のデータセットには2つの制限がある。 1)トピックスイッチは含まない。 2)会話の参照テキストが与えられる、すなわち、設定はオープンドメインではない、と仮定する。 TopiOCQA (Tapioca) はウィキペディアのトピックスイッチを備えたオープンドメイン会話データセットである。 TopiOCQAには3,920件の質問と自由形式の回答が含まれている。 TopiOCQAは、会話履歴を用いて有効な応答を構築するとともに、同じ会話の複数のターンで効率的な検索を必要とするモデルに対して、挑戦的なテストベッドを提供する。 本研究では,最先端文書検索法とニューラルリーダモデルを組み合わせたベースラインの評価を行った。 我々の最良のモデルは51.9のF1と42.1のBLEUスコアをそれぞれ18.3のポイントと17.6のポイントで達成し、データセットの難易度を示している。 私たちのデータセットとコードはhttps://mcgill-nlp.g ithub.io/topiocqaで公開されます。

In a conversational question answering scenario, a questioner seeks to extract information about a topic through a series of interdependent questions and answers. As the conversation progresses, they may switch to related topics, a phenomenon commonly observed in information-seeking search sessions. However, current datasets for conversational question answering are limiting in two ways: 1) they do not contain topic switches; and 2) they assume the reference text for the conversation is given, i.e., the setting is not open-domain. We introduce TopiOCQA (pronounced Tapioca), an open-domain conversational dataset with topic switches on Wikipedia. TopiOCQA contains 3,920 conversations with information-seeking questions and free-form answers. TopiOCQA poses a challenging test-bed for models, where efficient retrieval is required on multiple turns of the same conversation, in conjunction with constructing valid responses using conversational history. We evaluate several baselines, by combining state-of-the-art document retrieval methods with neural reader models. Our best models achieves F1 of 51.9, and BLEU score of 42.1 which falls short of human performance by 18.3 points and 17.6 points respectively, indicating the difficulty of our dataset. Our dataset and code will be available at https://mcgill-nlp.g ithub.io/topiocqa
翻訳日:2021-10-07 03:18:56 公開日:2021-10-02
# CrossMoDA チャレンジにおける未完成画像翻訳と画像分割のためのアウトオブボックスフレームワークの利用

Using Out-of-the-Box Frameworks for Unpaired Image Translation and Image Segmentation for the crossMoDA Challenge ( http://arxiv.org/abs/2110.01607v1 )

ライセンス: Link先を確認
Jae Won Choi(参考訳) 本研究の目的は,CrossMoDA チャレンジに対する事前学習フレームワークの適用と評価である。 我々は,高分解能T1 MRから高分解能T2 MRへの領域適応にCUTモデルを使用し,データ増大に伴い,信号強度の低い前庭神経ショーノマを付加した画像を生成する。 セグメンテーションタスクでは、nnU-Netフレームワークを使用します。 最終提出は検証段階での平均Diceスコア0.8299(0.0465)を達成した。

The purpose of this study is to apply and evaluate out-of-the-box deep learning frameworks for the crossMoDA challenge. We use the CUT model for domain adaptation from contrast-enhanced T1 MR to high-resolution T2 MR. As data augmentation, we generated additional images with vestibular schwannomas with lower signal intensity. For the segmentation task, we use the nnU-Net framework. Our final submission achieved a mean Dice score of 0.8299 (0.0465) in the validation phase.
翻訳日:2021-10-06 14:04:32 公開日:2021-10-02
# (参考訳) 視覚的不快感:強化学習のための好奇心による表現 [全文訳有]

Seeking Visual Discomfort: Curiosity-driven Representations for Reinforcement Learning ( http://arxiv.org/abs/2110.00784v1 )

ライセンス: CC BY 4.0
Elie Aljalbout and Maximilian Ulmer and Rudolph Triebel(参考訳) 視覚に基づく強化学習(RL)は、画像を主観察対象とする制御課題を解決するための有望なアプローチである。 最先端のRLアルゴリズムは、特に画像観察の場合、サンプル効率の観点からはまだ苦戦している。 これにより、状態表現学習(SRL)技術をRLパイプラインに統合することに注目が集まるようになった。 この分野での作業は、サンプル効率の大幅な改善、その他のメリットを示している。 しかしながら、このパラダイムを最大限に活用するには、トレーニングに使用するサンプルの品質が重要な役割を果たす。 さらに重要なことに、これらのサンプルの多様性は、視覚ベースのrlのサンプル効率だけでなく、その一般化能力にも影響を及ぼす可能性がある。 本稿では,状態表現学習のためのサンプル多様性を改善する手法を提案する。 提案手法は,SRL設定を利用してRLアルゴリズムの探索能力を向上させる。 実験の結果,提案手法は問題のある状態の訪問を促進し,学習状態の表現を改善し,全てのテスト環境のベースラインを上回ります。 これらの結果は,ベースライン手法が困難である環境において最も顕著である。 簡単な環境でもトレーニングを安定させ,報酬分散を低減し,サンプル効率を向上させる。

Vision-based reinforcement learning (RL) is a promising approach to solve control tasks involving images as the main observation. State-of-the-art RL algorithms still struggle in terms of sample efficiency, especially when using image observations. This has led to increased attention on integrating state representation learning (SRL) techniques into the RL pipeline. Work in this field demonstrates a substantial improvement in sample efficiency among other benefits. However, to take full advantage of this paradigm, the quality of samples used for training plays a crucial role. More importantly, the diversity of these samples could affect the sample efficiency of vision-based RL, but also its generalization capability. In this work, we present an approach to improve sample diversity for state representation learning. Our method enhances the exploration capability of RL algorithms, by taking advantage of the SRL setup. Our experiments show that our proposed approach boosts the visitation of problematic states, improves the learned state representation, and outperforms the baselines for all tested environments. These results are most apparent for environments where the baseline methods struggle. Even in simple environments, our method stabilizes the training, reduces the reward variance, and promotes sample efficiency.
翻訳日:2021-10-06 13:50:19 公開日:2021-10-02
# (参考訳) エッジデバイスにおけるコンピュータビジョンタスクのための最適化ニューラルネットワーク [全文訳有]

Optimizing Neural Network for Computer Vision task in Edge Device ( http://arxiv.org/abs/2110.00791v1 )

ライセンス: CC BY 4.0
Ranjith M S, S Parameshwara, Pavan Yadav A, Shriganesh Hegde(参考訳) コンピュータビジョンの分野は、畳み込みニューラルネットワークとその変種のようなネットワークによって、ここ数年で急速に成長している。 モデルを保存するのに必要なメモリと計算コストは、エッジデバイスにデプロイすることを制限するネットワークにとって非常に高い。 多くの場合、アプリケーションはクラウドに依存しますが、ラウンドトリップの遅延のため、リアルタイムに作業するのは難しくなります。 我々は、エッジデバイス自体にニューラルネットワークを配置することで、これらの問題を克服する。 エッジデバイスの計算コストは、モデル内のパラメータの浮動小数点精度を下げることによって削減される。 その後、モデルに必要なメモリが減少し、モデルの性能がほとんど影響しない場合に計算速度が増加する。 これにより、ニューラルネットワークからそれ自体で予測できるエッジデバイスが作られる。

The field of computer vision has grown very rapidly in the past few years due to networks like convolution neural networks and their variants. The memory required to store the model and computational expense are very high for such a network limiting it to deploy on the edge device. Many times, applications rely on the cloud but that makes it hard for working in real-time due to round-trip delays. We overcome these problems by deploying the neural network on the edge device itself. The computational expense for edge devices is reduced by reducing the floating-point precision of the parameters in the model. After this the memory required for the model decreases and the speed of the computation increases where the performance of the model is least affected. This makes an edge device to predict from the neural network all by itself.
翻訳日:2021-10-06 13:36:48 公開日:2021-10-02
# (参考訳) 言い換え生成としてのアスペクト感情クワッド予測 [全文訳有]

Aspect Sentiment Quad Prediction as Paraphrase Generation ( http://arxiv.org/abs/2110.00796v1 )

ライセンス: CC BY 4.0
Wenxuan Zhang, Yang Deng, Xin Li, Yifei Yuan, Lidong Bing, Wai Lam(参考訳) アスペクトベース感情分析(absa)は近年、アスペクトカテゴリ、アスペクト項、意見項、感情極性を含む4つの基本的な感情要素を含む、広範囲に研究されている。 現存する研究は通常、一発で4つの要素を予測するのではなく、部分的な感情要素の検出を考慮する。 本稿では,任意の意見文に対するすべての感情要素を共同で検出し,より包括的で完全なアスペクトレベルの感情構造を明らかにすることを目的とした,アスペクト感情4次予測(asqp)タスクを提案する。 さらに,asqpタスクをparaphrase生成プロセスにキャストする,新しい \textsc{paraphrase} モデリングパラダイムを提案する。 一方、生成定式化により、パイプラインソリューションの潜在的なエラー伝播を緩和し、エンドツーエンドでasqpを解決できる。 一方、感情要素の意味論は、自然言語形式でそれらを生成する学習によって完全に活用することができる。 ベンチマークデータセットの大規模な実験は、提案手法の優位性と、提案した統合された \textsc{Paraphrase} モデリングフレームワークによるクロスタスク転送能力を示す。

Aspect-based sentiment analysis (ABSA) has been extensively studied in recent years, which typically involves four fundamental sentiment elements, including the aspect category, aspect term, opinion term, and sentiment polarity. Existing studies usually consider the detection of partial sentiment elements, instead of predicting the four elements in one shot. In this work, we introduce the Aspect Sentiment Quad Prediction (ASQP) task, aiming to jointly detect all sentiment elements in quads for a given opinionated sentence, which can reveal a more comprehensive and complete aspect-level sentiment structure. We further propose a novel \textsc{Paraphrase} modeling paradigm to cast the ASQP task to a paraphrase generation process. On one hand, the generation formulation allows solving ASQP in an end-to-end manner, alleviating the potential error propagation in the pipeline solution. On the other hand, the semantics of the sentiment elements can be fully exploited by learning to generate them in the natural language form. Extensive experiments on benchmark datasets show the superiority of our proposed method and the capacity of cross-task transfer with the proposed unified \textsc{Paraphrase} modeling framework.
翻訳日:2021-10-06 13:29:47 公開日:2021-10-02
# (参考訳) proto:プログラム誘導タスクのためのプログラム誘導トランスフォーマー [全文訳有]

ProTo: Program-Guided Transformer for Program-Guided Tasks ( http://arxiv.org/abs/2110.00804v1 )

ライセンス: CC BY 4.0
Zelin Zhao, Karan Samel, Binghong Chen, Le Song(参考訳) 意味的および構造的情報からなるプログラムは、人間とエージェント間のコミュニケーションにおいて重要な役割を果たす。 認識,推論,意思決定を統一する汎用プログラム実行者の学習に向けて,観察されたタスク仕様に基づいて与えられたプログラムを実行することを求めるプログラム誘導タスクを定式化する。 さらに,クロス・アテンションとマスキング・セルフアテンションを活用し,プログラムの意味的および構造的ガイダンスを統合したプログラムガイドトランスフォーマ(proto)を提案する。 ProToは学習された潜在空間でプログラムを実行し、従来のニューラルシンボリックアプローチよりも強力な表現能力を持っている。 我々は,従来のGQAビジュアル推論と2次元Minecraftポリシー学習データセットにおいて,ProToが従来の最先端手法を大幅に上回っていることを実証した。 さらにProToは、目に見えない、複雑で、人間書きのプログラムにより良い一般化を示す。

Programs, consisting of semantic and structural information, play an important role in the communication between humans and agents. Towards learning general program executors to unify perception, reasoning, and decision making, we formulate program-guided tasks which require learning to execute a given program on the observed task specification. Furthermore, we propose the Program-guided Transformer (ProTo), which integrates both semantic and structural guidance of a program by leveraging cross-attention and masked self-attention to pass messages between the specification and routines in the program. ProTo executes a program in a learned latent space and enjoys stronger representation ability than previous neural-symbolic approaches. We demonstrate that ProTo significantly outperforms the previous state-of-the-art methods on GQA visual reasoning and 2D Minecraft policy learning datasets. Additionally, ProTo demonstrates better generalization to unseen, complex, and human-written programs.
翻訳日:2021-10-06 13:12:25 公開日:2021-10-02
# (参考訳) Swiss-Judgment-Predi ction: 多言語法的判断予測ベンチマーク [全文訳有]

Swiss-Judgment-Predi ction: A Multilingual Legal Judgment Prediction Benchmark ( http://arxiv.org/abs/2110.00806v1 )

ライセンス: CC BY 4.0
Joel Niklaus, Ilias Chalkidis, Matthias St\"urmer(参考訳) 多くの管轄区域において、裁判所の過度な労働負荷は高い遅延をもたらす。 適切な予測AIモデルは、法律専門家の作業を支援することで、プロセスの強化と高速化を可能にする。 これまでのところ、法律判断予測(ljp)データセットは英語、フランス語、中国語でリリースされている。 我々は、スイス連邦最高裁判所(fscs)の85k件からなる多言語(ドイツ語、フランス語、イタリア語)のコーパス(2000-2020)を公開する。 BERT入力(テキスト)長制限(最大512トークン)を克服するBERTの2つの変種を含む、最先端のBERTベースの手法を評価する。 階層BERTは最高のパフォーマンス(ドイツ語とフランス語で約68-70%のマクロF1スコア)を持つ。 さらに,いくつかの要因 (原産地, 出版年, テキスト長, 法領域) が業績に与える影響について検討した。 ベンチマークデータセットとコードの両方をリリースし、将来の研究を加速し、再現性を確保します。

In many jurisdictions, the excessive workload of courts leads to high delays. Suitable predictive AI models can assist legal professionals in their work, and thus enhance and speed up the process. So far, Legal Judgment Prediction (LJP) datasets have been released in English, French, and Chinese. We publicly release a multilingual (German, French, and Italian), diachronic (2000-2020) corpus of 85K cases from the Federal Supreme Court of Switzerland (FSCS). We evaluate state-of-the-art BERT-based methods including two variants of BERT that overcome the BERT input (text) length limitation (up to 512 tokens). Hierarchical BERT has the best performance (approx. 68-70% Macro-F1-Score in German and French). Furthermore, we study how several factors (canton of origin, year of publication, text length, legal area) affect performance. We release both the benchmark dataset and our code to accelerate future research and ensure reproducibility.
翻訳日:2021-10-06 12:45:53 公開日:2021-10-02
# (参考訳) ドメイン独立潜在イマジネーションのためのサイクル一貫性世界モデル [全文訳有]

Cycle-Consistent World Models for Domain Independent Latent Imagination ( http://arxiv.org/abs/2110.00808v1 )

ライセンス: CC BY 4.0
Sidney Bender, Tim Joseph, Marius Zoellner(参考訳) エンドツーエンドの自律運転は、認識、決定、制御の問題を統合的な方法で解決し、大規模に一般化しやすく、新しいシナリオに適応できるようにする。 しかし、高いコストとリスクは、現実世界での自動運転車の訓練を非常に困難にします。 したがって、シミュレーションはトレーニングを可能にする強力なツールである。 わずかに異なる観察のために、シミュレーションでのみ訓練され評価されたエージェントは、しばしばそこでよく機能するが、現実の環境では困難である。 そこで本研究では,新しいモデルベース強化学習手法であるcycle consistent world modelを提案する。 関連するアプローチとは対照的に、このモデルは2つのモダリティを共有潜在空間に埋め込み、1つのモダリティ(例えばシミュレーションデータ)のサンプルから学習し、異なる領域(例えば実世界データ)での推論に使用できる。 CARLAシミュレータの異なるモードを用いた実験により、CCWMは最先端のドメイン適応手法より優れていることがわかった。 さらに、CCWMは、与えられた潜在表現を両方のモードで意味的コヒーレントな観察にデコードできることを示す。

End-to-end autonomous driving seeks to solve the perception, decision, and control problems in an integrated way, which can be easier to generalize at scale and be more adapting to new scenarios. However, high costs and risks make it very hard to train autonomous cars in the real world. Simulations can therefore be a powerful tool to enable training. Due to slightly different observations, agents trained and evaluated solely in simulation often perform well there but have difficulties in real-world environments. To tackle this problem, we propose a novel model-based reinforcement learning approach called Cycleconsistent World Models. Contrary to related approaches, our model can embed two modalities in a shared latent space and thereby learn from samples in one modality (e.g., simulated data) and be used for inference in different domain (e.g., real-world data). Our experiments using different modalities in the CARLA simulator showed that this enables CCWM to outperform state-of-the-art domain adaptation approaches. Furthermore, we show that CCWM can decode a given latent representation into semantically coherent observations in both modalities.
翻訳日:2021-10-06 12:26:45 公開日:2021-10-02
# (参考訳) 深層学習を用いた位置情報からのCOVID-19スパイクシーケンスの分類 [全文訳有]

Classifying COVID-19 Spike Sequences from Geographic Location Using Deep Learning ( http://arxiv.org/abs/2110.00809v1 )

ライセンス: CC0 1.0
Sarwan Ali, Babatunde Bello, Murray Patterson(参考訳) 世界的な新型コロナウイルスの急激な普及に伴い、GISAIDのような公共データベース上の数百万のシーケンスでウイルスゲノムデータが利用できるようになった。 この「emph{Big Data」は、現在のパンデミックに対する効果的なワクチン開発の研究に向けて分析し、将来のパンデミックを回避または緩和するユニークな機会を生み出します。 このようなウイルス配列の全てに付随する情報の1つが、収集された地理的な位置である -- ウイルス変異体と地理的な位置の間のパターンが、この分析の重要な部分であることは確かである。 研究者が直面する大きな課題の1つは、そのような巨大で高次元のデータを処理して、できるだけ早く有用な洞察を得ることです。 既存の手法のほとんどは、そのようなデータの規模を扱う際にスケーラビリティの問題に直面します。 本稿では,まず,sars-cov-2のスパイクタンパク質配列を$k$-mersサブストリングを用いて数値表現し,次に深層学習モデルを用いて地理的位置を分類するアルゴリズムを提案する。 提案モデルがベースラインを大きく上回っていることを示す。 また,真のクラスラベルに対応する情報ゲインを計算し,スパイク配列における異なるアミノ酸の重要性を示す。

With the rapid spread of COVID-19 worldwide, viral genomic data is available in the order of millions of sequences on public databases such as GISAID. This \emph{Big Data} creates a unique opportunity for analysis towards the research of effective vaccine development for current pandemics, and avoiding or mitigating future pandemics. One piece of information that comes with every such viral sequence is the geographical location where it was collected -- the patterns found between viral variants and geographic location surely being an important part of this analysis. One major challenge that researchers face is processing such huge, highly dimensional data to get useful insights as quickly as possible. Most of the existing methods face scalability issues when dealing with the magnitude of such data. In this paper, we propose an algorithm that first computes a numerical representation of the spike protein sequence of SARS-CoV-2 using $k$-mers substrings) and then uses a deep learning-based model to classify the sequences in terms of geographical location. We show that our proposed model significantly outperforms the baselines. We also show the importance of different amino acids in the spike sequences by computing the information gain corresponding to the true class labels.
翻訳日:2021-10-06 12:06:45 公開日:2021-10-02
# (参考訳) 代替策を考える:不平等を通した公正・正確取引 [全文訳有]

Consider the Alternatives: Navigating Fairness-Accuracy Tradeoffs via Disqualification ( http://arxiv.org/abs/2110.00813v1 )

ライセンス: CC BY 4.0
Guy N. Rothblum and Gal Yona(参考訳) 多くの機械学習では、公平性と正確性には固有の緊張関係がある。 このようなトレードオフに照らして、どのように進めるべきか? 本研究では, 教師あり学習の文脈において, 公平性と精度のトレードオフを推論する新しいフレームワークである$\gamma$-disqualific ationを紹介し, 研究する。 我々の要件は、精度で「多く」支払うことなく、別の分類器を$H$から$H$に切り替えることで、公平性を向上させることができれば、分類器は失格化されるべきである。 過剰」の概念は、与えられたタスクにおける公正さと正確さの定量化に使用される特定の指標とは独立に、正確性と公平性の間の許容されるトレードオフを特定する手段として機能するパラメータ$\gamma$によって定量化される。 この目的に向けて, 精度測定の異なる単位と(未)公正の単位との間の原理的翻訳を確立する。 我々は,異なる学習戦略を公平さと正確さのトレードオフの観点から容易に比較するために,\gamma$-disqualific ation を用いて,pareto のフロンティアを近似する問題に対する我々の要求を満たす最適分類器を求める問題から効率的な削減を行う。

In many machine learning settings there is an inherent tension between fairness and accuracy desiderata. How should one proceed in light of such trade-offs? In this work we introduce and study $\gamma$-disqualific ation, a new framework for reasoning about fairness-accuracy tradeoffs w.r.t a benchmark class $H$ in the context of supervised learning. Our requirement stipulates that a classifier should be disqualified if it is possible to improve its fairness by switching to another classifier from $H$ without paying "too much" in accuracy. The notion of "too much" is quantified via a parameter $\gamma$ that serves as a vehicle for specifying acceptable tradeoffs between accuracy and fairness, in a way that is independent from the specific metrics used to quantify fairness and accuracy in a given task. Towards this objective, we establish principled translations between units of accuracy and units of (un)fairness for different accuracy measures. We show $\gamma$-disqualific ation can be used to easily compare different learning strategies in terms of how they trade-off fairness and accuracy, and we give an efficient reduction from the problem of finding the optimal classifier that satisfies our requirement to the problem of approximating the Pareto frontier of $H$.
翻訳日:2021-10-06 11:53:37 公開日:2021-10-02
# (参考訳) グラフ近傍フィルタによるグラフ畳み込みニューラルネットワークのロバストな代替手法 [全文訳有]

A Robust Alternative for Graph Convolutional Neural Networks via Graph Neighborhood Filters ( http://arxiv.org/abs/2110.00844v1 )

ライセンス: CC BY 4.0
Victor M. Tenorio, Samuel Rey, Fernando Gama, Santiago Segarra and Antonio G. Marques(参考訳) グラフ畳み込みニューラルネットワーク(GCNN)は、通常の畳み込みをグラフフィルタ(GF)に置き換えて、CNNを不規則なドメインに一般化する、人気のあるディープラーニングアーキテクチャである。 しかし、古典的な GF は高階多項式からなるため、数値誤差の傾向にある。 この問題は、複数のフィルタがカスケードに適用されると悪化し、gcnnの実用的深さが制限される。 この問題に対処するために、グラフシフト演算子のパワーを$k$ホップ近傍行列に置き換えるGFのファミリーである近傍グラフフィルタ(NGF)を提案する。 NGFは、従来のGFの数値問題を緩和し、より深いGCNNの設計を可能にし、グラフのトポロジにおけるエラーに対する堅牢性を高めるのに役立つ。 従来型GFの実用上の優位性を示すため,NGFを深部GCNNの設計に使用して,合成データと実世界のデータの両方に対するグラフ信号の復号化とノード分類問題を解く。

Graph convolutional neural networks (GCNNs) are popular deep learning architectures that, upon replacing regular convolutions with graph filters (GFs), generalize CNNs to irregular domains. However, classical GFs are prone to numerical errors since they consist of high-order polynomials. This problem is aggravated when several filters are applied in cascade, limiting the practical depth of GCNNs. To tackle this issue, we present the neighborhood graph filters (NGFs), a family of GFs that replaces the powers of the graph shift operator with $k$-hop neighborhood adjacency matrices. NGFs help to alleviate the numerical issues of traditional GFs, allow for the design of deeper GCNNs, and enhance the robustness to errors in the topology of the graph. To illustrate the advantage over traditional GFs in practical applications, we use NGFs in the design of deep neighborhood GCNNs to solve graph signal denoising and node classification problems over both synthetic and real-world data.
翻訳日:2021-10-06 10:45:01 公開日:2021-10-02
# (参考訳) 単一軌道からの非白色励起によるネットワーク線形力学系の学習 [全文訳有]

Learning Networked Linear Dynamical Systems under Non-white Excitation from a Single Trajectory ( http://arxiv.org/abs/2110.00852v1 )

ライセンス: CC BY 4.0
Harish Doddi, Deepjyoti Deka, Saurav Talukdar and Murti Salapaka(参考訳) 我々は,$p$エージェント/ノードを持つネットワーク線形力学系を考える。 本稿では, 時間間隔$T$のノイズ軌道の観測から, 相互作用/依存性のグラフを学習する問題について検討する。 本稿では,この問題に対する正規化非カジュアル一貫性推定器を提案し,そのサンプル複雑性を2つのレジーム上で解析する。 (a)間隔$t$が$n$ i.i.d. の長さ$t/n$(再スタートと記録)の観測窓と、 (b) ここで$t$ は連続観測窓 (consecutive) である。 M$-推定器の理論を用いて、推定器はシステムサイズ$p$の対数的な時間間隔において、どちらの状態においても、基礎となる相互作用を回復することを示す。 我々の知る限りでは、未観測の非白色広義定常(WSS)入力によって駆動される線形力学系を学習する際のサンプルの複雑さを初めて解析する研究である。

We consider a networked linear dynamical system with $p$ agents/nodes. We study the problem of learning the underlying graph of interactions/depende ncies from observations of the nodal trajectories over a time-interval $T$. We present a regularized non-casual consistent estimator for this problem and analyze its sample complexity over two regimes: (a) where the interval $T$ consists of $n$ i.i.d. observation windows of length $T/n$ (restart and record), and (b) where $T$ is one continuous observation window (consecutive). Using the theory of $M$-estimators, we show that the estimator recovers the underlying interactions, in either regime, in a time-interval that is logarithmic in the system size $p$. To the best of our knowledge, this is the first work to analyze the sample complexity of learning linear dynamical systems driven by unobserved not-white wide-sense stationary (WSS) inputs.
翻訳日:2021-10-06 10:31:28 公開日:2021-10-02
# (参考訳) SurvTRACE: 競合イベントによる生存分析用トランスフォーマー [全文訳有]

SurvTRACE: Transformers for Survival Analysis with Competing Events ( http://arxiv.org/abs/2110.00855v1 )

ライセンス: CC BY 4.0
Zifeng Wang, Jimeng Sun(参考訳) 医学において、生存分析は死亡などの興味のある事象の期間を研究する。 ひとつの大きな課題は、複数の競合イベント(例えば、複数の疾患の診断)に対処する方法である。 本研究では,基礎となるサバイバル分布を仮定せず,競合するイベント,すなわちsurvtraceを処理可能なトランスフォーマティブモデルを提案する。 予測生存確率が無関係な要因によって影響を受けるため,多事象シナリオにおける観測環境における暗黙の \emph{confounders} は選択バイアスを引き起こす。 スクラッチからトランスフォーマーを訓練するために、生存データを十分に活用するために、マルチタスク学習用に複数の補助タスクを設計する。 したがって、モデルはこれらのタスクから強力な共有表現を学び、その結果、より良い生存分析に役立つ。 さらに,SurvTRACEの解釈的注意機構を通じて,臨床治験設計の強化と新たな治療開発に大きな可能性をもたらす共変量関係と重要性の検査方法を示す。 470kの患者を対象にMetaBRIC, Support, SEERデータを用いた実験を行い, 本法の有効性を検証した。

In medicine, survival analysis studies the time duration to events of interest such as mortality. One major challenge is how to deal with multiple competing events (e.g., multiple disease diagnoses). In this work, we propose a transformer-based model that does not make the assumption for the underlying survival distribution and is capable of handling competing events, namely SurvTRACE. We account for the implicit \emph{confounders} in the observational setting in multi-events scenarios, which causes selection bias as the predicted survival probability is influenced by irrelevant factors. To sufficiently utilize the survival data to train transformers from scratch, multiple auxiliary tasks are designed for multi-task learning. The model hence learns a strong shared representation from all these tasks and in turn serves for better survival analysis. We further demonstrate how to inspect the covariate relevance and importance through interpretable attention mechanisms of SurvTRACE, which suffices to great potential in enhancing clinical trial design and new treatment development. Experiments on METABRIC, SUPPORT, and SEER data with 470k patients validate the all-around superiority of our method.
翻訳日:2021-10-06 10:00:45 公開日:2021-10-02
# (参考訳) FairFed: フェデレーション学習におけるグループフェアネスの実現 [全文訳有]

FairFed: Enabling Group Fairness in Federated Learning ( http://arxiv.org/abs/2110.00857v1 )

ライセンス: CC BY 4.0
Yahya H. Ezzeldin, Shen Yan, Chaoyang He, Emilio Ferrara, Salman Avestimehr(参考訳) 医療、採用、ローン評価といった重要な意思決定シナリオに機械学習が組み込まれていくにつれ、そのようなシステムのプライバシーと公正性に対する懸念が高まっている。 フェデレーション学習は、ローカルデータのプライバシを維持しながら、複数のパーティ間で機械学習モデルを共同学習するための有望なソリューションと見なされている。 しかし、連合学習はまた、特定の集団(例えば人口集団)に対する潜在的なバイアスを緩和するためには、通常、各データポイントのセンシティブな情報(例えば、人種、性別)に集中的にアクセスする必要がある、という新たな課題を生じさせる。 本研究では,連合学習におけるグループフェアネスの重要性と課題に動機づけられ,フェアネス・アウェア・アグリゲーション(fairness-aware aggregate)法によるグループフェアネス向上のための新しいアルゴリズムであるfairfedを提案する。 この定式化は、各クライアントのカスタマイズされたローカルデバイアス戦略において、より柔軟性を提供する可能性がある。 提案手法は,広く研究されている2つのフェアネスデータセットであるアダルトとCompAS上でのフェデレーショントレーニングを行う場合,高いヘテロジニアスな属性分布の下で,最先端のフェデレーション学習フレームワークよりも優れた性能を発揮する。

As machine learning becomes increasingly incorporated in crucial decision-making scenarios such as healthcare, recruitment, and loan assessment, there have been increasing concerns about the privacy and fairness of such systems. Federated learning has been viewed as a promising solution for collaboratively learning machine learning models among multiple parties while maintaining the privacy of their local data. However, federated learning also poses new challenges in mitigating the potential bias against certain populations (e.g., demographic groups), which typically requires centralized access to the sensitive information (e.g., race, gender) of each data point. Motivated by the importance and challenges of group fairness in federated learning, in this work, we propose FairFed, a novel algorithm to enhance group fairness via a fairness-aware aggregation method, aiming to provide fair model performance across different sensitive groups (e.g., racial, gender groups) while maintaining high utility. The formulation can potentially provide more flexibility in the customized local debiasing strategies for each client. When running federated training on two widely investigated fairness datasets, Adult and COMPAS, our proposed method outperforms the state-of-the-art fair federated learning frameworks under a high heterogeneous sensitive attribute distribution.
翻訳日:2021-10-06 09:46:42 公開日:2021-10-02
# (参考訳) 単語と文の埋め込みを用いた現在進行中のツイートにおける関心領域の傾向を明らかにするケーススタディ [全文訳有]

A Case Study to Reveal if an Area of Interest has a Trend in Ongoing Tweets Using Word and Sentence Embeddings ( http://arxiv.org/abs/2110.00866v1 )

ライセンス: CC BY 4.0
\.Ismail Aslan and Y\"ucel Top\c{c}u(参考訳) 自然言語処理の分野では、テキストからの情報抽出が長年にわたって多くの研究者の目的となっている。 ツイートが持つかもしれないという意見を明らかにするために、多くの異なるテクニックが適用され、280文字までの小さな文字の感情が理解されている。 この研究は、ツイートの感情を解明する以外に、特定の関心領域とツイートの相関関係を見出すことにも焦点を絞ることができる。 関心領域が現在進行中のツイートにトレンドがあるかどうかを明らかにするために、機械学習モデルをトレーニングせずにna\"ive correlation-based techniqueを用いて、日々のつぶやきコーパスと関心領域を表す対象語との類似性を示す日平均類似度スコアを算出した、容易に適用可能な自動手法を提案する。 日平均類似度スコアは,多言語共通文エンコーダで計算されたコサイン類似度と単語/感情埋め込みに基づき,特定の関心領域に対するツイートの主意見ストリームを示し,提案手法を用いてtwitter上の特定の主題の現在進行中の傾向をほぼリアルタイムで捉えることができることを示した。 また,提案手法を適用しながら,単語と文の埋め込みの有効性を比較し,両者がほぼ同じ結果を与えるのに対して,単語埋め込みは文埋め込みよりも計算時間が少なく,より効果的であることを示した。 本論文は,基礎に関する背景情報とともに紹介から始まり,提案手法の説明を継続し,その結果を解釈し,その結果を結論づける。

In the field of Natural Language Processing, information extraction from texts has been the objective of many researchers for years. Many different techniques have been applied in order to reveal the opinion that a tweet might have, thus understanding the sentiment of the small writing up to 280 characters. Other than figuring out the sentiment of a tweet, a study can also focus on finding the correlation of the tweets with a certain area of interest, which constitutes the purpose of this study. In order to reveal if an area of interest has a trend in ongoing tweets, we have proposed an easily applicable automated methodology in which the Daily Mean Similarity Scores that show the similarity between the daily tweet corpus and the target words representing our area of interest is calculated by using a na\"ive correlation-based technique without training any Machine Learning Model. The Daily Mean Similarity Scores have mainly based on cosine similarity and word/sentence embeddings computed by Multilanguage Universal Sentence Encoder and showed main opinion stream of the tweets with respect to a certain area of interest, which proves that an ongoing trend of a specific subject on Twitter can easily be captured in almost real time by using the proposed methodology in this study. We have also compared the effectiveness of using word versus sentence embeddings while applying our methodology and realized that both give almost the same results, whereas using word embeddings requires less computational time than sentence embeddings, thus being more effective. This paper will start with an introduction followed by the background information about the basics, then continue with the explanation of the proposed methodology and later on finish by interpreting the results and concluding the findings.
翻訳日:2021-10-06 09:34:13 公開日:2021-10-02
# (参考訳) BdSL36:バングラデシュの署名文字認識のためのデータセット [全文訳有]

BdSL36: A Dataset for Bangladeshi Sign Letters Recognition ( http://arxiv.org/abs/2110.00869v1 )

ライセンス: CC BY 4.0
Oishee Bintey Hoque, Mohammad Imrul Jubair, Al-Farabi Akash, Saiful Islam(参考訳) バングラデシュ手話(バングラデシュ語:BdSL)はバングラデシュの聴覚障害者のためのコミュニケーション手段である。 制御された実験室環境を持たないリアルタイムBdSLインタプリタは、幅広い社会的影響と興味深い研究経路を持っている。 また、異なる主題(年齢、性別、色など)の変化、複雑な特徴、記号とクラスタ化された背景の類似性など、難しい課題である。 しかし、既存のBdSL分類タスクのデータセットは、主に強力なディープラーニング技術の応用を制限するラボフレンドリーな設定で構築されている。 本稿では,BdSL36というデータセットを紹介する。背景拡張を取り入れたデータセットを汎用化し,36のカテゴリに属する400万以上の画像を含む。 さらに,約4万枚の画像にバウンディングボックスを付加し,オブジェクト検出アルゴリズムの可能性を利用する。 さらに,BdSL36のベースライン性能を確立するために,いくつかの実験を行った。 さらに、ユーザレベルでの分類器のベータテストを採用し、このデータセットで現実世界のアプリケーションの可能性を明確にします。 我々はBdSL36が今後,実用的な手書き文字分類の研究を迅速化すると考えている。 データセットとトレーニング済みのすべてのモデルを、さらなる研究者に提供しています。

Bangladeshi Sign Language (BdSL) is a commonly used medium of communication for the hearing-impaired people in Bangladesh. A real-time BdSL interpreter with no controlled lab environment has a broad social impact and an interesting avenue of research as well. Also, it is a challenging task due to the variation in different subjects (age, gender, color, etc.), complex features, and similarities of signs and clustered backgrounds. However, the existing dataset for BdSL classification task is mainly built in a lab friendly setup which limits the application of powerful deep learning technology. In this paper, we introduce a dataset named BdSL36 which incorporates background augmentation to make the dataset versatile and contains over four million images belonging to 36 categories. Besides, we annotate about 40,000 images with bounding boxes to utilize the potentiality of object detection algorithms. Furthermore, several intensive experiments are performed to establish the baseline performance of our BdSL36. Moreover, we employ beta testing of our classifiers at the user level to justify the possibilities of real-world application with this dataset. We believe our BdSL36 will expedite future research on practical sign letter classification. We make the datasets and all the pre-trained models available for further researcher.
翻訳日:2021-10-06 09:27:23 公開日:2021-10-02
# (参考訳) マルチタスク学習のための高速ライン探索 [全文訳有]

Fast Line Search for Multi-Task Learning ( http://arxiv.org/abs/2110.00874v1 )

ライセンス: CC BY-SA 4.0
Andrey Filatov and Daniil Merkulov(参考訳) マルチタスク学習はロバスト表現を学習することで複数のタスクを協調的に解決する強力な方法である。 マルチタスク学習モデルの最適化は、タスクの競合によるシングルタスクよりも複雑なタスクである。 理論的結果に基づいて、行探索によってステップサイズを選択すると、最適点への収束が保証される。 しかし、通常、ステップサイズのライン検索は、計算時間のオーバーヘッドが大きいため、最善の選択ではない。 マルチタスク学習における線探索アルゴリズムの新しいアイデアを提案する。 そのアイデアは、ステップサイズを見つけるためにパラメータ空間の代わりに潜在表現空間を使用することである。 我々はこのアイデアをバックトラックラインサーチを用いて検討した。 本手法は,MNIST,CIFAR-10,City scapesタスク上での学習率と,古典的バックトラック法と勾配法を比較した。 系統的な実証実験により,提案手法は従来のバックトラック手法よりも正確で高速な解法となり,一定の学習率法に比べて計算時間と性能の競争力を維持することがわかった。

Multi-task learning is a powerful method for solving several tasks jointly by learning robust representation. Optimization of the multi-task learning model is a more complex task than a single-task due to task conflict. Based on theoretical results, convergence to the optimal point is guaranteed when step size is chosen through line search. But, usually, line search for the step size is not the best choice due to the large computational time overhead. We propose a novel idea for line search algorithms in multi-task learning. The idea is to use latent representation space instead of parameter space for finding step size. We examined this idea with backtracking line search. We compare this fast backtracking algorithm with classical backtracking and gradient methods with a constant learning rate on MNIST, CIFAR-10, Cityscapes tasks. The systematic empirical study showed that the proposed method leads to more accurate and fast solution, than the traditional backtracking approach and keep competitive computational time and performance compared to the constant learning rate method.
翻訳日:2021-10-06 09:14:46 公開日:2021-10-02
# (参考訳) BRAC+:オフライン強化学習のための正規化アクター批判 [全文訳有]

BRAC+: Improved Behavior Regularized Actor Critic for Offline Reinforcement Learning ( http://arxiv.org/abs/2110.00894v1 )

ライセンス: CC BY 4.0
Chi Zhang, Sanmukh Rao Kuppannagari, Viktor K Prasanna(参考訳) 強化学習(RL)エージェントを訓練するためのデータサンプル収集環境とのオンラインインタラクションは、経済的・安全上の懸念から常に実現可能であるとは限らない。 オフライン強化学習の目的は、事前に収集したデータセットを使って効果的なポリシーを学習することでこの問題に対処することである。 標準的なオフポリチィRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向があるため、オフラインRLには適さない。 データセットのサポートセット内で学習ポリシーを制約する行動規則化が、標準オフポリシーアルゴリズムの制限に取り組むために提案されている。 本稿では,オフライン強化学習の動作を規則化し,brac+を提案する。 まず,分散動作の定量化を提案し,kullback-leibler 発散と最大平均偏差を正規化プロトコルとして用いる場合の比較を行う。 そこで本研究では, サンプルベース推定に伴う分散を低減するために, 挙動正則化器としてKL偏差解析上界を提案する。 第2に, 学習されたq値が, 軽度仮定下での行動正規化ポリシー更新を用いても発散可能であることを数学的に示す。 これにより、q値が過大評価され、学習したポリシーのパフォーマンスが低下する。 この問題を緩和するため、政策評価の対象に勾配ペナルティ項を追加する。 これにより、Q値は収束することが保証される。 挑戦的なオフラインRLベンチマークでは、BRAC+はベースラインの動作規則化アプローチを40%から87%、最先端アプローチを6%上回っている。

Online interactions with the environment to collect data samples for training a Reinforcement Learning (RL) agent is not always feasible due to economic and safety concerns. The goal of Offline Reinforcement Learning is to address this problem by learning effective policies using previously collected datasets. Standard off-policy RL algorithms are prone to overestimations of the values of out-of-distribution (less explored) actions and are hence unsuitable for Offline RL. Behavior regularization, which constraints the learned policy within the support set of the dataset, has been proposed to tackle the limitations of standard off-policy algorithms. In this paper, we improve the behavior regularized offline reinforcement learning and propose BRAC+. First, we propose quantification of the out-of-distribution actions and conduct comparisons between using Kullback-Leibler divergence versus using Maximum Mean Discrepancy as the regularization protocol. We propose an analytical upper bound on the KL divergence as the behavior regularizer to reduce variance associated with sample based estimations. Second, we mathematically show that the learned Q values can diverge even using behavior regularized policy update under mild assumptions. This leads to large overestimations of the Q values and performance deterioration of the learned policy. To mitigate this issue, we add a gradient penalty term to the policy evaluation objective. By doing so, the Q values are guaranteed to converge. On challenging offline RL benchmarks, BRAC+ outperforms the baseline behavior regularized approaches by 40%~87% and the state-of-the-art approach by 6%.
翻訳日:2021-10-06 08:55:42 公開日:2021-10-02
# 知識グラフにパターンはもっと存在するか? 知識グラフ埋め込みのための近接パターン探索

Is There More Pattern in Knowledge Graph? Exploring Proximity Pattern for Knowledge Graph Embedding ( http://arxiv.org/abs/2110.00720v1 )

ライセンス: Link先を確認
Ren Li, Yanan Cao, Qiannan Zhu, Xiaoxue Li, Fang Fang(参考訳) 関係パターンのモデリングは、あるエンティティが他のエンティティと、ある明示的な関係によって意味的にどのように関連しているかを表す、以前の知識グラフ埋め込み作業の中核である。 しかし、エンティティの間には常に無視されるより自然で直感的な関連性があり、あるエンティティが意味的に他のエンティティに近づき、明示的な関係を考慮しない。 知識グラフにおけるそのような意味現象を近接パターンと呼ぶ。 本研究では,近接パターンの定義と表現方法の問題と,知識グラフの埋め込みを支援する手法について検討する。 まず、統計的に共有されたクエリに基づいて2つのエンティティの近接性を定義し、それから導出したグラフ構造を構築し、その近接パターンをグローバルビューから表現する。 さらに、元の知識グラフを用いて、より包括的な知識埋め込みをエンコード可能な2つのパターン(グラフ)を深くマージするために、連鎖したcouPle-GNN(CP-GNN)アーキテクチャを設計する。 FB15k-237とWN18RRデータセットで評価されたCP-GNNは、知識グラフ補完タスクの最先端結果を実現し、特に複数の応答エンティティを含む複雑なクエリのモデリング能力を高め、導入された近接パターンの有効性を証明する。

Modeling of relation pattern is the core focus of previous Knowledge Graph Embedding works, which represents how one entity is related to another semantically by some explicit relation. However, there is a more natural and intuitive relevancy among entities being always ignored, which is that how one entity is close to another semantically, without the consideration of any explicit relation. We name such semantic phenomenon in knowledge graph as proximity pattern. In this work, we explore the problem of how to define and represent proximity pattern, and how it can be utilized to help knowledge graph embedding. Firstly, we define the proximity of any two entities according to their statistically shared queries, then we construct a derived graph structure and represent the proximity pattern from global view. Moreover, with the original knowledge graph, we design a Chained couPle-GNN (CP-GNN) architecture to deeply merge the two patterns (graphs) together, which can encode a more comprehensive knowledge embedding. Being evaluated on FB15k-237 and WN18RR datasets, CP-GNN achieves state-of-the-art results for Knowledge Graph Completion task, and can especially boost the modeling capacity for complex queries that contain multiple answer entities, proving the effectiveness of introduced proximity pattern.
翻訳日:2021-10-05 16:00:33 公開日:2021-10-02
# 航空Twitterデータを用いたNLPと異なる機械学習手法による感性分析の比較検討

A Comparative Study of Sentiment Analysis Using NLP and Different Machine Learning Techniques on US Airline Twitter Data ( http://arxiv.org/abs/2110.00859v1 )

ライセンス: Link先を確認
Md. Taufiqul Haque Khan Tusar, Md. Touhidul Islam(参考訳) 今日のビジネスエコシステムは非常に競争力がある。 顧客満足度は、ビジネスの成長の大きな焦点となっている。 ビジネス組織は顧客のニーズを理解し満たすために、さまざまな戦略に多くのお金と人材を費やしています。 しかし、多種多様な顧客のニーズを手動で分析した結果、多くの組織は顧客満足を達成できていない。 その結果、彼らは顧客の忠誠心を失い、マーケティングに余分なお金を投じています。 我々は感情分析を実践することで問題を解決できる。 自然言語処理(NLP)と機械学習(ML)を組み合わせた技術である。 感性分析は、特定のトピック、製品、サービスの背後にあるより広い世論から洞察を引き出すために広く使われている。 どんなオンラインデータからでも可能です。 本稿では,2つのNLP手法 (Bag-of-WordsとTF-IDF) と各種ML分類アルゴリズム (Support Vector Machine, Logistic Regression, Multinomial Naive Bayes, Random Forest) を導入し,大規模で不均衡なマルチクラスデータセットに対する知覚分析の効果的なアプローチを提案する。 ベストアプローチは,Bag-of-Words技術を用いたSupport Vector MachineとLogistic Regressionを用いた77%の精度を提供する。

Today's business ecosystem has become very competitive. Customer satisfaction has become a major focus for business growth. Business organizations are spending a lot of money and human resources on various strategies to understand and fulfill their customer's needs. But, because of defective manual analysis on multifarious needs of customers, many organizations are failing to achieve customer satisfaction. As a result, they are losing customer's loyalty and spending extra money on marketing. We can solve the problems by implementing Sentiment Analysis. It is a combined technique of Natural Language Processing (NLP) and Machine Learning (ML). Sentiment Analysis is broadly used to extract insights from wider public opinion behind certain topics, products, and services. We can do it from any online available data. In this paper, we have introduced two NLP techniques (Bag-of-Words and TF-IDF) and various ML classification algorithms (Support Vector Machine, Logistic Regression, Multinomial Naive Bayes, Random Forest) to find an effective approach for Sentiment Analysis on a large, imbalanced, and multi-classed dataset. Our best approaches provide 77% accuracy using Support Vector Machine and Logistic Regression with Bag-of-Words technique.
翻訳日:2021-10-05 16:00:10 公開日:2021-10-02
# 分散協調バンディットチームにおけるパートナーアウェアアルゴリズム

Partner-Aware Algorithms in Decentralized Cooperative Bandit Teams ( http://arxiv.org/abs/2110.00751v1 )

ライセンス: Link先を確認
Erdem B{\i}y{\i}k, Anusha Lalitha, Rajarshi Saha, Andrea Goldsmith, Dorsa Sadigh(参考訳) 人間が互いに協力し合うとき、彼らはしばしば他人を観察し、自分の行動がチーム全体に与えた影響を考慮し、自分のために最善を尽くすのではなく、決定を下す。 私たちは、AIエージェントがパートナーのモデルをキャプチャすることで、同様の方法で効果的に協力することを望んでいます。 本研究では,より汎用的なマルチエージェントコラボレーションの抽象化として,複合報酬を用いた分散マルチエージェント帯域(MAB)問題を提案し,解析する。 単一エージェント最適mabアルゴリズムのna\"ive拡張が分散バンディットチームに適用されると失敗することを実証する。 代わりに、よく知られた単一エージェントアッパー信頼境界アルゴリズムを拡張した逐次意思決定のためのパートナー・アウェア戦略を提案する。 我々は,提案手法が対数的後悔を達成し,人間-AIと人間-ロボットの協調を含む広範な実験を行い,理論的な知見を検証した。 提案したパートナー意識戦略は、他の既知の手法よりも優れており、人間による研究は、パートナー意識戦略を実装するAIエージェントと協力することを好むことを示唆している。

When humans collaborate with each other, they often make decisions by observing others and considering the consequences that their actions may have on the entire team, instead of greedily doing what is best for just themselves. We would like our AI agents to effectively collaborate in a similar way by capturing a model of their partners. In this work, we propose and analyze a decentralized Multi-Armed Bandit (MAB) problem with coupled rewards as an abstraction of more general multi-agent collaboration. We demonstrate that na\"ive extensions of single-agent optimal MAB algorithms fail when applied for decentralized bandit teams. Instead, we propose a Partner-Aware strategy for joint sequential decision-making that extends the well-known single-agent Upper Confidence Bound algorithm. We analytically show that our proposed strategy achieves logarithmic regret, and provide extensive experiments involving human-AI and human-robot collaboration to validate our theoretical findings. Our results show that the proposed partner-aware strategy outperforms other known methods, and our human subject studies suggest humans prefer to collaborate with AI agents implementing our partner-aware strategy.
翻訳日:2021-10-05 15:56:05 公開日:2021-10-02
# 低リソース言語のためのゼロショット多言語ニューラルマシン翻訳の改善

Improving Zero-shot Multilingual Neural Machine Translation for Low-Resource Languages ( http://arxiv.org/abs/2110.00712v1 )

ライセンス: Link先を確認
Chenyang Li, Gongxu Luo(参考訳) Although the multilingual Neural Machine Translation(NMT), which extends Google's multilingual NMT, has ability to perform zero-shot translation and the iterative self-learning algorithm can improve the quality of zero-shot translation, it confronts with two problems: the multilingual NMT model is prone to generate wrong target language when implementing zero-shot translation; the self-learning algorithm, which uses beam search to generate synthetic parallel data, demolishes the diversity of the generated source language and amplifies the impact of the same noise during the iterative learning process. 本稿では,タグ付き多言語NMTモデルを提案し,これら2つの問題に対処するための自己学習アルゴリズムを改良する。 まず、Googleの多言語NMTモデルを拡張し、ターゲット言語にターゲットトークンを追加します。 第2に,ビーム探索をランダムなサンプルに置き換えて自己学習アルゴリズムを改良し,生成データの多様性を高め,真のデータ分布を適切にカバーする。 IWSLTの実験結果によると、2010年と2017年のルーマニア・イタリアテストセットにおいて、調整されたタグ付き多言語NMTは、多言語NMTに対して9.41と7.85のBLEUスコアを得る。 同様に、イタリア-ルーマニアのゼロショット翻訳で9.08点と7.99点を得る。 さらに, 改良された自己学習アルゴリズムは, 従来のゼロショット翻訳における自己学習アルゴリズムよりも優れていることを示す。

Although the multilingual Neural Machine Translation(NMT), which extends Google's multilingual NMT, has ability to perform zero-shot translation and the iterative self-learning algorithm can improve the quality of zero-shot translation, it confronts with two problems: the multilingual NMT model is prone to generate wrong target language when implementing zero-shot translation; the self-learning algorithm, which uses beam search to generate synthetic parallel data, demolishes the diversity of the generated source language and amplifies the impact of the same noise during the iterative learning process. In this paper, we propose the tagged-multilingual NMT model and improve the self-learning algorithm to handle these two problems. Firstly, we extend the Google's multilingual NMT model and add target tokens to the target languages, which associates the start tag with the target language to ensure that the source language can be translated to the required target language. Secondly, we improve the self-learning algorithm by replacing beam search with random sample to increases the diversity of the generated data and makes it properly cover the true data distribution. Experimental results on IWSLT show that the adjusted tagged-multilingual NMT separately obtains 9.41 and 7.85 BLEU scores over the multilingual NMT on 2010 and 2017 Romanian-Italian test sets. Similarly, it obtains 9.08 and 7.99 BLEU scores on Italian-Romanian zero-shot translation. Furthermore, the improved self-learning algorithm shows its superiorities over the conventional self-learning algorithm on zero-shot translations.
翻訳日:2021-10-05 15:55:48 公開日:2021-10-02
# 衛星通信における降雨量予測のための深層学習

Deep Learning for Rain Fade Prediction in Satellite Communications ( http://arxiv.org/abs/2110.00695v1 )

ライセンス: Link先を確認
Aidin Ferdowsi, David Whitefield(参考訳) 視線衛星システム、無人航空機、高高度プラットフォーム、およびKaバンド以上の周波数帯で動作するマイクロ波リンクは雨の影響を受けやすい。 したがって,降雨イベント前の地上ゲートウェイを積極的に切り替えてシームレスなサービスを維持することができるため,これらのシステムに対する降雨予報が重要である。 経験的,統計的,フェード斜面モデルでは,ある程度の降雨フェードを予測できるが,雨の特徴を統計的に測定する必要があり,大規模システムには一般化できないのが普通である。 さらに、このようなモデルは通常、近未来の雨天現象を予測できるが、未来まで予測できないため、前向きな資源管理がより困難になる。 本稿では,衛星データとレーダ画像データとリンクパワー測定を用いて,将来の降雨量を予測するための,ディープラーニング(dl)ベースのアーキテクチャを提案する。 さらに,データ前処理とアーキテクチャ設計を徹底的に説明し,複数の実験を行った。 実験により,提案するdlアーキテクチャが,降雨時の最先端機械学習アルゴリズムを短期的および長期にわたってフェードフェード予測で上回っていることが示された。 また,気象条件情報付きレーダーデータは短期予測に有効であり,雲移動情報付き衛星データは長期予測に有効であることが示唆された。

Line of sight satellite systems, unmanned aerial vehicles, high-altitude platforms, and microwave links that operate on frequency bands such as Ka-band or higher are extremely susceptible to rain. Thus, rain fade forecasting for these systems is critical because it allows the system to switch between ground gateways proactively before a rain fade event to maintain seamless service. Although empirical, statistical, and fade slope models can predict rain fade to some extent, they typically require statistical measurements of rain characteristics in a given area and cannot be generalized to a large scale system. Furthermore, such models typically predict near-future rain fade events but are incapable of forecasting far into the future, making proactive resource management more difficult. In this paper, a deep learning (DL)-based architecture is proposed that forecasts future rain fade using satellite and radar imagery data as well as link power measurements. Furthermore, the data preprocessing and architectural design have been thoroughly explained and multiple experiments have been conducted. Experiments show that the proposed DL architecture outperforms current state-of-the-art machine learning-based algorithms in rain fade forecasting in the near and long term. Moreover, the results indicate that radar data with weather condition information is more effective for short-term prediction, while satellite data with cloud movement information is more effective for long-term predictions.
翻訳日:2021-10-05 15:53:09 公開日:2021-10-02
# Inference-InfoGAN: Embedding Orthogonal Basis Expansionによる推論独立

Inference-InfoGAN: Inference Independence via Embedding Orthogonal Basis Expansion ( http://arxiv.org/abs/2110.00788v1 )

ライセンス: Link先を確認
Hongxiang Jiang, Jihao Yin, Xiaoyan Luo, Fuxiang Wang(参考訳) 分散学習は、生成モデルが一般的な戦略である独立かつ解釈可能な潜在変数を構築することを目的としている。 InfoGANは、相互情報(MI)を最大化して、対象空間にマップされた解釈可能な潜在変数を得る古典的な方法である。 しかし、独立性は強調されなかった。 相互独立性を持つ潜在変数を明示的に推定するために,直交基底展開 (obe) をインフォガンネットワーク (inference-infogan) に教師なし方式で埋め込み, 新たなgan-based disentanglement frameworkを提案する。 OBEモジュールの下では、一組の直交基底が独立性を持つ任意のデータを拡張するために適応的に見つかる。 対象の解釈可能な表現を保証するため、MI最大化の基となる拡張係数と潜時変数との整合制約を加算する。 さらに,合成制約と直交要求更新に基づく交互最適化ステップを設計すれば,推論-インフォガンのトレーニングがより便利になる。 最後に,提案したOBEモジュールが,離散コサイン変換(DCT)の固定基底表現よりも優れた独立特性を表現できる適応直交基底を得ることを示す。 下流タスクのパフォーマンスを説明するために、私たちは最先端のGANベースと、異なるデータセットに対するVAEベースのアプローチを比較した。 提案手法は,因子ベイ,分離属性予測可能性(sap),相互情報ギャップ(mig),変動予測可能性(vp)の指標において,微調整をすることなく高い不等角点を得る。 実験結果から,提案手法はobeモジュールによる相互依存推論能力を有し,交互最適化による潜在変数の目標方向解釈可能性とのトレードオフが良好であることが判明した。

Disentanglement learning aims to construct independent and interpretable latent variables in which generative models are a popular strategy. InfoGAN is a classic method via maximizing Mutual Information (MI) to obtain interpretable latent variables mapped to the target space. However, it did not emphasize independent characteristic. To explicitly infer latent variables with inter-independence, we propose a novel GAN-based disentanglement framework via embedding Orthogonal Basis Expansion (OBE) into InfoGAN network (Inference-InfoGAN) in an unsupervised way. Under the OBE module, one set of orthogonal basis can be adaptively found to expand arbitrary data with independence property. To ensure the target-wise interpretable representation, we add a consistence constraint between the expansion coefficients and latent variables on the base of MI maximization. Additionally, we design an alternating optimization step on the consistence constraint and orthogonal requirement updating, so that the training of Inference-InfoGAN can be more convenient. Finally, experiments validate that our proposed OBE module obtains adaptive orthogonal basis, which can express better independent characteristics than fixed basis expression of Discrete Cosine Transform (DCT). To depict the performance in downstream tasks, we compared with the state-of-the-art GAN-based and even VAE-based approaches on different datasets. Our Inference-InfoGAN achieves higher disentanglement score in terms of FactorVAE, Separated Attribute Predictability (SAP), Mutual Information Gap (MIG) and Variation Predictability (VP) metrics without model fine-tuning. All the experimental results illustrate that our method has inter-independence inference ability because of the OBE module, and provides a good trade-off between it and target-wise interpretability of latent variables via jointing the alternating optimization.
翻訳日:2021-10-05 15:48:38 公開日:2021-10-02
# アクティベーションマップを用いたアテンションベースモデルによるシトラスマイトと昆虫害虫の分類

Weakly Supervised Attention-based Models Using Activation Maps for Citrus Mite and Insect Pest Classification ( http://arxiv.org/abs/2110.00881v1 )

ライセンス: Link先を確認
Edson Bollis, Helena Maia, Helio Pedrini, Sandra Avila(参考訳) カンキツジュースや果物は、国際市場で大きな経済的可能性を持つ商品であるが、ダニや他の害虫による生産性の低下は、いまだに良い兆しには程遠い。 害虫の機械的な側面が統合されているにもかかわらず、オレンジダニの特徴を持つ画像を扱う自動分類の研究はごくわずかである。 計算面では、注意に基づくモデルがディープラーニング研究で注目を集め、弱い教師付き学習アルゴリズムとともに、いくつかのラベル制限によりタスクが改善された。 害虫や病気の農業研究において、これらの手法は特定のラベルのないダニや昆虫の位置を指摘しながら分類性能を向上させることができ、境界ボックスの生成に関連するディープラーニング開発コストを削減できる。 そこで本研究では,クラスラベルから学習した特徴マップスコアを用いて,2重活性化マップと呼ばれる小さな領域の分類を改善するために,注目に基づくアクティベーションマップ手法を提案する。 本手法は,saliency mapを用いた注意に基づく複数インスタンス学習と呼ばれる2段階ネットワークプロセスに適用する。 提案手法は,拡大ガラスを用いて現場で直接捕獲したcitrus pestベンチマークと,大型の害虫画像ベンチマークであるpetestを用いて,2つの難解なデータセットで解析した。 さらに,本モデルとアテンションベースのDeep MILやWILDCATなどの弱教師付き手法との比較を行った。 その結果、分類器は分類タスクで小領域を使用する文献手法よりも優れており、全てのシナリオにおいて少なくとも16ポイント以上であることがわかった。 さらに,本手法では,有能な昆虫のボックス位置を推定し,位置ラベルのないトレーニングも行う。

Citrus juices and fruits are commodities with great economic potential in the international market, but productivity losses caused by mites and other pests are still far from being a good mark. Despite the integrated pest mechanical aspect, only a few works on automatic classification have handled images with orange mite characteristics, which means tiny and noisy regions of interest. On the computational side, attention-based models have gained prominence in deep learning research, and, along with weakly supervised learning algorithms, they have improved tasks performed with some label restrictions. In agronomic research of pests and diseases, these techniques can improve classification performance while pointing out the location of mites and insects without specific labels, reducing deep learning development costs related to generating bounding boxes. In this context, this work proposes an attention-based activation map approach developed to improve the classification of tiny regions called Two-Weighted Activation Mapping, which also produces locations using feature map scores learned from class labels. We apply our method in a two-stage network process called Attention-based Multiple Instance Learning Guided by Saliency Maps. We analyze the proposed approach in two challenging datasets, the Citrus Pest Benchmark, which was captured directly in the field using magnifying glasses, and the Insect Pest, a large pest image benchmark. In addition, we evaluate and compare our models with weakly supervised methods, such as Attention-based Deep MIL and WILDCAT. The results show that our classifier is superior to literature methods that use tiny regions in their classification tasks, surpassing them in all scenarios by at least 16 percentage points. Moreover, our approach infers bounding box locations for salient insects, even training without any location labels.
翻訳日:2021-10-05 15:48:08 公開日:2021-10-02
# OSCAR:適応型・ロバストなロボット操作のためのデータ駆動操作空間制御

OSCAR: Data-Driven Operational Space Control for Adaptive and Robust Robot Manipulation ( http://arxiv.org/abs/2110.00704v1 )

ライセンス: Link先を確認
Josiah Wong, Viktor Makoviychuk, Anima Anandkumar, Yuke Zhu(参考訳) ロボット操作の学習は、高次元の連続動作と複雑な物理学に基づくダイナミクスのために難しい。 これはアクション空間のインテリジェントな選択によって緩和できる。 オペレーショナルスペースコントロール(osc)は、操作のための効果的なタスクスペースコントローラとして使われてきた。 それでも、その強みは基礎となるモデリングの忠実さに依存しており、モデリングエラーがある場合には失敗しがちです。 本研究はOSC for Adaptation and Robustness(OSCAR)を提案する。これはOSCのデータ駆動型であり、オンライントラジェクトリから関連する動的パラメータを推定することでエラーをモデル化する。 OSCARは、動的学習をタスク非依存とタスク固有のフェーズに分解し、ロボットの動的依存と環境による外部依存を分離する。 この構造により、アウトオブディストリビューション下でのロバストなゼロショットパフォーマンスと、追加の微調整による重要なドメインシフトへの迅速な適応が可能になる。 本手法は,様々なシミュレート操作問題に対して評価を行い,コントローラベースラインの配列よりも大幅に改善した。 詳細はhttps://cremebrule.g ithub.io/oscar-web/を参照。

Learning performant robot manipulation policies can be challenging due to high-dimensional continuous actions and complex physics-based dynamics. This can be alleviated through intelligent choice of action space. Operational Space Control (OSC) has been used as an effective task-space controller for manipulation. Nonetheless, its strength depends on the underlying modeling fidelity, and is prone to failure when there are modeling errors. In this work, we propose OSC for Adaptation and Robustness (OSCAR), a data-driven variant of OSC that compensates for modeling errors by inferring relevant dynamics parameters from online trajectories. OSCAR decomposes dynamics learning into task-agnostic and task-specific phases, decoupling the dynamics dependencies of the robot and the extrinsics due to its environment. This structure enables robust zero-shot performance under out-of-distribution and rapid adaptation to significant domain shifts through additional finetuning. We evaluate our method on a variety of simulated manipulation problems, and find substantial improvements over an array of controller baselines. For more results and information, please visit https://cremebrule.g ithub.io/oscar-web/.
翻訳日:2021-10-05 15:45:36 公開日:2021-10-02
# 文脈帯域と強化学習のためのフェルゴードトンプソンサンプリング

Feel-Good Thompson Sampling for Contextual Bandits and Reinforcement Learning ( http://arxiv.org/abs/2110.00871v1 )

ライセンス: Link先を確認
Tong Zhang(参考訳) トンプソンサンプリングは、モデリング能力の柔軟性のため、文脈的バンディット問題に広く使われている。 しかし、頻繁な設定におけるこの種の手法の一般的な理論はいまだに欠落している。 本稿では,トンプソンサンプリングの理論的解析を行い,頻繁な後悔の限界に着目した。 この設定では、トンプソンサンプリングは新たな行動の探索に十分な積極的ではないことが示され、悲観的な状況では準最適となる。 標準的なトンプソンサンプリングよりも積極的に高い報酬モデルを好むFeel-Good Thompson Smplingと呼ばれる簡単な修正が提案されている。 理論的枠組みは、標準的なトンプソンサンプリングに対するベイズ的後悔境界と、Feel-Good Thompson Samplingに対する頻繁な後悔境界を導出するのに利用できることを示す。 いずれの場合においても,オンライン最小二乗回帰推定にバンディットの後悔問題を低減できることが示されている。 頻繁な分析のために、オンライン最小二乗回帰境界は、よく研究されているオンライン集約技術を用いて直接得られる。 結果として生じるバンディット後悔境界は、有限アクションの場合のミニマックス下限と一致する。 さらに、解析を一般化して、線形埋め込み可能なコンテキストバンディット問題(一般的な線形コンテキストバンディットモデルを一般化する)のクラスを扱うことができる。 得られた結果は、再びminimax下界と一致する。 最後に,MDP問題に対処するために解析を拡張可能であることを示す。

Thompson Sampling has been widely used for contextual bandit problems due to the flexibility of its modeling power. However, a general theory for this class of methods in the frequentist setting is still lacking. In this paper, we present a theoretical analysis of Thompson Sampling, with a focus on frequentist regret bounds. In this setting, we show that the standard Thompson Sampling is not aggressive enough in exploring new actions, leading to suboptimality in some pessimistic situations. A simple modification called Feel-Good Thompson Sampling, which favors high reward models more aggressively than the standard Thompson Sampling, is proposed to remedy this problem. We show that the theoretical framework can be used to derive Bayesian regret bounds for standard Thompson Sampling, and frequentist regret bounds for Feel-Good Thompson Sampling. It is shown that in both cases, we can reduce the bandit regret problem to online least squares regression estimation. For the frequentist analysis, the online least squares regression bound can be directly obtained using online aggregation techniques which have been well studied. The resulting bandit regret bound matches the minimax lower bound in the finite action case. Moreover, the analysis can be generalized to handle a class of linearly embeddable contextual bandit problems (which generalizes the popular linear contextual bandit model). The obtained result again matches the minimax lower bound. Finally we illustrate that the analysis can be extended to handle some MDP problems.
翻訳日:2021-10-05 15:43:58 公開日:2021-10-02
# 顔認証に対する普遍的なspoofing攻撃

Universal Adversarial Spoofing Attacks against Face Recognition ( http://arxiv.org/abs/2110.00708v1 )

ライセンス: Link先を確認
Takuma Amada, Seng Pei Liew, Kazuya Kakizaki, Toshinori Araki(参考訳) 複数のアイデンティティを同時に偽造/偽造する画像に対する深層顔認識システムの脆弱性を評価する。 提案したUniversal Adversarial Spoofing Examples (UAXs) を用いて, 画像から抽出した深い特徴表現を知覚的に小さな摂動で操作することにより, 顔画像が複数の異なるアイデンティティに属することを高い成功率で認識するために, 顔検証システムを騙すことができることを示した。 我々の方法で作られたUAXの特徴の1つは、それらは普遍的(アイデンティティに依存しない)であり、事前に知られていないアイデンティティに対してさえ成功していることである。 ある種のディープニューラルネットワークでは、未知の(トレーニングに含まれていない)ほとんどすべてのテストされたアイデンティティ(99\%)をスプープできることが示されます。 以上の結果から,顔認証システムを展開する際には,マルチアイデンティティ攻撃が真の脅威であることが示唆された。

We assess the vulnerabilities of deep face recognition systems for images that falsify/spoof multiple identities simultaneously. We demonstrate that, by manipulating the deep feature representation extracted from a face image via imperceptibly small perturbations added at the pixel level using our proposed Universal Adversarial Spoofing Examples (UAXs), one can fool a face verification system into recognizing that the face image belongs to multiple different identities with a high success rate. One characteristic of the UAXs crafted with our method is that they are universal (identity-agnostic); they are successful even against identities not known in advance. For a certain deep neural network, we show that we are able to spoof almost all tested identities (99\%), including those not known beforehand (not included in training). Our results indicate that a multiple-identity attack is a real threat and should be taken into account when deploying face recognition systems.
翻訳日:2021-10-05 15:42:17 公開日:2021-10-02
# 逆強化学習を用いた複数逆成分を用いたプログラムへの言語マッピング

Mapping Language to Programs using Multiple Reward Components with Inverse Reinforcement Learning ( http://arxiv.org/abs/2110.00842v1 )

ライセンス: Link先を確認
Sayan Ghosh and Shashank Srivastava(参考訳) 自然言語命令をコンピュータが処理できるプログラムにマッピングすることは根本的な課題である。 既存のアプローチでは、可能性に基づくトレーニングや、強化学習を使用して、1つの報酬に基づいてモデルを微調整する。 本稿では,逆強化学習として言語からプログラムを生成する。 我々は,いくつかの解釈可能な報酬成分を導入し,(1)線形結合した報酬関数,(2)プログラム生成のためのポリシーを共同学習する。 提案手法による微調整は,強化学習(RL)を用いた競合手法よりもはるかに優れた性能を実現する。 virtualhomeフレームワークでは、最長の共通サブシーケンスメトリックで最大9.0%、このフレームワークでの以前の作業よりもリコールベースのメトリックで14.7%改善されています(puig et al., 2018)。 このアプローチはデータ効率が高く,低データレシエーションのパフォーマンス向上を示すものだ。 生成したプログラムは、rlベースのアプローチよりも人間の評価者によって好まれ、関連性、完全性、人間らしく評価されている。

Mapping natural language instructions to programs that computers can process is a fundamental challenge. Existing approaches focus on likelihood-based training or using reinforcement learning to fine-tune models based on a single reward. In this paper, we pose program generation from language as Inverse Reinforcement Learning. We introduce several interpretable reward components and jointly learn (1) a reward function that linearly combines them, and (2) a policy for program generation. Fine-tuning with our approach achieves significantly better performance than competitive methods using Reinforcement Learning (RL). On the VirtualHome framework, we get improvements of up to 9.0% on the Longest Common Subsequence metric and 14.7% on recall-based metrics over previous work on this framework (Puig et al., 2018). The approach is data-efficient, showing larger gains in performance in the low-data regime. Generated programs are also preferred by human evaluators over an RL-based approach, and rated higher on relevance, completeness, and human-likeness.
翻訳日:2021-10-05 15:40:03 公開日:2021-10-02
# 持続可能エネルギーのための人工知能:文脈的トピックモデリングとコンテンツ分析

Artificial intelligence for Sustainable Energy: A Contextual Topic Modeling and Content Analysis ( http://arxiv.org/abs/2110.00828v1 )

ライセンス: Link先を確認
Tahereh Saheb, Mohammad Dehghani(参考訳) 持続可能なエネルギーと人工知能ソリューションに関する議論の高まりと並行して、世界は現在、人工知能の倫理と、社会と環境に対するネガティブな影響について議論している。 これらの議論では,持続可能エネルギーなどの持続可能エネルギーへの道筋を推し進めることを目的とした,持続可能なAIが提案されている。 本稿では,LDA,BERT,Clustering を組み合わせた新しい文脈トピックモデリングを提案する。 次に、これらの計算分析と関連する学術出版物のコンテンツ分析を組み合わせて、持続可能なAIに関する科学研究における主要な学術的話題、サブテーマ、および横断テーマを特定した。 我々の研究は、持続可能な建物、都市水管理のためのAIベースのDSS、気候人工知能、農業4、AIとIoTの統合、AIベースの再生可能技術の評価、スマートキャンパスとエンジニアリング教育、AIベースの最適化を含む8つの主要なトピックを特定した。 その後, 観測された理論ギャップに基づいて, 14個の将来の研究ストランドを推薦した。 理論的には、この分析は持続可能なAIと持続可能なエネルギーに関する既存の文献に寄与し、実際は、エネルギー技術者、科学者、AI科学者、社会科学者がAIとエネルギー収束研究における持続可能性に関する知識を拡大するための一般的なガイドとして機能することを意図している。

Parallel to the rising debates over sustainable energy and artificial intelligence solutions, the world is currently discussing the ethics of artificial intelligence and its possible negative effects on society and the environment. In these arguments, sustainable AI is proposed, which aims at advancing the pathway toward sustainability, such as sustainable energy. In this paper, we offered a novel contextual topic modeling combining LDA, BERT, and Clustering. We then combined these computational analyses with content analysis of related scientific publications to identify the main scholarly topics, sub-themes, and cross-topic themes within scientific research on sustainable AI in energy. Our research identified eight dominant topics including sustainable buildings, AI-based DSSs for urban water management, climate artificial intelligence, Agriculture 4, the convergence of AI with IoT, AI-based evaluation of renewable technologies, smart campus and engineering education, and AI-based optimization. We then recommended 14 potential future research strands based on the observed theoretical gaps. Theoretically, this analysis contributes to the existing literature on sustainable AI and sustainable energy, and practically, it intends to act as a general guide for energy engineers and scientists, AI scientists, and social scientists to widen their knowledge of sustainability in AI and energy convergence research.
翻訳日:2021-10-05 15:36:42 公開日:2021-10-02
# デュアル局所グラフ学習と相互誘導による光場残差検出

Light Field Saliency Detection with Dual Local Graph Learning andReciprocative Guidance ( http://arxiv.org/abs/2110.00698v1 )

ライセンス: Link先を確認
Nian Liu, Wangbo Zhao, Dingwen Zhang, Junwei Han, Ling Shao(参考訳) 静電対検出における光場データの適用は近年ますます人気が高まっている。 差分能力は、フォカルスタック内の機能を効果的に融合する方法と、全焦点画像の特徴と協調する方法にある。 従来の方法では通常、畳み込み(convolution)またはconvlstm(convlstm)を介してfocal stackfeaturesを融合する。 本稿では,フォカルスタック内のインフォーメーション融合をグラフネットワークを用いてモデル化する。 近隣ノードから強力なコンテキスト伝搬を導入し、不適切な実装を避ける。 一方,従来のグラフ網の計算コストを抑えるため,局所的なグラフ接続を構築する。 一方,2種類のデータを別々に処理する代わりに,全焦点パタンを用いた局所スタック融合プロセスのガイドとして,新しいデュアルグラフモデルを構築した。 第2の難題に対処するため、従来の手法では焦点スタックと全焦点ファインダのワンショット核融合を簡易に実装していた。 本稿では,この2種類のインフォーム間の相互指導を複数のステップで実現する。 そのため、両方の特徴を反復的に拡張することが可能であり、最終的にサリエンシ予測の恩恵を受けることができる。 実験結果から,提案モデルが有用であり,最先端手法よりも有意な結果が得られた。

The application of light field data in salient object de-tection is becoming increasingly popular recently. The diffi-culty lies in how to effectively fuse the features within the fo-cal stack and how to cooperate them with the feature of theall-focus image. Previous methods usually fuse focal stackfeatures via convolution or ConvLSTM, which are both lesseffective and ill-posed. In this paper, we model the infor-mation fusion within focal stack via graph networks. Theyintroduce powerful context propagation from neighbouringnodes and also avoid ill-posed implementations. On the onehand, we construct local graph connections thus avoidingprohibitive computational costs of traditional graph net-works. On the other hand, instead of processing the twokinds of data separately, we build a novel dual graph modelto guide the focal stack fusion process using all-focus pat-terns. To handle the second difficulty, previous methods usu-ally implement one-shot fusion for focal stack and all-focusfeatures, hence lacking a thorough exploration of their sup-plements. We introduce a reciprocative guidance schemeand enable mutual guidance between these two kinds of in-formation at multiple steps. As such, both kinds of featurescan be enhanced iteratively, finally benefiting the saliencyprediction. Extensive experimental results show that theproposed models are all beneficial and we achieve signif-icantly better results than state-of-the-art methods.
翻訳日:2021-10-05 15:34:55 公開日:2021-10-02
# 単一ラベル領域一般化のためのドメイン固有バイアスフィルタリング

Domain-Specific Bias Filtering for Single Labeled Domain Generalization ( http://arxiv.org/abs/2110.00726v1 )

ライセンス: Link先を確認
Junkun Yuan, Xu Ma, Defang Chen, Kun Kuang, Fei Wu, Lanfen Lin(参考訳) ドメイン一般化(DG)は、複数のラベル付きソースデータセットを使用して、目に見えないターゲットドメインに対する一般化可能なモデルをトレーニングする。 しかし、高価なアノテーションコストのため、すべてのソースデータをラベル付けする要件は、現実世界のアプリケーションでは満たせない。 本稿では,単一ラベル付きドメイン一般化(SLDG)タスクを1つのソースドメインのみにラベル付けすることで,従来のドメイン一般化(CDG)よりも実用的かつ困難であることを示す。 SLDGタスクにおける大きな障害は、識別可能性一般化バイアスである:ラベル付きソースデータセットの識別情報は、訓練されたモデルの一般化を制限し、ドメイン固有のバイアスを含むかもしれない。 この課題に取り組むために,ラベル付きソースデータで識別モデルを初期化し,その領域固有バイアスを一般化のためにラベル付きソースデータでフィルタする,ドメイン固有バイアスフィルタリング(dsbf)と呼ばれる新しい手法を提案する。 1) k-meansクラスタリングに基づく意味的特徴再抽出を用いた特徴抽出と,(2)注意誘導意味的特徴投影を用いた分類器の分類とに分類する。 DSBFはラベル付きおよびラベルなしソースデータの探索を統一し、訓練されたモデルの識別性と一般化を高め、高度に一般化可能なモデルをもたらす。 さらに,提案する領域特異的バイアスフィルタリングプロセスを検証するための理論的解析を行う。 複数のデータセットに対する大規模な実験は、難易度の高いSLDGタスクとCDGタスクの両方に取り組む上で、DSBFの優れた性能を示している。

Domain generalization (DG) utilizes multiple labeled source datasets to train a generalizable model for unseen target domains. However, due to expensive annotation costs, the requirements of labeling all the source data are hard to be met in real-world applications. In this paper, we investigate a Single Labeled Domain Generalization (SLDG) task with only one source domain being labeled, which is more practical and challenging than the Conventional Domain Generalization (CDG). A major obstacle in the SLDG task is the discriminability-gen eralization bias: discriminative information in the labeled source dataset may contain domain-specific bias, constraining the generalization of the trained model. To tackle this challenging task, we propose a novel method called Domain-Specific Bias Filtering (DSBF), which initializes a discriminative model with the labeled source data and filters out its domain-specific bias with the unlabeled source data for generalization improvement. We divide the filtering process into: (1) Feature extractor debiasing using k-means clustering-based semantic feature re-extraction; and (2) Classifier calibrating using attention-guided semantic feature projection. DSBF unifies the exploration of the labeled and the unlabeled source data to enhance the discriminability and generalization of the trained model, resulting in a highly generalizable model. We further provide theoretical analysis to verify the proposed domain-specific bias filtering process. Extensive experiments on multiple datasets show the superior performance of DSBF in tackling both the challenging SLDG task and the CDG task.
翻訳日:2021-10-05 15:34:34 公開日:2021-10-02
# ゼロショット学習における暗黙と明示的注意

Implicit and Explicit Attention for Zero-Shot Learning ( http://arxiv.org/abs/2110.00860v1 )

ライセンス: Link先を確認
Faisal Alamri and Anjan Dutta(参考訳) 既存のZSL(Zero-Shot Learning)メソッドのほとんどは、画像表現とクラス属性の互換性関数の学習に重点を置いている。 局所的特徴とグローバル的特徴を組み合わせた画像表現の学習に集中する人はほとんどいない。 しかし、既存のアプローチは、見たクラスに対するバイアスの問題にまだ対処できない。 本稿では,ZSLモデルにおける既存のバイアス問題に対処するための暗黙的かつ明示的な注意機構を提案する。 我々は,課題解決を支援する特定の画像特徴に着目した自己教師付き画像角度回転タスクを用いて暗黙的注意機構を定式化する。 この明示的な注意機構は、訓練段階で画像の特徴を意味空間にマッピングすることを学ぶ視覚トランスフォーマーモデルによる多元的自己注意機構を考慮に入れて構成される。 AWA2, CUB, SUNの3つのベンチマークについて総合的な実験を行った。 提案する注意機構の性能は,その効果を証明し,これら3つのデータセットすべてにおいて,最先端の調和平均を達成している。

Most of the existing Zero-Shot Learning (ZSL) methods focus on learning a compatibility function between the image representation and class attributes. Few others concentrate on learning image representation combining local and global features. However, the existing approaches still fail to address the bias issue towards the seen classes. In this paper, we propose implicit and explicit attention mechanisms to address the existing bias problem in ZSL models. We formulate the implicit attention mechanism with a self-supervised image angle rotation task, which focuses on specific image features aiding to solve the task. The explicit attention mechanism is composed with the consideration of a multi-headed self-attention mechanism via Vision Transformer model, which learns to map image features to semantic space during the training stage. We conduct comprehensive experiments on three popular benchmarks: AWA2, CUB and SUN. The performance of our proposed attention mechanisms has proved its effectiveness, and has achieved the state-of-the-art harmonic mean on all the three datasets.
翻訳日:2021-10-05 15:34:08 公開日:2021-10-02
# 表現学習を用いた校正多重出力量子回帰

Calibrated Multiple-Output Quantile Regression with Representation Learning ( http://arxiv.org/abs/2110.00816v1 )

ライセンス: Link先を確認
Shai Feldman, Stephen Bates, Yaniv Romano(参考訳) ユーザ特定確率で多変量応答変数をカバーする予測領域を生成する手法を開発した。 私たちの仕事は2つのコンポーネントで構成されています。 まず,一様分布を持つ応答の表現を深層生成モデルを用いて学習する。 このような場合、既存の多重出力分位回帰アプローチは有効であるので、学習した表現に適用し、その解を元の応答空間に変換する。 このプロセスは、任意の形状を持つフレキシブルで情報的な領域、つまり既存のメソッドに欠けている特性をもたらす。 第2に、あらかじめ指定されたカバレッジレベルで任意のメソッドを返却する多変量対応設定への共形予測の拡張を提案する。 所望のカバレッジは、任意の分布に対する有限サンプルの場合において理論的に保証される。 実データと合成データの両方で行った実験により,本手法は既存の手法に比べて有意に小さい領域(時には100倍)を構築していることがわかった。

We develop a method to generate predictive regions that cover a multivariate response variable with a user-specified probability. Our work is composed of two components. First, we use a deep generative model to learn a representation of the response that has a unimodal distribution. Existing multiple-output quantile regression approaches are effective in such cases, so we apply them on the learned representation, and then transform the solution to the original space of the response. This process results in a flexible and informative region that can have an arbitrary shape, a property that existing methods lack. Second, we propose an extension of conformal prediction to the multivariate response setting that modifies any method to return sets with a pre-specified coverage level. The desired coverage is theoretically guaranteed in the finite-sample case for any distribution. Experiments conducted on both real and synthetic data show that our method constructs regions that are significantly smaller (sometimes by a factor of 100) compared to existing techniques.
翻訳日:2021-10-05 15:27:09 公開日:2021-10-02
# フォッグとクラウド間のモバイルアプリの切り替え学習サービスとしてのAIバックエンド

AI Back-End as a Service for Learning Switching of Mobile Apps between the Fog and the Cloud ( http://arxiv.org/abs/2110.00836v1 )

ライセンス: Link先を確認
Dionysis Athanasopoulos and Dewei Liu(参考訳) クラウドサーバは通常、モバイルアプリのデバイスからリモートに配置されているため、アプリケーションのエンドユーザは遅延に直面する可能性がある。 Fogは、エンドユーザーに近いネットワークエッジに位置するマシンでアプリを強化するために導入された。 しかし、エッジマシンは通常リソースが制限される。 したがって、データ分析アルゴリズムの時間的複雑さが高い場合、エッジマシン上でのオンラインデータ分析の実行は不可能である。 これを解決するためには、バックエンドの複数のインスタンスをエッジとリモートマシンにデプロイする必要がある。 この場合、調査課題は、サービスインスタンスの応答時間に基づいて、バックエンドのインスタンス間でアプリの切り替えをどのように動的に決定するかである。 これに対応するために、私たちは、サービスインスタンスの応答時間の機械学習モデルをトレーニングするAIアプローチに貢献します。 当社のアプローチでは、バックエンド・アズ・ア・サービスから、最低応答時間を達成する適切なエッジ/リモートインスタンスを実行時に自己決定するAIセルフバック・アズ・ア・サービスに拡張しています。 既存のオークションアプリでリアルタイム機械学習データセットを用いて,提案手法の正確性と効率を評価する。

Given that cloud servers are usually remotely located from the devices of mobile apps, the end-users of the apps can face delays. The Fog has been introduced to augment the apps with machines located at the network edge close to the end-users. However, edge machines are usually resource constrained. Thus, the execution of online data-analytics on edge machines may not be feasible if the time complexity of the data-analytics algorithm is high. To overcome this, multiple instances of the back-end should be deployed on edge and remote machines. In this case, the research question is how the switching of the app among the instances of the back-end can be dynamically decided based on the response time of the service instances. To answer this, we contribute an AI approach that trains machine-learning models of the response time of service instances. Our approach extends a back-end as a service into an AI self-back-end as a service that self-decides at runtime the right edge/remote instance that achieves the lowest response-time. We evaluate the accuracy and the efficiency of our approach by using real-word machine-learning datasets on an existing auction app.
翻訳日:2021-10-05 15:26:54 公開日:2021-10-02
# グリッド型地理空間データにおける知識発見のための伝達学習手法

Transfer Learning Approaches for Knowledge Discovery in Grid-based Geo-Spatiotemporal Data ( http://arxiv.org/abs/2110.00841v1 )

ライセンス: Link先を確認
Aishwarya Sarkar, Jien Zhang, Chaoqun Lu, Ali Jannesari(参考訳) 洪水などの自然現象の根底にある複雑な原因を認識するためには,地理空間的特徴の抽出と細心の注意を要する解析が不可欠である。 気候変動につながる隠れた要因に関する限られた証拠は、地域排水の正確な予測を困難にしている。 さらに、新しい領域ごとに最先端のニューラルネットワークによる繰り返し学習を必要とする複雑な地空間環境データの爆発的な成長は、新しい計算効率の良い方法、高度な計算資源、および大量の監視データに対する広範なトレーニングの必要性を強調している。 そこで本研究では,その固有空間空間的分散を効果的に捉えることにより,ある領域から別の領域へ知識を伝達するという課題に対処するために,効果的に再利用可能な事前学習モデルであるハイドロディープを提案する。 さらに,Nash-Sutcliffe効率を9%から108%向上し,95%の時間短縮を実現するため,Hydrodeepに4つの移行学習手法を提案する。

Extracting and meticulously analyzing geo-spatiotemporal features is crucial to recognize intricate underlying causes of natural events, such as floods. Limited evidence about hidden factors leading to climate change makes it challenging to predict regional water discharge accurately. In addition, the explosive growth in complex geo-spatiotemporal environment data that requires repeated learning by the state-of-the-art neural networks for every new region emphasizes the need for new computationally efficient methods, advanced computational resources, and extensive training on a massive amount of available monitored data. We, therefore, propose HydroDeep, an effectively reusable pretrained model to address this problem of transferring knowledge from one region to another by effectively capturing their intrinsic geo-spatiotemporal variance. Further, we present four transfer learning approaches on HydroDeep for spatiotemporal interpretability that improve Nash-Sutcliffe efficiency by 9% to 108% in new regions with a 95% reduction in time.
翻訳日:2021-10-05 15:26:37 公開日:2021-10-02
# 説明可能か、説明可能か - GDPRの要件と課題

Making Things Explainable vs Explaining: Requirements and Challenges under the GDPR ( http://arxiv.org/abs/2110.00758v1 )

ライセンス: Link先を確認
Francesco Sovrano, Fabio Vitali, Monica Palmirani(参考訳) eu(eu)は、ai-hleg(high-level expert group on artificial intelligence)とgdpr(general data protection regulation)を通じて、先日、自動意思決定システム(adm)を説明するユーザ中心のアプローチを要求することで、説明可能なai(xai)コミュニティに興味深い課題を提起した。 関連する文献を見ると、XAIは現在、説明可能なソフトウェアと、ユーザニーズのセントリング要件を満たすことができないOne-Size-Fits-Allと呼ばれるアプローチに一般的に従う説明を作ることに重点を置いています。 この限界の原因の1つは、物事を説明できるだけでは実用的説明が十分である、という信念である。 このように、説明可能性(説明可能なもの)と説明の明確な分離を主張し、AI-HLEGの挑戦に勝つための代替的で強力なアプローチとして説明的AI(YAI)を挙げる。 YAIはXAI上に構築され、説明可能な情報を収集し、整理することを目的としています。 説明談話/ナラティブを用いて,説明空間上の適切な経路の同定において,自動意思決定システム(adm)の説明を生成する問題を表現し,説明者が対話的に説明を探索し,そのニーズに最も適した説明を作成できるようにする。

The European Union (EU) through the High-Level Expert Group on Artificial Intelligence (AI-HLEG) and the General Data Protection Regulation (GDPR) has recently posed an interesting challenge to the eXplainable AI (XAI) community, by demanding a more user-centred approach to explain Automated Decision-Making systems (ADMs). Looking at the relevant literature, XAI is currently focused on producing explainable software and explanations that generally follow an approach we could term One-Size-Fits-All, that is unable to meet a requirement of centring on user needs. One of the causes of this limit is the belief that making things explainable alone is enough to have pragmatic explanations. Thus, insisting on a clear separation between explainabilty (something that can be explained) and explanations, we point to explanatorY AI (YAI) as an alternative and more powerful approach to win the AI-HLEG challenge. YAI builds over XAI with the goal to collect and organize explainable information, articulating it into something we called user-centred explanatory discourses. Through the use of explanatory discourses/narrative s we represent the problem of generating explanations for Automated Decision-Making systems (ADMs) into the identification of an appropriate path over an explanatory space, allowing explainees to interactively explore it and produce the explanation best suited to their needs.
翻訳日:2021-10-05 15:23:53 公開日:2021-10-02
# Illocutionary Question Answeringによるユーザ中心説明の生成:哲学からインターフェースへ

Generating User-Centred Explanations via Illocutionary Question Answering: From Philosophy to Interfaces ( http://arxiv.org/abs/2110.00762v1 )

ライセンス: Link先を確認
Francesco Sovrano, Fabio Vitali(参考訳) 本稿では,人工知能(AI)による説明を生成する新しい手法と,ユーザインタフェース内で表現力をテストするツールを提案する。 哲学とヒューマン・コンピュータ・インタフェースのギャップを埋めるために、自然言語文書を知識グラフに構造化し、効果的かつ満足できる質問に答える、高度なaiアルゴリズムのパイプラインに基づく対話的説明の生成のための新しいアプローチを示す。 この研究により、Achinstein氏が提示した説明の哲学理論が、対話的でイライラした質問に答えるプロセスとして、具体的なソフトウェアアプリケーションに実際に適用可能であることを証明することを目指している。 特に,我々の貢献は,統計的質問応答によるユーザ中央集権化を実現するため,コンピュータフレンドリーな手法による不正行為の枠組み化である。 実際、我々は、説明者のニーズを未提示、暗黙的、根本的疑問の形で予測するメカニズムとして、説明過程においてイロカチオンを定式化し、基礎となる説明過程のユーザ中央性を改善する。 より正確には、任意の説明過程が与えられ、目標指向性やイロケーションの度合いが向上し、より有用な(ISO 9241-210)説明が生成されるという仮説を立てる。 XAIをベースとした2つのシステム(クレジット承認(ファイナンス)と心臓病予測(ヘルスケア))で,60名以上の参加者を対象に仮説を検証した。 その結果,提案手法は統計的に有意な改善(p値0.05未満)が得られた。 これは、効果の増大と満足度の間の目に見える一致と組み合わさって、我々のイロケーションに対する理解が正しいことを示唆し、我々の理論を支持する証拠を与える。

We propose a new method for generating explanations with Artificial Intelligence (AI) and a tool to test its expressive power within a user interface. In order to bridge the gap between philosophy and human-computer interfaces, we show a new approach for the generation of interactive explanations based on a sophisticated pipeline of AI algorithms for structuring natural language documents into knowledge graphs, answering questions effectively and satisfactorily. With this work we aim to prove that the philosophical theory of explanations presented by Achinstein can be actually adapted for being implemented into a concrete software application, as an interactive and illocutionary process of answering questions. Specifically, our contribution is an approach to frame illocution in a computer-friendly way, to achieve user-centrality with statistical question answering. In fact, we frame illocution, in an explanatory process, as that mechanism responsible for anticipating the needs of the explainee in the form of unposed, implicit, archetypal questions, hence improving the user-centrality of the underlying explanatory process. More precisely, we hypothesise that given an arbitrary explanatory process, increasing its goal-orientedness and degree of illocution results in the generation of more usable (as per ISO 9241-210) explanations. We tested our hypotheses with a user-study involving more than 60 participants, on two XAI-based systems, one for credit approval (finance) and one for heart disease prediction (healthcare). The results showed that our proposed solution produced a statistically significant improvement (hence with a p-value lower than 0.05) on effectiveness. This, combined with a visible alignment between the increments in effectiveness and satisfaction, suggests that our understanding of illocution can be correct, giving evidence in favour of our theory.
翻訳日:2021-10-05 15:23:24 公開日:2021-10-02
# 誘導、ポッパー、および機械学習

Induction, Popper, and machine learning ( http://arxiv.org/abs/2110.00840v1 )

ライセンス: Link先を確認
Bruce Nielson, Daniel C. Elton(参考訳) フランシス・ベーコン(francis bacon)は、科学は、ある特定の方法で、未来が過去に似ているという仮定に基づいて理論に一般化された帰納的観察の過程に基づいているという考えを広めた。 この考えはヒュームらによって、誘導の有名な問題に繋がる耐え難いと批判された。 この問題が解決されたのはカール・ポパーの仕事で、帰納法が科学の基盤ではなく、科学知識の発展は生物学の進化と同じ原理に基づいていることを証明した。 今日では、機械学習はビッグデータからの誘導に根ざしていると教えられている。 理想化されたベイズエージェント(HutterのAIXI)で実装されたソロモノフ誘導は、AIアルゴリズムを理解するためのフレームワークとして広く議論され、称賛されている。 本稿ではドナルド・t・キャンベルの普遍ダーウィン主義と帰納法に基づく枠組みを対比する。 現在使われているほとんどのAIアルゴリズムは、進化的試行と、ソリューション空間を探索するエラープロセスを用いて理解することができる。 この研究では、普遍的なダーウィンのフレームワークがAIシステムを理解するためのより良い基盤を提供すると主張している。 さらに、よりメタレベルで、すべてのaiアルゴリズムの開発プロセスは、普遍ダーウィン主義の枠組みの下で理解することができる。

Francis Bacon popularized the idea that science is based on a process of induction by which repeated observations are, in some unspecified way, generalized to theories based on the assumption that the future resembles the past. This idea was criticized by Hume and others as untenable leading to the famous problem of induction. It wasn't until the work of Karl Popper that this problem was solved, by demonstrating that induction is not the basis for science and that the development of scientific knowledge is instead based on the same principles as biological evolution. Today, machine learning is also taught as being rooted in induction from big data. Solomonoff induction implemented in an idealized Bayesian agent (Hutter's AIXI) is widely discussed and touted as a framework for understanding AI algorithms, even though real-world attempts to implement something like AIXI immediately encounter fatal problems. In this paper, we contrast frameworks based on induction with Donald T. Campbell's universal Darwinism. We show that most AI algorithms in use today can be understood as using an evolutionary trial and error process searching over a solution space. In this work we argue that a universal Darwinian framework provides a better foundation for understanding AI systems. Moreover, at a more meta level the process of development of all AI algorithms can be understood under the framework of universal Darwinism.
翻訳日:2021-10-05 15:22:50 公開日:2021-10-02
# バイナリ治療選択の確率予測 : パーソナライズド医療を中心に

Probabilistic Prediction for Binary Treatment Choice: with focus on personalized medicine ( http://arxiv.org/abs/2110.00864v1 )

ライセンス: Link先を確認
Charles F. Manski(参考訳) 本稿では, 統計決定理論をサンプルデータを用いた治療選択に適用し, 最大後悔を用いて治療規則の性能を評価する。 特定の新しい貢献は、監視とアグレッシブ治療の間の臨床選択における疾患確率の推定を用いて、as-if最適化を研究することである。 具体的な内容以外にも、この論文は幅広いメッセージを送っている。 統計学者とコンピュータ科学者は間接的に意思決定の条件付き予測に対処し、前者は古典的統計理論を適用し、後者はテストサンプルにおける予測精度を測定した。 どちらのアプローチも満足できない。 統計的決定理論はコヒーレントで一般に適用可能な方法論を提供する。

This paper extends my research applying statistical decision theory to treatment choice with sample data, using maximum regret to evaluate the performance of treatment rules. The specific new contribution is to study as-if optimization using estimates of illness probabilities in clinical choice between surveillance and aggressive treatment. Beyond its specifics, the paper sends a broad message. Statisticians and computer scientists have addressed conditional prediction for decision making in indirect ways, the former applying classical statistical theory and the latter measuring prediction accuracy in test samples. Neither approach is satisfactory. Statistical decision theory provides a coherent, generally applicable methodology.
翻訳日:2021-10-05 15:21:59 公開日:2021-10-02
# LR(1)状態マシンの最小化はNPハード

Minimizing LR(1) State Machines is NP-Hard ( http://arxiv.org/abs/2110.00776v1 )

ライセンス: Link先を確認
Wuu Yang(参考訳) LR(1)解析は過去50年間の広範な研究の焦点であった。 ほとんどの基本的な謎は解決されているが、一部は暗い角に隠れている。 私たちが突き当たったのはLR(1)状態機械の最小化であり、NPハードであることが証明されている。 最小化パズルに還元されるノードカラー化問題である。 この削減は間接的縮小と漸進的構成という2つのテクニックを利用する。 間接還元は、着色するグラフが直接lr(1)状態機械に還元されないことを意味する。 代わりに、LR(1)状態機械が導出される文脈自由文法に還元される。 さらに、グラフ内のノードを一度に色付けすることを考えると、文脈自由文法は2ノードグラフのテンプレート自由文法から漸進的に拡張される。 この拡張は、新しい文法記号とルールを追加することで行われる。 最小のLR(1)マシンを使用して、元のグラフの最小色を復元することができる。

LR(1) parsing was a focus of extensive research in the past 50 years. Though most fundamental mysteries have been resolved, a few remain hidden in the dark corners. The one we bumped into is the minimization of the LR(1) state machines, which we prove is NP-hard. It is the node-coloring problem that is reduced to the minimization puzzle. The reduction makes use of two technique: indirect reduction and incremental construction. Indirect reduction means the graph to be colored is not reduced to an LR(1) state machine directly. Instead, it is reduced to a context-free grammar from which an LR(1) state machine is derived. Furthermore, by considering the nodes in the graph to be colored one at a time, the context-free grammar is incrementally extended from a template context-free grammar that is for a two-node graph. The extension is done by adding new grammar symbols and rules. A minimized LR(1) machine can be used to recover a minimum coloring of the original graph.
翻訳日:2021-10-05 15:21:31 公開日:2021-10-02
# GANとアクティブラーニングを用いた種子品質自動テストシステム

Automated Seed Quality Testing System using GAN & Active Learning ( http://arxiv.org/abs/2110.00777v1 )

ライセンス: Link先を確認
Sandeep Nagar, Prateek Pani, Raj Nair, Girish Varma(参考訳) 農産物の品質評価は、食品在庫を最小化するための重要なステップである。 しかし、現在は手作業で行われており、特にトウモロコシのような小さな種子では専門家の監督を必要とすることが多い。 本稿では,このプロセスを自動化するための新しいコンピュータビジョンベースシステムを提案する。 新しいシード画像取得セットアップを構築し、トップビューとボトムビューの両方をキャプチャします。 この問題のデータセット収集には、データアノテーションのコスト/時間とクラス不均衡の課題がある。 我々はこれらの課題に1人で対処する。 条件生成適応ネットワーク (CGAN) を用いて, より少ない画像とiiのクラスに対して, 現実的な画像を生成する。 ) バッチアクティブラーニング(bal)ベースのアノテーションツールを使用して、専門家による最小限の介入で大規模なデータセットに注釈を付ける。 得られたデータセットに異なる画像分類モデルをベンチマークする。 種子サンプルの物理的純度をテストするために、最大91.6%の精度を得ることができる。

Quality assessment of agricultural produce is a crucial step in minimizing food stock wastage. However, this is currently done manually and often requires expert supervision, especially in smaller seeds like corn. We propose a novel computer vision-based system for automating this process. We build a novel seed image acquisition setup, which captures both the top and bottom views. Dataset collection for this problem has challenges of data annotation costs/time and class imbalance. We address these challenges by i.) using a Conditional Generative Adversarial Network (CGAN) to generate real-looking images for the classes with lesser images and ii.) annotate a large dataset with minimal expert human intervention by using a Batch Active Learning (BAL) based annotation tool. We benchmark different image classification models on the dataset obtained. We are able to get accuracies of up to 91.6% for testing the physical purity of seed samples.
翻訳日:2021-10-05 15:19:34 公開日:2021-10-02
# ウェルシュに基づく多視点距離推定

Welsch Based Multiview Disparity Estimation ( http://arxiv.org/abs/2110.00803v1 )

ライセンス: Link先を確認
James L. Gray, Aous T. Naman, David S. Taubman(参考訳) 本研究では,多視点からの異質度推定について検討する。 オービテーションを多視点アプリケーションにおける不一致推定の重要な課題として実験的に同定した。 特に、オクルージョンは、データセットにより多くのビューを追加すると、実際に精度が低下する可能性がある。 分散度推定のためのグローバル変動フレームワークにおいて,データ項に対するウェルシュ損失関数の利用を提案する。 また,高空間周波数成分を初期イテレーションから廃棄する粗雑で細かな戦略の必要性を低減できる,規律的なウォーピング戦略とビュー戦略の漸進的包含を提案する。 実験の結果,提案手法は従来の変分法よりも優れた,あるいはより頑健な推定結果が得られることがわかった。

In this work, we explore disparity estimation from a high number of views. We experimentally identify occlusions as a key challenge for disparity estimation for applications with high numbers of views. In particular, occlusions can actually result in a degradation in accuracy as more views are added to a dataset. We propose the use of a Welsch loss function for the data term in a global variational framework for disparity estimation. We also propose a disciplined warping strategy and a progressive inclusion of views strategy that can reduce the need for coarse to fine strategies that discard high spatial frequency components from the early iterations. Experimental results demonstrate that the proposed approach produces superior and/or more robust estimates than other conventional variational approaches.
翻訳日:2021-10-05 15:19:22 公開日:2021-10-02
# 法律を単純化する: 情報理論を使って法的文書を複製する

Simplify Your Law: Using Information Theory to Deduplicate Legal Documents ( http://arxiv.org/abs/2110.00735v1 )

ライセンス: Link先を確認
Corinna Coupette, Jyotsna Singh, Holger Spamann(参考訳) テキストの冗長性は、法的テキストが理解可能かつ保守可能であることを保証するための大きな課題の1つである。 重複したコードを公開・排除する手法を開発したソフトウェア工学におけるリファクタリング文献からインスピレーションを得て,法文の重複文検出問題を導入し,その解法としてDupexアルゴリズムを提案する。 情報理論の最小記述長原理を活用し、デュペックスは入力テキストを最善に圧縮するパターンと呼ばれる一連の重複句を特定する。 米国コードのタイトルに関する広範な実験を通じて、我々のアルゴリズムが実際にうまく機能していることを確認します。

Textual redundancy is one of the main challenges to ensuring that legal texts remain comprehensible and maintainable. Drawing inspiration from the refactoring literature in software engineering, which has developed methods to expose and eliminate duplicated code, we introduce the duplicated phrase detection problem for legal texts and propose the Dupex algorithm to solve it. Leveraging the Minimum Description Length principle from information theory, Dupex identifies a set of duplicated phrases, called patterns, that together best compress a given input text. Through an extensive set of experiments on the Titles of the United States Code, we confirm that our algorithm works well in practice: Dupex will help you simplify your law.
翻訳日:2021-10-05 15:15:53 公開日:2021-10-02
# 差分プライバシー付きワンビットマトリックスコンプリート

One-Bit Matrix Completion with Differential Privacy ( http://arxiv.org/abs/2110.00719v1 )

ライセンス: Link先を確認
Zhengpin Li, Zheng Wei, Xiaojun Mao and Jian Wang(参考訳) マトリックス補完は、ユーザがパーソナライズされたサービスを提供するために提供されるデータを必要とするレコメンデーションシステムのための一般的な協調フィルタリング手法である。 しかし、悪質な攻撃と予期せぬ推測のため、ユーザーデータのリリースはしばしば深刻なプライバシー上の懸念を引き起こす。 既存のソリューションのほとんどは、一般的な行列補完のためのプライバシー保証の改善に重点を置いている。 特別な場合として、観測がバイナリであるレコメンデーションシステムでは、1ビット行列補完は幅広い実生活状況をカバーする。 本稿では,微分プライバシー制約下での1ビット行列補完のための新しい枠組みを提案する。 本研究では,複数の摂動機構を開発し,各機構が提供するプライバシー・正確性トレードオフを解析する。 合成と実世界の両方のデータセットで実施した実験により,提案手法は精度を損なうことなく高レベルのプライバシを維持することができることを示した。

Matrix completion is a prevailing collaborative filtering method for recommendation systems that requires the data offered by users to provide personalized service. However, due to insidious attacks and unexpected inference, the release of user data often raises serious privacy concerns. Most of the existing solutions focus on improving the privacy guarantee for general matrix completion. As a special case, in recommendation systems where the observations are binary, one-bit matrix completion covers a broad range of real-life situations. In this paper, we propose a novel framework for one-bit matrix completion under the differential privacy constraint. In this framework, we develop several perturbation mechanisms and analyze the privacy-accuracy trade-off offered by each mechanism. The experiments conducted on both synthetic and real-world datasets demonstrate that our proposed approaches can maintain high-level privacy with little loss of completion accuracy.
翻訳日:2021-10-05 15:14:39 公開日:2021-10-02
# ニューラルネットワークによる複雑スピンハミルトニアンの表現

Complex Spin Hamiltonian Represented by Artificial Neural Network ( http://arxiv.org/abs/2110.00724v1 )

ライセンス: Link先を確認
Hongyu Yu, Changsong Xu, Feng Lou, L. Bellaiche, Zhenpeng Hu, Xingao Gong, Hongjun Xiang(参考訳) 有効スピンハミルトン法は磁気の挙動をシミュレートし理解するために広く採用されている。 しかし、一意磁石のようないくつかの系の磁気相互作用は、明示的な関数によって記述するには複雑すぎるため、そのような系における磁気の正確な記述が妨げられる。 そこで我々は,ニューラルネットワーク(ANN)と局所スピンディスクリプタを応用した機械学習(ML)アプローチを提案し,任意の形の相互作用に対して有効なスピンポテンシャルを開発した。 構築されたハミルトニアンには、明示的なハイゼンベルク部分と暗黙の非線形ANN部分が含まれる。 このような方法は、人工的に構築されたモデルを再現し、バルクFe3GeTe2の繰り返し磁性を十分に記述する。 我々の研究は、磁気材料の複雑な磁気現象(例えば、スカイミオン)を研究する新しい方法である。

The effective spin Hamiltonian method is widely adopted to simulate and understand the behavior of magnetism. However, the magnetic interactions of some systems, such as itinerant magnets, are too complex to be described by any explicit function, which prevents an accurate description of magnetism in such systems. Here, we put forward a machine learning (ML) approach, applying an artificial neural network (ANN) and a local spin descriptor to develop effective spin potentials for any form of interaction. The constructed Hamiltonians include an explicit Heisenberg part and an implicit non-linear ANN part. Such a method successfully reproduces artificially constructed models and also sufficiently describe the itinerant magnetism of bulk Fe3GeTe2. Our work paves a new way for investigating complex magnetic phenomena (e.g., skyrmions) of magnetic materials.
翻訳日:2021-10-05 15:14:25 公開日:2021-10-02
# 操作計画のための符号付き距離場機能としての学習モデル

Learning Models as Functionals of Signed-Distance Fields for Manipulation Planning ( http://arxiv.org/abs/2110.00792v1 )

ライセンス: Link先を確認
Danny Driess, Jung-Su Ha, Marc Toussaint, Russ Tedrake(参考訳) 本研究では,シーン内のオブジェクトを表す符号付き距離場の目的を学習する最適化に基づく操作計画フレームワークを提案する。 ほとんどの操作計画手法は解析モデルと慎重に選択された抽象化/状態空間に頼っている。 中心的な疑問は、予測において主に正確ではなく、計画枠組み内で効率的な推論を可能にすると同時に、知覚空間と密接な関係を持つデータからモデルをどのように得るかである。 対象を符号付き距離場として表現することで,多種多様なモデルの学習と表現が可能となるだけでなく,sdfモデルが最適化に基づく計画に適合することを示す。 提案手法の汎用性を示すために,マウスをフックに掛けたり,テーブル上でオブジェクトをプッシュしたりするタスクを解決するために,運動モデルと動的モデルの両方を学ぶ。 sdfは共通のオブジェクト表現であるため、これら全く異なるタスクを1つのフレームワークで統一することができます。 ビデオ: https://youtu.be/ga8 Wlkss7co

This work proposes an optimization-based manipulation planning framework where the objectives are learned functionals of signed-distance fields that represent objects in the scene. Most manipulation planning approaches rely on analytical models and carefully chosen abstractions/state-s paces to be effective. A central question is how models can be obtained from data that are not primarily accurate in their predictions, but, more importantly, enable efficient reasoning within a planning framework, while at the same time being closely coupled to perception spaces. We show that representing objects as signed-distance fields not only enables to learn and represent a variety of models with higher accuracy compared to point-cloud and occupancy measure representations, but also that SDF-based models are suitable for optimization-based planning. To demonstrate the versatility of our approach, we learn both kinematic and dynamic models to solve tasks that involve hanging mugs on hooks and pushing objects on a table. We can unify these quite different tasks within one framework, since SDFs are the common object representation. Video: https://youtu.be/ga8 Wlkss7co
翻訳日:2021-10-05 15:14:12 公開日:2021-10-02
# SHARP:安全かつ効率的なロボットインタラクションのためのシールド対応ロバスト計画

SHARP: Shielding-Aware Robust Planning for Safe and Efficient Human-Robot Interaction ( http://arxiv.org/abs/2110.00843v1 )

ライセンス: Link先を確認
Haimin Hu, Kensuke Nakamura, Jaime F. Fisac(参考訳) 人間とロボットの相互作用(HRI)設定における安全性と効率性の両立は、ロボットの計画目標が人間の意図と期待に反する可能性があるため、難しい問題である。 近年のアプローチでは、安全クリティカルイベントが差し迫った場合に、ロボットの名目上の計画と安全フォールバック戦略をオーバーライドする「シールドディング」と呼ばれる監視制御スキームを通じて、不確実な環境での安全ロボットの動作を保証する。 これらの反応性の「ラスト・リゾート」戦略(通常は積極的緊急行動の形で)は、効率を考慮せずに安全を維持することに焦点を当てており、名目上のプランナーが安全上のオーバーライドを意識していない場合、シールドは必要以上に頻繁に作動し、性能が低下する。 本研究では,ロボットが将来の遮蔽イベントを明示的に考慮し,効率的に計画できる新しい遮蔽型計画手法を提案する。 ベイズ人の人間の動作予測に関する最近の研究を活用し、結果として生じるロボットポリシーは、低確率な人間の行動によって引き起こされる高コストの緊急操作のリスクと、名目のパフォーマンスを積極的にバランスさせる。 遮蔽認識型ロバスト計画 (sharp) を確率的最適制御問題として定式化し, 計算効率の高い近似解を求めるフレームワークを提案する。 提案手法は,最近リリースされたwaymo open motionデータセットから取得したヒューマントラジェクタを用いたシミュレーション駆動例において,遮蔽非依存なモーションプランニングベースライン(同一のヒューマンインテント推論スキームを備える)を上回っている。

Jointly achieving safety and efficiency in human-robot interaction (HRI) settings is a challenging problem, as the robot's planning objectives may be at odds with the human's own intent and expectations. Recent approaches ensure safe robot operation in uncertain environments through a supervisory control scheme, sometimes called "shielding", which overrides the robot's nominal plan with a safety fallback strategy when a safety-critical event is imminent. These reactive "last-resort" strategies (typically in the form of aggressive emergency maneuvers) focus on preserving safety without efficiency considerations; when the nominal planner is unaware of possible safety overrides, shielding can be activated more frequently than necessary, leading to degraded performance. In this work, we propose a new shielding-based planning approach that allows the robot to plan efficiently by explicitly accounting for possible future shielding events. Leveraging recent work on Bayesian human motion prediction, the resulting robot policy proactively balances nominal performance with the risk of high-cost emergency maneuvers triggered by low-probability human behaviors. We formalize Shielding-Aware Robust Planning (SHARP) as a stochastic optimal control problem and propose a computationally efficient framework for finding tractable approximate solutions at runtime. Our method outperforms the shielding-agnostic motion planning baseline (equipped with the same human intent inference scheme) on simulated driving examples with human trajectories taken from the recently released Waymo Open Motion Dataset.
翻訳日:2021-10-05 15:06:44 公開日:2021-10-02
# 正規化フローを用いたSLAMのオンラインインクリメンタル非ガウス推論

Online Incremental Non-Gaussian Inference for SLAM Using Normalizing Flows ( http://arxiv.org/abs/2110.00876v1 )

ライセンス: Link先を確認
Qiangqiang Huang, Can Pu, Kasra Khosoussi, David M. Rosen, Dehann Fourie, Jonathan P. How, John J. Leonard(参考訳) 本稿では,非ガウス因子および/または非線形測定モデルを用いたSLAM問題の解法として,新しい非ガウス推論アルゴリズムである正規化フローiSAM(NF-iSAM)を提案する。 NF-iSAMはニューラルネットワークの表現力を利用して正規化フローをモデル化し、高非線形および非ガウス因子グラフの結合後部を正確に近似することができる。 ベイズツリーを利用することで、NF-iSAMはSLAMの空間構造を利用することができ、より困難な非ガウス的な設定ではiSAM2と同様の効率的な漸進的な更新を可能にする。 我々はNF-iSAMの性能を実証し,iSAM2 (Gaussian) や mm-iSAM (non-Gaussian) といった最先端のアルゴリズムと比較した。

This paper presents a novel non-Gaussian inference algorithm, Normalizing Flow iSAM (NF-iSAM), for solving SLAM problems with non-Gaussian factors and/or nonlinear measurement models. NF-iSAM exploits the expressive power of neural networks to model normalizing flows that can accurately approximate the joint posterior of highly nonlinear and non-Gaussian factor graphs. By leveraging the Bayes tree, NF-iSAM is able to exploit the sparsity structure of SLAM, thus enabling efficient incremental updates similar to iSAM2, although in the more challenging non-Gaussian setting. We demonstrate the performance of NF-iSAM and compare it against state-of-the-art algorithms such as iSAM2 (Gaussian) and mm-iSAM (non-Gaussian) in synthetic and real range-only SLAM datasets with data association ambiguity.
翻訳日:2021-10-05 15:06:15 公開日:2021-10-02
# 安定度を保証した学習制御のための神経収縮指標の理論的概要

A Theoretical Overview of Neural Contraction Metrics for Learning-based Control with Guaranteed Stability ( http://arxiv.org/abs/2110.00693v1 )

ライセンス: Link先を確認
Hiroyasu Tsukamoto and Soon-Jo Chung and Jean-Jacques Slotine and Chuchu Fan(参考訳) 本稿では, 最適収縮計量とそれに対応する微分リアプノフ関数のニューラルネットワークモデルであるニューラル収縮計量(ncm)の理論的概要について述べる。 その革新は、学習ベースの制御フレームワークに形式的な堅牢性を保証することにあり、コンベックス最適化を通じて学習システムの非線形安定性を研究するための分析ツールとして収縮理論を利用する。 特に, 学習スキームの誤差を外乱としてモデル化することにより, NCM制御は, 決定論的・確率的摂動の存在下においても時間とともに指数関数的に減少する時間変化対象軌跡と摂動解軌跡との距離の明示的境界を求めることができることを示す。 これらの有用な特徴により、ニューラルネットワークによる収縮計量と関連する制御法則の同時合成が可能となり、一般的な制御親和性非線形システムに対して、リアルタイムの計算可能でおそらくロバストな学習ベースの制御が可能になる。

This paper presents a theoretical overview of a Neural Contraction Metric (NCM): a neural network model of an optimal contraction metric and corresponding differential Lyapunov function, the existence of which is a necessary and sufficient condition for incremental exponential stability of non-autonomous nonlinear system trajectories. Its innovation lies in providing formal robustness guarantees for learning-based control frameworks, utilizing contraction theory as an analytical tool to study the nonlinear stability of learned systems via convex optimization. In particular, we rigorously show in this paper that, by regarding modeling errors of the learning schemes as external disturbances, the NCM control is capable of obtaining an explicit bound on the distance between a time-varying target trajectory and perturbed solution trajectories, which exponentially decreases with time even under the presence of deterministic and stochastic perturbation. These useful features permit simultaneous synthesis of a contraction metric and associated control law by a neural network, thereby enabling real-time computable and probably robust learning-based control for general control-affine nonlinear systems.
翻訳日:2021-10-05 15:03:05 公開日:2021-10-02
# クエリを用いたランダムサブグラフ検出

Random Subgraph Detection Using Queries ( http://arxiv.org/abs/2110.00744v1 )

ライセンス: Link先を確認
Wasim Huleihel and Arya Mazumdar and Soumyabrata Pal(参考訳) 植込み高密度部分グラフ検出問題は、与えられた(ランダム)グラフに異常に密度の高い部分グラフが存在するかどうかをテストするタスクを指す。 具体的には、$n$ノード上の非方向および非重み付きグラフを観察します。 ヌル仮説の下で、グラフは erd\h{o}s-r\'{e}nyi グラフのエッジ確率(または密度) $q$ による実現である。 代替案として、k$頂点にエッジ確率$p>q$のサブグラフがある。 この問題の統計的および計算的障壁は、広範囲のエッジパラメーター $p$ と $q$ についてよく理解されている。 本稿では,適応的なエッジクエリを用いて,グラフのごく一部しか観測できない,上記の問題の自然な変形について考察する。 そこで,本モデルでは,植込みされたサブグラフの存在を検出するのに必要なクエリ数が決定される。 具体的には、任意の(確率的にランダム化された)アルゴリズムは、$\mathsf{Q} = \Omega(\frac{n^2}{k^2\chi^4(p||q)}\log^2n)$のグラフの隣接行列への適応的クエリを1/2$以上の確率で検出し、$\chi^2(p||q)$がChi-Square距離であることを示す。 一方,準多項時間アルゴリズムを考案し,$\mathsf{q} = o(\frac{n^2}{k^2\chi^4(p||q)}\log^2n)$適応クエリを用いて,高い確率で植込み部分グラフを求める。 次に,$\mathsf{q} = o(\frac{n^4}{k^4\chi^2(p||q)}\log n)$クエリを用いて植込み部分グラフを検出する多項式時間アルゴリズムを提案する。 我々は、$\frac{n^2}{k^2}\ll\mathsf{Q}\ll \frac{n^4}{k^4}$の場合、多項式時間アルゴリズムは存在しないと推測する。 本研究は, 植樹されたクランクを適応的に検出し, 回収する特別のケースを考慮し, 以下の3つの疑問を解決した。

The planted densest subgraph detection problem refers to the task of testing whether in a given (random) graph there is a subgraph that is unusually dense. Specifically, we observe an undirected and unweighted graph on $n$ nodes. Under the null hypothesis, the graph is a realization of an Erd\H{o}s-R\'{e}nyi graph with edge probability (or, density) $q$. Under the alternative, there is a subgraph on $k$ vertices with edge probability $p>q$. The statistical as well as the computational barriers of this problem are well-understood for a wide range of the edge parameters $p$ and $q$. In this paper, we consider a natural variant of the above problem, where one can only observe a small part of the graph using adaptive edge queries. For this model, we determine the number of queries necessary and sufficient for detecting the presence of the planted subgraph. Specifically, we show that any (possibly randomized) algorithm must make $\mathsf{Q} = \Omega(\frac{n^2}{k^2\chi^4(p||q)}\log^2n)$ adaptive queries (on expectation) to the adjacency matrix of the graph to detect the planted subgraph with probability more than $1/2$, where $\chi^2(p||q)$ is the Chi-Square distance. On the other hand, we devise a quasi-polynomial-tim e algorithm that finds the planted subgraph with high probability by making $\mathsf{Q} = O(\frac{n^2}{k^2\chi^4(p||q)}\log^2n)$ adaptive queries. We then propose a polynomial-time algorithm which is able to detect the planted subgraph using $\mathsf{Q} = O(\frac{n^4}{k^4\chi^2(p||q)}\log n)$ queries. We conjecture that in the leftover regime, where $\frac{n^2}{k^2}\ll\mathsf{Q}\ll \frac{n^4}{k^4}$, no polynomial-time algorithms exist; we give an evidence for this hypothesis using the planted clique conjecture. Our results resolve three questions posed in \cite{racz2020finding}, where the special case of adaptive detection and recovery of a planted clique was considered.
翻訳日:2021-10-05 15:02:45 公開日:2021-10-02
# (参考訳) 自動運転における緊急車両の音声検出と位置決め [全文訳有]

Emergency Vehicles Audio Detection and Localization in Autonomous Driving ( http://arxiv.org/abs/2109.14797v2 )

ライセンス: CC BY 4.0
Hongyi Sun, Xinyi Liu, Kecheng Xu, Jinghao Miao, Qi Luo(参考訳) 救急車両は、他の全ての車両に対して通行権を有する。 したがって、他の全ての車両は、アクティブサイレンで緊急車両を生産するために適切な行動をとる必要がある。 このタスクは、人間のドライバーのための耳と目との協調を必要とするため、完全自律運転車のための視覚ベースのアルゴリズムの補助として、音声検出も必要である。 都市交通のシナリオでは、緊急車両の存在と、適切な行動を決定するための相対的な位置の両方を知る必要がある。 本稿では,2つのコスト効率のよいマイクロホンを用いて,実世界のサイレンデータを収集するシステムを提案する。 我々は,特に10mから50mの範囲において,各タスクに対して有望なパフォーマンスを達成することができる(エゴ車両のサイズは長さ約5m,幅約2m)。 サイレンの存在を決定するリコールレートは99.16%で、中央値と平均値の絶対誤差はそれぞれ9.64{\degと19.18{\degであり、中央値と平均距離の絶対誤差はそれぞれ9.30mと10.58mである。 また,50msのレイテンシで方向と距離を同時に含むサイレンの存在と音源の定位を決定するための機械学習アプローチをベンチマークする。

Emergency vehicles in service have right-of-way over all other vehicles. Hence, all other vehicles are supposed to take proper actions to yield emergency vehicles with active sirens. As this task requires the cooperation between ears and eyes for human drivers, it also needs audio detection as a supplement to vision-based algorithms for fully autonomous driving vehicles. In urban driving scenarios, we need to know both the existence of emergency vehicles and their relative positions to us to decide the proper actions. We present a novel system from collecting the real-world siren data to the deployment of models using only two cost-efficient microphones. We are able to achieve promising performance for each task separately, especially within the crucial 10m to 50m distance range to react (the size of our ego vehicle is around 5m in length and 2m in width). The recall rate to determine the existence of sirens is 99.16% , the median and mean angle absolute error is 9.64{\deg} and 19.18{\deg} respectively, and the median and mean distance absolute error of 9.30m and 10.58m respectively within that range. We also benchmark various machine learning approaches that can determine the siren existence and sound source localization which includes direction and distance simultaneously within 50ms of latency.
翻訳日:2021-10-05 09:24:45 公開日:2021-10-02