このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220106となっている論文です。

PDF登録状況(公開日: 20220106)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 進化型ニューラルネットワークの探索 [全文訳有]

Exploring Kervolutional Neural Networks ( http://arxiv.org/abs/2201.07264v1 )

ライセンス: CC BY 4.0
Nicolas Perez(参考訳) cvpr 2019で発表された論文では、新たなタイプの拡張畳み込みニューラルネットワーク(cnn)で使用される、"kervolutional neural network"(knn)と呼ばれる新しいテクニックが概説されている。 論文は、KNNはCNNよりも早く収束し、高い精度を達成すると主張している。 この「ミニペーパー」は、元の論文の発見をさらに調べ、KNNアーキテクチャのより詳細な分析を行う。 これは、KNNとCNNに対するハイパーパラメータ(特に学習率)の影響を分析し、元の論文ではテストされていない他のタイプのカーボリューション操作の実験、精度と収束時間のより厳密な統計分析、さらなる理論的分析によって行われる。 添付コードも公開されている。

A paper published in the CVPR 2019 conference outlines a new technique called 'kervolution' used in a new type of augmented convolutional neural network (CNN) called a 'kervolutional neural network' (KNN). The paper asserts that KNNs achieve faster convergence and higher accuracies than CNNs. This "mini paper" will further examine the findings in the original paper and perform a more in depth analysis of the KNN architecture. This will be done by analyzing the impact of hyper parameters (specifically the learning rate) on KNNs versus CNNs, experimenting with other types of kervolution operations not tested in the original paper, a more rigourous statistical analysis of accuracies and convergence times and additional theoretical analysis. The accompanying code is publicly available.
翻訳日:2022-01-23 21:18:17 公開日:2022-01-06
# (参考訳) CausalKG:介入と反事実推論を用いた因果知識グラフの説明可能性 [全文訳有]

CausalKG: Causal Knowledge Graph Explainability using interventional and counterfactual reasoning ( http://arxiv.org/abs/2201.03647v1 )

ライセンス: CC BY 4.0
Utkarshani Jaimini, Amit Sheth(参考訳) 人間は日常的な意思決定、計画、人生の出来事の理解において因果関係と仮説的振り返りを用いる。 人間の心は、与えられた状況を振り返りながら、「与えられた状況の原因は何か?」「私の行動の効果は何か?」「この効果はどのような行動に導かれたのか?」といった疑問を思い浮かべる。 それは世界の因果モデルを開発し、少ないデータポイントで学習し、推論を行い、反現実的なシナリオを考えます。 未知の、未知のシナリオは偽物として知られている。 AIアルゴリズムは、時間、空間、事実の概念を表現するために知識グラフ(KG)に基づく表現を使用する。 KGは、イベントやオブジェクト、概念といったエンティティ間のセマンティックな関係をキャプチャするグラフィカルデータモデルである。 既存のKGは、ConceptNetやWordNetのように、語句の言語パターンに基づいてテキストから抽出された因果関係を表す。 kgsにおける現在の因果関係表現は、偽りの推論をサポートするのに困難である。 KGベースのアプローチによるAIシステムの因果関係のより豊かな表現は、説明可能性の向上と介入と反事実推論のサポートのために必要であり、それによって人間によるAIシステムの理解が向上する。 因果関係表現は、文脈、因果情報、因果効果を定義するためのより高い表現枠組みを必要とする。 因果知識グラフ(Causal Knowledge Graph, CausalKG)フレームワークは、因果性やKGの最近の進歩を説明可能性に活用する。 CausalKGは、ドメイン適応型因果モデルの欠如に対処し、KGのハイパーリレーショナルグラフ表現を用いて複雑な因果関係を表現する。 我々は、CausalKGの介入的および反ファクト的推論が、AIシステムによってドメイン説明可能性に利用できることを示した。

Humans use causality and hypothetical retrospection in their daily decision-making, planning, and understanding of life events. The human mind, while retrospecting a given situation, think about questions such as "What was the cause of the given situation?", "What would be the effect of my action?", or "Which action led to this effect?". It develops a causal model of the world, which learns with fewer data points, makes inferences, and contemplates counterfactual scenarios. The unseen, unknown, scenarios are known as counterfactuals. AI algorithms use a representation based on knowledge graphs (KG) to represent the concepts of time, space, and facts. A KG is a graphical data model which captures the semantic relationships between entities such as events, objects, or concepts. The existing KGs represent causal relationships extracted from texts based on linguistic patterns of noun phrases for causes and effects as in ConceptNet and WordNet. The current causality representation in KGs makes it challenging to support counterfactual reasoning. A richer representation of causality in AI systems using a KG-based approach is needed for better explainability, and support for intervention and counterfactuals reasoning, leading to improved understanding of AI systems by humans. The causality representation requires a higher representation framework to define the context, the causal information, and the causal effects. The proposed Causal Knowledge Graph (CausalKG) framework, leverages recent progress of causality and KG towards explainability. CausalKG intends to address the lack of a domain adaptable causal model and represent the complex causal relations using the hyper-relational graph representation in the KG. We show that the CausalKG's interventional and counterfactual reasoning can be used by the AI system for the domain explainability.
翻訳日:2022-01-16 16:30:47 公開日:2022-01-06
# (参考訳) エキスパート補正を用いたbitcoin価格予測モデリング [全文訳有]

Bitcoin Price Predictive Modeling Using Expert Correction ( http://arxiv.org/abs/2201.02729v1 )

ライセンス: CC BY 4.0
Bohdan M. Pavlyshenko(参考訳) この論文は、Bitcoin通貨統計、マイニングプロセス、Google検索トレンド、Wikipediaページ訪問に基づくレグレッション機能を含む、Bitcoin価格の線形モデルを研究する。 実価格からの回帰モデル予測のずれのパターンは、価格時系列と比較するとより単純である。 このパターンは経験豊富な専門家によって予測できると考えられる。 このような方法で、回帰モデルと専門家の補正を組み合わせることで、回帰モデルや専門家の意見よりも優れた結果を得ることができるのです。 ベイジアンアプローチは、太い尾を持つ分布を用いて確率的アプローチを利用でき、Bitcoin価格時系列の外れ値を考慮することができることが示されている。

The paper studies the linear model for Bitcoin price which includes regression features based on Bitcoin currency statistics, mining processes, Google search trends, Wikipedia pages visits. The pattern of deviation of regression model prediction from real prices is simpler comparing to price time series. It is assumed that this pattern can be predicted by an experienced expert. In such a way, using the combination of the regression model and expert correction, one can receive better results than with either regression model or expert opinion only. It is shown that Bayesian approach makes it possible to utilize the probabilistic approach using distributions with fat tails and take into account the outliers in Bitcoin price time series.
翻訳日:2022-01-13 01:02:44 公開日:2022-01-06
# (参考訳) 包括的RFデータセット収集とリリース:深層学習型デバイスフィンガープリントのユースケース [全文訳有]

Comprehensive RF Dataset Collection and Release: A Deep Learning-Based Device Fingerprinting Use Case ( http://arxiv.org/abs/2201.02213v1 )

ライセンス: CC0 1.0
Abdurrahman Elmaghbub, Bechir Hamdaoui(参考訳) ディープラーニングベースのRFフィンガープリントは、スペクトルアクセスポリシーの執行、自動ネットワークデバイス認証、不正なネットワークアクセス監視と制御など、新しい無線ネットワークアプリケーションを可能にする潜在的ソリューションとして最近認識されている。 新たに開発されたRFフィンガープリント手法の研究、評価、検証を可能にするために、実際の包括的なRFデータセットはこれまでになく必要となっている。 本稿では,USRP B210受信機を用いて,25種類のLoRa対応IoT伝送デバイスから収集した大規模RFフィンガープリントデータセットについて述べる。 我々のデータセットは、多数のSigMF準拠バイナリファイルからなり、I/Q時間領域のサンプルと対応するFFTベースのLoRa送信ファイルで構成されている。 このデータセットは、屋内と屋外の両方の環境と、送信機と受信機の間の距離、考慮されたLoRa変調の設定、実施された実験の物理的位置、ニューラルネットワークモデルのトレーニングとテストに使用される受信機ハードウェアなど、様々なネットワーク配置と構成を考慮して、包括的な実験シナリオを提供する。

Deep learning-based RF fingerprinting has recently been recognized as a potential solution for enabling newly emerging wireless network applications, such as spectrum access policy enforcement, automated network device authentication, and unauthorized network access monitoring and control. Real, comprehensive RF datasets are now needed more than ever to enable the study, assessment, and validation of newly developed RF fingerprinting approaches. In this paper, we present and release a large-scale RF fingerprinting dataset, collected from 25 different LoRa-enabled IoT transmitting devices using USRP B210 receivers. Our dataset consists of a large number of SigMF-compliant binary files representing the I/Q time-domain samples and their corresponding FFT-based files of LoRa transmissions. This dataset provides a comprehensive set of essential experimental scenarios, considering both indoor and outdoor environments and various network deployments and configurations, such as the distance between the transmitters and the receiver, the configuration of the considered LoRa modulation, the physical location of the conducted experiment, and the receiver hardware used for training and testing the neural network models.
翻訳日:2022-01-10 23:08:45 公開日:2022-01-06
# (参考訳) 大規模タンパク質-タンパク質-翻訳後修飾抽出法 [全文訳有]

Large-scale protein-protein post-translational modification extraction with distant supervision and confidence calibrated BioBERT ( http://arxiv.org/abs/2201.02229v1 )

ライセンス: CC BY 4.0
Aparna Elangovan, Yuan Li, Douglas E. V. Pires, Melissa J. Davis and Karin Verspoor(参考訳) タンパク質とタンパク質の相互作用(PPI)は正常な細胞機能に重要であり、多くの疾患経路と関連している。 しかし、ppisの4%がptmを無傷の生物学的知識データベースにアノテートしており、主に手動のキュレーションによって行われているが、時間や費用効果はない。 IntAct PPIデータベースを用いて、相互作用するタンパク質対、対応するPTMタイプ、およびPubMedデータベースからの関連する抽象化を付加した遠隔教師付きデータセットを作成する。 信頼性校正を改善するため,BioBERTモデルを用いたPPI-BioBERT-x10のアンサンブルを訓練する。 本稿では,信頼度変化を伴うアンサンブル平均信頼度アプローチの利用を拡張し,クラス不均衡の効果を相殺して高い信頼度を推定する。 テストセットで評価されたPPI-BioBERT-x10モデルは、控えめなF1-micro 41.3(P =5.1、R = 32.1)となった。 しかし、高い信頼性と低変動を組み合わせて高品質な予測を識別し、精度の予測を調整することで、100%精度でテスト予測の19%を維持した。 PPI-BioBERT-x10を1千万のPubMed抽象体上で評価し,PTM-PPI予測から1.6万(546507個)のPTM-PPI予測とフィルタ5700(4584個)の高信頼予測を抽出した。 5700のうち、ランダムにサンプリングされた小さなサブセットに対する人間による評価は、信頼性校正にもかかわらず精度が33.7%に低下し、信頼性校正においてもテストセットを超えて一般可能性の課題が強調された。 複数の論文に関連付けられた予測を含まないことで問題を回避し,58.8%の精度で精度を向上する。 本研究は,深層学習によるテキストマイニングの実践におけるメリットと課題と,人間のキュレーション活動を促進するための信頼性校正の強調の必要性を強調した。

Protein-protein interactions (PPIs) are critical to normal cellular function and are related to many disease pathways. However, only 4% of PPIs are annotated with PTMs in biological knowledge databases such as IntAct, mainly performed through manual curation, which is neither time nor cost-effective. We use the IntAct PPI database to create a distant supervised dataset annotated with interacting protein pairs, their corresponding PTM type, and associated abstracts from the PubMed database. We train an ensemble of BioBERT models - dubbed PPI-BioBERT-x10 to improve confidence calibration. We extend the use of ensemble average confidence approach with confidence variation to counteract the effects of class imbalance to extract high confidence predictions. The PPI-BioBERT-x10 model evaluated on the test set resulted in a modest F1-micro 41.3 (P =5 8.1, R = 32.1). However, by combining high confidence and low variation to identify high quality predictions, tuning the predictions for precision, we retained 19% of the test predictions with 100% precision. We evaluated PPI-BioBERT-x10 on 18 million PubMed abstracts and extracted 1.6 million (546507 unique PTM-PPI triplets) PTM-PPI predictions, and filter ~ 5700 (4584 unique) high confidence predictions. Of the 5700, human evaluation on a small randomly sampled subset shows that the precision drops to 33.7% despite confidence calibration and highlights the challenges of generalisability beyond the test set even with confidence calibration. We circumvent the problem by only including predictions associated with multiple papers, improving the precision to 58.8%. In this work, we highlight the benefits and challenges of deep learning-based text mining in practice, and the need for increased emphasis on confidence calibration to facilitate human curation efforts.
翻訳日:2022-01-10 22:56:16 公開日:2022-01-06
# (参考訳) ブラジルのジャーナリストを対象とした情報運用におけるバレンス測定への単語埋め込みの適用 [全文訳有]

Applying Word Embeddings to Measure Valence in Information Operations Targeting Journalists in Brazil ( http://arxiv.org/abs/2201.02257v1 )

ライセンス: CC0 1.0
David A. Broniatowski(参考訳) 情報操作の目標は、情報環境 vis-\'a-vis 特定のアクターを変更することである。 例えば「トロール運動」は、特定の公的人物の信用を弱体化させ、他人を不信にさせ、これらの人物を脅かして沈黙させようとする。 これらの目的を達成するため、情報活動では、これらの人物の言葉による虐待を狙う悪意のあるオンラインアクターである「トロール」を頻繁に利用している。ブラジルでは、特にブラジルの現大統領の同盟国が、この政治家や他の政権の汚職を訴えるジャーナリストを狙った「ヘイト・キャビネット」を運営していると非難されている。 GoogleのパースペクティブAPIのような有害なスピーチを検出するための主要なアプローチは、有害なコンテンツで特定のメッセージを特定することである。 このアプローチはコンテンツをダウンランク、フラグ、削除するのに役立つが、脆いことが知られており、会話により微妙なバイアスを導入する試みを見逃す可能性がある。 ここでは,対象とする情報操作が,特定の俳優の総合的価値や評価をいかに変えようとするかを評価するための尺度を開発することを目的とする。 予備結果は、既知のキャンペーンが男性ジャーナリストよりも女性ジャーナリストをターゲットにしていることを示唆している。

Among the goals of information operations are to change the overall information environment vis-\'a-vis specific actors. For example, "trolling campaigns" seek to undermine the credibility of specific public figures, leading others to distrust them and intimidating these figures into silence. To accomplish these aims, information operations frequently make use of "trolls" -- malicious online actors who target verbal abuse at these figures. In Brazil, in particular, allies of Brazil's current president have been accused of operating a "hate cabinet" -- a trolling operation that targets journalists who have alleged corruption by this politician and other members of his regime. Leading approaches to detecting harmful speech, such as Google's Perspective API, seek to identify specific messages with harmful content. While this approach is helpful in identifying content to downrank, flag, or remove, it is known to be brittle, and may miss attempts to introduce more subtle biases into the discourse. Here, we aim to develop a measure that might be used to assess how targeted information operations seek to change the overall valence, or appraisal, of specific actors. Preliminary results suggest known campaigns target female journalists more so than male journalists, and that these campaigns may leave detectable traces in overall Twitter discourse.
翻訳日:2022-01-10 22:29:41 公開日:2022-01-06
# (参考訳) ITSA:ステレオマッチングネットワークにおける自動ショートカット回避とドメイン一般化のための情報理論アプローチ [全文訳有]

ITSA: An Information-Theoreti c Approach to Automatic Shortcut Avoidance and Domain Generalization in Stereo Matching Networks ( http://arxiv.org/abs/2201.02263v1 )

ライセンス: CC BY 4.0
WeiQin Chuah, Ruwan Tennakoon, Reza Hoseinnezhad, Alireza Bab-Hadiashar, David Suter(参考訳) 合成データだけで訓練された最先端のステレオマッチングネットワークは、しばしばより困難な実際のデータドメインに一般化できない。 本稿では,ショートカット学習のレンズを通して,ドメイン間のネットワークの一般化を妨げる重要な要因を開拓しようと試みる。 ステレオマッチングネットワークにおける特徴表現の学習は,合成データアーティファクト(ショートカット属性)の影響を強く受けている。 この問題を軽減するために,情報理論的ショートカット回避(ITSA)アプローチを提案し,ショートカット関連情報を特徴表現にエンコードすることを自動的に制限する。 提案手法は,入力変動に対する潜在特徴の感度を最小化し,ロバストで近距離不変な特徴を学習する。 直接入力感度最適化の計算コストの禁止を回避するため,ロバスト性を実現するための有効なアルゴリズムを提案する。 この手法を用いることで,純粋に合成データに基づいてトレーニングされた最先端のステレオマッチングネットワークが,実データシナリオの挑戦的かつ未認識に効果的に一般化できることを示す。 提案手法は,合成学習ネットワークのロバスト性を向上し,ドメイン外のステレオデータセットに挑戦するために(実データ上で)微調整されたネットワークよりも優れた性能を発揮する。

State-of-the-art stereo matching networks trained only on synthetic data often fail to generalize to more challenging real data domains. In this paper, we attempt to unfold an important factor that hinders the networks from generalizing across domains: through the lens of shortcut learning. We demonstrate that the learning of feature representations in stereo matching networks is heavily influenced by synthetic data artefacts (shortcut attributes). To mitigate this issue, we propose an Information-Theoreti c Shortcut Avoidance~(ITSA) approach to automatically restrict shortcut-related information from being encoded into the feature representations. As a result, our proposed method learns robust and shortcut-invariant features by minimizing the sensitivity of latent features to input variations. To avoid the prohibitive computational cost of direct input sensitivity optimization, we propose an effective yet feasible algorithm to achieve robustness. We show that using this method, state-of-the-art stereo matching networks that are trained purely on synthetic data can effectively generalize to challenging and previously unseen real data scenarios. Importantly, the proposed method enhances the robustness of the synthetic trained networks to the point that they outperform their fine-tuned counterparts (on real data) for challenging out-of-domain stereo datasets.
翻訳日:2022-01-10 22:17:23 公開日:2022-01-06
# (参考訳) 敵対的に堅牢で差別的にプライベートであることを学ぶ [全文訳有]

Learning to be adversarially robust and differentially private ( http://arxiv.org/abs/2201.02265v1 )

ライセンス: CC BY 4.0
Jamie Hayes, Borja Balle, M. Pawan Kumar(参考訳) 我々は,ロバストかつ差動的にプライベートな最適化から生じる学習の難しさについて検討する。 まず,線形分離データに対する単純な二分分類タスクを例にとり,微分プライバシーを用いた勾配降下型逆学習の収束について検討した。 個人と非個人の両方において,敵対的リスクと名目的リスクのギャップを比較検討した結果,個人的最適化によって引き起こされるデータ次元依存項は頑健なモデルを学ぶことの難しさを示している。 その後、敵のトレーニングと差分プライバシーのどの部分が最適化を損なうかについて議論し、対立の摂動の大きさと差分プライバシーにおけるクリッピング規範が、損失景観の曲率を増大させ、一般化性能の低下を示唆する。

We study the difficulties in learning that arise from robust and differentially private optimization. We first study convergence of gradient descent based adversarial training with differential privacy, taking a simple binary classification task on linearly separable data as an illustrative example. We compare the gap between adversarial and nominal risk in both private and non-private settings, showing that the data dimensionality dependent term introduced by private optimization compounds the difficulties of learning a robust model. After this, we discuss what parts of adversarial training and differential privacy hurt optimization, identifying that the size of adversarial perturbation and clipping norm in differential privacy both increase the curvature of the loss landscape, implying poorer generalization performance.
翻訳日:2022-01-10 22:00:05 公開日:2022-01-06
# (参考訳) PWM2Vec: コロナウイルススパイク配列からのウイルス宿主仕様の効率的な埋め込み手法 [全文訳有]

PWM2Vec: An Efficient Embedding Approach for Viral Host Specification from Coronavirus Spike Sequences ( http://arxiv.org/abs/2201.02273v1 )

ライセンス: CC0 1.0
Sarwan Ali, Babatunde Bello, Prakash Chourasia, Ria Thazhe Punathil, Yijing Zhou, Murray Patterson(参考訳) 新型コロナウイルス(covid-19)のパンデミックはまだ不明だ。 コウモリが起源の可能性があるという憶測がある。 同様に、SARSのような近縁な(コロナウイルス)ウイルスが多数存在し、シベットを介して感染することが判明した。 ヒトへの致命的なウイルスのキャリアや送信者になりうる異なるホストの研究は、現在のパンデミックと将来のパンデミックを理解し、緩和し、予防するために重要である。 ウイルスでは、表面(s)タンパク質またはスパイクタンパク質は、ウイルスと宿主細胞膜との接触点であるため、宿主特異性を決定する重要な部分である。 本稿では, スパイクタンパク質配列から500万以上のウイルスの宿主を分類し, 鳥類, コウモリ, ラクダ, 豚, 人間, 麻疹の異なる宿主群に分離し, 数種の宿主を同定する。 我々は、PWM2Vecと呼ばれるよく知られた位置重み行列(PWM)に基づく特徴埋め込みを提案し、これらのウイルスのスパイクタンパク質配列から特徴ベクトルを生成する。 我々の埋め込みは、タンパク質機能の決定や転写因子結合部位の同定などの生物学的応用におけるPWMsの成功に触発されているが、ウイルス配列からのホスト分類の文脈でPWMsを使用して固定長の特徴ベクトル表現を生成するのはこれが初めてである。 実世界のデータから,PWM2Vecを用いることで,ベースラインモデルと同等に動作可能であることが示された。 また、情報ゲインを用いて異なるアミノ酸の重要性を測定し、特定のウイルスの宿主を予測する上で重要なアミノ酸を示す。

COVID-19 pandemic, is still unknown and is an important open question. There are speculations that bats are a possible origin. Likewise, there are many closely related (corona-) viruses, such as SARS, which was found to be transmitted through civets. The study of the different hosts which can be potential carriers and transmitters of deadly viruses to humans is crucial to understanding, mitigating and preventing current and future pandemics. In coronaviruses, the surface (S) protein, or spike protein, is an important part of determining host specificity since it is the point of contact between the virus and the host cell membrane. In this paper, we classify the hosts of over five thousand coronaviruses from their spike protein sequences, segregating them into clusters of distinct hosts among avians, bats, camels, swines, humans and weasels, to name a few. We propose a feature embedding based on the well-known position-weight matrix (PWM), which we call PWM2Vec, and use to generate feature vectors from the spike protein sequences of these coronaviruses. While our embedding is inspired by the success of PWMs in biological applications such as determining protein function, or identifying transcription factor binding sites, we are the first (to the best of our knowledge) to use PWMs in the context of host classification from viral sequences to generate a fixed-length feature vector representation. The results on the real world data show that in using PWM2Vec, we are able to perform comparably well as compared to baseline models. We also measure the importance of different amino acids using information gain to show the amino acids which are important for predicting the host of a given coronavirus.
翻訳日:2022-01-10 21:32:01 公開日:2022-01-06
# マルチモード網膜画像登録のための容器構造に基づくキーポイント検出と記述ネットワーク

A Keypoint Detection and Description Network Based on the Vessel Structure for Multi-Modal Retinal Image Registration ( http://arxiv.org/abs/2201.02242v1 )

ライセンス: Link先を確認
Aline Sindel (1), Bettina Hohberger (2), Sebastian Fassihi Dehcordi (2), Christian Mardin (2), Robert L\"ammer (2), Andreas Maier (1), Vincent Christlein (1) ((1) Pattern Recognition Lab, FAU Erlangen-N\"urnberg, (2) Department of Ophthalmology, Universit\"atsklinikum Erlangen)(参考訳) 眼科画像はカラーファンデース、赤外線、蛍光血管造影、オプティカルコヒーレンス断層撮影(oct)、oct血管造影などの異なるイメージングシステムを利用している。 異なるモダリティや取得時間を持つ複数の画像は網膜疾患の診断のためにしばしば分析される。 マルチモーダル登録による画像内の血管構造の自動調整は、眼科医の作業を支援することができる。 本手法は畳み込みニューラルネットワークを用いて多モード網膜画像の血管構造の特徴を抽出する。 我々は、分類とクロスモーダル記述子損失関数を用いて、小さなパッチ上のキーポイント検出と記述ネットワークを共同で訓練し、テストフェーズにおける全画像サイズに適用する。 提案手法は,競合する手法と比較して,提案手法と公開マルチモーダルデータセット上で最高の登録性能を示す。

Ophthalmological imaging utilizes different imaging systems, such as color fundus, infrared, fluorescein angiography, optical coherence tomography (OCT) or OCT angiography. Multiple images with different modalities or acquisition times are often analyzed for the diagnosis of retinal diseases. Automatically aligning the vessel structures in the images by means of multi-modal registration can support the ophthalmologists in their work. Our method uses a convolutional neural network to extract features of the vessel structure in multi-modal retinal images. We jointly train a keypoint detection and description network on small patches using a classification and a cross-modal descriptor loss function and apply the network to the full image size in the test phase. Our method demonstrates the best registration performance on our and a public multi-modal dataset in comparison to competing methods.
翻訳日:2022-01-10 15:41:44 公開日:2022-01-06
# 都市表面:歩道材料の都市規模セマンティックセグメンテーション

CitySurfaces: City-Scale Semantic Segmentation of Sidewalk Materials ( http://arxiv.org/abs/2201.02260v1 )

ライセンス: Link先を確認
Maryam Hosseini and Fabio Miranda and Jianzhe Lin and Claudio Silva(参考訳) 持続可能でレジリエントな都市構築環境の設計は、世界中でますます推進されているが、重要なデータギャップは、持続可能性問題への挑戦を迫る研究に繋がった。 舗装は経済的・環境的な影響が強いことが知られているが、ほとんどの都市は費用がかかり、時間を要するデータ収集の性質から、その表面の空間カタログを欠いている。 近年のコンピュータビジョンの進歩とストリートレベルの画像の入手は、都市がより低コストで精度の高い大規模構築環境データを抽出する新たな機会を提供する。 本稿では,街路面画像を用いた歩道資料の分類にコンピュータビジョン技術を活用した能動的学習基盤であるCitySurfacesを提案する。 我々は、ニューヨーク市とボストンの画像に基づいてフレームワークを訓練し、評価結果は90.5%のmIoUスコアを示した。 さらに,6つの異なる都市の画像を用いてフレームワークの評価を行い,トレーニングデータの領域外においても異なる都市構造を持つ地域に適用可能であることを示した。 citysurfacesは、気候変動や水面管理といった主要な持続可能性問題に対処する上で重要な役割を果たす歩道の材料データを収集する、低コストで正確で拡張可能な方法を研究者や市当局に提供することができる。

While designing sustainable and resilient urban built environment is increasingly promoted around the world, significant data gaps have made research on pressing sustainability issues challenging to carry out. Pavements are known to have strong economic and environmental impacts; however, most cities lack a spatial catalog of their surfaces due to the cost-prohibitive and time-consuming nature of data collection. Recent advancements in computer vision, together with the availability of street-level images, provide new opportunities for cities to extract large-scale built environment data with lower implementation costs and higher accuracy. In this paper, we propose CitySurfaces, an active learning-based framework that leverages computer vision techniques for classifying sidewalk materials using widely available street-level images. We trained the framework on images from New York City and Boston and the evaluation results show a 90.5% mIoU score. Furthermore, we evaluated the framework using images from six different cities, demonstrating that it can be applied to regions with distinct urban fabrics, even outside the domain of the training data. CitySurfaces can provide researchers and city agencies with a low-cost, accurate, and extensible method to collect sidewalk material data which plays a critical role in addressing major sustainability issues, including climate change and surface water management.
翻訳日:2022-01-10 15:41:29 公開日:2022-01-06
# 教師なしデュアルブランチ学習による脳動脈瘤の3次元分類と分節化

3D Intracranial Aneurysm Classification and Segmentation via Unsupervised Dual-branch Learning ( http://arxiv.org/abs/2201.02198v1 )

ライセンス: Link先を確認
Di Shao, Xuequan Lu, Xiao Liu(参考訳) 頭蓋内動脈瘤は近年一般的であり、それをインテリジェントに検出する方法はデジタルヘルスにおいて非常に重要である。 既存の深層学習研究は、医用画像の教師あり方式に重点を置いているが、3Dポイントクラウドデータに基づく頭蓋内動脈瘤検出のための教師なし手法を導入している。 特に本手法は,教師なし事前学習とダウンストリームタスクの2段階からなる。 前者については、各点の雲をジッタリングした雲と組み合わせて対応を最大化するというのが主な考えである。 次に、各分岐とその後の共通投影ヘッドのためのエンコーダを備えた二重分岐コントラストネットワークを設計する。 後者については,教師付き分類とセグメンテーショントレーニングのための単純なネットワークを設計する。 intra(public dataset)による実験では,最先端の監視技術と同等あるいはそれ以上のパフォーマンスが得られており,動脈瘤血管の検出において最も顕著である。 ModelNet40の実験では、既存の最先端の教師なしモデルを上回る90.79\%の精度を達成した。

Intracranial aneurysms are common nowadays and how to detect them intelligently is of great significance in digital health. While most existing deep learning research focused on medical images in a supervised way, we introduce an unsupervised method for the detection of intracranial aneurysms based on 3D point cloud data. In particular, our method consists of two stages: unsupervised pre-training and downstream tasks. As for the former, the main idea is to pair each point cloud with its jittered counterpart and maximise their correspondence. Then we design a dual-branch contrastive network with an encoder for each branch and a subsequent common projection head. As for the latter, we design simple networks for supervised classification and segmentation training. Experiments on the public dataset (IntrA) show that our unsupervised method achieves comparable or even better performance than some state-of-the-art supervised techniques, and it is most prominent in the detection of aneurysmal vessels. Experiments on the ModelNet40 also show that our method achieves the accuracy of 90.79\% which outperforms existing state-of-the-art unsupervised models.
翻訳日:2022-01-10 14:51:08 公開日:2022-01-06
# 一貫したスタイル転送

Consistent Style Transfer ( http://arxiv.org/abs/2201.02233v1 )

ライセンス: Link先を確認
Xuan Luo, Zhen Han, Lingkang Yang, Lingling Zhang(参考訳) 近年,スタイライゼーションのためのコンテンツとスタイル特徴の点的類似性を操作する細粒度結果を達成するために,注意的任意のスタイル転送手法が提案されている。 しかし,特徴点に基づく注意機構は特徴量分布を無視し,各特徴多様体が画像中の意味領域に対応する。 その結果、一様コンテンツセマンティック領域は、様々なスタイルセマンティック領域と非常に異なるパターンでレンダリングされ、視覚的アーティファクトとの一貫性のないスタイリング結果が生成される。 我々は、注意操作と空間認識補間を繰り返し適用するこの問題を緩和するために、progressive attentional manifold alignment (pama) を提案した。 注意操作は、コンテンツ特徴の空間分布に応じて動的にスタイル特徴を並べ替える。 これにより、コンテンツとスタイル多様体は特徴写像に対応する。 すると空間認識補間は対応するコンテンツとスタイル多様体の間に適応的に補間し、それらの類似性を高める。 コンテンツ多様体をスタイル多様体に徐々に整列させることにより,提案したPAMAは意味領域の不整合を回避しつつ,最先端の性能を実現する。 コードはhttps://github.com/ computer-vision2022/ PAMAで入手できる。

Recently, attentional arbitrary style transfer methods have been proposed to achieve fine-grained results, which manipulates the point-wise similarity between content and style features for stylization. However, the attention mechanism based on feature points ignores the feature multi-manifold distribution, where each feature manifold corresponds to a semantic region in the image. Consequently, a uniform content semantic region is rendered by highly different patterns from various style semantic regions, producing inconsistent stylization results with visual artifacts. We proposed the progressive attentional manifold alignment (PAMA) to alleviate this problem, which repeatedly applies attention operations and space-aware interpolations. The attention operation rearranges style features dynamically according to the spatial distribution of content features. This makes the content and style manifolds correspond on the feature map. Then the space-aware interpolation adaptively interpolates between the corresponding content and style manifolds to increase their similarity. By gradually aligning the content manifolds to style manifolds, the proposed PAMA achieves state-of-the-art performance while avoiding the inconsistency of semantic regions. Codes are available at https://github.com/c omputer-vision2022/P AMA.
翻訳日:2022-01-10 14:48:34 公開日:2022-01-06
# 野生の3dオブジェクトのデレンダリング

De-rendering 3D Objects in the Wild ( http://arxiv.org/abs/2201.02279v1 )

ライセンス: Link先を確認
Felix Wimbauer, Shangzhe Wu, Christian Rupprecht(参考訳) 拡張現実および仮想現実アプリケーション(XR)への注目が高まるにつれ、画像やビデオからさまざまな3Dタスクに適した表現にオブジェクトを持ち上げるアルゴリズムの需要が高まっている。 XRデバイスとアプリケーションの大規模展開は、現実世界の無限のオブジェクトのデータの収集と注釈付けが不可能であるため、教師付き学習のみに頼ることはできないことを意味します。 本稿では,物体の1つの像を形状(深度と正規度),材料(アルベド,反射率,光度),大域照明パラメータに分解できる弱教師付き手法を提案する。 トレーニングでは、学習プロセスをブートストラップするために、トレーニング対象の粗い初期形状の推定にのみ依存する。 この形状の監視は、例えば、事前訓練された深度ネットワークから、あるいは、より汎用的に、従来の構造から移動パイプラインから得ることができる。 本実験では,2次元画像を分解して3次元表現に分解し,未知の対象カテゴリに一般化できることを示す。 また, 実測データがないため, 実測評価が困難であるため, 定量的評価を可能にするフォトリアリスティック合成テストセットも導入する。

With increasing focus on augmented and virtual reality applications (XR) comes the demand for algorithms that can lift objects from images and videos into representations that are suitable for a wide variety of related 3D tasks. Large-scale deployment of XR devices and applications means that we cannot solely rely on supervised learning, as collecting and annotating data for the unlimited variety of objects in the real world is infeasible. We present a weakly supervised method that is able to decompose a single image of an object into shape (depth and normals), material (albedo, reflectivity and shininess) and global lighting parameters. For training, the method only relies on a rough initial shape estimate of the training objects to bootstrap the learning process. This shape supervision can come for example from a pretrained depth network or - more generically - from a traditional structure-from-motio n pipeline. In our experiments, we show that the method can successfully de-render 2D images into a decomposed 3D representation and generalizes to unseen object categories. Since in-the-wild evaluation is difficult due to the lack of ground truth data, we also introduce a photo-realistic synthetic test set that allows for quantitative evaluation.
翻訳日:2022-01-10 14:48:16 公開日:2022-01-06
# 非局所カーネルネットワーク : 安定かつ分解能に依存しないディープニューラルネットワーク

Nonlocal Kernel Network (NKN): a Stable and Resolution-Independe nt Deep Neural Network ( http://arxiv.org/abs/2201.02217v1 )

ライセンス: Link先を確認
Huaiqian You, Yue Yu, Marta D'Elia, Tian Gao, Stewart Silling(参考訳) ニューラルネットワークの形で関数空間間の解マップを設計するツールが最近人気になっている。 既知の偏微分方程式(PDE)のパラメータを、固定された解像度で入力パラメータの単一インスタンスに対して学習する古典的な科学機械学習アプローチとは異なり、ニューラル演算子は、PDEのファミリーの解写像を近似する。 その成功にもかかわらず、ニューラルネットワークの使用は比較的浅いニューラルネットワークに限定されており、隠された統治法を学ぶことに限定されている。 本研究では,非局所カーネルネットワーク(NKN)と呼ばれる,深層ニューラルネットワークを特徴とする分解能独立性を持ち,制御方程式の学習や画像の分類など,さまざまなタスクを処理可能な,新しい非局所ニューラルネットワークを提案する。 我々のNKNは、ニューラルネットワークを離散非局所拡散反応方程式として解釈し、無限層の極限において、その安定性は非局所ベクトル計算によって解析される放物型非局所方程式と等価である。 ニューラルネットワークの積分形式との類似性により、NKNは特徴空間における長距離依存関係をキャプチャし、ノード間相互作用の継続的な処理はNKNの分解を独立にすることができる。 非局所的な意味で再解釈されたニューラルodeと、層間の安定したネットワークダイナミクスにより、nknの最適パラメータを浅層から深層ネットワークへ一般化することができる。 この事実は浅層から深層への初期化技術の利用を可能にする。 実験の結果,NKNは制御方程式および画像分類タスクの学習において,基本的手法よりも優れ,解法や深度によく対応していることがわかった。

Neural operators have recently become popular tools for designing solution maps between function spaces in the form of neural networks. Differently from classical scientific machine learning approaches that learn parameters of a known partial differential equation (PDE) for a single instance of the input parameters at a fixed resolution, neural operators approximate the solution map of a family of PDEs. Despite their success, the uses of neural operators are so far restricted to relatively shallow neural networks and confined to learning hidden governing laws. In this work, we propose a novel nonlocal neural operator, which we refer to as nonlocal kernel network (NKN), that is resolution independent, characterized by deep neural networks, and capable of handling a variety of tasks such as learning governing equations and classifying images. Our NKN stems from the interpretation of the neural network as a discrete nonlocal diffusion reaction equation that, in the limit of infinite layers, is equivalent to a parabolic nonlocal equation, whose stability is analyzed via nonlocal vector calculus. The resemblance with integral forms of neural operators allows NKNs to capture long-range dependencies in the feature space, while the continuous treatment of node-to-node interactions makes NKNs resolution independent. The resemblance with neural ODEs, reinterpreted in a nonlocal sense, and the stable network dynamics between layers allow for generalization of NKN's optimal parameters from shallow to deep networks. This fact enables the use of shallow-to-deep initialization techniques. Our tests show that NKNs outperform baseline methods in both learning governing equations and image classification tasks and generalize well to different resolutions and depths.
翻訳日:2022-01-10 14:25:38 公開日:2022-01-06
# (参考訳) セマンティックコミュニケーション: 原則と課題 [全文訳有]

Semantic Communications: Principles and Challenges ( http://arxiv.org/abs/2201.01389v2 )

ライセンス: CC BY 4.0
Zhijin Qin, Xiaoming Tao, Jianhua Lu, and Geoffrey Ye Li(参考訳) 意味コミュニケーションはシャノンパラダイムを超えた突破口と見なされ、個々のシンボルやビットの正確な受信よりも、ソースによって伝達される意味情報の伝達の成功を目指している。 本稿では,セマンティックコミュニケーションの概要を紹介する。 シャノン情報理論の簡単なレビューの後、深層学習によって実現される理論、フレームワーク、システム設計とのセマンティックコミュニケーションについて論じる。 従来の通信システムの測定に用いられるシンボル/ビット誤り率とは違い,意味コミュニケーションのための新しい性能指標についても論じる。 この記事はいくつかのオープンな質問で締めくくられている。

Semantic communication, regarded as the breakthrough beyond Shannon paradigm, aims at the successful transmission of semantic information conveyed by the source rather than the accurate reception of each single symbol or bit regardless of its meaning. This article provides an overview on semantic communications. After a brief review on Shannon information theory, we discuss semantic communications with theory, frameworks, and system design enabled by deep learning. Different from the symbol/bit error rate used for measuring the conventional communication systems, new performance metrics for semantic communications are also discussed. The article is concluded by several open questions.
翻訳日:2022-01-09 13:57:55 公開日:2022-01-06
# (参考訳) 表面誘導ganを用いた実物匿名化 [全文訳有]

Realistic Full-Body Anonymization with Surface-Guided GANs ( http://arxiv.org/abs/2201.02193v1 )

ライセンス: CC BY 4.0
H{\aa}kon Hukkel{\aa}s, Morten Smebye, Rudolf Mester, Frank Lindseth(参考訳) 画像匿名化に関する最近の研究は、生成的敵ネットワーク(gans)が個人を匿名化するためにほぼフォトリアリスティックな顔を生成することができることを示した。 しかし、これらのネットワークを人体全体に拡張することは、困難でありながら未解決の課題である。 We propose a new anonymization method that generates close-to-photorealis tic humans for in-the-wild images.A key part of our design is to guide adversarial nets by dense pixel-to-surface correspondences between an image and a canonical 3D surface.We introduce Variational Surface-Adaptive Modulation (V-SAM) that embeds surface information throughout the generator.Combining this with our novel discriminator surface supervision loss, the generator can synthesize high quality humans with diverse appearance in complex and varying scenes.We show that surface guidance significantly improves image quality and diversity of samples, yielding a highly practical generator.Finally, we demonstrate that surface-guided anonymization preserves the usability of data for future computer vision development

Recent work on image anonymization has shown that generative adversarial networks (GANs) can generate near-photorealistic faces to anonymize individuals. However, scaling these networks to the entire human body has remained a challenging and yet unsolved task. We propose a new anonymization method that generates close-to-photorealis tic humans for in-the-wild images.A key part of our design is to guide adversarial nets by dense pixel-to-surface correspondences between an image and a canonical 3D surface.We introduce Variational Surface-Adaptive Modulation (V-SAM) that embeds surface information throughout the generator.Combining this with our novel discriminator surface supervision loss, the generator can synthesize high quality humans with diverse appearance in complex and varying scenes.We show that surface guidance significantly improves image quality and diversity of samples, yielding a highly practical generator.Finally, we demonstrate that surface-guided anonymization preserves the usability of data for future computer vision development
翻訳日:2022-01-09 09:21:05 公開日:2022-01-06
# (参考訳) 自動関連作業生成:メタスタディ

Automatic Related Work Generation: A Meta Study ( http://arxiv.org/abs/2201.01880v1 )

ライセンス: CC BY 4.0
Xiangci Li and Jessica Ouyang(参考訳) 学術研究は、これまで解決されたことのない問題を解決するための調査活動である。 この性質上、各学術研究活動は、先行研究が取り組んだことのない斬新さを区別するために、文献レビューを行う必要がある。 自然言語処理では、この文献レビューは「関連作業」のセクションで通常実施される。 自動関連作業生成のタスクは、研究論文の残りと引用論文のリストを与えられた「関連作業」セクションを自動的に生成することを目的としている。 この課題は10年以上前に提案されたが、科学的多文書要約問題の変種として紹介されるまでほとんど注目されなかった。 しかし、現在でも自動関連作業や引用テキスト生成の問題は標準化されていない。 本研究では,課題の定式化,データセットの収集,方法論的アプローチ,パフォーマンス評価,今後の展望などの観点から,関連するワークジェネレーションに関する既存の文献をメタスタディとして比較し,最先端研究の進展と今後の研究のあり方について読者の洞察を提供する。 また,今後の統合について検討すべき研究分野についても検討する。

Academic research is an exploration activity to solve problems that have never been resolved before. By this nature, each academic research work is required to perform a literature review to distinguish its novelties that have not been addressed by prior works. In natural language processing, this literature review is usually conducted under the "Related Work" section. The task of automatic related work generation aims to automatically generate the "Related Work" section given the rest of the research paper and a list of cited papers. Although this task was proposed over 10 years ago, it received little attention until very recently, when it was cast as a variant of the scientific multi-document summarization problem. However, even today, the problems of automatic related work and citation text generation are not yet standardized. In this survey, we conduct a meta-study to compare the existing literature on related work generation from the perspectives of problem formulation, dataset collection, methodological approach, performance evaluation, and future prospects to provide the reader insight into the progress of the state-of-the-art studies, as well as and how future studies can be conducted. We also survey relevant fields of study that we suggest future work to consider integrating.
翻訳日:2022-01-07 20:51:58 公開日:2022-01-06
# (参考訳) タイムラプスデータを用いたメモリ誘導画像のデレイニング [全文訳有]

Memory-guided Image De-raining Using Time-Lapse Data ( http://arxiv.org/abs/2201.01883v1 )

ライセンス: CC BY 4.0
Jaehoon Cho, Seungryong Kim, Kwanghoon Sohn(参考訳) 本稿では, 降雨物に隠れた単一画像から, きれいで無雨の背景環境を復元する作業である, 単一画像デライニングの課題に対処する。 近年では,雨クリーン画像対の必要性を克服するために実世界のタイムラプスデータを採用しているが,タイムラプスデータを完全に活用することは制限されている。 主な原因は、ネットワークアーキテクチャの観点からは、メモリコンポーネントの欠如により、トレーニング中のタイムラプスデータに長期間の雨季情報を取り込むことができなかったことである。 この問題に対処するため,我々は,タイムラプスデータに長期間の雨量情報を取り込むのに役立つメモリネットワークに基づく新しいネットワークアーキテクチャを提案する。 本ネットワークはエンコーダ・デコーダネットワークとメモリネットワークからなる。 エンコーダから抽出された特徴は、レインストリーク認識特徴表現を格納する複数のメモリアイテムを含むメモリネットワークで読み取り更新される。 メモリネットワークは、読み取り/更新操作により、クエリの観点から関連するメモリアイテムを検索し、タイムラプスデータに含まれる様々なレインストリークをメモリアイテムが表現できるようにする。 また,記憶特徴の識別能力を高めるため,背景情報を消去することで,雨害情報のみを記憶ネットワークに記録する新たな背景選択白化(BSW)損失を提示する。 標準ベンチマーク実験の結果,提案手法の有効性と優位性を示した。

This paper addresses the problem of single image de-raining, that is, the task of recovering clean and rain-free background scenes from a single image obscured by a rainy artifact. Although recent advances adopt real-world time-lapse data to overcome the need for paired rain-clean images, they are limited to fully exploit the time-lapse data. The main cause is that, in terms of network architectures, they could not capture long-term rain streak information in the time-lapse data during training owing to the lack of memory components. To address this problem, we propose a novel network architecture based on a memory network that explicitly helps to capture long-term rain streak information in the time-lapse data. Our network comprises the encoder-decoder networks and a memory network. The features extracted from the encoder are read and updated in the memory network that contains several memory items to store rain streak-aware feature representations. With the read/update operation, the memory network retrieves relevant memory items in terms of the queries, enabling the memory items to represent the various rain streaks included in the time-lapse data. To boost the discriminative power of memory features, we also present a novel background selective whitening (BSW) loss for capturing only rain streak information in the memory network by erasing the background information. Experimental results on standard benchmarks demonstrate the effectiveness and superiority of our approach.
翻訳日:2022-01-07 20:50:55 公開日:2022-01-06
# (参考訳) シーングラフを用いたインクリメンタルオブジェクトグラウンド [全文訳有]

Incremental Object Grounding Using Scene Graphs ( http://arxiv.org/abs/2201.01901v1 )

ライセンス: CC BY 4.0
John Seon Keun Yi, Yoonwoo Kim, Sonia Chernova(参考訳) オブジェクトグラウンディングタスクは、言葉によるコミュニケーションを通じて、画像中の対象物を見つけることを目的としている。 ヒューマンコマンドを理解することは、効果的なヒューマンロボットコミュニケーションに必要な重要なプロセスである。 しかし、人間の命令は曖昧で誤っているため、これは難しい。 本稿では,シーングラフから得られた意味データに基づいて,エージェントが関連する質問を行うことにより,人間の参照表現の曖昧さを解消することを目的とする。 エージェントがシーングラフからのオブジェクト間の関係を利用して、元のユーザコマンドを曖昧にする意味的な質問をすることができるかどうかをテストする。 本稿では,画像シーングラフからのセマンティックデータと,言語シーングラフから人力によるグラウンドオブジェクトへの言語構造を用いた曖昧なモデルである,シーングラフを用いたインクリメンタルグラウンド(IGSG)を提案する。 IGSGはベースラインと比較して、複数の同一対象物が存在する複雑な現実世界のシーンで有望な結果を示す。 IGSGは、ユーザに対して曖昧な質問をすることで、曖昧さや間違った参照表現を効果的に曖昧にすることができる。

Object grounding tasks aim to locate the target object in an image through verbal communications. Understanding human command is an important process needed for effective human-robot communication. However, this is challenging because human commands can be ambiguous and erroneous. This paper aims to disambiguate the human's referring expressions by allowing the agent to ask relevant questions based on semantic data obtained from scene graphs. We test if our agent can use relations between objects from a scene graph to ask semantically relevant questions that can disambiguate the original user command. In this paper, we present Incremental Grounding using Scene Graphs (IGSG), a disambiguation model that uses semantic data from an image scene graph and linguistic structures from a language scene graph to ground objects based on human command. Compared to the baseline, IGSG shows promising results in complex real-world scenes where there are multiple identical target objects. IGSG can effectively disambiguate ambiguous or wrong referring expressions by asking disambiguating questions back to the user.
翻訳日:2022-01-07 20:25:00 公開日:2022-01-06
# (参考訳) コントラスト的近隣アライメント [全文訳有]

Contrastive Neighborhood Alignment ( http://arxiv.org/abs/2201.01922v1 )

ライセンス: CC BY 4.0
Pengkai Zhu, Zhaowei Cai, Yuanjun Xiong, Zhuowen Tu, Luis Goncalves, Vijay Mahadevan, Stefano Soatto(参考訳) 本稿では,学習特徴のトポロジーを維持するための多様体学習手法であるコントラスト的近傍アライメント(cna)について述べる。 対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。 CNAは教師なし学習アルゴリズムであり、個々のサンプルに対して基調ラベルを必要としない。 cnaは3つのシナリオで示される: モデルが次元が縮小された空間における元のデータの局所トポロジを維持する多様体学習、小さな学生モデルがより大きな教師を模倣するように訓練されるモデル蒸留、古いモデルをより強力なものに置き換えるレガシーモデル更新。 実験により、cnaは高次元空間で多様体を捉えることができ、領域内の競合する方法と比較して性能が向上することが示された。

We present Contrastive Neighborhood Alignment (CNA), a manifold learning approach to maintain the topology of learned features whereby data points that are mapped to nearby representations by the source (teacher) model are also mapped to neighbors by the target (student) model. The target model aims to mimic the local structure of the source representation space using a contrastive loss. CNA is an unsupervised learning algorithm that does not require ground-truth labels for the individual samples. CNA is illustrated in three scenarios: manifold learning, where the model maintains the local topology of the original data in a dimension-reduced space; model distillation, where a small student model is trained to mimic a larger teacher; and legacy model update, where an older model is replaced by a more powerful one. Experiments show that CNA is able to capture the manifold in a high-dimensional space and improves performance compared to the competing methods in their domains.
翻訳日:2022-01-07 20:14:02 公開日:2022-01-06
# (参考訳) Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization [全文訳有]

Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization ( http://arxiv.org/abs/2201.01928v1 )

ライセンス: CC BY 4.0
Hao Jiang, Calvin Murdock, Vamsi Krishna Ithapu(参考訳) 拡張現実デバイスは、人間の知覚を高め、複雑な会話環境における他の補助機能を可能にする可能性がある。 これらの社会的相互作用を理解するのに必要な音声・視覚コンテキストを効果的に把握するには、デバイス着用者と周囲の人々の音声活動を検出し、位置決めする必要がある。 装着者の頭部の動きは動きのぼやけを引き起こす可能性があり、周囲の人々は視界の難しい角度に現れる可能性があり、オクルージョン、視覚的乱雑、オーディオノイズ、照明の悪さがある。 これらの条件下では、以前の最先端のアクティブ話者検出手法では十分な結果が得られない。 代わりに、ビデオとマルチチャネルマイクロホンアレーオーディオの両方を使用して、新しい設定から問題に取り組む。 本稿では,音声活動の検出と局所化を堅牢に行うための,新しいエンドツーエンドディープラーニング手法を提案する。 従来手法とは対照的に、カメラの視野外においても、球面上のあらゆる可能な方向からアクティブな話者をローカライズし、同時に装置装着者の音声活動を検出する。 実験の結果,提案手法はより優れた結果を与え,リアルタイムに動作可能であり,ノイズや乱れに対して頑健であることがわかった。

Augmented reality devices have the potential to enhance human perception and enable other assistive functionalities in complex conversational environments. Effectively capturing the audio-visual context necessary for understanding these social interactions first requires detecting and localizing the voice activities of the device wearer and the surrounding people. These tasks are challenging due to their egocentric nature: the wearer's head motion may cause motion blur, surrounding people may appear in difficult viewing angles, and there may be occlusions, visual clutter, audio noise, and bad lighting. Under these conditions, previous state-of-the-art active speaker detection methods do not give satisfactory results. Instead, we tackle the problem from a new setting using both video and multi-channel microphone array audio. We propose a novel end-to-end deep learning approach that is able to give robust voice activity detection and localization results. In contrast to previous methods, our method localizes active speakers from all possible directions on the sphere, even outside the camera's field of view, while simultaneously detecting the device wearer's own voice activity. Our experiments show that the proposed method gives superior results, can run in real time, and is robust against noise and clutter.
翻訳日:2022-01-07 19:57:54 公開日:2022-01-06
# (参考訳) DReyeVR:行動・インタラクション研究のためのバーチャルリアリティーにおける運転シミュレーションの民主化 [全文訳有]

DReyeVR: Democratizing driving simulation in virtual reality for behavioural & interaction research ( http://arxiv.org/abs/2201.01931v1 )

ライセンス: CC BY 4.0
Gustavo Silvera and Abhijat Biswas and Henny Admoni(参考訳) シミュレータは、運転実験の安全性、コスト、実験的な制御問題のために、運転に関する行動と相互作用の研究に不可欠なツールである。 最も先進的なシミュレーターは、高価格の360度プロジェクションシステムを使用して、視力、視野、没入性を確保する。 しかし、同様の視覚的忠実度は、バーチャルリアリティー(VR)ベースのビジュアルインターフェースで十分達成できる。 DReyeVRは、行動および相互作用研究の優先順位を念頭において設計された、オープンソースのVRベースの運転シミュレータプラットフォームである。 DReyeVR (read ``driver'')はUnreal EngineとCARLAの自動運転車シミュレータをベースにしており、アイトラッキング、機能駆動ヘッドアップディスプレイ(HUD)と車載オーディオ、カスタム定義可能なルートと交通シナリオ、実験的なロギング、再生機能、ROSとの互換性などを備えている。 このシミュレータを5000ドル以下で展開するために必要なハードウェアについて説明する。 最後に,DReyeVRを用いてインタラクション研究の質問に答える方法について,実例で述べる。

Simulators are an essential tool for behavioural and interaction research on driving, due to the safety, cost, and experimental control issues of on-road driving experiments. The most advanced simulators use expensive 360 degree projections systems to ensure visual fidelity, full field of view, and immersion. However, similar visual fidelity can be achieved affordably using a virtual reality (VR) based visual interface. We present DReyeVR, an open-source VR based driving simulator platform designed with behavioural and interaction research priorities in mind. DReyeVR (read ``driver'') is based on Unreal Engine and the CARLA autonomous vehicle simulator and has features such as eye tracking, a functional driving heads-up display (HUD) and vehicle audio, custom definable routes and traffic scenarios, experimental logging, replay capabilities, and compatibility with ROS. We describe the hardware required to deploy this simulator for under $5000$ USD, much cheaper than commercially available simulators. Finally, we describe how DReyeVR may be leveraged to answer an interaction research question in an example scenario.
翻訳日:2022-01-07 19:45:23 公開日:2022-01-06
# (参考訳) 因果表現の効率化 [全文訳有]

Efficiently Disentangle Causal Representations ( http://arxiv.org/abs/2201.01942v1 )

ライセンス: CC BY 4.0
Yuanpeng Li, Joel Hestness, Mohamed Elhoseiny, Liang Zhao, Kenneth Church(参考訳) 本稿では,元の分布と新しい分布の条件付き確率の差に基づく因果機構を用いた非絡み合い表現の学習手法を提案する。 モデルの一般化能力との違いを近似して、標準的な機械学習フレームワークに適合し、効率的に計算できる。 学習者の新しい分布への適応速度に依存する最先端のアプローチとは対照的に,提案手法ではモデルの一般化能力を評価する必要がある。 本稿では,提案手法の利点を理論的に説明し,提案手法が従来手法より1.9--11.0$\times$高効率で,9.4--32.4倍高速であることを示す。 ソースコードは \url{https://github.com/y uanpeng16/EDCR} で入手できる。

This paper proposes an efficient approach to learning disentangled representations with causal mechanisms based on the difference of conditional probabilities in original and new distributions. We approximate the difference with models' generalization abilities so that it fits in the standard machine learning framework and can be efficiently computed. In contrast to the state-of-the-art approach, which relies on the learner's adaptation speed to new distribution, the proposed approach only requires evaluating the model's generalization ability. We provide a theoretical explanation for the advantage of the proposed method, and our experiments show that the proposed technique is 1.9--11.0$\times$ more sample efficient and 9.4--32.4 times quicker than the previous method on various tasks. The source code is available at \url{https://github.com/y uanpeng16/EDCR}.
翻訳日:2022-01-07 19:33:41 公開日:2022-01-06
# (参考訳) 機械学習:アルゴリズム、モデル、応用

Machine Learning: Algorithms, Models, and Applications ( http://arxiv.org/abs/2201.01943v1 )

ライセンス: CC BY-SA 4.0
Jaydip Sen, Sidra Mehtab, Rajdeep Sen, Abhishek Dutta, Pooja Kherwa, Saheel Ahmed, Pranay Berry, Sahil Khurana, Sonali Singh, David W. W Cadotte, David W. Anderson, Kalum J. Ost, Racheal S. Akinbo, Oladunni A. Daramola, and Bongs Lainjo(参考訳) 近年,機械学習アルゴリズムシステム,特に強化学習,自然言語処理,コンピュータビジョン,ロボットビジョン,画像処理,音声処理,感情処理と理解において,急速な発展が見られる。 機械学習モデル、アルゴリズム、それらの応用の重要性と関連性の増加、そしてディープラーニングと人工知能のより革新的なユースケースの出現に合わせて、現在のボリュームは、ストックトレーディング、医療および医療システム、ソフトウェアオートメーションなど、現実世界におけるいくつかの革新的な研究成果とその応用を示している。 本書の章では、機械学習とディープラーニングアルゴリズムとモデルがどのように設計、最適化、デプロイされているかを説明している。 このボリュームは、上級の大学院生、博士課程の学生、研究者、大学の教員、データサイエンティスト、データエンジニア、専門家、および機械学習、ディープラーニング、人工知能の幅広い分野に取り組むコンサルタントに有用である。

Recent times are witnessing rapid development in machine learning algorithm systems, especially in reinforcement learning, natural language processing, computer and robot vision, image processing, speech, and emotional processing and understanding. In tune with the increasing importance and relevance of machine learning models, algorithms, and their applications, and with the emergence of more innovative uses cases of deep learning and artificial intelligence, the current volume presents a few innovative research works and their applications in real world, such as stock trading, medical and healthcare systems, and software automation. The chapters in the book illustrate how machine learning and deep learning algorithms and models are designed, optimized, and deployed. The volume will be useful for advanced graduate and doctoral students, researchers, faculty members of universities, practicing data scientists and data engineers, professionals, and consultants working on the broad areas of machine learning, deep learning, and artificial intelligence.
翻訳日:2022-01-07 19:12:20 公開日:2022-01-06
# (参考訳) リモートセンシング画像のマルチラベル分類

Multi-Label Classification on Remote-Sensing Images ( http://arxiv.org/abs/2201.01971v1 )

ライセンス: CC BY 4.0
Aditya Kumar Singh and B. Uma Shankar(参考訳) 衛星カメラで地球表面の広い範囲の情報を取得することは、地上に立っている間に見られる以上のものを見ることを可能にする。 これは、土地利用パターン、大気条件、森林被覆、および多くの未登録の側面のような領域の物理的特性の検出と監視を支援する。 得られた画像は連続的な自然現象を追跡するだけでなく、深刻な森林破壊の世界的な課題に取り組む上でも重要である。 中でもAmazonは毎年最大のシェアを占めている。 適切なデータ分析は、持続的な健全な環境で生態系と生物多様性に対する有害な影響を制限するのに役立つだろう。 本報告は,アマゾン熱帯雨林の衛星画像チップに,異なる機械学習と優れたディープラーニングモデルを用いて,大気および様々な土地被覆や土地利用を分類することを目的としている。 評価はF2測度に基づいて行われ、損失関数については、Sigmoid cross-entropy と Softmax cross-entropy の両方がある。 事前訓練されたimagenetアーキテクチャを使用して特徴のみを抽出すると、画像は機械学習分類器に間接的に供給される。 ディープラーニングモデルでは、微調整されたimagenet事前学習モデルのアンサンブルが転送学習によって使用される。 今までのベストスコアは、F2測定値が0.927である。

Acquiring information on large areas on the earth's surface through satellite cameras allows us to see much more than we can see while standing on the ground. This assists us in detecting and monitoring the physical characteristics of an area like land-use patterns, atmospheric conditions, forest cover, and many unlisted aspects. The obtained images not only keep track of continuous natural phenomena but are also crucial in tackling the global challenge of severe deforestation. Among which Amazon basin accounts for the largest share every year. Proper data analysis would help limit detrimental effects on the ecosystem and biodiversity with a sustainable healthy atmosphere. This report aims to label the satellite image chips of the Amazon rainforest with atmospheric and various classes of land cover or land use through different machine learning and superior deep learning models. Evaluation is done based on the F2 metric, while for loss function, we have both sigmoid cross-entropy as well as softmax cross-entropy. Images are fed indirectly to the machine learning classifiers after only features are extracted using pre-trained ImageNet architectures. Whereas for deep learning models, ensembles of fine-tuned ImageNet pre-trained models are used via transfer learning. Our best score was achieved so far with the F2 metric is 0.927.
翻訳日:2022-01-07 19:11:01 公開日:2022-01-06
# (参考訳) SASA:ポイントベース3次元オブジェクト検出のためのセマンティックス拡張セット抽象化 [全文訳有]

SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object Detection ( http://arxiv.org/abs/2201.01976v1 )

ライセンス: CC BY 4.0
Chen Chen, Zhe Chen, Jing Zhang and Dacheng Tao(参考訳) ポイントベースのネットワークは3dポイントクラウドモデリングで正確であることが実証されているが、3d検出ではvoxelベースの競合に遅れをとっている。 ダウンサンプリング点に対する一般的な集合抽象設計は、対象を検出するための特徴学習に影響を及ぼすような、重要でない背景情報を維持する可能性がある。 この問題に対処するため,セマンティックス拡張集合抽象化(SASA)と呼ばれる新しい集合抽象化手法を提案する。 技術的には、フォアグラウンドポイントの識別を支援するために、まずサイド出力としてバイナリセグメンテーションモジュールを追加します。 そこで,前景推定スコアに基づいて,ダウンサンプリング時の重要前景点保持を支援するセマンティクス誘導点サンプリングアルゴリズムを提案する。 実際、sasaは前景オブジェクトに関連する貴重なポイントを識別し、ポイントベースの3d検出のための特徴学習を改善するのに効果的であることを示している。 さらに、プラグインが容易なモジュールであり、単段と二段を含む様々な点ベースの検出器を増強することができる。 人気のあるkittiとnuscenesデータセットに関する広範囲な実験は、最先端のvoxelベースの方法に匹敵する性能に達するポイントベースの検出モデルであるsasaの優位性を検証する。

Although point-based networks are demonstrated to be accurate for 3D point cloud modeling, they are still falling behind their voxel-based competitors in 3D detection. We observe that the prevailing set abstraction design for down-sampling points may maintain too much unimportant background information that can affect feature learning for detecting objects. To tackle this issue, we propose a novel set abstraction method named Semantics-Augmented Set Abstraction (SASA). Technically, we first add a binary segmentation module as the side output to help identify foreground points. Based on the estimated point-wise foreground scores, we then propose a semantics-guided point sampling algorithm to help retain more important foreground points during down-sampling. In practice, SASA shows to be effective in identifying valuable points related to foreground objects and improving feature learning for point-based 3D detection. Additionally, it is an easy-to-plug-in module and able to boost various point-based detectors, including single-stage and two-stage ones. Extensive experiments on the popular KITTI and nuScenes datasets validate the superiority of SASA, lifting point-based detection models to reach comparable performance to state-of-the-art voxel-based methods.
翻訳日:2022-01-07 19:09:47 公開日:2022-01-06
# (参考訳) ニューラルネットワークを用いたヒンディー語のヘイトスピーチ検出と伝達学習に関する探索実験 [全文訳有]

An exploratory experiment on Hindi, Bengali hate-speech detection and transfer learning using neural networks ( http://arxiv.org/abs/2201.01997v1 )

ライセンス: CC BY 4.0
Tung Minh Phung, Jan Cloos(参考訳) 本研究では,ヒンディー語とベンガル語におけるヘイトスピーチテキストを検出するニューラルネットワークのトレーニング手法を提案する。 また、これらの言語が同じ起源を持つため、いくつかの拡張に類似していることから、トランスファーラーニングをこれらの言語学習に適用する方法についても検討する。 実験全体は低い計算力で実施されたが、得られた結果は他のより高価なモデルの結果に匹敵するものである。 さらに、使用中のトレーニングデータは比較的小さく、2つの言語はほとんど不明であるため、この研究は、人間が理解できない失われた言語やエイリアンの言語を解読する試みとして一般化することができる。

This work presents our approach to train a neural network to detect hate-speech texts in Hindi and Bengali. We also explore how transfer learning can be applied to learning these languages, given that they have the same origin and thus, are similar to some extend. Even though the whole experiment was conducted with low computational power, the obtained result is comparable to the results of other, more expensive, models. Furthermore, since the training data in use is relatively small and the two languages are almost entirely unknown to us, this work can be generalized as an effort to demystify lost or alien languages that no human is capable of understanding.
翻訳日:2022-01-07 18:54:49 公開日:2022-01-06
# (参考訳) 異常部分群発見のための空間的特徴選択 [全文訳有]

Sparsity-based Feature Selection for Anomalous Subgroup Discovery ( http://arxiv.org/abs/2201.02008v1 )

ライセンス: CC BY 4.0
Girmaw Abebe Tadesse, William Ogallo, Catherine Wanjiru, Charles Wachira, Isaiah Onando Mulang', Vibha Anand, Aisha Walcott-Bryant, Skyler Speakman(参考訳) 異常パターン検出は、正規性からの逸脱が明らかなインスタンスを識別することを目的としており、ドメイン間で広く適用できる。 最先端では複数の異常検出技術が提案されている。 しかし、効率的な発見のための原則的でスケーラブルな特徴選択手法が欠如している。 既存の特徴選択手法は、期待値から体系的な逸脱よりも予測結果のパフォーマンスを最適化することで実施されることが多い。 本稿では,特徴駆動オッズ比の分散化によるシステム結果のずれをエンコードする,スパーシティに基づく自動特徴選択(SAFS)フレームワークを提案する。 SAFSは、さまざまな発見技術にまたがるユーザビリティを備えた、モデルに依存しないアプローチである。 SAFSは、一般公開されたクリティカルケアデータセットで検証された場合、検出性能を維持しながら、計算時間を3ドル以上削減する。 SAFSはまた、特徴選択のための複数のベースラインと比較して、優れたパフォーマンスをもたらす。

Anomalous pattern detection aims to identify instances where deviation from normalcy is evident, and is widely applicable across domains. Multiple anomalous detection techniques have been proposed in the state of the art. However, there is a common lack of a principled and scalable feature selection method for efficient discovery. Existing feature selection techniques are often conducted by optimizing the performance of prediction outcomes rather than its systemic deviations from the expected. In this paper, we proposed a sparsity-based automated feature selection (SAFS) framework, which encodes systemic outcome deviations via the sparsity of feature-driven odds ratios. SAFS is a model-agnostic approach with usability across different discovery techniques. SAFS achieves more than $3\times$ reduction in computation time while maintaining detection performance when validated on publicly available critical care dataset. SAFS also results in a superior performance when compared against multiple baselines for feature selection.
翻訳日:2022-01-07 18:45:50 公開日:2022-01-06
# (参考訳) 統一条件モデルを用いた自己学習型視覚言語BERT [全文訳有]

Self-Training Vision Language BERTs with a Unified Conditional Model ( http://arxiv.org/abs/2201.02010v1 )

ライセンス: CC BY 4.0
Xiaofeng Yang, Fengmao Lv, Fayao Liu, Guosheng Lin(参考訳) 自然言語BERTは、言語コーパスを自己管理的に訓練する。 自然言語のBERTとは異なり、ビジョン言語BERTはトレーニングのためにペアのデータを必要とし、VL-BERT事前トレーニングの規模を制限する。 ラベルのない画像データからVL-BERTを学習する自己学習手法を提案する。 提案手法は,ゼロショット条件生成が可能な視覚言語BERTモデルである統一条件モデルから始める。 異なる条件によって、統一条件モデルはキャプション、密集したキャプション、さらには質問を生成できる。 教師モデルの学習にはラベル付き画像データを使用し,ラベル付き画像データに擬似キャプションを生成する訓練モデルを用いる。 次にラベル付きデータと擬似ラベル付きデータを組み合わせて学習モデルを構築する。 このプロセスは、学生モデルを新しい教師として配置することで反復される。 提案した自己学習アプローチと、ラベル付けされていない300万の余分なデータを使用することで、300万の余分な画像データでトレーニングされた類似モデルモデルと比較して、競争力やパフォーマンスが向上する。

Natural language BERTs are trained with language corpus in a self-supervised manner. Unlike natural language BERTs, vision language BERTs need paired data to train, which restricts the scale of VL-BERT pretraining. We propose a self-training approach that allows training VL-BERTs from unlabeled image data. The proposed method starts with our unified conditional model -- a vision language BERT model that can perform zero-shot conditional generation. Given different conditions, the unified conditional model can generate captions, dense captions, and even questions. We use the labeled image data to train a teacher model and use the trained model to generate pseudo captions on unlabeled image data. We then combine the labeled data and pseudo labeled data to train a student model. The process is iterated by putting the student model as a new teacher. By using the proposed self-training approach and only 300k unlabeled extra data, we are able to get competitive or even better performances compared to the models of similar model size trained with 3 million extra image data.
翻訳日:2022-01-07 18:37:08 公開日:2022-01-06
# (参考訳) 第三者視点による自己中心的3次元ポーズ推定の促進 [全文訳有]

Enhancing Egocentric 3D Pose Estimation with Third Person Views ( http://arxiv.org/abs/2201.02017v1 )

ライセンス: CC BY 4.0
Ameya Dhamanaskar, Mariella Dimiccoli, Enric Corona, Albert Pumarola, Francesc Moreno-Noguer(参考訳) 本稿では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。 鍵となるアイデアは、ジョイント埋め込みスペースで第1と第3のビューをリンクする高レベル機能を活用することだ。 このような埋め込み空間を学ぶために、私たちはfirst2third-poseという、ファーストビューとサードビューの両方からキャプチャされた人間の活動を描いた2000近いビデオのペア同期データセットを紹介します。 自己教師ありの方法で訓練された半シャム語アーキテクチャを用いて,空間的および動作領域的特徴を明示的に検討する。 実験の結果,本データセットで学習した多視点埋め込み空間は,カメラパラメータのドメイン適応や知識を必要とせず,任意の単視点エゴセントリックビデオから識別的特徴を抽出するのに有用であることがわかった。 本研究では,2つの非拘束データセットにおける自己中心型3次元身体ポーズ推定性能を,3つの教師付き最先端アプローチで大幅に改善する。 私たちのデータセットとコードは研究目的で利用できます。

In this paper, we propose a novel approach to enhance the 3D body pose estimation of a person computed from videos captured from a single wearable camera. The key idea is to leverage high-level features linking first- and third-views in a joint embedding space. To learn such embedding space we introduce First2Third-Pose, a new paired synchronized dataset of nearly 2,000 videos depicting human activities captured from both first- and third-view perspectives. We explicitly consider spatial- and motion-domain features, combined using a semi-Siamese architecture trained in a self-supervised fashion. Experimental results demonstrate that the joint multi-view embedded space learned with our dataset is useful to extract discriminatory features from arbitrary single-view egocentric videos, without needing domain adaptation or knowledge of camera parameters. We achieve significant improvement of egocentric 3D body pose estimation performance on two unconstrained datasets, over three supervised state-of-the-art approaches. Our dataset and code will be available for research purposes.
翻訳日:2022-01-07 18:19:16 公開日:2022-01-06
# (参考訳) 注意に基づく少数ショット物体検出のための統一フレームワーク [全文訳有]

A Unified Framework for Attention-Based Few-Shot Object Detection ( http://arxiv.org/abs/2201.02052v1 )

ライセンス: CC BY 4.0
Pierre Le Jeune and Anissa Mokraoui(参考訳) Few-Shot Object Detection (FSOD) はコンピュータビジョンにおいて急速に成長している分野である。 与えられたクラスのすべての発生を、各クラスのアノテーション付きの例で見つけることで構成される。 この課題に対処するために多くの手法が提案されており、そのほとんどは注意機構に基づいている。 しかしながら、さまざまな古典的なオブジェクト検出フレームワークとトレーニング戦略は、メソッド間のパフォーマンス比較を困難にしている。 特に注意に基づくfsod法では,注意機構の違いが性能に与える影響を比較するのに手間がかかる。 本論文は,この欠点を満たすことを目的とする。 そのため,文献で利用可能な注意技法のほとんどを実装可能な柔軟なフレームワークが提案されている。 このようなフレームワークを適切に導入するために、まず既存のFSODメソッドの詳細なレビューを行う。 いくつかの異なる注意機構がフレームワーク内で再実装され、他のすべてのパラメータと比較される。

Few-Shot Object Detection (FSOD) is a rapidly growing field in computer vision. It consists in finding all occurrences of a given set of classes with only a few annotated examples for each class. Numerous methods have been proposed to address this challenge and most of them are based on attention mechanisms. However, the great variety of classic object detection frameworks and training strategies makes performance comparison between methods difficult. In particular, for attention-based FSOD methods, it is laborious to compare the impact of the different attention mechanisms on performance. This paper aims at filling this shortcoming. To do so, a flexible framework is proposed to allow the implementation of most of the attention techniques available in the literature. To properly introduce such a framework, a detailed review of the existing FSOD methods is firstly provided. Some different attention mechanisms are then reimplemented within the framework and compared with all other parameters fixed.
翻訳日:2022-01-07 18:09:04 公開日:2022-01-06
# (参考訳) 宇宙気象モデリングのための不確かさ定量化技術:熱圏密度応用 [全文訳有]

Uncertainty Quantification Techniques for Space Weather Modeling: Thermospheric Density Application ( http://arxiv.org/abs/2201.02067v1 )

ライセンス: CC BY 4.0
Richard J. Licata and Piyush M. Mehta(参考訳) 機械学習(ML)は近年、宇宙気象(SW)問題にしばしば適用されている。 SWは太陽の摂動に由来するもので、太陽と地球の間のシステム内で生じる複雑な変動から成り立っている。 これらのシステムは密結合であり、よく理解されていない。 これにより、予測の信頼性に関する知識を持つ熟練したモデルが必要となる。 このような力学系の例としては、地球上層大気の中立領域である熱圏がある。 我々の予測不能は、低軌道軌道上の物体に対する衛星のドラッグと衝突回避操作の文脈で深刻な反響を生じさせる。 たとえ(仮定された)完璧なドライバー予測であっても、システムの不完全な知識は、しばしば不正確な中性質量密度予測をもたらす。 モデル精度を改善するための継続的な努力が続けられているが、密度モデルが不確実性を評価することは滅多にない。 本研究では, 予測密度の負対数(nlpd)損失関数を用いて, モンテカルロ(mc)ドロップアウトと確率分布の直接予測という, 不確かさを校正した推定値を提供しながら, 熱圏密度を予測できる非線形mlモデルを開発する2つの手法を提案する。 ローカルおよびグローバルデータセットでトレーニングされたモデルの性能を示す。 これはNLPDが両方の手法に類似した結果をもたらすことを示しているが、直接確率法の方が計算コストがはるかに低いことを示している。 SET HASDM密度データベースに回帰した大域的モデルに対して, 精度の高い不確実性推定を伴う独立試験データ上で11%の誤差を達成した。 内部のCHAMP密度データセットを使用して、どちらの手法も13%の順序でテストエラーを提供する。 CHAMPモデル(独立データ)は、テストされた全ての予測間隔に対する完璧なキャリブレーションの2%以内である。 このモデルは、与えられた時期において不確実性を持つ大域的な予測を得るためにも使うことができる。

Machine learning (ML) has often been applied to space weather (SW) problems in recent years. SW originates from solar perturbations and is comprised of the resulting complex variations they cause within the systems between the Sun and Earth. These systems are tightly coupled and not well understood. This creates a need for skillful models with knowledge about the confidence of their predictions. One example of such a dynamical system is the thermosphere, the neutral region of Earth's upper atmosphere. Our inability to forecast it has severe repercussions in the context of satellite drag and collision avoidance operations for objects in low Earth orbit. Even with (assumed) perfect driver forecasts, our incomplete knowledge of the system results in often inaccurate neutral mass density predictions. Continuing efforts are being made to improve model accuracy, but density models rarely provide estimates of uncertainty. In this work, we propose two techniques to develop nonlinear ML models to predict thermospheric density while providing calibrated uncertainty estimates: Monte Carlo (MC) dropout and direct prediction of the probability distribution, both using the negative logarithm of predictive density (NLPD) loss function. We show the performance for models trained on local and global datasets. This shows that NLPD provides similar results for both techniques but the direct probability method has a much lower computational cost. For the global model regressed on the SET HASDM density database, we achieve errors of 11% on independent test data with well-calibrated uncertainty estimates. Using an in-situ CHAMP density dataset, both techniques provide test error on the order of 13%. The CHAMP models (on independent data) are within 2% of perfect calibration for all prediction intervals tested. This model can also be used to obtain global predictions with uncertainties at a given epoch.
翻訳日:2022-01-07 17:55:31 公開日:2022-01-06
# (参考訳) 勧告に対する深い因果推論 [全文訳有]

Deep Causal Reasoning for Recommendations ( http://arxiv.org/abs/2201.02088v1 )

ライセンス: CC BY 4.0
Yaochen Zhu, Jing Yi, Jiayi Xie and Zhenzhong Chen(参考訳) 伝統的なレコメンデータシステムは、人口から観測された評価に基づいて、あるアイテムに対するユーザーの評価を見積もることを目的としている。 すべての観察研究と同様に、アイテムの露出とユーザ評価の両方に影響を与える要因である隠れた共同創設者は、見積に体系的なバイアスをもたらす。 したがって、レコメンダシステム研究の新たなトレンドは、共同設立者の影響を因果的視点から否定することである。 共同設立者が通常、項目間で共有されるため、共同設立者が多元的であり、多元的マルチアウトカム(MCMO)推論問題としてモデル化する。 具体的には、バイアスを補うために、アイテムの露出を独立にBernoulli試験に反映するユーザ固有の潜伏変数を推定する。 生成分布は分解ロジスティック確率のDNNによりパラメータ化され、抽出可能な後部は変分推論により推定される。 これらの要因を代わる共同創設者として、軽微な仮定の下でコントロールすることは、複数の原因による共同創設者によるバイアスを取り除くことができる。 さらに, MCMOモデリングは, 高次元因果空間に付随する観測値の不足により, 高いばらつきをもたらす可能性が示唆された。 幸いなことに、前処理変数としてユーザ機能を導入することで、サンプル効率を大幅に改善し、オーバーフィッティングを軽減することができる。 シミュレーションおよび実世界のデータセットに関する実証研究は、提案された深い因果推薦者は、最先端の因果推薦者よりも、観測されていない共同設立者により堅牢性を示すことを示している。 コードとデータセットはhttps://github.com/y aochenzhu/deep-decon fでリリースされる。

Traditional recommender systems aim to estimate a user's rating to an item based on observed ratings from the population. As with all observational studies, hidden confounders, which are factors that affect both item exposures and user ratings, lead to a systematic bias in the estimation. Consequently, a new trend in recommender system research is to negate the influence of confounders from a causal perspective. Observing that confounders in recommendations are usually shared among items and are therefore multi-cause confounders, we model the recommendation as a multi-cause multi-outcome (MCMO) inference problem. Specifically, to remedy confounding bias, we estimate user-specific latent variables that render the item exposures independent Bernoulli trials. The generative distribution is parameterized by a DNN with factorized logistic likelihood and the intractable posteriors are estimated by variational inference. Controlling these factors as substitute confounders, under mild assumptions, can eliminate the bias incurred by multi-cause confounders. Furthermore, we show that MCMO modeling may lead to high variance due to scarce observations associated with the high-dimensional causal space. Fortunately, we theoretically demonstrate that introducing user features as pre-treatment variables can substantially improve sample efficiency and alleviate overfitting. Empirical studies on simulated and real-world datasets show that the proposed deep causal recommender shows more robustness to unobserved confounders than state-of-the-art causal recommenders. Codes and datasets are released at https://github.com/y aochenzhu/deep-decon f.
翻訳日:2022-01-07 17:33:17 公開日:2022-01-06
# (参考訳) HyperionSolarNet:空中画像からのソーラーパネル検出 [全文訳有]

HyperionSolarNet: Solar Panel Detection from Aerial Images ( http://arxiv.org/abs/2201.02107v1 )

ライセンス: CC BY 4.0
Poonam Parhar, Ryan Sawasaki, Alberto Todeschini, Colorado Reed, Hossein Vahabi, Nathan Nusaputra, Felipe Vergara(参考訳) 地球温暖化の影響により、温室効果ガス排出量の削減に集団的な努力が必要である。 エネルギー部門は気候変動の最大の貢献者であり、多くの取り組みは二酸化炭素発電の発電所への依存を減らし、太陽光発電のような再生可能エネルギー源に移行することに集中している。 ソーラーパネルの位置に関する包括的なデータベースは、アナリストや政策立案者が太陽エネルギーをさらに拡大するための戦略を定義するのを助けるために重要である。 本稿では,ソーラーパネルの世界地図の作成に焦点をあてる。 特定の地理的領域内のソーラーパネルの位置と表面積を識別する。 深層学習法を用いて,空中画像を用いたソーラーパネル位置とその表面積の自動検出を行う。 本フレームワークは,タンデムのイメージ分類器とセマンティックセグメンテーションモデルを用いた2分岐モデルで構成され,衛星画像のデータセットに基づいて訓練を行った。 本研究は,ソーラーパネルの検出に効率的でスケーラブルな手法を提供し,分類精度0.96,セグメンテーション性能0.82のiouスコアを実現する。

With the effects of global climate change impacting the world, collective efforts are needed to reduce greenhouse gas emissions. The energy sector is the single largest contributor to climate change and many efforts are focused on reducing dependence on carbon-emitting power plants and moving to renewable energy sources, such as solar power. A comprehensive database of the location of solar panels is important to assist analysts and policymakers in defining strategies for further expansion of solar energy. In this paper we focus on creating a world map of solar panels. We identify locations and total surface area of solar panels within a given geographic area. We use deep learning methods for automated detection of solar panel locations and their surface area using aerial imagery. The framework, which consists of a two-branch model using an image classifier in tandem with a semantic segmentation model, is trained on our created dataset of satellite images. Our work provides an efficient and scalable method for detecting solar panels, achieving an accuracy of 0.96 for classification and an IoU score of 0.82 for segmentation performance.
翻訳日:2022-01-07 17:02:19 公開日:2022-01-06
# (参考訳) contrip: コンセンサス感情レビュー分析とプラットフォームレーティング [全文訳有]

ConTrip: Consensus Sentiment review Analysis and Platform ratings in a single score ( http://arxiv.org/abs/2201.02113v1 )

ライセンス: CC BY-SA 4.0
Jos\'e Bonet and Jos\'e Bonet(参考訳) 人々は、インターネット上のアイテムや体験を購入することを決めるために、明確にレビューを雇います。 その意味では、その重要性と意見の多さが、感情コンテンツを自動的に評価する手法の開発につながっている。 しかし、モデルが異なるレビューの合意を具現化し、アイテムに対する同等のレーティングを区別するコンセンサス値を作成するのは容易ではない。 2020年にNguyenらによって提案されたアプローチに基づいて、コントリプという新しいコンセンサス値が導出され、コンセンサススコアとアイテムのプラットフォーム全体の評価をマージします。 ConTripは評価範囲の値にあるため、平等に評価された体験を区別する能力を維持しながら、より解釈しやすい。 ConTripはMITライセンスのもと、https://github.com/p epebonet/contripscor eで実装され無料で利用できる。

People unequivocally employ reviews to decide on purchasing an item or an experience on the internet. In that regard, the growing significance and number of opinions have led to the development of methods to assess their sentiment content automatically. However, it is not straightforward for the models to create a consensus value that embodies the agreement of the different reviews and differentiates across equal ratings for an item. Based on the approach proposed by Nguyen et al. in 2020, we derive a novel consensus value named ConTrip that merges their consensus score and the overall rating of a platform for an item. ConTrip lies in the rating range values, which makes it more interpretable while maintaining the ability to differentiate across equally rated experiences. ConTrip is implemented and freely available under MIT license at https://github.com/p epebonet/contripscor e
翻訳日:2022-01-07 16:54:10 公開日:2022-01-06
# (参考訳) 新型コロナウイルス問題におけるテキストマイニングとML, BERT, RNNの比較研究 [全文訳有]

An Opinion Mining of Text in COVID-19 Issues along with Comparative Study in ML, BERT & RNN ( http://arxiv.org/abs/2201.02119v1 )

ライセンス: CC BY 4.0
Md. Mahadi Hasan Sany, Mumenunnesa Keya, Sharun Akter Khushbu, Akm Shahariar Azad Rabby, Abu Kaisar Mohammad Masum(参考訳) 世界は、covid-19として認識される呼吸症候群の壊滅的な流行である、パンデミックの状況を横断している。 これは、人々が毎日強大な状況に遭遇する212カ国全体の世界的な脅威です。 逆に、何千人もの感染者が山で暮らしている。 メンタルヘルスは世界的な新型コロナウイルスの影響も受けている。 この状況により、オンラインソースは、一般市民があらゆる議題で意見を共有できるコミュニケーションの場となった。 影響のあるニュース、肯定的・否定的なニュース、財政問題、国と家族の危機、輸入・輸出制度の欠如など、様々な状況が近年のトレンドとなっている。 このように、膨大な量のテキストがモーメント内で生成されるため、他国の状況と同等のサブコンティネント領域や、テキストや状況に対する人々の意見も同様であるが、言語が異なる。 本稿では,個別ソースからのBanglaテキストコメントと合わせて,機械学習の結果が補助システムを構築することができることを示すための具体的なインプットを提案する。 意見マイニング支援システムは、可能なすべての言語選好に影響を与えうる。 我々の知る限り、この論文は、MLアルゴリズムを提案する新型コロナウイルス問題に関するBanglaの入力テキストを予測し、ディープラーニングモデル分析は、比較分析によって将来の到達可能性もチェックする。 比較分析では、テキスト予測精度に関するレポートは、MLアルゴリズムとともに91%、ディープラーニングモデルとともに79%である。

The global world is crossing a pandemic situation where this is a catastrophic outbreak of Respiratory Syndrome recognized as COVID-19. This is a global threat all over the 212 countries that people every day meet with mighty situations. On the contrary, thousands of infected people live rich in mountains. Mental health is also affected by this worldwide coronavirus situation. Due to this situation online sources made a communicative place that common people shares their opinion in any agenda. Such as affected news related positive and negative, financial issues, country and family crisis, lack of import and export earning system etc. different kinds of circumstances are recent trendy news in anywhere. Thus, vast amounts of text are produced within moments therefore, in subcontinent areas the same as situation in other countries and peoples opinion of text and situation also same but the language is different. This article has proposed some specific inputs along with Bangla text comments from individual sources which can assure the goal of illustration that machine learning outcome capable of building an assistive system. Opinion mining assistive system can be impactful in all language preferences possible. To the best of our knowledge, the article predicted the Bangla input text on COVID-19 issues proposed ML algorithms and deep learning models analysis also check the future reachability with a comparative analysis. Comparative analysis states a report on text prediction accuracy is 91% along with ML algorithms and 79% along with Deep Learning Models.
翻訳日:2022-01-07 16:50:06 公開日:2022-01-06
# (参考訳) treehouse:carbon-awa re datacenter softwareのケース [全文訳有]

Treehouse: A Case For Carbon-Aware Datacenter Software ( http://arxiv.org/abs/2201.02120v1 )

ライセンス: CC BY 4.0
Thomas Anderson, Adam Belay, Mosharaf Chowdhury, Asaf Cidon, and Irene Zhang(参考訳) デナードのスケーリングの終わりとムーアの法則の減速は、データセンターのエネルギー利用を持続不可能な経路に押し上げた。 データセンターはすでに世界の電力消費のかなりの部分を占めており、アプリケーションの需要は急速に拡大している。 我々は、データセンターコンピューティングの炭素強度の大幅な削減は、ソフトウェア中心のアプローチで可能であると論じる: アプリケーション開発者にエネルギーと炭素を細かく見えるようにすること、システムAPIを変更してパフォーマンスと二酸化炭素排出量の間の情報交換を可能にすること、計算とストレージのよりエネルギー効率の良い手段を柔軟に利用できるようにアプリケーションプログラミングのレベルを上げること。 我々はまた、データセンターコンピューティングの炭素フットプリントを削減するシステムソフトウェアの研究課題も策定した。

The end of Dennard scaling and the slowing of Moore's Law has put the energy use of datacenters on an unsustainable path. Datacenters are already a significant fraction of worldwide electricity use, with application demand scaling at a rapid rate. We argue that substantial reductions in the carbon intensity of datacenter computing are possible with a software-centric approach: by making energy and carbon visible to application developers on a fine-grained basis, by modifying system APIs to make it possible to make informed trade offs between performance and carbon emissions, and by raising the level of application programming to allow for flexible use of more energy efficient means of compute and storage. We also lay out a research agenda for systems software to reduce the carbon footprint of datacenter computing.
翻訳日:2022-01-07 16:38:02 公開日:2022-01-06
# (参考訳) 3次元em構造を有するmm波受動ネットワークのディープラーニングによるエンドツーエンド合成--トランスベースマッチングネットワークに関する研究 [全文訳有]

Deep Learning Assisted End-to-End Synthesis of mm-Wave Passive Networks with 3D EM Structures: A Study on A Transformer-Based Matching Network ( http://arxiv.org/abs/2201.02141v1 )

ライセンス: CC BY 4.0
Siawpeng Er, Edward Liu, Minshuo Chen, Yan Li, Yuqi Liu, Tuo Zhao, Hua Wang(参考訳) 本稿では,3次元EM構造を持つRF/mm波受動マッチングネットワークのエンドツーエンド生成のためのディープラーニング支援合成手法を提案する。 対象回路成分値と対象トポロジからem構造を合成する従来の手法とは異なり,提案手法は入力として所望の性能値からネットワークトポロジーを与えられた受動的ネットワークを直接合成する。 提案する合成ニューラルネットワーク(nn)モデルをオンチップ1:1トランスベースインピーダンスマッチングネットワーク上で紹介する。 パラメータ共有を利用した合成nnモデルは、入力インピーダンスと負荷キャパシタから関連する特徴をうまく抽出し、2つの負荷キャパシタを吸収しながら、標準の50$\omega$負荷とターゲット入力インピーダンスと一致する45nm soiプロセスでトランスフォーマ3d em形状を予測する。 概念実証として、いくつかの変圧器のジオメトリが合成され、Ansys HFSSで検証され、所望の入力インピーダンスが得られた。

This paper presents a deep learning assisted synthesis approach for direct end-to-end generation of RF/mm-wave passive matching network with 3D EM structures. Different from prior approaches that synthesize EM structures from target circuit component values and target topologies, our proposed approach achieves the direct synthesis of the passive network given the network topology from desired performance values as input. We showcase the proposed synthesis Neural Network (NN) model on an on-chip 1:1 transformer-based impedance matching network. By leveraging parameter sharing, the synthesis NN model successfully extracts relevant features from the input impedance and load capacitors, and predict the transformer 3D EM geometry in a 45nm SOI process that will match the standard 50$\Omega$ load to the target input impedance while absorbing the two loading capacitors. As a proof-of-concept, several example transformer geometries were synthesized, and verified in Ansys HFSS to provide the desired input impedance.
翻訳日:2022-01-07 16:22:26 公開日:2022-01-06
# (参考訳) 円拡大畳み込みニューラルネットワークを用いた長周期データの分類 [全文訳有]

Classification of Long Sequential Data using Circular Dilated Convolutional Neural Networks ( http://arxiv.org/abs/2201.02143v1 )

ライセンス: CC BY 4.0
Lei Cheng, Ruslan Khalitov, Tong Yu, and Zhirong Yang(参考訳) 長いシーケンシャルデータの分類は機械学習の重要なタスクであり、多くのアプリケーションシナリオに現れる。 リカレントニューラルネットワーク、トランスフォーマー、畳み込みニューラルネットワークは、シーケンシャルデータから学ぶための3つの主要なテクニックである。 これらの手法のうち、非常に長いシーケンスにスケーラブルな時間畳み込みネットワーク(tcns)は、時系列回帰の著しい進歩を達成した。 しかし、シーケンス分類におけるTCNの性能は、スキュー接続プロトコルと出力クラスが最終位置にあるため満足できない。 このような非対称性は、シーケンス全体に依存する分類の性能を制限する。 そこで本研究では,各位置が前層の他の位置から情報を受信する機会が等しくなるCDIL-CNN(Circular Dilated Convolutional Neural Network)という,対称なマルチスケールアーキテクチャを提案する。 本モデルでは,全ての位置で分類ロジットを付与し,簡単なアンサンブル学習を適用してより良い判定を行う。 我々は様々な長い時系列データセットでCDIL-CNNを検証した。 実験の結果,本手法は多くの最先端手法よりも優れた性能を示した。

Classification of long sequential data is an important Machine Learning task and appears in many application scenarios. Recurrent Neural Networks, Transformers, and Convolutional Neural Networks are three major techniques for learning from sequential data. Among these methods, Temporal Convolutional Networks (TCNs) which are scalable to very long sequences have achieved remarkable progress in time series regression. However, the performance of TCNs for sequence classification is not satisfactory because they use a skewed connection protocol and output classes at the last position. Such asymmetry restricts their performance for classification which depends on the whole sequence. In this work, we propose a symmetric multi-scale architecture called Circular Dilated Convolutional Neural Network (CDIL-CNN), where every position has an equal chance to receive information from other positions at the previous layers. Our model gives classification logits in all positions, and we can apply a simple ensemble learning to achieve a better decision. We have tested CDIL-CNN on various long sequential datasets. The experimental results show that our method has superior performance over many state-of-the-art approaches.
翻訳日:2022-01-07 16:11:00 公開日:2022-01-06
# (参考訳) バイオインスパイアされたMin-Netはディープネットワークの性能とロバスト性を改善する [全文訳有]

Bio-inspired Min-Nets Improve the Performance and Robustness of Deep Networks ( http://arxiv.org/abs/2201.02149v1 )

ライセンス: CC BY 4.0
Philipp Gr\"uning and Erhardt Barth(参考訳) Min-Netは、2つの学習されたフィルタを最小に出力する単位を持つエンドストップの皮質細胞にインスパイアされている。 このようなMin-unitsをResNetやDenseNetのような最先端のディープネットワークに挿入し、結果のMin-NetsがCifar-10ベンチマークより優れていることを示す。 さらに,Min-NetはJPEG圧縮アーチファクトに対してより堅牢であることを示す。 最小演算はフィルタ対の操作と操作を実装する最も簡単な方法であり、そのような操作は自然画像の統計量を考えると適切なバイアスをもたらすと論じる。

Min-Nets are inspired by end-stopped cortical cells with units that output the minimum of two learned filters. We insert such Min-units into state-of-the-art deep networks, such as the popular ResNet and DenseNet, and show that the resulting Min-Nets perform better on the Cifar-10 benchmark. Moreover, we show that Min-Nets are more robust against JPEG compression artifacts. We argue that the minimum operation is the simplest way of implementing an AND operation on pairs of filters and that such AND operations introduce a bias that is appropriate given the statistics of natural images.
翻訳日:2022-01-07 15:58:09 公開日:2022-01-06
# 複合能動学習, 多元性モデリング, 部分集合シミュレーションを用いた先進核燃料の信頼性評価

Reliability Estimation of an Advanced Nuclear Fuel using Coupled Active Learning, Multifidelity Modeling, and Subset Simulation ( http://arxiv.org/abs/2201.02172v1 )

ライセンス: Link先を確認
Somayajulu L. N. Dhulipala and Michael D. Shields and Promit Chakroborty and Wen Jiang and Benjamin W. Spencer and Jason D. Hales and Vincent M. Laboure and Zachary M. Prince and Chandrakanth Bolisetti and Yifeng Che(参考訳) tristructureural isotropic (triso)-coated particle fuelはロバストな核燃料であり、その信頼性の決定は高度な核技術の成功に不可欠である。 しかし、トライソ故障確率は小さく、関連する計算モデルは高価である。 複数の1次元および2次元モデルを用いて, TRISO燃料の故障確率を推定するために, アクティブラーニング, 多要素モデル, サブセットシミュレーションを用いた。 高忠実度(hf)モデルの評価を2つの低忠実度(lf)モデルから情報融合に置き換えた。 1d trisoモデルでは、kriging, kriging lf prediction, kriging correction, deep neural network (dnn) lf prediction と kriging correction の3つの多元性モデリング戦略を検討した。 これらの多忠実度モデリング戦略に対する結果は良好に比較されるが、2つのLFモデルからの情報融合を利用した戦略は、最も頻繁にHFモデルと呼ばれる。 次に、DNN LF予測とクリグ補正(データ駆動)と1D TRISO LF予測とクリグ補正(物理ベース)の2つの多要素モデル戦略を検討した。 物理ベースの戦略は、予想通り、常に最も少ないHFモデルへの呼び出しを必要とした。 しかし、DNN予測が瞬時に行われるため、データ駆動方式は全体的なシミュレーション時間を低くし、1D TRISOモデルは無視できないシミュレーション時間を必要とする。

Tristructural isotropic (TRISO)-coated particle fuel is a robust nuclear fuel and determining its reliability is critical for the success of advanced nuclear technologies. However, TRISO failure probabilities are small and the associated computational models are expensive. We used coupled active learning, multifidelity modeling, and subset simulation to estimate the failure probabilities of TRISO fuels using several 1D and 2D models. With multifidelity modeling, we replaced expensive high-fidelity (HF) model evaluations with information fusion from two low-fidelity (LF) models. For the 1D TRISO models, we considered three multifidelity modeling strategies: only Kriging, Kriging LF prediction plus Kriging correction, and deep neural network (DNN) LF prediction plus Kriging correction. While the results across these multifidelity modeling strategies compared satisfactorily, strategies employing information fusion from two LF models consistently called the HF model least often. Next, for the 2D TRISO model, we considered two multifidelity modeling strategies: DNN LF prediction plus Kriging correction (data-driven) and 1D TRISO LF prediction plus Kriging correction (physics-based). The physics-based strategy, as expected, consistently required the fewest calls to the HF model. However, the data-driven strategy had a lower overall simulation time since the DNN predictions are instantaneous, and the 1D TRISO model requires a non-negligible simulation time.
翻訳日:2022-01-07 15:47:10 公開日:2022-01-06
# gpgpu, iot, モジュール型ソフトウェアアーキテクチャを用いたソーシャルヒューマノイドロボットのためのウェアラブルセンサベスト

A wearable sensor vest for social humanoid robots with GPGPU, IoT, and modular software architecture ( http://arxiv.org/abs/2201.02192v1 )

ライセンス: Link先を確認
Mohsen Jafarzadeh, Stephen Brooks, Shimeng Yu, Balakrishnan Prabhakaran, Yonas Tadesse(参考訳) 現在、ほとんどのソーシャルロボットは、ロボットの不可欠な部分であるセンサーを介して周囲や人間と対話し、センサーの使用性、人間とロボットの相互作用、および交換性を制限する。 多くのロボットに合うウェアラブルセンサーの衣服は、多くのアプリケーションで必要です。 本稿では、安価なウェアラブルセンサーベストと、ソーシャルヒューマノイドロボットのためのIoT(Internet of Things)を備えたオープンソースのソフトウェアアーキテクチャについて述べる。 ベストはタッチ、温度、ジェスチャー、距離、視覚センサー、無線通信モジュールで構成されている。 IoT機能により、ロボットはインターネット上で人間とローカルに対話できる。 デザインされたアーキテクチャは、汎用グラフィック処理ユニット(GPGPU)、I2C/SPIバス、インターネット接続、ロボティクスオペレーティングシステム(ROS)を持つあらゆる社会ロボットに対して機能する。 このアーキテクチャのモジュール設計により、開発者は複雑な振る舞いを容易に追加/削除/更新できる。 提案されたソフトウェアアーキテクチャは、IoTテクノロジ、GPGPUノード、I2CおよびSPIバスマネージャ、音声と視覚の相互作用ノード(音声からテキスト、テキストから音声、画像理解)、行動ノードと他のノード間の分離を提供する。 提案されたIoTソリューションは、ロボット内の関連するノード、RESTful Webサービス、ユーザインターフェースで構成される。 インターネット上でのソーシャルロボットとの双方向通信手段として,HTTPプロトコルを用いた。 開発者はC、C++、Pythonプログラミング言語で簡単にノードを編集または追加できる。 我々のアーキテクチャは、社会的なヒューマノイドロボットのためのより洗練された行動設計に利用できる。

Currently, most social robots interact with their surroundings and humans through sensors that are integral parts of the robots, which limits the usability of the sensors, human-robot interaction, and interchangeability. A wearable sensor garment that fits many robots is needed in many applications. This article presents an affordable wearable sensor vest, and an open-source software architecture with the Internet of Things (IoT) for social humanoid robots. The vest consists of touch, temperature, gesture, distance, vision sensors, and a wireless communication module. The IoT feature allows the robot to interact with humans locally and over the Internet. The designed architecture works for any social robot that has a general-purpose graphics processing unit (GPGPU), I2C/SPI buses, Internet connection, and the Robotics Operating System (ROS). The modular design of this architecture enables developers to easily add/remove/update complex behaviors. The proposed software architecture provides IoT technology, GPGPU nodes, I2C and SPI bus mangers, audio-visual interaction nodes (speech to text, text to speech, and image understanding), and isolation between behavior nodes and other nodes. The proposed IoT solution consists of related nodes in the robot, a RESTful web service, and user interfaces. We used the HTTP protocol as a means of two-way communication with the social robot over the Internet. Developers can easily edit or add nodes in C, C++, and Python programming languages. Our architecture can be used for designing more sophisticated behaviors for social humanoid robots.
翻訳日:2022-01-07 15:46:44 公開日:2022-01-06
# 深層学習に基づくモデル還元(DeePMR)法による化学動力学の簡易化

A deep learning-based model reduction (DeePMR) method for simplifying chemical kinetics ( http://arxiv.org/abs/2201.02025v1 )

ライセンス: Link先を確認
Zhiwei Wang, Yaoyu Zhang, Yiguang Ju, Weinan E, Zhi-Qin John, Tianhan Zhang(参考訳) 化学動力学を簡易化する深層学習型モデル還元法 (DeePMR) を提案し, 高温自己着火, 完全旋回反応器 (PSR) およびn-ヘプタン/空気混合物の1次元自由拡散火炎を用いて検証した。 機構還元はブール空間上の最適化問題としてモデル化され、種に対応する各エントリであるブールベクトルが還元機構を表す。 最適化の目的は、事前選択されたベンチマーク量のエラー許容性を考慮すると、メカニズムサイズを最小化することである。 DeePMRの鍵となる考え方は、最適化問題の目的関数を定式化するためにディープニューラルネットワーク(DNN)を使用することである。 高次元ブール空間を効率的に探索するために、反復的DNN支援データサンプリングとDNN訓練手順を実装した。 以上の結果より, DNN はサンプリング効率を向上し, 10^5$ のサンプルのみを10^34} のサンプルとして選択し, 十分な精度を実現することができた。 その結果、DNNは鍵種を認識し、機構性能の低下を合理的に予測できることを示した。 良く訓練されたDNNは、逆最適化問題を解くことにより、最適還元機構を保証する。 着火遅延時間, 層火炎速度, PSRの温度を比較することにより, 結果として生じる骨格機構は少ない(45種)が, Path Flux Analysis (PFA) 法で得られた骨格機構(56種)と同等の精度が得られた。 さらに、大気・近距離条件(0.6から1.2の等価比)のみを考慮すれば、骨格機構はさらに28種に縮小できる。 DeePMRは、モデル還元を行う革新的な方法を提供し、燃焼領域におけるデータ駆動方式の大きな可能性を示している。

A deep learning-based model reduction (DeePMR) method for simplifying chemical kinetics is proposed and validated using high-temperature auto-ignitions, perfectly stirred reactors (PSR), and one-dimensional freely propagating flames of n-heptane/air mixtures. The mechanism reduction is modeled as an optimization problem on Boolean space, where a Boolean vector, each entry corresponding to a species, represents a reduced mechanism. The optimization goal is to minimize the reduced mechanism size given the error tolerance of a group of pre-selected benchmark quantities. The key idea of the DeePMR is to employ a deep neural network (DNN) to formulate the objective function in the optimization problem. In order to explore high dimensional Boolean space efficiently, an iterative DNN-assisted data sampling and DNN training procedure are implemented. The results show that DNN-assistance improves sampling efficiency significantly, selecting only $10^5$ samples out of $10^{34}$ possible samples for DNN to achieve sufficient accuracy. The results demonstrate the capability of the DNN to recognize key species and reasonably predict reduced mechanism performance. The well-trained DNN guarantees the optimal reduced mechanism by solving an inverse optimization problem. By comparing ignition delay times, laminar flame speeds, temperatures in PSRs, the resulting skeletal mechanism has fewer species (45 species) but the same level of accuracy as the skeletal mechanism (56 species) obtained by the Path Flux Analysis (PFA) method. In addition, the skeletal mechanism can be further reduced to 28 species if only considering atmospheric, near-stoichiometric conditions (equivalence ratio between 0.6 and 1.2). The DeePMR provides an innovative way to perform model reduction and demonstrates the great potential of data-driven methods in the combustion area.
翻訳日:2022-01-07 15:45:42 公開日:2022-01-06
# (参考訳) 最適アンテナティルト制御法を学習する:コンテキスト線形帯域アプローチ [全文訳有]

Learning Optimal Antenna Tilt Control Policies: A Contextual Linear Bandit Approach ( http://arxiv.org/abs/2201.02169v1 )

ライセンス: CC BY 4.0
Filippo Vannella, Alexandre Proutiere, Yassir Jedra, Jaeseong Jeong(参考訳) セルネットワークにおけるアンテナ傾きの制御は、ネットワークカバレッジとキャパシティの効率的なトレードオフに到達するために不可欠である。 本稿では、既存のデータ(受動的学習設定)やアルゴリズム(アクティブ学習設定)によってアクティブに生成されたデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。 CL-MABにおけるBest Policy Identification (BPI)問題として,このようなアルゴリズムの設計を定式化する。 armはアンテナの傾き更新を表し、コンテキストは現在のネットワーク条件をキャプチャし、報酬はパフォーマンスの向上、カバレッジとキャパシティの混合に対応し、その目的は、与えられたレベルの信頼度で、ほぼ最適なポリシー(コンテキストを最大報酬でarmにマッピングする機能)を特定することである。 CL-MABをアクティブ・パッシブ・ラーニング・セッティングの両方で用いる場合、任意のアルゴリズムが所定の精度でほぼ最適なポリシーを返却するために必要なサンプル数に基づいて情報理論の下限を導出し、これらの基本的な限界を達成するアルゴリズムを考案する。 提案アルゴリズムはセルラーネットワークにおける遠隔電気ティルト(RET)最適化問題に適用し,従来のルールベース学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成可能であることを示す。

Controlling antenna tilts in cellular networks is imperative to reach an efficient trade-off between network coverage and capacity. In this paper, we devise algorithms learning optimal tilt control policies from existing data (in the so-called passive learning setting) or from data actively generated by the algorithms (the active learning setting). We formalize the design of such algorithms as a Best Policy Identification (BPI) problem in Contextual Linear Multi-Arm Bandits (CL-MAB). An arm represents an antenna tilt update; the context captures current network conditions; the reward corresponds to an improvement of performance, mixing coverage and capacity; and the objective is to identify, with a given level of confidence, an approximately optimal policy (a function mapping the context to an arm with maximal reward). For CL-MAB in both active and passive learning settings, we derive information-theoreti cal lower bounds on the number of samples required by any algorithm returning an approximately optimal policy with a given level of certainty, and devise algorithms achieving these fundamental limits. We apply our algorithms to the Remote Electrical Tilt (RET) optimization problem in cellular networks, and show that they can produce optimal tilt update policy using much fewer data samples than naive or existing rule-based learning algorithms.
翻訳日:2022-01-07 15:41:12 公開日:2022-01-06
# 2層ReLUネットワークの効率的なグローバル最適化:二次時間アルゴリズムと逆学習

Efficient Global Optimization of Two-layer ReLU Networks: Quadratic-time Algorithms and Adversarial Training ( http://arxiv.org/abs/2201.01965v1 )

ライセンス: Link先を確認
Yatong Bai, Tanmay Gautam, Somayeh Sojoudi(参考訳) ニューラルネットワーク(ann)トレーニング環境の非凸性は、本質的に最適化の困難をもたらす。 従来のバックプロパゲーション確率勾配勾配法(SGD)アルゴリズムとその変種は、一部のケースでは有効であるが、急激な局所最小値で立ち往生し、初期化やハイパーパラメータに敏感である。 近年の研究では、ReLUアクティベーションを備えたANNのトレーニングが凸プログラムとして再編成され、解釈可能なANNのグローバルな最適化が期待されている。 しかし、凸トレーニングの定式化は指数関数的に複雑であり、近似ヒューリスティックでさえ3次時間を必要とする。 本研究では,この近似の質を特徴付け,ANNをグローバル収束保証で訓練する2つの効率的なアルゴリズムを開発する。 第1のアルゴリズムは乗算器の交互方向法(ADMM)に基づいている。 正確な凸定式化と近似近似式の両方を解く。 線形大域収束は達成され、最初の数回の反復は高い予測精度の解をもたらす。 近似定式化を解くとき、文毎の時間複雑性は二次的である。 第2のアルゴリズムは、"sampled convex programs"理論に基づくもので、実装が容易である。 制約のない凸の定式化を解き、大まかに最適な分類器に収束する。 annトレーニングランドスケープの非凸性は、敵対的なトレーニングを考えると悪化する。 我々は,ロバスト凸最適化理論を凸トレーニングに適用し,逆入力にロバストな ann を訓練する凸定式法を開発した。 分析は一層完全連結のanに明示的に焦点を当てるが、より洗練されたアーキテクチャに拡張できる。

The non-convexity of the artificial neural network (ANN) training landscape brings inherent optimization difficulties. While the traditional back-propagation stochastic gradient descent (SGD) algorithm and its variants are effective in certain cases, they can become stuck at spurious local minima and are sensitive to initializations and hyperparameters. Recent work has shown that the training of an ANN with ReLU activations can be reformulated as a convex program, bringing hope to globally optimizing interpretable ANNs. However, naively solving the convex training formulation has an exponential complexity, and even an approximation heuristic requires cubic time. In this work, we characterize the quality of this approximation and develop two efficient algorithms that train ANNs with global convergence guarantees. The first algorithm is based on the alternating direction method of multiplier (ADMM). It solves both the exact convex formulation and the approximate counterpart. Linear global convergence is achieved, and the initial several iterations often yield a solution with high prediction accuracy. When solving the approximate formulation, the per-iteration time complexity is quadratic. The second algorithm, based on the "sampled convex programs" theory, is simpler to implement. It solves unconstrained convex formulations and converges to an approximately globally optimal classifier. The non-convexity of the ANN training landscape exacerbates when adversarial training is considered. We apply the robust convex optimization theory to convex training and develop convex formulations that train ANNs robust to adversarial inputs. Our analysis explicitly focuses on one-hidden-layer fully connected ANNs, but can extend to more sophisticated architectures.
翻訳日:2022-01-07 15:16:21 公開日:2022-01-06
# ロジスティック帯域に対する結合効率と最適アルゴリズム

Jointly Efficient and Optimal Algorithms for Logistic Bandits ( http://arxiv.org/abs/2201.01985v1 )

ライセンス: Link先を確認
Louis Faury, Marc Abeille, Kwang-Sung Jun, Cl\'ement Calauz\`enes(参考訳) ロジスティック・バンドは近年、理論的および実践的関連性の組み合わせにより慎重に精査されている。 この研究は統計的に効率的なアルゴリズムを提供し、指数関数的に大きな要因によって以前の戦略の後悔を改善した。 しかし、このようなアルゴリズムは、各ラウンドで$\Omega(t)$演算を必要とするため、著しくコストがかかる。 一方、別の研究は計算効率に焦点をあてる("\mathcal{o}(1)$ per-round cost")が、上記の指数関数的改善を放棄するコストを犠牲にしている。 両世界の最善を勝ち取ることは、残念ながら両者の結婚の問題ではない。 代わりに、ロジスティックバンドのための新しい学習手順を導入する。 統計的厳密性を犠牲にすることなく、十分な統計がオンラインで容易に維持できる信頼セットが得られる。 効率的な計画手法と組み合わさって,Abeille et al. (2021) の課題依存下界に相反する性能を後悔する高速アルゴリズムを設計する。 我々の知る限り、これらは統計と計算の効率を同時に享受する最初のロジスティック帯域幅アルゴリズムである。

Logistic Bandits have recently undergone careful scrutiny by virtue of their combined theoretical and practical relevance. This research effort delivered statistically efficient algorithms, improving the regret of previous strategies by exponentially large factors. Such algorithms are however strikingly costly as they require $\Omega(t)$ operations at each round. On the other hand, a different line of research focused on computational efficiency ($\mathcal{O}(1)$ per-round cost), but at the cost of letting go of the aforementioned exponential improvements. Obtaining the best of both world is unfortunately not a matter of marrying both approaches. Instead we introduce a new learning procedure for Logistic Bandits. It yields confidence sets which sufficient statistics can be easily maintained online without sacrificing statistical tightness. Combined with efficient planning mechanisms we design fast algorithms which regret performance still match the problem-dependent lower-bound of Abeille et al. (2021). To the best of our knowledge, those are the first Logistic Bandit algorithms that simultaneously enjoy statistical and computational efficiency.
翻訳日:2022-01-07 15:15:55 公開日:2022-01-06
# RDFデータのためのスキップベクトル:特徴パターンの複雑さに基づく抽出

Skip Vectors for RDF Data: Extraction Based on the Complexity of Feature Patterns ( http://arxiv.org/abs/2201.01996v1 )

ライセンス: Link先を確認
Yota Minami, Ken Kaneiwa(参考訳) Resource Description Framework(RDF)は、Web上のリソースの属性や関連性などのメタデータを記述するためのフレームワークである。 RDFグラフの機械学習タスクには3つの方法がある。 (i)RDFグラフカーネルによるベクトルマシン(SVM)のサポート。 (ii)rdfグラフ埋め込み、及び (iii)関係グラフ畳み込みネットワーク。 本稿では,隣接エッジとノードの様々な組み合わせを抽出することにより,rdfグラフ内の各リソースの特徴を表現できる新しい特徴ベクトル(スキップベクトルと呼ばれる)を提案する。 スキップベクトルを低次元化するために,各特徴の情報ゲイン比に基づいて分類タスクの重要な特徴を選択する。 分類タスクは、SVM、k-nearest neighbors法、ニューラルネットワーク、ランダムフォレスト、AdaBoostなどの従来の機械学習アルゴリズムに、各リソースの低次元スキップベクトルを適用することで行うことができる。 Wikidata,DBpedia,YAG OなどのRDFデータを用いた評価実験において,本手法をSVM内のRDFグラフカーネルと比較した。 AIFB, MUTAG, BGS, AMベンチマーク上のRDF2vecやリレーショナルグラフ畳み込みネットワークなどのRDFグラフの埋め込み手法との比較を行った。

The Resource Description Framework (RDF) is a framework for describing metadata, such as attributes and relationships of resources on the Web. Machine learning tasks for RDF graphs adopt three methods: (i) support vector machines (SVMs) with RDF graph kernels, (ii) RDF graph embeddings, and (iii) relational graph convolutional networks. In this paper, we propose a novel feature vector (called a Skip vector) that represents some features of each resource in an RDF graph by extracting various combinations of neighboring edges and nodes. In order to make the Skip vector low-dimensional, we select important features for classification tasks based on the information gain ratio of each feature. The classification tasks can be performed by applying the low-dimensional Skip vector of each resource to conventional machine learning algorithms, such as SVMs, the k-nearest neighbors method, neural networks, random forests, and AdaBoost. In our evaluation experiments with RDF data, such as Wikidata, DBpedia, and YAGO, we compare our method with RDF graph kernels in an SVM. We also compare our method with the two approaches: RDF graph embeddings such as RDF2vec and relational graph convolutional networks on the AIFB, MUTAG, BGS, and AM benchmarks.
翻訳日:2022-01-07 15:15:39 公開日:2022-01-06
# 地域説明のトポロジカル表現

Topological Representations of Local Explanations ( http://arxiv.org/abs/2201.02155v1 )

ライセンス: Link先を確認
Peter Xenopoulos, Gromit Chan, Harish Doraiswamy, Luis Gustavo Nonato, Brian Barr, Claudio Silva(参考訳) モデルアウトプットの合理化の必要性から,ローカルな説明可能性メソッド -- 予測毎に説明を発生させようとする – がますます普及している。 しかし,様々なスケールや次元で出力を生成するため,局所的説明可能性法の比較は困難である。 さらに、いくつかの説明可能性手法の確率的性質から、ある観測値に対して矛盾する説明を生成する方法の異なる実行が可能である。 本稿では,局所的な説明の集合から簡易表現を抽出するトポロジに基づくフレームワークを提案する。 まず、説明空間とモデル予測の関係をスカラー関数としてモデル化する。 そして,この関数のトポロジカルスケルトンを計算する。 このトポロジカルスケルトンはそのような関数のシグネチャとして機能し、異なる説明法を比較するために使用される。 我々のフレームワークは、説明可能性技術の違いを確実に識別できるだけでなく、安定した表現も提供できることを実証する。 次に,本フレームワークを用いて局所的説明可能性手法の適切なパラメータを同定する方法を示す。 我々のフレームワークは単純であり、複雑な最適化を必要としないため、ほとんどの局所的な説明手法に広く適用することができる。 提案手法の実践性と汎用性は,説明手法の理解と比較のためのツールとしてトポロジに基づくアプローチを促進するのに役立つと考えている。

Local explainability methods -- those which seek to generate an explanation for each prediction -- are becoming increasingly prevalent due to the need for practitioners to rationalize their model outputs. However, comparing local explainability methods is difficult since they each generate outputs in various scales and dimensions. Furthermore, due to the stochastic nature of some explainability methods, it is possible for different runs of a method to produce contradictory explanations for a given observation. In this paper, we propose a topology-based framework to extract a simplified representation from a set of local explanations. We do so by first modeling the relationship between the explanation space and the model predictions as a scalar function. Then, we compute the topological skeleton of this function. This topological skeleton acts as a signature for such functions, which we use to compare different explanation methods. We demonstrate that our framework can not only reliably identify differences between explainability techniques but also provides stable representations. Then, we show how our framework can be used to identify appropriate parameters for local explainability methods. Our framework is simple, does not require complex optimizations, and can be broadly applied to most local explanation methods. We believe the practicality and versatility of our approach will help promote topology-based approaches as a tool for understanding and comparing explanation methods.
翻訳日:2022-01-07 15:15:11 公開日:2022-01-06
# Grokking: 小さなアルゴリズムデータセットのオーバーフィッティング以上の一般化

Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets ( http://arxiv.org/abs/2201.02177v1 )

ライセンス: Link先を確認
Alethea Power, Yuri Burda, Harri Edwards, Igor Babuschkin, Vedant Misra(参考訳) 本稿では,小さなアルゴリズムで生成されたデータセット上でのニューラルネットワークの一般化について検討する。 この設定では、データ効率、記憶力、一般化、学習速度に関する質問を詳細に研究することができる。 いくつかの状況では、ニューラルネットワークはデータのパターンを"グロキング"するプロセスを通じて学習し、ランダムな確率レベルから完全な一般化までの一般化性能を改善し、この一般化の改善はオーバーフィッティング(overfitting)のポイントをはるかに越えて起こり得ることを示す。 また,データセットサイズの関数としての一般化についても検討し,より小さなデータセットでは一般化に最適化の量を増やす必要があることを発見した。 これらのデータセットは、深層学習の難解な側面を研究するための豊かな基盤を提供していると論じている: 有限訓練データセットの記憶を超えた過パラメータニューラルネットワークの一般化である。

In this paper we propose to study generalization of neural networks on small algorithmically generated datasets. In this setting, questions about data efficiency, memorization, generalization, and speed of learning can be studied in great detail. In some situations we show that neural networks learn through a process of "grokking" a pattern in the data, improving generalization performance from random chance level to perfect generalization, and that this improvement in generalization can happen well past the point of overfitting. We also study generalization as a function of dataset size and find that smaller datasets require increasing amounts of optimization for generalization. We argue that these datasets provide a fertile ground for studying a poorly understood aspect of deep learning: generalization of overparametrized neural networks beyond memorization of the finite training dataset.
翻訳日:2022-01-07 15:14:51 公開日:2022-01-06
# 重み付きcspsのスーパーリパラメトリゼーション:特性と最適化の展望

Super-Reparametrizat ions of Weighted CSPs: Properties and Optimization Perspective ( http://arxiv.org/abs/2201.02018v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Dlask, Tom\'a\v{s} Werner, Simon de Givry(参考訳) 重み付きCSP(WCSP)の再パラメータ化の概念(WCSPの同値保存変換とも呼ばれる)はよく知られており、最適なWCSP値の近似や有界化に多くのアルゴリズムで用いられている。 対照的にスーパーリパラメトリゼーション(wcspの目標を各割り当てに維持または増やす重みの変化)の概念は既に提案されていたが、詳細は研究されなかった。 このギャップを埋めるために、超再パラメータ化の理論的性質をいくつか提示し、再パラメータ化の理論特性と比較する。 さらに,スーパーリパラメトリゼーションを用いたwcspの最適値の上限を計算するためのフレームワークを提案する。 任意の制約伝達ルール(技術的条件下では)を原則として適用して境界値を改善することは可能であることを示す。 特にアーク整合性については、この手法は既知の仮想AC(VAC)アルゴリズムに還元される。 新たに我々はシングルトンアーク整合性(SAC)法を実装し,WCSPの他の強い局所成分と比較した。 その結果、SACから得られる境界は、多くの事例群よりも優れていることがわかった。

The notion of reparametrizations of Weighted CSPs (WCSPs) (also known as equivalence-preservi ng transformations of WCSPs) is well-known and finds its use in many algorithms to approximate or bound the optimal WCSP value. In contrast, the concept of super-reparametrizat ions (which are changes of the weights that keep or increase the WCSP objective for every assignment) was already proposed but never studied in detail. To fill this gap, we present a number of theoretical properties of super-reparametrizat ions and compare them to those of reparametrizations. Furthermore, we propose a framework for computing upper bounds on the optimal value of the (maximization version of) WCSP using super-reparametrizat ions. We show that it is in principle possible to employ arbitrary (under some technical conditions) constraint propagation rules to improve the bound. For arc consistency in particular, the method reduces to the known Virtual AC (VAC) algorithm. Newly, we implemented the method for singleton arc consistency (SAC) and compared it to other strong local consistencies in WCSPs on a public benchmark. The results show that the bounds obtained from SAC are superior for many instance groups.
翻訳日:2022-01-07 15:13:31 公開日:2022-01-06
# 均質不平衡正則化最適輸送モデルと境界付き最適輸送への応用

An Homogeneous Unbalanced Regularized Optimal Transport model with applications to Optimal Transport with Boundary ( http://arxiv.org/abs/2201.02082v1 )

ライセンス: Link先を確認
Th\'eo Lacombe(参考訳) 本研究は,不均衡最適輸送(ot)モデルにおけるエントロピー正規化項の導入が,入力測度に対する同質性を変化させる可能性について検討する。 我々は, 最適輸送コスト自体が均質ではなく, 最適な輸送計画であり, いわゆるシンクホーン発散は確かに均質であるにもかかわらず, 共通設定(平衡OTと非平衡OTとクルバック・リーブラー発散を含む)において観察する。 しかし、均質性はより一般的な非平衡正規化最適輸送(urot)モデルでは成立しない。 標準 urot モデルの多くの特性を維持しつつ均質な urot モデルを取得するために、エントロピー正規化項を変更することを提案する。 標準(不均一)UROTモデルが不適切な振る舞いをもたらす辺縁部への空間的変化を含む輸送モデルである、境界による最適輸送を規則化する上で、同種UROT(HUROT)モデルを使用することの重要性を示す。

This work studies how the introduction of the entropic regularization term in unbalanced Optimal Transport (OT) models may alter their homogeneity with respect to the input measures. We observe that in common settings (including balanced OT and unbalanced OT with Kullback-Leibler divergence to the marginals), although the optimal transport cost itself is not homogeneous, optimal transport plans and the so-called Sinkhorn divergences are indeed homogeneous. However, homogeneity does not hold in more general Unbalanced Regularized Optimal Transport (UROT) models, for instance those using the Total Variation as divergence to the marginals. We propose to modify the entropic regularization term to retrieve an UROT model that is homogeneous while preserving most properties of the standard UROT model. We showcase the importance of using our Homogeneous UROT (HUROT) model when it comes to regularize Optimal Transport with Boundary, a transportation model involving a spatially varying divergence to the marginals for which the standard (inhomogeneous) UROT model would yield inappropriate behavior.
翻訳日:2022-01-07 15:12:59 公開日:2022-01-06
# 単語N-gram言語モデルを用いたマンダリン終端音声認識の改良

Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model ( http://arxiv.org/abs/2201.01995v1 )

ライセンス: Link先を確認
Jinchuan Tian, Jianwei Yu, Chao Weng, Yuexian Zou, and Dong Yu(参考訳) エンドツーエンド(e2e)自動音声認識(asr)の急速な進歩にもかかわらず、外部言語モデル(lms)をデコードに組み込むことにより、e2e asrシステムの認識性能がさらに向上することが示されている。 E2E ASRシステムで採用されているモデリングユニットに合わせて、サブワードレベル(文字、BPE)のLMは、通常、現在のE2E ASRシステムと協調するために使用される。 しかし、サブワードレベルのLMは単語レベルの情報を無視し、E2E ASRの外部LMの強度を制限する可能性がある。 単語レベルの外部LMをE2E ASRに組み込む方法はいくつか提案されているが、これらの手法は主に英語のような明確な単語境界を持つ言語向けに設計されており、各文字列が複数の単語列を持つことができるマンダリンのような言語には直接適用できない。 そこで本研究では,単語レベルの格子をオンザフライで構築し,各部分仮説に対して可能な単語列をすべて考慮した新しい復号アルゴリズムを提案する。 そして、生成された格子を外部語N-gram LMと交差させて仮説のLMスコアを得る。 提案手法は,AED(Attention-based Encoder-Decoder)とNT(Neural Transducer)の両フレームワークについて検討した。 実験の結果,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回ることがわかった。 Aishell-1(CER 4.18%)とAishell-2(CER 5.06%)の両方のデータセットで最先端の結果が得られ、21K時間マンダリンデータセットでCERを14.8%削減する。

Despite the rapid progress of end-to-end (E2E) automatic speech recognition (ASR), it has been shown that incorporating external language models (LMs) into the decoding can further improve the recognition performance of E2E ASR systems. To align with the modeling units adopted in E2E ASR systems, subword-level (e.g., characters, BPE) LMs are usually used to cooperate with current E2E ASR systems. However, the use of subword-level LMs will ignore the word-level information, which may limit the strength of the external LMs in E2E ASR. Although several methods have been proposed to incorporate word-level external LMs in E2E ASR, these methods are mainly designed for languages with clear word boundaries such as English and cannot be directly applied to languages like Mandarin, in which each character sequence can have multiple corresponding word sequences. To this end, we propose a novel decoding algorithm where a word-level lattice is constructed on-the-fly to consider all possible word sequences for each partial hypothesis. Then, the LM score of the hypothesis is obtained by intersecting the generated lattice with an external word N-gram LM. The proposed method is examined on both Attention-based Encoder-Decoder (AED) and Neural Transducer (NT) frameworks. Experiments suggest that our method consistently outperforms subword-level LMs, including N-gram LM and neural network LM. We achieve state-of-the-art results on both Aishell-1 (CER 4.18%) and Aishell-2 (CER 5.06%) datasets and reduce CER by 14.8% relatively on a 21K-hour Mandarin dataset.
翻訳日:2022-01-07 15:12:38 公開日:2022-01-06
# ビデオ分解用フローガイドスパース変圧器

Flow-Guided Sparse Transformer for Video Deblurring ( http://arxiv.org/abs/2201.01893v1 )

ライセンス: Link先を確認
Jing Lin, Yuanhao Cai, Xiaowan Hu, Haoqian Wang, Youliang Yan, Xueyi Zou, Henghui Ding, Yulun Zhang, Radu Timofte, Luc Van Gool(参考訳) 時空間近傍における類似したシャープなシーンパッチの活用は,ビデオデブラリングにおいて重要である。 しかし、cnnベースの手法では、長距離依存性の捕捉と非局所的自己相似性のモデリングに制限がある。 本稿では,FGST(Flow-Guided Sparse Transformer)という新しいフレームワークを提案する。 FGSTでは,FGSW-MSA(Flow-Guide d Sparse Window-based Multi-head Self-Attention)をカスタマイズする。 ぼやけた参照フレーム上の$query$要素ごとに、FGSW-MSAは推定された光フローのガイダンスを楽しみ、隣接するフレームの同じシーンパッチに対応する、空間的にスパースで高関連性の高い$key$要素を世界中にサンプリングする。 さらに,過去のフレームから情報を転送し,長期の時間依存性を強化するリカレント埋め込み(re)機構を提案する。 総合的な実験により,提案するfgstはdvdおよびgoproのデータセットにおいて最先端(sota)メソッドよりも優れており,より視覚的な評価結果が得られることを示した。 コードとモデルは一般公開される予定だ。

Exploiting similar and sharper scene patches in spatio-temporal neighborhoods is critical for video deblurring. However, CNN-based methods show limitations in capturing long-range dependencies and modeling non-local self-similarity. In this paper, we propose a novel framework, Flow-Guided Sparse Transformer (FGST), for video deblurring. In FGST, we customize a self-attention module, Flow-Guided Sparse Window-based Multi-head Self-Attention (FGSW-MSA). For each $query$ element on the blurry reference frame, FGSW-MSA enjoys the guidance of the estimated optical flow to globally sample spatially sparse yet highly related $key$ elements corresponding to the same scene patch in neighboring frames. Besides, we present a Recurrent Embedding (RE) mechanism to transfer information from past frames and strengthen long-range temporal dependencies. Comprehensive experiments demonstrate that our proposed FGST outperforms state-of-the-art (SOTA) methods on both DVD and GOPRO datasets and even yields more visually pleasing results in real video deblurring. Code and models will be released to the public.
翻訳日:2022-01-07 15:11:45 公開日:2022-01-06
# 非織布に対するあいまいな曇り指数

An unambiguous cloudiness index for nonwovens ( http://arxiv.org/abs/2201.02011v1 )

ライセンス: Link先を確認
Michael Godehardt, Ali Moghiseh, Christine Oetjen, Joachim Ohser and Katja Schladitz(参考訳) 曇りや形成は、不織布や論文の均質性からの逸脱に対処するために産業で日常的に使われる概念である。 画像データに基づく曇り指数の測定は,産業品質保証において一般的な課題である。 曇りを定量化する最も一般的な2つの方法は、一方の力スペクトルまたは相関関数または他方のラプラシアピラミッドに基づいている。 ここでは,最初のアプローチの数学的基礎を包括的に記憶し,曇り指数を導出し,その実用的評価を示す。 我々は、ラプラシアピラミッドと、相互作用の範囲や小角散乱の強度といった曇りを特徴付ける他の量は、パワースペクトルと非常に密接に関係していることを証明する。 最後に, 電力スペクトルを解析的に測定することが容易であり, 代替技術よりも多くの情報を運ぶことを示す。

Cloudiness or formation is a concept routinely used in industry to address deviations from homogeneity in nonwovens and papers. Measuring a cloudiness index based on image data is a common task in industrial quality assurance. The two most popular ways of quantifying cloudiness are based on power spectrum or correlation function on the one hand or the Laplacian pyramid on the other hand. Here, we recall the mathematical basis of the first approach comprehensively, derive a cloudiness index, and demonstrate its practical estimation. We prove that the Laplacian pyramid as well as other quantities characterizing cloudiness like the range of interaction and the intensity of small-angle scattering are very closely related to the power spectrum. Finally, we show that the power spectrum is easy to be measured image analytically and carries more information than the alternatives.
翻訳日:2022-01-07 15:11:26 公開日:2022-01-06
# ニューラルマシン翻訳のための句レベルの逆例生成

Phrase-level Adversarial Example Generation for Neural Machine Translation ( http://arxiv.org/abs/2201.02009v1 )

ライセンス: Link先を確認
Juncheng Wan, Jian Yang, Shuming Ma, Dongdong Zhang, Weinan Zhang, Yong Yu, Furu Wei(参考訳) エンドツーエンドのニューラルネットワーク翻訳(NMT)は目覚ましい進歩を遂げているが、ノイズの多い入力は通常、モデルが脆弱で不安定になる。 拡張データとして逆例を生成することはこの問題を軽減するのに有用であることが証明された。 既存の敵例生成法(AEG)は、単語レベルまたは文字レベルである。 本稿では,モデルの堅牢性を高めるために,句レベル逆例生成(PAEG)手法を提案する。 本手法は,ソース入力における脆弱な位置のフレーズを代用するために,勾配に基づく戦略を用いる。 我々は,LDC中英語,IWSLT14ドイツ語-英語,WMT14英語-ドイツ語タスクの3つのベンチマークで検証を行った。 実験の結果,従来の手法に比べて性能が大幅に向上した。

While end-to-end neural machine translation (NMT) has achieved impressive progress, noisy input usually leads models to become fragile and unstable. Generating adversarial examples as the augmented data is proved to be useful to alleviate this problem. Existing methods for adversarial example generation (AEG) are word-level or character-level. In this paper, we propose a phrase-level adversarial example generation (PAEG) method to enhance the robustness of the model. Our method leverages a gradient-based strategy to substitute phrases of vulnerable positions in the source input. We verify our method on three benchmarks, including LDC Chinese-English, IWSLT14 German-English, and WMT14 English-German tasks. Experimental results demonstrate that our approach significantly improves performance compared to previous methods.
翻訳日:2022-01-07 14:54:21 公開日:2022-01-06
# 幸いなことに、談話マーカーは感情分析のための言語モデルを強化できる

Fortunately, Discourse Markers Can Enhance Language Models for Sentiment Analysis ( http://arxiv.org/abs/2201.02026v1 )

ライセンス: Link先を確認
Liat Ein-Dor, Ilya Shnayderman, Artem Spector, Lena Dankin, Ranit Aharonov and Noam Slonim(参考訳) 近年、訓練済みの言語モデルがNLPの世界に革命をもたらし、下流の様々なタスクにおける芸術的パフォーマンスの状態を達成している。 しかし、多くの場合、ラベル付きデータが不足し、ゼロまたは少数のショット設定でモデルが実行されることが期待される場合、これらのモデルはうまく機能しない。 近年,ダウンストリームタスクに合致した第2フェーズの事前トレーニング(インタートレーニング)を行うことで,特に不足したデータセットにおいて,結果が改善されることが,いくつかの研究で示されている。 本稿では,感情分析に言語モデルを適用した大規模弱ラベルデータを生成するために,感情伝達型談話マーカーを活用することを提案する。 大規模な実験結果から,ファイナンス領域を含むさまざまなベンチマークデータセットに対するアプローチの価値が示された。 コード、モデル、データはhttps://github.com/i bm/tslm-discourse-ma rkersで入手できる。

In recent years, pretrained language models have revolutionized the NLP world, while achieving state of the art performance in various downstream tasks. However, in many cases, these models do not perform well when labeled data is scarce and the model is expected to perform in the zero or few shot setting. Recently, several works have shown that continual pretraining or performing a second phase of pretraining (inter-training) which is better aligned with the downstream task, can lead to improved results, especially in the scarce data setting. Here, we propose to leverage sentiment-carrying discourse markers to generate large-scale weakly-labeled data, which in turn can be used to adapt language models for sentiment analysis. Extensive experimental results show the value of our approach on various benchmark datasets, including the finance domain. Code, models and data are available at https://github.com/i bm/tslm-discourse-ma rkers.
翻訳日:2022-01-07 14:54:06 公開日:2022-01-06
# bern2: エンティティ認識および正規化ツールという,高度な神経バイオメディカル

BERN2: an advanced neural biomedical named entity recognition and normalization tool ( http://arxiv.org/abs/2201.02080v1 )

ライセンス: Link先を確認
Mujeen Sung, Minbyul Jeong, Yonghwa Choi, Donghyeon Kim, Jinhyuk Lee and Jaewoo Kang(参考訳) 生物医学の自然言語処理において、名前付き実体認識(NER)と名前付き実体正規化(NEN)は、成長を続ける生物医学の文献から生物医学の実体(疾患や化学物質など)を自動抽出できる重要なタスクである。 本稿では,従来のニューラルネットワークベースのNERツール(Kim et al., 2019)を改善するツールであるBERN2(Advanced Biomedical Entity Recognition and Normalization)を提案する。 我々は,バイオメディカル知識グラフ構築などの様々なタスクにおいて,大規模バイオメディカルテキストをより正確に注釈できるツールを期待する。

In biomedical natural language processing, named entity recognition (NER) and named entity normalization (NEN) are key tasks that enable the automatic extraction of biomedical entities (e.g., diseases and chemicals) from the ever-growing biomedical literature. In this paper, we present BERN2 (Advanced Biomedical Entity Recognition and Normalization), a tool that improves the previous neural network-based NER tool (Kim et al., 2019) by employing a multi-task NER model and neural network-based NEN models to achieve much faster and more accurate inference. We hope that our tool can help annotate large-scale biomedical texts more accurately for various tasks such as biomedical knowledge graph construction.
翻訳日:2022-01-07 14:53:50 公開日:2022-01-06
# Decompose to Adapt: Feature Disentanglementによるクロスドメインオブジェクト検出

Decompose to Adapt: Cross-domain Object Detection via Feature Disentanglement ( http://arxiv.org/abs/2201.01929v1 )

ライセンス: Link先を確認
Dongnan Liu, Chaoyi Zhang, Yang Song, Heng Huang, Chenyu Wang, Michael Barnett, Weidong Cai(参考訳) 教師なしドメイン適応(UDA)技術の最近の進歩は、ドメイン間コンピュータビジョンタスクにおいて大きな成功を収め、ドメイン分散ギャップを埋めることにより、データ駆動型ディープラーニングアーキテクチャの一般化能力を高めている。 UDAベースのクロスドメインオブジェクト検出手法では、その大部分は、逆学習戦略を通じてドメイン不変の機能生成を誘導することにより、ドメインバイアスを軽減する。 しかし, ドメイン識別者は, 不安定な対向訓練過程のため, 分類能力に制限がある。 したがって、抽出された特徴は完全にドメイン不変ではなく、依然としてドメインプライベートな要素を含まないため、ドメイン間の相違をさらに緩和する障害が生じる。 この問題に対処するために,タスク学習機能におけるソース固有情報を排除するために,DDF(Domain Disentanglement Faster-RCNN)を設計する。 ddf法は,gtd(global triplet disentanglement)モジュールとisd(instance similarity disentanglement)モジュールを用いて,大域的および局所的な段階における特徴的不等角化を促進する。 提案手法は,4つのUDAオブジェクト検出タスクにおいて最先端の手法よりも優れていることを示す。

Recent advances in unsupervised domain adaptation (UDA) techniques have witnessed great success in cross-domain computer vision tasks, enhancing the generalization ability of data-driven deep learning architectures by bridging the domain distribution gaps. For the UDA-based cross-domain object detection methods, the majority of them alleviate the domain bias by inducing the domain-invariant feature generation via adversarial learning strategy. However, their domain discriminators have limited classification ability due to the unstable adversarial training process. Therefore, the extracted features induced by them cannot be perfectly domain-invariant and still contain domain-private factors, bringing obstacles to further alleviate the cross-domain discrepancy. To tackle this issue, we design a Domain Disentanglement Faster-RCNN (DDF) to eliminate the source-specific information in the features for detection task learning. Our DDF method facilitates the feature disentanglement at the global and local stages, with a Global Triplet Disentanglement (GTD) module and an Instance Similarity Disentanglement (ISD) module, respectively. By outperforming state-of-the-art methods on four benchmark UDA object detection tasks, our DDF method is demonstrated to be effective with wide applicability.
翻訳日:2022-01-07 14:52:40 公開日:2022-01-06
# 空中シーン解析:タイルレベルシーン分類からピクセルワイドセマンティックラベリングへ

Aerial Scene Parsing: From Tile-level Scene Classification to Pixel-wise Semantic Labeling ( http://arxiv.org/abs/2201.01953v1 )

ライセンス: Link先を確認
Yang Long and Gui-Song Xia and Liangpei Zhang and Gong Cheng and Deren Li(参考訳) 空中画像が与えられた場合、空中シーン解析(ASP)は、画像のすべてのピクセルにセマンティックラベルを割り当てることによって、画像内容の意味的構造を解釈する。 データ駆動型手法の普及に伴い、過去数十年間、高解像度空中画像を用いたタイルレベルのシーン分類やセグメンテーションに基づく画像解析の手法の問題にアプローチすることで、asp.netは有望な進歩を遂げてきた。 しかしながら、以前のスキームはタイルワイドなバウンダリで結果を生成することが多いが、後者はピクセルからセマンティクスまで複雑なモデリングプロセスを扱う必要がある。 本稿では,タイルレベルのシーン分類から画素単位のセマンティックラベリングまでの観点から,これらの課題をASP.NET で解決する。 具体的には,まず,文献レビューによる空中画像解釈を再考する。 次に,100万エイドという航空画像を含む大規模シーン分類データセットを提案する。 本稿では,従来の畳み込みニューラルネットワーク(CNN)を用いたベンチマーク実験についても報告する。 最後に,タイルレベルのシーン分類とオブジェクトベース画像解析を統合し,ピクセル単位の意味ラベリングを実現する。 集中的な実験によると、Million-AIDは難しいが有用なデータセットであり、新しく開発されたアルゴリズムを評価するためのベンチマークとして機能する。 Million-AIDから知識を伝達する際、Mario-AIDで事前訓練された微調整CNNモデルは、空中シーン分類のための事前訓練されたImageNetよりも一貫して性能が向上する。 さらに,階層型マルチタスク学習手法では,難解なgid上で最先端の画素単位の分類を実現し,航空機画像解釈のための画素単位の意味ラベリングに対してタイルレベルのシーン分類を橋渡しする。

Given an aerial image, aerial scene parsing (ASP) targets to interpret the semantic structure of the image content, e.g., by assigning a semantic label to every pixel of the image. With the popularization of data-driven methods, the past decades have witnessed promising progress on ASP by approaching the problem with the schemes of tile-level scene classification or segmentation-based image analysis, when using high-resolution aerial images. However, the former scheme often produces results with tile-wise boundaries, while the latter one needs to handle the complex modeling process from pixels to semantics, which often requires large-scale and well-annotated image samples with pixel-wise semantic labels. In this paper, we address these issues in ASP, with perspectives from tile-level scene classification to pixel-wise semantic labeling. Specifically, we first revisit aerial image interpretation by a literature review. We then present a large-scale scene classification dataset that contains one million aerial images termed Million-AID. With the presented dataset, we also report benchmarking experiments using classical convolutional neural networks (CNNs). Finally, we perform ASP by unifying the tile-level scene classification and object-based image analysis to achieve pixel-wise semantic labeling. Intensive experiments show that Million-AID is a challenging yet useful dataset, which can serve as a benchmark for evaluating newly developed algorithms. When transferring knowledge from Million-AID, fine-tuning CNN models pretrained on Million-AID perform consistently better than those pretrained ImageNet for aerial scene classification. Moreover, our designed hierarchical multi-task learning method achieves the state-of-the-art pixel-wise classification on the challenging GID, bridging the tile-level scene classification toward pixel-wise semantic labeling for aerial image interpretation.
翻訳日:2022-01-07 14:52:16 公開日:2022-01-06
# 人物再特定のための多領域共同訓練

Multi-Domain Joint Training for Person Re-Identification ( http://arxiv.org/abs/2201.01983v1 )

ライセンス: Link先を確認
Lu Yang, Lingqiao Liu, Yunlong Wang, Peng Wang, and Yanning Zhang(参考訳) ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。 したがって、多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。 より多くのサンプル、すなわち複数のデータセットからのサンプルによるトレーニングを使用することは、必ずしも人気のあるreidモデルを使用することによるパフォーマンス向上につながりません。 場合によっては、より多くのサンプルによるトレーニングが、これらのデータセットの1つで評価のパフォーマンスを損なうこともある。 我々は、この現象は標準ネットワークが多様な環境に適応できないことによるものであると仮定する。 この問題を解決するために,パラメータを様々な要因に適応できるDomain-Camera-Sample Dynamic Network (DCSD) を提案する。 具体的には、入力特徴から特定できる内部ドメイン関連因子と、ドメイン情報やカメラ情報などの外部ドメイン関連因子について考察する。 我々の発見によると、このような適応モデルによるトレーニングは、より多くのトレーニングサンプルの恩恵を受けることができる。 実験の結果,複数のデータセットで共同トレーニングを行うことで,dcsdの性能を最大12.3%向上させることができた。

Deep learning-based person Re-IDentification (ReID) often requires a large amount of training data to achieve good performance. Thus it appears that collecting more training data from diverse environments tends to improve the ReID performance. This paper re-examines this common belief and makes a somehow surprising observation: using more samples, i.e., training with samples from multiple datasets, does not necessarily lead to better performance by using the popular ReID models. In some cases, training with more samples may even hurt the performance of the evaluation is carried out in one of those datasets. We postulate that this phenomenon is due to the incapability of the standard network in adapting to diverse environments. To overcome this issue, we propose an approach called Domain-Camera-Sample Dynamic network (DCSD) whose parameters can be adaptive to various factors. Specifically, we consider the internal domain-related factor that can be identified from the input features, and external domain-related factors, such as domain information or camera information. Our discovery is that training with such an adaptive model can better benefit from more training samples. Experimental results show that our DCSD can greatly boost the performance (up to 12.3%) while joint training in multiple datasets.
翻訳日:2022-01-07 14:51:09 公開日:2022-01-06
# TransVPR:マルチレベルアテンションアグリゲーションを用いたトランスフォーマーを用いた位置認識

TransVPR: Transformer-based place recognition with multi-level attention aggregation ( http://arxiv.org/abs/2201.02001v1 )

ライセンス: Link先を確認
Ruotong Wang, Yanqing Shen, Weiliang Zuo, Sanping Zhou, Nanning Zhen(参考訳) 視覚位置認識は、自律走行ナビゲーションや移動ロボットのローカライズといったアプリケーションにとって難しい課題である。 複雑な場面に現れる要素の抽出は、しばしば視覚的な場所の知覚のずれにつながる。 この問題に対処するためには,タスク関連領域のみからの情報を画像表現に統合することが重要である。 本稿では,視覚変換器に基づく新しい総合的位置認識モデルTransVPRを提案する。 タスク関連機能を自然に集約できるトランスフォーマーにおける自己注意操作の望ましい特性の恩恵を受ける。 異なる関心領域にフォーカスしたトランスフォーマの複数のレベルからの注意がさらに組み合わされ、グローバルなイメージ表現が生成される。 また、融合アテンションマスクによりフィルタされたトランス層からの出力トークンをキーパッチディスクリプタとして、グローバル画像特徴により検索された候補を再ランク付けするための空間マッチングを行う。 モデル全体は、単一の目的とイメージレベルの監督によるエンドツーエンドのトレーニングを可能にする。 TransVPRは、計算時間とストレージ要件を低く保ちながら、いくつかの実世界のベンチマークで最先端のパフォーマンスを達成する。

Visual place recognition is a challenging task for applications such as autonomous driving navigation and mobile robot localization. Distracting elements presenting in complex scenes often lead to deviations in the perception of visual place. To address this problem, it is crucial to integrate information from only task-relevant regions into image representations. In this paper, we introduce a novel holistic place recognition model, TransVPR, based on vision Transformers. It benefits from the desirable property of the self-attention operation in Transformers which can naturally aggregate task-relevant features. Attentions from multiple levels of the Transformer, which focus on different regions of interest, are further combined to generate a global image representation. In addition, the output tokens from Transformer layers filtered by the fused attention mask are considered as key-patch descriptors, which are used to perform spatial matching to re-rank the candidates retrieved by the global image features. The whole model allows end-to-end training with a single objective and image-level supervision. TransVPR achieves state-of-the-art performance on several real-world benchmarks while maintaining low computational time and storage requirements.
翻訳日:2022-01-07 14:50:46 公開日:2022-01-06
# 効率的な動作分割のためのEM駆動型教師なし学習

EM-driven unsupervised learning for efficient motion segmentation ( http://arxiv.org/abs/2201.02074v1 )

ライセンス: Link先を確認
Etienne Meunier, Ana\"is Badoual, and Patrick Bouthemy(参考訳) 本稿では,cnnを用いた光流れからの運動分割の完全教師なし手法を提案する。 入力光の流れは、通常、アフィンまたは二次運動モデルと呼ばれるパラメトリック運動モデルの分割集合として表現できると仮定し、この研究の核となる考え方は、期待最大化(em)フレームワークを活用することである。 これにより,運動セグメンテーションニューラルネットワークの損失関数とトレーニング手順を,十分に確立した方法で設計することができる。 しかし、古典的反復的emとは対照的に、ネットワークが訓練されると、1つの推論ステップで認識されていない任意の光フロー場のセグメンテーションが提供され、それらは推論段階では推定されないため、運動モデルパラメータの初期化に依存しない。 損失関数は、ロバストなものを含めて異なる。 また,オプティカルフローフィールドにおける新しいデータ拡張手法を提案する。 DAVIS2016データセット上で動作セグメンテーションネットワークを検証した。 提案手法は, 教師なし手法よりも優れ, 効率的である。 実際、125fpsで実行でき、リアルタイムアプリケーションで使用することができる。

This paper presents a CNN-based fully unsupervised method for motion segmentation from optical flow. We assume that the input optical flow can be represented as a piecewise set of parametric motion models, typically, affine or quadratic motion models.The core idea of this work is to leverage the Expectation-Maximiza tion (EM) framework. It enables us to design in a well-founded manner the loss function and the training procedure of our motion segmentation neural network. However, in contrast to the classical iterative EM, once the network is trained, we can provide a segmentation for any unseen optical flow field in a single inference step, with no dependence on the initialization of the motion model parameters since they are not estimated in the inference stage. Different loss functions have been investigated including robust ones. We also propose a novel data augmentation technique on the optical flow field with a noticeable impact on the performance. We tested our motion segmentation network on the DAVIS2016 dataset. Our method outperforms comparable unsupervised methods and is very efficient. Indeed, it can run at 125fps making it usable for real-time applications.
翻訳日:2022-01-07 14:50:31 公開日:2022-01-06
# (参考訳) 局所ホウレンソウ認識のための深層学習に基づく分類システム [全文訳有]

Deep Learning Based Classification System For Recognizing Local Spinach ( http://arxiv.org/abs/2201.02093v1 )

ライセンス: CC BY 4.0
Mirajul Islam, Nushrat Jahan Ria, Jannatul Ferdous Ani, Abu Kaisar Mohammad Masum, Sheikh Abujar, Syed Akhter Hossain(参考訳) ディープラーニングモデルは、トレーニングされたデータセットから学習することで、画像処理に驚くべき結果をもたらす。 ホウレンソウはビタミンと栄養素を含む葉菜である。 本研究では,ホウレンソウを自動的に識別する深層学習法を考案し,3785枚の画像を含む5種のホウレンソウのデータセットを作成した。 4つの畳み込みニューラルネットワーク(CNN)モデルを用いてホウレンソウを分類した。 これらのモデルにより、より正確な画像分類結果が得られる。 これらのモデルを適用する前に、画像データのプリプロセッシングがある。 データの前処理には、いくつかのメソッドが必要になる。 RGB変換、フィルタリング、サイズ変更と再スケーリング、分類などです。 これらの手法を適用した後、画像データは前処理され、分類アルゴリズムで使用できる。 これらの分類器の精度は98.68%から99.79%である。 これらのモデルの中で、vgg16は最高精度99.79%を達成した。

A deep learning model gives an incredible result for image processing by studying from the trained dataset. Spinach is a leaf vegetable that contains vitamins and nutrients. In our research, a Deep learning method has been used that can automatically identify spinach and this method has a dataset of a total of five species of spinach that contains 3785 images. Four Convolutional Neural Network (CNN) models were used to classify our spinach. These models give more accurate results for image classification. Before applying these models there is some preprocessing of the image data. For the preprocessing of data, some methods need to happen. Those are RGB conversion, filtering, resize & rescaling, and categorization. After applying these methods image data are pre-processed and ready to be used in the classifier algorithms. The accuracy of these classifiers is in between 98.68% - 99.79%. Among those models, VGG16 achieved the highest accuracy of 99.79%.
翻訳日:2022-01-07 14:48:08 公開日:2022-01-06
# 資産配分勧告のための強化学習と逆強化学習の組み合わせ

Combining Reinforcement Learning and Inverse Reinforcement Learning for Asset Allocation Recommendations ( http://arxiv.org/abs/2201.01874v1 )

ライセンス: Link先を確認
Igor Halperin, Jiayu Liu, Xiao Zhang(参考訳) 我々は、人間と人工知能を組み合わせることで、ファンドマネージャの最良の投資プラクティスを学習し、それらを改善するためのアドバイスを提供するための、シンプルな実践的な方法を提案する。 我々のアプローチは、逆強化学習(IRL)とRLの組み合わせに基づいている。 まず、IRLコンポーネントは、トレーディング履歴から示唆されたファンドマネージャの意図を学習し、インプリッド報酬機能を回復する。 2番目のステップでは、アセット割り当て決定を最適化するために直接RLアルゴリズムによってこの報酬関数が使用される。 当社の手法は,個々のファンドマネージャのパフォーマンスよりも改善可能であることを示す。

We suggest a simple practical method to combine the human and artificial intelligence to both learn best investment practices of fund managers, and provide recommendations to improve them. Our approach is based on a combination of Inverse Reinforcement Learning (IRL) and RL. First, the IRL component learns the intent of fund managers as suggested by their trading history, and recovers their implied reward function. At the second step, this reward function is used by a direct RL algorithm to optimize asset allocation decisions. We show that our method is able to improve over the performance of individual fund managers.
翻訳日:2022-01-07 14:41:02 公開日:2022-01-06
# SABLAS:ブラックボックス動的システムのための安全な学習制御

SABLAS: Learning Safe Control for Black-box Dynamical Systems ( http://arxiv.org/abs/2201.01918v1 )

ライセンス: Link先を確認
Zengyi Qin, Dawei Sun and Chuchu Fan(参考訳) バリア関数に基づく制御証明書は、動的システムのおそらく安全な制御ポリシーを生成する強力なツールである。 しかしながら、バリア証明書に基づく既存の手法は、通常、識別可能な力学を持つホワイトボックスシステムに適用されるため、システムはブラックボックスであり、正確にモデル化できない多くの実用アプリケーションには適用できない。 一方、ブラックボックスシステムのモデルフリー強化学習(RL)法は、安全性保証の欠如とサンプリング効率の低下に悩まされている。 本稿では,ブラックボックス力学系の安全制御ポリシとバリア証明書を,システムモデルを正確に必要とせずに学習できる新しい手法を提案する。 本手法では,ブラックボックス力学系が微分不能であっても制御方針への勾配をバックプロパゲートするために損失関数を再設計し,ブラックボックス系に安全証明書が保持されていることを示す。 シミュレーション実験の結果,本手法は,最新のブラックボックスセーフコントロール法に比べて,100%の安全性と目標到達率をはるかに少ないトレーニングサンプルで達成することで,学習方針の性能を大幅に向上できることがわかった。 私たちの学習エージェントは、元のパフォーマンスを維持しながら、目に見えないシナリオに一般化することができます。 ソースコードはhttps://github.com/z engyi-qin/bcbfにある。

Control certificates based on barrier functions have been a powerful tool to generate probably safe control policies for dynamical systems. However, existing methods based on barrier certificates are normally for white-box systems with differentiable dynamics, which makes them inapplicable to many practical applications where the system is a black-box and cannot be accurately modeled. On the other side, model-free reinforcement learning (RL) methods for black-box systems suffer from lack of safety guarantees and low sampling efficiency. In this paper, we propose a novel method that can learn safe control policies and barrier certificates for black-box dynamical systems, without requiring for an accurate system model. Our method re-designs the loss function to back-propagate gradient to the control policy even when the black-box dynamical system is non-differentiable, and we show that the safety certificates hold on the black-box system. Empirical results in simulation show that our method can significantly improve the performance of the learned policies by achieving nearly 100% safety and goal reaching rates using much fewer training samples, compared to state-of-the-art black-box safe control methods. Our learned agents can also generalize to unseen scenarios while keeping the original performance. The source code can be found at https://github.com/Z engyi-Qin/bcbf.
翻訳日:2022-01-07 14:40:53 公開日:2022-01-06
# 貯留層モデルとしてのランダム化高次ファジィ認知マップの導入:太陽エネルギーと負荷予測を事例として

Introducing Randomized High Order Fuzzy Cognitive Maps as Reservoir Computing Models: A Case Study in Solar Energy and Load Forecasting ( http://arxiv.org/abs/2201.02158v1 )

ライセンス: Link先を確認
Omid Orang, Petr\^onio C\^andido de Lima Silva, Frederico Gadelha Guimar\~aes(参考訳) ファジィ認知マップ(FCM)は、概念間の依存関係を表すノード(概念)と重みからなる解釈可能な符号付き重み付きグラフ法として登場した。 FCMは様々な時系列予測アプリケーションでかなりの成果を上げてきたが、時間効率のトレーニング手法でFCMモデルを設計することは依然としてオープンな課題である。 そこで本研究では,R-HFCMをラベル付けしたランダム化高次FCMモデル群からなる,新しい一変量時系列予測手法を提案する。 提案するr-hfcmモデルの新規性は,fcm と echo state network (esn) の概念を,モデル学習に最小二乗法を適用した,リザーバコンピューティング (rc) モデルの効率的かつ特定ファミリーとして統合することに関連している。 別の観点からは、R-HFCMの構造は、入力層、貯留層、出力層のみをトレーニング可能とし、各サブ貯留層コンポーネントの重みはランダムに選択され、トレーニングプロセス中に一定に維持される。 ケーススタディとして、このモデルは、マレーシアのジョホール市の電力供給会社の時給電力負荷と温度データを含むマレーシアのデータセットと同様に、ブラジルのソーラーステーションの公共データによる太陽エネルギー予測について検討している。 また, 地図サイズ, 活性化関数, バイアスの有無, 貯水池の大きさがR-HFCM法の精度に及ぼす影響についても検討した。 その結果, 提案したR-HFCMモデルの性能が他の手法と比較された。 本研究は,FCMが時系列モデリングにおける力学の貯蓄を実現する新しい方法であることを示す。

Fuzzy Cognitive Maps (FCMs) have emerged as an interpretable signed weighted digraph method consisting of nodes (concepts) and weights which represent the dependencies among the concepts. Although FCMs have attained considerable achievements in various time series prediction applications, designing an FCM model with time-efficient training method is still an open challenge. Thus, this paper introduces a novel univariate time series forecasting technique, which is composed of a group of randomized high order FCM models labeled R-HFCM. The novelty of the proposed R-HFCM model is relevant to merging the concepts of FCM and Echo State Network (ESN) as an efficient and particular family of Reservoir Computing (RC) models, where the least squares algorithm is applied to train the model. From another perspective, the structure of R-HFCM consists of the input layer, reservoir layer, and output layer in which only the output layer is trainable while the weights of each sub-reservoir components are selected randomly and keep constant during the training process. As case studies, this model considers solar energy forecasting with public data for Brazilian solar stations as well as Malaysia dataset, which includes hourly electric load and temperature data of the power supply company of the city of Johor in Malaysia. The experiment also includes the effect of the map size, activation function, the presence of bias and the size of the reservoir on the accuracy of R-HFCM method. The obtained results confirm the outperformance of the proposed R-HFCM model in comparison to the other methods. This study provides evidence that FCM can be a new way to implement a reservoir of dynamics in time series modelling.
翻訳日:2022-01-07 14:40:19 公開日:2022-01-06
# ロバスト線形予測:一様濃度、高速速度、モデル不特定化の解析

Robust Linear Predictions: Analyses of Uniform Concentration, Fast Rates and Model Misspecification ( http://arxiv.org/abs/2201.01973v1 )

ライセンス: Link先を確認
Saptarshi Chakraborty, Debolina Paul and Swagatam Das(参考訳) 線形予測の問題は、かなり一般化された枠組みの下で過去1世紀にわたって広く研究されてきた。 近年のロバスト統計学の進歩により,メディア・オブ・ミーンズ(MoM)のプリズムを通じて古典線形モデルのロバストバージョンを解析できるようになった。 これらのアプローチを断片的な方法で組み合わせることで、アドホックな手続きにつながる可能性があり、個々の貢献の基盤となる限定的な理論的な結論はもはや有効ではないかもしれない。 これらの課題に整合的に対処するため、本研究では、ヒルベルト空間上の様々な線形予測問題を含む統一ロバストなフレームワークと、一般的な損失関数のクラスを提供する。 特に、外接するデータポイント(\mathcal{o}$)の分布に関する仮定や、内在するデータポイント(\mathcal{i}$)のサポートのコンパクト性は不要である。 二重ノルム上の穏やかな条件の下では、$\epsilon$ の誤特定レベルに対して、これらの推定器は、文献で最もよく知られた率である$o(\max\left\{|\mathcal{o}|^{1/2}n^{-1/2}, |\mathcal{i}|^{1/2}n^{-1} \right\}+\epsilon)$ の誤差率を達成する。 このレートは古典的な$O(n^{-1/2})$よりもわずかに遅く、ロバストな見積もりを得るためには誤差率の点で価格を支払う必要があることを示している。 さらに,この速度を,追加の仮定でいわゆる「高速」を達成するために改善できることを示す。

The problem of linear predictions has been extensively studied for the past century under pretty generalized frameworks. Recent advances in the robust statistics literature allow us to analyze robust versions of classical linear models through the prism of Median of Means (MoM). Combining these approaches in a piecemeal way might lead to ad-hoc procedures, and the restricted theoretical conclusions that underpin each individual contribution may no longer be valid. To meet these challenges coherently, in this study, we offer a unified robust framework that includes a broad variety of linear prediction problems on a Hilbert space, coupled with a generic class of loss functions. Notably, we do not require any assumptions on the distribution of the outlying data points ($\mathcal{O}$) nor the compactness of the support of the inlying ones ($\mathcal{I}$). Under mild conditions on the dual norm, we show that for misspecification level $\epsilon$, these estimators achieve an error rate of $O(\max\left\{|\mathcal{O}|^{1/2}n^{-1/2}, |\mathcal{I}|^{1/2}n^{-1} \right\}+\epsilon)$, matching the best-known rates in literature. This rate is slightly slower than the classical rates of $O(n^{-1/2})$, indicating that we need to pay a price in terms of error rates to obtain robust estimates. Additionally, we show that this rate can be improved to achieve so-called ``fast rates" under additional assumptions.
翻訳日:2022-01-07 14:39:47 公開日:2022-01-06
# 因果図形モデルにおける効率的な最小コスト調整セットに関する一考察

A note on efficient minimum cost adjustment sets in causal graphical models ( http://arxiv.org/abs/2201.02037v1 )

ライセンス: Link先を確認
Ezequiel Smucler and Andrea Rotnitzky(参考訳) 個別化処理ルールの下で介入平均を推定するための調整セットの選択について検討する。 可観測変数からなる隠れ変数と少なくとも1つの調整セットを持つ非パラメトリック因果的グラフィカルモデルと仮定する。 さらに、観測可能な変数はそれに関連する正のコストを持つと仮定する。 我々は、観測可能な調整セットのコストを、それを構成する変数のコストの和として定義する。 この設定では、最小コストの観測可能な調整セットを制御するものの中で、干渉平均の非パラメトリック推定器を最小の漸近差で生成するという意味で、最小コストの調整セットが存在することを示す。 本研究の結果は,元の因果グラフに付随する特別な流れネットワークの構築に基づいている。 本稿では,ネットワーク上の最大フローを計算し,経路を拡大することでソースから到達可能な頂点の集合を見つけることにより,最小コストの最適調整セットを見つけることができることを示す。 optimaladj pythonパッケージは、本論文で導入されたアルゴリズムを実装している。

We study the selection of adjustment sets for estimating the interventional mean under an individualized treatment rule. We assume a non-parametric causal graphical model with, possibly, hidden variables and at least one adjustment set comprised of observable variables. Moreover, we assume that observable variables have positive costs associated with them. We define the cost of an observable adjustment set as the sum of the costs of the variables that comprise it. We show that in this setting there exist adjustment sets that are minimum cost optimal, in the sense that they yield non-parametric estimators of the interventional mean with the smallest asymptotic variance among those that control for observable adjustment sets that have minimum cost. Our results are based on the construction of a special flow network associated with the original causal graph. We show that a minimum cost optimal adjustment set can be found by computing a maximum flow on the network, and then finding the set of vertices that are reachable from the source by augmenting paths. The optimaladj Python package implements the algorithms introduced in this paper.
翻訳日:2022-01-07 14:38:16 公開日:2022-01-06
# 浅い非線形オートエンコーダにおける表現学習のダイナミクス

The dynamics of representation learning in shallow, non-linear autoencoders ( http://arxiv.org/abs/2201.02115v1 )

ライセンス: Link先を確認
Maria Refinetti and Sebastian Goldt(参考訳) オートエンコーダは教師なし学習のための最も単純なニューラルネットワークであり、機能学習を研究するための理想的なフレームワークである。 近年、線形オートエンコーダのダイナミクスの詳細な理解が得られているが、非線形オートエンコーダの研究は、非自明な相関関係を持つトレーニングデータを扱う技術的困難さによって妨げられている。 本稿では,非線形浅層オートエンコーダにおける特徴学習のダイナミクスについて検討する。 確率勾配降下(SGD)で訓練されたオートエンコーダの高次元入力の極限における一般化ダイナミクスを記述する漸近的に正確な方程式の集合を導出する。 これらの方程式は、オートエンコーダが入力の主成分を逐次学習することを明らかにする。 長時間ダイナミクスの解析は、sgmoidal autoencoderが結合重みで学習できないことを説明し、relu autoencoderにおけるバイアスのトレーニングの重要性を強調している。 線形ネットワークに対する以前の結果に基づいて、我々は、正確な主成分の学習を可能にするバニラSGDアルゴリズムの修正を解析する。 最後に,CIFAR10のような現実的なデータセット上で,非線形オートエンコーダの一般化ダイナミクスを正確に記述する。

Autoencoders are the simplest neural network for unsupervised learning, and thus an ideal framework for studying feature learning. While a detailed understanding of the dynamics of linear autoencoders has recently been obtained, the study of non-linear autoencoders has been hindered by the technical difficulty of handling training data with non-trivial correlations - a fundamental prerequisite for feature extraction. Here, we study the dynamics of feature learning in non-linear, shallow autoencoders. We derive a set of asymptotically exact equations that describe the generalisation dynamics of autoencoders trained with stochastic gradient descent (SGD) in the limit of high-dimensional inputs. These equations reveal that autoencoders learn the leading principal components of their inputs sequentially. An analysis of the long-time dynamics explains the failure of sigmoidal autoencoders to learn with tied weights, and highlights the importance of training the bias in ReLU autoencoders. Building on previous results for linear networks, we analyse a modification of the vanilla SGD algorithm which allows learning of the exact principal components. Finally, we show that our equations accurately describe the generalisation dynamics of non-linear autoencoders on realistic datasets such as CIFAR10.
翻訳日:2022-01-07 14:37:59 公開日:2022-01-06
# 畳み込みニューラルネットワークの抽象的再定義法

An Abstraction-Refineme nt Approach to Verifying Convolutional Neural Networks ( http://arxiv.org/abs/2201.01978v1 )

ライセンス: Link先を確認
Matan Ostrovsky and Clark Barrett and Guy Katz(参考訳) 畳み込みニューラルネットワークは、コンピュータビジョンや画像処理などの分野での優れたパフォーマンスによって、大きな人気を集めている。 残念ながら、畳み込みネットワークがしばしば誤った結果を生み出すことはよく知られており、例えば、これらのネットワークの入力の小さな摂動は、深刻な分類エラーをもたらす可能性がある。 近年、このような誤りがないことを証明するために多くの検証手法が提案されているが、これらは一般に完全に接続されたネットワークを対象としており、畳み込みネットワークに適用した場合のスケーラビリティの悪化に悩まされている。 このギャップに対処するため,我々は,特に畳み込みネットワークの検証を目的としたcnn-absフレームワークを提案する。 Cnn-Abs の中核は、畳み込み接続の除去によって検証問題を単純化し、元の問題を過度に近似させる方法である。 Cnn-Absは、既存の検証エンジンをバックエンドとして使用するように設計されており、我々の評価は、最先端のDNN検証エンジンの性能を大幅に向上し、ランタイムを平均15.7%削減できることを示している。

Convolutional neural networks have gained vast popularity due to their excellent performance in the fields of computer vision, image processing, and others. Unfortunately, it is now well known that convolutional networks often produce erroneous results - for example, minor perturbations of the inputs of these networks can result in severe classification errors. Numerous verification approaches have been proposed in recent years to prove the absence of such errors, but these are typically geared for fully connected networks and suffer from exacerbated scalability issues when applied to convolutional networks. To address this gap, we present here the Cnn-Abs framework, which is particularly aimed at the verification of convolutional networks. The core of Cnn-Abs is an abstraction-refineme nt technique, which simplifies the verification problem through the removal of convolutional connections in a way that soundly creates an over-approximation of the original problem; and which restores these connections if the resulting problem becomes too abstract. Cnn-Abs is designed to use existing verification engines as a backend, and our evaluation demonstrates that it can significantly boost the performance of a state-of-the-art DNN verification engine, reducing runtime by 15.7% on average.
翻訳日:2022-01-07 14:36:47 公開日:2022-01-06
# 平滑損失関数のフェデレーション最適化

Federated Optimization of Smooth Loss Functions ( http://arxiv.org/abs/2201.01954v1 )

ライセンス: Link先を確認
Ali Jadbabaie and Anuran Makur and Devavrat Shah(参考訳) 本研究では,実験的リスク最小化(ERM, empirical risk minimization)を,中央サーバが,$m$のクライアントに格納するトレーニングデータを用いて,ERMの目的関数を最小化するフェデレーション学習フレームワーク内で研究する。 この設定では、フェデレート平均化(FedAve)アルゴリズムは、ERM問題に対する$\epsilon$-approxima teソリューションを決定するための必須条件である。 標準最適化アルゴリズムと同様に、fedaveの収束解析は最適化パラメータの損失関数の滑らかさのみに依存する。 しかし、トレーニングデータでは損失関数も非常にスムーズであることが多い。 このさらなる滑らかさを活用するために,フェデレート低ランク勾配Descent (FedLRGD) アルゴリズムを提案する。 データの平滑性は損失関数の近似低ランク構造を誘導するので,本手法はまずサーバとクライアント間の数ラウンドの通信を行い,サーバがクライアントの勾配を近似するために使用できる重みを学習する。 そこで本手法では,不正確な勾配勾配を用いたサーバのERM問題を解く。 FedLRGDがFedAveよりも優れた性能を持つことを示すために,本研究では,標準オラクルの複雑性に対抗して,フェデレートされたオラクルの複雑性の概念を提案する。 損失関数、例えばパラメータの強い凸性、データのより古い滑らかさなどの仮定の下で、federated oracleのfederated oracle complexity of fedlrgd scales($\phi m(p/\epsilon)^{\theta(d/\eta)}$および$\phi m(p/\epsilon)^{3/4}$(neglecting sub-dominant factors)($\phi\gg 1$は「通信対計算比」、$p$はパラメータ次元、$d$はデータ次元である。 次に、$d$が小さく、データで損失関数が十分に滑らかである場合、federated oracle の複雑さにおいて fedave をfederrgd が上回っています。 最後に、FedLRGDを解析する過程で、潜在変数モデルの低階近似の結果も確立する。

In this work, we study empirical risk minimization (ERM) within a federated learning framework, where a central server minimizes an ERM objective function using training data that is stored across $m$ clients. In this setting, the Federated Averaging (FedAve) algorithm is the staple for determining $\epsilon$-approxima te solutions to the ERM problem. Similar to standard optimization algorithms, the convergence analysis of FedAve only relies on smoothness of the loss function in the optimization parameter. However, loss functions are often very smooth in the training data too. To exploit this additional smoothness, we propose the Federated Low Rank Gradient Descent (FedLRGD) algorithm. Since smoothness in data induces an approximate low rank structure on the loss function, our method first performs a few rounds of communication between the server and clients to learn weights that the server can use to approximate clients' gradients. Then, our method solves the ERM problem at the server using inexact gradient descent. To show that FedLRGD can have superior performance to FedAve, we present a notion of federated oracle complexity as a counterpart to canonical oracle complexity. Under some assumptions on the loss function, e.g., strong convexity in parameter, $\eta$-H\"older smoothness in data, etc., we prove that the federated oracle complexity of FedLRGD scales like $\phi m(p/\epsilon)^{\Theta(d/\eta)}$ and that of FedAve scales like $\phi m(p/\epsilon)^{3/4}$ (neglecting sub-dominant factors), where $\phi\gg 1$ is a "communication-to-com putation ratio," $p$ is the parameter dimension, and $d$ is the data dimension. Then, we show that when $d$ is small and the loss function is sufficiently smooth in the data, FedLRGD beats FedAve in federated oracle complexity. Finally, in the course of analyzing FedLRGD, we also establish a result on low rank approximation of latent variable models.
翻訳日:2022-01-07 14:36:27 公開日:2022-01-06
# (参考訳) a light in the dark: 産業用コンピュータビジョンのためのディープラーニングの実践 [全文訳有]

A Light in the Dark: Deep Learning Practices for Industrial Computer Vision ( http://arxiv.org/abs/2201.02028v1 )

ライセンス: CC BY 4.0
Maximilian Harl, Marvin Herchenbach, Sven Kruschel, Nico Hambauer, Patrick Zschech, Mathias Kraus(参考訳) 近年、大規模な事前学習型ディープニューラルネットワーク(DNN)がコンピュータビジョン(CV)の分野に革命をもたらした。 これらのDNNは一般的な画像認識タスクに非常に適していることが示されているが、業界での応用は3つの理由から除外されることが多い。 1) トレーニング済みの大きなDNNは数億のパラメータ上に構築されており、多くのデバイスへのデプロイが不可能である。 2) プレトレーニングの基盤となるデータセットは一般的な対象からなり, 産業ケースは太陽ウェハの構造など, 非常に特異な対象から構成されることが多い。 3) 事前訓練済みのDNNは企業に対して法的問題を提起する可能性がある。 治療として、私たちはスクラッチからトレーニングするCVのニューラルネットワークを研究します。 この目的のために、私たちはソーラーウェハメーカーの現実世界のケースを使用します。 ニューラルネットワークは、パラメータがはるかに少なく、サードパーティのデータセットに依存しないにもかかわらず、トレーニング済みのDNNと同じようなパフォーマンスを実現しています。

In recent years, large pre-trained deep neural networks (DNNs) have revolutionized the field of computer vision (CV). Although these DNNs have been shown to be very well suited for general image recognition tasks, application in industry is often precluded for three reasons: 1) large pre-trained DNNs are built on hundreds of millions of parameters, making deployment on many devices impossible, 2) the underlying dataset for pre-training consists of general objects, while industrial cases often consist of very specific objects, such as structures on solar wafers, 3) potentially biased pre-trained DNNs raise legal issues for companies. As a remedy, we study neural networks for CV that we train from scratch. For this purpose, we use a real-world case from a solar wafer manufacturer. We find that our neural networks achieve similar performances as pre-trained DNNs, even though they consist of far fewer parameters and do not rely on third-party datasets.
翻訳日:2022-01-07 14:34:26 公開日:2022-01-06
# リワードデザインによる許容政策教育

Admissible Policy Teaching through Reward Design ( http://arxiv.org/abs/2201.02185v1 )

ライセンス: Link先を確認
Kiarash Banihashem, Adish Singla, Jiarui Gan, Goran Radanovic(参考訳) 我々は、強化学習エージェントに報酬設計戦略を適用し、許容可能な政策の集合から政策を採用する。 報酬デザイナーの目標は、新たな報酬機能の下でのほぼ最適な決定論的ポリシーが許容可能であり、元の報酬機能の下でうまく機能することを保証しつつ、基礎となる報酬機能を費用効率良く変更することである。 この問題は、エージェントに特定のポリシーを強制するのではなく、報酬デザイナーは、特定の状態において許容できない行動を取ることを避けるためにエージェントにインセンティブを与える。 おそらく驚くべきことに、最適報酬中毒攻撃問題とは対照的に、まず、許容可能な政策教育における報酬設計問題は計算的に困難であり、ほぼ最適報酬修正を見つけることはNPハードであることを示す。 次に,最適解が最適解を最適解に近似するサロゲート問題の定式化を進めるが,最適化手法や解析にはより適している。 このサロゲート問題に対して,最適解の値の境界を与える特性評価結果を示す。 最後に,サロゲート問題を解くために局所探索アルゴリズムを設計し,シミュレーションに基づく実験を用いてその有用性を示す。

We study reward design strategies for incentivizing a reinforcement learning agent to adopt a policy from a set of admissible policies. The goal of the reward designer is to modify the underlying reward function cost-efficiently while ensuring that any approximately optimal deterministic policy under the new reward function is admissible and performs well under the original reward function. This problem can be viewed as a dual to the problem of optimal reward poisoning attacks: instead of forcing an agent to adopt a specific policy, the reward designer incentivizes an agent to avoid taking actions that are inadmissible in certain states. Perhaps surprisingly, and in contrast to the problem of optimal reward poisoning attacks, we first show that the reward design problem for admissible policy teaching is computationally challenging, and it is NP-hard to find an approximately optimal reward modification. We then proceed by formulating a surrogate problem whose optimal solution approximates the optimal solution to the reward design problem in our setting, but is more amenable to optimization techniques and analysis. For this surrogate problem, we present characterization results that provide bounds on the value of the optimal solution. Finally, we design a local search algorithm to solve the surrogate problem and showcase its utility using simulation-based experiments.
翻訳日:2022-01-07 14:21:19 公開日:2022-01-06
# バンディット学習におけるガウス的イマジネーション

Gaussian Imagination in Bandit Learning ( http://arxiv.org/abs/2201.01902v1 )

ライセンス: Link先を確認
Yueyang Liu, Adithya M. Devraj, Benjamin Van Roy, Kuang Xu(参考訳) 分布がガウス的であると仮定すると、そうでなければ難解な計算が容易になる。 ガウシアン事前分布とガウシアン確率関数を有するバンディット環境に対して低情報比を達成するように設計されたエージェントについて検討するが、ベルヌーイバンディットに代えて適用した場合のエージェントの性能について検討する。 我々は、エージェントがベルヌーイ・バンディットと相互作用する場合、ガウス・バンディットに満足する情報理論的境界に対して、ベイズ的後悔の増大に限界を定めている。 ガウスの事前分布と可能性関数が十分に拡散すると、時間軸の平方根とともにこの増加は増大し、時間ステップごとの増加は消失する。 本研究は, 拡散不特定分布のインスタンス化において, いわゆるベイズエージェントが有効であるとする民間伝承を定式化した。

Assuming distributions are Gaussian often facilitates computations that are otherwise intractable. We consider an agent who is designed to attain a low information ratio with respect to a bandit environment with a Gaussian prior distribution and a Gaussian likelihood function, but study the agent's performance when applied instead to a Bernoulli bandit. We establish a bound on the increase in Bayesian regret when an agent interacts with the Bernoulli bandit, relative to an information-theoreti c bound satisfied with the Gaussian bandit. If the Gaussian prior distribution and likelihood function are sufficiently diffuse, this increase grows with the square-root of the time horizon, and thus the per-timestep increase vanishes. Our results formalize the folklore that so-called Bayesian agents remain effective when instantiated with diffuse misspecified distributions.
翻訳日:2022-01-07 14:20:59 公開日:2022-01-06
# ゼロショット学習におけるバランシング一般化と特殊化

Balancing Generalization and Specialization in Zero-shot Learning ( http://arxiv.org/abs/2201.01961v1 )

ライセンス: Link先を確認
Yun Li, Zhe Liu, Lina Yao, Xiaojun Chang(参考訳) zero-shot learning (zsl) は、seeからunseenクラスへの分類能力の移行を目的としている。 近年の手法では、一般化と特殊化がZSLの性能向上に不可欠な2つの能力であることが証明されている。 しかし、それらはいずれも能力の1つにのみ焦点を合わせており、結果として、分解された分類能力を持つのが一般的すぎるか、目に見えないクラスに一般化するには特殊すぎるモデルとなる。 本稿では,bgsnetと呼ばれる,汎用性と特殊化能力のバランスを両立させ,インスタンスレベルとデータセットレベルでのバランスをとるエンドツーエンドネットワークを提案する。 具体的には、一般化学習にエピソディックなメタラーニングを適用した一般化ネットワーク(GNet)と、識別的特徴を抽出し、インスタンスレベルのバランスを満たすために複数の注意抽出器を採用するバランスドスペシャライゼーションネットワーク(BSNet)の2つの分野から構成される。 新しい自己調整型ダイバーシティ損失は、冗長性と多様性の少ないbsnetを最適化するために設計されている。 さらに,線形アニーリングスケジュールにおける重み付けを改良し,ネットワークプルーニングをシミュレートし,BSNetの最適構造を,データセットレベルのバランスを達成した低コストで得ることを提案する。 4つのベンチマークデータセットの実験は、我々のモデルの有効性を示している。 十分成分の短縮は一般化と特殊化能力の統合の必要性を証明している。

Zero-Shot Learning (ZSL) aims to transfer classification capability from seen to unseen classes. Recent methods have proved that generalization and specialization are two essential abilities to achieve good performance in ZSL. However, they all focus on only one of the abilities, resulting in models that are either too general with the degraded classifying ability or too specialized to generalize to unseen classes. In this paper, we propose an end-to-end network with balanced generalization and specialization abilities, termed as BGSNet, to take advantage of both abilities, and balance them at instance- and dataset-level. Specifically, BGSNet consists of two branches: the Generalization Network (GNet), which applies episodic meta-learning to learn generalized knowledge, and the Balanced Specialization Network (BSNet), which adopts multiple attentive extractors to extract discriminative features and fulfill the instance-level balance. A novel self-adjusting diversity loss is designed to optimize BSNet with less redundancy and more diversity. We further propose a differentiable dataset-level balance and update the weights in a linear annealing schedule to simulate network pruning and thus obtain the optimal structure for BSNet at a low cost with dataset-level balance achieved. Experiments on four benchmark datasets demonstrate our model's effectiveness. Sufficient component ablations prove the necessity of integrating generalization and specialization abilities.
翻訳日:2022-01-07 14:20:44 公開日:2022-01-06
# (参考訳) ディープQラーニングを用いた販売時系列分析 [全文訳有]

Sales Time Series Analytics Using Deep Q-Learning ( http://arxiv.org/abs/2201.02058v1 )

ライセンス: CC BY 4.0
Bohdan M. Pavlyshenko(参考訳) この記事では、営業時系列分析の問題における深いQ-ラーニングモデルの使用について説明する。 歴史的データを用いた受動的学習の一種である教師付き機械学習とは対照的に、Q-ラーニングは行動の最適な順序による報酬の最大化を目標とするアクティブラーニングの一種である。 最適価格戦略と供給需要問題に対するモデル自由Q-ラーニング手法を検討した。 本研究の主なアイデアは,時系列分析における深いq-learningアプローチを用いることで,エージェントインタラクションの学習環境をパラメトリックモデルを用いてモデル化し,履歴データに基づくモデルを用いた場合,報酬関数を最大化することで,アクションのシーケンスを最適化できることを示すことである。 価格最適化のケーススタディ環境は,販売価格とランダムにシミュレートされた需要に依存してモデル化された。 価格最適化ケーススタディでは、追加価格とランダムにシミュレーションされた需要による販売依存を用いて環境をモデル化した。 需給ケーススタディでは,環境モデリングに歴史的需要時系列を用いることが提案され,エージェント状態はプロモアクション,以前の需要値,週ごとの季節的特徴によって表現された。 得られた結果から,q学習の深化により,価格最適化や需給問題に対する意思決定プロセスを最適化できることが示された。 学習エージェントのコールドスタートにパラメトリックモデルと履歴データを用いた環境モデリングを用いることができる。 次のステップでは、コールドスタート後に、トレーニングされたエージェントを実際のビジネス環境で使用できる。

The article describes the use of deep Q-learning models in the problems of sales time series analytics. In contrast to supervised machine learning which is a kind of passive learning using historical data, Q-learning is a kind of active learning with goal to maximize a reward by optimal sequence of actions. Model free Q-learning approach for optimal pricing strategies and supply-demand problems was considered in the work. The main idea of the study is to show that using deep Q-learning approach in time series analytics, the sequence of actions can be optimized by maximizing the reward function when the environment for learning agent interaction can be modeled using the parametric model and in the case of using the model which is based on the historical data. In the pricing optimizing case study environment was modeled using sales dependence on extras price and randomly simulated demand. In the pricing optimizing case study, the environment was modeled using sales dependence on extra price and randomly simulated demand. In the supply-demand case study, it was proposed to use historical demand time series for environment modeling, agent states were represented by promo actions, previous demand values and weekly seasonality features. Obtained results show that using deep Q-learning, we can optimize the decision making process for price optimization and supply-demand problems. Environment modeling using parametric models and historical data can be used for the cold start of learning agent. On the next steps, after the cold start, the trained agent can be used in real business environment.
翻訳日:2022-01-07 14:17:34 公開日:2022-01-06
# HuSpaCy:ハンガリーの産業用自然言語処理ツールキット

HuSpaCy: an industrial-strength Hungarian natural language processing toolkit ( http://arxiv.org/abs/2201.01956v1 )

ライセンス: Link先を確認
Gy\"orgy Orosz, Zsolt Sz\'ant\'o, P\'eter Berkecz, Gerg\H{o} Szab\'o, Rich\'ard Farkas(参考訳) ハンガリー語で利用可能なオープンソースの言語処理パイプラインはいくつかあるが、いずれも今日のNLPアプリケーションの要件を満たしていない。 言語処理パイプラインは、最先端の補間、形態素解析、エンティティ認識、単語埋め込みで構成される必要がある。 産業用テキスト処理アプリケーションは、機能しないソフトウェアの品質要件を満たす必要があり、さらに、複数の言語をサポートするフレームワークがますます好まれている。 本稿では,ハンガリー語処理パイプラインのHuSpaCyを紹介する。 提示されたツールは、最も重要な基本言語分析タスクにコンポーネントを提供する。 オープンソースであり、許容ライセンスのもと利用できる。 私たちのシステムはspurCyのNLPコンポーネント上に構築されており、高速で、NLPアプリケーションと拡張のリッチなエコシステムを持ち、豊富なドキュメントとよく知られたAPIを備えています。 基礎となるモデルの概要に加えて、一般的なベンチマークデータセットの厳密な評価も提示する。 実験の結果,HuSpaCyは全てのサブタスクにおいて高い精度を示しながら,資源効率の予測能力を維持していることがわかった。

Although there are a couple of open-source language processing pipelines available for Hungarian, none of them satisfies the requirements of today's NLP applications. A language processing pipeline should consist of close to state-of-the-art lemmatization, morphosyntactic analysis, entity recognition and word embeddings. Industrial text processing applications have to satisfy non-functional software quality requirements, what is more, frameworks supporting multiple languages are more and more favored. This paper introduces HuSpaCy, an industryready Hungarian language processing pipeline. The presented tool provides components for the most important basic linguistic analysis tasks. It is open-source and is available under a permissive license. Our system is built upon spaCy's NLP components which means that it is fast, has a rich ecosystem of NLP applications and extensions, comes with extensive documentation and a well-known API. Besides the overview of the underlying models, we also present rigorous evaluation on common benchmark datasets. Our experiments confirm that HuSpaCy has high accuracy in all subtasks while maintaining resource-efficient prediction capabilities.
翻訳日:2022-01-07 14:09:06 公開日:2022-01-06
# 画像キャプション用小型双方向トランス

Compact Bidirectional Transformer for Image Captioning ( http://arxiv.org/abs/2201.01984v1 )

ライセンス: Link先を確認
Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Meng Wang(参考訳) 現在の画像キャプションモデルのほとんどは、通常左から右にキャプションを生成する。 この一方向プロパティは、過去のコンテキストのみを活用できるが、将来のコンテキストは利用できない。 最近のリファインメントベースのモデルは、第1段階で検索済みまたは生成されたキャプションに基づいて第2段階で新しいキャプションを生成することで、過去と将来の両方のコンテキストを利用することができるが、これらのモデルのデコーダは一般に2つのネットワーク(すなわち、第1段のレトリバーまたはキャプターと第2段のリファインダー)から成り、順次しか実行できない。 本稿では,デコーダを並列に実行しながら,暗黙的かつ明示的に双方向コンテキストを活用可能な画像キャプション用コンパクト双方向トランスフォーマモデルを提案する。 具体的には、左から右へ(L2R)と右から左へ(R2L)の流れを単一のコンパクトモデル~(つまり暗黙的に)に密結合し、2つの流れの相互作用(すなわち明示的に)を任意に許容し、最後のキャプションは文レベルのアンサンブル方法でL2RまたはR2Lフローから選択される。 我々は、MSCOCOベンチマークに関する広範囲なアブレーション研究を行い、双方向コンテキストを暗黙的に活用するための正規化として機能するコンパクトアーキテクチャが、明示的な相互作用メカニズムよりも重要な役割を果たすことを発見した。 単語レベルのアンサンブルをシームレスに組み合わせることで、文レベルのアンサンブルの効果をさらに拡大する。 このアーキテクチャの下では,従来の1フロー自己批判訓練を2フロー型に拡張し,非視覚言語予備学習モデルと比較し,新たな最先端結果を得る。 ソースコードは {\color{magenta}\url{https://github.com/Y uanEZhou/CBTrans}}で入手できる。

Most current image captioning models typically generate captions from left to right. This unidirectional property makes them can only leverage past context but not future context. Though recent refinement-based models can exploit both past and future context by generating a new caption in the second stage based on pre-retrieved or pre-generated captions in the first stage, the decoder of these models generally consists of two networks~(i.e. a retriever or captioner in the first stage and a refiner in the second stage), which can only be executed sequentially. In this paper, we introduce a Compact Bidirectional Transformer model for image captioning that can leverage bidirectional context implicitly and explicitly while the decoder can be executed parallelly. Specifically, it is implemented by tightly coupling left-to-right(L2R) and right-to-left(R2L) flows into a single compact model~(i.e. implicitly) and optionally allowing interaction of the two flows(i.e. explicitly), while the final caption is chosen from either L2R or R2L flow in a sentence-level ensemble manner. We conduct extensive ablation studies on the MSCOCO benchmark and find that the compact architecture, which serves as a regularization for implicitly exploiting bidirectional context, and the sentence-level ensemble play more important roles than the explicit interaction mechanism. By combining with word-level ensemble seamlessly, the effect of the sentence-level ensemble is further enlarged. We further extend the conventional one-flow self-critical training to the two-flows version under this architecture and achieve new state-of-the-art results in comparison with non-vision-language- pretraining models. Source code is available at {\color{magenta}\url{https://github.com/Y uanEZhou/CBTrans}}.
翻訳日:2022-01-07 14:08:50 公開日:2022-01-06
# ASL-Skeleton3DとASL-Phono:アメリカン手話のための2つの新しいデータセット

ASL-Skeleton3D and ASL-Phono: Two Novel Datasets for the American Sign Language ( http://arxiv.org/abs/2201.02065v1 )

ライセンス: Link先を確認
Cleison Correia de Amorim and Cleber Zanchettin(参考訳) 手話はコミュニケーションへのアクセスと、聴覚障害に苦しむ個人に対する適切な社会情緒発達を可能にする重要な資源である。 この人口は2050年までに7億人に達すると予測されているため、言語の重要性はさらに重要となり、社会にそのような個人を確実に取り入れるための重要な役割を担っている。 手話認識分野は、ユーザと手話の非ユーザの間のギャップを埋めることを目的としている。 しかし、データセットの量と品質の不足は、この研究領域で大きな進歩をもたらす可能性のある新しいアプローチの探索を制限する主要な課題の1つである。 そこで本研究では,アメリカ手話のための2つの新しいデータセットを導入し,その1つは手話の3次元表現からなり,もう1つはサインの音韻的属性を含む前例のない言語学的表現によるものである。

Sign language is an essential resource enabling access to communication and proper socioemotional development for individuals suffering from disabling hearing loss. As this population is expected to reach 700 million by 2050, the importance of the language becomes even more essential as it plays a critical role to ensure the inclusion of such individuals in society. The Sign Language Recognition field aims to bridge the gap between users and non-users of sign languages. However, the scarcity in quantity and quality of datasets is one of the main challenges limiting the exploration of novel approaches that could lead to significant advancements in this research area. Thus, this paper contributes by introducing two new datasets for the American Sign Language: the first is composed of the three-dimensional representation of the signers and, the second, by an unprecedented linguistics-based representation containing a set of phonological attributes of the signs.
翻訳日:2022-01-07 14:08:16 公開日:2022-01-06
# (参考訳) 時系列分析における予測モデルの構築と積み重ねに対するベイズ回帰アプローチ [全文訳有]

Bayesian Regression Approach for Building and Stacking Predictive Models in Time Series Analytics ( http://arxiv.org/abs/2201.02034v1 )

ライセンス: CC BY 4.0
Bohdan M. Pavlyshenko(参考訳) 本論文は,時系列モデルの構築と時系列予測モデルの積み重ねにベイズ回帰を用いることについて述べる。 非線形トレンドを用いた時系列モデリングにベイズ回帰を用いた。 このアプローチにより、時系列予測の不確かさを推定し、リスク特性の値を計算することができる。 ベイズ回帰を用いた時系列の階層モデルが検討されている。 このアプローチでは、1つのパラメータセットがすべてのデータサンプルで同じであり、別のパラメータは異なるデータサンプルのグループで異なる可能性がある。 このようなアプローチでは、特定の時系列の短い履歴データの場合、例えば販売予測問題における新しい店舗や新製品の場合など、このモデルを使用することができる。 予測モデルの積み重ねに関する研究において、第1レベルのモデルアンサンブルの予測には、ARIMA、ニューラルネットワーク、ランダムフォレスト、エクストラツリーが用いられた。 第2段階では、検証セット上のこれらのモデルの時系列予測がベイズ回帰による積み重ねに用いられた。 このアプローチはこれらのモデルの回帰係数の分布を与える。 結果の積み重ねに各モデルが貢献する不確実性を見積もることができる。 これらの分布に関する情報により、ドメインの知識を考慮した最適な積み重ねモデルを選択することができます。 予測モデルを積み重ねる確率論的アプローチは、意思決定プロセスにおいて重要な予測に対するリスク評価を可能にします。

The paper describes the use of Bayesian regression for building time series models and stacking different predictive models for time series. Using Bayesian regression for time series modeling with nonlinear trend was analyzed. This approach makes it possible to estimate an uncertainty of time series prediction and calculate value at risk characteristics. A hierarchical model for time series using Bayesian regression has been considered. In this approach, one set of parameters is the same for all data samples, other parameters can be different for different groups of data samples. Such an approach allows using this model in the case of short historical data for specified time series, e.g. in the case of new stores or new products in the sales prediction problem. In the study of predictive models stacking, the models ARIMA, Neural Network, Random Forest, Extra Tree were used for the prediction on the first level of model ensemble. On the second level, time series predictions of these models on the validation set were used for stacking by Bayesian regression. This approach gives distributions for regression coefficients of these models. It makes it possible to estimate the uncertainty contributed by each model to stacking result. The information about these distributions allows us to select an optimal set of stacking models, taking into account the domain knowledge. The probabilistic approach for stacking predictive models allows us to make risk assessment for the predictions that are important in a decision-making process.
翻訳日:2022-01-07 14:05:24 公開日:2022-01-06
# (参考訳) 意思決定支援のためのツイート予測機能の作成 [全文訳有]

Forming Predictive Features of Tweets for Decision-Making Support ( http://arxiv.org/abs/2201.02049v1 )

ライセンス: CC BY 4.0
Bohdan M. Pavlyshenko(参考訳) この記事では、ツイートデータセットのさまざまな予測機能を作成し、それらを意思決定サポートの予測分析に利用するアプローチについて説明する。 グラフ理論や頻繁な項目セット、関連規則理論は、これらのデータから異なる特徴を生成・検索するために用いられる。 これらのアプローチを使用することで、特定のエンティティに関連するツイートのセマンティック構造を明らかにすることができる。 目的変数の予測回帰モデルにおいて,意味的頻繁項目セットの定量的特徴が利用できることを示した。

The article describes the approaches for forming different predictive features of tweet data sets and using them in the predictive analysis for decision-making support. The graph theory as well as frequent itemsets and association rules theory is used for forming and retrieving different features from these datasests. The use of these approaches makes it possible to reveal a semantic structure in tweets related to a specified entity. It is shown that quantitative characteristics of semantic frequent itemsets can be used in predictive regression models with specified target variables.
翻訳日:2022-01-07 13:57:54 公開日:2022-01-06
# (参考訳) MoCoPnet:赤外小ターゲット超解法における局所運動とコントラスト先行の探索 [全文訳有]

MoCoPnet: Exploring Local Motion and Contrast Priors for Infrared Small Target Super-Resolution ( http://arxiv.org/abs/2201.01014v3 )

ライセンス: CC BY 4.0
Xinyi Ying, Yingqian Wang, Longguang Wang, Weidong Sheng, Li Liu, Zaiping Lin, Shilin Zhou(参考訳) 赤外線小型ターゲットスーパーレゾリューション(sr)は、低レゾリューションのターゲットから高コントラストのターゲットで信頼性と詳細な高解像度画像を回収することを目的としている。 赤外線小ターゲットには色や微細な構造情報がないため、シーケンス画像間の補足情報を利用してターゲットを強化することが重要である。 本稿では,赤外小ターゲットのドメイン知識を深層ネットワークに統合し,赤外小ターゲットの固有の特徴不足を軽減するために,ローカルモーションとコントラスト事前駆動深層ネットワーク(MoCoPnet)と呼ばれる最初の赤外小ターゲットSR手法を提案する。 具体的には、時空間次元に先立つ局所運動に動機づけられ、暗黙的なフレームアライメントを行い、局所時空間情報を取り込んで局所的特徴(特に小さな対象)を高める局所時空間アライメントモジュールを提案する。 空間次元に先行する局所的コントラストに動機づけられ,中心的差分畳み込みを特徴抽出バックボーンに組み込む中心的差分残差群を提案する。 広範な実験により,本手法が正確な空間依存性を回復し,目標コントラストを改善することを実証した。 比較の結果,MoCoPnetは,SR性能と目標拡張の両面から,最先端ビデオSRと単一画像SR法より優れていた。 SRの結果から,赤外線小目標検出におけるSRの影響についてさらに検討し,MoCoPnetが検出性能を向上させることを示す実験結果を得た。 コードはhttps://github.com/x inyiying/mocopnetで入手できる。

Infrared small target super-resolution (SR) aims to recover reliable and detailed high-resolution image with highcontrast targets from its low-resolution counterparts. Since the infrared small target lacks color and fine structure information, it is significant to exploit the supplementary information among sequence images to enhance the target. In this paper, we propose the first infrared small target SR method named local motion and contrast prior driven deep network (MoCoPnet) to integrate the domain knowledge of infrared small target into deep network, which can mitigate the intrinsic feature scarcity of infrared small targets. Specifically, motivated by the local motion prior in the spatio-temporal dimension, we propose a local spatiotemporal attention module to perform implicit frame alignment and incorporate the local spatio-temporal information to enhance the local features (especially for small targets). Motivated by the local contrast prior in the spatial dimension, we propose a central difference residual group to incorporate the central difference convolution into the feature extraction backbone, which can achieve center-oriented gradient-aware feature extraction to further improve the target contrast. Extensive experiments have demonstrated that our method can recover accurate spatial dependency and improve the target contrast. Comparative results show that MoCoPnet can outperform the state-of-the-art video SR and single image SR methods in terms of both SR performance and target enhancement. Based on the SR results, we further investigate the influence of SR on infrared small target detection and the experimental results demonstrate that MoCoPnet promotes the detection performance. The code is available at https://github.com/X inyiYing/MoCoPnet.
翻訳日:2022-01-07 13:20:09 公開日:2022-01-06
# (参考訳) 説明可能なAI技術を用いた銀河外超コンパクトドワーフと球状クラスターの検出 [全文訳有]

Detection of extragalactic Ultra-Compact Dwarfs and Globular Clusters using Explainable AI techniques ( http://arxiv.org/abs/2201.01604v2 )

ライセンス: CC BY 4.0
Mohammad Mohammadi, Jarvin Mutatiina, Teymoor Saifollahi, Kerstin Bunte(参考訳) 銀河を取り巻く超コンパクト小星(UCD)や球状星団(GC)のような小さな恒星系は、これらの銀河を形成する融合現象のトレーサーとして知られている。 したがって、そのような系を特定することで銀河の集団形成、形成、進化を研究することができる。 しかし、画像データを用いたutds/gcsを検出する分光情報の欠如は極めて不確かである。 ここでは,これらの天体を前景の星や背景銀河から切り離すための機械学習モデルを,U,g,r,i,J,Ksという6つのフィルタでFornax銀河団のマルチ波長イメージングデータを用いて訓練することを目的とする。 オブジェクトのクラスは非常に不均衡であり、多くの自動分類技術に問題がある。 したがって、トレーニングデータの不均衡を処理するために、Synthetic Minority Over-Samplingを採用している。 次に,局所一般化行列学習ベクトル量子化(LGMLVQ)とランダムフォレスト(RF)の2つの分類器を比較した。 どちらの方法も精度と93パーセント以上のリコールでucds/gcsを識別でき、分類における各特徴次元%(色と角の大きさ)の重要性を反映した関連性を提供する。 どちらの方法も、この分類問題の重要なマーカーとして角の大きさを検出する。 u-i と i-Ks の色指数が最も重要な色であることは天文学的に予測されているが、我々は g-r などの色がより有益であることを示す。 優れた性能に加えて、lgmlvq法は、各クラス、クラス毎の代表サンプル、およびこのコントリビューションで示されているようにデータの非線形可視化を可能にすることで、さらなる解釈を可能にしている。 我々は、ucds/gcsを識別するために機械学習技術を使うことは、有望な結果につながると結論づける。

Compact stellar systems such as Ultra-compact dwarfs (UCDs) and Globular Clusters (GCs) around galaxies are known to be the tracers of the merger events that have been forming these galaxies. Therefore, identifying such systems allows to study galaxies mass assembly, formation and evolution. However, in the lack of spectroscopic information detecting UCDs/GCs using imaging data is very uncertain. Here, we aim to train a machine learning model to separate these objects from the foreground stars and background galaxies using the multi-wavelength imaging data of the Fornax galaxy cluster in 6 filters, namely u, g, r, i, J and Ks. The classes of objects are highly imbalanced which is problematic for many automatic classification techniques. Hence, we employ Synthetic Minority Over-sampling to handle the imbalance of the training data. Then, we compare two classifiers, namely Localized Generalized Matrix Learning Vector Quantization (LGMLVQ) and Random Forest (RF). Both methods are able to identify UCDs/GCs with a precision and a recall of >93 percent and provide relevances that reflect the importance of each feature dimension %(colors and angular sizes) for the classification. Both methods detect angular sizes as important markers for this classification problem. While it is astronomical expectation that color indices of u-i and i-Ks are the most important colors, our analysis shows that colors such as g-r are more informative, potentially because of higher signal-to-noise ratio. Besides the excellent performance the LGMLVQ method allows further interpretability by providing the feature importance for each individual class, class-wise representative samples and the possibility for non-linear visualization of the data as demonstrated in this contribution. We conclude that employing machine learning techniques to identify UCDs/GCs can lead to promising results.
翻訳日:2022-01-07 12:46:17 公開日:2022-01-06
# (参考訳) スケールにおける非構造媒体からの逆薬物反応のマイニング [全文訳有]

Mining Adverse Drug Reactions from Unstructured Mediums at Scale ( http://arxiv.org/abs/2201.01405v2 )

ライセンス: CC BY 4.0
Hasham Ul Haq, Veysel Kocaman, David Talby(参考訳) 逆薬物反応/事象(ADR/ADE)は、患者の健康と医療費に大きな影響を及ぼす。 できるだけ早くadrを検出し、規制当局、製薬会社、医療提供者と共有することは、致死を防ぎ、多くの命を救える。 たいていのADRは、正式なチャンネルを通しては報告されていないが、患者によるソーシャルメディア投稿、カスタマーサポート電話の書き起こし、医療提供者と製薬販売担当者の会議のCRMノートなど、様々な非構造化の会話に記録されていることが多い。この記事では、そのような非構造化の会話の中でADRを検出する自然言語処理(NLP)ソリューションを提案し、3つの方法で改善する。 まず、新しい名前付きエンティティ認識(ner)モデルは、ade、cadec、smm4hベンチマークデータセット(それぞれ91.75%、78.76%、83.41%のf1スコア)でadrおよび薬物エンティティ抽出のための新しい最先端精度を得る。 第2に、BioBERTに基づいて2つの新しいリレーショナル抽出(RE)モデルを導入し、もう1つは、Fully Connected Neural Network(FCNN)よりも工芸的な特徴を活用して、既存の最先端モデルと同等に実行し、補助的なクリニック注釈REデータセットでトレーニングした場合に、それらを上回るパフォーマンスを示す。 第3に、会話にADRが含まれているかどうかを決定するための新しいテキスト分類モデルがCADECデータセット(86.69% F1スコア)で新しい最先端の精度を得る。 完全なソリューションは、Apache Spark上に構築されたプロダクショングレードライブラリに統一されたNLPパイプラインとして実装されている。

Adverse drug reactions / events (ADR/ADE) have a major impact on patient health and health care costs. Detecting ADR's as early as possible and sharing them with regulators, pharma companies, and healthcare providers can prevent morbidity and save many lives. While most ADR's are not reported via formal channels, they are often documented in a variety of unstructured conversations such as social media posts by patients, customer support call transcripts, or CRM notes of meetings between healthcare providers and pharma sales reps. In this paper, we propose a natural language processing (NLP) solution that detects ADR's in such unstructured free-text conversations, which improves on previous work in three ways. First, a new Named Entity Recognition (NER) model obtains new state-of-the-art accuracy for ADR and Drug entity extraction on the ADE, CADEC, and SMM4H benchmark datasets (91.75%, 78.76%, and 83.41% F1 scores respectively). Second, two new Relation Extraction (RE) models are introduced - one based on BioBERT while the other utilizing crafted features over a Fully Connected Neural Network (FCNN) - are shown to perform on par with existing state-of-the-art models, and outperform them when trained with a supplementary clinician-annotated RE dataset. Third, a new text classification model, for deciding if a conversation includes an ADR, obtains new state-of-the-art accuracy on the CADEC dataset (86.69% F1 score). The complete solution is implemented as a unified NLP pipeline in a production-grade library built on top of Apache Spark, making it natively scalable and able to process millions of batch or streaming records on commodity clusters.
翻訳日:2022-01-07 12:23:11 公開日:2022-01-06
# 手話生産に必要なものすべて

All You Need In Sign Language Production ( http://arxiv.org/abs/2201.01609v2 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, Sergio Escalera, Vassilis Athitsos, Mohammad Sabokrou(参考訳) 手話は、聴覚障害と聴覚障害のコミュニティで使われるコミュニケーション言語の主要な形態である。 難聴者と難聴者コミュニティとのコミュニケーションが容易かつ相互に行えるようにし、音声言語を手話に翻訳できるロバストなシステムを構築することが基本である。 この目的のために、手話認識と生産は、このような双方向システムを作るのに必要な2つの部分である。 言語認識と生産はいくつかの重要な課題に対処する必要がある。 本稿では,手話生成(SLP)とその関連分野の最近の進歩を,ディープラーニングを用いて概観する。 手話にもっと現実的な視点を持たせるために,聴覚障害者文化,聴覚障害者センター,手話の心理的視点,話し言葉と手話の主な違いについて紹介する。 さらに,本稿では,双方向手話翻訳システムの基本コンポーネントを紹介し,この分野の主な課題について述べる。 また、SLPのバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。 最後に、SLPと性能評価のための一般的なフレームワーク、およびSLPの最近の発展、利点、限界に関する議論について、今後の研究の行程についてコメントする。

Sign Language is the dominant form of communication language used in the deaf and hearing-impaired community. To make an easy and mutual communication between the hearing-impaired and the hearing communities, building a robust system capable of translating the spoken language into sign language and vice versa is fundamental. To this end, sign language recognition and production are two necessary parts for making such a two-way system. Sign language recognition and production need to cope with some critical challenges. In this survey, we review recent advances in Sign Language Production (SLP) and related areas using deep learning. To have more realistic perspectives to sign language, we present an introduction to the Deaf culture, Deaf centers, psychological perspective of sign language, the main differences between spoken language and sign language. Furthermore, we present the fundamental components of a bi-directional sign language translation system, discussing the main challenges in this area. Also, the backbone architectures and methods in SLP are briefly introduced and the proposed taxonomy on SLP is presented. Finally, a general framework for SLP and performance evaluation, and also a discussion on the recent developments, advantages, and limitations in SLP, commenting on possible lines for future research are presented.
翻訳日:2022-01-07 12:10:42 公開日:2022-01-06
# 類似性を考慮した時系列分類に向けて

Towards Similarity-Aware Time-Series Classification ( http://arxiv.org/abs/2201.01413v2 )

ライセンス: Link先を確認
Daochen Zha, Kwei-Herng Lai, Kaixiong Zhou, Xia Hu(参考訳) 時系列データマイニングの基本課題である時系列分類(TSC)について検討する。 先行研究は,(1)近接する隣人に基づいて時系列を分類する類似性に基づく手法,(2)データ駆動方式で分類表現を直接学習する深層学習モデル,の2つの方向からTSCにアプローチしてきた。 これら2つの研究ラインで異なる作業メカニズムによって動機付けられ、時系列の類似性を共同でモデル化し、表現を学習することを目的としている。 類似情報を効率的に活用する方法が不明確であるため、これは難しい課題です。 この課題を解決するために,グラフニューラルネットワーク(GNN)を用いて類似情報をモデル化する概念的にシンプルで一般的なフレームワークであるSimTSCを提案する。 具体的には、ノードが時系列に対応し、リンクがペアワイズ類似性に対応するグラフにおいて、TSCをノード分類問題として定式化する。 さらに,グラフ構築戦略と負サンプリングによるバッチ学習アルゴリズムを設計し,学習効率を向上させる。 我々はSimTSCをResNetをバックボーンとし、Dynamic Time Warping(DTW)を類似度尺度としてインスタンス化する。 ucrデータセットと複数の多変量データセットに関する広範な実験は、教師付きと半教師付きの両方の設定でディープラーニングモデルに類似性情報を組み込む効果を示している。 私たちのコードはhttps://github.com/d aochenzha/SimTSCで利用可能です。

We study time-series classification (TSC), a fundamental task of time-series data mining. Prior work has approached TSC from two major directions: (1) similarity-based methods that classify time-series based on the nearest neighbors, and (2) deep learning models that directly learn the representations for classification in a data-driven manner. Motivated by the different working mechanisms within these two research lines, we aim to connect them in such a way as to jointly model time-series similarities and learn the representations. This is a challenging task because it is unclear how we should efficiently leverage similarity information. To tackle the challenge, we propose Similarity-Aware Time-Series Classification (SimTSC), a conceptually simple and general framework that models similarity information with graph neural networks (GNNs). Specifically, we formulate TSC as a node classification problem in graphs, where the nodes correspond to time-series, and the links correspond to pair-wise similarities. We further design a graph construction strategy and a batch training algorithm with negative sampling to improve training efficiency. We instantiate SimTSC with ResNet as the backbone and Dynamic Time Warping (DTW) as the similarity measure. Extensive experiments on the full UCR datasets and several multivariate datasets demonstrate the effectiveness of incorporating similarity information into deep learning models in both supervised and semi-supervised settings. Our code is available at https://github.com/d aochenzha/SimTSC
翻訳日:2022-01-07 12:10:24 公開日:2022-01-06