このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220525となっている論文です。

PDF登録状況(公開日: 20220525)

TitleAuthorsAbstract論文公表日・翻訳日
# トラベリングセールスマンの問題を学ぶには、一般化を再考する必要がある

Learning the Travelling Salesperson Problem Requires Rethinking Generalization ( http://arxiv.org/abs/2006.07054v6 )

ライセンス: Link先を確認
Chaitanya K. Joshi, Quentin Cappart, Louis-Martin Rousseau, Thomas Laurent(参考訳) トラベリングセールスパーソン問題(TSP)のようなグラフ組合せ最適化問題に対するニューラルネットワークソルバのエンドツーエンドトレーニングは、最近関心が高まっているが、数百のノードを持つグラフよりも難解で非効率なままである。 tspの最先端の学習駆動アプローチは、ごく小さなサイズでトレーニングされた場合、古典的なソルバと密に連携するが、実用的なスケールでは学習ポリシーをより大きなインスタンスに一般化することはできない。 この研究は、インダクティブバイアス、モデルアーキテクチャ、学習アルゴリズムを識別するために、最近の論文を統一するエンドツーエンドのニューラルネットワーク最適化パイプラインを提示し、トレーニングで見られるものよりも大きいインスタンスへの一般化を促進する。 我々の制御された実験は、このようなゼロショットの一般化に関する最初の原則的な調査を提供し、トレーニングデータを超えて外挿するには、ネットワーク層や学習パラダイムから評価プロトコルに至るまで、ニューラルネットワークの組合せ最適化パイプラインを再考する必要があることを明らかにした。 さらに、パイプラインのレンズを通してのルーティング問題に対するディープラーニングの最近の進歩を分析し、将来の研究を刺激するための新しい方向を提供する。

End-to-end training of neural network solvers for graph combinatorial optimization problems such as the Travelling Salesperson Problem (TSP) have seen a surge of interest recently, but remain intractable and inefficient beyond graphs with few hundreds of nodes. While state-of-the-art learning-driven approaches for TSP perform closely to classical solvers when trained on trivially small sizes, they are unable to generalize the learnt policy to larger instances at practical scales. This work presents an end-to-end neural combinatorial optimization pipeline that unifies several recent papers in order to identify the inductive biases, model architectures and learning algorithms that promote generalization to instances larger than those seen in training. Our controlled experiments provide the first principled investigation into such zero-shot generalization, revealing that extrapolating beyond training data requires rethinking the neural combinatorial optimization pipeline, from network layers and learning paradigms to evaluation protocols. Additionally, we analyze recent advances in deep learning for routing problems through the lens of our pipeline and provide new directions to stimulate future research.
翻訳日:2022-11-22 02:39:26 公開日:2022-05-25
# マルチエージェント低次元リニアバンディット

Multi-Agent Low-Dimensional Linear Bandits ( http://arxiv.org/abs/2007.01442v4 )

ライセンス: Link先を確認
Ronshee Chawla, Abishek Sankararaman and Sanjay Shakkottai(参考訳) 我々は,未知ベクトル $\theta^* \in \mathbb{R}^d$ でパラメータ化された,側面情報付きマルチエージェント確率線形帯域について検討した。 側情報は低次元部分空間の有限集合で構成され、そのうちの1つは$\theta^*$である。 私たちの設定では、エージェントはコミュニケーショングラフをまたいでレコメンデーションを送ることで、後悔を減らすために協力することができます。 エージェントがサブスペースインデックスを通信し、各エージェントが対応する(低次元)サブ空間上でLinUCBの投影された変種を再生する新しい分散アルゴリズムを提案する。 ユーザ間で最適な部分空間の探索と,対応する低次元部分空間内の各エージェントによる未知ベクトルの学習を行うことにより,エージェントが通信しない場合よりも,エージェントごとの有限時間後悔がはるかに小さいことを示す。 最終的にこれらの結果をシミュレーションによって補完する。

We study a multi-agent stochastic linear bandit with side information, parameterized by an unknown vector $\theta^* \in \mathbb{R}^d$. The side information consists of a finite collection of low-dimensional subspaces, one of which contains $\theta^*$. In our setting, agents can collaborate to reduce regret by sending recommendations across a communication graph connecting them. We present a novel decentralized algorithm, where agents communicate subspace indices with each other and each agent plays a projected variant of LinUCB on the corresponding (low-dimensional) subspace. By distributing the search for the optimal subspace across users and learning of the unknown vector by each agent in the corresponding low-dimensional subspace, we show that the per-agent finite-time regret is much smaller than the case when agents do not communicate. We finally complement these results through simulations.
翻訳日:2022-11-14 14:00:35 公開日:2022-05-25
# GuardNN: プライバシ保護によるディープラーニングのためのセキュアなアクセラレータアーキテクチャ

GuardNN: Secure Accelerator Architecture for Privacy-Preserving Deep Learning ( http://arxiv.org/abs/2008.11632v2 )

ライセンス: Link先を確認
Weizhe Hua, Muhammad Umar, Zhiru Zhang, G. Edward Suh(参考訳) 本稿では,ユーザデータとモデルパラメータをハードウェアベースで保護するセキュアなDNNアクセラレータであるGuardNNを提案する。 GuardNNは、アーキテクチャとプロテクションを特定のアプリケーション用にカスタマイズして、無視可能なオーバーヘッドで強力な機密性と整合性を保証することを示している。 GuardNN命令セットの設計は、TCBを単にアクセラレータに還元し、ホストからの命令が信頼できない場合でも機密性保護を可能にする。 GuardNNは、DNNアクセラレータの既知のメモリアクセスパターンに対するオフチップメモリ保護をカスタマイズすることで、メモリ暗号化と整合性検証のオーバーヘッドを最小限にする。 GuardNNはFPGA上でプロトタイプされており、推論の3%のパフォーマンスオーバーヘッドで効果的な機密性保護を実証している。

This paper proposes GuardNN, a secure DNN accelerator that provides hardware-based protection for user data and model parameters even in an untrusted environment. GuardNN shows that the architecture and protection can be customized for a specific application to provide strong confidentiality and integrity guarantees with negligible overhead. The design of the GuardNN instruction set reduces the TCB to just the accelerator and allows confidentiality protection even when the instructions from a host cannot be trusted. GuardNN minimizes the overhead of memory encryption and integrity verification by customizing the off-chip memory protection for the known memory access patterns of a DNN accelerator. GuardNN is prototyped on an FPGA, demonstrating effective confidentiality protection with ~3% performance overhead for inference.
翻訳日:2022-10-24 22:32:27 公開日:2022-05-25
# mos予測を用いた音声品質の最大化のための学習

Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech ( http://arxiv.org/abs/2011.01174v5 )

ライセンス: Link先を確認
Yeunju Choi, Youngmoon Jung, Youngjoo Suh, Hoirin Kim(参考訳) 最近のニューラルテキスト音声合成システム(TTS)は高品質な音声合成を実現しているが、TSシステムは、主に知識蒸留中の限られた訓練データや情報損失によって、低品質な音声を生成する。 そこで本研究では,最大音声品質スコアと予測音声との距離を測定する知覚損失の監督下でttsモデルを訓練することにより,音声品質を改善する新しい手法を提案する。 まず, 平均オピニオンスコア(mos)予測モデルを事前学習し, 合成音声のmosを最大化するためにttsモデルを事前学習した。 提案手法はttsモデルアーキテクチャや音声品質劣化の原因に関係なく, 推定時間やモデルの複雑さを増すことなく, 効率的に適用できる。 MOSと電話の誤り率の評価結果から,提案手法は,自然性と知性の両方の観点から,従来のモデルを改善することを示す。

Although recent neural text-to-speech (TTS) systems have achieved high-quality speech synthesis, there are cases where a TTS system generates low-quality speech, mainly caused by limited training data or information loss during knowledge distillation. Therefore, we propose a novel method to improve speech quality by training a TTS model under the supervision of perceptual loss, which measures the distance between the maximum possible speech quality score and the predicted one. We first pre-train a mean opinion score (MOS) prediction model and then train a TTS model to maximize the MOS of synthesized speech using the pre-trained MOS prediction model. The proposed method can be applied independently regardless of the TTS model architecture or the cause of speech quality degradation and efficiently without increasing the inference time or model complexity. The evaluation results for the MOS and phone error rate demonstrate that our proposed approach improves previous models in terms of both naturalness and intelligibility.
翻訳日:2022-09-30 13:16:39 公開日:2022-05-25
# RELLIS-3Dデータセット:データ、ベンチマーク、分析

RELLIS-3D Dataset: Data, Benchmarks and Analysis ( http://arxiv.org/abs/2011.12954v4 )

ライセンス: Link先を確認
Peng Jiang, Philip Osteen, Maggie Wigness, Srikanth Saripalli(参考訳) セマンティックなシーン理解は、特にオフロード環境では、堅牢で安全な自律ナビゲーションに不可欠である。 最近の3Dセマンティックセグメンテーションのディープラーニングの進歩は、大規模なトレーニングデータに大きく依存しているが、既存の自律データセットは都市環境を表すか、マルチモーダルオフロードデータを欠いている。 これはオフロード環境で収集されたマルチモーダルデータセットで、13,556のlidarスキャンと6,235の画像に対するアノテーションを含んでいる。 データはテキサスA\&M大学のリリスキャンパスで収集され、クラス不均衡と環境地形に関する既存のアルゴリズムに課題を提示している。 さらに,このデータセット上でのディープラーニング意味セグメンテーションモデルの評価を行った。 RELLIS-3Dは都市環境におけるセグメンテーションのためのアルゴリズムの課題を示す。 この新しいデータセットは、研究者がより高度なアルゴリズムを開発し続けるために必要なリソースを提供し、オフロード環境における自律的なナビゲーションを強化するための新しい研究方向を調査する。 RELLIS-3Dはhttps://github.com/unmannedlab/RELLIS-3Dで利用可能である。

Semantic scene understanding is crucial for robust and safe autonomous navigation, particularly so in off-road environments. Recent deep learning advances for 3D semantic segmentation rely heavily on large sets of training data, however existing autonomy datasets either represent urban environments or lack multimodal off-road data. We fill this gap with RELLIS-3D, a multimodal dataset collected in an off-road environment, which contains annotations for 13,556 LiDAR scans and 6,235 images. The data was collected on the Rellis Campus of Texas A\&M University and presents challenges to existing algorithms related to class imbalance and environmental topography. Additionally, we evaluate the current state-of-the-art deep learning semantic segmentation models on this dataset. Experimental results show that RELLIS-3D presents challenges for algorithms designed for segmentation in urban environments. This novel dataset provides the resources needed by researchers to continue to develop more advanced algorithms and investigate new research directions to enhance autonomous navigation in off-road environments. RELLIS-3D is available at https://github.com/unmannedlab/RELLIS-3D
翻訳日:2022-09-24 17:30:43 公開日:2022-05-25
# xFraud: 説明可能な不正トランザクション検出

xFraud: Explainable Fraud Transaction Detection ( http://arxiv.org/abs/2011.12193v3 )

ライセンス: Link先を確認
Susie Xi Rao, Shuai Zhang, Zhichao Han, Zitao Zhang, Wei Min, Zhiyao Chen, Yinan Shan, Yang Zhao, Ce Zhang(参考訳) オンライン小売プラットフォームでは、顧客体験を改善し、損失を最小限に抑えるために、取引のリスクを積極的に検出することが重要である。 本研究では,主に検出器と説明器から構成される,説明可能な不正取引予測フレームワークであるxFraudを提案する。 xFraud検出器は、受信トランザクションの正当性を効果的かつ効率的に予測することができる。 具体的には、ヘテロジニアスグラフニューラルネットワークを使用して、トランザクションログ内のインフォメーション型付けエンティティから表現表現を学習する。 xfraudの説明者は、グラフから有意義で人間の理解可能な説明を生成して、ビジネスユニットのさらなるプロセスを促進することができる。 最大11億のノードと370億のエッジを持つ実トランザクションネットワーク上でのxFraudによる実験では、分散環境でのスケーラビリティを維持しながら、多くの評価指標において、さまざまなベースラインモデルを上回ります。 さらに,xfraud explainserは定量的評価と質的評価の両方を通じてビジネス分析を著しく支援するための合理的な説明を生成できることを示す。

At online retail platforms, it is crucial to actively detect the risks of transactions to improve customer experience and minimize financial loss. In this work, we propose xFraud, an explainable fraud transaction prediction framework which is mainly composed of a detector and an explainer. The xFraud detector can effectively and efficiently predict the legitimacy of incoming transactions. Specifically, it utilizes a heterogeneous graph neural network to learn expressive representations from the informative heterogeneously typed entities in the transaction logs. The explainer in xFraud can generate meaningful and human-understandable explanations from graphs to facilitate further processes in the business unit. In our experiments with xFraud on real transaction networks with up to 1.1 billion nodes and 3.7 billion edges, xFraud is able to outperform various baseline models in many evaluation metrics while remaining scalable in distributed settings. In addition, we show that xFraud explainer can generate reasonable explanations to significantly assist the business analysis via both quantitative and qualitative evaluations.
翻訳日:2022-09-21 12:54:27 公開日:2022-05-25
# (参考訳) 生涯学習型自然言語処理による多言語データ分類

Lifelong Learning Natural Language Processing Approach for Multilingual Data Classification ( http://arxiv.org/abs/2206.11867v1 )

ライセンス: CC BY 4.0
J\k{e}drzej Kozal, Micha{\l} Le\'s, Pawe{\l} Zyblewski, Pawe{\l} Ksieniewicz, Micha{\l} Wo\'zniak(参考訳) 現代のデジタルメディアにおける情報の豊富さは、大衆にとって現在の出来事に関する知識の源泉となっているため、これまでにない規模で偽情報を広めることができる。 その結果、事実の文脈の変化に適応し、以前あるいは同時に獲得した知識を一般化できる新しい偽ニュース検出手法を開発する必要がある。 この問題に対処するために,複数の言語で偽ニュースを検知し,各言語で獲得した知識の相互伝達を可能にする,生涯学習に着想を得たアプローチを提案する。 MLP(Multilayer Perceptron)分類器とペアリングした深部NLP(Natural Language Processing)BERT(Bidirectional Encoder Representations from Transformers)モデルを用いた。 統計的分析によって支援された偽ニュース分類タスク(英語とスペイン語)に特化した2つのデータセットに関する実験の結果は、従来の方法のパフォーマンスを向上させることができることを確認した。 また、古典的な学習手法を補う場合もあり、結果に肯定的な影響を与えることがある。 分析された言語間で得られた知識を一般化するモデルの能力も観察された。

The abundance of information in digital media, which in today's world is the main source of knowledge about current events for the masses, makes it possible to spread disinformation on a larger scale than ever before. Consequently, there is a need to develop novel fake news detection approaches capable of adapting to changing factual contexts and generalizing previously or concurrently acquired knowledge. To deal with this problem, we propose a lifelong learning-inspired approach, which allows for fake news detection in multiple languages and the mutual transfer of knowledge acquired in each of them. Both classical feature extractors, such as Term frequency-inverse document frequency or Latent Dirichlet Allocation, and integrated deep NLP (Natural Language Processing) BERT (Bidirectional Encoder Representations from Transformers) models paired with MLP (Multilayer Perceptron) classifier, were employed. The results of experiments conducted on two datasets dedicated to the fake news classification task (in English and Spanish, respectively), supported by statistical analysis, confirmed that utilization of additional languages could improve performance for traditional methods. Also, in some cases supplementing the deep learning method with classical ones can positively impact obtained results. The ability of models to generalize the knowledge acquired between the analyzed languages was also observed.
翻訳日:2022-06-27 07:37:50 公開日:2022-05-25
# (参考訳) 自由形合理化のメリットを探る

Investigating the Benefits of Free-Form Rationales ( http://arxiv.org/abs/2206.11083v1 )

ライセンス: CC BY 4.0
Jiao Sun, Swabha Swayamdipta, Jonathan May, Xuezhe Ma(参考訳) 自由形式の理性は、モデル決定を理解するのに役立つ背景知識を提供することによって、モデルの解釈可能性を支援することを目的としています。 クラウドソーシングの合理性は、CoS-EやECQAといった一般的なデータセットで一般的なQAインスタンスに対して提供されているが、そのユーティリティはまだ検討されていない。 我々は,ECQAの理論的根拠が決定を理解するための背景情報を提供するのに対して,CoS-Eの理論的根拠の88%以上はそうではないことを示す人間の研究を提示する。 この発見に触発されて、私たちは次のように質問する。 自由形式の合理性によって提供される追加のコンテキストは、人間ユーザーと同様の利益をもたらすか? 学習中の合理化の量や質を変動させることにより,合理化の活用を指導源として検討する。 根拠が正しい答えを漏らし、追加のバックグラウンド知識を提供していないインスタンスを制御した後、トレーニング中に論理を5%だけ取り入れただけで、推論中にCoS-Eが47.22%、ECQAが57.14%のモデル性能が向上することが判明した。 さらに, クラウドソーシング理論と比較して, t5生成理論は, モデルに対する弱い監督を与えるだけでなく, モデル解釈を支援する上でも有用ではないことを示す。

Free-form rationales aim to aid model interpretability by supplying the background knowledge that can help understand model decisions. Crowdsourced rationales are provided for commonsense QA instances in popular datasets such as CoS-E and ECQA, but their utility remains under-investigated. We present human studies which show that ECQA rationales indeed provide additional background information to understand a decision, while over 88% of CoS-E rationales do not. Inspired by this finding, we ask: can the additional context provided by free-form rationales benefit models, similar to human users? We investigate the utility of rationales as an additional source of supervision, by varying the quantity and quality of rationales during training. After controlling for instances where rationales leak the correct answer while not providing additional background knowledge, we find that incorporating only 5% of rationales during training can boost model performance by 47.22% for CoS-E and 57.14% for ECQA during inference. Moreover, we also show that rationale quality matters: compared to crowdsourced rationales, T5-generated rationales provide not only weaker supervision to models, but are also not helpful for humans in aiding model interpretability.
翻訳日:2022-06-27 07:24:48 公開日:2022-05-25
# 神経形人工知能システム

Neuromorphic Artificial Intelligence Systems ( http://arxiv.org/abs/2205.13037v1 )

ライセンス: Link先を確認
Dmitry Ivanov, Aleksandr Chezhegov, Andrey Grunin, Mikhail Kiselev, and Denis Larionov(参考訳) フォン・ノイマンアーキテクチャと古典的ニューラルネットワークに基づく現代のAIシステムは、脳と比較して多くの基本的な制限がある。 この記事では、そのような制限とその緩和方法について論じる。 次に、現在利用可能なニューロモルフィックAIプロジェクトの概要を示す。これらの制限は、コンピュータシステムの機能と組織(TrueNorth、Loihi、Tianjic、SpinNNaker、BrainScaleS、NeuronFlow、DYNAP、Akida)に脳機能を導入することで克服される。 また、脳機能(神経ネットワーク、並列性、非同期性、情報伝達のインパルス性、局所学習、疎性、アナログおよびインメモリコンピューティング)によってニューロモルフィックAIシステムを分類する原理も提示する。 既存のシリコンマイクロエレクトロニクス技術に基づくニューロモルフィックデバイスで使用される新しいアーキテクチャアプローチに加えて、新しいメムリスタ素子ベースの利用の可能性についても論じる。 ユーロモルフィックアプリケーションにおけるmemristorの使用の最近の進歩の例も紹介されている。

Modern AI systems, based on von Neumann architecture and classical neural networks, have a number of fundamental limitations in comparison with the brain. This article discusses such limitations and the ways they can be mitigated. Next, it presents an overview of currently available neuromorphic AI projects in which these limitations are overcame by bringing some brain features into the functioning and organization of computing systems (TrueNorth, Loihi, Tianjic, SpiNNaker, BrainScaleS, NeuronFlow, DYNAP, Akida). Also, the article presents the principle of classifying neuromorphic AI systems by the brain features they use (neural networks, parallelism and asynchrony, impulse nature of information transfer, local learning, sparsity, analog and in-memory computing). In addition to new architectural approaches used in neuromorphic devices based on existing silicon microelectronics technologies, the article also discusses the prospects of using new memristor element base. Examples of recent advances in the use of memristors in euromorphic applications are also given.
翻訳日:2022-06-26 14:42:39 公開日:2022-05-25
# Obj2Sub: 客観的から主観的質問への教師なし変換

Obj2Sub: Unsupervised Conversion of Objective to Subjective Questions ( http://arxiv.org/abs/2206.11848v1 )

ライセンス: Link先を確認
Aarish Chhabra, Nandini Bansal, Venktesh V, Mukesh Mohania and Deep Dwivedi(参考訳) 試験は、学習者の主題に対する理解をテストするために行われる。 学習者が解を推測したり交換したりするのを防ぐために、実行されたテストの方法には十分な主観的疑問があり、詳細な回答を提示することで学習者が概念を理解したかどうかを判断する必要がある。 そこで本研究では,ルールベース手法と事前学習した高密度検索手法を併用して,対象質問を主観的質問に自動変換する手法を提案する。 このアプローチが既存のデータ駆動アプローチを36.45%上回っていることをrecall@kとprecision@kで測定した。

Exams are conducted to test the learner's understanding of the subject. To prevent the learners from guessing or exchanging solutions, the mode of tests administered must have sufficient subjective questions that can gauge whether the learner has understood the concept by mandating a detailed answer. Hence, in this paper, we propose a novel hybrid unsupervised approach leveraging rule-based methods and pre-trained dense retrievers for the novel task of automatically converting the objective questions to subjective questions. We observe that our approach outperforms the existing data-driven approaches by 36.45% as measured by Recall@k and Precision@k.
翻訳日:2022-06-26 08:20:21 公開日:2022-05-25
# 内生可塑性による貯留層適応

Federated Adaptation of Reservoirs via Intrinsic Plasticity ( http://arxiv.org/abs/2206.11087v1 )

ライセンス: Link先を確認
Valerio De Caro, Claudio Gallicchio and Davide Bacciu(参考訳) 本稿では,クライアントサーバシナリオにおいて,Echo State Networks (ESN) を用いたフェデレーション学習を行うための新しいアルゴリズムを提案する。 特に,本提案では,内生プラスチックとフェデレート平均化を組み合わせた貯水池の適応に着目した。 前者は局所的かつ教師なしの方法で貯水池の非線形性を適応するための勾配に基づく手法であり、後者は連合シナリオにおける学習の枠組みを提供する。 文献に存在する連合ESNに対する従来のアプローチと比較して,人間の監視から実世界のデータセットに対するアプローチを評価する。 その結果, 貯留層にアルゴリズムを適用することで, グローバルモデルの性能が大幅に向上することがわかった。

We propose a novel algorithm for performing federated learning with Echo State Networks (ESNs) in a client-server scenario. In particular, our proposal focuses on the adaptation of reservoirs by combining Intrinsic Plasticity with Federated Averaging. The former is a gradient-based method for adapting the reservoir's non-linearity in a local and unsupervised manner, while the latter provides the framework for learning in the federated scenario. We evaluate our approach on real-world datasets from human monitoring, in comparison with the previous approach for federated ESNs existing in literature. Results show that adapting the reservoir with our algorithm provides a significant improvement on the performance of the global model.
翻訳日:2022-06-26 08:20:10 公開日:2022-05-25
# (参考訳) 決算会議コールにおける企業ネットワークと対話の協調モデリングによる企業リスクの予測

Predicting Corporate Risk by Jointly Modeling Company Networks and Dialogues in Earnings Conference Calls ( http://arxiv.org/abs/2206.06174v1 )

ライセンス: CC BY 4.0
Yunxin Sang, Yang Bao(参考訳) フリーフォームと豊富な情報により、より多くの研究者が収支会議コールに基づく企業のリスク予測の研究に重点を置いている。 しかし、既存の研究は話者の役割情報を考慮していない。 また、現在の研究は企業間の関係が企業リスクに与える影響を十分に考慮していない。 企業ネットワークと収支会議のコールを統合する唯一の研究は、予測タスクに時間的情報漏洩が不要な非方向性グラフで企業を構築することである。 上記の問題を解決するため、企業リスク予測のための収支会議コールと企業ネットワークを統合するための新しいモデルであるテンポラル仮想グラフニューラルネットワーク(TVGNN)を提案する。 本モデルは,対話モデルにおける話者の役割情報を初めて取り入れたモデルである。 さらに,企業ネットワーク構築のための新しい手法を設計し,グラフに時間的情報漏洩がないようにした。 実験の結果,提案モデルが全ベースラインを超えることがわかった。 ケーススタディでは,モデルの予測結果が解釈可能であることが示された。

More and more researchers focus on studying company risk prediction based on earnings conference calls because of their free form and rich information. However, existing research does not take speaker role information into account. Besides, current research does not fully consider the impact of inter-company relationships on company risk. The only study integrating company networks and earnings conference calls constructs companies in an undirected graph, which does not meet the requirement of no temporal information leakage for prediction tasks. To solve the above problems, we propose a new model -- Temporal Virtual Graph Neural Network (TVGNN), to incorporate earnings conference calls and company networks for company risk prediction. Our model incorporates the speaker's role information in the dialogue modeling for the first time. In addition, we design a new method to construct company networks that can ensure no temporal information leakage in the graph. The experimental results show that the proposed model exceeds all baselines. The case study shows that the prediction results of the model are interpretable.
翻訳日:2022-06-20 01:16:14 公開日:2022-05-25
# RIS-ADMM:干渉除去を用いたADMMに基づくパッシブ・スパースセンシング法

RIS-ADMM: An ADMM-Based Passive and Sparse Sensing Method with Interference Removal ( http://arxiv.org/abs/2206.06172v1 )

ライセンス: Link先を確認
Peng Chen, Zhimin Chen, Pu Miao, Yun Chen(参考訳) 再構成可能なインテリジェントサーフェス(RIS)は、将来のレーダーおよび無線通信アプリケーションのための潜在的な技術である。 この書簡では、無線アクセスポイント(ap)からの干渉を伴うシナリオにおいて、無線通信信号とrisを用いた受動的センシング問題に対処する。 原子ノルム最小化(ANM)法を定式化し、空間領域におけるターゲット空間の空隙を利用して到着方向(DOA)を推定するが、従来の半有限計画法(SDP)に基づくANM問題の解法は複雑であり、効率よく実現できない。 そこで本研究では,乗算器の交互方向法としてRIS-ADMM法を提案する。 閉形式式が導出され、干渉信号も抑制される。 シミュレーションの結果,RIS-ADMM法は計算複雑性の低いDOA推定性能において比較手法よりも優れていた。 提案手法に関するコードは、オンライン \url{https://github.com/chenpengseu/RIS-ADMM.git} で評価可能である。

The reconfigurable intelligent surface (RIS) has been a potential technology for future radar and wireless communication applications. In this letter, the passive sensing problem using wireless communications signal and RIS is addressed in the scenario with the interference from the wireless access point (AP). An atomic norm minimization (ANM) method is formulated to exploit the target sparsity in the spatial domain and estimate the direction of arrival (DOA), but the conventional semidefinite programming (SDP)-based method to solve the ANM problem is complex and cannot be realized efficiently. Therefore, we proposed a RIS-ADMM method as an alternating direction method of multipliers (ADMM)-based iterative method. The closed-form expressions are derived, and the interference signal is also suppressed. Simulation results show that the proposed RIS-ADMM method outperforms the compared methods in the DOA estimation performance with low computational complexity. The code about the proposed method is avaliable online \url{https://github.com/chenpengseu/RIS-ADMM.git}.
翻訳日:2022-06-19 23:30:25 公開日:2022-05-25
# SS-GNN:親和性予測のための簡易構造化グラフニューラルネットワーク

SS-GNN: A Simple-Structured Graph Neural Network for Affinity Prediction ( http://arxiv.org/abs/2206.07015v1 )

ライセンス: Link先を確認
Shuke Zhang, Yanzhao Jin, Tianmeng Liu, Qi Wang, Zhaohui Zhang, Shuliang Zhao, Bo Shan(参考訳) 有効な薬物標的結合親和性 (DTBA) 予測は, 実用化における計算資源の制限による課題であり, 薬物スクリーニングの重要な基礎となっている。 グラフニューラルネットワーク(GNN)の優れた表現能力に着想を得て,DTBAを正確に予測するための単純な構造化GNNモデルであるSS-GNNを提案する。 距離閾値に基づいて単一の無向グラフを構築してタンパク質-リガンド相互作用を表現することにより、グラフデータのスケールを大幅に削減する。 さらに、タンパク質の共有結合を無視することは、モデルの計算コストをさらに削減する。 GNN-MLPモジュールは、グラフ内の原子とエッジの潜在的特徴抽出を2つの独立したプロセスとして取り込む。 また、複雑な相互作用を表現するエッジベースの原子対特徴集約法と、複合体の結合親和性を予測するグラフプーリング法を開発した。 単純なモデル(0.6mパラメータのみ)を用いて,複雑な幾何学的特徴記述を導入することなく,最先端の予測性能を実現する。 SS-GNNはPDBbind v2016コアセット上でピアソンのRp=0.853を達成する。 さらに、簡略化されたモデル構造と簡潔なデータ処理手順により、モデルの予測効率が向上する。 一般的なタンパク質リガンド複合体では、親和性予測は0.2msしかかからない。

Efficient and effective drug-target binding affinity (DTBA) prediction is a challenging task due to the limited computational resources in practical applications and is a crucial basis for drug screening. Inspired by the good representation ability of graph neural networks (GNNs), we propose a simple-structured GNN model named SS-GNN to accurately predict DTBA. By constructing a single undirected graph based on a distance threshold to represent protein-ligand interactions, the scale of the graph data is greatly reduced. Moreover, ignoring covalent bonds in the protein further reduces the computational cost of the model. The GNN-MLP module takes the latent feature extraction of atoms and edges in the graph as two mutually independent processes. We also develop an edge-based atom-pair feature aggregation method to represent complex interactions and a graph pooling-based method to predict the binding affinity of the complex. We achieve state-of-the-art prediction performance using a simple model (with only 0.6M parameters) without introducing complicated geometric feature descriptions. SS-GNN achieves Pearson's Rp=0.853 on the PDBbind v2016 core set, outperforming state-of-the-art GNN-based methods by 5.2%. Moreover, the simplified model structure and concise data processing procedure improve the prediction efficiency of the model. For a typical protein-ligand complex, affinity prediction takes only 0.2 ms. All codes are freely accessible at https://github.com/xianyuco/SS-GNN.
翻訳日:2022-06-19 23:30:08 公開日:2022-05-25
# 推定と近似再構成のための信号の位相的単純化

Topological Simplification of Signals for Inference and Approximate Reconstruction ( http://arxiv.org/abs/2206.07486v1 )

ライセンス: Link先を確認
Gary Koplik, Nathan Borggren, Sam Voisin, Gabrielle Angeloro, Jay Hineman, Tessa Johnson, Paul Bendich(参考訳) モノのインターネット(IoT)デバイスが安価かつ強力になるにつれて、研究者たちは、財政的にも計算的にも、科学的キュリオシティの解決策を見つけ始めている。 しかし、制限された電力または通信予算で運用する場合、デバイスは高度に圧縮されたデータしか送信できない。 このような状況は、衛星を介してしか通信できない電力網から離れたデバイスに共通しており、特に環境センサネットワークに有効な状況である。 これらの制限は、例えば、曇りの日にデータを送信する際に少ないエネルギーを消費する太陽エネルギー装置のような通信予算の潜在的な変動によってさらに複雑になる可能性がある。 そこで本稿では,これらの制約のある可変環境に対して,新しいトポロジーベースで損失性のある圧縮手法を提案する。 この手法はトポロジカル信号圧縮であり、可変通信予算の全体を利用する圧縮信号を送信することができる。 アルゴリズムの能力を示すために,自由声素データ集合からの位相的簡素化信号に対するエントロピー計算と分類演習を行い,共通ベースラインに対する結果の安定性について検討した。

As Internet of Things (IoT) devices become both cheaper and more powerful, researchers are increasingly finding solutions to their scientific curiosities both financially and computationally feasible. When operating with restricted power or communications budgets, however, devices can only send highly-compressed data. Such circumstances are common for devices placed away from electric grids that can only communicate via satellite, a situation particularly plausible for environmental sensor networks. These restrictions can be further complicated by potential variability in the communications budget, for example a solar-powered device needing to expend less energy when transmitting data on a cloudy day. We propose a novel, topology-based, lossy compression method well-equipped for these restrictive yet variable circumstances. This technique, Topological Signal Compression, allows sending compressed signals that utilize the entirety of a variable communications budget. To demonstrate our algorithm's capabilities, we perform entropy calculations as well as a classification exercise on increasingly topologically simplified signals from the Free-Spoken Digit Dataset and explore the stability of the resulting performance against common baselines.
翻訳日:2022-06-19 23:29:22 公開日:2022-05-25
# (参考訳) スケーラブルなマルチエージェントモデルに基づく強化学習

Scalable Multi-Agent Model-Based Reinforcement Learning ( http://arxiv.org/abs/2205.15023v1 )

ライセンス: CC BY 4.0
Vladimir Egorov and Aleksei Shpilman(参考訳) 近年のMARL(Multi-Agent Reinforcement Learning)文学は、分散実行による集中的訓練(CTDE)に重点を置いている。 ctdeは分散ポリシーを効率的に訓練する能力があるため、協調環境と混合環境の両方において支配的なアプローチである。 混合環境ではエージェントの完全な自律性が望ましい結果となりうるが、協調環境はエージェントが情報を共有して協調を促進することができる。 このテクニックを利用するアプローチは、エージェントの完全な自律性がよりよいパフォーマンスのために損なわれるため、一般的にコミュニケーションメソッドと呼ばれる。 コミュニケーションアプローチは印象的な結果を示しているが、トレーニング段階ではこの追加情報を十分に活用していない。 本稿では,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。 エージェント間のコミュニケーションは、実行フェーズにおける各エージェントのワールドモデルを維持するのに十分であり、仮想的なロールアウトはトレーニングに使用でき、環境とのインタラクションの必要性をなくすことができる。 これらの性質は、エージェントの数に応じて優雅にスケールできるサンプル効率のよいアルゴリズムをもたらす。 我々は,SMAC と Flatland の挑戦領域におけるモデルフリーの最先端アプローチと比較して,MAMBA が環境との対話回数を桁違いに減らし,良好な性能を達成できることを実証的に確認した。

Recent Multi-Agent Reinforcement Learning (MARL) literature has been largely focused on Centralized Training with Decentralized Execution (CTDE) paradigm. CTDE has been a dominant approach for both cooperative and mixed environments due to its capability to efficiently train decentralized policies. While in mixed environments full autonomy of the agents can be a desirable outcome, cooperative environments allow agents to share information to facilitate coordination. Approaches that leverage this technique are usually referred as communication methods, as full autonomy of agents is compromised for better performance. Although communication approaches have shown impressive results, they do not fully leverage this additional information during training phase. In this paper, we propose a new method called MAMBA which utilizes Model-Based Reinforcement Learning (MBRL) to further leverage centralized training in cooperative environments. We argue that communication between agents is enough to sustain a world model for each agent during execution phase while imaginary rollouts can be used for training, removing the necessity to interact with the environment. These properties yield sample efficient algorithm that can scale gracefully with the number of agents. We empirically confirm that MAMBA achieves good performance while reducing the number of interactions with the environment up to an orders of magnitude compared to Model-Free state-of-the-art approaches in challenging domains of SMAC and Flatland.
翻訳日:2022-06-12 22:54:26 公開日:2022-05-25
# ファジィ関係方程式の弱線形系の可解性について

On the solvability of weakly linear systems of fuzzy relation equations ( http://arxiv.org/abs/2205.15292v1 )

ライセンス: Link先を確認
Stefan Stanimirovic, Ivana Micic(参考訳) ファジィ関係方程式の系と未知のファジィ関係が方程式や不等式の一側にある不等式は線形系である。 線形系に関する膨大な文献は、そのような系の解と可解性基準を見つけることに焦点を当てている。 この状況は、方程式の両側や不等式に未知のファジィ関係が存在するいわゆる弱線型系とは全く異なる。 正確には、研究者はそのようなシステムに対する正確な解の集合を特徴づけるのみである。 本稿では,弱線形系をある程度解くファジィ関係の集合を記述し,それらを計算する方法を提案する。 我々は,弱線形系に対する解であるファジィ前順序とファジィ同値を計算するアルゴリズムの開発に特に注意を払っている。 我々は、そのような近似解の集合の特定の種類の完全可除格子に対する追加的な性質を確立する。 ファジィネットワークの集約問題から生じる多くの例を通して,このアプローチの利点を実証する。

Systems of fuzzy relation equations and inequalities in which an unknown fuzzy relation is on the one side of the equation or inequality are linear systems. They are the most studied ones, and a vast literature on linear systems focuses on finding solutions and solvability criteria for such systems. The situation is quite different with the so-called weakly linear systems, in which an unknown fuzzy relation is on both sides of the equation or inequality. Precisely, the scholars have only given the characterization of the set of exact solutions to such systems. This paper describes the set of fuzzy relations that solve weakly linear systems to a certain degree and provides ways to compute them. We pay special attention to developing the algorithms for computing fuzzy preorders and fuzzy equivalences that are solutions to some extent to weakly linear systems. We establish additional properties for the set of such approximate solutions over some particular types of complete residuated lattices. We demonstrate the advantage of this approach via many examples that arise from the problem of aggregation of fuzzy networks.
翻訳日:2022-06-12 09:37:00 公開日:2022-05-25
# (参考訳) インテリジェント通信チャネルによる複数のエージェント間のポリシー調整

Coordinating Policies Among Multiple Agents via an Intelligent Communication Channel ( http://arxiv.org/abs/2205.10607v2 )

ライセンス: CC BY 4.0
Dianbo Liu, Vedant Shah, Oussama Boussif, Cristian Meo, Anirudh Goyal, Tianmin Shu, Michael Mozer, Nicolas Heess, Yoshua Bengio(参考訳) MARL(Multi-Agent Reinforcement Learning)では、エージェントが直接通信できる特別なチャンネルがしばしば導入される。 本稿では,エージェントの集団的性能を向上させるために,エージェントが提供した情報を読み取って解釈する知的なファシリテータを通じてエージェントがコミュニケーションする手法を提案する。 このファシリテータが集中型コントローラにならないようにするために、エージェントは、伝達するメッセージへの依存を減らすためにインセンティブを与え、そのメッセージは、ポリシーが与えられた即時のアクションではなく、固定されたセットからポリシーの選択にのみ影響することができる。 いくつかのMARL環境における既存のベースラインに対するこのアーキテクチャの強みを実証する。

In Multi-Agent Reinforcement Learning (MARL), specialized channels are often introduced that allow agents to communicate directly with one another. In this paper, we propose an alternative approach whereby agents communicate through an intelligent facilitator that learns to sift through and interpret signals provided by all agents to improve the agents' collective performance. To ensure that this facilitator does not become a centralized controller, agents are incentivized to reduce their dependence on the messages it conveys, and the messages can only influence the selection of a policy from a fixed set, not instantaneous actions given the policy. We demonstrate the strength of this architecture over existing baselines on several cooperative MARL environments.
翻訳日:2022-06-05 15:15:14 公開日:2022-05-25
# 生理学的に重要な血液凝固物のai支援マルチスケールモデリング

AI-aided multiscale modeling of physiologically-significant blood clots ( http://arxiv.org/abs/2205.14121v1 )

ライセンス: Link先を確認
Yicong Zhu, Changnian Han, Peng Zhang, Guojing Cong, James R.Kozloski, Chih-Chieh Yang, Leili Zhang and Yuefan Deng(参考訳) 我々はai支援マルチタイムステッピング(ai-mts)アルゴリズムとマルチスケールモデリングフレームワーク(ai-msm)を開発し,summitライクなスーパーコンピュータであるaimosに実装した。 ai-msmは、プレート内、プレート間、流体-プレート間相互作用を含むマルチフィジカルを1つのシステムに統合する最初の方法である。 粒径が粗い分子動力学の散逸する粒子動力学の下で、10200万個の粒子のうち70個の流れと180個の凝集血小板の大量血液凝固モデルをシミュレートした。 ai-mtsは、基礎となるダイナミクスの特徴的な時間スケールに合わせた時間ステップサイズを適応的に調整することで、シミュレーションの速度と精度を最適にバランスさせる。

We have developed an AI-aided multiple time stepping (AI-MTS) algorithm and multiscale modeling framework (AI-MSM) and implemented them on the Summit-like supercomputer, AIMOS. AI-MSM is the first of its kind to integrate multi-physics, including intra-platelet, inter-platelet, and fluid-platelet interactions, into one system. It has simulated a record-setting multiscale blood clotting model of 102 million particles, of which 70 flowing and 180 aggregating platelets, under dissipative particle dynamics to coarse-grained molecular dynamics. By adaptively adjusting timestep sizes to match the characteristic time scales of the underlying dynamics, AI-MTS optimally balances speeds and accuracies of the simulations.
翻訳日:2022-05-30 14:39:41 公開日:2022-05-25
# (参考訳) muNet: トレーニング済みのディープニューラルネットワークをスケーラブルな自動チューニングマルチタスクシステムに進化させる

muNet: Evolving Pretrained Deep Neural Networks into Scalable Auto-tuning Multitask Systems ( http://arxiv.org/abs/2205.10937v2 )

ライセンス: CC BY 4.0
Andrea Gesmundo and Jeff Dean(参考訳) 今日の機械学習のほとんどの用途は、特定のタスクのスクラッチからモデルをトレーニングすることや、関連するタスクで事前訓練されたモデルから始め、ダウンストリームタスクで微調整することを含む。 どちらのアプローチも、異なるタスク間の限られた知識の伝達、個人タスクへの人間主導のカスタマイズ、特にランダムに初期化されたモデルから始める場合の高い計算コストを提供する。 本稿では、事前訓練されたディープニューラルネットワークの層をビルディングブロックとして利用し、任意のタスクを共同で解決できるMLシステムを構築する方法を提案する。 得られたシステムはクロスタスクの知識伝達を利用でき、破滅的な忘れ、勾配の干渉、負の伝達といったマルチタスクアプローチの共通の欠点に免疫を持つ。 我々は、各タスクに関連する事前知識を共同で選択し、モデルパラメータのサブセットを選択してトレーニングし、ハイパーパラメータを動的に自動調整するように設計された進化的アプローチを定義する。 さらに、一般的な微調整技術に勝る品質/サイズトレードオフを達成するために、新たなスケール制御手法が採用されている。 10種類の画像分類タスクのベンチマークの標準的な微調整と比較して、提案モデルは平均精度を2.39%改善し、タスク毎のパラメータを47%削減した。

Most uses of machine learning today involve training a model from scratch for a particular task, or sometimes starting with a model pretrained on a related task and then fine-tuning on a downstream task. Both approaches offer limited knowledge transfer between different tasks, time-consuming human-driven customization to individual tasks and high computational costs especially when starting from randomly initialized models. We propose a method that uses the layers of a pretrained deep neural network as building blocks to construct an ML system that can jointly solve an arbitrary number of tasks. The resulting system can leverage cross tasks knowledge transfer, while being immune from common drawbacks of multitask approaches such as catastrophic forgetting, gradients interference and negative transfer. We define an evolutionary approach designed to jointly select the prior knowledge relevant for each task, choose the subset of the model parameters to train and dynamically auto-tune its hyperparameters. Furthermore, a novel scale control method is employed to achieve quality/size trade-offs that outperform common fine-tuning techniques. Compared with standard fine-tuning on a benchmark of 10 diverse image classification tasks, the proposed model improves the average accuracy by 2.39% while using 47% less parameters per task.
翻訳日:2022-05-29 17:26:29 公開日:2022-05-25
# (参考訳) 公正なレコメンダシステムに関する研究

A Survey of Research on Fair Recommender Systems ( http://arxiv.org/abs/2205.11127v2 )

ライセンス: CC BY 4.0
Yashar Deldjoo, Dietmar Jannach, Alejandro Bellogin, Alessandro Difonzo, Dario Zanzonelli(参考訳) リコメンダーシステムは、オンラインで見る情報、例えばソーシャルメディアに強く影響を与え、それによって私たちの信念、決定、行動に影響を与える。 同時に、これらのシステムは異なる利害関係者にとって実質的なビジネス価値を生み出すことができる。 このようなAIベースのシステムが個人、組織、社会に与える影響が増加する中、公平性に関する疑問が近年注目を集めている。 しかし、レコメンデーションシステムにおける公正性の研究はまだ発展途上である。 本研究は,近年,この地域で展開された公平性の基本概念と概念を初めて概観する。 その後, 一般研究方法論, 公平度指標, アルゴリズム的アプローチといった観点から, この分野の研究が現在どのように運用されているかの調査を行う。 全体として、最近の研究の分析は、ある研究のギャップを示している。 特に、計算機科学における多くの研究において、非常に抽象的な問題操作が一般的であり、与えられたアプリケーションのコンテキストにおける公正な勧告を表すものの基本的かつ重要な問題を回避することができる。

Recommender systems can strongly influence which information we see online, e.g, on social media, and thus impact our beliefs, decisions, and actions. At the same time, these systems can create substantial business value for different stakeholders. Given the growing potential impact of such AI-based systems on individuals, organizations, and society, questions of fairness have gained increased attention in recent years. However, research on fairness in recommender systems is still a developing area. In this survey, we first review the fundamental concepts and notions of fairness that were put forward in the area in the recent past. Afterward, we provide a survey of how research in this area is currently operationalized, for example, in terms of the general research methodology, fairness metrics, and algorithmic approaches. Overall, our analysis of recent works points to certain research gaps. In particular, we find that in many research works in computer science very abstract problem operationalizations are prevalent, which circumvent the fundamental and important question of what represents a fair recommendation in the context of a given application.
翻訳日:2022-05-29 11:40:41 公開日:2022-05-25
# (参考訳) CBSにおける重み付きコスト・ツー・ゴーヒューリスティックの効果的導入

Effectively Incorporating Weighted Cost-to-go Heuristic in Suboptimal CBS ( http://arxiv.org/abs/2205.11624v2 )

ライセンス: CC BY 4.0
Rishi Veerapaneni, Tushar Kusnur, Maxim Likhachev(参考訳) conflict-based search (cbs) は、低レベル単一エージェントプランナーと高レベル制約木を用いて競合を解決する、一般的なマルチエージェントパス探索 (mapf) ソルバである。 現代のmapfソルバの大部分は、低レベルプランナーを変更する方法が少なく、様々な戦略によってこの木のサイズを小さくすることでcbsを改善することに焦点を当てている。 既存のcbsメソッドの低レベルプランナーは、非重み付きコスト対ゴーヒューリスティックを使用しており、cbsサブオプティカルな方法も高レベル検索にコンフリクトヒューリスティックを用いている。 一般的な信念とは対照的に、コスト・ツー・ゴ・ゴ・ヒューリスティックは紛争ヒューリスティックと共に特定の方法で重み付けすることで、より効果的に利用できることが示される。 2つのバリエーションを導入し、この変更が特定のシナリオで2-100倍のスピードアップにつながることを示す。 さらに,我々の知識を最大限に活用するために,優先計画と有界準最適CBSの第一理論関係を示し,本手法が自然な一般化であることを示す。

Conflict-Based Search (CBS) is a popular multi-agent path finding (MAPF) solver that employs a low-level single agent planner and a high-level constraint tree to resolve conflicts. The vast majority of modern MAPF solvers focus on improving CBS by reducing the size of this tree through various strategies with few methods modifying the low level planner. All low level planners in existing CBS methods use an unweighted cost-to-go heuristic, with suboptimal CBS methods also using a conflict heuristic to help the high level search. Contrary to prevailing beliefs, we show that the cost-to-go heuristic can be used significantly more effectively by weighting it in a specific manner alongside the conflict heuristic. We introduce two variants of doing so and demonstrate that this change can lead to 2-100x speedups in certain scenarios. Additionally, to the best of our knowledge, we show the first theoretical relation of prioritized planning and bounded suboptimal CBS and demonstrate that our methods are their natural generalization.
翻訳日:2022-05-29 08:02:20 公開日:2022-05-25
# (参考訳) SepIt: 単一チャンネル音声分離境界へのアプローチ

SepIt: Approaching a Single Channel Speech Separation Bound ( http://arxiv.org/abs/2205.11801v2 )

ライセンス: CC BY 4.0
Shahar Lutati, Eliya Nachmani, Lior Wolf(参考訳) 本稿では,音声の短いセグメントの性質に関する仮定に基づく,単一チャネル音声分離タスクの上限を提案する。 このバウンドを用いることで,最近の手法が少数の話者に対して大きな進歩を遂げた一方で,5人と10人の話者には改善の余地があることが分かる。 次に,異なる話者の推定を反復的に改善する深層ニューラルネットワークsepitを導入する。 テスト時に、SpeItは、我々の分析から生じる相互情報基準に基づいて、テストサンプル毎のイテレーション数が異なる。 広範な実験において、sepitは2, 3, 5, 10人の話者に対して最先端のニューラルネットワークを上回る。

We present an upper bound for the Single Channel Speech Separation task, which is based on an assumption regarding the nature of short segments of speech. Using the bound, we are able to show that while the recent methods have made significant progress for a few speakers, there is room for improvement for five and ten speakers. We then introduce a Deep neural network, SepIt, that iteratively improves the different speakers' estimation. At test time, SpeIt has a varying number of iterations per test sample, based on a mutual information criterion that arises from our analysis. In an extensive set of experiments, SepIt outperforms the state-of-the-art neural networks for 2, 3, 5, and 10 speakers.
翻訳日:2022-05-29 05:05:47 公開日:2022-05-25
# (参考訳) 変分多スケール減数次モデリングのための物理誘導機械学習

Physics Guided Machine Learning for Variational Multiscale Reduced Order Modeling ( http://arxiv.org/abs/2205.12419v1 )

ライセンス: CC BY 4.0
Shady E. Ahmed, Omer San, Adil Rasheed, Traian Iliescu, Alessandro Veneziani(参考訳) 本稿では,変分マルチスケール(VMS)フレームワークと利用可能なデータを活用して,最小の計算コストで低次モデル(ROM)の精度を劇的に向上させる新しい物理誘導機械学習(PGML)パラダイムを提案する。 ROM基底の階層構造とVMSフレームワークは、解決され未解決のROM空間スケールの自然な分離を可能にする。 現代的なPGMLアルゴリズムは、解決された、未解決のROMスケール間の相互作用のための新しいモデルを構築するために使用される。 具体的には、新しいフレームワークは、VMSフレームワークの真の相互作用項に最も近いROM演算子を構築する。 最後に、機械学習を用いて投影誤差を低減し、rom精度をさらに向上させる。 二次元渦輸送問題に対する数値実験により,新しいPGML-VMS-ROMパラダイムは,現在のROMの計算コストを低く抑えつつ,ROMの精度を大幅に向上させることを示した。

We propose a new physics guided machine learning (PGML) paradigm that leverages the variational multiscale (VMS) framework and available data to dramatically increase the accuracy of reduced order models (ROMs) at a modest computational cost. The hierarchical structure of the ROM basis and the VMS framework enable a natural separation of the resolved and unresolved ROM spatial scales. Modern PGML algorithms are used to construct novel models for the interaction among the resolved and unresolved ROM scales. Specifically, the new framework builds ROM operators that are closest to the true interaction terms in the VMS framework. Finally, machine learning is used to reduce the projection error and further increase the ROM accuracy. Our numerical experiments for a two-dimensional vorticity transport problem show that the novel PGML-VMS-ROM paradigm maintains the low computational cost of current ROMs, while significantly increasing the ROM accuracy.
翻訳日:2022-05-28 23:15:17 公開日:2022-05-25
# (参考訳) 教示理解のための教示マニュアルからの学習行動条件

Learning Action Conditions from Instructional Manuals for Instruction Understanding ( http://arxiv.org/abs/2205.12420v1 )

ライセンス: CC BY 4.0
Te-Lin Wu, Caiqi Zhang, Qingyuan Hu, Alex Spangher, Nanyun Peng(参考訳) アクションの事前条件と事後条件を推測する能力は、複雑な命令を解釈するのに不可欠であり、自律的な命令誘導エージェントや人間の物理的タスクの実行を支援する補助AIなどのアプリケーションに必須である。 本研究では,行動条件推論と呼ばれるタスクを提案し,命令マニュアルにおける行動の前提条件と後条件の高品質な注釈付きデータセットを収集する。 本稿では,オンライン指導マニュアルから大規模トレーニングインスタンスを自動的に構築し,人間に注釈付きかつ検証されたデータセットをキュレーションするための弱い教師付きアプローチを提案する。 我々は,コンテキスト化とグローバル化の情報活用の2つのモデルと,弱い監督を構築するためのヒューリスティックの様々な組み合わせをデザインする。 実験の結果,命令コンテキスト全体を考慮した場合,20%以上のf1-score改善と,提案するヒューリスティックスによる6%以上のf1-score改善が得られた。

The ability to infer pre- and postconditions of an action is vital for comprehending complex instructions, and is essential for applications such as autonomous instruction-guided agents and assistive AI that supports humans to perform physical tasks. In this work, we propose a task dubbed action condition inference, and collecting a high-quality, human annotated dataset of preconditions and postconditions of actions in instructional manuals. We propose a weakly supervised approach to automatically construct large-scale training instances from online instructional manuals, and curate a densely human-annotated and validated dataset to study how well the current NLP models can infer action-condition dependencies in the instruction texts. We design two types of models differ by whether contextualized and global information is leveraged, as well as various combinations of heuristics to construct the weak supervisions. Our experimental results show a >20% F1-score improvement with considering the entire instruction contexts and a >6% F1-score benefit with the proposed heuristics.
翻訳日:2022-05-28 22:46:59 公開日:2022-05-25
# (参考訳) 自然言語を先取りした例によるアクティブプログラミング

Active Programming by Example with a Natural Language Prior ( http://arxiv.org/abs/2205.12422v1 )

ライセンス: CC BY 4.0
Ruiqi Zhong, Charlie Snell, Dan Klein, Jason Eisner(参考訳) 我々は、非プログラマがSQLプログラムのような実行可能な意味表現で自然言語の発話を間接的に注釈付けできる新しいフレームワークAPELを紹介する。 自然言語の発話に基づいて、まずシードセマンティックパーサを実行し、候補プログラムのリストよりも先に生成する。 どちらの候補が正しいかに関する情報を得るため、より可能性の高いプログラムが異なる出力を生成するであろう入力を合成し、その出力が発話に適した注釈器に問い合わせる。 したがって、アノテータはプログラムを直接検査する必要はない。 さらに,アノテータに必要な労力を削減するため,情報利得の高い単純な入力データベースを合成することを目指している。 注記エラーを処理するための人間の注釈子とベイズ推論では、codexのtop-1パフォーマンス(59%)を上回り、平均9レコードの2つのデータベースで各発話に対する回答を引用することで、オリジナルのエキスパート注釈子(75%)と同じ精度を達成する。 対照的に、SPIDERが提供する元の30Kレコードデータベースの出力を要求できない。

We introduce APEL, a new framework that enables non-programmers to indirectly annotate natural language utterances with executable meaning representations, such as SQL programs. Based on a natural language utterance, we first run a seed semantic parser to generate a prior over a list of candidate programs. To obtain information about which candidate is correct, we synthesize an input on which the more likely programs tend to produce different outputs, and ask an annotator which output is appropriate for the utterance. Hence, the annotator does not have to directly inspect the programs. To further reduce effort required from annotators, we aim to synthesize simple input databases that nonetheless have high information gain. With human annotators and Bayesian inference to handle annotation errors, we outperform Codex's top-1 performance (59%) and achieve the same accuracy as the original expert annotators (75%), by soliciting answers for each utterance on only 2 databases with an average of 9 records each. In contrast, it would be impractical to solicit outputs on the original 30K-record databases provided by SPIDER
翻訳日:2022-05-28 22:25:46 公開日:2022-05-25
# (参考訳) 心臓磁気共鳴画像における先行解剖知識と自己教師付きコントラスト学習の相互作用

Interaction of a priori Anatomic Knowledge with Self-Supervised Contrastive Learning in Cardiac Magnetic Resonance Imaging ( http://arxiv.org/abs/2205.12429v1 )

ライセンス: CC BY 4.0
Makiya Nakashima, Inyeop Jang, Ramesh Basnet, Mitchel Benovoy, W.H. Wilson Tang, Christopher Nguyen, Deborah Kwon, Tae Hyun Hwang, David Chen(参考訳) 心臓磁気共鳴画像(CMR)の深層学習モデルを訓練することは、少数の専門家が作成したラベルとデータソース固有の複雑さのために困難である。 自己教師付きコントラスト学習(SSCL)は、最近、いくつかの医療画像タスクのパフォーマンスを高めることが示されている。 しかし、事前訓練された表現が、周囲の急激な組織と比較して関心の一次器官をどの程度反映しているかは明らかでない。 本研究では,解剖学の事前知識をSSCL訓練パラダイムに組み込むための最適手法を評価する。 具体的には, セグメンテーションネットワークを用いてcmr画像中の心臓を明示的に局所化し, ssclを複数の診断タスクで事前訓練した。 解剖学の事前知識を用いることで,下流診断性能を大幅に向上できることがわかった。 さらに、ドメイン内データによるSSCL事前トレーニングは、エンド・ツー・エンドのトレーニングやImageNet事前トレーニングネットワークと比較して、ダウンストリームのパフォーマンスと人間的なサリエンシを改善した。 しかし、事前学習に解剖学的知識を導入することは、一般的に大きな影響を与えない。

Training deep learning models on cardiac magnetic resonance imaging (CMR) can be a challenge due to the small amount of expert generated labels and inherent complexity of data source. Self-supervised contrastive learning (SSCL) has recently been shown to boost performance in several medical imaging tasks. However, it is unclear how much the pre-trained representation reflects the primary organ of interest compared to spurious surrounding tissue. In this work, we evaluate the optimal method of incorporating prior knowledge of anatomy into a SSCL training paradigm. Specifically, we evaluate using a segmentation network to explicitly local the heart in CMR images, followed by SSCL pretraining in multiple diagnostic tasks. We find that using a priori knowledge of anatomy can greatly improve the downstream diagnostic performance. Furthermore, SSCL pre-training with in-domain data generally improved downstream performance and more human-like saliency compared to end-to-end training and ImageNet pre-trained networks. However, introducing anatomic knowledge to pre-training generally does not have significant impact.
翻訳日:2022-05-28 21:54:58 公開日:2022-05-25
# (参考訳) オールインクルーシブスマートフォンを用いた皮膚癌診断

Skin Cancer Diagnostics with an All-Inclusive Smartphone Application ( http://arxiv.org/abs/2205.12438v1 )

ライセンス: CC BY 4.0
Upender Kalwa, Christopher Legner, Taejoon Kong, Santosh Pandey(参考訳) 異なる種類の皮膚がんのうち、メラノーマは最も死亡率が高く、進行段階において治療が困難であると考えられている。 早期メラノーマの検出は死亡率の低下につながる可能性がある。 皮膚科医の早期診断を支援するためにデスクトップベースのコンピュータ支援システムを開発した。 しかし, 癌性皮膚病変のリスクを評価できる携帯型メラノーマ診断システムの開発には大きな関心がある。 本稿では,皮膚病変の非対称性,境界不規則性,色変化,直径(abcd)特徴を抽出するために,画像キャプチャ機能と前処理とセグメンテーションを組み合わせたスマートフォンアプリケーションを提案する。 特徴集合を用いて、サポートベクターマシン分類器によって悪性度を分類する。 個別のデータ処理段階において適応アルゴリズムを用いることにより,メラノーマ症例と良性症例の識別において,計算量的に軽量でユーザフレンドリーで信頼性の高い手法を提案する。 皮膚病変の画像はスマートフォンのカメラで撮影するか、公共のデータセットからインポートされる。 画像キャプチャから分類までのプロセスは、取り外し可能な10xレンズを備えたAndroidスマートフォン上で実行され、1秒未満で画像を処理する。 総合的な性能指標は、合成過剰サンプリング技術(smote)(80%の感度、90%の特異性、88%の精度、0.85のアンダーカーブ(auc))と、smote(55%の感度、95%の特異性、90%の精度、0.55のauc)を含む200の画像の公開データベース上で評価される。 評価されたパフォーマンスメトリクスと計算時間は、以前の方法と同等かそれ以上である。 このオールインクルーシブなスマートフォンアプリケーションは、エンドユーザにとって簡単にダウンロードでき、ナビゲートしやすく、医療診断システムの最終的な民主化に欠かせないように設計されている。

Among the different types of skin cancer, melanoma is considered to be the deadliest and is difficult to treat at advanced stages. Detection of melanoma at earlier stages can lead to reduced mortality rates. Desktop-based computer-aided systems have been developed to assist dermatologists with early diagnosis. However, there is significant interest in developing portable, at-home melanoma diagnostic systems which can assess the risk of cancerous skin lesions. Here, we present a smartphone application that combines image capture capabilities with preprocessing and segmentation to extract the Asymmetry, Border irregularity, Color variegation, and Diameter (ABCD) features of a skin lesion. Using the feature sets, classification of malignancy is achieved through support vector machine classifiers. By using adaptive algorithms in the individual data-processing stages, our approach is made computationally light, user friendly, and reliable in discriminating melanoma cases from benign ones. Images of skin lesions are either captured with the smartphone camera or imported from public datasets. The entire process from image capture to classification runs on an Android smartphone equipped with a detachable 10x lens, and processes an image in less than a second. The overall performance metrics are evaluated on a public database of 200 images with Synthetic Minority Over-sampling Technique (SMOTE) (80% sensitivity, 90% specificity, 88% accuracy, and 0.85 area under curve (AUC)) and without SMOTE (55% sensitivity, 95% specificity, 90% accuracy, and 0.75 AUC). The evaluated performance metrics and computation times are comparable or better than previous methods. This all-inclusive smartphone application is designed to be easy-to-download and easy-to-navigate for the end user, which is imperative for the eventual democratization of such medical diagnostic systems.
翻訳日:2022-05-28 21:44:06 公開日:2022-05-25
# (参考訳) リアプノフ関数による近似アルゴリズムの設計と解析:-部分モジュラー最大化への応用

Lyapunov function approach for approximation algorithm design and analysis: with applications in submodular maximization ( http://arxiv.org/abs/2205.12442v1 )

ライセンス: CC BY 4.0
Donglei Du(参考訳) リアプノフ関数を用いた近似アルゴリズム設計と解析のための二相系統的枠組みを提案する。 第1フェーズは、証明可能な近似比を持つ連続時間アルゴリズムを設計するためのガイドラインとしてリアプノフ関数を使用する。 2番目のフェーズでは、連続時間アルゴリズムを同じ近似比と証明可能な時間複雑性を持つ離散時間アルゴリズムに変換する。 Lyapunov関数のアプローチの直接的な利点は以下のとおりである。 (i)既存の多くのアルゴリズムを統一すること。 (ii)新しいアルゴリズムを設計・分析するためのガイドラインの提供 (iii) 既存のアルゴリズムを改善する新しい視点を提供する。 フレームワークを例示するために、様々な部分モジュラー最大化問題を例に挙げる。

We propose a two-phase systematical framework for approximation algorithm design and analysis via Lyapunov function. The first phase consists of using Lyapunov function as a guideline to design a continuous-time algorithm with provable approximation ratio. The second phase then converts the continuous-time algorithm to a discrete-time algorithm with the same approximation ratio and a provable time complexity. Some immediate benefits of the Lyapunov function approach include: (i) unifying many existing algorithms; (ii) providing a guideline to design and analyze new algorithms; and (iii) offer new perspectives to potentially improve existing algorithms. We use various submodular maximization problems as running examples to illustrate our framework.
翻訳日:2022-05-28 21:11:43 公開日:2022-05-25
# (参考訳) FLEURS:音声の普遍表現の少ない学習評価

FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech ( http://arxiv.org/abs/2205.12446v1 )

ライセンス: CC BY 4.0
Alexis Conneau, Min Ma, Simran Khanuja, Yu Zhang, Vera Axelrod, Siddharth Dalmia, Jason Riesa, Clara Rivera, Ankur Bapna(参考訳) FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech benchmark)を紹介する。 FLEURSは、機械翻訳FLoRes-101ベンチマーク上に構築された102言語におけるn-way並列音声データセットである。 FLEURSは、自動音声認識(ASR)、音声言語識別(Speech LangID)、翻訳(Translation)、検索(Retrieval)など、さまざまな音声タスクに使用できる。 本稿では,mSLAMのような多言語事前学習モデルに基づくタスクのベースラインを提供する。 FLEURSの目標は、より多くの言語で音声技術を有効にし、低リソース音声理解の研究を促進することである。

We introduce FLEURS, the Few-shot Learning Evaluation of Universal Representations of Speech benchmark. FLEURS is an n-way parallel speech dataset in 102 languages built on top of the machine translation FLoRes-101 benchmark, with approximately 12 hours of speech supervision per language. FLEURS can be used for a variety of speech tasks, including Automatic Speech Recognition (ASR), Speech Language Identification (Speech LangID), Translation and Retrieval. In this paper, we provide baselines for the tasks based on multilingual pre-trained models like mSLAM. The goal of FLEURS is to enable speech technology in more languages and catalyze research in low-resource speech understanding.
翻訳日:2022-05-28 20:36:57 公開日:2022-05-25
# (参考訳) 連続状態空間上の力学系の輸送不等式、リアプノフ安定性およびサンプリング

Transportation-Inequalities, Lyapunov Stability and Sampling for Dynamical Systems on Continuous State Space ( http://arxiv.org/abs/2205.12448v1 )

ライセンス: CC BY 4.0
Muhammad Abdullah Naeem and Miroslav Pajic(参考訳) 非有界状態空間を持つ離散時間ランダム力学系の集中現象について検討した。 完全に機能的な解析フレームワークを用いて,動的システムの指数的濃度不等式を得るためのヒューリスティックなアプローチを開発した。 また, 指数型リアプノフ関数の存在は, 純粋決定論的条件に比較して, 安定度だけでなく, 定常分布からのサンプリングにおける指数集中不等式 (emph{transport-entropy inequality} (T-E)) も示している。 これらの結果は \emph{reinforcement learning} (rl) と \emph{controls} に有意な影響を与え、非有界可観測系においても指数的濃度不等式をもたらすが、ランダム力学系の可逆性や正確な知識(統計力学やマルコフ拡散過程における濃度不等式の中心での仮定)は仮定しない。

We study the concentration phenomenon for discrete-time random dynamical systems with an unbounded state space. We develop a heuristic approach towards obtaining exponential concentration inequalities for dynamical systems using an entirely functional analytic framework. We also show that existence of exponential-type Lyapunov function, compared to the purely deterministic setting, not only implies stability but also exponential concentration inequalities for sampling from the stationary distribution, via \emph{transport-entropy inequality} (T-E). These results have significant impact in \emph{reinforcement learning} (RL) and \emph{controls}, leading to exponential concentration inequalities even for unbounded observables, while neither assuming reversibility nor exact knowledge of random dynamical system (assumptions at heart of concentration inequalities in statistical mechanics and Markov diffusion processes).
翻訳日:2022-05-28 20:17:11 公開日:2022-05-25
# (参考訳) MAVIPER:多エージェント強化学習のための決定木ポリシーの学習

MAVIPER: Learning Decision Tree Policies for Interpretable Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2205.12449v1 )

ライセンス: CC BY 4.0
Stephanie Milani and Zhicheng Zhang and Nicholay Topin and Zheyuan Ryan Shi and Charles Kamhoua and Evangelos E. Papalexakis and Fei Fang(参考訳) マルチエージェント強化学習(marl:multi-agent reinforcement learning)における最近の多くのブレークスルーでは、ディープニューラルネットワークの使用が求められている。 一方、解釈可能なRLに関する既存の研究は、より解釈可能な決定木ベースのポリシーを抽出することを約束している。 このギャップを埋めるために、MARLで訓練されたニューラルネットワークから決定木ポリシーを抽出する解釈可能なMARLアルゴリズムの最初のセットを提案する。 最初のアルゴリズムであるIVIPERは、シングルエージェント解釈可能なRLの最近の方法であるVIPERをマルチエージェント設定に拡張する。 IVIPERが各エージェントに対して高品質な決定木ポリシーを学習できることを実証する。 エージェント間のコーディネーションをよりよく把握するために,新たな集中型決定木訓練アルゴリズムmaviperを提案する。 MAVIPERは、予測された木を用いて他のエージェントの行動を予測することによって、各エージェントのツリーを共同で成長させ、リサンプリングを使用して、他のエージェントとの相互作用に重要な状態に集中する。 両アルゴリズムは一般にベースラインを上回り,MAVIPER学習エージェントは3つの異なるマルチエージェント粒子世界環境において,IVIPER学習エージェントよりも優れた協調性能が得られることを示す。

Many recent breakthroughs in multi-agent reinforcement learning (MARL) require the use of deep neural networks, which are challenging for human experts to interpret and understand. On the other hand, existing work on interpretable RL has shown promise in extracting more interpretable decision tree-based policies, but only in the single-agent setting. To fill this gap, we propose the first set of interpretable MARL algorithms that extract decision-tree policies from neural networks trained with MARL. The first algorithm, IVIPER, extends VIPER, a recent method for single-agent interpretable RL, to the multi-agent setting. We demonstrate that IVIPER can learn high-quality decision-tree policies for each agent. To better capture coordination between agents, we propose a novel centralized decision-tree training algorithm, MAVIPER. MAVIPER jointly grows the trees of each agent by predicting the behavior of the other agents using their anticipated trees, and uses resampling to focus on states that are critical for its interactions with other agents. We show that both algorithms generally outperform the baselines and that MAVIPER-trained agents achieve better-coordinated performance than IVIPER-trained agents on three different multi-agent particle-world environments.
翻訳日:2022-05-28 19:57:50 公開日:2022-05-25
# (参考訳) 顔の漫画化のためのクロスドメインスタイル混合

Cross-Domain Style Mixing for Face Cartoonization ( http://arxiv.org/abs/2205.12450v1 )

ライセンス: CC BY-SA 4.0
Seungkwon Kim, Chaeheon Gwak, Dohyun Kim, Kwangho Lee, Jihye Back, Namhyuk Ahn, Daesik Kim(参考訳) 漫画分野は最近人気が高まっている。 これまでの研究では、マンガドメインに高品質なポートレートスタイライゼーションを試みているが、多くのトレーニング画像や抽象的なマンガ顔のサポートの欠如といった重要な制約に適切に対処していないため、これは大きな課題となっている。 近年では、限られた訓練画像のみを必要とするスタイリングにレイヤースワップ法が用いられているが、残りの問題を継承しているため、その使用例は狭くなっている。 本稿では,2つの異なる領域の潜在コードを結合したクロスドメイン混合と呼ばれる新しい手法を提案する。 本手法は,多数の訓練画像を用いることなく,単一の生成器のみを用いて,様々な顔抽象化レベルで顔から複数のマンガキャラクタに効果的にスタイライズする。

Cartoon domain has recently gained increasing popularity. Previous studies have attempted quality portrait stylization into the cartoon domain; however, this poses a great challenge since they have not properly addressed the critical constraints, such as requiring a large number of training images or the lack of support for abstract cartoon faces. Recently, a layer swapping method has been used for stylization requiring only a limited number of training images; however, its use cases are still narrow as it inherits the remaining issues. In this paper, we propose a novel method called Cross-domain Style mixing, which combines two latent codes from two different domains. Our method effectively stylizes faces into multiple cartoon characters at various face abstraction levels using only a single generator without even using a large number of training images.
翻訳日:2022-05-28 19:27:00 公開日:2022-05-25
# (参考訳) スパース*BERT:スパースモデルはロバストである

Sparse*BERT: Sparse Models are Robust ( http://arxiv.org/abs/2205.12452v1 )

ライセンス: CC BY 4.0
Daniel Campos, Alexandre Marques, Tuan Nguyen, Mark Kurtz, and ChengXiang Zhai(参考訳) 大規模言語モデルは、現代の自然言語処理(NLP)システムが構築するコアアーキテクチャとなっている。 これらのモデルは、タスクやドメイン間で印象的な精度と堅牢性を提供することができるが、高い計算オーバーヘッドによって推論が困難でコストがかかる。 これらのモデルの使用を安価にするために、最近の研究は、推論速度を改善し、サイズを小さくする方法として、構造化および非構造化プルーニング、量子化、蒸留の活用を検討してきた。 本稿では,段階的非構造的マグニチュードプルーニングによるモデルプルーニングがドメインとタスク間の伝達に与える影響について検討する。 実験により,汎用ドメインマスク型言語モデルを用いた事前学習中のモデルが,超パラメータ探索や専門的なアプローチを伴わずに,新たなドメインやタスクに移行できることが確認された。 Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。 さらに,SparseBioBERTはBioBERTの品質と10倍のパラメータで一致できることを示した。

Large Language Models have become the core architecture upon which most modern natural language processing (NLP) systems build. These models can consistently deliver impressive accuracy and robustness across tasks and domains, but their high computational overhead can make inference difficult and expensive. To make the usage of these models less costly recent work has explored leveraging structured and unstructured pruning, quantization, and distillation as ways to improve inference speed and decrease size. This paper studies how models pruned using Gradual Unstructured Magnitude Pruning can transfer between domains and tasks. Our experimentation shows that models that are pruned during pretraining using general domain masked language models can transfer to novel domains and tasks without extensive hyperparameter exploration or specialized approaches. We demonstrate that our general sparse model Sparse*BERT can become SparseBioBERT simply by pretraining the compressed architecture on unstructured biomedical text. Moreover, we show that SparseBioBERT can match the quality of BioBERT with only 10\% of the parameters.
翻訳日:2022-05-28 19:16:27 公開日:2022-05-25
# (参考訳) 行き先を知る - パラメータ効率の良い微調整のためのメタラーニング

Know Where You're Going: Meta-Learning for Parameter-Efficient Fine-tuning ( http://arxiv.org/abs/2205.12453v1 )

ライセンス: CC BY 4.0
Mozhdeh Gheini, Xuezhe Ma, Jonathan May(参考訳) 軽量な微調整手法と呼ばれる最近の技術群は、事前訓練された言語モデルのパラメータを凍結させながら、少数の追加パラメータのみを更新することで、パラメータ効率の学習を容易にする。 効果的な手法であることが証明されているが、下流の微調整アプローチの知識が事前学習の段階にどのように影響するかについて、既存の研究はない。 本研究では,微調整手法の究極の選択を考慮に入れれば,パラメータ効率の良い微調整性能が向上することを示す。 我々はMAMLを用いた最適化に基づくメタラーニングに頼り、パラメータ効率の良い微調整のための事前訓練モデルを作成し、言語間NER微調整において最大1.7ポイントのゲインを得る。 当社のアブレーション設定と分析により、MAMLで導入した微調整が、達成された利益に不可欠であることがさらに明らかになりました。

A recent family of techniques, dubbed as lightweight fine-tuning methods, facilitates parameter-efficient transfer learning by updating only a small set of additional parameters while keeping the parameters of the pretrained language model frozen. While proven to be an effective method, there are no existing studies on if and how such knowledge of the downstream fine-tuning approach should affect the pretraining stage. In this work, we show that taking the ultimate choice of fine-tuning method into consideration boosts the performance of parameter-efficient fine-tuning. By relying on optimization-based meta-learning using MAML with certain modifications for our distinct purpose, we prime the pretrained model specifically for parameter-efficient fine-tuning, resulting in gains of up to 1.7 points on cross-lingual NER fine-tuning. Our ablation settings and analyses further reveal that the tweaks we introduce in MAML are crucial for the attained gains.
翻訳日:2022-05-28 19:02:48 公開日:2022-05-25
# (参考訳) 多言語オープンドメイン質問応答における情報整合性の検討

Investigating Information Inconsistency in Multilingual Open-Domain Question Answering ( http://arxiv.org/abs/2205.12456v1 )

ライセンス: CC BY 4.0
Shramay Palta, Haozhe An, Yifan Yang, Shuaiyi Huang, Maharshi Gor(参考訳) RetrievalベースのオープンドメインQAシステムは、検索したドキュメントと、検索したドキュメントに対する回答スパンの選択を使用して、ベスト・アンサー候補を見つける。 我々は,異なる言語で書かれた文書に関して,多言語質問回答(QA)システムでは情報の不整合が生じやすいと仮定する。 情報の偏りや文化的影響が与える影響を理解するために,多言語オープンドメイン質問応答モデルの動作を検索バイアスに着目して分析する。 我々は、TyDi QAとXOR-TyDi QAという2つのマルチリンガルQAデータセットにおいて、異なるレトリバーモデルが同じ質問を異なる言語で示すかどうかを分析する。 言語間での文書の内容の違いは、文化的多様性や社会的バイアスを反映していると推測する。

Retrieval based open-domain QA systems use retrieved documents and answer-span selection over retrieved documents to find best-answer candidates. We hypothesize that multilingual Question Answering (QA) systems are prone to information inconsistency when it comes to documents written in different languages, because these documents tend to provide a model with varying information about the same topic. To understand the effects of the biased availability of information and cultural influence, we analyze the behavior of multilingual open-domain question answering models with a focus on retrieval bias. We analyze if different retriever models present different passages given the same question in different languages on TyDi QA and XOR-TyDi QA, two multilingualQA datasets. We speculate that the content differences in documents across languages might reflect cultural divergences and/or social biases.
翻訳日:2022-05-28 18:48:47 公開日:2022-05-25
# (参考訳) 雑音傾斜モジュールを有するcnnとハイパースペクトル画像分類のための雑音枠組み

A CNN with Noise Inclined Module and Denoise Framework for Hyperspectral Image Classification ( http://arxiv.org/abs/2205.12459v1 )

ライセンス: CC0 1.0
Zhiqiang Gong and Ping Zhong and Jiahao Qi and Panhe Hu(参考訳) ディープニューラルネットワークはハイパースペクトル画像分類に成功している。 しかし、先行研究の多くは、物理ノイズ発生のような超スペクトル像の本質的な構造を無視しながら、一般的な深層構造を採用する。 これにより、深層モデルでは差別的な特徴が生成できず、優れた分類性能が得られる。 このような本質的な情報を活用するために,高スペクトル画像分類のための雑音傾斜モジュールと難読化フレームワークを備えた新しいディープラーニングフレームワークを開発した。 まず,高スペクトル画像のスペクトルシグネチャを物理ノイズモデルでモデル化し,各クラスの高階内分散と画像内の異なるクラス間の大きな重なり合いを記述する。 次に、各オブジェクト内の物理ノイズをキャプチャするためにノイズ傾斜モジュールを開発し、そのノイズをオブジェクトから取り除くためにノイズフレームを続行する。 最後に,雑音傾斜モジュール付きCNNとディネーズフレームワークを開発し,識別特性を求め,高スペクトル画像の優れた分類性能を提供する。 2つの実世界のデータセットを用いて実験を行い,提案手法の有効性を示す実験結果を得た。 提案手法と他の比較手法の実装はhttps://github.com/shendu-sw/noise-physical-frameworkでアクセス可能である。

Deep Neural Networks have been successfully applied in hyperspectral image classification. However, most of prior works adopt general deep architectures while ignore the intrinsic structure of the hyperspectral image, such as the physical noise generation. This would make these deep models unable to generate discriminative features and provide impressive classification performance. To leverage such intrinsic information, this work develops a novel deep learning framework with the noise inclined module and denoise framework for hyperspectral image classification. First, we model the spectral signature of hyperspectral image with the physical noise model to describe the high intraclass variance of each class and great overlapping between different classes in the image. Then, a noise inclined module is developed to capture the physical noise within each object and a denoise framework is then followed to remove such noise from the object. Finally, the CNN with noise inclined module and the denoise framework is developed to obtain discriminative features and provides good classification performance of hyperspectral image. Experiments are conducted over two commonly used real-world datasets and the experimental results show the effectiveness of the proposed method. The implementation of the proposed method and other compared methods could be accessed at https://github.com/shendu-sw/noise-physical-framework.
翻訳日:2022-05-28 18:12:57 公開日:2022-05-25
# (参考訳) R2D2: 置換検出付きロバストデータテキスト

R2D2: Robust Data-to-Text with Replacement Detection ( http://arxiv.org/abs/2205.12467v1 )

ライセンス: CC BY-SA 4.0
Linyong Nan, Lorenzo Jaime Yu Flores, Yilun Zhao, Yixin Liu, Luke Benson, Weijin Zou, Dragomir Radev(参考訳) 不誠実テキスト生成は、テキスト生成システムにおいて一般的な問題である。 Data-to-Text(D2T)システムの場合、生成されたテキストの事実性は現実世界のアプリケーションにとって特に重要である。 R2D2は、生成器と忠実判別器の両方を訓練することで、不誠実なデータ・テキスト生成に対処する訓練フレームワークである。 そこで本研究では,不適切な文をサンプリングする2つの方法を提案する。 我々は,D2Tシステムのエンティティ検索能力の貧弱さが不信感の主な原因であると主張し,既存の指標に加えて,D2T世代の有効性を評価するためのNERベースの指標も提案する。 実験結果から,R2D2 システムは不確実なテキスト生成を効果的に軽減し,FeTaQA,LogicNLG,ToTTo に対する新たな最先端結果が得られることが示唆された。

Unfaithful text generation is a common problem for text generation systems. In the case of Data-to-Text (D2T) systems, the factuality of the generated text is particularly crucial for any real-world applications. We introduce R2D2, a training framework that addresses unfaithful Data-to-Text generation by training a system both as a generator and a faithfulness discriminator with additional replacement detection and unlikelihood learning tasks. To facilitate such training, we propose two methods for sampling unfaithful sentences. We argue that the poor entity retrieval capability of D2T systems is one of the primary sources of unfaithfulness, so in addition to the existing metrics, we further propose NER-based metrics to evaluate the fidelity of D2T generations. Our experimental results show that R2D2 systems could effectively mitigate the unfaithful text generation, and they achieve new state-of-the-art results on FeTaQA, LogicNLG, and ToTTo, all with significant improvements.
翻訳日:2022-05-28 18:03:08 公開日:2022-05-25
# (参考訳) NLIにおける忠実な説明のための反事実の論理的満足度

Logical Satisfiability of Counterfactuals for Faithful Explanations in NLI ( http://arxiv.org/abs/2205.12469v1 )

ライセンス: CC BY 4.0
Suzanna Sia, Anton Belyy, Amjad Almahairi, Madian Khabsa, Luke Zettlemoyer, Lambert Mathias(参考訳) 信頼、解釈可能性、モデルの誤りの原因の診断など、多くの理由から説明の忠実さを評価することが望まれる。 nliタスクに着目した本研究では,まず,説明文で表現された論理述語に基づいて反事実仮説を生成し,その反事実に対するモデルの予測が表現された論理と一致するかどうかを評価する(すなわち,新しい公式が論理学的に満足できるものであれば)。 既存のアプローチとは対照的に、個別の検証モデルをトレーニングするための説明は必要ない。 まず, マイニングパラダイムを活用し, 反事実仮説の自動生成の有効性を検証した。 次に,提案手法は,人間モデル合意と新たな反事実入力に対する不一致を区別することを示す。 さらに、我々の計量が不信な説明に敏感であることを示すために感度分析を行う。

Evaluating an explanation's faithfulness is desired for many reasons such as trust, interpretability and diagnosing the sources of model's errors. In this work, which focuses on the NLI task, we introduce the methodology of Faithfulness-through-Counterfactuals, which first generates a counterfactual hypothesis based on the logical predicates expressed in the explanation, and then evaluates if the model's prediction on the counterfactual is consistent with that expressed logic (i.e. if the new formula is \textit{logically satisfiable}). In contrast to existing approaches, this does not require any explanations for training a separate verification model. We first validate the efficacy of automatic counterfactual hypothesis generation, leveraging on the few-shot priming paradigm. Next, we show that our proposed metric distinguishes between human-model agreement and disagreement on new counterfactual input. In addition, we conduct a sensitivity analysis to validate that our metric is sensitive to unfaithful explanations.
翻訳日:2022-05-28 17:43:31 公開日:2022-05-25
# (参考訳) 抽象テキスト要約における局所性活用

Leveraging Locality in Abstractive Text Summarization ( http://arxiv.org/abs/2205.12476v1 )

ライセンス: CC BY-SA 4.0
Yixin Liu, Ansong Ni, Linyong Nan, Budhaditya Deb, Chenguang Zhu, Ahmed H. Awadallah, Dragomir Radev(参考訳) 自然言語生成タスクにおけるニューラルアテンションモデルの成功にもかかわらず、入力長に関する自己アテンションモジュールの二次記憶複雑性は、長いテキスト要約における彼らの応用を妨げる。 より効率的なアテンションモジュールを設計する代わりに,入力全体をシーケンスとして扱うことでグローバルなコンテキストを維持するメモリ効率のアテンションモデルと比較して,制限されたコンテキストを持つモデルが競合性能を持つかどうかを調べることで,この問題に対処する。 本モデルは,エンコードとデコードの両方の段階で局所性の原理によってグループ化された入力の一部を含む個々のページに適用できる。 テキスト要約における3種類の地域を,文章から文書まで,様々なレベルで実証的に検討した。 実験結果から,本モデルは高効率アテンションモジュールを持つ強力なベースラインモデルと比較して性能が向上し,局所性を考慮したモデリング戦略のさらなる洞察が得られた。

Despite the successes of neural attention models for natural language generation tasks, the quadratic memory complexity of the self-attention module with respect to the input length hinders their applications in long text summarization. Instead of designing more efficient attention modules, we approach this problem by investigating if models with a restricted context can have competitive performance compared with the memory-efficient attention models that maintain a global context by treating the input as an entire sequence. Our model is applied to individual pages, which contain parts of inputs grouped by the principle of locality, during both encoding and decoding stages. We empirically investigated three kinds of localities in text summarization at different levels, ranging from sentences to documents. Our experimental results show that our model can have better performance compared with strong baseline models with efficient attention modules, and our analysis provides further insights of our locality-aware modeling strategy.
翻訳日:2022-05-28 17:20:15 公開日:2022-05-25
# (参考訳) GisPy: テキスト中のGist推論スコアを測定するツール

GisPy: A Tool for Measuring Gist Inference Score in Text ( http://arxiv.org/abs/2205.12484v1 )

ライセンス: CC BY 4.0
Pedram Hosseini and Christopher R. Wolfe and Mona Diab and David A. Broniatowski(参考訳) ファジィトレース理論 (ftt) のような意思決定理論は、決定を行う際に、個人はテキスト中のgistやボトムラインの意味に依存する傾向があることを示唆している。 本稿では,Python で Gist Inference Score (GIS) をテキストで測定するオープンソースツール GisPy の開発プロセスについて述べる。 The news and scientific text domain から得られた3つのベンチマークの文書上での GisPy の評価は、我々のツールが生成したスコアが、ハイジスト文書とハイジスト文書とを著しく区別していることを示す。 私たちのツールは、https://github.com/phosseini/gispyで利用可能です。

Decision making theories such as Fuzzy-Trace Theory (FTT) suggest that individuals tend to rely on gist, or bottom-line meaning, in the text when making decisions. In this work, we delineate the process of developing GisPy, an open-source tool in Python for measuring the Gist Inference Score (GIS) in text. Evaluation of GisPy on documents in three benchmarks from the news and scientific text domains demonstrates that scores generated by our tool significantly distinguish low vs. high gist documents. Our tool is publicly available to use at: https://github.com/phosseini/GisPy.
翻訳日:2022-05-28 17:02:13 公開日:2022-05-25
# (参考訳) Seq2seqモデルを用いた条件セット生成

Conditional set generation using Seq2seq models ( http://arxiv.org/abs/2205.12485v1 )

ライセンス: CC BY 4.0
Aman Madaan, Dheeraj Rajagopal, Niket Tandon, Yiming Yang, Antoine Bosselut(参考訳) 条件付きセット生成は、トークンの入力シーケンスからセットへのマッピングを学習する。 エンティティタイピングや対話感情タグ付けといったいくつかのnlpタスクは、セット生成の例である。 シークエンス・トゥ・シークエンス~(Seq2seq)モデルはモデル集合生成の一般的な選択であるが、集合を列として扱い、その重要な性質、すなわち順序不変性と濃度を十分に活用しない。 ラベル順序の組合せ空間上で情報的順序を効果的にサンプリングする新しいアルゴリズムを提案する。 さらに,セットサイズを第1要素として加え,seq2seqモデルで使用される自己回帰的因子分解を利用することにより,集合濃度と出力を共同でモデル化する。 本手法は,任意のSeq2seqモデルに順序不変性および濃度の信号を与えるモデル独立データ拡張手法である。 この新しい拡張データ~(追加アノテーションなしで)でSeq2seqモデルをトレーニングすると、BARTベース、T5-xxl、GPT-3のモデルにまたがる4つのベンチマークデータセットの平均相対的な改善率が20%になる。

Conditional set generation learns a mapping from an input sequence of tokens to a set. Several NLP tasks, such as entity typing and dialogue emotion tagging, are instances of set generation. Sequence-to-sequence~(Seq2seq) models are a popular choice to model set generation, but they treat a set as a sequence and do not fully leverage its key properties, namely order-invariance and cardinality. We propose a novel algorithm for effectively sampling informative orders over the combinatorial space of label orders. Further, we jointly model the set cardinality and output by adding the set size as the first element and taking advantage of the autoregressive factorization used by Seq2seq models. Our method is a model-independent data augmentation approach that endows any Seq2seq model with the signals of order-invariance and cardinality. Training a Seq2seq model on this new augmented data~(without any additional annotations) gets an average relative improvement of 20% for four benchmarks datasets across models spanning from BART-base, T5-xxl, and GPT-3.
翻訳日:2022-05-28 16:35:52 公開日:2022-05-25
# (参考訳) 勾配誘導による自己学習によるイベント抽出の改善

Improve Event Extraction via Self-Training with Gradient Guidance ( http://arxiv.org/abs/2205.12490v1 )

ライセンス: CC BY 4.0
Zhiyang Xu, Lifu Huang(参考訳) データ不足と不均衡は、イベント抽出(EE)の進行を妨げる主要な要因である。 In this work, we propose a self-training with gradient guidance (STGG) framework which consists of (1) a base event extraction model which is firstly trained on existing event annotations and then applied to large-scale unlabeled corpora to predict new event mentions, and (2) a scoring model that takes in each predicted event trigger and argument as well as their path in the Abstract Meaning Representation (AMR) graph to estimate a probability score indicating the correctness of the event prediction. 次に、新しい事象予測とその補正度スコアを擬似ラベル付き例として、その勾配の大きさと方向を補正度で導出しながら、基本事象抽出モデルを改善する。 ACE05-E、ACE05-E+、ERE-ENを含む3つのベンチマークデータセットの実験結果は、ベースイベント抽出モデルよりも最大1.9Fスコア改善されたイベント抽出タスクにおけるSTGGフレームワークの有効性を示す。 実験分析により,高品質なamrグラフアノテーションが利用できない場合でも,stggは任意の基本イベント抽出モデルに適用でき,広範なラベルなしデータを活用することで性能を向上させる汎用フレームワークであることが示された。

Data scarcity and imbalance have been the main factors that hinder the progress of event extraction (EE). In this work, we propose a self-training with gradient guidance (STGG) framework which consists of (1) a base event extraction model which is firstly trained on existing event annotations and then applied to large-scale unlabeled corpora to predict new event mentions, and (2) a scoring model that takes in each predicted event trigger and argument as well as their path in the Abstract Meaning Representation (AMR) graph to estimate a probability score indicating the correctness of the event prediction. The new event predictions along with their correctness scores are then used as pseudo labeled examples to improve the base event extraction model while the magnitude and direction of its gradients are guided by the correctness scores. Experimental results on three benchmark datasets, including ACE05-E, ACE05-E+ and ERE-EN, demonstrate the effectiveness of the STGG framework on event extraction task with up to 1.9 F-score improvement over the base event extraction models. Our experimental analysis further shows that STGG is a general framework as it can be applied to any base event extraction models and improve their performance by leveraging broad unlabeled data, even when the high-quality AMR graph annotations are not available.
翻訳日:2022-05-28 16:13:04 公開日:2022-05-25
# (参考訳) ダイアログが続く: 生成的自己学習によるビジュアルダイアログの改善

The Dialog Must Go On: Improving Visual Dialog via Generative Self-Training ( http://arxiv.org/abs/2205.12502v1 )

ライセンス: CC BY 4.0
Gi-Cheon Kang, Sungdong Kim, Jin-Hwa Kim, Donghyun Kwak, Byoung-Tak Zhang(参考訳) ヴィジュアルダイアログ(ヴィジュアルダイアログ)は、ダイアログ履歴をコンテキストとして、画像に基礎を置く一連の質問に答えるタスクである。 以前の作業では、教師付き学習または関連するビジョンと言語データセットの事前トレーニングを通じて、VisDialデータのみに基づくダイアログエージェントをトレーニングした。 本稿では,GST(Generative Self-Training)と呼ばれる,Web上の未表示画像を活用するための半教師付き学習手法を提案する。 具体的には、gstはまず分散検出によりドメイン内イメージを検索し、マルチモーダル条件付きテキスト生成により画像に関する合成ダイアログを生成する。 GSTは、合成データと元のVisDialデータにダイアログエージェントをトレーニングする。 その結果、GSTはトレーニングデータの量をVisDial(1.2Mから12.9M QAデータ)の桁に拡大する。 生成したダイアログの堅牢なトレーニングには、パープレキシティに基づくデータ選択とマルチモーダル整合正則化も提案する。 VisDial v1.0とv0.9データセットの評価は、GSTが両方のデータセットで新たな最先端結果を達成することを示している。 さらに、低データ体制(NDCGの9.35絶対点まで)における強い性能向上を観測する。

Visual dialog (VisDial) is a task of answering a sequence of questions grounded in an image, using the dialog history as context. Prior work has trained the dialog agents solely on VisDial data via supervised learning or leveraged pre-training on related vision-and-language datasets. This paper presents a semi-supervised learning approach for visually-grounded dialog, called Generative Self-Training (GST), to leverage unlabeled images on the Web. Specifically, GST first retrieves in-domain images through out-of-distribution detection and generates synthetic dialogs regarding the images via multimodal conditional text generation. GST then trains a dialog agent on the synthetic and the original VisDial data. As a result, GST scales the amount of training data up to an order of magnitude that of VisDial (1.2M to 12.9M QA data). For robust training of the generated dialogs, we also propose perplexity-based data selection and multimodal consistency regularization. Evaluation on VisDial v1.0 and v0.9 datasets shows that GST achieves new state-of-the-art results on both datasets. We further observe strong performance gains in the low-data regime (up to 9.35 absolute points on NDCG).
翻訳日:2022-05-28 15:52:31 公開日:2022-05-25
# (参考訳) NLP微調整法における記憶

Memorization in NLP Fine-tuning Methods ( http://arxiv.org/abs/2205.12506v1 )

ライセンス: CC BY 4.0
Fatemehsadat Mireshghallah, Archit Uniyal, Tianhao Wang, David Evans, Taylor Berg-Kirkpatrick(参考訳) 大規模言語モデルでは,トレーニングデータの記憶を通じて,プライバシのリスクを示すことが示されている。 しかし、微調整フェーズにはほとんど注意が払われておらず、異なる微調整手法(フルモデル、モデルヘッド、アダプタなど)が記憶リスクの観点からどのように比較されるかはよく分かっていない。 これは、"pre-train and fine-tune"パラダイムが普及するにつれて、懸念が高まっている。 本稿では,メンバシップ推論と抽出攻撃を用いた微調整手法の記憶を実験的に検討し,その攻撃感受性が極めて異なることを示す。 我々は,モデルの頭部の微調整が最も攻撃感受性が高いのに対し,小型のアダプタの微調整は既知の抽出攻撃に対する脆弱性が少ないことを観察する。

Large language models are shown to present privacy risks through memorization of training data, and several recent works have studied such risks for the pre-training phase. Little attention, however, has been given to the fine-tuning phase and it is not well understood how different fine-tuning methods (such as fine-tuning the full model, the model head, and adapter) compare in terms of memorization risk. This presents increasing concern as the "pre-train and fine-tune" paradigm proliferates. In this paper, we empirically study memorization of fine-tuning methods using membership inference and extraction attacks, and show that their susceptibility to attacks is very different. We observe that fine-tuning the head of the model has the highest susceptibility to attacks, whereas fine-tuning smaller adapters appears to be less vulnerable to known extraction attacks.
翻訳日:2022-05-28 15:30:58 公開日:2022-05-25
# (参考訳) 階層表現学習のための回転双曲ラップ正規分布

A Rotated Hyperbolic Wrapped Normal Distribution for Hierarchical Representation Learning ( http://arxiv.org/abs/2205.13371v1 )

ライセンス: CC BY 4.0
Seunghyuk Cho, Juyong Lee, Jaesik Park, Dongwoo Kim(参考訳) 回転型双曲型包括正規分布 (RoWN) は, 単純かつ効果的な双曲型包括正規分布 (HWN) の変化である。 HWNは確率的モデリングの領域をユークリッド空間から双曲空間へと拡張し、理論上は木を任意の低歪みで埋め込むことができる。 本研究では,確率モデルにおける分布の標準選択である対角HWNの幾何学的性質を解析する。 この分析は、分布がポインカーディスクモデルで同じノルムを持つ角距離を通して、同じ階層レベルでのデータポイントを表現するのに不適切であることを示している。 次にhwnの制限の存在を実証し、新しく提案された分散であるrownが、ノイズの多い合成バイナリツリー、wordnet、atari 2600のブレークアウトなど、さまざまな階層データセットの制限をいかに緩和できるかを示す。

We present a rotated hyperbolic wrapped normal distribution (RoWN), a simple yet effective alteration of a hyperbolic wrapped normal distribution (HWN). The HWN expands the domain of probabilistic modeling from Euclidean to hyperbolic space, where a tree can be embedded with arbitrary low distortion in theory. In this work, we analyze the geometric properties of the diagonal HWN, a standard choice of distribution in probabilistic modeling. The analysis shows that the distribution is inappropriate to represent the data points at the same hierarchy level through their angular distance with the same norm in the Poincar\'e disk model. We then empirically verify the presence of limitations of HWN, and show how RoWN, the newly proposed distribution, can alleviate the limitations on various hierarchical datasets, including noisy synthetic binary tree, WordNet, and Atari 2600 Breakout.
翻訳日:2022-05-28 15:18:41 公開日:2022-05-25
# (参考訳) 相互情報発散:マルチモーダル生成モデルのための統一計量

Mutual Information Divergence: A Unified Metric for Multimodal Generative Models ( http://arxiv.org/abs/2205.13445v1 )

ライセンス: CC BY 4.0
Jin-Hwa Kim, Yunji Kim, Jiyoung Lee, Kang Min Yoo, Sang-Woo Lee(参考訳) 近年,機械インテリジェンスを評価するための新たな実験パラダイムとして,テキスト画像生成と画像キャプションが登場している。 彼らは, 連続的な量の予測を行い, サンプリング手法を世代内に導入し, 評価を複雑かつ難解にし, 限界分布を得る。 近年,マルチモーダル生成評価がバイソン・アンド・ランゲージ事前学習モデル(vison-and-language pre-trained model)を活用している傾向から,クリップ特徴を統一メトリクスとして用いる負のガウス的相互交換情報を提案する。 テキスト対画像生成や画像キャプションタスクにおいて、慎重に生成された、あるいは人間の注釈による判断を用いて、競合する指標と比較する。 提案するmidは,ベンチマーク間の一貫性,サンプル・パーシモニー,悪用されたクリップモデルに対するロバスト性によって,競合手法を著しく上回っている。 我々は,多モーダル表現学習におけるガウス横断情報の影響と,本提案に基づく今後の研究を楽しみにしている。

Text-to-image generation and image captioning are recently emerged as a new experimental paradigm to assess machine intelligence. They predict continuous quantity accompanied by their sampling techniques in the generation, making evaluation complicated and intractable to get marginal distributions. Based on a recent trend that multimodal generative evaluations exploit a vison-and-language pre-trained model, we propose the negative Gaussian cross-mutual information using the CLIP features as a unified metric, coined by Mutual Information Divergence (MID). To validate, we extensively compare it with competing metrics using carefully-generated or human-annotated judgments in text-to-image generation and image captioning tasks. The proposed MID significantly outperforms the competitive methods by having consistency across benchmarks, sample parsimony, and robustness toward the exploited CLIP model. We look forward to seeing the underrepresented implications of the Gaussian cross-mutual information in multimodal representation learning and the future works based on this novel proposition.
翻訳日:2022-05-28 15:00:43 公開日:2022-05-25
# (参考訳) テンソルネットワークによるグリーンAIを目指して -- 効率的なアルゴリズムによって実現されたサステナビリティとイノベーション

Towards Green AI with tensor networks -- Sustainability and innovation enabled by efficient algorithms ( http://arxiv.org/abs/2205.12961v1 )

ライセンス: CC0 1.0
Eva Memmel, Clara Menzen, Jetze Schuurmans, Frederiek Wesel, Kim Batselier(参考訳) aiアルゴリズムのパフォーマンスを比較する現在の標準は、主にモデルの正確性という1つの基準に基づいている。 この文脈では、高い精度(または同様の測度)のアルゴリズムの方が優れていると考えられる。 最新の結果を達成するために、アルゴリズム開発には指数関数的に増加する計算量を伴う。 これにより、AI研究は目覚ましい成果を得られるようになったが、AIの進歩にはコストがかかる。 本稿では,持続可能なグリーンAIのための有望なツールであるテンソルネットワーク(TN)を提案する。 多線型代数から確立されたツールであるため、TNは精度を損なうことなく効率を向上させることができる。 計算処理を大幅に削減できるので、Green AIに対する彼らの可能性を強調したいと思います。 カーネルマシンとディープラーニングの両方で、TNを用いて効率向上を実現する方法について詳しく述べる。 さらに、精度と効率の両面から、より良いアルゴリズムを評価すべきであると主張する。 そこで我々は,カーネルリッジ回帰の実証実験において,異なる効率基準を議論し,効率を解析する。 本稿では,グリーンAIに対する意識を高め,サステナビリティとAI研究に対する肯定的な影響を示す。 私たちの重要な貢献は、TNが効率的なアルゴリズムを可能にし、従ってGreen AIに貢献することを示すことです。 この意味で、TNはAIにおけるより良いアルゴリズムの道を開いた。

The current standard to compare the performance of AI algorithms is mainly based on one criterion: the model's accuracy. In this context, algorithms with a higher accuracy (or similar measures) are considered as better. To achieve new state-of-the-art results, algorithmic development is accompanied by an exponentially increasing amount of compute. While this has enabled AI research to achieve remarkable results, AI progress comes at a cost: it is unsustainable. In this paper, we present a promising tool for sustainable and thus Green AI: tensor networks (TNs). Being an established tool from multilinear algebra, TNs have the capability to improve efficiency without compromising accuracy. Since they can reduce compute significantly, we would like to highlight their potential for Green AI. We elaborate in both a kernel machine and deep learning setting how efficiency gains can be achieved with TNs. Furthermore, we argue that better algorithms should be evaluated in terms of both accuracy and efficiency. To that end, we discuss different efficiency criteria and analyze efficiency in an exemplifying experimental setting for kernel ridge regression. With this paper, we want to raise awareness about Green AI and showcase its positive impact on sustainability and AI research. Our key contribution is to demonstrate that TNs enable efficient algorithms and therefore contribute towards Green AI. In this sense, TNs pave the way for better algorithms in AI.
翻訳日:2022-05-28 14:31:04 公開日:2022-05-25
# (参考訳) Transcormer:スライディング言語モデリングを用いた文スコーリング用トランスフォーマ

Transcormer: Transformer for Sentence Scoring with Sliding Language Modeling ( http://arxiv.org/abs/2205.12986v1 )

ライセンス: CC BY 4.0
Kaitao Song, Yichong Leng, Xu Tan, Yicheng Zou, Tao Qin, Dongsheng Li(参考訳) 文スコアは、文の確率スコアを測定することを目的としており、複数の候補から最高の文を選択するために、再ランク付けのような多くの自然言語処理シナリオで広く使われている。 GPTのような因果言語モデリング (CLM) やBERTのようなマスキング言語モデリング (MLM) など、いくつかの制限がある。 1)CLMは、評価品質に影響を与える双方向コンテキストを考慮せずに、文の確率推定に一方向情報のみを利用する。 2) MLM は部分トークンの確率を一度に見積もることができるため,文全体の確率を推定するために複数の前方通過が必要となる。 本稿では,文スコアリングのための新しい \textit{sliding language modeling} (slm) を持つトランスフォーマーモデルである \textit{transcormer} を提案する。 具体的には,文中の全てのトークンの確率を双方向の文脈で推定する3重ストリーム自己アテンション機構を採用し,単一のフォワードパスしか必要としない。 SLMは、CLM(一方向コンテキストのみ)とMLM(複数前方パス)の制限を回避し、それらの利点を継承し、スコアリングにおける高い効率と効率を達成する。 複数のタスクにおける実験結果から,本手法は他の言語モデルよりも優れた性能が得られた。

Sentence scoring aims at measuring the likelihood score of a sentence and is widely used in many natural language processing scenarios, like reranking, which is to select the best sentence from multiple candidates. Previous works on sentence scoring mainly adopted either causal language modeling (CLM) like GPT or masked language modeling (MLM) like BERT, which have some limitations: 1) CLM only utilizes unidirectional information for the probability estimation of a sentence without considering bidirectional context, which affects the scoring quality; 2) MLM can only estimate the probability of partial tokens at a time and thus requires multiple forward passes to estimate the probability of the whole sentence, which incurs large computation and time cost. In this paper, we propose \textit{Transcormer} -- a Transformer model with a novel \textit{sliding language modeling} (SLM) for sentence scoring. Specifically, our SLM adopts a triple-stream self-attention mechanism to estimate the probability of all tokens in a sentence with bidirectional context and only requires a single forward pass. SLM can avoid the limitations of CLM (only unidirectional context) and MLM (multiple forward passes) and inherit their advantages, and thus achieve high effectiveness and efficiency in scoring. Experimental results on multiple tasks demonstrate that our method achieves better performance than other language modelings.
翻訳日:2022-05-28 14:12:11 公開日:2022-05-25
# (参考訳) 多様な自然シーンを意識した3次元モーション合成に向けて

Towards Diverse and Natural Scene-aware 3D Human Motion Synthesis ( http://arxiv.org/abs/2205.13001v1 )

ライセンス: CC BY 4.0
Jingbo Wang, Yu Rong, Jingyuan Liu, Sijie Yan, Dahua Lin, Bo Dai(参考訳) 現実世界のシーンで長期の人間の動きを合成する能力は、多くの応用に役立つ。 シーン認識動作合成の従来のアプローチは、予め定義された対象物や位置によって制約され、それによって合成された動きに対する人間とシーンの相互作用の多様性が制限される。 本稿では,ターゲットアクションシーケンスの誘導の下で,多様なシーン認識動作を合成する問題に焦点をあてる。 これを実現するために、まず、シーン認識された人間の動きの多様性を、3つの側面に分解する。例えば、相互作用の多様性(例えば、与えられた場面で異なるポーズで異なる物体に座るなど)、経路の多様性(例えば、異なる経路に続くターゲット場所へ移動する)、動きの多様性(例えば、移動中の様々な身体の動きを持つ)。 この因子化スキームに基づいて階層的なフレームワークが提案され、各サブモジュールが1つの側面をモデル化する。 シーン認識型人間動作合成のための2つの挑戦的データセットに対するフレームワークの有効性を評価する。 実験の結果,提案フレームワークは,多様性と自然性の観点から従来の手法よりも著しく優れていた。

The ability to synthesize long-term human motion sequences in real-world scenes can facilitate numerous applications. Previous approaches for scene-aware motion synthesis are constrained by pre-defined target objects or positions and thus limit the diversity of human-scene interactions for synthesized motions. In this paper, we focus on the problem of synthesizing diverse scene-aware human motions under the guidance of target action sequences. To achieve this, we first decompose the diversity of scene-aware human motions into three aspects, namely interaction diversity (e.g. sitting on different objects with different poses in the given scenes), path diversity (e.g. moving to the target locations following different paths), and the motion diversity (e.g. having various body movements during moving). Based on this factorized scheme, a hierarchical framework is proposed, with each sub-module responsible for modeling one aspect. We assess the effectiveness of our framework on two challenging datasets for scene-aware human motion synthesis. The experiment results show that the proposed framework remarkably outperforms previous methods in terms of diversity and naturalness.
翻訳日:2022-05-28 13:53:15 公開日:2022-05-25
# (参考訳) QGNN:グラフニューラルネットワークによる値関数の分解

QGNN: Value Function Factorisation with Graph Neural Networks ( http://arxiv.org/abs/2205.13005v1 )

ライセンス: CC BY 4.0
Ryan Kortvelesy and Amanda Prorok(参考訳) マルチエージェント強化学習において、グローバルな目的の利用は協力を促す強力なツールである。 残念ながら、個々のエージェントの個々のアクションと必ずしも相関しないため、グローバルな報酬で個々のエージェントを訓練するのはサンプル効率ではない。 この問題は、グローバル値関数を局所値関数に分解することで解決できる。 この領域の初期の研究は、ローカル情報に純粋に局所値関数を条件付けることで分解を行った。 近年,地域情報の提供とグローバル状態のエンコーディングが協調行動を促進することが示されている。 本稿では,グラフニューラルネットワーク(GNN)モデルを用いた最初の値分解手法であるQGNNを提案する。 QGNNの多層メッセージパッシングアーキテクチャは、以前の作業のモデルよりも表現の複雑さを増し、より効果的な分解を生み出す。 QGNNは、パラメータが大幅に少ない場合でも、他のメソッドのパフォーマンスにマッチできる置換不変ミキサも導入している。 提案手法は,QMIX-Att,GraphMIX,QMIX,VDN,ハイブリッドアーキテクチャなど,いくつかのベースラインに対して評価する。 私たちの実験には、クレジット割り当ての標準ベンチマークであるStarcraft、エージェント間の依存関係を明示的にモデル化するカスタム環境であるEstimate Game、現実世界のアプリケーションにおける基本的な問題であるCoalition Structure Generationが含まれています。 その結果、QGNNは最先端の値分解基準を一貫して上回ることがわかった。

In multi-agent reinforcement learning, the use of a global objective is a powerful tool for incentivising cooperation. Unfortunately, it is not sample-efficient to train individual agents with a global reward, because it does not necessarily correlate with an agent's individual actions. This problem can be solved by factorising the global value function into local value functions. Early work in this domain performed factorisation by conditioning local value functions purely on local information. Recently, it has been shown that providing both local information and an encoding of the global state can promote cooperative behaviour. In this paper we propose QGNN, the first value factorisation method to use a graph neural network (GNN) based model. The multi-layer message passing architecture of QGNN provides more representational complexity than models in prior work, allowing it to produce a more effective factorisation. QGNN also introduces a permutation invariant mixer which is able to match the performance of other methods, even with significantly fewer parameters. We evaluate our method against several baselines, including QMIX-Att, GraphMIX, QMIX, VDN, and hybrid architectures. Our experiments include Starcraft, the standard benchmark for credit assignment; Estimate Game, a custom environment that explicitly models inter-agent dependencies; and Coalition Structure Generation, a foundational problem with real-world applications. The results show that QGNN outperforms state-of-the-art value factorisation baselines consistently.
翻訳日:2022-05-28 13:35:42 公開日:2022-05-25
# (参考訳) コード表現学習におけるデータ中心アプローチの活用に向けて

Towards Using Data-Centric Approach for Better Code Representation Learning ( http://arxiv.org/abs/2205.13022v1 )

ライセンス: CC BY 4.0
Anh Dau, Thang Nguyen-Duc, Hoang Thanh-Tung, Nghi Bui(参考訳) ソースコードモデルを作成してソフトウェアエンジニアリングタスクに適用する最近の傾向にもかかわらず、そのようなモデルの品質は現実世界のアプリケーションには不十分である。 本研究では,新しいソースコードモデルではなく,データ中心の観点から既存のコード学習モデルを改善することに注力する。 我々は、訓練済みのコード学習モデルのノイズサンプルを識別するために、いわゆるデータ影響法を用いて、この方向性に光を当てた。 データ影響法は、対象サンプルと正しいサンプルとの類似性を評価し、そのような対象サンプルがノイズであるか否かを判定する。 評価の結果,コード分類および欠陥予測タスクのノイズサンプルをデータ影響法で同定できることが示唆された。 データ中心のアプローチは、実際に有用なソースコードモデルを開発する上で重要な要因になると考えています。

Despite the recent trend of creating source code models and applying them to software engineering tasks, the quality of such models is insufficient for real-world application. In this work, we focus on improving existing code learning models from the data-centric perspective instead of designing new source code models. We shed some light on this direction by using a so-called data-influence method to identify noisy samples of pre-trained code learning models. The data-influence method is to assess the similarity of a target sample to the correct samples to determine whether or not such the target sample is noisy. The results of our evaluation show that data-influence methods can identify noisy samples for the code classification and defection prediction tasks. We envision that the data-centric approach will be a key driver for developing source code models that are useful in practice.
翻訳日:2022-05-28 13:19:12 公開日:2022-05-25
# (参考訳) ランタイムディストリビューションに対するフォーマルな優先順位付け

Formalizing Preferences Over Runtime Distributions ( http://arxiv.org/abs/2205.13028v1 )

ライセンス: CC BY 4.0
Devon R. Graham, Kevin Leyton-Brown, Tim Roughgarden(参考訳) 計算問題を解こうとすると、私たちはしばしば、正しい答えを返すことが保証されているが、実行時分布が異なるアルゴリズム(例えば、satソルバ、ソートアルゴリズム)の選択に直面します。 本稿では,実行時分布に対する選好を形式化し,そのような選択の理論的基盤を構築することを目的とする。 期待するランタイムを最小限にするアルゴリズムを、単に好むべきだと思います。 しかし、そのような選好は、アルゴリズムが悪い入力でどれだけ遅くなっているかによって引き起こされる。 提案手法は,アルゴリズムよりも選好を記述したスコアリング関数を特徴付けるためのユーティリティ理論的手法である。 これらの関数は、問題を解くための価値が時間とともに減少し、キャップタイムが引き出される分布に依存する。 本稿では,現実的なユーティリティ関数の例を説明し,不特定容量分布をモデル化するための最大エントロピー手法の活用方法を示す。 最後に,実行時サンプルからアルゴリズムの予測ユーティリティを効率的に推定する方法を示す。

When trying to solve a computational problem we are often faced with a choice among algorithms that are all guaranteed to return the right answer but that differ in their runtime distributions (e.g., SAT solvers, sorting algorithms). This paper aims to lay theoretical foundations for such choices by formalizing preferences over runtime distributions. It might seem that we should simply prefer the algorithm that minimizes expected runtime. However, such preferences would be driven by exactly how slow our algorithm is on bad inputs, whereas in practice we are typically willing to cut off occasional, sufficiently long runs before they finish. We propose a principled alternative, taking a utility-theoretic approach to characterize the scoring functions that describe preferences over algorithms. These functions depend on the way our value for solving our problem decreases with time and on the distribution from which captimes are drawn. We describe examples of realistic utility functions and show how to leverage a maximum-entropy approach for modeling underspecified captime distributions. Finally, we show how to efficiently estimate an algorithm's expected utility from runtime samples.
翻訳日:2022-05-28 13:09:25 公開日:2022-05-25
# (参考訳) マルチビュー拡張によるサブグラフ表現学習の改善

Improving Subgraph Representation Learning via Multi-View Augmentation ( http://arxiv.org/abs/2205.13038v1 )

ライセンス: CC BY 4.0
Yili Shen, Jiaxu Yan, Cheng-Wei Ju, Jun Yi, Zhou Lin and Hui Guan(参考訳) グラフニューラルネットワーク(GNN)に基づくグラフ表現学習は、分子特性予測や遺伝子協調関数予測など、化学や生物学に広く応用されている。 一方,グラフ拡張技術は,グラフベースおよびノードベースの分類タスクの改善に有望な結果を示しているが,gnnベースのサブグラフ表現学習文献では,ほとんど研究されていない。 本研究では,サブグラフ表現学習を改良し,下流予測タスクの精度を向上させるため,新しいマルチビュー拡張機構を開発した。 この拡張技術は、複数のサブグラフの変種を生成し、これらの変種を元のグラフに埋め込み、高いトレーニング効率、スケーラビリティ、精度の向上を達成する。 いくつかの実世界のサブグラフベンチマーク実験により,提案手法の優位性を示した。

Subgraph representation learning based on Graph Neural Network (GNN) has broad applications in chemistry and biology, such as molecule property prediction and gene collaborative function prediction. On the other hand, graph augmentation techniques have shown promising results in improving graph-based and node-based classification tasks but are rarely explored in the GNN-based subgraph representation learning literature. In this work, we developed a novel multiview augmentation mechanism to improve subgraph representation learning and thus the accuracy of downstream prediction tasks. The augmentation technique creates multiple variants of subgraphs and embeds these variants into the original graph to achieve both high training efficiency, scalability, and improved accuracy. Experiments on several real-world subgraph benchmarks demonstrate the superiority of our proposed multi-view augmentation techniques.
翻訳日:2022-05-28 12:17:11 公開日:2022-05-25
# (参考訳) 敵のCNNはどの程度説明できるのか?

How explainable are adversarially-robust CNNs? ( http://arxiv.org/abs/2205.13042v1 )

ライセンス: CC BY 4.0
Mehdi Nourelahi, Lars Kotthoff, Peijie Chen, Anh Nguyen(参考訳) 既存の畳み込みニューラルネットワーク(cnns)の重要な3つの基準は、(1)テストセット精度、(2)分散精度、(3)説明可能性である。 これらの基準は独立して研究されているが、それらの関係は不明である。 例えば、ディストリビューション性能の強いCNNにも、より強力な説明性があるのでしょうか? さらに、以前の機能重要度調査では、2-3の一般的なバニライメージネット訓練CNNの手法しか評価されておらず、これらの手法が他のアーキテクチャやトレーニングアルゴリズムのCNNにどのように一般化されるかは分かっていない。 ここでは,3つのトレーニングアルゴリズムと5つのCNNアーキテクチャからなる9つの特徴重要度法と12のImageNet学習CNNを用いて,3つの基準の関係を大規模に評価する。 ml実践者にとって重要な洞察とアドバイスがいくつかあります。 第一に、逆ロバストなcnnは、勾配に基づく帰属法(cam法や摂動法ではなく)で説明可能性スコアが高い。 第二に、advpropモデルはバニラモデルとロバストモデルの両方よりも精度が高いにもかかわらず、説明可能性に優れていない。 第3に、9つの特徴属性法のうち、GradCAMとRISEは一貫して最良の方法である。 第4に、cnnの信頼度スコア分布と強い相関があるため、挿入と削除はそれぞれバニラモデルとロバストモデルに偏りがある。 5つ目は、CNNが3つの基準の中で最高であるとは見つからなかったことですが、興味深いことに、CNNはより正確になるにつれて解釈するのが難しくなっています。

Three important criteria of existing convolutional neural networks (CNNs) are (1) test-set accuracy; (2) out-of-distribution accuracy; and (3) explainability. While these criteria have been studied independently, their relationship is unknown. For example, do CNNs that have a stronger out-of-distribution performance have also stronger explainability? Furthermore, most prior feature-importance studies only evaluate methods on 2-3 common vanilla ImageNet-trained CNNs, leaving it unknown how these methods generalize to CNNs of other architectures and training algorithms. Here, we perform the first, large-scale evaluation of the relations of the three criteria using 9 feature-importance methods and 12 ImageNet-trained CNNs that are of 3 training algorithms and 5 CNN architectures. We find several important insights and recommendations for ML practitioners. First, adversarially robust CNNs have a higher explainability score on gradient-based attribution methods (but not CAM-based or perturbation-based methods). Second, AdvProp models, despite being highly accurate more than both vanilla and robust models alone, are not superior in explainability. Third, among 9 feature attribution methods tested, GradCAM and RISE are consistently the best methods. Fourth, Insertion and Deletion are biased towards vanilla and robust models respectively, due to their strong correlation with the confidence score distributions of a CNN. Fifth, we did not find a single CNN to be the best in all three criteria, which interestingly suggests that CNNs are harder to interpret as they become more accurate.
翻訳日:2022-05-28 12:09:58 公開日:2022-05-25
# (参考訳) 離散化による正規化のためのオンライン深層平衡学習

Online Deep Equilibrium Learning for Regularization by Denoising ( http://arxiv.org/abs/2205.13051v1 )

ライセンス: CC BY 4.0
Jiaming Liu, Xiaojian Xu, Weijie Gan, Shirin Shoushtari, Ulugbek S. Kamilov(参考訳) PnP(Plug-and-Play Priors)とRED(Regularization by Denoising)は、物理測定モデルと学習画像の事前処理を組み合わせた演算子の固定点を計算することで、画像の逆問題を解決するために広く使われているフレームワークである。 従来のPnP/REDの定式化は、イメージデノイザを使って指定された事前に重点を置いているが、エンドツーエンドで最適なPnP/REDの事前学習への関心が高まっている。 最近のDeep Equilibrium Models (DEQ)フレームワークは、中間活性化値を保存することなく固定点方程式を暗黙的に微分することで、PnP/RED前のメモリ効率のよいエンドツーエンド学習を可能にした。 しかし、PnP/REDにおける測定モデルの計算/メモリの複雑さが測定総数に依存するため、多くの画像応用においてDECは実用的ではない。 我々は,測定モデルの確率的近似によるDECの効率向上のための新しい戦略としてODERを提案する。 理論上,oderはその収束性と従来のdeqアプローチを近似する能力について洞察を与える。 以上の結果から,ODERによるトレーニング/テストの複雑さが3つの異なる画像応用において改善する可能性が示唆された。

Plug-and-Play Priors (PnP) and Regularization by Denoising (RED) are widely-used frameworks for solving imaging inverse problems by computing fixed-points of operators combining physical measurement models and learned image priors. While traditional PnP/RED formulations have focused on priors specified using image denoisers, there is a growing interest in learning PnP/RED priors that are end-to-end optimal. The recent Deep Equilibrium Models (DEQ) framework has enabled memory-efficient end-to-end learning of PnP/RED priors by implicitly differentiating through the fixed-point equations without storing intermediate activation values. However, the dependence of the computational/memory complexity of the measurement models in PnP/RED on the total number of measurements leaves DEQ impractical for many imaging applications. We propose ODER as a new strategy for improving the efficiency of DEQ through stochastic approximations of the measurement models. We theoretically analyze ODER giving insights into its convergence and ability to approximate the traditional DEQ approach. Our numerical results suggest the potential improvements in training/testing complexity due to ODER on three distinct imaging applications.
翻訳日:2022-05-28 11:35:58 公開日:2022-05-25
# (参考訳) 協調移動エッジネットワークを用いたスケーラブル・低レイテンシフェデレーション学習

Scalable and Low-Latency Federated Learning with Cooperative Mobile Edge Networking ( http://arxiv.org/abs/2205.13054v1 )

ライセンス: CC BY 4.0
Zhenxiao Zhang, Zhidong Gao, Yuanxiong Guo, Yanmin Gong(参考訳) フェデレーション学習(fl)は、データを集中化せずに協調的なモデルトレーニングを可能にする。 しかし、従来のFLフレームワークはクラウドベースであり、高い通信遅延に悩まされている。 一方、モデルアグリゲーションのアクセスポイントと共存するエッジサーバに依存するエッジベースのflフレームワークは、通信遅延が少ないが、エッジサーバのカバレッジが限られているため、モデルの精度が低下している。 本稿では,高速かつ高レイテンシなクラウドベースFLと低レイテンシだが低レイテンシなエッジベースFLを考慮して,協調型フェデレーションエッジ学習(CFEL)と呼ばれる協調型移動エッジネットワークに基づく新しいFLフレームワークを提案する。 cfelのユニークな2層ネットワークアーキテクチャを考えると、協調エッジベースフェデレーション平均化(ce-fedavg)と呼ばれる新しいフェデレーション最適化手法がさらに開発され、各エッジサーバはそれぞれのカバレッジ内でデバイス間の協調モデルトレーニングを調整し、他のエッジサーバと協調して分散コンセンサスを通じて共有グローバルモデルを学ぶ。 ベンチマークデータセットに基づく実験結果から、CFELはコンバージェンス速度を大幅に高速化し、トレーニング時間を短縮し、従来のFLフレームワークと比較して目標モデルの精度を達成できることが示されている。

Federated learning (FL) enables collaborative model training without centralizing data. However, the traditional FL framework is cloud-based and suffers from high communication latency. On the other hand, the edge-based FL framework that relies on an edge server co-located with access point for model aggregation has low communication latency but suffers from degraded model accuracy due to the limited coverage of edge server. In light of high-accuracy but high-latency cloud-based FL and low-latency but low-accuracy edge-based FL, this paper proposes a new FL framework based on cooperative mobile edge networking called cooperative federated edge learning (CFEL) to enable both high-accuracy and low-latency distributed intelligence at mobile edge networks. Considering the unique two-tier network architecture of CFEL, a novel federated optimization method dubbed cooperative edge-based federated averaging (CE-FedAvg) is further developed, wherein each edge server both coordinates collaborative model training among the devices within its own coverage and cooperates with other edge servers to learn a shared global model through decentralized consensus. Experimental results based on benchmark datasets show that CFEL can largely speed up the convergence speed and reduce the training time to achieve a target model accuracy compared with prior FL frameworks.
翻訳日:2022-05-28 10:30:10 公開日:2022-05-25
# (参考訳) 一般化線形関数に対する効率良く, ほぼ最適なオンライン学習

Efficient and Near-Optimal Smoothed Online Learning for Generalized Linear Functions ( http://arxiv.org/abs/2205.13056v1 )

ライセンス: CC BY 4.0
Adam Block and Max Simchowitz(参考訳) 逐次的統計学習とバッチ的統計学習の複雑さの劇的なギャップにより、最近の研究はスムーズな逐次学習環境を研究しており、Nature は既知の測度 {\mu} に対して 1/{\sigma} で束縛された密度のコンテキストを選択することを制約している。 残念ながら、いくつかの関数クラスでは、統計的に最適な後悔と効率的に達成できる後悔の間に指数関数的なギャップがある。 本稿では,K-wise線形分類において,統計的に最適なログ(T/{\sigma})を初めて楽しむ計算効率の良いアルゴリズムを提案する。 我々は、実分類器が文脈の過度なパラメータ化多項式分解において線型であるような設定に拡張し、適切なERMオラクルへのアクセスを仮定する、実現可能な断片的回帰設定に拡張する。 驚くべきことに、標準不一致に基づく分析は1/{\sigma} における後悔の対数を達成するには不十分である。 代わりに、一般化線形分類器によって引き起こされる不一致領域の幾何学の新たな特徴付けを開発する。 その過程で、ある行列平均の行列式に対する一般の反集中を含む、独立した興味を持つ多数の技術ツールを開発する。

Due to the drastic gap in complexity between sequential and batch statistical learning, recent work has studied a smoothed sequential learning setting, where Nature is constrained to select contexts with density bounded by 1/{\sigma} with respect to a known measure {\mu}. Unfortunately, for some function classes, there is an exponential gap between the statistically optimal regret and that which can be achieved efficiently. In this paper, we give a computationally efficient algorithm that is the first to enjoy the statistically optimal log(T/{\sigma}) regret for realizable K-wise linear classification. We extend our results to settings where the true classifier is linear in an over-parameterized polynomial featurization of the contexts, as well as to a realizable piecewise-regression setting assuming access to an appropriate ERM oracle. Somewhat surprisingly, standard disagreement-based analyses are insufficient to achieve regret logarithmic in 1/{\sigma}. Instead, we develop a novel characterization of the geometry of the disagreement region induced by generalized linear classifiers. Along the way, we develop numerous technical tools of independent interest, including a general anti-concentration bound for the determinant of certain matrix averages.
翻訳日:2022-05-28 08:59:38 公開日:2022-05-25
# (参考訳) 属性付きゼロショット学習における最悪の場合保証の厳格な下限

Tight Lower Bounds on Worst-Case Guarantees for Zero-Shot Learning with Attributes ( http://arxiv.org/abs/2205.13068v1 )

ライセンス: CC BY 4.0
Alessio Mazzetto, Cristina Menghini, Andrew Yuan, Eli Upfal, Stephen H. Bach(参考訳) 属性を用いたゼロショット学習の厳密な数学的解析法を開発した。 この設定では、トレーニングデータなしで新しいクラスをラベル付けし、属性の検出器のみを指定し、それらの属性がクラス属性行列と呼ばれるターゲットクラスとどのように相関するかを説明する。 この設定のための属性からクラスへの最善のマップの最悪のケースエラーに対する最初の非自明な下限を、完璧な属性検出器でも開発する。 下限は利用可能な情報 -- クラス属性行列 -- に基づいてゼロショット問題の理論的本質的難易度を特徴づけ、その境界は実質的に計算可能である。 我々の下限はきついので、期待される誤差が下限の値によって上限となるクラスへの属性から常にランダム化された写像を見つけることができる。 我々は,標準ゼロショットメソッドが実際にどのように振る舞うかを,分析によって予測できることを示し,どのクラスが他のクラスと混同されるかを示す。

We develop a rigorous mathematical analysis of zero-shot learning with attributes. In this setting, the goal is to label novel classes with no training data, only detectors for attributes and a description of how those attributes are correlated with the target classes, called the class-attribute matrix. We develop the first non-trivial lower bound on the worst-case error of the best map from attributes to classes for this setting, even with perfect attribute detectors. The lower bound characterizes the theoretical intrinsic difficulty of the zero-shot problem based on the available information -- the class-attribute matrix -- and the bound is practically computable from it. Our lower bound is tight, as we show that we can always find a randomized map from attributes to classes whose expected error is upper bounded by the value of the lower bound. We show that our analysis can be predictive of how standard zero-shot methods behave in practice, including which classes will likely be confused with others.
翻訳日:2022-05-28 08:58:27 公開日:2022-05-25
# (参考訳) 深さによるエントロピー最大化:ランダムニューラルネットワークの変分原理

Entropy Maximization with Depth: A Variational Principle for Random Neural Networks ( http://arxiv.org/abs/2205.13076v1 )

ライセンス: CC BY 4.0
Amir Joudaki, Hadi Daneshmand, Francis Bach(参考訳) ニューラルネットワークにおける深みの役割を理解するために、深みの増大はニューラルネットワークにおける表現を暗黙的に最適化するのだろうか? バッチ正規化を具備したランダムニューラルネットワークは、表現が収縮的であると仮定して、深さが一定な表現の差分エントロピーを最大化する。 したがって、表現は学習タスクに関する情報がない場合、初期化時に \textit{principle of maximum entropy} に従う。 我々のニューラル表現の変分定式化は、表現エントロピーと、深さ、幅、非線形のアクティベーションを含むアーキテクチャコンポーネントとの相互作用を特徴付け、ニューラルアーキテクチャの設計を刺激する可能性がある。

To understand the essential role of depth in neural networks, we investigate a variational principle for depth: Does increasing depth perform an implicit optimization for the representations in neural networks? We prove that random neural networks equipped with batch normalization maximize the differential entropy of representations with depth up to constant factors, assuming that the representations are contractive. Thus, representations inherently obey the \textit{principle of maximum entropy} at initialization, in the absence of information about the learning task. Our variational formulation for neural representations characterizes the interplay between representation entropy and architectural components, including depth, width, and non-linear activations, thereby potentially inspiring the design of neural architectures.
翻訳日:2022-05-28 08:23:15 公開日:2022-05-25
# (参考訳) 大規模変動係数モデルに対する因子構造回帰

Factorized Structured Regression for Large-Scale Varying Coefficient Models ( http://arxiv.org/abs/2205.13080v1 )

ライセンス: CC BY 4.0
David R\"ugamer, Andreas Bender, Simon Wiegrebe, Daniel Racek, Bernd Bischl, Christian L. M\"uller, Clemens Stachl(参考訳) Recommender Systems(RS)は、日々のデジタル生活の多くの側面に及んでいる。 大規模に動作するように提案された最先端のrsは、数千のインタラクションのモデリングを可能にし、高度に個別化されたレコメンデーションを促進する。 概念的には、多くのRSは複雑な特徴効果と潜在的にガウス的でない結果を含む統計的回帰モデルの例と見なすことができる。 しかし、時間を認識した変動係数モデルを含むそのような構造的回帰モデルは、カテゴリー効果の適用性や多数の相互作用の包含性に制限がある。 本稿では、スケーラブルな可変係数モデルのための因子構造回帰(FaStR)を提案する。 FaStRは、ニューラルネットワークベースのモデル実装において、構造化された加算回帰と分解アプローチを組み合わせることで、大規模データの一般的な回帰モデルの制限を克服する。 この融合は、以前実現できなかったデータ設定で統計モデルを予測するためのスケーラブルなフレームワークを提供する。 実験の結果,提案手法の様々な係数の推定は最先端の回帰手法と同等であり,スケーリングは特に優れており,予測性能の点で他の時間認識RSと競合していることがわかった。 スマートフォンのユーザデータを用いた大規模行動研究において,fastrの性能と解釈可能性を示す。

Recommender Systems (RS) pervade many aspects of our everyday digital life. Proposed to work at scale, state-of-the-art RS allow the modeling of thousands of interactions and facilitate highly individualized recommendations. Conceptually, many RS can be viewed as instances of statistical regression models that incorporate complex feature effects and potentially non-Gaussian outcomes. Such structured regression models, including time-aware varying coefficients models, are, however, limited in their applicability to categorical effects and inclusion of a large number of interactions. Here, we propose Factorized Structured Regression (FaStR) for scalable varying coefficient models. FaStR overcomes limitations of general regression models for large-scale data by combining structured additive regression and factorization approaches in a neural network-based model implementation. This fusion provides a scalable framework for the estimation of statistical models in previously infeasible data settings. Empirical results confirm that the estimation of varying coefficients of our approach is on par with state-of-the-art regression techniques, while scaling notably better and also being competitive with other time-aware RS in terms of prediction performance. We illustrate FaStR's performance and interpretability on a large-scale behavioral study with smartphone user data.
翻訳日:2022-05-28 08:05:10 公開日:2022-05-25
# (参考訳) リアルタイムフラッド検出のためのグラフニューラルネットワークBRIGHT

BRIGHT -- Graph Neural Networks in Real-Time Fraud Detection ( http://arxiv.org/abs/2205.13084v1 )

ライセンス: CC BY 4.0
Mingxuan Lu, Zhichao Han, Susie Xi Rao, Zitao Zhang, Yang Zhao, Yinan Shan, Ramesh Raghunathan, Ce Zhang, Jiawei Jiang(参考訳) 不正取引の検出は、eコマース市場におけるリスクを制御する上で不可欠な要素である。 すでに本番環境にデプロイされているルールベースおよび機械学習フィルタとは別に、トランザクショングラフでマルチホップリスクの伝搬をキャッチするのに有用なグラフニューラルネットワーク(GNN)による効率的なリアルタイム推論を実現したいと考えています。 しかし、gnnの製品化には2つの課題がある。 まず、動的グラフの将来の情報は過去を予測するためにメッセージパッシングでは考慮してはいけない。 第二に、グラフクエリとgnnモデル推論のレイテンシは通常数百ミリ秒までであり、これはいくつかの重要なオンラインサービスにとってコストがかかる。 これらの課題に対処するため,オンラインリアルタイム推論を効率的に行えるエンドツーエンドのGNN学習を実現するために,Batch and Real-time Inception GrapH Topology (BRIGHT) フレームワークを提案する。 BRIGHTフレームワークはグラフ変換モジュール(Two-Stage Directed Graph)と対応するGNNアーキテクチャ(Lambda Neural Network)で構成される。 2段階の有向グラフは、隣人に渡された情報は、過去の支払いトランザクションからのみ得られることを保証している。 歴史的関係を表す2つの部分グラフとリアルタイムリンクで構成されている。 Lambda Neural Networkは、推論をエンティティ埋め込みのバッチ推論と、トランザクション予測のリアルタイム推論の2つのステージに分離する。 実験の結果,BRIGHT は平均 w.r.t.~精度で 2 % 以上の性能を示した。 さらに、BRIGHTはリアルタイム不正検出に計算効率が高い。 エンドツーエンドのパフォーマンス(近隣クエリや推論を含む)に関しては、BRIGHTはP99レイテンシを75\%削減できる。 推論の段階では、私たちのスピードアップは従来のgnnと比較して平均7.8$\times$です。

Detecting fraudulent transactions is an essential component to control risk in e-commerce marketplaces. Apart from rule-based and machine learning filters that are already deployed in production, we want to enable efficient real-time inference with graph neural networks (GNNs), which is useful to catch multihop risk propagation in a transaction graph. However, two challenges arise in the implementation of GNNs in production. First, future information in a dynamic graph should not be considered in message passing to predict the past. Second, the latency of graph query and GNN model inference is usually up to hundreds of milliseconds, which is costly for some critical online services. To tackle these challenges, we propose a Batch and Real-time Inception GrapH Topology (BRIGHT) framework to conduct an end-to-end GNN learning that allows efficient online real-time inference. BRIGHT framework consists of a graph transformation module (Two-Stage Directed Graph) and a corresponding GNN architecture (Lambda Neural Network). The Two-Stage Directed Graph guarantees that the information passed through neighbors is only from the historical payment transactions. It consists of two subgraphs representing historical relationships and real-time links, respectively. The Lambda Neural Network decouples inference into two stages: batch inference of entity embeddings and real-time inference of transaction prediction. Our experiments show that BRIGHT outperforms the baseline models by >2\% in average w.r.t.~precision. Furthermore, BRIGHT is computationally efficient for real-time fraud detection. Regarding end-to-end performance (including neighbor query and inference), BRIGHT can reduce the P99 latency by >75\%. For the inference stage, our speedup is on average 7.8$\times$ compared to the traditional GNN.
翻訳日:2022-05-28 07:44:53 公開日:2022-05-25
# (参考訳) Heteroscedastic noise modelによる患者特異的ルートの同定

Identifying Patient-Specific Root Causes with the Heteroscedastic Noise Model ( http://arxiv.org/abs/2205.13085v1 )

ライセンス: CC BY 4.0
Eric V. Strobl, Thomas A. Lasko(参考訳) 複雑な疾患は、同一の診断カテゴリー内でも患者によって異なる様々な要因によって引き起こされる。 根底にあるいくつかの原因は、それぞれの患者で疾患の発生を引き起こす可能性がある。 そこで我々は,構造方程式モデルにおける外因性誤り項の標本特異的な予測値に類似した疾患の患者固有の根本原因の同定に焦点をあてた。 y = m(x) + \varepsilon\sigma(x)$ で条件付き平均と平均絶対偏差を表す非線型関数 $m(x)$ と $\sigma(x)$ を持つような、線形設定からヘテロシドスティックノイズモデルへ一般化する。 このモデルは識別可能性を保持しますが、エラー項を正しく抽出するために一般化ルート因果推論(grci)と呼ばれるカスタマイズアルゴリズムを必要とする非自明な課題を導入します。 GRCIは、既存の代替品よりも患者固有の根本原因を正確に回復する。

Complex diseases are caused by a multitude of factors that may differ between patients even within the same diagnostic category. A few underlying root causes may nevertheless initiate the development of disease within each patient. We therefore focus on identifying patient-specific root causes of disease, which we equate to the sample-specific predictivity of the exogenous error terms in a structural equation model. We generalize from the linear setting to the heteroscedastic noise model where $Y = m(X) + \varepsilon\sigma(X)$ with non-linear functions $m(X)$ and $\sigma(X)$ representing the conditional mean and mean absolute deviation, respectively. This model preserves identifiability but introduces non-trivial challenges that require a customized algorithm called Generalized Root Causal Inference (GRCI) to extract the error terms correctly. GRCI recovers patient-specific root causes more accurately than existing alternatives.
翻訳日:2022-05-28 07:29:50 公開日:2022-05-25
# 都市rhapsody:都市音環境の大規模探査

Urban Rhapsody: Large-scale exploration of urban soundscapes ( http://arxiv.org/abs/2205.13064v1 )

ライセンス: Link先を確認
Joao Rulff, Fabio Miranda, Maryam Hosseini, Marcos Lage, Mark Cartwright, Graham Dove, Juan Bello, Claudio T. Silva(参考訳) 騒音は都市環境の主要な品質問題の一つである。 不快感に加えて、騒音は公衆衛生や教育のパフォーマンスに悪影響を及ぼす。 低コストのセンサは、周囲のノイズレベルを高い時間分解能で監視するためにデプロイできるが、それらが生み出すデータ量とデータの複雑さは、分析上の大きな課題をもたらす。 これらの課題に対処する1つの方法は、騒音源を分類し、都市の騒音状況の時間的パターンを理解するために、特徴を抽出するために使用される機械聴取技術である。 しかし,都市環境における圧倒的なノイズ源数とラベル付きデータの不足により,都市音環境の真のダイナミズムを捉えるのに十分な語彙を持つ分類モデルを作成することはほとんど不可能である。 そこで本稿では,その要求を満たし,特定課題に取り組むために,最先端の音声表現と機械学習,視覚分析を組み合わせたフレームワークであるurban rhapsodyを提案する。 筆者らは,ニューヨーク市におけるセンサネットワークの5年間の展開を通じて生成されたデータを用いて,ドメインの専門家によるケーススタディを通じてツールの有用性を実証する。

Noise is one of the primary quality-of-life issues in urban environments. In addition to annoyance, noise negatively impacts public health and educational performance. While low-cost sensors can be deployed to monitor ambient noise levels at high temporal resolutions, the amount of data they produce and the complexity of these data pose significant analytical challenges. One way to address these challenges is through machine listening techniques, which are used to extract features in attempts to classify the source of noise and understand temporal patterns of a city's noise situation. However, the overwhelming number of noise sources in the urban environment and the scarcity of labeled data makes it nearly impossible to create classification models with large enough vocabularies that capture the true dynamism of urban soundscapes In this paper, we first identify a set of requirements in the yet unexplored domain of urban soundscape exploration. To satisfy the requirements and tackle the identified challenges, we propose Urban Rhapsody, a framework that combines state-of-the-art audio representation, machine learning, and visual analytics to allow users to interactively create classification models, understand noise patterns of a city, and quickly retrieve and label audio excerpts in order to create a large high-precision annotated database of urban sound recordings. We demonstrate the tool's utility through case studies performed by domain experts using data generated over the five-year deployment of a one-of-a-kind sensor network in New York City.
翻訳日:2022-05-27 15:43:44 公開日:2022-05-25
# 効率的な注意に基づく車の動き予測のための地図に基づく特徴探索

Exploring Map-based Features for Efficient Attention-based Vehicle Motion Prediction ( http://arxiv.org/abs/2205.13071v1 )

ライセンス: Link先を確認
Carlos G\'omez-Hu\'elamo, Marcos V. Conde, Miguel Ortiz(参考訳) 複数のエージェントの動作予測(MP)は、社会ロボットから自動運転車まで、任意の複雑な環境において重要なタスクである。 現在のアプローチでは、エンド・ツー・エンドのネットワークを使用してこの問題に取り組む。入力データは、通常、シーンのレンダリングされたトップビューであり、すべてのエージェントの過去の軌跡である。 その意味では、信頼できる自律運転(AD)システムは、時間に応じて合理的な予測を生成する必要があるが、これらのアプローチの多くは単純なConvNetとLSTMを使っているにもかかわらず、両方の情報ソース(マップとトラジェクトリ履歴)を使用する場合、モデルはリアルタイムアプリケーションに十分な効率を発揮できないかもしれない。 さらに、これらのモデルの性能はトレーニングデータ量に大きく依存しており、これは高価である(特に注釈付きhdマップ)。 本研究は,地図情報から過去のトラジェクトリやマップベースの特徴を入力として,効率的で信頼性の高いMPを実現するための,Argoverse 1.0ベンチマーク上での競合性能を実現する方法について検討する。 これらの特徴は、地図処理のブラックボックスCNNベースの手法とは対照的に、駆動可能な領域と可算なゴールポイントとして解釈可能な情報を表す。

Motion prediction (MP) of multiple agents is a crucial task in arbitrarily complex environments, from social robots to self-driving cars. Current approaches tackle this problem using end-to-end networks, where the input data is usually a rendered top-view of the scene and the past trajectories of all the agents; leveraging this information is a must to obtain optimal performance. In that sense, a reliable Autonomous Driving (AD) system must produce reasonable predictions on time, however, despite many of these approaches use simple ConvNets and LSTMs, models might not be efficient enough for real-time applications when using both sources of information (map and trajectory history). Moreover, the performance of these models highly depends on the amount of training data, which can be expensive (particularly the annotated HD maps). In this work, we explore how to achieve competitive performance on the Argoverse 1.0 Benchmark using efficient attention-based models, which take as input the past trajectories and map-based features from minimal map information to ensure efficient and reliable MP. These features represent interpretable information as the driveable area and plausible goal points, in opposition to black-box CNN-based methods for map processing.
翻訳日:2022-05-27 15:06:26 公開日:2022-05-25
# 画像分類のためのコンカレントニューラルツリーとデータ前処理オートML

Concurrent Neural Tree and Data Preprocessing AutoML for Image Classification ( http://arxiv.org/abs/2205.13033v1 )

ライセンス: Link先を確認
Anish Thite, Mohan Dodda, Pulak Agarwal, Jason Zutty(参考訳) Deep Neural Networks(DNN)は、さまざまな機械学習問題に対して広く利用されているソリューションである。 しかし、入力データを前処理し、異なるニューラルネットワークアーキテクチャをテストし、最適なパフォーマンスのためにハイパーパラメータをチューニングするために、データサイエンティストのかなりの時間に投資する必要があることが多い。 自動機械学習(AutoML)メソッドは、最適なニューラルネットワークのためのアーキテクチャとハイパーパラメータ空間を自動的に検索する。 しかし、現在の最先端(SOTA)手法には、アルゴリズム検索空間の一部として入力データを操作するための従来の手法は含まれていない。 進化的多目的アルゴリズム設計エンジン(EMADE, Evolutionary Multi-objective Algorithm Design Engine)は,従来の機械学習手法のための多目的進化探索フレームワークである。 また、EMADEの信号処理と画像処理プリミティブを統合する。 これらのプリミティブは、EMADEが同時に進化したDNNに入る前に入力データを操作できるようにする。 CIFAR-10画像分類ベンチマークデータセットにおいて,これらの手法を検索空間の一部として含めることで,性能向上の可能性が示された。

Deep Neural Networks (DNN's) are a widely-used solution for a variety of machine learning problems. However, it is often necessary to invest a significant amount of a data scientist's time to pre-process input data, test different neural network architectures, and tune hyper-parameters for optimal performance. Automated machine learning (autoML) methods automatically search the architecture and hyper-parameter space for optimal neural networks. However, current state-of-the-art (SOTA) methods do not include traditional methods for manipulating input data as part of the algorithmic search space. We adapt the Evolutionary Multi-objective Algorithm Design Engine (EMADE), a multi-objective evolutionary search framework for traditional machine learning methods, to perform neural architecture search. We also integrate EMADE's signal processing and image processing primitives. These primitives allow EMADE to manipulate input data before ingestion into the simultaneously evolved DNN. We show that including these methods as part of the search space shows potential to provide benefits to performance on the CIFAR-10 image classification benchmark dataset.
翻訳日:2022-05-27 15:02:48 公開日:2022-05-25
# EvoVGM:進化的パラメータ推定のための深部変分生成モデル

EvoVGM: A Deep Variational Generative Model for Evolutionary Parameter Estimation ( http://arxiv.org/abs/2205.13034v1 )

ライセンス: Link先を確認
Amine M. Remita and Abdoulaye Banir\'e Diallo(参考訳) ほとんどの進化指向の深層生成モデルは、ベイズ系統推定フレームワーク内で実行されるように、生物学的配列の基盤となる進化力学を明示的に考慮していない。 本研究では,局所的な生物学的進化パラメータの真後部を共同で近似し,配列アライメントを生成する深部変分ベイズ生成モデルを提案する。 さらに、JC69やGTRといったマルコフ連鎖置換モデルのインスタンス化と調整を行う。 低分散変動目的関数と勾配上昇アルゴリズムを用いてモデルを訓練する。 本稿では、いくつかの進化シナリオと実際のウイルス配列アライメントをシミュレートした合成配列アライメントにおける手法の一貫性と有効性を示す。

Most evolutionary-oriented deep generative models do not explicitly consider the underlying evolutionary dynamics of biological sequences as it is performed within the Bayesian phylogenetic inference framework. In this study, we propose a method for a deep variational Bayesian generative model that jointly approximates the true posterior of local biological evolutionary parameters and generates sequence alignments. Moreover, it is instantiated and tuned for continuous-time Markov chain substitution models such as JC69 and GTR. We train the model via a low-variance variational objective function and a gradient ascent algorithm. Here, we show the consistency and effectiveness of the method on synthetic sequence alignments simulated with several evolutionary scenarios and on a real virus sequence alignment.
翻訳日:2022-05-27 15:02:31 公開日:2022-05-25
# 非定常環境における最適ゴール指向強化学習

Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary Environments ( http://arxiv.org/abs/2205.13044v1 )

ライセンス: Link先を確認
Liyu Chen and Haipeng Luo(参考訳) コストと遷移関数を変化させた非定常確率的最短経路問題による目標指向強化学習のための動的後悔最小化の研究を開始する。 We start by establishing a lower bound $\Omega((B_{\star} SAT_{\star}(\Delta_c + B_{\star}^2\Delta_P))^{1/3}K^{2/3})$, where $B_{\star}$ is the maximum expected cost of the optimal policy of any episode starting from any state, $T_{\star}$ is the maximum hitting time of the optimal policy of any episode starting from the initial state, $SA$ is the number of state-action pairs, $\Delta_c$ and $\Delta_P$ are the amount of changes of the cost and transition functions respectively, and $K$ is the number of episodes. この低い境界における$\Delta_c$と$\Delta_P$の異なる役割は、コストと遷移を別々に見積もるアルゴリズムを設計するきっかけとなった。 具体的には、$\Delta_c$ と $\Delta_P$ の知識を仮定して、単純だが準最適アルゴリズムと、より複雑な極小最適化アルゴリズム(対数項まで)を開発する。 これらのアルゴリズムは、有限ホリゾン近似 [chen et al., 2022a]、mvpアルゴリズム [zhang et al., 2020]、適応信頼拡大 [wei and luo, 2021] の特別ベルンシュタイン型ボーナスのアイデアと、長ホリゾンポリシーの適切なペナルティなどの新しい手法を組み合わせたものである。 最後に、$\Delta_c$ と $\Delta_P$ が未知の場合には、MASTERアルゴリズムの変種 (Wei and Luo, 2021) を開発し、上記のアイデアを組み込んで、$\widetilde{O}(\min\{B_{\star} S\sqrt{ALK}, (B_{\star}^2S^2AT_{\star}(\Delta_c+B_{\star}\Delta_P))^{1/3}K^{2/3}\}) を得る。

We initiate the study of dynamic regret minimization for goal-oriented reinforcement learning modeled by a non-stationary stochastic shortest path problem with changing cost and transition functions. We start by establishing a lower bound $\Omega((B_{\star} SAT_{\star}(\Delta_c + B_{\star}^2\Delta_P))^{1/3}K^{2/3})$, where $B_{\star}$ is the maximum expected cost of the optimal policy of any episode starting from any state, $T_{\star}$ is the maximum hitting time of the optimal policy of any episode starting from the initial state, $SA$ is the number of state-action pairs, $\Delta_c$ and $\Delta_P$ are the amount of changes of the cost and transition functions respectively, and $K$ is the number of episodes. The different roles of $\Delta_c$ and $\Delta_P$ in this lower bound inspire us to design algorithms that estimate costs and transitions separately. Specifically, assuming the knowledge of $\Delta_c$ and $\Delta_P$, we develop a simple but sub-optimal algorithm and another more involved minimax optimal algorithm (up to logarithmic terms). These algorithms combine the ideas of finite-horizon approximation [Chen et al., 2022a], special Bernstein-style bonuses of the MVP algorithm [Zhang et al., 2020], adaptive confidence widening [Wei and Luo, 2021], as well as some new techniques such as properly penalizing long-horizon policies. Finally, when $\Delta_c$ and $\Delta_P$ are unknown, we develop a variant of the MASTER algorithm [Wei and Luo, 2021] and integrate the aforementioned ideas into it to achieve $\widetilde{O}(\min\{B_{\star} S\sqrt{ALK}, (B_{\star}^2S^2AT_{\star}(\Delta_c+B_{\star}\Delta_P))^{1/3}K^{2/3}\})$ regret, where $L$ is the unknown number of changes of the environment.
翻訳日:2022-05-27 14:27:27 公開日:2022-05-25
# RENs: 関連エンコーディングネットワーク

RENs: Relevance Encoding Networks ( http://arxiv.org/abs/2205.13061v1 )

ライセンス: Link先を確認
Krithika Iyer, Riddhish Bhalodia, Shireen Elhabian(参考訳) 高次元データに対する多様体の仮定は、低次元の潜在空間から得られるパラメータの集合を変化させてデータを生成すると仮定する。 深層生成モデル(dgms)は教師なしの方法でデータ表現を学ぶために広く使われている。 dgmsは変分オートエンコーダ(vaes)のようなボトルネックアーキテクチャを用いてデータ空間内の低次元多様体をパラメータ化する。 VAEのボトルネック次元はデータセットに依存するハイパーパラメータとして扱われ、広範囲なチューニング後に設計時に固定される。 ほとんどの実世界のデータセットの固有次元はしばしば不明であるため、内在次元と潜在次元の間にはハイパーパラメータとして選択された不一致がある。 このミスマッチは、表現学習やサンプル生成タスクのモデルパフォーマンスに負の影響を与える可能性がある。 本稿では,遅延空間に先行する自動相対性決定(ARD)を用いて,データ固有のボトルネック次元を学習する新しい確率的VOEベースのフレームワークであるrelevance encoding network (RENs)を提案する。 各潜在次元の関連性は、確率的勾配降下と非ガウス前駆に適応した再パラメータ化トリックを用いて、他のモデルパラメータとともにデータから直接学習される。 我々はDeepSetsの概念を利用して、データと潜在空間の置換不変な統計特性をキャプチャして関連性決定を行う。 提案されたフレームワークは汎用的で柔軟であり、正則化器を活用して潜伏空間(例えば乱れ)に特定の特性を課す最先端のVAEモデルに使用できる。 合成および公開画像データセットの広範な実験により,提案モデルは,サンプルの表現と生成品質を損なうことなく,関連する潜在ボトルネック次元を学習することを示す。

The manifold assumption for high-dimensional data assumes that the data is generated by varying a set of parameters obtained from a low-dimensional latent space. Deep generative models (DGMs) are widely used to learn data representations in an unsupervised way. DGMs parameterize the underlying low-dimensional manifold in the data space using bottleneck architectures such as variational autoencoders (VAEs). The bottleneck dimension for VAEs is treated as a hyperparameter that depends on the dataset and is fixed at design time after extensive tuning. As the intrinsic dimensionality of most real-world datasets is unknown, often, there is a mismatch between the intrinsic dimensionality and the latent dimensionality chosen as a hyperparameter. This mismatch can negatively contribute to the model performance for representation learning and sample generation tasks. This paper proposes relevance encoding networks (RENs): a novel probabilistic VAE-based framework that uses the automatic relevance determination (ARD) prior in the latent space to learn the data-specific bottleneck dimensionality. The relevance of each latent dimension is directly learned from the data along with the other model parameters using stochastic gradient descent and a reparameterization trick adapted to non-Gaussian priors. We leverage the concept of DeepSets to capture permutation invariant statistical properties in both data and latent spaces for relevance determination. The proposed framework is general and flexible and can be used for the state-of-the-art VAE models that leverage regularizers to impose specific characteristics in the latent space (e.g., disentanglement). With extensive experimentation on synthetic and public image datasets, we show that the proposed model learns the relevant latent bottleneck dimensionality without compromising the representation and generation quality of the samples.
翻訳日:2022-05-27 14:26:45 公開日:2022-05-25
# 短い振り返りによる半教師付きドリフトストリーム学習

Semi-supervised Drifted Stream Learning with Short Lookback ( http://arxiv.org/abs/2205.13066v1 )

ライセンス: Link先を確認
Weijieying Ren, Pengyang Wang, Xiaolin Li, Charles E. Hughes, Yanjie Fu(参考訳) 多くのシナリオで 1) データストリームはリアルタイムで生成される。 2) ラベル付きデータは高価で,当初は限定ラベルのみ利用可能である。 3) 現実世界のデータは常にi.i.d.であるとは限らない。 4) 履歴ストリームの保存は制限されており、モデル更新は非常に短いルックバックウィンドウに基づいてのみ達成できる。 この学習設定は、多くの機械学習(ML)アルゴリズムの適用性と可用性を制限する。 本稿では,半教師付きドリフトストリーム学習をショートルックバック問題(sdsl)を用いて一般化する。 SDSLは、半教師付き学習、継続的学習、ドメイン適応における既存の手法に2つの未解決課題を課している。 1)段階的なシフトとロバストな擬似ラベル 2)短い振り返りによる偽造防止適応。 これらの課題に対処するために、SDSLを解くための原則的で汎用的な世代再生フレームワークを提案する。 フレームワークは、次のように達成できます。 1) 生成段階における堅牢な擬似ラベル 2)リプレイステップにおける反フォーゲティング適応。 そこで我々は,従来のラベル付きデータの教師付き知識,新しいデータの教師なし知識,不変ラベルセマンティクスの構造的知識を活用する,新しい擬似ラベル分類モデルを開発した。 適応型アンチフォーゲティングモデル再生を実現するために,このアンチフォーゲティング適応タスクを平坦な領域探索問題として捉えることを提案する。 フラット領域探索問題を解くために,新しいミニマックスゲームベースのリプレイ目的関数を提案し,効率的な最適化解法を開発した。 最後に,フロートストリームにおけるアンチフォッゲッティング学習の課題を,短時間の振り返りで効果的に解決できることを示す。

In many scenarios, 1) data streams are generated in real time; 2) labeled data are expensive and only limited labels are available in the beginning; 3) real-world data is not always i.i.d. and data drift over time gradually; 4) the storage of historical streams is limited and model updating can only be achieved based on a very short lookback window. This learning setting limits the applicability and availability of many Machine Learning (ML) algorithms. We generalize the learning task under such setting as a semi-supervised drifted stream learning with short lookback problem (SDSL). SDSL imposes two under-addressed challenges on existing methods in semi-supervised learning, continuous learning, and domain adaptation: 1) robust pseudo-labeling under gradual shifts and 2) anti-forgetting adaptation with short lookback. To tackle these challenges, we propose a principled and generic generation-replay framework to solve SDSL. The framework is able to accomplish: 1) robust pseudo-labeling in the generation step; 2) anti-forgetting adaption in the replay step. To achieve robust pseudo-labeling, we develop a novel pseudo-label classification model to leverage supervised knowledge of previously labeled data, unsupervised knowledge of new data, and, structure knowledge of invariant label semantics. To achieve adaptive anti-forgetting model replay, we propose to view the anti-forgetting adaptation task as a flat region search problem. We propose a novel minimax game-based replay objective function to solve the flat region search problem and develop an effective optimization solver. Finally, we present extensive experiments to demonstrate our framework can effectively address the task of anti-forgetting learning in drifted streams with short lookback.
翻訳日:2022-05-27 14:26:16 公開日:2022-05-25
# 強化学習エージェントのためのインターネットテキスト検索の学習

Learning to Query Internet Text for Informing Reinforcement Learning Agents ( http://arxiv.org/abs/2205.13079v1 )

ライセンス: Link先を確認
Kolby Nottingham, Alekhya Pyla, Sameer Singh, Roy Fox(参考訳) 強化学習における分散タスクの一般化は難しい課題である。 1つの成功したアプローチは、現在の遷移や報酬関数に関する情報を提供するタスクや環境記述にポリシーを条件付けることで一般化を改善する。 以前はこれらの記述は、しばしば生成されたあるいはクラウドソースのテキストとして表現されていた。 本研究では,野生で発見された自然言語(インターネットフォーラム,ドキュメント,wikiなど)から有用な情報を抽出する問題に取り組み始める。 これらの自然で既存の情報源は、以前のアプローチに比べて特に困難で騒がしく、大きく、目新しい課題である。 我々は、強化学習エージェントを訓練して、これらのソースを人間の意図でクエリする方法を学ぶことで、これらの課題に対処することを提案する。 textit{how}に対処するために、事前訓練されたQAモデルは、ターゲットドメインでゼロショットクエリを実行するのによく機能することを示した。 QAモデルによって取得された情報を使用して、エージェントにクエリを実行するように訓練する。 本手法は,強化学習環境での報酬を最大化するために,クエリの実行を正しく学習することを示す。

Generalization to out of distribution tasks in reinforcement learning is a challenging problem. One successful approach improves generalization by conditioning policies on task or environment descriptions that provide information about the current transition or reward functions. Previously, these descriptions were often expressed as generated or crowd sourced text. In this work, we begin to tackle the problem of extracting useful information from natural language found in the wild (e.g. internet forums, documentation, and wikis). These natural, pre-existing sources are especially challenging, noisy, and large and present novel challenges compared to previous approaches. We propose to address these challenges by training reinforcement learning agents to learn to query these sources as a human would, and we experiment with how and when an agent should query. To address the \textit{how}, we demonstrate that pretrained QA models perform well at executing zero-shot queries in our target domain. Using information retrieved by a QA model, we train an agent to learn \textit{when} it should execute queries. We show that our method correctly learns to execute queries to maximize reward in a reinforcement learning setting.
翻訳日:2022-05-27 14:25:52 公開日:2022-05-25
# 勾配降下アルゴリズムのための時間と逆温度に束縛された一様一般化とシミュレートアニーリング解析への応用

Uniform Generalization Bound on Time and Inverse Temperature for Gradient Descent Algorithm and its Application to Analysis of Simulated Annealing ( http://arxiv.org/abs/2205.12959v1 )

ライセンス: Link先を確認
Keisuke Suzuki(参考訳) 本稿では,非凸環境における確率勾配ランジュバンダイナミクス(sgld)の時間と逆温度に束縛された新しい一様一般化を提案する。 以前の研究は、その一般化境界は均一な安定性によって導かれるが、Rademacher複雑性を用いて、一般化を時間と逆温度に依存しないものにしている。 ラデマッハ複雑性を用いることで、空間全体に束縛された一般化から有界領域上の一般化を導出する問題を低減でき、したがって我々の一般化境界から時間と逆温度の影響を取り除くことができる。 この一般化の適用例として、非凸設定におけるシミュレーションアニーリングの有効性について評価する。 サンプルサイズ $n$ と time $s$ に対して、それぞれ$\sqrt{n^{-1} \log (n+1)}$ と $|(\log)^4(s)|^{-1}$ で評価を導出する。 ここで、$(\log)^4$は対数関数の4ドル倍の構成を表す。

In this paper, we propose a novel uniform generalization bound on the time and inverse temperature for stochastic gradient Langevin dynamics (SGLD) in a non-convex setting. While previous works derive their generalization bounds by uniform stability, we use Rademacher complexity to make our generalization bound independent of the time and inverse temperature. Using Rademacher complexity, we can reduce the problem to derive a generalization bound on the whole space to that on a bounded region and therefore can remove the effect of the time and inverse temperature from our generalization bound. As an application of our generalization bound, an evaluation on the effectiveness of the simulated annealing in a non-convex setting is also described. For the sample size $n$ and time $s$, we derive evaluations with orders $\sqrt{n^{-1} \log (n+1)}$ and $|(\log)^4(s)|^{-1}$, respectively. Here, $(\log)^4$ denotes the $4$ times composition of the logarithmic function.
翻訳日:2022-05-27 13:56:26 公開日:2022-05-25
# パーソナライズドレコメンデーションにおける選好ダイナミクス

Preference Dynamics Under Personalized Recommendations ( http://arxiv.org/abs/2205.13026v1 )

ライセンス: Link先を確認
Sarah Dean and Jamie Morgenstern(参考訳) 多くのプロジェクト(実践的かつ学術的なプロジェクト)は、ユーザの好みや意見が見ているコンテンツと変わらないという仮定の下で、ユーザと楽しめるコンテンツとをマッチングするアルゴリズムを設計している。 エビデンスによれば、個人の嗜好は、ラジカル化、ウサギの穴、分極、退屈といったコンテンツによって直接形作られており、内容に影響される選好の例である。 特に、パーソナライゼーションが起こらない「マスメディア」の生態系においても、例えば~\citet{hkazla2019geometric} と~\citet{gaitonde2021 polarization} の自然モデルで探索されたように、偏光が生じることがある。 すべてのユーザの嗜好が、既に好まれているコンテンツに引かれるか、あるいは、既に好まれていないコンテンツから取り除かれる場合、メディアの均一な消費は、わずか2つの極に収束する異質な嗜好の人口につながる。 本研究では,ユーザが<emph{personalized>コンテンツレコメンデーションを受けると,偏光に類似する現象が生じるかを検討する。 我々は、個人の嗜好が消費と楽しみのコンテンツへと移行し、消費と嫌悪のコンテンツから遠ざかる、同様の選好ダイナミクスのモデルを使用する。 このような環境では、標準的なユーザ報酬の最大化は、ほとんど自明な目標である(大規模な単純なアルゴリズムが常に後悔するだけである)。 より興味深い目的は、リコメンデーションアルゴリズムがユーザの好みの定常性を保証するための条件を理解することである。 本稿では,利用者の嗜好が分かっていれば,利用可能なコンテンツセットの温和な条件下で,ほぼ定常性を達成できるコンテンツレコメンデーションを設計する方法と,利用者の嗜好が不明な場合でも,ユーザの嗜好を十分に学べる方法について述べる。

Many projects (both practical and academic) have designed algorithms to match users to content they will enjoy under the assumption that user's preferences and opinions do not change with the content they see. Evidence suggests that individuals' preferences are directly shaped by what content they see -- radicalization, rabbit holes, polarization, and boredom are all example phenomena of preferences affected by content. Polarization in particular can occur even in ecosystems with "mass media," where no personalization takes place, as recently explored in a natural model of preference dynamics by~\citet{hkazla2019geometric} and~\citet{gaitonde2021polarization}. If all users' preferences are drawn towards content they already like, or are repelled from content they already dislike, uniform consumption of media leads to a population of heterogeneous preferences converging towards only two poles. In this work, we explore whether some phenomenon akin to polarization occurs when users receive \emph{personalized} content recommendations. We use a similar model of preference dynamics, where an individual's preferences move towards content the consume and enjoy, and away from content they consume and dislike. We show that standard user reward maximization is an almost trivial goal in such an environment (a large class of simple algorithms will achieve only constant regret). A more interesting objective, then, is to understand under what conditions a recommendation algorithm can ensure stationarity of user's preferences. We show how to design a content recommendations which can achieve approximate stationarity, under mild conditions on the set of available content, when a user's preferences are known, and how one can learn enough about a user's preferences to implement such a strategy even when user preferences are initially unknown.
翻訳日:2022-05-27 13:50:29 公開日:2022-05-25
# BiT:ロバストなバイナリ化マルチ蒸留トランス

BiT: Robustly Binarized Multi-distilled Transformer ( http://arxiv.org/abs/2205.13016v1 )

ライセンス: Link先を確認
Zechun Liu, Barlas Oguz, Aasish Pappu, Lin Xiao, Scott Yih, Meng Li, Raghuraman Krishnamoorthi, Yashar Mehdad(参考訳) 現代の事前学習型トランスフォーマーは、機械学習の最先端を急速に進歩させてきたが、パラメータや計算の複雑さも増大しており、リソースに制約のある環境でのデプロイがますます困難になっている。 ネットワークの重みとアクティベーションのバイナリ化はこれらの問題を著しく軽減するが、技術的には最適化の観点から難しい。 本研究では,従来よりもはるかに高精度なバイナリトランスフォーマーを実現する一連の改良点を明らかにする。 これには、2セットの2値化スキーム、学習パラメータを持つ新しい弾性二値活性化関数、より精度の高いモデルを低精度の学生に連続的に蒸留することでネットワークをその限界まで量子化する方法が含まれる。 これらのアプローチは、GLUE言語理解ベンチマークの完全なBERTベースラインに、ほぼ5.9%の精度でアプローチすることで、初めて完全に二項化されたトランスフォーマーモデルを実現する。

Modern pre-trained transformers have rapidly advanced the state-of-the-art in machine learning, but have also grown in parameters and computational complexity, making them increasingly difficult to deploy in resource-constrained environments. Binarization of the weights and activations of the network can significantly alleviate these issues, however is technically challenging from an optimization perspective. In this work, we identify a series of improvements which enables binary transformers at a much higher accuracy than what was possible previously. These include a two-set binarization scheme, a novel elastic binary activation function with learned parameters, and a method to quantize a network to its limit by successively distilling higher precision models into lower precision students. These approaches allow for the first time, fully binarized transformer models that are at a practical level of accuracy, approaching a full-precision BERT baseline on the GLUE language understanding benchmark within as little as 5.9%.
翻訳日:2022-05-27 13:24:06 公開日:2022-05-25
# カーネル密度推定器によるシンボル時系列表現の改善に向けて

Towards Symbolic Time Series Representation Improved by Kernel Density Estimators ( http://arxiv.org/abs/2205.12960v1 )

ライセンス: Link先を確認
Matej Kloska and Viera Rozinajova(参考訳) 本稿では,記号的時系列表現を扱う。 これは、シーケンス分類、パターンマイニング、異常検出、時系列インデクシング、その他のデータマイニングタスクで広く使われている、一般的なマッピングテクニックであるシンボリックアグリゲート近似アルゴリズム(sax)に基づいている。 しかし、この方法の欠点は、ガウス分布を持つ時系列に対してのみ確実に動作することである。 これまでの研究で我々は,ガウスと非ガウスのデータ分布を扱うことができるdwSAXと呼ばれるSAXの改良を提案してきた。 最近、我々のソリューション、edwSAXをさらに進歩させました。 我々の目標は、十分なアルファベット利用によって情報空間を最適にカバーし、できるだけ低い境界基準を満たすことであった。 本稿では, 時系列再構成誤差やユークリッド距離下界など, SAX よりも有望な改善を伴う一般的なタスクの評価を含む, 提案手法について述べる。

This paper deals with symbolic time series representation. It builds up on the popular mapping technique Symbolic Aggregate approXimation algorithm (SAX), which is extensively utilized in sequence classification, pattern mining, anomaly detection, time series indexing and other data mining tasks. However, the disadvantage of this method is, that it works reliably only for time series with Gaussian-like distribution. In our previous work we have proposed an improvement of SAX, called dwSAX, which can deal with Gaussian as well as non-Gaussian data distribution. Recently we have made further progress in our solution - edwSAX. Our goal was to optimally cover the information space by means of sufficient alphabet utilization; and to satisfy lower bounding criterion as tight as possible. We describe here our approach, including evaluation on commonly employed tasks such as time series reconstruction error and Euclidean distance lower bounding with promising improvements over SAX.
翻訳日:2022-05-27 13:21:16 公開日:2022-05-25
# TSEM:多変量時系列のための時間重み付き時空間説明可能なニューラルネットワーク

TSEM: Temporally Weighted Spatiotemporal Explainable Neural Network for Multivariate Time Series ( http://arxiv.org/abs/2205.13012v1 )

ライセンス: Link先を確認
Anh-Duy Pham, Anastassia Kuestenmacher, Paul G. Ploeger(参考訳) ディープラーニングはその柔軟性と適応性のおかげで、技術領域とビジネス領域のすべてに適合する1サイズソリューションになっています。 不透明なモデルを使って実装され、残念ながら結果の信頼性を損なう。 システムの振る舞いをより深く理解するためには、特に時系列によって駆動されるもので、ポストホックeXplainable Artificial Intelligence(XAI)アプローチと呼ばれるディープラーニングモデルの内部を見ることが重要である。 時系列データのxaiには、モデル非依存とモデル固有という2つの主要なタイプがある。 この研究ではモデル固有のアプローチが検討されている。 他のアプローチでは、クラスアクティベーションマッピング(cam)またはアテンションメカニズムを採用しているが、この2つの戦略を単に時間重み付き時空間説明可能ニューラルネットワーク(tsem)と呼ばれる単一のシステムに統合する。 TSEMは、CNN特徴写像の時間軸に対する注意重みとしてRNN隠蔽ユニットが使用されるように、RNNモデルとCNNモデルの能力を組み合わせる。 その結果,TSEMはXCMより優れていた。 精度はSTAMに似ているが、因果性、忠実性、時空間性など、多くの解釈可能性基準を満たす。

Deep learning has become a one-size-fits-all solution for technical and business domains thanks to its flexibility and adaptability. It is implemented using opaque models, which unfortunately undermines the outcome trustworthiness. In order to have a better understanding of the behavior of a system, particularly one driven by time series, a look inside a deep learning model so-called posthoc eXplainable Artificial Intelligence (XAI) approaches, is important. There are two major types of XAI for time series data, namely model-agnostic and model-specific. Model-specific approach is considered in this work. While other approaches employ either Class Activation Mapping (CAM) or Attention Mechanism, we merge the two strategies into a single system, simply called the Temporally Weighted Spatiotemporal Explainable Neural Network for Multivariate Time Series (TSEM). TSEM combines the capabilities of RNN and CNN models in such a way that RNN hidden units are employed as attention weights for the CNN feature maps temporal axis. The result shows that TSEM outperforms XCM. It is similar to STAM in terms of accuracy, while also satisfying a number of interpretability criteria, including causality, fidelity, and spatiotemporality.
翻訳日:2022-05-27 13:20:59 公開日:2022-05-25
# 機械学習を用いた救急医療施設の患者需要予測

Forecasting Patient Demand at Urgent Care Clinics using Machine Learning ( http://arxiv.org/abs/2205.13067v1 )

ライセンス: Link先を確認
Paula Maddigan and Teo Susnjak(参考訳) 緊急医療クリニックや救急部門は、スタッフの不足により、患者が期待する以上の待ち時間が長くなっている。 これらの遅延は副作用と関係している。 この領域の需要予測に関するこれまでの研究は、主に統計技術を用いており、機械学習のアプローチが近年の文献に現れ始めたばかりである。 この領域の予測問題は困難であり、また、典型的な需要パターンが破壊されているため、この推定にさらなる複雑さをもたらしたCOVID-19パンデミックによって複雑になっている。 本研究は,ニュージーランドのオークランドにある2つの大規模緊急医療クリニックにおいて,正確な患者提示を行うための機械学習手法の能力について検討する。 この問題領域で最も効果的な手法を決定するために、多くの機械学習アルゴリズムが研究され、毎日の患者の需要予測を3ヶ月前に行うことが課題となった。 また、需要予測に最も有効な特徴や、新型コロナウイルス(COVID-19)のパンデミック・ロックダウンによるボラティリティに適応できる特徴について、モデル行動の詳細な分析を行った。 その結果, アンサンブルをベースとした手法は, 最も正確で一貫したソリューションを平均で提供し, 既存手法に比べて23%-27%の改善を実現し, 日々の需要を推定した。

Urgent care clinics and emergency departments around the world periodically suffer from extended wait times beyond patient expectations due to inadequate staffing levels. These delays have been linked with adverse clinical outcomes. Previous research into forecasting demand this domain has mostly used a collection of statistical techniques, with machine learning approaches only now beginning to emerge in recent literature. The forecasting problem for this domain is difficult and has also been complicated by the COVID-19 pandemic which has introduced an additional complexity to this estimation due to typical demand patterns being disrupted. This study explores the ability of machine learning methods to generate accurate patient presentations at two large urgent care clinics located in Auckland, New Zealand. A number of machine learning algorithms were explored in order to determine the most effective technique for this problem domain, with the task of making forecasts of daily patient demand three months in advance. The study also performed an in-depth analysis into the model behaviour in respect to the exploration of which features are most effective at predicting demand and which features are capable of adaptation to the volatility caused by the COVID-19 pandemic lockdowns. The results showed that ensemble-based methods delivered the most accurate and consistent solutions on average, generating improvements in the range of 23%-27% over the existing in-house methods for estimating the daily demand.
翻訳日:2022-05-27 13:20:37 公開日:2022-05-25
# エッジAIを用いた小売分析のための人物カウントシステム

People counting system for retail analytics using edge AI ( http://arxiv.org/abs/2205.13020v1 )

ライセンス: Link先を確認
Karthik Reddy Kanjula, Vishnu Vardhan Reddy, Jnanesh K P, Jeffy S Abraham and Tanuja K(参考訳) IoTアプリケーションの開発は、ビジネス予測から自動運転車に至るまで、日々の生活において重要な役割を担っています。 AIとIoTの分野で最も影響を受けている分野のひとつは小売分析だ。 リテール分析(Retail Analytics)では、コンバージョンレート(Conversion Rates) - 小売店が店舗を訪れた人数と購入数を測定するために最もよく使う指標。 この小売コンバージョンレートは、マーケティング活動、在庫増、店舗出店、販売促進を評価する。 通称etc。 我々のプロジェクトは、EdgeでAIを使った費用対効果の高い人計数システムを構築することを目的としており、システムによってカウントされた人の総数と1日当たりの取引数を用いて変換率を計算することで、最小限のハードウェア要件で小売店最適化の分析的な洞察を提供するのに役立つ。

Developments in IoT applications are playing an important role in our day-to-day life, starting from business predictions to self driving cars. One of the area, most influenced by the field of AI and IoT is retail analytics. In Retail Analytics, Conversion Rates - a metric which is most often used by retail stores to measure how many people have visited the store and how many purchases has happened. This retail conversion rate assess the marketing operations, increasing stock, store outlet and running promotions ..etc. Our project intends to build a cost-effective people counting system with AI at Edge, where it calculates Conversion rates using total number of people counted by the system and number of transactions for the day, which helps in providing analytical insights for retail store optimization with a very minimum hardware requirements.
翻訳日:2022-05-27 13:13:36 公開日:2022-05-25
# リアルタイムエンプティシェルフ検出のための効率的なエンドツーエンド機械学習パイプラインの設計

Designing an Efficient End-to-end Machine Learning Pipeline for Real-time Empty-shelf Detection ( http://arxiv.org/abs/2205.13060v1 )

ライセンス: Link先を確認
Dipendra Jha, Ata Mahjoubfar, Anupama Joshi(参考訳) 小売店における商品のオン・シェルフ・アベイラビリティ(OSA)は、急速に変化する消費者商品や小売業において重要なビジネス基準である。 製品が在庫切れ(oos)で、顧客が設計した棚でそれを見つけることができない場合、これは顧客の振る舞いや将来の要求に悪影響を及ぼす。 今日の小売業者は、空の棚を検知し、製品のOSAを確保するためにいくつかの方法を採用しているが、手動、高価、または正確でないため、一般的には非効率で実用的ではない。 近年、機械学習ベースのソリューションが提案されているが、オンシェルフ製品の大量のアノテートデータセットがないため、高い計算コストと低い精度の問題に悩まされている。 本稿では,実時間空き棚検出のためのエンドツーエンド機械学習(ML)パイプラインを設計するためのエレガントなアプローチを提案する。 MLモデルの品質とデータ品質の強い依存性を考慮すると、適切なデータ収集、クリーン化、そしてモデリングに踏み込む前の正しいデータアノテーションの重要性に焦点を当てます。 空棚検出ソリューションは,実時間予測に対して計算効率が高くなければならないため,モデル性能を改善するために異なる実行時最適化を探索する。 当社のデータセットには、明確に定義されたガイドラインに従って収集、アノテートされた1000の画像が含まれています。 我々の低レイテンシモデルは平均F1スコア68.5%を実現し、Intel Xeon Goldで67イメージ/秒、A100 GPUで860イメージ/秒まで処理できる。 注釈付きデータセットは、最適化されたモデルとともに公開されています。

On-Shelf Availability (OSA) of products in retail stores is a critical business criterion in the fast moving consumer goods and retails sector. When a product is out-of-stock (OOS) and a customer cannot find it on its designed shelf, this causes a negative impact on the customer's behaviors and future demands. Several methods are being adopted by retailers today to detect empty shelves and ensure high OSA of products; however, such methods are generally ineffective and infeasible since they are either manual, expensive or less accurate. Recently machine learning based solutions have been proposed, but they suffer from high computation cost and low accuracy problem due to lack of large annotated datasets of on-shelf products. Here, we present an elegant approach for designing an end-to-end machine learning (ML) pipeline for real-time empty shelf detection. Considering the strong dependency between the quality of ML models and the quality of data, we focus on the importance of proper data collection, cleaning and correct data annotation before delving into modeling. Since an empty-shelf detection solution should be computationally-efficient for real-time predictions, we explore different run-time optimizations to improve the model performance. Our dataset contains 1000 images, collected and annotated by following well-defined guidelines. Our low-latency model achieves a mean average F1-score of 68.5%, and can process up to 67 images/s on Intel Xeon Gold and up to 860 images/s on an A100 GPU. Our annotated dataset is publicly available along with our optimized models.
翻訳日:2022-05-27 13:13:20 公開日:2022-05-25
# (参考訳) 機械翻訳ロバストネスと自然アセマンティック変動

Machine Translation Robustness to Natural Asemantic Variation ( http://arxiv.org/abs/2205.12514v1 )

ライセンス: CC BY 4.0
Jacob Bremerman, Xiang Ren, Jonathan May(参考訳) 本研究では,Natural Asemantic Variation (NAV) と呼ぶ未研究の言語現象を導入,形式化し,機械翻訳(MT)の堅牢性の観点から検討する。 標準のmtモデルは、希少でニュアンス的な言語形式に弱いことが示されており、現在のロバストネス技術は、"現実世界"データに頻度が高いにもかかわらず、この種の摂動を考慮していない。 実験結果は,NAVの特性についてより深い知見を与え,NAVの性能向上戦略を実証する。 また、NAVの堅牢性は言語間で伝達でき、合成摂動は人間の生成したNAVデータの利点の全てを達成できるわけではないことを示す。

We introduce and formalize an under-studied linguistic phenomenon we call Natural Asemantic Variation (NAV) and investigate it in the context of Machine Translation (MT) robustness. Standard MT models are shown to be less robust to rarer, nuanced language forms, and current robustness techniques do not account for this kind of perturbation despite their prevalence in "real world" data. Experiment results provide more insight into the nature of NAV and we demonstrate strategies to improve performance on NAV. We also show that NAV robustness can be transferred across languages and fine that synthetic perturbations can achieve some but not all of the benefits of human-generated NAV data.
翻訳日:2022-05-27 12:33:29 公開日:2022-05-25
# (参考訳) nuScenesデータセットを用いた構造認識とクラスバランス3次元オブジェクト検出

Structure Aware and Class Balanced 3D Object Detection on nuScenes Dataset ( http://arxiv.org/abs/2205.12519v1 )

ライセンス: CC BY 4.0
Sushruth Nagesh, Asfiya Baig, Savitha Srinivasan(参考訳) 自律走行には3次元物体検出が不可欠である。 ポイントクラウドベースの手法は、正確な深度情報のために3次元物体検出に人気が高まっている。 NuTonomyのnuScenesデータセットは、サイズ、センサーのモジュラリティ、カテゴリ、アノテーション番号などの一般的なデータセットを大きく拡張している。 しかし、厳しい階級不均衡に悩まされている。 クラスバランスの取れたグループ化とサンプリングの論文はこの問題に対処し、強化とサンプリング戦略を提案する。 しかし、このモデルの局所化精度は、ダウンスケール特徴写像における空間情報の損失に影響される。 本稿では,3次元点雲の構造情報を完全に活用する補助ネットワークを設計し,局部化精度を向上させることにより,CBGSモデルの性能を向上させることを提案する。 分離可能な補助ネットワークは、フォアグラウンドセグメンテーションとセンター推定という2つのポイントレベルの監督によって共同最適化される。 補助ネットワークは、テスト時に切り離すことができるため、推論中に余分な計算を導入しない。

3-D object detection is pivotal for autonomous driving. Point cloud based methods have become increasingly popular for 3-D object detection, owing to their accurate depth information. NuTonomy's nuScenes dataset greatly extends commonly used datasets such as KITTI in size, sensor modalities, categories, and annotation numbers. However, it suffers from severe class imbalance. The Class-balanced Grouping and Sampling paper addresses this issue and suggests augmentation and sampling strategy. However, the localization precision of this model is affected by the loss of spatial information in the downscaled feature maps. We propose to enhance the performance of the CBGS model by designing an auxiliary network, that makes full use of the structure information of the 3D point cloud, in order to improve the localization accuracy. The detachable auxiliary network is jointly optimized by two point-level supervisions, namely foreground segmentation and center estimation. The auxiliary network does not introduce any extra computation during inference, since it can be detached at test time.
翻訳日:2022-05-27 12:17:14 公開日:2022-05-25
# (参考訳) Crossmodal-3600:多言語多言語評価データセット

Crossmodal-3600: A Massively Multilingual Multimodal Evaluation Dataset ( http://arxiv.org/abs/2205.12522v1 )

ライセンス: CC BY 4.0
Ashish V. Thapliyal, Jordi Pont-Tuset, Xi Chen, Radu Soricut(参考訳) 多言語画像キャプションの研究は、高品質な評価データセットの欠如によって深刻な障害となっている。 本稿では,36言語で人為的な参照キャプションを付加した3600画像の地理的に多様なデータセットであるCrossmodal-3600データセット(略してXM3600)を提案する。 画像は世界中から選択され、36の言語が話されている地域をカバーし、直接翻訳によるアノテーションのアーティファクトを避けながら、すべての言語でスタイルの一貫性を達成するキャプションで注釈付けされた。 このベンチマークを多言語画像キャプションモデルのモデル選択に適用し,XM3600をゴールデンレファレンスとして用いた場合,人間の評価と優れた相関関係を示す。

Research in massively multilingual image captioning has been severely hampered by a lack of high-quality evaluation datasets. In this paper we present the Crossmodal-3600 dataset (XM3600 in short), a geographically diverse set of 3600 images annotated with human-generated reference captions in 36 languages. The images were selected from across the world, covering regions where the 36 languages are spoken, and annotated with captions that achieve consistency in terms of style across all languages, while avoiding annotation artifacts due to direct translation. We apply this benchmark to model selection for massively multilingual image captioning models, and show superior correlation results with human evaluations when using XM3600 as golden references for automatic metrics.
翻訳日:2022-05-27 12:08:20 公開日:2022-05-25
# (参考訳) 拡散過程の早期停止による拡散モデルの高速化

Accelerating Diffusion Models via Early Stop of the Diffusion Process ( http://arxiv.org/abs/2205.12524v1 )

ライセンス: CC BY 4.0
Zhaoyang Lyu, Xudong XU, Ceyuan Yang, Dahua Lin, Bo Dai(参考訳) denoising diffusion probabilistic models (ddpms) は様々な世代のタスクで素晴らしい性能を達成している。 データの分布を徐々にガウス分布に拡散する逆過程をモデル化することにより、ddpmsでサンプルを生成することはランダムにサンプリングされたガウス雑音を反復的にデノベーションすると見なすことができる。 しかし、実際にDDPMはガウスノイズから高品質なサンプルを得るために何十万ものデノナイジングステップを必要とすることが多く、非常に低い推論効率をもたらす。 本研究では, DDPM に対する早期停止型 DDPM (Early-Stopped DDPM) と呼ばれる原理的加速戦略を提案する。 鍵となる考え方は拡散過程を早期に停止することであり、初期拡散ステップのみを考慮し、逆の分極過程は非ガウス分布から始まる。 ES-DDPMにおいて、GANやVAEなどの強力な事前学習生成モデルを採用することにより、目標とする非ガウス分布からのサンプリングを、事前学習生成モデルから得られたサンプルを拡散させることで効率的に行うことができる。 このように、必要な分極ステップの数が大幅に削減される。 一方、ES-DDPMのサンプル品質も大幅に向上し、バニラDDPMと導入前訓練モデルの両方に優れる。 CIFAR-10、CelebA、ImageNet、LSUN-Bedroom、LSUN-Catの広範な実験において、ES-DDPMは代表ベースライン法よりも有望な加速効果と性能改善が得られる。 さらに、es-ddpmは、既存の加速度法と直交するなど、いくつかの魅力的な特性を示し、画像生成においてグローバルセマンティクスとローカルピクセルレベルの制御を同時に可能にする。

Denoising Diffusion Probabilistic Models (DDPMs) have achieved impressive performance on various generation tasks. By modeling the reverse process of gradually diffusing the data distribution into a Gaussian distribution, generating a sample in DDPMs can be regarded as iteratively denoising a randomly sampled Gaussian noise. However, in practice DDPMs often need hundreds even thousands of denoising steps to obtain a high-quality sample from the Gaussian noise, leading to extremely low inference efficiency. In this work, we propose a principled acceleration strategy, referred to as Early-Stopped DDPM (ES-DDPM), for DDPMs. The key idea is to stop the diffusion process early where only the few initial diffusing steps are considered and the reverse denoising process starts from a non-Gaussian distribution. By further adopting a powerful pre-trained generative model, such as GAN and VAE, in ES-DDPM, sampling from the target non-Gaussian distribution can be efficiently achieved by diffusing samples obtained from the pre-trained generative model. In this way, the number of required denoising steps is significantly reduced. In the meantime, the sample quality of ES-DDPM also improves substantially, outperforming both the vanilla DDPM and the adopted pre-trained generative model. On extensive experiments across CIFAR-10, CelebA, ImageNet, LSUN-Bedroom and LSUN-Cat, ES-DDPM obtains promising acceleration effect and performance improvement over representative baseline methods. Moreover, ES-DDPM also demonstrates several attractive properties, including being orthogonal to existing acceleration methods, as well as simultaneously enabling both global semantic and local pixel-level control in image generation.
翻訳日:2022-05-27 11:52:20 公開日:2022-05-25
# (参考訳) LOPS:弱教師付きテキスト分類のための擬似ラベル選択の学習順序

LOPS: Learning Order Inspired Pseudo-Label Selection for Weakly Supervised Text Classification ( http://arxiv.org/abs/2205.12528v1 )

ライセンス: CC BY 4.0
Dheeraj Mekala, Chengyu Dong, Jingbo Shang(参考訳) 弱い教師付きテキスト分類法は、通常擬似ラベルに基づいて深層神経分類器を訓練する。 擬似ラベルの品質は最終性能には不可欠であるが、ヒューリスティックな性質のため必然的にうるさいため、正しいラベルを選択することは性能向上に大きな可能性がある。 簡単な解の1つは、疑似ラベルに対応する神経分類器のソフトマックス確率スコアに基づいてサンプルを選択することである。 しかし, 過度な校正モデルによる誤った高信頼予測により, それらの解は非効率で不安定であることを示す。 深部神経モデルの記憶効果に関する最近の研究は、これらのモデルがまずクリーンラベルとノイズラベルのトレーニングサンプルを記憶していることを示唆している。 そこで本研究では,サンプルの学習順序を考慮に入れた新しい擬似ラベル選択手法LOPSを提案する。 そこで我々は,学習順序が間違ったアノテーションの確率をランキングで反映していると仮定し,早期に学習したサンプルを選択することを提案する。 LOPSは、4つの実世界のデータセットの広範な実験で確認されたように、既存の弱い教師付きテキスト分類手法のほとんどに対する強力なパフォーマンスブーストプラグインと見なすことができる。

Weakly supervised text classification methods typically train a deep neural classifier based on pseudo-labels. The quality of pseudo-labels is crucial to final performance but they are inevitably noisy due to their heuristic nature, so selecting the correct ones has a huge potential for performance boost. One straightforward solution is to select samples based on the softmax probability scores in the neural classifier corresponding to their pseudo-labels. However, we show through our experiments that such solutions are ineffective and unstable due to the erroneously high-confidence predictions from poorly calibrated models. Recent studies on the memorization effects of deep neural models suggest that these models first memorize training samples with clean labels and then those with noisy labels. Inspired by this observation, we propose a novel pseudo-label selection method LOPS that takes learning order of samples into consideration. We hypothesize that the learning order reflects the probability of wrong annotation in terms of ranking, and therefore, propose to select the samples that are learnt earlier. LOPS can be viewed as a strong performance-boost plug-in to most of existing weakly-supervised text classification methods, as confirmed in extensive experiments on four real-world datasets.
翻訳日:2022-05-27 11:30:18 公開日:2022-05-25
# (参考訳) スキルマシン:強化学習における時相論理構成

Skill Machines: Temporal Logic Composition in Reinforcement Learning ( http://arxiv.org/abs/2205.12532v1 )

ライセンス: CC BY 4.0
Geraud Nangue Tasse, Devon Jarvis, Steven James, Benjamin Rosman(参考訳) 強化学習における大きな課題は、解釈可能かつ検証可能な方法でタスクを指定することである。 1つの一般的なアプローチは、報酬マシン -- 解決すべきタスクをエンコードする有限状態マシン -- を通じてタスクを指定することである。 このようなタスクの解決策をエンコードした報酬マシンから直接学習可能な,スキルマシンを紹介します。 エージェントがまず報酬のない環境で基本スキルのセットを学習し、次にこれらのスキルを学習スキルマシンと組み合わせて、線形時間論理などの正規言語で指定された複合動作を生成するフレームワークを提案する。 これによりエージェントは、複雑な論理的タスク仕様からほぼ最適の振る舞いをゼロショットにマッピングできる。 エージェントがこれらの複雑な長方形タスクのいくつかに直面した,表型および高次元のゲーム環境において,我々のアプローチを実証する。 以上の結果から,エージェントは極めて複雑なタスク仕様を満足でき,さらに学習することなくほぼ最適な性能を得られることが示された。 最後に,適切な動作が要求される場合,オフライン強化学習アルゴリズムにより,スキルマシンの性能が向上することを示す。

A major challenge in reinforcement learning is specifying tasks in a manner that is both interpretable and verifiable. One common approach is to specify tasks through reward machines -- finite state machines that encode the task to be solved. We introduce skill machines, a representation that can be learned directly from these reward machines that encode the solution to such tasks. We propose a framework where an agent first learns a set of base skills in a reward-free setting, and then combines these skills with the learned skill machine to produce composite behaviours specified by any regular language, such as linear temporal logics. This provides the agent with the ability to map from complex logical task specifications to near-optimal behaviours zero-shot. We demonstrate our approach in both a tabular and high-dimensional video game environment, where an agent is faced with several of these complex, long-horizon tasks. Our results indicate that the agent is capable of satisfying extremely complex task specifications, producing near optimal performance with no further learning. Finally, we demonstrate that the performance of skill machines can be improved with regular offline reinforcement learning algorithms when optimal behaviours are desired.
翻訳日:2022-05-27 10:33:30 公開日:2022-05-25
# (参考訳) 質問分解ユニットは 必要なだけなのか?

Is a Question Decomposition Unit All We Need? ( http://arxiv.org/abs/2205.12538v1 )

ライセンス: CC BY 4.0
Pruthvi Patel, Swaroop Mishra, Mihir Parmar, Chitta Baral(参考訳) 大規模言語モデル(LM)は多くの自然言語処理(NLP)ベンチマークで最先端のパフォーマンスを達成した。 新たなベンチマークの増加に伴い、我々はより大きくより複雑なLMを構築します。 しかし、新しいLMの構築はコスト、時間、環境の影響で理想的な選択肢ではないかもしれない。 モデルの強みという観点からデータを表現することで、モデルが答えられるように、データを変更することができるのか? モデルを解くのが比較的容易な単純な質問の集合に、人間が難しい質問を分解できるかどうかを検討する。 我々は,様々な推論形式を含むデータセットを解析し,モデル性能(GPT3では24%,RoBERTa-SQuADでは29%,シンボリック計算機では29%)を分解的に向上させることができることを確認した。 当社のアプローチは、NLP研究を有意義に行うための実行可能な選択肢を提供します。 以上の結果から,Human-in-the-loop Question Decomposition (HQD) が大規模LM構築の代替となる可能性が示唆された。

Large Language Models (LMs) have achieved state-of-the-art performance on many Natural Language Processing (NLP) benchmarks. With the growing number of new benchmarks, we build bigger and more complex LMs. However, building new LMs may not be an ideal option owing to the cost, time and environmental impact associated with it. We explore an alternative route: can we modify data by expressing it in terms of the model's strengths, so that a question becomes easier for models to answer? We investigate if humans can decompose a hard question into a set of simpler questions that are relatively easier for models to solve. We analyze a range of datasets involving various forms of reasoning and find that it is indeed possible to significantly improve model performance (24% for GPT3 and 29% for RoBERTa-SQuAD along with a symbolic calculator) via decomposition. Our approach provides a viable option to involve people in NLP research in a meaningful way. Our findings indicate that Human-in-the-loop Question Decomposition (HQD) can potentially provide an alternate path to building large LMs.
翻訳日:2022-05-27 10:17:22 公開日:2022-05-25
# (参考訳) apport des ontologies pour le calcul de la similarit\e s\'emantique au sein d'un syst\'eme de recommandation

Apport des ontologies pour le calcul de la similarit\'e s\'emantique au sein d'un syst\`eme de recommandation ( http://arxiv.org/abs/2205.12539v1 )

ライセンス: CC BY 4.0
Le Ngoc Luyen, Marie-H\'el\`ene Abel, Philippe Gouspillou(参考訳) 用語、単語、テキストデータ間の意味的関連性や類似性の測定は、知識獲得、推薦システム、自然言語処理などのテキストデータを扱う様々なアプリケーションにおいて重要な役割を果たす。 近年,情報システムにおける知識基盤の構造的表現の形式として,多くのオントロジーが開発され,利用されている。 オントロジーからの意味的類似性の計算が発展し、文脈に応じて他の類似性計算法によって補完される。 本稿では,レコメンダシステムの文脈におけるオントロジに基づく意味的類似性の計算手法を提案する。

Measurement of the semantic relatedness or likeness between terms, words, or text data plays an important role in different applications dealing with textual data such as knowledge acquisition, recommender system, and natural language processing. Over the past few years, many ontologies have been developed and used as a form of structured representation of knowledge bases for information systems. The calculation of semantic similarity from ontology has developed and depending on the context is complemented by other similarity calculation methods. In this paper, we propose and carry on an approach for the calculation of ontology-based semantic similarity using in the context of a recommender system.
翻訳日:2022-05-27 10:00:25 公開日:2022-05-25
# (参考訳) ER-TEST:NLPモデルの説明規則化手法の評価

ER-TEST: Evaluating Explanation Regularization Methods for NLP Models ( http://arxiv.org/abs/2205.12542v1 )

ライセンス: CC BY 4.0
Brihi Joshi, Aaron Chan, Ziyi Liu, Shaoliang Nie, Maziar Sanjabi, Hamed Firooz and Xiang Ren(参考訳) ニューラルネットワークモデル(NLM)の推論プロセスは説明が難しいことで知られている。 近年,nlm行動の機械的合理性の自動生成に多くの進歩が見られたが,nlm行動を改善するための合理性の利用は少なくなっている。 後者では、説明正則化(ER)は、機械の論理を人間の論理に合わせることによって、NLMの一般化を改善することを目的としている。 先行研究は、主に分布内一般化(ID)によるERモデルの評価を行うが、分布外分布(OOD)に対するERの影響は、主に過小評価されている。 さらに、ERモデルのパフォーマンスがER基準の選択や、人間の合理性を持ったトレーニングインスタンスの数や選択によってどのように影響を受けるかはほとんど分かっていない。 そこで本研究では,ERモデルのOOD一般化を評価するプロトコルであるER-TESTを提案する。 ER-TESTを用いて, (A) 与えられたOOD設定に最も有効なER基準は何か? (b)人間的合理性のあるトレーニングインスタンスの数・数にerはどのように影響するか? (C)ERは遠隔指導による人間の理性に有効か? ER-TESTは、様々なタスクやデータセットを考慮し、これらの質問の包括的な分析を可能にする。 ER-TEST を通して,ER は ID の性能にはほとんど影響しないが,OOD の性能は 1-(3) で大きく向上することを示した。 また、最良なER基準はタスク依存であり、ERは限定的かつ遠方から指示された人間の理性でもOOD性能を向上させることができる。

Neural language models' (NLMs') reasoning processes are notoriously hard to explain. Recently, there has been much progress in automatically generating machine rationales of NLM behavior, but less in utilizing the rationales to improve NLM behavior. For the latter, explanation regularization (ER) aims to improve NLM generalization by pushing the machine rationales to align with human rationales. Whereas prior works primarily evaluate such ER models via in-distribution (ID) generalization, ER's impact on out-of-distribution (OOD) is largely underexplored. Plus, little is understood about how ER model performance is affected by the choice of ER criteria or by the number/choice of training instances with human rationales. In light of this, we propose ER-TEST, a protocol for evaluating ER models' OOD generalization along three dimensions: (1) unseen datasets, (2) contrast set tests, and (3) functional tests. Using ER-TEST, we study three key questions: (A) Which ER criteria are most effective for the given OOD setting? (B) How is ER affected by the number/choice of training instances with human rationales? (C) Is ER effective with distantly supervised human rationales? ER-TEST enables comprehensive analysis of these questions by considering a diverse range of tasks and datasets. Through ER-TEST, we show that ER has little impact on ID performance, but can yield large gains on OOD performance w.r.t. (1)-(3). Also, we find that the best ER criterion is task-dependent, while ER can improve OOD performance even with limited and distantly-supervised human rationales.
翻訳日:2022-05-27 08:35:50 公開日:2022-05-25
# (参考訳) 視覚変換器におけるグラディエント漏洩鎖の破壊

Breaking the Chain of Gradient Leakage in Vision Transformers ( http://arxiv.org/abs/2205.12551v1 )

ライセンス: CC BY 4.0
Yahui Liu, Bin Ren, Yue Song, Wei Bi, Nicu Sebe, Wei Wang(参考訳) ユーザプライバシはフェデレートラーニングにおいて大きな関心事である一方、ViT(Vision Transformer)は勾配ベースのインバージョンアタックに対して脆弱であることが判明している。 位置埋め込み(PE)における学習された低次元空間先行は、ViTの訓練を加速することを示す。 副作用として、ViTは位置を敏感にし、プライバシー漏洩のリスクが高い傾向にある。 vitモデルの位置非感受性の強化は、これらの勾配攻撃からデータプライバシを保護するための有望な方法である。 しかし、単にPEを削除すれば、ViTの収束と精度を損なうだけでなく、より深刻なプライバシーリスクに陥る可能性がある。 上記の矛盾に対処するために,vitsにおける勾配漏洩の連鎖を破る簡易かつ効率的なマスクジグソーパズル(mjp)法を提案する。 MJP は既存の ViT とその派生型に簡単に接続できる。 広範な実験により,提案手法は大規模データセット(imagenet-1k)の性能を向上させるだけでなく,典型的な勾配攻撃におけるプライバシ保護能力も大きく向上することを示した。 私たちのコードは、https://github.com/yhlleo/mjpで利用可能です。

User privacy is of great concern in Federated Learning, while Vision Transformers (ViTs) have been revealed to be vulnerable to gradient-based inversion attacks. We show that the learned low-dimensional spatial prior in position embeddings (PEs) accelerates the training of ViTs. As a side effect, it makes the ViTs tend to be position sensitive and at high risk of privacy leakage. We observe that enhancing the position-insensitive property of a ViT model is a promising way to protect data privacy against these gradient attacks. However, simply removing the PEs may not only harm the convergence and accuracy of ViTs but also places the model at more severe privacy risk. To deal with the aforementioned contradiction, we propose a simple yet efficient Masked Jigsaw Puzzle (MJP) method to break the chain of gradient leakage in ViTs. MJP can be easily plugged into existing ViTs and their derived variants. Extensive experiments demonstrate that our proposed MJP method not only boosts the performance on large-scale datasets (i.e., ImageNet-1K), but can also improve the privacy preservation capacity in the typical gradient attacks by a large margin. Our code is available at: https://github.com/yhlleo/MJP.
翻訳日:2022-05-27 08:10:14 公開日:2022-05-25
# (参考訳) タスク指向対話システムのヘルプネスと公正性

Helpfulness and Fairness of Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2205.12554v1 )

ライセンス: CC BY 4.0
Jiao Sun, Yu Hou, Jiin Kim and Nanyun Peng(参考訳) タスク指向対話システムは,ユーザからの質問に答え,即座に支援することを目的としている。 したがって、人間がいかに役に立つかは重要である。 しかし、タスク指向対話システムの人間による有益さやその公平さは、まだ研究されていない。 本稿では,対話応答が関連性があり,一貫性があり,有用であり,有益なものであると定義し,有用性の計算的測定について検討する。 そこで,対話システムの公平性を評価するために,異なるグループの有益性レベルを活用することを提案する。 そこで本研究では,対話応答の有用性に関する人間のアノテーションを収集し,応答の有用性を自動的に判定できる分類器を構築する。 3つの情報検索シナリオの下で実験を設計し、Wikipediaから各事例を収集する。 収集されたインスタンスでは、注意深く構築された質問を使って最先端の対話システムをクエリします。 分析の結果, 対話システムは, 発展途上国よりも高度に発達した国に有用である傾向にあり, これらの対話システムの基礎となる公平性の問題が明らかになった。

Task-oriented dialogue systems aim to answer questions from users and provide immediate help. Therefore, how humans perceive their helpfulness is important. However, neither the human-perceived helpfulness of task-oriented dialogue systems nor its fairness implication has been studied yet. In this paper, we define a dialogue response as helpful if it is relevant & coherent, useful, and informative to a query and study computational measurements of helpfulness. Then, we propose utilizing the helpfulness level of different groups to gauge the fairness of a dialogue system. To study this, we collect human annotations for the helpfulness of dialogue responses and build a classifier that can automatically determine the helpfulness of a response. We design experiments under 3 information-seeking scenarios and collect instances for each from Wikipedia. With collected instances, we use carefully-constructed questions to query the state-of-the-art dialogue systems. Through analysis, we find that dialogue systems tend to be more helpful for highly-developed countries than less-developed countries, uncovering a fairness issue underlying these dialogue systems.
翻訳日:2022-05-27 07:50:00 公開日:2022-05-25
# (参考訳) 埋め込み空間におけるランゲヴィンダイナミクスによる言語モデルからの制約サンプリング

Constrained Sampling from Language Models via Langevin Dynamics in Embedding Spaces ( http://arxiv.org/abs/2205.12558v1 )

ライセンス: CC BY 4.0
Sachin Kumar, Biswajit Paria, Yulia Tsvetkov(参考訳) 大きな事前学習された言語モデルは、一見人間と区別がつかないテキストを生成する能力で確立されている。 本研究では,そのような言語モデルからの制約付きサンプリングの問題について検討する。 つまり、ユーザ定義の制約を満たすテキストを生成する。 サンプルを左から右に生成する典型的なデコーディング戦略は、必ずしもそのような制約をグローバルに課すことを誘導するものではない。 代わりに、言語モデルのログ類似性と任意の微分可能な制約を1つのエネルギー関数に結合したサンプリング手順であるmucolaを提案し、出力シーケンス全体をノイズで初期化し、このエネルギーの勾配を用いてlangevin dynamicsによって定義されたマルコフ連鎖に従ってサンプルを生成する。 我々は,テキスト生成タスクのソフトな制約とハードな制約と,有害性回避,感情制御,キーワード誘導生成の競合する結果との組合せに対するアプローチを評価した。

Large pre-trained language models are well-established for their ability to generate text seemingly indistinguishable from humans. In this work, we study the problem of constrained sampling from such language models. That is, generating text that satisfies user-defined constraints. Typical decoding strategies which generate samples left-to-right are not always conducive to imposing such constraints globally. Instead, we propose MuCoLa -- a sampling procedure that combines the log-likelihood of the language model with arbitrary differentiable constraints into a single energy function; and generates samples by initializing the entire output sequence with noise and following a Markov chain defined by Langevin Dynamics using the gradients of this energy. We evaluate our approach on different text generation tasks with soft and hard constraints as well as their combinations with competitive results for toxicity avoidance, sentiment control, and keyword-guided generation.
翻訳日:2022-05-27 07:28:52 公開日:2022-05-25
# (参考訳) Spotlights: 球面から見た形状の探索

Spotlights: Probing Shapes from Spherical Viewpoints ( http://arxiv.org/abs/2205.12564v1 )

ライセンス: CC BY 4.0
Jiaxin Wei, Lige Liu, Ran Cheng, Wenqing Jiang, Minghao Xu, Xinyu Jiang, Tao Sun, Soren Schwertfeger, Laurent Kneip(参考訳) 近年、ポイントクラウド上に直接構築される学習表現の急増が目撃されている。 表現力は増すが、既存の表現の多くは依然として順序付けられた点集合を生成するのに苦労している。 球面多視点スキャナーにインスパイアされた新しいサンプリングモデルSpotlightsを提案し,3次元形状を1次元の奥行き値のコンパクトな配列として表現する。 球面上に均等に分布するカメラの構成をシミュレートし、各仮想カメラは主点から小さな同心円状の球面キャップのサンプルポイントを通して光線を投射し、球面に囲まれた物体との交点を探索する。 したがって、構造化された点雲は深さの関数として暗黙的に与えられる。 我々は,この新しいサンプリング方式の詳細な幾何学的解析を行い,点雲完了タスクの文脈での有効性を実証する。 合成データと実データの両方における実験結果から, 計算コストを大幅に削減しつつ, 効率と一貫性を両立できることが示された。 さらに,ダウンストリームポイントクラウド登録タスクにおいて,最先端の完了手法よりも優れた性能を示す。

Recent years have witnessed the surge of learned representations that directly build upon point clouds. Though becoming increasingly expressive, most existing representations still struggle to generate ordered point sets. Inspired by spherical multi-view scanners, we propose a novel sampling model called Spotlights to represent a 3D shape as a compact 1D array of depth values. It simulates the configuration of cameras evenly distributed on a sphere, where each virtual camera casts light rays from its principal point through sample points on a small concentric spherical cap to probe for the possible intersections with the object surrounded by the sphere. The structured point cloud is hence given implicitly as a function of depths. We provide a detailed geometric analysis of this new sampling scheme and prove its effectiveness in the context of the point cloud completion task. Experimental results on both synthetic and real data demonstrate that our method achieves competitive accuracy and consistency while having a significantly reduced computational cost. Furthermore, we show superior performance on the downstream point cloud registration task over state-of-the-art completion methods.
翻訳日:2022-05-27 06:47:54 公開日:2022-05-25
# (参考訳) Androidマルウェア検出器の公正比較と現実設計と評価フレームワーク

Towards a Fair Comparison and Realistic Design and Evaluation Framework of Android Malware Detectors ( http://arxiv.org/abs/2205.12569v1 )

ライセンス: CC BY 4.0
Borja Molina-Coronado and Usue Mori and Alexander Mendiburu and Jose Miguel-Alonso(参考訳) 他のサイバーセキュリティ分野と同様に、機械学習(ML)技術がAndroidマルウェアを検出するための有望なソリューションとして登場した。 この意味では、様々なアルゴリズムと特徴セットを用いた多くの提案が提案され、しばしば不適切な検出性能を報告している。 しかし、再現性の欠如と標準評価フレームワークの欠如により、これらの提案を比較するのは困難である。 本稿では,androidマルウェア検出に関する10の研究成果について,共通評価フレームワークを用いて分析を行う。 データセットの作成やデザイナの設計では考慮されないが、トレーニングされたMLモデルとそのパフォーマンスに大きく影響する5つの要因を特定した。 特に,(1)重複したサンプルの存在,(2)ラベル(グッドウェア/グレーウェア/マルウェア)の帰属,(3)クラス不均衡,(4)回避技術を用いたアプリの存在,(5)アプリの進化が与える影響を分析した。 この広範な実験に基づいて、研究されたMLベースの検出器は楽観的に評価され、良好な結果が得られた。 また,上記の要因を考慮して,androidマルウェア検出のためのより良いソリューションの設計と評価を可能にするためには,現実的なデータセットを生成することが不可欠であることを強調する。

As in other cybersecurity areas, machine learning (ML) techniques have emerged as a promising solution to detect Android malware. In this sense, many proposals employing a variety of algorithms and feature sets have been presented to date, often reporting impresive detection performances. However, the lack of reproducibility and the absence of a standard evaluation framework make these proposals difficult to compare. In this paper, we perform an analysis of 10 influential research works on Android malware detection using a common evaluation framework. We have identified five factors that, if not taken into account when creating datasets and designing detectors, significantly affect the trained ML models and their performances. In particular, we analyze the effect of (1) the presence of duplicated samples, (2) label (goodware/greyware/malware) attribution, (3) class imbalance, (4) the presence of apps that use evasion techniques and, (5) the evolution of apps. Based on this extensive experimentation, we conclude that the studied ML-based detectors have been evaluated optimistically, which justifies the good published results. Our findings also highlight that it is imperative to generate realistic datasets, taking into account the factors mentioned above, to enable the design and evaluation of better solutions for Android malware detection.
翻訳日:2022-05-27 06:46:56 公開日:2022-05-25
# (参考訳) EDIN: 未知のエンティティ発見とインデックスのためのエンドツーエンドベンチマークとパイプライン

EDIN: An End-to-end Benchmark and Pipeline for Unknown Entity Discovery and Indexing ( http://arxiv.org/abs/2205.12570v1 )

ライセンス: CC BY 4.0
Nora Kassner, Fabio Petroni, Mikhail Plekhanov, Sebastian Riedel, Nicola Cancedda(参考訳) Entity Linkingに関する既存の作業は、主に参照知識ベースが完成していると仮定しているため、すべての参照をリンクすることができる。 知識基盤が不完全であり、新しい概念が常に生じているため、実際にはそうではない。 本稿では,未知のエンティティである未知のエンティティを,知識ベースに記述せずにラベル付けしたエンティティを,既存のエンティティリンクシステムに統合する,未知のエンティティ発見インデックス(EDIN)ベンチマークを作成する。 EDINとゼロショットエンティティリンクとは対照的に、我々はそれらがもたらす追加の課題について洞察を提供する。 密集検索ベースのエンティティリンクに基づいて構築されたEDINパイプラインは、コンテキスト内の未知のエンティティの参照を検知、クラスタ、インデックスする。 実験により、複数の参照の情報を統合するエンティティごとの単一の埋め込みのインデックス化は、独立に参照のインデックス化よりも優れていることが示されている。

Existing work on Entity Linking mostly assumes that the reference knowledge base is complete, and therefore all mentions can be linked. In practice this is hardly ever the case, as knowledge bases are incomplete and because novel concepts arise constantly. This paper created the Unknown Entity Discovery and Indexing (EDIN) benchmark where unknown entities, that is entities without a description in the knowledge base and labeled mentions, have to be integrated into an existing entity linking system. By contrasting EDIN with zero-shot entity linking, we provide insight on the additional challenges it poses. Building on dense-retrieval based entity linking, we introduce the end-to-end EDIN pipeline that detects, clusters, and indexes mentions of unknown entities in context. Experiments show that indexing a single embedding per entity unifying the information of multiple mentions works better than indexing mentions independently.
翻訳日:2022-05-27 06:21:46 公開日:2022-05-25
# (参考訳) Fairer NLPに対する摂動増強法

Perturbation Augmentation for Fairer NLP ( http://arxiv.org/abs/2205.12586v1 )

ライセンス: CC BY 4.0
Rebecca Qian, Candace Ross, Jude Fernandes, Eric Smith, Douwe Kiela, Adina Williams(参考訳) 不要で有害な社会的バイアスは、モデルとデータセットの両方に影響し、NLP研究においてより健全なものになりつつある。 人口統計学的に混乱したデータに対するトレーニングは、より公平な言語モデルにつながるか? 我々は、人間の注釈付きテキスト摂動の大規模なデータセットを収集し、その上で自動摂動を訓練し、ヒューリスティックな代替手段より優れていることを示す。 以下に示す。 (i)人口変動コーパスで事前訓練された言語モデル(LM)は、少なくとも、モデルフェアネスを測定するための現在の最良の指標によれば、より公平である。 (II)乱れたGLUEデータセットに微調整されたLMでは、下流タスクに対する人口統計バイアスが低い。 改善された公正さは正確さを犠牲にしないことがわかった。 我々の発見は有望であるように思われるが、大きな言語モデルの(不)公正性を評価するのにどう最適かという問題だけでなく、いくつかの制限がある。 ニューラル人口の摂動を最初に探求することで、より公平なNLPに向けたさらなる改善が期待できる。

Unwanted and often harmful social biases are becoming ever more salient in NLP research, affecting both models and datasets. In this work, we ask: does training on demographically perturbed data lead to more fair language models? We collect a large dataset of human annotated text perturbations and train an automatic perturber on it, which we show to outperform heuristic alternatives. We find: (i) Language models (LMs) pre-trained on demographically perturbed corpora are more fair, at least, according to our current best metrics for measuring model fairness, and (ii) LMs finetuned on perturbed GLUE datasets exhibit less demographic bias on downstream tasks. We find that improved fairness does not come at the expense of accuracy. Although our findings appear promising, there are still some limitations, as well as outstanding questions about how best to evaluate the (un)fairness of large language models. We hope that this initial exploration of neural demographic perturbation will help drive more improvement towards fairer NLP.
翻訳日:2022-05-27 06:04:08 公開日:2022-05-25
# (参考訳) RobustLR:推論における論理的摂動に対するロバスト性の評価

RobustLR: Evaluating Robustness to Logical Perturbation in Deductive Reasoning ( http://arxiv.org/abs/2205.12598v1 )

ライセンス: CC BY 4.0
Soumya Sanyal, Zeyi Liao, Xiang Ren(参考訳) トランスフォーマーは、英語の自然言語で書かれた規則や文を含む論理的ルールベースで推論を行うことができる。 進歩は有望であるが、これらのモデルが言語の基本となる論理的意味論を理解することによって論理的推論を行うかどうかは現在不明である。 そこで本研究では,これらのモデルのロバスト性を評価し,ルールベースと標準論理同値条件における論理編集を最小化するための評価データセットであるロバストlrを提案する。 RoBERTa と T5 を用いて行った実験では、先行研究で訓練されたモデルはロバストLR の異なる摂動に対して一貫した性能が得られず、提案した論理摂動に対してモデルが堅牢でないことを示す。 さらに、モデルが特に論理否定や解離作用素の学習が困難であることが分かる。 総合的に評価セットを用いて、帰納的推論に基づく言語モデルの欠点をいくつか示し、最終的には自然言語に対する論理的推論のためのより良いモデルの設計に役立てることができる。

Transformers have been shown to be able to perform deductive reasoning on a logical rulebase containing rules and statements written in English natural language. While the progress is promising, it is currently unclear if these models indeed perform logical reasoning by understanding the underlying logical semantics in the language. To this end, we propose RobustLR, a suite of evaluation datasets that evaluate the robustness of these models to minimal logical edits in rulebases and some standard logical equivalence conditions. In our experiments with RoBERTa and T5, we find that the models trained in prior works do not perform consistently on the different perturbations in RobustLR, thus showing that the models are not robust to the proposed logical perturbations. Further, we find that the models find it especially hard to learn logical negation and disjunction operators. Overall, using our evaluation sets, we demonstrate some shortcomings of the deductive reasoning-based language models, which can eventually help towards designing better models for logical reasoning over natural language.
翻訳日:2022-05-27 05:11:47 公開日:2022-05-25
# (参考訳) 質問応答データセットの中間訓練による生成データ拡張の改善

Intermediate Training on Question Answering Datasets Improves Generative Data Augmentation ( http://arxiv.org/abs/2205.12604v1 )

ライセンス: CC BY 4.0
Dheeraj Mekala, Tu Vu, Jingbo Shang(参考訳) 手動でアノテートするデータセットには、ドメインの専門家が多くのドキュメントを読み、慎重にラベル付けする必要がある。 近年、GLM(pre-trained generative language model)は、生成データ拡張にそれらを活用する動機となるテキストを生成する際、例外的な能力を示している。 我々は、データ生成をコンテキスト生成タスクとして定式化し、中間訓練にQAデータセットを使用することにより、生成データ拡張を改善する。 具体的には、QAをタスクよりも形式として捉え、与えられた質問とその回答のコンテキストジェネレータとしてGLMを訓練する。 次に、ダウンストリームタスクを質問応答形式にキャストし、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。 最後に、細調整したGLMを用いて関連するコンテキストを生成し、それに対応するタスクの合成訓練データとしてさらに活用する。 我々は,複数の感情と話題分類データセットに関する広範囲な実験,ケーススタディ,アブレーション研究を行い,少数のゼロショット設定で性能が大幅に向上することを示す。 SST-2データセットでは、SocialIQAデータセットの中間トレーニングがマクロF1スコアで40%改善されている。 徹底的な分析を通して、高レベルの推論能力を必要とするQAデータセット(例えば、抽象的および常識的なQAデータセット)は、ショット数とゼロショットの両方で、最高のパフォーマンス向上をもたらす傾向があることを観察する。

Manually annotating datasets requires domain experts to read through many documents and carefully label them, which is often expensive. Recently, pre-trained generative language models (GLMs) have demonstrated exceptional abilities in generating text which motivates to leverage them for generative data augmentation. We improve generative data augmentation by formulating the data generation as context generation task and use question answering (QA) datasets for intermediate training. Specifically, we view QA to be more as a format than of a task and train GLMs as context generators for a given question and its respective answer. Then, we cast downstream tasks into question answering format and adapt the fine-tuned context generators to the target task domain. Finally, we use the fine-tuned GLM to generate relevant contexts, which is further used as synthetic training data for their corresponding tasks. We perform extensive experiments, case studies, and ablation studies on multiple sentiment and topic classification datasets and demonstrate substantial improvements in performance in few-shot, zero-shot settings. Remarkably, on the SST-2 dataset, intermediate training on SocialIQA dataset achieves an improvement of 40% on Macro-F1 score. Through thorough analyses, we observe that QA datasets that requires high-level reasoning abilities (e.g., abstractive and common-sense QA datasets) tend to give the best boost in performance in both few-shot and zero-shot settings.
翻訳日:2022-05-27 04:51:24 公開日:2022-05-25
# (参考訳) 情報探索対話のより現実的な生成に向けて

Towards More Realistic Generation of Information-Seeking Conversations ( http://arxiv.org/abs/2205.12609v1 )

ライセンス: CC BY-SA 4.0
Gangwoo Kim, Sungdong Kim, Kang Min Yoo, Jaewoo Kang(参考訳) 本稿では,新しい枠組みであるsimseek(非ラベル文書からの情報参照会話をシミュレーションする)を紹介し,その2つの変種を比較し,情報参照行動に対する深い視点を提供する。 まず,情報対称対話のための強力なシミュレータSimSeek-symを導入する。 合理的な会話をシミュレートするが、より現実的な情報検索の会話へと進む。 そこで本研究では,2つのエージェント間の情報非対称性を仮定したsimseek-asymを提案する。 実験の結果,SimSeek-asymは,CQAと会話検索という2つの下流タスクに対して,情報検索の会話を生成することができた。 特に、SimSeek-asymはベースラインモデルをQuACで1.1-1.9 F1スコア、OR-QuACで1.1スコア改善している。 さらに,合成データセットを徹底的に解析し,現実的な情報検索会話の重要な要因を明らかにする。

In this paper, we introduce a novel framework SimSeek (simulating information-seeking conversation from unlabeled documents) and compare two variants of it to provide a deeper perspective into the information-seeking behavior. We first introduce a strong simulator for information-symmetric conversation, SimSeek-sym, where questioner and answerer share all knowledge when conversing with one another. Although it simulates reasonable conversations, we take a further step toward more realistic information-seeking conversation. Hence, we propose SimSeek-asym that assumes information asymmetry between two agents, which encourages the questioner to seek new information from an inaccessible document. In our experiments, we demonstrate that SimSeek-asym successfully generates information-seeking conversations for two downstream tasks, CQA and conversational search. In particular, SimSeek-asym improves baseline models by 1.1-1.9 F1 score in QuAC, and by 1.1 of MRR in OR-QuAC. Moreover, we thoroughly analyze our synthetic datasets to identify crucial factors for realistic information-seeking conversation.
翻訳日:2022-05-27 04:31:58 公開日:2022-05-25
# (参考訳) 大規模言語モデルによる自動生成

Autoformalization with Large Language Models ( http://arxiv.org/abs/2205.12615v1 )

ライセンス: CC BY 4.0
Yuhuai Wu, Albert Q. Jiang, Wenda Li, Markus N. Rabe, Charles Staats, Mateja Jamnik, Christian Szegedy(参考訳) オートフォーマル化(Autoformalization)は、自然言語から形式仕様や証明への自動翻訳プロセスである。 オートフォルマライズシステムの成功は、形式的検証、プログラム合成、人工知能の分野を前進させる可能性がある。 オートフォーマル化の長期的な目標は長い間解明されているように思われるが、大きな言語モデルがこの目標に向けて新たな展望を提供することを示す。 我々は, LLM が数学の競合問題の大部分 (25.3 %$) を, Isabelle/HOL の形式的な仕様に完全変換できるという驚くべき観察を行う。 自己形式化された定理のトレーニングを通じて,前回導入した神経定理証明器を改良することにより,このプロセスの有用性を実証する。 我々の手法はMiniF2F定理証明ベンチマークで新たな最先端結果をもたらし、証明レートを29.6\%から35.2\%に改善した。

Autoformalization is the process of automatically translating from natural language mathematics to formal specifications and proofs. A successful autoformalization system could advance the fields of formal verification, program synthesis, and artificial intelligence. While the long-term goal of autoformalization seemed elusive for a long time, we show large language models provide new prospects towards this goal. We make the surprising observation that LLMs can correctly translate a significant portion ($25.3\%$) of mathematical competition problems perfectly to formal specifications in Isabelle/HOL. We demonstrate the usefulness of this process by improving a previously introduced neural theorem prover via training on these autoformalized theorems. Our methodology results in a new state-of-the-art result on the MiniF2F theorem proving benchmark, improving the proof rate from $29.6\%$ to $35.2\%$.
翻訳日:2022-05-27 04:13:29 公開日:2022-05-25
# (参考訳) 注意優先事項による視覚的質問応答の指導

Guiding Visual Question Answering with Attention Priors ( http://arxiv.org/abs/2205.12616v1 )

ライセンス: CC BY 4.0
Thao Minh Le, Vuong Le, Sunil Gupta, Svetha Venkatesh, Truyen Tran(参考訳) 現代の視覚推論システムの成功は、おそらくクロスモダリティの注意機構によるものである。 しかしながら、VQAのような熟考的推論では、各ステップで注意は拘束されず、推論に関連する情報を選択することを目的としたセマンティック操作よりも統計プール機構として機能する。 これは、トレーニング時、注意は推論チェーンの最後にある非常にスパースな信号(すなわち、回答ラベル)によってのみ誘導されるためである。 これにより、モダリティ間の注意重みは、所望の視覚言語結合から逸脱する。 このずれを正すために,言語・視覚的接地による注意機構の導出を提案する。 この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。 ここでは、回答アノテーションや外部接地監督を必要とせずに、質問と画像のペアリングからグラウンドグラウンドを学習する。 このグラウンドリングは、VQAモデル内の注意機構を、事前学習された注意重み計算と、ケースバイケースに基づく推論時間での重みの直接誘導というメカニズムの双対性を通じて導く。 このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。 この拡張により、VQAモデルの性能が向上し、教師付きデータへのアクセスが制限され、解釈可能性も向上する。

The current success of modern visual reasoning systems is arguably attributed to cross-modality attention mechanisms. However, in deliberative reasoning such as in VQA, attention is unconstrained at each step, and thus may serve as a statistical pooling mechanism rather than a semantic operation intended to select information relevant to inference. This is because at training time, attention is only guided by a very sparse signal (i.e. the answer label) at the end of the inference chain. This causes the cross-modality attention weights to deviate from the desired visual-language bindings. To rectify this deviation, we propose to guide the attention mechanism using explicit linguistic-visual grounding. This grounding is derived by connecting structured linguistic concepts in the query to their referents among the visual objects. Here we learn the grounding from the pairing of questions and images alone, without the need for answer annotation or external grounding supervision. This grounding guides the attention mechanism inside VQA models through a duality of mechanisms: pre-training attention weight calculation and directly guiding the weights at inference time on a case-by-case basis. The resultant algorithm is capable of probing attention-based reasoning models, injecting relevant associative knowledge, and regulating the core reasoning process. This scalable enhancement improves the performance of VQA models, fortifies their robustness to limited access to supervised data, and increases interpretability.
翻訳日:2022-05-27 04:12:31 公開日:2022-05-25
# (参考訳) 位置自由人間のポーズ推定

Location-free Human Pose Estimation ( http://arxiv.org/abs/2205.12619v1 )

ライセンス: CC BY 4.0
Xixia Xu, Yingguo Gao, Ke Yan, Xue Lin, Qi Zou(参考訳) 人間のポーズ推定(HPE)は通常、高性能に到達するために大規模なトレーニングデータを必要とする。 しかし、人体に対する高品質できめ細かい注釈を収集するのにはかなり時間がかかる。 この問題を軽減するため,HPEを再検討し,キーポイント位置の監視なしに位置のないフレームワークを提案する。 回帰に基づくHPEを分類の観点から再構成する。 CAMに基づく弱教師付きオブジェクトローカライゼーションに着想を得た結果,粒度HPEとオブジェクトレベルのローカライゼーションのギャップにより,粗いキーポイント位置がCAMを介して取得可能であることがわかった。 この目的のために,キーポイント間の微妙な違いを捉える構造的関係を備えた,人間のコンテキストのきめ細かい表現をマイニングするカスタマイズトランスフォーマーフレームワークを提案する。 具体的には,マルチスケール空間誘導型コンテキストエンコーダを設計し,その構造関係を符号化する部分認識型領域と関係符号化型プロトタイプ生成モジュールに着目した。 これらすべてが協力して、画像レベルのカテゴリーラベルからの弱い監督を強化する。 本モデルでは,MS-COCOとMPIIの25%のロケーションラベルしか持たない完全教師付き手法で,カテゴリレベルでのみ教師された場合に,3つのデータセット上での競合性能を実現する。

Human pose estimation (HPE) usually requires large-scale training data to reach high performance. However, it is rather time-consuming to collect high-quality and fine-grained annotations for human body. To alleviate this issue, we revisit HPE and propose a location-free framework without supervision of keypoint locations. We reformulate the regression-based HPE from the perspective of classification. Inspired by the CAM-based weakly-supervised object localization, we observe that the coarse keypoint locations can be acquired through the part-aware CAMs but unsatisfactory due to the gap between the fine-grained HPE and the object-level localization. To this end, we propose a customized transformer framework to mine the fine-grained representation of human context, equipped with the structural relation to capture subtle differences among keypoints. Concretely, we design a Multi-scale Spatial-guided Context Encoder to fully capture the global human context while focusing on the part-aware regions and a Relation-encoded Pose Prototype Generation module to encode the structural relations. All these works together for strengthening the weak supervision from image-level category labels on locations. Our model achieves competitive performance on three datasets when only supervised at a category-level and importantly, it can achieve comparable results with fully-supervised methods with only 25\% location labels on MS-COCO and MPII.
翻訳日:2022-05-27 03:48:24 公開日:2022-05-25
# (参考訳) 依存木の不偏性と効率的なサンプリング

Unbiased and Efficient Sampling of Dependency Trees ( http://arxiv.org/abs/2205.12621v1 )

ライセンス: CC BY 4.0
Milo\v{s} Stanojevi\'c(参考訳) ツリーにまたがる分布は、依存構文の計算モデリングの最も一般的な方法である。 しかし、ほとんどのツリーバンクは、すべての有効な依存ツリーがROOTノードから出てくる単一のエッジを持つ必要がある。 そのため、すべての標準推論アルゴリズムは依存木をモデリングするのに最適である。 zmigrod et al. (2021b) は、最近、単一ルート依存木分布の置き換えなしにサンプリングするアルゴリズムを提案した。 本稿では,Wilson-RCを用いたサンプリングアルゴリズムが,実際にバイアスのあるサンプルを生成しており,バイアスのない2つの代替手段を提案する。 さらに、$k$ツリーを$\mathcal{O}(kn^3)$に置き換えることなくサンプリングするために、アルゴリズムの漸近ランタイムを減少させる2つのアルゴリズム(インクリメンタル、並列)を提案する。 これらのアルゴリズムは漸近的にも実用的にも効率的である。

Distributions over spanning trees are the most common way of computational modeling of dependency syntax. However, most treebanks require that every valid dependency tree has a single edge coming out of the ROOT node, a constraint that is not part of the definition of spanning trees. For this reason all standard inference algorithms for spanning trees are sub-optimal for modeling dependency trees. Zmigrod et al. (2021b) have recently proposed algorithms for sampling with and without replacement from the single-root dependency tree distribution. In this paper we show that their fastest algorithm for sampling with replacement, Wilson-RC, is in fact producing biased samples and we provide two alternatives that are unbiased. Additionally, we propose two algorithms (one incremental, one parallel) that reduce the asymptotic runtime of their algorithm for sampling $k$ trees without replacement to $\mathcal{O}(kn^3)$. These algorithms are both asymptotically and practically more efficient.
翻訳日:2022-05-27 03:47:21 公開日:2022-05-25
# (参考訳) 強化学習によるマルチモーダル知識アライメント

Multimodal Knowledge Alignment with Reinforcement Learning ( http://arxiv.org/abs/2205.12630v1 )

ライセンス: CC BY 4.0
Youngjae Yu, Jiwan Chung, Heeseung Yun, Jack Hessel, JaeSung Park, Ximing Lu, Prithviraj Ammanabrolu, Rowan Zellers, Ronan Le Bras, Gunhee Kim, Yejin Choi(参考訳) 大きな言語モデルは、タスク固有のトレーニングデータなしでも、新しい設定に容易に適応する。 ゼロショット容量はマルチモーダル入力に拡張できるのか? 本研究では,言語のみのゼロショットモデルを拡張し,画像や音声のキャプションなどのマルチモーダルタスクに拡張するESPERを提案する。 例えば、画像の場合、報酬の最適化はCLIPから派生したコサイン類似性にのみ依存するので、明示的なペア(イメージ、キャプション)データを必要としない。 言語モデルのパラメータは変化しないため、ゼロショットの一般化のためのキャパシティは維持される。 実験の結果、ESPERはベースラインとさまざまなゼロショットタスクの事前作業に優れており、新たに収集したベンチマーク、ESPデータセット、各イメージに様々なスタイルのキャプションを生成するタスクモデルなどがある。

Large language models readily adapt to novel settings, even without task-specific training data. Can their zero-shot capacity be extended to multimodal inputs? In this work, we propose ESPER which extends language-only zero-shot models to unseen multimodal tasks, like image and audio captioning. Our key novelty is to use reinforcement learning to align multimodal inputs to language model generations without direct supervision: for example, in the image case our reward optimization relies only on cosine similarity derived from CLIP, and thus requires no additional explicitly paired (image, caption) data. Because the parameters of the language model are left unchanged, the model maintains its capacity for zero-shot generalization. Experiments demonstrate that ESPER outperforms baselines and prior work on a variety of zero-shot tasks; these include a new benchmark we collect+release, ESP dataset, which tasks models with generating several diversely-styled captions for each image.
翻訳日:2022-05-27 03:25:33 公開日:2022-05-25
# (参考訳) Zipf法による産業安全知識の探索

Exploring industrial safety knowledge via Zipf law ( http://arxiv.org/abs/2205.12636v1 )

ライセンス: CC BY 4.0
Zhenhua Wang, Ming Ren, Dong Gao, Zhuang Li(参考訳) ハザード・アンド・運用可能性分析 (hasden and operability analysis, hazop) 報告書には、専門的な経験とプロセスの性質を持つ貴重な産業安全知識 (isk) が含まれている。 ISKの属性に従えば、既存の研究は深層学習におけるシーケンシャルラベリングを通じてそれらを掘り下げている。 しかし,(1)ISKの不均一分布と(2)ISKの持続的重要性の2つの問題点がある。 そこで本研究では,ISKを探索するためのCRGMと呼ばれる新しい鉱業戦略を提案する。 言語学においてZipf法に触発されたCRGMは、共通希薄判別器、誘導伸長生成器、ISK抽出器から構成される。 第一に、HAZOP記述を共通語と稀語に分割し、後者が工業物質を多く含む共通記述と稀な記述を得る。 そして、深層テキスト生成において誘導拡張生成装置によって操作され、共通記述が誘導され、希少記述が拡張され、材料知識と機器知識が強化される。 最後に、ISK抽出器は、生成した記述からルールテンプレート法により材料知識と機器知識を処理し、追加のISKをトレーニングセットの補足として、提案したシーケンスラベリングモデルをトレーニングする。 2つの産業安全データセットについて複数の評価実験を行った。 その結果,CRGMは有望で満足感があり,モデルの性能が大幅に向上し,効率的で一般化されていることがわかった。 シーケンスラベリングモデルは、既存の研究よりも優れた期待性能も示しています。 我々の研究は、ISKを探求するための新たな視点を提供し、産業安全のインテリジェントな進歩に貢献できることを願っている。

The hazard and operability analysis (HAZOP) report contains precious industrial safety knowledge (ISK) with expert experience and process nature, which is of great significance to the development of industrial intelligence. Subject to the attributes of ISK, existing researches mine them through sequence labeling in deep learning. Yet, there are two thorny issues: (1) Uneven distribution of ISK and (2) Consistent importance of ISK: for safety review. In this study, we propose a novel generative mining strategy called CRGM to explore ISK. Inspired Zipf law in linguistics, CRGM consists of common-rare discriminator, induction-extension generator and ISK extractor. Firstly, the common-rare discriminator divides HAZOP descriptions into common words and rare words, and obtains the common description and the rare description, where the latter contains more industrial substances. Then, they are operated by the induction-extension generator in the way of deep text generation, the common description is induced and the rare description is extended, the material knowledge and the equipment knowledge can be enriched. Finally, the ISK extractor processes the material knowledge and equipment knowledge from the generated description through the rule template method, the additional ISK is regarded as the supplement of the training set to train the proposed sequence labeling model. We conduct multiple evaluation experiments on two industrial safety datasets. The results show that CRGM has promising and gratifying aptitudes, greatly improves the performance of the model, and is efficient and generalized. Our sequence labeling model also shows the expected performance, which is better than the existing research. Our research provides a new perspective for exploring ISK, we hope it can contribute support for the intelligent progress of industrial safety.
翻訳日:2022-05-27 03:00:43 公開日:2022-05-25
# (参考訳) 低リソーステンプレート抽出における正しい質問

Asking the Right Questions in Low Resource Template Extraction ( http://arxiv.org/abs/2205.12643v1 )

ライセンス: CC BY 4.0
Nils Holzenberger and Yunmo Chen and Benjamin Van Durme(参考訳) 情報抽出(IE)研究者は、既存の大規模QAリソースを活用してデータ効率を向上させるために、タスクを質問回答(QA)にマッピングしている。 特にテンプレート抽出(te)では、オントロジーを質問の集合にマッピングすることはラベル付き例を集めるよりも時間効率が良い。 TEシステムのエンドユーザがこれらの質問を設計できるかどうか、NLP実践者がそのプロセスに参加することが有益かどうかを問う。 TEの自然言語プロンプトを他の方法で表現する方法と比較する。 提案手法は,他のスタイルのプロンプトに対する質問の恩恵を受け,著者にNLPのバックグラウンドを必要とせず,TEをプロンプトで実行するための新しいモデルを提案する。

Information Extraction (IE) researchers are mapping tasks to Question Answering (QA) in order to leverage existing large QA resources, and thereby improve data efficiency. Especially in template extraction (TE), mapping an ontology to a set of questions can be more time-efficient than collecting labeled examples. We ask whether end users of TE systems can design these questions, and whether it is beneficial to involve an NLP practitioner in the process. We compare questions to other ways of phrasing natural language prompts for TE. We propose a novel model to perform TE with prompts, and find it benefits from questions over other styles of prompts, and that they do not require an NLP background to author.
翻訳日:2022-05-27 02:36:04 公開日:2022-05-25
# (参考訳) lingmess:コリファレンス解決のための言語的インフォームドマルチエキスパートスコア

LingMess: Linguistically Informed Multi Expert Scorers for Coreference Resolution ( http://arxiv.org/abs/2205.12644v1 )

ライセンス: CC BY 4.0
Shon Otmazgin, Arie Cattan, Yoav Goldberg(参考訳) コア参照の解決には様々な言語的課題が伴うのに対し、最近のモデルは全ての種類のペアに対して単一のペアワイズスコアラーに基づいている。 我々は、LingMessという新しいコア参照モデルを紹介し、コア参照ケースの異なるカテゴリを定義し、複数のペアワイズスコアラを最適化し、各スコアラが特定の言語的課題を学習する。 提案モデルは,ほとんどのカテゴリのペアワイズスコアを大幅に改善し,Ontonotesにおけるクラスタレベルのパフォーマンスを著しく向上させる。 私たちのモデルはhttps://github.com/shon-otmazgin/lingmess-corefで利用可能です。

While coreference resolution typically involves various linguistic challenges, recent models are based on a single pairwise scorer for all types of pairs. We present LingMess, a new coreference model that defines different categories of coreference cases and optimize multiple pairwise scorers, where each scorer learns a specific set of linguistic challenges. Our model substantially improves pairwise scores for most categories and outperforms cluster-level performance on Ontonotes. Our model is available in https://github.com/shon-otmazgin/lingmess-coref
翻訳日:2022-05-27 02:19:42 公開日:2022-05-25
# (参考訳) Few-shot Task Generalizationのための合成タスク構造の高速推論と転送

Fast Inference and Transfer of Compositional Task Structures for Few-shot Task Generalization ( http://arxiv.org/abs/2205.12648v1 )

ライセンス: CC BY 4.0
Sungryull Sohn, Hyunjae Woo, Jongwook Choi, lyubing qiang, Izzeddin Gur, Aleksandra Faust, Honglak Lee(参考訳) ピクセルベースのゲームやシミュレータを超えて複雑な構造を持つ実世界の問題に取り組む。 本稿では,タスクがサブタスクの集合とエージェントに未知な依存関係を定義するサブタスクグラフによって特徴付けられる,数発の強化学習問題として定式化する。 従来のメタrlメソッドが非構造化タスクの埋め込みを直接推論しようとするのと異なり、マルチタスクのサブタスクグラフ推論器(mtsgi)は、まずトレーニングタスクからサブタスクグラフの観点から共通のハイレベルなタスク構造を推論し、それを使ってテストにおけるタスク推論を改善する。 2次元グリッドワールドおよび複雑なwebナビゲーションドメインを用いた実験の結果,提案手法は,メタ強化学習,階層強化学習,その他のヒューリスティックエージェントといった既存のアルゴリズムよりも,未認識タスクへの適応を高速化するために,タスクの共通構造を学習し,活用できることがわかった。

We tackle real-world problems with complex structures beyond the pixel-based game or simulator. We formulate it as a few-shot reinforcement learning problem where a task is characterized by a subtask graph that defines a set of subtasks and their dependencies that are unknown to the agent. Different from the previous meta-rl methods trying to directly infer the unstructured task embedding, our multi-task subtask graph inferencer (MTSGI) first infers the common high-level task structure in terms of the subtask graph from the training tasks, and use it as a prior to improve the task inference in testing. Our experiment results on 2D grid-world and complex web navigation domains show that the proposed method can learn and leverage the common underlying structure of the tasks for faster adaptation to the unseen tasks than various existing algorithms such as meta reinforcement learning, hierarchical reinforcement learning, and other heuristic agents.
翻訳日:2022-05-27 02:10:15 公開日:2022-05-25
# (参考訳) アラビア語のコード変換データ拡張のための語彙置換の検討

Investigating Lexical Replacements for Arabic-English Code-Switched Data Augmentation ( http://arxiv.org/abs/2205.12649v1 )

ライセンス: CC BY 4.0
Injy Hamed, Nizar Habash, Slim Abdennadher, Ngoc Thang Vu(参考訳) CS (Code-switching) は NLP タスクにいくつかの課題を生じさせ、データ空間が CS の NLP システムの開発を妨げる主要な問題である。 本稿では,Dialectal Arabic-English CSテキストを合成するためのデータ拡張手法について検討する。 並列コーパスとアライメントを用いて語彙置換を行い、CSポイントをランダムに選択するか、シーケンス対シーケンスモデルを用いて学習する。 本研究では、言語モデル(lm)、機械翻訳(mt)、自動音声認識(asr)タスクにおけるデータ拡張の有効性を評価する。 その結果、1-1アライメントを使用する場合、訓練された予測モデルを用いることで、パープレキシティに反映されるようなより自然なCS文が生成されることがわかった。 成長ダイアログ-ファイナルアライメントに頼ることで、アライメントセグメントを特定し、それに従って置換を行う。 単語の代わりにセグメントを置き換えることで、合成データの品質が大幅に向上する。 この改良により、ランダムベースのアプローチは、すべての外在的タスクにおいて、訓練された予測モデルを使用してパフォーマンスを向上する。 最善のモデルは33.6%のパープレキシティ向上、+3.2-5.6ブルーポイントのmtタスク、7%のasrタスク向上を達成している。 また、アラビア英語 CS- English parallel corpus を収集・出版することで、資源のギャップを埋めることにも貢献する。

Code-switching (CS) poses several challenges to NLP tasks, where data sparsity is a main problem hindering the development of CS NLP systems. In this paper, we investigate data augmentation techniques for synthesizing Dialectal Arabic-English CS text. We perform lexical replacements using parallel corpora and alignments where CS points are either randomly chosen or learnt using a sequence-to-sequence model. We evaluate the effectiveness of data augmentation on language modeling (LM), machine translation (MT), and automatic speech recognition (ASR) tasks. Results show that in the case of using 1-1 alignments, using trained predictive models produces more natural CS sentences, as reflected in perplexity. By relying on grow-diag-final alignments, we then identify aligning segments and perform replacements accordingly. By replacing segments instead of words, the quality of synthesized data is greatly improved. With this improvement, random-based approach outperforms using trained predictive models on all extrinsic tasks. Our best models achieve 33.6% improvement in perplexity, +3.2-5.6 BLEU points on MT task, and 7% relative improvement on WER for ASR task. We also contribute in filling the gap in resources by collecting and publishing the first Arabic English CS-English parallel corpus.
翻訳日:2022-05-27 02:09:05 公開日:2022-05-25
# (参考訳) LEPUS:オープンドメインQAのためのプロンプトベースの教師なしマルチホップ

LEPUS: Prompt-based Unsupervised Multi-hop Reranking for Open-domain QA ( http://arxiv.org/abs/2205.12650v1 )

ライセンス: CC BY 4.0
Muhammad Khalifa, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Lu Wang(参考訳) オープンドメイン質問を用いたマルチホップQA(MQA)の教師なしマルチホップランキングについて検討する。 MQAは複数のドキュメントから情報を取得する必要があるため、主要な課題は推論プロセスをサポートする一連のパスの検索と再配置にある。 事前訓練された言語モデルによれば,提案手法は,候補文書パスに基づいて命令様のプロンプトを構築し,与えられた質問を生成する確率として経路の関連スコアを算出する。 監督されていないが、LEPUSは数千の例でトレーニングされた最先端の手法に対して、競争力のあるリランクパフォーマンスを得る。 少数のサンプル(例:2ドル)を追加すると、コンテキスト内学習によるさらなるパフォーマンス向上が示される。 最後に、リーダモジュールと統合すると、LEPUSは競合するマルチホップQA性能、例えば、完全教師付きQAシステムより優れていることを示す。 コードはhttps://github.com/mukhal/LEPUSでリリースされる。

We study unsupervised multi-hop reranking for multi-hop QA (MQA) with open-domain questions. Since MQA requires piecing information from multiple documents, the main challenge thus resides in retrieving and reranking chains of passages that support the reasoning process. Our approach relies on LargE models with Prompt-Utilizing reranking Strategy (LEPUS): we construct an instruction-like prompt based on a candidate document path and compute a relevance score of the path as the probability of generating a given question, according to a pre-trained language model. Though unsupervised, LEPUS yields competitive reranking performance against state-of-the-art methods that are trained on thousands of examples. Adding a small number of samples (e.g., $2$), we demonstrate further performance gain using in-context learning. Finally, we show that when integrated with a reader module, LEPUS can obtain competitive multi-hop QA performance, e.g., outperforming fully-supervised QA systems. Code will be released at https://github.com/mukhal/LEPUS
翻訳日:2022-05-27 01:49:47 公開日:2022-05-25
# (参考訳) 多言語モデルにおける言語中立サブネットワークの発見

Discovering Language-neutral Sub-networks in Multilingual Language Models ( http://arxiv.org/abs/2205.12672v1 )

ライセンス: CC BY 4.0
Negar Foroutan, Mohammadreza Banaei, Remi Lebret, Antoine Bosselut, Karl Aberer(参考訳) 多言語事前学習言語モデルは、下流タスクの言語間移動において極めてよく機能する。 彼らの印象的なパフォーマンスにもかかわらず、言語中立性(つまり、言語間で同様の現象をエンコードするために共有表現を使用する程度)に対する我々の理解は、そのようなパフォーマンスを達成する上での役割はオープンな疑問のままである。 本研究では,これらのモデルの言語符号化サブネットワーク間の重なり合いの関数として,多言語モデルの言語中立性を概念化する。 mBERTを基礎として、様々な言語やタスクに個別に最適化されたサブネットワークを見つけるために宝くじの仮説を用いる。 評価では,3つの異なるタスクと11の類型的多言語を用いて,異なる言語で見つかったサブネットワークが実際に非常によく似ていることを示し,mBERTが複数の言語を共通パラメータで共同符号化するという考えを支持した。 我々は,mBERTが複数の言語間で共有される言語ニュートラルなサブネットワークと,複数の補助言語固有のサブネットワークで構成されていると結論付けた。

Multilingual pre-trained language models perform remarkably well on cross-lingual transfer for downstream tasks. Despite their impressive performance, our understanding of their language neutrality (i.e., the extent to which they use shared representations to encode similar phenomena across languages) and its role in achieving such performance remain open questions. In this work, we conceptualize language neutrality of multilingual models as a function of the overlap between language-encoding sub-networks of these models. Using mBERT as a foundation, we employ the lottery ticket hypothesis to discover sub-networks that are individually optimized for various languages and tasks. Using three distinct tasks and eleven typologically-diverse languages in our evaluation, we show that the sub-networks found for different languages are in fact quite similar, supporting the idea that mBERT jointly encodes multiple languages in shared parameters. We conclude that mBERT is comprised of a language-neutral sub-network shared among many languages, along with multiple ancillary language-specific sub-networks, with the former playing a more prominent role in mBERT's impressive cross-lingual performance.
翻訳日:2022-05-27 01:30:27 公開日:2022-05-25
# (参考訳) インストラクションチューニングによる対話におけるゼロとファウショットの一般化の改善

Improving Zero and Few-shot Generalization in Dialogue through Instruction Tuning ( http://arxiv.org/abs/2205.12673v1 )

ライセンス: CC BY 4.0
Prakhar Gupta, Cathy Jiao, Yi-Ting Yeh, Shikib Mehri, Maxine Eskenazi and Jeffrey P. Bigham(参考訳) インストラクションチューニングはNLPにおける創発的なパラダイムであり、自然言語命令を言語モデルで活用し、目に見えないタスクでゼロショットのパフォーマンスを誘導する。 命令は、大きな言語モデルと小さな言語モデルの両方において、見当たらないタスクとデータセットで優れたパフォーマンスを実現することが示されている。 対話システムは言語に関連する複数の種類のタスク(自然言語理解や生成、ドメイン固有のインタラクションなど)を実行するが、対話に関連したタスクでは命令チューニングが体系的に検討されていないため、対話は特に興味深い分野である。 InstructDialは対話用インストラクション・チューニング・フレームワークであり、59のオープンな対話データセットから作成されるテキスト・テキスト・フォーマットで48の多様な対話タスクのリポジトリから構成される。 次に,多様な対話タスクにまたがる指示に基づくモデル上でのクロスタスク一般化能力について検討する。 分析の結果,InstructDialは未知のデータセットや対話評価や意図検出といったタスク上でのゼロショット性能が向上し,数ショット設定でのパフォーマンスも向上することがわかった。 モデルが指示に従うことを保証するため,新しいメタタスクを導入する。 複数の対話タスクにおいて,提案手法を用いて訓練したモデルのベンチマークゼロショットと少数ショット性能を確立する。

Instruction tuning is an emergent paradigm in NLP wherein natural language instructions are leveraged with language models to induce zero-shot performance on unseen tasks. Instructions have been shown to enable good performance on unseen tasks and datasets in both large and small language models. Dialogue is an especially interesting area to explore instruction tuning because dialogue systems perform multiple kinds of tasks related to language (e.g., natural language understanding and generation, domain-specific interaction), yet instruction tuning has not been systematically explored for dialogue-related tasks. We introduce InstructDial, an instruction tuning framework for dialogue, which consists of a repository of 48 diverse dialogue tasks in a unified text-to-text format created from 59 openly available dialogue datasets. Next, we explore cross-task generalization ability on models tuned on InstructDial across diverse dialogue tasks. Our analysis reveals that InstructDial enables good zero-shot performance on unseen datasets and tasks such as dialogue evaluation and intent detection, and even better performance in a few-shot setting. To ensure that models adhere to instructions, we introduce novel meta-tasks. We establish benchmark zero-shot and few-shot performance of models trained using the proposed framework on multiple dialogue tasks.
翻訳日:2022-05-27 01:12:49 公開日:2022-05-25
# (参考訳) ground-truth labels matter: 入力ラベルのデモをより深く見る

Ground-Truth Labels Matter: A Deeper Look into Input-Label Demonstrations ( http://arxiv.org/abs/2205.12685v1 )

ライセンス: CC BY 4.0
Junyeob Kim, Hyuhng Joon Kim, Hyunsoo Cho, Hwiyeol Jo, Sang-Woo Lee, Sang-goo Lee, Kang Min Yoo, Taeuk Kim(参考訳) 最近の研究関心の爆発にもかかわらず、文脈内学習とデモの質の正確な影響はいまだに解明されていない。 現在の文献によれば、インコンテキスト学習は教師付き学習と同じようなメカニズムを持つことが期待されているが、min et al. (2022) は最近、驚くほど、インプットラベル対応はプロンプトデモンストレーションの他の側面よりも重要でないと報告している。 この反直観的な観察から着想を得た我々は、多様な統計的観点からの文脈内学習における基底真理ラベルの重要性を再検討する。 新たに導入された指標であるGLER(Ground-Truth Label Effect Ratio)、デモゲイン(demo-gein)、ラベル感度(labor sensitivity)によって、正しい入力ラベルマッチングの影響は、構成によって異なることが判明した。 実証の役割に関する以前の重要な発見を反映して、補完的で対照的な結果は、コンテキスト内学習のデモンストレーションにおける各コンポーネントの影響を見積もる際に、もっと注意する必要があることを示唆している。

Despite recent explosion in research interests, in-context learning and the precise impact of the quality of demonstrations remain elusive. While, based on current literature, it is expected that in-context learning shares a similar mechanism to supervised learning, Min et al. (2022) recently reported that, surprisingly, input-label correspondence is less important than other aspects of prompt demonstrations. Inspired by this counter-intuitive observation, we re-examine the importance of ground truth labels on in-context learning from diverse and statistical points of view. With the aid of the newly introduced metrics, i.e., Ground-truth Label Effect Ratio (GLER), demo-gain, and label sensitivity, we find that the impact of the correct input-label matching can vary according to different configurations. Expanding upon the previous key finding on the role of demonstrations, the complementary and contrastive results suggest that one might need to take more care when estimating the impact of each component in in-context learning demonstrations.
翻訳日:2022-05-27 00:32:16 公開日:2022-05-25
# (参考訳) 文脈における自然言語理解

Understanding Natural Language in Context ( http://arxiv.org/abs/2205.12691v1 )

ライセンス: CC BY 4.0
Avichai Levy, Erez Karpas(参考訳) 近年、チャットボットの形で、あるいはAlexa(Amazon)、Google Assistant(Apple)、Cortana(Microsoft)などのパーソナルアシスタントを介して自然言語インターフェースを持つアプリケーションが増えている。 これらのアプリケーションを使用するには、ロボットと人間の基本的な対話が必要である。 このダイアログは, 現在, 家庭内での移動を一切行わない「静的な」ロボット内に存在するが, 家庭環境における物体の移動・操作が可能なロボットを扱う場合, 環境によって伝達される情報に対する推論の難しさは著しく増大している。 本稿では,世界の知識に基づくモデルを持ち,このモデルによる推論と計画によって機能する認知ロボットに焦点を当てる。 したがって、ロボットと人間のコミュニケーションには、ロボットの知識表現形式主義(英語版)といういくつかの形式主義がすでに存在する。 この研究の目標は、自然言語発話をこのロボットの形式に翻訳し、より複雑な家庭作業の完了を可能にすることです。 我々は、既製のSOTA言語モデル、計画ツール、ロボットの知識ベースを組み合わせてコミュニケーションを改善する。 さらに,異なるディレクティブタイプを分析し,翻訳プロセスへの世界のコンテキストの寄与を説明する。

Recent years have seen an increasing number of applications that have a natural language interface, either in the form of chatbots or via personal assistants such as Alexa (Amazon), Google Assistant, Siri (Apple), and Cortana (Microsoft). To use these applications, a basic dialog between the robot and the human is required. While this kind of dialog exists today mainly within "static" robots that do not make any movement in the household space, the challenge of reasoning about the information conveyed by the environment increases significantly when dealing with robots that can move and manipulate objects in our home environment. In this paper, we focus on cognitive robots, which have some knowledge-based models of the world and operate by reasoning and planning with this model. Thus, when the robot and the human communicate, there is already some formalism they can use - the robot's knowledge representation formalism. Our goal in this research is to translate natural language utterances into this robot's formalism, allowing much more complicated household tasks to be completed. We do so by combining off-the-shelf SOTA language models, planning tools, and the robot's knowledge-base for better communication. In addition, we analyze different directive types and illustrate the contribution of the world's context to the translation process.
翻訳日:2022-05-27 00:19:41 公開日:2022-05-25
# (参考訳) 電車のフラット化と圧縮:シャープネスを意識した最小化はより圧縮性のあるモデルを学ぶ

Train Flat, Then Compress: Sharpness-Aware Minimization Learns More Compressible Models ( http://arxiv.org/abs/2205.12694v1 )

ライセンス: CC BY 4.0
Clara Na, Sanket Vaibhav Mehta, Emma Strubell(参考訳) パラメータのプルーニング、量子化、蒸留によるモデル圧縮は、NLPのための現代のディープニューラルネットワークモデルの計算要求を減らすアプローチとして最近人気を集めている。 不要なパラメータを抽出することは、様々な現代のオフザシェルフハードウェア(量子化とは無関係)と互換性があり、追加の訓練(蒸留とは無関係)を必要とする大規模なモデルを圧縮するための単純で効果的な方法として現れてきた。 プルーニングアプローチは通常、大きく正確なモデルを入力として取り、そのモデルの小さなサブネットワークを発見し、フルモデルに匹敵するエンドタスク精度を達成する。 従来の研究から、より単純でより一般化可能なモデルと、損失ランドスケープの平坦な盆地内に位置するモデルとの接続を示唆した上で、タスク固有のプルーニングを実行しながら、フラットなミニマに対して直接最適化することを提案する。 急激度認識最小化と反復等級プルーニングと構造化プルーニングの両手法を併用した実験では, GLUE分類ベンチマークの精度をほとんど損なうことなく圧縮率の向上が期待できる。

Model compression by way of parameter pruning, quantization, or distillation has recently gained popularity as an approach for reducing the computational requirements of modern deep neural network models for NLP. Pruning unnecessary parameters has emerged as a simple and effective method for compressing large models that is compatible with a wide variety of contemporary off-the-shelf hardware (unlike quantization), and that requires little additional training (unlike distillation). Pruning approaches typically take a large, accurate model as input, then attempt to discover a smaller subnetwork of that model capable of achieving end-task accuracy comparable to the full model. Inspired by previous work suggesting a connection between simpler, more generalizable models and those that lie within flat basins in the loss landscape, we propose to directly optimize for flat minima while performing task-specific pruning, which we hypothesize should lead to simpler parameterizations and thus more compressible models. In experiments combining sharpness-aware minimization with both iterative magnitude pruning and structured pruning approaches, we show that optimizing for flat minima consistently leads to greater compressibility of parameters compared to standard Adam optimization when fine-tuning BERT models, leading to higher rates of compression with little to no loss in accuracy on the GLUE classification benchmark.
翻訳日:2022-05-27 00:05:07 公開日:2022-05-25
# (参考訳) 逆訓練線形回帰におけるサプライズ

Surprises in adversarially-trained linear regression ( http://arxiv.org/abs/2205.12695v1 )

ライセンス: CC BY 4.0
Ant\^onio H. Ribeiro and Dave Zachariah and Thomas B. Sch\"on(参考訳) 最先端の機械学習モデルは、反対に構築される非常に小さな入力摂動に対して脆弱である。 敵の訓練はこのような例に対して最も効果的なアプローチの1つである。 線形回帰問題に対しては,逆訓練を凸問題として定式化できることを示す。 この事実は、$\ell_\infty$-adversarial training がスパース解を生成し、ラッソ法と多くの類似点を持つことを示すために使われる。 同様に$\ell_2$-adversarial trainingもリッジ回帰と類似している。 このような類似点を分析し、理解するために、堅牢な回帰フレームワークを使用します。 最後に、過パラメータ化モデル(すなわち、データポイントよりも多くのパラメータを持つモデル)を推定する際に、敵対的トレーニングは他の正規化手法とは異なる振る舞いを示す。 解を正則化する3つの項の和を最小化するが、ラッソやリッジ回帰とは異なり、補間モードに鋭く遷移することができる。 学習モデルでは,十分な特徴量や正規化パラメータが十分小さい場合には,トレーニングデータを完全に補間し,サンプル性能も良好であることを示す。

State-of-the-art machine learning models can be vulnerable to very small input perturbations that are adversarially constructed. Adversarial training is one of the most effective approaches to defend against such examples. We show that for linear regression problems, adversarial training can be formulated as a convex problem. This fact is then used to show that $\ell_\infty$-adversarial training produces sparse solutions and has many similarities to the lasso method. Similarly, $\ell_2$-adversarial training has similarities with ridge regression. We use a robust regression framework to analyze and understand these similarities and also point to some differences. Finally, we show how adversarial training behaves differently from other regularization methods when estimating overparameterized models (i.e., models with more parameters than datapoints). It minimizes a sum of three terms which regularizes the solution, but unlike lasso and ridge regression, it can sharply transition into an interpolation mode. We show that for sufficiently many features or sufficiently small regularization parameters, the learned model perfectly interpolates the training data while still exhibiting good out-of-sample performance.
翻訳日:2022-05-26 23:46:26 公開日:2022-05-25
# (参考訳) DocREDの見直し -- 関係抽出における見過ごされた偽否定問題に対処する

Revisiting DocRED -- Addressing the Overlooked False Negative Problem in Relation Extraction ( http://arxiv.org/abs/2205.12696v1 )

ライセンス: CC BY 4.0
Qingyu Tan, Lu Xu, Lidong Bing, Hwee Tou Ng(参考訳) DocREDデータセットは、ドキュメントレベルの関係抽出(RE)のための最も人気があり広く使われているベンチマークの1つである。 大規模なアノテーション付きデータセットを持つために、推奨修正アノテーションスキームを採用している。 しかし,docredのアノテーションが不完全であること,すなわち偽陰性サンプルが一般的であることが判明した。 我々はDocREDデータセットにおける圧倒的な偽陰性問題の原因と影響を分析する。 欠点に対処するため、DocREDデータセットに4,053のドキュメントを再注釈し、失敗した関係を元のDocREDに追加しました。 修正されたDocREDデータセットをRe-DocREDと名付けます。 両者のデータセット上で最先端のニューラルモデルを用いた広範な実験を行い,実験結果から,リドクトレートでトレーニングおよび評価を行ったモデルが,約13f1点の性能向上を達成できることが確認された。 さらに,文書レベルのREタスクを包括的に評価するために,異なる指標を提案する。 データはhttps://github.com/tonytan48/Re-DocRED.comで公開しています。

The DocRED dataset is one of the most popular and widely used benchmarks for document-level relation extraction (RE). It adopts a recommend-revise annotation scheme so as to have a large-scale annotated dataset. However, we find that the annotation of DocRED is incomplete, i.e., the false negative samples are prevalent. We analyze the causes and effects of the overwhelming false negative problem in the DocRED dataset. To address the shortcoming, we re-annotate 4,053 documents in the DocRED dataset by adding the missed relation triples back to the original DocRED. We name our revised DocRED dataset Re-DocRED. We conduct extensive experiments with state-of-the-art neural models on both datasets, and the experimental results show that the models trained and evaluated on our Re-DocRED achieve performance improvements of around 13 F1 points. Moreover, we propose different metrics to comprehensively evaluate the document-level RE task. We make our data publicly available at https://github.com/tonytan48/Re-DocRED.
翻訳日:2022-05-26 23:24:34 公開日:2022-05-25
# (参考訳) empathic conversations: コンテキスト化された会話の多レベルデータセット

Empathic Conversations: A Multi-level Dataset of Contextualized Conversations ( http://arxiv.org/abs/2205.12698v1 )

ライセンス: CC BY 4.0
Damilola Omitaomu, Shabnam Tafreshi, Tingting Liu, Sven Buechel, Chris Callison-Burch, Johannes Eichstaedt, Lyle Ungar, Jo\~ao Sedoc(参考訳) 共感は他者の観察された状況に対する認知的で感情的な反応である。 共感は心理学やaiに多くの応用があるため、最近注目されているが、異なる種類の共感(自己報告対他報告、不安対苦悩など)が他の感情的な現象や性別や年齢層とどのように相互作用するかは不明である。 これをよりよく理解するために、私たちは、参加者のペアがニュース記事について会話する注釈付きネガティブで共感に富んだ対話のデータセットを作成しました。 人々は他人の共感に対する認識が異なる。 これらの違いはパーソナリティや人口統計といった特定の特徴と関連している。 そこで, 参加者の性格, 新聞記事に対する自己報告の共感反応, 会話相手の他報告, 自己開示, 感情, 共感のレベルをターンバイターンで評価した。 このデータセットは、パーソナリティ、感情、性格特性、および個人レベルの人口統計情報とともに、複数の形式で共感を示す最初のものである。 会話からこれらの特徴を予測するためのベースラインモデルを提案する。

Empathy is a cognitive and emotional reaction to an observed situation of others. Empathy has recently attracted interest because it has numerous applications in psychology and AI, but it is unclear how different forms of empathy (e.g., self-report vs counterpart other-report, concern vs. distress) interact with other affective phenomena or demographics like gender and age. To better understand this, we created the {\it Empathic Conversations} dataset of annotated negative, empathy-eliciting dialogues in which pairs of participants converse about news articles. People differ in their perception of the empathy of others. These differences are associated with certain characteristics such as personality and demographics. Hence, we collected detailed characterization of the participants' traits, their self-reported empathetic response to news articles, their conversational partner other-report, and turn-by-turn third-party assessments of the level of self-disclosure, emotion, and empathy expressed. This dataset is the first to present empathy in multiple forms along with personal distress, emotion, personality characteristics, and person-level demographic information. We present baseline models for predicting some of these features from conversations.
翻訳日:2022-05-26 23:04:05 公開日:2022-05-25
# (参考訳) タスクレベルの混合を用いたマルチタスク学習における伝達可能性の緩和

Eliciting Transferability in Multi-task Learning with Task-level Mixture-of-Experts ( http://arxiv.org/abs/2205.12701v1 )

ライセンス: CC BY 4.0
Qinyuan Ye, Juan Zha, Xiang Ren(参考訳) 最近の研究は、トランスフォーマーモデルが多様なNLPタスクをマルチタスクで学習できることを示唆している。 しかしながら、これらのモデルのポテンシャルは、全てのタスクに同じパラメータセットを使用するため、制限される可能性がある。 対照的に、人間は、スキルと知識が何に関連するのかを適切に仮定し、必要な計算だけを実行することによって、より柔軟な方法でタスクに取り組む。 そこで本研究では,これらの専門家を動的かつ柔軟に選択するために,トランスフォーマー層(エキスパートなど)とルータコンポーネントの集合を持つタスクレベルの混在モデルを提案する。 学習した経路決定と専門家は、部分的にnlpタスクの人間的分類を再発見することを示し、ある専門家は抽出タスク、ある者は分類タスク、あるものは世界知識を必要とするタスクと強く関連している。

Recent work suggests that transformer models are capable of multi-task learning on diverse NLP tasks. However, the potential of these models may be limited as they use the same set of parameters for all tasks. In contrast, humans tackle tasks in a more flexible way, by making proper presumptions on what skills and knowledge are relevant and executing only the necessary computations. Inspired by this, we propose to use task-level mixture-of-expert models, which has a collection of transformer layers (i.e., experts) and a router component to choose among these experts dynamically and flexibly. We show that the learned routing decisions and experts partially rediscover human categorization of NLP tasks -- certain experts are strongly associated with extractive tasks, some with classification tasks, and some with tasks requiring world knowledge.
翻訳日:2022-05-26 22:44:12 公開日:2022-05-25
# (参考訳) 事前学習言語モデルを用いたラベル誤りの検出

Detecting Label Errors using Pre-Trained Language Models ( http://arxiv.org/abs/2205.12702v1 )

ライセンス: CC BY 4.0
Derek Chong, Jenny Hong, Christopher D. Manning(参考訳) 自然言語データセットでラベルエラーを検出するためのより複雑なメカニズムよりも、分散損失の順にデータポイントを検証する方がはるかに簡単である。 クラウドソーシングされたデータからリアルで人間指向のラベルノイズを発生させる新しい手法を提案し,この手法の有効性をTweetNLPで実証し,現実的リコールの指標を得るのが困難であることを示す。

We show that large pre-trained language models are extremely capable of identifying label errors in datasets: simply verifying data points in descending order of out-of-distribution loss significantly outperforms more complex mechanisms for detecting label errors on natural language datasets. We contribute a novel method to produce highly realistic, human-originated label noise from crowdsourced data, and demonstrate the effectiveness of this method on TweetNLP, providing an otherwise difficult to obtain measure of realistic recall.
翻訳日:2022-05-26 22:07:46 公開日:2022-05-25
# (参考訳) 胸部X線画像の重症度分類

COVID-19 Severity Classification on Chest X-ray Images ( http://arxiv.org/abs/2205.12705v1 )

ライセンス: CC BY 4.0
Aditi Sagar, Aman Swaraj, Karan Verma(参考訳) バイオメディカルイメージングと人工知能(AI)の手法を組み合わせることで、新型コロナウイルスの診断に非常に価値があることが証明されている。 これまで、新型コロナウイルスの診断に様々な分類モデルが用いられてきた。 しかし, 重症度に基づく患者分類はまだ分析されていない。 本研究は,感染の重症度に基づいて画像の分類を行う。 まず、中央フィルタとヒストグラム等化を用いたX線画像の事前処理を行う。 拡張されたX線画像は、バランスの取れたデータセットを達成するためにSMOTE技術を用いて拡張される。 事前訓練されたResnet50、VGG16モデル、SVM分類器は特徴抽出と分類に使用される。 分類モデルの結果、胸部x線画像と比較して、resnet-50モデルは精度(95%)、リコール(0.94)、f1-score(0.92)、精度(0.91)の点で顕著な分類結果を示した。

Biomedical imaging analysis combined with artificial intelligence (AI) methods has proven to be quite valuable in order to diagnose COVID-19. So far, various classification models have been used for diagnosing COVID-19. However, classification of patients based on their severity level is not yet analyzed. In this work, we classify covid images based on the severity of the infection. First, we pre-process the X-ray images using a median filter and histogram equalization. Enhanced X-ray images are then augmented using SMOTE technique for achieving a balanced dataset. Pre-trained Resnet50, VGG16 model and SVM classifier are then used for feature extraction and classification. The result of the classification model confirms that compared with the alternatives, with chest X-Ray images, the ResNet-50 model produced remarkable classification results in terms of accuracy (95%), recall (0.94), and F1-Score (0.92), and precision (0.91).
翻訳日:2022-05-26 21:51:12 公開日:2022-05-25
# (参考訳) 高次元データストリームに対するスケーラブルなオンライン変更検出

Scalable Online Change Detection for High-dimensional Data Streams ( http://arxiv.org/abs/2205.12706v1 )

ライセンス: CC BY-SA 4.0
Florian Kalinke, Marco Heyden, Edouard Fouch\'e, Klemens B\"ohm(参考訳) データストリームの変化を検出することは、分析の中心的な目的であり、例えば、予測メンテナンス、不正検出、医学などの応用がある。 変化を検出するための原則的なアプローチは、ストリーム内で観測される分布を互いに比較することだ。 しかし、データストリームはしばしば高次元であり、変化は複雑である可能性がある。 ストリーミング設定では、メモリと計算の制限も重い。 本研究では,mmd(maximum average discrepancy adaptive windowing)と呼ばれるアルゴリズムを提案する。 MMDは、基礎となる分布の変化に敏感であるため、我々のアルゴリズムはストリーミング設定によって課される要求を満たす汎用的な非パラメトリック変化検出器である。 実験の結果,MMDAWは最先端の競合他社よりも検出精度が高いことがわかった。

Detecting changes in data streams is a core objective in their analysis and has applications in, say, predictive maintenance, fraud detection, and medicine. A principled approach to detect changes is to compare distributions observed within the stream to each other. However, data streams often are high-dimensional, and changes can be complex, e.g., only manifest themselves in higher moments. The streaming setting also imposes heavy memory and computation restrictions. We propose an algorithm, Maximum Mean Discrepancy Adaptive Windowing (MMDAW), which leverages the well-known Maximum Mean Discrepancy (MMD) two-sample test, and facilitates its efficient online computation on windows whose size it flexibly adapts. As MMD is sensitive to any change in the underlying distribution, our algorithm is a general-purpose non-parametric change detector that fulfills the requirements imposed by the streaming setting. Our experiments show that MMDAW achieves better detection quality than state-of-the-art competitors.
翻訳日:2022-05-26 21:40:28 公開日:2022-05-25
# (参考訳) VeriFi: 検証可能な未学習を目指して

VeriFi: Towards Verifiable Federated Unlearning ( http://arxiv.org/abs/2205.12709v1 )

ライセンス: CC BY 4.0
Xiangshan Gao, Xingjun Ma, Jingyi Wang, Youcheng Sun, Bo Li, Shouling Ji, Peng Cheng, Jiming Chen(参考訳) フェデレートラーニング(FL)は、参加者がプライベートデータを共有せずに強力なモデルを共同でトレーニングする、協調学習パラダイムである。 flの望ましい特性の1つは、忘れられる権利(rtbf)の実装である。つまり、離脱した参加者は、グローバルモデルからプライベートデータを削除するように要求する権利を有する。 しかし、未学習効果が独立に検証されない限り、未学習自体はrtbfを実装するには不十分であり、現在の文献では見過ごされている重要な側面である。 本稿では,検証可能なフェデレート・アンラーニングの概念を提唱し,複数のアンラーニングと検証手法の組み合わせにより,その効果の体系的解析と定量化を可能にするフェデレーション・アンラーニングと検証を統合する統一フレームワークであるverifiを提案する。 VeriFiでは、離脱した参加者は(RTV)検証する権利を与えられる。つまり、離脱前にサーバに通知し、次に数回の通信ラウンドで未学習効果を積極的に検証する。 未学習は、出発通知を受け取った直後のサーバ側で行われ、終了者による検証は、マーキング(注意して設計されたマーカーをフィンガープリンティングする)とチェック(マーカーにおけるグローバルモデルのパフォーマンスの変化を例示する)の2つのステップによってローカルに行われる。 本研究では,7つの学習方法と5つの検証方法を考慮して,検証可能なフェデレート・アンラーニングのための最初の体系的かつ大規模研究を行う。 特に,より効率的でflフレンドリーなアンラーニング手法と,より効果的で堅牢な2つの非侵襲的検証手法を提案する。 VeriFiを7つのデータセットと4種類のディープラーニングモデルで広範囲に評価する。 我々の分析は、より信頼できる連邦学習のための重要な経験的理解を確立する。

Federated learning (FL) is a collaborative learning paradigm where participants jointly train a powerful model without sharing their private data. One desirable property for FL is the implementation of the right to be forgotten (RTBF), i.e., a leaving participant has the right to request to delete its private data from the global model. However, unlearning itself may not be enough to implement RTBF unless the unlearning effect can be independently verified, an important aspect that has been overlooked in the current literature. In this paper, we prompt the concept of verifiable federated unlearning, and propose VeriFi, a unified framework integrating federated unlearning and verification that allows systematic analysis of the unlearning and quantification of its effect, with different combinations of multiple unlearning and verification methods. In VeriFi, the leaving participant is granted the right to verify (RTV), that is, the participant notifies the server before leaving, then actively verifies the unlearning effect in the next few communication rounds. The unlearning is done at the server side immediately after receiving the leaving notification, while the verification is done locally by the leaving participant via two steps: marking (injecting carefully-designed markers to fingerprint the leaver) and checking (examining the change of the global model's performance on the markers). Based on VeriFi, we conduct the first systematic and large-scale study for verifiable federated unlearning, considering 7 unlearning methods and 5 verification methods. Particularly, we propose a more efficient and FL-friendly unlearning method, and two more effective and robust non-invasive-verification methods. We extensively evaluate VeriFi on 7 datasets and 4 types of deep learning models. Our analysis establishes important empirical understandings for more trustworthy federated unlearning.
翻訳日:2022-05-26 21:24:14 公開日:2022-05-25
# (参考訳) グラフニューラルネットワークを用いたモノのインターネットにおけるサービス発見

Service Discovery in Social Internet of Things using Graph Neural Networks ( http://arxiv.org/abs/2205.12711v1 )

ライセンス: CC BY 4.0
Aymen Hamrouni, Hakim Ghazzai, and Yehia Massoud(参考訳) IoT(Internet-of-Things)ネットワークは、何千もの物理的エンティティをインテリジェントに接続して、コミュニティにさまざまなサービスを提供する。 ネットワークに存在するIoTデバイスを発見し、それに対応するサービスを要求するプロセスを複雑にしている。 IoT環境の極めてダイナミックな性質は、サービスディスカバリの従来のソリューションの使用を妨げるため、異種大規模IoTネットワークに適したスケーラブルなリソース割り当てニューラルモデルを提案することで、この問題に対処することを目指している。 我々は、IoTネットワーク内のデバイス間で形成される社会的関係を利用して、エンティティ検索の検索スペースを減らし、ネットワーク内の他のデバイスからサービスを取得するグラフニューラルネットワーク(GNN)アプローチを考案した。 提案するリソース割り当てアプローチは標準化問題を克服し,GNNによるソーシャルIoTグラフの構造と特性を組み込んで,最終的なクラスタリング分析プロセスを実現する。 実世界のデータセットに適用されたシミュレーション結果は、このソリューションのパフォーマンスと、大規模なIoTネットワークで運用する上での大幅な効率を示している。

Internet-of-Things (IoT) networks intelligently connect thousands of physical entities to provide various services for the community. It is witnessing an exponential expansion, which is complicating the process of discovering IoT devices existing in the network and requesting corresponding services from them. As the highly dynamic nature of the IoT environment hinders the use of traditional solutions of service discovery, we aim, in this paper, to address this issue by proposing a scalable resource allocation neural model adequate for heterogeneous large-scale IoT networks. We devise a Graph Neural Network (GNN) approach that utilizes the social relationships formed between the devices in the IoT network to reduce the search space of any entity lookup and acquire a service from another device in the network. This proposed resource allocation approach surpasses standardization issues and embeds the structure and characteristics of the social IoT graph, by the means of GNNs, for eventual clustering analysis process. Simulation results applied on a real-world dataset illustrate the performance of this solution and its significant efficiency to operate on large-scale IoT networks.
翻訳日:2022-05-26 20:50:26 公開日:2022-05-25
# (参考訳) 深層解釈可能なアンサンブル

Deep interpretable ensembles ( http://arxiv.org/abs/2205.12729v1 )

ライセンス: CC BY 4.0
Lucas Kook, Andrea G\"otschi, Philipp FM Baumann, Torsten Hothorn, Beate Sick(参考訳) アンサンブルは予測性能を改善し、複数のモデルから予測を集約することで不確実性定量化を可能にする。 deep ensemblingでは、個々のモデルは通常ブラックボックスニューラルネットワーク、あるいは最近では部分的に解釈可能な半構造化ディープトランスフォーメーションモデルである。 しかし、アンサンブル部材の解釈性は、集合すると一般的に失われる。 これは、解釈可能なモデルが要求される高次の決定分野における深いアンサンブルの重大な欠点である。 本稿では,確率論的予測を集約し,解釈可能性を維持し,平均的なアンサンブルメンバーよりも均一に優れた予測を得られる新しい変換アンサンブルを提案する。 変換アンサンブルは解釈可能な深層変換モデルに適合するが、より広範な確率的ニューラルネットワークに適用できる。 いくつかの公開データセットの実験において、変換アンサンブルは予測性能、識別、校正の点で古典的な深層アンサンブルと同等に動作することを示した。 さらに, 変換アンサンブルがアレタリックおよびてんかんの両不確実性を定量化し, 特定の条件下での最小の最適予測を生成する方法を示す。

Ensembles improve prediction performance and allow uncertainty quantification by aggregating predictions from multiple models. In deep ensembling, the individual models are usually black box neural networks, or recently, partially interpretable semi-structured deep transformation models. However, interpretability of the ensemble members is generally lost upon aggregation. This is a crucial drawback of deep ensembles in high-stake decision fields, in which interpretable models are desired. We propose a novel transformation ensemble which aggregates probabilistic predictions with the guarantee to preserve interpretability and yield uniformly better predictions than the ensemble members on average. Transformation ensembles are tailored towards interpretable deep transformation models but are applicable to a wider range of probabilistic neural networks. In experiments on several publicly available data sets, we demonstrate that transformation ensembles perform on par with classical deep ensembles in terms of prediction performance, discrimination, and calibration. In addition, we demonstrate how transformation ensembles quantify both aleatoric and epistemic uncertainty, and produce minimax optimal predictions under certain conditions.
翻訳日:2022-05-26 20:42:21 公開日:2022-05-25
# (参考訳) 生データからの複雑な知識のインダクティブ学習

Inductive Learning of Complex Knowledge from Raw Data ( http://arxiv.org/abs/2205.12735v1 )

ライセンス: CC BY 4.0
Daniel Cunnington, Mark Law, Jorge Lobo, Alessandra Russo(参考訳) 人工知能の究極の目標の1つは、生データから一般化された人間の解釈可能な知識を学ぶことである。 ニューロシンボリック推論アプローチは、手作業による記号知識ベースを用いたニューラルネットワークのトレーニングを改善することで、この問題に部分的に対処する。 生のデータから記号的知識を学ぶ場合、この知識は複雑な問題を解決するのに必要な表現力に欠ける。 本稿では,ニューラル・シンボリック・インダクティブ・ラーナー(nsil)について紹介する。ニューラル・ネットワークを訓練して生データから潜在概念を抽出し,これらの潜在概念で定義される複雑な問題を解決する記号的知識を学習する。 本手法の新規性は,ニューラルネットワークとシンボルコンポーネントの両方のトレーニング性能に基づいて,学習者の知識向上をバイアスする手法である。 NSILは,異なるレベルの複雑さで学習する知識を必要とする2つの問題領域において評価し,精度とデータ効率の観点からベースラインモデルを上回る性能を保ちながら,他のニューロシンボリックシステムでは学習できない知識を学習することを示した。

One of the ultimate goals of Artificial Intelligence is to learn generalised and human-interpretable knowledge from raw data. Neuro-symbolic reasoning approaches partly tackle this problem by improving the training of a neural network using a manually engineered symbolic knowledge base. In the case where symbolic knowledge is learned from raw data, this knowledge lacks the expressivity required to solve complex problems. In this paper, we introduce Neuro-Symbolic Inductive Learner (NSIL), an approach that trains a neural network to extract latent concepts from raw data, whilst learning symbolic knowledge that solves complex problems, defined in terms of these latent concepts. The novelty of our approach is a method for biasing a symbolic learner to learn improved knowledge, based on the in-training performance of both neural and symbolic components. We evaluate NSIL on two problem domains that require learning knowledge with different levels of complexity, and demonstrate that NSIL learns knowledge that is not possible to learn with other neuro-symbolic systems, whilst outperforming baseline models in terms of accuracy and data efficiency.
翻訳日:2022-05-26 20:41:04 公開日:2022-05-25
# (参考訳) 事前学習とデータ拡張の観点からの分布シフトロバスト性に関する実証的研究

An Empirical Study on Distribution Shift Robustness From the Perspective of Pre-Training and Data Augmentation ( http://arxiv.org/abs/2205.12753v1 )

ライセンス: CC BY 4.0
Ziquan Liu, Yi Xu, Yuanhong Xu, Qi Qian, Hao Li, Rong Jin, Xiangyang Ji, Antoni B. Chan(参考訳) 近年,分散シフト中の機械学習モデルの性能がコミュニティの焦点となっている。 現在の手法の多くは、アルゴリズムの観点から分散シフトのロバスト性を改善するために提案されており、すなわち、シフトしたテスト分布の一般化を支援するためにより良いトレーニングアルゴリズムを設計する。 本稿では,既存の研究で体系的に研究されていない深層学習の実践における2つの重要な要素である,事前学習とデータ拡張の観点から分布シフト問題を検討する。 WILDSとDomainBedベンチマークの5つの重要な分散シフトデータセットに対して、ResNetsやViTなど7つの事前学習モデルを評価し、5つの学習アルゴリズムを用いて、事前学習とデータ拡張に焦点を当てた初の総合的な実証的研究を行った。 1,330のモデルから得られた実験結果から,以下の主な観測結果を得た。 1)ERMとデータ拡張を組み合わせることで,データ特性を尊重する適切な事前学習モデルを選択すると,最先端の性能が得られる。 2) 特定アルゴリズムは,特定種類の分布シフトを扱う際のerm上のロバスト性をさらに向上させる。例えば,スプリアス相関のためのgroupdroと,大規模分散データのコーラルである。 3) 異なる事前学習モード, アーキテクチャ, およびデータサイズを比較することで, 分散シフトの事前学習について新たな観察を行い, 異なる種類の分散シフトに対する事前学習戦略の設計・選択に光を当てる。 要約すると,本研究では,データ拡張を微調整した幅広い事前学習モデルの総合的なベースラインを提供するとともに,分散シフト研究の今後における事前学習とデータ拡張のパワーを活用した研究を刺激する可能性がある。

The performance of machine learning models under distribution shift has been the focus of the community in recent years. Most of current methods have been proposed to improve the robustness to distribution shift from the algorithmic perspective, i.e., designing better training algorithms to help the generalization in shifted test distributions. This paper studies the distribution shift problem from the perspective of pre-training and data augmentation, two important factors in the practice of deep learning that have not been systematically investigated by existing work. By evaluating seven pre-trained models, including ResNets and ViT's with self-supervision and supervision mode, on five important distribution-shift datasets, from WILDS and DomainBed benchmarks, with five different learning algorithms, we provide the first comprehensive empirical study focusing on pre-training and data augmentation. With our empirical result obtained from 1,330 models, we provide the following main observations: 1) ERM combined with data augmentation can achieve state-of-the-art performance if we choose a proper pre-trained model respecting the data property; 2) specialized algorithms further improve the robustness on top of ERM when handling a specific type of distribution shift, e.g., GroupDRO for spurious correlation and CORAL for large-scale out-of-distribution data; 3) Comparing different pre-training modes, architectures and data sizes, we provide novel observations about pre-training on distribution shift, which sheds light on designing or selecting pre-training strategy for different kinds of distribution shifts. In summary, our empirical study provides a comprehensive baseline for a wide range of pre-training models fine-tuned with data augmentation, which potentially inspires research exploiting the power of pre-training and data augmentation in the future of distribution shift study.
翻訳日:2022-05-26 20:18:01 公開日:2022-05-25
# (参考訳) 二項分類のための深い正規化層を有する残留連結ニューラルネットワーク

Residual-Concatenate Neural Network with Deep Regularization Layers for Binary Classification ( http://arxiv.org/abs/2205.12775v1 )

ライセンス: CC BY 4.0
Abhishek Gupta, Sruthi Nair, Raunak Joshi, Vidya Chitre(参考訳) 多くの複雑なディープラーニングモデルは、様々な予測タスクに異なるバリエーションで使用される。 高い学習パラメータは必ずしも高い精度を保証するものではない。 これは、多くの正規化に基づく手法で非常に深いモデルの変化を考慮することで解決できる。 本稿では,多嚢胞性卵巣症候群の診断に最も適した残像と結合過程を有する多くの正規化層を用いたディープニューラルネットワークを訓練する。 このネットワークは、データのニーズを満たすためのあらゆるステップから改善され、99.3%の精度をシームレスに達成した。

Many complex Deep Learning models are used with different variations for various prognostication tasks. The higher learning parameters not necessarily ensure great accuracy. This can be solved by considering changes in very deep models with many regularization based techniques. In this paper we train a deep neural network that uses many regularization layers with residual and concatenation process for best fit with Polycystic Ovary Syndrome Diagnosis prognostication. The network was built with improvements from every step of failure to meet the needs of the data and achieves an accuracy of 99.3% seamlessly.
翻訳日:2022-05-26 19:52:19 公開日:2022-05-25
# (参考訳) RISC-Vプロセッサ上での人間活動認識のための超コンパクトバイナリニューラルネットワーク

Ultra-compact Binary Neural Networks for Human Activity Recognition on RISC-V Processors ( http://arxiv.org/abs/2205.12781v1 )

ライセンス: CC BY 4.0
Francesco Daghero, Chen Xie, Daniele Jahier Pagliari, Alessio Burrello, Marco Castellano, Luca Gandolfi, Andrea Calimera, Enrico Macii, Massimo Poncino(参考訳) HAR(Human Activity Recognition)は、多くのモバイルアプリケーションにおいて関連する推論タスクである。 最先端のhar at the edgeは通常、決定木やランダムフォレスト(rfs)といった軽量な機械学習モデルで実現されるが、計算複雑性が高いためディープラーニングは一般的ではない。 本研究では,深いニューラルネットワークに基づくHARの実装と,RISC-V命令セットを用いた低消費電力汎用プロセッサを対象としたBNN(Binary Neural Networks)を提案する。 BNNはビット演算をビット演算に置き換えたことにより、メモリフットプリントが非常に小さく、推論の複雑さが低い。 しかし、汎用プロセッサ上の既存のBNN実装では、複雑なコンピュータビジョンタスクに適した制約が課され、結果としてHARのような単純な問題に対する過度なパラメータ化モデルが生じる。 そこで我々は,超コンパクトモデルを対象とした新しいbnn推論ライブラリも導入する。 単一コアRISC-Vプロセッサの実験により、2つのHARデータセットでトレーニングされたBNNが、RFに基づく最先端ベースラインよりも高い分類精度が得られることを示す。 さらに,我々のBNNは,RFによって抽出される特徴の複雑さに応じて,記憶力の低下(最大91%)またはエネルギー効率の低下(最大70%)で同じ精度に達する。

Human Activity Recognition (HAR) is a relevant inference task in many mobile applications. State-of-the-art HAR at the edge is typically achieved with lightweight machine learning models such as decision trees and Random Forests (RFs), whereas deep learning is less common due to its high computational complexity. In this work, we propose a novel implementation of HAR based on deep neural networks, and precisely on Binary Neural Networks (BNNs), targeting low-power general purpose processors with a RISC-V instruction set. BNNs yield very small memory footprints and low inference complexity, thanks to the replacement of arithmetic operations with bit-wise ones. However, existing BNN implementations on general purpose processors impose constraints tailored to complex computer vision tasks, which result in over-parametrized models for simpler problems like HAR. Therefore, we also introduce a new BNN inference library, which targets ultra-compact models explicitly. With experiments on a single-core RISC-V processor, we show that BNNs trained on two HAR datasets obtain higher classification accuracy compared to a state-of-the-art baseline based on RFs. Furthermore, our BNN reaches the same accuracy of a RF with either less memory (up to 91%) or more energy-efficiency (up to 70%), depending on the complexity of the features extracted by the RF.
翻訳日:2022-05-26 19:46:38 公開日:2022-05-25
# (参考訳) Impartial Games:強化学習への挑戦

Impartial Games: A Challenge for Reinforcement Learning ( http://arxiv.org/abs/2205.12787v1 )

ライセンス: CC BY 4.0
Bei Zhou and S{\o}ren Riis(参考訳) AlphaZeroアルゴリズムとその後継であるMuZeroは、チェスや囲碁、アタリのようなビデオゲームなどの競争戦略ゲームに革命をもたらした。 ルールを知る以外に、AlphaZeroは各ゲームについて事前の知識を持っていなかった。 これは、第一原理から学べるプログラムを作成するための、長年にわたるAIチャレンジにおいて、劇的に進歩した。 理論的には、NEXPTIMEの難易度が知られているため、チェス、囲碁、小木などの戦略ゲームにおける深層学習の能力には限界がある。 一部の論文は、AlphaZeroの方法論には限界があり、一般的なAIには適さないと主張している。 しかし、これらの作品のどれも特定のゲームに対する特定の制限を示唆していない。 本稿では,提案するよりも強力なボトルネックを提供する。 我々は,AlphaZeroと類似の強化学習アルゴリズムの難解なブロックであると思われるゲーム,すなわちニムの(子供)ゲームとその他の公平なゲームの最初の具体例を示す。 ポリシネットワークとバリューネットワークの両方にボトルネックが適用可能であることを実験的に示す。 nmの解法は、対数空間を用いて線形時間で行うことができるため、実験結果は、多くのゲームのPSPACE(およびNEXPTIME)完全性に基づいて、既知の理論的限界に取って代わる。 nimは小さなボードで学習できるが、ボードサイズが大きくなるとalphazeroスタイルのアルゴリズムは急速に改善されない。 様々な設定、パラメータ設定、計算資源の難しさを定量化する。 我々の結果は、AlphaZeroの自己プレイパラダイムを拡張し、トレーニング中や、抽象的な変換の適用や、外部メモリへの読み書きといった実際のゲームプレイでメタアクションを使用できるようにするのに役立つかもしれない。

The AlphaZero algorithm and its successor MuZero have revolutionised several competitive strategy games, including chess, Go, and shogi and video games like Atari, by learning to play these games better than any human and any specialised computer program. Aside from knowing the rules, AlphaZero had no prior knowledge of each game. This dramatically advanced progress on a long-standing AI challenge to create programs that can learn for themselves from first principles. Theoretically, there are well-known limits to the power of deep learning for strategy games like chess, Go, and shogi, as they are known to be NEXPTIME hard. Some papers have argued that the AlphaZero methodology has limitations and is unsuitable for general AI. However, none of these works has suggested any specific limits for any particular game. In this paper, we provide more powerful bottlenecks than previously suggested. We present the first concrete example of a game - namely the (children) game of nim - and other impartial games that seem to be a stumbling block for AlphaZero and similar reinforcement learning algorithms. We show experimentally that the bottlenecks apply to both the policy and value networks. Since solving nim can be done in linear time using logarithmic space i.e. has very low-complexity, our experimental results supersede known theoretical limits based on many games' PSPACE (and NEXPTIME) completeness. We show that nim can be learned on small boards, but when the board size increases, AlphaZero style algorithms rapidly fail to improve. We quantify the difficulties for various setups, parameter settings and computational resources. Our results might help expand the AlphaZero self-play paradigm by allowing it to use meta-actions during training and/or actual game play like applying abstract transformations, or reading and writing to an external memory.
翻訳日:2022-05-26 19:26:58 公開日:2022-05-25
# (参考訳) ガウス過程の回帰と分類モデルの勾配に基づく説明

Gradient-based explanations for Gaussian Process regression and classification models ( http://arxiv.org/abs/2205.12797v1 )

ライセンス: CC BY 4.0
Sarem Seitz(参考訳) ガウス過程(GP)は確率的機械学習の信頼性と効果的な方法として証明されている。 近年の進歩により、GPを用いた複雑なデータモデリングはますます実現可能になっている。 このように、これらのモデルは現在、機械学習における現在の最先端技術であるニューラルとディープラーニングの方法に代わる興味深い選択肢である。 後者については、いわゆる説明可能なアプローチ – 本質的には機械学習モデルの意思決定プロセスを人間に透過的にすることを目的とした方法 – に対する関心が高まっています。 このような手法は、非論理的または偏見的推論が人間にとって本当の不利な結果をもたらす場合に特に必要である。 理想的には、機械学習はモデルのそのような欠陥を検出し、その後のデバッグプロセスを支援する。 機械学習の説明可能性に関する活発な研究の1つは、複雑なニューラルネットワークにうまく適用された勾配に基づく方法である。 GPは微分の下で閉じているので、GPの勾配に基づく説明性は研究の有望な分野として現れる。 本稿では,GP回帰とは対照的に,微分GPは簡単には得られない勾配によるGP分類器の説明に主眼を置いている。

Gaussian Processes (GPs) have proven themselves as a reliable and effective method in probabilistic Machine Learning. Thanks to recent and current advances, modeling complex data with GPs is becoming more and more feasible. Thus, these types of models are, nowadays, an interesting alternative to Neural and Deep Learning methods, which are arguably the current state-of-the-art in Machine Learning. For the latter, we see an increasing interest in so-called explainable approaches - in essence methods that aim to make a Machine Learning model's decision process transparent to humans. Such methods are particularly needed when illogical or biased reasoning can lead to actual disadvantageous consequences for humans. Ideally, explainable Machine Learning should help detect such flaws in a model and aid a subsequent debugging process. One active line of research in Machine Learning explainability are gradient-based methods, which have been successfully applied to complex neural networks. Given that GPs are closed under differentiation, gradient-based explainability for GPs appears as a promising field of research. This paper is primarily focused on explaining GP classifiers via gradients where, contrary to GP regression, derivative GPs are not straightforward to obtain.
翻訳日:2022-05-26 18:53:24 公開日:2022-05-25
# (参考訳) 鏡の輝きが一般化マージンを最大化し、効率よく実装できる

Mirror Descent Maximizes Generalized Margin and Can Be Implemented Efficiently ( http://arxiv.org/abs/2205.12808v1 )

ライセンス: CC BY 4.0
Haoyuan Sun, Kwangjun Ahn, Christos Thrampoulidis, Navid Azizan(参考訳) 経験的成功と深層ニューラルネットワークの広範な使用により、過パラメータ化モデルの一般化性能を理解することが、ますます人気が高まっている。 この目的のために、勾配降下 (gd) のような最適化アルゴリズムの暗黙のバイアスと、それらの望ましい解の構造的性質を特徴付けるために、かなりの努力がなされてきた。 分類設定のために、ミラー降下 (mirror descent, md) はどんな解決策に収束するのか? 具体的には、その効率的な実装を動機として、GDの重要な一般化である$\ell_p$-normの$p$-thパワーとして選択されたポテンシャル関数を持つミラー降下アルゴリズムの族を考える。 このアルゴリズムを$p$-$\textsf{GD}$と呼ぶ。 この族について、得られる解を特徴付け、線形分離可能な分類の$\ell_p$-norm に関して一般化された最大マージン解に収束することを示す。 MD更新ルールは一般的に計算にコストがかかり、おそらくディープラーニングには適さないが、$p$-$\textsf{GD}$はSGDと同じ方法で完全に並列化可能であり、事実上計算オーバーヘッドのないディープニューラルネットワークのトレーニングに使用できる。 線形ニューラルネットワークモデルと深層ニューラルネットワークモデルの両方を用いた包括的実験を用いて,$p$-$\textsf{gd}$が学習モデルの構造と一般化性能に顕著に影響を及ぼすことを実証した。

Driven by the empirical success and wide use of deep neural networks, understanding the generalization performance of overparameterized models has become an increasingly popular question. To this end, there has been substantial effort to characterize the implicit bias of the optimization algorithms used, such as gradient descent (GD), and the structural properties of their preferred solutions. This paper answers an open question in this literature: For the classification setting, what solution does mirror descent (MD) converge to? Specifically, motivated by its efficient implementation, we consider the family of mirror descent algorithms with potential function chosen as the $p$-th power of the $\ell_p$-norm, which is an important generalization of GD. We call this algorithm $p$-$\textsf{GD}$. For this family, we characterize the solutions it obtains and show that it converges in direction to a generalized maximum-margin solution with respect to the $\ell_p$-norm for linearly separable classification. While the MD update rule is in general expensive to compute and perhaps not suitable for deep learning, $p$-$\textsf{GD}$ is fully parallelizable in the same manner as SGD and can be used to train deep neural networks with virtually no additional computational overhead. Using comprehensive experiments with both linear and deep neural network models, we demonstrate that $p$-$\textsf{GD}$ can noticeably affect the structure and the generalization performance of the learned models.
翻訳日:2022-05-26 18:33:57 公開日:2022-05-25
# (参考訳) オンライングラフ問題に適用した入力予測の普遍的誤差測定

A Universal Error Measure for Input Predictions Applied to Online Graph Problems ( http://arxiv.org/abs/2205.12850v1 )

ライセンス: CC BY 4.0
Giulia Bernardini, Alexander Lindermayr, Alberto Marchetti-Spaccamela, Nicole Megow, Leen Stougie, Michelle Sweering(参考訳) 入力予測における誤差を定量化する新しい尺度を提案する。 この誤差は、最適に定義されたハイパーグラフの最小コストのハイパーエッジカバーに基づいており、オンライングラフ問題に適用する一般的なテンプレートを提供する。 この尺度は、予測されていない要求と予測されていない実際の要求によるエラーをキャプチャするので、予測と実際の入力は任意のサイズにすることができる。 我々は,Steiner ツリーや施設位置などのオンラインリストモデルにおいて,これまで研究されてきたネットワーク設計問題に対して,洗練された性能保証を実現する。 さらに,旅行セールスマン問題やダイヤル・ア・ライド問題などのオンラインルーティング問題に対する学習提示アルゴリズムの研究を開始し,そこでは(移動)要求が時間とともに到着する(オンライン時間モデル)。 我々は一般的なアルゴリズムフレームワークを提供し、任意の品質の予測が与えられた場合、最悪のケース境界をわずかに増加させるコストで、既知の最悪のケース障壁を改善するエラー依存の性能境界を与える。

We introduce a novel measure for quantifying the error in input predictions. The error is based on a minimum-cost hyperedge cover in a suitably defined hypergraph and provides a general template which we apply to online graph problems. The measure captures errors due to absent predicted requests as well as unpredicted actual requests; hence, predicted and actual inputs can be of arbitrary size. We achieve refined performance guarantees for previously studied network design problems in the online-list model, such as Steiner tree and facility location. Further, we initiate the study of learning-augmented algorithms for online routing problems, such as the traveling salesperson problem and dial-a-ride problem, where (transportation) requests arrive over time (online-time model). We provide a general algorithmic framework and we give error-dependent performance bounds that improve upon known worst-case barriers, when given accurate predictions, at the cost of slightly increased worst-case bounds when given predictions of arbitrary quality.
翻訳日:2022-05-26 17:51:33 公開日:2022-05-25
# (参考訳) 効率的なカモフラージュ物体検出のための深層学習

Deep Gradient Learning for Efficient Camouflaged Object Detection ( http://arxiv.org/abs/2205.12853v1 )

ライセンス: CC BY 4.0
Ge-Peng Ji, Deng-Ping Fan, Yu-Cheng Chou, Dengxin Dai, Alexander Liniger and Luc Van Gool(参考訳) 本稿では,COD(camouflaged object detection)にオブジェクト勾配監視を利用する新しいディープフレームワークであるDGNetを紹介する。 タスクを2つの接続されたブランチ、すなわちコンテキストとテクスチャエンコーダに分割する。 重要な接続は勾配によって引き起こされる遷移であり、コンテキストとテクスチャの特徴の間の柔らかいグルーピングを表している。 シンプルだが効率的なフレームワークから恩恵を受け、DGNetは既存の最先端のCODモデルよりも大きなマージンで優れている。 特に、効率的なDGNet-Sはリアルタイム(80 fps)で動作し、6.82%のパラメータしか持たない最先端モデル JCSOD-CVPR$_{21} に匹敵する結果が得られる。 また,提案するdgnetは,ポリプセグメンテーション,欠陥検出,透過的オブジェクトセグメンテーションタスクにおいて良好に機能することを示す。 コードはhttps://github.com/GewelsJI/DGNetで公開される。

This paper introduces DGNet, a novel deep framework that exploits object gradient supervision for camouflaged object detection (COD). It decouples the task into two connected branches, i.e., a context and a texture encoder. The essential connection is the gradient-induced transition, representing a soft grouping between context and texture features. Benefiting from the simple but efficient framework, DGNet outperforms existing state-of-the-art COD models by a large margin. Notably, our efficient version, DGNet-S, runs in real-time (80 fps) and achieves comparable results to the cutting-edge model JCSOD-CVPR$_{21}$ with only 6.82% parameters. Application results also show that the proposed DGNet performs well in polyp segmentation, defect detection, and transparent object segmentation tasks. Codes will be made available at https://github.com/GewelsJI/DGNet.
翻訳日:2022-05-26 17:49:51 公開日:2022-05-25
# (参考訳) 勾配支配関数に対するsgdを打ち負かす確率的二階法

Stochastic Second-Order Methods Provably Beat SGD For Gradient-Dominated Functions ( http://arxiv.org/abs/2205.12856v1 )

ライセンス: CC BY 4.0
Saeed Masiha, Saber Salehkaleybar, Niao He, Negar Kiyavash, Patrick Thiran(参考訳) 確率的立方体正規化ニュートン(scrn)の勾配支配性を満たす関数群における性能について検討し,機械学習と信号処理の幅広い応用について検討した。 この条件は、任意の一階定常点が大域的最適であることを保証する。 SCRNは、$\epsilon$-global optimumを$\mathcal{O}(\epsilon^{-1/2})$の係数で達成することで、確率勾配降下の最もよく知られたサンプル複雑性を改善する。 政策ベース強化学習(RL)に適用可能な勾配支配特性の弱いバージョンであっても、SCRNは確率的政策勾配法に対して同様の改善を行う。 さらに, SCRNのサンプル複雑性は, 時間変化したバッチサイズを持つ分散還元法を用いて${\mathcal{O}}(\epsilon^{-1/2})$の係数で改善できることを示した。 各種RL設定実験の結果, SCRNの性能は1次法と比較して顕著であった。

We study the performance of Stochastic Cubic Regularized Newton (SCRN) on a class of functions satisfying gradient dominance property which holds in a wide range of applications in machine learning and signal processing. This condition ensures that any first-order stationary point is a global optimum. We prove that SCRN improves the best-known sample complexity of stochastic gradient descent in achieving $\epsilon$-global optimum by a factor of $\mathcal{O}(\epsilon^{-1/2})$. Even under a weak version of gradient dominance property, which is applicable to policy-based reinforcement learning (RL), SCRN achieves the same improvement over stochastic policy gradient methods. Additionally, we show that the sample complexity of SCRN can be improved by a factor of ${\mathcal{O}}(\epsilon^{-1/2})$ using a variance reduction method with time-varying batch sizes. Experimental results in various RL settings showcase the remarkable performance of SCRN compared to first-order methods.
翻訳日:2022-05-26 17:18:30 公開日:2022-05-25
# (参考訳) 医用画像分割のための構造非バイアスadversarialモデル

Structure Unbiased Adversarial Model for Medical Image Segmentation ( http://arxiv.org/abs/2205.12857v1 )

ライセンス: CC BY 4.0
Tianyang Zhang, Shaoming Zheng, Jun Cheng, Xi Jia, Joseph Bartlett, Huazhu Fu, Zhaowen Qiu, Jiang Liu and Jinming Duan(参考訳) 画像認識において生成モデルが広く提案されており、実画像と分布が類似するより多くの画像を生成する。 しばしば差別化ネットワークを導入し、元の実データと生成されたデータを識別する。 しかし、そのような判別器はデータの分布をよく考慮し、構造による本質的なギャップに十分な注意を払わなかった。 本稿では,典型的な強度分布ギャップに加えて,構造ギャップを低減するため,新しい画像から画像への変換問題を再構成する。 さらに,医用画像セグメント化のための逆構造変形を学習可能なSUAM(Structure Unbiased Adversarial Model for Medical Image Segmentation)を提案する。 それは、構造抽出器、注意二相登録、および構造 \&インテンシティ分布レンダリングモジュールから構成されている。 構造抽出器は、入力画像の支配的構造を抽出することを目的とする。 逆変形場による構造ギャップを低減し, 予測マスクを元の形状に反動させるため, 注意二相登録を提案する。 構造レンダリングモジュールは、変形した構造を対象の強度分布で画像にレンダリングする。 光コヒーレンス断層撮影(oct)、磁気共鳴イメージング(mri)、コンピュータ断層撮影(ct)の両データに適用した。 実験の結果,提案手法は強度分布と構造分布の両方を伝達できることがわかった。

Generative models have been widely proposed in image recognition to generate more images where the distribution is similar to that of the real images. It often introduces a discriminator network to discriminate original real data and generated data. However, such discriminator often considers the distribution of the data and did not pay enough attention to the intrinsic gap due to structure. In this paper, we reformulate a new image to image translation problem to reduce structural gap, in addition to the typical intensity distribution gap. We further propose a simple yet important Structure Unbiased Adversarial Model for Medical Image Segmentation (SUAM) with learnable inverse structural deformation for medical image segmentation. It consists of a structure extractor, an attention diffeomorphic registration and a structure \& intensity distribution rendering module. The structure extractor aims to extract the dominant structure of the input image. The attention diffeomorphic registration is proposed to reduce the structure gap with an inverse deformation field to warp the prediction masks back to their original form. The structure rendering module is to render the deformed structure to an image with targeted intensity distribution. We apply the proposed SUAM on both optical coherence tomography (OCT), magnetic resonance imaging (MRI) and computerized tomography (CT) data. Experimental results show that the proposed method has the capability to transfer both intensity and structure distributions.
翻訳日:2022-05-26 17:17:09 公開日:2022-05-25
# (参考訳) ランドスケープ画像上のスキップ接続と融合層を用いたU-Net画像のカラー化

Image Colorization using U-Net with Skip Connections and Fusion Layer on Landscape Images ( http://arxiv.org/abs/2205.12867v1 )

ライセンス: CC BY-SA 4.0
Muhammad Hisyam Zayd, Novanto Yudistira, Randy Cahya Wihandika(参考訳) U-NetモデルとFusion Layer機能を組み合わせたグレースケール画像の自動カラー化手法を提案する。 このアプローチにより、事前訓練されたU-Netから画像のカラー化を学ぶことができる。 さらに、融合層を適用して、各クラス上の画像全体のグローバルプリエントと小さな画像パッチに依存するローカル情報結果をマージし、視覚的により説得力のあるカラー化結果を生成する。 最後に,このアプローチをユーザスタディ評価で検証し,最新技術と比較することで改善した。

We present a novel technique to automatically colorize grayscale images that combine the U-Net model and Fusion Layer features. This approach allows the model to learn the colorization of images from pre-trained U-Net. Moreover, the Fusion layer is applied to merge local information results dependent on small image patches with global priors of an entire image on each class, forming visually more compelling colorization results. Finally, we validate our approach with a user study evaluation and compare it against state-of-the-art, resulting in improvements.
翻訳日:2022-05-26 16:56:34 公開日:2022-05-25
# (参考訳) 機械学習とベイズ推論を用いたビジネス時系列の分析

Analytics of Business Time Series Using Machine Learning and Bayesian Inference ( http://arxiv.org/abs/2205.12905v1 )

ライセンス: CC BY 4.0
Bohdan M. Pavlyshenko(参考訳) 本調査では,Qラーニング,Bitcoin価格モデリング,COVID-19(COVID-19)を用いた非定常時系列予測,時間トレンド補正,動的価格と供給最適化を用いたディープラーニングアプローチ,分析におけるソーシャルネットワーク信号を用いた販売時系列予測のケーススタディを検討する。 予測分析における機械学習とベイズ推定の利用について分析した。

In the survey we consider the case studies on sales time series forecasting, the deep learning approach for forecasting non-stationary time series using time trend correction, dynamic price and supply optimization using Q-learning, Bitcoin price modeling, COVID-19 spread impact on stock market, using social networks signals in analytics. The use of machine learning and Bayesian inference in predictive analytics has been analyzed.
翻訳日:2022-05-26 16:48:21 公開日:2022-05-25
# (参考訳) 転がりシャッターカメラのコンテキスト対応映像再構成

Context-Aware Video Reconstruction for Rolling Shutter Cameras ( http://arxiv.org/abs/2205.12912v1 )

ライセンス: CC BY 4.0
Bin Fan, Yuchao Dai, Zhiyuan Zhang, Qi Liu, Mingyi He(参考訳) ローリングシャッター(RS)カメラの普及により、2つの連続したRSフレームから潜伏するグローバルシャッター(GS)ビデオの回収がますます魅力的になり、リアリズムへの需要も高まっている。 ディープニューラルネットワークや最適化を使用した既存のソリューションは、有望なパフォーマンスを実現する。 しかし、これらの手法は、必然的にブラックホールや顕著な運動アーティファクトをもたらすRSモデルに基づく画像ワープにより、中間GSフレームを生成する。 本稿では,文脈認識型gsビデオ再構成アーキテクチャを提案することで,これらの問題を緩和する。 これは排他的推論、運動補償、時間的抽象といった利点を促進する。 具体的には、まず2つのRSフレームの画素が共通のGSフレームに一致するように左右の運動場を推定する。 そこで,両面閉塞マスクとともにGSフレーム合成を誘導し,任意の時間で高忠実度GSビデオフレームを生成する改良手法を提案する。 さらに, 関連タスクに対して, 単純かつ効果的なGSフレーム初期化を提供するための代替として機能する, 近似された両側運動場モデルも導出する。 合成データと実データを用いた実験により, 客観的指標と主観的視覚品質の観点から, 最先端手法よりも優れた性能が得られることを示した。 コードは \url{https://github.com/GitCVfb/CVR} で入手できる。

With the ubiquity of rolling shutter (RS) cameras, it is becoming increasingly attractive to recover the latent global shutter (GS) video from two consecutive RS frames, which also places a higher demand on realism. Existing solutions, using deep neural networks or optimization, achieve promising performance. However, these methods generate intermediate GS frames through image warping based on the RS model, which inevitably result in black holes and noticeable motion artifacts. In this paper, we alleviate these issues by proposing a context-aware GS video reconstruction architecture. It facilitates the advantages such as occlusion reasoning, motion compensation, and temporal abstraction. Specifically, we first estimate the bilateral motion field so that the pixels of the two RS frames are warped to a common GS frame accordingly. Then, a refinement scheme is proposed to guide the GS frame synthesis along with bilateral occlusion masks to produce high-fidelity GS video frames at arbitrary times. Furthermore, we derive an approximated bilateral motion field model, which can serve as an alternative to provide a simple but effective GS frame initialization for related tasks. Experiments on synthetic and real data show that our approach achieves superior performance over state-of-the-art methods in terms of objective metrics and subjective visual quality. Code is available at \url{https://github.com/GitCVfb/CVR}.
翻訳日:2022-05-26 16:47:27 公開日:2022-05-25
# (参考訳) dirichletプロセス混合によるクラスタリング一貫性

Clustering consistency with Dirichlet process mixtures ( http://arxiv.org/abs/2205.12924v1 )

ライセンス: CC BY 4.0
Filippo Ascolani, Antonio Lijoi, Giovanni Rebaudo, Giacomo Zanella(参考訳) ディリクレ過程の混合はフレキシブルな非パラメトリックモデルであり、特に密度推定や確率的クラスタリングに適している。 本研究では,サンプルサイズが増加するにつれてディリクレプロセス混合物が引き起こす後方分布について検討し,有限混合から観測データを生成する場合の未知数のクラスターの一貫性に着目した。 重要なのは,基礎となるディリクレ過程の濃度パラメータに事前値を置く状況を考えることである。 この文献の以前の発見は、濃度パラメータが固定され、データが有限混合から来る場合、ディリクレ過程の混合物は典型的にはクラスターの数に対して整合性がないことを示唆している。 ここでは、一般的に行われているように、濃度パラメータが完全にベイズ的に適合すれば、クラスタ数の一貫性が得られることを示す。 実験結果は,有限混合のクラスから得られたデータから導出され,濃度パラメータの事前の仮定や,混合の確率核の多種多様な選択が得られた。

Dirichlet process mixtures are flexible non-parametric models, particularly suited to density estimation and probabilistic clustering. In this work we study the posterior distribution induced by Dirichlet process mixtures as the sample size increases, and more specifically focus on consistency for the unknown number of clusters when the observed data are generated from a finite mixture. Crucially, we consider the situation where a prior is placed on the concentration parameter of the underlying Dirichlet process. Previous findings in the literature suggest that Dirichlet process mixtures are typically not consistent for the number of clusters if the concentration parameter is held fixed and data come from a finite mixture. Here we show that consistency for the number of clusters can be achieved if the concentration parameter is adapted in a fully Bayesian way, as commonly done in practice. Our results are derived for data coming from a class of finite mixtures, with mild assumptions on the prior for the concentration parameter and for a variety of choices of likelihood kernels for the mixture.
翻訳日:2022-05-26 16:24:32 公開日:2022-05-25
# (参考訳) 野生におけるニューラル3次元再構成

Neural 3D Reconstruction in the Wild ( http://arxiv.org/abs/2205.12955v1 )

ライセンス: CC BY-SA 4.0
Jiaming Sun, Xi Chen, Qianqian Wang, Zhengqi Li, Hadar Averbuch-Elor, Xiaowei Zhou, Noah Snavely(参考訳) コンピュータビジョンとグラフィックスでは、暗黙の神経表現が爆発的に爆発している。 それらの適用性は最近、形状生成や画像ベースのレンダリングといったタスクを超えて、画像ベースの3D再構成の根本的な問題へと拡張されている。 しかし、既存の方法では、ほぼ均一に分散されたカメラの小さなセットによって、常に照明が取られる制約された3D環境を想定している。 そこで我々は,インターネット写真コレクションから様々な照明環境下での効率的な表面再構成を実現する新しい手法を提案する。 これを実現するために, 表面を効率よくサンプリングし, 再構築品質を向上するハイブリッドなボクセルおよび表面誘導サンプリング技術を提案する。 さらに,これらのシーンにおける再構成性能を評価するための新しいベンチマークとプロトコルを提案する。 我々は広範囲にわたる実験を行い,このアプローチが古典的および神経的再構成法を超越することを示す。

We are witnessing an explosion of neural implicit representations in computer vision and graphics. Their applicability has recently expanded beyond tasks such as shape generation and image-based rendering to the fundamental problem of image-based 3D reconstruction. However, existing methods typically assume constrained 3D environments with constant illumination captured by a small set of roughly uniformly distributed cameras. We introduce a new method that enables efficient and accurate surface reconstruction from Internet photo collections in the presence of varying illumination. To achieve this, we propose a hybrid voxel- and surface-guided sampling technique that allows for more efficient ray sampling around surfaces and leads to significant improvements in reconstruction quality. Further, we present a new benchmark and protocol for evaluating reconstruction performance on such in-the-wild scenes. We perform extensive experiments, demonstrating that our approach surpasses both classical and neural reconstruction methods on a wide variety of metrics.
翻訳日:2022-05-26 16:23:27 公開日:2022-05-25
# 過パラメータ変分量子固有解法に対する収束理論

A Convergence Theory for Over-parameterized Variational Quantum Eigensolvers ( http://arxiv.org/abs/2205.12481v1 )

ライセンス: Link先を確認
Xuchen You and Shouvanik Chakrabarti and Xiaodi Wu(参考訳) 変分量子固有ソルバ (vqe) は、ニアバイラル中間スケール量子 (nisq) コンピュータ上での量子応用に有望な候補である。 多くの実証的研究と、VQEの最適化景観に関する理論的理解の最近の進歩にもかかわらず、VQEを最適化するための収束は、はるかに理解されていない。 オーバーパラメトリゼーション体制におけるVQEの収束の厳密な分析を行った。 単位球面上のリーマン勾配流とトレーニングダイナミクスを結合することにより、系の次元とスペクトル比に多項式的に依存する効率的な収束のための十分な数のパラメータのしきい値を確立し、問題ハミルトニアンの性質はある程度勾配雑音に対して弾力性を持つ。 さらに,本研究の結果と並行してアンサッツ依存のしきい値を設定することにより,この過パラメータ閾値を,特定のvqeインスタンスに対して大幅に低減できることを示す。 実験を行なわずに,さまざまなvqe ansatzeのトレーサビリティの指標として,ansatz依存のしきい値が機能することを示した。 最後に,理論的な知見を裏付ける包括的実証研究をまとめる。

The Variational Quantum Eigensolver (VQE) is a promising candidate for quantum applications on near-term Noisy Intermediate-Scale Quantum (NISQ) computers. Despite a lot of empirical studies and recent progress in theoretical understanding of VQE's optimization landscape, the convergence for optimizing VQE is far less understood. We provide the first rigorous analysis of the convergence of VQEs in the over-parameterization regime. By connecting the training dynamics with the Riemannian Gradient Flow on the unit-sphere, we establish a threshold on the sufficient number of parameters for efficient convergence, which depends polynomially on the system dimension and the spectral ratio, a property of the problem Hamiltonian, and could be resilient to gradient noise to some extent. We further illustrate that this overparameterization threshold could be vastly reduced for specific VQE instances by establishing an ansatz-dependent threshold paralleling our main result. We showcase that our ansatz-dependent threshold could serve as a proxy of the trainability of different VQE ansatzes without performing empirical experiments, which hence leads to a principled way of evaluating ansatz design. Finally, we conclude with a comprehensive empirical study that supports our theoretical findings.
翻訳日:2022-05-26 16:05:05 公開日:2022-05-25
# 不均一クライアントのためのフェデレーション自己教師型学習

Federated Self-supervised Learning for Heterogeneous Clients ( http://arxiv.org/abs/2205.12493v1 )

ライセンス: Link先を確認
Disha Makhija, Nhat Ho, Joydeep Ghosh(参考訳) 連合学習は,プライバシと計算上のメリットから,重要な学習パラダイムとなっている。 1) システムの不均一性 - 各クライアントに存在する計算リソースおよび/またはデータリソースの変動性、(2) 特定のフェデレートされた設定におけるラベル付きデータの欠如。 最近のいくつかの開発は、これらの課題を独立して克服しようと試みている。 本研究では,異種クライアント上でのフェデレーションによる自己教師型学習を可能にする,統一的かつ体系的な枠組みである「ヘテロ・SSFL」を提案する。 提案したフレームワークは、アーキテクチャ上の制約やラベル付きデータの存在を伴わずに、すべてのクライアントで協調的な表現学習を可能にする。 Hetero-SSFLのキーとなるアイデアは、各クライアントが独自の自己教師付きモデルをトレーニングし、共通データセット上の低次元表現を整列させることで、クライアント間の共同学習を可能にすることである。 トレーニング手順全体は、ローカルトレーニングとアライメントプロシージャの両方がラベル付きデータの存在を必要としないため、セルフおよびピア監視と見なすことができる。 従来の自己教師型学習と同様に、得られたクライアントモデルはタスク独立であり、様々なエンドタスクに使用できる。 我々は,不均一な環境での非凸目的に対する提案フレームワークの収束保証を提供するとともに,提案手法がアートメソッドの状態を著しく上回っていることを実証的に示す。

Federated Learning has become an important learning paradigm due to its privacy and computational benefits. As the field advances, two key challenges that still remain to be addressed are: (1) system heterogeneity - variability in the compute and/or data resources present on each client, and (2) lack of labeled data in certain federated settings. Several recent developments have tried to overcome these challenges independently. In this work, we propose a unified and systematic framework, \emph{Heterogeneous Self-supervised Federated Learning} (Hetero-SSFL) for enabling self-supervised learning with federation on heterogeneous clients. The proposed framework allows collaborative representation learning across all the clients without imposing architectural constraints or requiring presence of labeled data. The key idea in Hetero-SSFL is to let each client train its unique self-supervised model and enable the joint learning across clients by aligning the lower dimensional representations on a common dataset. The entire training procedure could be viewed as self and peer-supervised as both the local training and the alignment procedures do not require presence of any labeled data. As in conventional self-supervised learning, the obtained client models are task independent and can be used for varied end-tasks. We provide a convergence guarantee of the proposed framework for non-convex objectives in heterogeneous settings and also empirically demonstrate that our proposed approach outperforms the state of the art methods by a significant margin.
翻訳日:2022-05-26 16:04:44 公開日:2022-05-25
# 並列化下における高速確率合成と加速フランクウルフアルゴリズム

Fast Stochastic Composite Minimization and an Accelerated Frank-Wolfe Algorithm under Parallelization ( http://arxiv.org/abs/2205.12751v1 )

ライセンス: Link先を確認
Benjamin Dubois-Taine, Francis Bach, Quentin Berthet, Adrien Taylor(参考訳) 2つの凸関数の和を最小化する問題を考える。 これらの関数の1つはリプシッツ連続勾配を持ち、確率的オラクルを通してアクセスすることができるが、もう1つは「単純」である。 最小値を含む球に対する関数値の収束を高速化したブレグマン型アルゴリズムを提案する。 このボールの半径は、確率的オラクルの分散を含む問題依存定数に依存する。 さらに、このアルゴリズムが並列化の下で加速を達成するFrank-Wolfeの変種を自然に導くことを示す。 より正確には、有界領域上の滑らかな凸函数を最小化するとき、元の関数の勾配にのみアクセスし、O(1/\sqrt{\epsilon})$計算単位を並列に計算することで、$\epsilon$primal-dual gap(期待)を$\tilde{O}(1/ \sqrt{\epsilon})$イテレーションで達成できることが示される。 合成数値実験におけるこの高速収束について述べる。

We consider the problem of minimizing the sum of two convex functions. One of those functions has Lipschitz-continuous gradients, and can be accessed via stochastic oracles, whereas the other is "simple". We provide a Bregman-type algorithm with accelerated convergence in function values to a ball containing the minimum. The radius of this ball depends on problem-dependent constants, including the variance of the stochastic oracle. We further show that this algorithmic setup naturally leads to a variant of Frank-Wolfe achieving acceleration under parallelization. More precisely, when minimizing a smooth convex function on a bounded domain, we show that one can achieve an $\epsilon$ primal-dual gap (in expectation) in $\tilde{O}(1/ \sqrt{\epsilon})$ iterations, by only accessing gradients of the original function and a linear maximization oracle with $O(1/\sqrt{\epsilon})$ computing units in parallel. We illustrate this fast convergence on synthetic numerical experiments.
翻訳日:2022-05-26 16:04:16 公開日:2022-05-25
# 持続的ホモロジーとモルフォロジー力学の同値関係

Some equivalence relation between persistent homology and morphological dynamics ( http://arxiv.org/abs/2205.12546v1 )

ライセンス: Link先を確認
Nicolas Boutry (LRDE), Laurent Najman (LIGM), Thierry G\'eraud (LRDE)(参考訳) 数学的形態学(mm)では、ダイナミックスに基づく連結フィルタが画像の極端部をフィルタするために用いられる。 同様に、永続性(persistence)は永続ホモロジー(ph)とモース理論(mt)に由来する概念であり、モース函数の極値の安定性を表す。 これら2つの概念は密接に関連しているように見えるので、本論文では、それらの関係を調べ、それらが n-D Morse 関数 n$\ge$ 1 上で等しいことを証明する。 より正確には、最小値と1-サドルをダイナミクスによって、または同じ1-サドルを永続性によって最小値でペアリングすることは、研究されたモース関数の臨界値が一意であると仮定して、ちょうど同じペアリングにつながる。 この結果は、トポロジカルなデータ分析と数学的形態学がどの程度関連しているかを示すための一歩であり、これら2つの研究分野の関係をより深く研究する道を開く。

In Mathematical Morphology (MM), connected filters based on dynamics are used to filter the extrema of an image. Similarly, persistence is a concept coming from Persistent Homology (PH) and Morse Theory (MT) that represents the stability of the extrema of a Morse function. Since these two concepts seem to be closely related, in this paper we examine their relationship, and we prove that they are equal on n-D Morse functions, n $\ge$ 1. More exactly, pairing a minimum with a 1-saddle by dynamics or pairing the same 1-saddle with a minimum by persistence leads exactly to the same pairing, assuming that the critical values of the studied Morse function are unique. This result is a step further to show how much topological data analysis and mathematical morphology are related, paving the way for a more in-depth study of the relations between these two research fields.
翻訳日:2022-05-26 16:01:31 公開日:2022-05-25
# ミリ波mimoチャネル推定のためのganトレーニングの空中設計

Over-the-Air Design of GAN Training for mmWave MIMO Channel Estimation ( http://arxiv.org/abs/2205.12445v1 )

ライセンス: Link先を確認
Akash Doshi, Manan Gupta and Jeffrey G. Andrews(参考訳) 将来の無線システムは、より大きな通信帯域を提供するが、大きなアンテナアレイを使用する必要があるキャリア周波数の傾向にある。 チャネル推定のための既存の信号処理技術は、パフォーマンスとパイロットのオーバーヘッドの観点から、この"高次元"方式ではうまくスケールしない。 一方、チャネル推定のためのディープラーニングベースのアプローチのトレーニングには、パイロット測定をクリーンチャネル実現にマッピングする大規模なラベル付きデータセットが必要である。 本稿では,騒音受入パイロット計測を応用し,ビームスペースmimoチャネル実現のための深部生成モデルを訓練する,教師なしオーバーザ・エア(ota)アルゴリズムを開発した。 提案手法は,Line-of-Sight(LOS)とNon-Line-of-Sight(NLOS)を区別するために条件入力を用いてGAN(Generative Adversarial Networks)を利用する。 また、複数のユーザに対してGANトレーニングを分散し、ユーザ側の計算を大幅に削減するOTAアルゴリズムの連合実装を提案する。 次に、限られた数のパイロット測定からチャネル推定を逆問題として定式化し、訓練された生成モデルの入力ベクトルを最適化してチャネルを再構築する。 提案手法は,ロスチャネルモデル,nlosチャネルモデル,および近似メッセージパッシングアルゴリズムのem-gm-ampをそれぞれ比較し,正規化チャネル再構成誤差の点でnlosチャネルモデルと同等の性能を達成している。 さらに重要なことは、提案フレームワークは、実雑音のパイロット測定を用いてオンラインでトレーニングできる可能性があり、特定のチャネルモデルに制限されず、ノイズの多いデータからデータセットジェネレータをフェデレーションしたOTA設計にも利用できることだ。

Future wireless systems are trending towards higher carrier frequencies that offer larger communication bandwidth but necessitate the use of large antenna arrays. Existing signal processing techniques for channel estimation do not scale well to this "high-dimensional" regime in terms of performance and pilot overhead. Meanwhile, training deep learning based approaches for channel estimation requires large labeled datasets mapping pilot measurements to clean channel realizations, which can only be generated offline using simulated channels. In this paper, we develop a novel unsupervised over-the-air (OTA) algorithm that utilizes noisy received pilot measurements to train a deep generative model to output beamspace MIMO channel realizations. Our approach leverages Generative Adversarial Networks (GAN), while using a conditional input to distinguish between Line-of-Sight (LOS) and Non-Line-of-Sight (NLOS) channel realizations. We also present a federated implementation of the OTA algorithm that distributes the GAN training over multiple users and greatly reduces the user side computation. We then formulate channel estimation from a limited number of pilot measurements as an inverse problem and reconstruct the channel by optimizing the input vector of the trained generative model. Our proposed approach significantly outperforms Orthogonal Matching Pursuit on both LOS and NLOS channel models, and EM-GM-AMP -- an Approximate Message Passing algorithm -- on LOS channel models, while achieving comparable performance on NLOS channel models in terms of the normalized channel reconstruction error. More importantly, our proposed framework has the potential to be trained online using real noisy pilot measurements, is not restricted to a specific channel model and can even be utilized for a federated OTA design of a dataset generator from noisy data.
翻訳日:2022-05-26 16:01:12 公開日:2022-05-25
# FBNETGEN:機能的脳ネットワーク生成によるタスク対応GNNベースのfMRI解析

FBNETGEN: Task-aware GNN-based fMRI Analysis via Functional Brain Network Generation ( http://arxiv.org/abs/2205.12465v1 )

ライセンス: Link先を確認
Xuan Kan and Hejie Cui and Joshua Lukemire and Ying Guo and Carl Yang(参考訳) 機能的磁気共鳴画像(fmri)は、脳の機能を調べる最も一般的な画像の1つである。 神経科学の最近の研究は、臨床予測のためのfMRIデータから構築された機能的脳ネットワークの大きな可能性を強調している。 しかし、従来の機能的脳ネットワークは、下流の予測タスクを知らないし、深層グラフニューラルネットワーク(GNN)モデルと互換性がない。 ネットワークベースfMRI解析におけるGNNのパワーを完全に解き放つために,脳深部ネットワーク生成によるタスク認識・解釈可能なfMRI解析フレームワークFBNETGENを開発した。 特に,(1)興味領域(ROI)の特徴抽出,(2)脳ネットワークの生成,(3)GNNによる臨床予測を,特定の予測タスクの指導の下でエンドツーエンドのトレーニング可能なモデルで定式化する。 プロセスとともに、重要な新しいコンポーネントはグラフジェネレータで、生の時系列機能をタスク指向の脳ネットワークに変換することを学ぶ。 学習可能なグラフはまた、予測関連脳領域を強調することで独自の解釈を提供する。 2つのデータセット、すなわち、最近リリースされ、現在最も多く公開されているfMRIデータセット Adolescent Brain Cognitive Development (ABCD) と、広く使用されているfMRIデータセット PNC に関する包括的な実験は、FBNETGENの優れた効果と解釈可能性を証明する。 実装はhttps://github.com/Wayfear/FBNETGENで公開されている。 }

Functional magnetic resonance imaging (fMRI) is one of the most common imaging modalities to investigate brain functions. Recent studies in neuroscience stress the great potential of functional brain networks constructed from fMRI data for clinical predictions. Traditional functional brain networks, however, are noisy and unaware of downstream prediction tasks, while also incompatible with the deep graph neural network (GNN) models. In order to fully unleash the power of GNNs in network-based fMRI analysis, we develop FBNETGEN, a task-aware and interpretable fMRI analysis framework via deep brain network generation. In particular, we formulate (1) prominent region of interest (ROI) features extraction, (2) brain networks generation, and (3) clinical predictions with GNNs, in an end-to-end trainable model under the guidance of particular prediction tasks. Along with the process, the key novel component is the graph generator which learns to transform raw time-series features into task-oriented brain networks. Our learnable graphs also provide unique interpretations by highlighting prediction-related brain regions. Comprehensive experiments on two datasets, i.e., the recently released and currently largest publicly available fMRI dataset Adolescent Brain Cognitive Development (ABCD), and the widely-used fMRI dataset PNC, prove the superior effectiveness and interpretability of FBNETGEN. The implementation is available at https://github.com/Wayfear/FBNETGEN.}
翻訳日:2022-05-26 16:00:39 公開日:2022-05-25
# 深層学習における完全相転移

Exact Phase Transitions in Deep Learning ( http://arxiv.org/abs/2205.12510v1 )

ライセンス: Link先を確認
Liu Ziyin, Masahito Ueda(参考訳) 本研究は, 統計物理学においてその現象学が密接に従う, ディープラーニング一階および二階相転移を報告する。 特に、トレーニング損失における予測誤差とモデル複雑性の競合は、1つの隠蔽層を持つネットの2次位相遷移と、複数の隠蔽層を持つネットの1次位相遷移につながることを証明した。 提案理論は,ニューラルネットワークの最適化に直接関連しており,ベイズ深層学習における後方崩壊問題の起源を指摘する。

This work reports deep-learning-unique first-order and second-order phase transitions, whose phenomenology closely follows that in statistical physics. In particular, we prove that the competition between prediction error and model complexity in the training loss leads to the second-order phase transition for nets with one hidden layer and the first-order phase transition for nets with more than one hidden layer. The proposed theory is directly relevant to the optimization of neural networks and points to an origin of the posterior collapse problem in Bayesian deep learning.
翻訳日:2022-05-26 16:00:15 公開日:2022-05-25
# 構造化ニューラルネットワークによる部分観察からの学習力学

Learning dynamics from partial observations with structured neural ODEs ( http://arxiv.org/abs/2205.12550v1 )

ライセンス: Link先を確認
Mona Buisson-Fenet, Valery Morgenthaler, Sebastian Trimpe, Florent Di Meglio(参考訳) 実験データから力学系を特定することは特に難しい課題である。 事前の知識は一般的に役に立つが、この知識の範囲はアプリケーションによって異なり、カスタマイズされたモデルが必要になることが多い。 本稿では,ニューラルODEに基づくシステム識別に関する幅広い物理的知見を取り入れたフレキシブルな枠組みを提案し,結果として生じる潜在空間に物理的解釈性を与える。 この洞察は最適化問題の厳しい制約を通して強制されるか、コスト関数で追加される。 部分的および潜在的に騒がしい観測を潜在状態と結びつけるために、非線形オブザーバ理論から認識モデルを構築するためのツールに依存する。 本研究では,ロボット外骨格を用いた数値シミュレーションおよび実験データセットにおける提案手法の性能を示す。

Identifying dynamical systems from experimental data is a notably difficult task. Prior knowledge generally helps, but the extent of this knowledge varies with the application, and customized models are often needed. We propose a flexible framework to incorporate a broad spectrum of physical insight into neural ODE-based system identification, giving physical interpretability to the resulting latent space. This insight is either enforced through hard constraints in the optimization problem or added in its cost function. In order to link the partial and possibly noisy observations to the latent state, we rely on tools from nonlinear observer theory to build a recognition model. We demonstrate the performance of the proposed approach on numerical simulations and on an experimental dataset from a robotic exoskeleton.
翻訳日:2022-05-26 16:00:04 公開日:2022-05-25
# ペルシャ音声認識のためのヘテロジニアス貯留層計算モデル

Heterogeneous Reservoir Computing Models for Persian Speech Recognition ( http://arxiv.org/abs/2205.12594v1 )

ライセンス: Link先を確認
Zohreh Ansari, Farzin Pourhoseini, Fatemeh Hadaeghi(参考訳) 過去10年間で、ディープラーニング手法は、音響、発音、言語モデルを作成するために、従来の自動音声認識(ASR)フレームワークに徐々に組み込まれてきた。 ハードウェア要件(例えば、計算能力とメモリ使用量)に厳しい制約があるため、ASRの認識精度は大幅に改善されたが、そのようなアプローチが組み込みASRアプリケーションにとって最も計算上かつエネルギー効率のよい選択肢であるかどうかは不明である。 一方、Reservoir Computing(RC)モデル(例えば、エコー状態ネットワーク(ESN)や液体状態マシン(LSM))は、訓練に安価であることが証明されており、パラメータは大幅に少なく、創発的ハードウェア技術と互換性がある。 しかし, 音声処理タスクの性能は, ディープラーニングモデルよりも比較的劣っている。 asr応用におけるrcの精度を高めるために,異種単層および多層esnを提案し,異なるスケールで時空間をキャプチャする入力の非線形変換を行う。 モデルをテストするために、Farsdatペルシャデータセット上で音声認識タスクを実行した。 我々の知る限りでは、標準RCはペルシアのASRタスクにはまだ使われていないので、比較基準を提供するために従来の単層および深部ESNを訓練した。 さらに、RC性能を標準長寿命メモリ(LSTM)モデルと比較した。 不均一RCモデル(1)では,標準RCモデルの性能が向上し,(2)LSTMによる認識精度が同等に向上し,(3)トレーニング時間が大幅に短縮された。

Over the last decade, deep-learning methods have been gradually incorporated into conventional automatic speech recognition (ASR) frameworks to create acoustic, pronunciation, and language models. Although it led to significant improvements in ASRs' recognition accuracy, due to their hard constraints related to hardware requirements (e.g., computing power and memory usage), it is unclear if such approaches are the most computationally- and energy-efficient options for embedded ASR applications. Reservoir computing (RC) models (e.g., echo state networks (ESNs) and liquid state machines (LSMs)), on the other hand, have been proven inexpensive to train, have vastly fewer parameters, and are compatible with emergent hardware technologies. However, their performance in speech processing tasks is relatively inferior to that of the deep-learning-based models. To enhance the accuracy of the RC in ASR applications, we propose heterogeneous single and multi-layer ESNs to create non-linear transformations of the inputs that capture temporal context at different scales. To test our models, we performed a speech recognition task on the Farsdat Persian dataset. Since, to the best of our knowledge, standard RC has not yet been employed to conduct any Persian ASR tasks, we also trained conventional single-layer and deep ESNs to provide baselines for comparison. Besides, we compared the RC performance with a standard long-short-term memory (LSTM) model. Heterogeneous RC models (1) show improved performance to the standard RC models; (2) perform on par in terms of recognition accuracy with the LSTM, and (3) reduce the training time considerably.
翻訳日:2022-05-26 15:57:16 公開日:2022-05-25
# 後方のサンプルから マーガリンで脂肪を取り除いて

Removing the fat from your posterior samples with margarine ( http://arxiv.org/abs/2205.12841v1 )

ライセンス: Link先を確認
Harry T. J. Bevins, William J. Handley, Pablo Lemos, Peter H. Sims, Eloy de Lera Acedo, Anastasia Fialkov, Justin Alsing(参考訳) ベイズワークフローは、しばしばニュアサンスパラメータの導入を必要とするが、コアサイエンスのモデリングには、限界の後方密度へのアクセスが必要である。 本研究では,マスキング自己回帰流とカーネル密度推定器を用いて後縁部をカプセル化し,前縁部のkullback-leiblerダイバージェンスと辺縁ベイズモデルの次元を計算し,サンプルの生成と辺縁のログ確率の計算を可能にした。 我々は、ダークエネルギーサーベイとグローバル21cm信号実験のトピックス宇宙学的な例に適用してこれを実証する。 限界ベイズ統計の計算に加えて、この研究はベイズの実験設計、複雑な事前モデリング、そして可能性エミュレーションにおけるさらなる応用に重要である。 このテクニックは、ip- installable code margarineで公開されています。

Bayesian workflows often require the introduction of nuisance parameters, yet for core science modelling one needs access to a marginal posterior density. In this work we use masked autoregressive flows and kernel density estimators to encapsulate the marginal posterior, allowing us to compute marginal Kullback-Leibler divergences and marginal Bayesian model dimensionalities in addition to generating samples and computing marginal log probabilities. We demonstrate this in application to topical cosmological examples of the Dark Energy Survey, and global 21cm signal experiments. In addition to the computation of marginal Bayesian statistics, this work is important for further applications in Bayesian experimental design, complex prior modelling and likelihood emulation. This technique is made publicly available in the pip-installable code margarine.
翻訳日:2022-05-26 15:56:48 公開日:2022-05-25
# (参考訳) dh-gan : デジタルホログラフィを用いた3次元顕微鏡イメージングのための物理駆動非学習生成逆ネットワーク

DH-GAN: A Physics-driven Untrained Generative Adversarial Network for 3D Microscopic Imaging using Digital Holography ( http://arxiv.org/abs/2205.12920v1 )

ライセンス: CC BY 4.0
Xiwen Chen, Hao Wang, Abofazl Razi, Michael Kozicki, Christopher Mann(参考訳) デジタルホログラフィー(Digital holography)は、平面波面を持つレーザービームを物体に放出し、ホログラムと呼ばれる回折波形の強度を測定する3Dイメージング技術である。 被写体の3次元形状は、捕捉されたホログラムの数値解析と、得られた位相の回復により得ることができる。 近年,より正確なホログラフィック処理にディープラーニング(DL)法が用いられている。 しかし、ほとんどの教師付きメソッドはモデルをトレーニングするために大きなデータセットを必要とするが、サンプルの不足やプライバシー上の懸念のため、ほとんどのDHアプリケーションでは利用できない。 ペア画像の大きなデータセットに依存しない1ショットのDLベースのリカバリ手法がいくつか存在する。 しかし、これらの手法の多くは波動伝播を支配する物理法則を無視していることが多い。 これらのメソッドはブラックボックス操作を提供しており、他のサンプルやアプリケーションに説明、一般化、転送はできない。 本研究では,生成ネットワークを関数近似器として使用し,ホログラム生成の逆をモデル化しながら,識別ネットワークを用いて再構成品質の意味的尺度を実現する,生成逆ネットワークに基づく新しいdlアーキテクチャを提案する。 再現性を高めるために,シミュレートアニーリングを動力とするプログレッシブマスキングモジュールを用いて,復元画像の背景部分に滑らかさを付与する。 提案手法は, ネットワークの再トレーニングを必要とせずに, 時間に敏感なアプリケーションに高速に展開することのできる, 類似のサンプルに対する高い転送性を示す。 その結果, 復元品質(約5dBのPSNRゲイン)と騒音(約50%のPSNR減少とノイズ増加率)において, 競合手法にかなりの改善が認められた。

Digital holography is a 3D imaging technique by emitting a laser beam with a plane wavefront to an object and measuring the intensity of the diffracted waveform, called holograms. The object's 3D shape can be obtained by numerical analysis of the captured holograms and recovering the incurred phase. Recently, deep learning (DL) methods have been used for more accurate holographic processing. However, most supervised methods require large datasets to train the model, which is rarely available in most DH applications due to the scarcity of samples or privacy concerns. A few one-shot DL-based recovery methods exist with no reliance on large datasets of paired images. Still, most of these methods often neglect the underlying physics law that governs wave propagation. These methods offer a black-box operation, which is not explainable, generalizable, and transferrable to other samples and applications. In this work, we propose a new DL architecture based on generative adversarial networks that uses a discriminative network for realizing a semantic measure for reconstruction quality while using a generative network as a function approximator to model the inverse of hologram formation. We impose smoothness on the background part of the recovered image using a progressive masking module powered by simulated annealing to enhance the reconstruction quality. The proposed method is one of its kind that exhibits high transferability to similar samples, which facilitates its fast deployment in time-sensitive applications without the need for retraining the network. The results show a considerable improvement to competitor methods in reconstruction quality (about 5 dB PSNR gain) and robustness to noise (about 50% reduction in PSNR vs noise increase rate).
翻訳日:2022-05-26 15:55:31 公開日:2022-05-25
# TranSpeech:バイラテラル摂動を用いた音声から音声への翻訳

TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation ( http://arxiv.org/abs/2205.12523v1 )

ライセンス: Link先を確認
Rongjie Huang, Zhou Zhao, Jinglin Liu, Huadai Liu, Yi Ren, Lichao Zhang, Jinzheng He(参考訳) direct speech-to-speech translation (s2st) システムは、音声表現学習の最近の進歩を活用しており、このモデルから導出される離散表現(ユニット)のシーケンスを予測し、音声合成のためのvocoderに渡す。 1) 音響マルチモーダリティ:同一内容の音声から派生した離散単位は、翻訳精度の低下を引き起こす音響特性(例えば、リズム、ピッチ、エネルギー)により決定的でない可能性がある。 2) 待ち時間: 現在のS2STシステムでは, 並列性を十分に活用できず, 以前に生成したシーケンス上で各ユニットの状態を予測する自己回帰モデルを採用している。 本研究では,両側摂動を伴う音声音声翻訳モデルであるTranSpeechを提案する。 音響的マルチモーダル問題を緩和するため,音声サンプルから言語情報のみを学習し,より決定論的表現を生成するために,スタイル正規化と情報強調段階からなる双方向摂動を提案する。 マルチモダリティの低減により、我々はまず、単体選択を繰り返しマスキングし予測し、数サイクルで高精度な結果を生み出す非自己回帰型S2ST技術を確立する。 3つの言語ペアの実験結果は、公開可能なテキストレスS2STベースラインに対して2.5 BLEUポイントの最先端結果を示している。 さらにtranspeechは推論遅延を大幅に改善し、自動回帰技術よりも21.4倍の高速化を実現している。 オーディオサンプルは \url{https://TranSpeech.github.io/} で入手できる。

Direct speech-to-speech translation (S2ST) systems leverage recent progress in speech representation learning, where a sequence of discrete representations (units) derived in a self-supervised manner, are predicted from the model and passed to a vocoder for speech synthesis, still facing the following challenges: 1) Acoustic multimodality: the discrete units derived from speech with same content could be indeterministic due to the acoustic property (e.g., rhythm, pitch, and energy), which causes deterioration of translation accuracy; 2) high latency: current S2ST systems utilize autoregressive models which predict each unit conditioned on the sequence previously generated, failing to take full advantage of parallelism. In this work, we propose TranSpeech, a speech-to-speech translation model with bilateral perturbation. To alleviate the acoustic multimodal problem, we propose bilateral perturbation, which consists of the style normalization and information enhancement stages, to learn only the linguistic information from speech samples and generate more deterministic representations. With reduced multimodality, we step forward and become the first to establish a non-autoregressive S2ST technique, which repeatedly masks and predicts unit choices and produces high-accuracy results in just a few cycles. Experimental results on three language pairs demonstrate the state-of-the-art results by up to 2.5 BLEU points over the best publicly-available textless S2ST baseline. Moreover, TranSpeech shows a significant improvement in inference latency, enabling speedup up to 21.4x than autoregressive technique. Audio samples are available at \url{https://TranSpeech.github.io/}
翻訳日:2022-05-26 15:31:16 公開日:2022-05-25
# 貨物列車のリアルタイム視覚障害検出システムのための軽量nmsフリーフレームワーク

A Lightweight NMS-free Framework for Real-time Visual Fault Detection System of Freight Trains ( http://arxiv.org/abs/2205.12458v1 )

ライセンス: Link先を確認
Guodong Sun, Yang Zhou, Huilin Pan, Bo Wu, Ye Hu, Yang Zhang(参考訳) 貨物列車のリアルタイム視覚に基づく故障検出システム(RVBS-FD)は、鉄道交通の安全確保に不可欠である。 既存のビジョンベース手法の多くは、畳み込みニューラルネットワークに基づく計算コストが高い。 計算コストは主に背骨、首、後処理、すなわち非最大抑制(NMS)に反映される。 本稿では,リアルタイム検出と高精度を同時に実現する軽量NMSフリーフレームワークを提案する。 まず、機能抽出に軽量なバックボーンを使用し、機能を処理するために障害検出ピラミッドを設計します。 本発明の故障検出ピラミッドは、注目機構、ボトルネック、拡張畳み込みを用いた3つの新しい個別モジュールを含む。 NMSの代わりに、検出ヘッドの分類や位置コストなどの異なる損失関数を計算し、計算をさらに削減する。 実験結果から,本フレームワークはモデルサイズが小さく,最先端検出器よりも高精度で,毎秒83フレーム以上の速度を実現していることがわかった。 一方,本手法のハードウェアリソース要件は,トレーニングおよびテストプロセスにおいて低い。

Real-time vision-based system of fault detection (RVBS-FD) for freight trains is an essential part of ensuring railway transportation safety. Most existing vision-based methods still have high computational costs based on convolutional neural networks. The computational cost is mainly reflected in the backbone, neck, and post-processing, i.e., non-maximum suppression (NMS). In this paper, we propose a lightweight NMS-free framework to achieve real-time detection and high accuracy simultaneously. First, we use a lightweight backbone for feature extraction and design a fault detection pyramid to process features. This fault detection pyramid includes three novel individual modules using attention mechanism, bottleneck, and dilated convolution for feature enhancement and computation reduction. Instead of using NMS, we calculate different loss functions, including classification and location costs in the detection head, to further reduce computation. Experimental results show that our framework achieves over 83 frames per second speed with a smaller model size and higher accuracy than the state-of-the-art detectors. Meanwhile, the hardware resource requirements of our method are low during the training and testing process.
翻訳日:2022-05-26 15:30:36 公開日:2022-05-25
# 異物性ステガノグラフィー

Deniable Steganography ( http://arxiv.org/abs/2205.12587v1 )

ライセンス: Link先を確認
Yong Xu, Zhihua Xia, Zichi Wang, Xinpeng Zhang, and Jian Weng(参考訳) ステガノグラフィは秘密メッセージをカバーメディアに隠蔽し、疑念を抱かずに公開チャネルで送信できるステゴメディアを生成する。 その対策として、ステガナリシスは主に、秘密メッセージが所定のメディアに隠されているかどうかを検出することを目的としている。 ステガノグラフィー技術は常に改善されているが、高度なステガナリシスは既知のステガノグラフィー法をある程度は破ることができる。 stegoメディアが発見されれば、敵は送信者や受信者を見つけ出し、秘密のメッセージを開示するよう強制することができる。 我々は,デニブル暗号の概念に着想を得て,デニブルステガノグラフィの概念を初めて構築し,その実現可能な構成について論じる。 一例として,ディープニューラルネットワーク (DNN) を用いた受信側強制攻撃に対処するレシーバ識別可能なステガノグラフィー手法を提案する。 具体的には、本物の秘密メッセージのほかに、偽のメッセージがカバーに埋め込まれている。 受信側では、実際のメッセージは抽出モジュールで抽出することができ、受信側が強制攻撃で秘密のメッセージ片を降伏させると、偽のメッセージを抽出し、相手を他の抽出モジュールで騙すことができる。 実験では、DNNベースのレシーバ識別可能なステガノグラフィー方式のスケーラビリティと感度を示す。

Steganography conceals the secret message into the cover media, generating a stego media which can be transmitted on public channels without drawing suspicion. As its countermeasure, steganalysis mainly aims to detect whether the secret message is hidden in a given media. Although the steganography techniques are improving constantly, the sophisticated steganalysis can always break a known steganographic method to some extent. With a stego media discovered, the adversary could find out the sender or receiver and coerce them to disclose the secret message, which we name as coercive attack in this paper. Inspired by the idea of deniable encryption, we build up the concepts of deniable steganography for the first time and discuss the feasible constructions for it. As an example, we propose a receiver-deniable steganographic scheme to deal with the receiver-side coercive attack using deep neural networks (DNN). Specifically, besides the real secret message, a piece of fake message is also embedded into the cover. On the receiver side, the real message can be extracted with an extraction module; while once the receiver has to surrender a piece of secret message under coercive attack, he can extract the fake message to deceive the adversary with another extraction module. Experiments demonstrate the scalability and sensitivity of the DNN-based receiver-deniable steganographic scheme.
翻訳日:2022-05-26 15:30:21 公開日:2022-05-25
# 高ダイナミックレンジイメージングに関するntire 2022チャレンジ : 方法と結果

NTIRE 2022 Challenge on High Dynamic Range Imaging: Methods and Results ( http://arxiv.org/abs/2205.12633v1 )

ライセンス: Link先を確認
Eduardo P\'erez-Pellitero, Sibi Catley-Chandar, Richard Shaw, Ale\v{s} Leonardis, Radu Timofte, Zexin Zhang, Cen Liu, Yunbo Peng, Yue Lin, Gaocheng Yu, Jin Zhang, Zhe Ma, Hongbin Wang, Xiangyu Chen, Xintao Wang, Haiwei Wu, Lin Liu, Chao Dong, Jiantao Zhou, Qingsen Yan, Song Zhang, Weiye Chen, Yuhang Liu, Zhen Zhang, Yanning Zhang, Javen Qinfeng Shi, Dong Gong, Dan Zhu, Mengdi Sun, Guannan Chen, Yang Hu, Haowei Li, Baozhu Zou, Zhen Liu, Wenjie Lin, Ting Jiang, Chengzhi Jiang, Xinpeng Li, Mingyan Han, Haoqiang Fan, Jian Sun, Shuaicheng Liu, Juan Mar\'in-Vega, Michael Sloth, Peter Schneider-Kamp, Richard R\"ottger, Chunyang Li, Long Bao, Gang He, Ziyao Xu, Li Xu, Gen Zhan, Ming Sun, Xing Wen, Junlin Li, Jinjing Li, Chenghua Li, Ruipeng Gang, Fangya Li, Chenming Liu, Shuang Feng, Fei Lei, Rui Liu, Junxiang Ruan, Tianhong Dai, Wei Li, Zhan Lu, Hengyan Liu, Peian Huang, Guangyu Ren, Yonglin Luo, Chang Liu, Qiang Tu, Fangya Li, Ruipeng Gang, Chenghua Li, Jinjing Li, Sai Ma, Chenming Liu, Yizhen Cao, Steven Tel, Barthelemy Heyrman, Dominique Ginhac, Chul Lee, Gahyeon Kim, Seonghyun Park, An Gia Vien, Truong Thanh Nhat Mai, Howoon Yoon, Tu Vo, Alexander Holston, Sheir Zaheer and Chan Y. Park(参考訳) 本稿では, cvpr 2022と共同で実施した新しい画像復元・強調技術(ntire)ワークショップの一環として, 制約付き高ダイナミックレンジ(hdr)イメージングの課題について検討する。 本原稿は,コンペティションのセットアップ,データセット,提案手法,その結果に焦点を当てている。 課題は、複数の低ダイナミックレンジ(LDR)観測からHDR画像を推定することである。 トラック1では、参加者は、低複雑さの制約を課しながら、客観的な忠実度スコアを最適化するよう求められます(つまり、解は特定の数の操作を超えることができない)。 トラック2では、参加者はフィデリティスコアに制約を課しながら解の複雑さを最小化するよう求められる(すなわち、所定のベースラインよりも高いフィデリティスコアを得るために解が必要である)。 両方のトラックは、同じデータとメトリクスを使用する: 忠実度は、(直接的および正準トネマッピング操作で計算される)基底トルースHDRイメージに対してPSNRによって測定される。

This paper reviews the challenge on constrained high dynamic range (HDR) imaging that was part of the New Trends in Image Restoration and Enhancement (NTIRE) workshop, held in conjunction with CVPR 2022. This manuscript focuses on the competition set-up, datasets, the proposed methods and their results. The challenge aims at estimating an HDR image from multiple respective low dynamic range (LDR) observations, which might suffer from under- or over-exposed regions and different sources of noise. The challenge is composed of two tracks with an emphasis on fidelity and complexity constraints: In Track 1, participants are asked to optimize objective fidelity scores while imposing a low-complexity constraint (i.e. solutions can not exceed a given number of operations). In Track 2, participants are asked to minimize the complexity of their solutions while imposing a constraint on fidelity scores (i.e. solutions are required to obtain a higher fidelity score than the prescribed baseline). Both tracks use the same data and metrics: Fidelity is measured by means of PSNR with respect to a ground-truth HDR image (computed both directly and with a canonical tonemapping operation), while complexity metrics include the number of Multiply-Accumulate (MAC) operations and runtime (in seconds).
翻訳日:2022-05-26 15:30:01 公開日:2022-05-25
# TreEnhance: 低照度画像強調のための自動木探索方式

TreEnhance: An Automatic Tree-Search Based Method for Low-Light Image Enhancement ( http://arxiv.org/abs/2205.12639v1 )

ライセンス: Link先を確認
Marco Cotogni, Claudio Cusano(参考訳) 本稿では,デジタル画像の品質向上が可能な低照度画像強調自動手法であるTreEnhanceを提案する。 この方法は木探索理論、特にモンテカルロ木探索(MCTS)アルゴリズムと深い強化学習を組み合わせたものである。 ローライト画像が入力されると、TreEnhanceはその拡張バージョンを出力として生成し、画像編集操作のシーケンスを出力する。 この方法は2つの主要なフェーズを繰り返す。 生成フェーズでは、MCTSの修正版が画像編集操作の空間を探索し、最も有望なシーケンスを選択する。 最適化フェーズでは、強化ポリシーを実装したニューラルネットワークのパラメータが更新される。 トレーニング後、2つの異なる推論ソリューションが新しい画像の強化のために提案されている: 1つはMCTSに基づいており、より正確であるが、時間とメモリの消費がより多く、もう1つは直接学習ポリシーを適用し、より速く、わずかに正確ではない。 最先端の他の方法とは異なり、TreEnhanceは画像解像度に制約を課さず、最小限のチューニングでさまざまなシナリオで使用することができる。 低照度データセットとadobe 5-kデータセットという2つのデータセットでこの手法をテストし、質的および定量的な観点から良い結果を得た。

In this paper we present TreEnhance, an automatic method for low-light image enhancement capable of improving the quality of digital images. The method combines tree search theory, and in particular the Monte Carlo Tree Search (MCTS) algorithm, with deep reinforcement learning. Given as input a low-light image, TreEnhance produces as output its enhanced version together with the sequence of image editing operations used to obtain it. The method repeatedly alternates two main phases. In the generation phase a modified version of MCTS explores the space of image editing operations and selects the most promising sequence. In the optimization phase the parameters of a neural network, implementing the enhancement policy, are updated. After training, two different inference solutions are proposed for the enhancement of new images: one is based on MCTS and is more accurate but more time and memory consuming; the other directly applies the learned policy and is faster but slightly less precise. Unlike other methods from the state of the art, TreEnhance does not pose any constraint on the image resolution and can be used in a variety of scenarios with minimal tuning. We tested the method on two datasets: the Low-Light dataset and the Adobe Five-K dataset obtaining good results from both a qualitative and a quantitative point of view.
翻訳日:2022-05-26 15:29:37 公開日:2022-05-25
# 胃病理組織学的サブサイズ画像分類の比較検討:リニア回帰からビジュアルトランスまで

A Comparative Study of Gastric Histopathology Sub-size Image Classification: from Linear Regression to Visual Transformer ( http://arxiv.org/abs/2205.12843v1 )

ライセンス: Link先を確認
Weiming Hu, Haoyuan Chen, Wanli Liu, Xiaoyan Li, Hongzan Sun, Xinyu Huang, Marcin Grzegorzek and Chen Li(参考訳) 胃癌は世界で5番目に多いがんである。 同時に、致命的な癌としては4番目に多い。 早期癌の発見は胃癌治療の指針として存在する。 近年, 胃癌の病理画像診断において, コンピュータ技術が急速に進歩している。 アンサンブル学習はアルゴリズムの精度を向上させる方法であり、相補型を持つ複数の学習モデルを見つけることはアンサンブル学習の基礎である。 本実験では,機械性能が不十分な場合のサブサイズ画像分類器の相補性を検討した。 gashissdbデータベース上で7つの古典的機械学習分類器と4つのディープラーニング分類器を選択した。 その中でも、古典的な機械学習アルゴリズムは、複数の分類器アルゴリズムにマッチする5つの異なる画像仮想特徴を抽出する。 ディープラーニングでは,3つの畳み込みニューラルネットワーク分類器を選択する。 さらに,新しい変圧器に基づく分類器も選択する。 古典的機械学習とディープラーニングの手法を多数実施した実験プラットフォームでは,gashissdb上で異なる分類器の性能に違いがあることが示されている。 古典的な機械学習モデルは、異常なカテゴリを非常によく分類する分類器に対して存在し、通常のカテゴリを分類する分類器も存在します。 ディープラーニングモデルには、相補的な複数のモデルが存在する。 機械性能が不十分な場合、アンサンブル学習に適した分類器が選択される。 この実験プラットフォームは、複数の分類器が本当に相補性を持ち、アンサンブル学習の効率を向上させることを証明している。 これにより、医師の診断を助け、胃癌の検出を改善し、治療率を高めることができる。

Gastric cancer is the fifth most common cancer in the world. At the same time, it is also the fourth most deadly cancer. Early detection of cancer exists as a guide for the treatment of gastric cancer. Nowadays, computer technology has advanced rapidly to assist physicians in the diagnosis of pathological pictures of gastric cancer. Ensemble learning is a way to improve the accuracy of algorithms, and finding multiple learning models with complementarity types is the basis of ensemble learning. The complementarity of sub-size pathology image classifiers when machine performance is insufficient is explored in this experimental platform. We choose seven classical machine learning classifiers and four deep learning classifiers for classification experiments on the GasHisSDB database. Among them, classical machine learning algorithms extract five different image virtual features to match multiple classifier algorithms. For deep learning, we choose three convolutional neural network classifiers. In addition, we also choose a novel Transformer-based classifier. The experimental platform, in which a large number of classical machine learning and deep learning methods are performed, demonstrates that there are differences in the performance of different classifiers on GasHisSDB. Classical machine learning models exist for classifiers that classify Abnormal categories very well, while classifiers that excel in classifying Normal categories also exist. Deep learning models also exist with multiple models that can be complementarity. Suitable classifiers are selected for ensemble learning, when machine performance is insufficient. This experimental platform demonstrates that multiple classifiers are indeed complementarity and can improve the efficiency of ensemble learning. This can better assist doctors in diagnosis, improve the detection of gastric cancer, and increase the cure rate.
翻訳日:2022-05-26 15:28:00 公開日:2022-05-25
# ディープラーニングプロキシの確率論的モデルエラー評価:ボアホール電磁測定のリアルタイムインバージョンへの応用

Probabilistic model-error assessment of deep learning proxies: an application to real-time inversion of borehole electromagnetic measurements ( http://arxiv.org/abs/2205.12684v1 )

ライセンス: Link先を確認
Muzammil Hussain Rammay, Sergey Alyaev, Ahmed H Elsheikh(参考訳) 高速センシング技術の出現により、モデルパラメータが不確かである多くのアプリケーションで、リアルタイムのモデル更新が可能になる。 アンサンブルスムーサのようなベイズアルゴリズムは、不確実性を説明するリアルタイム確率的反転を提供する。 しかし、それらは計算モデルの繰り返しの評価に依存しており、ディープニューラルネットワーク(DNN)ベースのプロキシはこの計算ボトルネックに対処するのに有用である。 本論文は, 深層模型の近似的性質とそれに伴うモデル誤差が, 測地学に不可欠な深層ボーリング電磁(em)測定の反転に及ぼす影響について検討する。 ディープニューラルネットワーク(DNN)をフォワードモデルとして使用することで,数千のモデル評価を数秒で実行することが可能になります。 通常、DNNモデルの精度を確保するために重要な努力がなされているが、トレーニングデータでカバーされていない領域に未知のモデルエラーが含まれていることが知られている。 EM測定の反転中にDNNを利用する場合、モデル誤差の影響は推定された入力パラメータのバイアスとして表され、その結果、低品質なジオステアリング決定がもたらされる可能性がある。 モデル誤差を無視しながら,EM測定の逆転に伴う問題を明らかにする数値計算結果を示す。 さらに,最近提案するフレキシブル反復型アンサンブル・スムーザの有用性を実証し,未知のモデル誤差を捉えてモデルバイアスの影響を低減し,ジオステアリング作業における推定地下特性の品質を向上させる。 さらに,インバージョンマルチモダリティを同定するための手順を述べるとともに,それをリアルタイムに緩和するための可能な解を提案する。

The advent of fast sensing technologies allows for real-time model updates in many applications where the model parameters are uncertain. Bayesian algorithms, such as ensemble smoothers, offer a real-time probabilistic inversion accounting for uncertainties. However, they rely on the repeated evaluation of the computational models, and deep neural network (DNN) based proxies can be useful to address this computational bottleneck. This paper studies the effects of the approximate nature of the deep learned models and associated model errors during the inversion of extra-deep borehole electromagnetic (EM) measurements, which are critical for geosteering. Using a deep neural network (DNN) as a forward model allows us to perform thousands of model evaluations within seconds, which is very useful for quantifying uncertainties and non-uniqueness in real-time. While significant efforts are usually made to ensure the accuracy of the DNN models, it is known that they contain unknown model errors in the regions not covered by the training data. When DNNs are utilized during inversion of EM measurements, the effects of the model errors could manifest themselves as a bias in the estimated input parameters and, consequently, might result in a low-quality geosteering decision. We present numerical results highlighting the challenges associated with the inversion of EM measurements while neglecting model error. We further demonstrate the utility of a recently proposed flexible iterative ensemble smoother in reducing the effect of model bias by capturing the unknown model errors, thus improving the quality of the estimated subsurface properties for geosteering operation. Moreover, we describe a procedure for identifying inversion multimodality and propose possible solutions to alleviate it in real-time.
翻訳日:2022-05-26 15:27:38 公開日:2022-05-25
# (参考訳) SEアダプタとセンターロスを用いたオブジェクト検出のためのドメイン適応

Domain Adaptation for Object Detection using SE Adaptors and Center Loss ( http://arxiv.org/abs/2205.12923v1 )

ライセンス: CC BY 4.0
Sushruth Nagesh, Shreyas Rajesh, Asfiya Baig, Savitha Srinivasan(参考訳) オブジェクト検出への関心は高まっているが、特に自動化アプリケーションにおけるクロスドメインロバスト性という極めて実用的な問題に対処する作品はほとんどない。 ドメインシフトによる性能低下を防止するため,インスタンスのシフトと画像レベルのシフトに対処する2つのドメイン適応コンポーネントを持つ高速RCNNの基盤となる教師なしドメイン適応手法を導入し,それらの整合性正則化を適用した。 また,seadaptorと呼ばれるスクイーズ励起機構を利用した適応層群を導入し,新たな対象領域の知識を事前に必要とせずに,ドメインの注目度を高め,性能を向上させる。 最後に、インスタンスに中心的損失と画像レベルの表現を組み込んでクラス内分散を改善します。 我々は、Cityscapesをソースドメインとして、Fogdy Cityscapesをターゲットドメインとして、以前のベースラインを上回りました。

Despite growing interest in object detection, very few works address the extremely practical problem of cross-domain robustness especially for automative applications. In order to prevent drops in performance due to domain shift, we introduce an unsupervised domain adaptation method built on the foundation of faster-RCNN with two domain adaptation components addressing the shift at the instance and image levels respectively and apply a consistency regularization between them. We also introduce a family of adaptation layers that leverage the squeeze excitation mechanism called SE Adaptors to improve domain attention and thus improves performance without any prior requirement of knowledge of the new target domain. Finally, we incorporate a center loss in the instance and image level representations to improve the intra-class variance. We report all results with Cityscapes as our source domain and Foggy Cityscapes as the target domain outperforming previous baselines.
翻訳日:2022-05-26 15:25:12 公開日:2022-05-25
# MUG:2次元空間からの3次元メッシュ再構成のためのマルチヒューマングラフネットワーク

MUG: Multi-human Graph Network for 3D Mesh Reconstruction from 2D Pose ( http://arxiv.org/abs/2205.12583v1 )

ライセンス: Link先を確認
Chenyan Wu, Yandong Li, Xianfeng Tang, James Wang(参考訳) 単一の単眼画像からマルチヒューマンボディメッシュを再構築することは、重要なが挑戦的なコンピュータビジョンの問題である。 個々のボディーメッシュモデルに加えて,被験者間の相対的3d位置を推定し,コヒーレント表現を生成する必要がある。 本研究では,mug(multi-human graph network)と呼ばれる単一グラフニューラルネットワークを用いて,複数人の2dポーズのみを入力として,コヒーレントなマルチヒューマンメッシュを構築する。 検出スタイルのパイプライン(画像の特徴を抽出し、人間のインスタンスを抽出し、それからボディメッシュを回復する)を採用し、ラボで収集されたトレーニングデータセットとin-the-wildテストデータセットの間の大きなドメインギャップに苦しむ既存の方法と比較すると、この方法はデータセット間で比較的一貫した幾何学的特性を持つ2dポーズの恩恵を受ける。 まず、マルチヒューマン環境をモデル化するために、マルチヒューマン2Dのポーズを処理し、新しい異種グラフを構築します。 第2に,二重分岐グラフニューラルネットワーク構造 – 人間間の深さ関係の予測と,ルートジョイント関係メッシュ座標の予測だ。 最後に、両枝からの出力を組み合わせることで、全マルチヒューマン3Dメッシュを構築する。 MUGは従来のマルチヒューマンメッシュ推定手法(Panoptic, MuPoTS-3D, 3DPW)よりも優れていた。

Reconstructing multi-human body mesh from a single monocular image is an important but challenging computer vision problem. In addition to the individual body mesh models, we need to estimate relative 3D positions among subjects to generate a coherent representation. In this work, through a single graph neural network, named MUG (Multi-hUman Graph network), we construct coherent multi-human meshes using only multi-human 2D pose as input. Compared with existing methods, which adopt a detection-style pipeline (i.e., extracting image features and then locating human instances and recovering body meshes from that) and suffer from the significant domain gap between lab-collected training datasets and in-the-wild testing datasets, our method benefits from the 2D pose which has a relatively consistent geometric property across datasets. Our method works like the following: First, to model the multi-human environment, it processes multi-human 2D poses and builds a novel heterogeneous graph, where nodes from different people and within one person are connected to capture inter-human interactions and draw the body geometry (i.e., skeleton and mesh structure). Second, it employs a dual-branch graph neural network structure -- one for predicting inter-human depth relation and the other one for predicting root-joint-relative mesh coordinates. Finally, the entire multi-human 3D meshes are constructed by combining the output from both branches. Extensive experiments demonstrate that MUG outperforms previous multi-human mesh estimation methods on standard 3D human benchmarks -- Panoptic, MuPoTS-3D and 3DPW.
翻訳日:2022-05-26 15:17:18 公開日:2022-05-25
# vtp:多視点多人数3次元ポーズ推定用ボリュームトランス

VTP: Volumetric Transformer for Multi-view Multi-person 3D Pose Estimation ( http://arxiv.org/abs/2205.12602v1 )

ライセンス: Link先を確認
Yuxing Chen, Renshu Gu, Ouhan Huang and Gangyong Jia(参考訳) 本稿では,多視点マルチパーソン3次元ポーズ推定のための最初の3次元ボリュームトランスフォーマーフレームワークであるVTPについて述べる。 VTPは、すべてのカメラビューにおける2Dキーポイントの特徴を集約し、エンドツーエンドで3Dボクセル空間の空間関係を直接学習する。 集約された3D特徴は、3D畳み込みを経て、順次埋め込みされ、トランスに供給される。 残余構造は性能をさらに向上するように設計されている。 さらに、スパークスシンクホーンの注目度は、ボリューム表現の大きなボトルネックであるメモリコストを低減しつつ、優れた性能を実現するためにも有効である。 変圧器の出力は、残留設計により再び3次元畳み込み特徴と連結される。 提案するVTPフレームワークは,コンボリューションバックボーンの優れた代替品として使用可能なボリューム表現とトランスフォーマーの高性能性を統合している。 Shelf, Campus, CMU Panoptic のベンチマーク実験では,MPJPE (Mean Per Joint Position Error) とPCP (Percentage of Correctly estimated Parts) の両方で有望な結果が得られた。 私たちのコードは利用可能です。

This paper presents Volumetric Transformer Pose estimator (VTP), the first 3D volumetric transformer framework for multi-view multi-person 3D human pose estimation. VTP aggregates features from 2D keypoints in all camera views and directly learns the spatial relationships in the 3D voxel space in an end-to-end fashion. The aggregated 3D features are passed through 3D convolutions before being flattened into sequential embeddings and fed into a transformer. A residual structure is designed to further improve the performance. In addition, the sparse Sinkhorn attention is empowered to reduce the memory cost, which is a major bottleneck for volumetric representations, while also achieving excellent performance. The output of the transformer is again concatenated with 3D convolutional features by a residual design. The proposed VTP framework integrates the high performance of the transformer with volumetric representations, which can be used as a good alternative to the convolutional backbones. Experiments on the Shelf, Campus and CMU Panoptic benchmarks show promising results in terms of both Mean Per Joint Position Error (MPJPE) and Percentage of Correctly estimated Parts (PCP). Our code will be available.
翻訳日:2022-05-26 15:16:47 公開日:2022-05-25
# ReSmooth: データ拡張トレーニングにおけるOODサンプルの検出と利用

ReSmooth: Detecting and Utilizing OOD Samples when Training with Data Augmentation ( http://arxiv.org/abs/2205.12606v1 )

ライセンス: Link先を確認
Chenyang Wang, Junjun Jiang, Xiong Zhou, Xianming Liu(参考訳) データ拡張(DA)は、ディープニューラルネットワークのトレーニングを強化するために広く使われているテクニックである。 最新のDA技術は、常に強化トレーニングサンプルの多様性の必要性を満たす。 しかし、多様性の高い増補戦略は、通常、アウト・オブ・ディストリビューション(OOD)強化サンプルを導入し、その結果、性能を損なう。 この問題を軽減するために,まず拡張サンプル中のoodサンプルを検出し,それを活用したフレームワークresmoothを提案する。 具体的には、まずガウス混合モデルを用いて、原サンプルと増補サンプルの両方の損失分布を一致させ、これらのサンプルを分布内サンプルとOODサンプルに分割する。 次に、IDとOODサンプルを異なるスムーズなラベルで組み込む新しいトレーニングを開始する。 IDサンプルとOODサンプルを不平等に扱うことで、多様な拡張データをよりよく活用することができる。 さらに、当社のReSmoothフレームワークを負のデータ拡張戦略に組み入れています。 意図的に作成したODDサンプルを適切に処理することにより、負のデータ拡張の分類性能を大幅に改善する。 いくつかの分類ベンチマークによる実験では、既存の拡張戦略(randaugment、rotrot、jigsawなど)に容易に拡張でき、それらを改善することができる。

Data augmentation (DA) is a widely used technique for enhancing the training of deep neural networks. Recent DA techniques which achieve state-of-the-art performance always meet the need for diversity in augmented training samples. However, an augmentation strategy that has a high diversity usually introduces out-of-distribution (OOD) augmented samples and these samples consequently impair the performance. To alleviate this issue, we propose ReSmooth, a framework that firstly detects OOD samples in augmented samples and then leverages them. To be specific, we first use a Gaussian mixture model to fit the loss distribution of both the original and augmented samples and accordingly split these samples into in-distribution (ID) samples and OOD samples. Then we start a new training where ID and OOD samples are incorporated with different smooth labels. By treating ID samples and OOD samples unequally, we can make better use of the diverse augmented data. Further, we incorporate our ReSmooth framework with negative data augmentation strategies. By properly handling their intentionally created ODD samples, the classification performance of negative data augmentations is largely ameliorated. Experiments on several classification benchmarks show that ReSmooth can be easily extended to existing augmentation strategies (such as RandAugment, rotate, and jigsaw) and improve on them.
翻訳日:2022-05-26 15:16:27 公開日:2022-05-25
# プリミティブ3D:ランダム組立プリミティブからの3次元オブジェクトデータセット合成

Primitive3D: 3D Object Dataset Synthesis from Randomly Assembled Primitives ( http://arxiv.org/abs/2205.12627v1 )

ライセンス: Link先を確認
Xinke Li, Henghui Ding, Zekun Tong, Yuwei Wu, Yeow Meng Chee(参考訳) ディープラーニングの多くの進歩は、大規模かつ注釈付きデータセットへのアクセスによるものである。 しかし、このようなデータセットは収集コストが大幅にかかるため、3dコンピュータビジョンでは極めて高価である。 この問題を軽減するために,アノテーションで大量の3Dオブジェクトを自動生成するコスト効率のよい手法を提案する。 特に、複数のランダムなプリミティブを組み立てることで、単にオブジェクトを合成する。 これらのオブジェクトは、プリミティブに由来する部分ラベルで自動アノテーションされる。 これにより,教師なしセグメンテーションと教師なしセグメンテーションを組み合わせたマルチタスク学習を実現する。 生成したデータセットの学習オーバーヘッドが大きいことを考慮し、ターゲットデータセットに関する冗長なサンプルを除去するデータセット蒸留戦略を提案する。 我々は3次元オブジェクト分類の下流タスクに対して広範な実験を行う。 その結果,我々のデータセットは,アノテーションを用いたマルチタスク事前トレーニングと合わせて,他の一般的なデータセットと比較して最高のパフォーマンスを実現していることがわかった。 さらに,本手法は,特に小規模のデータセットにおいて,事前学習と微調整によるモデル性能の向上を図っている。 また, 提案するデータセット蒸留法による事前訓練は, 性能劣化を伴わずに, 事前訓練時間の86\%を節約できる。 私たちの試みは、3d深層モデルのトレーニングに新たなデータ中心の視点を提供することを期待しています。

Numerous advancements in deep learning can be attributed to the access to large-scale and well-annotated datasets. However, such a dataset is prohibitively expensive in 3D computer vision due to the substantial collection cost. To alleviate this issue, we propose a cost-effective method for automatically generating a large amount of 3D objects with annotations. In particular, we synthesize objects simply by assembling multiple random primitives. These objects are thus auto-annotated with part labels originating from primitives. This allows us to perform multi-task learning by combining the supervised segmentation with unsupervised reconstruction. Considering the large overhead of learning on the generated dataset, we further propose a dataset distillation strategy to remove redundant samples regarding a target dataset. We conduct extensive experiments for the downstream tasks of 3D object classification. The results indicate that our dataset, together with multi-task pretraining on its annotations, achieves the best performance compared to other commonly used datasets. Further study suggests that our strategy can improve the model performance by pretraining and fine-tuning scheme, especially for the dataset with a small scale. In addition, pretraining with the proposed dataset distillation method can save 86\% of the pretraining time with negligible performance degradation. We expect that our attempt provides a new data-centric perspective for training 3D deep models.
翻訳日:2022-05-26 15:16:03 公開日:2022-05-25
# 軽量モーション補償によるリアルタイム映像の劣化

Real-Time Video Deblurring via Lightweight Motion Compensation ( http://arxiv.org/abs/2205.12634v1 )

ライセンス: Link先を確認
Hyeongseok Son, Junyong Lee, Sunghyun Cho, Seungyong Lee(参考訳) 動き補償は映像の画質を大幅に向上させるが、動き補償と動画の劣化を別々に行うと膨大な計算オーバーヘッドが要求される。 本稿では,映像の劣化と動き補償の両方を効率よくサポートする軽量マルチタスクユニットからなるリアルタイムビデオデブロアリングフレームワークを提案する。 マルチタスクユニットは、単一の共有ネットワークを用いて2つのタスクの大部分を処理するように設計されており、マルチタスクの詳細ネットワークと、振れや動き補償のための単純なネットワークで構成されている。 マルチタスクユニットは、動画デブロアリングに動き補償を組み込むコストを最小化し、リアルタイムデブロアリングを可能にする。 さらに,複数のマルチタスクユニットを積み重ねることで,コストと分離品質のフレキシブルな制御を実現する。 従来の手法に比べてはるかに高速で動作し,実用的な実時間性能(dvdデータセットで測定した30.99db@30fps)を示す,最先端のデブラリング品質を実験的に検証した。

While motion compensation greatly improves video deblurring quality, separately performing motion compensation and video deblurring demands huge computational overhead. This paper proposes a real-time video deblurring framework consisting of a lightweight multi-task unit that supports both video deblurring and motion compensation in an efficient way. The multi-task unit is specifically designed to handle large portions of the two tasks using a single shared network, and consists of a multi-task detail network and simple networks for deblurring and motion compensation. The multi-task unit minimizes the cost of incorporating motion compensation into video deblurring and enables real-time deblurring. Moreover, by stacking multiple multi-task units, our framework provides flexible control between the cost and deblurring quality. We experimentally validate the state-of-the-art deblurring quality of our approach, which runs at a much faster speed compared to previous methods, and show practical real-time performance (30.99dB@30fps measured in the DVD dataset).
翻訳日:2022-05-26 15:15:48 公開日:2022-05-25
# mocovit: 移動畳み込み視覚変換器

MoCoViT: Mobile Convolutional Vision Transformer ( http://arxiv.org/abs/2205.12635v1 )

ライセンス: Link先を確認
Hailong Ma, Xin Xia, Xing Wang, Xuefeng Xiao, Jiashi Li, Min Zheng(参考訳) 近年、トランスフォーマーネットワークは様々なビジョンタスクで印象的な成果を上げている。 しかし、そのほとんどは計算コストが高く、現実のモバイルアプリケーションには適していない。 本研究では,モバイル畳み込みネットワークにトランスフォーマーを導入することで,両アーキテクチャの利点を生かすことにより,性能と効率を向上させるmobile convolutional vision transformer (mocovit)を提案する。 ビジョントランスフォーマーに関する最近の研究とは異なり、MoCoViTのモバイルトランスフォーマーブロックはモバイルデバイス向けに慎重に設計されており、Mobile Self-Attention (MoSA) モジュールとMobile Feed Forward Network (MoFFN) という2つの主要な修正によって非常に軽量化されている。 MoSAは分岐共有方式によるアテンションマップの計算を単純化し、MoFFNはトランスフォーマーにおけるMLPの移動版として機能し、さらに大きなマージンによる計算を削減した。 包括的な実験により,提案するmocovitファミリーが,様々な視覚タスクにおいて最先端のポータブルcnnおよびトランスフォーマリンアーキテクチャよりも優れていることを確認した。 imagenet分類では、147mのフロップで74.5%のtop-1精度を達成し、少ない計算でmobilenetv3を1.2%上回った。 COCOオブジェクト検出タスクでは、MoCoViTはRetinaNetフレームワークでGhostNetの2.1 APを上回っている。

Recently, Transformer networks have achieved impressive results on a variety of vision tasks. However, most of them are computationally expensive and not suitable for real-world mobile applications. In this work, we present Mobile Convolutional Vision Transformer (MoCoViT), which improves in performance and efficiency by introducing transformer into mobile convolutional networks to leverage the benefits of both architectures. Different from recent works on vision transformer, the mobile transformer block in MoCoViT is carefully designed for mobile devices and is very lightweight, accomplished through two primary modifications: the Mobile Self-Attention (MoSA) module and the Mobile Feed Forward Network (MoFFN). MoSA simplifies the calculation of the attention map through Branch Sharing scheme while MoFFN serves as a mobile version of MLP in the transformer, further reducing the computation by a large margin. Comprehensive experiments verify that our proposed MoCoViT family outperform state-of-the-art portable CNNs and transformer neural architectures on various vision tasks. On ImageNet classification, it achieves 74.5% top-1 accuracy at 147M FLOPs, gaining 1.2% over MobileNetV3 with less computations. And on the COCO object detection task, MoCoViT outperforms GhostNet by 2.1 AP in RetinaNet framework.
翻訳日:2022-05-26 15:15:31 公開日:2022-05-25
# 強化記憶によるコントラスト学習

Contrastive Learning with Boosted Memorization ( http://arxiv.org/abs/2205.12693v1 )

ライセンス: Link先を確認
Zhihan Zhou, Jiangchao Yao, Yanfeng Wang, Bo Han, Ya Zhang(参考訳) 自己教師付き学習は、視覚およびテキストデータの表現学習において大きな成功を収めた。 しかし、現在の手法は主に、実世界のロングテール分布を示さない、精巧なデータセット上で検証されている。 近年, 自己指導型ロングテール学習のパラダイムに類似した, 損失視点やモデル視点の再バランスによって, 自己指導型ロングテール学習を考える試みが行われている。 それにもかかわらず、ラベルの助けがなければ、これらの調査は尾標本の発見やヒューリスティックな構造設計に制限があるため、大きな期待は示されていない。 従来の研究とは違って,データの観点から,この方向を代替的な視点,すなわちデータの観点から探求し,新たなBCL法を提案する。 具体的には、BCLはディープニューラルネットワークの記憶効果を利用して、対照的な学習においてサンプルビューの情報差を自動的に駆動する。 ベンチマークデータセットの広範な実験は、いくつかの最先端手法に対するBCLの有効性を示す。 私たちのコードはhttps://github.com/Zhihan-Zhou/Boosted-Contrastive-Learningで公開しています。

Self-supervised learning has achieved a great success in the representation learning of visual and textual data. However, the current methods are mainly validated on the well-curated datasets, which do not exhibit the real-world long-tailed distribution. Recent attempts to consider self-supervised long-tailed learning are made by rebalancing in the loss perspective or the model perspective, resembling the paradigms in the supervised long-tailed learning. Nevertheless, without the aid of labels, these explorations have not shown the expected significant promise due to the limitation in tail sample discovery or the heuristic structure design. Different from previous works, we explore this direction from an alternative perspective, i.e., the data perspective, and propose a novel Boosted Contrastive Learning (BCL) method. Specifically, BCL leverages the memorization effect of deep neural networks to automatically drive the information discrepancy of the sample views in contrastive learning, which is more efficient to enhance the long-tailed learning in the label-unaware context. Extensive experiments on a range of benchmark datasets demonstrate the effectiveness of BCL over several state-of-the-art methods. Our code is available at https://github.com/Zhihan-Zhou/Boosted-Contrastive-Learning.
翻訳日:2022-05-26 15:13:33 公開日:2022-05-25
# AO2-DETR:任意指向物体検出変換器

AO2-DETR: Arbitrary-Oriented Object Detection Transformer ( http://arxiv.org/abs/2205.12785v1 )

ライセンス: Link先を確認
Linhui Dai, Hong Liu, Hao Tang, Zhiwei Wu, Pinhao Song(参考訳) 任意指向オブジェクト検出(aood)は、任意の方向と乱雑な配置で野生のオブジェクトを検出するための困難なタスクである。 既存のアプローチは主にアンカーベースボックスや高密度点に基づいており、これは複雑な手設計の処理ステップと、アンカー生成、変換、非最大抑圧推論のような誘導バイアスに依存している。 近年,新しいトランスフォーマティブ・アプローチでは,オブジェクト検出を,手作りのコンポーネントや帰納バイアスを効果的に排除する直接集合予測問題として捉えている。 本稿では、3つの専用コンポーネントからなるAO2-DETRと呼ばれるArbitrary-Oriented Object Detection TRansformerフレームワークを提案する。 より正確には、変換器デコーダのクロスアテンションを変調するために、プール機能に対してより優れた位置先を付与する、指向性提案を明示的に生成する指向性提案生成機構を提案する。 回転不変な領域特徴を抽出し、領域特徴と対象物とのミスアライメントを除去する適応指向型提案改良モジュールを導入する。 また、重複予測を伴わずに、直接セット予測のための1対1のマッチングプロセスを確保するために、回転対応のセットマッチング損失を用いる。 本手法はパイプライン全体を大幅に単純化し,新しいAOODパラダイムを提案する。 いくつかの挑戦的データセットに対する総合的な実験により,本手法はAOODタスクにおいて優れた性能を発揮することが示された。

Arbitrary-oriented object detection (AOOD) is a challenging task to detect objects in the wild with arbitrary orientations and cluttered arrangements. Existing approaches are mainly based on anchor-based boxes or dense points, which rely on complicated hand-designed processing steps and inductive bias, such as anchor generation, transformation, and non-maximum suppression reasoning. Recently, the emerging transformer-based approaches view object detection as a direct set prediction problem that effectively removes the need for hand-designed components and inductive biases. In this paper, we propose an Arbitrary-Oriented Object DEtection TRansformer framework, termed AO2-DETR, which comprises three dedicated components. More precisely, an oriented proposal generation mechanism is proposed to explicitly generate oriented proposals, which provides better positional priors for pooling features to modulate the cross-attention in the transformer decoder. An adaptive oriented proposal refinement module is introduced to extract rotation-invariant region features and eliminate the misalignment between region features and objects. And a rotation-aware set matching loss is used to ensure the one-to-one matching process for direct set prediction without duplicate predictions. Our method considerably simplifies the overall pipeline and presents a new AOOD paradigm. Comprehensive experiments on several challenging datasets show that our method achieves superior performance on the AOOD task.
翻訳日:2022-05-26 15:13:16 公開日:2022-05-25
# ニューラル変形ピラミッドによる非剛点雲の登録

Non-rigid Point Cloud Registration with Neural Deformation Pyramid ( http://arxiv.org/abs/2205.12796v1 )

ライセンス: Link先を確認
Yang Li and Tatsuya Harada(参考訳) 非厳密なクラウド登録は多くのコンピュータビジョンやコンピュータグラフィックスアプリケーションにおいて重要なコンポーネントである。 未知の非剛体運動の複雑さは、このタスクを困難な問題にする。 本稿では,この問題を階層的動作分解によって解決する。 我々の手法であるニューラル変形ピラミッド (NDP) はピラミッド構造を用いた非剛体運動を表す。 各ピラミッドレベルは、Multi-Layer Perception (MLP)で表され、正弦的に符号化された3Dポイントを入力として、前レベルから運動インクリメントを出力する。 正弦波関数は入力周波数が低いことから始まり、ピラミッドレベルが下がると徐々に増加する。 これにより、多段剛性から非剛性運動分解が可能となり、既存のMLPベースのアプローチに比べて50倍の高速化が可能となった。 本手法は,4DMatch/4DLoMatchベンチマークにおいて,非学習環境と教師あり環境下での高度な部分的・部分的クラウド登録結果を実現する。

Non-rigid point cloud registration is a key component in many computer vision and computer graphics applications. The high complexity of the unknown non-rigid motion make this task a challenging problem. In this paper, we break down this problem via hierarchical motion decomposition. Our method called Neural Deformation Pyramid (NDP) represents non-rigid motion using a pyramid architecture. Each pyramid level, denoted by a Multi-Layer Perception (MLP), takes as input a sinusoidally encoded 3D point and outputs its motion increments from the previous level. The sinusoidal function starts with a low input frequency and gradually increases when the pyramid level goes down. This allows a multi-level rigid to nonrigid motion decomposition and also speeds up the solving by 50 times compared to the existing MLP-based approach. Our method achieves advanced partialto-partial non-rigid point cloud registration results on the 4DMatch/4DLoMatch benchmark under both no-learned and supervised settings.
翻訳日:2022-05-26 15:12:52 公開日:2022-05-25
# 低メモリフットプリント量子化ニューラルネットワークによる超低飛行時間深度マップの奥行き完了

A Low Memory Footprint Quantized Neural Network for Depth Completion of Very Sparse Time-of-Flight Depth Maps ( http://arxiv.org/abs/2205.12918v1 )

ライセンス: Link先を確認
Xiaowen Jiang, Valerio Cambareri, Gianluca Agresti, Cynthia Ifeyinwa Ugwu, Adriano Simonetto, Fabien Cardinaux, Pietro Zanuttigh(参考訳) スパースアクティブ照明は低消費電力で信号対雑音比を最大化するため、正確な飛行時間深度センシングを可能にする。 しかし,3次元知覚のための深度マップの作成には深度補正が必要である。 本課題は,屋内3次元知覚のためのToFデータセットのシミュレーションにより,現実的な照明とセンサ解像度の制約に対処する。 本稿では,量子化畳み込みエンコーダ・デコーダネットワークを提案する。 本モデルでは,入力前処理と幾何保存損失関数による微調整による最適深度マップ品質を実現する。 また,重みとアクティベーションに対する低メモリフットプリントを混合精度量子化・訓練法を用いて達成する。 その結果得られた量子化モデルは、品質の面では最先端に匹敵するが、非常に低いgpu時間を必要とし、w.r.t.の浮動小数点の重みに対して最大14倍のメモリサイズ削減を達成し、品質メトリクスへの影響を最小限に抑えることができる。

Sparse active illumination enables precise time-of-flight depth sensing as it maximizes signal-to-noise ratio for low power budgets. However, depth completion is required to produce dense depth maps for 3D perception. We address this task with realistic illumination and sensor resolution constraints by simulating ToF datasets for indoor 3D perception with challenging sparsity levels. We propose a quantized convolutional encoder-decoder network for this task. Our model achieves optimal depth map quality by means of input pre-processing and carefully tuned training with a geometry-preserving loss function. We also achieve low memory footprint for weights and activations by means of mixed precision quantization-at-training techniques. The resulting quantized models are comparable to the state of the art in terms of quality, but they require very low GPU times and achieve up to 14-fold memory size reduction for the weights w.r.t. their floating point counterpart with minimal impact on quality metrics.
翻訳日:2022-05-26 15:12:10 公開日:2022-05-25
# 画像から画像への翻訳に必要な事前学習

Pretraining is All You Need for Image-to-Image Translation ( http://arxiv.org/abs/2205.12952v1 )

ライセンス: Link先を確認
Tengfei Wang, Ting Zhang, Bo Zhang, Hao Ouyang, Dong Chen, Qifeng Chen, Fang Wen(参考訳) 画像から画像への一般的な翻訳を促進するために,事前学習を用いることを提案する。 以前のイメージ・ツー・イメージの翻訳手法では、特にペアのトレーニングデータが不足している場合、特に複雑なシーンの高品質な生成に苦慮している。 本稿では,各画像間翻訳問題を下流タスクとみなし,様々な画像間翻訳に対応するために事前学習した拡散モデルに適応する,シンプルで汎用的なフレームワークを提案する。 また, 拡散モデル学習におけるテクスチャ合成の促進を目的として, 正規化誘導サンプリングと併用して, 生成品質の向上を図る。 本研究では、ADE20K、COCO-Stuff、DIODEなどの課題に対する様々な課題に対する実験的な比較を行い、前例のないリアリズムと忠実さのイメージを合成できる事前学習ベース画像変換(PITI)を提案する。

We propose to use pretraining to boost general image-to-image translation. Prior image-to-image translation methods usually need dedicated architectural design and train individual translation models from scratch, struggling for high-quality generation of complex scenes, especially when paired training data are not abundant. In this paper, we regard each image-to-image translation problem as a downstream task and introduce a simple and generic framework that adapts a pretrained diffusion model to accommodate various kinds of image-to-image translation. We also propose adversarial training to enhance the texture synthesis in the diffusion model training, in conjunction with normalized guidance sampling to improve the generation quality. We present extensive empirical comparison across various tasks on challenging benchmarks such as ADE20K, COCO-Stuff, and DIODE, showing the proposed pretraining-based image-to-image translation (PITI) is capable of synthesizing images of unprecedented realism and faithfulness.
翻訳日:2022-05-26 15:11:53 公開日:2022-05-25
# テスト時間におけるDense Retrievalのためのクエリ表現の精細化

Refining Query Representations for Dense Retrieval at Test Time ( http://arxiv.org/abs/2205.12680v1 )

ライセンス: Link先を確認
Mujeen Sung, Jungsoo Park, Jaewoo Kang, Danqi Chen, Jinhyuk Lee(参考訳) Dense Searchは、コントラスト学習フレームワークを使用して、クエリやコンテキストの密度の高い表現を学習する。 トレーニングされたエンコーダは各テストクエリに直接使用されるが、ドメイン外のクエリを正確に表現できないことが多い。 本稿では,中間検索結果からの信号のみを用いて,テスト時にインスタンスレベルのクエリ表現を洗練するフレームワークを提案する。 情報検索における擬似関連フィードバック(PRF)と同様の検索結果に基づいて,クエリ表現を最適化する。 具体的には、クロスエンコーダラベルを用いて、検索結果上の擬似ラベルを提供し、クエリ表現を勾配降下法で反復的に洗練し、各テストクエリをトレーニングする単一データポイントとして扱う。 理論的解析により,我々のフレームワークは古典的ロッキーオのPRFアルゴリズムの一般化と見なせることが明らかとなり,本手法の興味深い変種が提案される。 提案手法は,オープンドメインqaにおけるフレーズ検索(+8.1% acc@1)とパス検索(+3.7% acc@20)の性能向上と,ドメイン外クエリの大幅な改善を実現する。

Dense retrieval uses a contrastive learning framework to learn dense representations of queries and contexts. Trained encoders are directly used for each test query, but they often fail to accurately represent out-of-domain queries. In this paper, we introduce a framework that refines instance-level query representations at test time, with only the signals coming from the intermediate retrieval results. We optimize the query representation based on the retrieval result similar to pseudo relevance feedback (PRF) in information retrieval. Specifically, we adopt a cross-encoder labeler to provide pseudo labels over the retrieval result and iteratively refine the query representation with a gradient descent method, treating each test query as a single data point to train on. Our theoretical analysis reveals that our framework can be viewed as a generalization of the classical Rocchio's algorithm for PRF, which leads us to propose interesting variants of our method. We show that our test-time query refinement strategy improves the performance of phrase retrieval (+8.1% Acc@1) and passage retrieval (+3.7% Acc@20) for open-domain QA with large improvements on out-of-domain queries.
翻訳日:2022-05-26 15:10:27 公開日:2022-05-25
# そんなふうに聞いてもらえませんか。 知識グラフ質問応答における質問自然度の測定と改善

Would You Ask it that Way? Measuring and Improving Question Naturalness for Knowledge Graph Question Answering ( http://arxiv.org/abs/2205.12768v1 )

ライセンス: Link先を確認
Trond Linjordet, Krisztian Balog(参考訳) 知識グラフ質問応答(KGQA)は、構造化データを活用することで、ユーザから正式なクエリ言語専門知識を必要としない情報アクセスを容易にする。 その代わり、ユーザは自然言語(NL)で質問するだけで、情報のニーズを表現できる。 このようなサービスを提供するKGQAモデルをトレーニングするために使用されるデータセットは、専門家とクラウドソースの双方の観点から、構築に費用がかかる。 通常、クラウドソーシングによる労力は、形式的クエリから生成されるテンプレートベースの疑似自然問題を改善するために使用される。 しかし、結果として得られるデータセットは、真に自然で流動的な言語を表現できないことが多い。 本研究は,これらの欠点を特徴づけ,治療する方法を検討する。 我々は,既存のKGQAデータセットから質問を抽出し,自然性の5つの側面について評価することでIQN-KGQAテストコレクションを作成する。 そして、質問が書き直され、その頻度が向上する。 最後に、既存のKGQAモデルの性能を、NL質問の原文および書き直し版と比較する。 より現実的なNL質問の定式化を行うと,いくつかのKGQAシステムはさらに悪化することがわかった。 IQN-KGQAテストコレクションは、より現実的な環境でKGQAシステムを評価するのに役立つリソースである。 このテストコレクションの構築は、真のNL質問で大規模なKGQAデータセットを構築する際の課題にも光を当てている。

Knowledge graph question answering (KGQA) facilitates information access by leveraging structured data without requiring formal query language expertise from the user. Instead, users can express their information needs by simply asking their questions in natural language (NL). Datasets used to train KGQA models that would provide such a service are expensive to construct, both in terms of expert and crowdsourced labor. Typically, crowdsourced labor is used to improve template-based pseudo-natural questions generated from formal queries. However, the resulting datasets often fall short of representing genuinely natural and fluent language. In the present work, we investigate ways to characterize and remedy these shortcomings. We create the IQN-KGQA test collection by sampling questions from existing KGQA datasets and evaluating them with regards to five different aspects of naturalness. Then, the questions are rewritten to improve their fluency. Finally, the performance of existing KGQA models is compared on the original and rewritten versions of the NL questions. We find that some KGQA systems fare worse when presented with more realistic formulations of NL questions. The IQN-KGQA test collection is a resource to help evaluate KGQA systems in a more realistic setting. The construction of this test collection also sheds light on the challenges of constructing large-scale KGQA datasets with genuinely NL questions.
翻訳日:2022-05-26 15:10:06 公開日:2022-05-25
# モラルコードはモラルコードを持っているか? デルフィの道徳哲学を探る

Does Moral Code Have a Moral Code? Probing Delphi's Moral Philosophy ( http://arxiv.org/abs/2205.12771v1 )

ライセンス: Link先を確認
Kathleen C. Fraser, Svetlana Kiritchenko, and Esma Balkir(参考訳) 機械学習モデルのアウトプットが人間の道徳的価値に合致することを保証するため、最近の研究は、正しいものと間違ったものの違いを学習するために、モデルを明示的に訓練する可能性を模索している。 これは一般的にボトムアップ方式で行われ、モデルを異なるシナリオに公開し、人間の道徳的判断に注釈を付ける。 しかし、ある疑問は、訓練されたモデルが実際にこれらのデータセットから一貫性のある高レベルの倫理原則を学んでいるかどうかだ。 本稿では,Allen AI Delphiモデルを標準化されたモラル性アンケートを用いて検討し,いくつかの矛盾にもかかわらず,アノテーションプロセスに関わる階層群に関連する道徳原則を反映する傾向にあることを示した。 これが望ましいかどうか疑問を呈し、この知識をどう進めるかについて議論する。

In an effort to guarantee that machine learning model outputs conform with human moral values, recent work has begun exploring the possibility of explicitly training models to learn the difference between right and wrong. This is typically done in a bottom-up fashion, by exposing the model to different scenarios, annotated with human moral judgements. One question, however, is whether the trained models actually learn any consistent, higher-level ethical principles from these datasets -- and if so, what? Here, we probe the Allen AI Delphi model with a set of standardized morality questionnaires, and find that, despite some inconsistencies, Delphi tends to mirror the moral principles associated with the demographic groups involved in the annotation process. We question whether this is desirable and discuss how we might move forward with this knowledge.
翻訳日:2022-05-26 15:09:47 公開日:2022-05-25
# 汎用でパワフルでスケーラブルなグラフ変換器の準備

Recipe for a General, Powerful, Scalable Graph Transformer ( http://arxiv.org/abs/2205.12454v1 )

ライセンス: Link先を確認
Ladislav Ramp\'a\v{s}ek, Mikhail Galkin, Vijay Prakash Dwivedi, Anh Tuan Luu, Guy Wolf, Dominique Beaini(参考訳) そこで本稿では,線形複雑化を伴う汎用・強力・スケーラブルな(GPS)グラフトランスフォーマーの構築方法と,様々なベンチマークの最先端結果を提案する。 グラフトランスフォーマー(GT)は、グラフ表現学習の分野において、近年様々な出版物で人気を集めているが、優れた位置や構造的エンコーディングを構成するもの、それらと区別するものに関する共通の基盤が欠けている。 本稿では、より明確な定義で異なるタイプのエンコーディングを要約し、それらを $\textit{local}$, $\textit{global}$, $\textit{relative}$と分類する。 さらに、gtsは数百のノードを持つ小さなグラフに制限されており、全連結トランスフォーマーから局所的な実エッジアグリゲーションを分離することで、ノード数とエッジ数に線形な複雑性を持つ最初のアーキテクチャを提案する。 この疎結合は表現性に悪影響を与えず、我々のアーキテクチャはグラフの普遍関数近似器である。 われわれのGPSレシピは3つの主成分から成り立っている。 (i)位置/構造符号化 (ii)ローカルメッセージパッシング機構、及び (iii)グローバル・アテンション・メカニズム。 私たちは、複数のタイプのエンコーディングをサポートし、小さなグラフと大きなグラフの両方で効率性とスケーラビリティを提供するモジュラーフレームワーク$\textit{GraphGPS}$を構築し、オープンソース化します。 アーキテクチャを11のベンチマークでテストし、すべてのベンチマークで非常に競争力のある結果を示し、モジュール性によって得られる経験上のメリットと、さまざまな戦略の組み合わせを示しています。

We propose a recipe on how to build a general, powerful, scalable (GPS) graph Transformer with linear complexity and state-of-the-art results on a diverse set of benchmarks. Graph Transformers (GTs) have gained popularity in the field of graph representation learning with a variety of recent publications but they lack a common foundation about what constitutes a good positional or structural encoding, and what differentiates them. In this paper, we summarize the different types of encodings with a clearer definition and categorize them as being $\textit{local}$, $\textit{global}$ or $\textit{relative}$. Further, GTs remain constrained to small graphs with few hundred nodes, and we propose the first architecture with a complexity linear to the number of nodes and edges $O(N+E)$ by decoupling the local real-edge aggregation from the fully-connected Transformer. We argue that this decoupling does not negatively affect the expressivity, with our architecture being a universal function approximator for graphs. Our GPS recipe consists of choosing 3 main ingredients: (i) positional/structural encoding, (ii) local message-passing mechanism, and (iii) global attention mechanism. We build and open-source a modular framework $\textit{GraphGPS}$ that supports multiple types of encodings and that provides efficiency and scalability both in small and large graphs. We test our architecture on 11 benchmarks and show very competitive results on all of them, show-casing the empirical benefits gained by the modularity and the combination of different strategies.
翻訳日:2022-05-26 15:09:32 公開日:2022-05-25
# TrustGNN: 学習可能なプロパゲーティブと構成可能な性質によるグラフニューラルネットワークによる信頼評価

TrustGNN: Graph Neural Network based Trust Evaluation via Learnable Propagative and Composable Nature ( http://arxiv.org/abs/2205.12784v1 )

ライセンス: Link先を確認
Cuiying Huo, Di Jin, Chundong Liang, Dongxiao He, Tie Qiu and Lingfei Wu(参考訳) 信頼評価は、サイバーセキュリティ、ソーシャルコミュニケーション、レコメンダシステムなど、多くのアプリケーションにとって重要である。 ユーザと信頼関係はグラフとして見ることができます。 グラフニューラルネットワーク(GNN)は、グラフ構造データを解析する強力な能力を示している。 ごく最近まで、既存の研究は信頼評価のためにGNNにエッジの属性と非対称性を導入しようとしたが、信頼グラフの本質的な性質(例えば、伝播性や構成性)を捉えられなかった。 本研究では,信頼グラフの伝播性および構成性を考慮した信頼度評価手法であるTrustGNNをGNNフレームワークに統合し,信頼度評価を改善する手法を提案する。 具体的には、TrustGNNは、異なる伝播過程のための特定の伝播パターンを設計し、新しい信頼を生み出すための異なる伝播過程の貢献を区別する。 これにより、TrustGNNは包括的なノード埋め込みを学習し、これらの埋め込みに基づいて信頼関係を予測することができる。 広く使われている実世界のデータセットの実験は、TrustGNNが最先端の手法を著しく上回っていることを示している。 さらに分析実験を行い,TrustGNNにおける鍵設計の有効性を実証する。

Trust evaluation is critical for many applications such as cyber security, social communication and recommender systems. Users and trust relationships among them can be seen as a graph. Graph neural networks (GNNs) show their powerful ability for analyzing graph-structural data. Very recently, existing work attempted to introduce the attributes and asymmetry of edges into GNNs for trust evaluation, while failed to capture some essential properties (e.g., the propagative and composable nature) of trust graphs. In this work, we propose a new GNN based trust evaluation method named TrustGNN, which integrates smartly the propagative and composable nature of trust graphs into a GNN framework for better trust evaluation. Specifically, TrustGNN designs specific propagative patterns for different propagative processes of trust, and distinguishes the contribution of different propagative processes to create new trust. Thus, TrustGNN can learn comprehensive node embeddings and predict trust relationships based on these embeddings. Experiments on some widely-used real-world datasets indicate that TrustGNN significantly outperforms the state-of-the-art methods. We further perform analytical experiments to demonstrate the effectiveness of the key designs in TrustGNN.
翻訳日:2022-05-26 15:07:33 公開日:2022-05-25
# プライオリティ継承を用いたマルチエージェントピックアップ・デリバリー問題に対するデッドロックフリー手法

Deadlock-Free Method for Multi-Agent Pickup and Delivery Problem Using Priority Inheritance with Temporary Priority ( http://arxiv.org/abs/2205.12504v1 )

ライセンス: Link先を確認
Yukita Fujitani, Tomoki Yamauchi, Yuki Miyashita and Toshiharu Sugawara(参考訳) 本稿では,より一般的な環境に適用可能なバックトラッキング(pibt)方式による優先度継承を拡張し,マルチエージェントピックアップ・デリバリー問題(マップ問題)の制御手法を提案する。 PIBTは、各エージェントに優先順位を導入する効果的なアルゴリズムであり、各タイムステップごとに、優先度の順に、エージェントは、ローカルエージェントとの通信のみで次のタイムステップで隣の場所を決定する。 残念なことに、pibtはバイコネクテッドエリアとしてモデル化された環境にのみ適用でき、木型のパスのようなデッドエンドを含む場合、pibtはデッドロックを引き起こす可能性がある。 しかし、現実世界の環境では、材料が保管されている棚や輸送トラックへの荷降ろし場所など、多くのデッドエンドの経路がある。 提案手法は, PIBT機能を維持しながら, デッドロックのない木形経路の環境下でMAPDタスクを行えるようにし, エージェントが一時的に優先順位をつけ, エージェントの動きを制限できるようにする。 まず,エージェントがデッドロックなしで常に配信に到達できることを実証する。 提案手法は,PIBTが適用できない環境においても,よく知られたトークンパス法をベースラインとして得られた手法と比較することにより,極めて効率的であることを示す。

This paper proposes a control method for the multi-agent pickup and delivery problem (MAPD problem) by extending the priority inheritance with backtracking (PIBT) method to make it applicable to more general environments. PIBT is an effective algorithm that introduces a priority to each agent, and at each timestep, the agents, in descending order of priority, decide their next neighboring locations in the next timestep through communications only with the local agents. Unfortunately, PIBT is only applicable to environments that are modeled as a bi-connected area, and if it contains dead-ends, such as tree-shaped paths, PIBT may cause deadlocks. However, in the real-world environment, there are many dead-end paths to locations such as the shelves where materials are stored as well as loading/unloading locations to transportation trucks. Our proposed method enables MAPD tasks to be performed in environments with some tree-shaped paths without deadlock while preserving the PIBT feature; it does this by allowing the agents to have temporary priorities and restricting agents' movements in the trees. First, we demonstrate that agents can always reach their delivery without deadlock. Our experiments indicate that the proposed method is very efficient, even in environments where PIBT is not applicable, by comparing them with those obtained using the well-known token passing method as a baseline.
翻訳日:2022-05-26 15:07:16 公開日:2022-05-25
# AIのための人間中心評価フレームワーク

A Human-Centric Assessment Framework for AI ( http://arxiv.org/abs/2205.12749v1 )

ライセンス: Link先を確認
Sascha Saralajew and Ammar Shaker and Zhao Xu and Kiril Gashteovski and Bhushan Kotnis and Wiem Ben-Rim and J\"urgen Quittek and Carolin Lawrence(参考訳) 現実世界のアプリケーションにおけるAIシステムの台頭により、信頼できる信頼できるAIの必要性がもたらされる。 これの重要な側面は、説明可能なAIシステムである。 しかし、説明可能なAIシステムをどのように評価すべきかに関して合意された基準はない。 チューリングテストに触発されて、トップドメインの専門家がAIシステムと他のドメインエキスパートのソリューションを受け入れ、拒否する、人間中心のアセスメントフレームワークを導入しました。 提供されたソリューションの受け入れ率を比較することで、AIシステムがドメインエキスパートと比較してどのように機能するかを評価し、AIシステムの説明(提供された場合)が人間の理解可能かどうかを評価することができる。 このセットアップ(チューリングテストと同等)は、幅広い人間中心のAIシステムアセスメントのためのフレームワークとして機能する。 本研究では,(1)ラベルの不確かさを組み込むオプションでシステムの分類精度を計測する評価,(2)提供された説明の有用性を人間中心の方法で判定する評価の2つを提示することにより,これを実証する。

With the rise of AI systems in real-world applications comes the need for reliable and trustworthy AI. An important aspect for this are explainable AI systems. However, there is no agreed standard on how explainable AI systems should be assessed. Inspired by the Turing test, we introduce a human-centric assessment framework where a leading domain expert accepts or rejects the solutions of an AI system and another domain expert. By comparing the acceptance rates of provided solutions, we can assess how the AI system performs in comparison to the domain expert, and in turn whether or not the AI system's explanations (if provided) are human understandable. This setup -- comparable to the Turing test -- can serve as framework for a wide range of human-centric AI system assessments. We demonstrate this by presenting two instantiations: (1) an assessment that measures the classification accuracy of a system with the option to incorporate label uncertainties; (2) an assessment where the usefulness of provided explanations is determined in a human-centric manner.
翻訳日:2022-05-26 15:06:54 公開日:2022-05-25
# SoK: 国境を越えた刑事捜査とデジタル証拠

SoK: Cross-border Criminal Investigations and Digital Evidence ( http://arxiv.org/abs/2205.12911v1 )

ライセンス: Link先を確認
Fran Casino, Claudia Pina, Pablo L\'opez-Aguilar, Edgar Batista, Agusti Solanas, and Constantinos Patsakis(参考訳) デジタル証拠は、その分析がほぼすべての犯罪捜査に不可欠な部分であるため、犯罪の大多数を支える。 デジタル証拠の収集・分析における多くの課題を一時的に無視しても、異なる利害関係者間で証拠の交換には多くの問題がある。 特定の関心は、時間的ボトルネックを超えた法的枠組みの不均一性によって複雑さが著しく高くなるため、国境を越えた刑事捜査である。 本稿の目的は,現行の協調プロトコルの有効性と克服すべき課題と欠点を考慮し,国境横断調査の実践状況を分析することである。 法的指向の研究論文の実施に加えて,文献で提起されたすべての課題を想起し,より実践的でグローバルな視点から議論する。 このように、本稿は、実践者やステークホルダーが水平戦略を利用して、特定されたギャップをタイムリーかつ正確に埋めることを可能にする方法を舗装する。

Digital evidence underpin the majority of crimes as their analysis is an integral part of almost every criminal investigation. Even if we temporarily disregard the numerous challenges in the collection and analysis of digital evidence, the exchange of the evidence among the different stakeholders has many thorny issues. Of specific interest are cross-border criminal investigations as the complexity is significantly high due to the heterogeneity of legal frameworks which beyond time bottlenecks can also become prohibiting. The aim of this article is to analyse the current state of practice of cross-border investigations considering the efficacy of current collaboration protocols along with the challenges and drawbacks to be overcome. Further to performing a legally-oriented research treatise, we recall all the challenges raised in the literature and discuss them from a more practical yet global perspective. Thus, this article paves the way to enabling practitioners and stakeholders to leverage horizontal strategies to fill in the identified gaps timely and accurately.
翻訳日:2022-05-26 15:06:39 公開日:2022-05-25
# Gated Interlayer CollaborationによるCTCに基づくASRモデルの改良

Improving CTC-based ASR Models with Gated Interlayer Collaboration ( http://arxiv.org/abs/2205.12462v1 )

ライセンス: Link先を確認
Yuting Yang, Yuke Li, Binbin Du(参考訳) 自動音声認識 (asr) では,ctcに基づく手法が,単純なアーキテクチャと効率的な非回帰推論手法により主流となっている。 しかしながら、外部言語モデルを持たないこれらの手法は、条件付き依存関係とテキストの相互作用をモデル化する能力に欠ける。 本稿では,ctcに基づくモデルの条件付き独立性仮定を緩和し,文脈情報をモデルに導入するゲート型層間協調(gic)機構を提案する。 具体的には、中間層の確率分布がソフトラベル配列として自然に機能するモデルの層間出力によって計算された中間CTC損失でモデルを訓練する。 GICブロックは、各位置におけるソフトラベルのテキスト埋め込みを得る埋め込み層と、テキスト埋め込みと音響特徴とを融合させるゲートユニットとから構成される。 AISHELL-1 と AIDATATANG のベンチマーク実験により,提案手法が最近発表された CTC ベースの ASR モデルより優れていることが示された。 具体的には,aishell-1開発/テストセットで4.0%/4.4%,外部言語モデル無しでctc greedy searchデコードを用いてaidatatang開発/テストセットで3.8%/4.4%のcerを実現する。

For Automatic Speech Recognition (ASR), the CTC-based methods have become a dominant paradigm due to its simple architecture and efficient non-autoregressive inference manner. However, these methods without external language models usually lack the capacity of modeling the conditional dependencies and the textual interaction. In this work, we present a Gated Interlayer Collaboration (GIC) mechanism which introduces the contextual information into the models and relaxes the conditional independence assumption of the CTC-based models. Specifically, we train the model with intermediate CTC losses calculated by the interlayer outputs of the model, in which the probability distributions of the intermediate layers naturally serve as soft label sequences. The GIC block consists of an embedding layer to obtain the textual embedding of the soft label at each position, and a gate unit to fuse the textual embedding and the acoustic features. Experiments on AISHELL-1 and AIDATATANG benchmarks show that the proposed method outperforms the recently published CTC-based ASR models. Specifically, our method achieves CER of 4.0%/4.4% on AISHELL-1 dev/test sets and CER of 3.8%/4.4% on AIDATATANG dev/test sets using CTC greedy search decoding without external language models.
翻訳日:2022-05-26 15:06:25 公開日:2022-05-25
# (参考訳) 事前学習とコントラスト学習による新しいインテント発見

New Intent Discovery with Pre-training and Contrastive Learning ( http://arxiv.org/abs/2205.12914v1 )

ライセンス: CC BY 4.0
Yuwei Zhang, Haode Zhang, Li-Ming Zhan, Xiao-Ming Wu, Albert Y.S. Lam(参考訳) 新しい意図発見は、ユーザ発話から新しい意図カテゴリーを明らかにすることを目的として、サポート対象クラスのセットを拡張する。 実践的な対話システムの開発とサービス拡張のための重要な課題である。 その重要性にもかかわらず、この問題は文学では未解明のままである。 既存のアプローチは通常、大量のラベル付き発話に依存し、ラベル集約的で非効率で不正確な表現学習やクラスタリングに擬似ラベル方式を用いる。 本稿では,(1)意味的発話表現の学習方法,(2)クラスタ的発話の改善方法という,新たな意図発見のための2つの重要な研究課題に対する新たな解決策を提案する。 特に,まず,リッチなラベル付きデータと外部ラベル付きデータを併用して表現学習を行うマルチタスク事前学習戦略を提案する。 そして,クラスタリングのためのラベルなしデータにおける自己超越的信号を利用するために,新たなコントラスト損失を設計する。 3つのインテント認識ベンチマークに関する広範囲な実験により,提案手法の有効性が実証された。 ソースコードは \url{https://github.com/zhang-yu-wei/MTP-CLNN} で入手できる。

New intent discovery aims to uncover novel intent categories from user utterances to expand the set of supported intent classes. It is a critical task for the development and service expansion of a practical dialogue system. Despite its importance, this problem remains under-explored in the literature. Existing approaches typically rely on a large amount of labeled utterances and employ pseudo-labeling methods for representation learning and clustering, which are label-intensive, inefficient, and inaccurate. In this paper, we provide new solutions to two important research questions for new intent discovery: (1) how to learn semantic utterance representations and (2) how to better cluster utterances. Particularly, we first propose a multi-task pre-training strategy to leverage rich unlabeled data along with external labeled data for representation learning. Then, we design a new contrastive loss to exploit self-supervisory signals in unlabeled data for clustering. Extensive experiments on three intent recognition benchmarks demonstrate the high effectiveness of our proposed method, which outperforms state-of-the-art methods by a large margin in both unsupervised and semi-supervised scenarios. The source code will be available at \url{https://github.com/zhang-yu-wei/MTP-CLNN}.
翻訳日:2022-05-26 15:04:35 公開日:2022-05-25
# 質問応答の校正の見直し

Revisiting Calibration for Question Answering ( http://arxiv.org/abs/2205.12507v1 )

ライセンス: Link先を確認
Chenglei Si, Chen Zhao, Sewon Min, Jordan Boyd-Graber(参考訳) モデルのキャリブレーションは、予測された精度に合うようにモデルの信頼性を調整する(校正する)ことを目的としている。 従来のキャリブレーション評価(予測キャリブレーション誤差; ECE)はモデル信頼性の有用性を反映していない。 例えば、従来の温度スケーリングの後、信頼性スコアはすべての予測に類似するようになり、ECEが低いにもかかわらず、ユーザが間違った予測と正確な予測を区別することが難しくなる。 これらの観測に基づいて,モデルが誤った予測に対して低い信頼度と正しい予測に対する高い信頼を割り当てているかどうかをよりよく把握する新しいキャリブレーション指標であるマクロを提案する。 本研究では, 温度スケーリング, 特徴ベース分類器, ニューラル回答の再ランキング, ラベル平滑化などの従来のキャリブレーション手法について検討した。 より効果的な校正に向けて、トレーニング軌道に沿ったモデルの予測整合性に基づく新たな校正手法を提案する。 この新しい手法は一貫性校正(consistency calibration)と呼ばれ、より良い校正が期待できる。

Model calibration aims to adjust (calibrate) models' confidence so that they match expected accuracy. We argue that the traditional evaluation of calibration (expected calibration error; ECE) does not reflect usefulness of the model confidence. For example, after conventional temperature scaling, confidence scores become similar for all predictions, which makes it hard for users to distinguish correct predictions from wrong ones, even though it achieves low ECE. Building on those observations, we propose a new calibration metric, MacroCE, that better captures whether the model assigns low confidence to wrong predictions and high confidence to correct predictions. We examine various conventional calibration methods including temperature scaling, feature-based classifier, neural answer reranking, and label smoothing, all of which do not bring significant gains under our new MacroCE metric. Towards more effective calibration, we propose a new calibration method based on the model's prediction consistency along the training trajectory. This new method, which we name as consistency calibration, shows promise for better calibration.
翻訳日:2022-05-26 14:44:08 公開日:2022-05-25
# セグメント化数値置換暗号

Segmenting Numerical Substitution Ciphers ( http://arxiv.org/abs/2205.12527v1 )

ライセンス: Link先を確認
Nada Aldarrab, Jonathan May(参考訳) 歴史的置換暗号の解読は難しい問題である。 これまで研究されてきた問題の例としては、暗号型の検出、平文言語の検出、セグメント化暗号の置換キーの取得などがある。 しかし、無意味でスペースフリーな暗号を攻撃することは依然として難しい課題である。 セグメンテーション(セグメンテーション、英: Segmentation)とは、暗号を解読する最初のステップである。 本稿では,これらの暗号をバイトペア符号化(bpe)とユニグラム言語モデルを用いて分割する最初の自動手法を提案する。 提案手法は, ランダムに生成した100個のモノアルファベティック暗号に対して平均セグメンテーション誤差を2\%, 3個の実ホモフォニック暗号に対して27\%とする。 また, 格子と事前学習された言語モデルを用いて, 既存のキーを用いた非決定論的暗号の解法を提案する。 本手法は,IA暗号の完全な解法となる。

Deciphering historical substitution ciphers is a challenging problem. Example problems that have been previously studied include detecting cipher type, detecting plaintext language, and acquiring the substitution key for segmented ciphers. However, attacking unsegmented, space-free ciphers is still a challenging task. Segmentation (i.e. finding substitution units) is the first step towards cracking those ciphers. In this work, we propose the first automatic methods to segment those ciphers using Byte Pair Encoding (BPE) and unigram language models. Our methods achieve an average segmentation error of 2\% on 100 randomly-generated monoalphabetic ciphers and 27\% on 3 real homophonic ciphers. We also propose a method for solving non-deterministic ciphers with existing keys using a lattice and a pretrained language model. Our method leads to the full solution of the IA cipher; a real historical cipher that has not been fully solved until this work.
翻訳日:2022-05-26 14:43:52 公開日:2022-05-25
# RSTGen:Long-FormText ジェネレータへの微粒化解釈制御

RSTGen: Imbuing Fine-Grained Interpretable Control into Long-FormText Generators ( http://arxiv.org/abs/2205.12590v1 )

ライセンス: Link先を確認
Rilwan A. Adewoyin, Ritabrata Dutta, Yulan He(参考訳) 本稿では,言語モデルによって生成された長文の一貫性と一貫性を改善するタスクについて検討する。 この目的のために,古典的な言語理論である修辞構造理論(RST)を利用するフレームワークであるRSTGenを提案し,生成したテキストの談話構造,意味論,トピックを制御する。 まず, オープンジェネレーション評価において, 生成テキストの構造的談話と意味的特徴を制御できるモデルの能力を示す。 次に、議論生成と物語生成という2つの挑戦的な長文テキストタスクについて実験する。 自動測定と人間評価との相関度の高い指標を用いた評価では,既存のモデルと競合する性能を示すとともに,生成したテキストに対して,他の手法よりもはるかに多くの制御を提供する。

In this paper, we study the task of improving the cohesion and coherence of long-form text generated by language models. To this end, we propose RSTGen, a framework that utilises Rhetorical Structure Theory (RST), a classical language theory, to control the discourse structure, semantics and topics of generated text. Firstly, we demonstrate our model's ability to control structural discourse and semantic features of generated text in open generation evaluation. Then we experiment on the two challenging long-form text tasks of argument generation and story generation. Evaluation using automated metrics and a metric with high correlation to human evaluation, shows that our model performs competitively against existing models, while offering significantly more controls over generated text than alternative methods.
翻訳日:2022-05-26 14:43:39 公開日:2022-05-25
# less learn shortcut: 散発的特徴ラベル相関の学習の分析と緩和

Less Learn Shortcut: Analyzing and Mitigating Learning of Spurious Feature-Label Correlation ( http://arxiv.org/abs/2205.12593v1 )

ライセンス: Link先を確認
Yanrui Du, Jing Yan, Yan Chen, Jing Liu, Sendong Zhao, Hua Wu, Haifeng Wang, Bing Qin(参考訳) 最近の多くの研究は、深層ニューラルネットワークがデータセットのバイアスをタスクを理解するよりも、意思決定の近道として捉える傾向があることを示している。 本研究では,トレーニングデータに偏りのあるデータ分布に由来する特徴とラベルの相関関係に着目し,それを具体的に解析する。 特に、特定のラベルと高度に共起する単語をバイアス付き単語と定義し、バイアス付き単語をバイアス付き例と定義する。 分析の結果,スプリアス相関を持つバイアス付き例の方がモデルにとって学習が容易であり,予測時,バイアス付き単語は他の単語よりもモデル予測に有意に寄与することが明らかとなり,モデルではスプリアス相関に過剰にラベルを割り当てる傾向がみられた。 モデルがショートカットに過度に依存することを緩和するため, 偏りのある例の偏り度を定量化し, 偏りの度合いを下げる訓練戦略(LLS)を提案する。 QMタスクとNLIタスクの実験結果から,本モデルではドメイン内データと逆データの両方(DuQMは1.57%,HANSは2.12%)をLSSで改善した。

Many recent works indicate that the deep neural networks tend to take dataset biases as shortcuts to make decision, rather than understand the tasks, which results in failures on the real-world applications. In this work, we focus on the spurious correlation between feature and label, which derive from the biased data distribution in the training data, and analyze it concretely. In particular, we define the word highly co-occurring with a specific label as biased word, and the example containing biased word as biased example. Our analysis reveals that the biased examples with spurious correlations are easier for models to learn, and when predicting, the biased words make significantly higher contributions to models' predictions than other words, and the models tend to assign the labels over-relying on the spurious correlation between words and labels. To mitigate the model's over-reliance on the shortcut, we propose a training strategy Less-Learn-Shortcut (LLS): we quantify the biased degree of the biased examples, and down-weight them with the biased degree. Experimental results on QM and NLI tasks show that the models improve the performances both on in-domain and adversarial data (1.57% on DuQM and 2.12% on HANS) with our LLS.
翻訳日:2022-05-26 14:43:25 公開日:2022-05-25
# あなたのモデルはエンティティを合理的に分類しますか? エンティティ型付けにおけるスプリアス相関の診断と緩和

Does Your Model Classify Entities Reasonably? Diagnosing and Mitigating Spurious Correlations in Entity Typing ( http://arxiv.org/abs/2205.12640v1 )

ライセンス: Link先を確認
Nan Xu, Fei Wang, Bangzheng Li, Mingtao Dong, Muhao Chen(参考訳) エンティティ型付けタスクは、文中の特定の言及の型を記述する1つ以上の単語や句を予測することを目的としている。 表面パターンから注釈付きエンティティラベルへのショートカットとバイアス付きトレーニングにより、既存のエンティティ型付けモデルは、素早い相関の問題に直面する。 エンティティ型付け手法の忠実性と信頼性を包括的に検討するため,まず,スプリアス相関から主に反映される異なるモデルバイアスを体系的に定義する。 特に,参照文脈バイアス,語彙重複バイアス,名前付きエンティティバイアス,代名詞バイアス,依存バイアス,一般化バイアスの6種類の既存モデルバイアスを同定した。 これらのモデルバイアスを軽減するために, 対実データ拡張法を導入する。 オリジナルのトレーニングセットをバイアスのないもので強化することで、モデルはショートカットの素早い相関に頼るのではなく、文章を完全に理解し、エンティティタイピングの基本的な方法を見つけることを余儀なくされる。 ufetデータセットの実験的結果は、当社の偽データ拡張アプローチが、分散テストセットと分散テストセットの両方において一貫してパフォーマンスを向上し、異なるエンティティ型付けモデルの一般化を促進することを示しています。

The entity typing task aims at predicting one or more words or phrases that describe the type(s) of a specific mention in a sentence. Due to shortcuts from surface patterns to annotated entity labels and biased training, existing entity typing models are subject to the problem of spurious correlations. To comprehensively investigate the faithfulness and reliability of entity typing methods, we first systematically define distinct kinds of model biases that are reflected mainly from spurious correlations. Particularly, we identify six types of existing model biases, including mention-context bias, lexical overlapping bias, named entity bias, pronoun bias, dependency bias, and overgeneralization bias. To mitigate these model biases, we then introduce a counterfactual data augmentation method. By augmenting the original training set with their bias-free counterparts, models are forced to fully comprehend the sentences and discover the fundamental cues for entity typing, rather than relying on spurious correlations for shortcuts. Experimental results on the UFET dataset show that our counterfactual data augmentation approach helps improve generalization of different entity typing models with consistently better performance on both in- and out-of-distribution test sets.
翻訳日:2022-05-26 14:41:06 公開日:2022-05-25
# ゼロショットクロスリンガルジェネレーションにおける破滅的予測の克服

Overcoming Catastrophic Forgetting in Zero-Shot Cross-Lingual Generation ( http://arxiv.org/abs/2205.12647v1 )

ライセンス: Link先を確認
Tu Vu, Aditya Barua, Brian Lester, Daniel Cer, Mohit Iyyer, Noah Constant(参考訳) 本稿では,ラベル付きデータが英語でのみ利用できる場合に,対象言語で生成タスク(すなわち要約)を実行するという課題について検討する。 並列データや機械翻訳へのアクセスのない厳密な設定を想定する。 それまでの研究では、英語のカタストロフィックに微調整された生成多言語モデルとして、非英語の生成方法を忘れているため、標準移動学習技術がこの環境で苦労していることが確認された。 最近のパラメータ効率適応技術(即時チューニングなど)の台頭を踏まえ、我々はこれらの手法が破滅的な忘れをいかに克服し、ゼロショットのクロスランガル生成を可能にするかを初めて研究する。 パラメータ効率の適応は、英語からタイ語への非関連言語間の移動において、標準的な微調整よりも向上することがわかった。 しかし、これらの方法と完全に監視されたベースラインとの間には、依然として大きなギャップが残っている。 言語間移動をさらに改善するために,(1)ラベルなし多言語データの混合,(2)対象言語データに対する事前学習,(3)言語とタスクのコンポーネントを明示的に分解する3つのアプローチを検討する。 提案手法はさらなる品質向上を実現し,ロバストなゼロショット対言語生成が到達範囲内であることを示唆する。

In this paper, we explore the challenging problem of performing a generative task (i.e., summarization) in a target language when labeled data is only available in English. We assume a strict setting with no access to parallel data or machine translation. Prior work has shown, and we confirm, that standard transfer learning techniques struggle in this setting, as a generative multilingual model fine-tuned purely on English catastrophically forgets how to generate non-English. Given the recent rise of parameter-efficient adaptation techniques (e.g., prompt tuning), we conduct the first investigation into how well these methods can overcome catastrophic forgetting to enable zero-shot cross-lingual generation. We find that parameter-efficient adaptation provides gains over standard fine-tuning when transferring between less-related languages, e.g., from English to Thai. However, a significant gap still remains between these methods and fully-supervised baselines. To improve cross-lingual transfer further, we explore three approaches: (1) mixing in unlabeled multilingual data, (2) pre-training prompts on target language data, and (3) explicitly factoring prompts into recombinable language and task components. Our methods can provide further quality gains, suggesting that robust zero-shot cross-lingual generation is within reach.
翻訳日:2022-05-26 14:40:47 公開日:2022-05-25
# 低リソース言語に対する蒸留文表現を用いたバイテクストマイニング

Bitext Mining Using Distilled Sentence Representations for Low-Resource Languages ( http://arxiv.org/abs/2205.12654v1 )

ライセンス: Link先を確認
Kevin Heffernan and Onur \c{C}elebi and Holger Schwenk(参考訳) 数百の言語を超えた多言語表現学習のスケールアップは、特に低リソース言語のロングテールをカバーするために困難である。 有望なアプローチは、言語間移動が可能な一対一の多言語モデルを訓練することであったが、これらのモデルは、しばしば非関連言語間の不足と干渉に悩まされる。 その代わり、私たちはこのアプローチから離れ、複数の言語(ファミリー)固有の表現を訓練することに集中しますが、最も目立つのは、すべての言語を同じ表現空間にエンコードできることです。 そこで本研究では,教師の学習に焦点をあて,すべてのエンコーダを相互に相互に相互に相互互換させ,新しい言語を高速に学習できるようにする。 本稿では,教師の指導と自己監督の訓練を組み合わせることで,低リソース環境において有用な単言語学習データを活用することができる新しい教師教育訓練方式を提案する。 我々のアプローチは、オリジナルのレーザーエンコーダを大きく上回っている。 私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。 これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。

Scaling multilingual representation learning beyond the hundred most frequent languages is challenging, in particular to cover the long tail of low-resource languages. A promising approach has been to train one-for-all multilingual models capable of cross-lingual transfer, but these models often suffer from insufficient capacity and interference between unrelated languages. Instead, we move away from this approach and focus on training multiple language (family) specific representations, but most prominently enable all languages to still be encoded in the same representational space. To achieve this, we focus on teacher-student training, allowing all encoders to be mutually compatible for bitext mining, and enabling fast learning of new languages. We introduce a new teacher-student training scheme which combines supervised and self-supervised training, allowing encoders to take advantage of monolingual training data, which is valuable in the low-resource setting. Our approach significantly outperforms the original LASER encoder. We study very low-resource languages and handle 50 African languages, many of which are not covered by any other model. For these languages, we train sentence encoders, mine bitexts, and validate the bitexts by training NMT systems.
翻訳日:2022-05-26 14:40:23 公開日:2022-05-25
# DialogZoo: 大規模対話型タスク学習

DialogZoo: Large-Scale Dialog-Oriented Task Learning ( http://arxiv.org/abs/2205.12662v1 )

ライセンス: Link先を確認
Zhi Chen, Jijia Bao, Lu Chen, Yuncong Liu, Da Ma, Bei Chen, Mengyue Wu, Su Zhu, Jian-Guang Lou and Kai Yu(参考訳) 統合会話エージェントの構築は、対話研究コミュニティの長年の目標である。 以前の作品のほとんどは、様々な対話タスクのサブセットのみに焦点を当てていた。 本研究では,多種多様な対話課題を解決できる統一基盤モデルの構築を目指している。 この目的を達成するために、73の公開データセットから、まず大規模なラベル付き対話データセットを収集する。 このデータセットに加えて,対話指向の自己教師付きタスクを2つ提案し,最終的に教師付きデータセットと自己教師付きデータセットを組み合わせて基礎モデルを訓練する。 教師付き例はモデルにタスク固有のスキルを学習させ、自己監督例はモデルにより一般的なスキルを学習させる。 様々な下流対話課題におけるモデルの評価を行った。 実験結果から,本手法は対話生成能力や知識蒸留能力だけでなく,モデルの表現能力も向上することが示された。

Building unified conversational agents has been a long-standing goal of the dialogue research community. Most previous works only focus on a subset of various dialogue tasks. In this work, we aim to build a unified foundation model which can solve massive diverse dialogue tasks. To achieve this goal, we first collect a large-scale well-labeled dialogue dataset from 73 publicly available datasets. In addition to this dataset, we further propose two dialogue-oriented self-supervised tasks, and finally use the mixture of supervised and self-supervised datasets to train our foundation model. The supervised examples make the model learn task-specific skills, while the self-supervised examples make the model learn more general skills. We evaluate our model on various downstream dialogue tasks. The experimental results show that our method not only improves the ability of dialogue generation and knowledge distillation, but also the representation ability of models.
翻訳日:2022-05-26 14:40:01 公開日:2022-05-25
# qampari:複数段落からの回答が多い質問に対するオープンドメイン質問応答ベンチマーク

QAMPARI: : An Open-domain Question Answering Benchmark for Questions with Many Answers from Multiple Paragraphs ( http://arxiv.org/abs/2205.12665v1 )

ライセンス: Link先を確認
Samuel Joseph Amouyal Ohad Rubin, Ori Yoran, Tomer Wolfson, Jonathan Herzig, Jonathan Berant(参考訳) オープンドメイン質問応答(ODQA)の既存のベンチマークは、通常、1段落から回答を抽出できる質問に焦点を当てる。 対照的に、「ブルックリン・ネッツによってどの選手がドラフトされたか」のような多くの自然な質問は回答のリストを持っている。 このような質問に答えるには、大きなコーパスで、多くの節から検索し、読み取る必要がある。 本稿では,質問応答がエンティティのリストであるODQAベンチマークであるQAMPARIを紹介する。 私たちはQAMPARIを作りました。 (a)ウィキペディアの知識グラフと表から複数の回答で質問を生成する。 b) ウィキペディアの段落において,回答と証拠とを自動でペアリングし, (c) 質問を手動で言い換えて各回答を検証する。 我々は、検索・読解系からODQAモデルを訓練し、QAMPARIは経路検索と解答生成の両方の観点から困難であり、最高26.6のF1スコアに達する。 この結果から,単問,複数問,多問など幅広い質問タイプを扱うODQAモデルの開発の必要性が示唆された。

Existing benchmarks for open-domain question answering (ODQA) typically focus on questions whose answers can be extracted from a single paragraph. By contrast, many natural questions, such as "What players were drafted by the Brooklyn Nets?" have a list of answers. Answering such questions requires retrieving and reading from many passages, in a large corpus. We introduce QAMPARI, an ODQA benchmark, where question answers are lists of entities, spread across many paragraphs. We created QAMPARI by (a) generating questions with multiple answers from Wikipedia's knowledge graph and tables, (b) automatically pairing answers with supporting evidence in Wikipedia paragraphs, and (c) manually paraphrasing questions and validating each answer. We train ODQA models from the retrieve-and-read family and find that QAMPARI is challenging in terms of both passage retrieval and answer generation, reaching an F1 score of 26.6 at best. Our results highlight the need for developing ODQA models that handle a broad range of question types, including single and multi-answer questions.
翻訳日:2022-05-26 14:39:38 公開日:2022-05-25
# nlp技術の独占性、公平性、アクセシビリティの評価--インド言語を事例として

Evaluating Inclusivity, Equity, and Accessibility of NLP Technology: A Case Study for Indian Languages ( http://arxiv.org/abs/2205.12676v1 )

ライセンス: Link先を確認
Simran Khanuja, Sebastian Ruder, Partha Talukdar(参考訳) NLP技術が広く適用され有用になるためには、世界の言語全体、すなわち任意の言語に対して不規則に偏りがなく、特に計算制約が一般的である低リソース環境において、ユーザに対してアクセス可能である必要がある。 本稿では,NLP技術を3次元にわたって評価し,利用者の多様性を定量化する評価パラダイムを提案する。 インクルージョンとアクセシビリティは近年の文献で注目されているが、現在株式は未調査である。 社会的な富の不平等を推定するためによく確立された指標であるジニ係数を用いて,このギャップに対処することを提案する。 本パラダイムを用いて,インド(IN)言語の言語多様性と話者人口の多様さに動機づけられた,現在の技術の多様さを強調した。 これらの指標を改善するために,モデル構築とデータセット作成における領域固有の選択の重要性を示すとともに,微調整時の資源配分を最適化するための新しいアプローチを提案する。 最後に,これらのバイアスを軽減するために必要なステップについて議論し,言語的に多様な技術を構築する際に,評価パラダイムを取り入れるようコミュニティに呼びかける。

In order for NLP technology to be widely applicable and useful, it needs to be inclusive of users across the world's languages, equitable, i.e., not unduly biased towards any particular language, and accessible to users, particularly in low-resource settings where compute constraints are common. In this paper, we propose an evaluation paradigm that assesses NLP technologies across all three dimensions, hence quantifying the diversity of users they can serve. While inclusion and accessibility have received attention in recent literature, equity is currently unexplored. We propose to address this gap using the Gini coefficient, a well-established metric used for estimating societal wealth inequality. Using our paradigm, we highlight the distressed state of diversity of current technologies for Indian (IN) languages, motivated by their linguistic diversity and large, varied speaker population. To improve upon these metrics, we demonstrate the importance of region-specific choices in model building and dataset creation and also propose a novel approach to optimal resource allocation during fine-tuning. Finally, we discuss steps that must be taken to mitigate these biases and call upon the community to incorporate our evaluation paradigm when building linguistically diverse technologies.
翻訳日:2022-05-26 14:37:49 公開日:2022-05-25
# 言語異方性言語間モデル編集

Language Anisotropic Cross-Lingual Model Editing ( http://arxiv.org/abs/2205.12677v1 )

ライセンス: Link先を確認
Yang Xu, Yutai Hou, Wanxiang Che(参考訳) 事前学習された言語モデルはトレーニングコーパスから大量の知識を学習し、記憶された事実は数年で時代遅れになる可能性がある。 モデル編集は、関係のない知識をそのまま残しながら、モデル内の特定の事実をポストホックで更新することを目的としている。 しかし、現存する研究は単言語シナリオのみである。 本稿では,言語間モデル編集に焦点を当てる。 まず,1つの言語で更新を行う言語間モデル編集の定義とメトリクスを提案する。 次に、並列コーパスを用いて単言語モデル編集アプローチを言語間変異に変換するための簡単なフレームワークを提案する。 実験により、このようなアプローチが単言語ベースラインを大きなマージンで上回っていることが示されている。 さらに,各言語のパラメータ重要度を推定することにより,言語間編集を改善するために,言語異方性編集を提案する。 実験の結果、言語異方性編集は編集失敗率を相対的に26.%下げることがわかった。

Pre-trained language models learn large amounts of knowledge from their training corpus, while the memorized facts could become outdated over a few years. Model editing aims to make post-hoc updates on specific facts in a model while leaving irrelevant knowledge unchanged. However, existing work studies only the monolingual scenario. In this paper, we focus on cross-lingual model editing. Firstly, we propose the definition and metrics of the cross-lingual model editing, where updates in a single language should take effect in the others as well. Next, we propose a simple framework to convert a monolingual model editing approach to its cross-lingual variant using the parallel corpus. Experiments show that such an approach outperforms monolingual baselines by a large margin. Furthermore, we propose language anisotropic editing to improve cross-lingual editing by estimating parameter importance for each language. Experiments reveal that language anisotropic editing decreases the editing failing rate by another $26\%$ relatively.
翻訳日:2022-05-26 14:37:28 公開日:2022-05-25
# ZeroGen$^+$:効率的なゼロショット学習における自己ガイド付き高品質データ生成

ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient Zero-Shot Learning ( http://arxiv.org/abs/2205.12679v1 )

ライセンス: Link先を確認
Jiahui Gao, Renjie Pi, Yong Lin, Hang Xu, Jiacheng Ye, Zhiyong Wu, Xiaodan Liang, Zhenguo Li, Lingpeng Kong(参考訳) 近年,PLM をベースとしたゼロショット学習は,大規模事前学習型言語モデル (PLM) の優れた能力のため,様々な自然言語処理タスクにおいて有望な性能を示した。 PLMのゼロショット学習の可能性をさらに探求することへの関心が高まっている。 その中でもzerogenは、純粋にplmを使ってデータを生成し、タスク固有のアノテーションを使わずに小さなモデルをトレーニングしようとする。 その顕著な結果にもかかわらず, PLM から合成したデータには, 低品質のサンプルが多数含まれており, トレーニングされたモデルの性能が過度に損なわれ, 信頼性が低いため, ゼロショットシナリオではゴールドデータがアクセスできないため, 低品質のデータに過度に適合しないように, モデル/データ選択を行うことは困難である。 この問題に対処するために, 金のデータを必要とせず, サンプル単位の重み付けでデータ品質を計測できる, ノイズロバストbiレベル再重み付けフレームワークを提案する。 学習重量では、異なるサイズのクリーンなサブセットをサンプルしてタスクモデルをトレーニングすることができる。 提案手法が高品質な合成データセットを構築可能であることを理論的,実証的に検証する。 本手法は,5種類のテキスト分類タスクの平均精度において,ZeroGenよりも7.1%向上した。

Nowadays, owing to the superior capacity of the large pre-trained language models (PLM), the PLM-based zero-shot learning has shown promising performances on various natural language processing tasks. There are emerging interests in further exploring the zero-shot learning potential of PLMs. Among them, ZeroGen attempts to purely use PLM to generate data and train a tiny model without relying on any task-specific annotation. Despite its remarkable results, we observe that the synthesized data from PLM contains a significant portion of samples with low quality, overfitting on such data greatly hampers the performance of the trained model and makes it unreliable for deployment.Since no gold data is accessible in zero-shot scenario, it is hard to perform model/data selection to prevent overfitting to the low-quality data. To address this problem, we propose a noise-robust bi-level re-weighting framework which is able to learn the per-sample weights measuring the data quality without requiring any gold data. With the learnt weights, clean subsets of different sizes can then be sampled to train the task model. We theoretically and empirically verify our method is able to construct synthetic dataset with good quality. Our method yeilds a 7.1% relative improvement than ZeroGen on average accuracy across five different established text classification tasks.
翻訳日:2022-05-26 14:37:15 公開日:2022-05-25
# ProsocialDialog:会話エージェントのための社会的バックボーン

ProsocialDialog: A Prosocial Backbone for Conversational Agents ( http://arxiv.org/abs/2205.12688v1 )

ライセンス: Link先を確認
Hyunwoo Kim, Youngjae Yu, Liwei Jiang, Ximing Lu, Daniel Khashabi, Gunhee Kim, Yejin Choi, Maarten Sap(参考訳) 既存の対話システムは、無視するか、受動的に同意することで、潜在的に安全でないユーザの発話に適切に応答できない。 この問題に対処するため,社会規範に従う問題コンテンツに対応するための対話エージェントを指導する,最初の大規模マルチターン対話データセットであるProsocialDialogを紹介した。 多様な非倫理的、問題があり、偏見があり、有害な状況をカバーするProsocialDialogは、コモンセンスな社会ルール(すなわちRoTs)に基づく、社会行動を促進する反応を含んでいる。 ProsocialDialogは、人間とAIのコラボレーションフレームワークで作られ、58Kの対話と331Kの発話、160KのRoT、そして497Kの対話安全ラベルで構成されている。 本データセットでは,対話型安全性検出モジュールであるCanaryを導入し,会話コンテキストを指定したRoTを生成するとともに,対話エージェントであるProstを導入する。 実験の結果、prostはドメイン内とドメイン外の両方において、他の最先端言語や対話モデルに比べて社会的に受け入れられる対話を生成することがわかった。 加えて、カナリアは会話エージェントとオフザシェルフ言語モデルを効果的にガイドし、より社会的な反応を生成する。 私たちの仕事は、社会的責任を持つための会話AIの作成と運営の約束と重要性を強調します。

Most existing dialogue systems fail to respond properly to potentially unsafe user utterances by either ignoring or passively agreeing with them. To address this issue, we introduce ProsocialDialog, the first large-scale multi-turn dialogue dataset to teach conversational agents to respond to problematic content following social norms. Covering diverse unethical, problematic, biased, and toxic situations, ProsocialDialog contains responses that encourage prosocial behavior, grounded in commonsense social rules (i.e., rules-of-thumb, RoTs). Created via a human-AI collaborative framework, ProsocialDialog consists of 58K dialogues, with 331K utterances, 160K RoTs, and 497K dialogue safety labels accompanied by free-form rationales. With this dataset, we introduce a dialogue safety detection module, Canary, capable of generating RoTs given conversational context, and a socially-informed dialogue agent, Prost. Empirical results show that Prost generates more socially acceptable dialogues compared to other state-of-the-art language and dialogue models in both in-domain and out-of-domain settings. Additionally, Canary effectively guides conversational agents and off-the-shelf language models to generate significantly more prosocial responses. Our work highlights the promise and importance of creating and steering conversational AI to be socially responsible.
翻訳日:2022-05-26 14:36:52 公開日:2022-05-25
# PLOG: 論理テーブル-テキスト生成のための表-論理前処理

PLOG: Table-to-Logic Pretraining for Logical Table-to-Text Generation ( http://arxiv.org/abs/2205.12697v1 )

ライセンス: Link先を確認
Ao Liu, Haoyu Dong, Naoaki Okazaki, Shi Han, Dongmei Zhang(参考訳) 論理テーブル・トゥ・テキスト生成(英: Logical table-to-text generation)とは、論理的に忠実な文をテーブルから生成するタスクである。 テーブルからテキストへのモデルの論理レベルのコンテンツ計画に関する新たな課題を提起する。 しかし、自然言語のあいまいさと並列データの不足のため、論理推論の知識をテーブルテキストペアから直接学習することは、神経モデルにとって非常に難しい。 したがって、大規模で事前訓練された言語モデルでさえ、論理テーブルからテキストへの論理的忠実度は低い。 本研究では,PLOG(Pretrained Logical Form Generator)フレームワークを提案する。 具体的には、plogはまずtable-to-logic-form生成(table-to-logic)タスクで事前トレーニングされ、次に下流のtable-to-textタスクで微調整される。 論理形式を形式的に定義することで、人間のアノテーションなしでテーブルから大量の正確な論理形式を収集できる。 加えて、PLOGはテーブル-テキスト対よりもずっと確実にテーブル-論理対から論理的推論を学ぶことができる。 このモデルを評価するために、既存のデータセットに基づいて制御された論理テーブルからテキストまでのデータセットCONTLOGを収集する。 LOGICNLG と CONTLOG の2つのベンチマークでは、PLOG は論理的忠実度に大きな差を付け、テーブルから論理的事前学習の有効性を示す。

Logical table-to-text generation is a task that involves generating logically faithful sentences from tables, which requires models to derive logical level facts from table records via logical inference. It raises a new challenge on the logical-level content planning of table-to-text models. However, directly learning the logical inference knowledge from table-text pairs is very difficult for neural models because of the ambiguity of natural language and the scarcity of parallel data. Hence even large-scale pre-trained language models present low logical fidelity on logical table-to-text. In this work, we propose a PLOG (Pretrained Logical Form Generator) framework to improve the generation fidelity. Specifically, PLOG is first pretrained on a table-to-logic-form generation (table-to-logic) task, then finetuned on downstream table-to-text tasks. The formal definition of logical forms enables us to collect large amount of accurate logical forms from tables without human annotation. In addition, PLOG can learn logical inference from table-logic pairs much more definitely than from table-text pairs. To evaluate our model, we further collect a controlled logical table-to-text dataset CONTLOG based on an existing dataset. On two benchmarks, LOGICNLG and CONTLOG, PLOG outperforms strong baselines by a large margin on the logical fidelity, demonstrating the effectiveness of table-to-logic pretraining.
翻訳日:2022-05-26 14:36:25 公開日:2022-05-25
# 反復トリガー注入によるテキストバックドア攻撃

Textual Backdoor Attacks with Iterative Trigger Injection ( http://arxiv.org/abs/2205.12700v1 )

ライセンス: Link先を確認
Jun Yan, Vansh Gupta, Xiang Ren(参考訳) バックドア攻撃は自然言語処理(NLP)システムにとって新たな脅威となっている。 中毒データに基づいてトレーニングされた被害者モデルは、トリガーパターン(例えば、特定のキーワードを含む)を満たす入力に対する敵特定出力(例えば、ポジティブ感情ラベル)を予測する「バックドア」と組み込むことができる。 本稿では,少量のトレーニングデータに「トリガー」を反復的に注入することにより,効果的かつステルス的なバックドア攻撃を設計できることを実証する。 すべてのトリガーは文脈に適合する一般的な単語であるが、我々の中毒プロセスはそれらをターゲットラベルと強く関連付け、モデルバックドアを形成する。 感情分析とヘイトスピーチ検出の実験により,提案する攻撃はステルス的かつ効果的であり,信頼できないトレーニングデータの使用を警告する。 我々はさらに、この脅威に対処するための防衛方法を提案する。

The backdoor attack has become an emerging threat for Natural Language Processing (NLP) systems. A victim model trained on poisoned data can be embedded with a "backdoor", making it predict the adversary-specified output (e.g., the positive sentiment label) on inputs satisfying the trigger pattern (e.g., containing a certain keyword). In this paper, we demonstrate that it's possible to design an effective and stealthy backdoor attack by iteratively injecting "triggers" into a small set of training data. While all triggers are common words that fit into the context, our poisoning process strongly associates them with the target label, forming the model backdoor. Experiments on sentiment analysis and hate speech detection show that our proposed attack is both stealthy and effective, raising alarm on the usage of untrusted training data. We further propose a defense method to combat this threat.
翻訳日:2022-05-26 14:35:59 公開日:2022-05-25
# 画像間の効率的な翻訳のための領域認識知識蒸留

Region-aware Knowledge Distillation for Efficient Image-to-Image Translation ( http://arxiv.org/abs/2205.12451v1 )

ライセンス: Link先を確認
Linfeng Zhang, Xin Chen, Runpei Dong, Kaisheng Ma(参考訳) 画像から画像への翻訳の最近の進歩は、gans(generative adversarial networks)の成功を目撃している。 しかしながら、GANは通常、膨大な数のパラメータを含むため、メモリと計算消費が不耐になり、エッジデバイスへのデプロイメントが制限される。 この問題に対処するために,教師モデルから効率的な学生モデルに知識を移すための知識蒸留を提案する。 しかし, 従来の知識蒸留法は画像分類のために設計されており, 画像間翻訳の性能に限界がある。 本稿では,画像から画像への変換モデルを圧縮するための領域認識型知識蒸留ReKoを提案する。 まず、ReKoは注意モジュールで画像の重要な領域を適応的に見つける。 そして、これらの重要な地域の生徒と教師の相互情報を最大化するためにパッチワイドコントラスト学習を採用する。 9つのデータセットに対する8つの比較手法による実験は、ペア画像とペア画像の両方でReKoの有効性を実証している。 例えば、私たちの7.08X圧縮と6.80X加速のCycleGAN学生は、それぞれHorth to ZebraとZebra to Horseで1.33と1.04のFIDスコアを上回ります。 コードはGitHubでリリースされる。

Recent progress in image-to-image translation has witnessed the success of generative adversarial networks (GANs). However, GANs usually contain a huge number of parameters, which lead to intolerant memory and computation consumption and limit their deployment on edge devices. To address this issue, knowledge distillation is proposed to transfer the knowledge from a cumbersome teacher model to an efficient student model. However, most previous knowledge distillation methods are designed for image classification and lead to limited performance in image-to-image translation. In this paper, we propose Region-aware Knowledge Distillation ReKo to compress image-to-image translation models. Firstly, ReKo adaptively finds the crucial regions in the images with an attention module. Then, patch-wise contrastive learning is adopted to maximize the mutual information between students and teachers in these crucial regions. Experiments with eight comparison methods on nine datasets demonstrate the substantial effectiveness of ReKo on both paired and unpaired image-to-image translation. For instance, our 7.08X compressed and 6.80X accelerated CycleGAN student outperforms its teacher by 1.33 and 1.04 FID scores on Horse to Zebra and Zebra to Horse, respectively. Codes will be released on GitHub.
翻訳日:2022-05-26 14:33:44 公開日:2022-05-25
# ショートカット学習のための視線誘導型視覚変換器

Eye-gaze-guided Vision Transformer for Rectifying Shortcut Learning ( http://arxiv.org/abs/2205.12466v1 )

ライセンス: Link先を確認
Chong Ma, Lin Zhao, Yuzhong Chen, Lu Zhang, Zhenxiang Xiao, Haixing Dai, David Liu, Zihao Wu, Zhengliang Liu, Sheng Wang, Jiaxing Gao, Changhe Li, Xi Jiang, Tuo Zhang, Qian Wang, Dinggang Shen, Dajiang Zhu, Tianming Liu(参考訳) 急激な相関やバイアスなどの有害なショートカットの学習は、ディープニューラルネットワークが有意義で有用な表現を学ぶことを妨げ、学習された表現の一般化性と解釈性を阻害する。 臨床データ(例えば、病理を伴うmr画像)が制限され不足する一方、学習モデルの信頼性、一般化性、透明性が要求される医療画像では、状況はさらに深刻になる。 この問題に対処するために、深層ニューラルネットワークのトレーニングに人間の専門家の知性とドメイン知識を注入することを提案する。 中心となるアイデアは、専門家の放射線科医からの視覚的注意情報を注入して、深層モデルに積極的に、潜在的な病理学のある領域に集中させ、有害な近道を学ぶことを避ける、というものだ。 そこで本研究では,医用画像データに制限のある診断のための新しい眼迷路誘導型視覚変換器(EG-ViT)を提案する。 放射線科医が関心のない入力画像パッチをマスクし、eg-vitの最後のエンコーダ層に余分なコネクションを追加して、すべてのパッチの相関を維持する。 InbreastとSIIM-ACRの2つの公開データセットに対する実験は、EG-ViTモデルが専門家のドメイン知識を効果的に学習し、伝達し、ベースラインよりもはるかに優れたパフォーマンスを達成することを示す。 一方、有害なショートカット学習の修正に成功し、EG-ViTモデルの解釈可能性を大幅に改善する。 一般的に、EG-ViTは人間の専門知識とディープニューラルネットワークのパワーの両方の利点を生かしている。 この研究は、現在の人工知能パラダイムを進めるための新たな道を開く。

Learning harmful shortcuts such as spurious correlations and biases prevents deep neural networks from learning the meaningful and useful representations, thus jeopardizing the generalizability and interpretability of the learned representation. The situation becomes even more serious in medical imaging, where the clinical data (e.g., MR images with pathology) are limited and scarce while the reliability, generalizability and transparency of the learned model are highly required. To address this problem, we propose to infuse human experts' intelligence and domain knowledge into the training of deep neural networks. The core idea is that we infuse the visual attention information from expert radiologists to proactively guide the deep model to focus on regions with potential pathology and avoid being trapped in learning harmful shortcuts. To do so, we propose a novel eye-gaze-guided vision transformer (EG-ViT) for diagnosis with limited medical image data. We mask the input image patches that are out of the radiologists' interest and add an additional residual connection in the last encoder layer of EG-ViT to maintain the correlations of all patches. The experiments on two public datasets of INbreast and SIIM-ACR demonstrate our EG-ViT model can effectively learn/transfer experts' domain knowledge and achieve much better performance than baselines. Meanwhile, it successfully rectifies the harmful shortcut learning and significantly improves the EG-ViT model's interpretability. In general, EG-ViT takes the advantages of both human expert's prior knowledge and the power of deep neural networks. This work opens new avenues for advancing current artificial intelligence paradigms by infusing human intelligence.
翻訳日:2022-05-26 14:33:23 公開日:2022-05-25
# 微分レンダリングによる複数視点からの効率的なテクスチャメッシュ復元

Efficient Textured Mesh Recovery from Multiple Views with Differentiable Rendering ( http://arxiv.org/abs/2205.12468v1 )

ライセンス: Link先を確認
Lixiang Lin, Yisu Zhang, Jianke Zhu(参考訳) 自己スーパービジョンによる形状と色回復に関する有望な結果にもかかわらず、多層パーセプトロンに基づく手法は通常、暗黙的な表面表現のために深層ニューラルネットワークを訓練するのに数時間かかる。 さらに,各画素に対してフォワードネットワーク推論を必要とするため,単一の画像のレンダリングには計算集約性が高い。 本稿では,これらの課題に対処するために,マルチビュー画像からテクスチャメッシュを復元する,効率的な粗大きめアプローチを提案する。 具体的には、微分可能なポアソンソルバを利用して形状を表現し、トポロジーに依存しない水密曲面を生成できる。 深度情報を考慮し,学習ベース多視点ステレオアルゴリズムにより予測される深度との差を最小化することにより,形状形状を最適化する。 形状や色に対する暗黙的なニューラル表現とは対照的に,物体の照度と反射率を同時推定する物理ベースの逆レンダリング方式を導入し,高解像度画像をリアルタイムにレンダリングする。 さらに,抽出したメッシュを逆レンダリングにより微調整し,微細かつ高忠実なメッシュを得る。 本研究では,複数視点ステレオデータセットを用いた広範囲実験を行い,提案手法の有効性を実証する。 完全な実装を一般公開する予定です。

Despite of the promising results on shape and color recovery using self-supervision, the multi-layer perceptrons-based methods usually costs hours to train the deep neural network due to the implicit surface representation. Moreover, it is quite computational intensive to render a single image, since a forward network inference is required for each pixel. To tackle these challenges, in this paper, we propose an efficient coarse-to-fine approach to recover the textured mesh from multi-view images. Specifically, we take advantage of a differentiable Poisson Solver to represent the shape, which is able to produce topology-agnostic and watertight surfaces. To account for the depth information, we optimize the shape geometry by minimizing the difference between the rendered mesh with the depth predicted by the learning-based multi-view stereo algorithm. In contrast to the implicit neural representation on shape and color, we introduce a physically based inverse rendering scheme to jointly estimate the lighting and reflectance of the objects, which is able to render the high resolution image at real-time. Additionally, we fine-tune the extracted mesh by inverse rendering to obtain the mesh with fine details and high fidelity image. We have conducted the extensive experiments on several multi-view stereo datasets, whose promising results demonstrate the efficacy of our proposed approach. We will make our full implementation publicly available.
翻訳日:2022-05-26 14:32:53 公開日:2022-05-25
# stylegan2によるテキスト対面生成

Text-to-Face Generation with StyleGAN2 ( http://arxiv.org/abs/2205.12512v1 )

ライセンス: Link先を確認
D. M. A. Ayanthi and Sarasi Munasinghe(参考訳) テキスト記述からの画像の合成は、ジェネレーティブ・アドバイサル・ネットワークの出現とともに活発な研究領域となっている。 ここでの主な目標は、入力記述に一致した写真リアリスティックな画像を生成することだ。 text-to-face generation (t2f) はtext-to-image generation (t2i) のサブドメインであり、顔の属性の複雑さとバリエーションのためより難しい。 主に公共安全分野における多くの応用がある。 いくつかのモデルがT2Fで利用可能だが、画像の品質とセマンティックアライメントを改善する必要がある。 本研究では,入力記述によく適合した顔画像を生成するための新しい枠組みを提案する。 本フレームワークでは,高分解能顔生成器であるStyleGAN2を用いて,T2Fでの利用の可能性を探る。 ここでは,bert埋め込みを用いたstylegan2の入力潜在空間にテキストを埋め込み,テキスト記述を用いた顔画像生成を監督する。 属性に基づく記述に基づいて,1024×1024の解像度画像を生成するフレームワークを訓練した。 生成された画像は、地上の真理画像と57%の類似性を示し、顔のセマンティック距離は0.92であり、最先端技術よりも優れていた。 生成した画像のFIDスコアは118.097であり,実験結果から,本モデルが有望な画像を生成することを示す。

Synthesizing images from text descriptions has become an active research area with the advent of Generative Adversarial Networks. The main goal here is to generate photo-realistic images that are aligned with the input descriptions. Text-to-Face generation (T2F) is a sub-domain of Text-to-Image generation (T2I) that is more challenging due to the complexity and variation of facial attributes. It has a number of applications mainly in the domain of public safety. Even though several models are available for T2F, there is still the need to improve the image quality and the semantic alignment. In this research, we propose a novel framework, to generate facial images that are well-aligned with the input descriptions. Our framework utilizes the high-resolution face generator, StyleGAN2, and explores the possibility of using it in T2F. Here, we embed text in the input latent space of StyleGAN2 using BERT embeddings and oversee the generation of facial images using text descriptions. We trained our framework on attribute-based descriptions to generate images of 1024x1024 in resolution. The images generated exhibit a 57% similarity to the ground truth images, with a face semantic distance of 0.92, outperforming state-of-the-artwork. The generated images have a FID score of 118.097 and the experimental results show that our model generates promising images.
翻訳日:2022-05-26 14:32:29 公開日:2022-05-25
# (参考訳) 時間依存を伴う共形予測間隔

Conformal Prediction Intervals with Temporal Dependence ( http://arxiv.org/abs/2205.12940v1 )

ライセンス: CC BY 4.0
Zhen Lin, Shubhendu Trivedi, Jimeng Sun(参考訳) 横断的な予測は医療など多くの領域で一般的であり、電子健康記録を用いた予測タスクでは、異なる患者が横断する。 本稿では,時間列回帰における有効予測区間(PI)を横断的に構築する作業に着目する。 予測間隔は、(事前に指定された)高い確率で真の応答をカバーする場合に有効であると考えられる。 我々はまず、このような設定で妥当性の2つの概念を区別する:断面と縦断である。 縦断妥当性は時系列データの横断的妥当性に関係し, 縦断妥当性は時間次元に関係している。 両次元に沿ったカバレッジ保証は理想的には望ましいが,分布のない縦断的妥当性は理論的に不可能であることを示す。 この制限にもかかわらず, 縦断範囲を改善しつつ, 厳密な横断的妥当性を維持できる手法であるcptd (conformal prediction with temporal dependence) を提案する。 cptdはポストホックで軽量であり、キャリブレーションセットが利用可能である限り、任意の予測モデルと併用することができる。 時系列回帰の診断符号などの複雑なデータをモデル化し,提案手法の有効性を検証するための実験的な検証を行うことにより,ニューラルネットワークに注目する。 CPTDは、縦方向のカバレッジを改善し、しばしばより効率的な(より狭い)PIを提供することで、さまざまなデータセットのベースラインを上回ります。

Cross-sectional prediction is common in many domains such as healthcare, including forecasting tasks using electronic health records, where different patients form a cross-section. We focus on the task of constructing valid prediction intervals (PIs) in time-series regression with a cross-section. A prediction interval is considered valid if it covers the true response with (a pre-specified) high probability. We first distinguish between two notions of validity in such a setting: cross-sectional and longitudinal. Cross-sectional validity is concerned with validity across the cross-section of the time series data, while longitudinal validity accounts for the temporal dimension. Coverage guarantees along both these dimensions are ideally desirable; however, we show that distribution-free longitudinal validity is theoretically impossible. Despite this limitation, we propose Conformal Prediction with Temporal Dependence (CPTD), a procedure which is able to maintain strict cross-sectional validity while improving longitudinal coverage. CPTD is post-hoc and light-weight, and can easily be used in conjunction with any prediction model as long as a calibration set is available. We focus on neural networks due to their ability to model complicated data such as diagnosis codes for time-series regression, and perform extensive experimental validation to verify the efficacy of our approach. We find that CPTD outperforms baselines on a variety of datasets by improving longitudinal coverage and often providing more efficient (narrower) PIs.
翻訳日:2022-05-26 14:30:25 公開日:2022-05-25
# 音源認識影響関数によるプログラム弱スーパービジョンの理解

Understanding Programmatic Weak Supervision via Source-aware Influence Function ( http://arxiv.org/abs/2205.12879v1 )

ライセンス: Link先を確認
Jieyu Zhang, Haonan Wang, Cheng-Yu Hsieh, Alexander Ratner(参考訳) Programmatic Weak Supervision (PWS)は、複数の弱い監督ソースのソース投票を確率的トレーニングラベルに集約し、エンドモデルをトレーニングするために使用される。 人気が高まっているため、ユーザがパイプライン内の各コンポーネント(例えば、ソース投票やトレーニングデータ)の影響を理解し、エンドモデルの振る舞いを解釈するためのツールを持つことが重要です。 これを実現するために,インフルエンス関数(if)を構築し,確率的ラベルの生成プロセスを活用して最終モデルのトレーニング目標を分解し,各(データ,ソース,クラス)タプルに関連する影響を計算するソースアウェアifを提案する。 これらのプリミティブな影響スコアは、ソース投票、監督源、トレーニングデータなど、PWSの個々のコンポーネントの影響を推定するために使用することができる。 多様な領域のデータセットでは,(1)PWSパイプラインをデバッグするための洞察を明らかにする複数の角度から誤予測を解釈し,(2)ベースラインよりも9%~37%向上したソースの誤ラベルを同定し,(3)トレーニング対象の有害成分を除去することにより,エンドモデルの一般化性能を改善する(通常のIFよりも13%~24%向上)。

Programmatic Weak Supervision (PWS) aggregates the source votes of multiple weak supervision sources into probabilistic training labels, which are in turn used to train an end model. With its increasing popularity, it is critical to have some tool for users to understand the influence of each component (e.g., the source vote or training data) in the pipeline and interpret the end model behavior. To achieve this, we build on Influence Function (IF) and propose source-aware IF, which leverages the generation process of the probabilistic labels to decompose the end model's training objective and then calculate the influence associated with each (data, source, class) tuple. These primitive influence score can then be used to estimate the influence of individual component of PWS, such as source vote, supervision source, and training data. On datasets of diverse domains, we demonstrate multiple use cases: (1) interpreting incorrect predictions from multiple angles that reveals insights for debugging the PWS pipeline, (2) identifying mislabeling of sources with a gain of 9%-37% over baselines, and (3) improving the end model's generalization performance by removing harmful components in the training objective (13%-24% better than ordinary IF).
翻訳日:2022-05-26 14:03:54 公開日:2022-05-25
# プライベートなデータ生成にはより良い機能が必要だ

Differentially Private Data Generation Needs Better Features ( http://arxiv.org/abs/2205.12900v1 )

ライセンス: Link先を確認
Fredrik Harder and Milad Jalali Asadabadi and Danica J. Sutherland and Mijung Park(参考訳) 偏極性確率勾配勾配勾配(DP-SGD)を持つ中等度サイズの生成モデルの訓練は困難であり、適切なプライバシーレベルに必要なノイズレベルは、単に大きすぎる。 代わりに、パブリックデータに適切な表現を構築し、その後、プライベートデータのみを"転送学習"に使用することを推奨する。 特に、公開データセットの知覚的特徴に基づくカーネルを用いて、プライベートターゲットデータと生成された分布間の最大平均誤差(MMD)を最小化する。 mmdでは、dp-sgdのように最適化の各ステップにノイズを導入するのではなく、データ依存の用語を何度でも民営化することができる。 我々のアルゴリズムはCIFAR10レベルの画像を$\varepsilon \approx 2$で忠実に生成し、MNISTとFashionMNISTを$\varepsilon \approx 10$でモデル化する。 我々の研究は、プライベートと非プライベートの深層生成モデルの間のギャップを減らすためのシンプルで強力な基盤を導入しました。

Training even moderately-sized generative models with differentially-private stochastic gradient descent (DP-SGD) is difficult: the required level of noise for reasonable levels of privacy is simply too large. We advocate instead building off a good, relevant representation on public data, then using private data only for "transfer learning." In particular, we minimize the maximum mean discrepancy (MMD) between private target data and the generated distribution, using a kernel based on perceptual features from a public dataset. With the MMD, we can simply privatize the data-dependent term once and for all, rather than introducing noise at each step of optimization as in DP-SGD. Our algorithm allows us to generate CIFAR10-level images faithfully with $\varepsilon \approx 2$, far surpassing the current state of the art, which only models MNIST and FashionMNIST at $\varepsilon \approx 10$. Our work introduces simple yet powerful foundations for reducing the gap between private and non-private deep generative models.
翻訳日:2022-05-26 14:03:30 公開日:2022-05-25
# リスク単調化のためのモデル非依存フレームワーク

Mitigating multiple descents: A model-agnostic framework for risk monotonization ( http://arxiv.org/abs/2205.12937v1 )

ライセンス: Link先を確認
Pratik Patil, Arun Kumar Kuchibhotla, Yuting Wei, Alessandro Rinaldo(参考訳) 最近のいくつかの一般的な予測手法の実証的および理論的解析により、二重/多重降下(double/multiple descent)と呼ばれる高次元の特異なリスク挙動が示され、漸近的リスクは標本サイズに対する特徴やパラメータの数の制限アスペクト比の非単調関数である。 この望ましくない挙動を緩和するため,我々は,一般的な予測手順を入力とし,制限アスペクト比が漸近的に単調である修正手順を返すクロスバリデーションに基づくリスク単調化の一般的な枠組みを開発した。 私たちのフレームワークでは,袋詰めとブースティングに類似した2つのデータ駆動手法,すなわちゼロステップとワンステップを提案し,非常に穏やかな仮定の下で,単調な漸近的リスク行動を実現することを実証する。 我々の結果は様々な予測手順や損失関数に適用でき、十分に特定された(パラメトリック)モデルを必要としない。 我々は、最小$\ell_2$, $\ell_1$-norm最小二乗予測手順の具体的な分析で、我々のフレームワークを例示する。 また,本分析の要素の一つとして,独立性を有する分岐型クロスバリデーションにおける新規な付加的および乗法的オラクルリスク不等式を導出する。

Recent empirical and theoretical analyses of several commonly used prediction procedures reveal a peculiar risk behavior in high dimensions, referred to as double/multiple descent, in which the asymptotic risk is a non-monotonic function of the limiting aspect ratio of the number of features or parameters to the sample size. To mitigate this undesirable behavior, we develop a general framework for risk monotonization based on cross-validation that takes as input a generic prediction procedure and returns a modified procedure whose out-of-sample prediction risk is, asymptotically, monotonic in the limiting aspect ratio. As part of our framework, we propose two data-driven methodologies, namely zero- and one-step, that are akin to bagging and boosting, respectively, and show that, under very mild assumptions, they provably achieve monotonic asymptotic risk behavior. Our results are applicable to a broad variety of prediction procedures and loss functions, and do not require a well-specified (parametric) model. We exemplify our framework with concrete analyses of the minimum $\ell_2$, $\ell_1$-norm least squares prediction procedures. As one of the ingredients in our analysis, we also derive novel additive and multiplicative forms of oracle risk inequalities for split cross-validation that are of independent interest.
翻訳日:2022-05-26 14:03:09 公開日:2022-05-25
# GANフィンガープリントによるミスリーディングディープフェイク検出

Misleading Deep-Fake Detection with GAN Fingerprints ( http://arxiv.org/abs/2205.12543v1 )

ライセンス: Link先を確認
Vera Wesselkamp and Konrad Rieck and Daniel Arp and Erwin Quiring(参考訳) generative adversarial networks(gans)は、人間よりも効果的にスマートな写実的なイメージを合成する進歩を遂げている。 いくつかの検出方法は、生成プロセスから画像アーティファクトをチェックすることで、これらの深い偽物を認識することができるが、複数の反撃がその限界を実証している。 しかし、これらの攻撃は依然として、検出方法との相互作用やganを直接調整するなど、一定の条件を必要とする。 本稿では,これらの制限を克服する単純な反撃の新たなクラスを提案する。 特に,敵が生成した画像の周波数スペクトルから直接,表示的アーティファクトであるgan指紋を除去できることが示されている。 我々は,高周波数のフィルタリングから,よりニュアンスな周波数ピーククリーニングまで,この除去の異なる実現について検討する。 我々は,様々な検出方法,ganアーキテクチャ,データセットを用いて攻撃性能を評価する。 以上の結果から, 敵はgan指紋を除去し, 生成画像の検出を回避できることがわかった。

Generative adversarial networks (GANs) have made remarkable progress in synthesizing realistic-looking images that effectively outsmart even humans. Although several detection methods can recognize these deep fakes by checking for image artifacts from the generation process, multiple counterattacks have demonstrated their limitations. These attacks, however, still require certain conditions to hold, such as interacting with the detection method or adjusting the GAN directly. In this paper, we introduce a novel class of simple counterattacks that overcomes these limitations. In particular, we show that an adversary can remove indicative artifacts, the GAN fingerprint, directly from the frequency spectrum of a generated image. We explore different realizations of this removal, ranging from filtering high frequencies to more nuanced frequency-peak cleansing. We evaluate the performance of our attack with different detection methods, GAN architectures, and datasets. Our results show that an adversary can often remove GAN fingerprints and thus evade the detection of generated images.
翻訳日:2022-05-26 14:02:23 公開日:2022-05-25
# 分類と回帰モデルを用いた取引所のリターン方向予測のための機械学習手法

Machine learning method for return direction forecasting of Exchange Traded Funds using classification and regression models ( http://arxiv.org/abs/2205.12746v1 )

ライセンス: Link先を確認
Raphael P. B. Piovezan, Pedro Paulo de Andrade Junior(参考訳) 本稿では、そのコンポーネントの履歴リターンデータを用いてETF(Exchange Traded Funds)からのリターンの方向を分析する機械学習手法の提案と適用を目標とし、トレーディングアルゴリズムによる投資戦略決定を支援する。 手法的手法では, アルゴリズム的誤差指標に加えて, ブラジルとアメリカ市場の標準データセットを用いて回帰モデルと分類モデルを適用した。 調査結果から,na\"ive forecast と buy & hold technique で得られたリターンを同時期に比較検討した。 リスクとリターンの面では、線形回帰モデルとロジスティック回帰による分類モデル、サポートベクターマシン(線形svcモデルを使用)、ガウス的ナイーブベイズ、k-ネアレストの隣人(特定のデータセットにおいてリターンは2倍、シャープ比はバイ・アンド・ホールド制御モデルの最大4倍に向上した。

This article aims to propose and apply a machine learning method to analyze the direction of returns from Exchange Traded Funds (ETFs) using the historical return data of its components, helping to make investment strategy decisions through a trading algorithm. In methodological terms, regression and classification models were applied, using standard datasets from Brazilian and American markets, in addition to algorithmic error metrics. In terms of research results, they were analyzed and compared to those of the Na\"ive forecast and the returns obtained by the buy & hold technique in the same period of time. In terms of risk and return, the models mostly performed better than the control metrics, with emphasis on the linear regression model and the classification models by logistic regression, support vector machine (using the LinearSVC model), Gaussian Naive Bayes and K-Nearest Neighbors, where in certain datasets the returns exceeded by two times and the Sharpe ratio by up to four times those of the buy & hold control model.
翻訳日:2022-05-26 14:02:08 公開日:2022-05-25
# 逆データ拡張は抽象要約の事実性を改善する

Counterfactual Data Augmentation improves Factuality of Abstractive Summarization ( http://arxiv.org/abs/2205.12416v1 )

ライセンス: Link先を確認
Dheeraj Rajagopal, Siamak Shakeri, Cicero Nogueira dos Santos, Eduard Hovy, Chung-Ching Chang(参考訳) 事前学習された言語モデルに基づく抽象要約システムは、しばしば一貫性があるが事実に一貫性のない文を生成する。 本稿では,トレーニングデータの多様性を増大させる混乱した要約を用いたデータ拡張手法を提案する。 具体的には,置き換えに基づく拡張アプローチを3つ紹介する。 (i)他と同一のカテゴリーの実体 (ii)対応するwordnetハイパーニムを持つ名詞。 提案手法によりトレーニングデータを増強することにより,ROUGEスコアに大きな影響を及ぼすことなく,要約の事実的正しさが向上することを示す。 2つの一般的な要約データセット(cnn/dailymailとxsum)において、事実の正確性が平均2.5ポイント向上することを示す。

Abstractive summarization systems based on pretrained language models often generate coherent but factually inconsistent sentences. In this paper, we present a counterfactual data augmentation approach where we augment data with perturbed summaries that increase the training data diversity. Specifically, we present three augmentation approaches based on replacing (i) entities from other and the same category and (ii) nouns with their corresponding WordNet hypernyms. We show that augmenting the training data with our approach improves the factual correctness of summaries without significantly affecting the ROUGE score. We show that in two commonly used summarization datasets (CNN/Dailymail and XSum), we improve the factual correctness by about 2.5 points on average
翻訳日:2022-05-26 13:58:46 公開日:2022-05-25
# メタラーニングによるソフトプロンプトのためのより良い初期化の学習

Learning a Better Initialization for Soft Prompts via Meta-Learning ( http://arxiv.org/abs/2205.12471v1 )

ライセンス: Link先を確認
Yukun Huang, Kun Qian, Zhou Yu(参考訳) プロンプトチューニング(pt)は、学習済み言語モデルを下流タスクに適応させるための効果的なアプローチである。 優れた初期化がなければ、プロンプトチューニングは、数ショット設定ではうまく機能しない。 そこで、事前学習データを利用してプロンプトを初期化するために、事前学習プロンプトチューニング(PPT)を提案する。 事前学習データ内の潜在構造を考慮し,PTの初期化を改善するメタPT(Meta-learned Prompt Tuning)を提案する。 具体的には,教師なし手法を用いて事前学習データを異なる補助タスクにクラスタリングすることで,その構造を導入する。 そして、これらのタスクを使ってメタ学習アルゴリズムでプロンプトを事前学習する。 このようなプロセスは、補助的なタスク間の共通点を発見することによって、プロンプトにより良い初期化を学ばせる。 提案手法を7つの下流タスクで評価する。 我々のMetaPTは最先端の手法よりも高性能で安定した性能を実現している。

Prompt tuning (PT) is an effective approach to adapting pre-trained language models to downstream tasks. Without a good initialization, prompt tuning doesn't perform well under few-shot settings. So pre-trained prompt tuning (PPT) is proposed to initialize prompts by leveraging pre-training data. We propose MetaPT (Meta-learned Prompt Tuning) to further improve PPT's initialization by considering latent structure within the pre-training data. Specifically, we introduce the structure by first clustering pre-training data into different auxiliary tasks with unsupervised methods. Then we use these tasks to pre-train prompts with a meta-learning algorithm. Such a process can make prompts learn a better initialization by discovering commonalities among these auxiliary tasks. We evaluate our method on seven downstream tasks. Our MetaPT achieves better and more stable performance than the state-of-the-art method.
翻訳日:2022-05-26 13:57:09 公開日:2022-05-25
# 要約をサンプリングした長文要約における内容と予算決定の因果化

Factorizing Content and Budget Decisions in Abstractive Summarization of Long Documents by Sampling Summary Views ( http://arxiv.org/abs/2205.12486v1 )

ライセンス: Link先を確認
Marcio Fonseca, Yftah Ziser, Shay B. Cohen(参考訳) 我々は,コンテンツ選択を高度コンテンツをカバーする予算から切り離すことで,要約的要約の性能と適用性が向上すると主張している。 提案手法であるFacterSumは,(1)抽象的な要約ビューの生成,(2)予算とコンテンツガイダンスに従って,これらのビューを最終要約に組み合わせることにより,要約をエネルギー機能を通じて2つのステップに分解する。 このガイダンスは、BARTやBigBirdといったアドバイザモデルや、参照からのオラクルモードなど、さまざまなソースから取得することができる。 この因子化は、長期文書要約のための複数のベンチマーク、すなわちPubMed、arXiv、GovReportにおいて、ROUGEスコアを著しく向上させる。 私たちのモデルはドメイン適応に有効です。 PubMedサンプルのみをトレーニングすると、arXiv上で46.29 ROUGE-1スコアを達成し、より柔軟な予算適応とコンテンツ選択がドメイン固有のテキスト構造に依存しないため、高いパフォーマンスを示す。

We argue that disentangling content selection from the budget used to cover salient content improves the performance and applicability of abstractive summarizers. Our method, FactorSum, does this disentanglement by factorizing summarization into two steps through an energy function: (1) generation of abstractive summary views; (2) combination of these views into a final summary, following a budget and content guidance. This guidance may come from different sources, including from an advisor model such as BART or BigBird, or in oracle mode -- from the reference. This factorization achieves significantly higher ROUGE scores on multiple benchmarks for long document summarization, namely PubMed, arXiv, and GovReport. Most notably, our model is effective for domain adaptation. When trained only on PubMed samples, it achieves a 46.29 ROUGE-1 score on arXiv, which indicates a strong performance due to more flexible budget adaptation and content selection less dependent on domain-specific textual structure.
翻訳日:2022-05-26 13:56:56 公開日:2022-05-25
# エンドツーエンドのマルチモーダルファクトチェックと説明生成: 挑戦的なデータセットとモデル

End-to-End Multimodal Fact-Checking and Explanation Generation: A Challenging Dataset and Models ( http://arxiv.org/abs/2205.12487v1 )

ライセンス: Link先を確認
Barry Menglong Yao (1), Aditya Shah (2), Lichao Sun (3), Jin-Hee Cho (2), Lifu Huang (2) ((1) University at Buffalo, (2) Virginia Tech, (3) Lehigh University)(参考訳) 本稿では, 記事, 画像, ビデオ, つぶやきを含む大量のWebソースを入力として, クレームの真理性を評価し, 真理性ラベル(例えば, サポート, 反感, 不十分な情報)を予測し, 根拠と支配過程を説明する合理化文を生成するエンド・ツー・エンドのマルチモーダル・ファクトチェックと説明生成手法を提案する。 本研究を支援するために,21,184件のクレームからなる大規模データセットであるMochegを構築し,各クレームに真正性ラベルと決定文を付与し,58,523件の証拠をテキストと画像として提示する。 マルチモーダルエビデンス検索,クレーム検証,説明生成という,3つのパイプラインサブタスク上での最先端のニューラルネットワークアーキテクチャのベースライン性能を確立するために,エンドツーエンドのマルチモーダルファクトチェックの現在の最先端性能が満足できないことを示す。 私たちの知る限りでは、ベンチマークデータセットとエンドツーエンドのマルチモーダルファクトチェックと正当化のためのソリューションを最初に構築しました。

We propose the end-to-end multimodal fact-checking and explanation generation, where the input is a claim and a large collection of web sources, including articles, images, videos, and tweets, and the goal is to assess the truthfulness of the claim by retrieving relevant evidence and predicting a truthfulness label (i.e., support, refute and not enough information), and generate a rationalization statement to explain the reasoning and ruling process. To support this research, we construct Mocheg, a large-scale dataset that consists of 21,184 claims where each claim is assigned with a truthfulness label and ruling statement, with 58,523 evidence in the form of text and images. To establish baseline performances on Mocheg, we experiment with several state-of-the-art neural architectures on the three pipelined subtasks: multimodal evidence retrieval, claim verification, and explanation generation, and demonstrate the current state-of-the-art performance of end-to-end multimodal fact-checking is still far from satisfying. To the best of our knowledge, we are the first to build the benchmark dataset and solutions for end-to-end multimodal fact-checking and justification.
翻訳日:2022-05-26 13:56:37 公開日:2022-05-25
# 関係抽出のための微粒コントラスト学習

Fine-grained Contrastive Learning for Relation Extraction ( http://arxiv.org/abs/2205.12491v1 )

ライセンス: Link先を確認
William Hogan, Jiacheng Li, Jingbo Shang(参考訳) 近年のRelation extract (RE) は, 金ラベルの微調整前に, 遠方の監督によって生じる銀ラベルに対して対照的な学習を行うことにより, 改善を図っている。 Existing methods typically assume all these silver labels are accurate and therefore treat them equally in contrastive learning; however, distant supervision is inevitably noisy -- some silver labels are more reliable than others. In this paper, we first assess the quality of silver labels via a simple and automatic approach we call "learning order denoising," where we train a language model to learn these relations and record the order of learned training instances. We show that learning order largely corresponds to label accuracy -- early learned silver labels have, on average, more accurate labels compared to later learned silver labels. そこで我々は,REの学習関係表現の質を向上させるために,銀ラベルがどの位置にあるのか,あるいはノイズがないのか,さらに詳細な情報を活用する新しいFineCLを提案する。 多くのreベンチマークにおける実験では、最先端のメソッドに対する finecl の一貫性と大幅なパフォーマンス向上が示されている。

Recent relation extraction (RE) works have shown encouraging improvements by conducting contrastive learning on silver labels generated by distant supervision before fine-tuning on gold labels. Existing methods typically assume all these silver labels are accurate and therefore treat them equally in contrastive learning; however, distant supervision is inevitably noisy -- some silver labels are more reliable than others. In this paper, we first assess the quality of silver labels via a simple and automatic approach we call "learning order denoising," where we train a language model to learn these relations and record the order of learned training instances. We show that learning order largely corresponds to label accuracy -- early learned silver labels have, on average, more accurate labels compared to later learned silver labels. We then propose a novel fine-grained contrastive learning (FineCL) for RE, which leverages this additional, fine-grained information about which silver labels are and are not noisy to improve the quality of learned relationship representations for RE. Experiments on many RE benchmarks show consistent, significant performance gains of FineCL over state-of-the-art methods.
翻訳日:2022-05-26 13:56:06 公開日:2022-05-25
# ToKen:Few-Shot Hate音声検出のためのタスク分解と知識注入

ToKen: Task Decomposition and Knowledge Infusion for Few-Shot Hate Speech Detection ( http://arxiv.org/abs/2205.12495v1 )

ライセンス: Link先を確認
Badr AlKhamissi, Faisal Ladhak, Srini Iyer, Ves Stoyanov, Zornitsa Kozareva, Xian Li, Pascale Fung, Lambert Mathias, Asli Celikyilmaz, Mona Diab(参考訳) ヘイトスピーチの検出は複雑で、常識的推論、ステレオタイプに関する知識、文化によって異なる社会的ニュアンスに対する理解に依存している。 また,大規模ヘイトスピーチ注釈付きデータセットの収集も困難である。 本研究では,この問題を数発の学習課題とみなし,タスクを「構成的」な部分に分解することで大きな成果を上げている。 さらに、推論データセット(例えばAtomic2020)から知識を注入することで、さらなるパフォーマンス向上が期待できる。 さらに,訓練されたモデルが分散外データセットに一般化し,従来の手法と比較してタスク分解や知識注入が優れていることを示した。 具体的には,16ショットの場合,ベースラインが17.83%向上した。

Hate speech detection is complex; it relies on commonsense reasoning, knowledge of stereotypes, and an understanding of social nuance that differs from one culture to the next. It is also difficult to collect a large-scale hate speech annotated dataset. In this work, we frame this problem as a few-shot learning task, and show significant gains with decomposing the task into its "constituent" parts. In addition, we see that infusing knowledge from reasoning datasets (e.g. Atomic2020) improves the performance even further. Moreover, we observe that the trained models generalize to out-of-distribution datasets, showing the superiority of task decomposition and knowledge infusion compared to previously used methods. Concretely, our method outperforms the baseline by 17.83% absolute gain in the 16-shot case.
翻訳日:2022-05-26 13:55:49 公開日:2022-05-25
# geneva: 100以上のイベント型によるイベント引数抽出のための一般化可能性の限界を押し上げる

GENEVA: Pushing the Limit of Generalizability for Event Argument Extraction with 100+ Event Types ( http://arxiv.org/abs/2205.12505v1 )

ライセンス: Link先を確認
Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng(参考訳) 世界中で多くのイベントが発生し、ニュース、ソーシャルメディア、様々なオンラインプラットフォームに生のテキストで文書化されている。 これらのイベントに関する有用かつ簡潔な情報を抽出することは、さまざまなダウンストリームアプリケーションに不可欠である。 Event Argument extract (EAE)は、自然言語テキストからイベント固有の情報を抽出するタスクを扱う。 現実的な低データ設定で新しいイベントやドメインに対処するためには、EAEモデルを一般化する緊急性が高まっている。 結果として、AEモデルの一般化性を評価するために、セットアップをベンチマークする必要がある。 しかし、ACEやEREのような既存のベンチマークデータセットのほとんどは、イベントに関して限定的なカバレッジを持ち、EAEモデルの一般化性を適切に評価することはできない。 この問題を軽減するために,115のイベントと187の引数の役割をカバーする新しいデータセットgenevaを紹介する。 このデータセットを使用して、4つのベンチマークテストスイートを作成し、異なる視点からモデルの一般化能力を評価する。 これらのテストスイート上で様々な代表モデルをベンチマークし、それらの一般化性を相対的に比較する。 最後に,従来のモデルより優れ,これらのテストスイートの強力なベンチマークとして機能する新しいモデルSCADを提案する。

Numerous events occur worldwide and are documented in the news, social media, and various online platforms in raw text. Extracting useful and succinct information about these events is crucial to various downstream applications. Event Argument Extraction (EAE) deals with the task of extracting event-specific information from natural language text. In order to cater to new events and domains in a realistic low-data setting, there is a growing urgency for EAE models to be generalizable. Consequentially, there is a necessity for benchmarking setups to evaluate the generalizability of EAE models. But most existing benchmarking datasets like ACE and ERE have limited coverage in terms of events and cannot adequately evaluate the generalizability of EAE models. To alleviate this issue, we introduce a new dataset GENEVA covering a diverse range of 115 events and 187 argument roles. Using this dataset, we create four benchmarking test suites to assess the model's generalization capability from different perspectives. We benchmark various representative models on these test suites and compare their generalizability relatively. Finally, we propose a new model SCAD that outperforms the previous models and serves as a strong benchmark for these test suites.
翻訳日:2022-05-26 13:55:34 公開日:2022-05-25
# (参考訳) NaturalProver: 言語モデルを用いた数学的証明生成

NaturalProver: Grounded Mathematical Proof Generation with Language Models ( http://arxiv.org/abs/2205.12910v1 )

ライセンス: CC BY 4.0
Sean Welleck, Jiacheng Liu, Ximing Lu, Hannaneh Hajishirzi, Yejin Choi(参考訳) 自然数理言語の証明 - 人間によって使用される記号と自然言語の混合 - は、数学の進歩と教育において中心的な役割を果たし、知性の中核となる推論の側面をテストする。 しかし、現代の世代モデルでは未熟である。 本研究では,2つの新世代タスクにおいて,数学的証明の次のステップと完全証明生成の2つの課題について,大規模言語モデルについて検討する。 これらの問題に言語モデルを適用することは、幻覚と論理的不整合によって取り除かれた証明をもたらす。 背景参照(例えば、検索されたり、人間が提供されたりする定理や定義)を条件付けして証明を生成する言語モデルである naturalprover を開発し、制約付きデコードでその存在を任意に強制する。 NaturalProofsベンチマークの定理では、NaturalProverは次のステップの提案の質を改善し、微調整されたGPT-3に対する証明を生成する。 naturalproverは、短い(2~6ステップ)証明を必要とするいくつかの定理を証明でき、40%以上の時間に正確かつ有用と評価された次のステップの提案を提供することができる。

Theorem proving in natural mathematical language - the mixture of symbolic and natural language used by humans - plays a central role in mathematical advances and education, and tests aspects of reasoning that are core to intelligence. Yet it has remained underexplored with modern generative models. We study large-scale language models on two new generation tasks: suggesting the next step in a mathematical proof, and full proof generation. Naively applying language models to these problems yields proofs riddled with hallucinations and logical incoherence. We develop NaturalProver, a language model that generates proofs by conditioning on background references (e.g. theorems and definitions that are either retrieved or human-provided), and optionally enforces their presence with constrained decoding. On theorems from the NaturalProofs benchmark, NaturalProver improves the quality of next-step suggestions and generated proofs over fine-tuned GPT-3, according to human evaluations from university-level mathematics students. NaturalProver is capable of proving some theorems that require short (2-6 step) proofs, and providing next-step suggestions that are rated as correct and useful over 40% of the time, which is to our knowledge the first demonstration of these capabilities using neural language models.
翻訳日:2022-05-26 13:54:06 公開日:2022-05-25
# 関係構造予測のためのプライミング付き簡易統一タグモデル

A Simple and Unified Tagging Model with Priming for Relational Structure Predictions ( http://arxiv.org/abs/2205.12585v1 )

ライセンス: Link先を確認
I-Hung Hsu, Kuan-Hao Huang, Shuning Zhang, Wenxin Cheng, Premkumar Natarajan, Kai-Wei Chang, Nanyun Peng(参考訳) 関係構造抽出は幅広いタスクをカバーし、自然言語処理において重要な役割を果たす。 近年,文に記述されたオブジェクト間の複雑な関係を捉えるために,高度なグラフィカルモデルを設計するアプローチが増えている。 本研究では,簡単なタグ付けモデルが,小さなトリック -- プライミング によって,驚くほど競争的パフォーマンスを達成できることを実証する。 事前訓練された言語モデルの入力シーケンスに操作対象に関する情報を付加したタグ付けモデル。 事前訓練された言語モデルの文脈化の性質を利用することで、文の文脈化表現が操作対象に関する情報をより深く埋め込むのに役立つので、関係構造抽出にもっと適している。 我々は5つの異なる言語にまたがる10のデータセットにまたがる3つの異なるタスクについて広範な実験を行い、その単純さにもかかわらず、我々のモデルは汎用的で効果的なモデルであることを示す。 さらに, モデルを理解するため, 包括的解析を行い, 推定速度は速く, ほぼ同じ性能で, 効率的な近似法を提案する。

Relational structure extraction covers a wide range of tasks and plays an important role in natural language processing. Recently, many approaches tend to design sophisticated graphical models to capture the complex relations between objects that are described in a sentence. In this work, we demonstrate that simple tagging models can surprisingly achieve competitive performances with a small trick -- priming. Tagging models with priming append information about the operated objects to the input sequence of pretrained language model. Making use of the contextualized nature of pretrained language model, the priming approach help the contextualized representation of the sentence better embed the information about the operated objects, hence, becomes more suitable for addressing relational structure extraction. We conduct extensive experiments on three different tasks that span ten datasets across five different languages, and show that our model is a general and effective model, despite its simplicity. We further carry out comprehensive analysis to understand our model and propose an efficient approximation to our method, which can perform almost the same performance but with faster inference speed.
翻訳日:2022-05-26 13:51:35 公開日:2022-05-25
# 大言語モデルはゼロショット臨床情報エクストラクタである

Large Language Models are Zero-Shot Clinical Information Extractors ( http://arxiv.org/abs/2205.12689v1 )

ライセンス: Link先を確認
Monica Agrawal, Stefan Hegselmann, Hunter Lang, Yoon Kim, David Sontag(参考訳) gpt-3などの大規模言語モデルは臨床領域に特化していないにもかかわらず,臨床テキストからのゼロショット情報抽出において良好に機能することを示す。 多様なタスクのツールとしてこれらのモデルをどう使うかを示すいくつかの例を示す。 (i)概念の曖昧さ (ii)証拠抽出 (iii)共同参照解決、及び (iv)概念抽出、すべて臨床テキストによる。 優れたパフォーマンスの鍵は、言語モデル出力からタスクのラベル空間にマップされる単純なタスク固有のプログラムを使用することです。 我々はこれらのプログラムを、出力トークンと離散ラベル空間の間のマッピングを定義する動詞化の一般化であるリゾルバと呼ぶ。 私たちの例では、優れたリゾルバが共通のコンポーネント(例えば、言語モデルが入力データに忠実にマッチするように出力する"セーフティチェック")を共有し、タスク間の共通パターンによってリゾルバが軽量で簡単に作成できることを示しています。 これらのシステムを評価するために,CASIデータセット(Moon et al., 2014)を新たなタスクのラベル付きで手動でラベル付けすることで,ゼロショット臨床情報抽出のベンチマークを行う2つの新しいデータセットを導入する。 検討した臨床抽出タスクにおいて,gpt-3 + resolverシステムは,既存のゼロショットおよび少数ショットベースラインを大きく上回っている。

We show that large language models, such as GPT-3, perform well at zero-shot information extraction from clinical text despite not being trained specifically for the clinical domain. We present several examples showing how to use these models as tools for the diverse tasks of (i) concept disambiguation, (ii) evidence extraction, (iii) coreference resolution, and (iv) concept extraction, all on clinical text. The key to good performance is the use of simple task-specific programs that map from the language model outputs to the label space of the task. We refer to these programs as resolvers, a generalization of the verbalizer, which defines a mapping between output tokens and a discrete label space. We show in our examples that good resolvers share common components (e.g., "safety checks" that ensure the language model outputs faithfully match the input data), and that the common patterns across tasks make resolvers lightweight and easy to create. To better evaluate these systems, we also introduce two new datasets for benchmarking zero-shot clinical information extraction based on manual relabeling of the CASI dataset (Moon et al., 2014) with labels for new tasks. On the clinical extraction tasks we studied, the GPT-3 + resolver systems significantly outperform existing zero- and few-shot baselines.
翻訳日:2022-05-26 13:51:18 公開日:2022-05-25
# 機械学習を用いた文構造解析に基づく質問自動生成

Automatic question generation based on sentence structure analysis using machine learning approach ( http://arxiv.org/abs/2205.12811v1 )

ライセンス: Link先を確認
Miroslav Bl\v{s}t\'ak and Viera Rozinajov\'a(参考訳) 自動質問生成は自然言語処理の最も難しいタスクの1つである。 まず、システムは入力テキスト(自然言語理解)を理解し、それからテキスト(自然言語生成)という形式で質問を生成する必要があります。 本稿では,英語の非構造化テキストから事実的疑問文を生成するための枠組みを提案する。 文パターンに基づく従来の言語アプローチと、いくつかの機械学習手法を組み合わせる。 まず、入力テキストから語彙、構文、意味情報を取得し、各文に対して階層的なパターン群を構築する。 一連の機能はパターンから抽出され、新しい変換ルールの自動学習に使用される。 我々の学習プロセスは完全にデータ駆動である、なぜなら変換規則は初期文検索ペアの集合から得られるからである。 このアプローチの利点は、様々な種類の質問を生成できるような、新しい変換規則の単純な拡張と、強化学習によるシステムの継続的な改善にある。 フレームワークには、生成された質問の品質を見積もる質問評価モジュールも含まれている。 最良の質問を選択し、間違った質問や重複を取り除くフィルターとして機能する。 我々は,生成した質問の正確性を評価する実験を複数実施し,本システムを最先端システムと比較した。 その結果, 生成した質問の品質は最先端のシステムよりも優れており, 質問は人間による質問に匹敵することがわかった。 また、作成したすべてのデータセットと評価された質問を備えたインターフェースを作成し、公開しています。

Automatic question generation is one of the most challenging tasks of Natural Language Processing. It requires "bidirectional" language processing: firstly, the system has to understand the input text (Natural Language Understanding) and it then has to generate questions also in the form of text (Natural Language Generation). In this article, we introduce our framework for generating the factual questions from unstructured text in the English language. It uses a combination of traditional linguistic approaches based on sentence patterns with several machine learning methods. We firstly obtain lexical, syntactic and semantic information from an input text and we then construct a hierarchical set of patterns for each sentence. The set of features is extracted from the patterns and it is then used for automated learning of new transformation rules. Our learning process is totally data-driven because the transformation rules are obtained from a set of initial sentence-question pairs. The advantages of this approach lie in a simple expansion of new transformation rules which allows us to generate various types of questions and also in the continuous improvement of the system by reinforcement learning. The framework also includes a question evaluation module which estimates the quality of generated questions. It serves as a filter for selecting the best questions and eliminating incorrect ones or duplicates. We have performed several experiments to evaluate the correctness of generated questions and we have also compared our system with several state-of-the-art systems. Our results indicate that the quality of generated questions outperforms the state-of-the-art systems and our questions are also comparable to questions created by humans. We have also created and published an interface with all created datasets and evaluated questions, so it is possible to follow up on our work.
翻訳日:2022-05-26 13:50:54 公開日:2022-05-25
# 要約におけるFactual Errorsの理解--Errors, Summarizers, Datasets, Error Detectors

Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors ( http://arxiv.org/abs/2205.12854v1 )

ライセンス: Link先を確認
Liyan Tang, Tanya Goyal, Alexander R. Fabbri, Philippe Laban, Jiacheng Xu, Semih Yahvuz, Wojciech Kry\'sci\'nski, Justin F. Rousseau, Greg Durrett(参考訳) 事実的誤りを検出するための抽象的要約システムの普及は、現在のシステム出力における事実的エラーの検出モデルやエラーのアノテーションなど、重要な研究の対象となっている。 しかし,要約システム,誤り検出器,注釈付ベンチマークの絶え間なく進化する性質は,事実性評価を目標としている。 本研究では,注釈付き要約出力の9つのデータセットからラベル付き事実性誤差を収集し,それらを新しい方法で階層化する。 よりきめ細かい分析をサポートするため、ラベル付きエラータイプを単一の分類に統一し、データセットのエラーそれぞれを共有ラベル付き空間に投影する。 このベンチマークでは5つの最先端エラー検出手法を比較した。 以上の結果から,現代の要約結果に基づくベンチマーク(事前学習モデルによる)は,事前変換モデルを用いたベンチマークとは大きく異なる結果を示した。 さらに、すべての設定またはすべてのエラータイプにおいて、すべての事実性技術が優れているわけではないため、システム開発者は、目の前のタスクに適したシステムを選択するように注意すべきである。

The propensity of abstractive summarization systems to make factual errors has been the subject of significant study, including work on models to detect factual errors and annotation of errors in current systems' outputs. However, the ever-evolving nature of summarization systems, error detectors, and annotated benchmarks make factuality evaluation a moving target; it is hard to get a clear picture of how techniques compare. In this work, we collect labeled factuality errors from across nine datasets of annotated summary outputs and stratify them in a new way, focusing on what kind of base summarization model was used. To support finer-grained analysis, we unify the labeled error types into a single taxonomy and project each of the datasets' errors into this shared labeled space. We then contrast five state-of-the-art error detection methods on this benchmark. Our findings show that benchmarks built on modern summary outputs (those from pre-trained models) show significantly different results than benchmarks using pre-Transformer models. Furthermore, no one factuality technique is superior in all settings or for all error types, suggesting that system developers should take care to choose the right system for their task at hand.
翻訳日:2022-05-26 13:50:31 公開日:2022-05-25
# 質問応答のための論理的相互作用条件の推論

Reasoning over Logically Interacted Conditions for Question Answering ( http://arxiv.org/abs/2205.12898v1 )

ライセンス: Link先を確認
Haitian Sun, William W. Cohen, Ruslan Salakhutdinov(参考訳) いくつかの質問には、等しく正しくない複数の回答があり、異なる条件下では答えが異なる。 条件は、回答を区別したり、それらをサポートするための追加情報を提供するために使用される。 本稿では, 論理的に相互作用する条件のリストによって, 解答の正当性を決定するためには, 論理的推論を行う必要があるという, より困難な課題について検討する。 さらに難しいのは、条件のサブセットについてのみ証拠を提供するため、いくつかの質問は決定論的回答を持っていないかもしれないということです。 そのような場合、モデルは確率的な答えを見つけ、答えを正すために満たすべき条件を特定するように求められます。 我々はこの挑戦的な推論タスクのために新しいモデルTReasonerを提案する。 TReasonerはエンテーメントモジュール、推論モジュール、生成モジュール(回答が自由形式のテキストスパンであれば)から構成される。 TReasonerは、2つのベンチマーク条件付きQAデータセットで最先端のパフォーマンスを達成し、以前の最先端を3-10ポイント上回る。

Some questions have multiple answers that are not equally correct, i.e. answers are different under different conditions. Conditions are used to distinguish answers as well as to provide additional information to support them. In this paper, we study a more challenging task where answers are constrained by a list of conditions that logically interact, which requires performing logical reasoning over the conditions to determine the correctness of the answers. Even more challenging, we only provide evidences for a subset of the conditions, so some questions may not have deterministic answers. In such cases, models are asked to find probable answers and identify conditions that need to be satisfied to make the answers correct. We propose a new model, TReasoner, for this challenging reasoning task. TReasoner consists of an entailment module, a reasoning module, and a generation module (if the answers are free-form text spans). TReasoner achieves state-of-the-art performance on two benchmark conditional QA datasets, outperforming the previous state-of-the-art by 3-10 points.
翻訳日:2022-05-26 13:50:09 公開日:2022-05-25
# オンラインビデオから学ぶオープンドメイン手話翻訳

Open-Domain Sign Language Translation Learned from Online Video ( http://arxiv.org/abs/2205.12870v1 )

ライセンス: Link先を確認
Bowen Shi and Diane Brentari and Greg Shakhnarovich and Karen Livescu(参考訳) 既存の手話翻訳作業、すなわち手話ビデオから文章への翻訳は、(1)制御された環境で収集されたデータ、または(2)特定のドメインで収集されたデータに重点を置いており、実際の設定に適用性を制限する。 本稿では,オンラインビデオサイト(YouTubeなど)から収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。 OpenASLは、200以上の署名者から、さまざまなドメイン(更新、VLOGなど)で288時間のASLビデオを提供しており、これまでで最大の公開ASL翻訳データセットである。 そこで本研究では,手話翻訳の課題を解決するために,手話の事前学習と手形特徴の融合のためのプリテキストタスクとして,手話検索を含む一連の手法を提案する。 提案手法は,先行作業に基づくベースラインモデルよりも,翻訳品質の一貫性と大幅な改善を実現する。 私たちのデータ、コード、モデルはhttps://github.com/chevalierNoir/OpenASLで公開されます。

Existing work on sign language translation--that is, translation from sign language videos into sentences in a written language--has focused mainly on (1) data collected in a controlled environment or (2) data in a specific domain, which limits the applicability to real-world settings. In this paper, we introduce OpenASL, a large-scale ASL-English dataset collected from online video sites (e.g., YouTube). OpenASL contains 288 hours of ASL videos in various domains (news, VLOGs, etc.) from over 200 signers and is the largest publicly available ASL translation dataset to date. To tackle the challenges of sign language translation in realistic settings and without glosses, we propose a set of techniques including sign search as a pretext task for pre-training and fusion of mouthing and handshape features. The proposed techniques produce consistent and large improvements in translation quality, over baseline models based on prior work. Our data, code and model will be publicly available at https://github.com/chevalierNoir/OpenASL
翻訳日:2022-05-26 13:49:53 公開日:2022-05-25
# 室内視定位のための深部局所的特徴マッチングと車両除去

Deep Dense Local Feature Matching and Vehicle Removal for Indoor Visual Localization ( http://arxiv.org/abs/2205.12544v1 )

ライセンス: Link先を確認
Kyung Ho Park(参考訳) 視覚的ローカライゼーションはインテリジェントトランスポートシステムにおいて不可欠なコンポーネントであり、他のセンサーが利用できないときに自己位置を理解する必要がある幅広いアプリケーションを可能にする。 クエリ画像の位置が、以前収集した画像の最も近いマッチングによって決定されるように、画像検索によって主に取り組まれる。 既存のアプローチでは、ランドマークが場所を見つけるのに役立つ大規模なローカライズに焦点を当てている。 しかしながら、オブジェクトが認識できない小規模環境では、視覚的なローカライゼーションが困難になる。 本稿では,屋内駐車場から収集した画像の中から,問合せのマッチングを頑健に見つける視覚的局所化フレームワークを提案する。 画像内の車両が類似した外観を共有し、駐車場などの交換が頻繁に行われる場合、これは難しい問題である。 本研究では,人間の知覚に類似した深い局所的特徴マッチングを用いて,車両検出装置による車両の一致を自動排除する。 提案手法は,低テクスチャ,車両による擬似一致に不変なシーンに対して堅牢である。 267の事前コンパイル画像と、駐車場の34のセクションから抽出した99のクエリ画像を含むベンチマークデータセットにおいて、我々のフレームワークを優位性を検証する代替手段と比較する。 提案手法は86.9%の精度を達成し, 代替品よりも優れている。

Visual localization is an essential component of intelligent transportation systems, enabling broad applications that require understanding one's self location when other sensors are not available. It is mostly tackled by image retrieval such that the location of a query image is determined by its closest match in the previously collected images. Existing approaches focus on large scale localization where landmarks are helpful in finding the location. However, visual localization becomes challenging in small scale environments where objects are hardly recognizable. In this paper, we propose a visual localization framework that robustly finds the match for a query among the images collected from indoor parking lots. It is a challenging problem when the vehicles in the images share similar appearances and are frequently replaced such as parking lots. We propose to employ a deep dense local feature matching that resembles human perception to find correspondences and eliminating matches from vehicles automatically with a vehicle detector. The proposed solution is robust to the scenes with low textures and invariant to false matches caused by vehicles. We compare our framework with alternatives to validate our superiority on a benchmark dataset containing 267 pre-collected images and 99 query images taken from 34 sections of a parking lot. Our method achieves 86.9 percent accuracy, outperforming the alternatives.
翻訳日:2022-05-26 13:48:25 公開日:2022-05-25
# 歩行者検出から横断歩道推定へ:EMアルゴリズムと各種データセットの解析

From Pedestrian Detection to Crosswalk Estimation: An EM Algorithm and Analysis on Diverse Datasets ( http://arxiv.org/abs/2205.12579v1 )

ライセンス: Link先を確認
Ross Greer and Mohan Trivedi(参考訳) 本研究では,有マーク横断歩道と無マーク横断歩道の両方のコーナーポイントと線形横断セグメントを,加工されたライダーポイント雲やカメラ画像からの歩行者検出を用いて推定するemアルゴリズムを提案する。 本研究では,4角と2角の交差点に対して複数周期のデータ収集を含む3つの実世界のデータセットを,マーク付きとマークなしの横断歩道で解析することにより,アルゴリズム性能を実証する。 さらに、公開ソースコードの交差パラメータ推定、歩行者軌跡、フェーズ間隔を可視化するPythonビデオツールも含んでいます。

In this work, we contribute an EM algorithm for estimation of corner points and linear crossing segments for both marked and unmarked pedestrian crosswalks using the detections of pedestrians from processed LiDAR point clouds or camera images. We demonstrate the algorithmic performance by analyzing three real-world datasets containing multiple periods of data collection for four-corner and two-corner intersections with marked and unmarked crosswalks. Additionally, we include a Python video tool to visualize the crossing parameter estimation, pedestrian trajectories, and phase intervals in our public source code.
翻訳日:2022-05-26 13:48:05 公開日:2022-05-25
# UniInst: エンドツーエンドインスタンスセグメンテーションのためのユニークな表現

UniInst: Unique Representation for End-to-End Instance Segmentation ( http://arxiv.org/abs/2205.12646v1 )

ライセンス: Link先を確認
Yimin Ou, Rui Yang, Lufan Ma, Yong Liu, Jiangpeng Yan, Shang Xu, Chengjie Wang, Xiu Li(参考訳) 既存のインスタンスセグメンテーション法は印象的な性能を達成しているが、それでも共通のジレンマに悩まされている: 冗長表現(例えば、複数のボックス、グリッド、アンカーポイント)は1つのインスタンスに対して推論され、複数の重複予測をもたらす。 したがって、主流の手法は、通常手書きの非最大抑圧(NMS)後処理に頼り、最適な予測結果を選択する。 この問題に対処するために、各インスタンスに対して1つのユニークな表現しか得られない、ボックスフリーかつnmsフリーのエンドツーエンドインスタンスセグメンテーションフレームワーク、uniinstを提案する。 具体的には,1つのインスタンスに1つのユニークな表現を1つのインスタンスに動的に割り当てる1対1の代入スキーム,すなわち1対1の代入スキーム(OYOR)を設計する。 そして、新しい予測再ランキング戦略をフレームワークにエレガントに統合し、分類スコアとマスク品質のずれに対処することにより、学習した表現をより判別することができる。 これらの技術により、最初のFCNベースのエンドツーエンドインスタンスセグメンテーションフレームワークであるUniInstは、例えば、ResNet-50-FPNの39.0マスクAPと、ResNet-101-FPNの40.2マスクAPと、COCOベンチマークの主流メソッドとの競合性能を達成する。 さらに,提案手法は閉塞シーンに対して頑健であり,OCHumanベンチマークにおいて顕著なマスクAPにより共通のベースラインを上回っている。 私たちのコードは出版時に利用可能になります。

Existing instance segmentation methods have achieved impressive performance but still suffer from a common dilemma: redundant representations (e.g., multiple boxes, grids, and anchor points) are inferred for one instance, which leads to multiple duplicated predictions. Thus, mainstream methods usually rely on a hand-designed non-maximum suppression (NMS) post-processing to select the optimal prediction result, which hinders end-to-end training. To address this issue, we propose a box-free and NMS-free end-to-end instance segmentation framework, termed UniInst, that yields only one unique representation for each instance. Specifically, we design an instance-aware one-to-one assignment scheme, namely Only Yield One Representation (OYOR), which dynamically assigns one unique representation to one instance according to the matching quality between predictions and ground truths. Then, a novel prediction re-ranking strategy is elegantly integrated into the framework to address the misalignment between the classification score and the mask quality, enabling the learned representation to be more discriminative. With these techniques, our UniInst, the first FCN-based end-to-end instance segmentation framework, achieves competitive performance, e.g., 39.0 mask AP with ResNet-50-FPN and 40.2 mask AP with ResNet-101-FPN, against mainstream methods on the COCO benchmark. Moreover, the proposed instance-aware method is robust to occlusion scenes, outperforming common baselines by remarkable mask AP on the heavily-occluded OCHuman benchmark. Our codes will be available upon publication.
翻訳日:2022-05-26 13:47:55 公開日:2022-05-25
# SIoUの損失: ボックス回帰をバウンディングするための強力な学習

SIoU Loss: More Powerful Learning for Bounding Box Regression ( http://arxiv.org/abs/2205.12740v1 )

ライセンス: Link先を確認
Zhora Gevorgyan(参考訳) コンピュータビジョンタスクにおける中心的な問題の1つであるオブジェクト検出の有効性は、あなたのMLモデルが期待される結果をどれだけ正確に予測できるかの損失関数尺度の定義に大きく依存する。 従来の物体検出損失関数は、予測された真理ボックスと地上の真理ボックス(giou、ciou、iciouなど)の距離、重なり領域、アスペクト比などの境界ボックス回帰のメトリクスの集約に依存する。 しかし、提案され、今日まで使用されている手法は、所望のグランドボックスと予測された「実験」ボックスとのミスマッチの方向を考慮しない。 この不足は、予測されたボックスがトレーニングプロセス中に「動き回る」ことができ、最終的にはより悪いモデルを生成するため、遅く、より効果的でない収束をもたらす。 本稿では,新たな損失関数SIoUを提案する。そこでは,所望の回帰のベクトルの角度を考慮したペナルティ指標を再定義する。 従来のニューラルネットワークやデータセットに適用すると、SIoUはトレーニングの速度と推論の精度の両方を改善している。 提案する損失関数の有効性は,いくつかのシミュレーションや実験で明らかにされた。

The effectiveness of Object Detection, one of the central problems in computer vision tasks, highly depends on the definition of the loss function - a measure of how accurately your ML model can predict the expected outcome. Conventional object detection loss functions depend on aggregation of metrics of bounding box regression such as the distance, overlap area and aspect ratio of the predicted and ground truth boxes (i.e. GIoU, CIoU, ICIoU etc). However, none of the methods proposed and used to date considers the direction of the mismatch between the desired ground box and the predicted, "experimental" box. This shortage results in slower and less effective convergence as the predicted box can "wander around" during the training process and eventually end up producing a worse model. In this paper a new loss function SIoU was suggested, where penalty metrics were redefined considering the angle of the vector between the desired regression. Applied to conventional Neural Networks and datasets it is shown that SIoU improves both the speed of training and the accuracy of the inference. The effectiveness of the proposed loss function was revealed in a number of simulations and tests.
翻訳日:2022-05-26 13:47:22 公開日:2022-05-25
# 微調整事前学習言語モデルのためのラベル規則化の理解に向けて

Towards Understanding Label Regularization for Fine-tuning Pre-trained Language Models ( http://arxiv.org/abs/2205.12428v1 )

ライセンス: Link先を確認
Ivan Kobyzev, Aref Jafari, Mehdi Rezagholizadeh, Tianda Li, Alan Do-Omri, Peng Lu, Ali Ghodsi, Pascal Poupart(参考訳) 知識蒸留(KD)は、教師のネットワーク予測に大きく依存し、学生モデルのトレーニングを指導する顕著なニューラルモデル圧縮技術である。 プレトレーニング言語モデル (PLM) の長期化を考えると、KD は PLM を含む多くの NLP タスクでよく採用されている。 しかしながら、KDでは、トレーニング中に教師ネットワークをデプロイすることで、トレーニングのメモリと計算の要求が増すことは明らかである。 コンピュータビジョン文献では、KDがラベル正規化技術であり、ラベル平滑化技術のようなより軽い教師なしの変種に置き換えることができることを示すことにより、教師ネットワークの必要性を精査する。 しかしながら、我々の知る限りでは、この問題はNLPでは調査されていない。 そこで本研究では,異なるラベル正規化手法と,より小さなplm学生ネットワークを下流タスクに微調整するための教師ラベルが必要であるかどうかについて検討する。 本研究では,BERT,RoBERTa,GPTなどの異なるPLMの総合的な実験を行い,600以上の異なる試行を行い,各構成を5回実施した。 この調査は、学生モデルが事前訓練された場合、KDや他のラベル正規化技術が通常の微調整よりも意味のある役割を果たさないという驚くべき観察につながった。 さらに、NLPとコンピュータビジョンタスクの異なる設定でこの現象を探求し、事前学習自体が正規化の一種であり、追加のラベル正規化は不要であることを示す。

Knowledge Distillation (KD) is a prominent neural model compression technique which heavily relies on teacher network predictions to guide the training of a student model. Considering the ever-growing size of pre-trained language models (PLMs), KD is often adopted in many NLP tasks involving PLMs. However, it is evident that in KD, deploying the teacher network during training adds to the memory and computational requirements of training. In the computer vision literature, the necessity of the teacher network is put under scrutiny by showing that KD is a label regularization technique that can be replaced with lighter teacher-free variants such as the label-smoothing technique. However, to the best of our knowledge, this issue is not investigated in NLP. Therefore, this work concerns studying different label regularization techniques and whether we actually need the teacher labels to fine-tune smaller PLM student networks on downstream tasks. In this regard, we did a comprehensive set of experiments on different PLMs such as BERT, RoBERTa, and GPT with more than 600 distinct trials and ran each configuration five times. This investigation led to a surprising observation that KD and other label regularization techniques do not play any meaningful role over regular fine-tuning when the student model is pre-trained. We further explore this phenomenon in different settings of NLP and computer vision tasks and demonstrate that pre-training itself acts as a kind of regularization, and additional label regularization is unnecessary.
翻訳日:2022-05-26 13:45:58 公開日:2022-05-25
# RLPrompt: 強化学習による離散テキストプロンプトの最適化

RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning ( http://arxiv.org/abs/2205.12548v1 )

ライセンス: Link先を確認
Mingkai Deng, Jianyu Wang, Cheng-Ping Hsieh, Yihan Wang, Han Guo, Tianmin Shu, Meng Song, Eric P. Xing, Zhiting Hu(参考訳) プロンプトは、特に下流データが少ない場合に、大きな事前学習された言語モデル(lms)が多様なnlpタスクを実行可能にするという素晴らしい成功を示している。 しかし、各タスクに最適なプロンプトを自動的に見つけることは難しい。 既存の作業の多くは、解釈可能性に欠けるソフトプロンプト(例えば埋め込み)のチューニング、LM間の再利用性、勾配がアクセスできない場合の適用性に頼っている。 一方、離散的プロンプトは最適化が困難であり、しばしば「列挙(例:パラフレージング)-then-selection」ヒューリスティックによって生成され、プロンプト空間を体系的に探索しない。 本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。 RLPromptは、報酬付きトレーニング後に所望の離散的なプロンプトを生成するパラメータ効率の高いポリシーネットワークを定式化する。 大きなlm環境下での報奨信号の複雑さと確率性を克服するために,訓練効率を大幅に向上させる効果的な報奨安定化を組み込んだ。 RLPromptは、マスキング(例えばBERT)や左から右へのモデル(例えばGPT)といった異なる種類のLMに対して、分類と生成の両方に柔軟に適用できる。 少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインチューニングやプロンプト手法よりも優れた性能を示す。 興味深いことに、得られた最適化されたプロンプトは、しばしば非文法的なジブベリ文字であり、驚くべきことに、これらのジブベリ文字プロンプトは、異なるLM間で大きなパフォーマンスを維持するために転送可能である。

Prompting has shown impressive success in enabling large pretrained language models (LMs) to perform diverse NLP tasks, especially when only few downstream data are available. Automatically finding the optimal prompt for each task, however, is challenging. Most existing work resorts to tuning soft prompt (e.g., embeddings) which falls short of interpretability, reusability across LMs, and applicability when gradients are not accessible. Discrete prompt, on the other hand, is difficult to optimize, and is often created by "enumeration (e.g., paraphrasing)-then-selection" heuristics that do not explore the prompt space systematically. This paper proposes RLPrompt, an efficient discrete prompt optimization approach with reinforcement learning (RL). RLPrompt formulates a parameter-efficient policy network that generates the desired discrete prompt after training with reward. To overcome the complexity and stochasticity of reward signals by the large LM environment, we incorporate effective reward stabilization that substantially enhances the training efficiency. RLPrompt is flexibly applicable to different types of LMs, such as masked (e.g., BERT) and left-to-right models (e.g., GPTs), for both classification and generation tasks. Experiments on few-shot classification and unsupervised text style transfer show superior performance over a wide range of existing finetuning or prompting methods. Interestingly, the resulting optimized prompts are often ungrammatical gibberish text; and surprisingly, those gibberish prompts are transferrable between different LMs to retain significant performance, indicating LM prompting may not follow human language patterns.
翻訳日:2022-05-26 13:45:15 公開日:2022-05-25
# orca: 事前学習データの海におけるサポートデータ証拠の特定による言語モデルの解釈

ORCA: Interpreting Prompted Language Models via Locating Supporting Data Evidence in the Ocean of Pretraining Data ( http://arxiv.org/abs/2205.12600v1 )

ライセンス: Link先を確認
Xiaochuang Han and Yulia Tsvetkov(参考訳) 大規模な事前訓練された言語モデルは、プロンプトを通じて様々な下流タスクにおいて、ますますよく機能している。 しかし、特にゼロショット設定において、モデルがタスク固有の知識をどこで学習するかは、まだ不明である。 本研究では,モデルが事前学習からタスク固有の能力を示す証拠を見つけ,タスクのモデルを直接サポートする,非常に小さな事前学習データのサブセットを見つけることに特に関心を持つ。 本稿では,データエビデンスを支持するサブセットを,下流タスクに関連する勾配情報を反復的に利用して,有効に識別するための新しい手法ORCAを提案する。 このデータエビデンスを支持することは、引き起こされた言語モデルに関する興味深い洞察を与える: 感情分析とテキストの包含のタスクにおいて、BERTは、本コーパス、BERTの2つの事前学習コーパスのより小さなコーパス、およびタスク動詞の同義語をマスクする事前学習例にかなり依存している。

Large pretrained language models have been performing increasingly well in a variety of downstream tasks via prompting. However, it remains unclear from where the model learns the task-specific knowledge, especially in a zero-shot setup. In this work, we want to find evidence of the model's task-specific competence from pretraining and are specifically interested in locating a very small subset of pretraining data that directly supports the model in the task. We call such a subset supporting data evidence and propose a novel method ORCA to effectively identify it, by iteratively using gradient information related to the downstream task. This supporting data evidence offers interesting insights about the prompted language models: in the tasks of sentiment analysis and textual entailment, BERT shows a substantial reliance on BookCorpus, the smaller corpus of BERT's two pretraining corpora, as well as on pretraining examples that mask out synonyms to the task verbalizers.
翻訳日:2022-05-26 13:44:43 公開日:2022-05-25
# 記憶強化による言語モデルの訓練

Training Language Models with Memory Augmentation ( http://arxiv.org/abs/2205.12674v1 )

ライセンス: Link先を確認
Zexuan Zhong, Tao Lei, Danqi Chen(参考訳) 最近の研究は、非パラメトリックメモリコンポーネントを装備することで言語モデルを大幅に改善した。 しかし、既存のアプローチのほとんどはテスト時にのみメモリを導入し、個別にトレーニングされたエンコーダを使ってそれらを表現している。 本研究では,メモリ拡張による言語モデルの学習を目的とした,新しいシンプルなトレーニング手法であるTRIMEを提案する。 当社のアプローチでは,バッチ内サンプルをアクセス可能なメモリとして直接使用するトレーニング目標を採用している。 また、テスト時に異なるメモリセット -- ローカルメモリ、長期メモリ、外部メモリ -- に適応するために使用される、メモリ構築とデータバッチのための新しい方法も提示する。 我々は複数の言語モデリングと機械翻訳ベンチマークに対するアプローチを評価する。 モデルアーキテクチャを変更したり、余分なコンテキスト(例えば、WikiText-103で18.70$\to$ 17.76)を組み込むことなく、バニラ言語モデリングの目的を我々の手で置き換えることによって、難易度が大幅に低下することを発見した。 長期のコンテキストと外部知識を持つ言語モデルをさらに強化し、従来のメモリ拡張アプローチよりも大幅に向上したことを示す。

Recent work has improved language models remarkably by equipping them with a non-parametric memory component. However, most existing approaches only introduce memories at testing time, or represent them using a separately trained encoder -- resulting in sub-optimal training of the language model. In this work, we present TRIME, a novel yet simple training approach designed for training language models with memory augmentation. Our approach uses a training objective that directly takes in-batch examples as accessible memory. We also present new methods for memory construction and data batching, which are used for adapting to different sets of memories -- local, long-term, and external memory -- at testing time. We evaluate our approach on multiple language modeling and machine translation benchmarks. We find that simply replacing the vanilla language modeling objective by ours greatly reduces the perplexity, without modifying the model architecture or incorporating extra context (e.g., 18.70 $\to$ 17.76 on WikiText-103). We further augment language models with long-range contexts and external knowledge and demonstrate significant gains over previous memory-augmented approaches.
翻訳日:2022-05-26 13:44:22 公開日:2022-05-25
# 大規模事前学習型言語モデルはあなたの個人情報を漏洩しているか?

Are Large Pre-Trained Language Models Leaking Your Personal Information? ( http://arxiv.org/abs/2205.12628v1 )

ライセンス: Link先を確認
Jie Huang, Hanyin Shao, Kevin Chen-Chuan Chang(参考訳) 大規模事前学習言語モデル(PLM)は近年、多くのNLPタスクを促進・支配している。 しかし、PLMが大きな成功を収めたにもかかわらず、PLMのプライバシーに関する懸念もある。 例えば、plmsは機密情報を含む多くのトレーニングデータを記憶しており、その情報は意図せず漏洩し、悪意のある攻撃者によって利用される可能性がある。 本稿では, PLM が個人情報を漏洩しやすいかを評価することを提案する。 具体的には、メールアドレスや所有者の名前を含むプロンプトのコンテキストで、メールアドレスのplmをクエリしようとする。 PLMは暗記により個人情報を漏洩させる。 しかし、攻撃者が特定の個人情報を抽出するリスクは、モデルが所有者と個人情報を関連付けることに弱いため低い。 この取り組みが、PLMのプライバシーリスクをよりよく理解し、PLMを安全にするための新たな洞察をもたらすことを期待しています。

Large Pre-Trained Language Models (PLMs) have facilitated and dominated many NLP tasks in recent years. However, despite the great success of PLMs, there are also privacy concerns brought with PLMs. For example, recent studies show that PLMs memorize a lot of training data, including sensitive information, while the information may be leaked unintentionally and be utilized by malicious attackers. In this paper, we propose to measure whether PLMs are prone to leaking personal information. Specifically, we attempt to query PLMs for email addresses with contexts of the email address or prompts containing the owner's name. We find that PLMs do leak personal information due to memorization. However, the risk of specific personal information being extracted by attackers is low because the models are weak at associating the personal information with its owner. We hope this work could help the community to better understand the privacy risk of PLMs and bring new insights to make PLMs safe.
翻訳日:2022-05-26 13:44:02 公開日:2022-05-25
# 低資源言語のための音声言語理解システムの構築について

On Building Spoken Language Understanding Systems for Low Resourced Languages ( http://arxiv.org/abs/2205.12818v1 )

ライセンス: Link先を確認
Akshat Gupta(参考訳) 音声対話システムは、テキストインターフェースに対する様々なアドバンテージのために、人間エクスペリエンスの緩やかで不可欠な部分になりつつある。 音声言語理解(slu)システムは、音声対話システムの基本構成要素である。 しかし、低リソース言語向けのSLUシステムの開発は依然として課題である。 多くの低リソース言語では、いかなるSLUシステムにも基本となる自動音声認識(ASR)技術を構築するのに十分なデータにアクセスできない。 また、ASRベースのSLUシステムは、非記述言語に一般化しない。 本稿では,意図1つのデータポイントとデータセットに1つの話者しか持たないシステムを用いて,インテント分類を行う,極端に低リソースな設定を探索する一連の実験について述べる。 また、言語固有のASRシステムを使用して入力音声の書き起こしを行わない低リソース環境でも、真の低リソース設定をシミュレートするためにSLUシステムを構築するという課題が複雑化している。 ベルギーのオランダ語(フランドル語)と英語で本システムをテストすると,このような低リソース環境における意図的分類システムを構築するために音声文字起こしを用いることで,音声特徴よりもはるかに優れた性能が得られることがわかった。 具体的には、機能ベースシステム上で音声転写ベースのシステムを使用する場合、平均49以上の実験設定において、バイナリと4クラスの分類問題に対して平均12.37%と13.08%の改善が見られた。

Spoken dialog systems are slowly becoming and integral part of the human experience due to their various advantages over textual interfaces. Spoken language understanding (SLU) systems are fundamental building blocks of spoken dialog systems. But creating SLU systems for low resourced languages is still a challenge. In a large number of low resourced language, we don't have access to enough data to build automatic speech recognition (ASR) technologies, which are fundamental to any SLU system. Also, ASR based SLU systems do not generalize to unwritten languages. In this paper, we present a series of experiments to explore extremely low-resourced settings where we perform intent classification with systems trained on as low as one data-point per intent and with only one speaker in the dataset. We also work in a low-resourced setting where we do not use language specific ASR systems to transcribe input speech, which compounds the challenge of building SLU systems to simulate a true low-resourced setting. We test our system on Belgian Dutch (Flemish) and English and find that using phonetic transcriptions to make intent classification systems in such low-resourced setting performs significantly better than using speech features. Specifically, when using a phonetic transcription based system over a feature based system, we see average improvements of 12.37% and 13.08% for binary and four-class classification problems respectively, when averaged over 49 different experimental settings.
翻訳日:2022-05-26 13:43:47 公開日:2022-05-25
# 拡張誘起一貫性規則化による分類

Augmentation-induced Consistency Regularization for Classification ( http://arxiv.org/abs/2205.12461v1 )

ライセンス: Link先を確認
Jianhan Wu, Shijing Si, Jianzong Wang, Jing Xiao(参考訳) ディープニューラルネットワークは多くの教師付き学習タスクで人気になっているが、トレーニングデータセットが制限された場合、過度に適合する。 これを軽減するために、多くの研究者がデータ拡張(data augmentation)を使用しており、これは多種多様なデータセットを増やすために広く使われ、効果的な方法である。 しかし、データ拡張によって引き起こされるランダム性は、トレーニングと推論の矛盾を必然的に生み出すため、改善は不十分である。 本稿では,データ拡張によって生成された異なるサブモデルの出力分布を相互に一貫性を持たせるために,cr-augと呼ばれるデータ拡張に基づく一貫性規則化フレームワークを提案する。 具体的には、CR-Augは、各サンプルの2つの拡張バージョンの出力分布の相違を評価し、一貫性損失を最小限に抑えるために停止段階演算を利用する。 画像および音声の分類タスクにCR-Augを実装し,その有効性を検証し,分類器の一般化能力を向上させる。 私たちのCR-Augフレームワークは使いやすく、多くの最先端のネットワークアーキテクチャに容易に適用できます。 実験の結果,CR-Augはベースライン法よりも有意に優れていた。

Deep neural networks have become popular in many supervised learning tasks, but they may suffer from overfitting when the training dataset is limited. To mitigate this, many researchers use data augmentation, which is a widely used and effective method for increasing the variety of datasets. However, the randomness introduced by data augmentation causes inevitable inconsistency between training and inference, which leads to poor improvement. In this paper, we propose a consistency regularization framework based on data augmentation, called CR-Aug, which forces the output distributions of different sub models generated by data augmentation to be consistent with each other. Specifically, CR-Aug evaluates the discrepancy between the output distributions of two augmented versions of each sample, and it utilizes a stop-gradient operation to minimize the consistency loss. We implement CR-Aug to image and audio classification tasks and conduct extensive experiments to verify its effectiveness in improving the generalization ability of classifiers. Our CR-Aug framework is ready-to-use, it can be easily adapted to many state-of-the-art network architectures. Our empirical results show that CR-Aug outperforms baseline methods by a significant margin.
翻訳日:2022-05-26 13:41:31 公開日:2022-05-25
# 計画の高速化をめざして

Toward Discovering Options that Achieve Faster Planning ( http://arxiv.org/abs/2205.12515v1 )

ライセンス: Link先を確認
Yi Wan, Richard S. Sutton(参考訳) 提案するオプション発見の目的は,計画におけるオプションの利用による計算能力の利点を強調することである。 与えられたエピソードなタスクセットと与えられたオプション数に対して、目的は、少数のオプションを構成することで高いリターンを達成するために使用できるオプションを好む。 少数のオプションを構成すれば、迅速な計画が可能になる。 与えられたタスクに似た新しいタスクに直面した場合、検出されたオプションは計画の加速も期待されている。 私たちの目標は、harb et al. (2018) が提案したシングルタスク設定の目的をマルチタスク設定に拡張することです。 harb と al. の目的を詳しく見ると、1つのタスクで発見された最良のオプションは、将来の未発見のタスクには役に立たず、マルチタスクの設定はこの目的のために本当に必要であることを示している。 同じ論文でharbらは目的を最適化するアルゴリズムも提案しており、アルゴリズムは自然にマルチタスク設定に拡張することができる。 4室の領域において、拡張は高い目的値を達成できないことを実証的に示し、提案する目的をより最適化する新しいアルゴリズムを提案する。 同じ4部屋のドメインで、私たちはそれを示します。 1) 高い客観的価値は一般的に、最適に近いパフォーマンスを達成するために計画イテレーションを少なくするオプションと関連付けられます。 2) 提案アルゴリズムは, 人間の設計した選択肢の集合によって達成される値に近い, 高い目標値を達成する。 3) 得られた選択肢が与えられた最適な計画イテレーション数ははるかに少なく、人が設計した選択肢と一致します。 4) 隣の2部屋を結ぶ廊下付近のセルに移動・停止するので, アルゴリズムが生成するオプションも直感的に理解できる。

We propose a new objective for option discovery that emphasizes the computational advantage of using options in planning. For a given set of episodic tasks and a given number of options, the objective prefers options that can be used to achieve a high return by composing few options. By composing few options, fast planning can be achieved. When faced with new tasks similar to the given ones, the discovered options are also expected to accelerate planning. Our objective extends the objective proposed by Harb et al. (2018) for the single-task setting to the multi-task setting. A closer look at Harb et al.'s objective shows that the best options discovered given one task are not likely to be useful for future unseen tasks and that the multi-task setting is indeed necessary for this purpose. In the same paper, Harb et al. also proposed an algorithm to optimize their objective, and the algorithm can be naturally extended to the multi-task setting. We empirically show that in the four-room domain the extension does not achieve a high objective value and propose a new algorithm that better optimizes the proposed objective. In the same four-room domain, we show that 1) a higher objective value is typically associated with options with which fewer planning iterations are needed to achieve near-optimal performance, 2) our new algorithm achieves a high objective value, which is close to the value achieved by a set of human-designed options, 3) the best number of planning iterations given the discovered options is much smaller and matches it obtained given human-designed options, and 4) the options produced by our algorithm also make intuitive sense because they move to and terminate at cells near hallways connecting two neighbor rooms.
翻訳日:2022-05-26 13:41:11 公開日:2022-05-25
# MAPLE-X: 明示的マイクロプロセッサによる遅延予測

MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge ( http://arxiv.org/abs/2205.12660v1 )

ライセンス: Link先を確認
Saad Abbasi, Alexander Wong, Mohammad Javad Shafiee(参考訳) deep neural network (dnn) latency characterizationは時間を要するプロセスであり、組み込み視覚アプリケーションのための効率的な畳み込みニューラルネットワークを探索する場合、ニューラルネットワーク検索(nas)プロセスに大きなコストがかかる。 dnn latencyはハードウェア依存のメトリクスであり、ターゲットハードウェアの直接測定や推論を必要とする。 MAPLEとして知られる最近導入された遅延推定手法は、ハードウェア性能カウンタを使用して、これまで見つからなかったハードウェアデバイス上でのDNN実行時間を予測している。 これらのハードウェアカウンタを暗黙の事前の形で活用することで、MAPLEはレイテンシ予測における最先端のパフォーマンスを達成する。 本稿では,ハードウェアデバイスの明示的な事前知識とdnnアーキテクチャのレイテンシを取り入れ,モデルの安定性とロバスト性を考慮したmaple-xを提案する。 まず、類似のレイテンシを示すDNNアーキテクチャを識別することにより、複数の仮想例を生成し、MAPLEよりも精度を大幅に向上させることができる。 第二に、ハードウェア仕様は、トレーニングとテストハードウェアの類似性を決定し、同等のデバイス(ドメイン)から取得したトレーニングサンプルを強調し、ドメインアライメントを改善することを奨励する。 様々な種類のデバイスにまたがる畳み込みニューラルネットワークnasベンチマークを用いた実験結果は、現在組み込み視覚アプリケーションで使われているintelプロセッサを含む、mapleよりも5%改善され、ヘルプよりも9%向上していることを示している。 さらに,仮想サンプルとハードウェアベースサンプルの重要性を独立に評価するためのアブレーション研究も含む。

Deep neural network (DNN) latency characterization is a time-consuming process and adds significant cost to Neural Architecture Search (NAS) processes when searching for efficient convolutional neural networks for embedded vision applications. DNN Latency is a hardware dependent metric and requires direct measurement or inference on target hardware. A recently introduced latency estimation technique known as MAPLE predicts DNN execution time on previously unseen hardware devices by using hardware performance counters. Leveraging these hardware counters in the form of an implicit prior, MAPLE achieves state-of-the-art performance in latency prediction. Here, we propose MAPLE-X which extends MAPLE by incorporating explicit prior knowledge of hardware devices and DNN architecture latency to better account for model stability and robustness. First, by identifying DNN architectures that exhibit a similar latency to each other, we can generate multiple virtual examples to significantly improve the accuracy over MAPLE. Secondly, the hardware specifications are used to determine the similarity between training and test hardware to emphasize training samples captured from comparable devices (domains) and encourages improved domain alignment. Experimental results using a convolution neural network NAS benchmark across different types of devices, including an Intel processor that is now used for embedded vision applications, demonstrate a 5% improvement over MAPLE and 9% over HELP. Furthermore, we include ablation studies to independently assess the benefits of virtual examples and hardware-based sample importance.
翻訳日:2022-05-26 13:40:43 公開日:2022-05-25
# NECA:カテゴリーデータのためのネットワーク組み込み深層表現学習

NECA: Network-Embedded Deep Representation Learning for Categorical Data ( http://arxiv.org/abs/2205.12752v1 )

ライセンス: Link先を確認
Xiaonan Gao, Sen Wu, Wenjun Zhou(参考訳) 分類データの深層表現学習手法NECAを提案する。 NECAは、ネットワーク埋め込みと深い教師なし表現学習の基礎の上に構築され、属性値間の固有の関係を深く埋め込み、数値ベクトル表現でデータオブジェクトを明示的に表現する。 カテゴリデータ用に特別に設計されたNECAは、クラスタリングなどの重要な下流データマイニングタスクをサポートすることができる。 NECAの有効性を実験的に明らかにした。

We propose NECA, a deep representation learning method for categorical data. Built upon the foundations of network embedding and deep unsupervised representation learning, NECA deeply embeds the intrinsic relationship among attribute values and explicitly expresses data objects with numeric vector representations. Designed specifically for categorical data, NECA can support important downstream data mining tasks, such as clustering. Extensive experimental analysis demonstrated the effectiveness of NECA.
翻訳日:2022-05-26 13:40:19 公開日:2022-05-25
# ニューラルネットワーク近似による時間差と残留勾配の実験的比較

An Experimental Comparison Between Temporal Difference and Residual Gradient with Neural Network Approximation ( http://arxiv.org/abs/2205.12770v1 )

ライセンス: Link先を確認
Shuyu Yin, Tao Luo, Peilin Liu, Zhi-Qin John Xu(参考訳) 勾配降下またはその変種はニューラルネットワークのトレーニングで人気がある。 しかし、ニューラルネットワーク近似を用いた深部Q-ラーニングでは、強化学習の一種である勾配降下(Residual Gradient (RG))は、ベルマン残差最小化問題を解決するためにほとんど使われない。 対照的に、時間差(td)は不完全勾配降下法が優勢である。 本研究では,tdがベルマン残差の小さいrg,すなわち訓練がベルマン残差エラーを引き起こすとき,tdの解はより優れた方針を持ち,ニューラルネットワークパラメータの摂動に対してより強固であることを示すために,広範な実験を行った。 さらに,強化学習と教師付き学習の鍵となる違いを明らかにする実験を行い,教師付き学習におけるテスト損失関数は性能を示す標準指標である一方,小さなベルマン残差誤差は強化学習における悪い方針に対応できることを示した。 また、TDの欠落項がRGの低下の原因であることも実証的に検証する。 本研究は,深層q-learningソリューションの性能がトレーニングダイナミクスと密接に関連していること,不完全勾配降下法が適切な方針を見出す方法が今後の研究に有用であることを示す。

Gradient descent or its variants are popular in training neural networks. However, in deep Q-learning with neural network approximation, a type of reinforcement learning, gradient descent (also known as Residual Gradient (RG)) is barely used to solve Bellman residual minimization problem. On the contrary, Temporal Difference (TD), an incomplete gradient descent method prevails. In this work, we perform extensive experiments to show that TD outperforms RG, that is, when the training leads to a small Bellman residual error, the solution found by TD has a better policy and is more robust against the perturbation of neural network parameters. We further use experiments to reveal a key difference between reinforcement learning and supervised learning, that is, a small Bellman residual error can correspond to a bad policy in reinforcement learning while the test loss function in supervised learning is a standard index to indicate the performance. We also empirically examine that the missing term in TD is a key reason why RG performs badly. Our work shows that the performance of a deep Q-learning solution is closely related to the training dynamics and how an incomplete gradient descent method can find a good policy is interesting for future study.
翻訳日:2022-05-26 13:40:11 公開日:2022-05-25
# 論理学最適化のためのグラフによるロバスト強化学習

Robust Reinforcement Learning on Graphs for Logistics optimization ( http://arxiv.org/abs/2205.12888v1 )

ライセンス: Link先を確認
Zangir Iklassov, Dmitrii Medvedev(参考訳) 今やロジスティクスの最適化は、AIコミュニティで最もホットな分野の1つになっている。 過去1年間、この問題をグラフ形式で表現することで、ドメインの大幅な進歩を達成した。 もう一つの有望な研究分野は、上記の課題に強化学習アルゴリズムを適用することである。 我々の研究では、両方のアプローチを利用してグラフに強化学習を適用しました。 そこで我々は、グラフニューラルネットワークと強化学習の両方から、両方の分野における最新の結果と選択されたSOTAアルゴリズムを分析した。 そして,ニューヨーク市の交通ネットワークにおけるAMODシステムの最適化問題について,選択モデルを組み合わせて検討した。 我々のチームは、GAT、Pro-CNN、PTDNetの3つのアルゴリズムを比較して、グラフ表現上の重要なノードを前面に持ち込んだ。 最後に,PTDNetとGNNを用いたAMODシステム最適化問題におけるSOTA結果と強化手法による学習を行った。 キーワード:グラフニューラルネットワーク(GNN)、ロジスティクス最適化、強化学習

Logistics optimization nowadays is becoming one of the hottest areas in the AI community. In the past year, significant advancements in the domain were achieved by representing the problem in a form of graph. Another promising area of research was to apply reinforcement learning algorithms to the above task. In our work, we made advantage of using both approaches and apply reinforcement learning on a graph. To do that, we have analyzed the most recent results in both fields and selected SOTA algorithms both from graph neural networks and reinforcement learning. Then, we combined selected models on the problem of AMOD systems optimization for the transportation network of New York city. Our team compared three algorithms - GAT, Pro-CNN and PTDNet - to bring to the fore the important nodes on a graph representation. Finally, we achieved SOTA results on AMOD systems optimization problem employing PTDNet with GNN and training them in reinforcement fashion. Keywords: Graph Neural Network (GNN), Logistics optimization, Reinforcement Learning
翻訳日:2022-05-26 13:39:47 公開日:2022-05-25
# ナップサック付き非定常バンディット

Non-stationary Bandits with Knapsacks ( http://arxiv.org/abs/2205.12427v1 )

ライセンス: Link先を確認
Shang Liu, Jiashuo Jiang, Xiaocheng Li(参考訳) 本稿では,非定常環境におけるknapsacks (BwK) による包帯問題について検討する。 BwK問題は、マルチアームバンディット(MAB)問題を一般化し、各アームの演奏に伴うリソース消費をモデル化する。 各タイミングで、意思決定者/プレーヤはアームをプレイすることを選択し、s/heは報酬を受け取り、複数のリソースタイプから特定のリソースを消費する。 目的は資源上のいくつかのクナップサック制約を受ける有限地平線上の累積報酬を最大化することである。 既存の研究は、BwK問題を確率的あるいは敵対的な環境下で研究している。 本稿では,この2つの極端を補間する非定常環境について考察する。 まず, 従来の変動予算の概念は, 制約の存在によるサブ線形後悔に対するBwK問題の非定常性を特徴づけるには不十分であることを示すとともに, グローバルな非定常度尺度の新たな概念を提案する。 我々は,この問題の上限と下限を導出するために,非定常尺度を併用する。 本研究は,基礎となる線形プログラムの基本双対解析に基づき,制約と非定常性の相互作用を強調する。 最後に,非定常度尺度を制約付きオンライン凸最適化の問題に拡張し,それに応じて新たな後悔境界を求める。

In this paper, we study the problem of bandits with knapsacks (BwK) in a non-stationary environment. The BwK problem generalizes the multi-arm bandit (MAB) problem to model the resource consumption associated with playing each arm. At each time, the decision maker/player chooses to play an arm, and s/he will receive a reward and consume certain amount of resource from each of the multiple resource types. The objective is to maximize the cumulative reward over a finite horizon subject to some knapsack constraints on the resources. Existing works study the BwK problem under either a stochastic or adversarial environment. Our paper considers a non-stationary environment which continuously interpolates between these two extremes. We first show that the traditional notion of variation budget is insufficient to characterize the non-stationarity of the BwK problem for a sublinear regret due to the presence of the constraints, and then we propose a new notion of global non-stationarity measure. We employ both non-stationarity measures to derive upper and lower bounds for the problem. Our results are based on a primal-dual analysis of the underlying linear programs and highlight the interplay between the constraints and the non-stationarity. Finally, we also extend the non-stationarity measure to the problem of online convex optimization with constraints and obtain new regret bounds accordingly.
翻訳日:2022-05-26 13:38:16 公開日:2022-05-25
# 任意のアーキテクチャを持つソフトツリーのアンサンブルのための神経接核公式

A Neural Tangent Kernel Formula for Ensembles of Soft Trees with Arbitrary Architectures ( http://arxiv.org/abs/2205.12904v1 )

ライセンス: Link先を確認
Ryuichi Kanoh, Mahito Sugiyama(参考訳) ソフトツリーは、勾配法を用いて分割規則を更新する決定ツリーの活発に研究された変種である。 様々な木構造を持つことができるが、その影響の理論的性質はよく分かっていない。 本稿では,任意の木構造のためのソフトツリーアンサンブルによって誘導されるニューラルタンジェントカーネル(NTK)を定式化し,解析する。 このカーネルは、無限に多くの木を持つアンサンブル学習において、各深さの葉の数だけがツリーアーキテクチャに関係しているという驚くべき発見につながっている。 言い換えると、各深さの葉の数を固定すると、関数空間におけるトレーニング行動と一般化性能は、それらが同型でない場合でも、異なる木アーキテクチャ間で全く同じである。 また、決定リストのような非対称木のNTKは無限に深くなると退化しないことを示す。 これは、NTKが退化することが知られ、より深い木に対するより悪い一般化性能をもたらす完全二分木とは対照的である。

A soft tree is an actively studied variant of a decision tree that updates splitting rules using the gradient method. Although it can have various tree architectures, the theoretical properties of their impact are not well known. In this paper, we formulate and analyze the Neural Tangent Kernel (NTK) induced by soft tree ensembles for arbitrary tree architectures. This kernel leads to the remarkable finding that only the number of leaves at each depth is relevant for the tree architecture in ensemble learning with infinitely many trees. In other words, if the number of leaves at each depth is fixed, the training behavior in function space and the generalization performance are exactly the same across different tree architectures, even if they are not isomorphic. We also show that the NTK of asymmetric trees like decision lists does not degenerate when they get infinitely deep. This is in contrast to the perfect binary trees, whose NTK is known to degenerate and leads to worse generalization performance for deeper trees.
翻訳日:2022-05-26 13:37:56 公開日:2022-05-25
# 因果構造学習のための償却推論

Amortized Inference for Causal Structure Learning ( http://arxiv.org/abs/2205.12934v1 )

ライセンス: Link先を確認
Lars Lorch, Scott Sussex, Jonas Rothfuss, Andreas Krause, Bernhard Sch\"olkopf(参考訳) 因果構造学習は、通常、スコアまたは独立性テストを使用して構造を評価することを伴う組合せ探索問題を引き起こす。 検索結果の検索はコストがかかり、事前の知識をキャプチャする適切なスコアやテストの設計は困難である。 本研究では,因果構造学習の過程を補正することを提案する。 因果構造を直接探索する代わりに、変分推論モデルを訓練し、観測データと干渉データから因果構造を予測する。 推論モデルは,シミュレータが生成するデータのみから,因果発見のためのドメイン固有帰納バイアスを取得する。 これにより、グラフ上の探索と適切なスコア関数のハンドエンジニアリングの両方をバイパスできる。 さらに、推論モデルのアーキテクチャは置換不変量 w.r.t. データポイントと置換同変量 w.r.t. 変数であり、トレーニング中に見たよりもはるかに大きな問題インスタンスへの一般化を促進する。 合成データと半合成遺伝子発現データについて,本モデルでは,分布シフトがかなり大きく,既存のアルゴリズム,特に挑戦的なゲノム領域において著しく上回っている。

Learning causal structure poses a combinatorial search problem that typically involves evaluating structures using a score or independence test. The resulting search is costly, and designing suitable scores or tests that capture prior knowledge is difficult. In this work, we propose to amortize the process of causal structure learning. Rather than searching over causal structures directly, we train a variational inference model to predict the causal structure from observational/interventional data. Our inference model acquires domain-specific inductive bias for causal discovery solely from data generated by a simulator. This allows us to bypass both the search over graphs and the hand-engineering of suitable score functions. Moreover, the architecture of our inference model is permutation invariant w.r.t. the data points and permutation equivariant w.r.t. the variables, facilitating generalization to significantly larger problem instances than seen during training. On synthetic data and semi-synthetic gene expression data, our models exhibit robust generalization capabilities under substantial distribution shift and significantly outperform existing algorithms, especially in the challenging genomics domain.
翻訳日:2022-05-26 13:37:41 公開日:2022-05-25
# 変分オートエンコーダの観測空間における構造的不確かさ

Structured Uncertainty in the Observation Space of Variational Autoencoders ( http://arxiv.org/abs/2205.12533v1 )

ライセンス: Link先を確認
James Langley, Miguel Monteiro, Charles Jones, Nick Pawlowski, Ben Glocker(参考訳) 変分オートエンコーダ(VAE)は、多くの変種と幅広い応用を持つ深部生成モデルの一般的なクラスである。 標準vaeの改良は、主に潜在空間上の後方分布のモデリングとニューラルネットワークデコーダの特性に焦点を当てている。 対照的に、観測分布のモデルを改善することはまれであり、通常はピクセル単位の独立なカテゴリー分布や正規分布にデフォルトとなる。 画像合成において、そのような分布からのサンプリングは、非相関な画素ノイズを伴う空間的不整合結果を生成し、その結果、サンプル平均のみが出力予測として幾分有用となる。 本稿では,観測分布から試料を改良し,vae理論に忠実な状態を維持することを目的とする。 低ランクパラメータ化により空間依存性を符号化する観測空間の代替モデルを提案する。 この新たな観測分布は、画素間の関連的な共分散を捕捉し、空間的コヒーレントなサンプルが得られることを示した。 画素単位の独立分布とは対照的に、我々のサンプルは1つの前方通過で複数の可算出力を予測できる平均から意味論的に有意な変動を含むように見える。

Variational autoencoders (VAEs) are a popular class of deep generative models with many variants and a wide range of applications. Improvements upon the standard VAE mostly focus on the modelling of the posterior distribution over the latent space and the properties of the neural network decoder. In contrast, improving the model for the observational distribution is rarely considered and typically defaults to a pixel-wise independent categorical or normal distribution. In image synthesis, sampling from such distributions produces spatially-incoherent results with uncorrelated pixel noise, resulting in only the sample mean being somewhat useful as an output prediction. In this paper, we aim to stay true to VAE theory by improving the samples from the observational distribution. We propose an alternative model for the observation space, encoding spatial dependencies via a low-rank parameterisation. We demonstrate that this new observational distribution has the ability to capture relevant covariance between pixels, resulting in spatially-coherent samples. In contrast to pixel-wise independent distributions, our samples seem to contain semantically meaningful variations from the mean allowing the prediction of multiple plausible outputs with a single forward pass.
翻訳日:2022-05-26 13:37:24 公開日:2022-05-25
# 乳癌治療成績の深部審美的評価と検索

Deep Aesthetic Assessment and Retrieval of Breast Cancer Treatment Outcomes ( http://arxiv.org/abs/2205.12611v1 )

ライセンス: Link先を確認
Wilson Silva, Maria Carvalho, Carlos Mavioso, Maria J. Cardoso and Jaime S. Cardoso(参考訳) 近年、乳癌の治療は進化し、改善を続けており、生存率は大幅に増加し、10年生存期間を持つ患者の約80%が生存率を高めている。 乳がん治療が患者の体像に深刻な影響を与え、その結果、彼女の自信と性的および親密な関係に影響を及ぼすことを考えると、女性は生存と美的結果の両方を最適化する治療を受けることが最重要である。 現在、乳がん治療の麻酔効果を評価するための金の基準は存在しない。 また,手術の可能性を患者に示すための標準的な方法も存在しない。 過去の同様の事例の提示は、女性の期待する結果を管理する上で極めて重要である。 本研究では,美的評価を行うための深層ニューラルネットワークを提案する。 概念実証として,二元的美的評価に注目する。 このディープニューラルネットワークは分類に使われるだけでなく、分類前に高度に意味のある空間の近辺を探索することで、最も類似した過去のケースを見つけるためにも使用できる。 乳癌に対する保存的治療後の143枚の写真からなるデータセットを用いて実験を行った。 精度とバランスの取れた精度は, 乳がん治療の審美的評価における現状と比較して, 提案モデルの優れた性能を示した。 さらにモデルでは、同じクラスまたは隣接クラス(4クラス設定)を持ち、類似したタイプの非対称性を持つ、同様の以前のケースを検索する優れた能力を示した。 最後に,モデルのロバスト性と信頼性を分析するために,質的解釈可能性評価を行った。

Treatments for breast cancer have continued to evolve and improve in recent years, resulting in a substantial increase in survival rates, with approximately 80\% of patients having a 10-year survival period. Given the serious impact that breast cancer treatments can have on a patient's body image, consequently affecting her self-confidence and sexual and intimate relationships, it is paramount to ensure that women receive the treatment that optimizes both survival and aesthetic outcomes. Currently, there is no gold standard for evaluating the aesthetic outcome of breast cancer treatment. In addition, there is no standard way to show patients the potential outcome of surgery. The presentation of similar cases from the past would be extremely important to manage women's expectations of the possible outcome. In this work, we propose a deep neural network to perform the aesthetic evaluation. As a proof-of-concept, we focus on a binary aesthetic evaluation. Besides its use for classification, this deep neural network can also be used to find the most similar past cases by searching for nearest neighbours in the highly semantic space before classification. We performed the experiments on a dataset consisting of 143 photos of women after conservative treatment for breast cancer. The results for accuracy and balanced accuracy showed the superior performance of our proposed model compared to the state of the art in aesthetic evaluation of breast cancer treatments. In addition, the model showed a good ability to retrieve similar previous cases, with the retrieved cases having the same or adjacent class (in the 4-class setting) and having similar types of asymmetry. Finally, a qualitative interpretability assessment was also performed to analyse the robustness and trustworthiness of the model.
翻訳日:2022-05-26 13:37:03 公開日:2022-05-25
# 再び読む必要がある:ビデオのモーメント検索のためのマルチグラニュラ性知覚ネットワーク

You Need to Read Again: Multi-granularity Perception Network for Moment Retrieval in Videos ( http://arxiv.org/abs/2205.12886v1 )

ライセンス: Link先を確認
Xin Sun, Xuan Wang, Jialin Gao, Qiong Liu, Xi Zhou(参考訳) 動画におけるモーメント検索は,文章記述が与えられたビデオにおいて,最も関連性の高い映像モーメントを検索することを目的とした課題である。 従来の手法では、ビデオコンテンツ、クエリコンテキスト、およびそれらのアライメントに含まれるきめ細かい手がかりを無視する、粗い方法で自己モーダル学習と相互モーダル相互作用を行う傾向があった。 この目的のために,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多言語知覚ネットワーク(MGPN)を提案する。 具体的には,モーメント検索を多段読解タスクとして定式化し,人間の読解戦略をフレームワークに統合する。 粒度の粗い特徴エンコーダとコアテンション機構を利用して、モダリティ内およびモダリティ間情報の予備的な知覚を得る。 次に、人間の読解理解問題への対処方法に触発された初期知覚を高めるために、きめ細かい特徴エンコーダと条件付き相互作用モジュールを導入する。 さらに,既存手法の膨大な計算負荷を軽減するため,効率的な選択比較モジュールの設計と,非知覚的品質損失による隠れサイズを削減する。 Charades-STA、TACoS、ActivityNet Captionsのデータセットに関する大規模な実験は、我々のソリューションが既存の最先端手法よりも優れていることを示している。

Moment retrieval in videos is a challenging task that aims to retrieve the most relevant video moment in an untrimmed video given a sentence description. Previous methods tend to perform self-modal learning and cross-modal interaction in a coarse manner, which neglect fine-grained clues contained in video content, query context, and their alignment. To this end, we propose a novel Multi-Granularity Perception Network (MGPN) that perceives intra-modality and inter-modality information at a multi-granularity level. Specifically, we formulate moment retrieval as a multi-choice reading comprehension task and integrate human reading strategies into our framework. A coarse-grained feature encoder and a co-attention mechanism are utilized to obtain a preliminary perception of intra-modality and inter-modality information. Then a fine-grained feature encoder and a conditioned interaction module are introduced to enhance the initial perception inspired by how humans address reading comprehension problems. Moreover, to alleviate the huge computation burden of some existing methods, we further design an efficient choice comparison module and reduce the hidden size with imperceptible quality loss. Extensive experiments on Charades-STA, TACoS, and ActivityNet Captions datasets demonstrate that our solution outperforms existing state-of-the-art methods.
翻訳日:2022-05-26 13:34:57 公開日:2022-05-25
# Verifier-Guided Search を用いた自然言語証明の生成

Generating Natural Language Proofs with Verifier-Guided Search ( http://arxiv.org/abs/2205.12443v1 )

ライセンス: Link先を確認
Kaiyu Yang and Jia Deng and Danqi Chen(参考訳) 帰納的推論(仮定から結論を引き出す)はNLPにおいて難しい問題である。 本研究は, 仮説と自然言語における支援事実の集合が与えられた場合, 仮説を支持事実から導出する方法を示す証明木を生成する。 証明全体を1ショットで生成する代わりに、以前の研究はステップワイズ生成の可能性を実証したが、実際のデータでは限定的な成功を収めた。 既存のステップワイズメソッドは、正当かつ関連する証明ステップの生成に苦労している。 本稿では,新しいステップワイズ法であるnlproofs (natural language proof search) を提案する。 提案手法のコアでは,検証手順の妥当性を確認するために独立した検証器を訓練する。 強欲にステップを生成する代わりに、検証者が判断する大域的証明スコアを最大化する証明を探索する。 NLProofS は EntailmentBank と RuleTaker で最先端のパフォーマンスを達成する。 例えば、正確に予測された証明の割合を20.9%から33.3%に改善する。 ステップワイズ手法が人間による証明のより良い生成に繋がったのはこれが初めてである。

Deductive reasoning (drawing conclusions from assumptions) is a challenging problem in NLP. In this work, we focus on proof generation: given a hypothesis and a set of supporting facts in natural language, the model generates a proof tree indicating how to deduce the hypothesis from supporting facts. Instead of generating the entire proof in one shot, prior work has demonstrated the promise of stepwise generation but achieved limited success on real-world data. Existing stepwise methods struggle to generate proof steps that are both valid and relevant. In this paper, we present a novel stepwise method NLProofS (Natural Language Proof Search), which learns to generate relevant steps conditioning on the hypothesis. At the core of our approach, we train an independent verifier to check the validity of proof steps. Instead of generating steps greedily, we search for proofs maximizing a global proof score judged by the verifier. NLProofS achieves state-of-the-art performance on EntailmentBank and RuleTaker. For example, it improves the percentage of correctly predicted proofs from 20.9% to 33.3% in the distractor setting of EntailmentBank. This is the first time stepwise methods have led to better generation of challenging human-authored proofs.
翻訳日:2022-05-26 13:33:54 公開日:2022-05-25
# VulBERTa: 脆弱性検出のための簡易ソースコード事前トレーニング

VulBERTa: Simplified Source Code Pre-Training for Vulnerability Detection ( http://arxiv.org/abs/2205.12424v1 )

ライセンス: Link先を確認
Hazim Hanif and Sergio Maffeis(参考訳) 本稿では,ソースコードのセキュリティ脆弱性を検出するディープラーニングアプローチであるVulBERTaを提案する。 当社のアプローチでは,オープンソースのC/C++プロジェクトの実世界のコードに対して,独自のトークン化パイプラインを備えたRoBERTaモデルを事前トレーニングする。 このモデルは、脆弱性検出分類器のトレーニングに利用するコード構文とセマンティクスの深い知識表現を学習します。 我々は,複数のデータセット(Vuldeepecker,Draper,REVEAL,muVuldeepecker)とベンチマーク(CodeXGLUE,D2A)のバイナリおよびマルチクラス脆弱性検出タスクに対するアプローチを評価した。 評価結果から,VulBERTaは,学習データのサイズやモデルパラメータの数に関して,その概念的単純さやコストの制限にもかかわらず,最先端のパフォーマンスを実現し,さまざまなデータセットに対する既存アプローチよりも優れることが示された。

This paper presents VulBERTa, a deep learning approach to detect security vulnerabilities in source code. Our approach pre-trains a RoBERTa model with a custom tokenisation pipeline on real-world code from open-source C/C++ projects. The model learns a deep knowledge representation of the code syntax and semantics, which we leverage to train vulnerability detection classifiers. We evaluate our approach on binary and multi-class vulnerability detection tasks across several datasets (Vuldeepecker, Draper, REVEAL and muVuldeepecker) and benchmarks (CodeXGLUE and D2A). The evaluation results show that VulBERTa achieves state-of-the-art performance and outperforms existing approaches across different datasets, despite its conceptual simplicity, and limited cost in terms of size of training data and number of model parameters.
翻訳日:2022-05-26 13:33:01 公開日:2022-05-25
# マルチエージェント強化学習システムにおける信頼に基づく合意

Trust-based Consensus in Multi-Agent Reinforcement Learning Systems ( http://arxiv.org/abs/2205.12880v1 )

ライセンス: Link先を確認
Ho Long Fung, Victor-Alexandru Darvariu, Stephen Hailes, Mirco Musolesi(参考訳) マルチエージェント強化学習(MARL)におけるしばしば無視される問題は、期待された振る舞いからの逸脱がシステムが意図したタスクを達成できない環境における信頼性の低いエージェントの存在である。 特に、コンセンサスは協調分散マルチエージェントシステムの基本的な基盤問題である。 合意は、彼らが提案した一連の初期提案から合意に達するために、分散化された通信ネットワークにある異なるエージェントを必要とする。 学習ベースのエージェントは、システム内に1つ以上の信頼できないエージェントがいるにもかかわらず、コンセンサスに到達できるプロトコルを採用するべきである。 本稿では,MARLにおける信頼できないエージェントの問題点を事例研究として考察する。 分散システム文献の確立した結果を反映した実験では,そのようなエージェントのごく一部でも,ネットワーク環境におけるコンセンサスに達する能力に大きな影響を与えうることを示した。 我々は,エージェントが通信相手を独立して決定できる分散信頼機構である強化学習型信頼コンセンサス(rltc)を提案する。 我々は,我々の信頼機構が信頼できないエージェントを効果的に扱えることを実証的に実証した。

An often neglected issue in multi-agent reinforcement learning (MARL) is the potential presence of unreliable agents in the environment whose deviations from expected behavior can prevent a system from accomplishing its intended tasks. In particular, consensus is a fundamental underpinning problem of cooperative distributed multi-agent systems. Consensus requires different agents, situated in a decentralized communication network, to reach an agreement out of a set of initial proposals that they put forward. Learning-based agents should adopt a protocol that allows them to reach consensus despite having one or more unreliable agents in the system. This paper investigates the problem of unreliable agents in MARL, considering consensus as case study. Echoing established results in the distributed systems literature, our experiments show that even a moderate fraction of such agents can greatly impact the ability of reaching consensus in a networked environment. We propose Reinforcement Learning-based Trusted Consensus (RLTC), a decentralized trust mechanism, in which agents can independently decide which neighbors to communicate with. We empirically demonstrate that our trust mechanism is able to deal with unreliable agents effectively, as evidenced by higher consensus success rates.
翻訳日:2022-05-26 13:31:06 公開日:2022-05-25
# 平均フィールドゲームを学ぶ:調査

Learning Mean Field Games: A Survey ( http://arxiv.org/abs/2205.12944v1 )

ライセンス: Link先を確認
Mathieu Lauri\`ere, Sarah Perrin, Matthieu Geist, Olivier Pietquin(参考訳) 非常に多くのプレイヤーを持つ非協力的・協力的なゲームは、多くの応用があるが、プレイヤーの数が増えると一般には難解である。 Lasry and Lions と Huang, Caines and Malham\'e によって導入された Mean Field Games (MFGs) は、プレイヤーの数を無限に増やすための平均フィールド近似に頼っている。 これらのゲームを解く伝統的な方法は、モデルに関する完全な知識を持つ部分的あるいは確率的な微分方程式を解くことに依存している。 近年、強化学習(RL)は複雑な問題を解決することを約束している。 MFGとRLを組み合わせることで、人口規模と環境の複雑さの両面で非常に大規模なゲームを解きたいと考えています。 本稿では,MFGにおけるナッシュ均衡を学習するためのRL法に関する最近の文献について概説する。 まず、最も一般的な設定(静的、定常、そしてエボリューティブ)を特定します。 次に、MFGを正確に解くための古典的反復法(最適応答計算やポリシー評価に基づく)の一般的な枠組みを提案する。 これらのアルゴリズムとMarkov Decision Processesとの接続に基づいて、モデルのない方法でMFGソリューションを学習するためにRLをどのように使用できるかを説明する。 最後に,ベンチマーク問題に対する数値イラストを提示し,いくつかの観点で結論づける。

Non-cooperative and cooperative games with a very large number of players have many applications but remain generally intractable when the number of players increases. Introduced by Lasry and Lions, and Huang, Caines and Malham\'e, Mean Field Games (MFGs) rely on a mean-field approximation to allow the number of players to grow to infinity. Traditional methods for solving these games generally rely on solving partial or stochastic differential equations with a full knowledge of the model. Recently, Reinforcement Learning (RL) has appeared promising to solve complex problems. By combining MFGs and RL, we hope to solve games at a very large scale both in terms of population size and environment complexity. In this survey, we review the quickly growing recent literature on RL methods to learn Nash equilibria in MFGs. We first identify the most common settings (static, stationary, and evolutive). We then present a general framework for classical iterative methods (based on best-response computation or policy evaluation) to solve MFGs in an exact way. Building on these algorithms and the connection with Markov Decision Processes, we explain how RL can be used to learn MFG solutions in a model-free way. Last, we present numerical illustrations on a benchmark problem, and conclude with some perspectives.
翻訳日:2022-05-26 13:30:47 公開日:2022-05-25
# プライバシー保護型自己監督学習のための付加的ロジスティックメカニズム

Additive Logistic Mechanism for Privacy-Preserving Self-Supervised Learning ( http://arxiv.org/abs/2205.12430v1 )

ライセンス: Link先を確認
Yunhao Yang, Parham Gohari, Ufuk Topcu(参考訳) ニューラルネットワークの重みを自己教師付き学習アルゴリズムでトレーニングする際のプライバシーリスクについて検討する。 実証的な証拠を通じて、ネットワークの重みが情報的かつしばしばプライベートなデータセットで更新される微調整ステージが、プライバシー攻撃に脆弱であることを示す。 この脆弱性に対処するため、我々は、微調整された重みにノイズを加えるポストトレーニングプライバシー保護アルゴリズムを設計し、ロジスティック分布からノイズをサンプリングする新しい差分プライバシー機構を提案する。 従来の2つの付加雑音機構、すなわちラプラスとガウスのメカニズムと比較して、提案機構はガウスのメカニズムの分布に類似したベル形状の分布を用い、ラプラスのメカニズムと同様の純粋な$\epsilon$-differential privacyを満足する。 プライバシとパフォーマンスのトレードオフを定量化するために,非保護モデルと保護モデルの両方にメンバシップ推論攻撃を適用する。 提案する保護アルゴリズムは、性能損失を5\%以下に抑えつつ、ランダム推測と同値な攻撃精度を約50\%まで効果的に低減できることを示す。

We study the privacy risks that are associated with training a neural network's weights with self-supervised learning algorithms. Through empirical evidence, we show that the fine-tuning stage, in which the network weights are updated with an informative and often private dataset, is vulnerable to privacy attacks. To address the vulnerabilities, we design a post-training privacy-protection algorithm that adds noise to the fine-tuned weights and propose a novel differential privacy mechanism that samples noise from the logistic distribution. Compared to the two conventional additive noise mechanisms, namely the Laplace and the Gaussian mechanisms, the proposed mechanism uses a bell-shaped distribution that resembles the distribution of the Gaussian mechanism, and it satisfies pure $\epsilon$-differential privacy similar to the Laplace mechanism. We apply membership inference attacks on both unprotected and protected models to quantify the trade-off between the models' privacy and performance. We show that the proposed protection algorithm can effectively reduce the attack accuracy to roughly 50\%-equivalent to random guessing-while maintaining a performance loss below 5\%.
翻訳日:2022-05-26 13:30:26 公開日:2022-05-25
# 非パラメトリック多クラス確率推定のための線形アルゴリズム

Linear Algorithms for Nonparametric Multiclass Probability Estimation ( http://arxiv.org/abs/2205.12460v1 )

ライセンス: Link先を確認
Liyun Zeng, Hao Helen Zhang(参考訳) 多クラス確率推定は、その共変量情報からクラスに属するデータポイントの条件付き確率を推定する問題である。 統計分析やデータ科学に広く応用されている。 最近では、K$クラス問題(Wang, Shen and Liu, 2008; Wang, Zhang and Wu, 2019)のアンサンブル学習を通じて、クラス確率を推定するために、重み付きサポートベクトルマシン(wSVM)のクラスが開発された。 推定器は頑健であり、確率推定の精度が高いが、その学習はペア結合によって実施され、多項式時間は$K$である。 本稿では、計算効率と推定精度の面でwsvmをさらに向上させるために、ベースライン学習と1-vs-all(ova)学習という2つの新しい学習方式を提案する。 特に、ベースライン学習は、$K$で線型であるという意味で、最適な計算複雑性を持つ。 結果として得られる推定値は分布フリーであり、一貫性があることが示される。 さらに, 有限サンプル性能を示すため, 広範な数値実験を行った。

Multiclass probability estimation is the problem of estimating conditional probabilities of a data point belonging to a class given its covariate information. It has broad applications in statistical analysis and data science. Recently a class of weighted Support Vector Machines (wSVMs) have been developed to estimate class probabilities through ensemble learning for $K$-class problems (Wang, Shen and Liu, 2008; Wang, Zhang and Wu, 2019), where $K$ is the number of classes. The estimators are robust and achieve high accuracy for probability estimation, but their learning is implemented through pairwise coupling, which demand polynomial time in $K$. In this paper, we propose two new learning schemes, the baseline learning and the One-vs-All (OVA) learning, to further improve wSVMs in terms of computational efficiency and estimation accuracy. In particular, the baseline learning has optimal computational complexity in the sense that it is linear in $K$. The resulting estimators are distribution-free and shown to be consistent. We further conduct extensive numerical experiments to demonstrate finite sample performance.
翻訳日:2022-05-26 13:30:06 公開日:2022-05-25
# オンライン確率アルゴリズムによる時間依存ストリーミングデータからの学習

Learning from time-dependent streaming data with online stochastic algorithms ( http://arxiv.org/abs/2205.12549v1 )

ライセンス: Link先を確認
Antoine Godichon-Baggioni (LPSM (UMR\_8001)), Nicklas Werge (LPSM (UMR\_8001)), Olivier Wintenberger (LPSM (UMR\_8001))(参考訳) ストリーミングフレームワークで確率的アルゴリズムを研究し、依存するデータソースからのサンプルに基づいてトレーニングする。 このストリーミングフレームワークでは、確率勾配勾配(Robins-Monroアルゴリズム)やミニバッチSG法などのSG法、および平均推定値(Polyak-Ruppert averaged)などの様々なSG法を含む、非漸近的な方法で確率勾配(SG)法の収束を解析する。 私たちの結果は、依存性と凸性のレベルを他のモデルのパラメータに結びつけることでヒューリスティックを形成します。 このヒューリスティックは、最適な学習率の選択に関する新たな洞察を提供し、sgベースの方法の安定性向上に寄与する。

We study stochastic algorithms in a streaming framework, trained on samples coming from a dependent data source. In this streaming framework, we analyze the convergence of Stochastic Gradient (SG) methods in a non-asymptotic manner; this includes various SG methods such as the well-known stochastic gradient descent (i.e., Robbins-Monro algorithm), mini-batch SG methods, together with their averaged estimates (i.e., Polyak-Ruppert averaged). Our results form a heuristic by linking the level of dependency and convexity to the rest of the model parameters. This heuristic provides new insights into choosing the optimal learning rate, which can help increase the stability of SGbased methods; these investigations suggest large streaming batches with slow decaying learning rates for highly dependent data sources.
翻訳日:2022-05-26 13:29:45 公開日:2022-05-25
# 生成的逆ネットワークによる学習分布:近似と一般化

Learning Distributions by Generative Adversarial Networks: Approximation and Generalization ( http://arxiv.org/abs/2205.12601v1 )

ライセンス: Link先を確認
Yunfei Yang(参考訳) これらのモデルの収束率を解析し, 生成逆ネットワーク(gan)が有限サンプルから確率分布を学習する方法について検討した。 本分析は,GANの推定誤差を判別器とジェネレータの近似誤差,一般化誤差,最適化誤差に分解する新しいオラクル不等式に基づく。 判別子近似誤差を推定するために,ネットワークのリプシッツ定数上の明示的な上界や重み付けのノルム制約を持つreluニューラルネットワークを用いて,h\"older関数を近似する誤差境界を確立する。 ジェネレータ近似誤差については、ニューラルネットワークが低次元のソース分布を大まかに高次元のターゲット分布に変換し、その近似誤差をニューラルネットワークの幅と深さでバインドできることを示す。 統計的学習理論によるニューラルネットワークの一般化境界と近似した結果を組み合わせることで,wasserstein距離を含むh\"olderクラスを通じて定義される積分的確率メトリックの集まりで誤差を測定した場合,様々な場面でganの収束率を定式化する。 特に、低次元集合を中心に集中した分布について、GANの収束速度は高い周囲次元ではなく低い内在次元に依存していることを示す。

We study how well generative adversarial networks (GAN) learn probability distributions from finite samples by analyzing the convergence rates of these models. Our analysis is based on a new oracle inequality that decomposes the estimation error of GAN into the discriminator and generator approximation errors, generalization error and optimization error. To estimate the discriminator approximation error, we establish error bounds on approximating H\"older functions by ReLU neural networks, with explicit upper bounds on the Lipschitz constant of the network or norm constraint on the weights. For generator approximation error, we show that neural network can approximately transform a low-dimensional source distribution to a high-dimensional target distribution and bound such approximation error by the width and depth of neural network. Combining the approximation results with generalization bounds of neural networks from statistical learning theory, we establish the convergence rates of GANs in various settings, when the error is measured by a collection of integral probability metrics defined through H\"older classes, including the Wasserstein distance as a special case. In particular, for distributions concentrated around a low-dimensional set, we show that the convergence rates of GANs do not depend on the high ambient dimension, but on the lower intrinsic dimension.
翻訳日:2022-05-26 13:29:29 公開日:2022-05-25
# モデル勾配類似性によるニューラルネットワークの正規化の解釈可能性について

On the Interpretability of Regularisation for Neural Networks Through Model Gradient Similarity ( http://arxiv.org/abs/2205.12642v1 )

ライセンス: Link先を確認
Vincent Szolnoky, Viktor Andersson, Balazs Kulcsar, Rebecka J\"ornsten(参考訳) ほとんどの複雑な機械学習とモデリング技術は過剰フィッティングになりがちで、将来のデータにはあまり一般化しない可能性がある。 この点に関して、ニューラルネットワークは変わらないし、勾配降下訓練時に暗黙の正規化レベルを持つにもかかわらず、しばしば明示的な正規化の助けを必要とする。 We introduce a new framework, Model Gradient Similarity (MGS), that (1) serves as a metric of regularisation, which can be used to monitor neural network training, (2) adds insight into how explicit regularisers, while derived from widely different principles, operate via the same mechanism underneath by increasing MGS, and (3) provides the basis for a new regularisation scheme which exhibits excellent performance, especially in challenging settings such as high levels of label noise or limited sample sizes.

Most complex machine learning and modelling techniques are prone to over-fitting and may subsequently generalise poorly to future data. Artificial neural networks are no different in this regard and, despite having a level of implicit regularisation when trained with gradient descent, often require the aid of explicit regularisers. We introduce a new framework, Model Gradient Similarity (MGS), that (1) serves as a metric of regularisation, which can be used to monitor neural network training, (2) adds insight into how explicit regularisers, while derived from widely different principles, operate via the same mechanism underneath by increasing MGS, and (3) provides the basis for a new regularisation scheme which exhibits excellent performance, especially in challenging settings such as high levels of label noise or limited sample sizes.
翻訳日:2022-05-26 13:29:07 公開日:2022-05-25
# (参考訳) 大規模マルチタスク学習システムにおける動的タスク導入への進化的アプローチ

An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems ( http://arxiv.org/abs/2205.12755v1 )

ライセンス: CC BY 4.0
Andrea Gesmundo and Jeff Dean(参考訳) マルチタスク学習は、人間の学習の重要な特徴である知識伝達によって、複数のタスクから学習できるモデルがより良い品質と効率を達成すると仮定する。 しかし、最先端のMLモデルはタスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。 また、マルチタスクに時間的側面を加える連続学習は、次世代人工知能を構築する上で重要な要素として大規模に研究されるのではなく、破滅的な忘れなどの共通の落とし穴の研究にしばしば焦点が当てられる。 本稿では,大規模マルチタスクモデルを生成可能な進化的手法を提案し,新しいタスクの動的かつ連続的な追加を支援する。 生成されたマルチタスクモデルはスパースにアクティベートされ、境界のある計算コストと、モデルの拡張に伴うタスク毎のパラメータの削減を保証するタスクベースのルーティングを統合する。 提案手法は, 破滅的忘れに対する免疫と, 勾配干渉や負の移動などの一般的な落とし穴を実現するための知識区画化技術に依存している。 例えば、cifar10:99.43%のような競合タスクに対して、公開データのみでトレーニングされたモデルに対して、最高のテスト精度を達成できる。

Multitask learning assumes that models capable of learning from multiple tasks can achieve better quality and efficiency via knowledge transfer, a key feature of human learning. Though, state of the art ML models rely on high customization for each task and leverage size and data scale rather than scaling the number of tasks. Also, continual learning, that adds the temporal aspect to multitask, is often focused to the study of common pitfalls such as catastrophic forgetting instead of being studied at a large scale as a critical component to build the next generation artificial intelligence. We propose an evolutionary method that can generate a large scale multitask model, and can support the dynamic and continuous addition of new tasks. The generated multitask model is sparsely activated and integrates a task-based routing that guarantees bounded compute cost and fewer added parameters per task as the model expands. The proposed method relies on a knowledge compartmentalization technique to achieve immunity against catastrophic forgetting and other common pitfalls such as gradient interference and negative transfer. We empirically show that the proposed method can jointly solve and achieve competitive results on 69image classification tasks, for example achieving the best test accuracy reported fora model trained only on public data for competitive tasks such as cifar10: 99.43%.
翻訳日:2022-05-26 13:27:57 公開日:2022-05-25
# エンドツーエンドマンダリン音声認識のためのマルチレベルモデリングユニット

Multi-Level Modeling Units for End-to-End Mandarin Speech Recognition ( http://arxiv.org/abs/2205.11998v2 )

ライセンス: Link先を確認
Yuting Yang, Binbin Du, Yuke Li(参考訳) モデリングユニットの選択は音響モデルの性能に影響を与え、自動音声認識(ASR)において重要な役割を果たす。 マンダリンのシナリオでは、漢字は意味を表すが、発音に直接関係しない。 したがって、漢字の表記をモデリング単位として考えるだけでは、音声の特徴を捉えるには不十分である。 本稿では,マンダリン音声認識のための多レベル情報を統合する多レベルモデリングユニットを用いた新しい手法を提案する。 具体的には、エンコーダブロックはシラブルをモデリングユニットとし、デコーダブロックはキャラクタモデリングユニットを扱う。 推論中、入力特徴列はエンコーダブロックによって音節列に変換され、その後デコーダブロックによって漢字に変換される。 このプロセスは、追加の変換モデルを導入することなく、統一されたエンドツーエンドモデルによって実行される。 InterCE補助タスクを導入することで、CERの4.1%/4.6%と4.6%/5.2%を言語モデルのないAISHELL-1ベンチマークでそれぞれコンフォーマーとトランスフォーマーのバックボーンを用いて比較した。

The choice of modeling units affects the performance of the acoustic modeling and plays an important role in automatic speech recognition (ASR). In mandarin scenarios, the Chinese characters represent meaning but are not directly related to the pronunciation. Thus only considering the writing of Chinese characters as modeling units is insufficient to capture speech features. In this paper, we present a novel method involves with multi-level modeling units, which integrates multi-level information for mandarin speech recognition. Specifically, the encoder block considers syllables as modeling units, and the decoder block deals with character modeling units. During inference, the input feature sequences are converted into syllable sequences by the encoder block and then converted into Chinese characters by the decoder block. This process is conducted by a unified end-to-end model without introducing additional conversion models. By introducing InterCE auxiliary task, our method achieves competitive results with CER of 4.1%/4.6% and 4.6%/5.2% on the widely used AISHELL-1 benchmark without a language model, using the Conformer and the Transformer backbones respectively.
翻訳日:2022-05-26 12:35:05 公開日:2022-05-25
# SVBRDF推定のための教師なし生成逆数ネットワークを導く拡散マップ

Diffuse Map Guiding Unsupervised Generative Adversarial Network for SVBRDF Estimation ( http://arxiv.org/abs/2205.11951v2 )

ライセンス: Link先を確認
Zhiyao Luo, Hongnan Chen(参考訳) 現実の素材の再構築は、コンピュータグラフィックスにおいて常に難しい問題であった。 実世界の物質を正確に再構成することは、現実的なレンダリングの分野で重要である。 伝統的に、コンピュータグラフィックスの素材はアーティストによってマッピングされ、座標変換によって幾何学モデルにマッピングされ、最終的にレンダリングエンジンでレンダリングされ、リアルな素材が得られる。 不透明なオブジェクトに対して、業界は通常、物質モデリングに物理ベースの双方向反射率分布関数(BRDF)レンダリングモデルを使用する。 一般的な物理ベースのレンダリングモデルはCook-Torrance BRDF、Disney BRDFである。 本稿では,Cook-Torranceモデルを用いて材料を再構築する。 SVBRDFの材料パラメータは、正規、拡散、スペクトル、粗さである。 本稿では,GAN(Generative Adversarial Network)に基づく拡散マップ誘導材料推定手法を提案する。 この方法では、携帯電話で撮影した数枚の写真だけで、グローバル機能を備えたsvbrdfマップを予測できる。 本論文の主な貢献は次のとおりである。 1)少数の入力画像の事前処理を行い,多数の非繰り返し画像を生成してトレーニングを行い,過度な適合を減らす。 2)グローバルな特徴を持つ推定拡散マップを直接取得するために,新しい手法を用いて,トレーニングプロセスの事前情報を提供する。 3) ジェネレータのネットワーク構造を改良し, 通常の地図の細部を再現し, オーバーフラットな正規地図を生成する可能性を低減する。 本稿では,データセットのトレーニングを使わずに事前知識を得ることによって,材料復元の困難さを大幅に低減し,データセットの生成と校正に多くの時間を節約する手法を提案する。

Reconstructing materials in the real world has always been a difficult problem in computer graphics. Accurately reconstructing the material in the real world is critical in the field of realistic rendering. Traditionally, materials in computer graphics are mapped by an artist, then mapped onto a geometric model by coordinate transformation, and finally rendered with a rendering engine to get realistic materials. For opaque objects, the industry commonly uses physical-based bidirectional reflectance distribution function (BRDF) rendering models for material modeling. The commonly used physical-based rendering models are Cook-Torrance BRDF, Disney BRDF. In this paper, we use the Cook-Torrance model to reconstruct the materials. The SVBRDF material parameters include Normal, Diffuse, Specular and Roughness. This paper presents a Diffuse map guiding material estimation method based on the Generative Adversarial Network(GAN). This method can predict plausible SVBRDF maps with global features using only a few pictures taken by the mobile phone. The main contributions of this paper are: 1) We preprocess a small number of input pictures to produce a large number of non-repeating pictures for training to reduce over-fitting. 2) We use a novel method to directly obtain the guessed diffuse map with global characteristics, which provides more prior information for the training process. 3) We improve the network architecture of the generator so that it can generate fine details of normal maps and reduce the possibility to generate over-flat normal maps. The method used in this paper can obtain prior knowledge without using dataset training, which greatly reduces the difficulty of material reconstruction and saves a lot of time to generate and calibrate datasets.
翻訳日:2022-05-26 12:34:47 公開日:2022-05-25
# StylizedNeRF:2D-3D相互学習によるStylizedNeRFとしての連続3次元Scene Stylization

StylizedNeRF: Consistent 3D Scene Stylization as Stylized NeRF via 2D-3D Mutual Learning ( http://arxiv.org/abs/2205.12183v2 )

ライセンス: Link先を確認
Yi-Hua Huang and Yue He and Yu-Jie Yuan and Yu-Kun Lai and Lin Gao(参考訳) 3dシーンのスタイライゼーションは、あるスタイル例のセットに従う任意のノベルビューからシーンのスタイライゼーションイメージを生成し、異なるビューからレンダリングする際に一貫性を確保することを目的としている。 映像や映像のスタイリングを3Dシーンに直接適用しても,このような一貫性は得られない。 最近提案されたNeRF(Near Raddiance Field)により,我々は一貫した方法で3Dシーンを表現できる。 一致する3次元シーンのスタイライゼーションは、対応するnerfをスタイライゼーションすることで効果的に実現できる。 しかし、2dイメージであるスタイル例と暗黙のボリューム表現であるnerfとの間には、大きなドメインギャップがある。 そこで本研究では,2次元画像スタイリゼーションネットワークとNeRFを組み合わせた3次元シーンスタイリゼーションのための新たな相互学習フレームワークを提案し,NeRFの3次元一貫性と2次元画像スタイリゼーションネットワークのスタイリゼーション能力を融合させる。 まず3Dシーンの標準的なNeRFを事前トレーニングし、そのカラー予測モジュールをスタイルネットワークに置き換えて、スタイル化したNeRFを得る。 次に、導入された一貫性損失を通じて、nerfから2次元スタイライゼーションネットワークへの空間的一貫性の事前知識を蒸留する。 また、NeRFスタイルモジュールの相互学習を監督し、2次元スタイリゼーションデコーダを微調整するために模倣損失を導入する。 モデルが2次元スタイリング結果のあいまいさを更に扱えるようにするために,我々は,このスタイルで条件付けられた確率分布に従う学習可能な潜在符号を導入する。 条件入力としてトレーニングサンプルにアタッチされ、新しいスタイル化されたNeRFのスタイルモジュールをよりよく学習します。 実験の結果,提案手法は視覚品質と長距離一貫性の両方において既存の手法よりも優れていることがわかった。

3D scene stylization aims at generating stylized images of the scene from arbitrary novel views following a given set of style examples, while ensuring consistency when rendered from different views. Directly applying methods for image or video stylization to 3D scenes cannot achieve such consistency. Thanks to recently proposed neural radiance fields (NeRF), we are able to represent a 3D scene in a consistent way. Consistent 3D scene stylization can be effectively achieved by stylizing the corresponding NeRF. However, there is a significant domain gap between style examples which are 2D images and NeRF which is an implicit volumetric representation. To address this problem, we propose a novel mutual learning framework for 3D scene stylization that combines a 2D image stylization network and NeRF to fuse the stylization ability of 2D stylization network with the 3D consistency of NeRF. We first pre-train a standard NeRF of the 3D scene to be stylized and replace its color prediction module with a style network to obtain a stylized NeRF. It is followed by distilling the prior knowledge of spatial consistency from NeRF to the 2D stylization network through an introduced consistency loss. We also introduce a mimic loss to supervise the mutual learning of the NeRF style module and fine-tune the 2D stylization decoder. In order to further make our model handle ambiguities of 2D stylization results, we introduce learnable latent codes that obey the probability distributions conditioned on the style. They are attached to training samples as conditional inputs to better learn the style module in our novel stylized NeRF. Experimental results demonstrate that our method is superior to existing approaches in both visual quality and long-range consistency.
翻訳日:2022-05-26 12:34:22 公開日:2022-05-25
# DisinfoMeme: 意図しない情報の拡散を検出するマルチモーダルデータセット

DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally Spreading Out Disinformation ( http://arxiv.org/abs/2205.12617v1 )

ライセンス: Link先を確認
Jingnong Qu, Liunian Harold Li, Jieyu Zhao, Sunipa Dev, Kai-Wei Chang(参考訳) 偽情報はソーシャルメディアで深刻な問題となっている。 特に、短いフォーマット、視覚的魅力、ユーモラスな性質を考えると、ミームはオンラインコミュニティ間の普及において大きな優位性を持ち、偽情報の拡散に有効な手段となっている。 非情報ミームの検出にdisinfomemeを提案する。 データセットには、covid-19パンデミック、black lives matter運動、veganism/vegetarianismの3つのトピックをカバーするredditのミームが含まれている。 データセットには、制限されたデータとラベルの不均衡、外部知識への依存、マルチモーダル推論、レイアウト依存性、OCRからのノイズなど、さまざまなユニークな課題がある。 このデータセット上で、広く使われている複数の単調モデルとマルチモーダルモデルをテストする。 実験によると、現在のモデルでは改善の余地はまだ大きい。

Disinformation has become a serious problem on social media. In particular, given their short format, visual attraction, and humorous nature, memes have a significant advantage in dissemination among online communities, making them an effective vehicle for the spread of disinformation. We present DisinfoMeme to help detect disinformation memes. The dataset contains memes mined from Reddit covering three current topics: the COVID-19 pandemic, the Black Lives Matter movement, and veganism/vegetarianism. The dataset poses multiple unique challenges: limited data and label imbalance, reliance on external knowledge, multimodal reasoning, layout dependency, and noise from OCR. We test multiple widely-used unimodal and multimodal models on this dataset. The experiments show that the room for improvement is still huge for current models.
翻訳日:2022-05-26 12:33:49 公開日:2022-05-25
# 階層的強化学習:不確実性と絶え間ない後悔に直面した悲観主義

Tiered Reinforcement Learning: Pessimism in the Face of Uncertainty and Constant Regret ( http://arxiv.org/abs/2205.12418v1 )

ライセンス: Link先を確認
Jiawei Huang, Li Zhao, Tao Qin, Wei Chen, Nan Jiang, Tie-Yan Liu(参考訳) 本研究では,多くの現実世界のユーザインタラクションアプリケーションの階層構造を抽出し,探索リスクに対する耐性の異なる2つのグループに分割し,個別に扱うことができる新しい学習フレームワークを提案する。 この設定では、2つのポリシーを同時に維持します。 $\pi^{\text{O}}$と$\pi^{\text{E}}$: $\pi^{\text{O}}$ ("O" for "オンライン")は、第一層からのよりリスク耐性のあるユーザと対話し、通常通り探索とエクスプロイトのバランスをとることで後悔を最小限にします。 重要な疑問は、そのような分離が標準のオンライン設定(例えば $\pi^{\text{E}}=\pi^{\text{O}}$)に対してリスク-逆ユーザに対して利点をもたらすかどうかである。 ギャップ非依存 vs を個別に検討する。 〜gap依存設定。 前者にとって、分離がミニマックスの観点からは有益でないことが証明される。 後者の場合、Pessimistic Value Iteration を $\pi^{\text{E}}$ の生成アルゴリズムとして選んだ場合、$K$ は、同じ設定のオンライン RL アルゴリズムでは $\Omega(\log K)$ の後悔とは対照的に、$\pi^{\text{O}}$ の後悔はオンラインの後悔の最適性を維持し、$\pi^{\text{E}}$ の成功には妥協する必要がない。

We propose a new learning framework that captures the tiered structure of many real-world user-interaction applications, where the users can be divided into two groups based on their different tolerance on exploration risks and should be treated separately. In this setting, we simultaneously maintain two policies $\pi^{\text{O}}$ and $\pi^{\text{E}}$: $\pi^{\text{O}}$ ("O" for "online") interacts with more risk-tolerant users from the first tier and minimizes regret by balancing exploration and exploitation as usual, while $\pi^{\text{E}}$ ("E" for "exploit") exclusively focuses on exploitation for risk-averse users from the second tier utilizing the data collected so far. An important question is whether such a separation yields advantages over the standard online setting (i.e., $\pi^{\text{E}}=\pi^{\text{O}}$) for the risk-averse users. We individually consider the gap-independent vs.~gap-dependent settings. For the former, we prove that the separation is indeed not beneficial from a minimax perspective. For the latter, we show that if choosing Pessimistic Value Iteration as the exploitation algorithm to produce $\pi^{\text{E}}$, we can achieve a constant regret for risk-averse users independent of the number of episodes $K$, which is in sharp contrast to the $\Omega(\log K)$ regret for any online RL algorithms in the same setting, while the regret of $\pi^{\text{O}}$ (almost) maintains its online regret optimality and does not need to compromise for the success of $\pi^{\text{E}}$.
翻訳日:2022-05-26 12:31:39 公開日:2022-05-25
# 回帰モデルにおける欠失と挿入テスト

Deletion and Insertion Tests in Regression Models ( http://arxiv.org/abs/2205.12423v1 )

ライセンス: Link先を確認
Naofumi Hama, Masayoshi Mase and Art B. Owen(参考訳) 説明可能なAI(XAI)の基本課題は、ブラックボックス関数$f$による予測の背後にある最も重要な特徴を特定することである。 \cite{petsiuk2018rise}の挿入および削除テストは、分類において最も重要でないピクセルをランク付けするアルゴリズムの品質を判断するために使用される。 回帰問題によって動機づけられた我々は、曲線(AUC)の基準の下で、ある主効果と相互作用の観点から、その領域の式を$f$のアンカー分解で確立する。 入力を$f$にランダムに順序付けしたAUCの期待値に対する式を見つけ、回帰設定のために直線上の代替領域を提案する。 この基準を用いて,統合勾配 (ig) によって計算される特徴重要度をkernel shap (ks) で計算された特徴量と比較する。 KSの厳密な計算は次元で指数関数的に増加し、IGの計算は次元で直線的に成長する。 バイナリ変数を含む2つのデータセットでは、KSは挿入および削除テストにおいてIGよりも優れているが、ごく少量でしかない。 我々の比較問題には、可能な変数レベル間の値を使用する必要があるため、IGに挑戦するバイナリインプットが含まれている。 IGがKSと一致することを示すのは、$f$が加法関数+変数の多線型関数であるときである。 これにはバイナリ変数のマルチリニア補間が含まれており、igは単純な実装で指数関数的コストを発生させる。

A basic task in explainable AI (XAI) is to identify the most important features behind a prediction made by a black box function $f$. The insertion and deletion tests of \cite{petsiuk2018rise} are used to judge the quality of algorithms that rank pixels from most to least important for a classification. Motivated by regression problems we establish a formula for their area under the curve (AUC) criteria in terms of certain main effects and interactions in an anchored decomposition of $f$. We find an expression for the expected value of the AUC under a random ordering of inputs to $f$ and propose an alternative area above a straight line for the regression setting. We use this criterion to compare feature importances computed by integrated gradients (IG) to those computed by Kernel SHAP (KS). Exact computation of KS grows exponentially with dimension, while that of IG grows linearly with dimension. In two data sets including binary variables we find that KS is superior to IG in insertion and deletion tests, but only by a very small amount. Our comparison problems include some binary inputs that pose a challenge to IG because it must use values between the possible variable levels. We show that IG will match KS when $f$ is an additive function plus a multilinear function of the variables. This includes a multilinear interpolation over the binary variables that would cause IG to have exponential cost in a naive implementation.
翻訳日:2022-05-26 12:31:00 公開日:2022-05-25
# アンサンブル学習におけるファノの不平等の再考

Rethinking Fano's Inequality in Ensemble Learning ( http://arxiv.org/abs/2205.12683v1 )

ライセンス: Link先を確認
Terufumi Morishita, Gaku Morio, Shota Horiguchi, Hiroaki Ozaki, Nobuo Nukaga(参考訳) 本研究では,所定のアンサンブルシステムを評価するアンサンブル学習に関する基礎理論を提案する。 以前の研究では、ファノの情報理論の不平等の変種を用いて、モデルの精度と多様性に基づいて分類誤差率の低い境界を導出した。 我々は、元のファノの不等式を再検討し、複数のモデル予測を組み合わせて最終予測を行う際に失われた情報を考慮していないと主張した。 この問題に対処するため,従来の理論を一般化して情報損失を包含する。 さらに,実システムに関する広範囲な実験により,提案理論を実証的に検証し,実証する。 この理論は、各メートル法上のシステムの強みと弱みを明らかにし、アンサンブル学習の理論的理解を促進し、システム設計への洞察を与える。

We propose a fundamental theory on ensemble learning that evaluates a given ensemble system by a well-grounded set of metrics. Previous studies used a variant of Fano's inequality of information theory and derived a lower bound of the classification error rate on the basis of the accuracy and diversity of models. We revisit the original Fano's inequality and argue that the studies did not take into account the information lost when multiple model predictions are combined into a final prediction. To address this issue, we generalize the previous theory to incorporate the information loss. Further, we empirically validate and demonstrate the proposed theory through extensive experiments on actual systems. The theory reveals the strengths and weaknesses of systems on each metric, which will push the theoretical understanding of ensemble learning and give us insights into designing systems.
翻訳日:2022-05-26 12:30:40 公開日:2022-05-25
# 2D衛星画像から屋根の点雲を推定する sat2pc

sat2pc: Estimating Point Cloud of Building Roofs from 2D Satellite Images ( http://arxiv.org/abs/2205.12464v1 )

ライセンス: Link先を確認
Yoones Rezaei, Stephen Lee(参考訳) 3次元都市モデルは、都市計画やバーチャルリアリティーなどの多くのユースケースに応用されているため、関心を集めている。 しかし、これらの3D表現を生成するにはLiDARデータが必要である。 したがって、自動3Dモデル生成アルゴリズムの適用性は、数箇所に限られる。 本稿では,1つの2次元衛星画像から建物屋根の点雲を予測するディープラーニングアーキテクチャであるSAT2pcを提案する。 私たちのアーキテクチャは、chamfer距離とemd損失を組み合わせることで、2dから3dパフォーマンスが向上します。 本モデルの有効性を広く評価し,建築屋根データセットのアブレーション研究を行う。 以上の結果から,SAT2pcは既存のベースラインを少なくとも18.6%上回る性能を示した。 さらに,予測点雲は,他のベースラインよりも細部や幾何学的特徴を捉えていることを示す。

Three-dimensional (3D) urban models have gained interest because of their applications in many use-cases such as urban planning and virtual reality. However, generating these 3D representations requires LiDAR data, which are not always readily available. Thus, the applicability of automated 3D model generation algorithms is limited to a few locations. In this paper, we propose sat2pc, a deep learning architecture that predicts the point cloud of a building roof from a single 2D satellite image. Our architecture combines Chamfer distance and EMD loss, resulting in better 2D to 3D performance. We extensively evaluate our model and perform ablation studies on a building roof dataset. Our results show that sat2pc was able to outperform existing baselines by at least 18.6%. Further, we show that the predicted point cloud captures more detail and geometric characteristics than other baselines.
翻訳日:2022-05-26 12:30:27 公開日:2022-05-25
# RADNet:カラーファンドス画像におけるロバスト緑内障分類のためのアンサンブルモデル

RADNet: Ensemble Model for Robust Glaucoma Classification in Color Fundus Images ( http://arxiv.org/abs/2205.12902v1 )

ライセンス: Link先を確認
Dmitrii Medvedev, Rand Muhtaseb, Ahmed Al Mahrooqi(参考訳) 緑内障は最も重篤な眼疾患の1つで、急激な進行と不可逆性失明を特徴とする。 疾患の早期に明らかな症状の欠如により、すでに視力が著しく低下している場合には、病理診断が行われることが多い。 人口の正常な緑内障検診は早期発見を改善させるが, 限られた数の専門医に手動診断を施した過度な負荷により, 語源検査の望ましい頻度は期待できないことが多い。 緑内障を検知する基本的な手法として,「textit{optic-disc-to-cup ratio}」の眼底画像を分析することを考えると,機械学習領域は画像処理と分類のための高度なツールを提供することができる。 本研究では,深層分類ネットワークのアンサンブルを組み合わせた高度な画像前処理手法を提案する。 我々の RADNet モデルは、ロッテルダムEyePACS AIROGS の列車用データセットで0.92の精度でテストされ、さらに、RIM-ONE DL の少数のデータセットで0.91の精度でテストされた。

Glaucoma is one of the most severe eye diseases, characterized by rapid progression and leading to irreversible blindness. It is often the case that pathology diagnostics is carried out when the one's sight has already significantly degraded due to the lack of noticeable symptoms at early stage of the disease. Regular glaucoma screenings of the population shall improve early-stage detection, however the desirable frequency of etymological checkups is often not feasible due to excessive load imposed by manual diagnostics on limited number of specialists. Considering the basic methodology to detect glaucoma is to analyze fundus images for the \textit{optic-disc-to-optic-cup ratio}, Machine Learning domain can offer sophisticated tooling for image processing and classification. In our work, we propose an advanced image pre-processing technique combined with an ensemble of deep classification networks. Our \textit{Retinal Auto Detection (RADNet)} model has been successfully tested on Rotterdam EyePACS AIROGS train dataset with AUC of 0.92, and then additionally finetuned and tested on a fraction of RIM-ONE DL dataset with AUC of 0.91.
翻訳日:2022-05-26 12:30:15 公開日:2022-05-25
# インセプショントランスフォーマ

Inception Transformer ( http://arxiv.org/abs/2205.12956v1 )

ライセンス: Link先を確認
Chenyang Si, Weihao Yu, Pan Zhou, Yichen Zhou, Xinchao Wang, Shuicheng Yan(参考訳) 近年の研究では、Transformerは長距離依存の構築能力は高いが、ローカル情報を主に伝達する高周波数の取得には無力であることが示されている。 そこで本稿では,高頻度情報と低周波数情報の両方を用いた総合的特徴を効果的に学習する,新しい汎用インセプショントランスフォーマ(iformer)を提案する。 具体的には,インセプションミキサーの設計を行い,畳み込みと最大プールの利点を明示し,高周波情報をトランスフォーマーにキャプチャする。 最近のハイブリッドフレームワークと異なり、インセプションミキサーはチャネル分割機構を通じて高い周波数範囲に分散した識別情報をモデル化する柔軟性を持ちながら、並列畳み込み/最大プールパスと自己保持パスを高周波数および低周波数ミキサーとして採用する。 また,低周波大域情報をモデル化する上で,低周波の詳細を捉える上でボトム層が果たす役割が大きいことを考慮し,低周波ミキサーに供給される寸法を徐々に減少させ,低周波ミキサーに増加させる周波数ランプ構造を導入することで,高周波成分と低周波成分を異なる層間で効果的にトレードオフさせることができる。 我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。 例えば、私たちのiFormer-SはImageNet-1Kで83.4%の精度で、DeiT-Sよりも3.6%高く、1/4のパラメータと1/3のFLOPしか持たないSwin-B(83.3%)よりも若干良い。 コードとモデルはhttps://github.com/sail-sg/iformerでリリースされる。

Recent studies show that Transformer has strong capability of building long-range dependencies, yet is incompetent in capturing high frequencies that predominantly convey local information. To tackle this issue, we present a novel and general-purpose Inception Transformer, or iFormer for short, that effectively learns comprehensive features with both high- and low-frequency information in visual data. Specifically, we design an Inception mixer to explicitly graft the advantages of convolution and max-pooling for capturing the high-frequency information to Transformers. Different from recent hybrid frameworks, the Inception mixer brings greater efficiency through a channel splitting mechanism to adopt parallel convolution/max-pooling path and self-attention path as high- and low-frequency mixers, while having the flexibility to model discriminative information scattered within a wide frequency range. Considering that bottom layers play more roles in capturing high-frequency details while top layers more in modeling low-frequency global information, we further introduce a frequency ramp structure, i.e. gradually decreasing the dimensions fed to the high-frequency mixer and increasing those to the low-frequency mixer, which can effectively trade-off high- and low-frequency components across different layers. We benchmark the iFormer on a series of vision tasks, and showcase that it achieves impressive performance on image classification, COCO detection and ADE20K segmentation. For example, our iFormer-S hits the top-1 accuracy of 83.4% on ImageNet-1K, much higher than DeiT-S by 3.6%, and even slightly better than much bigger model Swin-B (83.3%) with only 1/4 parameters and 1/3 FLOPs. Code and models will be released at https://github.com/sail-sg/iFormer.
翻訳日:2022-05-26 12:29:54 公開日:2022-05-25
# ドメイン適応型メタ学習による低リソーススタイル転送

Low Resource Style Transfer via Domain Adaptive Meta Learning ( http://arxiv.org/abs/2205.12475v1 )

ライセンス: Link先を確認
Xiangyang Li, Xiang Long, Yu Xia, Sujian Li(参考訳) 並列データのないテキストスタイル転送 (TST) は実用的成功を収めた。 しかし、既存の教師なしのテキストスタイル転送手法のほとんどは、 (i)異なるテキストスタイルを転送するための大量の非並列データを必要とする。 (II)新しいドメインでモデルを微調整する際の余剰性能劣化。 本研究では,DAMLとATMの2つの部分からなるDAML-ATM(Domain Adaptive Meta-Learning with Adversarial Transfer Model)を提案する。 DAMLは、複数の異種ソースドメインで一般的な知識を学ぶためのドメイン適応型メタラーニングアプローチであり、少量のデータで新しい未知のドメインに適応することができる。 さらに,sequence-to-sequence pre-trained language modelとadversarial style trainingを用いた教師なしtstアプローチadversarial transfer model (atm)を提案する。 マルチドメインデータセットの結果から,本手法は低リソースドメインを十分に一般化し,強固な10のベースラインに対して最先端の結果を得る。

Text style transfer (TST) without parallel data has achieved some practical success. However, most of the existing unsupervised text style transfer methods suffer from (i) requiring massive amounts of non-parallel data to guide transferring different text styles. (ii) colossal performance degradation when fine-tuning the model in new domains. In this work, we propose DAML-ATM (Domain Adaptive Meta-Learning with Adversarial Transfer Model), which consists of two parts: DAML and ATM. DAML is a domain adaptive meta-learning approach to learn general knowledge in multiple heterogeneous source domains, capable of adapting to new unseen domains with a small amount of data. Moreover, we propose a new unsupervised TST approach Adversarial Transfer Model (ATM), composed of a sequence-to-sequence pre-trained language model and uses adversarial style training for better content preservation and style transfer. Results on multi-domain datasets demonstrate that our approach generalizes well on unseen low-resource domains, achieving state-of-the-art results against ten strong baselines.
翻訳日:2022-05-26 12:27:34 公開日:2022-05-25
# 分解誘導による広帯域推論スキルの指導

Teaching Broad Reasoning Skills via Decomposition-Guided Contexts ( http://arxiv.org/abs/2205.12496v1 )

ライセンス: Link先を確認
Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, Ashish Sabharwal(参考訳) 質問応答データセットは、幅広い推論スキルを必要とする。 質問分解を用いて、これらの広い推論スキルを堅牢な方法で言語モデルを教える方法を示す。 具体的には、利用可能なQDMR表現を用いて、6つのマルチホップ推論データセットにおいて、実際の質問に対する合成コンテキストをプログラム的に生成する。 これらのコンテキストは、モデルが適切なスキルを学ぶことを妨げる実際のコンテキストに共通する推論ショートカットを避けるために慎重に設計されている。 その結果、およそ900の推論パターンをカバーする525kのマルチホップ質問(関連する形式的プログラムを含む)を含む、事前学習データセットteabreacが誕生した。 本研究では,TeaBReaC上での標準言語モデル(LM)の事前トレーニングを目標データセット上で微調整することで,3つのマルチホップQAデータセット間で最大13 EMポイントの性能向上を実現し,より複雑な質問に対して30ポイント向上することを示す。 結果として得られたモデルは、2つのコントラストセットで6-11ポイント改善され、より高いロバスト性を示す。 さらに、TeaBReaC事前学習は、最近の手法(例えばPReasM)で事前訓練された数値対応LMから始めると、モデル性能と堅牢性を大幅に向上する。 そこで本研究では,マルチホップ推論を頑健に教えるために,分解誘導コンテキストを効果的に利用できることを示す。

Question-answering datasets require a broad set of reasoning skills. We show how to use question decompositions to teach language models these broad reasoning skills in a robust fashion. Specifically, we use widely available QDMR representations to programmatically create synthetic contexts for real questions in six multihop reasoning datasets. These contexts are carefully designed to avoid common reasoning shortcuts prevalent in real contexts that prevent models from learning the right skills. This results in a pretraining dataset, named TeaBReaC, containing 525K multihop questions (with associated formal programs) covering about 900 reasoning patterns. We show that pretraining standard language models (LMs) on TeaBReaC before fine-tuning them on target datasets improves their performance by up to 13 EM points across 3 multihop QA datasets, with a 30 point gain on more complex questions. The resulting models also demonstrate higher robustness, with a 6-11 point improvement on two contrast sets. Furthermore, TeaBReaC pretraining substantially improves model performance and robustness even when starting with numeracy-aware LMs pretrained using recent methods (e.g., PReasM). Our work thus shows how one can effectively use decomposition-guided contexts to robustly teach multihop reasoning.
翻訳日:2022-05-26 12:27:18 公開日:2022-05-25
# (参考訳) mPLUG:クロスモーダルスキップ接続による効果的かつ効率的な視覚言語学習

mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections ( http://arxiv.org/abs/2205.12005v2 )

ライセンス: CC BY 4.0
Chenliang Li, Haiyang Xu, Junfeng Tian, Wei Wang, Ming Yan, Bin Bi, Jiabo Ye, Hehong Chen, Guohai Xu, Zheng Cao, Ji Zhang, Songfang Huang, Fei Huang, Jingren Zhou, Luo Si(参考訳) 大規模な事前訓練された基礎モデルは、人工知能(AI)システムを構築するための新しいパラダイムであり、幅広い下流タスクに迅速に適応できる。 本稿では,モーダルな理解と生成のための新しい視覚言語基盤モデルであるmPLUGを提案する。 既存の事前学習モデルの多くは、クロスモーダルアライメントの長い視覚系列によってもたらされる計算効率の低さと情報非対称性の問題に苦しむ。 これらの問題に対処するため、mPLUGは、新しいクロスモーダルなスキップ接続を備えた効果的で効率的な視覚言語アーキテクチャを導入し、視覚面における完全な自己注意のために、一定数のレイヤをスキップする層間ショートカットを生成する。 mPLUGは、識別目的と生成目的の両方を持つ大規模画像テキストペア上で、事前訓練されたエンドツーエンドである。 画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。 mPLUGはまた、複数のビデオ言語タスクに直接転送する際に、強いゼロショット転送可能性を示す。

Large-scale pretrained foundation models have been an emerging paradigm for building artificial intelligence (AI) systems, which can be quickly adapted to a wide range of downstream tasks. This paper presents mPLUG, a new vision-language foundation model for both cross-modal understanding and generation. Most existing pre-trained models suffer from the problems of low computational efficiency and information asymmetry brought by the long visual sequence in cross-modal alignment. To address these problems, mPLUG introduces an effective and efficient vision-language architecture with novel cross-modal skip-connections, which creates inter-layer shortcuts that skip a certain number of layers for time-consuming full self-attention on the vision side. mPLUG is pre-trained end-to-end on large-scale image-text pairs with both discriminative and generative objectives. It achieves state-of-the-art results on a wide range of vision-language downstream tasks, such as image captioning, image-text retrieval, visual grounding and visual question answering. mPLUG also demonstrates strong zero-shot transferability when directly transferred to multiple video-language tasks.
翻訳日:2022-05-26 12:24:55 公開日:2022-05-25
# エンドツーエンド音声翻訳のための非パラメトリック領域適応

Non-Parametric Domain Adaptation for End-to-End Speech Translation ( http://arxiv.org/abs/2205.11211v2 )

ライセンス: Link先を確認
Yichao Du, Weizhi Wang, Zhirui Zhang, Boxing Chen, Tong Xu, Jun Xie, Enhong Chen(参考訳) E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。 しかしながら、この課題に対するニューラルベースアプローチの有効性は、利用可能なトレーニングコーパス、特にドメイン内トリプルトトレーニングデータが不足または存在していない領域適応によって大きく制限されている。 本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。 この目的のために、まず、事前訓練されたE2E-STモデルに追加のエンコーダを組み込んでテキスト翻訳モデルを実現し、次に、対応表現ミスマッチを減らして、テキストおよび音声翻訳タスクに対するデコーダの出力表現を統一する。 ドメイン適応中にk-nearest-neighbor(kNN)分類器を導入し、ドメイン固有のテキスト翻訳コーパスによって構築された外部データストアを用いて最終翻訳分布を生成し、共通出力表現を採用して類似検索を行う。 Europarl-STベンチマークでの実験では、ドメイン内テキスト翻訳データのみに関わる場合、強いドメイン内微調整法よりも高い精度で、全ての翻訳方向において平均12.82BLEUでベースラインを大幅に改善することを示した。

End-to-End Speech Translation (E2E-ST) has received increasing attention due to the potential of its less error propagation, lower latency, and fewer parameters. However, the effectiveness of neural-based approaches to this task is severely limited by the available training corpus, especially for domain adaptation where in-domain triplet training data is scarce or nonexistent. In this paper, we propose a novel non-parametric method that leverages domain-specific text translation corpus to achieve domain adaptation for the E2E-ST system. To this end, we first incorporate an additional encoder into the pre-trained E2E-ST model to realize text translation modelling, and then unify the decoder's output representation for text and speech translation tasks by reducing the correspondent representation mismatch in available triplet training data. During domain adaptation, a k-nearest-neighbor (kNN) classifier is introduced to produce the final translation distribution using the external datastore built by the domain-specific text translation corpus, while the universal output representation is adopted to perform a similarity search. Experiments on the Europarl-ST benchmark demonstrate that when in-domain text translation data is involved only, our proposed approach significantly improves baseline by 12.82 BLEU on average in all translation directions, even outperforming the strong in-domain fine-tuning method.
翻訳日:2022-05-26 12:03:31 公開日:2022-05-25
# NPU-BOLT:自然シーン画像におけるボルト物体検出用データセット

NPU-BOLT: A Dataset for Bolt Object Detection in Natural Scene Images ( http://arxiv.org/abs/2205.11191v2 )

ライセンス: Link先を確認
Yadian Zhao and Zhenglin Yang and Chao Xu(参考訳) ボルトジョイントは非常に一般的で、エンジニアリング構造において重要である。 極端なサービス環境と負荷要因のため、ボルトはしばしば緩くなり、あるいは切り離される。 構造物の安全性と耐用年数を維持するのに不可欠である実用工学における緊急の必要である緩いボルト又は剥離ボルトをリアルタイム又はタイムリーに検出する。 近年,ディープラーニングと機械学習技術を用いたボルト緩み検出法が数多く提案され,注目されている。 しかし、これらの研究のほとんどは、深部傾きモデルトレーニングのために実験室で撮影されたボルト画像を使用している。 画像は、よく制御された光、距離、視野角条件で得られる。 また、ボルト付き構造は、真新しいボルトを備えたよく設計された実験的な構造であり、ボルトは近くの避難所なしで露出する。 実用工学では、上記のよく制御された実験室の条件は容易には実現されず、実際のボルト画像は、しばしばぼやけたエッジ、斜めの視点、部分閉塞、識別不能色等を持ち、実験室で得られた訓練されたモデルが精度を損なうか失敗する。 そこで本研究では,NPU-BOLT(NPU-BOLT)というデータセットを用いて,自然シーン画像のボルト物体検出を行い,研究者に公開し,さらなる開発を行う。 データセットの最初のバージョンでは、主に自然環境におけるボルトジョイント画像の337のサンプルが含まれており、画像データのサイズは400*400から6000*4000で、合計で1275のボルトターゲットがある。 ボルトターゲットは、ぼかしボルト、ボルトヘッド、ボルトナット、ボルトサイドの4つのカテゴリにアノテートされる。 データセットは、Yolov5、Faster-RCNN、CenterNetなどの高度なオブジェクト検出モデルでテストされる。 データセットの有効性を検証する。

Bolt joints are very common and important in engineering structures. Due to extreme service environment and load factors, bolts often get loose or even disengaged. To real-time or timely detect the loosed or disengaged bolts is an urgent need in practical engineering, which is critical to keep structural safety and service life. In recent years, many bolt loosening detection methods using deep learning and machine learning techniques have been proposed and are attracting more and more attention. However, most of these studies use bolt images captured in laboratory for deep leaning model training. The images are obtained in a well-controlled light, distance, and view angle conditions. Also, the bolted structures are well designed experimental structures with brand new bolts and the bolts are exposed without any shelter nearby. It is noted that in practical engineering, the above well controlled lab conditions are not easy realized and the real bolt images often have blur edges, oblique perspective, partial occlusion and indistinguishable colors etc., which make the trained models obtained in laboratory conditions loss their accuracy or fails. Therefore, the aim of this study is to develop a dataset named NPU-BOLT for bolt object detection in natural scene images and open it to researchers for public use and further development. In the first version of the dataset, it contains 337 samples of bolt joints images mainly in the natural environment, with image data sizes ranging from 400*400 to 6000*4000, totaling approximately 1275 bolt targets. The bolt targets are annotated into four categories named blur bolt, bolt head, bolt nut and bolt side. The dataset is tested with advanced object detection models including yolov5, Faster-RCNN and CenterNet. The effectiveness of the dataset is validated.
翻訳日:2022-05-26 12:02:48 公開日:2022-05-25
# GPUデータセンタにおけるディープラーニングワークロードスケジューリング - 分類学、課題、ビジョン

Deep Learning Workload Scheduling in GPU Datacenters: Taxonomy, Challenges and Vision ( http://arxiv.org/abs/2205.11913v2 )

ライセンス: Link先を確認
Wei Gao, Qinghao Hu, Zhisheng Ye, Peng Sun, Xiaolin Wang, Yingwei Luo, Tianwei Zhang, Yonggang Wen(参考訳) ディープラーニング(DL)は、様々な分野でその繁栄を示している。 DLモデルの開発は、時間とリソース集約的な手順である。 そのため、専用のGPUアクセラレータがGPUデータセンタに集合的に構築されている。 このようなGPUデータセンターの効率的なスケジューラ設計は、運用コストを削減し、リソース利用を改善するために極めて重要である。 しかし、ビッグデータやハイパフォーマンスコンピューティングワークロード用に設計された従来のアプローチは、GPUリソースを完全に活用するDLワークロードをサポートしない。 近年,GPUデータセンタにおけるDLワークロードの調整を目的としたスケジューラが提案されている。 本稿では,トレーニング作業と推論作業の両方に対する既存の研究成果について報告する。 主に、スケジューリング目的とリソース消費機能から、既存のスケジューラがそれぞれのワークロードをどのように促進するかを示す。 最後に、将来有望な研究の方向性を期待する。 調査した論文とコードリンクの詳細は、プロジェクトのWebサイト(https://github.com/S-Lab-System-Group/Awesome-DL-Scheduling-Papers)で確認できます。

Deep learning (DL) shows its prosperity in a wide variety of fields. The development of a DL model is a time-consuming and resource-intensive procedure. Hence, dedicated GPU accelerators have been collectively constructed into a GPU datacenter. An efficient scheduler design for such GPU datacenter is crucially important to reduce the operational cost and improve resource utilization. However, traditional approaches designed for big data or high performance computing workloads can not support DL workloads to fully utilize the GPU resources. Recently, substantial schedulers are proposed to tailor for DL workloads in GPU datacenters. This paper surveys existing research efforts for both training and inference workloads. We primarily present how existing schedulers facilitate the respective workloads from the scheduling objectives and resource consumption features. Finally, we prospect several promising future research directions. More detailed summary with the surveyed paper and code links can be found at our project website: https://github.com/S-Lab-System-Group/Awesome-DL-Scheduling-Papers
翻訳日:2022-05-26 12:02:18 公開日:2022-05-25
# 意味セグメンテーションのための多レベルコントラスト単位を用いたアクティブドメイン適応

Active Domain Adaptation with Multi-level Contrastive Units for Semantic Segmentation ( http://arxiv.org/abs/2205.11192v2 )

ライセンス: Link先を確認
Hao Zhang, Ruimao Zhang, Zhanglin Peng, Junle Wang, Yanqing Jing(参考訳) 半教師ドメイン適応(ssda)ラベリングのコストをさらに削減するため、より効果的な方法は、選択したサブセットに特定の特性を付与するためにアクティブラーニング(al)を使用することである。 しかしながら、ドメイン適応タスクは常に2つのインタラクティブな側面で対処される。ドメイン転送と識別の強化である。 分類タスクにおけるアクティブな学習とは対照的に、上記の2つの特性を含む画素を分割タスクで選択することは、ピクセル選択戦略の複雑な設計につながる。 そこで本研究では,マルチレベルコントラスト単位(ada-mcu)を用いた画像セグメンテーションのためのアクティブドメイン適応方式を提案する。 ドメイン適応とアクティブ教師付き学習の両方に最適化するために,マルチレベルコントラストユニットの構築に伴う単純な画素選択戦略を導入する。 実際には、MCUはラベル付きピクセルとラベルなしピクセルの両方を使用して、画像内、クロスイメージ、クロスドメインレベルから構築される。 各レベルにおいて、カテゴリ中心を協調的に整列させ、決定境界付近のアウトリーチを減らすことを目的として、中心から中心へおよび画素へ向けての対照的な損失を定義する。 さらに,mcusの損失の重み付けに使用されるカテゴリ間の関係を暗黙的に記述するためのカテゴリ相関行列も導入する。 提案手法は,ラベル付き画素を50%減らした最先端のSSDA法に対して高い性能を達成し,同じレベルのアノテーションコストを用いることで,最先端のSSDA法を著しく上回ることを示す。

To further reduce the cost of semi-supervised domain adaptation (SSDA) labeling, a more effective way is to use active learning (AL) to annotate a selected subset with specific properties. However, domain adaptation tasks are always addressed in two interactive aspects: domain transfer and the enhancement of discrimination, which requires the selected data to be both uncertain under the model and diverse in feature space. Contrary to active learning in classification tasks, it is usually challenging to select pixels that contain both the above properties in segmentation tasks, leading to the complex design of pixel selection strategy. To address such an issue, we propose a novel Active Domain Adaptation scheme with Multi-level Contrastive Units (ADA-MCU) for semantic image segmentation. A simple pixel selection strategy followed with the construction of multi-level contrastive units is introduced to optimize the model for both domain adaptation and active supervised learning. In practice, MCUs are constructed from intra-image, cross-image, and cross-domain levels by using both labeled and unlabeled pixels. At each level, we define contrastive losses from center-to-center and pixel-to-pixel manners, with the aim of jointly aligning the category centers and reducing outliers near the decision boundaries. In addition, we also introduce a categories correlation matrix to implicitly describe the relationship between categories, which are used to adjust the weights of the losses for MCUs. Extensive experimental results on standard benchmarks show that the proposed method achieves competitive performance against state-of-the-art SSDA methods with 50% fewer labeled pixels and significantly outperforms state-of-the-art with a large margin by using the same level of annotation cost.
翻訳日:2022-05-26 12:02:02 公開日:2022-05-25
# 特徴距離損失による識別的特徴学習

Discriminative Feature Learning through Feature Distance Loss ( http://arxiv.org/abs/2205.11606v2 )

ライセンス: Link先を確認
Tobias Schlagenhauf, Yiwen Lin, Benjamin Noack(参考訳) 畳み込みニューラルネットワークは、画像認識タスクにおける識別的意味的特徴を学習する顕著な能力を示している。 しかし、分類では画像の特定の領域に集中することが多い。 本研究は,異種リッチベースモデルを組み合わせて,異なる画像領域に分類を集中させる新しい手法を提案する。 基本モデルのアンサンブルを訓練しながら特徴距離損失を実施し、識別的特徴概念を学習させる。 ベンチマーク畳み込みニューラルネットワーク(VGG16, ResNet, AlexNet)、一般的なデータセット(Cifar10, Cifar100, miniImageNet, NEU, BSD, TEX)、および異なるトレーニングサンプル(3, 5, 10, 20, 50, 100)による実験は、我々の手法の有効性と一般化能力を示している。 本手法は,基本モデルのアンサンブルバージョンを特徴的距離損失なく上回り,クラスアクティベーションマップは異なる識別的特徴概念を明示的に学習できることを証明している。

Convolutional neural networks have shown remarkable ability to learn discriminative semantic features in image recognition tasks. Though, for classification they often concentrate on specific regions in images. This work proposes a novel method that combines variant rich base models to concentrate on different important image regions for classification. A feature distance loss is implemented while training an ensemble of base models to force them to learn discriminative feature concepts. The experiments on benchmark convolutional neural networks (VGG16, ResNet, AlexNet), popular datasets (Cifar10, Cifar100, miniImageNet, NEU, BSD, TEX), and different training samples (3, 5, 10, 20, 50, 100 per class) show our methods effectiveness and generalization ability. Our method outperforms ensemble versions of the base models without feature distance loss, and the Class Activation Maps explicitly proves the ability to learn different discriminative feature concepts.
翻訳日:2022-05-26 12:01:29 公開日:2022-05-25