このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220415となっている論文です。

PDF登録状況(公開日: 20220415)

TitleAuthorsAbstract論文公表日・翻訳日
# 仮想空間における機械学習に基づく6Gシステムのシミュレーション

Simulation of machine learning-based 6G systems in virtual worlds ( http://arxiv.org/abs/2204.09518v1 )

ライセンス: Link先を確認
Ailton Oliveira, Felipe Bastos, Isabela Trindade, Walter Frazao, Arthur Nascimento, Diego Gomes, Francisco Muller, Aldebaro Klautau(参考訳) 現実世界のデジタル表現は、拡張現実のような多くのアプリケーションで使われている。 6Gシステムは仮想世界に依存するユースケースをサポートするだけでなく、その豊富なコンテキスト情報によって、パフォーマンスを改善し、通信オーバーヘッドを減らすことができる。 本稿では,カメラや他のセンサが捉えた環境の3次元表現に依存する6Gシステムのシミュレーションに焦点をあてる。 ペアMIMOチャネルとマルチモーダルデータを得るための新しい戦略を提案する。 また、レイトレーシングによるチャネル生成における速度と精度のトレードオフについても論じる。 提案手法を評価するために,最終的にビーム選択シミュレーション結果を提供する。

Digital representations of the real world are being used in many applications, such as augmented reality. 6G systems will not only support use cases that rely on virtual worlds but also benefit from their rich contextual information to improve performance and reduce communication overhead. This paper focuses on the simulation of 6G systems that rely on a 3D representation of the environment, as captured by cameras and other sensors. We present new strategies for obtaining paired MIMO channels and multimodal data. We also discuss trade-offs between speed and accuracy when generating channels via ray tracing. We finally provide beam selection simulation results to assess the proposed methodology.
翻訳日:2022-04-24 15:44:17 公開日:2022-04-15
# 知識グラフを用いた質問応答のための意味構造に基づくクエリグラフ予測

Semantic Structure based Query Graph Prediction for Question Answering over Knowledge Graph ( http://arxiv.org/abs/2204.10194v1 )

ライセンス: Link先を確認
Mingchen Li and Jonathan Shihao Ji(参考訳) 自然言語の質問からクエリグラフを構築することは、知識グラフ(複雑なKGQA)に答える複雑な質問の重要なステップである。 一般に、クエリグラフが正しく構築され、クエリグラフをkgに対して発行することによって正しい回答が検索された場合、質問は正しく答えられる。 そこで本稿では,自然言語からの問合せグラフ生成に注目する。 既存のクエリグラフ生成のアプローチでは、質問の意味構造を無視し、多くのノイズの多いクエリグラフ候補が予測精度を損なう。 本稿では,KGQAにおける共通質問から6つの意味構造を定義し,質問の意味構造を予測する新しい構造-BERTを開発する。 これにより、まず予測されたセマンティック構造によりノイズの多いクエリグラフをフィルタリングし、残りの候補をBERTベースのランキングモデルでランク付けする。 MetaQA と WebQuestionsSP (WSP) の2つの人気のあるベンチマークに対する大規模な実験は、我々の手法が最先端技術と比較して有効であることを実証している。

Building query graphs from natural language questions is an important step in complex question answering over knowledge graph (Complex KGQA). In general, a question can be correctly answered if its query graph is built correctly and the right answer is then retrieved by issuing the query graph against the KG. Therefore, this paper focuses on query graph generation from natural language questions. Existing approaches for query graph generation ignore the semantic structure of a question, resulting in a large number of noisy query graph candidates that undermine prediction accuracies. In this paper, we define six semantic structures from common questions in KGQA and develop a novel Structure-BERT to predict the semantic structure of a question. By doing so, we can first filter out noisy candidate query graphs by the predicted semantic structures, and then rank the remaining candidates with a BERT-based ranking model. Extensive experiments on two popular benchmarks MetaQA and WebQuestionsSP (WSP) demonstrate the effectiveness of our method as compared to state-of-the-arts.
翻訳日:2022-04-24 15:28:16 公開日:2022-04-15
# (参考訳) 時相論理ニューラルネットワークを用いた転がり要素軸受の解釈可能な故障診断 [全文訳有]

Interpretable Fault Diagnosis of Rolling Element Bearings with Temporal Logic Neural Network ( http://arxiv.org/abs/2204.07579v1 )

ライセンス: CC BY 4.0
Gang Chen, Yu Lu, Rong Su, and Zhaodan Kong(参考訳) 機械学習に基づく手法は機械故障診断に成功している。 しかし、これらの方法の主な制限は、ブラックボックスとして動作し、一般に解釈できないことである。 本稿では,ネットワークのニューロンが論理命題である時間的論理ニューラルネットワーク(tlnn)と呼ばれる新しいニューラルネットワーク構造を提案する。 さらに重要なのは、ネットワークを重み付け信号の時間論理として記述し解釈できることだ。 TLNNは、従来のニューロンネットワークの優れた特性を保持するだけでなく、形式言語で自身を形式的に解釈する。 実データを用いた実験により,提案するニューラルネットワークは,高い計算効率で高精度な故障診断結果を得ることができることを示した。 さらに、ニューロンネットワークの埋め込み形式言語は、決定過程の説明を提供し、解釈可能な故障診断を実現することができる。

Machine learning-based methods have achieved successful applications in machinery fault diagnosis. However, the main limitation that exists for these methods is that they operate as a black box and are generally not interpretable. This paper proposes a novel neural network structure, called temporal logic neural network (TLNN), in which the neurons of the network are logic propositions. More importantly, the network can be described and interpreted as a weighted signal temporal logic. TLNN not only keeps the nice properties of traditional neuron networks but also provides a formal interpretation of itself with formal language. Experiments with real datasets show the proposed neural network can obtain highly accurate fault diagnosis results with good computation efficiency. Additionally, the embedded formal language of the neuron network can provide explanations about the decision process, thus achieve interpretable fault diagnosis.
翻訳日:2022-04-21 09:01:59 公開日:2022-04-15
# (参考訳) mGPT: 初心者の学習者が多言語化 [全文訳有]

mGPT: Few-Shot Learners Go Multilingual ( http://arxiv.org/abs/2204.07580v1 )

ライセンス: CC BY 4.0
Oleh Shliazhko, Alena Fenogenova, Maria Tikhonova, Vladislav Mikhailov, Anastasia Kozlova, Tatiana Shavrina(参考訳) 近年の研究では、自己回帰言語モデルがゼロおよび少数ショット学習パラダイムによって多くのNLPタスクをうまく解決できることが報告されている。 本稿では,WikipediaとColossal Clean Crawled Corpusを用いて,25言語ファミリーの60言語に対して13億,13億のパラメータをトレーニングした2つの自己回帰GPT様モデルを紹介する。 我々は、GPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現し、DeepspeedおよびMegatronフレームワークにより、トレーニングと推論のステップを効果的に並列化することができる。 結果として得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示し、より多くの言語をカバーし、CIS諸国やロシアの小国の低リソース言語に対するNLPの可能性を高める。 アーキテクチャ設計の選択動機を詳述し、データ準備パイプラインを徹底的に記述し、最も最適な多言語トークン化戦略を選択するためにモデルの5つの小さなバージョンを訓練する。 全被覆言語におけるモデルのパープレキシティを測定し、分類、生成、シーケンスラベリング、知識探索を含む多言語タスクの幅広い分析に基づいて評価する。 モデルはゼロショット法と少数ショット法で評価された。 さらに,その分類タスクを,最先端の多言語モデルXGLMと比較した。 ソースコードとmGPT XLモデルが公開されている。

Recent studies report that autoregressive language models can successfully solve many NLP tasks via zero- and few-shot learning paradigms, which opens up new possibilities for using the pre-trained language models. This paper introduces two autoregressive GPT-like models with 1.3 billion and 13 billion parameters trained on 60 languages from 25 language families using Wikipedia and Colossal Clean Crawled Corpus. We reproduce the GPT-3 architecture using GPT-2 sources and the sparse attention mechanism; Deepspeed and Megatron frameworks allow us to parallelize the training and inference steps effectively. The resulting models show performance on par with the recently released XGLM models by Facebook, covering more languages and enhancing NLP possibilities for low resource languages of CIS countries and Russian small nations. We detail the motivation for the choices of the architecture design, thoroughly describe the data preparation pipeline, and train five small versions of the model to choose the most optimal multilingual tokenization strategy. We measure the model perplexity in all covered languages and evaluate it on the wide spectre of multilingual tasks, including classification, generative, sequence labeling and knowledge probing. The models were evaluated with the zero-shot and few-shot methods. Furthermore, we compared the classification tasks with the state-of-the-art multilingual model XGLM. source code and the mGPT XL model are publicly released.
翻訳日:2022-04-21 08:12:05 公開日:2022-04-15
# (参考訳) In-BoXBART: バイオメディカルマルチタスク学習の指導を受ける [全文訳有]

In-BoXBART: Get Instructions into Biomedical Multi-Task Learning ( http://arxiv.org/abs/2204.07600v1 )

ライセンス: CC BY 4.0
Mihir Parmar, Swaroop Mishra, Mirali Purohit, Man Luo, M. Hassan Murad and Chitta Baral(参考訳) シングルタスクモデルは特定のタスクの解決において重要な役割を担っているが、マルチタスクが必要であり、ドメインシフトが現れる現実世界のアプリケーションには制限がある。 近年,マルチタスクの一般化に向けて指導プロンプトが大幅に改善されているが,教育プロンプトとマルチタスクラーニング(MTL)の効果は,生物医学領域において体系的に研究されていない。 そこで本研究では,生物医学的MTLに対する指導的プロンプトの影響について検討する。 バイオメディカルNLP(バイオメディカルNLP)のための32の命令タスクの集合であるBoXを紹介する。 このメタデータセットを用いて,タスク固有のモジュールを使わずにBoXの全タスクを共同学習可能な,In-BoXBARTという統一モデルを提案する。 私たちの知る限りでは、これはバイオメディカル領域における統一モデルを提案し、いくつかのバイオメディカルタスクにわたる一般化を達成するための指示を用いる最初の試みである。 実験の結果,提案モデルが示唆された。 1)シングルタスクベースラインを約3%、マルチタスクベースライン(命令なし)を平均で約18%上回る。 2) 単発学習(すなわち1タスクあたり32インスタンス)における単タスクベースラインと比較して,平均で約23%改善している。 分析の結果,BoXにおけるタスク間の改善の余地は大きいことが示唆され,今後の研究の方向性が示唆された。

Single-task models have proven pivotal in solving specific tasks; however, they have limitations in real-world applications where multi-tasking is necessary and domain shifts are exhibited. Recently, instructional prompts have shown significant improvement towards multi-task generalization; however, the effect of instructional prompts and Multi-Task Learning (MTL) has not been systematically studied in the biomedical domain. Motivated by this, this paper explores the impact of instructional prompts for biomedical MTL. We introduce the BoX, a collection of 32 instruction tasks for Biomedical NLP across (X) various categories. Using this meta-dataset, we propose a unified model termed In-BoXBART, that can jointly learn all tasks of the BoX without any task-specific modules. To the best of our knowledge, this is the first attempt to propose a unified model in the biomedical domain and use instructions to achieve generalization across several biomedical tasks. Experimental results indicate that the proposed model: 1) outperforms the single-task baseline by ~3% and multi-task (without instruction) baseline by ~18% on an average, and 2) shows ~23% improvement compared to the single-task baseline in few-shot learning (i.e., 32 instances per task) on an average. Our analysis indicates that there is significant room for improvement across tasks in the BoX, implying the scope for future research direction.
翻訳日:2022-04-21 07:27:56 公開日:2022-04-15
# (参考訳) 機械学習における不再現性の源: レビュー [全文訳有]

Sources of Irreproducibility in Machine Learning: A Review ( http://arxiv.org/abs/2204.07610v1 )

ライセンス: CC BY 4.0
Odd Erik Gundersen, Kevin Coakley and Christine Kirkpatrick(参考訳) 近年、いくつかのベンチマーク研究により、機械学習のサブ分野における最先端の技術は、文献で報告されているにもかかわらず、実際には進歩していないことが示されている。 進歩の欠如は、多くのモデル比較研究の不再現性に起因する。 モデル比較研究は、多くの既知の非生産性の源を制御しない。 これは第三者によって検証できない結果につながる。 本稿の目的は,文献で報告されている不再現性源の概観を提供することである。 本稿では,本文献を概説し,不再現性の特定源に関する議論に加えて,その概要と分類について概説する。 最後に、さらなる調査の3つの行を特定する。

Lately, several benchmark studies have shown that the state of the art in some of the sub-fields of machine learning actually has not progressed despite progress being reported in the literature. The lack of progress is partly caused by the irreproducibility of many model comparison studies. Model comparison studies are conducted that do not control for many known sources of irreproducibility. This leads to results that cannot be verified by third parties. Our objective is to provide an overview of the sources of irreproducibility that are reported in the literature. We review the literature to provide an overview and a taxonomy in addition to a discussion on the identified sources of irreproducibility. Finally, we identify three lines of further inquiry.
翻訳日:2022-04-21 07:06:06 公開日:2022-04-15
# (参考訳) 人為的知的モラルの文脈化--トップダウン、ボトムアップ、ハイブリッドモデルによる人工知能における理論および応用倫理のメタエスノグラフィー [全文訳有]

Contextualizing Artificially Intelligent Morality: A Meta-Ethnography of Top-Down, Bottom-Up, and Hybrid Models for Theoretical and Applied Ethics in Artificial Intelligence ( http://arxiv.org/abs/2204.07612v1 )

ライセンス: CC BY-SA 4.0
Jennafer S. Roberts and Laura N. Montoya(参考訳) このメタエスノグラフィーでは、哲学的倫理的視点、技術的視点、政治的レンズによるフレーミングを含むトップダウン/ボトムアップフレームワークにおいて、倫理的AI設計と実装の3つの異なる角度を探索する。 このフレームワークにおける個人的およびハイブリッド的アプローチの価値と欠点について論じる。 アプローチの例としては、企業や政府によって決定される倫理(トップから来る)、あるいは人々によって要求される倫理(下から来る)、そして予想外の結果と長期的な影響を考慮して、AIがどのように道徳的な構造内で開発されるかというトップダウン、ボトムアップ、ハイブリッド技術などがある。 この調査には、実世界のケーススタディ、哲学的議論、歴史的事実、現在の世界の状況、そして起こりうる現実に基づく理論的未来思考実験が含まれる。

In this meta-ethnography, we explore three different angles of Ethical AI design and implementation in a top-down/bottom-up framework, including the philosophical ethical viewpoint, the technical perspective, and framing through a political lens. We will discuss the values and drawbacks of individual and hybrid approaches within this framework. Examples of approaches include ethics either being determined by corporations and governments (coming from the top), or ethics being called for by the people (coming from the bottom), as well as top-down, bottom-up, and hybrid technicalities of how AI is developed within a moral construct, in consideration of its developers and users, with expected and unexpected consequences and long-term impact. This investigation includes real-world case studies, philosophical debate, and theoretical future thought experimentation based on historical facts, current world circumstances, and possible ensuing realities.
翻訳日:2022-04-21 06:52:04 公開日:2022-04-15
# (参考訳) 語彙データセットを用いた資源制約型ニューラルアーキテクチャ探索 [全文訳有]

Resource-Constrained Neural Architecture Search on Tabular Datasets ( http://arxiv.org/abs/2204.07615v1 )

ライセンス: CC0 1.0
Chengrun Yang, Gabriel Bender, Hanxiao Liu, Pieter-Jan Kindermans, Madeleine Udell, Yifeng Lu, Quoc Le, Da Huang(参考訳) 特定の機械学習問題に対する最良のニューラルネットワークは、データセットの複雑さと構造だけでなく、レイテンシ、計算、エネルギー消費などのリソース制約にも依存する。 グラフデータセットに対するニューラルアーキテクチャサーチ(NAS)は重要だが未探索の課題である。 画像検索空間用に設計された従来のNASアルゴリズムは、強化学習報酬に直接リソース制約を組み込む。 本稿では,これらの既存の報酬形成手法において,表型NASの探索空間が大きな課題となることを論じ,これらの課題に対処する新たな強化学習(RL)コントローラを提案する。 拒否サンプリングに動機付けられ、検索中に候補アーキテクチャをサンプリングすると、リソース制約に違反するアーキテクチャを即座に破棄します。 この余分なフィルタリングステップを考慮するために、rlポリシーグラデーションのアップデートにモンテカルロベースの補正を使用します。 いくつかの表型データセットの結果,提案手法であるtabnaは,与えられたリソース制約を満たす高品質なモデルを効率的に発見する。

The best neural architecture for a given machine learning problem depends on many factors: not only the complexity and structure of the dataset, but also on resource constraints including latency, compute, energy consumption, etc. Neural architecture search (NAS) for tabular datasets is an important but under-explored problem. Previous NAS algorithms designed for image search spaces incorporate resource constraints directly into the reinforcement learning rewards. In this paper, we argue that search spaces for tabular NAS pose considerable challenges for these existing reward-shaping methods, and propose a new reinforcement learning (RL) controller to address these challenges. Motivated by rejection sampling, when we sample candidate architectures during a search, we immediately discard any architecture that violates our resource constraints. We use a Monte-Carlo-based correction to our RL policy gradient update to account for this extra filtering step. Results on several tabular datasets show TabNAS, the proposed approach, efficiently finds high-quality models that satisfy the given resource constraints.
翻訳日:2022-04-21 06:37:13 公開日:2022-04-15
# (参考訳) ディクサラスマニピュレーションにおける補正デモンストレーションと低コストセンサの有効性の評価 [全文訳有]

Evaluating the Effectiveness of Corrective Demonstrations and a Low-Cost Sensor for Dexterous Manipulation ( http://arxiv.org/abs/2204.07631v1 )

ライセンス: CC BY 4.0
Abhineet Jain, Jack Kolb, J.M. Abbess IV, Harish Ravichandar(参考訳) 模倣学習(imitation learning)は、ロボットが注意深く設計された報酬や重要な計算努力を必要とせずに、巧妙な操作能力を得るための有望なアプローチである。 しかし、既存の模倣学習アプローチでは、高度なデータ収集インフラストラクチャが必要であり、トレーニング分布を超えて一般化するのに苦労している。 この制限に対処する1つの方法は、完全な運用条件をより良く表現する追加データを集めることである。 本研究では,このような追加デモンストレーションの特性と性能への影響について検討する。 具体的には,5本指のロボットハンドをピック・アンド・プレイス・タスクを通じて誘導する政策学習における,修正的およびランダムなサンプル追加デモの効果について検討する。 以上の結果から,完全タスク分布からサンプリングされた追加デモンストレーションの割合が制限訓練分布からサンプリングされたオリジナルデモの数より大きい場合,補正デモはランダムにサンプリングされたデモンストレーションを大幅に上回っていることが示唆された。 逆に、元のデモの数が追加のデモよりも多い場合、修正とランダムにサンプリングした追加のデモの間に有意な差は見つからない。 これらの結果は、修正的なデモンストレーション収集に必要な作業と、ランダムにサンプリングされたデモに対する相対的なメリットとの間の、固有のトレードオフに関する洞察を提供する。 さらに、LeapMotionのような安価な視覚ベースのセンサーは、巧妙な操作タスクのデモを提供するコストを大幅に削減できることを示す。 私たちのコードはhttps://github.com/G T-STAR-Lab/correctiv e-demos-dexterous-ma nipulationで利用可能です。

Imitation learning is a promising approach to help robots acquire dexterous manipulation capabilities without the need for a carefully-designed reward or a significant computational effort. However, existing imitation learning approaches require sophisticated data collection infrastructure and struggle to generalize beyond the training distribution. One way to address this limitation is to gather additional data that better represents the full operating conditions. In this work, we investigate characteristics of such additional demonstrations and their impact on performance. Specifically, we study the effects of corrective and randomly-sampled additional demonstrations on learning a policy that guides a five-fingered robot hand through a pick-and-place task. Our results suggest that corrective demonstrations considerably outperform randomly-sampled demonstrations, when the proportion of additional demonstrations sampled from the full task distribution is larger than the number of original demonstrations sampled from a restrictive training distribution. Conversely, when the number of original demonstrations are higher than that of additional demonstrations, we find no significant differences between corrective and randomly-sampled additional demonstrations. These results provide insights into the inherent trade-off between the effort required to collect corrective demonstrations and their relative benefits over randomly-sampled demonstrations. Additionally, we show that inexpensive vision-based sensors, such as LeapMotion, can be used to dramatically reduce the cost of providing demonstrations for dexterous manipulation tasks. Our code is available at https://github.com/G T-STAR-Lab/correctiv e-demos-dexterous-ma nipulation.
翻訳日:2022-04-21 06:06:33 公開日:2022-04-15
# (参考訳) ランダムドット積グラフのための生成ニューラルネットワークモデル [全文訳有]

A generative neural network model for random dot product graphs ( http://arxiv.org/abs/2204.07634v1 )

ライセンス: CC BY 4.0
Vittorio Loprinzo and Laurent Younes(参考訳) ランダムグラフの生成モデルを学習するためのニューラルネットワークに基づく新しいアプローチであるGraphMoEを提案する。 ニューラルネットワークは、モーメント推定器を用いて、ランダムグラフのクラスの分布と一致するように訓練される。 トレーニングに使用される機能は、graphlets、subgraph counts of small orderである。 ニューラルネットワークはランダムノイズを入力として受け入れ、グラフ内のノードのベクトル表現を出力する。 ランダムグラフは、カーネルを表現に適用することで実現される。 このように作られたグラフは、化学、医学、ソーシャルネットワークのデータを模倣できることが示されている。 生成されたグラフは、ターゲットデータと十分に類似しており、ランダムグラフのクラスを分離できるニューラルネットワークを騙すことができる。

We present GraphMoE, a novel neural network-based approach to learning generative models for random graphs. The neural network is trained to match the distribution of a class of random graphs by way of a moment estimator. The features used for training are graphlets, subgraph counts of small order. The neural network accepts random noise as input and outputs vector representations for nodes in the graph. Random graphs are then realized by applying a kernel to the representations. Graphs produced this way are demonstrated to be able to imitate data from chemistry, medicine, and social networks. The produced graphs are similar enough to the target data to be able to fool discriminator neural networks otherwise capable of separating classes of random graphs.
翻訳日:2022-04-21 05:56:42 公開日:2022-04-15
# (参考訳) 二重スパース光流分解によるラグランジュ運動拡大 [全文訳有]

Lagrangian Motion Magnification with Double Sparse Optical Flow Decomposition ( http://arxiv.org/abs/2204.07636v1 )

ライセンス: CC0 1.0
Philipp Flotho, Cosmas Heiss, Gabriele Steidl, Daniel J. Strauss(参考訳) モーション拡大技術は、動画の微妙な動きを増幅し、明らかにすることを目的としている。 基本的には、この目標を達成するための2つの主要なアプローチがあります。 最初のものは画像ピクセルを直接操作することで暗黙的に動きを拡大するが、ラグランジアンアプローチは光学フロー技術を用いて画素軌跡を抽出し増幅する。 マイクロ表現は高速かつ空間的に小さな表情であり、検出が困難である。 本稿では,顔面微小運動の局所的なラグランジアン運動倍率に対する新しいアプローチを提案する。 まず、顔のCASME IIビデオ集合に適用された光フローアルゴリズムの変動密度逆探索(DIS)から得られた基底真理を付加することにより、顔の光フロー(RAFT)深層学習のための再帰的な全対場変換を微調整する。 これにより、効率的かつ十分な精度で顔ビデオの光学的流れを生成できる。 第2に, 顔のマイクロムーブメントは空間的および時間的に局所的であるため, 空間的および時間的にスパース成分によって光学的流れ場を近似し, 二重スパース分解を導くことを提案する。 第3に、この分解を用いて顔の特定の領域における微小な動きを拡大し、画像グリッドの三角形分割と、変換された三角形の角におけるRGBベクトルのバリ中心補間を用いた新しい前方ワープ戦略を導入する。 我々は、様々な例によって、我々のアプローチの非常に優れた性能を示す。

Motion magnification techniques aim at amplifying and hence revealing subtle motion in videos. There are basically two main approaches to reach this goal, namely via Eulerian or Lagrangian techniques. While the first one magnifies motion implicitly by operating directly on image pixels, the Lagrangian approach uses optical flow techniques to extract and amplify pixel trajectories. Microexpressions are fast and spatially small facial expressions that are difficult to detect. In this paper, we propose a novel approach for local Lagrangian motion magnification of facial micromovements. Our contribution is three-fold: first, we fine-tune the recurrent all-pairs field transforms for optical flows (RAFT) deep learning approach for faces by adding ground truth obtained from the variational dense inverse search (DIS) for optical flow algorithm applied to the CASME II video set of faces. This enables us to produce optical flows of facial videos in an efficient and sufficiently accurate way. Second, since facial micromovements are both local in space and time, we propose to approximate the optical flow field by sparse components both in space and time leading to a double sparse decomposition. Third, we use this decomposition to magnify micro-motions in specific areas of the face, where we introduce a new forward warping strategy using a triangular splitting of the image grid and barycentric interpolation of the RGB vectors at the corners of the transformed triangles. We demonstrate the very good performance of our approach by various examples.
翻訳日:2022-04-21 05:37:35 公開日:2022-04-15
# (参考訳) イベント支援直接スパースオドメトリ

Event-aided Direct Sparse Odometry ( http://arxiv.org/abs/2204.07640v1 )

ライセンス: CC BY 4.0
Javier Hidalgo-Carri\'o and Guillermo Gallego and Davide Scaramuzza(参考訳) イベントとフレームを用いた直接単眼視覚計測であるEDSを紹介する。 このアルゴリズムはイベント生成モデルを利用してフレーム間のブラインド時間内にカメラの動きを追跡する。 この方法は、観測された明るさ増加の直接確率的アプローチを定式化する。 画素毎の輝度増分は、選択された3dポイントの少ない数を用いて予測され、明るさ増分誤差によってカメラの動きを推定するイベントと比較される。 本方法は、測光束調整を用いて半乾燥3dマップを復元する。 EDSは直接アプローチでイベントとフレームを使用して6-DOF VOを実行する最初の方法である。 設計上、間接的な手法における外観の変化を克服する。 また、目標誤差性能に対して、EDSは最先端のフレームベースVOソリューションよりも低いフレームレートで動作可能であることを示す。 これにより、フレームがスペース的に"オンデマンド"にトリガーされる低消費電力モーショントラッキングアプリケーションへの扉が開き、我々の手法は間の動きを追跡する。 コードとデータセットを公開しています。

We introduce EDS, a direct monocular visual odometry using events and frames. Our algorithm leverages the event generation model to track the camera motion in the blind time between frames. The method formulates a direct probabilistic approach of observed brightness increments. Per-pixel brightness increments are predicted using a sparse number of selected 3D points and are compared to the events via the brightness increment error to estimate camera motion. The method recovers a semi-dense 3D map using photometric bundle adjustment. EDS is the first method to perform 6-DOF VO using events and frames with a direct approach. By design, it overcomes the problem of changing appearance in indirect methods. We also show that, for a target error performance, EDS can work at lower frame rates than state-of-the-art frame-based VO solutions. This opens the door to low-power motion-tracking applications where frames are sparingly triggered "on demand" and our method tracks the motion in between. We release code and datasets to the public.
翻訳日:2022-04-21 05:23:41 公開日:2022-04-15
# (参考訳) ヒューマン・イン・ザ・ループ最適化によるインタラクション設計手法の正負性の検討 [全文訳有]

Investigating Positive and Negative Qualities of Human-in-the-Loop Optimization for Designing Interaction Techniques ( http://arxiv.org/abs/2204.07641v1 )

ライセンス: CC BY 4.0
Liwei Chan, Yi-Chi Liao, George B. Mo, John J. Dudley, Chun-Lien Cheng, Per Ola Kristensson, Antti Oulasvirta(参考訳) デザイナーは設計最適化タスクに苦労し、与えられた目的のセットを最大化する設計パラメータの組み合わせを見つけるよう求められる。 HCIでは、設計最適化の問題は非常に複雑であり、複数の目的と高価な経験的評価を含む。 モデルベースの計算設計アルゴリズムは設計時に設計例を生成することでデザイナを支援するが、それらは相互作用領域のモデルを想定している。 一方、補助のためのブラックボックスメソッドは、あらゆる設計問題に対処できる。 しかし、このヒト・イン・ザ・ループのアプローチに関する実証研究は、研究者かエンドユーザによってほぼすべて実施されている。 問題は、そのような手法がデザイナーが現実的なタスクに役立てるかどうかだ。 本稿では,設計最適化過程を導くアルゴリズム手法としてベイズ最適化について検討する。 以前の観察から次に試す候補を設計するデザイナに提案することで動作する。 複雑な3Dタッチインタラクションを最適化する作業に従事した40人の初心者デザイナーを対象に,比較研究の結果を報告する。 このオプティマイザは、デザイナーが設計スペースの広い割合を探索し、より良い解決策にたどり着くのに役立った。 オプティマイザによって導かれたデザイナーは、より低い精神的努力を報告したが、創造性が低下し、進歩に対する責任が減ったと感じた。 我々は,人間とループの最適化は,機関が重要でない場合に初心者デザイナーを支援することができると結論付けた。

Designers reportedly struggle with design optimization tasks where they are asked to find a combination of design parameters that maximizes a given set of objectives. In HCI, design optimization problems are often exceedingly complex, involving multiple objectives and expensive empirical evaluations. Model-based computational design algorithms assist designers by generating design examples during design, however they assume a model of the interaction domain. Black box methods for assistance, on the other hand, can work with any design problem. However, virtually all empirical studies of this human-in-the-loop approach have been carried out by either researchers or end-users. The question stands out if such methods can help designers in realistic tasks. In this paper, we study Bayesian optimization as an algorithmic method to guide the design optimization process. It operates by proposing to a designer which design candidate to try next, given previous observations. We report observations from a comparative study with 40 novice designers who were tasked to optimize a complex 3D touch interaction technique. The optimizer helped designers explore larger proportions of the design space and arrive at a better solution, however they reported lower agency and expressiveness. Designers guided by an optimizer reported lower mental effort but also felt less creative and less in charge of the progress. We conclude that human-in-the-loop optimization can support novice designers in cases where agency is not critical.
翻訳日:2022-04-21 05:22:47 公開日:2022-04-15
# (参考訳) AI連携における倫理的課題の特定 [全文訳有]

Identifying Ethical Issues in AI Partners in Human-AI Co-Creation ( http://arxiv.org/abs/2204.07644v1 )

ライセンス: CC BY 4.0
Jeba Rezwana and Mary Lou Maher(参考訳) human-ai co-creativityは、人間とaiがパートナーとして共有されたクリエイティブプロダクトで協力することを伴う。 多くの既存のコクリエイティブシステムでは、ユーザーはボタンやスライダーを使用してAIと通信する。 しかし、通常、共同創造システムにおけるaiは人間とコミュニケーションをとれず、パートナーとして認識される可能性を制限する。 本稿は,AIから人間へのコミュニケーションが共同創造システムにおけるユーザ認識とエンゲージメントに与える影響を検討するために,38人の参加者による比較研究の概要から始め,AIから人間へのコミュニケーションを取り入れたシステムによるコラボレーション体験とユーザエンゲージメントの改善を示す。 その結果、ユーザーは、共同創造型AIがユーザーとコミュニケーションできるときに、より信頼性が高く、パーソナルで、インテリジェントであると感じている。 この結果から,コミュニケートな共同創造型AIから潜在的な倫理的問題を特定する必要性が示唆された。 本稿では,人間とAIの共創における倫理的問題について論じるとともに,ユーザとコミュニケーションする共同創造型AIに関連する倫理的問題を調査するための研究手法として参加型デザインフィクションを提案する。

Human-AI co-creativity involves humans and AI collaborating on a shared creative product as partners. In many existing co-creative systems, users communicate with the AI using buttons or sliders. However, typically, the AI in co-creative systems cannot communicate back to humans, limiting their potential to be perceived as partners. This paper starts with an overview of a comparative study with 38 participants to explore the impact of AI-to-human communication on user perception and engagement in co-creative systems and the results show improved collaborative experience and user engagement with the system incorporating AI-to-human communication. The results also demonstrate that users perceive co-creative AI as more reliable, personal and intelligent when it can communicate with the users. The results indicate a need to identify potential ethical issues from an engaging communicating co-creative AI. Later in the paper, we present some potential ethical issues in human-AI co-creation and propose to use participatory design fiction as the research methodology to investigate the ethical issues associated with a co-creative AI that communicates with users.
翻訳日:2022-04-21 04:52:04 公開日:2022-04-15
# (参考訳) MultiEarth 2022 -- 地球環境ワークショップにおけるマルチモーダル学習と課題 [全文訳有]

MultiEarth 2022 -- Multimodal Learning for Earth and Environment Workshop and Challenge ( http://arxiv.org/abs/2204.07649v1 )

ライセンス: CC BY 4.0
Miriam Cha, Kuan Wei Huang, Morgan Schmidt, Gregory Angelides, Mark Hamilton, Sam Goldberg, Armando Cabrera, Phillip Isola, Taylor Perron, Bill Freeman, Yen-Chen Lin, Brandon Swenson, Jean Piou(参考訳) マルチモーダル・ラーニング・フォー・アース・アンド・環境チャレンジ(multiearth 2022)は、アマゾンの熱帯雨林における森林破壊の監視と分析を目的とした最初のコンペティションである。 この課題の目的は、マルチモーダル情報処理の共通ベンチマークを提供し、地球と環境科学のコミュニティとマルチモーダル表現学習コミュニティをまとめ、様々なマルチモーダル学習方法の利点を、明確に定義され厳密に比較された条件下での森林破壊推定と比較することである。 MultiEarth 2022には3つのサブチャレンジがある。 1)マトリクスの完成、 2)森林破壊推定、及び 3)画像から画像への翻訳。 本稿では,3つのサブチャレンジの課題ガイドライン,データセット,評価指標について述べる。 私たちのチャレンジwebサイトはhttps://sites.google .com/view/rainforest -challengeで閲覧できます。

The Multimodal Learning for Earth and Environment Challenge (MultiEarth 2022) will be the first competition aimed at the monitoring and analysis of deforestation in the Amazon rainforest at any time and in any weather conditions. The goal of the Challenge is to provide a common benchmark for multimodal information processing and to bring together the earth and environmental science communities as well as multimodal representation learning communities to compare the relative merits of the various multimodal learning methods to deforestation estimation under well-defined and strictly comparable conditions. MultiEarth 2022 will have three sub-challenges: 1) matrix completion, 2) deforestation estimation, and 3) image-to-image translation. This paper presents the challenge guidelines, datasets, and evaluation metrics for the three sub-challenges. Our challenge website is available at https://sites.google .com/view/rainforest -challenge.
翻訳日:2022-04-21 04:46:40 公開日:2022-04-15
# (参考訳) メッセージパッシンググラフニューラルネットワークを用いた時間依存型PDEソルバの学習 [全文訳有]

Learning time-dependent PDE solver using Message Passing Graph Neural Networks ( http://arxiv.org/abs/2204.07651v1 )

ライセンス: CC BY 4.0
Pourya Pilva and Ahmad Zareei(参考訳) 時間依存偏微分方程式を解く主な課題の1つは、正確で安定な計算効率の良い解法を開発することである。 本稿では,メッセージパスモデルを用いた学習を通して,効率的なPDE解法を見つけるためのグラフニューラルネットワーク手法を提案する。 まず,従来のPDEソルバにインスパイアされたPDEデータに対して,効率的な物理表現のためのドメイン不変機能を導入する。 次に,非構造化メッシュ上でのpdeデータの表現にグラフを用い,メッセージパッシンググラフニューラルネットワーク(mpgnn)が制御方程式をパラメータ化できることを示し,線形/非線形pdesの高精度解法を効率的に学習する。 さらに, 初期学習された幾何とは独立な解法を示し, 学習した解法では異なる複素領域上のpde解を求めることができることを示した。 最後に,リカレントグラフニューラルネットワークアプローチは,pdeに対する解の時系列を見出すことができることを示す。

One of the main challenges in solving time-dependent partial differential equations is to develop computationally efficient solvers that are accurate and stable. Here, we introduce a graph neural network approach to finding efficient PDE solvers through learning using message-passing models. We first introduce domain invariant features for PDE-data inspired by classical PDE solvers for an efficient physical representation. Next, we use graphs to represent PDE-data on an unstructured mesh and show that message passing graph neural networks (MPGNN) can parameterize governing equations, and as a result, efficiently learn accurate solver schemes for linear/nonlinear PDEs. We further show that the solvers are independent of the initial trained geometry, i.e. the trained solver can find PDE solution on different complex domains. Lastly, we show that a recurrent graph neural network approach can find a temporal sequence of solutions to a PDE.
翻訳日:2022-04-21 04:39:28 公開日:2022-04-15
# (参考訳) ランダム化条件付き独立ヘッシアンによるディープアンラーニング

Deep Unlearning via Randomized Conditionally Independent Hessians ( http://arxiv.org/abs/2204.07655v1 )

ライセンス: CC BY 4.0
Ronak Mehta, Sourav Pal, Vikas Singh, Sathya N. Ravi(参考訳) 近年の法律では、トレーニングデータセットに存在しないかのように、予測モデルから特定のトレーニングサンプルを取り除くなど、機械学習への関心が高まっている。 不正なデータや、単にユーザの更新されたプライバシー要件のために、アンラーニングも必要になる。 トレーニングを必要としないモデル(k-NN)では、最も近いサンプルを削除するだけで有効である。 しかし、このアイデアはよりリッチな表現を学ぶモデルには適用できない。 最適化に基づく更新を利用する最近のアイデアは、損失関数のヘシアンを反転させるため、モデル次元dと不十分にスケールする。 我々は,新しい条件独立係数 L-CODEC の変種を用いて,モデルパラメータのサブセットを個々のサンプルレベルで最も意味的な重なり合いで同定する。 我々のアプローチは(おそらく)巨大な行列を反転させる必要性を完全に回避する。 マルコフの毛布選択を利用して、L-CODECは深層学習や視覚における他の応用にも適していると仮定する。 代替品と比較して、l-codecは、顔認識に使用されるビジョンモデル、人物再識別、非学習サンプルを除外するために識別する必要があるnlpモデルなど、実現不可能な設定で近似アンラーニングを可能にする。 コードはhttps://github.com/v singh-group/LCODEC-d eep-unlearning/にある。

Recent legislation has led to interest in machine unlearning, i.e., removing specific training samples from a predictive model as if they never existed in the training dataset. Unlearning may also be required due to corrupted/adversaria l data or simply a user's updated privacy requirement. For models which require no training (k-NN), simply deleting the closest original sample can be effective. But this idea is inapplicable to models which learn richer representations. Recent ideas leveraging optimization-based updates scale poorly with the model dimension d, due to inverting the Hessian of the loss function. We use a variant of a new conditional independence coefficient, L-CODEC, to identify a subset of the model parameters with the most semantic overlap on an individual sample level. Our approach completely avoids the need to invert a (possibly) huge matrix. By utilizing a Markov blanket selection, we premise that L-CODEC is also suitable for deep unlearning, as well as other applications in vision. Compared to alternatives, L-CODEC makes approximate unlearning possible in settings that would otherwise be infeasible, including vision models used for face recognition, person re-identification and NLP models that may require unlearning samples identified for exclusion. Code can be found at https://github.com/v singh-group/LCODEC-d eep-unlearning/
翻訳日:2022-04-21 04:21:19 公開日:2022-04-15
# (参考訳) フェアリー精度: ヘイトスピーチ検出のための最適精度とフェアネストレードオフの学習 [全文訳有]

Fairly Accurate: Learning Optimal Accuracy vs. Fairness Tradeoffs for Hate Speech Detection ( http://arxiv.org/abs/2204.07661v1 )

ライセンス: CC BY 4.0
Venelin Kovatchev, Soumyajit Gupta, Matthew Lease(参考訳) 最近の研究は、モデルトレーニングにおける競合する目標(例えば、精度対公正性、または競合する公正性の尺度)のバランスの重要性を強調している。 このようなトレードオフは、最適化手法が競合する目標間の最適トレードオフを求める多目的最適化(MOO)の幅広いクラスを反映している。 本稿では,まず,モデル学習におけるグループフェアネスの直接最適化(特に,グループ間の精度のバランス)を可能にする,微分可能な尺度を提案する。 次に,パレート最適パラメータ化を学習するための2つのモデル非依存mooフレームワークを示す。 本研究では,英方言話者間でグループフェアネスの欠如を示すヘイトスピーチ検出の特定の課題について,その方法を評価する。 畳み込み、シーケンシャル、トランスフォーマーに基づくニューラルネットワークによる実験結果は、事前の作業よりも経験的精度が優れている。 さらに,提案手法により,利用者が入力した誤差許容範囲が与えられた場合,各アーキテクチャがデータセットの公平性と精度の最良のトレードオフを達成できることを保証できる。

Recent work has emphasized the importance of balancing competing objectives in model training (e.g., accuracy vs. fairness, or competing measures of fairness). Such trade-offs reflect a broader class of multi-objective optimization (MOO) problems in which optimization methods seek Pareto optimal trade-offs between competing goals. In this work, we first introduce a differentiable measure that enables direct optimization of group fairness (specifically, balancing accuracy across groups) in model training. Next, we demonstrate two model-agnostic MOO frameworks for learning Pareto optimal parameterizations over different groups of neural classification models. We evaluate our methods on the specific task of hate speech detection, in which prior work has shown lack of group fairness across speakers of different English dialects. Empirical results across convolutional, sequential, and transformer-based neural architectures show superior empirical accuracy vs. fairness trade-offs over prior work. More significantly, our measure enables the Pareto machinery to ensure that each architecture achieves the best possible trade-off between fairness and accuracy w.r.t. the dataset, given user-prescribed error tolerance bounds.
翻訳日:2022-04-21 04:20:16 公開日:2022-04-15
# (参考訳) ベイジアンイメージングのための条件付きインジェクティブフロー [全文訳有]

Conditional Injective Flows for Bayesian Imaging ( http://arxiv.org/abs/2204.07664v1 )

ライセンス: CC BY 4.0
AmirEhsan Khorashadizadeh, Konik Kothari, Leonardo Salsi, Ali Aghababaei Harandi, Maarten de Hoop and Ivan Dokmani'c(参考訳) 計算画像のためのほとんどのディープラーニングモデルは、単一の再構成されたイメージを回帰する。 しかし、実際には、不合理性、非線形性、モデルミスマッチ、ノイズはしばしばそのような推定を誤解させるか、あるいは不十分にする。 ベイズアプローチは、画像と(ノイズ)計測を共同分散ランダムベクトルとしてモデル化し、未知の後方分布を近似することを目的としている。 条件付き正規化フローに基づく最近の変分推論手法は従来のMCMC法に代わる有望な代替手段であるが, 過大なメモリと高解像度画像に対する計算要求, ハード非線形問題に対する性能低下といった欠点が生じる。 本研究では,画像問題に特化して設計された条件付きインジェクティブフローであるC-Trumpetsを提案する。 インジェクティビティは、固定体積変化層やスキップ接続revnet層といったアーキテクチャ革新とともに、低次元潜在空間におけるメモリフットプリントとトレーニング時間を削減し、C-Trumpetsは、コンピュータとメモリの予算を低く抑えながら、様々な画像および画像復元タスクにおいて、通常の条件フローモデルより優れている。 c-trumpetsは、mmseやmapのような点推定の高速近似と、物理的に測定可能な不確実性定量化を可能にする。

Most deep learning models for computational imaging regress a single reconstructed image. In practice, however, ill-posedness, nonlinearity, model mismatch, and noise often conspire to make such point estimates misleading or insufficient. The Bayesian approach models images and (noisy) measurements as jointly distributed random vectors and aims to approximate the posterior distribution of unknowns. Recent variational inference methods based on conditional normalizing flows are a promising alternative to traditional MCMC methods, but they come with drawbacks: excessive memory and compute demands for moderate to high resolution images and underwhelming performance on hard nonlinear problems. In this work, we propose C-Trumpets -- conditional injective flows specifically designed for imaging problems, which greatly diminish these challenges. Injectivity reduces memory footprint and training time while low-dimensional latent space together with architectural innovations like fixed-volume-change layers and skip-connection revnet layers, C-Trumpets outperform regular conditional flow models on a variety of imaging and image restoration tasks, including limited-view CT and nonlinear inverse scattering, with a lower compute and memory budget. C-Trumpets enable fast approximation of point estimates like MMSE or MAP as well as physically-meaningfu l uncertainty quantification.
翻訳日:2022-04-21 03:35:28 公開日:2022-04-15
# (参考訳) COFIとCreative AIパートナをデザインする:人間とAIのコクレーティブシステムにおけるインタラクションのモデリングフレームワーク [全文訳有]

Designing Creative AI Partners with COFI: A Framework for Modeling Interaction in Human-AI Co-Creative Systems ( http://arxiv.org/abs/2204.07666v1 )

ライセンス: CC BY 4.0
Jeba Rezwana and Mary Lou Maher(参考訳) human-ai co-creativityは、人間とaiがパートナーとして共有されたクリエイティブプロダクトで協力することを伴う。 創造的なコラボレーションでは、ターンテイク、コントリビューションタイプ、コミュニケーションといった相互作用のダイナミクスが、共同創造プロセスの原動力となります。 したがって、相互作用モデルは効果的な共同創造システムにとって重要かつ不可欠な要素である。 共創造性分野における相互作用設計に関する研究は比較的少ないが、これは既存の多くの共創造系における相互作用設計への焦点の欠如を反映している。 共同創造性研究の主な焦点は、AIの能力である。 本稿では,コクリエーティブシステムにおけるインタラクション設計の重要性と,コクリエーティブシステムにおけるインタラクション設計の可能性の幅広い範囲を記述したCOFI(Co-Creative Framework for Interaction Design)の開発に焦点を当てる。 研究者は、このインタラクションの設計領域における代替案を探求することで、共同創造システムにおけるインタラクションのモデリングにcofiを利用することができる。 COFIは、既存の共同創造システムの相互作用設計を調査し、解釈する上でも有用である。 我々は、COFIを用いて既存の92の共創造システムのデータセットをコーディングし、COFIが既存の共創造システムの相互作用モデルをどのように分類するかを示す。 対話モデルの焦点を共同創造性に移し、ユーザーとai間のコミュニケーションを深め、人間とaiのパートナーシップに繋がる機会を見出した。

Human-AI co-creativity involves both humans and AI collaborating on a shared creative product as partners. In a creative collaboration, interaction dynamics, such as turn-taking, contribution type, and communication, are the driving forces of the co-creative process. Therefore the interaction model is a critical and essential component for effective co-creative systems. There is relatively little research about interaction design in the co-creativity field, which is reflected in a lack of focus on interaction design in many existing co-creative systems. The primary focus of co-creativity research has been on the abilities of the AI. This paper focuses on the importance of interaction design in co-creative systems with the development of the Co-Creative Framework for Interaction design (COFI) that describes the broad scope of possibilities for interaction design in co-creative systems. Researchers can use COFI for modeling interaction in co-creative systems by exploring alternatives in this design space of interaction. COFI can also be beneficial while investigating and interpreting the interaction design of existing co-creative systems. We coded a dataset of existing 92 co-creative systems using COFI and analyzed the data to show how COFI provides a basis to categorize the interaction models of existing co-creative systems. We identify opportunities to shift the focus of interaction models in co-creativity to enable more communication between the user and AI leading to human-AI partnerships.
翻訳日:2022-04-21 03:07:02 公開日:2022-04-15
# (参考訳) CILDA:中間層知識蒸留を用いたコントラストデータ拡張 [全文訳有]

CILDA: Contrastive Data Augmentation using Intermediate Layer Knowledge Distillation ( http://arxiv.org/abs/2204.07674v1 )

ライセンス: CC BY 4.0
Md Akmal Haidar, Mehdi Rezagholizadeh, Abbas Ghaddar, Khalil Bibi, Philippe Langlais, Pascal Poupart(参考訳) 知識蒸留(KD)は、大規模事前学習言語モデルを圧縮するための効率的なフレームワークである。 近年, コントラスト学習, 中間層蒸留, データ拡張, 対人訓練を活用することで, KDの改善を目指す研究が急増している。 本研究では,CILDAと呼ばれる知識蒸留に適した学習ベースデータ拡張手法を提案する。 私たちの知る限りでは、メインタスクの中間層表現が拡張されたサンプルの品質向上に使用されるのはこれが初めてです。 より正確には、コントラスト損失を用いた中間層マッチングに基づくKDの拡張手法を導入し、マスク付き対向データ拡張を改善する。 CILDAは、GLUEベンチマークの既存の最先端KDアプローチ、およびドメイン外評価よりも優れています。

Knowledge distillation (KD) is an efficient framework for compressing large-scale pre-trained language models. Recent years have seen a surge of research aiming to improve KD by leveraging Contrastive Learning, Intermediate Layer Distillation, Data Augmentation, and Adversarial Training. In this work, we propose a learning based data augmentation technique tailored for knowledge distillation, called CILDA. To the best of our knowledge, this is the first time that intermediate layer representations of the main task are used in improving the quality of augmented samples. More precisely, we introduce an augmentation technique for KD based on intermediate layer matching using contrastive loss to improve masked adversarial data augmentation. CILDA outperforms existing state-of-the-art KD approaches on the GLUE benchmark, as well as in an out-of-domain evaluation.
翻訳日:2022-04-21 02:39:25 公開日:2022-04-15
# (参考訳) DialAug:ロバスト会話モデリングのためのコントラスト学習における対話コンテキストの混合 [全文訳有]

DialAug: Mixing up Dialogue Contexts in Contrastive Learning for Robust Conversational Modeling ( http://arxiv.org/abs/2204.07679v1 )

ライセンス: CC BY 4.0
Lahari Poddar, Peiyao Wang, Julia Reinspach(参考訳) 検索に基づく会話システムは、ベクトル表現間の類似性を計算することにより、与えられた対話コンテキストに対する応答候補のランク付けを学ぶ。 しかしながら、マルチターンコンテキストの単一のテキスト形式のトレーニングは、推論中に見られる自然摂動に一般化した表現をモデルが学習する能力を制限する。 本稿では,対話コンテキストの拡張バージョンを学習目標に組み込むフレームワークを提案する。 比較学習を補助的目的として活用し,拡張法により注入される摂動に不変な頑健な対話文脈表現を学習する。 4つのベンチマークダイアログデータセットを実験し,既存の拡張手法と組み合わせることで,BERTベースのランキングアーキテクチャを大幅に改善できることを実証した。 さらに,バッチ内の他のコンテキストからのトークンの確率的混合によるトークンレベルの摂動を付加する新しいデータ拡張手法であるConMixを提案する。 提案手法は,従来のデータ拡張手法よりも優れており,推論中に見られる共通の摂動に対してより堅牢な対話表現を提供する。

Retrieval-based conversational systems learn to rank response candidates for a given dialogue context by computing the similarity between their vector representations. However, training on a single textual form of the multi-turn context limits the ability of a model to learn representations that generalize to natural perturbations seen during inference. In this paper we propose a framework that incorporates augmented versions of a dialogue context into the learning objective. We utilize contrastive learning as an auxiliary objective to learn robust dialogue context representations that are invariant to perturbations injected through the augmentation method. We experiment with four benchmark dialogue datasets and demonstrate that our framework combines well with existing augmentation methods and can significantly improve over baseline BERT-based ranking architectures. Furthermore, we propose a novel data augmentation method, ConMix, that adds token level perturbations through stochastic mixing of tokens from other contexts in the batch. We show that our proposed augmentation method outperforms previous data augmentation approaches, and provides dialogue representations that are more robust to common perturbations seen during inference.
翻訳日:2022-04-21 02:30:02 公開日:2022-04-15
# 深層学習に基づく地熱貯留層生産の閉ループ最適化

Deep learning based closed-loop optimization of geothermal reservoir production ( http://arxiv.org/abs/2204.08987v1 )

ライセンス: Link先を確認
Nanzhe Wang, Haibin Chang, Xiangzhao Kong, Martin O. Saar, Dongxiao Zhang(参考訳) 地熱発電の経済的利益を最大化するためには,地質学的不確実性を考慮した地熱貯留管理戦略の最適化が不可欠である。 本研究では,深部地熱貯留層のウェルコントロール最適化のために,深部学習サロゲートに基づく閉ループ最適化フレームワークを提案する。 本研究では,畳み込みニューラルネットワーク(cnn)とlong short-term memory(lstm)リカレントネットワークを組み合わせたハイブリッド畳み込み・リカレントニューラルネットワーク(surrogate)を構築する。 畳み込み構造は地質パラメータ場の空間情報を抽出することができ、再帰構造はシーケンスからシーケンスへのマッピングを近似することができる。 トレーニングされたモデルでは、異なる透過性フィールドと良好な制御シーケンスを持つ場合の時間変化生産応答(温度、温度など)を予測することができる。 本発明のクローズドループ最適化フレームワークは、差動進化(DE)アルゴリズムに基づく生産最適化と、繰り返しアンサンブルスムーサ(IES)に基づくデータ同化を交互に行い、生産が進むにつれて、リアルタイムのウェルコントロール最適化と地質パラメータ推定を実現する。 さらに、最適化過程における地質的不確実性を考慮するために、地質学的パラメータ推定のアンサンブルに対する平均的目的関数を採用した。 いくつかの地熱貯留層開発事例は, 提案する生産最適化フレームワークの性能を試験するために設計されている。 その結果, 地熱貯留層生産プロセスにおいて, 効率的な実時間最適化とデータ同化を実現することができた。

To maximize the economic benefits of geothermal energy production, it is essential to optimize geothermal reservoir management strategies, in which geologic uncertainty should be considered. In this work, we propose a closed-loop optimization framework, based on deep learning surrogates, for the well control optimization of geothermal reservoirs. In this framework, we construct a hybrid convolution-recurren t neural network surrogate, which combines the convolution neural network (CNN) and long short-term memory (LSTM) recurrent network. The convolution structure can extract spatial information of geologic parameter fields and the recurrent structure can approximate sequence-to-sequence mapping. The trained model can predict time-varying production responses (rate, temperature, etc.) for cases with different permeability fields and well control sequences. In the closed-loop optimization framework, production optimization based on the differential evolution (DE) algorithm, and data assimilation based on the iterative ensemble smoother (IES), are performed alternately to achieve real-time well control optimization and geologic parameter estimation as the production proceeds. In addition, the averaged objective function over the ensemble of geologic parameter estimations is adopted to consider geologic uncertainty in the optimization process. Several geothermal reservoir development cases are designed to test the performance of the proposed production optimization framework. The results show that the proposed framework can achieve efficient and effective real-time optimization and data assimilation in the geothermal reservoir production process.
翻訳日:2022-04-20 15:07:23 公開日:2022-04-15
# 局所データ制限付きニューラルネットワークを用いた知的空間補間に基づく凍上予測手法

Intelligent Spatial Interpolation-based Frost Prediction Methodology using Artificial Neural Networks with Limited Local Data ( http://arxiv.org/abs/2204.08465v1 )

ライセンス: Link先を確認
Ian Zhou, Justin Lipman, Mehran Abolhasan and Negin Shariati(参考訳) フロストの気象現象は農業に大きな脅威をもたらす。 作物や植物をサプライチェーンの上流から損傷させるため、フロストの潜在的影響は農業関連産業にとって重要である。 最近のフロスト予測は現場の履歴データとセンサーに基づいており、新しいサイトでのデータ収集には追加開発と展開時間が必要である。 本論文の目的は,現場の履歴データと凍害予測のためのセンサへの依存を解消することである。 本稿では,空間補間に基づく凍害予測手法を提案する。 これらのモデルは、既存の気象観測所の気候データ、デジタル標高モデルサーベイ、および正規化差植生指数データを用いて、目標地点の次の1時間最低気温を推定する。 提案手法は,モデルの精度を高めるためにアンサンブル学習を用いる。 アンサンブル法には平均値と重み付け平均値が含まれる。 気候データセットは、ニューサウスウェールズ州とオーストラリアの首都圏の75の気象観測所から得られる。 モデルは5倍の検証で構築され、気象観測所を5つのテストデータセットに分割する。 折りたたみごとに、他のステーションはトレーニングデータセットとして機能する。 モデルの構築後、3つの実験が行われた。 最初の実験は、異なる折りたたみモデルによって生成された結果を比較する。 2つ目の実験は、異なる方法の精度を比較する。 最後の実験では、利用可能なステーションが提案モデルに与える影響を明らかにする。 その結果,提案手法は検出率92.55%に達することがわかった。 この方法は、現場の過去のデータセットが不足している場合に代替ソリューションとして実装できる。

The weather phenomenon of frost poses great threats to agriculture. Since it damages the crops and plants from upstream of the supply chain, the potential impact of frosts is significant for agriculture-related industries. As recent frost prediction methods are based on on-site historical data and sensors, extra development and deployment time are required for data collection in any new site. The aim of this article is to eliminate the dependency on on-site historical data and sensors for frost prediction methods. In this article, a frost prediction method based on spatial interpolation is proposed. The models use climate data from existing weather stations, digital elevation models surveys, and normalized difference vegetation index data to estimate a target site's next hour minimum temperature. The proposed method utilizes ensemble learning to increase the model accuracy. Ensemble methods include averaging and weighted averaging. Climate datasets are obtained from 75 weather stations across New South Wales and Australian Capital Territory areas of Australia. The models are constructed with five-fold validation, splitting the weather stations into five testing dataset folds. For each fold, the other stations act as training datasets. After the models are constructed, three experiments are conducted. The first experiment compares the results generated by models between different folds. Then, the second experiment compares the accuracy of different methods. The final experiment reveals the effect of available stations on the proposed models. The results show that the proposed method reached a detection rate up to 92.55%. This method could be implemented as an alternative solution when on-site historical datasets are scarce.
翻訳日:2022-04-20 14:48:05 公開日:2022-04-15
# DeepCSI:MU-MIMO CSIフィードバックによるWi-Fi無線フィンガープリントの再考

DeepCSI: Rethinking Wi-Fi Radio Fingerprinting Through MU-MIMO CSI Feedback Deep Learning ( http://arxiv.org/abs/2204.07614v1 )

ライセンス: Link先を確認
Francesca Meneghello, Michele Rossi, Francesco Restuccia(参考訳) 標準に準拠したビームフォーミングフィードバック行列を利用して、移動中のmu-mimo wi-fiデバイスを認証する、新しいwi-fi無線指紋認証(rfp)アプローチであるdeepcsiを提案する。 市販の無線回路に固有の欠陥を捕捉することにより、RFP技術は物理層に直接無線デバイスを識別し、低遅延の低エネルギー暗号無認証を可能にする。 しかし、既存のWi-Fi RFP技術はソフトウェア定義無線(SDR)に基づいており、最終的に普及を妨げている可能性がある。 さらに, MU-MIMO送信機の存在下で既存の戦略が有効であるか否かは, 現状のWi-Fi規格における重要な技術である。 従来の作業とは対照的に、DeepCSIはSDR技術を必要とせず、MU-MIMO送信機を認証するために低コストのWi-Fiデバイスで動作させることができる。 我々の重要な直感は、送信機の無線回路の欠陥がビームフォーミングフィードバック行列にパーコレートするため、RFPは明示的なチャネル状態情報(CSI)計算なしで実行できることである。 deepcsiはストリーム間およびユーザ間干渉に対して堅牢であり、これらの現象に影響されないビームフォーミングフィードバックである。 我々は,10個のMU-MIMOWi-Fi無線が異なる位置で信号を発信する,市販の機器を用いた大規模データ収集キャンペーンを通じて,DeepCSIの性能を広範囲に評価した。 実験結果から、DeepCSIは98%の精度で送信機を正確に識別することがわかった。 デバイスが環境内を移動するとき、識別精度は82%以上である。 複製性を許容し、パフォーマンスベンチマークを提供するため、静的に収集された800GBデータセットと、動的条件として初めて、コードデータベースをコミュニティと共有することを約束します。

We present DeepCSI, a novel approach to Wi-Fi radio fingerprinting (RFP) which leverages standard-compliant beamforming feedback matrices to authenticate MU-MIMO Wi-Fi devices on the move. By capturing unique imperfections in off-the-shelf radio circuitry, RFP techniques can identify wireless devices directly at the physical layer, allowing low-latency low-energy cryptography-free authentication. However, existing Wi-Fi RFP techniques are based on software-defined radio (SDRs), which may ultimately prevent their widespread adoption. Moreover, it is unclear whether existing strategies can work in the presence of MU-MIMO transmitters - a key technology in modern Wi-Fi standards. Conversely from prior work, DeepCSI does not require SDR technologies and can be run on any low-cost Wi-Fi device to authenticate MU-MIMO transmitters. Our key intuition is that imperfections in the transmitter's radio circuitry percolate onto the beamforming feedback matrix, and thus RFP can be performed without explicit channel state information (CSI) computation. DeepCSI is robust to inter-stream and inter-user interference being the beamforming feedback not affected by those phenomena. We extensively evaluate the performance of DeepCSI through a massive data collection campaign performed in the wild with off-the-shelf equipment, where 10 MU-MIMO Wi-Fi radios emit signals in different positions. Experimental results indicate that DeepCSI correctly identifies the transmitter with an accuracy of up to 98%. The identification accuracy remains above 82% when the device moves within the environment. To allow replicability and provide a performance benchmark, we pledge to share the 800 GB datasets - collected in static and, for the first time, dynamic conditions - and the code database with the community.
翻訳日:2022-04-19 16:34:07 公開日:2022-04-15
# インスタンス重み付けによる道徳価値のドメインシフト適応のための学習

Learning to Adapt Domain Shifts of Moral Values via Instance Weighting ( http://arxiv.org/abs/2204.07603v1 )

ライセンス: Link先を確認
Xiaolei Huang, Alexandra Wormley, Adam Cohen(参考訳) ソーシャルメディアからユーザ生成テキストの道徳的価値を分類することは、コミュニティ文化を理解し、社会運動のユーザー行動を理解する上で重要である。 道徳的価値と言語使用法は社会運動全体で変化しうるが、テキスト分類法は通常既存の社会運動の源泉領域で訓練され、変化を考慮せずに新しい社会問題の対象領域でテストされる。 本研究では,モラル価値と言語使用のドメインシフトを調査し,モラル分類タスクに対するドメインシフトの影響を定量化し,インスタンス重み付けによるニューラルネットワーク適応フレームワークを提案し,クロスドメイン分類タスクを改善する。 定量化分析は,モラルシフト,言語利用,分類性能との間に強い相関関係が示唆された。 7つのソーシャルムーブメントにまたがる公開twitterデータに基づくニューラルネットワーク適応フレームワークを評価し,最大12.1\%の分類改善を得た。 最後に、倫理的価値をラベル付けした新型コロナウイルスワクチンの新しいデータを公開し、新たなターゲット領域に対するアプローチを評価します。 新型コロナウイルスワクチンのケーススタディでは、我々の適応フレームワークは神経ベースラインよりも最大5.266%改善されている。

Classifying moral values in user-generated text from social media is critical in understanding community cultures and interpreting user behaviors of social movements. Moral values and language usage can change across the social movements; however, text classifiers are usually trained in source domains of existing social movements and tested in target domains of new social issues without considering the variations. In this study, we examine domain shifts of moral values and language usage, quantify the effects of domain shifts on the morality classification task, and propose a neural adaptation framework via instance weighting to improve cross-domain classification tasks. The quantification analysis suggests a strong correlation between morality shifts, language usage, and classification performance. We evaluate the neural adaptation framework on a public Twitter data across 7 social movements and gain classification improvements up to 12.1\%. Finally, we release a new data of the COVID-19 vaccine labeled with moral values and evaluate our approach on the new target domain. For the case study of the COVID-19 vaccine, our adaptation framework achieves up to 5.26\% improvements over neural baselines.
翻訳日:2022-04-19 15:57:55 公開日:2022-04-15
# 置換型進化アルゴリズムのより強固な理論に向けて

Towards a Stronger Theory for Permutation-based Evolutionary Algorithms ( http://arxiv.org/abs/2204.07637v1 )

ライセンス: Link先を確認
Benjamin Doerr, Yassine Ghannane, Marouane Ibn Brahim(参考訳) 進化的アルゴリズム(EA)の理論解析は、過去25年間に擬ブール最適化問題において大きな進歩を遂げてきたが、EAが置換に基づく問題を解決する方法に関する散発的な理論的な結果のみが存在する。 置換に基づくベンチマークの欠如を克服するため,従来の擬似ブールベンチマークを置換集合上で定義されたベンチマークに変換する一般的な方法を提案する。 次に、Scharnow, Tinnefeld, and Wegener (2004) によって提案された置換に基づく $(1+1)$ EA の厳密なランタイム解析を、 \textsc{LeadingOnes} と \textsc{Jump} ベンチマークの類似性に基づいて行う。 後者は、ビットストリングと異なり、置換を$\sigma$を別の$\tau$に変換するのがどれほど難しいかを決定するハミング距離だけでなく、$\sigma \tau^{-1}$の正確なサイクル構造も示している。 このため、より対称的なスクランブル変異演算子も考慮する。 私たちは、それがより単純な証明につながるだけでなく、ジャンプ関数のランタイムを奇なジャンプサイズで$\thetaで減少させるのを観察する。 (n)$。 最後に、ビットストリングの場合のように、スクランブル演算子の重み付きバージョンが$m^{\Thetaの高速化につながることを示す。 (m)}$ on jump function with jump size~$m$ %

While the theoretical analysis of evolutionary algorithms (EAs) has made significant progress for pseudo-Boolean optimization problems in the last 25 years, only sporadic theoretical results exist on how EAs solve permutation-based problems. To overcome the lack of permutation-based benchmark problems, we propose a general way to transfer the classic pseudo-Boolean benchmarks into benchmarks defined on sets of permutations. We then conduct a rigorous runtime analysis of the permutation-based $(1+1)$ EA proposed by Scharnow, Tinnefeld, and Wegener (2004) on the analogues of the \textsc{LeadingOnes} and \textsc{Jump} benchmarks. The latter shows that, different from bit-strings, it is not only the Hamming distance that determines how difficult it is to mutate a permutation $\sigma$ into another one $\tau$, but also the precise cycle structure of $\sigma \tau^{-1}$. For this reason, we also regard the more symmetric scramble mutation operator. We observe that it not only leads to simpler proofs, but also reduces the runtime on jump functions with odd jump size by a factor of $\Theta(n)$. Finally, we show that a heavy-tailed version of the scramble operator, as in the bit-string case, leads to a speed-up of order $m^{\Theta(m)}$ on jump functions with jump size~$m$.%
翻訳日:2022-04-19 15:53:10 公開日:2022-04-15
# 変圧器を用いたマルチフレーム自己監督深度

Multi-Frame Self-Supervised Depth with Transformers ( http://arxiv.org/abs/2204.07616v1 )

ライセンス: Link先を確認
Vitor Guizilini, Rares Ambrus, Dian Chen, Sergey Zakharov, Adrien Gaidon(参考訳) 特徴マッチングによる画像間の幾何学的関係を活用し、外観に基づく特徴を学習することで、シングルフレームアプローチよりもマルチフレーム深度推定が向上する。 本稿では,自己教師付き単眼深度推定のための特徴マッチングを再検討し,コストボリューム生成のための新しいトランスアーキテクチャを提案する。 深度分布のエピポーラサンプリングを用いて、マッチング候補を選択し、一連の自己および横断的な層を通して予測を洗練する。 これらの層は画素特徴間の一致確率を鋭くし、曖昧さや局所最小化による標準類似度指標よりも改善する。 精細化されたコスト容積は深さ推定にデコードされ、パイプライン全体は測光目的のみを使用してビデオからエンドツーエンドに訓練される。 KITTIとDDADデータセットの実験により、私たちのDepthFormerアーキテクチャは、自己教師付き単眼深度推定における技術の新たな状態を確立し、高度に専門化された単一フレームアーキテクチャと競合することを示した。 また、学習したクロスアテンションネットワークはデータセット間で転送可能な表現を生成し、事前学習戦略の有効性を高めることも示す。 プロジェクトページ: https://sites.google .com/tri.global/dept hformer

Multi-frame depth estimation improves over single-frame approaches by also leveraging geometric relationships between images via feature matching, in addition to learning appearance-based features. In this paper we revisit feature matching for self-supervised monocular depth estimation, and propose a novel transformer architecture for cost volume generation. We use depth-discretized epipolar sampling to select matching candidates, and refine predictions through a series of self- and cross-attention layers. These layers sharpen the matching probability between pixel features, improving over standard similarity metrics prone to ambiguities and local minima. The refined cost volume is decoded into depth estimates, and the whole pipeline is trained end-to-end from videos using only a photometric objective. Experiments on the KITTI and DDAD datasets show that our DepthFormer architecture establishes a new state of the art in self-supervised monocular depth estimation, and is even competitive with highly specialized supervised single-frame architectures. We also show that our learned cross-attention network yields representations transferable across datasets, increasing the effectiveness of pre-training strategies. Project page: https://sites.google .com/tri.global/dept hformer
翻訳日:2022-04-19 14:42:16 公開日:2022-04-15
# $\Upsilon$-Net:網膜OCTセグメンテーションのための比スペクトルネットワーク

$\Upsilon$-Net: A Spatiospectral Network for Retinal OCT Segmentation ( http://arxiv.org/abs/2204.07613v1 )

ライセンス: Link先を確認
Azade Farshad, Yousef Yeganeh, Peter Gehlbach, Nassir Navab(参考訳) 網膜光コヒーレンス断層撮影(OCT)画像の自動分割は、医療応用における機械学習の重要な方向となっている。 OCT画像における層の解剖学的構造とその高周波変化は、分光領域の特徴を抽出し、空間領域の特徴と組み合わせるにふさわしい選択である、という仮説を立てた。 本稿では,OCT画像のセグメンテーション性能を向上させるために,周波数領域の特徴と画像領域を組み合わせたアーキテクチャである$\Upsilon$-Netを提案する。 本研究の結果から,スペクトル用と空間領域用という2つの分岐の導入により,流体セグメンテーション性能が大幅に向上し,U-Netモデルと比較して性能が向上することが示されている。 改善率は, 液分画ダイススコアが13%, 平均ダイススコアが1.9%であった。 最後に、スペクトル領域における選択周波数範囲の除去は、これらの特徴が流体セグメンテーション性能に与える影響を示す。

Automated segmentation of retinal optical coherence tomography (OCT) images has become an important recent direction in machine learning for medical applications. We hypothesize that the anatomic structure of layers and their high-frequency variation in OCT images make retinal OCT a fitting choice for extracting spectral-domain features and combining them with spatial domain features. In this work, we present $\Upsilon$-Net, an architecture that combines the frequency domain features with the image domain to improve the segmentation performance of OCT images. The results of this work demonstrate that the introduction of two branches, one for spectral and one for spatial domain features, brings a very significant improvement in fluid segmentation performance and allows outperformance as compared to the well-known U-Net model. Our improvement was 13% on the fluid segmentation dice score and 1.9% on the average dice score. Finally, removing selected frequency ranges in the spectral domain demonstrates the impact of these features on the fluid segmentation outperformance.
翻訳日:2022-04-19 14:34:54 公開日:2022-04-15
# スペイン語 Abstract Meaning Representation: Annotation of a General Corpus (英語)

Spanish Abstract Meaning Representation: Annotation of a General Corpus ( http://arxiv.org/abs/2204.07663v1 )

ライセンス: Link先を確認
Shira Wein, Lucia Donatelli, Ethan Ricker, Calvin Engstrom, Alex Nelson, Nathan Schneider(参考訳) AMR(Abstract Meaning Representation)形式は、もともと英語用に設計されたもので、多くの言語に適応している。 我々は、スペイン語でAMRのアノテーションを提案した結果、架空のテキスト"The Little Prince"のための50のスペイン語AMRアノテーションがリリースされた。 本稿では,スペイン語の抽象的意味表現のための,最初の拡張的な一般アノテーションプロジェクトを提案する。 アノテーションに対する我々のアプローチは、ancora-net lexiconのスペイン語ロールセットを使用し、英語のamrをスペイン語特有の意味的特徴で拡張する。 本ガイドラインに加えて,「抽象的意味表現2.04our Translations」セムバンクから,複数の文書ジャンルの注釈付きコーパス(全586注486注486節)を公表した。 このコーパスは、AMR解析と生成の評価に一般的に使用されるが、金のAMRは含まない。 最後に、不一致分析を行い、AMRの英語以外の言語への適応性に関する研究の意義について議論する。

The Abstract Meaning Representation (AMR) formalism, designed originally for English, has been adapted to a number of languages. We build on previous work proposing the annotation of AMR in Spanish, which resulted in the release of 50 Spanish AMR annotations for the fictional text "The Little Prince." In this work, we present the first sizable, general annotation project for Spanish Abstract Meaning Representation. Our approach to annotation makes use of Spanish rolesets from the AnCora-Net lexicon and extends English AMR with semantic features specific to Spanish. In addition to our guidelines, we release an annotated corpus (586 annotations total, for 486 unique sentences) of multiple genres of documents from the "Abstract Meaning Representation 2.0 - Four Translations" sembank. This corpus is commonly used for evaluation of AMR parsing and generation, but does not include gold AMRs; we hope that providing gold annotations for this dataset can result in a more complete approach to cross-lingual AMR parsing. Finally, we perform a disagreement analysis and discuss the implications of our work on the adaptability of AMR to languages other than English.
翻訳日:2022-04-19 14:32:20 公開日:2022-04-15
# MoEBERT:Importance-G uided AdaptationによるBERTからMixture-of-Experts

MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation ( http://arxiv.org/abs/2204.07675v1 )

ライセンス: Link先を確認
Simiao Zuo, Qingru Zhang, Chen Liang, Pengcheng He, Tuo Zhao, Weizhu Chen(参考訳) 事前訓練された言語モデルは、様々な自然言語処理タスクにおいて優れた性能を示している。 しかしながら、これらのモデルは通常、数億のパラメータを含むため、現実のアプリケーションにおけるレイテンシ要求のため、実用性が制限される。 既存の方法は知識蒸留による小型圧縮モデルを訓練する。 しかし、これらの小型モデルの性能は、モデル容量の削減により、事前訓練されたモデルと比較して著しく低下する。 本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。 トレーニング済みモデルのフィードフォワードニューラルネットワークを複数のエキスパートに適応させることで、MoEBERTを初期化する。 このように、事前訓練されたモデルの表現力は、主に保持される。 推論中は、専門家の1人だけがアクティベートされ、スピードが向上する。 また,MoEBERTをトレーニングするための層ワイド蒸留法を提案する。 自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。 提案手法は既存のタスク固有蒸留アルゴリズムよりも優れていることを示す。 例えば,本手法はMNLIデータセットにおいて,従来の手法よりも2%以上優れていた。 私たちのコードはhttps://github.com/S imiaoZuo/MoEBERT.com で公開されています。

Pre-trained language models have demonstrated superior performance in various natural language processing tasks. However, these models usually contain hundreds of millions of parameters, which limits their practicality because of latency requirements in real-world applications. Existing methods train small compressed models via knowledge distillation. However, performance of these small models drops significantly compared with the pre-trained models due to their reduced model capacity. We propose MoEBERT, which uses a Mixture-of-Experts structure to increase model capacity and inference speed. We initialize MoEBERT by adapting the feed-forward neural networks in a pre-trained model into multiple experts. As such, representation power of the pre-trained model is largely retained. During inference, only one of the experts is activated, such that speed can be improved. We also propose a layer-wise distillation method to train MoEBERT. We validate the efficiency and effectiveness of MoEBERT on natural language understanding and question answering tasks. Results show that the proposed method outperforms existing task-specific distillation algorithms. For example, our method outperforms previous approaches by over 2% on the MNLI (mismatched) dataset. Our code is publicly available at https://github.com/S imiaoZuo/MoEBERT.
翻訳日:2022-04-19 14:32:00 公開日:2022-04-15
# 完全バランス: 教師付きコントラスト学習の伝達とロバスト性の改善

Perfectly Balanced: Improving Transfer and Robustness of Supervised Contrastive Learning ( http://arxiv.org/abs/2204.07596v1 )

ライセンス: Link先を確認
Mayee F. Chen, Daniel Y. Fu, Avanika Narayan, Michael Zhang, Zhao Song, Kayvon Fatahalian, and Christopher R\'e(参考訳) 理想的な学習表現は、転送性と堅牢性を示すべきである。 supervised contrastive learning (supcon)は正確なモデルをトレーニングするための有望な方法だが、クラス内のすべてのポイントが同じ表現にマップされる場合、クラス崩壊によってこれらのプロパティをキャプチャしない表現を生成する。 最近の研究は、これらの表現を「スプレッドアウト」することでそれらを改善することを示唆しているが、正確なメカニズムはよく分かっていない。 スプレッドはクラス内の置換に不変であるため、スプレッドだけではより良い表現には不十分であると主張する。 代わりに、正しい拡散の度合いと、この不変性を壊すメカニズムの両方が必要である。 最初に、SupConに重み付けされたクラス条件InfoNCE損失を追加すると、スプレッドの度合いが制御されることを示す。 次に,制約付きエンコーダの使用,クラス条件付きオートエンコーダの追加,データ拡張の3つのメカニズムについて検討した。 後者の2つは,より現実的な条件下での潜在サブクラスのクラスタリングを促進する。 これらの知見から,SupConにクラス条件InfoNCE損失とクラス条件オートエンコーダを追加することで,5つの標準データセット間の粗大な転送において1.1ポイント,3つのデータセット上で最悪のグループロバスト性が4.7ポイント,CelebA上での最先端技術が11.5ポイント向上することを示す。

An ideal learned representation should display transferability and robustness. Supervised contrastive learning (SupCon) is a promising method for training accurate models, but produces representations that do not capture these properties due to class collapse -- when all points in a class map to the same representation. Recent work suggests that "spreading out" these representations improves them, but the precise mechanism is poorly understood. We argue that creating spread alone is insufficient for better representations, since spread is invariant to permutations within classes. Instead, both the correct degree of spread and a mechanism for breaking this invariance are necessary. We first prove that adding a weighted class-conditional InfoNCE loss to SupCon controls the degree of spread. Next, we study three mechanisms to break permutation invariance: using a constrained encoder, adding a class-conditional autoencoder, and using data augmentation. We show that the latter two encourage clustering of latent subclasses under more realistic conditions than the former. Using these insights, we show that adding a properly-weighted class-conditional InfoNCE loss and a class-conditional autoencoder to SupCon achieves 11.1 points of lift on coarse-to-fine transfer across 5 standard datasets and 4.7 points on worst-group robustness on 3 datasets, setting state-of-the-art on CelebA by 11.5 points.
翻訳日:2022-04-19 14:07:44 公開日:2022-04-15
# 臨床自然言語処理による機械学習によるEDトリアージ敗血症の正確な検出

Accurate detection of sepsis at ED triage using machine learning with clinical natural language processing ( http://arxiv.org/abs/2204.07657v1 )

ライセンス: Link先を確認
Oleksandr Ivanov, Karen Molander, Robert Dunne, Stephen Liu, Kevin Masek, Erica Lewis, Lisa Wolf, Debbie Travers, Deena Brecher, Deb Delaney, Kyla Montgomery, Christian Reilly(参考訳) 敗血症は臓器機能不全を伴う生命を脅かす疾患であり、世界でも主要な死因である。 緊急部トリアージ中の敗血症の正確な検出は、実験室分析、抗生物質投与、その他の敗血症治療プロトコルの早期開始を可能にする。 本研究の目的は,最新の機械学習アルゴリズム(KATE Sepsis)と臨床自然言語処理を用いてEHRデータを抽出,合成し,正確なセプシスモデルを作成することであり,SIRSやqSOFAなどの既存のセプシススクリーニングプロトコルとKATE Sepsisの性能を比較した。 16の病院から得られたトリアージデータを用いて機械学習モデル(KATE Sepsis)を開発した。 kate sepsis, sirs, standard screening (sirs with source of infection)およびqsofaを3つの設定でテストした。 Cohort-Aは、1つのSite 1からの医療記録の振り返り分析である。 Cohort-BはSite 1の予測分析である。 Cohort-Cは15のサイトを持つSite 1の振り返り分析である。 すべてのコホートの中で、KATE Sepsisは73-74.87%のTPRと3.76-7.17%のFPRを持つ0.94-0.963のAUCを示す。 標準スクリーニングでは、AUCは0.682-0.726、TPRは39.39-51.19%、FPRは2.9-6.02%である。 qSOFAプロトコルでは、AUCは0.544-0.56、TPRは10.52-13.18%、FPRは1.22-1.68%である。 重篤な敗血症では全てのコホートで、KATE Sepsisは70-82.26%のTPRと4.64-8.62%のFPRを持つ0.935-0.972のAUCを示す。 すべてのコホートに対して、KATE Sepsisは85.71-89.66%のTPRと4.85-8.8%のFPRを持つ0.96-0.981のAUCを示す。 SIRS, 標準スクリーニング, qSOFAは, 重篤な敗血症と敗血症性ショック検出に対するAUCおよびTPRの低下を示した。 KATE Sepsisは、一般的に使用されるスクリーニングプロトコルよりも、トリアージにおけるセプシス検出性能が大幅に向上した。

Sepsis is a life-threatening condition with organ dysfunction and is a leading cause of death and critical illness worldwide. Accurate detection of sepsis during emergency department triage would allow early initiation of lab analysis, antibiotic administration, and other sepsis treatment protocols. The purpose of this study was to determine whether EHR data can be extracted and synthesized with the latest machine learning algorithms (KATE Sepsis) and clinical natural language processing to produce accurate sepsis models, and compare KATE Sepsis performance with existing sepsis screening protocols, such as SIRS and qSOFA. A machine learning model (KATE Sepsis) was developed using patient encounters with triage data from 16 participating hospitals. KATE Sepsis, SIRS, standard screening (SIRS with source of infection) and qSOFA were tested in three settings. Cohort-A was a retrospective analysis on medical records from a single Site 1. Cohort-B was a prospective analysis of Site 1. Cohort-C was a retrospective analysis on Site 1 with 15 additional sites. Across all cohorts, KATE Sepsis demonstrates an AUC of 0.94-0.963 with 73-74.87% TPR and 3.76-7.17% FPR. Standard screening demonstrates an AUC of 0.682-0.726 with 39.39-51.19% TPR and 2.9-6.02% FPR. The qSOFA protocol demonstrates an AUC of 0.544-0.56, with 10.52-13.18% TPR and 1.22-1.68% FPR. For severe sepsis, across all cohorts, KATE Sepsis demonstrates an AUC of 0.935-0.972 with 70-82.26% TPR and 4.64-8.62% FPR. For septic shock, across all cohorts, KATE Sepsis demonstrates an AUC of 0.96-0.981 with 85.71-89.66% TPR and 4.85-8.8% FPR. SIRS, standard screening, and qSOFA demonstrate low AUC and TPR for severe sepsis and septic shock detection. KATE Sepsis provided substantially better sepsis detection performance in triage than commonly used screening protocols.
翻訳日:2022-04-19 13:29:40 公開日:2022-04-15
# just fine-tune twice: 大きな言語モデルのための選択的微分プライバシー

Just Fine-tune Twice: Selective Differential Privacy for Large Language Models ( http://arxiv.org/abs/2204.07667v1 )

ライセンス: Link先を確認
Weiyan Shi, Si Chen, Chiyuan Zhang, Ruoxi Jia, Zhou Yu(参考訳) 現実世界の製品におけるNLPモデルの採用の増加に伴い、これらのモデルがプライバシー漏洩から保護されることがますます重要になっている。 言語データのプライベート情報は少ないため、以前の研究はSDP(Selective-Differ ential-Privacy)の概念を定式化し、ポリシー関数によって検出された機密トークンの保護を提供し、RNNベースのモデルでその有効性を証明した。 しかし、以前のメカニズムではプライベートモデルとパブリックモデルのパラメータを分離する必要があるため、大きな注意に基づくモデルでは適用できない。 本稿では、まず、ドメイン内再実行データとドメイン内プライベートデータに基づいて、大きなトランスフォーマーベース言語モデルのためのSDPを実現するための、シンプルで効果的なジャストファインチューンツースプライバシ機構を提案する。 また、異なるレベルで保護を提供するために、明示的および文脈的なポリシー関数も設計します。 実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。 さらに,低リソースで少ないドメインデータであっても,SDPはモデルの有用性を向上させることができることを示す。 将来の研究を促進するために、コード、データ、モデルをリリースします。

With the increasing adoption of NLP models in real-world products, it becomes more and more important to protect these models from privacy leakage. Because private information in language data is sparse, previous research formalized a Selective-Differenti al-Privacy (SDP) notion to provide protection for sensitive tokens detected by policy functions, and prove its effectiveness on RNN-based models. But the previous mechanism requires separating the private and public model parameters and thus cannot be applied on large attention-based models. In this paper, we propose a simple yet effective just-fine-tune-twice privacy mechanism to first fine-tune on in-domain redacted data and then on in-domain private data, to achieve SDP for large Transformer-based language models. We also design explicit and contextual policy functions to provide protections at different levels. Experiments show that our models achieve strong performance while staying robust to the canary insertion attack. We further show that even under low-resource settings with a small amount of in-domain data, SDP can still improve the model utility. We will release the code, data and models to facilitate future research.
翻訳日:2022-04-19 13:25:16 公開日:2022-04-15
# コントラストデータ収集による感情的イメージキャプションにおける感情的バイアスの克服

It is Okay to Not Be Okay: Overcoming Emotional Bias in Affective Image Captioning by Contrastive Data Collection ( http://arxiv.org/abs/2204.07660v1 )

ライセンス: Link先を確認
Youssef Mohamed, Faizan Farooq Khan, Kilichbek Haydarov, Mohamed Elhoseiny(参考訳) 視覚、言語、愛情のつながりを捉えるデータセットは限られており、人間の知性に対する感情的な側面の理解が欠如している。 この方向へのステップとして、ArtEmisデータセットは、画像に対する感情反応の大規模なデータセットとして紹介され、これらの選択された感情の言語説明が導入された。 その結果、訓練されたニューラルスピーカーは、表現不足の感情の記述において精度が低下することがわかった。 同様に、新しいデータを集めることは、この感情バイアスを軽減するのに効果がないことを示す。 この問題を解決するために,ArtEmisと新たな相補的データセットのバランスをとるための対照的なデータ収集手法を提案する。 提案手法を用いて260,533インスタンスを収集し,artemisと組み合わせることで,データセットの2回目のイテレーションを生成する。 ArtEmis v2.0と呼ばれるこの組み合わせデータセットは、感情のバランスの取れた分布を持ち、関連する絵の細部がより詳細に説明されている。 実験の結果、新しいデータセットでトレーニングされたニューラルスピーカーは、バイアスデータセットと比較して、CIDErとMETEORの評価基準を20%と7%改善することがわかった。 最後に,すべての感情カテゴリ,特に過度に表現された感情において,ニューラルスピーカーの感情毎のパフォーマンスが向上することを示す。 収集されたデータセットとコードはhttps://artemisdatas et-v2.orgで入手できる。

Datasets that capture the connection between vision, language, and affection are limited, causing a lack of understanding of the emotional aspect of human intelligence. As a step in this direction, the ArtEmis dataset was recently introduced as a large-scale dataset of emotional reactions to images along with language explanations of these chosen emotions. We observed a significant emotional bias towards instance-rich emotions, making trained neural speakers less accurate in describing under-represented emotions. We show that collecting new data, in the same way, is not effective in mitigating this emotional bias. To remedy this problem, we propose a contrastive data collection approach to balance ArtEmis with a new complementary dataset such that a pair of similar images have contrasting emotions (one positive and one negative). We collected 260,533 instances using the proposed method, we combine them with ArtEmis, creating a second iteration of the dataset. The new combined dataset, dubbed ArtEmis v2.0, has a balanced distribution of emotions with explanations revealing more fine details in the associated painting. Our experiments show that neural speakers trained on the new dataset improve CIDEr and METEOR evaluation metrics by 20% and 7%, respectively, compared to the biased dataset. Finally, we also show that the performance per emotion of neural speakers is improved across all the emotion categories, significantly on under-represented emotions. The collected dataset and code are available at https://artemisdatas et-v2.org.
翻訳日:2022-04-19 12:38:24 公開日:2022-04-15
# 自己相似性優先:分化可能なフラクタル表現としての神経コラージュ

Self-Similarity Priors: Neural Collages as Differentiable Fractal Representations ( http://arxiv.org/abs/2204.07673v1 )

ライセンス: Link先を確認
Michael Poli, Winnie Xu, Stefano Massaroli, Chenlin Meng, Kuno Kim, Stefano Ermon(参考訳) 自然界の多くのパターンは自己相似性を示し、それらは自己回帰変換によってコンパクトに記述できる。 いわゆるパターンは、分子、海岸線、銀河、さらには画像などの自然や人工の物体によく見られる。 本研究では,自己相似性の自動発見と下流タスクへの利用における学習の役割について検討する。 そこで我々は,(1)データを自己参照的,構造化された変換のパラメータとして表現し,(2)ハイパーネットワークを用いて,これらのパラメータを1回のフォワードパスで見つけるコストを償却する,新たなクラスであるニューラルコラージュを設計した。 本稿では,ニューラルコラージュが生成する表現を,データ圧縮や生成など様々なタスクで活用する方法を検討する。 ニューラルコラージュ画像圧縮機は、符号化中に他の自己相似性ベースのアルゴリズムよりも桁違い高速で、暗黙の手法と競合する圧縮速度を提供する。 最後に,フラクタルアートおよび深層生成モデルに対するニューラルコラージュの応用について紹介する。

Many patterns in nature exhibit self-similarity: they can be compactly described via self-referential transformations. Said patterns commonly appear in natural and artificial objects, such as molecules, shorelines, galaxies and even images. In this work, we investigate the role of learning in the automated discovery of self-similarity and in its utilization for downstream tasks. To this end, we design a novel class of implicit operators, Neural Collages, which (1) represent data as the parameters of a self-referential, structured transformation, and (2) employ hypernetworks to amortize the cost of finding these parameters to a single forward pass. We investigate how to leverage the representations produced by Neural Collages in various tasks, including data compression and generation. Neural Collages image compressors are orders of magnitude faster than other self-similarity-base d algorithms during encoding and offer compression rates competitive with implicit methods. Finally, we showcase applications of Neural Collages for fractal art and as deep generative models.
翻訳日:2022-04-19 12:36:59 公開日:2022-04-15
# (参考訳) 多領域対話状態追跡のための動的スキーマグラフ融合ネットワーク [全文訳有]

Dynamic Schema Graph Fusion Network for Multi-Domain Dialogue State Tracking ( http://arxiv.org/abs/2204.06677v2 )

ライセンス: CC BY 4.0
Yue Feng, Aldo Lipani, Fanghua Ye, Qiang Zhang, Emine Yilmaz(参考訳) 対話状態追跡(DST)は、会話中にユーザの意図を追跡することを目的としている。 DSTでは、ドメインとスロットの関係をモデル化することはまだ未研究の問題である。 このような関係を考慮に入れた既存のアプローチは、(1)事前のスロットドメインメンバーシップ関係と対話対応のダイナミックスロット関係を明示的に融合し、(2)見当たらないドメインに一般化する。 これらの問題に対処するため,本稿では,従来のスロット領域のメンバシップ関係と対話対応の動的スロット関係を明示的に融合させる動的スキーマグラフを生成する,新しい \textbf{D}ynamic \textbf{S}chema \textbf{G}raph \textbf{F}usion \textbf{Net}work (\textbf{DSGFNet}) を提案する。 また、新しいドメインへの知識転送を容易にするためにスキーマを使用する。 DSGFNetは、対話発話エンコーダ、スキーマグラフエンコーダ、対話対応スキーマグラフ進化ネットワーク、およびスキーマグラフ拡張対話状態デコーダから構成される。 ベンチマークデータセット(SGD、MultiWOZ2.1、MultiWOZ2.2)の実証結果は、DSGFNetが既存の手法より優れていることを示している。

Dialogue State Tracking (DST) aims to keep track of users' intentions during the course of a conversation. In DST, modelling the relations among domains and slots is still an under-studied problem. Existing approaches that have considered such relations generally fall short in: (1) fusing prior slot-domain membership relations and dialogue-aware dynamic slot relations explicitly, and (2) generalizing to unseen domains. To address these issues, we propose a novel \textbf{D}ynamic \textbf{S}chema \textbf{G}raph \textbf{F}usion \textbf{Net}work (\textbf{DSGFNet}), which generates a dynamic schema graph to explicitly fuse the prior slot-domain membership relations and dialogue-aware dynamic slot relations. It also uses the schemata to facilitate knowledge transfer to new domains. DSGFNet consists of a dialogue utterance encoder, a schema graph encoder, a dialogue-aware schema graph evolving network, and a schema graph enhanced dialogue state decoder. Empirical results on benchmark datasets (i.e., SGD, MultiWOZ2.1, and MultiWOZ2.2), show that DSGFNet outperforms existing methods.
翻訳日:2022-04-19 04:05:36 公開日:2022-04-15
# (参考訳) ドメイン特化適応型モデル非依存型マルチドメイン学習 [全文訳有]

Model-agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition ( http://arxiv.org/abs/2204.07270v1 )

ライセンス: CC BY 4.0
Kazuki Omi, Toru Tamaki(参考訳) 本稿では,行動認識のためのマルチドメイン学習モデルを提案する。 提案手法は,バックボーンネットワークのドメイン非依存層の層間にドメイン固有アダプタを挿入する。 分類ヘッドのみを切り替えるマルチヘッドネットワークとは異なり、我々のモデルはヘッドだけでなく、複数のドメインに普遍的な特徴表現を学習するためのアダプタも切り替える。 先行研究と異なり,提案手法はモデル非依存であり,先行研究と異なりモデル構造を想定しない。 一般的な3つの行動認識データセット(HMDB51, UCF101, Kinetics-400)による実験結果から,提案手法はマルチヘッドアーキテクチャよりも有効であり,各ドメインの個別トレーニングモデルよりも効率的であることが示された。

In this paper, we propose a multi-domain learning model for action recognition. The proposed method inserts domain-specific adapters between layers of domain-independent layers of a backbone network. Unlike a multi-head network that switches classification heads only, our model switches not only the heads, but also the adapters for facilitating to learn feature representations universal to multiple domains. Unlike prior works, the proposed method is model-agnostic and doesn't assume model structures unlike prior works. Experimental results on three popular action recognition datasets (HMDB51, UCF101, and Kinetics-400) demonstrate that the proposed method is more effective than a multi-head architecture and more efficient than separately training models for each domain.
翻訳日:2022-04-19 00:33:54 公開日:2022-04-15
# (参考訳) 言語再生のための制限付きコーパス処理を支援する自動音声ツール [全文訳有]

Automated speech tools for helping communities process restricted-access corpora for language revival efforts ( http://arxiv.org/abs/2204.07272v1 )

ライセンス: CC BY 4.0
Nay San, Martijn Bartelds, Tol\'ul\d{o}p\d\'e \`Og\'unr\d\`em\'i, Alison Mount, Ruben Thompson, Michael Higgins, Roy Barker, Jane Simpson, Dan Jurafsky(参考訳) 絶滅危惧言語からの音声の記録の多くは、コミュニティのメンバーや言語学習プログラムに注釈やアクセス不能なままである。 ボトルネックのひとつはアノテーションの時間集約的な性質です。 アクセス制限のあるレコードには、アノテーションを開始する前に、認証されたコミュニティメンバーによって検査またはフィルタリングされる言語など、さらに狭いボトルネックが発生する。 本稿では,メタ言語的解説や質問のための英語など,より広範に使われている言語と,絶滅危惧言語における音声が混在する記録のボトルネックを,双方に広げるためのプライバシー保護ワークフローを提案する。 本研究では,音声活動検出 (VAD) と音声言語識別 (SLI) と自動音声認識 (ASR) を統合してメタリングスティックな内容の書き起こしを行う。 英語とムルワーリを混合した136時間のアーカイブ音声の処理について報告する。 文献のMuruwari custodianと共同研究を行った結果,SLIでは1言語10発,ASRでは英語39分という,最小限の注釈付きトレーニングデータであっても,翻訳時間を20%短縮できることがわかった。

Many archival recordings of speech from endangered languages remain unannotated and inaccessible to community members and language learning programs. One bottleneck is the time-intensive nature of annotation. An even narrower bottleneck occurs for recordings with access constraints, such as language that must be vetted or filtered by authorised community members before annotation can begin. We propose a privacy-preserving workflow to widen both bottlenecks for recordings where speech in the endangered language is intermixed with a more widely-used language such as English for meta-linguistic commentary and questions (e.g. What is the word for 'tree'?). We integrate voice activity detection (VAD), spoken language identification (SLI), and automatic speech recognition (ASR) to transcribe the metalinguistic content, which an authorised person can quickly scan to triage recordings that can be annotated by people with lower levels of access. We report work-in-progress processing 136 hours archival audio containing a mix of English and Muruwari. Our collaborative work with the Muruwari custodian of the archival materials show that this workflow reduces metalanguage transcription time by 20% even given only minimal amounts of annotated training data: 10 utterances per language for SLI and 39 minutes of the English for ASR.
翻訳日:2022-04-19 00:06:46 公開日:2022-04-15
# (参考訳) インクリメンタルプロンプト:生涯イベント検出のためのエピソード記憶プロンプト [全文訳有]

Incremental Prompting: Episodic Memory Prompt for Lifelong Event Detection ( http://arxiv.org/abs/2204.07275v1 )

ライセンス: CC BY 4.0
Minqian Liu, Shiyu Chang, Lifu Huang(参考訳) lifelong event detectionは、新しいイベントタイプとデータでモデルをインクリメンタルに更新することを目的としている。 重要な課題のひとつは、新しいデータを継続的にトレーニングするときに古い型を壊滅的に忘れてしまうことだ。 本稿では,学習タスク固有の知識を明示的に保存するために,エピソディックメモリプロンプト(emp)を導入する。 提案手法では,各タスクに連続的なプロンプトを適用し,モデル予測とイベント固有表現の学習に最適化する。 以前のタスクで学んだempは、後続のタスクでモデルと共に実行され、古い知識を保持し、新しいタスクに転送するメモリモジュールとして機能する。 実験の結果,本手法の有効性が示された。 さらに,生涯学習における新旧のイベントタイプを包括的に分析する。

Lifelong event detection aims to incrementally update a model with new event types and data while retaining the capability on previously learned old types. One critical challenge is that the model would catastrophically forget old types when continually trained on new data. In this paper, we introduce Episodic Memory Prompts (EMP) to explicitly preserve the learned task-specific knowledge. Our method adopts continuous prompt for each task and they are optimized to instruct the model prediction and learn event-specific representation. The EMPs learned in previous tasks are carried along with the model in subsequent tasks, and can serve as a memory module that keeps the old knowledge and transferring to new tasks. Experiment results demonstrate the effectiveness of our method. Furthermore, we also conduct a comprehensive analysis of the new and old event types in lifelong learning.
翻訳日:2022-04-18 23:51:18 公開日:2022-04-15
# (参考訳) 可視性: 協調学習変分オートエンコーダによる空中超音波を用いたプライバシを考慮したヒューマンインスタンスセグメンテーション [全文訳有]

Invisible-to-Visible : Privacy-Aware Human Instance Segmentation using Airborne Ultrasound via Collaborative Learning Variational Autoencoder ( http://arxiv.org/abs/2204.07280v1 )

ライセンス: CC BY 4.0
Risako Tanigawa, Yasunori Ishii, Kazuki Kozuka and Takayoshi Yamashita(参考訳) 屋内での行動理解においては,プライバシーを考慮した人間の行動と行動を認識する必要がある。 カメラ画像は高精度な人間の行動認識に使用できるが、カメラ画像はプライバシーを保たない。 そこで本研究では,目に見える情報,特に空中超音波による行動認識のための新しい事例分割タスクを提案する。 目に見えない情報からサンプルセグメンテーションを行うため,まず音波を反射音方向画像(音像)に変換する。 音像は人物の位置を大まかに識別できるが、その詳細な形状は曖昧である。 そこで本研究では,学習中に音像とrgb画像を同時に利用するcl-vae(collaborative learning variational autoencoder)を提案する。 推論では、音声画像のみからインスタンスセグメンテーション結果を得ることができる。 性能検証の結果、CL-VAEは従来の変分オートエンコーダや他のモデルよりも正確に人間のインスタンスセグメンテーションを推定することができた。 この方法は個別に人間のセグメンテーションを得ることができるため、プライバシ保護を伴う人間の行動認識タスクにも適用できる。

In action understanding in indoor, we have to recognize human pose and action considering privacy. Although camera images can be used for highly accurate human action recognition, camera images do not preserve privacy. Therefore, we propose a new task for human instance segmentation from invisible information, especially airborne ultrasound, for action recognition. To perform instance segmentation from invisible information, we first convert sound waves to reflected sound directional images (sound images). Although the sound images can roughly identify the location of a person, the detailed shape is ambiguous. To address this problem, we propose a collaborative learning variational autoencoder (CL-VAE) that simultaneously uses sound and RGB images during training. In inference, it is possible to obtain instance segmentation results only from sound images. As a result of performance verification, CL-VAE could estimate human instance segmentations more accurately than conventional variational autoencoder and some other models. Since this method can obtain human segmentations individually, it could be applied to human action recognition tasks with privacy protection.
翻訳日:2022-04-18 23:37:11 公開日:2022-04-15
# (参考訳) 長期NLPモデルにおける効率対精度トレードオフの特徴付け [全文訳有]

Characterizing the Efficiency vs. Accuracy Trade-off for Long-Context NLP Models ( http://arxiv.org/abs/2204.07288v1 )

ライセンス: CC BY 4.0
Phyllis Ang, Bhuwan Dhingra, Lisa Wu Wills(参考訳) 長いテキストからなる自然言語処理(NLP)の現実的な応用が数多くあり、長い入力シーケンスを処理できるモデルの精度を測定するNLPベンチマークが増加している。 しかし、これらのベンチマークでは入力サイズやモデルサイズが異なるため、精度、速度、消費電力のトレードオフは考慮されていない。 本研究では,SCROLLSベンチマークによる4つのデータセットの微調整と推論において,Longformer-Encoder- Decoder (LED) とBig Bird の2つの広く使用されている長周期モデルに対して,この精度と効率のトレードオフを系統的に検討する。 このトレードオフがハイパーパラメータ設定によってどのように異なるかを調べるため、固定資源予算の下で4つのシーケンス長(1024, 2048, 3072, 4096)と2つのモデルサイズ(ベースとサイズ)を比較した。 ledは、big birdよりも低いエネルギーコストで一貫して高い精度を実現しています。 要約では, モデルサイズの増加は, 精度を高めるためにシーケンス長の増加よりもエネルギー効率が高いことがわかった。 しかし、これは推論速度が大幅に低下するコストが伴う。 疑問に答えるには、固定リソース予算の下で可能なトレーニングバッチサイズが大きいため、より小さなモデルの方が効率的かつ正確であることが分かる。

With many real-world applications of Natural Language Processing (NLP) comprising of long texts, there has been a rise in NLP benchmarks that measure the accuracy of models that can handle longer input sequences. However, these benchmarks do not consider the trade-offs between accuracy, speed, and power consumption as input sizes or model sizes are varied. In this work, we perform a systematic study of this accuracy vs. efficiency trade-off on two widely used long-sequence models - Longformer-Encoder-D ecoder (LED) and Big Bird - during fine-tuning and inference on four datasets from the SCROLLS benchmark. To study how this trade-off differs across hyperparameter settings, we compare the models across four sequence lengths (1024, 2048, 3072, 4096) and two model sizes (base and large) under a fixed resource budget. We find that LED consistently achieves better accuracy at lower energy costs than Big Bird. For summarization, we find that increasing model size is more energy efficient than increasing sequence length for higher accuracy. However, this comes at the cost of a large drop in inference speed. For question answering, we find that smaller models are both more efficient and more accurate due to the larger training batch sizes possible under a fixed resource budget.
翻訳日:2022-04-18 23:22:07 公開日:2022-04-15
# (参考訳) プロンプト付き事前学習言語モデルにおけるトークンレベル知覚バイアスの同定と測定 [全文訳有]

Identifying and Measuring Token-Level Sentiment Bias in Pre-trained Language Models with Prompts ( http://arxiv.org/abs/2204.07289v1 )

ライセンス: CC BY 4.0
Apoorv Garg, Deval Srivastava, Zhiyang Xu, Lifu Huang(参考訳) 優れた性能のため、人間社会では大規模事前学習言語モデル(plm)が広く採用されている。 しかし、ブラックボックスモデルに埋め込まれた潜在的なバイアスを理解するための効果的なツールがない。 近年のプロンプトチューニングの進歩は, PLMの内部機構を探求する可能性を示している。 本研究では, PLMの潜伏バイアスを検出するために, プロンプトをプローブとして利用する感性アソシエーションテスト(SAT)と感性シフトテスト(SST)の2つのトークンレベル感情テストを提案する。 感情データセットの収集実験により、SATとSSTはPLMの感情バイアスを識別でき、SSTはバイアスを定量化できることが示された。 その結果、微調整がPLMの既存のバイアスを増大させる可能性が示唆された。

Due to the superior performance, large-scale pre-trained language models (PLMs) have been widely adopted in many aspects of human society. However, we still lack effective tools to understand the potential bias embedded in the black-box models. Recent advances in prompt tuning show the possibility to explore the internal mechanism of the PLMs. In this work, we propose two token-level sentiment tests: Sentiment Association Test (SAT) and Sentiment Shift Test (SST) which utilize the prompt as a probe to detect the latent bias in the PLMs. Our experiments on the collection of sentiment datasets show that both SAT and SST can identify sentiment bias in PLMs and SST is able to quantify the bias. The results also suggest that fine-tuning can possibly augment the existing bias in PLMs.
翻訳日:2022-04-18 23:10:02 公開日:2022-04-15
# (参考訳) 理論的保証を伴う不確実性を考慮した非線形変数選択の統一的枠組みに向けて [全文訳有]

Towards a Unified Framework for Uncertainty-aware Nonlinear Variable Selection with Theoretical Guarantees ( http://arxiv.org/abs/2204.07293v1 )

ライセンス: CC BY 4.0
Wenying Deng, Beau Coker, Jeremiah Zhe Liu, Brent A. Coull(参考訳) モデルの不確かさを取り入れ、幅広い機械学習モデル(例えば、ツリーアンサンブル、カーネルメソッド、ニューラルネットワーク)と互換性のある、非線形変数選択のための単純で統一されたフレームワークを開発した。 特に、学習非線形モデル $f(\mathbf{x})$ に対して、積分勾配測度 $\psi_j = \vert \frac{\partial}{\partial \mathbf{x}^j} f(\mathbf{x})\vert^2_2$ を用いて入力変数 $\mathbf{x}^j$ の重要性を定量化することを考える。 次に,(1)後方分布を導出して変数選択の不確かさを定量化するための原理的アプローチを提案し,(2)樹木のアンサンブルのような非微分モデルに対しても一般化可能であることを示す。 厳密なベイズ非パラメトリック定理は、提案手法の後方整合性と漸近的不確実性を保証するために導かれる。 拡張シミュレーションにより,提案アルゴリズムが従来の変数選択法と最近の変数選択法より優れていることを確認した。

We develop a simple and unified framework for nonlinear variable selection that incorporates model uncertainty and is compatible with a wide range of machine learning models (e.g., tree ensembles, kernel methods and neural network). In particular, for a learned nonlinear model $f(\mathbf{x})$, we consider quantifying the importance of an input variable $\mathbf{x}^j$ using the integrated gradient measure $\psi_j = \Vert \frac{\partial}{\partial \mathbf{x}^j} f(\mathbf{x})\Vert^2_2$. We then (1) provide a principled approach for quantifying variable selection uncertainty by deriving its posterior distribution, and (2) show that the approach is generalizable even to non-differentiable models such as tree ensembles. Rigorous Bayesian nonparametric theorems are derived to guarantee the posterior consistency and asymptotic uncertainty of the proposed approach. Extensive simulation confirms that the proposed algorithm outperforms existing classic and recent variable selection methods.
翻訳日:2022-04-18 22:57:14 公開日:2022-04-15
# (参考訳) コントラスト学習による視覚対話におけるクロスモーダル理解の改善 [全文訳有]

Improving Cross-Modal Understanding in Visual Dialog via Contrastive Learning ( http://arxiv.org/abs/2204.07302v1 )

ライセンス: CC BY-SA 4.0
Feilong Chen, Xiuyi Chen, Shuang Xu, Bo Xu(参考訳) ビジュアルダイアログエージェントは、画像の内容とダイアログ履歴の両方を推論した後、一連の質問に答える必要があるため、視覚言語課題である。 既存の手法は、視覚対話におけるモーダルな理解に対処しようとするが、視覚的・テキスト的文脈の理解に基づく候補回答のランク付けには不十分である。 本稿では,視覚言語事前学習モデルvd-bertに基づく視覚ダイアログのクロスモーダル理解を分析し,icmuと呼ばれる視覚ダイアログのクロスモーダル理解を改善するための新しいアプローチを提案する。 icmuは、4方向のコントラスト学習に基づいて異なる引き抜いた入力(イメージ、質問、回答)を区別することで、クロスモーダル理解を強化する。 さらに、ICMUは、視覚対話モデルのクロスモーダル理解を強化するために、シングルターン視覚質問応答を利用して、マルチターン視覚的な会話を処理する。 実験の結果,提案手法は視覚対話モデルのクロスモーダル理解を改善し,VisDialデータセットに十分なゲインをもたらすことが示された。

Visual Dialog is a challenging vision-language task since the visual dialog agent needs to answer a series of questions after reasoning over both the image content and dialog history. Though existing methods try to deal with the cross-modal understanding in visual dialog, they are still not enough in ranking candidate answers based on their understanding of visual and textual contexts. In this paper, we analyze the cross-modal understanding in visual dialog based on the vision-language pre-training model VD-BERT and propose a novel approach to improve the cross-modal understanding for visual dialog, named ICMU. ICMU enhances cross-modal understanding by distinguishing different pulled inputs (i.e. pulled images, questions or answers) based on four-way contrastive learning. In addition, ICMU exploits the single-turn visual question answering to enhance the visual dialog model's cross-modal understanding to handle a multi-turn visually-grounded conversation. Experiments show that the proposed approach improves the visual dialog model's cross-modal understanding and brings satisfactory gain to the VisDial dataset.
翻訳日:2022-04-18 22:38:06 公開日:2022-04-15
# (参考訳) Few-Shot Learningのための単純なパイプラインの限界を押し上げる:外部データと微調整の違い [全文訳有]

Pushing the Limits of Simple Pipelines for Few-Shot Learning: External Data and Fine-Tuning Make a Difference ( http://arxiv.org/abs/2204.07305v1 )

ライセンス: CC BY 4.0
Shell Xu Hu and Da Li and Jan St\"uhmer and Minyoung Kim and Timothy M. Hospedales(参考訳) FSL(Few-shot Learning)はコンピュータビジョンにおける重要かつ話題的な問題であり、高度なメタラーニング手法から単純なトランスファーラーニングベースラインまで幅広い手法の研究を動機付けてきた。 我々は、より現実的で実用的な数ショット画像分類のために、単純だが効果的なパイプラインの限界を推し進めようとしている。 そこで本研究では,ニューラルネットワークアーキテクチャの観点から,非教師なしの外部データを事前トレーニングに利用し,ベースカテゴリを用いてメタトレーニングのための少数ショットタスクをシミュレートし,新しいタスクの少ないラベル付きデータを微調整する,ネットワーク更新の3段階パイプラインについて検討する。 1)外部データによる事前学習はFSLにどのような効果があるのか? (2)最先端のトランスフォーマーアーキテクチャをどのように活用できるか? 3) 微調整がドメインシフトをいかに緩和するか? 最終的に、単純なトランスフォーマーベースのパイプラインは、Mini-ImageNet、CIFAR-FS、CDFSL、Meta-Datasetといった標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。 私たちのコードとデモはhttps://hushell.gith ub.io/pmfで利用可能です。

Few-shot learning (FSL) is an important and topical problem in computer vision that has motivated extensive research into numerous methods spanning from sophisticated meta-learning methods to simple transfer learning baselines. We seek to push the limits of a simple-but-effective pipeline for more realistic and practical settings of few-shot image classification. To this end, we explore few-shot learning from the perspective of neural network architecture, as well as a three stage pipeline of network updates under different data supplies, where unsupervised external data is considered for pre-training, base categories are used to simulate few-shot tasks for meta-training, and the scarcely labelled data of an novel task is taken for fine-tuning. We investigate questions such as: (1) How pre-training on external data benefits FSL? (2) How state-of-the-art transformer architectures can be exploited? and (3) How fine-tuning mitigates domain shift? Ultimately, we show that a simple transformer-based pipeline yields surprisingly good performance on standard benchmarks such as Mini-ImageNet, CIFAR-FS, CDFSL and Meta-Dataset. Our code and demo are available at https://hushell.gith ub.io/pmf.
翻訳日:2022-04-18 22:27:03 公開日:2022-04-15
# (参考訳) 枝・枝の構造解析とゴモリー混合整数切断の学習性

Structural Analysis of Branch-and-Cut and the Learnability of Gomory Mixed Integer Cuts ( http://arxiv.org/abs/2204.07312v1 )

ライセンス: CC BY 4.0
Maria-Florina Balcan, Siddharth Prasad, Tuomas Sandholm, Ellen Vitercik(参考訳) ブランチ・アンド・カット (branch-and-cut) と呼ばれる分岐・バウンドアルゴリズムにおける切断平面の組込みは、現代的な整数プログラミングソルバのバックボーンを形成する。 これらの解法は離散最適化問題を解くための最前線の手法であり、機械学習、オペレーション研究、その他多くの分野に幅広い応用がある。 切断平面を効果的に選択することは整数プログラミングの理論と実践における主要な研究テーマである。 入力整数プログラムに付加される切断平面を定義するパラメータの変化により、アルゴリズムの各ステップがどのように影響を受けるかをピン留めする、分岐切断の新たな構造解析を行う。 この分析の主な応用は、機械学習を用いて分岐切断時に適用すべき切断面を決定するためのサンプル複雑性の保証を導出することである。 これらの保証は、ゴモリー混合整数切断(英語版)(gomory mixed integer cut)のような、整数プログラミングソルバの主要なブレークスルースピードアップの原因となる切断平面の無限族に適用できる。 我々は,分岐・切断の幾何学的および組合せ的構造を解析で活用し,分岐・切断の最近の一般化理論の重要な欠片となっている。

The incorporation of cutting planes within the branch-and-bound algorithm, known as branch-and-cut, forms the backbone of modern integer programming solvers. These solvers are the foremost method for solving discrete optimization problems and thus have a vast array of applications in machine learning, operations research, and many other fields. Choosing cutting planes effectively is a major research topic in the theory and practice of integer programming. We conduct a novel structural analysis of branch-and-cut that pins down how every step of the algorithm is affected by changes in the parameters defining the cutting planes added to the input integer program. Our main application of this analysis is to derive sample complexity guarantees for using machine learning to determine which cutting planes to apply during branch-and-cut. These guarantees apply to infinite families of cutting planes, such as the family of Gomory mixed integer cuts, which are responsible for the main breakthrough speedups of integer programming solvers. We exploit geometric and combinatorial structure of branch-and-cut in our analysis, which provides a key missing piece for the recent generalization theory of branch-and-cut.
翻訳日:2022-04-18 22:13:45 公開日:2022-04-15
# (参考訳) XDBERT: 言語理解を改善するために、クロスプラットフォームシステムからBERTに視覚情報を蒸留する [全文訳有]

XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems to Improve Language Understanding ( http://arxiv.org/abs/2204.07316v1 )

ライセンス: CC BY 4.0
Chan-Jan Hsu, Hung-yi Lee and Yu Tsao(参考訳) トランスフォーマーベースのモデルは自然言語理解(NLU)タスクに広く使われており、マルチモーダルトランスフォーマーは視覚言語タスクに有効である。 本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。 我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。 XDBERT (cross-modal distilled BERT) は, 言語理解評価(GLUE), 逆数世代ベンチマーク(SWAG) ベンチマーク, 可読性ベンチマークにおいて, 事前学習したBERTよりも優れていた。 GLUE上でのXDBERTの性能を解析し,その改善が視覚的に裏付けられていることを示す。

Transformer-based models are widely used in natural language understanding (NLU) tasks, and multimodal transformers have been effective in visual-language tasks. This study explores distilling visual information from pretrained multimodal transformers to pretrained language encoders. Our framework is inspired by cross-modal encoders' success in visual-language tasks while we alter the learning objective to cater to the language-heavy characteristics of NLU. After training with a small number of extra adapting steps and finetuned, the proposed XDBERT (cross-modal distilled BERT) outperforms pretrained-BERT in general language understanding evaluation (GLUE), situations with adversarial generations (SWAG) benchmarks, and readability benchmarks. We analyze the performance of XDBERT on GLUE to show that the improvement is likely visually grounded.
翻訳日:2022-04-18 22:12:38 公開日:2022-04-15
# (参考訳) Knowledgebra: 知識グラフのための代数的学習フレームワーク [全文訳有]

Knowledgebra: An Algebraic Learning Framework for Knowledge Graph ( http://arxiv.org/abs/2204.07328v1 )

ライセンス: CC BY 4.0
Tong Yang, Yifei Wang, Long Sha, Jan Engelbrecht, Pengyu Hong(参考訳) 知識グラフ(KG)表現学習は、データセットに含まれる知識を一貫して表現できるように、エンティティと関係を密度の高い連続ベクトル空間に符号化することを目的としている。 KGデータセットからトレーニングされたDense埋め込みは、KG補完やリンク予測など、さまざまな下流タスクの恩恵を受ける。 しかし、既存のKG埋め込み手法は知識表現のグローバルな一貫性のための体系的なソリューションを提供するには不十分であった。 我々は,その内在する代数的構造の観察に基づいて kg の数学的言語を開発した。 5つの異なる代数的性質を解析することにより、半群は一般知識グラフの関係埋め込みの最も合理的な代数構造であることが証明された。 標準データセットで最先端のパフォーマンスを示す単純な行列半群を用いたインスタンス化モデルであるsemeを実装した。 さらに,人間の知識から派生した連鎖型論理規則を組込み学習に統合する正規化に基づく手法を提案し,その能力の実証を行った。 私たちが知る限り、統計学習に抽象代数を適用することで、この研究は一般知識グラフのための最初の形式言語を開発し、代数的な観点からニューラルシンボリック積分の問題に光を当てる。

Knowledge graph (KG) representation learning aims to encode entities and relations into dense continuous vector spaces such that knowledge contained in a dataset could be consistently represented. Dense embeddings trained from KG datasets benefit a variety of downstream tasks such as KG completion and link prediction. However, existing KG embedding methods fell short to provide a systematic solution for the global consistency of knowledge representation. We developed a mathematical language for KG based on an observation of their inherent algebraic structure, which we termed as Knowledgebra. By analyzing five distinct algebraic properties, we proved that the semigroup is the most reasonable algebraic structure for the relation embedding of a general knowledge graph. We implemented an instantiation model, SemE, using simple matrix semigroups, which exhibits state-of-the-art performance on standard datasets. Moreover, we proposed a regularization-based method to integrate chain-like logic rules derived from human knowledge into embedding training, which further demonstrates the power of the developed language. As far as we know, by applying abstract algebra in statistical learning, this work develops the first formal language for general knowledge graphs, and also sheds light on the problem of neural-symbolic integration from an algebraic perspective.
翻訳日:2022-04-18 21:55:31 公開日:2022-04-15
# (参考訳) MVSTER:高効率マルチビューステレオ用エピポーラ変換器

MVSTER: Epipolar Transformer for Efficient Multi-View Stereo ( http://arxiv.org/abs/2204.07346v1 )

ライセンス: CC BY 4.0
Xiaofeng Wang, Zheng Zhu, Fangbo Qin, Yun Ye, Guan Huang, Xu Chi, Yijia He and Xingang Wang(参考訳) 学習ベースのMulti-View Stereo (MVS) は、ソース画像を基準カメラフラストラムにワープして3Dボリュームを形成する。 fusingステップは、2dセマンティクスと3d空間関連を橋渡しする上で重要な役割を果たす。 しかし、従来の手法では、余分なネットワークを利用して2次元情報を融合キューとして学習し、3次元空間相関を利用して計算コストを増大させる。 そこで,提案手法を用いて2次元意味と3次元空間的関連を効率的に学習するMVSTERを提案する。 具体的には、エピポーラトランスフォーマーは、剥離可能な単眼深度推定器を用いて2Dセマンティクスを強化し、データ依存3Dアソシエーションをエピポーラ線に沿って構築する。 さらにmvsterはカスケード構造に構築されており、エントロピー正規化最適輸送を利用して各段階でより詳細な深さ推定を行う。 MVSNet や CasMVSNet と比較して,我々のMVSTER は DTU ベンチマークで 34% と 14% の相対的改善を実現し,実行時間の80% と 51% の相対的削減を実現しています。 MVSTERは全ての出版作品の中で第1位である。 コードはhttps://github.com/j effwang987でリリースされる。

Learning-based Multi-View Stereo (MVS) methods warp source images into the reference camera frustum to form 3D volumes, which are fused as a cost volume to be regularized by subsequent networks. The fusing step plays a vital role in bridging 2D semantics and 3D spatial associations. However, previous methods utilize extra networks to learn 2D information as fusing cues, underusing 3D spatial correlations and bringing additional computation costs. Therefore, we present MVSTER, which leverages the proposed epipolar Transformer to learn both 2D semantics and 3D spatial associations efficiently. Specifically, the epipolar Transformer utilizes a detachable monocular depth estimator to enhance 2D semantics and uses cross-attention to construct data-dependent 3D associations along epipolar line. Additionally, MVSTER is built in a cascade structure, where entropy-regularized optimal transport is leveraged to propagate finer depth estimations in each stage. Extensive experiments show MVSTER achieves state-of-the-art reconstruction performance with significantly higher efficiency: Compared with MVSNet and CasMVSNet, our MVSTER achieves 34% and 14% relative improvements on the DTU benchmark, with 80% and 51% relative reductions in running time. MVSTER also ranks first on Tanks&Temples-Advanced among all published works. Code is released at https://github.com/J effWang987.
翻訳日:2022-04-18 21:41:06 公開日:2022-04-15
# (参考訳) 群衆注意畳み込みニューラルネットワークを用いた群衆カウント [全文訳有]

Crowd counting with crowd attention convolutional neural network ( http://arxiv.org/abs/2204.07347v1 )

ライセンス: CC BY 4.0
Jiwei Chen, Wen Su, Zengfu Wang(参考訳) 群衆のカウントは、シーンの複雑さとスケールのばらつきのために難しい問題である。 深層学習は群集カウントにおいて大きな改善を遂げてきたが、シーンの複雑さはこれらの手法の判断に影響を与え、通常、一部のオブジェクトを誤ってみなす。 そこで本研究では,CAT-CNN (Crowd Attention Convolutional Neural Network) と呼ばれる新しいエンドツーエンドモデルを提案する。 我々のCAT-CNNは、自動的に信頼マップを符号化することで、各画素位置における人間の頭の重要性を適応的に評価することができる。 信頼度マップの指導により、推定密度マップにおける人間の頭部の位置は、最終的な密度マップの符号化により多くの注意を向けるようになる。 最終密度マップを統合することで、群衆数を得ることができる。 高度に洗練された密度マップを符号化するために、各画像の総群衆数を設計分類タスクに分類し、まず、人口レベルのカテゴリの先を特徴マップに明示的にマッピングする。 提案手法の有効性を検証するため,難解な3つのデータセットについて広範な実験を行った。 その結果,多くの最先端手法よりも優れた手法が得られた。

Crowd counting is a challenging problem due to the scene complexity and scale variation. Although deep learning has achieved great improvement in crowd counting, scene complexity affects the judgement of these methods and they usually regard some objects as people mistakenly; causing potentially enormous errors in the crowd counting result. To address the problem, we propose a novel end-to-end model called Crowd Attention Convolutional Neural Network (CAT-CNN). Our CAT-CNN can adaptively assess the importance of a human head at each pixel location by automatically encoding a confidence map. With the guidance of the confidence map, the position of human head in estimated density map gets more attention to encode the final density map, which can avoid enormous misjudgements effectively. The crowd count can be obtained by integrating the final density map. To encode a highly refined density map, the total crowd count of each image is classified in a designed classification task and we first explicitly map the prior of the population-level category to feature maps. To verify the efficiency of our proposed method, extensive experiments are conducted on three highly challenging datasets. Results establish the superiority of our method over many state-of-the-art methods.
翻訳日:2022-04-18 21:39:57 公開日:2022-04-15
# (参考訳) 不均一多視点観測のフェデレーションデータセット間の変動をモデル化するための微分プライベート確率的フレームワーク

A Differentially Private Probabilistic Framework for Modeling the Variability Across Federated Datasets of Heterogeneous Multi-View Observations ( http://arxiv.org/abs/2204.07352v1 )

ライセンス: CC BY 4.0
Irene Balelli, Santiago Silva and Marco Lorenzi(参考訳) 本研究では,ヘテロジニアスクライアント間のデータ変動をモデル化する新しいフェデレート学習パラダイムを提案する。 提案手法は階層型ベイズ潜在変数モデルを用いて表現され、クライアント固有のパラメータはマスタレベルでのグローバル分布から実現されると仮定され、クライアント間でのデータバイアスと変動性を考慮して推定される。 我々は,潜在マスタの分布とクライアントのパラメータよりも,期待最大化(em)を効果的に最適化できることを示す。 また,形式的微分プライバシー(DP)保証をEM最適化方式と互換性を持って導入する。 アルツハイマー病に罹患した患者の臨床データから, マルチモーダル・メディカル・イメージング・データの解析と臨床成績について検討した。 本手法は,DP保証を実現するためにローカルパラメータ摂動を含む場合においても,iidと非idのいずれにおいてもロバストであることを示す。 さらに、最先端の自動符号化モデルやフェデレーション学習方式と比較して、高品質なデータ再構成を保証しつつ、データ、ビュー、センターの多様性を解釈可能な方法で定量化することができる。 コードはhttps://gitlab.inria .fr/epione/federated -multi-views-ppcaで入手できる。

We propose a novel federated learning paradigm to model data variability among heterogeneous clients in multi-centric studies. Our method is expressed through a hierarchical Bayesian latent variable model, where client-specific parameters are assumed to be realization from a global distribution at the master level, which is in turn estimated to account for data bias and variability across clients. We show that our framework can be effectively optimized through expectation maximization (EM) over latent master's distribution and clients' parameters. We also introduce formal differential privacy (DP) guarantees compatibly with our EM optimization scheme. We tested our method on the analysis of multi-modal medical imaging data and clinical scores from distributed clinical datasets of patients affected by Alzheimer's disease. We demonstrate that our method is robust when data is distributed either in iid and non-iid manners, even when local parameters perturbation is included to provide DP guarantees. Moreover, the variability of data, views and centers can be quantified in an interpretable manner, while guaranteeing high-quality data reconstruction as compared to state-of-the-art autoencoding models and federated learning schemes. The code is available at https://gitlab.inria .fr/epione/federated -multi-views-ppca.
翻訳日:2022-04-18 21:23:31 公開日:2022-04-15
# (参考訳) オンザフライ表現最適化によるテキスト修正 [全文訳有]

Text Revision by On-the-Fly Representation Optimization ( http://arxiv.org/abs/2204.07359v1 )

ライセンス: CC BY 4.0
Jingjing Li, Zichao Li, Tao Ge, Irwin King, Michael R. Lyu(参考訳) テキストリビジョン(英: text revision)とは、テキストの形式や単純さなどの属性を区別しながら、ソースとターゲットシーケンスが、表面形式において適度な類似性を共有する自然言語生成タスクのファミリーを指す。 現在の最先端手法は、大規模並列トレーニングコーパスに依存するシーケンスからシーケンスへの学習問題としてこれらのタスクを定式化している。 本稿では,並列データを必要としないテキスト修正のための反復的インプレース編集手法を提案する。 提案手法では,マスク付き言語モデルと属性分類を備えた事前学習型トランスフォーマーを単純に微調整する。 推論中、各イテレーションでの編集は2段階スパン置換によって実現される。 最初のステップでは、テキストの分散表現が属性関数に向かってオンザフライで最適化される。 2番目のステップでは、テキストスパンをマスクし、最適化された表現に別のテキストスパンを条件付けする。 2つの典型的かつ重要なテキスト修正タスク、テキストの形式化とテキストの単純化に関する実証実験は、我々のアプローチの有効性を示している。 テキストの簡略化に関する最先端の教師付きメソッドよりも競争力があり、テキストの形式化に関する強力な教師なしメソッドよりも優れたパフォーマンスを実現している。

Text revision refers to a family of natural language generation tasks, where the source and target sequences share moderate resemblance in surface form but differentiate in attributes, such as text formality and simplicity. Current state-of-the-art methods formulate these tasks as sequence-to-sequence learning problems, which rely on large-scale parallel training corpus. In this paper, we present an iterative in-place editing approach for text revision, which requires no parallel data. In this approach, we simply fine-tune a pre-trained Transformer with masked language modeling and attribute classification. During inference, the editing at each iteration is realized by two-step span replacement. At the first step, the distributed representation of the text optimizes on the fly towards an attribute function. At the second step, a text span is masked and another new one is proposed conditioned on the optimized representation. The empirical experiments on two typical and important text revision tasks, text formalization and text simplification, show the effectiveness of our approach. It achieves competitive and even better performance than state-of-the-art supervised methods on text simplification, and gains better performance than strong unsupervised methods on text formalization \footnote{Code and model are available at \url{https://github.com/j ingjingli01/OREO}}.
翻訳日:2022-04-18 21:22:22 公開日:2022-04-15
# (参考訳) 問題追跡におけるsurprisalは有効か? [全文訳有]

Is Surprisal in Issue Trackers Actionable? ( http://arxiv.org/abs/2204.07363v1 )

ライセンス: CC BY 4.0
James Caddy, Markus Wagner, Christoph Treude, Earl T. Barr, Miltiadis Allamanis(参考訳) 背景。 情報理論では、仮定とは、ある事象がどれだけ予期しないかを測るものである。 統計的言語モデルは、自然言語の確率論的近似を提供し、確率は事象が起こる確率で構成されるため、英文に関連する確率を決定することが可能である。 ソフトウェアリポジトリのイシュートラッカのイシューとプルリクエストは、開発プロセスに関する洞察を与え、このプロセスの驚くべきイベントを含む可能性が高い。 目的。 以前の作業では、ソフトウェアリポジトリの異常なイベントは開発者にとって関心のあるものであり、単純なコードメトリクスベースのメソッドを使って検出している。 本研究では,surprisalを用いたソフトウェアリポジトリにおける異常事象検出手法を提案する。 驚くべき問題を見つけ、リクエストをプルする能力によって、リポジトリで実際に重要であるかどうか、あるいは対処すべき重要な課題に対処するかどうかを、さらに分析して判断するつもりです。 早い段階で、あるいは追加のトラブルを引き起こす前に、悪いサプライズを見つけることができれば、結果として労力、コスト、時間が節約される可能性は高い。 方法。 GitHub上で最も人気のあるソフトウェアリポジトリ5,000から問題とプルリクエストを抽出した後、これらの問題を表現するために言語モデルをトレーニングします。 我々は,レポジトリにおけるそれらの重要性を計測し,いくつかのアナログを用いてその解決の難しさを測定し,それぞれの素因を計測し,最後に相関関係を記述するための推論統計を生成する。

Background. From information theory, surprisal is a measurement of how unexpected an event is. Statistical language models provide a probabilistic approximation of natural languages, and because surprisal is constructed with the probability of an event occuring, it is therefore possible to determine the surprisal associated with English sentences. The issues and pull requests of software repository issue trackers give insight into the development process and likely contain the surprising events of this process. Objective. Prior works have identified that unusual events in software repositories are of interest to developers, and use simple code metrics-based methods for detecting them. In this study we will propose a new method for unusual event detection in software repositories using surprisal. With the ability to find surprising issues and pull requests, we intend to further analyse them to determine if they actually hold importance in a repository, or if they pose a significant challenge to address. If it is possible to find bad surprises early, or before they cause additional troubles, it is plausible that effort, cost and time will be saved as a result. Method. After extracting the issues and pull requests from 5000 of the most popular software repositories on GitHub, we will train a language model to represent these issues. We will measure their perceived importance in the repository, measure their resolution difficulty using several analogues, measure the surprisal of each, and finally generate inferential statistics to describe any correlations.
翻訳日:2022-04-18 21:06:06 公開日:2022-04-15
# (参考訳) ResT V2: よりシンプルで、より速く、より強く [全文訳有]

ResT V2: Simpler, Faster and Stronger ( http://arxiv.org/abs/2204.07366v1 )

ライセンス: CC BY 4.0
Qing-Long Zhang and Yu-Bin Yang(参考訳) 本稿では,よりシンプルで高速で強力なマルチスケール視覚変換器であるResTv2を提案する。 ResTv2は、ResTv1のEMSA構造を単純化し(つまり、マルチヘッド相互作用部を除去する)、アップサンプル演算を用いて、ダウンサンプリング操作によって失われた中・高周波情報を再構成する。 さらに、下流タスクにResTv2バックボーンをうまく適用するためのさまざまなテクニックについても検討する。 EMSAv2とウィンドウアテンションを組み合わせることで、理論行列乗算FLOPを大幅に削減できるが、計算密度が大幅に低下し、実際の速度が低下することを発見した。 ImageNet分類、COCO検出、ADE20KセマンティックセグメンテーションのResTv2を総合的に検証する。 実験の結果、提案されたResTv2は、最近の最先端のバックボーンを大きなマージンで上回り、ResTv2を固体のバックボーンとしての可能性を示している。 コードとモデルは \url{https://github.com/w ofmanaf/ResT} で公開される。

This paper proposes ResTv2, a simpler, faster, and stronger multi-scale vision Transformer for visual recognition. ResTv2 simplifies the EMSA structure in ResTv1 (i.e., eliminating the multi-head interaction part) and employs an upsample operation to reconstruct the lost medium- and high-frequency information caused by the downsampling operation. In addition, we explore different techniques for better apply ResTv2 backbones to downstream tasks. We found that although combining EMSAv2 and window attention can greatly reduce the theoretical matrix multiply FLOPs, it may significantly decrease the computation density, thus causing lower actual speed. We comprehensively validate ResTv2 on ImageNet classification, COCO detection, and ADE20K semantic segmentation. Experimental results show that the proposed ResTv2 can outperform the recently state-of-the-art backbones by a large margin, demonstrating the potential of ResTv2 as solid backbones. The code and models will be made publicly available at \url{https://github.com/w ofmanaf/ResT}
翻訳日:2022-04-18 20:53:31 公開日:2022-04-15
# (参考訳) 単語順序付けにおける事前学習言語モデルの役割について:BARTを事例として [全文訳有]

On the Role of Pre-trained Language Models in Word Ordering: A Case Study with BART ( http://arxiv.org/abs/2204.07367v1 )

ライセンス: CC BY 4.0
Zebin Ou, Meishan Zhang and Yue Zhang(参考訳) 単語順序付けは制約付き言語生成タスクであり、非順序付き単語を入力とする。 既存の作業では、タスクに線形モデルとニューラルネットワークが使用されているが、事前訓練された言語モデルは、なぜそれが助けになるのかは言うまでもなく、単語順序付けでは研究されていない。 BARTをインスタンスとして使用し、そのタスクの有効性を示す。 BARTが単語の順序付けに役立つ理由を説明するために,BARTにおける構文依存知識が信頼性のある説明であることを示す。 また,関連する部分木線形化タスクにおけるBARTの性能向上について報告する。

Word ordering is a constrained language generation task taking unordered words as input. Existing work uses linear models and neural networks for the task, yet pre-trained language models have not been studied in word ordering, let alone why they help. We use BART as an instance and show its effectiveness in the task. To explain why BART helps word ordering, we extend analysis with probing and empirically identify that syntactic dependency knowledge in BART is a reliable explanation. We also report performance gains with BART in the related partial tree linearization task, which readily extends our analysis.
翻訳日:2022-04-18 20:34:04 公開日:2022-04-15
# (参考訳) 2次元人間のポーズ推定:調査 [全文訳有]

2D Human Pose Estimation: A Survey ( http://arxiv.org/abs/2204.07370v1 )

ライセンス: CC BY 4.0
Haoming Chen, Runyang Feng, Sifan Wu, Hao Xu, Fengcheng Zhou, Zhenguang Liu(参考訳) 人間のポーズ推定は、入力データ(画像、ビデオ、信号など)中の人間の解剖学的キーポイントまたは身体部分のローカライズを目的としている。 マシンが人間の行動についての洞察に富む理解を可能にする上で重要な要素となり、コンピュータビジョンや関連分野において健全な問題となっている。 ディープラーニング技術は、データから直接特徴表現を学習し、人間のポーズ推定のパフォーマンス境界を大幅に押し上げる。 本稿では,2次元人格推定手法の最近の成果を振り返り,包括的調査を行う。 既存のアプローチでは、ネットワークアーキテクチャ設計、ネットワークトレーニングの改良、ポストプロセッシングという3つの方向に取り組みました。 ネットワークアーキテクチャ設計は、人間のポーズ推定モデルのアーキテクチャを調べ、キーポイント認識とローカライゼーションのためのより堅牢な特徴を抽出する。 ネットワークトレーニングの洗練は、ニューラルネットワークのトレーニングに踏み込み、モデルの表現能力を改善することを目的としている。 ポスト処理は、キーポイント検出の性能を改善するために、モデルに依存しない研磨戦略をさらに取り入れている。 この調査には200以上の研究コントリビューションが参加しており、方法論フレームワーク、一般的なベンチマークデータセット、評価指標、パフォーマンス比較がカバーされている。 我々は、研究者に人間のポーズ推定をより包括的で体系的なレビューを提供し、グランドパノラマを獲得し、将来の方向性をよりよく特定できるようにする。

Human pose estimation aims at localizing human anatomical keypoints or body parts in the input data (e.g., images, videos, or signals). It forms a crucial component in enabling machines to have an insightful understanding of the behaviors of humans, and has become a salient problem in computer vision and related fields. Deep learning techniques allow learning feature representations directly from the data, significantly pushing the performance boundary of human pose estimation. In this paper, we reap the recent achievements of 2D human pose estimation methods and present a comprehensive survey. Briefly, existing approaches put their efforts in three directions, namely network architecture design, network training refinement, and post processing. Network architecture design looks at the architecture of human pose estimation models, extracting more robust features for keypoint recognition and localization. Network training refinement tap into the training of neural networks and aims to improve the representational ability of models. Post processing further incorporates model-agnostic polishing strategies to improve the performance of keypoint detection. More than 200 research contributions are involved in this survey, covering methodological frameworks, common benchmark datasets, evaluation metrics, and performance comparisons. We seek to provide researchers with a more comprehensive and systematic review on human pose estimation, allowing them to acquire a grand panorama and better identify future directions.
翻訳日:2022-04-18 19:45:17 公開日:2022-04-15
# (参考訳) ロボット学習における対向ロバスト性-精度トレードオフの再検討 [全文訳有]

Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot Learning ( http://arxiv.org/abs/2204.07373v1 )

ライセンス: CC BY-SA 4.0
Mathias Lechner, Alexander Amini, Daniela Rus, Thomas A. Henzinger(参考訳) 敵意トレーニング(英: adversarial training)とは、ニューラルネットワークを潜在的な敵意攻撃に対して堅牢にする方法である。 しかし、ロバスト性の向上は無償ではなく、全体的なモデルの精度と性能の低下を伴う。 近年の研究では、現実的なロボット学習の応用において、対人訓練の効果は公正なトレードオフを生じず、総合的なロボット性能の測定時に純損失をもたらすことが示されている。 本研究は,ロボット学習におけるロバスト性-精度のトレードオフを再考し,近年のロバストトレーニング手法や理論の進歩が,現実のロボット応用に適した対人トレーニングを実現することができるかどうかを体系的に分析する。 我々は,高忠実な環境下での自律走行から,シミュレートから現実的な展開,移動ロボットジェスチャー認識に至るまで,幅広いロボット学習タスクを評価する。 これらの手法が相対的なスケールでトレードオフを漸進的に改善する一方で,敵対的トレーニングによる負の副作用は,改善を桁違いに上回っていることを実証した。 ロボット学習を実際に行うためには,より強固な学習手法の進歩が必要であると結論づける。

Adversarial training (i.e., training on adversarially perturbed input data) is a well-studied method for making neural networks robust to potential adversarial attacks during inference. However, the improved robustness does not come for free but rather is accompanied by a decrease in overall model accuracy and performance. Recent work has shown that, in practical robot learning applications, the effects of adversarial training do not pose a fair trade-off but inflict a net loss when measured in holistic robot performance. This work revisits the robustness-accuracy trade-off in robot learning by systematically analyzing if recent advances in robust training methods and theory in conjunction with adversarial robot learning can make adversarial training suitable for real-world robot applications. We evaluate a wide variety of robot learning tasks ranging from autonomous driving in a high-fidelity environment amenable to sim-to-real deployment, to mobile robot gesture recognition. Our results demonstrate that, while these techniques make incremental improvements on the trade-off on a relative scale, the negative side-effects caused by adversarial training still outweigh the improvements by an order of magnitude. We conclude that more substantial advances in robust learning methods are necessary before they can benefit robot learning tasks in practice.
翻訳日:2022-04-18 19:08:01 公開日:2022-04-15
# (参考訳) セグメンテーション注意畳み込みニューラルネットワークを用いた群衆カウント [全文訳有]

Crowd counting with segmentation attention convolutional neural network ( http://arxiv.org/abs/2204.07380v1 )

ライセンス: CC BY 4.0
Jiwei Chen, Zengfu Wang(参考訳) ディープラーニングは、群衆数において明白な支配を担っている。 本稿では,SegCrowdNetと呼ばれる新しい畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 群衆シーンの複雑な背景にもかかわらず、SegCrowdNetは人間の頭部領域を適応的に強調し、セグメント化によって非頭部領域を抑制する。 注意機構の指導により、提案するsegcrowdnetは人間の頭部領域に注意を払い、高度に洗練された密度マップを自動的にエンコードする。 密度マップを統合することで、群衆数を得ることができる。 群衆数の変化に対応するために、segcrowdnetは各画像の群衆数をインテリジェントに複数のグループに分類する。 さらに,提案するsegcrowdnetにおいて,複数のスケール特徴を学習し抽出し,群衆のスケール変動を克服する。 提案手法の有効性を検証するために,4つの挑戦的データセットに対して広範な実験を行った。 その結果,提案したSegCrowdNetは最先端の手法と比較して優れた性能を示した。

Deep learning occupies an undisputed dominance in crowd counting. In this paper, we propose a novel convolutional neural network (CNN) architecture called SegCrowdNet. Despite the complex background in crowd scenes, the proposeSegCrowdNet still adaptively highlights the human head region and suppresses the non-head region by segmentation. With the guidance of an attention mechanism, the proposed SegCrowdNet pays more attention to the human head region and automatically encodes the highly refined density map. The crowd count can be obtained by integrating the density map. To adapt the variation of crowd counts, SegCrowdNet intelligently classifies the crowd count of each image into several groups. In addition, the multi-scale features are learned and extracted in the proposed SegCrowdNet to overcome the scale variations of the crowd. To verify the effectiveness of our proposed method, extensive experiments are conducted on four challenging datasets. The results demonstrate that our proposed SegCrowdNet achieves excellent performance compared with the state-of-the-art methods.
翻訳日:2022-04-18 18:51:11 公開日:2022-04-15
# (参考訳) 階層型注意ハイブリッド深層学習法を用いたメールスパム検出 [全文訳有]

Email Spam Detection Using Hierarchical Attention Hybrid Deep Learning Method ( http://arxiv.org/abs/2204.07390v1 )

ライセンス: CC BY 4.0
Sultan Zavrak and Seyhmus Yilmaz(参考訳) メールは最も広く使われているコミュニケーション方法の1つで、何百万人もの人や企業が、日々の知識や情報を伝達し、共有している。 それでも近年、スパムメールの利用者の増加は劇的に増加している。 個人や企業のメールの処理と管理はますます難しくなっている。 本稿では,畳み込みニューラルネットワーク,ゲートリカレントユニット,アテンション機構を組み合わせたメールスパム検出手法を提案する。 システムトレーニング中、ネットワークは電子メールテキストの必要な部分に選択的に集中する。 階層表現によるより有意義で抽象的で一般化可能な特徴を抽出するための畳み込み層の利用は、この研究の主要な貢献である。 さらに、このコントリビューションには、モデルのトレーニングデータセットからより独立したパフォーマンス結果の生成を可能にする、データセット間の評価が含まれている。 クロスデータセット評価の結果, 提案手法は, 時間的畳み込みを活用し, より柔軟な受容場サイズを実現することにより, 現在の注意力に基づく手法の結果を前進させる。 提案手法は最先端のモデルと比較し,本手法の方が優れたことを示す。

Email is one of the most widely used ways to communicate, with millions of people and businesses relying on it to communicate and share knowledge and information on a daily basis. Nevertheless, the rise in email users has occurred a dramatic increase in spam emails in recent years. Processing and managing emails properly for individuals and companies are getting increasingly difficult. This article proposes a novel technique for email spam detection that is based on a combination of convolutional neural networks, gated recurrent units, and attention mechanisms. During system training, the network is selectively focused on necessary parts of the email text. The usage of convolution layers to extract more meaningful, abstract, and generalizable features by hierarchical representation is the major contribution of this study. Additionally, this contribution incorporates cross-dataset evaluation, which enables the generation of more independent performance results from the model's training dataset. According to cross-dataset evaluation results, the proposed technique advances the results of the present attention-based techniques by utilizing temporal convolutions, which give us more flexible receptive field sizes are utilized. The suggested technique's findings are compared to those of state-of-the-art models and show that our approach outperforms them.
翻訳日:2022-04-18 18:36:13 公開日:2022-04-15
# (参考訳) 深層学習モデルが複数の変化型に対する変化点検出を解く [全文訳有]

Deep learning model solves change point detection for multiple change types ( http://arxiv.org/abs/2204.07403v1 )

ライセンス: CC0 1.0
Alexander Stepikin, Evgenia Romanenkova, Alexey Zaytsev(参考訳) 変更点検出は、データ分散の急激な障害をキャッチすることを目的としている。 一般的なアプローチでは、データの固定分布は2つしかないと仮定している。 現実世界のデータはこの仮定よりも豊かだ。 変更前後に複数の異なる分布が存在する可能性がある。 本稿では,マルチディストリビューションシナリオにおけるアプローチを提案する。 提案手法は,変化点検出に適した半構造化データの表現を学習する一方で,共通分類器に基づくアプローチは失敗する。 さらに、我々のモデルは変化点を予測するときにより堅牢です。 ベンチマークに使用されるデータセットは、変更点のない画像のシーケンスである。

A change points detection aims to catch an abrupt disorder in data distribution. Common approaches assume that there are only two fixed distributions for data: one before and another after a change point. Real-world data are richer than this assumption. There can be multiple different distributions before and after a change. We propose an approach that works in the multiple-distributio ns scenario. Our approach learn representations for semi-structured data suitable for change point detection, while a common classifiers-based approach fails. Moreover, our model is more robust, when predicting change points. The datasets used for benchmarking are sequences of images with and without change points in them.
翻訳日:2022-04-18 18:20:39 公開日:2022-04-15
# (参考訳) SSR-HEF: マルチスケールセマンティック精錬による集団カウントとハードケースフォーカス [全文訳有]

SSR-HEF: Crowd Counting with Multi-Scale Semantic Refining and Hard Example Focusing ( http://arxiv.org/abs/2204.07406v1 )

ライセンス: CC BY 4.0
Jiwei Chen, Kewei Wang, Wen Su, Zengfu Wang(参考訳) 密度マップに基づく群衆カウントは一般に回帰課題と見なされ,画像内容と群衆密度分布のマッピングを学ぶために深層学習が用いられる。 かなりの成功を収めているが、カメラから遠く離れた歩行者を検知することは困難である。 そして、ハードな例の数は多くなります。 単純なユークリッド距離アルゴリズムによる既存の手法は、ハードと簡単な例を区別せずに最適化し、ハードの例の密度が誤って低いかゼロであると予測される。 この問題に対処するため,我々はまず,群集カウントの回帰タスクに対するHard Example Focusing(HEF)アルゴリズムを提案する。 hefアルゴリズムは簡単な例の寄与を弱め、ハードな例に素早く焦点を合わせます。 また、群衆シーンのスケールのバリエーションは多様であり、スケールアノテーションは労働集約的で高価である。 マルチスケールセマンティック精錬(SSR)戦略を提案することで、モデルの下位層はディープラーニングの限界を突破し、異なるスケールのセマンティックな特徴を捉え、スケールの変動に十分対処することができる。 提案手法を検証するため,6つのベンチマークデータセットについて広範な実験を行った。 その結果,提案手法が最先端手法よりも優れていることがわかった。 さらに、設計モデルはより小さく、より高速です。

Crowd counting based on density maps is generally regarded as a regression task.Deep learning is used to learn the mapping between image content and crowd density distribution. Although great success has been achieved, some pedestrians far away from the camera are difficult to be detected. And the number of hard examples is often larger. Existing methods with simple Euclidean distance algorithm indiscriminately optimize the hard and easy examples so that the densities of hard examples are usually incorrectly predicted to be lower or even zero, which results in large counting errors. To address this problem, we are the first to propose the Hard Example Focusing(HEF) algorithm for the regression task of crowd counting. The HEF algorithm makes our model rapidly focus on hard examples by attenuating the contribution of easy examples.Then higher importance will be given to the hard examples with wrong estimations. Moreover, the scale variations in crowd scenes are large, and the scale annotations are labor-intensive and expensive. By proposing a multi-Scale Semantic Refining (SSR) strategy, lower layers of our model can break through the limitation of deep learning to capture semantic features of different scales to sufficiently deal with the scale variation. We perform extensive experiments on six benchmark datasets to verify the proposed method. Results indicate the superiority of our proposed method over the state-of-the-art methods. Moreover, our designed model is smaller and faster.
翻訳日:2022-04-18 18:15:20 公開日:2022-04-15
# (参考訳) 終端感度に基づくフィルタプルーニング [全文訳有]

End-to-End Sensitivity-Based Filter Pruning ( http://arxiv.org/abs/2204.07412v1 )

ライセンス: CC BY 4.0
Zahra Babaiee and Lucas Liebenwein and Ramin Hasani and Daniela Rus and Radu Grosu(参考訳) 本稿では,各層におけるフィルタの重要度を評価するために,感度に基づくフィルタプルーニングアルゴリズム(SbF-Pruner)を提案する。 本手法はフィルタ重みからスコアを学習し,各層のフィルタ間の相関関係を考慮できる。 さらに,すべてのレイヤのプルーニングスコアを同時にトレーニングすることで,性能の高いスパースサブネットワークを見つけるのに不可欠な層間依存性を考慮できる。 提案手法は,プレトレーニング済みのネットワークを必要とせずに,一段階の簡単なトレーニングプロセスで,スクラッチからプルーンドネットワークを訓練し,生成することができる。 最終的に、sbf-prunerは暗黙的に各層内の適切なチャネル数を決定できるため、レイヤ固有のハイパーパラメータや事前定義されたレイヤー予算は必要ない。 異なるネットワークアーキテクチャを用いた実験結果から,sbf-prunerは高度なpruning法よりも優れていることが示唆された。 特に、CIFAR-10では、事前訓練されたベースラインネットワークを必要とせずに、ResNet56とResNet110の精度1.02%と1.19%を得る。 SbF-Prunerはパラメータ数を52.3%(ResNet56用)と54%(ResNet101用)に減らし、9.5%と6.6%という最先端のプルーニングアルゴリズムよりも優れている。

In this paper, we present a novel sensitivity-based filter pruning algorithm (SbF-Pruner) to learn the importance scores of filters of each layer end-to-end. Our method learns the scores from the filter weights, enabling it to account for the correlations between the filters of each layer. Moreover, by training the pruning scores of all layers simultaneously our method can account for layer interdependencies, which is essential to find a performant sparse sub-network. Our proposed method can train and generate a pruned network from scratch in a straightforward, one-stage training process without requiring a pretrained network. Ultimately, we do not need layer-specific hyperparameters and pre-defined layer budgets, since SbF-Pruner can implicitly determine the appropriate number of channels in each layer. Our experimental results on different network architectures suggest that SbF-Pruner outperforms advanced pruning methods. Notably, on CIFAR-10, without requiring a pretrained baseline network, we obtain 1.02% and 1.19% accuracy gain on ResNet56 and ResNet110, compared to the baseline reported for state-of-the-art pruning algorithms. This is while SbF-Pruner reduces parameter-count by 52.3% (for ResNet56) and 54% (for ResNet101), which is better than the state-of-the-art pruning algorithms with a high margin of 9.5% and 6.6%.
翻訳日:2022-04-18 17:53:18 公開日:2022-04-15
# (参考訳) 2次元安定物理学インフォームドニューラルネットワークにおける乱流の超解像 [全文訳有]

Super Resolution for Turbulent Flows in 2D: Stabilized Physics Informed Neural Networks ( http://arxiv.org/abs/2204.07413v1 )

ライセンス: CC BY 4.0
Mykhaylo Zayats, Ma{\l}gorzata J. Zimo\'n, Kyongmin Yeo, Sergiy Zhuk(参考訳) 本研究では,乱流のゼロショット超解像問題を解決するニューラルネットワークの設計を提案する。 我々は,Luenberger型オブザーバをネットワークアーキテクチャに組み込んで,プロセスの物理をネットワークに通知し,エラー訂正と安定化機構を提供する。 また、未知の不安定化強制の存在によるオブザーバのパフォーマンス低下を補償するために、ネットワークは、トレーニングの過程でデータから暗黙的に強制される未知のコントリビュートを推定するように設計されている。 数値実験により,提案するネットワークは,データから未知の強制力を回復し,低分解能ノイズ観測から高分解能の乱流を予測することができることを示した。

We propose a new design of a neural network for solving a zero shot super resolution problem for turbulent flows. We embed Luenberger-type observer into the network's architecture to inform the network of the physics of the process, and to provide error correction and stabilization mechanisms. In addition, to compensate for decrease of observer's performance due to the presence of unknown destabilizing forcing, the network is designed to estimate the contribution of the unknown forcing implicitly from the data over the course of training. By running a set of numerical experiments, we demonstrate that the proposed network does recover unknown forcing from data and is capable of predicting turbulent flows in high resolution from low resolution noisy observations.
翻訳日:2022-04-18 17:34:15 公開日:2022-04-15
# (参考訳) 実験的に実現されたmemristive memory augmented neural network

Experimentally realized memristive memory augmented neural network ( http://arxiv.org/abs/2204.07429v1 )

ライセンス: CC BY 4.0
Ruibin Mao (1), Bo Wen (1), Yahui Zhao (1), Arman Kazemi (2 and 3), Ann Franchesca Laguna (3), Michael Neimier (3), X. Sharon Hu (3), Xia Sheng (2), Catherine E. Graves (2), John Paul Strachan (4, 5), Can Li (1) ((1) The University of Hong Kong, (2) Hewlett Packard Labs, (3) University of Notre Dame, (4) Peter Gr\"unberg Institut (PGI-14), (5) RWTH Aachen University)(参考訳) デバイス上での生涯学習は、マシンラーニングにとって重要な課題である。 メモリ拡張ニューラルネットワークは目標を達成するために提案されているが、メモリモジュールはそのサイズのためにオフチップメモリに格納する必要がある。 そのため、用途は限られている。 メモリモジュールの様々な構造を持つ異なるモジュールを同じチップに統合することは困難であり、メモリモジュールのコンテンツアドレス可能なメモリの小さなセンスマージンがミスマッチ計算の度合いを著しく制限しているため、メモリベースの実装に関するこれまでの研究はスケールアップが困難であった。 本研究では、メモリ拡張ニューラルネットワークアーキテクチャ全体を、完全に統合されたmemristive crossbarプラットフォームに実装し、omniglotデータセットのデジタルハードウェア上の標準ソフトウェアと密接に一致する精度を達成する。 成功したデモは、広く報告されている行列乗算に加えて、クロスバーに新しい関数を実装することでサポートされる。 例えば、局所性に敏感なハッシュ操作は、メムリスタ装置の内在的確率性を利用してクロスバーアレイに実装される。 さらに、コンテントアドレス可能なメモリモジュールは、ミスマッチの程度をサポートするクロスバーで実現される。 実験により検証されたモデルに基づくシミュレーションでは,Mini-ImageNetデータセットのワンショット学習において,そのような実装を効率的にスケールアップすることができる。 デモの成功は、デバイス上での生涯学習の実践の道を切り開き、従来のハードウェアでは不可能な新しい注意ベースのアルゴリズムの可能性を開く。

Lifelong on-device learning is a key challenge for machine intelligence, and this requires learning from few, often single, samples. Memory augmented neural network has been proposed to achieve the goal, but the memory module has to be stored in an off-chip memory due to its size. Therefore the practical use has been heavily limited. Previous works on emerging memory-based implementation have difficulties in scaling up because different modules with various structures are difficult to integrate on the same chip and the small sense margin of the content addressable memory for the memory module heavily limited the degree of mismatch calculation. In this work, we implement the entire memory augmented neural network architecture in a fully integrated memristive crossbar platform and achieve an accuracy that closely matches standard software on digital hardware for the Omniglot dataset. The successful demonstration is supported by implementing new functions in crossbars in addition to widely reported matrix multiplications. For example, the locality-sensitive hashing operation is implemented in crossbar arrays by exploiting the intrinsic stochasticity of memristor devices. Besides, the content-addressable memory module is realized in crossbars, which also supports the degree of mismatches. Simulations based on experimentally validated models show such an implementation can be efficiently scaled up for one-shot learning on the Mini-ImageNet dataset. The successful demonstration paves the way for practical on-device lifelong learning and opens possibilities for novel attention-based algorithms not possible in conventional hardware.
翻訳日:2022-04-18 17:20:06 公開日:2022-04-15
# (参考訳) ML_LTU at SemEval-2022 Task 4: T5 to Identifying Patronizing and Condescending Language [全文訳有]

ML_LTU at SemEval-2022 Task 4: T5 Towards Identifying Patronizing and Condescending Language ( http://arxiv.org/abs/2204.07432v1 )

ライセンス: CC BY 4.0
Tosin Adewumi, Lama Alkhaled, Hamam Alkhaled, Foteini Liwicki and Marcus Liwicki(参考訳) 本稿では,SemEval-2022 Task 4: Patronizing and Condescending Language (PCL) Detectionのサブタスク1でLTUの機械学習グループが使用しているシステムについて述べる。 本システムでは,事前学習したテキスト-テキスト変換トランス(t5)を微調整し,その非クラス予測を革新的に削減する。 この論文の主な貢献は 1)我々が使用したt5モデルの実装詳細の説明。 2)この課題におけるモデルの成功と苦労の分析 3)データ分割の相対的重要性を確認するための公式提出以上のアブレーション研究。 我々のモデルは公式テストセットで0.5452のF1スコアを達成する。

This paper describes the system used by the Machine Learning Group of LTU in subtask 1 of the SemEval-2022 Task 4: Patronizing and Condescending Language (PCL) Detection. Our system consists of finetuning a pretrained Text-to-Text-Transfe r Transformer (T5) and innovatively reducing its out-of-class predictions. The main contributions of this paper are 1) the description of the implementation details of the T5 model we used, 2) analysis of the successes & struggles of the model in this task, and 3) ablation studies beyond the official submission to ascertain the relative importance of data split. Our model achieves an F1 score of 0.5452 on the official test set.
翻訳日:2022-04-18 17:18:46 公開日:2022-04-15
# (参考訳) twitter上の政治コミュニティ:2022年のフランス大統領選挙を事例として [全文訳有]

Political Communities on Twitter: Case Study of the 2022 French Presidential Election ( http://arxiv.org/abs/2204.07436v1 )

ライセンス: CC BY 4.0
Hadi Abdine, Yanzhu Guo, Virgile Rennard, Michalis Vazirgiannis(参考訳) ソーシャルメディアプラットフォーム上でのユーザー増加に伴い、政治キャンペーンの新たな手段が出現している。 twitterとfacebookは選挙期間中に有名なキャンペーンツールになった。 実際、候補者とその党は今やインターネットを利用して彼らのアイデアを交流し広めている。 本稿では,2022年のフランス大統領選挙においてTwitter上に形成された政治コミュニティを特定し,それぞれのコミュニティを分析することを目的とする。 私たちは、選挙に関連するキーワードに言及する120万のユーザと626万のツイートを含む、大規模なtwitterデータセットを作成しました。 我々は,利用者のリツイートグラフ上でコミュニティ検出を行い,各コミュニティのスタンスを詳細に分析する。 最後に、攻撃的なツイートや自動ボットを検出し、各候補の支持層とオンラインキャンペーン戦略に関する洞察を得るために、コミュニティ全体で比較する。

With the significant increase in users on social media platforms, a new means of political campaigning has appeared. Twitter and Facebook are now notable campaigning tools during elections. Indeed, the candidates and their parties now take to the internet to interact and spread their ideas. In this paper, we aim to identify political communities formed on Twitter during the 2022 French presidential election and analyze each respective community. We create a large-scale Twitter dataset containing 1.2 million users and 62.6 million tweets that mention keywords relevant to the election. We perform community detection on a retweet graph of users and propose an in-depth analysis of the stance of each community. Finally, we attempt to detect offensive tweets and automatic bots, comparing across communities in order to gain insight into each candidate's supporter demographics and online campaign strategy.
翻訳日:2022-04-18 17:10:53 公開日:2022-04-15
# (参考訳) Mask R-CNN アルゴリズムを用いた廃棄物のインスタンス分割のための移動学習 [全文訳有]

Transfer Learning for Instance Segmentation of Waste Bottles using Mask R-CNN Algorithm ( http://arxiv.org/abs/2204.07437v1 )

ライセンス: CC BY 4.0
Punitha Jaikumar, Remy Vandaele, Varun Ojha(参考訳) 本稿では, プラスチックボトル検出のための移動学習手法と, <textit{mask region proposal convolutional neural network} (Mask R-CNN) を用いたインスタンスセグメンテーションを提案する。 プラスチックボトルは、海洋と陸両方の環境に深刻な脅威をもたらす主要な汚染物質の一つである。 ボトルの自動識別と分離はプラスチック廃棄物のリサイクルを促進する。 自動セグメンテーションタスクのための画素別多角形アノテーションによる192瓶画像のカスタムメイドデータセットを作成する。 提案手法は,Microsoft COCOデータセット上で事前学習したMask R-CNNモデルを利用する。 本稿では,学習済みのMask-RCNNモデルをカスタムデータセット上で微調整するための総合的なスキームを提案する。 最後の微調整モデルは,MS COCO測定値に対応する59.4 \textit{mean average precision} (mAP)を達成した。 その結果, 廃棄物ボトル検出における深層学習の有望な応用が示唆された。

This paper proposes a methodological approach with a transfer learning scheme for plastic waste bottle detection and instance segmentation using the \textit{mask region proposal convolutional neural network} (Mask R-CNN). Plastic bottles constitute one of the major pollutants posing a serious threat to the environment both in oceans and on land. The automated identification and segregation of bottles can facilitate plastic waste recycling. We prepare a custom-made dataset of 192 bottle images with pixel-by pixel-polygon annotation for the automatic segmentation task. The proposed transfer learning scheme makes use of a Mask R-CNN model pre-trained on the Microsoft COCO dataset. We present a comprehensive scheme for fine-tuning the base pre-trained Mask-RCNN model on our custom dataset. Our final fine-tuned model has achieved 59.4 \textit{mean average precision} (mAP), which corresponds to the MS COCO metric. The results indicate a promising application of deep learning for detecting waste bottles.
翻訳日:2022-04-18 16:57:04 公開日:2022-04-15
# (参考訳) スケーラブルでリアルタイムなマルチカメラ車両検出,再識別,トラッキング [全文訳有]

Scalable and Real-time Multi-Camera Vehicle Detection, Re-Identification, and Tracking ( http://arxiv.org/abs/2204.07442v1 )

ライセンス: CC BY 4.0
Pirazh Khorramshahi, Vineet Shenoy, Michael Pack, Rama Chellappa(参考訳) マルチカメラの車両追跡は、車両検出、追跡、再識別などの異なるタスクを含むコンピュータビジョンにおいて最も複雑なタスクの1つである。 課題にもかかわらず、マルチカメラ車両の追跡は、速度、ボリューム、オリジンデスティネーション(o-d)、ルーティングデータ生成など、輸送アプリケーションにおいて大きな可能性を秘めている。 近年,マルチカメラトラッキング問題に対処する研究がいくつかある。 しかしながら、高品質なベンチマークデータセットの精度向上に向けた努力の大部分は、低解像度なカメラ解像度、圧縮アーティファクト、その端でこのタスクを実行するのに必要な膨大な計算能力と時間を無視しながら、大規模かつリアルタイムなデプロイメントを禁止している。 そこで本研究では,動作可能なタイムリーな洞察を提供するために,マルチカメラトラッキングシステムの設計に対処すべき実用的課題について述べる。 さらに,実世界の低解像度cctvを理想的かつキュレートされたビデオストリームに代えて処理し,計算集約的な代替手段と比較し,リアルタイム都市規模のマルチカメラ車両追跡システムを提案する。 その効果を示すために,地域統合交通情報システム(ritis)への統合に加えて,2021年のnvidia ai city multi-camera tracking challengeにも参加し,この手法を一般のリーダボード上で上位5位にランクインした。

Multi-camera vehicle tracking is one of the most complicated tasks in Computer Vision as it involves distinct tasks including Vehicle Detection, Tracking, and Re-identification. Despite the challenges, multi-camera vehicle tracking has immense potential in transportation applications including speed, volume, origin-destination (O-D), and routing data generation. Several recent works have addressed the multi-camera tracking problem. However, most of the effort has gone towards improving accuracy on high-quality benchmark datasets while disregarding lower camera resolutions, compression artifacts and the overwhelming amount of computational power and time needed to carry out this task on its edge and thus making it prohibitive for large-scale and real-time deployment. Therefore, in this work we shed light on practical issues that should be addressed for the design of a multi-camera tracking system to provide actionable and timely insights. Moreover, we propose a real-time city-scale multi-camera vehicle tracking system that compares favorably to computationally intensive alternatives and handles real-world, low-resolution CCTV instead of idealized and curated video streams. To show its effectiveness, in addition to integration into the Regional Integrated Transportation Information System (RITIS), we participated in the 2021 NVIDIA AI City multi-camera tracking challenge and our method is ranked among the top five performers on the public leaderboard.
翻訳日:2022-04-18 16:48:55 公開日:2022-04-15
# (参考訳) deep features fusion法によるビデオ中の暴力の検出 [全文訳有]

Detecting Violence in Video Based on Deep Features Fusion Technique ( http://arxiv.org/abs/2204.07443v1 )

ライセンス: CC BY 4.0
Heyam M. Bin Jahlan and Lamiaa A. Elrefaei(参考訳) 多くの公共の場所で監視カメラが急速に成長し、モール、通り、学校、刑務所などの単身の人間活動に繋がるようになり、暴力事件を自動的に検知するシステムが求められている。 暴力を検知するビデオのau-tomatic analysisは法執行に重要である。 さらに、社会的、経済的、環境的な損害を回避できる。 現在、すべてのシステムは、非効率で不正確なビデオの暴力シーンを検知するために、人手による監督を必要とする。 この作品では、私たちは2人以上を巻き込んだ身体的な暴力に関心があります。 本研究は,alexnet と squeezenet の2つの異なる畳み込みニューラルネットワーク (cnns) の融合技術を用いて,暴力を検出する新しい手法を提案する。 それぞれのネットワークはコンボリューションロング短期メモリ(ConvLSTM)を分離し、最後に隠された状態でビデオからロバストでリッチな特徴を抽出する。 そして、これら2つの状態の融合を行い、最大プーリング層に供給した。 最後に,完全連結層とソフトマックス分類器を用いて特徴を分類した。 提案手法の性能は, ホッケーファイトデータセット, 映画データセット, 暴力フローデータセットの3つの標準ベンチマークデータセットを用いて評価した。 その結果,それぞれ97%,100%,96%の精度を示した。 その結果, 暴力的映像の認識において, 提案手法の有望性を示した。

With the rapid growth of surveillance cameras in many public places to mon-itor human activities such as in malls, streets, schools and, prisons, there is a strong demand for such systems to detect violence events automatically. Au-tomatic analysis of video to detect violence is significant for law enforce-ment. Moreover, it helps to avoid any social, economic and environmental damages. Mostly, all systems today require manual human supervisors to de-tect violence scenes in the video which is inefficient and inaccurate. in this work, we interest in physical violence that involved two persons or more. This work proposed a novel method to detect violence using a fusion tech-nique of two significantly different convolutional neural networks (CNNs) which are AlexNet and SqueezeNet networks. Each network followed by separate Convolution Long Short Term memory (ConvLSTM) to extract ro-bust and richer features from a video in the final hidden state. Then, making a fusion of these two obtained states and fed to the max-pooling layer. Final-ly, features were classified using a series of fully connected layers and soft-max classifier. The performance of the proposed method is evaluated using three standard benchmark datasets in terms of detection accuracy: Hockey Fight dataset, Movie dataset and Violent Flow dataset. The results show an accuracy of 97%, 100%, and 96% respectively. A comparison of the results with the state of the art techniques revealed the promising capability of the proposed method in recognizing violent videos.
翻訳日:2022-04-18 16:21:22 公開日:2022-04-15
# (参考訳) マルチエージェント学習におけるcredoの重要性 [全文訳有]

The Importance of Credo in Multiagent Learning ( http://arxiv.org/abs/2204.07471v1 )

ライセンス: CC0 1.0
David Radke, Kate Larson, Tim Brecht(参考訳) 本稿では,複数のグループ(チーム)に構成されたシステム内のエージェントに対する,多目的最適化のモデルであるクレドを提案する。 credoのモデルは、エージェントが属するコンポーネントグループの振る舞いを最適化する方法を規定します。 我々は,強化学習エージェントを用いて社会ジレンマに挑戦する文脈でクレドを評価する。 結果から,チームメイトやシステム全体の利益は,グローバルな成果のために完全に整合する必要はないことが示唆された。 我々は、すべてのエージェントの利益が一致している場合と比較して、高い平等と著しく高い平均人口報酬を達成する、完全な共通の関心を持たない2つのシナリオを特定する。

We propose a model for multi-objective optimization, a credo, for agents in a system that are configured into multiple groups (i.e., teams). Our model of credo regulates how agents optimize their behavior for the component groups they belong to. We evaluate credo in the context of challenging social dilemmas with reinforcement learning agents. Our results indicate that the interests of teammates, or the entire system, are not required to be fully aligned for globally beneficial outcomes. We identify two scenarios without full common interest that achieve high equality and significantly higher mean population rewards compared to when the interests of all agents are aligned.
翻訳日:2022-04-18 16:11:10 公開日:2022-04-15
# (参考訳) 中国語のイディオムパラフレーズ [全文訳有]

Chinese Idiom Paraphrasing ( http://arxiv.org/abs/2204.07555v1 )

ライセンス: CC BY 4.0
Jipeng Qiang, Yang Li, Chaowei Zhang, Yun Li, Yunhao Yuan, Yi Zhu, Xindong Wu(参考訳) イディオム(英: idioms)は、中国語の慣用表現の一種で、ほとんどが4つの漢字からなる。 非構成性や比喩的意味の性質から、中国語のイディオムは子供や非母語話者によって理解されにくい。 本研究は,中国語Idiom Paraphrasing (CIP) と呼ばれる新しい課題を提案する。 CIPは、原文の意味を保存するという前提のもと、イディオムを含む文を非慣用句に言い換えることを目的としている。 慣用句のない文は中国語のNLPシステムで処理しやすいため、CIPは中国語のデータセットを前処理し、機械翻訳システム、中国語のidiom cloze、中国語のidiom Embeddingsなどの中国語のNLPタスクの実行を容易に改善することができる。 本研究では,CIPタスクを特別なフレーズ生成タスクとして扱う。 アノテーション取得の難しさを回避するため,まず115,530対の文対からなる人間と機械の協調に基づく大規模CIPデータセットを構築した。 さらに、CIP問題に対処するために、3つのベースラインと2つの新しいCIPアプローチを展開します。 その結果,提案手法は確立したCIPデータセットに基づくベースラインよりも優れた性能を示した。

Idioms, are a kind of idiomatic expression in Chinese, most of which consist of four Chinese characters. Due to the properties of non-compositionality and metaphorical meaning, Chinese Idioms are hard to be understood by children and non-native speakers. This study proposes a novel task, denoted as Chinese Idiom Paraphrasing (CIP). CIP aims to rephrase idioms-included sentences to non-idiomatic ones under the premise of preserving the original sentence's meaning. Since the sentences without idioms are easier handled by Chinese NLP systems, CIP can be used to pre-process Chinese datasets, thereby facilitating and improving the performance of Chinese NLP tasks, e.g., machine translation system, Chinese idiom cloze, and Chinese idiom embeddings. In this study, CIP task is treated as a special paraphrase generation task. To circumvent difficulties in acquiring annotations, we first establish a large-scale CIP dataset based on human and machine collaboration, which consists of 115,530 sentence pairs. We further deploy three baselines and two novel CIP approaches to deal with CIP problems. The results show that the proposed methods have better performances than the baselines based on the established CIP dataset.
翻訳日:2022-04-18 15:51:38 公開日:2022-04-15
# auton-survival: Censored Time-to-Event Dataによる回帰、反ファクト推定、評価、表現のためのオープンソースパッケージ

auton-survival: an Open-Source Package for Regression, Counterfactual Estimation, Evaluation and Phenotyping with Censored Time-to-Event Data ( http://arxiv.org/abs/2204.07276v1 )

ライセンス: Link先を確認
Chirag Nagpal, Willa Potosnak and Artur Dubrawski(参考訳) 医療における機械学習の応用は、しばしば、有害事象の予測、再病院化、死亡など、イベントからイベントへの予測タスクをこなす必要がある。 このような結果は通常、フォローアップの欠如により検閲の対象となる。 標準的な機械学習手法は、検閲された結果のデータセットに簡単に適用することはできない。 本稿では,検閲されたイベント時間やサバイバルデータの処理を合理化するツールのオープンソースリポジトリであるauton-survivalを提案する。 auton-survivalには、生存回帰、ドメインシフトの有無の調整、偽物推定、リスク階層化のための表現型化、評価、治療効果の評価などのツールが含まれている。 実世界のケーススタディでは,SEERオンコロジー発生データの大部分を用いて,複雑な健康や疫学的な疑問に答える上で,データ科学者を迅速に支援するオートサバイバルの能力を示す。

Applications of machine learning in healthcare often require working with time-to-event prediction tasks including prognostication of an adverse event, re-hospitalization or death. Such outcomes are typically subject to censoring due to loss of follow up. Standard machine learning methods cannot be applied in a straightforward manner to datasets with censored outcomes. In this paper, we present auton-survival, an open-source repository of tools to streamline working with censored time-to-event or survival data. auton-survival includes tools for survival regression, adjustment in the presence of domain shift, counterfactual estimation, phenotyping for risk stratification, evaluation, as well as estimation of treatment effects. Through real world case studies employing a large subset of the SEER oncology incidence data, we demonstrate the ability of auton-survival to rapidly support data scientists in answering complex health and epidemiological questions.
翻訳日:2022-04-18 15:29:30 公開日:2022-04-15
# 可逆ニューラルネットワークの普遍近似特性

Universal approximation property of invertible neural networks ( http://arxiv.org/abs/2204.07415v1 )

ライセンス: Link先を確認
Isao Ishikawa, Takeshi Teshima, Koichi Tojo, Kenta Oono, Masahiro Ikeda, Masashi Sugiyama(参考訳) invertible neural network (inn) は、設計によって可逆性を持つニューラルネットワークアーキテクチャである。 その可逆性とヤコビアンのトラクタビリティのおかげで、IGNは確率的モデリング、生成的モデリング、表現的学習など、さまざまな機械学習応用がある。 しかし、それらの魅力的な性質は、しばしば層の設計を制限するコストがかかるため、それらの表現力に疑問を呈する:これらのモデルを使って十分に多様な関数を近似できるだろうか? そこで我々は, 微分幾何学の構造定理に基づいて, INNの表現力に関する一般的な理論的枠組みを開発した。 このフレームワークは微分同相写像の近似問題を単純化し、innの普遍近似性を示すことができる。 INNの代表クラスであるCF-INN(Coupling-Flow -based INN)とNeural Ordinary Differential Equations(Neural Ordinary Differential Equations)にこのフレームワークを適用し,アーキテクチャの制約にもかかわらず高い表現力を実現する。

Invertible neural networks (INNs) are neural network architectures with invertibility by design. Thanks to their invertibility and the tractability of Jacobian, INNs have various machine learning applications such as probabilistic modeling, generative modeling, and representation learning. However, their attractive properties often come at the cost of restricting the layer designs, which poses a question on their representation power: can we use these models to approximate sufficiently diverse functions? To answer this question, we have developed a general theoretical framework to investigate the representation power of INNs, building on a structure theorem of differential geometry. The framework simplifies the approximation problem of diffeomorphisms, which enables us to show the universal approximation properties of INNs. We apply the framework to two representative classes of INNs, namely Coupling-Flow-based INNs (CF-INNs) and Neural Ordinary Differential Equations (NODEs), and elucidate their high representation power despite the restrictions on their architectures.
翻訳日:2022-04-18 15:29:12 公開日:2022-04-15
# テンソルPCAにおける統計計算トレードオフと通信複雑度による関連問題

Statistical-Computat ional Trade-offs in Tensor PCA and Related Problems via Communication Complexity ( http://arxiv.org/abs/2204.07526v1 )

ライセンス: Link先を確認
Rishabh Dudeja and Daniel Hsu(参考訳) テンソルpca(tensor pca)は、モンタナリとリチャードが高次モーメントテンソルから未知のパラメータを推定する計算の難しさを研究するために導入した定式化された統計推論問題である。 行列と異なり、Tensor PCAは統計計算のギャップ、すなわち、問題は情報理論的に解けるが計算的に難しいと推測されるサンプルサイズ状態を示す。 本稿では,通信複雑性を用いたテンソルpcaのメモリ有界アルゴリズムの実行時の計算下限を導出する。 これらの下位境界は、データサンプルのパス数、サンプルサイズ、テンソルPCAの解決に成功するアルゴリズムに必要なメモリ間のトレードオフを規定している。 下限は多項式時間アルゴリズムを除外しないが、勾配降下やパワー法のような多くのよく使われるアルゴリズムは、サンプルサイズが十分でない場合、イテレーション数が高くなければならないことを暗示している。 低次モーメントテンソルが未知のパラメータに関する情報を持たない統計量推定問題である非ガウス成分分析において、同様の下限が得られる。 最後に、テンソルPCAの非対称変種と関連する統計的推定問題に対して、より強い下界を求める。 これらの結果は、多くの推定者が興味のあるパラメータの有効次元よりもはるかに大きいメモリ状態を使用する理由を説明する。

Tensor PCA is a stylized statistical inference problem introduced by Montanari and Richard to study the computational difficulty of estimating an unknown parameter from higher-order moment tensors. Unlike its matrix counterpart, Tensor PCA exhibits a statistical-computat ional gap, i.e., a sample size regime where the problem is information-theoreti cally solvable but conjectured to be computationally hard. This paper derives computational lower bounds on the run-time of memory bounded algorithms for Tensor PCA using communication complexity. These lower bounds specify a trade-off among the number of passes through the data sample, the sample size, and the memory required by any algorithm that successfully solves Tensor PCA. While the lower bounds do not rule out polynomial-time algorithms, they do imply that many commonly-used algorithms, such as gradient descent and power method, must have a higher iteration count when the sample size is not large enough. Similar lower bounds are obtained for Non-Gaussian Component Analysis, a family of statistical estimation problems in which low-order moment tensors carry no information about the unknown parameter. Finally, stronger lower bounds are obtained for an asymmetric variant of Tensor PCA and related statistical estimation problems. These results explain why many estimators for these problems use a memory state that is significantly larger than the effective dimensionality of the parameter of interest.
翻訳日:2022-04-18 15:28:56 公開日:2022-04-15
# ホリデーの行き先:ユーザ目標の明確化のための混合型ダイアログを目指して

Where to Go for the Holidays: Towards Mixed-Type Dialogs for Clarification of User Goals ( http://arxiv.org/abs/2204.07299v1 )

ライセンス: Link先を確認
Zeming Liu, Jun Xu, Zeyang Lei, Haifeng Wang, Zheng-Yu Niu, Hua Wu(参考訳) ほとんどのダイアログシステムは、ユーザーが対話を始める前に明確で具体的な目標を見出したと仮定している。 例えば、ユーザーは出発時刻、目的地、フライト予約の所要時間を決めている。 しかし、経験と知識によって制限された多くのシナリオでは、ユーザーは必要なものを知っているかもしれないが、必要な全てのスロットを決定することで、明確で具体的な目標を見つけるのに苦労している。 本稿では、この課題を特定し、新しい人間対人間混合型対話コーパスを収集し、一歩前進させる。 5kダイアログセッションと4つのダイアログタイプと5つのドメインの168k発話を含む。 各セッション内では、エージェントがまずユーザ目標に関する知識を提供して、明確で具体的な目標を把握し、その達成を支援する。 さらに,新しいプロンプト型連続学習機構を備えた混合型対話モデルを提案する。 具体的には、既存のダイアログコーパスを効果的に活用することにより、モデルが任意の特定の型でその能力を継続的に強化することができる。

Most dialog systems posit that users have figured out clear and specific goals before starting an interaction. For example, users have determined the departure, the destination, and the travel time for booking a flight. However, in many scenarios, limited by experience and knowledge, users may know what they need, but still struggle to figure out clear and specific goals by determining all the necessary slots. In this paper, we identify this challenge and make a step forward by collecting a new human-to-human mixed-type dialog corpus. It contains 5k dialog sessions and 168k utterances for 4 dialog types and 5 domains. Within each session, an agent first provides user-goal-related knowledge to help figure out clear and specific goals, and then help achieve them. Furthermore, we propose a mixed-type dialog model with a novel Prompt-based continual learning mechanism. Specifically, the mechanism enables the model to continually strengthen its ability on any specific type by utilizing existing dialog corpora effectively.
翻訳日:2022-04-18 15:27:58 公開日:2022-04-15
# 対象指向の意見単語抽出のための全空間モデルの訓練

Training Entire-Space Models for Target-oriented Opinion Words Extraction ( http://arxiv.org/abs/2204.07337v1 )

ライセンス: Link先を確認
Yuncong Li, Fang Wang, Sheng-Hua Zhong(参考訳) ターゲット指向の意見単語抽出(TOWE)はアスペクトベース感情分析(ABSA)のサブタスクである。 文中に発生する文とアスペクト項が与えられたら、TOWEはアスペクト項に対応する意見語を抽出する。 TOWEには2種類のインスタンスがある。 第1の型ではアスペクト項は少なくとも1つの意見語に関連付けられ、第2の型ではアスペクト項は対応する意見語を持たない。 しかし、以前の研究では、最初のタイプのインスタンスのみを用いてモデルをトレーニングし、評価し、サンプル選択バイアス問題を引き起こした。 具体的には、toweモデルは第1のインスタンスタイプのみでトレーニングされ、これらのモデルは第1のインスタンスタイプと第2のインスタンスタイプの両方でスペース全体の推論に使用される。 したがって、一般化性能が損なわれる。 さらに、最初のタイプのインスタンスにおけるこれらのモデルの性能は、空間全体のパフォーマンスを反映できない。 サンプル選択バイアス問題を検証するために、少なくとも1つの意見語に関連するアスペクト語のみを含む4つの人気のTOWEデータセットを拡張し、対応する意見語を含まないアスペクト語を含む。 これらのデータセットを用いた実験結果から,TOWEモデルを全空間でトレーニングすることでモデル性能が大幅に向上し,モデル性能を過大評価する。

Target-oriented opinion words extraction (TOWE) is a subtask of aspect-based sentiment analysis (ABSA). Given a sentence and an aspect term occurring in the sentence, TOWE extracts the corresponding opinion words for the aspect term. TOWE has two types of instance. In the first type, aspect terms are associated with at least one opinion word, while in the second type, aspect terms do not have corresponding opinion words. However, previous researches trained and evaluated their models with only the first type of instance, resulting in a sample selection bias problem. Specifically, TOWE models were trained with only the first type of instance, while these models would be utilized to make inference on the entire space with both the first type of instance and the second type of instance. Thus, the generalization performance will be hurt. Moreover, the performance of these models on the first type of instance cannot reflect their performance on entire space. To validate the sample selection bias problem, four popular TOWE datasets containing only aspect terms associated with at least one opinion word are extended and additionally include aspect terms without corresponding opinion words. Experimental results on these datasets show that training TOWE models on entire space will significantly improve model performance and evaluating TOWE models only on the first type of instance will overestimate model performance.
翻訳日:2022-04-18 15:27:41 公開日:2022-04-15
# (参考訳) 部分順序関係を用いた画像キャプションの誘導

Guiding Attention using Partial-Order Relationships for Image Captioning ( http://arxiv.org/abs/2204.07476v1 )

ライセンス: CC BY 4.0
Murad Popattia, Muhammad Rafi, Rizwan Qureshi, Shah Nawaz(参考訳) 自動キャプションのための注意モデルの使用により、多くのシステムが画像の正確で意味のある記述を作成できるようになった。 長年にわたり、異なる特徴表現を用いた注意プロセスを強化するために多くの新しいアプローチが提案されてきた。 本稿では,画像からの空間的特徴,トピックからの高レベル情報,および順序付けされた埋め込み空間に埋め込まれたキャプション生成からの時間的文脈を用いて,視覚的シーンとテキスト記述の関係を利用した注意ネットワーク機構を構築することによって,このアプローチを拡張した。 ペアワイズランキングの目的は、同じイメージ、トピック、キャプションを共有セマンティック空間に組み込むことで、視覚・セマンティック階層の部分的な順序を維持することができ、それによってモデルがより視覚的に正確なキャプションを生成するのに役立つ。 MSCOCOデータセットをベースとした実験結果から,様々な評価指標の最先端モデルを用いて,我々のアプローチの競争力を示す。

The use of attention models for automated image captioning has enabled many systems to produce accurate and meaningful descriptions for images. Over the years, many novel approaches have been proposed to enhance the attention process using different feature representations. In this paper, we extend this approach by creating a guided attention network mechanism, that exploits the relationship between the visual scene and text-descriptions using spatial features from the image, high-level information from the topics, and temporal context from caption generation, which are embedded together in an ordered embedding space. A pairwise ranking objective is used for training this embedding space which allows similar images, topics and captions in the shared semantic space to maintain a partial order in the visual-semantic hierarchy and hence, helps the model to produce more visually accurate captions. The experimental results based on MSCOCO dataset shows the competitiveness of our approach, with many state-of-the-art models on various evaluation metrics.
翻訳日:2022-04-18 15:26:09 公開日:2022-04-15
# LaMemo:ルックアヘッドメモリによる言語モデリング

LaMemo: Language Modeling with Look-Ahead Memory ( http://arxiv.org/abs/2204.07341v1 )

ライセンス: Link先を確認
Haozhe Ji, Rongsheng Zhang, Zhenyu Yang, Zhipeng Hu, Minlie Huang(参考訳) 完全に接続された自己アテンションを持つトランスフォーマーは、長期的な依存関係をモデル化するのに強力だが、言語モデリングにおいて数千の単語を持つ長いテキストにスケールするのに苦労している。 解決策の1つは、モデルを繰り返しメモリに装備することである。 しかし、既存のアプローチは、一方向の方法でコンテキストをエンコードする前のセグメントから隠された状態を直接再利用する。 結果として、これはメモリがトークン予測のために最新の情報を提供する現在のコンテキストと動的に相互作用することを禁止します。 この問題を解決するために,右辺のトークンに漸進的に参画し,古いメモリ状態と補間して履歴の長期的情報を維持することで,再帰記憶を向上させるLook-Ahead Memory (LaMemo)を提案する。 LaMemoは、メモリ長に比例した計算オーバーヘッドを追加して、双方向の注意とセグメントの繰り返しを受け入れる。 広く使われている言語モデリングベンチマークの実験は、異なるタイプのメモリを備えたベースラインよりも優れていることを示している。

Although Transformers with fully connected self-attentions are powerful to model long-term dependencies, they are struggling to scale to long texts with thousands of words in language modeling. One of the solutions is to equip the model with a recurrence memory. However, existing approaches directly reuse hidden states from the previous segment that encodes contexts in a uni-directional way. As a result, this prohibits the memory to dynamically interact with the current context that provides up-to-date information for token prediction. To remedy this issue, we propose Look-Ahead Memory (LaMemo) that enhances the recurrence memory by incrementally attending to the right-side tokens, and interpolating with the old memory states to maintain long-term information in the history. LaMemo embraces bi-directional attention and segment recurrence with an additional computation overhead only linearly proportional to the memory length. Experiments on widely used language modeling benchmarks demonstrate its superiority over the baselines equipped with different types of memory.
翻訳日:2022-04-18 15:25:48 公開日:2022-04-15
# バイオメディカル質問応答の専門家の混在

Mixture of Experts for Biomedical Question Answering ( http://arxiv.org/abs/2204.07469v1 )

ライセンス: Link先を確認
Damai Dai, Wenbin Jiang, Jiyuan Zhang, Weihua Peng, Yajuan Lyu, Zhifang Sui, Baobao Chang, Yong Zhu(参考訳) bqa(biomedical question answering)は,近年,その応用可能性から注目を集めている。 バイオメディカルな疑問は専門的であり、通常は多岐にわたるため、これは難しい課題である。 既存の質問応答法は、全ての質問に同質なモデルで回答し、共有パラメーターに競合する様々な種類の質問を導き、各質問のモデル決定を混乱させる。 本稿では,パラメータ競合問題を緩和するために,分散ルーティングにより異なる種類の質問に対する計算を分離するmoebqa(mixed-of-expe rt)ベースの質問応答法を提案する。 具体的には、トレーニング済みのTransformerモデルをボトムブロックとトップブロックに分割した。 ボトムブロックはすべての例で共有され、一般的な機能をキャプチャすることを目的としている。 トップブロックは、一連の独立した専門家で構成されたMoEバージョンに拡張され、各サンプルは、基礎となる質問タイプに従って、少数の専門家に割り当てられる。 MoEBQAは、各専門家が専門とする質問タイプを扱う傾向にあるように、ルーティング戦略をエンドツーエンドで自動的に学習する。 実測に基づいて構築した3つのBQAデータセット上でMoEBQAを評価する。 その結果,MoE拡張により質問応答モデルの性能が大幅に向上し,新たな最先端性能が達成された。 さらに、MoEBQAがどのように動作するかを明らかにするために、我々のMoEモジュールを精巧に分析し、質問を自動的に人間可読クラスタに分類できることを見つけました。

Biomedical Question Answering (BQA) has attracted increasing attention in recent years due to its promising application prospect. It is a challenging task because the biomedical questions are professional and usually vary widely. Existing question answering methods answer all questions with a homogeneous model, leading to various types of questions competing for the shared parameters, which will confuse the model decision for each single type of questions. In this paper, in order to alleviate the parameter competition problem, we propose a Mixture-of-Expert (MoE) based question answering method called MoEBQA that decouples the computation for different types of questions by sparse routing. To be specific, we split a pretrained Transformer model into bottom and top blocks. The bottom blocks are shared by all the examples, aiming to capture the general features. The top blocks are extended to an MoE version that consists of a series of independent experts, where each example is assigned to a few experts according to its underlying question type. MoEBQA automatically learns the routing strategy in an end-to-end manner so that each expert tends to deal with the question types it is expert in. We evaluate MoEBQA on three BQA datasets constructed based on real examinations. The results show that our MoE extension significantly boosts the performance of question answering models and achieves new state-of-the-art performance. In addition, we elaborately analyze our MoE modules to reveal how MoEBQA works and find that it can automatically group the questions into human-readable clusters.
翻訳日:2022-04-18 15:25:32 公開日:2022-04-15
# 定式性伝達のための自動指標をナビゲートするコンパスとしての人間の判断

Human Judgement as a Compass to Navigate Automatic Metrics for Formality Transfer ( http://arxiv.org/abs/2204.07549v1 )

ライセンス: Link先を確認
Huiyuan Lai, Jiali Mao, Antonio Toral, Malvina Nissim(参考訳) 近年,テキスト・スタイル・トランスファーが急激な発展を遂げているが,人的判断に常に頼る可能性に欠ける,いくつかの自動指標を用いて実施される評価基準は確立されていない。 形式性伝達の課題に着目し,通常評価される3つの側面,スタイル強度,コンテンツ保存,フラレンシに着目した。 このような側面を共通メトリクスや新しいメトリクスでどのように評価するかを明らかにするために、人間ベースの評価を行い、豊富な相関分析を行う。 そして、関連するタスクに対する一般化可能性(あるいはそうでない)に注目しながら、形式的な転送におけるそのようなメトリクスの使用に関する推奨事項を提供することができます。

Although text style transfer has witnessed rapid development in recent years, there is as yet no established standard for evaluation, which is performed using several automatic metrics, lacking the possibility of always resorting to human judgement. We focus on the task of formality transfer, and on the three aspects that are usually evaluated: style strength, content preservation, and fluency. To cast light on how such aspects are assessed by common and new metrics, we run a human-based evaluation and perform a rich correlation analysis. We are then able to offer some recommendations on the use of such metrics in formality transfer, also with an eye to their generalisability (or not) to related tasks.
翻訳日:2022-04-18 15:25:07 公開日:2022-04-15
# テキスト簡易化におけるファクチュアリティの評価

Evaluating Factuality in Text Simplification ( http://arxiv.org/abs/2204.07562v1 )

ライセンス: Link先を確認
Ashwin Devaraj, William Sheffield, Byron C. Wallace, Junyi Jessy Li(参考訳) 自動単純化モデルは入力テキストをより読みやすくすることを目的としている。 このような手法は、例えば最近の医学文献へのアクセスを提供するなど、より広い読者に複雑な情報をアクセスできるようにする可能性がある。 しかし、そのようなモデルは、例えば、対応する原文によって否定された文を挿入したり、キー情報を省略したりすることで、自動的に単純化されたテキストにエラーを導入するリスクを負う。 より読みやすいが不正確なテキストを提供することは、多くの場合、そのようなアクセスを提供しないよりも悪い。 要約モデルでは, 事実精度の問題(およびその欠如)が注目されているが, 自動簡易テキストの事実性については検討されていない。 我々は、標準単純化データセットと最先端モデルの出力から引き出された参照を解析するために使用するエラーの分類法を紹介する。 既存の評価指標によって捉えられていない2つのエラーによく現れ、自動化された単純化モデルの事実的正確性を保証する研究の必要性を動機付けている。

Automated simplification models aim to make input texts more readable. Such methods have the potential to make complex information accessible to a wider audience, e.g., providing access to recent medical literature which might otherwise be impenetrable for a lay reader. However, such models risk introducing errors into automatically simplified texts, for instance by inserting statements unsupported by the corresponding original text, or by omitting key information. Providing more readable but inaccurate versions of texts may in many cases be worse than providing no such access at all. The problem of factual accuracy (and the lack thereof) has received heightened attention in the context of summarization models, but the factuality of automatically simplified texts has not been investigated. We introduce a taxonomy of errors that we use to analyze both references drawn from standard simplification datasets and state-of-the-art model outputs. We find that errors often appear in both that are not captured by existing evaluation metrics, motivating a need for research into ensuring the factual accuracy of automated simplification models.
翻訳日:2022-04-18 15:24:55 公開日:2022-04-15
# インダクティブノード分類のための神経構造予測

Neural Structured Prediction for Inductive Node Classification ( http://arxiv.org/abs/2204.07524v1 )

ライセンス: Link先を確認
Meng Qu, Huiyu Cai, Jian Tang(参考訳) 本論文は, 帰納的環境におけるノード分類, すなわち, ラベル付きトレーニンググラフのモデルを学習し, ラベルなしテストグラフ上のノードラベルの推論に一般化することを目的とする。 この問題は、効率的なノード表現を学習するグラフニューラルネットワーク(GNN)や、条件付きランダムフィールド(CRF)などのノードラベルの構造的出力をモデル化する従来の構造化予測手法で広く研究されている。 本稿では,両世界の利点を組み合わせた構造化プロキシネットワーク(spn)と呼ばれる新しいアプローチを提案する。 SPN は GNN による CRF の柔軟なポテンシャル関数を定義する。 しかし、そのようなモデルを学ぶことは、コストの高い推論で最大化ゲームを最適化することを伴うため、非自明である。 マルコフネットワークが定義するジョイント分布と限界分布との間の基礎的な関係に着想を得て,最適化問題の近似バージョンをプロキシとして解くことを提案する。 2つの設定に関する広範な実験は、我々のアプローチが多くの競合ベースラインを上回ることを示している。

This paper studies node classification in the inductive setting, i.e., aiming to learn a model on labeled training graphs and generalize it to infer node labels on unlabeled test graphs. This problem has been extensively studied with graph neural networks (GNNs) by learning effective node representations, as well as traditional structured prediction methods for modeling the structured output of node labels, e.g., conditional random fields (CRFs). In this paper, we present a new approach called the Structured Proxy Network (SPN), which combines the advantages of both worlds. SPN defines flexible potential functions of CRFs with GNNs. However, learning such a model is nontrivial as it involves optimizing a maximin game with high-cost inference. Inspired by the underlying connection between joint and marginal distributions defined by Markov networks, we propose to solve an approximate version of the optimization problem as a proxy, which yields a near-optimal solution, making learning more efficient. Extensive experiments on two settings show that our approach outperforms many competitive baselines.
翻訳日:2022-04-18 15:03:01 公開日:2022-04-15
# 多様なタスクの効率的なアーキテクチャ探索

Efficient Architecture Search for Diverse Tasks ( http://arxiv.org/abs/2204.07554v1 )

ライセンス: Link先を確認
Junhong Shen, Mikhail Khodak, Ameet Talwalkar(参考訳) neural architecture search(nas)は、よく研究された領域で自動機械学習(automl)を可能にするが、コンピュータビジョン以外のタスクへの応用はまだ未検討である。 学習不足のドメインは、automlが最も大きな影響を与えると私たちが期待する領域であるので、本研究では、nasを効率的に様々な問題を解決するために研究します。 高速で単純で広く適用可能なアプローチを求めて、標準畳み込みネットワーク(cnn)トポロジーを修正し、その操作が行うべき適切なカーネルサイズと拡張を探すことを提案する。 これによりモデルの容量が劇的に拡大し、異なるタイプのデータに対して複数の解像度で特徴を抽出することができる。 この検索空間におけるナイーブウェイトシェアリングの効率上の課題を克服するため,我々は,畳み込みのフーリエ対角化を用いて操作の混合を計算するための微分可能なnasアルゴリズムであるdashを導入する。 NAS-Bench-360は,多様な領域でNASをベンチマークするために設計された10のタスクからなる。 dashは最先端のメソッドをアグリゲートで上回り、7つのタスクで最もよく知られた自動パフォーマンスを達成します。 一方、10のタスクのうち6つのタスクでは、検索と再トレーニングを組み合わせた時間は、単にCNNのバックボーンをトレーニングするよりも2倍も遅い。

While neural architecture search (NAS) has enabled automated machine learning (AutoML) for well-researched areas, its application to tasks beyond computer vision is still under-explored. As less-studied domains are precisely those where we expect AutoML to have the greatest impact, in this work we study NAS for efficiently solving diverse problems. Seeking an approach that is fast, simple, and broadly applicable, we fix a standard convolutional network (CNN) topology and propose to search for the right kernel sizes and dilations its operations should take on. This dramatically expands the model's capacity to extract features at multiple resolutions for different types of data while only requiring search over the operation space. To overcome the efficiency challenges of naive weight-sharing in this search space, we introduce DASH, a differentiable NAS algorithm that computes the mixture-of-operation s using the Fourier diagonalization of convolution, achieving both a better asymptotic complexity and an up-to-10x search time speedup in practice. We evaluate DASH on NAS-Bench-360, a suite of ten tasks designed for benchmarking NAS in diverse domains. DASH outperforms state-of-the-art methods in aggregate, attaining the best-known automated performance on seven tasks. Meanwhile, on six of the ten tasks, the combined search and retraining time is less than 2x slower than simply training a CNN backbone that is far less accurate.
翻訳日:2022-04-18 15:02:41 公開日:2022-04-15
# COTS: クロスモーダル検索のためのコラボレーティブな2ストリームビジョンランゲージ事前学習モデル

COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval ( http://arxiv.org/abs/2204.07441v1 )

ライセンス: Link先を確認
Haoyu Lu and Nanyi Fei and Yuqi Huo and Yizhao Gao and Zhiwu Lu and Ji-Rong Wen(参考訳) 大規模シングルストリーム事前学習は画像テキスト検索において劇的な性能を示した。 注意層が重いため、推論効率が低い。 近年、推論効率の高いCLIPやALIGNのような2ストリーム方式も有望な性能を示しているが、2ストリーム間のインスタンスレベルのアライメントしか考慮していない(改善の余地はある)。 このような制約を克服するために,クロスモーダルインタラクションを向上し,画像テキスト検索のためのCOTSと呼ばれる新しいコラボレーティブ2ストリーム言語事前学習モデルを提案する。 モーメント・コントラッシブ・ラーニングによるインスタンスレベルのアライメントに加えて、COTSにおける2つの追加レベルのクロスモーダル・インタラクションを利用する: 1) 視覚レベルの相互作用 - マスク付き視覚言語モデリング(MVLM)学習目的を、クロスストリーム・ネットワークモジュールを使わずに考案し、視覚エンコーダに可変オートエンコーダを課し、各画像の視覚トークンを生成する。 2)タスクレベルのインタラクション - 運動量比較学習において,タスク毎の確率分布を負の待ち行列で計算する,テキスト対画像検索タスクと画像対テキスト検索タスクのkl関係学習目標を考案した。 公平な比較設定の下では、COTSは、最新のシングルストリームメソッドと同等の性能(推論では10,800倍高速)を達成しています。 重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらす。

Large-scale single-stream pre-training has shown dramatic performance in image-text retrieval. Regrettably, it faces low inference efficiency due to heavy attention layers. Recently, two-stream methods like CLIP and ALIGN with high inference efficiency have also shown promising performance, however, they only consider instance-level alignment between the two streams (thus there is still room for improvement). To overcome these limitations, we propose a novel COllaborative Two-Stream vision-language pretraining model termed COTS for image-text retrieval by enhancing cross-modal interaction. In addition to instance level alignment via momentum contrastive learning, we leverage two extra levels of cross-modal interactions in our COTS: (1) Token-level interaction - a masked visionlanguage modeling (MVLM) learning objective is devised without using a cross-stream network module, where variational autoencoder is imposed on the visual encoder to generate visual tokens for each image. (2) Task-level interaction - a KL-alignment learning objective is devised between text-to-image and image-to-text retrieval tasks, where the probability distribution per task is computed with the negative queues in momentum contrastive learning. Under a fair comparison setting, our COTS achieves the highest performance among all two-stream methods and comparable performance (but with 10,800X faster in inference) w.r.t. the latest single-stream methods. Importantly, our COTS is also applicable to text-to-video retrieval, yielding new state-ofthe-art on the widely-used MSR-VTT dataset.
翻訳日:2022-04-18 15:01:59 公開日:2022-04-15
# INSTA-BNN: InSTAnce-aware Threshold 付きバイナリニューラルネットワーク

INSTA-BNN: Binary Neural Network with INSTAnce-aware Threshold ( http://arxiv.org/abs/2204.07439v1 )

ライセンス: Link先を確認
Changhun Lee, Hyungjun Kim, Eunhyeok Park, Jae-Joon Kim(参考訳) ディープニューラルネットワークのメモリフットプリントと計算コストを削減するための有望なソリューションとして、バイナリニューラルネットワーク(BNN)が登場した。 一方、BNNはバイナリアクティベーションが2つの値に制限されているため、情報の損失に悩まされ、精度が低下する。 精度を向上させるため、従来の研究では、アクティベーション関数の閾値を手動でシフトしたり、シフト量をトレーニングしやすくすることで、バイナリアクティベーションの分布を制御しようとした。 プロセス中は、通常、バッチから計算された統計情報に依存する。 BNN計算では,バッチからの統計データを用いた場合,入力インスタンス毎の重要な情報を捕捉できず,各インスタンスのバイナリアクティベーション閾値を決定する際には,各インスタンスから計算した統計情報の違いを考慮する必要がある。 この概念に基づいて,INSTAnce-Aware threshold (INSTA-BNN) を用いたバイナリニューラルネットワークを提案し,バッチから計算した統計データと各インスタンスとの差を考慮したアクティベーションしきい値を決定する。 提案されたINSTA-BNNは、ImageNet分類タスクの2.5%と2.3%を同等の計算コストで上回り、ResNet-18とMobileNetV1ベースのモデルでそれぞれ68.0%と71.7%のトップ1の精度を達成した。

Binary Neural Networks (BNNs) have emerged as a promising solution for reducing the memory footprint and compute costs of deep neural networks. BNNs, on the other hand, suffer from information loss because binary activations are limited to only two values, resulting in reduced accuracy. To improve the accuracy, previous studies have attempted to control the distribution of binary activation by manually shifting the threshold of the activation function or making the shift amount trainable. During the process, they usually depended on statistical information computed from a batch. We argue that using statistical data from a batch fails to capture the crucial information for each input instance in BNN computations, and the differences between statistical information computed from each instance need to be considered when determining the binary activation threshold of each instance. Based on the concept, we propose the Binary Neural Network with INSTAnce-aware threshold (INSTA-BNN), which decides the activation threshold value considering the difference between statistical data computed from a batch and each instance. The proposed INSTA-BNN outperforms the baseline by 2.5% and 2.3% on the ImageNet classification task with comparable computing cost, achieving 68.0% and 71.7% top-1 accuracy on ResNet-18 and MobileNetV1 based models, respectively.
翻訳日:2022-04-18 14:59:20 公開日:2022-04-15
# PAC多物体検出・追跡に向けて

Towards PAC Multi-Object Detection and Tracking ( http://arxiv.org/abs/2204.07482v1 )

ライセンス: Link先を確認
Shuo Li, Sangdon Park, Xiayan Ji, Insup Lee, Osbert Bastani(参考訳) 自律ナビゲーションのような安全クリティカルなアプリケーションでは、マルチオブジェクトの正確な検出と追跡が重要である。 しかし、ディープラーニングに基づく最先端技術の性能を保証することは依然として困難である。 分類と回帰設定において,これらのアルゴリズムは,真のラベルが高い確率で予測セット内にあることを保証できる。 これらのアイデアに基づいて、ほぼ正しい(PAC)保証を持つマルチオブジェクト検出と追跡アルゴリズムを提案する。 対象が与えられた場合、検出予測セットは、その真の有界箱を高い確率で含むとともに、エッジ予測セットはフレーム間の真の遷移を高い確率で含む。 我々は,COCOおよびMOT-17データセット上でPAC保証付きオブジェクトを検出・追跡できることを実証的に実証した。

Accurately detecting and tracking multi-objects is important for safety-critical applications such as autonomous navigation. However, it remains challenging to provide guarantees on the performance of state-of-the-art techniques based on deep learning. We consider a strategy known as conformal prediction, which predicts sets of labels instead of a single label; in the classification and regression settings, these algorithms can guarantee that the true label lies within the prediction set with high probability. Building on these ideas, we propose multi-object detection and tracking algorithms that come with probably approximately correct (PAC) guarantees. They do so by constructing both a prediction set around each object detection as well as around the set of edge transitions; given an object, the detection prediction set contains its true bounding box with high probability, and the edge prediction set contains its true transition across frames with high probability. We empirically demonstrate that our method can detect and track objects with PAC guarantees on the COCO and MOT-17 datasets.
翻訳日:2022-04-18 14:58:53 公開日:2022-04-15
# GANを用いたインフォーマティブトレーニングサンプルの合成

Synthesizing Informative Training Samples with GAN ( http://arxiv.org/abs/2204.07513v1 )

ライセンス: Link先を確認
Bo Zhao, Hakan Bilen(参考訳) フォトリアリスティック画像とGAN(Generative Adversarial Neural Network)の合成において、顕著な進歩が達成されている。 近年、実際のトレーニングデータを取得または保存する場合、GANをトレーニングサンプルジェネレータとして利用することができる。 しかし、従来のgans生成画像は、ディープニューラルネットワークのトレーニングに使用する場合、実際のトレーニングサンプルほど有益ではない。 本稿では,GAN(IT-GAN)を用いたインフォーマティブトレーニングサンプルの合成手法を提案する。 具体的には、事前学習したGANモデルを凍結し、情報学習サンプルに対応する情報潜在ベクトルを学習する。 合成画像は、視覚現実や忠実性ではなく、深層ニューラルネットワークを訓練するための情報を保存するために必要である。 実験は、深層ニューラルネットワークがより速く学習し、私たちのit-gan生成画像でトレーニングすることで、よりよいパフォーマンスが得られることを検証します。 また,本手法はデータセット凝縮問題に対する有望な解であることを示す。

Remarkable progress has been achieved in synthesizing photo-realistic images with generative adversarial neural networks (GANs). Recently, GANs are utilized as the training sample generator when obtaining or storing real training data is expensive even infeasible. However, traditional GANs generated images are not as informative as the real training samples when being used to train deep neural networks. In this paper, we propose a novel method to synthesize Informative Training samples with GAN (IT-GAN). Specifically, we freeze a pre-trained GAN model and learn the informative latent vectors that corresponds to informative training samples. The synthesized images are required to preserve information for training deep neural networks rather than visual reality or fidelity. Experiments verify that the deep neural networks can learn faster and achieve better performance when being trained with our IT-GAN generated images. We also show that our method is a promising solution to dataset condensation problem.
翻訳日:2022-04-18 14:58:38 公開日:2022-04-15
# マルチモーダルクロス量子化器を用いた無条件画像テキスト対生成

Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer ( http://arxiv.org/abs/2204.07537v1 )

ライセンス: Link先を確認
Hyungyung Lee, Sungjin Park, Edward Choi(参考訳) 深層生成モデルは注目されているが、既存の作品の多くは一助生成作業のために設計されている。 本稿では,非条件画像-テキストペア生成のための新しい手法を提案する。 マルチモーダル画像テキスト表現のためのベクトル量子化手法MXQ-VAEを提案する。 MXQ-VAEは、ペア化された画像とテキストを入力として受け入れ、共同量子化された表現空間を学習し、画像とテキストのペアを統一されたインデックスのシーケンスに変換する。 次に、自己回帰生成モデルを用いて、共同画像-テキスト表現をモデル化し、無条件画像-テキストペア生成を行う。 広範な実験結果から,本手法は意味的に一貫性のある画像テキスト対を効果的に生成すると同時に,画像とテキスト間の有意義なアライメントも向上することが示された。

Though deep generative models have gained a lot of attention, most of the existing works are designed for the unimodal generation task. In this paper, we explore a new method for unconditional image-text pair generation. We propose MXQ-VAE, a vector quantization method for multimodal image-text representation. MXQ-VAE accepts a paired image and text as input, and learns a joint quantized representation space, so that the image-text pair can be converted to a sequence of unified indices. Then we can use autoregressive generative models to model the joint image-text representation, and even perform unconditional image-text pair generation. Extensive experimental results demonstrate that our approach effectively generates semantically consistent image-text pair and also enhances meaningful alignment between image and text.
翻訳日:2022-04-18 14:58:24 公開日:2022-04-15
# 非自己回帰的検討のためのストリーミングアライメント

Streaming Align-Refine for Non-autoregressive Deliberation ( http://arxiv.org/abs/2204.07556v1 )

ライセンス: Link先を確認
Weiran Wang, Ke Hu, Tara N. Sainath(参考訳) 本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。 提案アルゴリズムは, 簡単なグリーディ復号処理を容易にし, 同時に, 適切なコンテキストに制限された各フレームで復号結果を生成することができ, 高い効率と低レイテンシの両方を享受できる。 これらの利点は、オフラインのアライメント・リフィナントアルゴリズムをストリーミング互換に変換し、テキストとオーディオの両方でローカルな自己アタッチを実行する新しいトランスフォーマデコーダアーキテクチャと、各層でタイムアライメントされたクロスアテンションによって達成される。 さらに,非AR復号法では行われていない最小単語誤り率(MWER)基準を用いて,本モデルの識別訓練を行う。 音声検索データセットとLibrispeechの実験では、適切な適切なコンテキスト下では、ストリーミングモデルがオフラインモデルと同様に動作し、差別的なトレーニングによって、ファーストパスモデルが少ない場合にWERがさらに向上することを示した。

We propose a streaming non-autoregressive (non-AR) decoding algorithm to deliberate the hypothesis alignment of a streaming RNN-T model. Our algorithm facilitates a simple greedy decoding procedure, and at the same time is capable of producing the decoding result at each frame with limited right context, thus enjoying both high efficiency and low latency. These advantages are achieved by converting the offline Align-Refine algorithm to be streaming-compatible , with a novel transformer decoder architecture that performs local self-attentions for both text and audio, and a time-aligned cross-attention at each layer. Furthermore, we perform discriminative training of our model with the minimum word error rate (MWER) criterion, which has not been done in the non-AR decoding literature. Experiments on voice search datasets and Librispeech show that with reasonable right context, our streaming model performs as well as the offline counterpart, and discriminative training leads to further WER gain when the first-pass model has small capacity.
翻訳日:2022-04-18 14:58:11 公開日:2022-04-15
# 教師なしクロスサブジェクト適応のための多種多様な仮説と知識蒸留

Ensemble diverse hypotheses and knowledge distillation for unsupervised cross-subject adaptation ( http://arxiv.org/abs/2204.07308v1 )

ライセンス: Link先を確認
Kuangen Zhang, Jiahong Chen, Jing Wang, Xinxing Chen, Yuquan Leng, Clarence W. de Silva, Chenglong Fu(参考訳) ヒトの移動意図や活動を認識することは、複雑な環境を歩きながらウェアラブルロボットを制御する上で重要である。 しかし、人間ロボットのインタフェース信号は、通常、ユーザに依存しているため、ソースの被験者に訓練された分類器は、新しい被験者に対して性能が良くない。 この問題に対処するため,本稿では,教師なしのクロスオブジェクト適応を実現するために,多種多様な仮説と知識蒸留法(EDHKD)を設計する。 EDHは、対象者のラベル付データと未ラベル付データとのばらつきを緩和し、ラベル付データなしで対象者の移動モードを正確に分類する。 入力信号からのみ特徴のサブセットを学習する単一学習者に基づく従来のドメイン適応手法と比較して、EDHは複数の多様な特徴発生器を組み込むことで多様な特徴を学習できるため、精度を高め、対象データの分類のばらつきを低減できるが、効率を損なう。 この問題を解決するため、EDHKD(学生)はEDH(教師)からの知識を単一のネットワークに蒸留し、効率的で正確な状態を保つ。 EDHKDの性能は理論的に証明され、2次元衛星データセットと2つの公的な人間の移動データセットで実験的に検証されている。 実験の結果,EDHKDは他の方法よりも優れていた。 EDHKDは、上記の3つのデータセットの平均精度を96.9%、94.4%、97.4%と、短い計算時間(1ms)で分類することができる。 ベンチマーク(BM)法と比較して、EDHKDは目標被験者の移動モードを分類するための平均精度が1.3%、平均精度が7.1%向上する。 EDHKDは学習曲線も安定させる。 したがって、EDHKDは、人間の意図予測と人間の活動認識システムの一般化能力と効率を高めるために重要であり、それによって人間とロボットの相互作用が向上する。

Recognizing human locomotion intent and activities is important for controlling the wearable robots while walking in complex environments. However, human-robot interface signals are usually user-dependent, which causes that the classifier trained on source subjects performs poorly on new subjects. To address this issue, this paper designs the ensemble diverse hypotheses and knowledge distillation (EDHKD) method to realize unsupervised cross-subject adaptation. EDH mitigates the divergence between labeled data of source subjects and unlabeled data of target subjects to accurately classify the locomotion modes of target subjects without labeling data. Compared to previous domain adaptation methods based on the single learner, which may only learn a subset of features from input signals, EDH can learn diverse features by incorporating multiple diverse feature generators and thus increases the accuracy and decreases the variance of classifying target data, but it sacrifices the efficiency. To solve this problem, EDHKD (student) distills the knowledge from the EDH (teacher) to a single network to remain efficient and accurate. The performance of the EDHKD is theoretically proved and experimentally validated on a 2D moon dataset and two public human locomotion datasets. Experimental results show that the EDHKD outperforms all other methods. The EDHKD can classify target data with 96.9%, 94.4%, and 97.4% average accuracy on the above three datasets with a short computing time (1 ms). Compared to a benchmark (BM) method, the EDHKD increases 1.3% and 7.1% average accuracy for classifying the locomotion modes of target subjects. The EDHKD also stabilizes the learning curves. Therefore, the EDHKD is significant for increasing the generalization ability and efficiency of the human intent prediction and human activity recognition system, which will improve human-robot interactions.
翻訳日:2022-04-18 14:57:33 公開日:2022-04-15
# (参考訳) 自然言語アノテーションによるゲームプレイングエージェントの理解 [全文訳有]

Understanding Game-Playing Agents with Natural Language Annotations ( http://arxiv.org/abs/2204.07531v1 )

ライセンス: CC BY 4.0
Nicholas Tomlin, Andre He, Dan Klein(参考訳) 本稿では,Goの10万のゲームを含む新しいデータセットを提案し,これらの自然言語アノテーションをモデル解釈可能性のツールとして利用できることを示す。 ボード状態とその関連するコメントが与えられた場合、我々はAlphaGo Zeroのようなゲームプレイングエージェントの中間状態表現からドメイン固有項(例えばko, atari)の言及を予測するために線形探索を用いる。 これらのゲームの概念は、2つの異なるポリシーネットワークで非自明にエンコードされ、一方は模倣学習、もう一方は強化学習によって訓練されている。 さらに、ドメイン固有の用語の言及は、両方のモデルの後半層から最も容易に予測でき、これらのポリシーネットワークは、自然言語アノテーションで使われるものに似た高レベルの抽象化を符号化していることを示唆している。

We present a new dataset containing 10K human-annotated games of Go and show how these natural language annotations can be used as a tool for model interpretability. Given a board state and its associated comment, our approach uses linear probing to predict mentions of domain-specific terms (e.g., ko, atari) from the intermediate state representations of game-playing agents like AlphaGo Zero. We find these game concepts are nontrivially encoded in two distinct policy networks, one trained via imitation learning and another trained via reinforcement learning. Furthermore, mentions of domain-specific terms are most easily predicted from the later layers of both models, suggesting that these policy networks encode high-level abstractions similar to those used in the natural language annotations.
翻訳日:2022-04-18 14:55:29 公開日:2022-04-15
# ERGO:文書レベルの事象因果同定のためのイベントリレーショナルグラフ変換器

ERGO: Event Relational Graph Transformer for Document-level Event Causality Identification ( http://arxiv.org/abs/2204.07434v1 )

ライセンス: Link先を確認
Meiqi Chen, Yixin Cao, Kunquan Deng, Mukai Li, Kun Wang, Jing Shao and Yan Zhang(参考訳) 文書レベルのイベント因果同定(DECI)は、文書内のイベントペア間の因果関係を特定することを目的としている。 明確な因果指示なしで、文間推論という大きな課題を生じさせる。 本稿では,既存のsota(state-of-the-ar t)メソッドを2つの側面で改善した,deciのための新しいイベントリレーショナルグラフトランスフォーマ(ergo)フレームワークを提案する。 まず,事前知識やツールの必要なしに,イベント関係グラフを構築することにより,ノード分類問題としてdeciを定式化する。 第2に、ERGOはイベントペア関係分類とグローバル推論をシームレスに統合し、リレーショナルグラフ変換器(RGT)を利用して潜在的な因果連鎖を捕捉する。 また,共通スプリアス相関による大規模偽陽性に対処するために,エッジ構築戦略と適応焦点損失を導入する。 2つのベンチマークデータセットの大規模な実験により、ERGOは従来のSOTA法(平均13.1%のF1ゲイン)を大幅に上回っている。 我々は,今後の研究方向性に関する知見を提供するために,広範な定量的分析と事例研究を実施している(第4.8節)。

Document-level Event Causality Identification (DECI) aims to identify causal relations between event pairs in a document. It poses a great challenge of across-sentence reasoning without clear causal indicators. In this paper, we propose a novel Event Relational Graph TransfOrmer (ERGO) framework for DECI, which improves existing state-of-the-art (SOTA) methods upon two aspects. First, we formulate DECI as a node classification problem by constructing an event relational graph, without the needs of prior knowledge or tools. Second, ERGO seamlessly integrates event-pair relation classification and global inference, which leverages a Relational Graph Transformer (RGT) to capture the potential causal chain. Besides, we introduce edge-building strategies and adaptive focal loss to deal with the massive false positives caused by common spurious correlation. Extensive experiments on two benchmark datasets show that ERGO significantly outperforms previous SOTA methods (13.1% F1 gains on average). We have conducted extensive quantitative analysis and case studies to provide insights for future research directions (Section 4.8).
翻訳日:2022-04-18 14:44:15 公開日:2022-04-15
# 中国語意味的誤り認識のための構文依存予測タスクによる事前学習言語モデルの改善

Improving Pre-trained Language Models with Syntactic Dependency Prediction Task for Chinese Semantic Error Recognition ( http://arxiv.org/abs/2204.07464v1 )

ライセンス: Link先を確認
Bo Sun, Baoxin Wang, Wanxiang Che, Dayong Wu, Zhigang Chen, Ting Liu(参考訳) 既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。 これらの誤りは広く研究され、人間にとって比較的単純である。 反対に、中国の意味的誤りは、人間が容易に認識できないほど過小評価され複雑である。 本論文のタスクは中国語意味的誤り認識 (cser) であり、文が意味的誤りを含むかどうかを判定する二項分類タスクである。 現在の研究では、この課題を解決する効果的な方法がない。 本稿では、BERTのモデル構造を継承し、構文関連事前学習タスクを設計し、モデルが構文知識を学習できるようにする。 我々の事前学習タスクは、依存構造の方向性と依存関係の多様性の両方を考慮する。 CSERのデータセットが公開されていないため、我々はCSERの高品質なデータセットを初めて構築し、Corp of Chinese Linguistic Semantic Acceptability (CoCLSA)と名付けた。 coclsaの実験結果から,本手法は普遍的事前学習モデルや構文統合モデルよりも優れていることが示された。

Existing Chinese text error detection mainly focuses on spelling and simple grammatical errors. These errors have been studied extensively and are relatively simple for humans. On the contrary, Chinese semantic errors are understudied and more complex that humans cannot easily recognize. The task of this paper is Chinese Semantic Error Recognition (CSER), a binary classification task to determine whether a sentence contains semantic errors. The current research has no effective method to solve this task. In this paper, we inherit the model structure of BERT and design several syntax-related pre-training tasks so that the model can learn syntactic knowledge. Our pre-training tasks consider both the directionality of the dependency structure and the diversity of the dependency relationship. Due to the lack of a published dataset for CSER, we build a high-quality dataset for CSER for the first time named Corpus of Chinese Linguistic Semantic Acceptability (CoCLSA). The experimental results on the CoCLSA show that our methods outperform universal pre-trained models and syntax-infused models.
翻訳日:2022-04-18 14:43:32 公開日:2022-04-15
# グラフィカル要素による要約

Summarization with Graphical Elements ( http://arxiv.org/abs/2204.07551v1 )

ライセンス: Link先を確認
Maartje ter Hoeve, Julia Kiseleva, Maarten de Rijke(参考訳) 近年,テキストの自動要約が著しく進歩している。 この進歩により、一般的に自動要約モデルによって生成される要約の種類がユーザのニーズに合致するかどうかという疑問が生じた。 Ter Hoeve et al (2020) はこの質問に答える。 中でも、よりグラフィカルな要素で要約を生成することに注力することを推奨している。 これは、人間がテキストを処理する方法に関する精神言語学の文献から私たちが知っていることと一致している。 これら2つの角度から動機付け,図形要素の要約という新たな課題を提案し,これらの要約が批判的な人々にとって有効であることを検証した。 タスクの研究を支援するために,高品質なラベル付きデータセットを収集する。 我々は,タスクが興味深く,挑戦的であることを示すベースラインメソッドをいくつか提示する。 したがって、この研究により、自動要約コミュニティ内での新しい研究ラインを刺激したいと思っています。

Automatic text summarization has experienced substantial progress in recent years. With this progress, the question has arisen whether the types of summaries that are typically generated by automatic summarization models align with users' needs. Ter Hoeve et al (2020) answer this question negatively. Amongst others, they recommend focusing on generating summaries with more graphical elements. This is in line with what we know from the psycholinguistics literature about how humans process text. Motivated from these two angles, we propose a new task: summarization with graphical elements, and we verify that these summaries are helpful for a critical mass of people. We collect a high quality human labeled dataset to support research into the task. We present a number of baseline methods that show that the task is interesting and challenging. Hence, with this work we hope to inspire a new line of research within the automatic summarization community.
翻訳日:2022-04-18 14:41:50 公開日:2022-04-15
# スペイン語文表現の評価ベンチマーク

Evaluation Benchmarks for Spanish Sentence Representations ( http://arxiv.org/abs/2204.07571v1 )

ライセンス: Link先を確認
Vladimir Araujo, Andr\'es Carvallo, Souvik Kundu, Jos\'e Ca\~nete, Marcelo Mendoza, Robert E. Mercer, Felipe Bravo-Marquez, Marie-Francine Moens, Alvaro Soto(参考訳) 事前訓練された言語モデルの成功により、近年では英語以外の言語バージョンもリリースされている。 この事実は、これらのモデルを評価するリソースの必要性を示している。 スペイン語の場合、モデルの品質を体系的に評価する方法はほとんどない。 本稿では,2つの評価ベンチマークを構築し,そのギャップを狭める。 先行研究(Conneau and Kiela, 2018; Chen et al., 2019)に触発されて, スペイン語のSentEvalとスペイン語のDiscoEvalを紹介した。 私たちのベンチマークには、さまざまなドメインから異なるタスクに対処する、かなり既存かつ新しく構築されたデータセットが含まれています。 さらに,最新の事前学習したスペイン語モデルの評価と分析を行い,その能力と限界について検討した。 例えば、談話評価タスクの場合、複数の言語で訓練された言語モデルmBERTは、通常、スペイン語の文書でのみ訓練されたモデルよりもリッチな潜在表現を提供する。 私たちの貢献は、将来のスペイン語モデルを評価するための、より公平で、より匹敵する、より面倒な方法に動機づけられることを願っています。

Due to the success of pre-trained language models, versions of languages other than English have been released in recent years. This fact implies the need for resources to evaluate these models. In the case of Spanish, there are few ways to systematically assess the models' quality. In this paper, we narrow the gap by building two evaluation benchmarks. Inspired by previous work (Conneau and Kiela, 2018; Chen et al., 2019), we introduce Spanish SentEval and Spanish DiscoEval, aiming to assess the capabilities of stand-alone and discourse-aware sentence representations, respectively. Our benchmarks include considerable pre-existing and newly constructed datasets that address different tasks from various domains. In addition, we evaluate and analyze the most recent pre-trained Spanish language models to exhibit their capabilities and limitations. As an example, we discover that for the case of discourse evaluation tasks, mBERT, a language model trained on multiple languages, usually provides a richer latent representation than models trained only with documents in Spanish. We hope our contribution will motivate a fairer, more comparable, and less cumbersome way to evaluate future Spanish language models.
翻訳日:2022-04-18 14:41:38 公開日:2022-04-15
# ビジョン・アンド・ランゲージ事前訓練モデル:サーベイ

Vision-and-Language Pretrained Models: A Survey ( http://arxiv.org/abs/2204.07356v1 )

ライセンス: Link先を確認
Siqu Long, Feiqi Cao, Soyeon Caren Han, Haiqing Yang(参考訳) 事前訓練されたモデルはコンピュータビジョン(CV)と自然言語処理(NLP)の両方で大きな成功を収めた。 この進歩は、視覚および言語コンテンツを多層トランスフォーマー、視覚言語予備訓練モデル(vlpms)に供給することにより、視覚と言語事前訓練の合同表現を学習する。 本稿では,視覚と言語を共同で表現するためのvlpmsにおける大きな進歩について概観する。 本稿では,VLPMの一般的なタスク定義と遺伝的構造について概説する。 まず、言語と視覚データエンコーディング法について議論し、主要なVLPM構造をコアコンテンツとして提示する。 我々はさらに、いくつかの重要な事前訓練および微調整戦略を要約する。 最後に,CVとNLPの研究者が洞察に富むガイダンスを提供するための3つの今後の方向性を強調した。

Pretrained models have produced great success in both Computer Vision (CV) and Natural Language Processing (NLP). This progress leads to learning joint representations of vision and language pretraining by feeding visual and linguistic contents into a multi-layer transformer, Visual-Language Pretrained Models (VLPMs). In this paper, we present an overview of the major advances achieved in VLPMs for producing joint representations of vision and language. As the preliminaries, we briefly describe the general task definition and genetic architecture of VLPMs. We first discuss the language and vision data encoding methods and then present the mainstream VLPM structure as the core content. We further summarise several essential pretraining and fine-tuning strategies. Finally, we highlight three future directions for both CV and NLP researchers to provide insightful guidance.
翻訳日:2022-04-18 14:41:20 公開日:2022-04-15
# インシシットユーザペルソナ検出による個人化対話生成装置の構築に向けて

Towards Building a Personalized Dialogue Generator via Implicit User Persona Detection ( http://arxiv.org/abs/2204.07372v1 )

ライセンス: Link先を確認
Itsugun Cho, Dongyang Wang, Ryota Takahashi and Hiroaki Saito(参考訳) パーソナライズされた対話の生成における現在の作業は、主に矛盾するペルソナを避け、応答をより情報的に駆動するエージェントに寄与する。 しかし,これらのモデルから生成された応答は,ユーザのペルソナを無視するため,他者への配慮がほとんどない自己中心型であることが判明した。 また,高品位トランスミッションは基本的に,相手のペルソナを反映して構築されていると考えられる。 そこで本研究では,暗黙のユーザペルソナを検知する対話生成手法を提案する。 ユーザ毎に多数のペルソナを収集することは困難であるため,外部情報の対話的欠如から,ユーザの潜在的なペルソナとその表現をモデル化しようとする。 条件変分推論を用いて知覚変数とファダー変数を導出する。 2つの潜在変数は、相手のペルソナを認識し、会話で対応する表現を生成する過程をシミュレートする。 最後に、トレーニング手順を強化するために、後識別正規化を示す。 実証的研究は、最先端の手法と比較して、ユーザのペルソナや評価におけるパフォーマンスにより関心があることを示している。

Current works in the generation of personalized dialogue primarily contribute to the agent avoiding contradictory persona and driving the response more informative. However, we found that the generated responses from these models are mostly self-centered with little care for the other party since they ignore the user's persona. Moreover, we consider high-quality transmission is essentially built based on apprehending the persona of the other party. Motivated by this, we propose a novel personalized dialogue generator by detecting implicit user persona. Because it's difficult to collect a large number of personas for each user, we attempt to model the user's potential persona and its representation from the dialogue absence of any external information. Perception variable and fader variable are conceived utilizing Conditional Variational Inference. The two latent variables simulate the process of people being aware of the other party's persona and producing the corresponding expression in conversation. Finally, Posterior-discrimina ted Regularization is presented to enhance the training procedure. Empirical studies demonstrate that compared with the state-of-the-art methods, ours is more concerned with the user's persona and outperforms in evaluations.
翻訳日:2022-04-18 14:41:07 公開日:2022-04-15
# 長文文書やクラスタを推論するための文章ペアnliモデルの拡張

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters ( http://arxiv.org/abs/2204.07447v1 )

ライセンス: Link先を確認
Tal Schuster, Sihao Chen, Senaka Buthpitiya, Alex Fabrikant, Donald Metzler(参考訳) 自然言語推論(NLI)は,文ペア間の意味的関係を推定するフレームワークとして,NLPコミュニティによって広く研究されている。 初期の研究でNLIモデルの偏見が特定されたが、最近のモデリングとデータセットの進歩は有望な性能を示した。 本研究では,NLIモデルの実アプリケーションへの直接ゼロショット適用性について,トレーニング対象の文ペア設定を超えて検討する。 まず、これらのモデルのロバスト性を、ドメイン内および外部の入力に解析する。 そこで我々は,ContractNLIデータセット上で,フルドキュメント上で動作し,最先端のパフォーマンスを実現するための新たな集約手法を開発した。 興味深いことに、nliスコアは強い検索信号を提供し、共通の類似性に基づく方法と比較して、より適切な証拠抽出につながる。 最後に、文書クラスタ全体を調査して、ソース間の差異とコンセンサスの両方を識別する。 テストケースでは、同じトピックに関する異なる言語のウィキペディアページ間の実際の矛盾が見つかる。

Natural Language Inference (NLI) has been extensively studied by the NLP community as a framework for estimating the semantic relation between sentence pairs. While early work identified certain biases in NLI models, recent advancements in modeling and datasets demonstrated promising performance. In this work, we further explore the direct zero-shot applicability of NLI models to real applications, beyond the sentence-pair setting they were trained on. First, we analyze the robustness of these models to longer and out-of-domain inputs. Then, we develop new aggregation methods to allow operating over full documents, reaching state-of-the-art performance on the ContractNLI dataset. Interestingly, we find NLI scores to provide strong retrieval signals, leading to more relevant evidence extractions compared to common similarity-based methods. Finally, we go further and investigate whole document clusters to identify both discrepancies and consensus among sources. In a test case, we find real inconsistencies between Wikipedia pages in different languages about the same topic.
翻訳日:2022-04-18 14:40:48 公開日:2022-04-15
# Saga: 継続的構築と大規模知識の実現のためのプラットフォーム

Saga: A Platform for Continuous Construction and Serving of Knowledge At Scale ( http://arxiv.org/abs/2204.07309v1 )

ライセンス: Link先を確認
Ihab F. Ilyas, Theodoros Rekatsinas, Vishnu Konda, Jeffrey Pound, Xiaoguang Qi, Mohamed Soliman(参考訳) 産業規模で知識ベースのアプリケーションを動かすための次世代知識構築・提供プラットフォームであるsagaを紹介する。 Saga氏は、実世界のエンティティに関する何十億もの事実を継続的に統合し、データ更新性、正確性、可用性に関するさまざまな要件を持つ複数のプロダクションユースケースをサポートする中央知識グラフを構築するためのハイブリッドバッチインクリメンタル設計に従っている。 本稿では,産業規模での知識グラフ構築に関わるユニークな課題について論じ,佐賀の主な構成要素とそれらの課題について概観する。 最後に、sagaを使った幅広いプロダクションユースケースから学んだ教訓を共有します。

We introduce Saga, a next-generation knowledge construction and serving platform for powering knowledge-based applications at industrial scale. Saga follows a hybrid batch-incremental design to continuously integrate billions of facts about real-world entities and construct a central knowledge graph that supports multiple production use cases with diverse requirements around data freshness, accuracy, and availability. In this paper, we discuss the unique challenges associated with knowledge graph construction at industrial scale, and review the main components of Saga and how they address these challenges. Finally, we share lessons-learned from a wide array of production use cases powered by Saga.
翻訳日:2022-04-18 14:40:33 公開日:2022-04-15
# きめ細かい因果推論とQAを目指して

Towards Fine-grained Causal Reasoning and QA ( http://arxiv.org/abs/2204.07408v1 )

ライセンス: Link先を確認
Linyi Yang, Zhen Wang, Yuxiang Wu, Jie Yang, Yue Zhang(参考訳) 因果関係を理解することは、特に高い領域において、NLPアプリケーションの成功の鍵となる。 因果関係は、その重要性にもかかわらず、文学においてほとんど無視されている可能性や予防といった様々な観点から生じる。 本稿では,新たな因果推論データセットを導入し,因果検出,事象因果抽出,因果QAなど,NLPにおける一連の新しい予測課題を提示する。 本データセットは,複数の因果関係を持つ多文サンプルに25Kの因果イベントペアと24Kの問合せペアのアノテーションを含む。 大規模な実験と分析を通じて、我々のデータセットの複雑な関係は、3つのタスクすべてにわたる最先端の手法に固有の課題をもたらし、特に「因果思考」手法の開発において潜在的研究の機会を強調します。

Understanding causality is key to the success of NLP applications, especially in high-stakes domains. Causality comes in various perspectives such as enable and prevent that, despite their importance, have been largely ignored in the literature. This paper introduces a novel fine-grained causal reasoning dataset and presents a series of novel predictive tasks in NLP, such as causality detection, event causality extraction, and Causal QA. Our dataset contains human annotations of 25K cause-effect event pairs and 24K question-answering pairs within multi-sentence samples, where each can have multiple causal relationships. Through extensive experiments and analysis, we show that the complex relations in our dataset bring unique challenges to state-of-the-art methods across all three tasks and highlight potential research opportunities, especially in developing "causal-thinking" ; methods.
翻訳日:2022-04-18 14:40:23 公開日:2022-04-15
# (参考訳) 操作気象学のための機械学習チュートリアル その1:従来の機械学習 [全文訳有]

A Machine Learning Tutorial for Operational Meteorology, Part I: Traditional Machine Learning ( http://arxiv.org/abs/2204.07492v1 )

ライセンス: CC BY 4.0
Randy J. Chase, David R. Harrison, Amanda Burke, Gary M. Lackmann and Amy McGovern(参考訳) 近年,気象学における機械学習の利用が増加している。 多くの機械学習手法は新しくないが、機械学習の大学授業は気象学の学生にはほとんど利用できず、気象学者になる必要もない。 正式な命令の欠如は、機械学習メソッドが'ブラックボックス'であるという認識に寄与し、エンドユーザは毎日のワークフローに機械学習メソッドを適用することをためらっている。 気象学における機械学習手法の不透明さを低減し、機械学習への執着を低くするため、最も一般的な機械学習手法について調査する。 慣れ親しんだ気象例は、機械学習の方法をコンテキスト化すると同時に、プレーンな言語を使って機械学習のトピックについても論じる。 線形回帰、ロジスティック回帰、決定木、ランダムフォレスト、勾配強化決定木、ナイーブベイ、サポートベクターマシンである。 さまざまな方法を議論するだけでなく、一般的な機械学習プロセスや、読者が自身のデータセットに機械学習を適用するためのベストプラクティスについても議論する。 さらに、論文の例を示すために使用されるすべてのコード(jupyter notebooksとgoogle colaboratory notebooksの形で)は、気象学における機械学習の使用を触媒するために提供される。

Recently, the use of machine learning in meteorology has increased greatly. While many machine learning methods are not new, university classes on machine learning are largely unavailable to meteorology students and are not required to become a meteorologist. The lack of formal instruction has contributed to perception that machine learning methods are 'black boxes' and thus end-users are hesitant to apply the machine learning methods in their every day workflow. To reduce the opaqueness of machine learning methods and lower hesitancy towards machine learning in meteorology, this paper provides a survey of some of the most common machine learning methods. A familiar meteorological example is used to contextualize the machine learning methods while also discussing machine learning topics using plain language. The following machine learning methods are demonstrated: linear regression; logistic regression; decision trees; random forest; gradient boosted decision trees; naive Bayes; and support vector machines. Beyond discussing the different methods, the paper also contains discussions on the general machine learning process as well as best practices to enable readers to apply machine learning to their own datasets. Furthermore, all code (in the form of Jupyter notebooks and Google Colaboratory notebooks) used to make the examples in the paper is provided in an effort to catalyse the use of machine learning in meteorology.
翻訳日:2022-04-18 14:38:31 公開日:2022-04-15
# (参考訳) リソースアウェア分散サブモジュラー最大化:マルチロボット意思決定のためのパラダイム [全文訳有]

Resource-Aware Distributed Submodular Maximization: A Paradigm for Multi-Robot Decision-Making ( http://arxiv.org/abs/2204.07520v1 )

ライセンス: CC BY 4.0
Zirui Xu, Vasileios Tzoumas(参考訳) 我々は,分散意思決定のための最初のアルゴリズムを導入し,集中化のトレードオフを確実にバランスさせ,大域的最適化と分散化を両立させる。 我々は、画像被覆、目標追跡、地域監視といった複雑なタスクで協力する異種ロボットによる自律性の未来に動機づけられている。 コンセンサスアルゴリズムのような現在のアルゴリズムは、高い通信、計算、メモリ過負荷を犠牲にして、分散通信のみを達成するという、この未来を達成するには不十分である。 各ロボットのオンボードリソースを独立して考慮できる、リソース対応アルゴリズムへのシフトが必要である。 我々は、最初のリソース認識アルゴリズム、Resource-Aware Distributed Greedy (RAG) を提供する。 単調関数と「二重」部分モジュラ関数を含む最大化問題に焦点をあて、戻り値特性を減少させる。 RAGには最小限のリソース要件がある。 各エージェントは、たとえ完全に隔離されたアクションを選択することを意味するとしても、その近傍のサイズを調整することでアルゴリズムを実行することができる。 RAGは証明可能な近似性能を持ち、各エージェントがその貢献を独立して決定することができる。 総じてragは、グローバルに近い最適化(global near-optimality)と、ほぼ最小のオンボードリソース要求の分散化(decentralization)のトレードオフを定量化する最初のアルゴリズムである。 トレードオフを捉えるために,非隣人(COIN)間の情報の集中化の概念を導入する。 モバイルロボットによる画像被覆のシミュレーションシナリオにおいてragを検証する。

We introduce the first algorithm for distributed decision-making that provably balances the trade-off of centralization, for global near-optimality, vs. decentralization, for near-minimal on-board computation, communication, and memory resources. We are motivated by the future of autonomy that involves heterogeneous robots collaborating in complex~tasks, such as image covering, target tracking, and area monitoring. Current algorithms, such as consensus algorithms, are insufficient to fulfill this future: they achieve distributed communication only, at the expense of high communication, computation, and memory overloads. A shift to resource-aware algorithms is needed, that can account for each robot's on-board resources, independently. We provide the first resource-aware algorithm, Resource-Aware distributed Greedy (RAG). We focus on maximization problems involving monotone and "doubly" submodular functions, a diminishing returns property. RAG has near-minimal on-board resource requirements. Each agent can afford to run the algorithm by adjusting the size of its neighborhood, even if that means selecting actions in complete isolation. RAG has provable approximation performance, where each agent can independently determine its contribution. All in all, RAG is the first algorithm to quantify the trade-off of centralization, for global near-optimality, vs. decentralization, for near-minimal on-board resource requirements. To capture the trade-off, we introduce the notion of Centralization Of Information among non-Neighbors (COIN). We validate RAG in simulated scenarios of image covering with mobile robots.
翻訳日:2022-04-18 14:02:51 公開日:2022-04-15
# (参考訳) 低光度画像問題における半教師付き大気成分学習 [全文訳有]

Semi-supervised atmospheric component learning in low-light image problem ( http://arxiv.org/abs/2204.07546v1 )

ライセンス: CC BY 4.0
Masud An Nur Islam Fahim and Nazmus Saqib and Jung Ho Yub(参考訳) 環境照明条件は、写真装置から画像の知覚品質を決定する上で重要な役割を果たす。 一般に、不適切な透過光と望ましくない大気条件が共同で画質を劣化させる。 与えられた低照度画像に関連付けられた所望の環境因子を知れば、拡張された画像が容易に \cite{b1} を復元できる。 典型的なディープネットワークは、光分布と色形成特性を調査せずに強調マッピングを行う。 これにより、実際にイメージインスタンス適応性能が欠如する。 一方、物理モデル駆動型スキームは、固有の分解と複数の目的最小化の必要性に悩まされる。 さらに、上記のアプローチはデータ効率が良く、予測後のチューニングがないことは滅多にない。 本研究は,低照度画像復元のための非参照画像品質指標を用いた半教師付きトレーニング手法を提案する。 従来のヘイズ分布モデルである \cite{b2} を用いて, 大気成分の影響を学習し, 修復目的の1つを最小化するために, 与えられた画像の物理的性質を探索する。 広範に使用される6つの低照度データセットに対して,ネットワークの性能を検証する。 実験の結果,本研究は最先端あるいは同等の性能が得られることが示された。

Ambient lighting conditions play a crucial role in determining the perceptual quality of images from photographic devices. In general, inadequate transmission light and undesired atmospheric conditions jointly degrade the image quality. If we know the desired ambient factors associated with the given low-light image, we can recover the enhanced image easily \cite{b1}. Typical deep networks perform enhancement mappings without investigating the light distribution and color formulation properties. This leads to a lack of image instance-adaptive performance in practice. On the other hand, physical model-driven schemes suffer from the need for inherent decompositions and multiple objective minimizations. Moreover, the above approaches are rarely data efficient or free of postprediction tuning. Influenced by the above issues, this study presents a semisupervised training method using no-reference image quality metrics for low-light image restoration. We incorporate the classical haze distribution model \cite{b2} to explore the physical properties of the given image in order to learn the effect of atmospheric components and minimize a single objective for restoration. We validate the performance of our network for six widely used low-light datasets. The experiments show that the proposed study achieves state-of-the-art or comparable performance.
翻訳日:2022-04-18 13:44:33 公開日:2022-04-15
# (参考訳) 高速Nyquist(FTN)信号検出のための深層学習に基づくリスト球デコーディング [全文訳有]

Deep Learning-based List Sphere Decoding for Faster-than-Nyquist (FTN) Signaling Detection ( http://arxiv.org/abs/2204.07569v1 )

ライセンス: CC BY 4.0
Sina Abbasi and Ebrahim Bedeer(参考訳) Faster-than-Nyquist (FTN) シグナリングは将来の通信システムのスペクトル効率(SE)を改善するための非正規伝送技術候補である。 しかし、seのこのような改良は、故意に導入されたシンボリック間干渉を取り除くために追加の計算複雑性を犠牲にしている。 本稿では,深層学習(DL)を用いたFTN信号の検出複雑性の低減について検討する。 受信機にノイズ・ホワイトニング・フィルタを設ける必要性をなくすため,まず,正規直交基底関数の集合を用いて等価なftn信号モデルを示し,その動作領域を同定する。 次に,DL-LSD(DL-LSD)アルゴリズムを提案する。このアルゴリズムは,ハイパースフィア内の格子点の既定値$N_{\text{L}}$を保証するために,元のLSDの初期半径を選択し,更新する。 これはニューラルネットワークをトレーニングして、$N_{\text{L}}$格子点を含む近似初期半径を出力することで達成される。 テストフェーズでは、超球面が$N_{\text{L}}$格子点を持つ場合、受信したFTN信号に対応する点に$N_{\text{L}}$近い点を保持するが、超球面が$N_{\text{L}}$点未満であれば、トレーニングフェーズからの出力半径の標準偏差に依存する値で近似初期半径を増大させる。 そして、得られた$N_{\text{L}}$ポイントに基づいて、ログ類似率(LLR)の近似値を算出する。 シミュレーションの結果,提案するDL-LSDの計算複雑性は,従来のLSDよりも桁違いに低いことがわかった。

Faster-than-Nyquist (FTN) signaling is a candidate non-orthonormal transmission technique to improve the spectral efficiency (SE) of future communication systems. However, such improvements of the SE are at the cost of additional computational complexity to remove the intentionally introduced intersymbol interference. In this paper, we investigate the use of deep learning (DL) to reduce the detection complexity of FTN signaling. To eliminate the need of having a noise whitening filter at the receiver, we first present an equivalent FTN signaling model based on using a set of orthonormal basis functions and identify its operation region. Second, we propose a DL-based list sphere decoding (DL-LSD) algorithm that selects and updates the initial radius of the original LSD to guarantee a pre-defined number $N_{\text{L}}$ of lattice points inside the hypersphere. This is achieved by training a neural network to output an approximate initial radius that includes $N_{\text{L}}$ lattice points. At the testing phase, if the hypersphere has more than $N_{\text{L}}$ lattice points, we keep the $N_{\text{L}}$ closest points to the point corresponding to the received FTN signal; however, if the hypersphere has less than $N_{\text{L}}$ points, we increase the approximate initial radius by a value that depends on the standard deviation of the distribution of the output radii from the training phase. Then, the approximate value of the log-likelihood ratio (LLR) is calculated based on the obtained $N_{\text{L}}$ points. Simulation results show that the computational complexity of the proposed DL-LSD is lower than its counterpart of the original LSD by orders of magnitude.
翻訳日:2022-04-18 13:33:15 公開日:2022-04-15
# (参考訳) 分散情報ボトルネックは複雑なシステムの説明構造を明らかにする [全文訳有]

The Distributed Information Bottleneck reveals the explanatory structure of complex systems ( http://arxiv.org/abs/2204.07576v1 )

ライセンス: CC BY 4.0
Kieran A. Murphy and Dani S. Bassett(参考訳) 科学の果実は、しばしば近似によって理解されやすい関係である。 ディープラーニングはデータに関係性を見出すための非常に強力な方法だが、科学におけるその利用は、学習した関係を理解することの難しさによって妨げられている。 情報ボトルネック(インフォメーション・ボトルネック、英: information bottleneck、ib)は、入力と出力の関係を、その関係に対する近似の忠実性と複雑さの間のトレードオフの観点から理解するための情報理論的枠組みである。 ここでは、重要な変更 -- 入力の複数のコンポーネントにまたがってボトルネックを分散する -- が、科学における解釈可能なディープラーニングの基本的な新しい道を開くことを示します。 Distributed Information Bottleneckは、入力のコンポーネント間のインタラクションの下流の複雑さを緩和し、カスタムメイドのデータセットやニューラルネットワークアーキテクチャを必要とせずに、ディープラーニングを通じて見出される意味のある近似に関係を分解する。 複雑なシステムに適用された近似は、近似に組み込まれたさまざまなコンポーネントに関する情報を制限することで、システムの性質の側面を照らす。 応用数学と凝縮物質物理学から導かれたシステムにおける分散IBの説明ユーティリティを実証する。 前者では、ブール回路を入力成分の最も有益な部分集合を排他的な探索を必要とせずに分離する近似に分解する。 後者では, せん断ガラスの静的構造において, 将来のプラスチック再配置に関する情報を局所化し, システムの準備に応じて多かれ少なかれ拡散する情報を見出す。 原理的な近似スキームにより、Distributed IBは深層学習に多くの必要な解釈可能性をもたらし、システムを通しての情報フローを前例のない分析を可能にする。

The fruits of science are relationships made comprehensible, often by way of approximation. While deep learning is an extremely powerful way to find relationships in data, its use in science has been hindered by the difficulty of understanding the learned relationships. The Information Bottleneck (IB) is an information theoretic framework for understanding a relationship between an input and an output in terms of a trade-off between the fidelity and complexity of approximations to the relationship. Here we show that a crucial modification -- distributing bottlenecks across multiple components of the input -- opens fundamentally new avenues for interpretable deep learning in science. The Distributed Information Bottleneck throttles the downstream complexity of interactions between the components of the input, deconstructing a relationship into meaningful approximations found through deep learning without requiring custom-made datasets or neural network architectures. Applied to a complex system, the approximations illuminate aspects of the system's nature by restricting -- and monitoring -- the information about different components incorporated into the approximation. We demonstrate the Distributed IB's explanatory utility in systems drawn from applied mathematics and condensed matter physics. In the former, we deconstruct a Boolean circuit into approximations that isolate the most informative subsets of input components without requiring exhaustive search. In the latter, we localize information about future plastic rearrangement in the static structure of a sheared glass, and find the information to be more or less diffuse depending on the system's preparation. By way of a principled scheme of approximations, the Distributed IB brings much-needed interpretability to deep learning and enables unprecedented analysis of information flow through a system.
翻訳日:2022-04-18 13:21:06 公開日:2022-04-15
# 知的システムのデジタル双対における知識等価性

Knowledge Equivalence in Digital Twins of Intelligent Systems ( http://arxiv.org/abs/2204.07481v1 )

ライセンス: Link先を確認
Nan Zhang, Rami Bahsoon, Nikos Tziritas, Georgios Theodoropoulos(参考訳) デジタルツインは、研究中の物理世界の最新のデータ駆動モデルを含み、シミュレーションを使用して物理世界を最適化することができる。 しかし、デジタルツインによる解析は、モデルが物理世界と等価である場合に限り有効で信頼性が高い。 そのようなモデルを維持することは、特にモデル化されている物理システムがインテリジェントで自律的である場合、難しい。 この論文は、システムが知識を認識できるが能力は限られている知的システムのデジタル双生児モデルに焦点を当てている。 デジタル双子は、シミュレーション環境により多くの知識を蓄積することにより、物理システムのメタレベルでの動作を改善する。 このようなインテリジェントな物理システムのモデリングには、仮想空間における知識認識能力を複製する必要がある。 モデルと物理系の知識を同期させるには、新しい等価性維持技術が必要である。 本稿では,知識比較と更新による知識等価性の概念と等価性維持手法を提案する。 提案手法の定量的解析により, 状態等価性と比較して, 知識等価性維持は逸脱を許容し, 不要な更新を低減し, 更新オーバーヘッドとシミュレーション信頼性とのトレードオフをより効果的に解決できることを確認した。

A digital twin contains up-to-date data-driven models of the physical world being studied and can use simulation to optimise the physical world. However, the analysis made by the digital twin is valid and reliable only when the model is equivalent to the physical world. Maintaining such an equivalent model is challenging, especially when the physical systems being modelled are intelligent and autonomous. The paper focuses in particular on digital twin models of intelligent systems where the systems are knowledge-aware but with limited capability. The digital twin improves the acting of the physical system at a meta-level by accumulating more knowledge in the simulated environment. The modelling of such an intelligent physical system requires replicating the knowledge-awareness capability in the virtual space. Novel equivalence maintaining techniques are needed, especially in synchronising the knowledge between the model and the physical system. This paper proposes the notion of knowledge equivalence and an equivalence maintaining approach by knowledge comparison and updates. A quantitative analysis of the proposed approach confirms that compared to state equivalence, knowledge equivalence maintenance can tolerate deviation thus reducing unnecessary updates and achieve more Pareto efficient solutions for the trade-off between update overhead and simulation reliability.
翻訳日:2022-04-18 12:56:26 公開日:2022-04-15
# the training response lawはディープニューラルネットワークの学習方法を説明する

The training response law explains how deep neural networks learn ( http://arxiv.org/abs/2204.07291v1 )

ライセンス: Link先を確認
Kenichi Nakazato(参考訳) ディープニューラルネットワークは、この10年で広く使われている技術だ。 実りある応用にもかかわらず、そのメカニズムはまだ解明されていない。 非常に単純な教師付き学習符号化問題を用いて学習過程を研究する。 その結果,ニューラルネットワークカーネルを記述するトレーニング応答において,簡単な法則が得られた。 応答は、単純な応答カーネルによって乗算された崩壊のようなパワー則からなる。 法則で単純な平均場力学モデルを構築し、ネットワークがどのように学習するかを説明することができる。 学習では、入力空間はカーネル間の競合に沿ってサブ空間に分割される。 分割の繰り返しと老化により、ネットワークはより複雑になるが、最終的には可塑性を失う。

Deep neural network is the widely applied technology in this decade. In spite of the fruitful applications, the mechanism behind that is still to be elucidated. We study the learning process with a very simple supervised learning encoding problem. As a result, we found a simple law, in the training response, which describes neural tangent kernel. The response consists of a power law like decay multiplied by a simple response kernel. We can construct a simple mean-field dynamical model with the law, which explains how the network learns. In the learning, the input space is split into sub-spaces along competition between the kernels. With the iterated splits and the aging, the network gets more complexity, but finally loses its plasticity.
翻訳日:2022-04-18 12:55:29 公開日:2022-04-15
# 連続電子健康記録の教師なし確率モデル

Unsupervised Probabilistic Models for Sequential Electronic Health Records ( http://arxiv.org/abs/2204.07292v1 )

ライセンス: Link先を確認
Alan D. Kaplan, John D. Greene, Vincent X. Liu, Priyadip Ray(参考訳) 異種電子健康記録(EHR)データに対する教師なし確率モデルを構築した。 混合モデル定式化を用いることで,薬品や実験結果などの任意の長さの配列を直接モデル化する。 これにより、異種データ型の基礎となるダイナミクスをサブグループ化し、組み込むことができる。 モデルは、データの基盤構造をエンコードする遅延変数の階層化セットで構成されている。 これらの変数は、上位層におけるサブグループと、第2層におけるシーケンスの観測されていない状態を表す。 本モデルでは,北カリフォルニア総合医療提供システムkaiser permanenteにおける医療を受ける被験者のエピソディクスデータに基づいてトレーニングを行う。 トレーニングモデルの結果として得られる特性は、これらの複雑で多面的なデータから新たな洞察を生み出す。 さらに, 本モデルを用いて, 死亡率評価に寄与するシーケンスを解析する方法を示す。

We develop an unsupervised probabilistic model for heterogeneous Electronic Health Record (EHR) data. Utilizing a mixture model formulation, our approach directly models sequences of arbitrary length, such as medications and laboratory results. This allows for subgrouping and incorporation of the dynamics underlying heterogeneous data types. The model consists of a layered set of latent variables that encode underlying structure in the data. These variables represent subject subgroups at the top layer, and unobserved states for sequences in the second layer. We train this model on episodic data from subjects receiving medical care in the Kaiser Permanente Northern California integrated healthcare delivery system. The resulting properties of the trained model generate novel insight from these complex and multifaceted data. In addition, we show how the model can be used to analyze sequences that contribute to assessment of mortality likelihood.
翻訳日:2022-04-18 12:55:21 公開日:2022-04-15
# 不均質レーダネットワークに基づく航空機認識のための時空間グラフ注意畳み込みネットワーク

Spatio-Temporal-Freq uency Graph Attention Convolutional Network for Aircraft Recognition Based on Heterogeneous Radar Network ( http://arxiv.org/abs/2204.07360v1 )

ライセンス: Link先を確認
Han Meng, Yuexing Peng, Wenbo Wang, Peng Cheng, Yonghui Li and Wei Xiang(参考訳) 本論文では,異種レーダネットワークにおける航空機認識のための知識とデータに基づく協調学習モデルを提案する。 航空機の認識可能性分析は,(1)航空機の意味的特徴は運動特性によって駆動される運動パターンであり,(2)レーダー断面(RCS)信号に含まれる文法的特徴は,航空機の電磁放射形状と運動パターンによって決定される空間時間周波数の多様性を示す。 次に、STFグラフ注意畳み込みネットワーク(STFGACN)を開発し、異種レーダネットワークが受信したRCS信号から意味的特徴を抽出する。 その結果, STFGACNは検出精度においてベースライン法よりも優れており, アブレーション実験により, 低信号対雑音比領域において, 情報次元の拡大が頑健に動作することを示す。

This paper proposes a knowledge-and-data-d riven graph neural network-based collaboration learning model for reliable aircraft recognition in a heterogeneous radar network. The aircraft recognizability analysis shows that: (1) the semantic feature of an aircraft is motion patterns driven by the kinetic characteristics, and (2) the grammatical features contained in the radar cross-section (RCS) signals present spatial-temporal-fre quency (STF) diversity decided by both the electromagnetic radiation shape and motion pattern of the aircraft. Then a STF graph attention convolutional network (STFGACN) is developed to distill semantic features from the RCS signals received by the heterogeneous radar network. Extensive experiment results verify that the STFGACN outperforms the baseline methods in terms of detection accuracy, and ablation experiments are carried out to further show that the expansion of the information dimension can gain considerable benefits to perform robustly in the low signal-to-noise ratio region.
翻訳日:2022-04-18 12:55:10 公開日:2022-04-15
# モジュール型CMA-ES変数の性能予測における景観特徴の重要性

The Importance of Landscape Features for Performance Prediction of Modular CMA-ES Variants ( http://arxiv.org/abs/2204.07431v1 )

ライセンス: Link先を確認
Ana Kostovska and Diederick Vermetten and Sa\v{s}o D\v{z}eroski and Carola Doerr and Peter Koro\v{s}ec and Tome Eftimov(参考訳) 与えられた最適化問題に対して最適なアルゴリズムを選択し、そのハイパーパラメータを決定することは難しい課題である。 したがって、あるアルゴリズムがどれだけうまく解決できるかを正確に予測することが望ましい。 単目的数値最適化における最近の研究は、教師付き機械学習手法が問題事例から抽出したランドスケープ特徴を用いてアルゴリズム性能を予測することができることを示した。 既存のアプローチでは、アルゴリズムをブラックボックスとして扱うのが一般的である。 本研究において,アルゴリズム特性に依存する景観特徴の選択が回帰精度をさらに向上させることができるかを検討するため,モジュラーCMA-ESフレームワークを考慮し,各景観特徴がアルゴリズム性能回帰モデルにどの程度寄与するかを推定する。 このデータに基づく探索的データ分析は、最も関連性の高い特徴の集合が個々のモジュールの設定に依存するのではなく、これらの特徴が回帰精度に与える影響を示している。 さらに,CMA-ES構成の個々のモジュールの状態を予測するために,モデル精度と特徴関連性を考慮した分類器を用いた。

Selecting the most suitable algorithm and determining its hyperparameters for a given optimization problem is a challenging task. Accurately predicting how well a certain algorithm could solve the problem is hence desirable. Recent studies in single-objective numerical optimization show that supervised machine learning methods can predict algorithm performance using landscape features extracted from the problem instances. Existing approaches typically treat the algorithms as black-boxes, without consideration of their characteristics. To investigate in this work if a selection of landscape features that depends on algorithms properties could further improve regression accuracy, we regard the modular CMA-ES framework and estimate how much each landscape feature contributes to the best algorithm performance regression models. Exploratory data analysis performed on this data indicate that the set of most relevant features does not depend on the configuration of individual modules, but the influence that these features have on regression accuracy does. In addition, we have shown that by using classifiers that take the features relevance on the model accuracy, we are able to predict the status of individual modules in the CMA-ES configurations.
翻訳日:2022-04-18 12:53:40 公開日:2022-04-15
# Hebbian Neural Networkを用いたカーネル類似性マッチング

Kernel similarity matching with Hebbian neural networks ( http://arxiv.org/abs/2204.07475v1 )

ライセンス: Link先を確認
Kyle Luther, H. Sebastian Seung(参考訳) 最近の研究は、オンライン相関ベースの学習ルールを持つニューラルネットワークを導出して、 \textit{kernel similarity matching}を実行する。 これらの研究は、ランダムフーリエ法で生成された非線形特徴に既存の線形類似性マッチングアルゴリズムを適用した。 本稿では,非線形特徴を直接学習することにより,カーネル類似性マッチングを行う。 我々のアルゴリズムは、出力と入力カーネルの類似性の間の2乗誤差の和の上限を導出し、最小化する。 上位境界の構築は、オンラインの相関に基づく学習ルールにつながり、1層の繰り返しニューラルネットワークで実装できる。 高次元線形分離表現を生成することに加え、上界が特定の入力パターンに対してスパースで選択的な表現を自然に得ることを示す。 提案手法の近似品質をニューラルランダムフーリエ法と比較し, カーネル行列を近似する「Nystr{\"o}m"法」の変種と比較した。 我々の手法は、出力が比較的低次元である場合(ただし、入力よりも高次元である場合)にランダムにサンプリングされたNystr{\"o}m法と同等かそれ以上であるように見えるが、出力が非常に高次元である場合には忠実でない。

Recent works have derived neural networks with online correlation-based learning rules to perform \textit{kernel similarity matching}. These works applied existing linear similarity matching algorithms to nonlinear features generated with random Fourier methods. In this paper attempt to perform kernel similarity matching by directly learning the nonlinear features. Our algorithm proceeds by deriving and then minimizing an upper bound for the sum of squared errors between output and input kernel similarities. The construction of our upper bound leads to online correlation-based learning rules which can be implemented with a 1 layer recurrent neural network. In addition to generating high-dimensional linearly separable representations, we show that our upper bound naturally yields representations which are sparse and selective for specific input patterns. We compare the approximation quality of our method to neural random Fourier method and variants of the popular but non-biological "Nystr{\"o}m" method for approximating the kernel matrix. Our method appears to be comparable or better than randomly sampled Nystr{\"o}m methods when the outputs are relatively low dimensional (although still potentially higher dimensional than the inputs) but less faithful when the outputs are very high dimensional.
翻訳日:2022-04-18 12:53:22 公開日:2022-04-15
# CryoRL: 効率的なCryo-EMデータ収集を可能にする強化学習

CryoRL: Reinforcement Learning Enables Efficient Cryo-EM Data Collection ( http://arxiv.org/abs/2204.07543v1 )

ライセンス: Link先を確認
Quanfu Fan, Yilai Li, Yuguang Yao, John Cohn, Sijia Liu, Seychelle M. Vos, and Michael A. Cianfrocco(参考訳) 単粒子核電子顕微鏡 (cryo-em) は, 生体分子の高分解能構造を決定できるため, 主要な構造生物学技術の一つである。 しかし、Cryo-EMデータ取得は高価で労働集約的であり、かなりの専門知識を必要とする。 構造生物学者は、限られた時間枠で最高のデータを集めるために、より効率的で客観的な方法が必要です。 本研究では,Cryo-EMデータ収集タスクを最適化問題として定式化する。 ゴールは、指定された期間内に撮影された良い画像の総数を最大化することである。 強化学習はcryo-emデータ収集を効率的に計画し,異種cryo-emグリッドのナビゲートを可能にする。 開発したアプローチであるCryoRLは、同様の設定下でのデータ収集を行う平均ユーザよりも優れたパフォーマンスを示す。

Single-particle cryo-electron microscopy (cryo-EM) has become one of the mainstream structural biology techniques because of its ability to determine high-resolution structures of dynamic bio-molecules. However, cryo-EM data acquisition remains expensive and labor-intensive, requiring substantial expertise. Structural biologists need a more efficient and objective method to collect the best data in a limited time frame. We formulate the cryo-EM data collection task as an optimization problem in this work. The goal is to maximize the total number of good images taken within a specified period. We show that reinforcement learning offers an effective way to plan cryo-EM data collection, successfully navigating heterogenous cryo-EM grids. The approach we developed, cryoRL, demonstrates better performance than average users for data collection under similar settings.
翻訳日:2022-04-18 12:53:00 公開日:2022-04-15
# エッジ上の速度制約物体検出のための特徴圧縮

Feature Compression for Rate Constrained Object Detection on the Edge ( http://arxiv.org/abs/2204.07314v1 )

ライセンス: Link先を確認
Zhongzheng Yuan, Samyak Rawlekar, Siddharth Garg, Elza Erkip, Yao Wang(参考訳) コンピュータビジョンの最近の進歩は、モバイルデバイスにビジュアル分析モデルを展開することへの関心が高まっている。 しかし、ほとんどのモバイルデバイスは計算能力に制限があり、大規模なビジュアル分析ニューラルネットワークの実行を禁止している。 この問題を解決するための新たなアプローチは、これらのニューラルネットワークの計算をエッジサーバのコンピューティングリソースにオフロードすることだ。 効率的な計算オフロードでは、圧縮されたデータレート、分析性能、計算速度を含む複数の目的間のトレードオフを最適化する必要がある。 本研究では、YOLOオブジェクト検出モデルの計算の一部をオフロードする「分割計算」システムについて検討する。 本稿では,中間のyolo特徴を軽量計算で圧縮する学習可能な特徴圧縮手法を提案する。 特徴圧縮・減圧モジュールをyoloモデルと共に訓練し,レート制約下での物体検出精度を最適化する。 標準画像圧縮や学習画像圧縮をモバイルで適用し,エッジで画像圧縮やYOLOを行うベースライン手法と比較して,提案方式は低~中程度の速度で高い検出精度を実現する。 さらに,提案システムではCPUのみのモバイルデバイス上での計算時間を大幅に削減する必要がある。

Recent advances in computer vision has led to a growth of interest in deploying visual analytics model on mobile devices. However, most mobile devices have limited computing power, which prohibits them from running large scale visual analytics neural networks. An emerging approach to solve this problem is to offload the computation of these neural networks to computing resources at an edge server. Efficient computation offloading requires optimizing the trade-off between multiple objectives including compressed data rate, analytics performance, and computation speed. In this work, we consider a "split computation" system to offload a part of the computation of the YOLO object detection model. We propose a learnable feature compression approach to compress the intermediate YOLO features with light-weight computation. We train the feature compression and decompression module together with the YOLO model to optimize the object detection accuracy under a rate constraint. Compared to baseline methods that apply either standard image compression or learned image compression at the mobile and perform image decompression and YOLO at the edge, the proposed system achieves higher detection accuracy at the low to medium rate range. Furthermore, the proposed system requires substantially lower computation time on the mobile device with CPU only.
翻訳日:2022-04-18 12:52:34 公開日:2022-04-15
# Deep CardioSound: 心音マルチラベルのための組込みディープラーニングモデル

Deep CardioSound: An Ensembled Deep Learning Model for Heart Sound MultiLabelling ( http://arxiv.org/abs/2204.07420v1 )

ライセンス: Link先を確認
Li Guo, Steven Davenport and Yonghong Peng(参考訳) 心臓音の診断と分類は、特に遠隔診断が標準的な臨床実践となるとき、心血管疾患の検出に不可欠である。 現在の作業のほとんどは、単一カテゴリーに基づく聴音分類タスク用に設計されている。 本研究は, 自動心音診断環境の景観を更に拡張するために, マームのタイミング, ピッチ, グレーディング, 品質, 形状など, 異なるラベル群からのラベルで, 心音録音を自動的にアノテートできる深層多ラベル学習モデルを提案する。 提案手法は,セグメントレベルでの感度=0.990,特異度=0.999,f1=0.990,記録レベルでの総合精度=0.969のマルチラベル作業において,ホールドアウトデータにおいて優れた性能を得た。

Heart sound diagnosis and classification play an essential role in detecting cardiovascular disorders, especially when the remote diagnosis becomes standard clinical practice. Most of the current work is designed for single category based heard sound classification tasks. To further extend the landscape of the automatic heart sound diagnosis landscape, this work proposes a deep multilabel learning model that can automatically annotate heart sound recordings with labels from different label groups, including murmur's timing, pitch, grading, quality, and shape. Our experiment results show that the proposed method has achieved outstanding performance on the holdout data for the multi-labelling task with sensitivity=0.990, specificity=0.999, F1=0.990 at the segments level, and an overall accuracy=0.969 at the patient's recording level.
翻訳日:2022-04-18 12:52:15 公開日:2022-04-15
# 機械活動検出に基づく異常音検出

Anomalous Sound Detection Based on Machine Activity Detection ( http://arxiv.org/abs/2204.07353v1 )

ライセンス: Link先を確認
Tomoya Nishida, Kota Dohi, Takashi Endo, Masaaki Yamamoto, Yohei Kawaguchi(参考訳) 補助タスクを利用する機械状態監視のための教師なし異常音検出法を開発した。 まず, 機械活動ラベル付き正規データを用いて機械活動を検出するモデルを訓練し, 推定フェーズで接地活動ラベルにアクセスする場合, 与えられた音声クリップの異常スコアとして活動検出誤差を用いる。 これらのラベルが利用できない場合は、アクティビティ検出モデルによって得られた埋め込みベクトルの異常検出により異常スコアを算出する。 この補助的なタスクを解くことで、モデルが対象の機械音と類似の背景雑音の違いを学習し、ターゲットの音の小さな偏差を識別することができる。 実験により,提案手法はアンサンブルを用いて従来の手法の異常検出性能を相補的に向上することを示した。

We have developed an unsupervised anomalous sound detection method for machine condition monitoring that utilizes an auxiliary task -- detecting when the target machine is active. First, we train a model that detects machine activity by using normal data with machine activity labels and then use the activity-detection error as the anomaly score for a given sound clip if we have access to the ground-truth activity labels in the inference phase. If these labels are not available, the anomaly score is calculated through outlier detection on the embedding vectors obtained by the activity-detection model. Solving this auxiliary task enables the model to learn the difference between the target machine sounds and similar background noise, which makes it possible to identify small deviations in the target sounds. Experimental results showed that the proposed method improves the anomaly-detection performance of the conventional method complementarily by means of an ensemble.
翻訳日:2022-04-18 12:50:14 公開日:2022-04-15
# 対象非依存型脳-コンピュータインタフェースのためのプロトタイプベースドメイン一般化フレームワーク

Prototype-based Domain Generalization Framework for Subject-Independent Brain-Computer Interfaces ( http://arxiv.org/abs/2204.07358v1 )

ライセンス: Link先を確認
Serkan Musellim, Dong-Kyun Han, Ji-Hoon Jeong, and Seong-Whan Lee(参考訳) 脳-コンピュータインターフェース(BCI)は、脳波(EEG)のイントラオブジェクト間変動のため、実際に使用するのが困難である。 一般に、bciシステムは、システムを利用する度にモデルを調整するために、被験者/セッション固有のデータを取得するためのキャリブレーション技術を必要とする。 この問題はBCIにとって重要な障害として認識されており、ドメインの一般化に基づく新しい戦略が近年進化している。 これを踏まえて、私たちは、以前に別の被験者から取得したデータのみを使用して、未知のドメイン(すなわち、被験者)のデータに直接適用可能な脳波分類フレームワークの開発に集中しています。 そこで本研究では,オープンセット認識技術を用いて,未知のターゲットデータセットの特徴を新たな未知領域としてマッピングし,共有特徴抽出を支援しながら,ソースデータセットから主観的スタイルの特徴を学習するフレームワークを提案する。 本研究の目的は,共有特徴抽出器の一般化能力を向上させるため,同一領域にクロスインスタンス方式の不変性を付与し,潜在的未確認対象に対する空間的リスクを低減することである。 実験により,ドメイン情報を補助ネットワークとして用いると,一般化性能が向上することを示した。

Brain-computer interface (BCI) is challenging to use in practice due to the inter/intra-subject variability of electroencephalograp hy (EEG). The BCI system, in general, necessitates a calibration technique to obtain subject/session-spec ific data in order to tune the model each time the system is utilized. This issue is acknowledged as a key hindrance to BCI, and a new strategy based on domain generalization has recently evolved to address it. In light of this, we've concentrated on developing an EEG classification framework that can be applied directly to data from unknown domains (i.e. subjects), using only data acquired from separate subjects previously. For this purpose, in this paper, we proposed a framework that employs the open-set recognition technique as an auxiliary task to learn subject-specific style features from the source dataset while helping the shared feature extractor with mapping the features of the unseen target dataset as a new unseen domain. Our aim is to impose cross-instance style in-variance in the same domain and reduce the open space risk on the potential unseen subject in order to improve the generalization ability of the shared feature extractor. Our experiments showed that using the domain information as an auxiliary network increases the generalization performance.
翻訳日:2022-04-18 12:50:00 公開日:2022-04-15
# 機械学習による準安定状態の特徴付け

Characterizing metastable states with the help of machine learning ( http://arxiv.org/abs/2204.07391v1 )

ライセンス: Link先を確認
Pietro Novelli, Luigi Bonati, Massimiliano Pontil and Michele Parrinello(参考訳) 現在の原子論シミュレーションは、より複雑な系の長い軌道を生成する。 これらのデータを分析し、準安定状態を発見し、その性質を明らかにすることはますます困難になりつつある。 本稿では,まず,共形力学に対する変分的アプローチを用いて,シミュレーションの最も遅い動的モードを探索する。 これにより、システムの異なる準安定状態が階層的に配置される。 メタ安定状態を特徴付ける物理ディスクリプタは、機械学習法により発見される。 キグノリンとウシ膵トリプシンインヒビターの2つのタンパク質について,その分析を数秒で行なえるかを示した。 このアプローチのもうひとつの強みは、偏りのないシミュレーションと偏りのないシミュレーションの両方の分析に適用できることだ。

Present-day atomistic simulations generate long trajectories of ever more complex systems. Analyzing these data, discovering metastable states, and uncovering their nature is becoming increasingly challenging. In this paper, we first use the variational approach to conformation dynamics to discover the slowest dynamical modes of the simulations. This allows the different metastable states of the system to be located and organized hierarchically. The physical descriptors that characterize metastable states are discovered by means of a machine learning method. We show in the cases of two proteins, Chignolin and Bovine Pancreatic Trypsin Inhibitor, how such analysis can be effortlessly performed in a matter of seconds. Another strength of our approach is that it can be applied to the analysis of both unbiased and biased simulations.
翻訳日:2022-04-18 12:49:39 公開日:2022-04-15
# Black-Box Reachability 解析を用いた安全強化学習

Safe Reinforcement Learning Using Black-Box Reachability Analysis ( http://arxiv.org/abs/2204.07417v1 )

ライセンス: Link先を確認
Mahmoud Selim, Amr Alanwar, Shreyas Kousik, Grace Gao, Marco Pavone, Karl H. Johansson(参考訳) 強化学習(rl)は、不確定な環境でロボットの高度な動作計画と制御を可能にする。 しかし、最先端の深層RLアプローチは、特にロボットや環境モデルが不明な場合に、安全保証を欠いている。 広範な展開を正当化するために、ロボットは性能を犠牲にすることなく安全性の制約を尊重しなければならない。 そこで,本研究では,(1)ブラックボックスロボットモデルのデータ駆動到達可能性解析,(2)オンライントレーニングされたニューラルネットワークのアンサンブルを用いた将来の行動と観察を予測する軌道ロールアウトプランナ,(3)到達可能セットと安全でない動作を補正可能な障害物との差別化可能なポリトープ衝突チェック,の3つの主成分からなるブラックボックス到達性ベースの安全層を提案する。 シミュレーションにおいて、brslは、タートルボット3、クワッドローター、及び最高報酬の領域に隣接した安全でないセットで軌道追跡ポイント質量において、他の最先端の安全rl法よりも優れる。

Reinforcement learning (RL) is capable of sophisticated motion planning and control for robots in uncertain environments. However, state-of-the-art deep RL approaches typically lack safety guarantees, especially when the robot and environment models are unknown. To justify widespread deployment, robots must respect safety constraints without sacrificing performance. Thus, we propose a Black-box Reachability-based Safety Layer (BRSL) with three main components: (1) data-driven reachability analysis for a black-box robot model, (2) a trajectory rollout planner that predicts future actions and observations using an ensemble of neural networks trained online, and (3) a differentiable polytope collision check between the reachable set and obstacles that enables correcting unsafe actions. In simulation, BRSL outperforms other state-of-the-art safe RL methods on a Turtlebot 3, a quadrotor, and a trajectory-tracking point mass with an unsafe set adjacent to the area of highest reward.
翻訳日:2022-04-18 12:49:27 公開日:2022-04-15
# XGBoostを用いた高精度ADMET予測

Accurate ADMET Prediction with XGBoost ( http://arxiv.org/abs/2204.07532v1 )

ライセンス: Link先を確認
Hao Tian, Rajas Ketkar and Peng Tao(参考訳) 吸収, 分布, 代謝, 排ガス, 毒性(ADMET)の特性は, 有効性と安全性を規定する薬物発見において重要である。 ここでは,指紋やディスクリプタなどの機能や,木に基づく機械学習モデル,極端な勾配向上,ADMETの正確な予測など,さまざまな機能を適用する。 我々のモデルはTherapeutics Data Commons ADMETベンチマークグループでよく機能する。 22タスクでは、私たちのモデルは10タスクで1位、18タスクで3位にランクされています。

The absorption, distribution, metabolism, excretion, and toxicity (ADMET) properties are important in drug discovery as they define efficacy and safety. Here, we apply an ensemble of features, including fingerprints and descriptors, and a tree-based machine learning model, extreme gradient boosting, for accurate ADMET prediction. Our model performs well in the Therapeutics Data Commons ADMET benchmark group. For 22 tasks, our model is ranked first in 10 tasks and top 3 in 18 tasks.
翻訳日:2022-04-18 12:49:07 公開日:2022-04-15
# 持続的生命様細胞性オートマタの選択と予測不可能性

Selecting Continuous Life-Like Cellular Automata for Halting Unpredictability: Evolving for Abiogenesis ( http://arxiv.org/abs/2204.07541v1 )

ライセンス: Link先を確認
Q. Tyrell Davis and Josh Bongard(参考訳) グライダーのサポートなど,創発的特性が望まれるエンジニアCAには,実質的な取り組みが適用されている。 連続CAにおける最近の研究は、様々な魅力的な生物発光パターンを生み出し、CA研究の連続数、複数のチャネル、高次元への拡張はその研究を複雑にしている。 本研究では,CAが無期限に成長するパターンと,完全に消滅するパターンをサポートし,事前の差を予測できないパターンをサポートする場合,CAは複雑で計算能力が高いという単純な考え方に基づいて,CAとCAのパターンを2段階に進化させる戦略を考案する。 戦略の第2部では,移動性の選択と平均セル価値の保存によってパターンを進化させる。 我々は,レニアCA17のグライダーを再発見することにより,パターン進化の手法を検証するとともに,以前報告したレニアCA17のパターンと異なり,進化したグライダーパターンをサポートする新しい5つのCAを報告した。 ここでは、近辺の核をレニアCAと共有しているが、レニアCAよりも広い範囲の典型的なダイナミクスを示す。 継続的caの進化のためのコードはmitライセンスで利用可能である。

Substantial efforts have been applied to engineer CA with desired emergent properties, such as supporting gliders. Recent work in continuous CA has generated a wide variety of compelling bioreminescent patterns, and the expansion of CA research into continuous numbers, multiple channels, and higher dimensions complicates their study. In this work we devise a strategy for evolving CA and CA patterns in two steps, based on the simple idea that CA are likely to be complex and computationally capable if they support patterns that grow indefinitely as well as patterns that vanish completely, and are difficult to predict the difference in advance. The second part of our strategy evolves patterns by selecting for mobility and conservation of mean cell value. We validate our pattern evolution method by re-discovering gliders in 17 of 17 Lenia CA, and also report 5 new evolved CA that support evolved glider patterns, differing from previously reported Lenia patterns. The CA reported here share neighborhood kernels with previously described Lenia CA, but exhibit a wider range of typical dynamics than their Lenia counterparts. Code for evolving continuous CA is made available under an MIT License.
翻訳日:2022-04-18 12:48:59 公開日:2022-04-15
# (参考訳) 大規模3次元セマンティクスセグメンテーションのための野生におけるマルチビューアグリゲーションの学習 [全文訳有]

Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic Segmentation ( http://arxiv.org/abs/2204.07548v1 )

ライセンス: CC BY 4.0
Damien Robert, Bruno Vallet, Loic Landrieu(参考訳) 3Dセマンティックセグメンテーションに関する最近の研究は、各モードを専用ネットワークで処理し、学習した2D機能を3Dポイントに投影することで、画像と点雲の相乗効果を活用することを提案する。 大規模ポイントクラウドとイメージの融合は、ポイントとピクセル間のマッピングの構築や、複数のビュー間の機能の集約など、いくつかの課題を引き起こす。 現在の方法では、咬合を回復するためにメッシュ再構成や特殊なセンサーが必要であり、ヒューリスティックスを使って利用可能な画像を選択し集約する。 対照的に、任意の位置で撮影された画像から特徴をマージするために、3Dポイントの視聴条件を利用するエンドツーエンドのトレーニング可能なマルチビューアグリゲーションモデルを提案する。 提案手法は,標準的な2Dおよび3Dネットワークを組み合わせることで,カラー化,メッシュ化,あるいは真の深度マップを必要とせずに,カラー化点雲とハイブリッド2D/3Dネットワークで動作する3Dモデルの両方より優れる。 S3DIS (74.7 mIoU 6-Fold) と KITTI-360 (58.3 mIoU) に, 大規模屋内・屋外セマンティックセマンティックセマンティックセグメンテーションのための新しい最先端技術を構築した。 私たちの完全なパイプラインはhttps://github.com/d rprojects/DeepViewAg gでアクセスできます。

Recent works on 3D semantic segmentation propose to exploit the synergy between images and point clouds by processing each modality with a dedicated network and projecting learned 2D features onto 3D points. Merging large-scale point clouds and images raises several challenges, such as constructing a mapping between points and pixels, and aggregating features between multiple views. Current methods require mesh reconstruction or specialized sensors to recover occlusions, and use heuristics to select and aggregate available images. In contrast, we propose an end-to-end trainable multi-view aggregation model leveraging the viewing conditions of 3D points to merge features from images taken at arbitrary positions. Our method can combine standard 2D and 3D networks and outperforms both 3D models operating on colorized point clouds and hybrid 2D/3D networks without requiring colorization, meshing, or true depth maps. We set a new state-of-the-art for large-scale indoor/outdoor semantic segmentation on S3DIS (74.7 mIoU 6-Fold) and on KITTI-360 (58.3 mIoU). Our full pipeline is accessible at https://github.com/d rprojects/DeepViewAg g, and only requires raw 3D scans and a set of images and poses.
翻訳日:2022-04-18 12:46:10 公開日:2022-04-15
# Polling Latent Opinions:トランスフォーマー言語モデルを用いた計算社会言語学の手法

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models ( http://arxiv.org/abs/2204.07483v1 )

ライセンス: Link先を確認
Philip Feldman. Aaron Dant, James R. Foulds, Shemei Pan(参考訳) 感情、トピック分析、その他の分析のためのソーシャルメディアのテキスト分析は、最初に研究コーパスの作成に使用されるキーワードやフレーズの選択に依存する。 しかし、研究者が選択するキーワードはまれに発生し、小さなサンプルを用いてエラーが発生する。 本稿では,GPTシリーズなどのトランスフォーマー言語モデルの記憶,補間,外挿の能力を用いて,Yelpレビューのより大きなコーパス内でのサブグループの言語的振る舞いを学習する。 次に、プロンプトベースのクエリを使用して合成テキストを生成し、モデルがトレーニングした集団が保持する特定の意見に対する洞察を解析します。 学習すると、従来のキーワード検索と比較して高い精度を持つモデルから、より具体的な感情クエリが作成できる。 訓練用コーパスに特定のキーフレーズが制限されている場合や、全く存在しない場合であっても、gptは正確な感情を持つ大量のテキストを正確に生成できることを示す。

Text analysis of social media for sentiment, topic analysis, and other analysis depends initially on the selection of keywords and phrases that will be used to create the research corpora. However, keywords that researchers choose may occur infrequently, leading to errors that arise from using small samples. In this paper, we use the capacity for memorization, interpolation, and extrapolation of Transformer Language Models such as the GPT series to learn the linguistic behaviors of a subgroup within larger corpora of Yelp reviews. We then use prompt-based queries to generate synthetic text that can be analyzed to produce insights into specific opinions held by the populations that the models were trained on. Once learned, more specific sentiment queries can be made of the model with high levels of accuracy when compared to traditional keyword searches. We show that even in cases where a specific keyphrase is limited or not present at all in the training corpora, the GPT is able to accurately generate large volumes of text that have the correct sentiment.
翻訳日:2022-04-18 12:20:43 公開日:2022-04-15
# ゼロショット質問生成による経路検索の改善

Improving Passage Retrieval with Zero-Shot Question Generation ( http://arxiv.org/abs/2204.07496v1 )

ライセンス: Link先を確認
Devendra Singh Sachan and Mike Lewis and Mandar Joshi and Armen Aghajanyan and Wen-tau Yih and Joelle Pineau and Luke Zettlemoyer(参考訳) オープンな質問応答における経路検索を改善するための,単純かつ効果的な手法を提案する。 再ランカは、学習済み言語モデルを用いて、検索されたパスに条件付けられた入力質問の確率を算出するゼロショット質問生成モデルを用いて、検索されたパスを再スコアする。 このアプローチは、任意の検索方法(例えば、ニューラルネットワークやキーワードベース)の上に適用でき、ドメイン固有のトレーニングやタスク固有のトレーニングを必要としない(従って、データ分散シフトをより一般化することが期待されている)。 複数のオープンドメイン検索データセットで評価すると,上位20項目の検索精度では,6%-18%の絶対および強い教師付きモデルによって,強い教師なし検索モデルが最大12%向上する。 さらに,既存のモデルに新たな再ランク付けを追加するだけで,完全なオープンドメイン質問応答に関する新たな最新結果を得ることができた。

We propose a simple and effective re-ranking method for improving passage retrieval in open question answering. The re-ranker re-scores retrieved passages with a zero-shot question generation model, which uses a pre-trained language model to compute the probability of the input question conditioned on a retrieved passage. This approach can be applied on top of any retrieval method (e.g. neural or keyword-based), does not require any domain- or task-specific training (and therefore is expected to generalize better to data distribution shifts), and provides rich cross-attention between query and passage (i.e. it must explain every token in the question). When evaluated on a number of open-domain retrieval datasets, our re-ranker improves strong unsupervised retrieval models by 6%-18% absolute and strong supervised models by up to 12% in terms of top-20 passage retrieval accuracy. We also obtain new state-of-the-art results on full open-domain question answering by simply adding the new re-ranker to existing models with no further changes.
翻訳日:2022-04-18 12:20:27 公開日:2022-04-15
# グラフニューラルネットワークのためのグラフプーリング:進歩、挑戦、機会

Graph Pooling for Graph Neural Networks: Progress, Challenges, and Opportunities ( http://arxiv.org/abs/2204.07321v1 )

ライセンス: Link先を確認
Chuang Liu, Yibing Zhan, Chang Li, Bo Du, Jia Wu, Wenbin Hu, Tongliang Liu, Dacheng Tao(参考訳) グラフニューラルネットワークは、グラフ分類やグラフ生成といった多くのグラフレベルのタスクの主要なアーキテクチャとして登場し、注目すべき改善点である。 これらのタスクのうち、グラフプーリングはグラフ全体のグラフレベル表現を得るためのグラフニューラルネットワークアーキテクチャの重要なコンポーネントである。 この先進的で開発が早い研究分野では,様々な手法が提案されているが,これらの手法を体系的に要約する努力はほとんど行われていない。 本稿では,このギャップを埋めるために,グラフプーリングの最近の手法を幅広く検討することによって,今後の研究の舞台を整える。 具体的には 1)まず,既存のグラフプーリング法の分類法を提案し,各カテゴリの数学的要約を提供する。 2)次に,一般的に使用されるデータセット,ダウンストリームタスクのためのモデルアーキテクチャ,オープンソース実装など,グラフプーリングに関連するライブラリの概要を提供する。 3) 次に,複数の領域にグラフプーリングという概念を組み込んだアプリケーションについて概説する。 4) そして最後に, 本研究で直面するいくつかの重要な課題について考察し, 今後のグラフプーリング改善の方向性について考察する。

Graph neural networks have emerged as a leading architecture for many graph-level tasks such as graph classification and graph generation with a notable improvement. Among these tasks, graph pooling is an essential component of graph neural network architectures for obtaining a holistic graph-level representation of the entire graph. Although a great variety of methods have been proposed in this promising and fast-developing research field, to the best of our knowledge, little effort has been made to systematically summarize these methods. To set the stage for the development of future works, in this paper, we attempt to fill this gap by providing a broad review of recent methods on graph pooling. Specifically, 1) we first propose a taxonomy of existing graph pooling methods and provide a mathematical summary for each category; 2) next, we provide an overview of the libraries related to graph pooling, including the commonly used datasets, model architectures for downstream tasks, and open-source implementations; 3) then, we further outline in brief the applications that incorporate the idea of graph pooling in a number of domains; 4) and finally, we discuss some critical challenges faced by the current studies and share our insights on potential directions for improving graph pooling in the future.
翻訳日:2022-04-18 12:19:55 公開日:2022-04-15
# フェロアロイ消費のための解釈可能な機械学習アプローチ

An interpretable machine learning approach for ferroalloys consumptions ( http://arxiv.org/abs/2204.07421v1 )

ライセンス: Link先を確認
Nick Knyazev(参考訳) 本稿では,フェロアロイ消費モデルと最適化のための実用的手法について述べる。 本稿では,センサからの履歴データの解析に基づいて,最適なプロセス制御パラメータを選択する問題を考える。 化学反応の結果を予測し, フェロアロイ類の消費を推奨する手法を開発した。 本手法の主な特徴は,解釈の容易さと耐雑音性である。 提案手法は,k-meansクラスタリングアルゴリズム,決定木,線形回帰に基づく。 このメソッドの主な考え方は、プロセスが同じように動く状況を特定することである。 そこで本研究では,k-meansに基づくデータセットクラスタリングアルゴリズムと分類アルゴリズムを用いてクラスタを決定する。 このアルゴリズムは様々な技術プロセスにも適用可能であるが,本論文ではメタルギーの応用を実証する。 本手法の適用性を検証するため, 取鍋炉内での鋼の仕上がり時に, 基本酸素炉製鋼における鉄合金消費量を最適化した。 所定の鋼品級の最小必須元素含有量を予測モデルの目標変数として選択し、最適化された変数として溶融に添加すべき元素の必要量を求めた。 キーワード:クラスタリング、機械学習、線形回帰、製鋼、最適化、グラディエントブースティング、人工知能、決定木、推奨サービス

This paper is devoted to a practical method for ferroalloys consumption modeling and optimization. We consider the problem of selecting the optimal process control parameters based on the analysis of historical data from sensors. We developed approach, which predicts results of chemical reactions and give ferroalloys consumption recommendation. The main features of our method are easy interpretation and noise resistance. Our approach is based on k-means clustering algorithm, decision trees and linear regression. The main idea of the method is to identify situations where processes go similarly. For this, we propose using a k-means based dataset clustering algorithm and a classification algorithm to determine the cluster. This algorithm can be also applied to various technological processes, in this article, we demonstrate its application in metallurgy. To test the application of the proposed method, we used it to optimize ferroalloys consumption in Basic Oxygen Furnace steelmaking when finishing steel in a ladle furnace. The minimum required element content for a given steel grade was selected as the predictive model's target variable, and the required amount of the element to be added to the melt as the optimized variable. Keywords: Clustering, Machine Learning, Linear Regression, Steelmaking, Optimization, Gradient Boosting, Artificial Intelligence, Decision Trees, Recommendation services
翻訳日:2022-04-18 12:19:36 公開日:2022-04-15
# 模倣学習の分割と克服

Divide & Conquer Imitation Learning ( http://arxiv.org/abs/2204.07404v1 )

ライセンス: Link先を確認
Alexandre Chenu, Nicolas Perrin-Gilbert and Olivier Sigaud(参考訳) 深層強化学習フレームワークに投入すると、多くのロボット工学タスクは、学習アルゴリズムが苦労する長い地平線とまばらな報酬問題を解決する必要がある。 このような文脈では、模倣学習(il)は学習プロセスをブートストラップする強力なアプローチになり得る。 しかし、ほとんどのilメソッドはいくつかの専門家によるデモンストレーションを必要とするため、入手は極めて困難である。 1つの専門家のデモンストレーションが利用可能な極めて低い専門家データ体制の文脈で効率を示すのは、少数のILアルゴリズムのみである。 本稿では,専門家軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。 逐次帰納的バイアスに基づいて,複雑なタスクをより小さなスキルに分割する。 スキルは、個々のスキルを個別に解決し、タスク全体をチェーンして解決できる目標条件のポリシーに学習される。 本手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なシミュレーションロボット操作タスクにスケールすることを示す。

When cast into the Deep Reinforcement Learning framework, many robotics tasks require solving a long horizon and sparse reward problem, where learning algorithms struggle. In such context, Imitation Learning (IL) can be a powerful approach to bootstrap the learning process. However, most IL methods require several expert demonstrations which can be prohibitively difficult to acquire. Only a handful of IL algorithms have shown efficiency in the context of an extreme low expert data regime where a single expert demonstration is available. In this paper, we present a novel algorithm designed to imitate complex robotic tasks from the states of an expert trajectory. Based on a sequential inductive bias, our method divides the complex task into smaller skills. The skills are learned into a goal-conditioned policy that is able to solve each skill individually and chain skills to solve the entire task. We show that our method imitates a non-holonomic navigation task and scales to a complex simulated robotic manipulation task with very high sample efficiency.
翻訳日:2022-04-18 12:18:03 公開日:2022-04-15
# 選択肢の有限評価によるE許容性決定

Decision-making with E-admissibility given a finite assessment of choices ( http://arxiv.org/abs/2204.07428v1 )

ライセンス: Link先を確認
Arne Decadt and Alexander Erreygers and Jasper De Bock and Gert de Cooman(参考訳) 決定者側が与えられた選択肢の集合から確実に拒否する選択肢に関する情報を考えると、E-admissibility による意思決定の意義について検討する。 つまり、任意の有限の選択肢から、与えられた情報と相容れない確率質量関数が最高の効用を与えるような選択肢を拒絶することを意味する。 我々は選択関数の数学的枠組みを用いて選択と拒絶を指定し、そのような関数の条件の形で利用可能な情報を指定する。 与えられた情報の最も保守的な拡張を、e-許容度に基づいて選択する選択関数に特徴付け、この拡張を線形実現可能性問題を解くことによって計算するアルゴリズムを提供する。

Given information about which options a decision-maker definitely rejects from given finite sets of options, we study the implications for decision-making with E-admissibility. This means that from any finite set of options, we reject those options that no probability mass function compatible with the given information gives the highest expected utility. We use the mathematical framework of choice functions to specify choices and rejections, and specify the available information in the form of conditions on such functions. We characterise the most conservative extension of the given information to a choice function that makes choices based on E-admissibility, and provide an algorithm that computes this extension by solving linear feasibility problems.
翻訳日:2022-04-18 12:17:48 公開日:2022-04-15
# LM対応MWERトレーニングによる希少単語認識の改善

Improving Rare Word Recognition with LM-aware MWER Training ( http://arxiv.org/abs/2204.07553v1 )

ライセンス: Link先を確認
Weiran Wang, Tongzhou Chen, Tara N. Sainath, Ehsan Variani, Rohit Prabhavalkar, Ronny Huang, Bhuvana Ramabhadran, Neeraj Gaur, Sepand Mavandadi, Cal Peyser, Trevor Strohman, Yanzhang He, David Rybach(参考訳) 言語モデル(LM)は、浅い融合または再装飾装置で使用される場合、訓練中にほとんど見られない単語のエンドツーエンド(E2E)モデルの認識精度を著しく向上させる。 本研究では,ハイブリッド自己回帰トランスデューサ(HAT)モデルの識別訓練フレームワークにおける学習におけるLMを導入し,LMの使用に関するトレーニングと推論のギャップを軽減する。 浅い融合系では, 仮説生成と損失計算の両方にlmsを用い, lm対応mwer学習モデルでは, 希少語を含む音声検索テストセットにおいて標準mwerで訓練されたモデルと比較して10-%の相対的改善を達成している。 再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。 このモデルは、通常のMWER訓練モデルと同様の再現 WER を達成するが、核融合重量の掃引は不要である。

Language models (LMs) significantly improve the recognition accuracy of end-to-end (E2E) models on words rarely seen during training, when used in either the shallow fusion or the rescoring setups. In this work, we introduce LMs in the learning of hybrid autoregressive transducer (HAT) models in the discriminative training framework, to mitigate the training versus inference gap regarding the use of LMs. For the shallow fusion setup, we use LMs during both hypotheses generation and loss computation, and the LM-aware MWER-trained model achieves 10\% relative improvement over the model trained with standard MWER on voice search test sets containing rare words. For the rescoring setup, we learn a small neural module to generate per-token fusion weights in a data-dependent manner. This model achieves the same rescoring WER as regular MWER-trained model, but without the need for sweeping fusion weights.
翻訳日:2022-04-18 12:17:36 公開日:2022-04-15
# caid: 医療画像における自己教師あり学習のための文脈対応インスタンス識別

CAiD: Context-Aware Instance Discrimination for Self-supervised Learning in Medical Imaging ( http://arxiv.org/abs/2204.07344v1 )

ライセンス: Link先を確認
Mohammad Reza Hosseinzadeh Taher, Fatemeh Haghighi, Michael B. Gotway, Jianming Liang(参考訳) 近年,自己教師付きインスタンス識別手法が,ラベルなしの写真画像から視覚的表現を学習することに成功した。 しかし、写真画像と医療画像の顕著な違いを考えると、画像の最も差別的なグローバル特徴(例えば、自転車の車輪)を学ぶことに焦点を当てたインスタンスベースの目的の有効性は、医療画像においてまだ不明である。 予備分析の結果,解剖学的ハマース・インスタンス識別手法による医用画像のグローバルな類似性は,医学的下流課題における評価に悪影響を及ぼすことが明らかとなった。 この制限を緩和するため、我々はContext-Aware instance Discrimination (CAiD)と呼ばれるシンプルだが効果的な自己管理フレームワークを開発した。 CAiDは、多様なローカルな医療画像から符号化された、より細かな、より差別的な情報を提供することで、インスタンス識別学習を改善することを目的としている。 3つの視点から学習特徴の有用性を検討するために体系的な分析を行う。 (i)一般化可能性及び移転可能性 (ii)埋め込み空間における分離性、及び (iii)再利用性。 本研究では,(1)既存のインスタンス識別手法から学習した表現を豊かにし,(2)個々のメディア画像からより微細なコンテキスト情報を適切に取得して,より差別的な特徴を提供する,(3)標準のインスタンス識別手法と比較して,低レベルの特徴の再利用性を向上させる,という実験を行った。 オープンサイエンスとして、すべてのコードと事前トレーニングされたモデルはGitHubのページで利用可能です。

Recently, self-supervised instance discrimination methods have achieved significant success in learning visual representations from unlabeled photographic images. However, given the marked differences between photographic and medical images, the efficacy of instance-based objectives, focusing on learning the most discriminative global features in the image (i.e., wheels in bicycle), remains unknown in medical imaging. Our preliminary analysis showed that high global similarity of medical images in terms of anatomy hampers instance discrimination methods for capturing a set of distinct features, negatively impacting their performance on medical downstream tasks. To alleviate this limitation, we have developed a simple yet effective self-supervised framework, called Context-Aware instance Discrimination (CAiD). CAiD aims to improve instance discrimination learning by providing finer and more discriminative information encoded from a diverse local context of unlabeled medical images. We conduct a systematic analysis to investigate the utility of the learned features from a three-pronged perspective: (i) generalizability and transferability, (ii) separability in the embedding space, and (iii) reusability. Our extensive experiments demonstrate that CAiD (1) enriches representations learned from existing instance discrimination methods; (2) delivers more discriminative features by adequately capturing finer contextual information from individual medial images; and (3) improves reusability of low/mid-level features compared to standard instance discriminative methods. As open science, all codes and pre-trained models are available on our GitHub page: https://github.com/J LiangLab/CAiD.
翻訳日:2022-04-18 12:16:38 公開日:2022-04-15
# 畳み込みオートエンコーダによる条件不変かつコンパクトな視覚位置記述

Condition-Invariant and Compact Visual Place Description by Convolutional Autoencoder ( http://arxiv.org/abs/2204.07350v1 )

ライセンス: Link先を確認
Hanjing Ye, Weinan Chen, Jingwen Yu, Li He, Yisheng Guan and Hong Zhang(参考訳) 条件変化環境における視覚的位置認識(VPR)はまだ未解決の問題である。 一般的なソリューションはcnnベースのイメージディスクリプタで、手作りのビジュアル機能に基づいた従来のイメージディスクリプタよりも優れていることが示されている。 しかし、現在のCNNベースの記述子には2つの欠点がある。 a) それらの高次元と b) 一般化の欠如により,アプリケーションの効率が低下し,性能が低下する。 本稿では,この問題を解決するために,畳み込みオートエンコーダ(CAE)を提案する。 我々は,事前学習したcnnの高レベル層を用いて特徴を生成し,caeを訓練し,特徴を低次元空間にマッピングし,ディスクリプタの条件不変性を改善し,同時に次元を縮小する。 本手法は,照明の大幅な変更を伴う3つの難易度データセットで検証し,最新技術よりも優れていることを示す。 コミュニティの利益のために、私たちはソースコードを公開します。

Visual place recognition (VPR) in condition-varying environments is still an open problem. Popular solutions are CNN-based image descriptors, which have been shown to outperform traditional image descriptors based on hand-crafted visual features. However, there are two drawbacks of current CNN-based descriptors: a) their high dimension and b) lack of generalization, leading to low efficiency and poor performance in applications. In this paper, we propose to use a convolutional autoencoder (CAE) to tackle this problem. We employ a high-level layer of a pre-trained CNN to generate features, and train a CAE to map the features to a low-dimensional space to improve the condition invariance property of the descriptor and reduce its dimension at the same time. We verify our method in three challenging datasets involving significant illumination changes, and our method is shown to be superior to the state-of-the-art. For the benefit of the community, we make public the source code.
翻訳日:2022-04-18 12:16:11 公開日:2022-04-15
# (参考訳) orcnet: 眼領域コンポーネントを同時に分割するコンテキストベースのネットワーク [全文訳有]

ORCNet: A context-based network to simultaneously segment the ocular region components ( http://arxiv.org/abs/2204.07456v1 )

ライセンス: CC BY 4.0
Diego Rafael Lucio, Luiz A. Zanlorensi, Yandre Maldonado e Gomes da Costa and David Menotti(参考訳) 興味領域の正確な抽出は、眼領域に基づく生体計測の成功に不可欠である。 そこで本研究では,Ocular Region Context Network (ORCNet) と題するコンテキストベースセグメンテーション手法を提案し,特定の損失関数,すなわちPunish Context Loss (PC-Loss)を提案する。 pcロスは、グランド真理とセグメンテーションマスクとのパーセンテージ差値を用いてネットワークのセグメンテーション損失を罰する。 画像中の対象の関係性を評価するために,3つの文脈(概念的,空間的,スケール)を用いて,biedermanの意味的関係の概念を考慮し,パーセンテージ差を求める。 提案手法は,アイリス,スクレラ,all(アイリス+スクレラ)セグメンテーションの2つの評価シナリオにおいて有望な結果を得た。 ORCNetとResNet-152は、平均2.27%、28.26%、および6.43%で、それぞれFスコア、エラーレート、インターセクションオーバーユニオンで最高のベースライン(EncNetとResNet-152)を上回っている。 また、miche-iデータベースに(研究目的で)3,191個のラベル付きマスクを手作業で提供しています。

Accurate extraction of the Region of Interest is critical for successful ocular region-based biometrics. In this direction, we propose a new context-based segmentation approach, entitled Ocular Region Context Network (ORCNet), introducing a specific loss function, i.e., he Punish Context Loss (PC-Loss). The PC-Loss punishes the segmentation losses of a network by using a percentage difference value between the ground truth and the segmented masks. We obtain the percentage difference by taking into account Biederman's semantic relationship concepts, in which we use three contexts (semantic, spatial, and scale) to evaluate the relationships of the objects in an image. Our proposal achieved promising results in the evaluated scenarios: iris, sclera, and ALL (iris + sclera) segmentations, utperforming the literature baseline techniques. The ORCNet with ResNet-152 outperforms the best baseline (EncNet with ResNet-152) on average by 2.27%, 28.26% and 6.43% in terms of F-Score, Error Rate and Intersection Over Union, respectively. We also provide (for research purposes) 3,191 manually labeled masks for the MICHE-I database, as another contribution of our work.
翻訳日:2022-04-18 12:15:26 公開日:2022-04-15
# 画像歪みに対するスパース符号の感度

Sensitivity of sparse codes to image distortions ( http://arxiv.org/abs/2204.07466v1 )

ライセンス: Link先を確認
Kyle Luther, H. Sebastian Seung(参考訳) スパース符号化は視覚野の理論として、および学習表現のための教師なしアルゴリズムとして提案されている。 mnistデータセットでは、スパース符号は画像歪みに非常に敏感であり、不変物体認識を阻害する可能性があることを実証的に示す。 局所線形解析では、この感度はアクティブ辞書要素と高いキャンセル率の線形結合の存在に起因することが示唆されている。 最寄りの隣接分類器は、元の画像よりもスパース符号でパフォーマンスが悪くなる。 ラベル付き例が十分に多い線形分類器では、スパース符号は元の画像よりも高い精度を示すが、ランダムフィードフォワードネットで計算された表現よりも高いものではない。 歪みに対する感度はスパース符号の基本的な性質であり、不変物体認識にスパース符号を適用する際には、この性質に注意する必要がある。

Sparse coding has been proposed as a theory of visual cortex and as an unsupervised algorithm for learning representations. We show empirically with the MNIST dataset that sparse codes can be very sensitive to image distortions, a behavior that may hinder invariant object recognition. A locally linear analysis suggests that the sensitivity is due to the existence of linear combinations of active dictionary elements with high cancellation. A nearest neighbor classifier is shown to perform worse on sparse codes than original images. For a linear classifier with a sufficiently large number of labeled examples, sparse codes are shown to yield higher accuracy than original images, but no higher than a representation computed by a random feedforward net. Sensitivity to distortions seems to be a basic property of sparse codes, and one should be aware of this property when applying sparse codes to invariant object recognition.
翻訳日:2022-04-18 11:54:27 公開日:2022-04-15
# Instagramフィルタ除去のためのパッチワイドコントラスト学習

Patch-wise Contrastive Style Learning for Instagram Filter Removal ( http://arxiv.org/abs/2204.07486v1 )

ライセンス: Link先を確認
Furkan K{\i}nl{\i}, Bar{\i}\c{s} \"Ozcan, Furkan K{\i}ra\c{c}(参考訳) 画像レベルの腐敗と摂動は、異なる下流視覚タスクにおけるCNNのパフォーマンスを低下させる。 ソーシャルメディアフィルターは、現実世界のビジュアル分析アプリケーションにおける様々な腐敗や混乱の最も一般的なリソースの1つである。 これらの散逸要因の負の効果は、下流視覚タスクの推測のために、元のイメージを純粋なスタイルで復元することで緩和することができる。 これらのフィルタがソーシャルメディア画像に付加的なスタイル情報を実質的に注入すると、元のバージョンを逆のスタイル転送問題として復元する問題を定式化できる。 Contrastive Instagram Filter removed Network (CIFR)を導入し、新しいマルチレイヤパッチワイドコントラスト学習機構を用いることで、Instagramフィルタ除去のこの考え方を強化する。 実験により,提案手法は従来の研究よりも質的かつ定量的な結果をもたらすことが示された。 さらに,提案するアーキテクチャを異なる設定で追加実験した結果について報告する。 最後に,本問題の主な動機となる局所化課題と分割課題について,フィルタ画像と復元画像の推測出力と定量的比較を行った。

Image-level corruptions and perturbations degrade the performance of CNNs on different downstream vision tasks. Social media filters are one of the most common resources of various corruptions and perturbations for real-world visual analysis applications. The negative effects of these distractive factors can be alleviated by recovering the original images with their pure style for the inference of the downstream vision tasks. Assuming these filters substantially inject a piece of additional style information to the social media images, we can formulate the problem of recovering the original versions as a reverse style transfer problem. We introduce Contrastive Instagram Filter Removal Network (CIFR), which enhances this idea for Instagram filter removal by employing a novel multi-layer patch-wise contrastive style learning mechanism. Experiments show our proposed strategy produces better qualitative and quantitative results than the previous studies. Moreover, we present the results of our additional experiments for proposed architecture within different settings. Finally, we present the inference outputs and quantitative comparison of filtered and recovered images on localization and segmentation tasks to encourage the main motivation for this problem.
翻訳日:2022-04-18 11:54:12 公開日:2022-04-15
# (参考訳) FasterVideo:効率的なオンライン共同物体検出と追跡 [全文訳有]

FasterVideo: Efficient Online Joint Object Detection And Tracking ( http://arxiv.org/abs/2204.07394v1 )

ライセンス: CC BY 4.0
Issa Mouawad, Francesca Odone(参考訳) ビデオにおける物体の検出と追跡は、現在および将来の視覚認識システムにとって必須かつ計算的に要求されるビルディングブロックである。 実世界のアプリケーションで利用可能な方法と計算要求との効率ギャップを低減するため,画像オブジェクト検出において最も成功した手法である高速R-CNNの1つを再考し,それをビデオ領域に拡張することを提案する。 具体的には、検出フレームワークを拡張して、データアソシエーションや再識別の目的に役立つインスタンスレベルの埋め込みを学習します。 提案手法は, 検出・追跡の計算面に着目し, 関連するアプリケーションに必要な計算効率が非常に高く, 標準オブジェクト追跡ベンチマークで行った実験で示されるように, 最新かつ最先端の手法と競合し続けている。

Object detection and tracking in videos represent essential and computationally demanding building blocks for current and future visual perception systems. In order to reduce the efficiency gap between available methods and computational requirements of real-world applications, we propose to re-think one of the most successful methods for image object detection, Faster R-CNN, and extend it to the video domain. Specifically, we extend the detection framework to learn instance-level embeddings which prove beneficial for data association and re-identification purposes. Focusing on the computational aspects of detection and tracking, our proposed method reaches a very high computational efficiency necessary for relevant applications, while still managing to compete with recent and state-of-the-art methods as shown in the experiments we conduct on standard object tracking benchmarks
翻訳日:2022-04-18 11:52:40 公開日:2022-04-15
# 360{\deg}視野外挿における共変調ganの導出

Guided Co-Modulated GAN for 360{\deg} Field of View Extrapolation ( http://arxiv.org/abs/2204.07286v1 )

ライセンス: Link先を確認
Mohammad Reza Karimi Dastjerdi, Yannick Hold-Geoffroy, Jonathan Eisenmann, Siavash Khodadadeh, and Jean-Fran\c{c}ois Lalonde(参考訳) そこで本研究では,360{\deg}領域を1つの画像から外挿する手法を提案する。 そこで我々は,パノラマ画像表現のための既存のganベースのインペインティングアーキテクチャの改良を提案する。 本手法は最新の結果を得て,従来手法の標準画質指標を上回っている。 そこで我々は, 画像生成過程を, 共通の事前学習による識別モデルで駆動する, ガイド付き協調変調フレームワークを提案する。 これによって生成したパノラマの高い視覚的品質を維持しつつ、外挿的な視野でユーザ制御されたセマンティックコンテンツを可能にする。 本手法の質的かつ定量的な外挿の分野における現状を実証し,新しい編集能力を詳細に分析した。 最後に,本手法は,光沢度の高い物体の仮想挿入に有効であることを示す。

We propose a method to extrapolate a 360{\deg} field of view from a single image that allows for user-controlled synthesis of the out-painted content. To do so, we propose improvements to an existing GAN-based in-painting architecture for out-painting panoramic image representation. Our method obtains state-of-the-art results and outperforms previous methods on standard image quality metrics. To allow controlled synthesis of out-painting, we introduce a novel guided co-modulation framework, which drives the image generation process with a common pretrained discriminative model. Doing so maintains the high visual quality of generated panoramas while enabling user-controlled semantic content in the extrapolated field of view. We demonstrate the state-of-the-art results of our method on field of view extrapolation both qualitatively and quantitatively, providing thorough analysis of our novel editing capabilities. Finally, we demonstrate that our approach benefits the photorealistic virtual insertion of highly glossy objects in photographs.
翻訳日:2022-04-18 11:40:44 公開日:2022-04-15
# ディエンス学習に基づく半教師対象検出

Dense Learning based Semi-Supervised Object Detection ( http://arxiv.org/abs/2204.07300v1 )

ライセンス: Link先を確認
Binghui Chen, Pengyu Li, Xiang Chen, Biao Wang, Lei Zhang, Xian-Sheng Hua(参考訳) semi-supervised object detection (ssod) は、大量のラベルなしデータの助けを借りて、物体検出器の訓練と展開を容易にすることを目的としている。 様々な自己学習と整合性規則化に基づくSSOD法が提案されているが、その多くはアンカーベースの検出器であり、多くの現実世界のアプリケーションではアンカーフリーな検出器がより要求されているという事実を無視している。 本稿では,このギャップを埋め,DenSe Learning(DSL)に基づくアンカーフリーSSODアルゴリズムを提案する。 具体的には,マルチレベルで高精度な画素単位の擬似ラベルを割り当てる適応フィルタリング戦略,安定かつ精密な擬似ラベルを合成する教師の集合化,スケールとシャッフルパッチ間の不確実性-一貫性-レギュライゼーション期間による検出器の一般化能力の向上など,いくつかの新しい手法を導入することで,この目標を達成している。 提案手法は,MS-COCOとPASCAL-VOCで大規模な実験を行い,提案手法が既存の手法をはるかに上回り,新しい最先端のSSOD性能を記録していることを示す。 コードは \textcolor{blue}{https://github.com/c henbinghui1/DSL} で見ることができる。

Semi-supervised object detection (SSOD) aims to facilitate the training and deployment of object detectors with the help of a large amount of unlabeled data. Though various self-training based and consistency-regulari zation based SSOD methods have been proposed, most of them are anchor-based detectors, ignoring the fact that in many real-world applications anchor-free detectors are more demanded. In this paper, we intend to bridge this gap and propose a DenSe Learning (DSL) based anchor-free SSOD algorithm. Specifically, we achieve this goal by introducing several novel techniques, including an Adaptive Filtering strategy for assigning multi-level and accurate dense pixel-wise pseudo-labels, an Aggregated Teacher for producing stable and precise pseudo-labels, and an uncertainty-consiste ncy-regularization term among scales and shuffled patches for improving the generalization capability of the detector. Extensive experiments are conducted on MS-COCO and PASCAL-VOC, and the results show that our proposed DSL method records new state-of-the-art SSOD performance, surpassing existing methods by a large margin. Codes can be found at \textcolor{blue}{https://github.com/c henbinghui1/DSL}.
翻訳日:2022-04-18 11:40:26 公開日:2022-04-15
# MetaSets: 一般化可能な表現のためのポイントセットのメタラーニング

MetaSets: Meta-Learning on Point Sets for Generalizable Representations ( http://arxiv.org/abs/2204.07311v1 )

ライセンス: Link先を確認
Chao Huang, Zhangjie Cao, Yunbo Wang, Jianmin Wang, Mingsheng Long(参考訳) ポイントクラウドのためのディープラーニング技術は、さまざまな3Dビジョンタスクで強力なパフォーマンスを達成した。 しかし、大規模な点集合に注釈を付けるのはコストがかかり、異なる点集合をよく移動できる一般化表現を学ぶことは重要である。 本稿では,3次元領域一般化(DDG)の新たな課題について検討し,学習過程においてそれらにアクセスすることなく,他の目に見えない点雲領域にモデルを一般化することを目的とする。 シミュレーションデータから実データへの実質的にの幾何シフトのため、既存の3dモデルは、ソースドメインの完全なジオメトリを過度に満たしているため、あまり役に立たない。 我々は,特定の幾何学的事前を含む注意深く設計された変換された点集合上の分類タスク群からクラウド表現をメタリーンズするメタセットを用いてこの問題に取り組むことを提案する。 学習された表現は、異なる幾何学の様々な目に見えない領域に対してより一般化できる。 3次元点雲のSim-to-Real転送のための2つのベンチマークを設計する。 実験の結果,MetaSetsは既存の3次元深層学習法よりも大きなマージンで優れていた。

Deep learning techniques for point clouds have achieved strong performance on a range of 3D vision tasks. However, it is costly to annotate large-scale point sets, making it critical to learn generalizable representations that can transfer well across different point sets. In this paper, we study a new problem of 3D Domain Generalization (3DDG) with the goal to generalize the model to other unseen domains of point clouds without any access to them in the training process. It is a challenging problem due to the substantial geometry shift from simulated to real data, such that most existing 3D models underperform due to overfitting the complete geometries in the source domain. We propose to tackle this problem via MetaSets, which meta-learns point cloud representations from a group of classification tasks on carefully-designed transformed point sets containing specific geometry priors. The learned representations are more generalizable to various unseen domains of different geometries. We design two benchmarks for Sim-to-Real transfer of 3D point clouds. Experimental results show that MetaSets outperforms existing 3D deep learning methods by large margins.
翻訳日:2022-04-18 11:40:03 公開日:2022-04-15
# キーポイントを用いたレーン検出のためのグローバルアソシエーションネットワーク

A Keypoint-based Global Association Network for Lane Detection ( http://arxiv.org/abs/2204.07335v1 )

ライセンス: Link先を確認
Jinsheng Wang, Yinchao Ma, Shaofei Huang, Tianrui Hui, Fei Wang, Chen Qian, Tianzhu Zhang(参考訳) レーン検出は、レーンラインの複雑なトポロジー形状を予測し、異なる種類のレーンを同時に区別する必要がある困難なタスクである。 以前の作業では、事前定義されたアンカーを、固定されたアンカー形状のために複雑な車線形状に適合するのに十分な柔軟性を欠いた、レーンラインの様々な形状に回帰するトップダウンのロードマップに従っていた。 近年, レーン検出をキーポイント推定問題として定式化して, 同じレーンラインに属する隣接するキーポイントを, より柔軟かつ徐々にグループ化する手法が提案されている。 本稿では,新たな視点からレーン検出問題を定式化するためのグローバルアソシエーションネットワーク(GANet)を提案する。 具体的には、キーポイントと所属車線との関連付けは、互いに依存せずに世界中の対応する車線の始点とのオフセットを予測し、効率を大幅に改善するために並行して行うことができる。 さらに,隣接キーポイント間の局所相関を適応的に把握し,局所情報をグローバルアソシエーションに補完するレーンアウェア機能アグリゲータ(lfa)を提案する。 2つの人気のあるレーン検出ベンチマークに関する広範囲な実験により、この手法は以前の方法よりも高いfpsを持つtusimpleデータセットでは79.63%、culaneでは97.71%のf1スコアで優れていた。 コードはhttps://github.com/W olfwjs/GANetでリリースされる。

Lane detection is a challenging task that requires predicting complex topology shapes of lane lines and distinguishing different types of lanes simultaneously. Earlier works follow a top-down roadmap to regress predefined anchors into various shapes of lane lines, which lacks enough flexibility to fit complex shapes of lanes due to the fixed anchor shapes. Lately, some works propose to formulate lane detection as a keypoint estimation problem to describe the shapes of lane lines more flexibly and gradually group adjacent keypoints belonging to the same lane line in a point-by-point manner, which is inefficient and time-consuming during postprocessing. In this paper, we propose a Global Association Network (GANet) to formulate the lane detection problem from a new perspective, where each keypoint is directly regressed to the starting point of the lane line instead of point-by-point extension. Concretely, the association of keypoints to their belonged lane line is conducted by predicting their offsets to the corresponding starting points of lanes globally without dependence on each other, which could be done in parallel to greatly improve efficiency. In addition, we further propose a Lane-aware Feature Aggregator (LFA), which adaptively captures the local correlations between adjacent keypoints to supplement local information to the global association. Extensive experiments on two popular lane detection benchmarks show that our method outperforms previous methods with F1 score of 79.63% on CULane and 97.71% on Tusimple dataset with high FPS. The code will be released at https://github.com/W olfwjs/GANet.
翻訳日:2022-04-18 11:39:49 公開日:2022-04-15
# 変圧器時代の画像キャプション

Image Captioning In the Transformer Age ( http://arxiv.org/abs/2204.07374v1 )

ライセンス: Link先を確認
Yang Xu, Li Li, Haiyang Xu, Songfang Huang, Fei Huang, Jianfei Cai(参考訳) 画像キャプション(ic)はcnn-rnnエンコーダ-デコーダアーキテクチャに様々な技法を組み込むことで驚くべき発展を遂げている。 しかし、CNNとRNNは基本的なネットワークコンポーネントを共有しないので、視覚エンコーダがキャプションの監督から何も学ばないような不均一なパイプラインをエンドツーエンドで訓練することは困難である。 この欠点は、Transformerが視覚と言語両方の分野で大きな可能性を証明した完璧なアーキテクチャであり、そのため、ICパイプラインのビジュアルエンコーダと言語デコーダの基本コンポーネントとして使用できる、エンドツーエンドのトレーニングを促進する均質なアーキテクチャを開発するきっかけとなった。 一方、自己教師あり学習は、事前訓練された大規模学習がicを含む様々なタスクに一般化できるトランスフォーマーアーキテクチャのパワーを解放する。 これらの大規模モデルの成功は、単一のICタスクの重要性を弱めるように思える。 しかし、ICと一般的な自己教師型学習パラダイムの関連性を分析することで、ICはいまだにこの時代において重要な存在であることを示す。 ページ制限のため、この短い調査で非常に重要な論文のみを参照し、関連する作品はhttps://github.com/s jokerlily/awesome-im age-captioningで見ることができる。

Image Captioning (IC) has achieved astonishing developments by incorporating various techniques into the CNN-RNN encoder-decoder architecture. However, since CNN and RNN do not share the basic network component, such a heterogeneous pipeline is hard to be trained end-to-end where the visual encoder will not learn anything from the caption supervision. This drawback inspires the researchers to develop a homogeneous architecture that facilitates end-to-end training, for which Transformer is the perfect one that has proven its huge potential in both vision and language domains and thus can be used as the basic component of the visual encoder and language decoder in an IC pipeline. Meantime, self-supervised learning releases the power of the Transformer architecture that a pre-trained large-scale one can be generalized to various tasks including IC. The success of these large-scale models seems to weaken the importance of the single IC task. However, we demonstrate that IC still has its specific significance in this age by analyzing the connections between IC with some popular self-supervised learning paradigms. Due to the page limitation, we only refer to highly important papers in this short survey and more related works can be found at https://github.com/S jokerLily/awesome-im age-captioning.
翻訳日:2022-04-18 11:39:19 公開日:2022-04-15
# SOTVerse: 単一オブジェクト追跡のユーザ定義タスク空間

SOTVerse: A User-defined Task Space of Single Object Tracking ( http://arxiv.org/abs/2204.07414v1 )

ライセンス: Link先を確認
Shiyu Hu, Xin Zhao, Kaiqi Huang(参考訳) 単一オブジェクトトラッキング(sot)の研究は、ほとんどのベンチマークでうまく機能するが、挑戦的なシナリオではすぐに失敗し、研究者はデータコンテンツの不足を疑い、より困難な状況でより大きなデータセットを構築するのにより多くの労力を費やすことになる。 しかし、孤立した実験環境と限られた評価方法がSOT研究を妨げている。 前者は既存のデータセットを総合的に利用できないが、後者は評価プロセスにおいて困難な要素を無視している。 本稿では、代表ベンチマークを体系化し、ボトルネックを突破するためにユーザ定義のSOTタスク空間である単一オブジェクト追跡メタバース(SOTVerse)を形成する。 まず,3つのコンポーネント(環境,評価,実行者)でタスクを記述する3Eパラダイムを提案する。 次に,タスクの特徴を要約し,組織基準を明確にし,1256万フレームのSOTVerseを構築した。 具体的には、SOTVerseは、フレーム毎に挑戦的な要素を自動的にラベル付けし、ユーザが構築ルールを通じて効率的にユーザ定義空間を生成することができる。 さらに、SOTVerseは新しい指標を持つ2つのメカニズムを提供し、様々なサブタスク下でトラッカーをうまく評価する。 その結果、SOTVerseはまず、コンピュータビジョン領域における資源利用を改善する戦略を提供し、研究をより標準化し科学的にする。 sotverse, toolkit, evaluation server, and resultsはhttp://metaverse.ait estunion.comで入手できる。

Single object tracking (SOT) research falls into a cycle - trackers perform well on most benchmarks but quickly fail in challenging scenarios, causing researchers to doubt the insufficient data content and take more effort constructing larger datasets with more challenging situations. However, isolated experimental environments and limited evaluation methods more seriously hinder the SOT research. The former causes existing datasets can not be exploited comprehensively, while the latter neglects challenging factors in the evaluation process. In this article, we systematize the representative benchmarks and form a single object tracking metaverse (SOTVerse) - a user-defined SOT task space to break through the bottleneck. We first propose a 3E Paradigm to describe tasks by three components (i.e., environment, evaluation, and executor). Then, we summarize task characteristics, clarify the organization standards, and construct SOTVerse with 12.56 million frames. Specifically, SOTVerse automatically labels challenging factors per frame, allowing users to generate user-defined spaces efficiently via construction rules. Besides, SOTVerse provides two mechanisms with new indicators and successfully evaluates trackers under various subtasks. Consequently, SOTVerse firstly provides a strategy to improve resource utilization in the computer vision area, making research more standardized and scientific. The SOTVerse, toolkit, evaluation server, and results are available at http://metaverse.ait estunion.com.
翻訳日:2022-04-18 11:38:53 公開日:2022-04-15
# (参考訳) 周波数領域における畳み込みニューラルネットワークの学習 [全文訳有]

Learning Convolutional Neural Networks in the Frequency Domain ( http://arxiv.org/abs/2204.06718v2 )

ライセンス: CC BY 4.0
Hengyue Pan and Yixin Chen and Xin Niu and Wenbo Zhou(参考訳) 畳み込みニューラルネットワーク(cnn)は、過去数十年間、コンピュータビジョンの分野で素晴らしい成功を収めてきた。 CNNのコアとして、画像畳み込み操作は、CNNが画像関連タスクにおいて優れたパフォーマンスを達成するのに役立つ。 しかし、画像畳み込みの実装や並列化は困難である。 本稿では,周波数領域でトレーニング可能な新しいニューラルネットワークモデルであるCEMNetを提案する。 この研究の最も重要な動機は、クロス相関理論に基づく周波数領域における画像畳み込みを置き換えるために、非常に単純な要素ワイズ乗算演算を使うことができることである。 さらに,重み付けを緩和する重み付け機構を導入し,周波数領域におけるバッチ正規化,漏洩ReLU,Dropoutの動作を解析して,CEMNetの対応品を設計する。 また、DFTがもたらす複雑な入力に対処するため、CEMNetのための2つの分岐ネットワーク構造を設計する。 実験の結果,CEMNetは周波数領域でよく動作し,MNISTおよびCIFAR-10データベース上での良好な性能が得られた。 我々の知る限り、CEMNetは、CIFAR-10データベース上で70%以上の検証精度を達成するFourier Domainでトレーニングされた最初のモデルです。

Convolutional neural network (CNN) achieves impressive success in the field of computer vision during the past few decades. As the core of CNNs, image convolution operation helps CNNs to achieve good performance on image-related tasks. However, image convolution is hard to be implemented and parallelized. In this paper, we propose a novel neural network model, namely CEMNet, that can be trained in frequency domain. The most important motivation of this research is that we can use the very simple element-wise multiplication operation to replace the image convolution in frequency domain based on Cross-Correlation Theorem. We further introduce Weight Fixation Mechanism to alleviate over-fitting, and analyze the working behavior of Batch Normalization, Leaky ReLU and Dropout in frequency domain to design their counterparts for CEMNet. Also, to deal with complex inputs brought by DFT, we design two branch network structure for CEMNet. Experimental results imply that CEMNet works well in frequency domain, and achieve good performance on MNIST and CIFAR-10 databases. To our knowledge, CEMNet is the first model trained in Fourier Domain that achieves more than 70\% validation accuracy on CIFAR-10 database.
翻訳日:2022-04-18 11:36:34 公開日:2022-04-15
# プロキシフリーフェデレーション蒸留における分散知識の一致の探索

Exploring the Distributed Knowledge Congruence in Proxy-data-free Federated Distillation ( http://arxiv.org/abs/2204.07028v2 )

ライセンス: Link先を確認
Zhiyuan Wu, Sheng Sun, Yuwei Wang, Min Liu, Qingxiang Liu(参考訳) Federated Learning(FL)は、サーバがプライベートデータを組み立てることなく、クライアントからローカルモデルパラメータを定期的に集約する分散機械学習パラダイムである。 制約のあるコミュニケーションとパーソナライズ要件はFLに深刻な課題をもたらす。 サーバとクライアント間で知識を交換し、異種局所モデルをサポートし、通信オーバーヘッドを大幅に低減するフェデレート蒸留(FD)を提案している。 しかし、既存のFDメソッドのほとんどはプロキシデータセットを必要としており、現実には利用できないことが多い。 最近のプロキシデータフリーなFDアプローチでは、追加の公開データの必要性を排除できるが、モデルの不均一性による局所的な知識の相違により、サーバ上で曖昧な表現が行われ、必然的に精度が低下する。 この問題に対処するため,分散知識合同(FedDKC)に基づくプロキシフリーFDアルゴリズムを提案する。 FedDKCは、よく設計された洗練戦略を利用して、局所的な知識の違いを許容できる上限に絞り込み、知識の不一致の負の効果を軽減する。 具体的には、局所知識のピーク確率とシャノンエントロピーの観点から、カーネルベースの知識精錬(KKR)と探索ベースの知識精錬(SKR)をそれぞれ設計し、局所知識がほぼ同種の分布を満たすことを理論的に保証し、同種と見なす。 3つの共通データセットで実施された大規模な実験により、提案したFedDKCは最先端(93.33%の比較では精度が向上し、Top-1の精度は4.38%向上し、Top-5の精度は10.31%向上した。

Federated learning (FL) is a distributed machine learning paradigm in which the server periodically aggregates local model parameters from clients without assembling their private data. Constrained communication and personalization requirements pose severe challenges to FL. Federated distillation (FD) is proposed to simultaneously address the above two problems, which exchanges knowledge between the server and clients, supporting heterogeneous local models while significantly reducing communication overhead. However, most existing FD methods require a proxy dataset, which is often unavailable in reality. A few recent proxy-data-free FD approaches can eliminate the need for additional public data, but suffer from remarkable discrepancy among local knowledge due to model heterogeneity, leading to ambiguous representation on the server and inevitable accuracy degradation. To tackle this issue, we propose a proxy-data-free FD algorithm based on distributed knowledge congruence (FedDKC). FedDKC leverages well-designed refinement strategies to narrow local knowledge differences into an acceptable upper bound, so as to mitigate the negative effects of knowledge incongruence. Specifically, from perspectives of peak probability and Shannon entropy of local knowledge, we design kernel-based knowledge refinement (KKR) and searching-based knowledge refinement (SKR) respectively, and theoretically guarantee that the refined-local knowledge can satisfy an approximately-simila r distribution and be regarded as congruent. Extensive experiments conducted on three common datasets demonstrate that our proposed FedDKC significantly outperforms the state-of-the-art (accuracy boosts in 93.33% comparisons, Top-1 accuracy boosts by up to 4.38%, and Top-5 accuracy boosts by up to 10.31%) on various heterogeneous settings while evidently improving the convergence speed.
翻訳日:2022-04-18 11:22:59 公開日:2022-04-15
# オープンドメイン目標感分析の課題

Challenges for Open-domain Targeted Sentiment Analysis ( http://arxiv.org/abs/2204.06893v2 )

ライセンス: Link先を確認
Yun Luo and Hongjie Cai and Linyi Yang and Yanxia Qin and Rui Xia and Yue Zhang(参考訳) 従来,オープンドメインを対象とした感情分析はデータセット領域の多様性や文レベルに制限されていたため,興味や文書レベルのトピックでデータ領域を拡張するために,6,013人のラベル付きデータからなる新しいデータセットを提案する。 さらに,文書の完全な感情情報を抽出するためのネスト化されたターゲットアノテーションスキーマを提供し,オープンドメインターゲット感情分析の実用性と有効性を高める。 さらに,タスクのシーケンス・ツー・シーケンス生成法において,事前学習したモデルBARTを利用する。 ベンチマークの結果,オープンドメイン型感情分析の改善の余地は大きいことがわかった。 一方、実験では、オープンドメインデータ、長いドキュメント、ターゲット構造の複雑さ、ドメイン分散の効果的な利用に課題が残っていることが示されている。

Since previous studies on open-domain targeted sentiment analysis are limited in dataset domain variety and sentence level, we propose a novel dataset consisting of 6,013 human-labeled data to extend the data domains in topics of interest and document level. Furthermore, we offer a nested target annotation schema to extract the complete sentiment information in documents, boosting the practicality and effectiveness of open-domain targeted sentiment analysis. Moreover, we leverage the pre-trained model BART in a sequence-to-sequence generation method for the task. Benchmark results show that there exists large room for improvement of open-domain targeted sentiment analysis. Meanwhile, experiments have shown that challenges remain in the effective use of open-domain data, long documents, the complexity of target structure, and domain variances.
翻訳日:2022-04-18 11:22:23 公開日:2022-04-15