このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220213となっている論文です。

PDF登録状況(公開日: 20220213)

TitleAuthorsAbstract論文公表日・翻訳日
# 臨床における結果語検出における文脈表現の評価

Assessment of contextualised representations in detecting outcome phrases in clinical trials ( http://arxiv.org/abs/2203.03547v1 )

ライセンス: Link先を確認
Micheal Abaho, Danushka Bollegala, Paula R Williamson, Susanna Dodd(参考訳) 機械学習を用いた臨床試験で報告された結果の認識を自動化することは、医療意思決定に必要な証拠へのアクセスを高速化する大きな可能性を秘めている。 しかしながら、先行研究は、アウトカム検出(od)タスクの課題として不適切なトレーニングコーパスを認めている。 さらに、BERT や ELMO のような文脈化された表現は、様々な疾患、遺伝子、タンパク質、化学物質の検出において、例外なく成功したが、これらのモデルは比較的未試験であり、ODタスクのために研究されているため、結果に対して本質的に言及することはできない。 本稿では,300 PubMed の要約を専門的に注釈付けしたデータセット "EBM-COMET" を紹介する。 任意の結果分類を使用する先行関連データセットとは異なり、結果分類を標準化するために最近発表された分類学のラベルを使用する。 さらに,臨床情報を用いたPart-Of-Speech埋め込みとコスト感受性の損失関数を付加したカスタムニューラルモデルにおいて,文脈依存型および文脈依存型表現を用いた。 トレーニングされたモデルの厳密な評価は、エンティティ内の単語ではなく、完全な結果のフレーズを正しく識別すること、すなわち、結果の「収縮血圧」が与えられた場合、それらのモデルが3つの単語全てを連続して予測した場合にのみ、分類スコアが付与され、そうでなければ報酬は与えられない、というように、トレーニングされたモデルに対する厳密な評価を採用する。 ベストモデル (BioBERT) は, 81.5\% F1, 81.3\% 感度, 98.0\% 特異性を達成した。 臨床・臨床の要約から結果を検出するのにどの文脈表現が最適かというコンセンサスに達する。 さらに,ESM-NLPデータセットのリーダーボードスコアよりも優れたスコアが得られた。

Automating the recognition of outcomes reported in clinical trials using machine learning has a huge potential of speeding up access to evidence necessary in healthcare decision-making. Prior research has however acknowledged inadequate training corpora as a challenge for the Outcome detection (OD) task. Additionally, several contextualized representations like BERT and ELMO have achieved unparalleled success in detecting various diseases, genes, proteins, and chemicals, however, the same cannot be emphatically stated for outcomes, because these models have been relatively under-tested and studied for the OD task. We introduce "EBM-COMET", a dataset in which 300 PubMed abstracts are expertly annotated for clinical outcomes. Unlike prior related datasets that use arbitrary outcome classifications, we use labels from a taxonomy recently published to standardize outcome classifications. To extract outcomes, we fine-tune a variety of pre-trained contextualized representations, additionally, we use frozen contextualized and context-independent representations in our custom neural model augmented with clinically informed Part-Of-Speech embeddings and a cost-sensitive loss function. We adopt strict evaluation for the trained models by rewarding them for correctly identifying full outcome phrases rather than words within the entities i.e. given an outcome "systolic blood pressure", the models are rewarded a classification score only when they predict all 3 words in sequence, otherwise, they are not rewarded. We observe our best model (BioBERT) achieve 81.5\% F1, 81.3\% sensitivity and 98.0\% specificity. We reach a consensus on which contextualized representations are best suited for detecting outcomes from clinical-trial abstracts. Furthermore, our best model outperforms scores published on the original EBM-NLP dataset leader-board scores.
翻訳日:2022-03-13 14:02:53 公開日:2022-02-13
# LMN at SemEval-2022 Task 11: A Transformer-based System for English Named Entity Recognition

LMN at SemEval-2022 Task 11: A Transformer-based System for English Named Entity Recognition ( http://arxiv.org/abs/2203.03546v1 )

ライセンス: Link先を確認
Ngoc Minh Lai(参考訳) 複雑であいまいな名前付きエンティティの処理は、難しい研究課題であるが、自然言語処理コミュニティから十分な注目を集めていない。 本稿では,SemEval-2022 Task 11: Multilingual Complex Named Entity Recognitionの英語トラックへの参加について述べる。 事前学習されたトランスフォーマー言語モデルの最近の進歩に触発されて,単純かつ効果的なトランスフォーマーベースラインを提案する。 そのシンプルさにもかかわらず、提案手法はリーダーボードに競争力のある結果を示し、30チーム中12チームがランク付けしました。 本システムでは, ホールドアウトテストセットにおいて, マクロF1スコア72.50%を達成した。 また,エンティティリンクを用いたデータ拡張手法についても検討した。 このアプローチは最終的なパフォーマンスを改善するものではないが、本論文ではそれについても論じる。

Processing complex and ambiguous named entities is a challenging research problem, but it has not received sufficient attention from the natural language processing community. In this short paper, we present our participation in the English track of SemEval-2022 Task 11: Multilingual Complex Named Entity Recognition. Inspired by the recent advances in pretrained Transformer language models, we propose a simple yet effective Transformer-based baseline for the task. Despite its simplicity, our proposed approach shows competitive results in the leaderboard as we ranked 12 over 30 teams. Our system achieved a macro F1 score of 72.50% on the held-out test set. We have also explored a data augmentation approach using entity linking. While the approach does not improve the final performance, we also discuss it in this paper.
翻訳日:2022-03-13 14:02:22 公開日:2022-02-13
# (参考訳) ゲノム:エピックのオントロジモデリングのための汎用方法論 [全文訳有]

GENOME: A GENeric methodology for Ontological Modelling of Epics ( http://arxiv.org/abs/2202.13751v1 )

ライセンス: CC BY 4.0
Udaya Varadarajan, Mayukh Bagchi, Amit Tiwari and M.P. Satija(参考訳) 叙事詩のオントロジー的知識モデリングは、具体的多言語・多文化的な作品に支えられて確立された研究領域であるが、2つの重大な欠点に悩まされている。 第一に、これまでに開発された全てのエピックオントロジーモデルは、主に既存の汎用オントロジー開発手法を組み合わせたアドホックな方法論に従って設計されている。 第二に、もし利用可能であれば、既存のエピックオントロジーモデルの再利用を考慮しないアドホック方法論は、どれもない。 本論文は、上述の欠点に対する統一的な解決策として、エピックの反復的存在論的モデリングのための最初の専用の方法論であるGENOMEの設計と開発について述べる。 GENOMEは、叙事詩の標準的な規範、ベストプラクティスの知識モデリング、応用満足度規範、認知的生成質問の学際的基礎に根ざしている。 これはまた、再利用やスクラッチから知識モデリングの選択肢を統合するのに十分柔軟である(エピックモデリングでも一般的な)最初の方法論でもある。 ジェノメの可能性は、既存のオントロジーを再利用してインド叙事詩マハーバーラタのオントロジーモデルの最初の簡単な実装によって検証される。 予備結果は有望であり、ゲノム生成モデルは非常に徹底的であり、性能的に有能である

Ontological knowledge modelling of epics, though being an established research arena backed by concrete multilingual and multicultural works, still suffer from two key shortcomings. Firstly, all epic ontological models developed till date have been designed following ad-hoc methodologies, most often, combining existing general purpose ontology development methodologies. Secondly, none of the ad-hoc methodologies consider the potential reuse of existing epic ontological models for enrichment, if available. The paper presents, as a unified solution to the above shortcomings, the design and development of GENOME - the first dedicated methodology for iterative ontological modelling of epics, potentially extensible to works in different research arenas of digital humanities in general. GENOME is grounded in transdisciplinary foundations of canonical norms for epics, knowledge modelling best practices, application satisfiability norms and cognitive generative questions. It is also the first methodology (in epic modelling but also in general) to be flexible enough to integrate, in practice, the options of knowledge modelling via reuse or from scratch. The feasibility of GENOME is validated via a first brief implementation of ontological modelling of the Indian epic - Mahabharata by reusing an existing ontology. The preliminary results are promising, with the GENOME-produced model being both ontologically thorough and performance-wise competent
翻訳日:2022-03-06 14:56:40 公開日:2022-02-13
# 脳の原則プログラミング

Brain Principles Programming ( http://arxiv.org/abs/2202.12710v1 )

ライセンス: Link先を確認
Evgenii Vityaev, Anton Kolonin, Artem Molchanov(参考訳) モノグラフでは、ストロングアーティフィシャルインテリジェンス。 Sberbankが発表したOn the Approaches to Superintelligenceは、汎用人工知能の学際的レビューを提供する。 研究の擬人化の方向性として、bpp(brain principles programming)は、神経組織のあらゆるレベルで実装されている、情報を伴う脳の作業の普遍的なメカニズム(原理)の形式化である。 このモノグラフは、圏論の観点からこれらの原理の形式化を提供する。 しかし、この形式化は情報を扱うアルゴリズムを開発するのに十分ではない。 本稿では、脳原理プログラミングの記述とモデル化のために、我々が以前に開発した数学的モデルとアルゴリズムを、よく知られた生理学、心理学、その他の自然科学理論に基づいたモデル認知機能に適用することが提案されている。 P.K.アノキンの関数脳系理論、エレオナー・ロシュの原型的分類理論、ボブ・レーターの因果モデルと自然分類理論。 その結果、bppの形式化が得られ、アルゴリズムの動作を示すコンピュータの例が与えられる。

In the monograph, STRONG ARTIFICIAL INTELLIGENCE. On the Approaches to Superintelligence, published by Sberbank, provides a cross-disciplinary review of general artificial intelligence. As an anthropomorphic direction of research, it considers Brain Principles Programming, BPP) the formalization of universal mechanisms (principles) of the brain's work with information, which are implemented at all levels of the organization of nervous tissue. This monograph provides a formalization of these principles in terms of the category theory. However, this formalization is not enough to develop algorithms for working with information. In this paper, for the description and modeling of Brain Principles Programming, it is proposed to apply mathematical models and algorithms developed by us earlier that model cognitive functions, which are based on well-known physiological, psychological and other natural science theories. The paper uses mathematical models and algorithms of the following theories: P.K.Anokhin's Theory of Functional Brain Systems, Eleonor Rosh's prototypical categorization theory, Bob Rehter's theory of causal models and natural classification. As a result, the formalization of the BPP is obtained and computer examples are given that demonstrate the algorithm's operation.
翻訳日:2022-03-06 13:10:53 公開日:2022-02-13
# 深層学習に基づくセルネットワークのカバレッジとレート・マニフォールド推定

Deep Learning based Coverage and Rate Manifold Estimation in Cellular Networks ( http://arxiv.org/abs/2202.06390v1 )

ライセンス: Link先を確認
Washim Uddin Mondal, Praful D. Mankar, Goutam Das, Vaneet Aggarwal, and Satish V. Ukkusuri(参考訳) 本稿では、畳み込みニューラルネットワークに基づくオートエンコーダ(CNN-AE)を提案し、そのトポロジからネットワークの位置依存率とカバレッジ確率を予測する。 インド、ブラジル、ドイツ、アメリカのbs位置データを活用したcnnを訓練し、その性能を確率幾何学(sg)ベースの分析モデルと比較した。 最適なsgベースのモデルと比較して、cnn-aeはカバー率とレート予測の誤差をそれぞれ$40\%$と$25\%$というマージンで改善している。 そこで,本研究では,cnn-aeを用いてネットワーク上に展開する必要がある新たなbsの位置を計算し,事前定義された空間的不均質な性能目標を達成するための低複雑性アルゴリズムを提案する。

This article proposes Convolutional Neural Network-based Auto Encoder (CNN-AE) to predict location-dependent rate and coverage probability of a network from its topology. We train the CNN utilising BS location data of India, Brazil, Germany, and the USA and compare its performance with stochastic geometry (SG) based analytical models. In comparison to the best-fitted SG-based model, CNN-AE improves the coverage and rate prediction errors by a margin of as large as $40\%$ and $25\%$ respectively. As an application, we propose a low complexity, provably convergent algorithm that, using trained CNN-AE, can compute locations of new BSs that need to be deployed in a network in order to satisfy pre-defined spatially heterogeneous performance goals.
翻訳日:2022-02-17 15:56:10 公開日:2022-02-13
# 測地線距離空間におけるミニマックス: sionの定理とアルゴリズム

Minimax in Geodesic Metric Spaces: Sion's Theorem and Algorithms ( http://arxiv.org/abs/2202.06950v1 )

ライセンス: Link先を確認
Peiyuan Zhang, Jingzhao Zhang, Suvrit Sra(参考訳) サドルポイントが存在するか、あるいは非凸非凸問題に対して近似可能であるかを決定することは、通常難解である。 我々は、ある種の非凸非凸ミニマックス問題を理解するための一歩を踏み出した。 具体的には、測地線距離空間に生じるミニマックス問題について検討し、通常の凸凸凹点問題を大幅に一般化する。 論文の最初の成果は、シオンのミニマックス定理の測地線距離空間バージョンであり、我々は、この証明はヘリーの定理のみに依存するため、新しく透明であると考えている。 2つ目の主な結果として、測地的に完備なリーマン多様体に特化し、滑らかなミニマックス問題に対する一階法の複雑さを考案し解析する。

Determining whether saddle points exist or are approximable for nonconvex-nonconcave problems is usually intractable. We take a step towards understanding certain nonconvex-nonconcave minimax problems that do remain tractable. Specifically, we study minimax problems cast in geodesic metric spaces, which provide a vast generalization of the usual convex-concave saddle point problems. The first main result of the paper is a geodesic metric space version of Sion's minimax theorem; we believe our proof is novel and transparent, as it relies on Helly's theorem only. In our second main result, we specialize to geodesically complete Riemannian manifolds: we devise and analyze the complexity of first-order methods for smooth minimax problems.
翻訳日:2022-02-16 14:23:37 公開日:2022-02-13
# (参考訳) 階層的文脈制約による長期音楽表現の学習 [全文訳有]

Learning long-term music representations via hierarchical contextual constraints ( http://arxiv.org/abs/2202.06180v1 )

ライセンス: CC BY 4.0
Shiqi Wei, Gus Xia(参考訳) 象徴的音楽表現、特に確率的解釈と絡み合った表現を学ぶことは、音楽の理解と生成の両方に有益であることが示されている。 しかし、ほとんどのモデルは短期音楽にしか適用できないが、長期的な音楽表現を学ぶことは難しい課題である。 階層的表現を直接エンドツーエンドで学習しようとする研究はいくつかあるが、これらのモデルでは望ましい結果が得られず、トレーニングプロセスは安定していない。 本稿では,文脈制約による長期的象徴的音楽表現の学習手法を提案する。 まず、コントラスト学習を用いて、短期表現との違いを制約し、長期表現を事前訓練する(オフザシェルフモデルにより抽出される)。 次に、良好な長期表現(例えば8バール表現)が対応する短期表現(例えば8バールの範囲内の2バール表現)を再構築できるような階層的予測モデルにより、長期表現を微調整する。 実験により,本手法はトレーニングと微調整ステップを安定化することを示した。 さらに、設計されたコンテキスト制約は、再構築と切り離しの両方の恩恵を受け、ベースラインを著しく上回る。

Learning symbolic music representations, especially disentangled representations with probabilistic interpretations, has been shown to benefit both music understanding and generation. However, most models are only applicable to short-term music, while learning long-term music representations remains a challenging task. We have seen several studies attempting to learn hierarchical representations directly in an end-to-end manner, but these models have not been able to achieve the desired results and the training process is not stable. In this paper, we propose a novel approach to learn long-term symbolic music representations through contextual constraints. First, we use contrastive learning to pre-train a long-term representation by constraining its difference from the short-term representation (extracted by an off-the-shelf model). Then, we fine-tune the long-term representation by a hierarchical prediction model such that a good long-term representation (e.g., an 8-bar representation) can reconstruct the corresponding short-term ones (e.g., the 2-bar representations within the 8-bar range). Experiments show that our method stabilizes the training and the fine-tuning steps. In addition, the designed contextual constraints benefit both reconstruction and disentanglement, significantly outperforming the baselines.
翻訳日:2022-02-16 11:09:32 公開日:2022-02-13
# (参考訳) 唇同期のための唇運動情報絡み合い [全文訳有]

Lip movements information disentanglement for lip sync ( http://arxiv.org/abs/2202.06198v1 )

ライセンス: CC BY 4.0
Chun Wang(参考訳) 唇の動き情報は、多くの視覚的タスクに欠かせない。 しかし, 映像から唇の動き情報を抽出することは困難であり, 個人の身元や頭部のポーズなどの要因で容易に抑えられる。 本稿では, パラメトリック3次元顔モデルを用いて, 唇運動情報を明瞭に分離する手法を提案する。 まず,最近の3次元顔再構成の進歩を基盤として,唇運動情報が存在する表情情報を一貫して分離する手法を提案する。 そして,摂動要因の影響を,不連続な唇運動情報と合成することで緩和し,より少ないデータでリップシンク処理を行うことができることを示した。 最後に、アクティブな話者検出タスクのための未認識データセット上でテストし、競合性能を達成することで、その有効性を示す。

The lip movements information is critical for many audio-visual tasks. However, extracting lip movements information from videos is challenging, as it can be easily perturbed by factors like personal identities and head poses. This paper proposes utilizing the parametric 3D face model to disentangle lip movements information explicitly. Building on top of the recent 3D face reconstruction advances, we firstly offer a method that can consistently disentangle expression information, where the lip movements information lies. Then we demonstrate that once the influences of perturbing factors are alleviated by synthesizing faces with the disentangled lip movements information, the lip-sync task can be done better with much fewer data. Finally, we show its effectiveness in the wild by testing it on an unseen dataset for the active speaker detection task and achieving competitive performance.
翻訳日:2022-02-16 10:55:29 公開日:2022-02-13
# (参考訳) 近傍強化コントラスト学習によるグラフ協調フィルタリングの改善 [全文訳有]

Improving Graph Collaborative Filtering with Neighborhood-enriche d Contrastive Learning ( http://arxiv.org/abs/2202.06200v1 )

ライセンス: CC BY 4.0
Zihan Lin, Changxin Tian, Yupeng Hou and Wayne Xin Zhao(参考訳) 近年,ユーザ・項目間インタラクショングラフをモデル化することにより,アイテムに対するユーザの嗜好を捉えるための効果的な推奨手法としてグラフ協調フィルタリング手法が提案されている。 データ疎度の影響を低減するため、グラフ協調フィルタリングにおいてコントラスト学習を採用して性能を向上させる。 しかし、これらの方法は通常、ランダムサンプリングによってコントラストペアを構築し、ユーザ(またはアイテム)間の隣り合う関係を無視し、コントラスト学習の可能性を十分に活用しない。 上記の課題に対処するために,NCL という,近隣の候補をコントラッシブなペアに明示的に組み込んだ新しいコントラスト学習手法を提案する。 具体的には、ユーザ(またはアイテム)の隣人について、それぞれグラフ構造と意味空間から紹介する。 相互作用グラフ上の構造的隣人に対しては、ユーザ(またはアイテム)とその構造的隣人を正のコントラスト的対とみなす新しい構造的対照的な目的を開発する。 実装では、ユーザ(またはアイテム)と隣人の表現は異なるGNN層の出力に対応する。 さらに, 意味空間における潜在的隣接関係を掘り下げるために, 類似表現を持つ利用者が意味空間内にあることを仮定し, それらの類似関係をプロトタイプ・コントラスト目的に組み込む。 提案したNCLをEMアルゴリズムで最適化し,グラフ協調フィルタリング法に適用するために一般化する。 5つの公開データセットに関する広範囲な実験が提案されているnclの有効性を示している。特にyelpとamazon-bookデータセットの競合グラフ協調フィルタリングベースモデルに対する26%と17%のパフォーマンス向上である。 コードはhttps://github.com/r ucaibox/ncl。

Recently, graph collaborative filtering methods have been proposed as an effective recommendation approach, which can capture users' preference over items by modeling the user-item interaction graphs. In order to reduce the influence of data sparsity, contrastive learning is adopted in graph collaborative filtering for enhancing the performance. However, these methods typically construct the contrastive pairs by random sampling, which neglect the neighboring relations among users (or items) and fail to fully exploit the potential of contrastive learning for recommendation. To tackle the above issue, we propose a novel contrastive learning approach, named Neighborhood-enriche d Contrastive Learning, named NCL, which explicitly incorporates the potential neighbors into contrastive pairs. Specifically, we introduce the neighbors of a user (or an item) from graph structure and semantic space respectively. For the structural neighbors on the interaction graph, we develop a novel structure-contrastiv e objective that regards users (or items) and their structural neighbors as positive contrastive pairs. In implementation, the representations of users (or items) and neighbors correspond to the outputs of different GNN layers. Furthermore, to excavate the potential neighbor relation in semantic space, we assume that users with similar representations are within the semantic neighborhood, and incorporate these semantic neighbors into the prototype-contrastiv e objective. The proposed NCL can be optimized with EM algorithm and generalized to apply to graph collaborative filtering methods. Extensive experiments on five public datasets demonstrate the effectiveness of the proposed NCL, notably with 26% and 17% performance gain over a competitive graph collaborative filtering base model on the Yelp and Amazon-book datasets respectively. Our code is available at: https://github.com/R UCAIBox/NCL.
翻訳日:2022-02-16 10:43:33 公開日:2022-02-13
# (参考訳) Uni-Retriever:Bingスポンサー検索における統一埋め込みベースのレトリバーの学習 [全文訳有]

Uni-Retriever: Towards Learning The Unified Embedding Based Retriever in Bing Sponsored Search ( http://arxiv.org/abs/2202.06212v1 )

ライセンス: CC BY 4.0
Jianjin Zhang, Zheng Liu, Weihao Han, Shitao Xiao, Ruicheng Zheng, Yingxia Shao, Hao Sun, Hanqing Zhu, Premkumar Srinivasan, Denvy Deng, Qi Zhang, Xing Xie(参考訳) 埋め込みベースの検索(EBR)は多くのWebアプリケーションにおいて基本的なビルディングブロックである。 しかし、スポンサー付き検索におけるERRは、他の一般的なシナリオと区別され、技術的には複数の検索目的を提供する必要があるため、技術的に困難である。 本稿では,2つの異なる学習モードの知識蒸留とコントラスト学習を統合し,両者の目的を実現するための新しい表現学習フレームワークであるbing searchを提案する。 また,「関係教師モデル」から知識を蒸留することで,高信頼検索能力が確立される。 一方,高いCTR検索能力は,コーパス全体からユーザのクリック広告を識別する学習によって最適化される。 2つのトレーニングモードは、多目的学習プロセスとして共同実行され、高関連性およびCTRの広告が生成された埋め込みに好適である。 学習戦略の他,大規模ebrを競合時間とメモリ効率で実行し,高品質で達成可能な,実質的に最適化された diskann 上に構築された ebr サービスパイプラインのソリューションも詳細に説明します。 提案手法を総合的なオフライン・オンライン実験により評価し,今後のERBシステム開発に有用な知見を提供する可能性がある。 uni-retrieverは、表現とebrサービスの品質が大幅に改善され、bingの生産における主要な検索経路として主流になっている。

Embedding based retrieval (EBR) is a fundamental building block in many web applications. However, EBR in sponsored search is distinguished from other generic scenarios and technically challenging due to the need of serving multiple retrieval purposes: firstly, it has to retrieve high-relevance ads, which may exactly serve user's search intent; secondly, it needs to retrieve high-CTR ads so as to maximize the overall user clicks. In this paper, we present a novel representation learning framework Uni-Retriever developed for Bing Search, which unifies two different training modes knowledge distillation and contrastive learning to realize both required objectives. On one hand, the capability of making high-relevance retrieval is established by distilling knowledge from the ``relevance teacher model''. On the other hand, the capability of making high-CTR retrieval is optimized by learning to discriminate user's clicked ads from the entire corpus. The two training modes are jointly performed as a multi-objective learning process, such that the ads of high relevance and CTR can be favored by the generated embeddings. Besides the learning strategy, we also elaborate our solution for EBR serving pipeline built upon the substantially optimized DiskANN, where massive-scale EBR can be performed with competitive time and memory efficiency, and accomplished in high-quality. We make comprehensive offline and online experiments to evaluate the proposed techniques, whose findings may provide useful insights for the future development of EBR systems. Uni-Retriever has been mainstreamed as the major retrieval path in Bing's production thanks to the notable improvements on the representation and EBR serving quality.
翻訳日:2022-02-16 10:26:00 公開日:2022-02-13
# (参考訳) PQuAD: ペルシアの質問に答えるデータセット [全文訳有]

PQuAD: A Persian Question Answering Dataset ( http://arxiv.org/abs/2202.06219v1 )

ライセンス: CC BY 4.0
Kasra Darvishi, Newsha Shahbodagh, Zahra Abbasiantaeb, Saeedeh Momtazi(参考訳) 本稿では,ペルシア語ウィキペディア記事の読解データセットであるPQuADについて紹介する。 8万の質問と答えを含み、25%の質問は反対に答えられない。 MRCベンチマークとして,データセットの多様性と難易度を示すために,様々な特性について検討した。 このデータセットを公開することにより、ペルシア語読解の研究を容易にし、ペルシア語質問応答システムの開発を目指す。 異なる最先端の事前学習型言語モデルに対する実験では、74.8%のエクサクトマッチ(EM)と87.6%のF1スコアが、ペルシアのQAに関するさらなる研究のベースラインとして利用できる。

We present Persian Question Answering Dataset (PQuAD), a crowdsourced reading comprehension dataset on Persian Wikipedia articles. It includes 80,000 questions along with their answers, with 25% of the questions being adversarially unanswerable. We examine various properties of the dataset to show the diversity and the level of its difficulty as an MRC benchmark. By releasing this dataset, we aim to ease research on Persian reading comprehension and development of Persian question answering systems. Our experiments on different state-of-the-art pre-trained contextualized language models show 74.8% Exact Match (EM) and 87.6% F1-score that can be used as the baseline results for further research on Persian QA.
翻訳日:2022-02-16 10:09:34 公開日:2022-02-13
# (参考訳) 非制限メディアにおけるロバストなディープフェイク:生成と検出 [全文訳有]

Robust Deepfake On Unrestricted Media: Generation And Detection ( http://arxiv.org/abs/2202.06228v1 )

ライセンス: CC BY 4.0
Trung-Nghia Le and Huy H Nguyen and Junichi Yamagishi and Isao Echizen(参考訳) 近年のディープラーニングの進歩により、ディープフェイク生成が大幅に改善され、フェイクメディアがより現実的に見えるようになった。 ディープフェイクメディアは幅広い分野に応用できる可能性があり、学術界と産業界の両方から注目を集めているが、深刻な社会的・犯罪的な懸念も招いている。 この章はディープフェイクの生成と検出における進化と課題を探求する。 また、さまざまなメディア(例えば、wild画像やビデオ)のディープフェイク検出の堅牢性を改善する方法についても論じている。 最後に、将来の偽メディア研究の焦点を示唆する。

Recent advances in deep learning have led to substantial improvements in deepfake generation, resulting in fake media with a more realistic appearance. Although deepfake media have potential application in a wide range of areas and are drawing much attention from both the academic and industrial communities, it also leads to serious social and criminal concerns. This chapter explores the evolution of and challenges in deepfake generation and detection. It also discusses possible ways to improve the robustness of deepfake detection for a wide variety of media (e.g., in-the-wild images and videos). Finally, it suggests a focus for future fake media research.
翻訳日:2022-02-16 10:00:16 公開日:2022-02-13
# (参考訳) ソボレフ空間における自然勾配の理解

Understanding Natural Gradient in Sobolev Spaces ( http://arxiv.org/abs/2202.06232v1 )

ライセンス: CC BY 4.0
Qinxun Bai, Steven Rosenberg, Wei Xu(参考訳) 自然勾配は理論的・経験的両面から広く研究されているが、無限次元函数空間における勾配の存在に関する根本的な理論的問題はまだ未解明である。 そこで,ソボレボメトリックスによる自然勾配の研究を行い,いくつかの厳密な結果を得た。 また、自然勾配とRKHS理論、特にニューラル・タンジェント・カーネル(NTK)との新たな関係を確立した。 提案するソボレフ自然勾配の効率的な近似のための計算手法を開発した。 予備実験の結果、この新しい自然勾配変種の可能性が明らかとなった。

While natural gradients have been widely studied from both theoretical and empirical perspectives, we argue that a fundamental theoretical issue regarding the existence of gradients in infinite dimensional function spaces remains underexplored. We therefore study the natural gradient induced by Sobolevmetrics and develop several rigorous results. Our results also establish new connections between natural gradients and RKHS theory, and specifically to the Neural Tangent Kernel (NTK). We develop computational techniques for the efficient approximation of the proposed Sobolev Natural Gradient. Preliminary experimental results reveal the potential of this new natural gradient variant.
翻訳日:2022-02-16 09:27:05 公開日:2022-02-13
# (参考訳) 大規模最適化問題に対する高効率自然勾配蛍光法 [全文訳有]

Efficient Natural Gradient Descent Methods for Large-Scale Optimization Problems ( http://arxiv.org/abs/2202.06236v1 )

ライセンス: CC BY 4.0
Levon Nurbekyan, Wanzhou Lei and Yunan Yang(参考訳) 本研究では,状態空間における一般測度に対する自然勾配降下方向の計算に有効な数値計算法を提案する。 本手法は, 標準最小二乗問題の解として, 自然勾配方向を表現することに依存している。 したがって,情報行列を直接計算・保存・反転する代わりに,数値線形代数学の効率的な手法を適用し,この最小二乗問題を解く。 パラメータに対する状態変数の微分が明示的に知られているか、制約によって暗黙的に与えられるというシナリオの両方を扱う。 前者の場合の最小二乗問題を解くためにQR分解を適用し、後者の場合の自然勾配降下方向を計算するために随伴状態法を用いる。 その結果、数千次元の大規模パラメータ空間に対して、wasserstein自然勾配を含むいくつかの自然勾配降下を確実に計算することができる。 最後に, 大規模非凸最適化問題における標準勾配降下法と各種自然勾配降下法との質的差異について, 数値計算結果から考察した。

We propose an efficient numerical method for computing natural gradient descent directions with respect to a generic metric in the state space. Our technique relies on representing the natural gradient direction as a solution to a standard least-squares problem. Hence, instead of calculating, storing, or inverting the information matrix directly, we apply efficient methods from numerical linear algebra to solve this least-squares problem. We treat both scenarios where the derivative of the state variable with respect to the parameter is either explicitly known or implicitly given through constraints. We apply the QR decomposition to solve the least-squares problem in the former case and utilize the adjoint-state method to compute the natural gradient descent direction in the latter case. As a result, we can reliably compute several natural gradient descents, including the Wasserstein natural gradient, for a large-scale parameter space with thousands of dimensions, which was believed to be out of reach. Finally, our numerical results shed light on the qualitative differences among the standard gradient descent method and various natural gradient descent methods based on different metric spaces in large-scale nonconvex optimization problems.
翻訳日:2022-02-16 09:26:09 公開日:2022-02-13
# (参考訳) FairStyle: スタイルチャネル操作を備えたスタイルGAN2のデバイアス [全文訳有]

FairStyle: Debiasing StyleGAN2 with Style Channel Manipulations ( http://arxiv.org/abs/2202.06240v1 )

ライセンス: CC BY-SA 4.0
Cemre Karakas, Alara Dirik, Eylul Yalcinkaya, Pinar Yanardag(参考訳) 近年,生成型adversarial networkの進歩により,高分解能・超現実的画像の生成が可能となった。 しかし、GANが生成する画像は、トレーニング対象のデータセットと同じくらい公平で代表的なものに過ぎない。 本稿では,事前学習したstylegan2モデルを直接修正する方法を提案する。このモデルでは,1つ(例えば眼鏡)またはそれ以上の属性(例えば、性別や眼鏡)に対して,バランスのとれた画像群を生成することができる。 提案手法では,StyleGAN2モデルのスタイル空間を利用して,非バイアスとなる対象属性のアンタングル制御を行う。 提案手法では,新たなモデルをトレーニングする必要はなく,GANモデルを直接削除し,様々なダウンストリームアプリケーションで使用するための道を開く。 実験の結果,生成した画像の品質を損なうことなく,GANモデルを数分で除去できることが判明した。 公平な生成モデルを促進するために、コードとデバイアスドモデルはhttp://catlab-team.g ithub.io/fairstyle.c om/で共有します。

Recent advances in generative adversarial networks have shown that it is possible to generate high-resolution and hyperrealistic images. However, the images produced by GANs are only as fair and representative as the datasets on which they are trained. In this paper, we propose a method for directly modifying a pre-trained StyleGAN2 model that can be used to generate a balanced set of images with respect to one (e.g., eyeglasses) or more attributes (e.g., gender and eyeglasses). Our method takes advantage of the style space of the StyleGAN2 model to perform disentangled control of the target attributes to be debiased. Our method does not require training additional models and directly debiases the GAN model, paving the way for its use in various downstream applications. Our experiments show that our method successfully debiases the GAN model within a few minutes without compromising the quality of the generated images. To promote fair generative models, we share the code and debiased models at http://catlab-team.g ithub.io/fairstyle.
翻訳日:2022-02-16 08:43:08 公開日:2022-02-13
# (参考訳) tech hybrid-recommendatio n engineとパーソナライズ通知:レコメンデーションを通じてユーザを支援する統合ツール(project athena) [全文訳有]

A Tech Hybrid-Recommendatio n Engine and Personalized Notification: An integrated tool to assist users through Recommendations (Project ATHENA) ( http://arxiv.org/abs/2202.06248v1 )

ライセンス: CC BY 4.0
Lordjette Leigh M. Lecaros and Concepcion L. Khan(参考訳) プロジェクトATHENAは、情報過負荷に対処するアプリケーションを開発することを目的としており、主に現代のシステムのパーソナライズとユーザエクスペリエンス設計によるレコメンデーションシステム(Recommendation Systems, RS)に焦点を当てている。 1)コンテンツベースフィルタリング(cbf)のためのtf-idf,(2)協調フィルタリング(cf)を適用した行列因子分解-特異値分解(svd)による分類,cfの予測精度に対する平均(正規化)の2つの機械学習アルゴリズムを用いた。 フィリピン農業・水産・天然資源開発協議会(pcaarrd)の学術研究・開発におけるデータサンプリングと、e-libraryとproject saraiの出版物に加えて、3つのrsフィルタリング(cf、cbf、パーソナライズされたアイテム推奨版)を使用した項目の推奨を生成するためのトレーニングセットとして使用されるシミュレーションデータ。 テストとTAMのシリーズが実施され、議論された。 発見により、ユーザーはオンライン情報に従事し、アプリケーションが生成したアイテムを迅速に評価することができる。 互換性テスト(CoT)は、アプリケーションがすべての主要なブラウザと互換性があり、モバイルフレンドリーであることを示している。 パフォーマンステスト(pt) 推奨のvパラメータ仕様とtam評価の結果は、全体的なポジティブなフィードバックに強く関連しており、情報オーバーロード問題に対処するのに十分である。 モジュラーアーキテクチャは情報過負荷に対処し、主に現代のシステムのパーソナライズと設計によるRSに焦点を当てた。 開発者は2つのMLアルゴリズムを使用して、アーキテクチャの簡易バージョンをプロトタイプ化した。 一連の試験 (CoT, PT) とTAMによる評価を行い, 検討した。 Project ATHENAは、現代のシステムのUX機能設計を追加した。

Project ATHENA aims to develop an application to address information overload, primarily focused on Recommendation Systems (RSs) with the personalization and user experience design of a modern system. Two machine learning (ML) algorithms were used: (1) TF-IDF for Content-based filtering (CBF); (2) Classification with Matrix Factorization- Singular Value Decomposition(SVD) applied with Collaborative filtering (CF) and mean (normalization) for prediction accuracy of the CF. Data sampling in academic Research and Development of Philippine Council for Agriculture, Aquatic, and Natural Resources Research and Development (PCAARRD) e-Library and Project SARAI publications plus simulated data used as training sets to generate a recommendation of items that uses the three RS filtering (CF, CBF, and personalized version of item recommendations). Series of Testing and TAM performed and discussed. Findings allow users to engage in online information and quickly evaluate retrieved items produced by the application. Compatibility-testin g (CoT) shows the application is compatible with all major browsers and mobile-friendly. Performance-testing (PT) recommended v-parameter specs and TAM evaluations results indicate strongly associated with overall positive feedback, thoroughly enough to address the information-overload problem as the core of the paper. A modular architecture presented addressing the information overload, primarily focused on RSs with the personalization and design of modern systems. Developers utilized Two ML algorithms and prototyped a simplified version of the architecture. Series of testing (CoT and PT) and evaluations with TAM were performed and discussed. Project ATHENA added a UX feature design of a modern system.
翻訳日:2022-02-16 08:28:02 公開日:2022-02-13
# (参考訳) All $\varepsilon$-Best Arms Identificationの複雑さについて [全文訳有]

On the complexity of All $\varepsilon$-Best Arms Identification ( http://arxiv.org/abs/2202.06280v1 )

ライセンス: CC BY 4.0
Aymen Al Marjani, Tom\'a\v{s} Koc\'ak, Aur\'elien Garivier(参考訳) 我々は,gaussian rewardsを用いた有限確率的多腕バンディットにおいて,$\varepsilon$-optim al arms を同定する \cite{mason2020} によって導入された問題を考察する。 固定された信頼設定では、あるリスクレベル$\delta$よりも低い失敗確率で$\varepsilon$-goodのセットを返すアルゴリズムが必要とするサンプルの数に低い境界を与える。 この境界は$T_{\varepsilon}^*(\mu)\log(1/\delta) $と書き、$T_{\varepsilon}^*(\mu)$は平均報酬のベクトル$\mu$と精度パラメータ$\varepsilon$に依存する特性時間である。 また,特徴時間を定義する凸最大値プログラムの効率的な数値計算法も提案する。 提案手法は, 最適サンプリング戦略を除外する必要がある代替バンディットインスタンスの完全キャラクタリゼーションに基づいており, 境界を<cite{mason2020} によって提供されるものよりも厳密にする。 この手法を用いて,$\varepsilon$-good arms w.h.p のセットを同定し,期待されるサンプル複雑性の観点から漸近的最適性($\delta$ が 0 になるとき)を楽しむトラック・アンド・ストップアルゴリズムを提案する。 最後に, 数値シミュレーションを用いて, リスクパラメータの適度な値であっても, 最先端手法に対するアルゴリズムの優位性を実証する。

We consider the problem introduced by \cite{Mason2020} of identifying all the $\varepsilon$-optima l arms in a finite stochastic multi-armed bandit with Gaussian rewards. In the fixed confidence setting, we give a lower bound on the number of samples required by any algorithm that returns the set of $\varepsilon$-good arms with a failure probability less than some risk level $\delta$. This bound writes as $T_{\varepsilon}^*(\mu)\log(1/\delta) $, where $T_{\varepsilon}^*(\mu)$ is a characteristic time that depends on the vector of mean rewards $\mu$ and the accuracy parameter $\varepsilon$. We also provide an efficient numerical method to solve the convex max-min program that defines the characteristic time. Our method is based on a complete characterization of the alternative bandit instances that the optimal sampling strategy needs to rule out, thus making our bound tighter than the one provided by \cite{Mason2020}. Using this method, we propose a Track-and-Stop algorithm that identifies the set of $\varepsilon$-good arms w.h.p and enjoys asymptotic optimality (when $\delta$ goes to zero) in terms of the expected sample complexity. Finally, using numerical simulations, we demonstrate our algorithm's advantage over state-of-the-art methods, even for moderate values of the risk parameter.
翻訳日:2022-02-16 08:16:43 公開日:2022-02-13
# (参考訳) uavのアンダーディスプレイカメラにおけるゼロ参照画像復元 [全文訳有]

Zero-Reference Image Restoration for Under-Display Camera of UAV ( http://arxiv.org/abs/2202.06283v1 )

ライセンス: CC BY 4.0
Zhuoran Zheng, Xiuyi Jia and Yunliang Zhuang(参考訳) UAVの露出したカメラは厳しい天候の影響で揺れたり、シフトしたり、故障したりすることがあるが、アドオン装置(Dupontのライン)は損傷に対して非常に脆弱である。 カメラに低コストのT-OLEDオーバーレイを配置して保護することもできますが、画像劣化の問題も生じます。 特に、大気中の温度変化は、T-OLEDに吸着する霧を生じさせ、UAVの撮影過程において二次的な災害(すなわち、より深刻な画像劣化)を引き起こす可能性がある。 本稿では, t-oledのオーバーレイによる画像劣化問題を解決するため, 画像のテクスチャと色を向上し, 視覚体験を向上させる新しい手法を提案する。 具体的には,入力画像上の低ランクアフィングリッドを推定するために軽量ネットワークを訓練し,そのグリッドを用いてブロック粒度での入力画像の強調を行う。 本手法の利点は,参照画像を必要としないこと,視覚経験から損失関数を開発することである。 さらに,任意の解像度の画像の高精細化をリアルタイムに行うことができる。 最後に、モデルと収集したデータセット(昼と夜のシーンを含む)の制限について論じます。

The exposed cameras of UAV can shake, shift, or even malfunction under the influence of harsh weather, while the add-on devices (Dupont lines) are very vulnerable to damage. We can place a low-cost T-OLED overlay around the camera to protect it, but this would also introduce image degradation issues. In particular, the temperature variations in the atmosphere can create mist that adsorbs to the T-OLED, which can cause secondary disasters (i.e., more severe image degradation) during the UAV's filming process. To solve the image degradation problem caused by overlaying T-OLEDs, in this paper we propose a new method to enhance the visual experience by enhancing the texture and color of images. Specifically, our method trains a lightweight network to estimate a low-rank affine grid on the input image, and then utilizes the grid to enhance the input image at block granularity. The advantages of our method are that no reference image is required and the loss function is developed from visual experience. In addition, our model can perform high-quality recovery of images of arbitrary resolution in real time. In the end, the limitations of our model and the collected datasets (including the daytime and nighttime scenes) are discussed.
翻訳日:2022-02-16 07:56:11 公開日:2022-02-13
# (参考訳) 空間変動屋内照明予測のためのディープグラフ学習 [全文訳有]

Deep Graph Learning for Spatially-Varying Indoor Lighting Prediction ( http://arxiv.org/abs/2202.06300v1 )

ライセンス: CC BY 4.0
Jiayang Bai, Jie Guo, Chenchen Wan, Zhenyu Chen, Zhen He, Shan Yang, Piaopiao Yu, Yan Zhang and Yanwen Guo(参考訳) 仮想オブジェクトと現実オブジェクトのシェーディングとシャドーの一貫性を保証する、多くのビジョンと拡張現実(ar)アプリケーションでは、単一の画像からの照明予測がますます重要になっている。 しかし、室内照明器具の複雑さと2d画像に関する情報が限られているため、特に屋内シナリオでは、この問題は悪名高い問題である。 本稿では,室内照明推定のためのグラフ学習に基づくフレームワークを提案する。 中心となるのは、深度増大した球状ガウス(SG)に基づく新しい照明モデル(DSGLight)と、視野の限られた単一のLDR画像から新しい照明表現を推論するグラフ畳み込みネットワーク(GCN)である。 我々の照明モデルは屋内パノラマ上に128個のSGを均等に分散させ、各SGがそのノードの周囲の光と深度を符号化する。 提案したGCNは入力画像からDSGLightへのマッピングを学習する。 既存の照明モデルと比較して、DSGLightは直接照明と間接的な環境照明の両方をより忠実かつコンパクトにエンコードします。 また、ネットワークトレーニングと推論をより安定させる。 推定深度分布は、空間変動照明下での時間安定な陰影と影を可能にする。 徹底的な実験を通して,本手法は定性的かつ定量的に既存手法より優れていることを示す。

Lighting prediction from a single image is becoming increasingly important in many vision and augmented reality (AR) applications in which shading and shadow consistency between virtual and real objects should be guaranteed. However, this is a notoriously ill-posed problem, especially for indoor scenarios, because of the complexity of indoor luminaires and the limited information involved in 2D images. In this paper, we propose a graph learning-based framework for indoor lighting estimation. At its core is a new lighting model (dubbed DSGLight) based on depth-augmented Spherical Gaussians (SG) and a Graph Convolutional Network (GCN) that infers the new lighting representation from a single LDR image of limited field-of-view. Our lighting model builds 128 evenly distributed SGs over the indoor panorama, where each SG encoding the lighting and the depth around that node. The proposed GCN then learns the mapping from the input image to DSGLight. Compared with existing lighting models, our DSGLight encodes both direct lighting and indirect environmental lighting more faithfully and compactly. It also makes network training and inference more stable. The estimated depth distribution enables temporally stable shading and shadows under spatially-varying lighting. Through thorough experiments, we show that our method obviously outperforms existing methods both qualitatively and quantitatively.
翻訳日:2022-02-16 07:45:41 公開日:2022-02-13
# (参考訳) イジングモデルにおける自発的破壊対称性を同定する群同変オートエンコーダ [全文訳有]

A Group-Equivariant Autoencoder for Identifying Spontaneously Broken Symmetries in the Ising Model ( http://arxiv.org/abs/2202.06319v1 )

ライセンス: CC BY 4.0
Devanshu Agrawal, Adrian Del Maestro, Steven Johnston, James Ostrowski(参考訳) 本稿では,グループ同変オートエンコーダ (GE-autoencoder) を導入し,各温度でハミルトニアンの対称性が壊れているかを決定することにより,Ising普遍性クラスにおける位相境界を同定する新しいディープニューラルネットワーク手法を提案する。 GEオートコーダのエンコーダネットワークは、位相遷移に関連する順序パラメータをモデル化する。 GE-オートエンコーダのパラメータは、エンコーダが壊れない対称性のサブグループに不変であるように制約されるため、GE-オートエンコーダのサイズがシステムサイズに依存しないような自由パラメータの数が劇的に減少する。 GEオートコーダの損失関数は、残りの対称性の商群に等しくなる正規化項を含む。 2次元の古典強磁性及び反強磁性イジングモデルを用いてGE-オートエンコーダ法を試験し、GE-オートエンコーダ(1)が各温度でどの対称性が壊れているかを正確に決定し、(2)対称性に依存しないオートエンコーダよりも高い精度と時間効率で臨界温度を推定する。

We introduce the group-equivariant autoencoder (GE-autoencoder) -- a novel deep neural network method that locates phase boundaries in the Ising universality class by determining which symmetries of the Hamiltonian are broken at each temperature. The encoder network of the GE-autoencoder models the order parameter observable associated with the phase transition. The parameters of the GE-autoencoder are constrained such that the encoder is invariant to the subgroup of symmetries that never break; this results in a dramatic reduction in the number of free parameters such that the GE-autoencoder size is independent of the system size. The loss function of the GE-autoencoder includes regularization terms that enforce equivariance to the remaining quotient group of symmetries. We test the GE-autoencoder method on the 2D classical ferromagnetic and antiferromagnetic Ising models, finding that the GE-autoencoder (1) accurately determines which symmetries are broken at each temperature, and (2) estimates the critical temperature with greater accuracy and time-efficiency than a symmetry-agnostic autoencoder, once finite-size scaling analysis is taken into account.
翻訳日:2022-02-16 07:32:24 公開日:2022-02-13
# (参考訳) 強化学習としてのゴール認識 [全文訳有]

Goal Recognition as Reinforcement Learning ( http://arxiv.org/abs/2202.06356v1 )

ライセンス: CC BY 4.0
Leonardo Rosa Amado and Reuth Mirsky and Felipe Meneguzzi(参考訳) ゴール認識のほとんどのアプローチは、目標を追求する際の環境におけるアクターのダイナミクスの仕様に依存している。 これらの仕様には2つの大きな問題がある。 まず、これらのダイナミクスを符号化するには、ドメインの専門家による慎重に設計する必要がある。 第二に、既存のアプローチは、それぞれの潜在的な目標の可能性を推論するために、しばしばコストのかかるリアルタイム計算を必要とします。 本稿では,モデルレス強化学習と目標認識を組み合わせたフレームワークを開発し,注意深い手動ドメイン設計の必要性と,コストのかかるオンライン実行の必要性を緩和する。 このフレームワークは、2つの主要なステージから成り立っている: 目標毎のポリシーやユーティリティ機能のオフライン学習、オンライン推論。 本稿では,このフレームワークの第一例として,表型q-learningを学習ステージに用い,推論ステージの実行に使用できる3つの尺度を提案する。 その結果、標準評価領域におけるゴール認識者に対する最先端性能と雑音環境における優れた性能が得られる。

Most approaches for goal recognition rely on specifications of the possible dynamics of the actor in the environment when pursuing a goal. These specifications suffer from two key issues. First, encoding these dynamics requires careful design by a domain expert, which is often not robust to noise at recognition time. Second, existing approaches often need costly real-time computations to reason about the likelihood of each potential goal. In this paper, we develop a framework that combines model-free reinforcement learning and goal recognition to alleviate the need for careful, manual domain design, and the need for costly online executions. This framework consists of two main stages: Offline learning of policies or utility functions for each potential goal, and online inference. We provide a first instance of this framework using tabular Q-learning for the learning stage, as well as three measures that can be used to perform the inference stage. The resulting instantiation achieves state-of-the-art performance against goal recognizers on standard evaluation domains and superior performance in noisy environments.
翻訳日:2022-02-16 06:56:12 公開日:2022-02-13
# (参考訳) 安全な予測モデル更新のためのホールドアウトセットの最適サイズ

Optimal sizing of a holdout set for safe predictive model updating ( http://arxiv.org/abs/2202.06374v1 )

ライセンス: CC BY-SA 4.0
Sami Haidar-Wehbe, Samuel R Emerson, Louis J M Aslett, James Liley(参考訳) リスクモデルは医療においてユビキタスになり、患者データからの洞察を提供することで介入を導く可能性がある。 モデルがガイドされた介入後に更新されると、予測を行うのに失敗する可能性がある。 モデルによって導かれる介入を受けない集団のサブセットである「ホールドアウトセット」の使用がこれを防ぐために提案されている。 ホールドアウトセットの患者はリスク予測の恩恵を受けないため、ホールドアウトセットの患者数を最小限に抑えながら、モデルパフォーマンスの最大化をトレードオフしなければならない。 一般損失関数を定義することにより、最適ホールドアウト集合サイズの存在と一意性を証明し、その推定にパラメトリックおよびセミパラメトリックアルゴリズムを導入する。 われわれは,近年の予防接種前のリスクスコアを実証した。 これらの結果に基づき、ホールドアウトセットはモデル更新問題に対する安全で実行可能で実装が容易なソリューションであると主張する。

Risk models are becoming ubiquitous in healthcare and may guide intervention by providing practitioners with insights from patient data. Should a model be updated after a guided intervention, it may lead to its own failure at making predictions. The use of a `holdout set' -- a subset of the population that does not receive interventions guided by the model -- has been proposed to prevent this. Since patients in the holdout set do not benefit from risk predictions, the chosen size must trade off maximising model performance whilst minimising the number of held out patients. By defining a general loss function, we prove the existence and uniqueness of an optimal holdout set size, and introduce parametric and semi-parametric algorithms for its estimation. We demonstrate their use on a recent risk score for pre-eclampsia. Based on these results, we argue that a holdout set is a safe, viable and easily implemented solution to the model update problem.
翻訳日:2022-02-16 06:42:25 公開日:2022-02-13
# (参考訳) 物理インフォーメーション深層学習実験設計の現状と展望

State-of-the-Art Review of Design of Experiments for Physics-Informed Deep Learning ( http://arxiv.org/abs/2202.06416v1 )

ライセンス: CC BY 4.0
Sourav Das, Solomon Tesfamariam(参考訳) 本稿では,サロゲートモデルを用いた実験の設計について概説する。 特に本研究は,教師付き学習クラスに属する物理型ニューラルネットワーク(pinn)のための実験スキームの設計の必要性を実証するものである。 多くの複素偏微分方程式 (pdes) は解析解を持たず、数値解法のみが計算コストの高い方程式を解くために用いられる。 近年、PINNは計算予算を削減する数値手法の代替として人気を集めている。 PINNは、ニューラルネットワークの性能を高めるために、微分方程式の形で物理情報を使用する。 効率的に機能するが、ピンを用いた予測応答の精度がトレーニングデータに依存するため、実験スキームの設計の選択が重要である。 本研究では, 粘性バーガー方程式, Shr\"{o}dinger equation, heat equation, Allen-Cahn equation, Korteweg-de Vries equation の5つの異なるPDEを用いて数値計算を行った。 比較研究は、DoEスキームの選択の必要性を確立するために実施される。 ハマーズリーサンプリングに基づくPINNは、他のDoEサンプル戦略よりも優れていた。

This paper presents a comprehensive review of the design of experiments used in the surrogate models. In particular, this study demonstrates the necessity of the design of experiment schemes for the Physics-Informed Neural Network (PINN), which belongs to the supervised learning class. Many complex partial differential equations (PDEs) do not have any analytical solution; only numerical methods are used to solve the equations, which is computationally expensive. In recent decades, PINN has gained popularity as a replacement for numerical methods to reduce the computational budget. PINN uses physical information in the form of differential equations to enhance the performance of the neural networks. Though it works efficiently, the choice of the design of experiment scheme is important as the accuracy of the predicted responses using PINN depends on the training data. In this study, five different PDEs are used for numerical purposes, i.e., viscous Burger's equation, Shr\"{o}dinger equation, heat equation, Allen-Cahn equation, and Korteweg-de Vries equation. A comparative study is performed to establish the necessity of the selection of a DoE scheme. It is seen that the Hammersley sampling-based PINN performs better than other DoE sample strategies.
翻訳日:2022-02-16 06:41:23 公開日:2022-02-13
# (参考訳) ニューラルテキスト生成のためのコントラストフレームワーク [全文訳有]

A Contrastive Framework for Neural Text Generation ( http://arxiv.org/abs/2202.06417v1 )

ライセンス: CC BY 4.0
Yixuan Su and Tian Lan and Yan Wang and Dani Yogatama and Lingpeng Kong and Nigel Collier(参考訳) テキスト生成は多くの自然言語処理アプリケーションにおいて非常に重要である。 しかし、ニューラルネットワークモデルの最大化に基づく復号法(ビーム探索など)は、しばしば縮退した解をもたらす -- 生成されたテキストは不自然であり、望ましくない繰り返しを含んでいる。 既存のアプローチでは、特定のトークンの確率(例えば、訓練とは違って)を減らすために、トレーニング目標のサンプリングや修正を通じて確率性を導入する。 しかし、コヒーレンスを欠いたソリューションにつながることが多い。 本研究では,トークン表現の異方性分布がモデルデジェネレーションの根本的な原因であることを示す。 対照的な解決策を紹介します (i)モデルの表現空間を校正するための対照的な訓練目的であるsimctg (ii)生成したテキストの一貫性を維持しつつ多様性を促進するためのデコード法(コントラスト検索)。 2つの言語から得られた3つのベンチマークに関する広範な実験と分析により、提案手法が、人間と自動メトリクスの両方で評価される最先端テキスト生成手法よりも優れていることを証明した。

Text generation is of great importance to many natural language processing applications. However, maximization-based decoding methods (e.g. beam search) of neural language models often lead to degenerate solutions -- the generated text is unnatural and contains undesirable repetitions. Existing approaches introduce stochasticity via sampling or modify training objectives to decrease probabilities of certain tokens (e.g., unlikelihood training). However, they often lead to solutions that lack coherence. In this work, we show that an underlying reason for model degeneration is the anisotropic distribution of token representations. We present a contrastive solution: (i) SimCTG, a contrastive training objective to calibrate the model's representation space, and (ii) a decoding method -- contrastive search -- to encourage diversity while maintaining coherence in the generated text. Extensive experiments and analyses on three benchmarks from two languages demonstrate that our proposed approach outperforms state-of-the-art text generation methods as evaluated by both human and automatic metrics.
翻訳日:2022-02-16 06:40:15 公開日:2022-02-13
# (参考訳) マルチロータを用いたパワーラインの知覚認識 [全文訳有]

Perception-Aware Perching on Powerlines with Multirotors ( http://arxiv.org/abs/2202.06434v1 )

ライセンス: CC BY 4.0
Julio L. Paneque, Jose Ramiro Mart\'inez de Dios, and An\'ibal Ollero. Drew Hanover, Sihao Sun, \'Angel Romero, and Davide Scaramuzza(参考訳) マルチローター空中ロボットは電力線検査に広く使われている。 人間の介入なしに継続的な堅牢な検査を可能にするためには、ロボットはバッテリーを充電するために電力線を固定する必要がある。 実パワーラインシステムに存在する様々な構成や制約に適応するためには、多目的なパーチ機能が必要である。 本稿では,ロボットを望ましい最終状態に導くための知覚認識・認識・衝突フリー・動的実現可能な操作を計算する,新しいパーチング軌道生成フレームワークを提案する。 軌道生成はプリマル・デュアルインテリアポイント法を用いて非線形計画問題の解法により達成される。 この問題は、ロボットのフルダイナミックモデルから単一のロータースラストまでを考慮し、衝突を避けながら最終ポーズと速度誤差を最小化し、操作中のパワーラインの可視性を最大化する。 生成した操作は、パーチングと後方回復路の両方を考慮する。 このフレームワークは電力線の効率的な数学的表現によって定義されたコストと制約を採用し、リソース制約のあるハードウェアでオンラインのオンボード実行を可能にする。 この方法は、パワーラインの検査と180度までの最終的なピッチ値を持つ様々なパーチング操作を行うアジャイルのクワッドローターで検証される。 開発済みのコードは、https://github.com/g rvcPerception/pa_pow erline_perchingでオンラインで入手できる。

Multirotor aerial robots are becoming widely used for the inspection of powerlines. To enable continuous, robust inspection without human intervention, the robots must be able to perch on the powerlines to recharge their batteries. Highly versatile perching capabilities are necessary to adapt to the variety of configurations and constraints that are present in real powerline systems. This paper presents a novel perching trajectory generation framework that computes perception-aware, collision-free, and dynamically-feasible maneuvers to guide the robot to the desired final state. Trajectory generation is achieved via solving a Nonlinear Programming problem using the Primal-Dual Interior Point method. The problem considers the full dynamic model of the robot down to its single rotor thrusts and minimizes the final pose and velocity errors while avoiding collisions and maximizing the visibility of the powerline during the maneuver. The generated maneuvers consider both the perching and the posterior recovery trajectories. The framework adopts costs and constraints defined by efficient mathematical representations of powerlines, enabling online onboard execution in resource-constrained hardware. The method is validated on-board an agile quadrotor conducting powerline inspection and various perching maneuvers with final pitch values of up to 180 degrees. The developed code is available online at: https://github.com/g rvcPerception/pa_pow erline_perching
翻訳日:2022-02-16 06:04:25 公開日:2022-02-13
# (参考訳) ランダム初期化ニューラルネットワークの特徴から学ぶ [全文訳有]

Learning from Randomly Initialized Neural Network Features ( http://arxiv.org/abs/2202.06438v1 )

ライセンス: CC BY 4.0
Ehsan Amid, Rohan Anil, Wojciech Kot{\l}owski, Manfred K. Warmuth(参考訳) 本稿では,ランダム初期化ニューラルネットワークが期待する特徴抽出器として優れていることを示す。 これらのランダム特徴は、本質的に無限次元であるニューラルネットワークプリエントカーネル(nnpk)と呼ばれるものに対する有限サンプル実現に対応する。 様々な大きさの複数のアーキテクチャでアブレーションを行い、初期化や活性化関数も行う。 私たちの分析は、トレーニングされたモデルに現れる特定の構造が初期化時にすでに存在することを示唆している。 したがって、NNPKはなぜニューラルネットワークがそのような構造を学ぶのに効果的なのか、さらなる洞察を与えるかもしれない。

We present the surprising result that randomly initialized neural networks are good feature extractors in expectation. These random features correspond to finite-sample realizations of what we call Neural Network Prior Kernel (NNPK), which is inherently infinite-dimensional . We conduct ablations across multiple architectures of varying sizes as well as initializations and activation functions. Our analysis suggests that certain structures that manifest in a trained model are already present at initialization. Therefore, NNPK may provide further insight into why neural networks are so effective in learning such structures.
翻訳日:2022-02-16 05:45:39 公開日:2022-02-13
# 機械学習ライブラリの公平性を考慮した構成

Fairness-aware Configuration of Machine Learning Libraries ( http://arxiv.org/abs/2202.06196v1 )

ライセンス: Link先を確認
Saeid Tizpaz-Niari and Ashish Kumar and Gang Tan and Ashutosh Trivedi(参考訳) 本稿では,機械学習(ml)アルゴリズムのフェアネスバグの悪化や軽減におけるパラメータ空間について検討する。 データ駆動ソフトウェアは、公平性を保証することが最重要となる社会クリティカルなアプリケーションでますます使われています。 既存のアプローチでは、入力データセットを変更したり、学習アルゴリズムを変更したりすることで、公正なバグに対処することに重点を置いている。 一方、mlアルゴリズムの微妙な制御を提供するハイパーパラメータの選択は、公平性に影響を与える侵入的アプローチを少なくする可能性がある。 ハイパーパラメータは、入力データセットに存在する差別を増幅または抑制できるか? プログラマがハイパーパラメータの役割を検知し、理解し、活用し、公平性を改善するのにどのように役立つか? 我々は,ハイパーパラメータ空間の精密度フロンティアを明らかにするために,探索に基づく3つのソフトウェアテストアルゴリズムを設計する。 これらのアルゴリズムを統計的デバッグで補完し,公平性向上におけるパラメータの役割を説明する。 提案手法をParfait-ML (Parameter FAIrness Testing for ML Libraries) に実装し、6つのソーシャルクリティカルアプリケーションで使用される5つの成熟MLアルゴリズムの有効性と有用性を示す。 これらの応用では, 精度を犠牲にすることなく, 精度を著しく向上するハイパーパラメータ(最先端技術)の同定に成功した。 驚くべきことに、いくつかのアルゴリズム(例えばランダムフォレスト)では、ハイパーパラメータの特定の構成(例えば属性の探索空間を制限する)がアプリケーション間のバイアスを増幅できることを示した。 さらなる調査の結果,これらの現象の直感的な説明が得られ,文献からも同様の観察結果が得られた。

This paper investigates the parameter space of machine learning (ML) algorithms in aggravating or mitigating fairness bugs. Data-driven software is increasingly applied in social-critical applications where ensuring fairness is of paramount importance. The existing approaches focus on addressing fairness bugs by either modifying the input dataset or modifying the learning algorithms. On the other hand, the selection of hyperparameters, which provide finer controls of ML algorithms, may enable a less intrusive approach to influence the fairness. Can hyperparameters amplify or suppress discrimination present in the input dataset? How can we help programmers in detecting, understanding, and exploiting the role of hyperparameters to improve the fairness? We design three search-based software testing algorithms to uncover the precision-fairness frontier of the hyperparameter space. We complement these algorithms with statistical debugging to explain the role of these parameters in improving fairness. We implement the proposed approaches in the tool Parfait-ML (PARameter FAIrness Testing for ML Libraries) and show its effectiveness and utility over five mature ML algorithms as used in six social-critical applications. In these applications, our approach successfully identified hyperparameters that significantly improve (vis-a-vis the state-of-the-art techniques) the fairness without sacrificing precision. Surprisingly, for some algorithms (e.g., random forest), our approach showed that certain configuration of hyperparameters (e.g., restricting the search space of attributes) can amplify biases across applications. Upon further investigation, we found intuitive explanations of these phenomena, and the results corroborate similar observations from the literature.
翻訳日:2022-02-15 18:22:18 公開日:2022-02-13
# 太陽光発電モデリングのための機能構築と選択

Feature Construction and Selection for PV Solar Power Modeling ( http://arxiv.org/abs/2202.06226v1 )

ライセンス: Link先を確認
Yu Yang, Jia Mao, Richard Nguyen, Annas Tohmeh, Hen-Geul Yeh(参考訳) プロセス産業における太陽光発電の利用は、温室効果ガス排出量を削減し、製造プロセスをより持続可能にする。 しかし、太陽エネルギーの断続的な性質は、その利用を困難にしている。 太陽光発電(pv)発電を予測するモデルを構築することで、意思決定者はエネルギー不足を回避し、さらに適切な運用を設計できる。 太陽エネルギーの出力は、照度や天気など多くの要因に依存する時系列データである。 本研究では, 過去のデータをもとに, 1時間先進太陽エネルギー予測のための機械学習フレームワークを開発した。 提案手法は入力データセットを高次元チェビシェフ多項式空間に拡張する。 そして、制約付き線形回帰を用いて特徴選択スキームを開発し、異なる気象種類の予測器を構築する。 提案手法は,サポートベクトルマシン (SVM) やランダムフォレスト (RF) ,勾配向上決定木 (GBDT) など,従来の機械学習手法よりも平均2乗誤差が低いことを示す。

Using solar power in the process industry can reduce greenhouse gas emissions and make the production process more sustainable. However, the intermittent nature of solar power renders its usage challenging. Building a model to predict photovoltaic (PV) power generation allows decision-makers to hedge energy shortages and further design proper operations. The solar power output is time-series data dependent on many factors, such as irradiance and weather. A machine learning framework for 1-hour ahead solar power prediction is developed in this paper based on the historical data. Our method extends the input dataset into higher dimensional Chebyshev polynomial space. Then, a feature selection scheme is developed with constrained linear regression to construct the predictor for different weather types. Several tests show that the proposed approach yields lower mean squared error than classical machine learning methods, such as support vector machine (SVM), random forest (RF), and gradient boosting decision tree (GBDT).
翻訳日:2022-02-15 18:21:52 公開日:2022-02-13
# NaNを超えて: 実現不可能に直面した最適化レイヤのレジリエンス

Beyond NaN: Resiliency of Optimization Layers in The Face of Infeasibility ( http://arxiv.org/abs/2202.06242v1 )

ライセンス: Link先を確認
Wai Tuck Wong, Andrew Butler, Ramesha Karunasena, Thanh Nguyen and Arunesh Sinha(参考訳) 先行研究は、様々な問題に対するニューラルネットワークの最終層として最適化層を組み込むことに成功し、単一のニューラルネットワークにおける共同学習と計画の前方通過を可能にした。 本研究では、最適化層への入力がニューラルネットワークの未定義出力につながるような、そのような設定の弱点を特定する。 このような未定義の決定出力は、重要なリアルタイムアプリケーションにおいて破滅的な結果をもたらす可能性がある。 本稿では,最適化層に供給される行列にランク不足を強制することにより,最適化が解を導出しないような障害を引き起こすことを示す。 入力行列の条件数を制御することにより,故障事例の防御を行う。 本研究は、総合的なデータ、jigsaw sudokuの設定や、自動運転のスピードプランニングにおける問題を、エンドツーエンドの学習と最適化のフレームワークの上に構築する。 提案した防御は,未定義の出力でフレームワークが失敗することを効果的に防ぐことを示す。 最後に、一般的な方程式や最適化の解法に深刻なバグをもたらす多くのエッジケースを提示し、同様に悪用することができる。

Prior work has successfully incorporated optimization layers as the last layer in neural networks for various problems, thereby allowing joint learning and planning in one neural network forward pass. In this work, we identify a weakness in such a set-up where inputs to the optimization layer lead to undefined output of the neural network. Such undefined decision outputs can lead to possible catastrophic outcomes in critical real time applications. We show that an adversary can cause such failures by forcing rank deficiency on the matrix fed to the optimization layer which results in the optimization failing to produce a solution. We provide a defense for the failure cases by controlling the condition number of the input matrix. We study the problem in the settings of synthetic data, Jigsaw Sudoku, and in speed planning for autonomous driving, building on top of prior frameworks in end-to-end learning and optimization. We show that our proposed defense effectively prevents the framework from failing with undefined output. Finally, we surface a number of edge cases which lead to serious bugs in popular equation and optimization solvers which can be abused as well.
翻訳日:2022-02-15 18:21:37 公開日:2022-02-13
# 作用素の局所近似

Local approximation of operators ( http://arxiv.org/abs/2202.06392v1 )

ライセンス: Link先を確認
Hrushikesh Mhaskar(参考訳) 系の同定、時系列の分類、偏微分方程式の直接および逆問題、不確実量化などの多くの応用は、計量空間 $\mathfrak{X}$ と $\mathfrak{Y}$ の間の非線型作用素の近似の問題につながる。 有限な情報量を用いてコンパクト部分集合 $k_\mathfrak{x}\subset \mathfrak{x}$ 上のそのような作用素の近似次数を決定する問題を考察する。 もし$\mathcal{f}: k_\mathfrak{x}\to k_\mathfrak{y}$、ある$f\in k_\mathfrak{x}$に対して$\mathcal{f}(f)$を近似するよく確立された戦略は、実数の有限数 $d$ (repectively $m$) で$f$ (respectively, $\mathcal{f}(f)$) を符号化することである。 適切な再構成アルゴリズム(デコーダ)とともに、問題は高次元ユークリッド空間 $\mathbb{R}^d$ のコンパクト部分集合上の $m$ 関数の近似に還元され、同じ意味で、単位球面 $\mathbb{S}^d$ が $\mathbb{R}^{d+1}$ に埋め込まれる。 問題は、$d$, $m$ と $\mathbb{S}^d$ の近似の複雑さが全て大きいためであり、関連するすべての近似の相互依存性の軌跡を正確に見積もる必要がある。 本稿では,これを効率的に行うための構成的手法,すなわち$\\mathbb{s}^d$ is $\mathcal{o}(d^{1/6})$ の近似に対する推定に関わる定数を定式化する。 演算子に対する異なる滑らか度クラスについて検討し、F$の小さな近傍の情報のみを用いて$\mathcal{F}(F)$を近似する方法を提案する。 多数のパラメーターの問題を緩和するため,プレハブネットワークを提案し,有効パラメーターの数を大幅に減らした。

Many applications, such as system identification, classification of time series, direct and inverse problems in partial differential equations, and uncertainty quantification lead to the question of approximation of a non-linear operator between metric spaces $\mathfrak{X}$ and $\mathfrak{Y}$. We study the problem of determining the degree of approximation of a such operators on a compact subset $K_\mathfrak{X}\subset \mathfrak{X}$ using a finite amount of information. If $\mathcal{F}: K_\mathfrak{X}\to K_\mathfrak{Y}$, a well established strategy to approximate $\mathcal{F}(F)$ for some $F\in K_\mathfrak{X}$ is to encode $F$ (respectively, $\mathcal{F}(F)$) in terms of a finite number $d$ (repectively $m$) of real numbers. Together with appropriate reconstruction algorithms (decoders), the problem reduces to the approximation of $m$ functions on a compact subset of a high dimensional Euclidean space $\mathbb{R}^d$, equivalently, the unit sphere $\mathbb{S}^d$ embedded in $\mathbb{R}^{d+1}$. The problem is challenging because $d$, $m$, as well as the complexity of the approximation on $\mathbb{S}^d$ are all large, and it is necessary to estimate the accuracy keeping track of the inter-dependence of all the approximations involved. In this paper, we establish constructive methods to do this efficiently; i.e., with the constants involved in the estimates on the approximation on $\\mathbb{S}^d$ being $\mathcal{O}(d^{1/6})$. We study different smoothness classes for the operators, and also propose a method for approximation of $\mathcal{F}(F)$ using only information in a small neighborhood of $F$, resulting in an effective reduction in the number of parameters involved. To further mitigate the problem of large number of parameters, we propose prefabricated networks, resulting in a substantially smaller number of effective parameters.
翻訳日:2022-02-15 18:21:20 公開日:2022-02-13
# 平均フィールドゲームのための個人レベル逆強化学習

Individual-Level Inverse Reinforcement Learning for Mean Field Games ( http://arxiv.org/abs/2202.06401v1 )

ライセンス: Link先を確認
Yang Chen, Libo Zhang, Jiamou Liu and Shuyue Hu(参考訳) 近年の平均場ゲーム (MFG) の形式化により, 大規模マルチエージェントシステムにおける逆強化学習 (IRL) 手法の適用が可能となった。 MFGの既存のIRL法は、人口の集団行動と平均報酬に基づいて定義されたマルコフ決定過程(MDP)にMFGを還元することで構築される。 しかし, 本論文では, MFG から MDP への削減は, 完全に協調的な環境にのみ当てはまることを示した。 この制限は、非協調環境のMFG上の既存のIRLメソッドを無効にする。 大規模集団におけるより一般的な行動を測定するため,MFGに対する地道報酬関数を推定するための個人行動の利用について検討した。 我々は,協調環境と非協調環境の両方を扱える,MFGのための初の専用IRLフレームワークであるMean Field IRL(MFIRL)を提案する。 この理論的正当化の枠組みに基づき、未知のダイナミクスを持つmfgsに有効な実用的なアルゴリズムを開発した。 我々は,MFIRLを多くのエージェントによる協調的・複合的競争的シナリオで評価した。 その結果,MFIRLは動的変化に直面した場合の報酬回収,サンプル効率,堅牢性に優れていた。

The recent mean field game (MFG) formalism has enabled the application of inverse reinforcement learning (IRL) methods in large-scale multi-agent systems, with the goal of inferring reward signals that can explain demonstrated behaviours of large populations. The existing IRL methods for MFGs are built upon reducing an MFG to a Markov decision process (MDP) defined on the collective behaviours and average rewards of the population. However, this paper reveals that the reduction from MFG to MDP holds only for the fully cooperative setting. This limitation invalidates existing IRL methods on MFGs with non-cooperative environments. To measure more general behaviours in large populations, we study the use of individual behaviours to infer ground-truth reward functions for MFGs. We propose Mean Field IRL (MFIRL), the first dedicated IRL framework for MFGs that can handle both cooperative and non-cooperative environments. Based on this theoretically justified framework, we develop a practical algorithm effective for MFGs with unknown dynamics. We evaluate MFIRL on both cooperative and mixed cooperative-competit ive scenarios with many agents. Results demonstrate that MFIRL excels in reward recovery, sample efficiency and robustness in the face of changing dynamics.
翻訳日:2022-02-15 18:20:34 公開日:2022-02-13
# 管内多相流に適用した拡張領域に対するAIに基づく領域分割非侵入還元次数モデル

An AI-based Domain-Decomposition Non-Intrusive Reduced-Order Model for Extended Domains applied to Multiphase Flow in Pipes ( http://arxiv.org/abs/2202.06170v1 )

ライセンス: Link先を確認
Claire E. Heaney, Zef Wolffs, J\'on Atli T\'omasson, Lyes Kahouadji, Pablo Salinas, Andr\'e Nicolle, Omar K. Matar, Ionel M. Navon, Narakorn Srinil, Christopher C. Pain(参考訳) 管内の多相流のモデル化は、領域の高アスペクト比(直径長)のため、高分解能計算流体力学(cfd)モデルにとって大きな課題となっている。 海底の用途では、パイプの長さは数百キロメートルであり、パイプの直径はわずか数インチである。 本稿では,ドメイン分解フレームワーク(AI-DDNIROM)内のAIをベースとした非侵襲的低次モデルを提案する。 これは、ドメインの分解、次元の縮小、ニューラルネットワークをトレーニングして単一のサブドメインの予測を行い、イテレーション・バイ・サブドメインのテクニックを使ってソリューションをドメイン全体に収束させることによって達成される。 低次元空間を見つけるため、情報を正確にコンパクトに圧縮する能力で知られる数種類のオートエンコーダネットワークを探索する。 自動エンコーダの性能は,シリンダーを過ぎる流れと管内のスラグ流の2つの対流支配問題に基づいて評価される。 時間内に予測を行うには,特定の入力と出力のマッピングの学習に加えて,トレーニングデータの分布の学習を目的とした敵ネットワークを利用する。 このタイプのネットワークは、現実的な出力を生成する可能性を示している。 長さ10m、アスペクト比13:1の高忠実なcfdシミュレーションに基づいてai-ddniromを訓練した水平管内の多相スラグ流に適用し、約130:1のアスペクト比で長さ98mのパイプの流れをシミュレートしてテストする。 CFDシミュレーションから得られた流れの統計をAI-DDNIROM予測の結果と比較し,本手法の有効性を実証した。

The modelling of multiphase flow in a pipe presents a significant challenge for high-resolution computational fluid dynamics (CFD) models due to the high aspect ratio (length over diameter) of the domain. In subsea applications, the pipe length can be several hundreds of kilometres versus a pipe diameter of just a few inches. In this paper, we present a new AI-based non-intrusive reduced-order model within a domain decomposition framework (AI-DDNIROM) which is capable of making predictions for domains significantly larger than the domain used in training. This is achieved by using domain decomposition; dimensionality reduction; training a neural network to make predictions for a single subdomain; and by using an iteration-by-subdoma in technique to converge the solution over the whole domain. To find the low-dimensional space, we explore several types of autoencoder networks, known for their ability to compress information accurately and compactly. The performance of the autoencoders is assessed on two advection-dominated problems: flow past a cylinder and slug flow in a pipe. To make predictions in time, we exploit an adversarial network which aims to learn the distribution of the training data, in addition to learning the mapping between particular inputs and outputs. This type of network has shown the potential to produce realistic outputs. The whole framework is applied to multiphase slug flow in a horizontal pipe for which an AI-DDNIROM is trained on high-fidelity CFD simulations of a pipe of length 10 m with an aspect ratio of 13:1, and tested by simulating the flow for a pipe of length 98 m with an aspect ratio of almost 130:1. Statistics of the flows obtained from the CFD simulations are compared to those of the AI-DDNIROM predictions to demonstrate the success of our approach.
翻訳日:2022-02-15 18:13:47 公開日:2022-02-13
# 機械学習を用いた複雑ネットワークにおけるバイタルノード同定

Vital Node Identification in Complex Networks Using a Machine Learning-Based Approach ( http://arxiv.org/abs/2202.06229v1 )

ライセンス: Link先を確認
Ahmad Asgharian Rezaei, Justin Munoz, Mahdi Jalili, Hamid Khayyam(参考訳) バイタルノード識別は、複雑なネットワークにおいて最も重要なノードを見つける問題である。 この問題は、バイラルマーケティングや、現実世界のネットワークにおけるウイルスや噂の伝播の制御など、様々な文脈において重要な応用がある。 既存のバイタルノード同定のアプローチは主に、ノードの構造的特性とその活力を直接関連付ける数学的表現を通して、ノードの重要性を捉えることに焦点を当てている。 これらのヒューリスティックなアプローチは実際は優れたパフォーマンスを実現しているが、適応性は弱く、パフォーマンスは特定の設定や特定のダイナミクスに限定されている。 異なる種類のパターンや関係を効率的に捉えるための機械学習モデルの力に着想を得て,バイタルノード識別のための機械学習ベースのデータ駆動アプローチを提案する。 主な考え方は、グラフのごく一部、すなわち0.5%のノードでモデルをトレーニングし、残りのノードで予測を行うことである。 列車ノードから始まるSIR拡散法をシミュレートすることにより、列車データに対する地中信頼度を算出する。 ネットワークの各ノードは、接続性、程度、拡張されたコアネスの要素を組み込むことで表現される。 いくつかの機械学習モデルはノード表現に基づいて訓練されるが、最高の結果はRBFカーネルを備えたサポートベクトル回帰マシンによって達成される。 実験結果は,提案モデルがデータセットの選択において最先端モデルよりも優れており,動的パラメータの変化への適応性も高いことを示した。

Vital node identification is the problem of finding nodes of highest importance in complex networks. This problem has crucial applications in various contexts such as viral marketing or controlling the propagation of virus or rumours in real-world networks. Existing approaches for vital node identification mainly focus on capturing the importance of a node through a mathematical expression which directly relates structural properties of the node to its vitality. Although these heuristic approaches have achieved good performance in practice, they have weak adaptability, and their performance is limited to specific settings and certain dynamics. Inspired by the power of machine learning models for efficiently capturing different types of patterns and relations, we propose a machine learning-based, data driven approach for vital node identification. The main idea is to train the model with a small portion of the graph, say 0.5% of the nodes, and do the prediction on the rest of the nodes. The ground-truth vitality for the train data is computed by simulating the SIR diffusion method starting from the train nodes. We use collective feature engineering where each node in the network is represented by incorporating elements of its connectivity, degree and extended coreness. Several machine learning models are trained on the node representations, but the best results are achieved by a Support Vector Regression machine with RBF kernel. The empirical results confirms that the proposed model outperforms state-of-the-art models on a selection of datasets, while it also shows more adaptability to changes in the dynamics parameters.
翻訳日:2022-02-15 18:13:17 公開日:2022-02-13
# 畳み込みニューラルネットワークによる分散ネットワークの非対称埋め込み学習

Learning Asymmetric Embedding for Attributed Networks via Convolutional Neural Network ( http://arxiv.org/abs/2202.06307v1 )

ライセンス: Link先を確認
Mohammadreza Radmanesh, Hossein Ghorbanzadeh, Ahmad Asgharian Rezaei, Mahdi Jalili, Xinghuo Yu(参考訳) 近年,リンク予測やノード分類,ノードクラスタリングといったネットワーク計算作業の容易化というメリットから,ネットワーク組込みが注目されている。 ネットワーク埋め込みの目的は、構造、リレーショナル、セマンティック情報を含む元のネットワークから可能な限り多くの情報を保持しながら、低次元ベクトル空間におけるネットワークノードを表現することである。 しかし、有向ネットワークの非対称性は、埋め込みプロセスにおけるエッジ方向の最良の保存方法として多くの課題をもたらす。 本稿では,畳み込みグラフニューラルネットワークに基づく,aagcnと呼ばれる新しい深部非対称ネットワーク埋め込みモデルを提案する。 主なアイデアは、有向帰属ネットワークの非対称な近接性と非対称な類似性を最大に保存することである。 AAGCNは、2つの近傍特徴集約スキームを導入し、その近傍特徴と外部特徴を個別に集約する。 次に、各ノードに対する2つの埋め込みベクトル、1つのソース埋め込みベクトルと1つのターゲット埋め込みベクトルを学ぶ。 最後の表現は、ソースとターゲット埋め込みベクトルの連結の結果である。 ネットワーク再構成,リンク予測,ノード分類,可視化タスクのための実世界の3つのネットワーク上でのAAGCNの性能を検証した。 実験結果から, AAGCNの組込み技術に対する優位性を示した。

Recently network embedding has gained increasing attention due to its advantages in facilitating network computation tasks such as link prediction, node classification and node clustering. The objective of network embedding is to represent network nodes in a low-dimensional vector space while retaining as much information as possible from the original network including structural, relational, and semantic information. However, asymmetric nature of directed networks poses many challenges as how to best preserve edge directions in the embedding process. Here, we propose a novel deep asymmetric attributed network embedding model based on convolutional graph neural network, called AAGCN. The main idea is to maximally preserve the asymmetric proximity and asymmetric similarity of directed attributed networks. AAGCN introduces two neighbourhood feature aggregation schemes to separately aggregate the features of a node with the features of its in- and out- neighbours. Then, it learns two embedding vectors for each node, one source embedding vector and one target embedding vector. The final representations are the results of concatenating source and target embedding vectors. We test the performance of AAGCN on three real-world networks for network reconstruction, link prediction, node classification and visualization tasks. The experimental results show the superiority of AAGCN against state-of-the-art embedding methods.
翻訳日:2022-02-15 18:12:53 公開日:2022-02-13
# リバースバックプロパゲーションによる誘導体の完全活用

Reverse Back Propagation to Make Full Use of Derivative ( http://arxiv.org/abs/2202.06316v1 )

ライセンス: Link先を確認
Weiming Xiong, Ruoyu Yang(参考訳) バックプロパゲーションアルゴリズムの開発は、ニューラルネットワークにおけるランドマークを表している。 従来のバックプロパゲーションプロセスを逆転させ、ニューラルネットワークの入力端における入力損失を最適化し、推論時間中に余分なコストを伴わずに効果を改善するアプローチを提案する。 さらに,その原理,利点,欠点を解析し,本手法の重量初期化戦略を改訂した。 そして、MNIST、CIFAR10、CIFAR100の実験は、我々のアプローチがより幅広い学習率に適応し、バニラのバックプロパゲーションよりも優れた学習ができると確信した。

The development of the back-propagation algorithm represents a landmark in neural networks. We provide an approach that conducts the back-propagation again to reverse the traditional back-propagation process to optimize the input loss at the input end of a neural network for better effects without extra costs during the inference time. Then we further analyzed its principles and advantages and disadvantages, reformulated the weight initialization strategy for our method. And experiments on MNIST, CIFAR10, and CIFAR100 convinced our approaches could adapt to a larger range of learning rate and learn better than vanilla back-propagation.
翻訳日:2022-02-15 18:12:34 公開日:2022-02-13
# 長期データを用いた最適化と機械学習による手術スケジューリング

Surgical Scheduling via Optimization and Machine Learning with Long-Tailed Data ( http://arxiv.org/abs/2202.06383v1 )

ライセンス: Link先を確認
Yuan Shi, Saied Mahdian, Jose Blanchet, Peter Glynn, Andrew Y. Shin and David Scheinker(参考訳) 長期かつ多変量に長期滞在(LOS)を要した心血管外科手術患者のデータを用いて,リカバリ単位の混雑軽減モデルを構築した。 各種機械学習モデルを用いてLOSを推定し,各種オンライン最適化モデルを用いたスケジューリング手順,シミュレーションによる性能推定を行う。 機械学習モデルは、患者特性の豊富なセットへのアクセスにもかかわらず、控えめなLOS予測精度しか達成しなかった。 病院で使われている紙ベースのシステムと比較して、ほとんどの最適化モデルは、手術待ち時間を増やすことなく、混雑を減らすことができなかった。 LOS分布の長い尾を捉えるのに十分なサンプリングを施した保守的確率的最適化は、現在の手作業よりも優れていた。 これらの結果から, 患者滞在期間の過度に単純化された分布モデルを用いたスケジューリング手順と, 長期的治療に適した確率的最適化の重要性が示唆された。

Using data from cardiovascular surgery patients with long and highly variable post-surgical lengths of stay (LOS), we develop a model to reduce recovery unit congestion. We estimate LOS using a variety of machine learning models, schedule procedures with a variety of online optimization models, and estimate performance with simulation. The machine learning models achieved only modest LOS prediction accuracy, despite access to a very rich set of patient characteristics. Compared to the current paper-based system used in the hospital, most optimization models failed to reduce congestion without increasing wait times for surgery. A conservative stochastic optimization with sufficient sampling to capture the long tail of the LOS distribution outperformed the current manual process. These results highlight the perils of using oversimplified distributional models of patient length of stay for scheduling procedures and the importance of using stochastic optimization well-suited to dealing with long-tailed behavior.
翻訳日:2022-02-15 18:12:24 公開日:2022-02-13
# クロスモーダル干渉消去による野生の視覚音像定位

Visual Sound Localization in the Wild by Cross-Modal Interference Erasing ( http://arxiv.org/abs/2202.06406v1 )

ライセンス: Link先を確認
Xian Liu, Rui Qian, Hang Zhou, Di Hu, Weiyao Lin, Ziwei Liu, Bolei Zhou, Xiaowei Zhou(参考訳) 音声-視覚的音源定位の課題は、音声録音がクリーンな制約のある場面下でよく研究されている。 しかし、現実のシナリオでは、音声は通常オフスクリーンサウンドとバックグラウンドノイズによって汚染される。 彼らは望ましい情報源を特定し、視覚-聴覚接続を構築する手順を妨害し、以前の研究は適用不可能にする。 本研究では,野生における聴覚・視覚音源の定位問題に対処するintervention eraser(ier)フレームワークを提案する。 鍵となるアイデアは、識別的な音声表現を再定義し彫ることによる干渉を排除することである。 具体的には,単一音声表現のみを学習するという従来の実践は,音声信号の付加的性質のため不十分である。 これにより、異なるボリュームの音声信号が不均一に混合されたときの音響インスタンスを明確に区別できる。 次に, クロスモーダル蒸留を伴うクロスモーダル参照器モジュールにより, 可聴・オフスクリーン音と無声・可視物体の影響を消去する。 定量的および定性的な評価により,提案手法は特に実世界のシナリオにおいて,音像定位タスクにおいて優れた結果が得られることを示す。 コードはhttps://github.com/a lvinliu0/Visual-Soun d-Localization-in-th e-Wildで入手できる。

The task of audio-visual sound source localization has been well studied under constrained scenes, where the audio recordings are clean. However, in real-world scenarios, audios are usually contaminated by off-screen sound and background noise. They will interfere with the procedure of identifying desired sources and building visual-sound connections, making previous studies non-applicable. In this work, we propose the Interference Eraser (IEr) framework, which tackles the problem of audio-visual sound source localization in the wild. The key idea is to eliminate the interference by redefining and carving discriminative audio representations. Specifically, we observe that the previous practice of learning only a single audio representation is insufficient due to the additive nature of audio signals. We thus extend the audio representation with our Audio-Instance-Ident ifier module, which clearly distinguishes sounding instances when audio signals of different volumes are unevenly mixed. Then we erase the influence of the audible but off-screen sounds and the silent but visible objects by a Cross-modal Referrer module with cross-modality distillation. Quantitative and qualitative evaluations demonstrate that our proposed framework achieves superior results on sound localization tasks, especially under real-world scenarios. Code is available at https://github.com/a lvinliu0/Visual-Soun d-Localization-in-th e-Wild.
翻訳日:2022-02-15 18:06:57 公開日:2022-02-13
# X線透過イメージングにおける学習視点変形

Learning Perspective Deformation in X-Ray Transmission Imaging ( http://arxiv.org/abs/2202.06366v1 )

ライセンス: Link先を確認
Yixing Huang, Andreas Maier, Rainer Fietkau, Christoph Bert, Florian Putz(参考訳) コーンビームX線透過イメージングでは、X線のばらつきにより、異なる深さの像構造がX線検出器に異なる倍率係数を持ち、視線変形をもたらす。 視差変形は解剖学的構造の直接的かつ正確な幾何学的評価において困難を引き起こす。 本研究では,通常のコーンビーム計算トモグラフィ(CBCT)システムから得られたX線画像の視点変形を低減するため,視点投影を直交射影に変換する学習視点変形について検討する。 単一の視点投影画像を直交投影画像に変換することは、深度情報の欠如により極めて困難である。 そこで本研究では,追加の視点投影(180度)と直交(90度)の視点を利用して,ある程度の深度情報を提供する。 さらに,異なる空間領域における学習視点の変形について検討した。 提案手法は, 数値球面ファントムと患者の胸部および頭部x線データを用いて評価した。 数値ビードファントムデータを用いた実験により、極座標における学習視点の変形は、根平均二乗誤差(RMSE)が5.31から1.40に減少する一方、対数極座標での学習はそれ以上に改善されない(RMSE = 1.85)。 また、補完ビュー(RMSE = 1.40)は直交ビュー(RMSE = 3.87)よりも優れている。 胸部X線像と頭部データを用いた実験では, 両相補ビューを用いた学習視点の変形が解剖学的X線データにも適用でき, 胸部X線像における正確な心胸部比測定や, コーンビームX線投影による合成脳波の頭蓋計測が可能となった。

In cone-beam X-ray transmission imaging, due to the divergence of X-rays, imaged structures with different depths have different magnification factors on an X-ray detector, which results in perspective deformation. Perspective deformation causes difficulty in direct, accurate geometric assessments of anatomical structures. In this work, to reduce perspective deformation in X-ray images acquired from regular cone-beam computed tomography (CBCT) systems, we investigate on learning perspective deformation, i.e., converting perspective projections into orthogonal projections. Directly converting a single perspective projection image into an orthogonal projection image is extremely challenging due to the lack of depth information. Therefore, we propose to utilize one additional perspective projection, a complementary (180-degree) or orthogonal (90-degree) view, to provide a certain degree of depth information. Furthermore, learning perspective deformation in different spatial domains is investigated. Our proposed method is evaluated on numerical spherical bead phantoms as well as patients' chest and head X-ray data. The experiments on numerical bead phantom data demonstrate that learning perspective deformation in polar coordinates has significant advantages over learning in Cartesian coordinates, as root-mean-square error (RMSE) decreases from 5.31 to 1.40, while learning in log-polar coordinates has no further considerable improvement (RMSE = 1.85). In addition, using a complementary view (RMSE = 1.40) is better than an orthogonal view (RMSE = 3.87). The experiments on patients' chest and head data demonstrate that learning perspective deformation using dual complementary views is also applicable in anatomical X-ray data, allowing accurate cardiothoracic ratio measurements in chest X-ray images and cephalometric analysis in synthetic cephalograms from cone-beam X-ray projections.
翻訳日:2022-02-15 17:48:11 公開日:2022-02-13
# 新型コロナウイルスの深層学習技術とOmicron検出への利用性に関する調査

A Survey of Deep Learning Techniques for the Analysis of COVID-19 and their usability for Detecting Omicron ( http://arxiv.org/abs/2202.06372v1 )

ライセンス: Link先を確認
Asifullah Khan, Saddam Hussain Khan, Mahrukh Saif, Asiya Batool, Anabia Sohail and Muhammad Waleed Khan(参考訳) 2019年12月のコロナウイルス(COVID-19)の流行は、世界中の人間の脅威となり、何百万人もの人が感染し、世界経済が壊滅する健康危機を引き起こしている。 深層学習 (DL) 技術は, 放射線画像における感染領域の解析とデライン化に適している。 本稿では,DL手法の詳細な調査を行い,診断戦略と学習アプローチに基づく分類法について述べる。 DL技術は、画像および地域レベルでの診断のための分類、セグメンテーション、多段階アプローチに体系的に分類される。 各カテゴリには、X線、CT(Computer Tomography)などの放射線画像モダリティにおける新型コロナウイルス感染症を検出するための、事前訓練およびカスタムメイドの畳み込みニューラルネットワークアーキテクチャが含まれる。 さらに,パンデミックの診断技術開発,クロスプラットフォームの相互運用,画像モダリティの検証,およびこれらの技術で使用される方法論やパフォーマンス対策の見直しについて検討する。 本調査は、放射線画像解析のためのdl研究の有望領域に関する洞察を提供し、新型コロナウイルスの新しい変異体や新たな課題を効果的に扱うために、カスタマイズされたdlベースの診断ツールの設計に関する研究をさらに加速する可能性がある。

The Coronavirus (COVID-19) outbreak in December 2019 has become an ongoing threat to humans worldwide, creating a health crisis that infected millions of lives, as well as devastating the global economy. Deep learning (DL) techniques have proved helpful in analysis and delineation of infectious regions in radiological images in a timely manner. This paper makes an in-depth survey of DL techniques and draws a taxonomy based on diagnostic strategies and learning approaches. DL techniques are systematically categorized into classification, segmentation, and multi-stage approaches for COVID-19 diagnosis at image and region level analysis. Each category includes pre-trained and custom-made Convolutional Neural Network architectures for detecting COVID-19 infection in radiographic imaging modalities; X-Ray, and Computer Tomography (CT). Furthermore, a discussion is made on challenges in developing diagnostic techniques in pandemic, cross-platform interoperability, and examining imaging modality, in addition to reviewing methodologies and performance measures used in these techniques. This survey provides an insight into promising areas of research in DL for analyzing radiographic images and thus, may further accelerate the research in designing of customized DL based diagnostic tools for effectively dealing with new variants of COVID-19 and emerging challenges.
翻訳日:2022-02-15 17:47:37 公開日:2022-02-13
# ゼロサムニューロシンボリック同時確率ゲームのための戦略合成

Strategy Synthesis for Zero-sum Neuro-symbolic Concurrent Stochastic Games ( http://arxiv.org/abs/2202.06255v1 )

ライセンス: Link先を確認
Rui Yan, Gabriel Santos, Gethin Norman, David Parker and Marta Kwiatkowska(参考訳) ニューラルネットワークと古典的な記号技法を組み合わせた人工知能へのニューロシンボリックアプローチは、その正しさを判断するために正式なアプローチを必要とする。 本稿では,ニューラル・シンボリック・コンカレント・確率ゲーム (NS-CSGs) と呼ばれる,ニューラル・シンボリック・コンカレント・確率論的ゲーム (NS-CSGs) と呼ばれる,ニューラル・ネットワークとして実装された知覚機構を通して,共有状態環境において相互作用する確率的有限状態エージェントからなる新しいモデリング形式モデルを提案する。 環境状態空間は連続であるため、ボレル状態空間を持つNS-CSGのクラスとモデルのコンポーネントに対するボレル可測性制限に焦点を当てる。 我々は, ns-csgs が決定され, したがって一意の不動点に対応する値を持つことを証明するため, ゼロサム割引累積報酬の問題を考える。 アルゴリズムの観点から、CSGの計算値と最適戦略を計算するための既存の手法は有限状態空間にフォーカスする。 我々は、初めて値反復とポリシー反復アルゴリズムを提示し、非可算な状態空間CSGのクラスを解き、それらの収束性を証明する。 提案手法は, NS-CSG の値関数と戦略の断片的線形あるいは定数表現を定式化する。 提案手法を,動的車両駐車事例に適用したプロトタイプ実装を用いて検証する。

Neuro-symbolic approaches to artificial intelligence, which combine neural networks with classical symbolic techniques, are growing in prominence, necessitating formal approaches to reason about their correctness. We propose a novel modelling formalism called neuro-symbolic concurrent stochastic games (NS-CSGs), which comprise a set of probabilistic finite-state agents interacting in a shared continuous-state environment, observed through perception mechanisms implemented as neural networks. Since the environment state space is continuous, we focus on the class of NS-CSGs with Borel state spaces and Borel measurability restrictions on the components of the model. We consider the problem of zero-sum discounted cumulative reward, proving that NS-CSGs are determined and therefore have a value which corresponds to a unique fixed point. From an algorithmic perspective, existing methods to compute values and optimal strategies for CSGs focus on finite state spaces. We present, for the first time, value iteration and policy iteration algorithms to solve a class of uncountable state space CSGs, and prove their convergence. Our approach works by formulating piecewise linear or constant representations of the value functions and strategies of NS-CSGs. We validate the approach with a prototype implementation applied to a dynamic vehicle parking example.
翻訳日:2022-02-15 17:44:52 公開日:2022-02-13
# shyとwarded datalog+/-の関係について

On the Relationship between Shy and Warded Datalog+/- ( http://arxiv.org/abs/2202.06285v1 )

ライセンス: Link先を確認
Teodoro Baldazzi, Luigi Bellomarini, Marco Favorito, Emanuel Sallinger(参考訳) datalog^eは存在量化を伴うdatalogの拡張である。 単純な構文と完全な再帰のサポートを基盤とする表現力の高さは、知識グラフの現代的なアプリケーションに特に適しているが、そのような言語に対するクエリ応答(qa)は一般に決定不能であることが知られている。 そのため、表現力とqaの計算複雑性のバランスをとるdatalog^eに構文上の制限を導入し、決定可能性を達成するために異なるフラグメントが出現した。 本稿では、ShyとWarded Datalog+/-の2つの有望な抽出可能な候補に焦点を当てる。 コミュニティからの明確な関心に反応して、これらの断片間の関係に光を当てた。 さらに,ShyとWardedを実装したシステムについて,DLV^EとVadalogを用いて実験を行った。

Datalog^E is the extension of Datalog with existential quantification. While its high expressive power, underpinned by a simple syntax and the support for full recursion, renders it particularly suitable for modern applications on knowledge graphs, query answering (QA) over such language is known to be undecidable in general. For this reason, different fragments have emerged, introducing syntactic limitations to Datalog^E that strike a balance between its expressive power and the computational complexity of QA, to achieve decidability. In this short paper, we focus on two promising tractable candidates, namely Shy and Warded Datalog+/-. Reacting to an explicit interest from the community, we shed light on the relationship between these fragments. Moreover, we carry out an experimental analysis of the systems implementing Shy and Warded, respectively DLV^E and Vadalog.
翻訳日:2022-02-15 17:44:26 公開日:2022-02-13
# et-bert: 暗号化トラフィック分類のための事前トレーニングトランスフォーマーによるコンテキスト化データグラム表現

ET-BERT: A Contextualized Datagram Representation with Pre-training Transformers for Encrypted Traffic Classification ( http://arxiv.org/abs/2202.06335v1 )

ライセンス: Link先を確認
Xinjie Lin, Gang Xiong, Gaopeng Gou, Zhen Li, Junzheng Shi, Jing Yu(参考訳) 暗号化されたトラフィック分類には、正確な分類のために、コンテンツ非可視かつ不均衡なトラフィックデータから取得した差別的で堅牢なトラフィック表現が必要である。 既存のソリューションの最大の制限は、データサイズに過度に依存し、見えないデータの一般化が難しい、深い機能に大きく依存していることです。 オープンドメインのラベルのないトラフィックデータを、強力な一般化能力で表現を学習する方法は、依然として重要な課題である。 本稿では,大規模非ラベルデータからの深いコンテキスト化データグラムレベル表現を事前学習するtransformer (et-bert) から,暗号化トラフィック双方向エンコーダ表現と呼ばれる新しいトラフィック表現モデルを提案する。 ISCX-Tor の F1 を 99.2% (4.4% の絶対改善), ISCX-VPN-Service を 98.9% (5.2% の絶対改善), クロスプラットフォーム (Android) を 92.5% (5.4% の絶対改善), CSTNET-TLS 1.3 から 97.4% (10.0% の絶対改善) に押し上げた。 特に,暗号のランダム性を分析し,経験的に強力な事前学習モデルの解説を行う。 暗号化されたトラフィックに対する分類能力の境界を理解するための洞察を与えてくれる。 コードはhttps://github.com/l inwhitehat/et-bert。

Encrypted traffic classification requires discriminative and robust traffic representation captured from content-invisible and imbalanced traffic data for accurate classification, which is challenging but indispensable to achieve network security and network management. The major limitation of existing solutions is that they highly rely on the deep features, which are overly dependent on data size and hard to generalize on unseen data. How to leverage the open-domain unlabeled traffic data to learn representation with strong generalization ability remains a key challenge. In this paper,we propose a new traffic representation model called Encrypted Traffic Bidirectional Encoder Representations from Transformer (ET-BERT), which pre-trains deep contextualized datagram-level representation from large-scale unlabeled data. The pre-trained model can be fine-tuned on a small number of task-specific labeled data and achieves state-of-the-art performance across five encrypted traffic classification tasks, remarkably pushing the F1 of ISCX-Tor to 99.2% (4.4% absolute improvement), ISCX-VPN-Service to 98.9% (5.2% absolute improvement), Cross-Platform (Android) to 92.5% (5.4% absolute improvement), CSTNET-TLS 1.3 to 97.4% (10.0% absolute improvement). Notably, we provide explanation of the empirically powerful pre-training model by analyzing the randomness of ciphers. It gives us insights in understanding the boundary of classification ability over encrypted traffic. The code is available at: https://github.com/l inwhitehat/ET-BERT.
翻訳日:2022-02-15 17:44:13 公開日:2022-02-13
# 有権者の連合が大規模な選挙にどんな影響を及ぼすか?

How Likely A Coalition of Voters Can Influence A Large Election? ( http://arxiv.org/abs/2202.06411v1 )

ライセンス: Link先を確認
Lirong Xia(参考訳) 何世紀もの間、有権者の小さな連立政権の影響は大きな選挙で無視できると広く信じられてきた。 その結果、選挙が影響力を持つ漸近的可能性、特に単一の投票者の操作によって、社会的選択において非偏文化(ic)として知られるi.i.d.~の一様分布の下でよく研究される多くの投票規則において、上限が1ドル(\frac{1}{\sqrt n})、下限が1ドル(\frac{1}{n^{67}})、下限が1ドル($\omega(\frac{1}{n^{67}})であることを示す多くの文献が存在する。 本稿では,(1) 平滑化分析におけるモデルに類似した,より汎用的で現実的な半ランダムモデルを考える,(2) 連立操作, 勝利率, 様々な投票制御と贈収賄を含む連立的影響問題を考える, (3) 任意および可変連立サイズ$b$ を考える, という3つの側面から先行研究を展開する。 我々の主定理は、幅広い投票規則の下で選挙に成功する大きさのB$連立政権の存在の半ランダムな可能性に関する漸近的に厳密な境界を提供する。 主定理の応用とその証明技法は、ICの下での連立操作可能性に関する長年のオープンな疑問を解決し、多くのよく研究されている投票規則に対して、その可能性は$\Theta\left(\min\le ft\{\frac{B}{\sqrt n}, 1\right\right)$であることを示す。 主な技術的貢献は、ポアソン多項変数(PMV)が不安定となる半ランダムな確率を特徴づけることである。

For centuries, it has been widely believed that the influence of a small coalition of voters is negligible in a large election. Consequently, there is a large body of literature on characterizing the asymptotic likelihood for an election to be influence, especially by the manipulation of a single voter, establishing an $O(\frac{1}{\sqrt n})$ upper bound and an $\Omega(\frac{1}{n^{67}})$ lower bound for many commonly studied voting rules under the i.i.d.~uniform distribution, known as Impartial Culture (IC) in social choice, where $n$ is the number is voters. In this paper, we extend previous studies in three aspects: (1) we consider a more general and realistic semi-random model that resembles the model in smoothed analysis, (2) we consider many coalitional influence problems, including coalitional manipulation, margin of victory, and various vote controls and bribery, and (3) we consider arbitrary and variable coalition size $B$. Our main theorem provides asymptotically tight bounds on the semi-random likelihood of the existence of a size-$B$ coalition that can successfully influence the election under a wide range of voting rules. Applications of the main theorem and its proof techniques resolve long-standing open questions about the likelihood of coalitional manipulability under IC, by showing that the likelihood is $\Theta\left(\min\le ft\{\frac{B}{\sqrt n}, 1\right\}\right)$ for many commonly studied voting rules. The main technical contribution is a characterization of the semi-random likelihood for a Poisson multinomial variable (PMV) to be unstable, which we believe to be a general and useful technique with independent interest.
翻訳日:2022-02-15 17:43:36 公開日:2022-02-13
# サンプリングのための近位アルゴリズムの改良解析

Improved analysis for a proximal algorithm for sampling ( http://arxiv.org/abs/2202.06386v1 )

ライセンス: Link先を確認
Yongxin Chen, Sinho Chewi, Adil Salim, Andre Wibisono(参考訳) 我々はLee, Shen, and Tian (2021) の近位標本について研究し、強い対数共振器よりも弱い仮定の下で新たな収束保証を得る: すなわち、(1)弱い対数共振器のターゲット、(2)非対数共振器の仮定を満たすターゲット。 本稿では,対象分布の複数のクラスに対する新たなサンプリング保証を得ることにより,実験結果を示す。 また,近位標本をエントロピー正規化ワッサースタイン近位法,近位点法を消失雑音のある近位標本の限界として解釈することにより,近位標本と近位標本法との接続を強化した。

We study the proximal sampler of Lee, Shen, and Tian (2021) and obtain new convergence guarantees under weaker assumptions than strong log-concavity: namely, our results hold for (1) weakly log-concave targets, and (2) targets satisfying isoperimetric assumptions which allow for non-log-concavity. We demonstrate our results by obtaining new state-of-the-art sampling guarantees for several classes of target distributions. We also strengthen the connection between the proximal sampler and the proximal method in optimization by interpreting the proximal sampler as an entropically regularized Wasserstein proximal method, and the proximal point method as the limit of the proximal sampler with vanishing noise.
翻訳日:2022-02-15 17:42:42 公開日:2022-02-13
# RandomSEMO:ビデオ異常検出のための移動物体の正規性学習

RandomSEMO: Normality Learning Of Moving Objects For Video Anomaly Detection ( http://arxiv.org/abs/2202.06256v1 )

ライセンス: Link先を確認
Chaewon Park, Minhyeok Lee, MyeongAh Cho and Sangyoun Lee(参考訳) 最近の異常検出アルゴリズムはフレーム予測オートエンコーダを採用することで強力な性能を示している。 しかし、これらの手法は2つの困難な状況に直面している。 まず、過度に強力であるように訓練され、異常なフレームも発生し、異常を検出するのに失敗する可能性がある。 第二に、前景と背景の両方で捕獲された大量の物体に邪魔される。 これらの問題を解決するために,シンプルな軽量オートエンコーダ上に構築された移動物体(RandomSEMO)と移動物体損失(MOLoss)のランダム超画素消去法を提案する。 randomsemoは、スーパーピクセルをランダムに消去することで、移動対象領域に適用される。 ネットワークは、単に将来のフレームを予測するのではなく、フォアグラウンドオブジェクトに注意を払い、通常の特徴をより効果的に学習するよう強制する。 さらにMOLossは、移動するオブジェクトの近くのピクセルの損失を増幅することにより、ランダムSEMO内でキャプチャされた通常のオブジェクトの学習に集中するようモデルに促す。 実験結果から,本モデルは3つのベンチマークにおいて最先端のモデルよりも優れていた。

Recent anomaly detection algorithms have shown powerful performance by adopting frame predicting autoencoders. However, these methods face two challenging circumstances. First, they are likely to be trained to be excessively powerful, generating even abnormal frames well, which leads to failure in detecting anomalies. Second, they are distracted by the large number of objects captured in both foreground and background. To solve these problems, we propose a novel superpixel-based video data transformation technique named Random Superpixel Erasing on Moving Objects (RandomSEMO) and Moving Object Loss (MOLoss), built on top of a simple lightweight autoencoder. RandomSEMO is applied to the moving object regions by randomly erasing their superpixels. It enforces the network to pay attention to the foreground objects and learn the normal features more effectively, rather than simply predicting the future frame. Moreover, MOLoss urges the model to focus on learning normal objects captured within RandomSEMO by amplifying the loss on the pixels near the moving objects. The experimental results show that our model outperforms state-of-the-arts on three benchmarks.
翻訳日:2022-02-15 17:25:55 公開日:2022-02-13
# LighTN:ポイントクラウドダウンサンプリングにおけるパフォーマンスオーバーヘッドトレードオフのための軽量トランスフォーマーネットワーク

LighTN: Light-weight Transformer Network for Performance-overhead Tradeoff in Point Cloud Downsampling ( http://arxiv.org/abs/2202.06263v1 )

ライセンス: Link先を確認
Xu Wang, Yi Jin, Yigang Cen, Tao Wang, Bowen Tang, Yidong Li(参考訳) 従来のタスク無関係なダウンサンプリング手法と比較すると、タスク指向ニューラルネットワークはポイントクラウドダウンサンプリング範囲のパフォーマンスが向上している。 近年、Transformerのネットワークは視覚タスクにおいてより強力な学習能力を示している。 しかし、トランスフォーマーベースのアーキテクチャは、ダウンサンプリング範囲の低オーバーヘッドタスクネットワークにとって価値のないリソースを多すぎる可能性がある。 本稿では,タスク指向のクラウドダウンサンプリングのための軽量トランスフォーマーネットワーク(LighTN)をエンドツーエンド・プラグイン・アンド・プレイソリューションとして提案する。 LighTNでは、単一ヘッド自己相関モジュールを提示し、洗練された大域的文脈特徴を抽出し、3つの射影行列を同時に除去してリソースオーバーヘッドを節約し、対称行列の出力は置換不変量を満たす。 次に,新たなダウンサンプリング損失関数を設計し,lightnがより均一な分布と注目点カバレッジを持つクリティカルポイントクラウド領域に焦点をあてるガイドを行う。 さらに,拡張還元戦略に従って学習能力を高めるために,フィードフォワードネットワークのスケーリング機構を導入する。 分類と登録タスクに関する広範な実験の結果、LighTNは限られたリソースオーバーヘッドで最先端のパフォーマンスを達成できることを示した。

Compared with traditional task-irrelevant downsampling methods, task-oriented neural networks have shown improved performance in point cloud downsampling range. Recently, Transformer family of networks has shown a more powerful learning capacity in visual tasks. However, Transformer-based architectures potentially consume too many resources which are usually worthless for low overhead task networks in downsampling range. This paper proposes a novel light-weight Transformer network (LighTN) for task-oriented point cloud downsampling, as an end-to-end and plug-and-play solution. In LighTN, a single-head self-correlation module is presented to extract refined global contextual features, where three projection matrices are simultaneously eliminated to save resource overhead, and the output of symmetric matrix satisfies the permutation invariant. Then, we design a novel downsampling loss function to guide LighTN focuses on critical point cloud regions with more uniform distribution and prominent points coverage. Furthermore, We introduce a feed-forward network scaling mechanism to enhance the learnable capacity of LighTN according to the expand-reduce strategy. The result of extensive experiments on classification and registration tasks demonstrates LighTN can achieve state-of-the-art performance with limited resource overhead.
翻訳日:2022-02-15 17:25:36 公開日:2022-02-13
# 欠落領域の複雑さを強調した深部画像インパインティングの改善

Improve Deep Image Inpainting by Emphasizing the Complexity of Missing Regions ( http://arxiv.org/abs/2202.06266v1 )

ライセンス: Link先を確認
Yufeng Wang, Dan Li, Cong Xu and Min Yang(参考訳) 深部画像インパインティング研究は主に、様々なニューラルネットワークアーキテクチャを構築したり、新しい最適化目標を設定することに焦点を当てている。 しかしながら、最先端の深層塗装モデルの構築は極めて複雑な作業であり、その一方で、結果として得られるパフォーマンス向上は、非常に限定的な場合もある。 私たちは、塗装モデルのフレームワーク以外に、しばしば見過ごされる軽量な伝統的な画像処理技術が、これらの深層モデルに実際に役立つと信じています。 本稿では,古典的画像複雑度指標を用いて,奥行き画像のインペインティングモデルを強化する。 学習手順におけるバッチ選択を導くために、不足複雑性と前方損失からなる知識支援指標を示す。 このインデックスは、各イテレーションでより最適化しやすいサンプルを見つけ、最終的に全体的なペイントパフォーマンスを高めるのに役立つ。 提案されたアプローチは単純で、数行のコードだけを変更して、多くの深い塗装モデルにプラグインすることができる。 我々は,最近開発された各種データセット上の画像インペインティングモデルの改良を実験的に実証する。

Deep image inpainting research mainly focuses on constructing various neural network architectures or imposing novel optimization objectives. However, on the one hand, building a state-of-the-art deep inpainting model is an extremely complex task, and on the other hand, the resulting performance gains are sometimes very limited. We believe that besides the frameworks of inpainting models, lightweight traditional image processing techniques, which are often overlooked, can actually be helpful to these deep models. In this paper, we enhance the deep image inpainting models with the help of classical image complexity metrics. A knowledge-assisted index composed of missingness complexity and forward loss is presented to guide the batch selection in the training procedure. This index helps find samples that are more conducive to optimization in each iteration and ultimately boost the overall inpainting performance. The proposed approach is simple and can be plugged into many deep inpainting models by changing only a few lines of code. We experimentally demonstrate the improvements for several recently developed image inpainting models on various datasets.
翻訳日:2022-02-15 17:25:13 公開日:2022-02-13
# bvit: 幅広い注意に基づく視覚トランスフォーマー

BViT: Broad Attention based Vision Transformer ( http://arxiv.org/abs/2202.06268v1 )

ライセンス: Link先を確認
Nannan Li, Yaran Chen, Weifan Li, Zixiang Ding, Dongbin Zhao(参考訳) 近年の研究では、画像パッチと自己注意の関係を利用して、トランスフォーマーがコンピュータビジョンにおいて有望な性能を達成できることが示されている。 注意は単一の機能層でのみ考慮するが、異なるレベルの注意の相補性は無視する。 本稿では,BViTと呼ばれる視覚変換器の異なるレイヤの注意関係を組み込むことにより,性能向上のための幅広い注意点を提案する。 幅広い注意は、幅広い接続とパラメータフリーな注意によって実装される。 各トランス層の広帯域接続は、BViTの情報伝達と統合を促進する。 追加のトレーニング可能なパラメータを導入することなく、パラメータフリーアテンションは、有用な情報を抽出し、それらの関係を構築するために、さまざまなレイヤで既に利用可能なアテンション情報に共同でフォーカスする。 画像分類タスクの実験では、BViTは5M/22Mパラメータを持つImageNet上で74.8\%/81.6\%のトップ-1精度を提供する。 さらに、BViTを下流オブジェクト認識ベンチマークに転送し、より少ないパラメータでViTを超えるCIFAR10とCIFAR100で98.9\%と89.9\%を達成する。 一般化試験では、Swin Transformer と T2T-ViT の注目度も 1 % 以上向上した。 まとめると、広く注目されるのは、注意に基づくモデルのパフォーマンスを促進することだ。 コードと事前訓練されたモデルはhttps://github.com/D RL-CASIA/Broad_ViT.c omで入手できる。

Recent works have demonstrated that transformer can achieve promising performance in computer vision, by exploiting the relationship among image patches with self-attention. While they only consider the attention in a single feature layer, but ignore the complementarity of attention in different levels. In this paper, we propose the broad attention to improve the performance by incorporating the attention relationship of different layers for vision transformer, which is called BViT. The broad attention is implemented by broad connection and parameter-free attention. Broad connection of each transformer layer promotes the transmission and integration of information for BViT. Without introducing additional trainable parameters, parameter-free attention jointly focuses on the already available attention information in different layers for extracting useful information and building their relationship. Experiments on image classification tasks demonstrate that BViT delivers state-of-the-art accuracy of 74.8\%/81.6\% top-1 accuracy on ImageNet with 5M/22M parameters. Moreover, we transfer BViT to downstream object recognition benchmarks to achieve 98.9\% and 89.9\% on CIFAR10 and CIFAR100 respectively that exceed ViT with fewer parameters. For the generalization test, the broad attention in Swin Transformer and T2T-ViT also bring an improvement of more than 1\%. To sum up, broad attention is promising to promote the performance of attention based models. Code and pre-trained models are available at https://github.com/D RL-CASIA/Broad_ViT.
翻訳日:2022-02-15 17:24:57 公開日:2022-02-13
# 深度マップを用いた自然画像ストレッチ

Natural Image Stitching Using Depth Maps ( http://arxiv.org/abs/2202.06276v1 )

ライセンス: Link先を確認
Tianli Liao and Nan Li(参考訳) natural image stitching (nis) は、異なる視点から同じ3dシーンを撮影する2つの重ね合わせ画像から、自然に見えるモザイクを作成することを目的としている。 このような場合、パララックスが無視できないため、シーンが平面ではなくカメラベースラインが広い場合に必然的にチャレンジが発生する。 本論文では,重なり合う領域と非重なり合う領域のパララックスに対して自然に見えるモザイクを生成するディープマップを用いた新しいNIS手法を提案する。 まず,特徴マッチングとその深さ値に基づいて画素間変換を推定する。 次に,対象画像の三角測量を行い,頂点の位置と補正深度値に基づいて,複数の局所的ホモグラフィー(三角形毎の1つ)を推定する。 最後に、ワープ画像は、ピースワイズホモグラフィーの後方マッピングによって合成される。 実験の結果,提案手法は重なり領域の正確なアライメントを提供するだけでなく,非重なり領域の仮想自然性をもたらすことがわかった。

Natural image stitching (NIS) aims to create one natural-looking mosaic from two overlapping images that capture a same 3D scene from different viewing positions. Challenges inevitably arise when the scene is non-planar and the camera baseline is wide, since parallax becomes not negligible in such cases. In this paper, we propose a novel NIS method using depth maps, which generates natural-looking mosaics against parallax in both overlapping and non-overlapping regions. Firstly, we estimate a pixel-to-pixel transformation based on feature matches and their depth values. Then, we draw a triangulation of the target image and estimate multiple local homographies, one per triangle, based on the locations of their vertices and the rectified depth values. Finally, the warping image is composited by the backward mapping of piece-wise homographies. Experimental results demonstrate that the proposed method not only provides accurate alignment in the overlapping regions, but also virtual naturalness in the non-overlapping region.
翻訳日:2022-02-15 17:24:35 公開日:2022-02-13
# バックドア防御のための敵の微調整:敵のサンプルとトリガーサンプルを接続する

Adversarial Fine-tuning for Backdoor Defense: Connect Adversarial Examples to Triggered Samples ( http://arxiv.org/abs/2202.06312v1 )

ライセンス: Link先を確認
Bingxu Mu and Le Wang and Zhenxing Niu(参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃(つまりトレーニング時に植えられたバックドアトリガー)に対して脆弱であることが知られており、感染したDNNモデルは、トリガーに埋め込まれたテストサンプルをターゲットラベルとして誤分類する。 バックドア攻撃のステルス性のため、感染したモデルからバックドアを検知または消去することは困難である。 本稿では,感染モデルの逆例を利用してバックドアトリガーを消去する新しいadversarial fine-tuning (aft) 手法を提案する。 感染モデルでは, 敵のサンプルはトリガー標本と同様の挙動を示す。 このような観測に基づいて、バックドアアタックの基礎(トリガーとターゲットラベルの強い相関関係)を破るためにAFTを設計する。 AFTは、最先端の5つのバックドア攻撃に対して、クリーンサンプルの性能劣化を明白にすることなく、バックドアトリガーを効果的に消去できることを実証的に示す。

Deep neural networks (DNNs) are known to be vulnerable to backdoor attacks, i.e., a backdoor trigger planted at training time, the infected DNN model would misclassify any testing sample embedded with the trigger as target label. Due to the stealthiness of backdoor attacks, it is hard either to detect or erase the backdoor from infected models. In this paper, we propose a new Adversarial Fine-Tuning (AFT) approach to erase backdoor triggers by leveraging adversarial examples of the infected model. For an infected model, we observe that its adversarial examples have similar behaviors as its triggered samples. Based on such observation, we design the AFT to break the foundation of the backdoor attack (i.e., the strong correlation between a trigger and a target label). We empirically show that, against 5 state-of-the-art backdoor attacks, AFT can effectively erase the backdoor triggers without obvious performance degradation on clean samples, which significantly outperforms existing defense methods.
翻訳日:2022-02-15 17:24:18 公開日:2022-02-13
# 軽量セルフアテンションモデルによる階層的ポイントクラウド符号化と復号

Hierarchical Point Cloud Encoding and Decoding with Lightweight Self-Attention based Model ( http://arxiv.org/abs/2202.06407v1 )

ライセンス: Link先を確認
En Yen Puang, Hao Zhang, Hongyuan Zhu, Wei Jing(参考訳) 本稿では,ポイントクラウドデータの表現学習のための,階層的かつ軽量な自己アテンションに基づく符号化と復号化アーキテクチャであるSA-CNNを提案する。 提案するSA-CNNは,無秩序な3次元点間のコンテキスト情報を捕捉・生成するための畳み込みと転置畳み込みスタックを導入している。 従来の階層的パイプラインに従って、エンコーディングプロセスは局所的からグローバル的な方法で特徴を抽出し、デコーディングプロセスは粗く細分化されたマルチレゾリューションの段階において特徴と点クラウドを生成する。 SA-CNNは, 分類, 部分分割, 再構成, 形状検索, 教師なし分類など, 幅広い応用が可能であることを実証する。 ベンチマークで最先端または同等のパフォーマンスを達成する一方で、SA-CNNはそのモデルの複雑さを他のものよりも数桁低く保っている。 定性的な結果の観点では,多段点雲の再構築や剛性物体の潜在歩行,変形可能な非剛性人間・ロボットモデルなどを可視化する。

In this paper we present SA-CNN, a hierarchical and lightweight self-attention based encoding and decoding architecture for representation learning of point cloud data. The proposed SA-CNN introduces convolution and transposed convolution stacks to capture and generate contextual information among unordered 3D points. Following conventional hierarchical pipeline, the encoding process extracts feature in local-to-global manner, while the decoding process generates feature and point cloud in coarse-to-fine, multi-resolution stages. We demonstrate that SA-CNN is capable of a wide range of applications, namely classification, part segmentation, reconstruction, shape retrieval, and unsupervised classification. While achieving the state-of-the-art or comparable performance in the benchmarks, SA-CNN maintains its model complexity several order of magnitude lower than the others. In term of qualitative results, we visualize the multi-stage point cloud reconstructions and latent walks on rigid objects as well as deformable non-rigid human and robot models.
翻訳日:2022-02-15 17:23:58 公開日:2022-02-13
# 調音コーディネーション特徴と階層的注意に基づくテキスト埋め込みを用いたマルチモーダル抑うつ分類

Multimodal Depression Classification Using Articulatory Coordination Features And Hierarchical Attention Based Text Embeddings ( http://arxiv.org/abs/2202.06238v1 )

ライセンス: Link先を確認
Nadee Seneviratne, Carol Espy-Wilson(参考訳) マルチモーダルうつ病の分類は近年、大きな人気を集めている。 声道変数から抽出した調音コーディネート特徴を用いたマルチモーダル抑うつ分類システムと、音声とテキストのそれぞれ7.5%と13.7%)に比べて受信者の動作特性曲線下の領域を改善する自動音声認識ツールから得られたテキスト転写を用いたマルチモーダル抑うつ分類システムを開発した。 制限されたトレーニングデータの場合、セグメントレベルの分類器をトレーニングし、マルチステージ畳み込み型畳み込み型リカレントニューラルネットワークを用いて、パフォーマンスを損なうことなくセッション毎の予測を行うことができる。 テキストモデルは階層的注意ネットワーク(HAN)を用いて訓練される。 セッションレベルの音声モデルとHANテキストモデルからの埋め込みを組み合わせたマルチモーダルシステムの開発

Multimodal depression classification has gained immense popularity over the recent years. We develop a multimodal depression classification system using articulatory coordination features extracted from vocal tract variables and text transcriptions obtained from an automatic speech recognition tool that yields improvements of area under the receiver operating characteristics curve compared to uni-modal classifiers (7.5% and 13.7% for audio and text respectively). We show that in the case of limited training data, a segment-level classifier can first be trained to then obtain a session-wise prediction without hindering the performance, using a multi-stage convolutional recurrent neural network. A text model is trained using a Hierarchical Attention Network (HAN). The multimodal system is developed by combining embeddings from the session-level audio model and the HAN text model
翻訳日:2022-02-15 17:17:35 公開日:2022-02-13
# クラスタ型連合学習の収束について

On the Convergence of Clustered Federated Learning ( http://arxiv.org/abs/2202.06187v1 )

ライセンス: Link先を確認
Jie MA, Guodong Long, Tianyi Zhou, Jing Jiang, Chengqi Zhang(参考訳) 統合学習システムでは、例えばモバイルデバイスや組織参加者といったクライアントは、通常、クライアント間での非IIDデータ問題など、個人の好みや行動パターンが異なる。 クラスタ化されたフェデレーション学習は、ユーザを異なるクラスタにグループ化し、同じグループのクライアントが、従来の機械学習アルゴリズムのIDデータ前提を満たす同じあるいは類似した行動パターンを共有することです。 flの既存のクラスタリング手法のほとんどは、クライアント間の異なる重要性の貢献を無視するすべてのクライアントを平等に扱う。 本稿では,クライアントグループと各クライアントを統一最適化フレームワークで活用する,新しい重み付きクライアントベースクラスタリングFLアルゴリズムを提案する。 さらに,提案するクラスタ型fl法への収束解析を提案する。 実験により,提案手法の有効性が実証された。

In a federated learning system, the clients, e.g. mobile devices and organization participants, usually have different personal preferences or behavior patterns, namely Non-IID data problems across clients. Clustered federated learning is to group users into different clusters that the clients in the same group will share the same or similar behavior patterns that are to satisfy the IID data assumption for most traditional machine learning algorithms. Most of the existing clustering methods in FL treat every client equally that ignores the different importance contributions among clients. This paper proposes a novel weighted client-based clustered FL algorithm to leverage the client's group and each client in a unified optimization framework. Moreover, the paper proposes convergence analysis to the proposed clustered FL method. The experimental analysis has demonstrated the effectiveness of the proposed method.
翻訳日:2022-02-15 17:13:24 公開日:2022-02-13
# 微粒化人口移動データに基づくコミュニティレベルCOVID-19予測モデル

Fine-Grained Population Mobility Data-Based Community-Level COVID-19 Prediction Model ( http://arxiv.org/abs/2202.06257v1 )

ライセンス: Link先を確認
Pengyue Jia, Ling Chen, Dandan Lyu(参考訳) 抗疫プロセスにおける感染数を予測することは、特に微粒な地理的単位における抗疫戦略の開発において、政府にとって極めて有益である。 以前の研究は、例えば郡レベルや前処理データを同じ地理的なレベルでの低空間分解能予測に重点を置いており、いくつかの有用な情報が失われている。 本稿では,2つの地域レベルのデータを利用した人口移動データモデル(FGC-COVID)を提案する。 我々は,地域よりも詳細な地理レベルであるCensus Block Groups (CBGs) 間の人口移動データを用いて,グラフを構築し,グラフニューラルネットワーク (GNNs) を用いてCBG間の依存関係をキャプチャする。 予測のためにできるだけ細かいパターンをマイニングするため、空間的重み付け集約モジュールを導入し、その地理的親和性と空間的自己相関に基づいて、cbgの埋め込みをコミュニティレベルに集約する。 300日間のLA市の新型コロナウイルスに関する大規模な実験は、我々のモデルがコミュニティレベルのCOVID-19予測で既存の予測モデルを上回っていることを示している。

Predicting the number of infections in the anti-epidemic process is extremely beneficial to the government in developing anti-epidemic strategies, especially in fine-grained geographic units. Previous works focus on low spatial resolution prediction, e.g., county-level, and preprocess data to the same geographic level, which loses some useful information. In this paper, we propose a fine-grained population mobility data-based model (FGC-COVID) utilizing data of two geographic levels for community-level COVID-19 prediction. We use the population mobility data between Census Block Groups (CBGs), which is a finer-grained geographic level than community, to build the graph and capture the dependencies between CBGs using graph neural networks (GNNs). To mine as finer-grained patterns as possible for prediction, a spatial weighted aggregation module is introduced to aggregate the embeddings of CBGs to community level based on their geographic affiliation and spatial autocorrelation. Extensive experiments on 300 days LA city COVID-19 data indicate our model outperforms existing forecasting models on community-level COVID-19 prediction.
翻訳日:2022-02-15 17:12:41 公開日:2022-02-13
# 変形可能な1次元物体の効率的な空間表現とルーティング

Efficient Spatial Representation and Routing of Deformable One-Dimensional Objects for Manipulation ( http://arxiv.org/abs/2202.06172v1 )

ライセンス: Link先を確認
Azarakhsh Keipour, Maryam Bandari, Stefan Schaal(参考訳) 過去50年間に剛体ロボットの分野が成熟し、外科ロボティクスから産業組み立て、建設に至るまで、多くの分野において、変形可能な物体のルーティング、計画、操作が未発達の分野として近年出現している。 学習された暗黙的な空間表現に依存する変形可能なオブジェクトのルーティングアプローチ(例えば、学習から遠ざかる方法)は、環境や特定の設定の変化に弱い。 一方、変形可能なオブジェクトの空間的表現をルーティングと操作から完全に分離するアルゴリズムは、しばしば計画に依存しない表現アプローチを用いて、高次元空間における遅い計画をもたらす。 本稿では, 変形可能な一次元オブジェクト(ワイヤ, ケーブル, ロープ, スレッドなど)の効率的なルーティングを可能にする経路計画と組み合わせた空間表現手法を提案する。 空間表現は空間を凸部分空間に幾何学的に分解することで構成の効率的な符号化を可能にする。 このような構成の場合、経路問題は二次時間と空間複雑性を持つ動的計画マッチング法を用いて解くことができる。 提案手法は計画時間を改善するためにルーティングと効率的な構成を結合する。 実験と実験により,次の操作動作をミリ秒未満で正しく計算し,様々なルーティングや操作タスクを実現できることを示す。

With the field of rigid-body robotics having matured in the last fifty years, routing, planning, and manipulation of deformable objects have emerged in recent years as a more untouched research area in many fields ranging from surgical robotics to industrial assembly and construction. Routing approaches for deformable objects which rely on learned implicit spatial representations (e.g., Learning-from-Demons tration methods) make them vulnerable to changes in the environment and the specific setup. On the other hand, algorithms that entirely separate the spatial representation of the deformable object from the routing and manipulation, often using a representation approach independent of planning, result in slow planning in high dimensional space. This paper proposes a novel approach to spatial representation combined with route planning that allows efficient routing of deformable one-dimensional objects (e.g., wires, cables, ropes, threads). The spatial representation is based on the geometrical decomposition of the space into convex subspaces, which allows an efficient coding of the configuration. Having such a configuration, the routing problem can be solved using a dynamic programming matching method with a quadratic time and space complexity. The proposed method couples the routing and efficient configuration for improved planning time. Our tests and experiments show the method correctly computing the next manipulation action in sub-millisecond time and accomplishing various routing and manipulation tasks.
翻訳日:2022-02-15 17:06:43 公開日:2022-02-13
# LTSP: 高精度エアウェイセグメンテーションのための長期スライス伝播

LTSP: Long-Term Slice Propagation for Accurate Airway Segmentation ( http://arxiv.org/abs/2202.06260v1 )

ライセンス: Link先を確認
Yangqian Wu, Minghui Zhang, Weihao Yu, Hao Zheng, Jiasheng Xu and Yun Gu(参考訳) 目的: 気管支鏡下手術は, 肺疾患に対して広く用いられている臨床技術であり, その局所化と誘導には, 正確なトポロジカルな完全な気道マップが必要である。 気道図は胸部ctスキャンから気道分割法で自動的に抽出できた。 気道の複雑な木のような構造のため、セグメンテーション精度を維持しながらトポロジー完全性を維持することは難しい課題である。 方法: 本報告では, 病理ctによる気道分画の高精度化のために, 長期スライス伝播法 (ltsp) を提案する。 また、復号処理におけるLTSP法を利用した2段階のエンドツーエンドセグメンテーションフレームワークを設計する。 ステージ1はエンコーダ-デコーダアーキテクチャによって粗い特徴マップを生成するために使用される。 ステージ2では,連続性情報を利用して粗い特徴マップの弱い気道特性を向上するLTSP手法を提案する。 洗練された特徴マップから最終分割結果を予測する。 結果: 臨床CT70例を対象に, 提案法の性能評価を行うため, 広範囲な実験を行った。 その結果, 最先端法に比べ, 断裂がほとんどなく, 細気管支が検出されるため, 提案法の大幅な改善が示された。 アブレーション研究により,提案法の有効性がさらに確認された。 結論: スライス連続性情報は正確な気道セグメンテーションに有用である。 さらに, 長期スライス特性を伝播させることで, 気道トポロジー接続を全体のセグメンテーション精度を維持しながら維持する。

Purpose: Bronchoscopic intervention is a widely-used clinical technique for pulmonary diseases, which requires an accurate and topological complete airway map for its localization and guidance. The airway map could be extracted from chest computed tomography (CT) scans automatically by airway segmentation methods. Due to the complex tree-like structure of the airway, preserving its topology completeness while maintaining the segmentation accuracy is a challenging task. Methods: In this paper, a long-term slice propagation (LTSP) method is proposed for accurate airway segmentation from pathological CT scans. We also design a two-stage end-to-end segmentation framework utilizing the LTSP method in the decoding process. Stage 1 is used to generate a coarse feature map by an encoder-decoder architecture. Stage 2 is to adopt the proposed LTSP method for exploiting the continuity information and enhancing the weak airway features in the coarse feature map. The final segmentation result is predicted from the refined feature map. Results: Extensive experiments were conducted to evaluate the performance of the proposed method on 70 clinical CT scans. The results demonstrate the considerable improvements of the proposed method compared to some state-of-the-art methods as most breakages are eliminated and more tiny bronchi are detected. The ablation studies further confirm the effectiveness of the constituents of the proposed method. Conclusion: Slice continuity information is beneficial to accurate airway segmentation. Furthermore, by propagating the long-term slice feature, the airway topology connectivity is preserved with overall segmentation accuracy maintained.
翻訳日:2022-02-15 17:02:42 公開日:2022-02-13
# 視覚垂直推定を用いた運動病モデルとその自律型個人移動車への応用

Motion Sickness Modeling with Visual Vertical Estimation and Its Application to Autonomous Personal Mobility Vehicles ( http://arxiv.org/abs/2202.06299v1 )

ライセンス: Link先を確認
Hailong Liu and Shota Inoue and Takahiro Wada(参考訳) レベル3~5の自律型個人移動車(apmv)の乗客(ドライバー)は、運転中に本やスマートフォンなどの非自動運転タスクを実行できる。 このような活動は運動病を増加させることが指摘されている。 様々な計算運動病モデルが開発され、対策を構築するために多くの研究が行われている。 これらの多くは、人間の感覚器官が知覚する方向と中枢神経系が期待する方向の垂直変化を記述する主観的垂直対立(SVC)理論に基づいている。 このようなモデルは自動運転のシナリオに適用されることが期待される。 しかし、現在の計算モデルでは、視覚的垂直情報と前庭感覚を統合できない。 我々は従来の6自由度SVCモデルに視覚的に知覚される垂直ブロックを加えた6自由度SVC-VVモデルを提案し、人間の視覚入力をシミュレートした画像データからVV方向を予測する。 そこで, 簡易な画像ベースVV推定法を提案する。 提案モデルの有効性として,視覚的垂直(VV)が重要な役割を担っていることを前提として,AMPVを用いて本を読みながら運動障害が増大する事実について述べる。 静的実験では,提案手法により推定されたVVが,平均絶対偏差の低い重力加速度方向を正確に記述した。 さらに、APMVを用いた運転実験の結果、提案した6DoF SVC-VVモデルでは、VVと重力加速度方向が異なるときに発生する運動障害の増加が説明できることを示した。

Passengers (drivers) of level 3-5 autonomous personal mobility vehicles (APMV) and cars can perform non-driving tasks, such as reading books and smartphones, while driving. It has been pointed out that such activities may increase motion sickness. Many studies have been conducted to build countermeasures, of which various computational motion sickness models have been developed. Many of these are based on subjective vertical conflict (SVC) theory, which describes vertical changes in direction sensed by human sensory organs vs. those expected by the central nervous system. Such models are expected to be applied to autonomous driving scenarios. However, no current computational model can integrate visual vertical information with vestibular sensations. We proposed a 6 DoF SVC-VV model which add a visually perceived vertical block into a conventional six-degrees-of-freed om SVC model to predict VV directions from image data simulating the visual input of a human. Hence, a simple image-based VV estimation method is proposed. As the validation of the proposed model, this paper focuses on describing the fact that the motion sickness increases as a passenger reads a book while using an AMPV, assuming that visual vertical (VV) plays an important role. In the static experiment, it is demonstrated that the estimated VV by the proposed method accurately described the gravitational acceleration direction with a low mean absolute deviation. In addition, the results of the driving experiment using an APMV demonstrated that the proposed 6 DoF SVC-VV model could describe that the increased motion sickness experienced when the VV and gravitational acceleration directions were different.
翻訳日:2022-02-15 17:02:21 公開日:2022-02-13
# オープンセット領域適応のためのソースフリープログレッシブグラフ学習

Source-Free Progressive Graph Learning for Open-Set Domain Adaptation ( http://arxiv.org/abs/2202.06174v1 )

ライセンス: Link先を確認
Yadan Luo, Zijian Wang, Zhuoxiao Chen, Zi Huang and Mahsa Baktashmotlagh(参考訳) オープンセットドメイン適応(OSDA)は多くの視覚認識タスクで注目されている。 しかし、既存のosdaアプローチの多くは、(1)一般化の必須理論解析の欠如、(2)適応中のソースとターゲットデータの共存に依存すること、(3)モデル予測の不確実性を正確に推定できないこと、の3つの主な理由により制限されている。 提案するPGL(Progressive Graph Learning)フレームワークは,対象の仮説空間を共有部分空間と未知部分空間に分解し,仮説適応のために対象領域から最も確実なサンプルを段階的に擬似ラベルする。 さらに、ソースとターゲットドメインの共存を前提としない、より現実的なオープンソースフリーなオープンセットドメイン適応(SF-OSDA)に取り組み、2段階フレームワーク、すなわちSF-PGLにBP-L戦略を導入する。 擬似ラベルのためのすべてのターゲットサンプルに対してクラスに依存しない一定のしきい値を適用するpglとは異なり、sf-pglモデルは、各カテゴリから一定の比率で、最も自信のあるターゲットインスタンスを一様に選択する。 各クラスにおける信頼閾値は、セマンティック情報を学ぶ際の「不確かさ」と見なされ、適応段階における分類損失を測るために使用される。 ベンチマーク画像分類と行動認識データセットを用いたosdaおよびsf-osdaの教師なしおよび半教師なし実験を行った。 さらに、バランスの取れた擬似ラベルは校正を改善する上で重要な役割を担っており、トレーニングされたモデルは、ターゲットデータに対する過信または過信の予測を少なくする。 ソースコードはhttps://github.com/L uoyadan/SF-PGLで入手できる。

Open-set domain adaptation (OSDA) has gained considerable attention in many visual recognition tasks. However, most existing OSDA approaches are limited due to three main reasons, including: (1) the lack of essential theoretical analysis of generalization bound, (2) the reliance on the coexistence of source and target data during adaptation, and (3) failing to accurately estimate the uncertainty of model predictions. We propose a Progressive Graph Learning (PGL) framework that decomposes the target hypothesis space into the shared and unknown subspaces, and then progressively pseudo-labels the most confident known samples from the target domain for hypothesis adaptation. Moreover, we tackle a more realistic source-free open-set domain adaptation (SF-OSDA) setting that makes no assumption about the coexistence of source and target domains, and introduce a balanced pseudo-labeling (BP-L) strategy in a two-stage framework, namely SF-PGL. Different from PGL that applies a class-agnostic constant threshold for all target samples for pseudo-labeling, the SF-PGL model uniformly selects the most confident target instances from each category at a fixed ratio. The confidence thresholds in each class are regarded as the 'uncertainty' of learning the semantic information, which are then used to weigh the classification loss in the adaptation step. We conducted unsupervised and semi-supervised OSDA and SF-OSDA experiments on the benchmark image classification and action recognition datasets. Additionally, we find that balanced pseudo-labeling plays a significant role in improving calibration, which makes the trained model less prone to over-confident or under-confident predictions on the target data. Source code is available at https://github.com/L uoyadan/SF-PGL.
翻訳日:2022-02-15 15:50:52 公開日:2022-02-13
# トーラス上のテンソル積表現による教師なし歪み

Unsupervised Disentanglement with Tensor Product Representations on the Torus ( http://arxiv.org/abs/2202.06201v1 )

ライセンス: Link先を確認
Michael Rotman, Amit Dekel, Shir Gur, Yaron Oz, Lior Wolf(参考訳) 現在のオートエンコーダによる表現の学習方法は、ほとんどが潜在表現としてベクトルを用いる。 本研究では,この目的のためにテンソル積構造を用いることを提案する。 このように、得られた表現は自然に絡み合っている。 通常分布する特徴を対象とする従来の変分法とは対照的に、我々の表現における潜在空間は単位円の組に一様に分布する。 我々は、潜伏空間のトーラス構造が生成因子を効果的に捉えていると論じる。 我々は,近年の非教師付き異方性測定ツールを用いて,異方性,完全性,情報性という観点から,本手法の利点を実証する実験を行った。 提案手法のコードはhttps://github.com/r otmanmi/unsupervised -disentanglement-tor usで利用可能である。

The current methods for learning representations with auto-encoders almost exclusively employ vectors as the latent representations. In this work, we propose to employ a tensor product structure for this purpose. This way, the obtained representations are naturally disentangled. In contrast to the conventional variations methods, which are targeted toward normally distributed features, the latent space in our representation is distributed uniformly over a set of unit circles. We argue that the torus structure of the latent space captures the generative factors effectively. We employ recent tools for measuring unsupervised disentanglement, and in an extensive set of experiments demonstrate the advantage of our method in terms of disentanglement, completeness, and informativeness. The code for our proposed method is available at https://github.com/r otmanmi/Unsupervised -Disentanglement-Tor us.
翻訳日:2022-02-15 15:47:33 公開日:2022-02-13
# マスクテンプレートに基づくプライバシー保護

Privacy protection based on mask template ( http://arxiv.org/abs/2202.06250v1 )

ライセンス: Link先を確認
Hao Wang (1), Yu Bai (2), Guangmin Sun (1), Jie Liu (1) ((1) Beijing University of Technology,(2) Beijing Friendship Hospital)(参考訳) 強力な認識アルゴリズムはインターネットや重要な医療システムで広く使われており、個人のプライバシーに深刻な脅威をもたらす。 この法律は多様性保護を提供するが、ヨーロッパの一般データ保護規則(GDPR)や中国の民法1032条から1039条などである。 しかし、重要なプライバシー開示イベントとして、バイオメトリックデータがしばしば隠されているため、所有者がソースを検出して追跡することは困難である。 ヒトのバイオメトリックスは一般に画像に存在する。 個人のプライバシーの開示を避けるため、未承認の認識アルゴリズムが元の画像の実際の特徴を取得するのを防ぐ必要がある。

Powerful recognition algorithms are widely used in the Internet or important medical systems, which poses a serious threat to personal privacy. Although the law provides for diversity protection, e.g. The General Data Protection Regulation (GDPR) in Europe and Articles 1032 to 1039 of the civil code in China. However, as an important privacy disclosure event, biometric data is often hidden, which is difficult for the owner to detect and trace to the source. Human biometrics generally exist in images. In order to avoid the disclosure of personal privacy, we should prevent unauthorized recognition algorithms from acquiring the real features of the original image.
翻訳日:2022-02-15 15:41:53 公開日:2022-02-13
# 動的障害物を有する3次元環境における自律型ドローン群ナビゲーションとマルチターゲットトラッキング

Autonomous Drone Swarm Navigation and Multi-target Tracking in 3D Environments with Dynamic Obstacles ( http://arxiv.org/abs/2202.06253v1 )

ライセンス: Link先を確認
Suleman Qamar, Saddam Hussain Khan, Muhammad Arif Arshad, Maryam Qamar, and Asifullah Khan(参考訳) 人工群の自動モデリングは、手作業による作成が時間を要する複雑な手順であるため、現実的ではない。 本研究では,深層強化学習を用いた自律的アプローチを提案する。 このアプローチでは、静的および動的障害物と抵抗力(線形ドラッグ、角ドラッグ、重力など)を持つ複雑な3d環境が、複数の動的ターゲットを追跡するためにモデル化される。 さらに,ロバストなSwarm生成とターゲットトラッキングのための報酬関数を,複雑なSwarm動作の学習のために考案した。 エージェントの数は固定されておらず、環境の一部しか観察できないため、Swarmの形成とナビゲーションは困難になる。 この観点から、提案された戦略は、上記の課題に取り組むための3つの主要な段階から構成される。 1)動的スウォーム管理のための方法論 2)障害物回避,目標への最短経路の発見 3) ターゲットの追跡と島のモデリング。 動的swarm管理フェーズは、基本的な感覚入力をハイレベルコマンドに変換し、swarmサイズ変動を維持しながら、swarmナビゲーションと分散設定を強化する。 島のモデリングでは、swarmはターゲットの数に応じて個々のサブスワームに分割されるが、逆にこれらのサブスワームは単一の巨大なswarmを形成するために結合し、swarmは複数のターゲットを追跡できる。 技術ポリシーに基づく深層強化学習アルゴリズムのカスタマイズ状態は、重要な結果を得るために使用される。 提案手法は,Swarmナビゲーションを強化し,複雑な動的環境における複数の静的および動的ターゲットを追跡できることを示す。

Autonomous modeling of artificial swarms is necessary because manual creation is a time intensive and complicated procedure which makes it impractical. An autonomous approach employing deep reinforcement learning is presented in this study for swarm navigation. In this approach, complex 3D environments with static and dynamic obstacles and resistive forces (like linear drag, angular drag, and gravity) are modeled to track multiple dynamic targets. Moreover, reward functions for robust swarm formation and target tracking are devised for learning complex swarm behaviors. Since the number of agents is not fixed and has only the partial observance of the environment, swarm formation and navigation become challenging. In this regard, the proposed strategy consists of three main phases to tackle the aforementioned challenges: 1) A methodology for dynamic swarm management, 2) Avoiding obstacles, Finding the shortest path towards the targets, 3) Tracking the targets and Island modeling. The dynamic swarm management phase translates basic sensory input to high level commands to enhance swarm navigation and decentralized setup while maintaining the swarms size fluctuations. While, in the island modeling, the swarm can split into individual subswarms according to the number of targets, conversely, these subswarms may join to form a single huge swarm, giving the swarm ability to track multiple targets. Customized state of the art policy based deep reinforcement learning algorithms are employed to achieve significant results. The promising results show that our proposed strategy enhances swarm navigation and can track multiple static and dynamic targets in complex dynamic environments.
翻訳日:2022-02-15 15:41:43 公開日:2022-02-13
# 模範者が導いた横顔の塗り絵

Diverse facial inpainting guided by exemplars ( http://arxiv.org/abs/2202.06358v1 )

ライセンス: Link先を確認
Wanglong Lu, Hanli Zhao, Xianta Jiang, Xiaogang Jin, Min Wang, Jiankai Lyu, and Kaijie Shi(参考訳) 顔画像インペインティングは、顔画像の欠落やマスクされたピクセルに対する視覚的で意味的に意味のあるコンテンツを埋めるタスクである。 既存の手法は高い視覚品質を達成するために大きな進歩を遂げているが、顔画像の着色の制御可能な多様性はこの分野では未解決の問題である。 本稿では,画像全体の高品質な視覚効果を保ちつつ,顔像を模範的な顔属性で仕上げることのできる,多彩でインタラクティブな顔インペイントフレームワークEXE-GANを紹介する。 提案手法は, 入力画像のグローバルなスタイル, 確率的スタイル, サンプル画像の模範的なスタイルを活用することで, 生成的対向ネットワークに基づいて顔の塗装を実現する。 ネットワークが顔属性のスタイルを自己監督的に学習できるように,新たな属性類似度指標が導入された。 塗装領域の境界を越える自然遷移を保証するために,空間位置に基づいて損失勾配を調整する新しい空間変動勾配バックプロパゲーション手法が考案された。 CelebA-HQとFFHQのデータセットに対する様々な実験結果と比較を行い、顔の塗布における品質と多様性の両面で提案手法の優位性を実証した。

Facial image inpainting is a task of filling visually realistic and semantically meaningful contents for missing or masked pixels in a face image. Although existing methods have made significant progress in achieving high visual quality, the controllable diversity of facial image inpainting remains an open problem in this field. This paper introduces EXE-GAN, a novel diverse and interactive facial inpainting framework, which can not only preserve the high-quality visual effect of the whole image but also complete the face image with exemplar-like facial attributes. The proposed facial inpainting is achieved based on generative adversarial networks by leveraging the global style of input image, the stochastic style, and the exemplar style of example image. A novel attribute similarity metric is introduced to encourage networks to learn the style of facial attributes from the exemplar in a self-supervised way. To guarantee the natural transition across the boundary of inpainted regions, a novel spatial variant gradient backpropagation technique is designed to adjust the loss gradients based on the spatial location. A variety of experimental results and comparisons on public CelebA-HQ and FFHQ datasets are presented to demonstrate the superiority of the proposed method in terms of both the quality and diversity in facial inpainting.
翻訳日:2022-02-15 15:40:44 公開日:2022-02-13
# プリミティブを用いたOmnifontペルシャOCRシステム

Omnifont Persian OCR System Using Primitives ( http://arxiv.org/abs/2202.06371v1 )

ライセンス: Link先を確認
Azarakhsh Keipour, Mohammad Eshghi, Sina Mohammadzadeh Ghadikolaei, Negin Mohammadi, Shahab Ensafi(参考訳) 本稿では,モデルベースのomnifontペルシャocrシステムを提案する。 このシステムは、認識のための構造的特徴として8つの原始要素のセットを使用する。 まず、スキャンした文書を前処理する。 プリプロセス画像の正規化後、テキスト行とサブワードを分離して薄くする。 サブワードにおけるドット認識後、ストロークを抽出し、各サブワードのプリミティブ要素をストロークを用いて認識する。 最後に、プリミティブを予め定義された文字識別ベクトルの集合と比較し、サブワード文字を識別する。 システムの分離と認識のステップは同時であり、文字の独立分離の避けられない誤りを排除している。 このシステムは、6サイズ14のペルシャ標準フォントを持つ文書でテストされている。 精度は97.06%。

In this paper, we introduce a model-based omnifont Persian OCR system. The system uses a set of 8 primitive elements as structural features for recognition. First, the scanned document is preprocessed. After normalizing the preprocessed image, text rows and sub-words are separated and then thinned. After recognition of dots in sub-words, strokes are extracted and primitive elements of each sub-word are recognized using the strokes. Finally, the primitives are compared with a predefined set of character identification vectors in order to identify sub-word characters. The separation and recognition steps of the system are concurrent, eliminating unavoidable errors of independent separation of letters. The system has been tested on documents with 14 standard Persian fonts in 6 sizes. The achieved precision is 97.06%.
翻訳日:2022-02-15 15:40:22 公開日:2022-02-13
# パーソナライズされたテキスト分類のためのインクリメンタルユーザ埋め込みモデリング

Incremental user embedding modeling for personalized text classification ( http://arxiv.org/abs/2202.06369v1 )

ライセンス: Link先を確認
Ruixue Lian, Che-Wei Huang, Yuqing Tang, Qilong Gu, Chengyuan Ma, Chenlei Guo(参考訳) 個々のユーザープロファイルとインタラクション履歴は、チャットボット、ソーシャルメディア、小売、教育といった現実世界のアプリケーションでカスタマイズされた体験を提供する上で重要な役割を果たしている。 ユーザパーソナライズされた情報を活用した適応型ユーザ表現学習は,歴史データの増加に伴い,ますます困難になりつつある。 本研究では,近年のユーザインタラクション履歴の埋め込みを,トランスフォーマーエンコーダを介して動的に蓄積した履歴ベクトルに統合する,インクリメンタルなユーザ埋め込みモデリング手法を提案する。 このモデリングパラダイムにより、連続的に一般化されたユーザ表現を作成し、データ管理の課題を軽減することができる。 redditデータセットに基づくパーソナライズされたマルチクラス分類タスクに適用し,適切なコメント履歴エンコーディングとタスクモデリングによる2つの実験設定のベースラインシステムに対して,予測精度の9%,30%を相対的に向上させることで,この手法の有効性を実証する。

Individual user profiles and interaction histories play a significant role in providing customized experiences in real-world applications such as chatbots, social media, retail, and education. Adaptive user representation learning by utilizing user personalized information has become increasingly challenging due to ever-growing history data. In this work, we propose an incremental user embedding modeling approach, in which embeddings of user's recent interaction histories are dynamically integrated into the accumulated history vectors via a transformer encoder. This modeling paradigm allows us to create generalized user representations in a consecutive manner and also alleviate the challenges of data management. We demonstrate the effectiveness of this approach by applying it to a personalized multi-class classification task based on the Reddit dataset, and achieve 9% and 30% relative improvement on prediction accuracy over a baseline system for two experiment settings through appropriate comment history encoding and task modeling.
翻訳日:2022-02-15 15:40:13 公開日:2022-02-13
# 顕微鏡下のスケーリング則:小規模実験による変圧器性能の予測

Scaling Laws Under the Microscope: Predicting Transformer Performance from Small Scale Experiments ( http://arxiv.org/abs/2202.06387v1 )

ライセンス: Link先を確認
Maor Ivgi, Yair Carmon and Jonathan Berant(参考訳) ニューラルネットワークのスケーリング法則は、モデルのパラメータ数とトレーニング後のパフォーマンスとの予測可能な関係をパワーロームの形式で定義する。 しかし、現在までのほとんどの研究は、スケーリング法則がモデル開発の加速に利用できるかどうかを明示的に調査していない。 本研究では,最大10kパラメータのモデルから始まり,9つの言語理解タスクにおけるダウンストリーム性能を評価する,幅広い言語理解タスクを対象とした経験的調査を行う。 いくつかのNLPタスクでは,スケーリング法則が微調整時に出現し,大規模モデルのトレーニングにおいて,デバッギングコンバージェンスに利用することもできる。 さらに,スケーリング法則が存在するタスクに対しては,より大規模なモデルの性能予測に使用することができるため,効果的なモデル選択が可能となる。 しかしながら、スケーリング法則を明らかにするには、不確実性推定のために注意深いハイパーパラメータチューニングと複数の実行が必要となる。

Neural scaling laws define a predictable relationship between a model's parameter count and its performance after training in the form of a power law. However, most research to date has not explicitly investigated whether scaling laws can be used to accelerate model development. In this work, we perform such an empirical investigation across a wide range of language understanding tasks, starting from models with as few as 10K parameters, and evaluate downstream performance across 9 language understanding tasks. We find that scaling laws emerge at finetuning time in some NLP tasks, and that they can also be exploited for debugging convergence when training large models. Moreover, for tasks where scaling laws exist, they can be used to predict the performance of larger models, which enables effective model selection. However, revealing scaling laws requires careful hyperparameter tuning and multiple runs for the purpose of uncertainty estimation, which incurs additional overhead, partially offsetting the computational benefits.
翻訳日:2022-02-15 15:39:56 公開日:2022-02-13
# 低音源表現型音声合成のための分布拡大

Distribution augmentation for low-resource expressive text-to-speech ( http://arxiv.org/abs/2202.06409v1 )

ライセンス: Link先を確認
Mateusz Lajszczak, Animesh Prasad, Arent van Korlaar, Bajibabu Bollepalli, Antonio Bonafonte, Arnaud Joly, Marco Nicolis, Alexis Moinet, Thomas Drugman, Trevor Wood, Elena Sokolova(参考訳) 本稿では,TTS(text-to-speech) のための新しいデータ拡張手法を提案する。 私たちの目標は、トレーニング中に利用できるテキストコンディショニングの多様性を高めることです。 これは、特に低リソース環境でのオーバーフィッティングを減らすのに役立つ。 本手法は,構文的正確性を保ちながらテキストと音声の断片を置換することに依存する。 我々は, 合成音声が不整合音声サンプルの組み合わせによるアーチファクトを含まないよう, さらなる対策を講じる。 本手法は,多数のデータセット,話者,TSアーキテクチャに対して,音声品質の向上を図っている。 また,注意に基づくttsモデルのロバスト性が大幅に向上することを示す。

This paper presents a novel data augmentation technique for text-to-speech (TTS), that allows to generate new (text, audio) training examples without requiring any additional data. Our goal is to increase diversity of text conditionings available during training. This helps to reduce overfitting, especially in low-resource settings. Our method relies on substituting text and audio fragments in a way that preserves syntactical correctness. We take additional measures to ensure that synthesized speech does not contain artifacts caused by combining inconsistent audio samples. The perceptual evaluations show that our method improves speech quality over a number of datasets, speakers, and TTS architectures. We also demonstrate that it greatly improves robustness of attention-based TTS models.
翻訳日:2022-02-15 15:39:41 公開日:2022-02-13
# バイオケミカル回帰ドメイン適応のためのメトリック学習による最適輸送

Metric Learning-enhanced Optimal Transport for Biochemical Regression Domain Adaptation ( http://arxiv.org/abs/2202.06208v1 )

ライセンス: Link先を確認
Fang Wu, Nicolas Courty, Zhang Qiang, jiyu Cui, Ziqing Li(参考訳) ソースドメインを超えて知識を一般化することは、薬物設計や分子特性予測のような多くの生物医学的応用において重要な前提条件である。 この課題に対処するために、研究者は最適なトランスポート(OT)を使用して、ソースとターゲットドメイン間の表現アライメントを実行した。 しかし、既存のOTアルゴリズムは主に分類タスク用に設計されている。 そこで本論文では,非教師なしおよび半教師なし設定における回帰タスクについて検討する。 連続ラベルを利用するために, 領域距離を測定するための新しい指標を提案し, 輸送計画に後方分散正則化器を導入する。 さらに、計算上魅力的である一方で、otは曖昧な決定バウンダリと、ミニバッチトレーニングによってもたらされた偏ったローカルデータ分散に苦しむ。 これらの問題に対処するため、我々は、OTとメトリックラーニングを組み合わせて、より堅牢な境界を導き、バイアスを減らすことを提案する。 具体的には,クラスタセントロイドを逐次繰り返し調整するグローバルデータ分布を記述するために,動的階層的三重項損失を提案する。 生化学における教師なしと半教師なしの両方の学習課題について,本手法の評価を行った。 実験により, 提案手法は, 小分子および材料結晶の様々なベンチマークデータセットにおいて, 最先端のベースラインを著しく上回ることを示した。

Generalizing knowledge beyond source domains is a crucial prerequisite for many biomedical applications such as drug design and molecular property prediction. To meet this challenge, researchers have used optimal transport (OT) to perform representation alignment between the source and target domains. Yet existing OT algorithms are mainly designed for classification tasks. Accordingly, we consider regression tasks in the unsupervised and semi-supervised settings in this paper. To exploit continuous labels, we propose novel metrics to measure domain distances and introduce a posterior variance regularizer on the transport plan. Further, while computationally appealing, OT suffers from ambiguous decision boundaries and biased local data distributions brought by the mini-batch training. To address those issues, we propose to couple OT with metric learning to yield more robust boundaries and reduce bias. Specifically, we present a dynamic hierarchical triplet loss to describe the global data distribution, where the cluster centroids are progressively adjusted among consecutive iterations. We evaluate our method on both unsupervised and semi-supervised learning tasks in biochemistry. Experiments show the proposed method significantly outperforms state-of-the-art baselines across various benchmark datasets of small molecules and material crystals.
翻訳日:2022-02-15 15:37:59 公開日:2022-02-13
# 速度の最大化による幾何学グラフ表現学習

Geometric Graph Representation Learning via Maximizing Rate Reduction ( http://arxiv.org/abs/2202.06241v1 )

ライセンス: Link先を確認
Xiaotian Han, Zhimeng Jiang, Ninghao Liu, Qingquan Song, Jundong Li, Xia Hu(参考訳) 識別ノード表現の学習は、コミュニティ検出やノード分類といったグラフ分析における様々な下流タスクに役立つ。 既存のグラフ表現学習手法(ランダムウォークやコントラスト学習など)は、連結ノードの局所的類似性を最大化するために制限されている。 このようなペアワイズ学習スキームは、表現空間の全体幾何学的性質に対する明示的な制約がないため、表現のグローバル分布を捉えることができない。 そこで本研究では,ノード表現を教師なしの方法で学習するGeometric Graph Representation Learning (G2R)を提案する。 このようにして、G2R は異なる群(単に隣接行列に格納される)のノードを異なる部分空間にマッピングし、各部分空間はコンパクトであり、異なる部分空間は分散分布である。 g2rはグラフニューラルネットワークをエンコーダとして採用し、隣接行列によるレート低減を最大化する。 さらに,各部分空間間の主角の最大化と速度減少の最大化が等価であることを理論的および実証的に示す。 実世界のデータセットの実験では、G2Rはノード分類やコミュニティ検出タスクにおいて、様々なベースラインを上回っている。

Learning discriminative node representations benefits various downstream tasks in graph analysis such as community detection and node classification. Existing graph representation learning methods (e.g., based on random walk and contrastive learning) are limited to maximizing the local similarity of connected nodes. Such pair-wise learning schemes could fail to capture the global distribution of representations, since it has no explicit constraints on the global geometric properties of representation space. To this end, we propose Geometric Graph Representation Learning (G2R) to learn node representations in an unsupervised manner via maximizing rate reduction. In this way, G2R maps nodes in distinct groups (implicitly stored in the adjacency matrix) into different subspaces, while each subspace is compact and different subspaces are dispersedly distributed. G2R adopts a graph neural network as the encoder and maximizes the rate reduction with the adjacency matrix. Furthermore, we theoretically and empirically demonstrate that rate reduction maximization is equivalent to maximizing the principal angles between different subspaces. Experiments on real-world datasets show that G2R outperforms various baselines on node classification and community detection tasks.
翻訳日:2022-02-15 15:37:40 公開日:2022-02-13
# 入力空間トロイの木馬の理解と防衛に向けて

Towards Understanding and Defending Input Space Trojans ( http://arxiv.org/abs/2202.06382v1 )

ライセンス: Link先を確認
Zhenting Wang, Hailun Ding, Juan Zhai, Shiqing Ma(参考訳) Deep Neural Networks(DNN)は、良性または有毒なデータからトロイの木馬(あるいはバックドア)を学ぶことができる。 そのようなトロイの木を利用して、敵は任意の入力に固定された入力空間摂動を加え、特定の出力(すなわちターゲットラベル)を予測するモデルを誤解させる。 本稿では、DNNにおけるそのような入力空間であるトロイの木馬を解析し、モデルの決定領域とトロイの木馬の関係を説明する理論を提案する。 この理論の正式な証明を提供し、理論とその緩和を支持する実証的な証拠を提供する。 本分析に基づいて,有毒なデータセットであってもトロイの木馬を除去する新たな訓練方法を設計し,そのプロトタイプを5つのデータセットと5つの異なる攻撃で評価する。 その結果,提案手法は既存のソリューションよりも優れていることがわかった。 コード: \url{https://anonymous.4o pen.science/r/NOLE-8 4C3}

Deep Neural Networks (DNNs) can learn Trojans (or backdoors) from benign or poisoned data, which raises security concerns of using them. By exploiting such Trojans, the adversary can add a fixed input space perturbation to any given input to mislead the model predicting certain outputs (i.e., target labels). In this paper, we analyze such input space Trojans in DNNs, and propose a theory to explain the relationship of a model's decision regions and Trojans: a complete and accurate Trojan corresponds to a hyperplane decision region in the input domain. We provide a formal proof of this theory, and provide empirical evidence to support the theory and its relaxations. Based on our analysis, we design a novel training method that removes Trojans during training even on poisoned datasets, and evaluate our prototype on five datasets and five different attacks. Results show that our method outperforms existing solutions. Code: \url{https://anonymous.4o pen.science/r/NOLE-8 4C3}.
翻訳日:2022-02-15 15:37:20 公開日:2022-02-13
# 完全自動脳腫瘍分割のためのデータ拡張法

A Data Augmentation Method for Fully Automatic Brain Tumor Segmentation ( http://arxiv.org/abs/2202.06344v1 )

ライセンス: Link先を確認
Yu Wang, Yarong Ji, Hongbing Xiao(参考訳) グリオーマとその亜領域の自動セグメンテーションは、疾患の診断、治療、モニタリングにおいて非常に重要である。 本稿では,脳腫瘍分割のための3次元u-netアーキテクチャに対してtensormixupと呼ばれる拡張法を提案し,応用した。 主な考え方は, 磁気共鳴画像データから, 3次元に128の2枚の画像パッチが, グリームラベルのグリオーマ情報に基づいて選択されたことである。 次に、すべての要素がベータ分布から独立してサンプリングされたテンソルを使用して画像パッチを混合した。 次にテンソルは、上記のイメージパッチの1つのホットなエンコードラベルを混ぜるために使用されるマトリックスにマッピングされた。 そこで,新しい画像と1つのホットエンコードラベルを合成した。 最後に、新しいデータはグリオーマのセグメント化に使用できるモデルのトレーニングに使用された。 実験の結果、Diceスコアの平均精度は、腫瘍全体、腫瘍コア、造影腫瘍セグメンテーションにおいてそれぞれ91.32%、85.67%、82.20%であることが示され、提案されたTensorMixupが脳腫瘍セグメンテーションに有効であることが証明された。

Automatic segmentation of glioma and its subregions is of great significance for diagnosis, treatment and monitoring of disease. In this paper, an augmentation method, called TensorMixup, was proposed and applied to the three dimensional U-Net architecture for brain tumor segmentation. The main ideas included that first, two image patches with size of 128 in three dimensions were selected according to glioma information of ground truth labels from the magnetic resonance imaging data of any two patients with the same modality. Next, a tensor in which all elements were independently sampled from Beta distribution was used to mix the image patches. Then the tensor was mapped to a matrix which was used to mix the one-hot encoded labels of the above image patches. Therefore, a new image and its one-hot encoded label were synthesized. Finally, the new data was used to train the model which could be used to segment glioma. The experimental results show that the mean accuracy of Dice scores are 91.32%, 85.67%, and 82.20% respectively on the whole tumor, tumor core, and enhancing tumor segmentation, which proves that the proposed TensorMixup is feasible and effective for brain tumor segmentation.
翻訳日:2022-02-15 15:33:33 公開日:2022-02-13
# 肝セグメンテーションのためのスケジューリング手法:ReduceeLRonPlateau Vs OneCycleLR

Scheduling Techniques for Liver Segmentation: ReduceLRonPlateau Vs OneCycleLR ( http://arxiv.org/abs/2202.06373v1 )

ライセンス: Link先を確認
Ayman Al-Kababji and Faycal Bensaali and Sarada Prasad Dakua(参考訳) 機械学習とコンピュータビジョン技術は、生物医学を含む多くの分野に影響を与えた。 本研究の目的は,リゾルデLRonPlateauに対して新たに考案されたOneCycleLRに着目し,肝セグメンテーションタスクにおける学習率(LR)を操作するためのスケジューラの重要概念を検討することである。 2018年に公開され、Task 8 Hepatic Vessel (MSDC-T8)と呼ばれるMedical Segmentation Decathlon Challenge主催者が作成したデータセットがテストと検証に使用されている。 また, 最大エポック数(75), 平均5倍のクロスバリデーション値を有する報告結果から, 1CycleLRと比較すると, 同様の, より優れた損失スコアを維持しつつ, より高速に収束することが示唆された。 ピークLRが発生するエポックは、超収束特性を観測できるように、OneCycleLRの早期に行われるべきである。 さらに、その結果は、このデータセットの肝臓マスクを公開した研究者による最先端の結果よりも優れています。 結論として、どちらのスケジューラも医学的なセグメンテーション課題、特にmsdc-t8データセットに適しており、最小限のエポック数で検証損失を迅速に収束させるのに自信を持って使用できる。

Machine learning and computer vision techniques have influenced many fields including the biomedical one. The aim of this paper is to investigate the important concept of schedulers in manipulating the learning rate (LR), for the liver segmentation task, throughout the training process, focusing on the newly devised OneCycleLR against the ReduceLRonPlateau. A dataset, published in 2018 and produced by the Medical Segmentation Decathlon Challenge organizers, called Task 8 Hepatic Vessel (MSDC-T8) has been used for testing and validation. The reported results that have the same number of maximum epochs (75), and are the average of 5-fold cross-validation, indicate that ReduceLRonPlateau converges faster while maintaining a similar or even better loss score on the validation set when compared to OneCycleLR. The epoch at which the peak LR occurs perhaps should be made early for the OneCycleLR such that the super-convergence feature can be observed. Moreover, the overall results outperform the state-of-the-art results from the researchers who published the liver masks for this dataset. To conclude, both schedulers are suitable for medical segmentation challenges, especially the MSDC-T8 dataset, and can be used confidently in rapidly converging the validation loss with a minimal number of epochs.
翻訳日:2022-02-15 15:33:13 公開日:2022-02-13
# AIはラベルなしで進化できる:知識蒸留による胸部X線診断のための自己進化型視覚変換器

AI can evolve without labels: self-evolving vision transformer for chest X-ray diagnosis through knowledge distillation ( http://arxiv.org/abs/2202.06431v1 )

ライセンス: Link先を確認
Sangjoon Park, Gwanghyun Kim, Yujin Oh, Joon Beom Seo, Sang Min Lee, Jin Hwan Kim, Sungjun Moon, Jae-Kwang Lim, Chang Min Park, and Jong Chul Ye(参考訳) ディープラーニングに基づくコンピュータ支援診断システムは最近、専門家レベルのパフォーマンスを達成したが、堅牢なディープラーニングモデルを開発するには、手動アノテーションによる大規模で高品質なデータが必要である。 この状況は、特に奪われた地域では、専門家による手動ラベリングの欠如により、毎年病院で収集される胸部X線は使用できないという問題を引き起こす。 そこで本研究では,自己指導型学習と自己学習による知識蒸留を利用した新たなディープラーニングフレームワークを提案する。 実験の結果, 提案手法は現実環境に対する優れた堅牢性を維持し, 結核, 気胸, およびcovid-19などの診断タスクに適用可能であることがわかった。 特に、同じラベル付きデータでトレーニングされたモデルよりも、我々のモデルの方がパフォーマンスがよいことを示した。 提案するフレームワークは医療画像に非常に大きな可能性を秘めており、毎年大量のデータが蓄積されているが、根拠となる真実の注釈を得るには高価である。

Although deep learning-based computer-aided diagnosis systems have recently achieved expert-level performance, developing a robust deep learning model requires large, high-quality data with manual annotation, which is expensive to obtain. This situation poses the problem that the chest x-rays collected annually in hospitals cannot be used due to the lack of manual labeling by experts, especially in deprived areas. To address this, here we present a novel deep learning framework that uses knowledge distillation through self-supervised learning and self-training, which shows that the performance of the original model trained with a small number of labels can be gradually improved with more unlabeled data. Experimental results show that the proposed framework maintains impressive robustness against a real-world environment and has general applicability to several diagnostic tasks such as tuberculosis, pneumothorax, and COVID-19. Notably, we demonstrated that our model performs even better than those trained with the same amount of labeled data. The proposed framework has a great potential for medical imaging, where plenty of data is accumulated every year, but ground truth annotations are expensive to obtain.
翻訳日:2022-02-15 15:32:48 公開日:2022-02-13
# 1層ニューラルネットワークのサンプル複雑性

The Sample Complexity of One-Hidden-Layer Neural Networks ( http://arxiv.org/abs/2202.06233v1 )

ライセンス: Link先を確認
Gal Vardi, Ohad Shamir and Nathan Srebro(参考訳) 本研究では,ニューラルネットワークのノルムベース一様収束境界について検討し,スカラー値単層ネットワークの単純クラスとユークリッドノルムに有界な入力に対して,これらがアーキテクチャやノルム制約のタイプにどのように影響するかを深く理解することを目的とした。 一般に、隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証する(ネットワーク幅に依存しない)には不十分であるが、より強いフロベニウスノルム制御は、以前の作業を拡張し改善するのに十分であることを示すことから始める。 まず、ネットワークのアクティベーション関数が十分に滑らかな場合(より深いネットワークに拡張された結果)、次に、ある種の畳み込みネットワークにおいて、単にスペクトルノルム制御が十分であることが判明した2つの重要な設定を特定し、分析する。 後者では,パッチ間の重複量やパッチの総数などのパラメータによって,サンプルの複雑さがどう影響するかを検討する。

We study norm-based uniform convergence bounds for neural networks, aiming at a tight understanding of how these are affected by the architecture and type of norm constraint, for the simple class of scalar-valued one-hidden-layer networks, and inputs bounded in Euclidean norm. We begin by proving that in general, controlling the spectral norm of the hidden layer weight matrix is insufficient to get uniform convergence guarantees (independent of the network width), while a stronger Frobenius norm control is sufficient, extending and improving on previous work. Motivated by the proof constructions, we identify and analyze two important settings where a mere spectral norm control turns out to be sufficient: First, when the network's activation functions are sufficiently smooth (with the result extending to deeper networks); and second, for certain types of convolutional networks. In the latter setting, we study how the sample complexity is additionally affected by parameters such as the amount of overlap between patches and the overall number of patches.
翻訳日:2022-02-15 14:46:13 公開日:2022-02-13
# G\"odel's Ontological Argument の簡易変数

A Simplified Variant of G\"odel's Ontological Argument ( http://arxiv.org/abs/2202.06264v1 )

ライセンス: Link先を確認
Christoph Benzm\"uller(参考訳) g\"odel's ontological argument の単純化された変種が提示されている。 単純化された議論は、基本モジュラー論理 K や KT において既に有効であり、モダル崩壊に苦しむことなく、G\ "odel" が用いているような本質(Ess.)と必要存在(NE)のより複雑な述語を避ける。 提示された変種は、現代の証明補助システムと相互作用して行われた一連の理論単純化実験の副作用として得られた。 これらの実験の出発点は、G\ "odel" の引数をコンピュータエンコーディングし、自動推論手法を体系的に適用して、提示された単純化された変種に到達させることであった。 提案した研究は、計算メタ物理における実りある人間とコンピュータの相互作用を実証するものである。 提示された結果が、存在論的議論の魅力と説得力を増すか減らすかは、私が哲学と神学に伝えたい問題である。

A simplified variant of G\"odel's ontological argument is presented. The simplified argument is valid already in basic modal logics K or KT, it does not suffer from modal collapse, and it avoids the rather complex predicates of essence (Ess.) and necessary existence (NE) as used by G\"odel. The variant presented has been obtained as a side result of a series of theory simplification experiments conducted in interaction with a modern proof assistant system. The starting point for these experiments was the computer encoding of G\"odel's argument, and then automated reasoning techniques were systematically applied to arrive at the simplified variant presented. The presented work thus exemplifies a fruitful human-computer interaction in computational metaphysics. Whether the presented result increases or decreases the attractiveness and persuasiveness of the ontological argument is a question I would like to pass on to philosophy and theology.
翻訳日:2022-02-15 14:30:50 公開日:2022-02-13
# 法的テキスト処理のためのトランスフォーマティブベースアプローチ

Transformer-based Approaches for Legal Text Processing ( http://arxiv.org/abs/2202.06397v1 )

ライセンス: Link先を確認
Ha-Thanh Nguyen, Minh-Phuong Nguyen, Thi-Hai-Yen Vuong, Minh-Quan Bui, Minh-Chau Nguyen, Tran-Binh Dang, Vu Tran, Le-Minh Nguyen, Ken Satoh(参考訳) 本稿では,co colie 2021 自動テキスト処理コンペティションにおける様々な問題に対して,トランスフォーマティブモデルを用いたアプローチを提案する。 法律文書の処理の自動化は, 法律文書の特徴とデータ量の制限のため, 難しい課題である。 詳細な実験により,トランスフォーマティブに基づく事前学習言語モデルが,適切なアプローチで自動法的テキスト処理問題とうまく対応できることが判明した。 本稿では,問題定式化やデータ処理,拡張,事前学習,微調整など,各タスクの処理手順について詳述する。 さらに、法域、NFSP、NMSPにおける並列翻訳を利用した2つの事前訓練モデルについても紹介する。 その場合、NFSPは競争のタスク5で最先端の結果を達成する。 本論文は技術的報告に重点を置いているが,その手法の新規性は,Transformerベースのモデルを用いた自動法的文書処理においても有用である。

In this paper, we introduce our approaches using Transformer-based models for different problems of the COLIEE 2021 automatic legal text processing competition. Automated processing of legal documents is a challenging task because of the characteristics of legal documents as well as the limitation of the amount of data. With our detailed experiments, we found that Transformer-based pretrained language models can perform well with automated legal text processing problems with appropriate approaches. We describe in detail the processing steps for each task such as problem formulation, data processing and augmentation, pretraining, finetuning. In addition, we introduce to the community two pretrained models that take advantage of parallel translations in legal domain, NFSP and NMSP. In which, NFSP achieves the state-of-the-art result in Task 5 of the competition. Although the paper focuses on technical reporting, the novelty of its approaches can also be an useful reference in automated legal document processing using Transformer-based models.
翻訳日:2022-02-15 14:30:33 公開日:2022-02-13
# オフライン強化学習のための政策最適化支援

Supported Policy Optimization for Offline Reinforcement Learning ( http://arxiv.org/abs/2202.06239v1 )

ライセンス: Link先を確認
Jialong Wu, Haixu Wu, Zihan Qiu, Jianmin Wang, Mingsheng Long(参考訳) オフライン強化学習(RL)に対する政策制約手法は、通常、行動ポリシーのサポートセット内で行動を実行するためにポリシーを制約するパラメータ化または規則化を利用する。 パラメータ化手法の精巧な設計は、通常ポリシーネットワークに侵入し、追加の推論コストをもたらし、確立されたオンライン手法をフル活用できない可能性がある。 正規化手法は学習方針と行動方針の相違を減らし、これは固有の密度に基づくサポートセットの定義を誤る可能性があるため、アウト・オブ・ディストリビューション行為を効果的に回避できない。 本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)を提案する。 spotはvaeベースの密度推定器を採用し、サポートセットの振る舞いポリシーを明示的にモデル化し、単純だが効果的な密度ベースの正規化項を提示している。 オフラインRLの標準ベンチマークでは、SPOTは最先端のオフラインRLメソッドよりも大幅に優れている。 SPOTのオフライン事前訓練モデルもプラグイン可能な設計に適合し、オンラインの微調整をシームレスに行うことができる。

Policy constraint methods to offline reinforcement learning (RL) typically utilize parameterization or regularization that constrains the policy to perform actions within the support set of the behavior policy. The elaborative designs of parameterization methods usually intrude into the policy networks, which may bring extra inference cost and cannot take full advantage of well-established online methods. Regularization methods reduce the divergence between the learned policy and the behavior policy, which may mismatch the inherent density-based definition of support set thereby failing to avoid the out-of-distribution actions effectively. This paper presents Supported Policy OpTimization (SPOT), which is directly derived from the theoretical formalization of the density-based support constraint. SPOT adopts a VAE-based density estimator to explicitly model the support set of behavior policy and presents a simple but effective density-based regularization term, which can be plugged non-intrusively into off-the-shelf off-policy RL algorithms. On the standard benchmarks for offline RL, SPOT substantially outperforms state-of-the-art offline RL methods. Benefiting from the pluggable design, the offline pretrained models from SPOT can also be applied to perform online fine-tuning seamlessly.
翻訳日:2022-02-15 14:29:59 公開日:2022-02-13
# flowformer:保存フローを持つ線形変圧器

Flowformer: Linearizing Transformers with Conservation Flows ( http://arxiv.org/abs/2202.06258v1 )

ライセンス: Link先を確認
Haixu Wu, Jialong Wu, Jiehui Xu, Jianmin Wang, Mingsheng Long(参考訳) 注目機構に基づくトランスフォーマーは,様々な分野で大きな成功を収めている。 しかし、注意機構は二次的な複雑さを持ち、トランスフォーマーが多数のトークンを処理し、より大きなモデルにスケールアップすることを妨げる。 従来の手法は主に行列乗算の類似性分解と結合性を利用して線形時間注意機構を考案した。 局所性などの帰納バイアスを再導入することで、モデル一般性や表現性を犠牲にして、自明な分布への注意の退化を避ける。 本稿では、フローネットワーク理論に基づいて、特定の帰納的バイアスのない変圧器を線形化する。 我々は,学習フロー能力(注意)を通じて,ソース(値)からシンク(反感)に集約された情報フローに注目した。 この枠組みでは, フロー保存の特性を注意して適用し, 線形複雑性のフローアテンション機構を提案する。 ソースコンペティション用シンクの流入流と、シンクアロケーション用ソースの流出流をそれぞれ保存することにより、フローアテンションは特定の誘導バイアスを使わずに本質的に情報的注意を発生させる。 フローアテンションによって強化されたflowformerは、長いシーケンス、時系列、ビジョン、自然言語、強化学習など、幅広い領域の線形時間において強力なパフォーマンスをもたらす。

Transformers based on the attention mechanism have achieved impressive success in various areas. However, the attention mechanism has a quadratic complexity, significantly impeding Transformers from dealing with numerous tokens and scaling up to bigger models. Previous methods mainly utilize the similarity decomposition and the associativity of matrix multiplication to devise linear-time attention mechanisms. They avoid degeneration of attention to a trivial distribution by reintroducing inductive biases such as the locality, thereby at the expense of model generality and expressiveness. In this paper, we linearize Transformers free from specific inductive biases based on the flow network theory. We cast attention as the information flow aggregated from the sources (values) to the sinks (results) through the learned flow capacities (attentions). Within this framework, we apply the property of flow conservation with attention and propose the Flow-Attention mechanism of linear complexity. By respectively conserving the incoming flow of sinks for source competition and the outgoing flow of sources for sink allocation, Flow-Attention inherently generates informative attentions without using specific inductive biases. Empowered by the Flow-Attention, Flowformer yields strong performance in linear time for wide areas, including long sequence, time series, vision, natural language, and reinforcement learning.
翻訳日:2022-02-15 14:29:37 公開日:2022-02-13
# グラフニューラルネットワーク用グラフ適応整流線形ユニット

Graph-adaptive Rectified Linear Unit for Graph Neural Networks ( http://arxiv.org/abs/2202.06281v1 )

ライセンス: Link先を確認
Yifei Zhang, Hao Zhu, Ziqiao Meng, Piotr Koniusz, Irwin King(参考訳) グラフニューラルネットワーク(GNN)は、従来の畳み込みを非ユークリッドデータでの学習に拡張することで、目覚ましい成功を収めた。 gnnの鍵となるのは、アグリゲーションと更新という2段階のニューラルメッセージパッシングパラダイムを採用することだ。 GNNの現在の設計は、集約段階におけるトポロジー情報を考える。 しかし、更新段階では、すべてのノードが同じ更新関数を共有する。 同一更新関数は各ノードの埋め込みをランダム変数として扱うため、GNNの容量を制限する近傍間の暗黙の関係を無視する。 更新関数は通常線形変換で実装され、その後非線形アクティベーション関数が続く。 更新関数トポロジを意識して,非線形活性化関数にトポロジ情報を注入し,新しいパラメトリック活性化関数であるグラフ適応整流線形ユニット(GRELU)を提案する。 GReLUのパラメータは、ノード特徴と対応する隣接行列の両方に基づいてハイパーファンクションから得られる。 オーバーフィッティングのリスクと計算コストを低減するため,ノードと特徴の2つの独立したコンポーネントとしてハイパーファンクションを分解する。 我々は,GNNのバックボーンと様々な下流タスクを考慮し,GRELU法が効率的かつ効果的であることを示す包括的実験を行った。

Graph Neural Networks (GNNs) have achieved remarkable success by extending traditional convolution to learning on non-Euclidean data. The key to the GNNs is adopting the neural message-passing paradigm with two stages: aggregation and update. The current design of GNNs considers the topology information in the aggregation stage. However, in the updating stage, all nodes share the same updating function. The identical updating function treats each node embedding as i.i.d. random variables and thus ignores the implicit relationships between neighborhoods, which limits the capacity of the GNNs. The updating function is usually implemented with a linear transformation followed by a non-linear activation function. To make the updating function topology-aware, we inject the topological information into the non-linear activation function and propose Graph-adaptive Rectified Linear Unit (GReLU), which is a new parametric activation function incorporating the neighborhood information in a novel and efficient way. The parameters of GReLU are obtained from a hyperfunction based on both node features and the corresponding adjacent matrix. To reduce the risk of overfitting and the computational cost, we decompose the hyperfunction as two independent components for nodes and features respectively. We conduct comprehensive experiments to show that our plug-and-play GReLU method is efficient and effective given different GNN backbones and various downstream tasks.
翻訳日:2022-02-15 14:29:15 公開日:2022-02-13
# マルチモーダル学習を用いた感情ベースヘイト音声検出

Emotion Based Hate Speech Detection using Multimodal Learning ( http://arxiv.org/abs/2202.06218v1 )

ライセンス: Link先を確認
Aneri Rana and Sonali Jha(参考訳) 近年では、あらゆる年齢層、人種、民族で広く使われているため、ヘイトスピーチや攻撃的な言葉をソーシャルメディアプラットフォーム上で監視することが最重要になっている。 その結果,自然言語処理(NLP)を用いたコンテンツの自動検出に関する研究が盛んに行われている。 テキストデータのフィルタリングは成功したが、マルチメディアデータの憎悪コンテンツの検出に焦点を当てた研究は行われていない。 データストレージの容易さとソーシャルメディアプラットフォームの指数関数的な成長により、マルチメディアコンテンツはテキストデータと同じくらいインターネットを広めている。 それにもかかわらず、自動フィルタリングシステムから逃れる。 ヘイトスピーチと攻撃性は、主に視覚、音響、言語という3つのモダリティによってマルチメディアで検出できる。 我々の予備研究は、ヘイトスピーチの分類において最も重要な特徴は、話者の感情状態とその話し言葉への影響であり、それゆえ、現在の研究はこれらのモダリティに制限されていると結論づけた。 本稿では,感情を表す聴覚特徴と,憎悪コンテンツを検出するための意味特徴を組み合わせた,最初のマルチモーダル深層学習フレームワークを提案する。 以上の結果から,感情的属性を取り入れることで,ヘイトフルなマルチメディアコンテンツの検出におけるテキストモデルよりも顕著な改善が得られた。 本稿では,マルチモーダル学習を目的として収集されたhsdvd(hat speech detection video dataset)についても述べる。

In recent years, monitoring hate speech and offensive language on social media platforms has become paramount due to its widespread usage among all age groups, races, and ethnicities. Consequently, there have been substantial research efforts towards automated detection of such content using Natural Language Processing (NLP). While successfully filtering textual data, no research has focused on detecting hateful content in multimedia data. With increased ease of data storage and the exponential growth of social media platforms, multimedia content proliferates the internet as much as text data. Nevertheless, it escapes the automatic filtering systems. Hate speech and offensiveness can be detected in multimedia primarily via three modalities, i.e., visual, acoustic, and verbal. Our preliminary study concluded that the most essential features in classifying hate speech would be the speaker's emotional state and its influence on the spoken words, therefore limiting our current research to these modalities. This paper proposes the first multimodal deep learning framework to combine the auditory features representing emotion and the semantic features to detect hateful content. Our results demonstrate that incorporating emotional attributes leads to significant improvement over text-based models in detecting hateful multimedia content. This paper also presents a new Hate Speech Detection Video Dataset (HSDVD) collected for the purpose of multimodal learning as no such dataset exists today.
翻訳日:2022-02-15 14:12:49 公開日:2022-02-13
# (参考訳) StoryBuddy: フレキシブルな親参加型親子対話型ストーリーテリングのためのAI協調型チャットボット

StoryBuddy: A Human-AI Collaborative Chatbot for Parent-Child Interactive Storytelling with Flexible Parental Involvement ( http://arxiv.org/abs/2202.06205v1 )

ライセンス: CC BY 4.0
Zheng Zhang, Ying Xu, Yanhao Wang, Bingsheng Yao, Daniel Ritchie, Tongshuang Wu, Mo Yu, Dakuo Wang, Toby Jia-Jun Li(参考訳) 子どものスキル開発や親子結合に利点があるにもかかわらず、親の多くは、適切な質問を思いつくことの限界や困難のために、子供とストーリー関連の対話を行うことで、対話的なストーリーテリングにはあまり関わらない。 最近の進歩により、AIは物語から質問を生成できるようになったが、完全に自動化されたアプローチは、親の関与を排除し、教育目標を無視し、子供のエンゲージメントを過小評価する。 必要な面接や参加型デザイン(pd)の結果から,親がインタラクティブなストーリーテリング体験を作成するためのai対応システムであるstorybuddyを開発した。 storybuddyの設計は、親の関与と親子の結合の欲求と、忙しいときに親の介入を最小化するという目標の間に、動的なユーザニーズを適応させる必要性を強調した。 PDは、親のさまざまな評価と教育目標を明らかにし、StoryBuddyは質問タイプの設定を支援し、子供の進捗を追跡することで対処した。 ユーザスタディはStoryBuddyのユーザビリティを検証し、将来の親とAIのコラボレーションシステムの設計思想を提案した。

Despite its benefits for children's skill development and parent-child bonding, many parents do not often engage in interactive storytelling by having story-related dialogues with their child due to limited availability or challenges in coming up with appropriate questions. While recent advances made AI generation of questions from stories possible, the fully-automated approach excludes parent involvement, disregards educational goals, and underoptimizes for child engagement. Informed by need-finding interviews and participatory design (PD) results, we developed StoryBuddy, an AI-enabled system for parents to create interactive storytelling experiences. StoryBuddy's design highlighted the need for accommodating dynamic user needs between the desire for parent involvement and parent-child bonding and the goal of minimizing parent intervention when busy. The PD revealed varied assessment and educational goals of parents, which StoryBuddy addressed by supporting configuring question types and tracking child progress. A user study validated StoryBuddy's usability and suggested design insights for future parent-AI collaboration systems.
翻訳日:2022-02-15 14:11:54 公開日:2022-02-13
# 埋め込みによる大規模行動空間のオフポリシー評価

Off-Policy Evaluation for Large Action Spaces via Embeddings ( http://arxiv.org/abs/2202.06317v1 )

ライセンス: Link先を確認
Yuta Saito and Thorsten Joachims(参考訳) 歴史的ログデータのみを用いた新たなポリシのオフライン評価を可能にするため,コンテキスト帯におけるオフ政治評価(OPE)が現実のシステムに急速に採用されている。 残念ながら、アクションの数が大きい場合、既存のOPE推定器(そのほとんどは逆の確率スコアの重み付けに基づく)は著しく低下し、極端なバイアスとばらつきに悩まされる可能性がある。 これは、レコメンデータシステムから言語モデルまで、多くのアプリケーションでOPEの使用を後押ししている。 この問題を解決するために,アクション埋め込みがアクション空間の構造を提供する際に,余分に重み付けされた重み付けを利用する新しいOPE推定器を提案する。 本研究では,提案する推定器のバイアス,分散,平均二乗誤差を特徴付け,動作埋め込みが従来の推定器よりも統計的に有利な条件を分析する。 理論的解析に加えて,既存の推定器が多数の動作によって崩壊しても信頼性の高いOPEを実現する実験的な性能改善が可能となる。

Off-policy evaluation (OPE) in contextual bandits has seen rapid adoption in real-world systems, since it enables offline evaluation of new policies using only historic log data. Unfortunately, when the number of actions is large, existing OPE estimators -- most of which are based on inverse propensity score weighting -- degrade severely and can suffer from extreme bias and variance. This foils the use of OPE in many applications from recommender systems to language models. To overcome this issue, we propose a new OPE estimator that leverages marginalized importance weights when action embeddings provide structure in the action space. We characterize the bias, variance, and mean squared error of the proposed estimator and analyze the conditions under which the action embedding provides statistical benefits over conventional estimators. In addition to the theoretical analysis, we find that the empirical performance improvement can be substantial, enabling reliable OPE even when existing estimators collapse due to a large number of actions.
翻訳日:2022-02-15 14:05:50 公開日:2022-02-13
# loglog(t)スイッチングコストを用いたサンプル効率強化学習

Sample-Efficient Reinforcement Learning with loglog(T) Switching Cost ( http://arxiv.org/abs/2202.06385v1 )

ライセンス: Link先を確認
Dan Qiao, Ming Yin, Ming Min, Yu-Xiang Wang(参考訳) 本稿では,新しい政策の展開にコストがかかり,政策更新の回数も少なくなければならない実生活RLアプリケーションによって動機づけられた,低(政治的)スイッチングコストの強化学習(RL)問題について検討する。 本稿では,段階的探索と適応的ポリシー除去に基づく新しいアルゴリズムを提案する。これは$o(hsa \log\log t)$ の切り替えコストを必要とするが,$\widetilde{o}(\sqrt{h^4s^2at})$ の後悔を実現できる。 これは最もよく知られたスイッチングコストである$o(h^2sa\log t)$に対して、$\widetilde{o}(\mathrm{poly}(h,s,a)\sqrt{t})$で指数関数的に改善される。 上記の例では、$S,A$は、未知の遷移を持つ$H$-horizonエピソードマルコフ決定プロセスモデルにおける状態とアクションの数を表し、$T$はステップの数である。 また、任意の非回帰アルゴリズムに対して、スイッチングコストが$\Omega(HSA)$であることを示す情報理論の下限も証明する。 副産物として、我々の新しいアルゴリズム技術は、最適な切替コストが$O(HSA)$の 'emph{reward-free} 探索アルゴリズムを導出することができる。

We study the problem of reinforcement learning (RL) with low (policy) switching cost - a problem well-motivated by real-life RL applications in which deployments of new policies are costly and the number of policy updates must be low. In this paper, we propose a new algorithm based on stage-wise exploration and adaptive policy elimination that achieves a regret of $\widetilde{O}(\sqrt{H^4S^2AT})$ while requiring a switching cost of $O(HSA \log\log T)$. This is an exponential improvement over the best-known switching cost $O(H^2SA\log T)$ among existing methods with $\widetilde{O}(\mathrm{poly}(H,S,A)\sqrt{T})$ regret. In the above, $S,A$ denotes the number of states and actions in an $H$-horizon episodic Markov Decision Process model with unknown transitions, and $T$ is the number of steps. We also prove an information-theoreti cal lower bound which says that a switching cost of $\Omega(HSA)$ is required for any no-regret algorithm. As a byproduct, our new algorithmic techniques allow us to derive a \emph{reward-free} exploration algorithm with an optimal switching cost of $O(HSA)$.
翻訳日:2022-02-15 14:05:33 公開日:2022-02-13
# 移動可能かつ適応可能な運転行動予測

Transferable and Adaptable Driving Behavior Prediction ( http://arxiv.org/abs/2202.05140v2 )

ライセンス: Link先を確認
Letian Wang, Yeping Hu, Liting Sun, Wei Zhan, Masayoshi Tomizuka, Changliu Liu(参考訳) 自動運転車はいまだに路上運転の難題を解決するのに苦労しているが、人間は効率的で、移動可能で、適応可能な運転能力を持つ運転の本質を長年マスターしてきた。 運転中の人間の認知モデルと意味理解を模倣することにより,マルチエージェントの密集した交通環境における運転行動に対する高品質,転送可能,適応可能な予測を生成する階層的フレームワーク hatn を提案する。 我々の階層的手法は、高レベルの意図識別ポリシーと低レベルの軌道生成ポリシーからなる。 各サブタスクに対して,新しい意味的サブタスク定義と汎用状態表現を導入する。 これらのテクニックにより、階層的フレームワークはさまざまな駆動シナリオにまたがって転送可能である。 さらに,オンライン適応モジュールによって,個人とシナリオ間の運転行動の変動を捉えることが可能である。 対話データセットからの交差点・ラウンドアバウトにおける実交通データの軌道予測タスクにおいて,提案アルゴリズムを実演する。 本手法は, 予測精度, 伝達性, 適応性において, 他の手法よりも優れていたことが明らかとなった。 最先端のパフォーマンスをかなりの差で推し進めることで、このような改善の背後にある運転行動を理解するための認知的視点も提供します。 将来的には、より多くの研究の注意と努力が、転送性と適応性にふさわしいことを強調する。 予測と計画アルゴリズムのパフォーマンス向上が期待できるだけでなく、より基本的なのは、自動運転車のスケーラブルで一般的な展開に欠かせないことだ。

While autonomous vehicles still struggle to solve challenging situations during on-road driving, humans have long mastered the essence of driving with efficient, transferable, and adaptable driving capability. By mimicking humans' cognition model and semantic understanding during driving, we propose HATN, a hierarchical framework to generate high-quality, transferable, and adaptable predictions for driving behaviors in multi-agent dense-traffic environments. Our hierarchical method consists of a high-level intention identification policy and a low-level trajectory generation policy. We introduce a novel semantic sub-task definition and generic state representation for each sub-task. With these techniques, the hierarchical framework is transferable across different driving scenarios. Besides, our model is able to capture variations of driving behaviors among individuals and scenarios by an online adaptation module. We demonstrate our algorithms in the task of trajectory prediction for real traffic data at intersections and roundabouts from the INTERACTION dataset. Through extensive numerical studies, it is evident that our method significantly outperformed other methods in terms of prediction accuracy, transferability, and adaptability. Pushing the state-of-the-art performance by a considerable margin, we also provide a cognitive view of understanding the driving behavior behind such improvement. We highlight that in the future, more research attention and effort are deserved for transferability and adaptability. It is not only due to the promising performance elevation of prediction and planning algorithms, but more fundamentally, they are crucial for the scalable and general deployment of autonomous vehicles.
翻訳日:2022-02-15 12:21:24 公開日:2022-02-13