このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210917となっている論文です。

PDF登録状況(公開日: 20210917)

TitleAuthorsAbstract論文公表日・翻訳日
# 視覚的類似性とコミュニケーション的文脈はグラフィカルコンベンションの出現を制約する

Visual resemblance and communicative context constrain the emergence of graphical conventions ( http://arxiv.org/abs/2109.13861v1 )

ライセンス: Link先を確認
Robert D. Hawkins, Megumi Sano, Noah D. Goodman, Judith E. Fan(参考訳) フォトリアリスティックなスケッチから図式図まで、描画は視覚的な世界を伝えるための多彩な媒体を提供する。 このような幅広い外観にまたがる画像は、どのように意味を確実に伝えるのか? 視聴者は、参照するエンティティ(画像)にのみ類似する能力に基づいて描画を理解するか、または、これらのエンティティ(記号)との共有だが任意の関連に基づく描画を理解するか? 本稿では,視覚情報と社会情報の両方を統合し,効果的な視覚コミュニケーションを支援する画像意味の認知的説明の証拠を提供する。 この説明を評価するために、被験者のペアが複数の気晴らしオブジェクト間でターゲットオブジェクトのアイデンティティを繰り返し伝達するために、図面を用いたコミュニケーションタスクを用いた。 3つの実験と完全な内部複製のソーシャルキューを操作し、ペアの参加者が、タスクプラクティスや純粋に類似したアカウントだけで説明できるような、より効率的なコミュニケーションのためのレファレント特化およびインタラクション特化戦略を開発した。 さらに,モデルベース画像解析とクラウドソースによるスケッチアノテーションを組み合わせることで,純粋なコンベンションベースアカウントが予測したように,図面が任意性に向かって漂うのではなく,対象対象物に最も特徴的な視覚的特徴を体系的に保存した。 これらの知見は、視覚知覚、コミュニケーション経験、社会的文脈の複雑な相互作用を通じて、図的意味の理論を前進させ、どのようにグラフィカルな慣習が成功するかを示す。

From photorealistic sketches to schematic diagrams, drawing provides a versatile medium for communicating about the visual world. How do images spanning such a broad range of appearances reliably convey meaning? Do viewers understand drawings based solely on their ability to resemble the entities they refer to (i.e., as images), or do they understand drawings based on shared but arbitrary associations with these entities (i.e., as symbols)? In this paper, we provide evidence for a cognitive account of pictorial meaning in which both visual and social information is integrated to support effective visual communication. To evaluate this account, we used a communication task where pairs of participants used drawings to repeatedly communicate the identity of a target object among multiple distractor objects. We manipulated social cues across three experiments and a full internal replication, finding pairs of participants develop referent-specific and interaction-specific strategies for communicating more efficiently over time, going beyond what could be explained by either task practice or a pure resemblance-based account alone. Using a combination of model-based image analyses and crowdsourced sketch annotations, we further determined that drawings did not drift toward arbitrariness, as predicted by a pure convention-based account, but systematically preserved those visual features that were most distinctive of the target object. Taken together, these findings advance theories of pictorial meaning and have implications for how successful graphical conventions emerge via complex interactions between visual perception, communicative experience, and social context.
翻訳日:2021-10-03 10:40:19 公開日:2021-09-17
# PP-LCNet:軽量CPU畳み込みニューラルネットワーク

PP-LCNet: A Lightweight CPU Convolutional Neural Network ( http://arxiv.org/abs/2109.15099v1 )

ライセンス: Link先を確認
Cheng Cui, Tingquan Gao, Shengyu Wei, Yuning Du, Ruoyu Guo, Shuilong Dong, Bin Lu, Ying Zhou, Xueying Lv, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma(参考訳) 本稿では,マルチタスクにおける軽量モデルの性能向上を目的とした,pp-lcnetと呼ばれるmkldnn高速化戦略に基づく軽量cpuネットワークを提案する。 本稿では,遅延がほぼ一定である間,ネットワークの精度を向上させる技術を紹介する。 これらの改良により、PP-LCNetの精度は、同一の推論時間で以前のネットワーク構造を大幅に上回ることができる。 図1に示すように、最も最先端のモデルよりも優れています。 また、コンピュータビジョンの下流タスクでは、オブジェクト検出やセマンティックセグメンテーションなど、非常によく機能します。 すべての実験はPaddlePaddleに基づいて実施されています。 コードと事前トレーニングされたモデルはPaddleClasで利用可能だ。

We propose a lightweight CPU network based on the MKLDNN acceleration strategy, named PP-LCNet, which improves the performance of lightweight models on multiple tasks. This paper lists technologies which can improve network accuracy while the latency is almost constant. With these improvements, the accuracy of PP-LCNet can greatly surpass the previous network structure with the same inference time for classification. As shown in Figure 1, it outperforms the most state-of-the-art models. And for downstream tasks of computer vision, it also performs very well, such as object detection, semantic segmentation, etc. All our experiments are implemented based on PaddlePaddle. Code and pretrained models are available at PaddleClas.
翻訳日:2021-10-03 10:39:50 公開日:2021-09-17
# エキスパートシステムのgap-fill多重選択問題生成アルゴリズム

An Algorithm for Generating Gap-Fill Multiple Choice Questions of an Expert System ( http://arxiv.org/abs/2109.11421v1 )

ライセンス: Link先を確認
Pornpat Sirithumgul, Pimpaka Prasertsilp, Lorne Olfman(参考訳) 本研究は,gap-fill multiple choice questions (mcqs)を自動的に生成するオントロジに基づく設計,テキストマイニング,自然言語処理を含む人工知能アルゴリズムを提案することを目的とした。 本研究のシミュレーションにより,ソフトウェアテストにおけるギャップ満載MCQの生成にアルゴリズムを適用した。 シミュレーションの結果,103のオンライン文書を入力として使用することにより,ソフトウェアテスト領域のさまざまなトピックをカバーする16000以上の有効なギャップ満載MCQを自動的に生成できることがわかった。 最後に,本論文の議論部において,知識エキスパートシステムで用いられる質問プールにおいて,ギャップ満載MCQを生成するために,提案アルゴリズムをどのように適用すべきかを提案する。

This research is aimed to propose an artificial intelligence algorithm comprising an ontology-based design, text mining, and natural language processing for automatically generating gap-fill multiple choice questions (MCQs). The simulation of this research demonstrated an application of the algorithm in generating gap-fill MCQs about software testing. The simulation results revealed that by using 103 online documents as inputs, the algorithm could automatically produce more than 16 thousand valid gap-fill MCQs covering a variety of topics in the software testing domain. Finally, in the discussion section of this paper we suggest how the proposed algorithm should be applied to produce gap-fill MCQs being collected in a question pool used by a knowledge expert system.
翻訳日:2021-09-26 22:33:08 公開日:2021-09-17
# (参考訳) CTスキャンからのRibセグメンテーションのためのRibSegデータセットとストロングポイントクラウドベースライン [全文訳有]

RibSeg Dataset and Strong Point Cloud Baselines for Rib Segmentation from CT Scans ( http://arxiv.org/abs/2109.09521v1 )

ライセンス: CC BY 4.0
Jiancheng Yang, Shixuan Gu, Donglai Wei, Hanspeter Pfister, Bingbing Ni(参考訳) CTスキャンにおける手動リブ検査は臨床的に重要であるが,24リブは典型的には細長く,3Dボリュームでは斜めである。 自動リブセグメンテーション法は、リブの測定と可視化によってプロセスを高速化することができる。 しかし、先行技術は主に、一般に利用できない、計算的に非効率な高密度な3Dボリュームを扱う社内ラベル付きデータセットを使用している。 これらの問題に対処するため、公開データセットから490個のCTスキャン(11,719個のリブを含む、ラベル付きリブセグメンテーションベンチマークである \emph{RibSeg} を開発した。 地中真理生成には,既存の形態素に基づくアルゴリズムを用い,手動で解析を行った。 そして,3次元体積のリブの空間性を考慮すると,入力からスパースボクセルをしきい値とし,リブセグメンテーションのための点群ベースライン法を設計した。 提案手法は,最先端のセグメンテーション性能(Dice~$\approx95\%$) を高い効率(10\sim40\times$)で達成する。 PyTorchのRibSegデータセット、コード、モデルはhttps://github.com/M 3DV/RibSegで入手できる。

Manual rib inspections in computed tomography (CT) scans are clinically critical but labor-intensive, as 24 ribs are typically elongated and oblique in 3D volumes. Automatic rib segmentation methods can speed up the process through rib measurement and visualization. However, prior arts mostly use in-house labeled datasets that are publicly unavailable and work on dense 3D volumes that are computationally inefficient. To address these issues, we develop a labeled rib segmentation benchmark, named \emph{RibSeg}, including 490 CT scans (11,719 individual ribs) from a public dataset. For ground truth generation, we used existing morphology-based algorithms and manually refined its results. Then, considering the sparsity of ribs in 3D volumes, we thresholded and sampled sparse voxels from the input and designed a point cloud-based baseline method for rib segmentation. The proposed method achieves state-of-the-art segmentation performance (Dice~$\approx95\%$) with significant efficiency ($10\sim40\times$ faster than prior arts). The RibSeg dataset, code, and model in PyTorch are available at https://github.com/M 3DV/RibSeg.
翻訳日:2021-09-24 03:02:23 公開日:2021-09-17
# (参考訳) ユニバーサル病変検出のための非対称3次元コンテキストフュージョン [全文訳有]

Asymmetric 3D Context Fusion for Universal Lesion Detection ( http://arxiv.org/abs/2109.08684v1 )

ライセンス: CC BY 4.0
Jiancheng Yang, Yi He, Kaiming Kuang, Zudi Lin, Hanspeter Pfister, Bingbing Ni(参考訳) 高性能な3次元医用画像解析には3Dコンテキストのモデリングが不可欠である。 2Dネットワークは大規模2D教師付き事前学習の恩恵を受けるが、3Dコンテキストのキャプチャには弱い。 3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。 新たな手法として,2次元事前学習ネットワークからの変換が可能な 'emph{3D context fusion operator} が,両者の利点を活用し,大きな成功を収めた。 既存の3Dコンテキスト融合演算子は、空間対称、すなわち畳み込みのように各2Dスライス上で同一の操作を行うように設計されている。 しかし、これらの演算子は、特に入力としてわずかに3Dスライスを使用する場合、翻訳と真に同値ではない。 本稿では,異なる重みを使って異なる2次元スライスから3次元コンテキストを融合する,新しい非対称な3次元コンテキスト融合演算子(A3D)を提案する。 特に、A3DはNOT変換同変であるが、計算オーバーヘッドを伴わずに既存の対称文脈融合演算子を著しく上回っている。 我々は,CT(Computed tomography)による広汎な病変検出のための大規模パブリックデータセットであるDeepLesionベンチマークを用いて,提案手法の有効性を検証する。 提案された A3D は対称文脈融合作用素をかなりのマージンで一貫して上回り、DeepLesion 上で新しい 'emph{state of the art' を確立する。 オープンな研究を促進するため、PyTorchのコードとモデルはhttps://github.com/M 3DV/AlignShift.comで公開されています。

Modeling 3D context is essential for high-performance 3D medical image analysis. Although 2D networks benefit from large-scale 2D supervised pretraining, it is weak in capturing 3D context. 3D networks are strong in 3D context yet lack supervised pretraining. As an emerging technique, \emph{3D context fusion operator}, which enables conversion from 2D pretrained networks, leverages the advantages of both and has achieved great success. Existing 3D context fusion operators are designed to be spatially symmetric, i.e., performing identical operations on each 2D slice like convolutions. However, these operators are not truly equivariant to translation, especially when only a few 3D slices are used as inputs. In this paper, we propose a novel asymmetric 3D context fusion operator (A3D), which uses different weights to fuse 3D context from different 2D slices. Notably, A3D is NOT translation-equivari ant while it significantly outperforms existing symmetric context fusion operators without introducing large computational overhead. We validate the effectiveness of the proposed method by extensive experiments on DeepLesion benchmark, a large-scale public dataset for universal lesion detection from computed tomography (CT). The proposed A3D consistently outperforms symmetric context fusion operators by considerable margins, and establishes a new \emph{state of the art} on DeepLesion. To facilitate open research, our code and model in PyTorch are available at https://github.com/M 3DV/AlignShift.
翻訳日:2021-09-24 02:52:04 公開日:2021-09-17
# (参考訳) コンピュータが冗談を言うとき:ユーモラスな見出しの自動生成 [全文訳有]

When a Computer Cracks a Joke: Automated Generation of Humorous Headlines ( http://arxiv.org/abs/2109.08702v1 )

ライセンス: CC BY 4.0
Khalid Alnajjar and Mika H\"am\"al\"ainen(参考訳) ニュースの自動生成は、過去に新しい機関にとって大きな関心事となっている。 このような自動生成されたニュース記事の見出しは、しばしば準備済みのテンプレートで生成されたため想像に難くない。 我々は,既存の見出しのユーモラスなバージョンを生成できるヘッドライン生成のための,計算的に創造的な手法を提案する。 本システムと人間の判断結果を比較し,人間によるユーモアのタイトルと比較した。 このシステムが生み出した見出しは、人間の評価者による36%のおかしな時間と見なされている。

Automated news generation has become a major interest for new agencies in the past. Oftentimes headlines for such automatically generated news articles are unimaginative as they have been generated with ready-made templates. We present a computationally creative approach for headline generation that can generate humorous versions of existing headlines. We evaluate our system with human judges and compare the results to human authored humorous titles. The headlines produced by the system are considered funny 36\% of the time by human evaluators.
翻訳日:2021-09-24 02:40:31 公開日:2021-09-17
# (参考訳) コカイン依存症のプロテオーム不定型機械学習研究

Proteome-informed machine learning studies of cocaine addiction ( http://arxiv.org/abs/2109.08718v1 )

ライセンス: CC BY 4.0
Kaifu Gao, Dong Chen, Alfred J Robison, and Guo-Wei Wei(参考訳) コカイン依存は薬物使用障害の大部分を占め、世界中の何百万人もの生命を脅かす。 効果的な抗コカイン中毒薬を開発する必要がある。 残念ながら、過去数十年にわたる大規模な取り組みにもかかわらず、FDA(食品医薬品局)による医薬品の認可は行われていない。 主な課題は、コカイン依存の複雑な分子機構であり、コカインによって影響を受けるドーパミントランスポーター(dat)機能の上流と下流のタンパク質間の相乗的相互作用を含んでいる。 しかし、従来のin vivoやin vitroの実験では、非常に多くのタンパク質の役割を扱えず、この分野における革新的な戦略の必要性を強調している。 プロテオームインフォームド機械学習/深層学習(ML/DL)プラットフォームを提案する。 我々は,コカイン依存のためのプロテオミクス蛋白質間相互作用(ppi)ネットワークを構築し解析し,約4400万分子からトレーニングされたオートエンコーダ(ea)モデルを用いて,約6万以上の薬物候補または実験薬を潜在空間で表現する。 我々は,これらの薬剤候補のクロスターゲット分析のための32mlモデルを構築した。 さらに, これらの候補の吸収, 分布, 代謝, 排ガス, 毒性(ADMET)特性について検討した。 私たちのプラットフォームは、何十もの実験薬を含む既存の薬物候補が、我々のクロスターゲットおよびADMETスクリーニングを通過できないことを明らかにしています。 それでも、さらなる最適化のために、ほぼ最適な2つの手がかりを特定した。

Cocaine addiction accounts for a large portion of substance use disorders and threatens millions of lives worldwide. There is an urgent need to come up with efficient anti-cocaine addiction drugs. Unfortunately, no medications have been approved by the Food and Drug Administration (FDA), despite the extensive effort in the past few decades. The main challenge is the intricate molecular mechanisms of cocaine addiction, involving synergistic interactions among proteins upstream and downstream of dopamine transporter (DAT) functions impacted by cocaine. However, traditional in vivo or in vitro experiments can not address the roles of so many proteins, highlighting the need for innovative strategies in the field. We propose a proteome-informed machine learning/deep learning (ML/DL) platform to discover nearly optimal anti-cocaine addiction lead compounds. We construct and analyze proteomic protein-protein interaction (PPI) networks for cocaine dependence to identify 141 involved drug targets and represent over 60,000 associated drug candidates or experimental drugs in the latent space using an autoencoder (EA) model trained from over 104 million molecules. We build 32 ML models for cross-target analysis of these drug candidates for side effects and repurposing potential. We further screen the absorption, distribution, metabolism, excretion, and toxicity (ADMET) properties of these candidates. Our platform reveals that essentially all of the existing drug candidates, including dozens of experimental drugs, fail to pass our cross-target and ADMET screenings. Nonetheless, we have identified two nearly optimal leads for further optimization.
翻訳日:2021-09-24 02:29:14 公開日:2021-09-17
# (参考訳) 教師なしクロスドメイン必須チェーンのための効率的な変分グラフオートエンコーダ [全文訳有]

Efficient Variational Graph Autoencoders for Unsupervised Cross-domain Prerequisite Chains ( http://arxiv.org/abs/2109.08722v1 )

ライセンス: CC0 1.0
Irene Li, Vanessa Yan and Dragomir Radev(参考訳) 前提連鎖学習は、人々が新しい知識を効率的に獲得するのに役立つ。 ドメイン内の概念を学習するパスを素早く決定することができるが、他のドメインでそのようなパスを見つけるのは困難である。 本稿では,DAVGAE (Domain-Adversarial Variational Graph Autoencoders) を導入し,ドメイン間連鎖学習を効率的に行う。 我々の新しいモデルは変分グラフオートエンコーダ(VGAE)とドメイン識別器からなる。 vgaeはリンク予測を通じて概念関係を予測するように訓練され、ドメイン判別器はソースとターゲットの両方のドメインデータを入力として取り、ドメインラベルを予測するように訓練される。 最も重要なことに、この手法は入力として単純な同質グラフのみを必要とする。 本モデルは, lecturebankcdデータセット上で評価し, グラフスケールの1/10と1/3の計算時間を用いて, 最近のグラフベースベンチマークを上回った。

Prerequisite chain learning helps people acquire new knowledge efficiently. While people may quickly determine learning paths over concepts in a domain, finding such paths in other domains can be challenging. We introduce Domain-Adversarial Variational Graph Autoencoders (DAVGAE) to solve this cross-domain prerequisite chain learning task efficiently. Our novel model consists of a variational graph autoencoder (VGAE) and a domain discriminator. The VGAE is trained to predict concept relations through link prediction, while the domain discriminator takes both source and target domain data as input and is trained to predict domain labels. Most importantly, this method only needs simple homogeneous graphs as input, compared with the current state-of-the-art model. We evaluate our model on the LectureBankCD dataset, and results show that our model outperforms recent graph-based benchmarks while using only 1/10 of graph scale and 1/3 computation time.
翻訳日:2021-09-24 02:27:24 公開日:2021-09-17
# (参考訳) ChipQA: 時空チップによる非参照ビデオ品質予測 [全文訳有]

ChipQA: No-Reference Video Quality Prediction via Space-Time Chips ( http://arxiv.org/abs/2109.08726v1 )

ライセンス: CC BY 4.0
Joshua P. Ebenezer, Zaixi Shang, Yongjun Wu, Hai Wei, Sriram Sethuraman, Alan C. Bovik(参考訳) ノン参照ビデオ品質評価(VQA)のための新しいモデルを提案する。 提案手法では,高局所化時空スライス(stチップ)の考え方である時空チップ(stチップ)を用いる。 STチップ(ST Chips)は、ビデオデータのローカライズされたカットで、textit{implicitly} の動きをキャプチャする。 まず、知覚的モチベーションのバンドパスと正規化モデルを用いて、まずビデオデータを処理し、次に、自然ビデオ統計のパラメトリックモデルにどの程度適合するかに基づいて、向き付けされたstチップを選択する。 これらの統計を記述したパラメータは,参照映像を必要とせずに,映像の品質を確実に予測できることを示す。 提案手法は,STビデオの自然さと自然さからの逸脱を暗黙的にモデル化する。 我々は,複数の大規模VQAデータベース上でモデルを訓練・テストし,動作計算を必要とせず,最先端の性能を低コストで実現できることを示す。

We propose a new model for no-reference video quality assessment (VQA). Our approach uses a new idea of highly-localized space-time (ST) slices called Space-Time Chips (ST Chips). ST Chips are localized cuts of video data along directions that \textit{implicitly} capture motion. We use perceptually-motivat ed bandpass and normalization models to first process the video data, and then select oriented ST Chips based on how closely they fit parametric models of natural video statistics. We show that the parameters that describe these statistics can be used to reliably predict the quality of videos, without the need for a reference video. The proposed method implicitly models ST video naturalness, and deviations from naturalness. We train and test our model on several large VQA databases, and show that our model achieves state-of-the-art performance at reduced cost, without requiring motion computation.
翻訳日:2021-09-24 02:14:48 公開日:2021-09-17
# (参考訳) 教師なしビュー不変の姿勢表現 [全文訳有]

Unsupervised View-Invariant Human Posture Representation ( http://arxiv.org/abs/2109.08730v1 )

ライセンス: CC BY 4.0
Faegheh Sardari, Bj\"orn Ommer, Majid Mirmehdi(参考訳) 最近のview-invariant action recognition and performance assessmentのアプローチでは、大量のアノテーション付き3dスケルトンデータを使用してビュー不変な特徴を抽出する。 しかし、3dスケルトンデータの取得は、現実的でないにしても、野生のシナリオでは面倒なことがある。 本研究では,3次元関節データを用いずに2次元画像から視点不変な3次元ポーズ表現を抽出する手法を提案する。 本モデルは,異なる視点からの同時フレーム間における人間のポーズの内在的なビュー不変特性と,同じ視点からの拡張フレーム間の同変特性を利用して訓練する。 2つの下流タスクに対する学習されたビュー不変ポーズ表現を評価する。 我々は,RGB画像と深度画像の両方において,NTU RGB+Dにおける最先端の教師なしクロスビュー動作分類精度の改善を示す比較実験を行った。 また、ntu rgb+d から学習表現を転送し、マルチビューの人間動作品質データセット qmar 上で、初めて教師なしのクロスビューとクロスサブジェクトのランク相関結果を得る効率を示し、このデータセットに対する最先端の教師付き結果について限界的に改善する。 また,提案するネットワークの異なる構成要素の寄与を調べるため,アブレーション研究を行った。

Most recent view-invariant action recognition and performance assessment approaches rely on a large amount of annotated 3D skeleton data to extract view-invariant features. However, acquiring 3D skeleton data can be cumbersome, if not impractical, in in-the-wild scenarios. To overcome this problem, we present a novel unsupervised approach that learns to extract view-invariant 3D human pose representation from a 2D image without using 3D joint data. Our model is trained by exploiting the intrinsic view-invariant properties of human pose between simultaneous frames from different viewpoints and their equivariant properties between augmented frames from the same viewpoint. We evaluate the learned view-invariant pose representations for two downstream tasks. We perform comparative experiments that show improvements on the state-of-the-art unsupervised cross-view action classification accuracy on NTU RGB+D by a significant margin, on both RGB and depth images. We also show the efficiency of transferring the learned representations from NTU RGB+D to obtain the first ever unsupervised cross-view and cross-subject rank correlation results on the multi-view human movement quality dataset, QMAR, and marginally improve on the-state-of-the-art supervised results for this dataset. We also carry out ablation studies to examine the contributions of the different components of our proposed network.
翻訳日:2021-09-24 01:47:54 公開日:2021-09-17
# (参考訳) 半スーパービジョンFew-Shotインテント分類とスロットフィリング [全文訳有]

Semi-Supervised Few-Shot Intent Classification and Slot Filling ( http://arxiv.org/abs/2109.08754v1 )

ライセンス: CC BY-SA 4.0
Samyadeep Basu, Karine lp Kiun Chong, Amr Sharaf, Alex Fischer, Vishal Rohra, Michael Amoake, Hazem El-Hammamy, Ehi Nosakhare, Vijay Ramani, Benjamin Han(参考訳) インテント分類(IC)とスロットフィリング(SF)は、現代の自然言語理解(NLU)システムにおける2つの基本的なタスクである。 このようなシステムのディープラーニングモデルをトレーニングするために大量のデータを収集し、注釈付けすることは、スケーラブルではありません。 この問題は、プロトタイプネットワークのような高速教師付きメタラーニング技術を用いて、少数の例から学習することで解決できる。 本研究では,協調型IC/SFタスクにおいて,既存の教師付きメタ学習パイプラインに対して,コントラスト学習と教師なしデータ拡張がどのような効果をもたらすかを系統的に検討する。 提案手法は,標準IC/SFベンチマーク(SNIPSおよびATIS)の広範な実験を通じて,標準教師付きメタラーニング手法よりも優れていることを示す。

Intent classification (IC) and slot filling (SF) are two fundamental tasks in modern Natural Language Understanding (NLU) systems. Collecting and annotating large amounts of data to train deep learning models for such systems is not scalable. This problem can be addressed by learning from few examples using fast supervised meta-learning techniques such as prototypical networks. In this work, we systematically investigate how contrastive learning and unsupervised data augmentation methods can benefit these existing supervised meta-learning pipelines for jointly modelled IC/SF tasks. Through extensive experiments across standard IC/SF benchmarks (SNIPS and ATIS), we show that our proposed semi-supervised approaches outperform standard supervised meta-learning methods: contrastive losses in conjunction with prototypical networks consistently outperform the existing state-of-the-art for both IC and SF tasks, while data augmentation strategies primarily improve few-shot IC by a significant margin.
翻訳日:2021-09-24 01:33:05 公開日:2021-09-17
# (参考訳) 局所重み付き平均位相角(LWMPA)に基づくトーンマッピング品質指標(TMQI-3) [全文訳有]

Locally Weighted Mean Phase Angle (LWMPA) Based Tone Mapping Quality Index (TMQI-3) ( http://arxiv.org/abs/2109.08774v1 )

ライセンス: CC0 1.0
Inaam Ul Hassan, Abdul Haseeb, Sarwan Ali(参考訳) 高ダイナミックレンジ(hdr)画像は、標準画像に比べてより広い光度を含む画像である。 HDR画像は、標準画像に欠けている構造、オブジェクト、色の詳細と明快さを持っている。 HDR画像は、高輝度、暗い領域、影などのシーンを撮影するのに有用である。 HDR画像は、複数の狭域露光画像を1つの高品質画像に合成する。 これらのHDR画像は標準表示装置では表示できないため、実際の課題はこれらのHDR画像をLow Dynamic Range (LDR)画像に変換することである。 トーンマップ演算子(TMO)を用いてHDR画像からLDR画像への変換を行う。 この変換により、構造、色、自然性、露出において非常に貴重な情報が失われる。 LDR画像における情報の喪失は、直接人間の目には見えないかもしれない。 変換後のLDR画像の精度を計算するために,これまで様々な指標が提案されてきた。 いくつかは耐雑音性がなく、別の色チャンネル(赤、緑、青)で作業し、いくつかは構造を特定する能力がない。 この問題に対処するため,本論文では,目標スコアに基づいてLDR画像の品質を評価するトーンマッピング品質指標(TMQI-3)を提案する。 TMQI-3は耐雑音性があり、構造と自然性を考慮し、3つの色チャネル全てを1つの光度成分に統合する。 これにより、複数のメトリクスを同時に使用する必要がなくなる。 文献から得られた複数のhdrおよびldr画像の結果を算出し,品質指標指標がベースラインモデルよりも優れた性能を示す。

High Dynamic Range (HDR) images are the ones that contain a greater range of luminosity as compared to the standard images. HDR images have a higher detail and clarity of structure, objects, and color, which the standard images lack. HDR images are useful in capturing scenes that pose high brightness, darker areas, and shadows, etc. An HDR image comprises multiple narrow-range-exposur e images combined into one high-quality image. As these HDR images cannot be displayed on standard display devices, the real challenge comes while converting these HDR images to Low dynamic range (LDR) images. The conversion of HDR image to LDR image is performed using Tone-mapped operators (TMOs). This conversion results in the loss of much valuable information in structure, color, naturalness, and exposures. The loss of information in the LDR image may not directly be visible to the human eye. To calculate how good an LDR image is after conversion, various metrics have been proposed previously. Some are not noise resilient, some work on separate color channels (Red, Green, and Blue one by one), and some lack capacity to identify the structure. To deal with this problem, we propose a metric in this paper called the Tone Mapping Quality Index (TMQI-3), which evaluates the quality of the LDR image based on its objective score. TMQI-3 is noise resilient, takes account of structure and naturalness, and works on all three color channels combined into one luminosity component. This eliminates the need to use multiple metrics at the same time. We compute results for several HDR and LDR images from the literature and show that our quality index metric performs better than the baseline models.
翻訳日:2021-09-24 01:21:30 公開日:2021-09-17
# (参考訳) ノイズ状態観測に対する分散強化学習のロバスト性を探る [全文訳有]

Exploring the Robustness of Distributional Reinforcement Learning against Noisy State Observations ( http://arxiv.org/abs/2109.08776v1 )

ライセンス: CC BY 4.0
Ke Sun, Yi Liu, Yingnan Zhao, Hengshuai Yao, Shangling Jui, Linglong Kong(参考訳) 実際のシナリオでは、エージェントが観察する状態観察には、測定エラーや逆向きのノイズが含まれ、エージェントが最適でない行動をとるように誤解したり、トレーニング中に崩壊することがある。 本稿では,分布強化学習(rl)のトレーニングロバスト性について検討する。本研究は,全回帰の期待値に対して,全体の分布を推定する最先端手法のクラスである。 まず, 有意なマルコフ決定過程~(sn-mdp) を提案し, 期待値と分布値の両方のベルマン作用素の縮小を導出するランダム状態観測ノイズと逆状態観測ノイズの両方を取り込む。 関数近似によるSN-MDPを超えて、ヒストグラムに基づく分布損失の有界勾配ノルムを理論的に特徴づけ、分布RLのより優れたトレーニングロバスト性を考慮した。 また,よりフレキシブルな状態雑音下での時間差~(td)学習のより厳密な収束条件と,影響関数の活用による感度解析を提供する。 最後に、ゲームスイートにおける広範な実験により、分布RLは、様々な状態観測ノイズにまたがる期待に基づくものと比較して、より優れたトレーニングロバスト性を持つことが示された。

In real scenarios, state observations that an agent observes may contain measurement errors or adversarial noises, misleading the agent to take suboptimal actions or even collapse while training. In this paper, we study the training robustness of distributional Reinforcement Learning~(RL), a class of state-of-the-art methods that estimate the whole distribution, as opposed to only the expectation, of the total return. Firstly, we propose State-Noisy Markov Decision Process~(SN-MDP) in the tabular case to incorporate both random and adversarial state observation noises, in which the contraction of both expectation-based and distributional Bellman operators is derived. Beyond SN-MDP with the function approximation, we theoretically characterize the bounded gradient norm of histogram-based distributional loss, accounting for the better training robustness of distribution RL. We also provide stricter convergence conditions of the Temporal-Difference~ (TD) learning under more flexible state noises, as well as the sensitivity analysis by the leverage of influence function. Finally, extensive experiments on the suite of games show that distributional RL enjoys better training robustness compared with its expectation-based counterpart across various state observation noises.
翻訳日:2021-09-23 13:27:58 公開日:2021-09-17
# (参考訳) 信頼度推定のための容量抵抗モデルとリカレントニューラルネットワーク : 比較検討 [全文訳有]

Capacitance Resistance Model and Recurrent Neural Network for Well Connectivity Estimation : A Comparison Study ( http://arxiv.org/abs/2109.08779v1 )

ライセンス: CC BY 4.0
Deepthi Sen(参考訳) 本報告では,水浸し状態下での良好な生産を予測するためのデータ駆動モデルとして,容量抵抗モデル(crm)とリカレントニューラルネットワーク(rnn)を比較した。 どちらのモデルも完全にデータ駆動であり、歴史的データから洪水時の貯水池の挙動を学ぶことを意図している。 このレポートは、関連するGitHubリポジトリから入手可能なCRMモデルのpythonベースの実装の技術的ガイドとなる。

In this report, two commonly used data-driven models for predicting well production under a waterflood setting: the capacitance resistance model (CRM) and recurrent neural networks (RNN) are compared. Both models are completely data-driven and are intended to learn the reservoir behavior during a water flood from historical data. This report serves as a technical guide to the python-based implementation of the CRM model available from the associated GitHub repository.
翻訳日:2021-09-23 13:03:48 公開日:2021-09-17
# (参考訳) 深層学習に基づく都市鉄道路線におけるストップスキッピング戦略の最適化手法 [全文訳有]

A Deep-Learning Based Optimization Approach to Address Stop-Skipping Strategy in Urban Rail Transit Lines ( http://arxiv.org/abs/2109.08786v1 )

ライセンス: CC BY-SA 4.0
Mohammadjavad Javadinasr, Amir Bahador Parsa, and Abolfazl (Kouros) Mohammadian(参考訳) 駅の旅客需要率の違いは、需要対応サービスを提供するための運用戦略を採用することの重要性を強調している。 本研究は, 乗客の移動時間を改善することを目的として, 都市鉄道路線における最適なストップスキップパターンを決定するためのデータ駆動最適化手法を提案する。 まず,1ヶ月間の時系列スマートカードデータを用いて,長時間短期記憶(lstm)深層学習モデルを用いて,ピーク時の局レベルの需要率を予測した。 この予測は、前回の4時間に基づいており、特にピーク時の真の需要率が、ピーク時の動作終了後にのみ取得可能な後部情報であることを知ることが重要である。 さらに、固定需要率を仮定する代わりにリアルタイム予測を利用することで、その後の分析に有害な予期せぬリアルタイム変化を考慮できる。 そして、最適化モデルへの入力としてLSTMモデルの出力を、パトロンの総走行時間を最小化する目的で統合する。 本稿では,この問題の指数関数的性質を考慮し,好適な時間内に解く ant コロニー最適化手法を提案する。 最後に,提案モデルと解法アルゴリズムの性能を実ケースデータを用いて評価する。 提案手法は,車内時間と待ち時間の両方を改善することにより,サービスの性能を向上させることができることが示唆された。

Different passenger demand rates in transit stations underscore the importance of adopting operational strategies to provide a demand-responsive service. Aiming at improving passengers' travel time, the present study introduces an advanced data-driven optimization approach to determine the optimal stop-skip pattern in urban rail transit lines. In detail, first, using the time-series smart card data for an entire month, we employ a Long Short-Term Memory (LSTM) deep learning model to predict the station-level demand rates for the peak hour. This prediction is based on four preceding hours and is especially important knowing that the true demand rates of the peak hour are posterior information that can be obtained only after the peak hour operation is finished. Moreover, utilizing a real-time prediction instead of assuming fixed demand rates, allows us to account for unexpected real-time changes which can be detrimental to the subsequent analyses. Then, we integrate the output of the LSTM model as an input to an optimization model with the objective of minimizing patrons' total travel time. Considering the exponential nature of the problem, we propose an Ant Colony Optimization technique to solve the problem in a desirable amount of time. Finally, the performance of the proposed models and the solution algorithm is assessed using real case data. The results suggest that the proposed approach can enhance the performance of the service by improving both passengers' in-vehicle time as well as passengers' waiting time.
翻訳日:2021-09-23 12:58:19 公開日:2021-09-17
# 大規模多言語機械翻訳のためのバックトランスレーション

Back-translation for Large-Scale Multilingual Machine Translation ( http://arxiv.org/abs/2109.08712v1 )

ライセンス: Link先を確認
Baohao Liao, Shahram Khadivi, Sanjika Hewavitharana(参考訳) 本稿では,機械翻訳に関する第6回会議(WMT-21)において,大規模多言語機械翻訳における共有タスクへのアプローチについて述べる。 本研究の目的は、普遍的な言語間表現が、より優れた多言語翻訳性能をもたらすという仮説に基づく、単一の多言語翻訳システムの構築である。 バイリンガル翻訳から多言語翻訳まで,様々なバックトランスレーション手法の探索を展開する。 バイリンガル翻訳の検索と異なる制約付きサンプリング法により、より優れた性能が得られる。 また,語彙の影響や合成データの量についても検討する。 意外なことに、語彙のサイズが小さいほどパフォーマンスが良く、英語の広範にわたるデータは、ささやかな改善をもたらす。 私たちは両方の小さなタスクを提出し、2位を達成しました。

This paper illustrates our approach to the shared task on large-scale multilingual machine translation in the sixth conference on machine translation (WMT-21). This work aims to build a single multilingual translation system with a hypothesis that a universal cross-language representation leads to better multilingual translation performance. We extend the exploration of different back-translation methods from bilingual translation to multilingual translation. Better performance is obtained by the constrained sampling method, which is different from the finding of the bilingual translation. Besides, we also explore the effect of vocabularies and the amount of synthetic data. Surprisingly, the smaller size of vocabularies perform better, and the extensive monolingual English data offers a modest improvement. We submitted to both the small tasks and achieved the second place.
翻訳日:2021-09-21 17:00:28 公開日:2021-09-17
# Altruistic Harris Hawks 最適化アルゴリズムを用いた脳MRIの分割

Segmentation of Brain MRI using an Altruistic Harris Hawks' Optimization algorithm ( http://arxiv.org/abs/2109.08688v1 )

ライセンス: Link先を確認
Rajarshi Bandyopadhyay, Rohit Kundu, Diego Oliva, Ram Sarkar(参考訳) デジタル画像が病気の診断、特に後部タスクで分析や疾患の特定に使用される場合、セグメンテーションは医学において必須の要件である。 脳磁気共鳴画像(MRI)の高効率なセグメンテーションは、照射不良や画像の脱取得に関連する他の条件により、放射線技師にとって大きな関心事である。 しきい値付けは、画像のヒストグラムを使用して異なる均質な画素のグループを異なるクラスに分類する一般的なセグメンテーションの方法である。 しかし、計算コストは閾値の数に応じて指数関数的に増加する。 本稿では,進化的メタヒューリスティックを用いてマルチレベルしきい値処理を行う。 これは、カオス的初期化と利他主義の概念を組み合わせたハリス・ホークス最適化(hho)アルゴリズムの改良版である。 さらに、適合度割当には、クロスエントロピー最小化とともに、新しいエントロピー関数を適用し、2つの目的関数に重みを利用するハイブリッド目的関数を用いて、新しいハイブリッドアプローチを形成する。 HHOは元々、数値最適化問題を解くために設計された。 以前、統計結果と比較により、HHOは確立されたメタヒューリスティック技術と比較して非常に有望な結果をもたらすことが示された。 本稿では、この利他主義をHHOアルゴリズムに組み込んで、その活用能力を高める。 本稿では,ハーバード大学医学部wbaデータベースのベンチマーク画像10枚と,brainwebデータセットのベンチマーク画像8枚について,標準評価指標を用いて評価を行った。

Segmentation is an essential requirement in medicine when digital images are used in illness diagnosis, especially, in posterior tasks as analysis and disease identification. An efficient segmentation of brain Magnetic Resonance Images (MRIs) is of prime concern to radiologists due to their poor illumination and other conditions related to de acquisition of the images. Thresholding is a popular method for segmentation that uses the histogram of an image to label different homogeneous groups of pixels into different classes. However, the computational cost increases exponentially according to the number of thresholds. In this paper, we perform the multi-level thresholding using an evolutionary metaheuristic. It is an improved version of the Harris Hawks Optimization (HHO) algorithm that combines the chaotic initialization and the concept of altruism. Further, for fitness assignment, we use a hybrid objective function where along with the cross-entropy minimization, we apply a new entropy function, and leverage weights to the two objective functions to form a new hybrid approach. The HHO was originally designed to solve numerical optimization problems. Earlier, the statistical results and comparisons have demonstrated that the HHO provides very promising results compared with well-established metaheuristic techniques. In this article, the altruism has been incorporated into the HHO algorithm to enhance its exploitation capabilities. We evaluate the proposed method over 10 benchmark images from the WBA database of the Harvard Medical School and 8 benchmark images from the Brainweb dataset using some standard evaluation metrics.
翻訳日:2021-09-21 16:58:37 公開日:2021-09-17
# ニューラルテキストの劣化と露光バイアスの関係

Relating Neural Text Degeneration to Exposure Bias ( http://arxiv.org/abs/2109.08705v1 )

ライセンス: Link先を確認
Ting-Rui Chiang, Yun-Nung Chen(参考訳) この研究は、ニューラルネットワークによるテキスト生成における2つのミステリー(露出バイアスとテキスト変性)の関連に焦点を当てている。 露出バイアスが言及されてから長い時間が経ち、その治療に関する多くの研究が、我々の知識に対して、テキスト生成への影響はまだ検証されていない。 テキスト・デジェネレーションは、広く使われている事前訓練言語モデル GPT-2 が最近、Holtzman et al., 2020) に悩まされている問題である。 テキスト変性の未知の因果関係に動機づけられ,本稿ではこれら2つの謎を関連付ける。 具体的には,テキストの劣化が起こる前に犯した誤りを定量的に定量化する。 そして, GPT-2における隠れ状態の検査により, 誤りの意義について検討した。 以上の結果から,テキストの劣化は露出バイアスによるものである可能性が示唆された。 また,テキスト・デジェネレーションの自己強化機構について考察し,誤りが増幅する理由を説明する。 本研究は,露光バイアスとテキスト変性問題のさらなる調査のためのより具体的な基礎を提供する。

This work focuses on relating two mysteries in neural-based text generation: exposure bias, and text degeneration. Despite the long time since exposure bias was mentioned and the numerous studies for its remedy, to our knowledge, its impact on text generation has not yet been verified. Text degeneration is a problem that the widely-used pre-trained language model GPT-2 was recently found to suffer from (Holtzman et al., 2020). Motivated by the unknown causation of the text degeneration, in this paper we attempt to relate these two mysteries. Specifically, we first qualitatively quantitatively identify mistakes made before text degeneration occurs. Then we investigate the significance of the mistakes by inspecting the hidden states in GPT-2. Our results show that text degeneration is likely to be partly caused by exposure bias. We also study the self-reinforcing mechanism of text degeneration, explaining why the mistakes amplify. In sum, our study provides a more concrete foundation for further investigation on exposure bias and text degeneration problems.
翻訳日:2021-09-21 16:54:23 公開日:2021-09-17
# ANDおよびOR演算子に対するTsetlinマシンの収束性について

On the Convergence of Tsetlin Machines for the AND and the OR Operators ( http://arxiv.org/abs/2109.09488v1 )

ライセンス: Link先を確認
Lei Jiao, Xuan Zhang, Ole-Christoffer Granmo(参考訳) Tsetlin Machine (TM) は命題論理に基づく新しい機械学習アルゴリズムであり、いくつかのパターン認識問題に対して最先端の性能を得た。 これまでの研究では, 1ビット演算とXOR演算に対するTMの収束特性を解析した。 本稿では,基本デジタル操作の解析を完了させるため,入力トレーニングサンプルがそれぞれANDおよびOR演算子に従う場合の収束度を解析する。 解析の結果、TMは、無限時間水平線上のトレーニングデータから学習した AND および OR 演算子にほぼ確実に収束できることが判明した。 および/または演算子の解析は、以前に解析された1ビットおよびxor演算とともに、ブール代数における基本作用素の収束解析を完結させる。

The Tsetlin Machine (TM) is a novel machine-learning algorithm based on propositional logic, which has obtained state-of-the-art performance on several pattern recognition problems. In previous studies, the convergence properties of TM for 1-bit operation and XOR operation have been analyzed. To make the analyses for the basic digital operations complete, in this article, we analyze the convergence when input training samples follow AND and OR operators respectively. Our analyses reveal that the TM can converge almost surely to reproduce AND and OR operators, which are learnt from training data over an infinite time horizon. The analyses on AND and OR operators, together with the previously analysed 1-bit and XOR operations, complete the convergence analyses on basic operators in Boolean algebra.
翻訳日:2021-09-21 16:52:24 公開日:2021-09-17
# DeepPhysics: リアルタイムシミュレーションのための物理を意識したディープラーニングフレームワーク

DeepPhysics: a physics aware deep learning framework for real-time simulation ( http://arxiv.org/abs/2109.09491v1 )

ライセンス: Link先を確認
Alban Odot (MIMESIS), Ryadh Haferssas (MIMESIS), St\'ephane Cotin (MIMESIS)(参考訳) コンピュータ誘導手術から機械工学におけるインタラクティブデザインに至るまで、弾性構造のリアルタイムシミュレーションは多くの応用において不可欠である。 有限要素法はしばしば、これらの問題に関連する偏微分方程式を解くための参照法として用いられる。 しかし、近年、深層学習法は物理学に基づく問題1,2,3を解決するための代替戦略を表現できることが示されている。 本稿では,境界条件と結果の変位場との間の非線形関係をニューラルネットワークで学習する,データ駆動型手法を用いて超弾性材料をシミュレートする手法を提案する。 また,ソリューションの妥当性を保証する手法を提案する。 本稿では、モーダル解析に基づく最適化されたデータセット生成アルゴリズム、物理インフォームド損失関数、ハイブリッドニュートン・ラフソンアルゴリズムの3つの貢献点について述べる。 この方法はカンチレバービームとプロペラの2つのベンチマークに適用される。 その結果, 限られたデータ量でトレーニングしたネットワークアーキテクチャは, 1ミリ秒未満で変位場を予測できることがわかった。 様々なジオメトリ、トポロジー、メッシュ分解能、境界条件の予測は、数センチの振幅の非線形変形に対して数マイクロメートルに正確である。

Real-time simulation of elastic structures is essential in many applications, from computer-guided surgical interventions to interactive design in mechanical engineering. The Finite Element Method is often used as the numerical method of reference for solving the partial differential equations associated with these problems. Yet, deep learning methods have recently shown that they could represent an alternative strategy to solve physics-based problems 1,2,3. In this paper, we propose a solution to simulate hyper-elastic materials using a data-driven approach, where a neural network is trained to learn the non-linear relationship between boundary conditions and the resulting displacement field. We also introduce a method to guarantee the validity of the solution. In total, we present three contributions: an optimized data set generation algorithm based on modal analysis, a physics-informed loss function, and a Hybrid Newton-Raphson algorithm. The method is applied to two benchmarks: a cantilever beam and a propeller. The results show that our network architecture trained with a limited amount of data can predict the displacement field in less than a millisecond. The predictions on various geometries, topologies, mesh resolutions, and boundary conditions are accurate to a few micrometers for non-linear deformations of several centimeters of amplitude.
翻訳日:2021-09-21 16:52:12 公開日:2021-09-17
# 医用画像解析における自己教師あり学習法と応用:調査

Self-supervised learning methods and applications in medical imaging analysis: A survey ( http://arxiv.org/abs/2109.08685v1 )

ライセンス: Link先を確認
Saeed Shurrab, Rehab Duwiari(参考訳) 高品質な注釈付医用画像データセットが利用できることは、医療画像解析の分野で機械学習アプリケーションと衝突し、その進歩を妨げる主要な問題である。 自己指導型学習は、人間のアノテーションを必要とせず、堅牢な表現を学習できる最近の訓練パラダイムであり、注釈付き医療データの不足に対する効果的な解決策とみなすことができる。 本稿では、医用画像解析分野における画像データへの自己教師付き学習アプローチの最先端研究の方向性について概説する。 本稿では,コンピュータビジョン分野からの最新の自己教師型学習手法の集合を医療画像解析に適用し,それらを予測的,生成的,コントラスト的アプローチとして分類する。 さらに, 医学画像解析における自己教師あり学習の分野における最近の研究の40点を取り上げ, この分野の最近のイノベーションに光を当てることを目的としている。 最終的に、この記事はこの分野における将来の研究の方向性で締めくくられる。

The availability of high quality annotated medical imaging datasets is a major problem that collides with machine learning applications in the field of medical imaging analysis and impedes its advancement. Self-supervised learning is a recent training paradigm that enables learning robust representations without the need for human annotation which can be considered as an effective solution for the scarcity in annotated medical data. This article reviews the state-of-the-art research directions in self-supervised learning approaches for image data with concentration on their applications in the field of medical imaging analysis. The article covers a set of the most recent self-supervised learning methods from the computer vision field as they are applicable to the medical imaging analysis and categorize them as predictive, generative and contrastive approaches. Moreover, the article covers (40) of the most recent researches in the field of self-supervised learning in medical imaging analysis aiming at shedding the light on the recent innovation in the field. Ultimately, the article concludes with possible future research directions in the field.
翻訳日:2021-09-21 16:41:54 公開日:2021-09-17
# 転移性リンパ節癌に対する原発性腫瘍および臓器間増生療法

Primary Tumor and Inter-Organ Augmentations for Supervised Lymph Node Colon Adenocarcinoma Metastasis Detection ( http://arxiv.org/abs/2109.09518v1 )

ライセンス: Link先を確認
Apostolia Tsirikoglou, Karin Stacke, Gabriel Eilertsen, Jonas Unger(参考訳) ラベル付きデータの不足は、病理学応用のための正確で堅牢なディープラーニングベースのモデルを開発する上で、大きなボトルネックとなる。 この問題はリンパ節転移の検出において特に顕著であり、腫瘍と非腫瘍の比率が低かったため、病理組織に手間と時間を要する注釈処理がもたらされた。 本研究は,対象領域の限定的あるいは全く表現されていない場合の大腸癌転移検出のためのトレーニングデータの拡張方法について検討する。 トレーニングデータの可用性を限定したクロスバリアント実験を徹底的に検討し,他の組織ですでに利用可能なデータを利用したorgan間アプローチと,原発腫瘍を用いたorgan内アプローチの両方を評価した。 どちらのアプローチも、追加のアノテーションの努力をほとんど、あるいは全く行わない。 以上より,これらのデータ拡張戦略は,転移検出の正確性を高める効果的な方法であるが,最も堅牢性が向上する可能性が示唆された。

The scarcity of labeled data is a major bottleneck for developing accurate and robust deep learning-based models for histopathology applications. The problem is notably prominent for the task of metastasis detection in lymph nodes, due to the tissue's low tumor-to-non-tumor ratio, resulting in labor- and time-intensive annotation processes for the pathologists. This work explores alternatives on how to augment the training data for colon carcinoma metastasis detection when there is limited or no representation of the target domain. Through an exhaustive study of cross-validated experiments with limited training data availability, we evaluate both an inter-organ approach utilizing already available data for other tissues, and an intra-organ approach, utilizing the primary tumor. Both these approaches result in little to no extra annotation effort. Our results show that these data augmentation strategies can be an efficient way of increasing accuracy on metastasis detection, but fore-most increase robustness.
翻訳日:2021-09-21 16:40:27 公開日:2021-09-17
# WMT21品質評価共有タスクのJHU-Microsoft提出

The JHU-Microsoft Submission for WMT21 Quality Estimation Shared Task ( http://arxiv.org/abs/2109.08724v1 )

ライセンス: Link先を確認
Shuoyang Ding, Marcin Junczys-Dowmunt, Matt Post, Christian Federmann, Philipp Koehn(参考訳) 本稿では,WMT 2021の品質評価共有タスクに対するJHU-Microsoft共同提案を提案する。 我々は,目標側の単語レベルの品質評価に着目し,共有タスクのタスク2(後編集作業推定)にのみ参加する。 私たちが試したテクニックは、前方、後方、ラウンドトリップ翻訳、MT出力の擬似後編集を組み合わせたLevenshtein Transformerトレーニングとデータ拡張です。 我々は,広く採用されているOpenKiwi-XLMベースラインと比較して,システムの競争力を示す。 また,本システムは,英語とドイツ語のペアのMT MCC測定値の上位システムでもある。

This paper presents the JHU-Microsoft joint submission for WMT 2021 quality estimation shared task. We only participate in Task 2 (post-editing effort estimation) of the shared task, focusing on the target-side word-level quality estimation. The techniques we experimented with include Levenshtein Transformer training and data augmentation with a combination of forward, backward, round-trip translation, and pseudo post-editing of the MT output. We demonstrate the competitiveness of our system compared to the widely adopted OpenKiwi-XLM baseline. Our system is also the top-ranking system on the MT MCC metric for the English-German language pair.
翻訳日:2021-09-21 16:40:13 公開日:2021-09-17
# JESP内有限状態制御器を用いた無限水平デコポドップの解法

Solving infinite-horizon Dec-POMDPs using Finite State Controllers within JESP ( http://arxiv.org/abs/2109.08755v1 )

ライセンス: Link先を確認
Yang You, Vincent Thomas, Francis Colas and Olivier Buffet(参考訳) 本稿では,分散POMDP(Dec-POMDPs)として形式化された協調計画問題の解決をナッシュ均衡(Nash equilibria,すなわち,各エージェントの方針が他エージェントの(固定された)ポリシーに対する最良の対応である状況)を探索することによって検討する。 JESP(Joint Equilibrium-based Search for Policies)アルゴリズムは、ポリシーツリーに依存する有限水平設定でこれを行うが、有限状態コントローラ(FSC)ポリシー表現を用いて無限水平DEC-POMDPに適応することを提案する。 本稿では,(1)$N-1$固定FSCのDec-POMDPを,ソリューションが$N^\text{th}$エージェントベスト応答である無限水平POMDPに変換する方法,(2)無限水平Dc-POMDPの解法として \infJESP と呼ばれる JESP 変種を提案すること,(3) 優れた解を目指す JESP のヒューリスティック初期化を導入すること,(4) アプローチを評価するための最先端ベンチマーク問題の実験を行うこと,について説明する。

This paper looks at solving collaborative planning problems formalized as Decentralized POMDPs (Dec-POMDPs) by searching for Nash equilibria, i.e., situations where each agent's policy is a best response to the other agents' (fixed) policies. While the Joint Equilibrium-based Search for Policies (JESP) algorithm does this in the finite-horizon setting relying on policy trees, we propose here to adapt it to infinite-horizon Dec-POMDPs by using finite state controller (FSC) policy representations. In this article, we (1) explain how to turn a Dec-POMDP with $N-1$ fixed FSCs into an infinite-horizon POMDP whose solution is an $N^\text{th}$ agent best response; (2) propose a JESP variant, called \infJESP, using this to solve infinite-horizon Dec-POMDPs; (3) introduce heuristic initializations for JESP aiming at leading to good solutions; and (4) conduct experiments on state-of-the-art benchmark problems to evaluate our approach.
翻訳日:2021-09-21 16:35:11 公開日:2021-09-17
# 混合照明シーンのホワイトバランス補正

Auto White-Balance Correction for Mixed-Illuminant Scenes ( http://arxiv.org/abs/2109.08750v1 )

ライセンス: Link先を確認
Mahmoud Afifi, Marcus A. Brubaker, Michael S. Brown(参考訳) 撮影時にカメラハードウェアによりオートホワイトバランス(awb)を適用し、シーン照明によるカラーキャストを除去する。 ホワイトバランスアルゴリズムの大多数は1つの光源がシーンを照らすと仮定しているが、実際のシーンはしばしば混合照明条件を持つ。 本稿では,この混合照明シーンに有効なAWB手法を提案する。 従来のAWBとは一線を画しているため,従来のカメラAWBモジュールと同様,発光量の推定は不要である。 そこで本手法では,撮影シーンを予め定義したホワイトバランス設定の小さなセットでレンダリングする。 この画像の集合を考慮に入れ,最終的な補正画像を生成するためにレンダリング画像のブレンドに使用される重み付けマップを推定する。 提案手法は,単一および混合照明シーン色補正の代替品と比較して有望な結果が得られることを示す。 ソースコードとトレーニングされたモデルは、https://github.com/m ahmoudnafifi/mixedil lwbで利用可能です。

Auto white balance (AWB) is applied by camera hardware at capture time to remove the color cast caused by the scene illumination. The vast majority of white-balance algorithms assume a single light source illuminates the scene; however, real scenes often have mixed lighting conditions. This paper presents an effective AWB method to deal with such mixed-illuminant scenes. A unique departure from conventional AWB, our method does not require illuminant estimation, as is the case in traditional camera AWB modules. Instead, our method proposes to render the captured scene with a small set of predefined white-balance settings. Given this set of rendered images, our method learns to estimate weighting maps that are used to blend the rendered images to generate the final corrected image. Through extensive experiments, we show this proposed method produces promising results compared to other alternatives for single- and mixed-illuminant scene color correction. Our source code and trained models are available at https://github.com/m ahmoudnafifi/mixedil lWB.
翻訳日:2021-09-21 16:32:55 公開日:2021-09-17
# WiSoSuper:風と太陽データの超解法ベンチマーク

WiSoSuper: Benchmarking Super-Resolution Methods on Wind and Solar Data ( http://arxiv.org/abs/2109.08770v1 )

ライセンス: Link先を確認
Rupa Kurinchi-Vendhan, Bj\"orn L\"utjens, Ritwik Gupta, Lucien Werner, Dava Newman, Steven Low(参考訳) グリーンエネルギーグリッドへの移行は、再生可能エネルギー発電の配置とスケジューリングを最適化するために、詳細な風と太陽予報に依存する。 しかし, 数値天気予報モデルによる運用予測は空間分解能が10~20kmに限られており, 再生可能エネルギーファームの最適利用と開発につながる。 気象科学者は、解像度を高めるために超解像法を開発してきたが、しばしば単純な補間法や計算コストの高い微分方程式に基づくモデルに依存する。 近年、機械学習に基づくモデル、特に物理インフォームド分解能向上生成対向ネットワーク(PhIREGAN)は、従来のダウンスケーリング手法よりも優れている。 我々は、風と太陽のデータに基づいて、ESRGAN(Super- resolution generative adversarial Network)とEDSR(Deep Super- resolution)ネットワークの強化を含む、先進的なディープラーニングベースの超解法を徹底的かつ拡張可能なベンチマークを提供する。 我々は、風と太陽のデータに対する超解像法をベンチマークするための、新しいパブリック、プロセッシング、機械学習対応データセットでベンチマークに付随する。

The transition to green energy grids depends on detailed wind and solar forecasts to optimize the siting and scheduling of renewable energy generation. Operational forecasts from numerical weather prediction models, however, only have a spatial resolution of 10 to 20-km, which leads to sub-optimal usage and development of renewable energy farms. Weather scientists have been developing super-resolution methods to increase the resolution, but often rely on simple interpolation techniques or computationally expensive differential equation-based models. Recently, machine learning-based models, specifically the physics-informed resolution-enhancing generative adversarial network (PhIREGAN), have outperformed traditional downscaling methods. We provide a thorough and extensible benchmark of leading deep learning-based super-resolution techniques, including the enhanced super-resolution generative adversarial network (ESRGAN) and an enhanced deep super-resolution (EDSR) network, on wind and solar data. We accompany the benchmark with a novel public, processed, and machine learning-ready dataset for benchmarking super-resolution methods on wind and solar data.
翻訳日:2021-09-21 16:32:38 公開日:2021-09-17
# オブジェクトナビゲーションタスクのためのランドマークポリシー最適化

Landmark Policy Optimization for Object Navigation Task ( http://arxiv.org/abs/2109.09512v1 )

ライセンス: Link先を確認
Aleksey Staroverov, Aleksandr I. Panov(参考訳) 本研究は,未確認環境において,与えられたセマンティックカテゴリに関連する最も近いオブジェクトにナビゲートするオブジェクトゴールナビゲーションタスクを研究する。 最近の研究は、エンドツーエンドの強化学習アプローチとモジュールシステムの両方において大きな成果を上げていますが、堅牢で最適なものにするには大きな前進が必要です。 本稿では,標準的なタスク定式化と追加領域知識をランドマークとして取り入れ,これらのランドマークを抽出する階層的手法を提案する。 階層構造では、低レベルは個別に訓練されたアルゴリズムから最も直感的なスキルで構成され、高レベルはどのスキルが必要かを決定する。 提案手法すべてを用いて,実環境シミュレータを用いて0.75成功率を達成した。 シミュレータで再構成された仮想空間でのモデルトレーニングを小さな段階で行った結果,実世界での結果が確認できた。

This work studies object goal navigation task, which involves navigating to the closest object related to the given semantic category in unseen environments. Recent works have shown significant achievements both in the end-to-end Reinforcement Learning approach and modular systems, but need a big step forward to be robust and optimal. We propose a hierarchical method that incorporates standard task formulation and additional area knowledge as landmarks, with a way to extract these landmarks. In a hierarchy, a low level consists of separately trained algorithms to the most intuitive skills, and a high level decides which skill is needed at this moment. With all proposed solutions, we achieve a 0.75 success rate in a realistic Habitat simulator. After a small stage of additional model training in a reconstructed virtual area at a simulator, we successfully confirmed our results in a real-world case.
翻訳日:2021-09-21 16:15:04 公開日:2021-09-17
# オンデバイスニューラル音声合成

On-device neural speech synthesis ( http://arxiv.org/abs/2109.08710v1 )

ライセンス: Link先を確認
Sivanand Achanta, Albert Antony, Ladan Golipour, Jiangchuan Li, Tuomo Raitio, Ramya Rasipuram, Francesco Rossi, Jennifer Shi, Jaimin Upadhyay, David Winarsky, Hepeng Zhang(参考訳) TacotronやWaveRNNのようなテキスト音声合成(TTS)の最近の進歩により、2つのコンポーネントを結合して完全なニューラルネットワークベースのTSシステムを構築することが可能になった。 このようなシステムは、グラファイムや音素入力のみを取り、Mel-spectrogramを中間機能として使用し、直接音声サンプルを生成するため、概念的には単純である。 このシステムは、自然言語に近い品質を達成する。 しかし、システムの高い計算コストと堅牢性の問題により、実世界の音声合成アプリケーションや製品での使用は制限されている。 本稿では,GPUサーバだけでなく,モバイルデバイス上でもこれらのモデルをデプロイ可能な,重要なモデリング改善と最適化戦略を提案する。 提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで高品質な24kHz音声を生成することができる。

Recent advances in text-to-speech (TTS) synthesis, such as Tacotron and WaveRNN, have made it possible to construct a fully neural network based TTS system, by coupling the two components together. Such a system is conceptually simple as it only takes grapheme or phoneme input, uses Mel-spectrogram as an intermediate feature, and directly generates speech samples. The system achieves quality equal or close to natural speech. However, the high computational cost of the system and issues with robustness have limited their usage in real-world speech synthesis applications and products. In this paper, we present key modeling improvements and optimization strategies that enable deploying these models, not only on GPU servers, but also on mobile devices. The proposed system can generate high-quality 24 kHz speech at 5x faster than real time on server and 3x faster than real time on mobile devices.
翻訳日:2021-09-21 16:13:19 公開日:2021-09-17
# 光通信におけるニューラルネットワーク等化器の計算複雑性に関する実験的検討

Experimental Evaluation of Computational Complexity for Different Neural Network Equalizers in Optical Communications ( http://arxiv.org/abs/2109.08711v1 )

ライセンス: Link先を確認
Pedro J. Freire, Yevhenii Osadchuk, Antonio Napoli, Bernhard Spinnler, Wolfgang Schairer, Nelson Costa, Jaroslaw E. Prilepsky, Sergei K. Turitsyn(参考訳) ニューラルネットワークベースの光チャネル等化器に対処し、TWCとSSMFのセットアップ結果を示すニューラルネットワークアーキテクチャの比較分析を行うことにより、その性能と複雑さのトレードオフを定量化する。

Addressing the neural network-based optical channel equalizers, we quantify the trade-off between their performance and complexity by carrying out the comparative analysis of several neural network architectures, presenting the results for TWC and SSMF set-ups.
翻訳日:2021-09-21 16:07:28 公開日:2021-09-17
# 近距離音声認識と遠距離音声認識のためのエンコーダ選択を伴うデュアルエンコーダアーキテクチャ

Dual-Encoder Architecture with Encoder Selection for Joint Close-Talk and Far-Talk Speech Recognition ( http://arxiv.org/abs/2109.08744v1 )

ライセンス: Link先を確認
Felix Weninger, Marco Gaudesi, Ralf Leibold, Roberto Gemello, Puming Zhan(参考訳) 本稿では,より高精度なCTとFTの利点を両立させるために,近い話(CT)と遠話(FT)の連成モデリングのためのデュアルエンコーダASRアーキテクチャを提案する。 鍵となるアイデアは、最適な入力源(CTまたはFT)と対応するエンコーダを選択するエンコーダ選択ネットワークを追加することである。 我々は,CT音声に単一チャネルエンコーダ,FT音声に空間フィルタリングニューラルビームフォーミングを付加したマルチチャネルエンコーダを用い,エンコーダの選択と共同で訓練を行った。 我々は、アテンションベースおよびRNNトランスデューサのエンドツーエンドASRシステムに対するアプローチを検証する。 実験は医療現場の会話音声を用いて行われ、CT装置とマイクアレイと同時に記録される。 その結果,提案するデュアルエンコーダアーキテクチャは,ct と ft の両方の入力を用いた場合,最大 9% の相対 wer 削減が得られることがわかった。

In this paper, we propose a dual-encoder ASR architecture for joint modeling of close-talk (CT) and far-talk (FT) speech, in order to combine the advantages of CT and FT devices for better accuracy. The key idea is to add an encoder selection network to choose the optimal input source (CT or FT) and the corresponding encoder. We use a single-channel encoder for CT speech and a multi-channel encoder with Spatial Filtering neural beamforming for FT speech, which are jointly trained with the encoder selection. We validate our approach on both attention-based and RNN Transducer end-to-end ASR systems. The experiments are done with conversational speech from a medical use case, which is recorded simultaneously with a CT device and a microphone array. Our results show that the proposed dual-encoder architecture obtains up to 9% relative WER reduction when using both CT and FT input, compared to the best single-encoder system trained and tested in matched condition.
翻訳日:2021-09-21 16:07:22 公開日:2021-09-17
# ewashによるソースコードファイルの長距離モデリング:構文階層による拡張ウィンドウアクセス

Long-Range Modeling of Source Code Files with eWASH: Extended Window Access by Syntax Hierarchy ( http://arxiv.org/abs/2109.08780v1 )

ライセンス: Link先を確認
Colin B. Clement, Shuai Lu, Xiaoyu Liu, Michele Tufano, Dawn Drain, Nan Duan, Neel Sundaresan, Alexey Svyatkovskiy(参考訳) 統計的言語モデリングとトランスフォーマによる翻訳は、プログラムの理解と生成タスクで多くのアプリケーションが成功し、現代のソフトウェア開発環境でツールのハイベンチマークを設定している。 しかし、これらのニューラルモデルの有限コンテキストウィンドウは、特定のタスクに対して、大きなファイルやパッケージの関連するコンテキスト全体を活用できないことを意味する。 コンテキストウィンドウの拡張には多くの取り組みがあるが、ソースコードの構文階層を利用してファイルレベルのコンテキスト全体を固定長ウィンドウに組み込むアーキテクチャに依存しないアプローチを導入する。 各ソースファイルの具体的な構文木を使用して構文階層を抽出し、指定されたタスクのスコープをより具体的に、より重要でないビューから選択的に削除することで、それらをコンテキストウィンドウに統合します。 我々は,Python言語におけるコード生成タスクと自然言語とソースコードの合同翻訳について評価し,CodeXGLUEベンチマークでPythonのコード補完と要約を新たに実現した。 正規化リテラルによるコード補完,ファイルレベルのコンテキストで条件付けられたメソッドボディ補完/コード要約といった,ユーザエクスペリエンスによるタスクのための新しいcodexglueベンチマークも導入した。

Statistical language modeling and translation with transformers have found many successful applications in program understanding and generation tasks, setting high benchmarks for tools in modern software development environments. The finite context window of these neural models means, however, that they will be unable to leverage the entire relevant context of large files and packages for any given task. While there are many efforts to extend the context window, we introduce an architecture-indepen dent approach for leveraging the syntactic hierarchies of source code for incorporating entire file-level context into a fixed-length window. Using concrete syntax trees of each source file we extract syntactic hierarchies and integrate them into context window by selectively removing from view more specific, less relevant scopes for a given task. We evaluate this approach on code generation tasks and joint translation of natural language and source code in Python programming language, achieving a new state-of-the-art in code completion and summarization for Python in the CodeXGLUE benchmark. We also introduce new CodeXGLUE benchmarks for user-experience-moti vated tasks: code completion with normalized literals, method body completion/code summarization conditioned on file-level context.
翻訳日:2021-09-21 16:07:04 公開日:2021-09-17
# RBFニューラルネットワークを用いた定流量並列マイクロポンプの最適化

The Optimization of the Constant Flow Parallel Micropump Using RBF Neural Network ( http://arxiv.org/abs/2109.08717v1 )

ライセンス: Link先を確認
Chenyang Ma, Boyuan Xu(参考訳) 本研究の目的は, 並列ポンプ室を備え, 受動チェックバルブを組み込んだ定流並列機械変位マイクロポンプの性能を最適化することである。 重要な課題は、左ポンプと右ポンプが吸引と輸血の役割を交互に交わすときの往復運動中に一定の流量に負の影響を及ぼす逆流による圧力パルスを最小化することである。 従来は受動チェックバルブの機械設計でこの問題を解決しようとしていた。 本研究では,教師なし学習と教師なし学習の両方で訓練されたrbfニューラルネットワークを実装することで,制御理論の観点から新たなオーバーラップ時間の概念を提案する。 実験結果から, 圧力パルスは0.15MPaから0.25MPaの範囲で最適化され, 40MPaの最大ポンプ加工圧力と比較して大きな改善が認められた。

The objective of this work is to optimize the performance of a constant flow parallel mechanical displacement micropump, which has parallel pump chambers and incorporates passive check valves. The critical task is to minimize the pressure pulse caused by regurgitation, which negatively impacts the constant flow rate, during the reciprocating motion when the left and right pumps interchange their role of aspiration and transfusion. Previous works attempt to solve this issue via the mechanical design of passive check valves. In this work, the novel concept of overlap time is proposed, and the issue is solved from the aspect of control theory by implementing a RBF neural network trained by both unsupervised and supervised learning. The experimental results indicate that the pressure pulse is optimized in the range of 0.15 - 0.25 MPa, which is a significant improvement compared to the maximum pump working pressure of 40 MPa.
翻訳日:2021-09-21 16:00:46 公開日:2021-09-17
# 機械学習による公転惑星の居住域の解析

Analyzing the Habitable Zones of Circumbinary Planets Using Machine Learning ( http://arxiv.org/abs/2109.08735v1 )

ライセンス: Link先を確認
Zhihui Kong, Jonathan H. Jiang, Remo Burn, Kristen A. Fahy, Zonghong Zhu(参考訳) nasaのケプラー計画やtess計画などによって過去10年間の太陽系外惑星の検出では、連星系や多星系を公転する150以上の太陽系外惑星を含む、太陽系の惑星とは大きく異なる多くの世界が発見されている。 これは太陽系外惑星の多様性に対する我々の理解を広げるだけでなく、複雑な連星系における太陽系外惑星の研究を促進し、その居住可能性を探究する動機を与える。 本研究では,惑星軌道と動的にインフォームドされた居住可能領域に基づいて,周囲惑星の居住可能領域を調査した。 その結果、2連星の質量比と軌道偏心性が惑星系の軌道安定性と居住性に影響を与える重要な要因であることが示唆された。 さらに、惑星軌道と動的にインフォームドされた居住ゾーンは、惑星居住性を居住可能、部分居住可能、非居住の3つのカテゴリに分割する。 したがって、これらの惑星システムを迅速かつ効率的に分類するために、機械学習モデルを訓練する。

Exoplanet detection in the past decade by efforts including NASA's Kepler and TESS missions has discovered many worlds that differ substantially from planets in our own Solar System, including more than 150 exoplanets orbiting binary or multi-star systems. This not only broadens our understanding of the diversity of exoplanets, but also promotes our study of exoplanets in the complex binary systems and provides motivation to explore their habitability. In this study, we investigate the Habitable Zones of circumbinary planets based on planetary trajectory and dynamically informed habitable zones. Our results indicate that the mass ratio and orbital eccentricity of binary stars are important factors affecting the orbital stability and habitability of planetary systems. Moreover, planetary trajectory and dynamically informed habitable zones divide planetary habitability into three categories: habitable, part-habitable and uninhabitable. Therefore, we train a machine learning model to quickly and efficiently classify these planetary systems.
翻訳日:2021-09-21 16:00:31 公開日:2021-09-17
# 深層強化学習に基づく省エネルギー認知NOMA通信のための多次元資源管理

Deep Reinforcement Learning Based Multidimensional Resource Management for Energy Harvesting Cognitive NOMA Communications ( http://arxiv.org/abs/2109.09503v1 )

ライセンス: Link先を確認
Zhaoyuan Shi, Xianzhong Xie, Huabing Lu, Helin Yang, Jun Cai, and Zhiguo Ding(参考訳) エネルギー収穫(EH)、認知無線(CR)、非直交多重アクセス(NOMA)の組み合わせは、今後の第5世代ネットワーク(B5G)のエネルギー効率とスペクトル効率を改善するための有望なソリューションであり、特にIoT(Internet of Things)システムにおける無線センサ通信をサポートする。 しかし、より優れた性能を実現するために、インテリジェントな周波数、時間、エネルギー資源割り当てを実現する方法は、解決すべき重要な問題である。 本稿では,EH-CR-NOMA IoTシステムにおけるジョイントスペクトル,エネルギー,時間資源管理について検討する。 我々の目標は、プライマリユーザ(PU)とSSUの最大充電バッテリ容量、最大送電容量、最大バッファ容量、最小データレートの制約を満たすとともに、すべてのセカンダリセンサユーザ(SSU)のデータパケット損失の最小化である。 この最適化問題の非凸性と無線環境の確率的性質から,深部強化学習(DRL)に基づく分散多次元資源管理アルゴリズムを提案する。 管理対象資源の連続性を考慮すると、各エージェント(SSU)が協調せずに自身の多次元資源を管理することができるディープ決定性ポリシー勾配(DDPG)アルゴリズムを採用する。 さらに、訓練効率と電池性能の保護を改善するため、簡易だが実用的な動作調整器(AA)を導入している。 その結果,提案アルゴリズムの収束速度はDDPGの約4倍であり,パケット損失の平均値(ANPL)はgreedyアルゴリズムの約8倍であることがわかった。

The combination of energy harvesting (EH), cognitive radio (CR), and non-orthogonal multiple access (NOMA) is a promising solution to improve energy efficiency and spectral efficiency of the upcoming beyond fifth generation network (B5G), especially for support the wireless sensor communications in Internet of things (IoT) system. However, how to realize intelligent frequency, time, and energy resource allocation to support better performances is an important problem to be solved. In this paper, we study joint spectrum, energy, and time resource management for the EH-CR-NOMA IoT systems. Our goal is to minimize the number of data packets losses for all secondary sensing users (SSU), while satisfying the constraints on the maximum charging battery capacity, maximum transmitting power, maximum buffer capacity, and minimum data rate of primary users (PU) and SSUs. Due to the non-convexity of this optimization problem and the stochastic nature of the wireless environment, we propose a distributed multidimensional resource management algorithm based on deep reinforcement learning (DRL). Considering the continuity of the resources to be managed, the deep deterministic policy gradient (DDPG) algorithm is adopted, based on which each agent (SSU) can manage its own multidimensional resources without collaboration. In addition, a simplified but practical action adjuster (AA) is introduced for improving the training efficiency and battery performance protection. The provided results show that the convergence speed of the proposed algorithm is about 4 times faster than that of DDPG, and the average number of packet losses (ANPL) is about 8 times lower than that of the greedy algorithm.
翻訳日:2021-09-21 15:57:49 公開日:2021-09-17
# (参考訳) 感情自動認識と感情分析のための倫理表

Ethics Sheet for Automatic Emotion Recognition and Sentiment Analysis ( http://arxiv.org/abs/2109.08256v1 )

ライセンス: CC BY 4.0
Saif M. Mohammad(参考訳) 人生における感情の重要性と広汎性は、感情コンピューティングを非常に重要で活気ある仕事のラインにします。 自動感情認識システム(aer)と感情分析システムは、巨大な進歩の促進者(公衆衛生や商業の改善など)だけでなく、大きな危害(反体制派を抑圧し、有権者を操作するためのもの)にもなり得る。 したがって、情緒的コンピューティングコミュニティは、彼らの創造の倫理的影響に積極的に関与することが不可欠である。 本稿では,AI倫理・感情認識文学から情報を合成し,整理し,AERに関連する倫理的考察を50件提示する。 特に、シートは、AERが一般的にフレーム化されているか、データ、方法、評価に関してしばしば行われる選択に隠れた仮定を具体化する。 プライバシーや社会団体に対するAERの影響に特に注意が払われている。 シートの目的は、AERシステムを構築する前に、なぜ自動化するか、どのように自動化するか、どのようにして成功を判断するかについて、より配慮し、促進することである。 さらに、このシートは感情認識(補足調査記事)に関する有用な序文として機能する。

The importance and pervasiveness of emotions in our lives makes affective computing a tremendously important and vibrant line of work. Systems for automatic emotion recognition (AER) and sentiment analysis can be facilitators of enormous progress (e.g., in improving public health and commerce) but also enablers of great harm (e.g., for suppressing dissidents and manipulating voters). Thus, it is imperative that the affective computing community actively engage with the ethical ramifications of their creations. In this paper, I have synthesized and organized information from AI Ethics and Emotion Recognition literature to present fifty ethical considerations relevant to AER. Notably, the sheet fleshes out assumptions hidden in how AER is commonly framed, and in the choices often made regarding the data, method, and evaluation. Special attention is paid to the implications of AER on privacy and social groups. The objective of the sheet is to facilitate and encourage more thoughtfulness on why to automate, how to automate, and how to judge success well before the building of AER systems. Additionally, the sheet acts as a useful introductory document on emotion recognition (complementing survey articles).
翻訳日:2021-09-21 06:04:16 公開日:2021-09-17
# (参考訳) 散発的合理化による自己学習 : 複発NLUにおける教師説明 [全文訳有]

Self-training with Few-shot Rationalization: Teacher Explanations Aid Student in Few-shot NLU ( http://arxiv.org/abs/2109.08259v1 )

ライセンス: CC BY 4.0
Meghana Moorthy Bhat, Alessandro Sordoni, Subhabrata Mukherjee(参考訳) 事前学習された言語モデルは、いくつかの自然言語理解タスクで最先端のパフォーマンスを得たが、意思決定プロセスでは極めて不透明である。 最近の研究は、正当化や合理化としてテキストの健全な概念を強調することによって、神経予測を合理化することに重点を置いているが、それらはタスクラベルと各インスタンスの注釈付き合理化だけでなく、何千ものラベル付きトレーニング例に依存している。 このような大規模なアノテーションは、多くのタスクに対して取得できない。 そこで本研究では,タスク固有のラベルや合理性に制限のある自己学習型言語モデルと,有意義なサンプル選択に基づくマルチタスク教師学習フレームワークを開発した。 特に低リソース環境において, 有理化予測を意識させることにより, ニューラルモデルの性能を著しく向上させることができることを示す。 ベンチマークデータセットにおける広範囲な実験により,本手法の有効性が示された。

While pre-trained language models have obtained state-of-the-art performance for several natural language understanding tasks, they are quite opaque in terms of their decision-making process. While some recent works focus on rationalizing neural predictions by highlighting salient concepts in the text as justifications or rationales, they rely on thousands of labeled training examples for both task labels as well as an-notated rationales for every instance. Such extensive large-scale annotations are infeasible to obtain for many tasks. To this end, we develop a multi-task teacher-student framework based on self-training language models with limited task-specific labels and rationales, and judicious sample selection to learn from informative pseudo-labeled examples1. We study several characteristics of what constitutes a good rationale and demonstrate that the neural model performance can be significantly improved by making it aware of its rationalized predictions, particularly in low-resource settings. Extensive experiments in several bench-mark datasets demonstrate the effectiveness of our approach.
翻訳日:2021-09-21 06:03:12 公開日:2021-09-17
# (参考訳) CompilerGym: AI研究のためのロバストで高性能なコンパイラ最適化環境 [全文訳有]

CompilerGym: Robust, Performant Compiler Optimization Environments for AI Research ( http://arxiv.org/abs/2109.08267v1 )

ライセンス: CC BY 4.0
Chris Cummins, Bram Wasti, Jiadong Guo, Brandon Cui, Jason Ansel, Sahir Gomez, Somya Jain, Jia Liu, Olivier Teytaud, Benoit Steiner, Yuandong Tian, Hugh Leather(参考訳) コンパイラ最適化に人工知能(AI)技術を適用することへの関心は急速に高まっているが、コンパイラの研究には高い参入障壁がある。 他のドメインとは異なり、コンパイラやAI研究者は、迅速なイテレーションとアイデア開発を可能にするデータセットやフレームワークにアクセスできず、始めるにはかなりのエンジニアリング投資が必要になる。 必要なのは、実世界のコンパイラ最適化タスクのための、簡単で再利用可能な実験的なインフラストラクチャで、テクニックを比較するための共通のベンチマークとして機能し、この分野の進歩を加速するためのプラットフォームとして機能することです。 我々は,実世界のコンパイラ最適化タスクのための環境セットであるCompilerGymと,コンパイラ研究者に新しい最適化タスクを公開するツールキットを紹介する。 CompilerGymは、誰でも簡単に使えるパッケージを通じて、プロダクションコンパイラの最適化問題を試すことができる。 我々は人気のあるOpenAI Gymインターフェースの上に構築されており、研究者はPythonと親しみやすいAPIを使ってコンパイラと対話できる。 本稿では,コンパイラギムのアーキテクチャと実装を説明し,3つのコンパイラ環境の最適化空間と計算効率を特徴付け,広範な経験的評価を行う。 以前の作業と比較すると、CompilerGymはより大きなデータセットと最適化スペースを提供し、より計算効率が良く、フォールトトレラントで、基礎となるコンパイラの再現性バグを検出することができる。 誰でもコンパイラーを試すことができるように、その背景に関係なく、私たちはaiとコンパイラ研究領域の進捗を加速することを目指している。

Interest in applying Artificial Intelligence (AI) techniques to compiler optimizations is increasing rapidly, but compiler research has a high entry barrier. Unlike in other domains, compiler and AI researchers do not have access to the datasets and frameworks that enable fast iteration and development of ideas, and getting started requires a significant engineering investment. What is needed is an easy, reusable experimental infrastructure for real world compiler optimization tasks that can serve as a common benchmark for comparing techniques, and as a platform to accelerate progress in the field. We introduce CompilerGym, a set of environments for real world compiler optimization tasks, and a toolkit for exposing new optimization tasks to compiler researchers. CompilerGym enables anyone to experiment on production compiler optimization problems through an easy-to-use package, regardless of their experience with compilers. We build upon the popular OpenAI Gym interface enabling researchers to interact with compilers using Python and a familiar API. We describe the CompilerGym architecture and implementation, characterize the optimization spaces and computational efficiencies of three included compiler environments, and provide extensive empirical evaluations. Compared to prior works, CompilerGym offers larger datasets and optimization spaces, is 27x more computationally efficient, is fault-tolerant, and capable of detecting reproducibility bugs in the underlying compilers. In making it easy for anyone to experiment with compilers - irrespective of their background - we aim to accelerate progress in the AI and compiler research domains.
翻訳日:2021-09-21 05:49:21 公開日:2021-09-17
# (参考訳) 高度に定義されたハイブリッド確率論理プログラムの構文要求 [全文訳有]

Syntactic Requirements for Well-defined Hybrid Probabilistic Logic Programs ( http://arxiv.org/abs/2109.08283v1 )

ライセンス: CC BY 4.0
Damiano Azzolini, Fabrizio Riguzzi(参考訳) ハイブリッド確率論理プログラムは、離散的かつ連続的な分布を表す事実で拡張された論理プログラミングの表現性のおかげで、いくつかのシナリオを表現できる。 このタイプのプログラムのセマンティクスは、全てのクエリに確率を割り当てることを保証するため、非常に重要である。 ここでは,最近の意味論の提案に従って,具体的構文を説明し,その定義性を維持するために必要な構文的要件を分析する。

Hybrid probabilistic logic programs can represent several scenarios thanks to the expressivity of Logic Programming extended with facts representing discrete and continuous distributions. The semantics for this type of programs is crucial since it ensures that a probability can be assigned to every query. Here, following one recent semantics proposal, we illustrate a concrete syntax, and we analyse the syntactic requirements needed to preserve the well-definedness.
翻訳日:2021-09-21 05:30:31 公開日:2021-09-17
# (参考訳) 論理プログラムを分割する方法 [全文訳有]

How to Split a Logic Program ( http://arxiv.org/abs/2109.08284v1 )

ライセンス: CC BY 4.0
Rachel Ben-Eliyahu-Zohary (Azrieli College of Engineering, Jerusalem, Israel)(参考訳) Answer Set Programming (ASP)は、様々な現実世界のアプリケーションを解決する方法として成功している。 高速ASPソルバが利用可能であるにもかかわらず、計算解集合は多項式階層の第二レベルにあるため、非常に大きな計算力を必要とする。 解集合計算の高速化は、プログラムを2つの解離部分(下と上)に分割することができれば達成できる。 これにより、トップ部とは独立してボトム部を評価し、ボトム部評価の結果を用いてトップ部を簡素化する。 リフシッツとターナーは分割集合、すなわち分裂を定義する原子の集合の概念を導入した。 本稿では,いくつかの望ましい性質を持つ分割集合を演算する問題を古典探索問題に還元し,多項式時間で解くことができることを示す。 これにより、様々なプログラムにおける分割集合のサイズに関する実験を行い、安定したモデル計算における複雑さの原因の興味深い発見につながる。 また,Head-Cycle-Freeプログラムでは,より広範なプログラムの分割を可能にする分割集合の定義を調整可能であることを示す。

Answer Set Programming (ASP) is a successful method for solving a range of real-world applications. Despite the availability of fast ASP solvers, computing answer sets demands a very large computational power, since the problem tackled is in the second level of the polynomial hierarchy. A speed-up in answer set computation may be attained, if the program can be split into two disjoint parts, bottom and top. Thus, the bottom part is evaluated independently of the top part, and the results of the bottom part evaluation are used to simplify the top part. Lifschitz and Turner have introduced the concept of a splitting set, i.e., a set of atoms that defines the splitting. In this paper, We show that the problem of computing a splitting set with some desirable properties can be reduced to a classic Search Problem and solved in polynomial time. This allows us to conduct experiments on the size of the splitting set in various programs and lead to an interesting discovery of a source of complication in stable model computation. We also show that for Head-Cycle-Free programs, the definition of splitting sets can be adjusted to allow splitting of a broader class of programs.
翻訳日:2021-09-21 05:14:35 公開日:2021-09-17
# (参考訳) 再帰的SHACLのための固定点意味論 [全文訳有]

Fixpoint Semantics for Recursive SHACL ( http://arxiv.org/abs/2109.08285v1 )

ライセンス: CC BY 4.0
Bart Bogaerts, Maxime Jakubowski(参考訳) SHACLは、RDFグラフの構造制約を表現するためのW3C提案言語である。 この推奨は、再帰的でないshaclのセマンティクスのみを指定するもので、最近では再帰的なshaclスキーマを可能にするためにいくつかの努力がなされている。 本稿では,再帰的SHACLのセマンティクスを定義し,研究するために,非単調推論における長年の研究から教訓を学ぶことができることを論じる。 shaclスキーマから、3値のセマンティクス演算子を直接得ることができることを示す。 近似固定点理論 (AFT) に基づいて構築されたこの演算子は、期待される方法に関連する、サポートされ、安定され、十分に確立されたセマンティクスを含む、様々な意味論を即座に誘導する。 AFT上に構築することで、SHACLに理論結果の豊富なボディが直接利用可能になる。 このように、この短い論文の主な貢献は、再帰的なshaclの研究のための理論的基礎を提供することであり、これは後にw3c勧告の拡張に関するインフォームドな決定を可能にする。

SHACL is a W3C-proposed language for expressing structural constraints on RDF graphs. The recommendation only specifies semantics for non-recursive SHACL; recently, some efforts have been made to allow recursive SHACL schemas. In this paper, we argue that for defining and studying semantics of recursive SHACL, lessons can be learned from years of research in non-monotonic reasoning. We show that from a SHACL schema, a three-valued semantic operator can directly be obtained. Building on Approximation Fixpoint Theory (AFT), this operator immediately induces a wide variety of semantics, including a supported, stable, and well-founded semantics, related in the expected ways. By building on AFT, a rich body of theoretical results becomes directly available for SHACL. As such, the main contribution of this short paper is providing theoretical foundations for the study of recursive SHACL, which can later enable an informed decision for an extension of the W3C recommendation.
翻訳日:2021-09-21 04:57:22 公開日:2021-09-17
# (参考訳) 整数重み付き重み付き条件付きEL{^}bot知識ベース:ASPアプローチ [全文訳有]

Weighted Conditional EL{^}bot Knowledge Bases with Integer Weights: an ASP Approach ( http://arxiv.org/abs/2109.08286v1 )

ライセンス: CC BY 4.0
Laura Giordano (DISIT, Universit\`a del Piemonte Orientale, Italy), Daniele Theseider Dupr\'e (DISIT, Universit\`a del Piemonte Orientale, Italy)(参考訳) 近年、多層パーセプトロンの論理的意味論の基礎として、「概念的」なマルチ参照意味論(二つの値とファジィの両方の場合)に基づく記述論理の重み付き知識ベースが検討されている。 本稿では、重み付き条件付き EL^bot 知識ベースを2値のケースで検討し、重み付きKB に対する概念的マルチ参照エンターメントを ASP および Asprin を用いて符号化する。

Weighted knowledge bases for description logics with typicality have been recently considered under a "concept-wise" multipreference semantics (in both the two-valued and fuzzy case), as the basis of a logical semantics of Multilayer Perceptrons. In this paper we consider weighted conditional EL^bot knowledge bases in the two-valued case, and exploit ASP and asprin for encoding concept-wise multipreference entailment for weighted KBs with integer weights.
翻訳日:2021-09-21 04:40:55 公開日:2021-09-17
# (参考訳) 認識論的仕様の意味論の解明 [全文訳有]

Refining the Semantics of Epistemic Specifications ( http://arxiv.org/abs/2109.08289v1 )

ライセンス: CC BY 4.0
Ezgi Iraz Su (Sinop University)(参考訳) Answer set programming (ASP) は効率的な問題解決手法であり、科学的にも技術的にもいくつかの問題解決者、継続的な研究、様々な分野の実装によって強く支持されている。 しかし、研究者らは長年、ASPの言語における内省的推論の必要性を認めてきたが、この研究会場は近年まであまり注目されなかった。 さらに、文献におけるaspの既存の認識論的拡張は、単純な非循環的認識論的プログラムであっても意図しない結果が提案されているという事実から、広くは認められておらず、さらに重要なことに、研究者はいくつかの批判的プログラムに対して異なる推論を持っている。 この目的のために、cabalarらは最近、そのようなプログラムの意味論的な提案を正式に支持し、結果を標準化するために、認識プログラムの構造的特性をいくつか特定した。 それでも、これらのプロパティの健全性はまだ議論中であり、aspコミュニティからも広く受け入れられていない。 したがって、まだパラダイムを真に理解し、成熟した形式主義を持ち、理解可能なモデルの形式的正当化を提供する原則を決定する時間があるようだ。 本稿では,既存のセマンティクスアプローチ,満足度の高いセマンティクスが満足すべき基準,そしてそれらの改善方法に焦点を当てる。 我々はまた、プログラムの実際の振る舞いを明らかにするために、相補論理(HT)のよく知られた命題をてんかんHTに拡張する。 最後に,Cabalar らによる最近の形式主義である Autoepistemic ASP の反射的拡張とみなすことができる,てんかん性ASP に対する少し新しい意味論を提案する。

Answer set programming (ASP) is an efficient problem-solving approach, which has been strongly supported both scientifically and technologically by several solvers, ongoing active research, and implementations in many different fields. However, although researchers acknowledged long ago the necessity of epistemic operators in the language of ASP for better introspective reasoning, this research venue did not attract much attention until recently. Moreover, the existing epistemic extensions of ASP in the literature are not widely approved either, due to the fact that some propose unintended results even for some simple acyclic epistemic programs, new unexpected results may possibly be found, and more importantly, researchers have different reasonings for some critical programs. To that end, Cabalar et al. have recently identified some structural properties of epistemic programs to formally support a possible semantics proposal of such programs and standardise their results. Nonetheless, the soundness of these properties is still under debate, and they are not widely accepted either by the ASP community. Thus, it seems that there is still time to really understand the paradigm, have a mature formalism, and determine the principles providing formal justification of their understandable models. In this paper, we mainly focus on the existing semantics approaches, the criteria that a satisfactory semantics is supposed to satisfy, and the ways to improve them. We also extend some well-known propositions of here-and-there logic (HT) into epistemic HT so as to reveal the real behaviour of programs. Finally, we propose a slightly novel semantics for epistemic ASP, which can be considered as a reflexive extension of Cabalar et al.'s recent formalism called autoepistemic ASP.
翻訳日:2021-09-21 04:26:57 公開日:2021-09-17
# (参考訳) 解集合プログラミングによる木組学習法から説明可能なルール集合を生成する [全文訳有]

Generating Explainable Rule Sets from Tree-Ensemble Learning Methods by Answer Set Programming ( http://arxiv.org/abs/2109.08290v1 )

ライセンス: CC BY 4.0
Akihiro Takemura, Katsumi Inoue(参考訳) 本稿では,木組学習者から Answer Set Programming (ASP) を用いて説明可能なルールセットを生成する手法を提案する。 そこで本研究では,ルール構築において基本決定木の分割構造を利用する分解的手法を採用し,ASPで符号化されたパターンマイニング手法を用いて興味深いルールを抽出した。 ユーザ定義の制約と好みを asp で宣言的に表現して,透過的かつ柔軟なルールセット生成を可能にする方法と,ルールをモデルをより理解するための説明として使用できる方法を示す。 実世界のデータセットと一般的なtree-ensembleアルゴリズムによる実験的評価は、このアプローチが幅広い分類タスクに適用できることを示している。

We propose a method for generating explainable rule sets from tree-ensemble learners using Answer Set Programming (ASP). To this end, we adopt a decompositional approach where the split structures of the base decision trees are exploited in the construction of rules, which in turn are assessed using pattern mining methods encoded in ASP to extract interesting rules. We show how user-defined constraints and preferences can be represented declaratively in ASP to allow for transparent and flexible rule set generation, and how rules can be used as explanations to help the user better understand the models. Experimental evaluation with real-world datasets and popular tree-ensemble algorithms demonstrates that our approach is applicable to a wide range of classification tasks.
翻訳日:2021-09-21 03:59:02 公開日:2021-09-17
# (参考訳) Natlog: ニューロシンボリックタッチを備えた軽量論理型プログラミング言語 [全文訳有]

Natlog: a Lightweight Logic Programming Language with a Neuro-symbolic Touch ( http://arxiv.org/abs/2109.08291v1 )

ライセンス: CC BY 4.0
Paul Tarau (University of North Texas)(参考訳) 本稿では,Prologの統一型実行モデルを共有する軽量論理型言語であるNatlogを紹介する。 概念実証のNatlog実装はPythonベースのディープラーニングエコシステムに密に埋め込まれており、基底項データセットのコンテンツ駆動インデックス化に重点を置いています。 シンボリックインデックス化アルゴリズムのオーバーライドとして、同じ関数をニューラルネットワークに委譲し、natlogの解決エンジンに根拠事実を提供することができます。 私たちのオープンソース実装は、https://pypi.org/pro ject/natlog/ でPythonパッケージとして利用可能です。

We introduce Natlog, a lightweight Logic Programming language, sharing Prolog's unification-driven execution model, but with a simplified syntax and semantics. Our proof-of-concept Natlog implementation is tightly embedded in the Python-based deep-learning ecosystem with focus on content-driven indexing of ground term datasets. As an overriding of our symbolic indexing algorithm, the same function can be delegated to a neural network, serving ground facts to Natlog's resolution engine. Our open-source implementation is available as a Python package at https://pypi.org/pro ject/natlog/ .
翻訳日:2021-09-21 03:42:21 公開日:2021-09-17
# (参考訳) exp(aspc) : 選択原子と制約規則を用いたaspプログラムの説明 [全文訳有]

exp(ASPc) : Explaining ASP Programs with Choice Atoms and Constraint Rules ( http://arxiv.org/abs/2109.08292v1 )

ライセンス: CC BY 4.0
Ly Ly Trieu (New Mexico State University), Tran Cao Son (New Mexico State University), Marcello Balduccini (Saint Joseph's University)(参考訳) 本稿では,リテラルlに対する説明グラフを生成するシステムであるexp(asp)の強化について述べる。このシステムは,通常の論理プログラムpの解集合aが与えられ,lがaとpに与えられた理由を説明する。新しいシステムであるexp(aspc)は,選択規則をサポートし,制約規則を利用して選択や制約に関する情報を含む説明グラフを提供するという点で,exp(asp)と異なる。

We present an enhancement of exp(ASP), a system that generates explanation graphs for a literal l - an atom a or its default negation ~a - given an answer set A of a normal logic program P, which explain why l is true (or false) given A and P. The new system, exp(ASPc), differs from exp(ASP) in that it supports choice rules and utilizes constraint rules to provide explanation graphs that include information about choices and constraints.
翻訳日:2021-09-21 03:23:45 公開日:2021-09-17
# (参考訳) sat符号化到達可能性制約を用いたpicatのグラフ合成問題のモデル化と解法 [全文訳有]

Modeling and Solving Graph Synthesis Problems Using SAT-Encoded Reachability Constraints in Picat ( http://arxiv.org/abs/2109.08293v1 )

ライセンス: CC BY 4.0
Neng-Fa Zhou (CUNY Brooklyn College & Graduate Center)(参考訳) 多くの制約満足度問題は、ある到達可能性制約を満たす部分グラフの合成を含む。 本稿では,最近のlp/cpプログラミングコンペから選択した4つの問題に対するpicatのプログラムについて述べる。 プログラムは、picat言語のモデリング能力と効果的なエンコーディングを付与された最先端satソルバの解法効率を示す。

Many constraint satisfaction problems involve synthesizing subgraphs that satisfy certain reachability constraints. This paper presents programs in Picat for four problems selected from the recent LP/CP programming competitions. The programs demonstrate the modeling capabilities of the Picat language and the solving efficiency of the cutting-edge SAT solvers empowered with effective encodings.
翻訳日:2021-09-21 03:08:56 公開日:2021-09-17
# (参考訳) 倫理的監視と対話評価のための論理型マルチエージェントシステム [全文訳有]

A Logic-based Multi-agent System for Ethical Monitoring and Evaluation of Dialogues ( http://arxiv.org/abs/2109.08294v1 )

ライセンス: CC BY 4.0
Abeer Dyoub (DISIM, University of L'Aquila, Italy), Stefania Costantini (DISIM, University of L'Aquila, Italy), Ivan Letteri (DISIM, University of L'Aquila, Italy), Francesca A. Lisi (DIB & CILA, University of Bari "Aldo Moro", Italy)(参考訳) 対話システムは、人間と機械の相互作用に関する様々な実用目的のために設計されたツールである。 これらのシステムは、その行動がユーザー(特に子供について)に大きな影響を及ぼす可能性があるため、倫理的基盤の上に構築されるべきである。 本研究の目的は,対話システムの倫理的監視と評価を目的としたマルチエージェントシステム(MAS)のアーキテクチャとプロトタイプの実装である。 オンライン顧客サービスチャットポイントにおけるチャットエージェント(人間/人工)倫理行動の監視・評価を行うためのプロトタイプアプリケーションを開発・提示する。 本研究の今後の課題と課題について論じる。

Dialogue Systems are tools designed for various practical purposes concerning human-machine interaction. These systems should be built on ethical foundations because their behavior may heavily influence a user (think especially about children). The primary objective of this paper is to present the architecture and prototype implementation of a Multi Agent System (MAS) designed for ethical monitoring and evaluation of a dialogue system. A prototype application, for monitoring and evaluation of chatting agents' (human/artificial) ethical behavior in an online customer service chat point w.r.t their institution/company& #x27;s codes of ethics and conduct, is developed and presented. Future work and open issues with this research are discussed.
翻訳日:2021-09-21 02:41:43 公開日:2021-09-17
# (参考訳) DiscASP: 会話型ソーシャルボットへの応用と関連する概念を見つけるためのグラフベースのASPシステム [全文訳有]

DiscASP: A Graph-based ASP System for Finding Relevant Consistent Concepts with Applications to Conversational Socialbots ( http://arxiv.org/abs/2109.08297v1 )

ライセンス: CC BY 4.0
Fang Li (University of Texas at Dallas), Huaduo Wang (University of Texas at Dallas), Kinjal Basu (University of Texas at Dallas), Elmer Salazar (University of Texas at Dallas), Gopal Gupta (University of Texas at Dallas)(参考訳) 我々は、会話型AIシステムにおいて、特に会話型ソーシャルボットの実現において、関連する一貫した概念を見つけるという問題を考察する。 様々なトピックに関する常識知識は、回答セットプログラムとして表現できる。 しかし,会話を前進させるためには,会話の進行に有効な,現在議論されている話題の「周辺」に一貫した知識を見出すという,関連する一貫した概念を見つけるという問題を解決する必要がある。 伝統的なaspソルバは、様々な原子(概念)間のすべての関連を取り除き、関連する一貫した概念を見つけるために使用できない回答集合全体を生成する。 同様に、目標指向のaspの実装は、クエリに直接関係する概念を見つけるだけである。 本研究では,あるトピックに関連する部分的一貫したモデルを見出すDisdisASPシステムを提案する。 DiscASPは、解集合プログラムの安定モデルを見つけるための新しいグラフベースのアルゴリズムに基づいている。 本稿では,DiscASPアルゴリズムとその実装とその対話型ソーシャルボット開発への応用について述べる。

We consider the problem of finding relevant consistent concepts in a conversational AI system, particularly, for realizing a conversational socialbot. Commonsense knowledge about various topics can be represented as an answer set program. However, to advance the conversation, we need to solve the problem of finding relevant consistent concepts, i.e., find consistent knowledge in the "neighborhood" of the current topic being discussed that can be used to advance the conversation. Traditional ASP solvers will generate the whole answer set which is stripped of all the associations between the various atoms (concepts) and thus cannot be used to find relevant consistent concepts. Similarly, goal-directed implementations of ASP will only find concepts directly relevant to a query. We present the DiscASP system that will find the partial consistent model that is relevant to a given topic in a manner similar to how a human will find it. DiscASP is based on a novel graph-based algorithm for finding stable models of an answer set program. We present the DiscASP algorithm, its implementation, and its application to developing a conversational socialbot.
翻訳日:2021-09-21 02:33:49 公開日:2021-09-17
# (参考訳) 応答集合型プログラミングを用いた逐次データ構造知識からの並列プログラム生成 [全文訳有]

Generating Concurrent Programs From Sequential Data Structure Knowledge Using Answer Set Programming ( http://arxiv.org/abs/2109.08298v1 )

ライセンス: CC BY 4.0
Sarat Chandra Varanasi (The University of Texas at Dallas), Neeraj Mittal (The University of Texas at Dallas), Gopal Gupta (The University of Texas at Dallas)(参考訳) 逐次データ構造仕様と並列動作に関する知識を与えられた並列データ構造操作を自動設計する問題に取り組む。 最も単純な場合であっても、並列コードの設計は簡単ではない。 人間はしばしば、逐次バージョンをそれぞれの同時バージョンに変換することで、同時データ構造操作を設計する。 これは、データ構造、シーケンシャルな振る舞い、並行実行中のスレッドインタラクション、共有メモリ同期プリミティブを理解する必要がある。 自動コモンセンス推論を用いてこの設計プロセスを機械化する。 データ構造記述は代数演算のシーケンシャルコードと並行して公理として提供されると仮定する。 この情報は、リンクリストの辞書操作やバイナリ検索ツリーなどのデータ構造のための並列コードを自動的に導き出すために使用される。 私たちの場合の知識は、解答セットプログラミング(ASP)を使って表現されます。 aspはポインタデータ構造の1次理論、ランタイムスレッドインタラクション、共有メモリ同期の簡潔なモデリングを可能にする。 我々の推論者は、確実に安全な並行コードを構築しながら、人間の推論者と同じ判断を体系的に行うことができる。 逐次データ構造を等価な並列バージョンに変換する上で,いくつかの推論課題を提示する。 すべての推論タスクはaspでエンコードされ、推論者はシーケンシャルコードを並列コードに変換するために適切な判断を行うことができます。 私たちの知る限りでは、シーケンシャルプログラムを並列コードに変換するのにCommonsense reasoningを使うのは、私たちの仕事が初めてです。 我々はまた、最先端のaspソルバに依存し、並行コードを生成するための推論タスクを実行するツールも開発した。

We tackle the problem of automatically designing concurrent data structure operations given a sequential data structure specification and knowledge about concurrent behavior. Designing concurrent code is a non-trivial task even in simplest of cases. Humans often design concurrent data structure operations by transforming sequential versions into their respective concurrent versions. This requires an understanding of the data structure, its sequential behavior, thread interactions during concurrent execution and shared memory synchronization primitives. We mechanize this design process using automated commonsense reasoning. We assume that the data structure description is provided as axioms alongside the sequential code of its algebraic operations. This information is used to automatically derive concurrent code for that data structure, such as dictionary operations for linked lists and binary search trees. Knowledge in our case is expressed using Answer Set Programming (ASP), and we employ deduction and abduction -- just as humans do -- in the reasoning involved. ASP allows for succinct modeling of first order theories of pointer data structures, run-time thread interactions and shared memory synchronization. Our reasoner can systematically make the same judgments as a human reasoner, while constructing provably safe concurrent code. We present several reasoning challenges involved in transforming the sequential data structure into its equivalent concurrent version. All the reasoning tasks are encoded in ASP and our reasoner can make sound judgments to transform sequential code into concurrent code. To the best of our knowledge, our work is the first one to use commonsense reasoning to automatically transform sequential programs into concurrent code. We also have developed a tool that we describe that relies on state-of-the-art ASP solvers and performs the reasoning tasks involved to generate concurrent code.
翻訳日:2021-09-21 02:15:54 公開日:2021-09-17
# (参考訳) マルチエージェント経路探索問題に対する柔軟かつ説明可能な解法 [全文訳有]

Flexible and Explainable Solutions for Multi-Agent Path Finding Problems ( http://arxiv.org/abs/2109.08299v1 )

ライセンス: CC BY 4.0
Aysu Bogatarkan(参考訳) MAPF問題(Multi-agent path find)は、複数のエージェント(例えば、自律倉庫など)が互いに衝突しない環境(例えば、自律倉庫)において、複数のエージェント(例えば、ロボット)の経路を見つけることを目的とした組合せ探索問題である。 MAPFの現実的な応用には、柔軟性(MAPFのバリエーションの解決など)と説明可能性が必要である。 本研究では,これらの課題に対処し,mapfとその変種に対する柔軟かつ説明可能な解決法を提案する。

The multi-agent path finding (MAPF) problem is a combinatorial search problem that aims at finding paths for multiple agents (e.g., robots) in an environment (e.g., an autonomous warehouse) such that no two agents collide with each other, and subject to some constraints on the lengths of paths. The real-world applications of MAPF require flexibility (e.g., solving variations of MAPF) as well as explainability. In this study, both of these challenges are addressed and some flexible and explainable solutions for MAPF and its variants are introduced.
翻訳日:2021-09-21 01:59:47 公開日:2021-09-17
# (参考訳) 総合的マルチエージェントてんかん計画 [全文訳有]

Comprehensive Multi-Agent Epistemic Planning ( http://arxiv.org/abs/2109.08301v1 )

ライセンス: CC BY 4.0
Francesco Fabiano (University of Udine)(参考訳) ここ数年、人工知能の概念は、日々の生活といくつかの作業シナリオの両方に関して、さまざまなタスクの中心になってきた。 これらのタスクの中で、自動計画は常にAI研究コミュニティの中心にある。 特に、この写本は、MEP(Multi-Adnt Epistemic Planning)として知られる特殊な計画に重点を置いている。 エピステミックプランニング(EP: Epistemic Planning)とは、エージェントが知識/理解状態の空間に理由を持ち、開始状態から望ましい状態に到達する計画を見つけようとする、自動的な計画環境を指す。 その一般的な形式であるmep問題には、世界の状況とエージェント間の情報の流れの両方を判断する必要がある複数のエージェントが含まれている。 MEP問題に対処するために、いくつかのツールが開発され、様々なアプローチが問題空間の深い理解につながっているが、それぞれのツールにはいくつかの能力がなく、情報フローの包括的な調査ができない。 そのため、我々の研究の目的は、エージェントの知識/信頼の相互作用と更新の完全な特徴付けが可能な環境を定式化することです。 特に,マルチエージェント認識計画のための新たなアクションベース言語を定義し,それに基づく認識プランナーの実装を目標としている。 このソルバは、経済、安全保障、正義、政治など、さまざまなドメインを推論できるほど柔軟で、他人の知識や信条を考慮すれば、勝利戦略に繋がることのできるツールを提供するべきである。

Over the last few years, the concept of Artificial Intelligence has become central in different tasks concerning both our daily life and several working scenarios. Among these tasks automated planning has always been central in the AI research community. In particular, this manuscript is focused on a specialized kind of planning known as Multi-agent Epistemic Planning (MEP). Epistemic Planning (EP) refers to an automated planning setting where the agent reasons in the space of knowledge/beliefs states and tries to find a plan to reach a desirable state from a starting one. Its general form, the MEP problem, involves multiple agents who need to reason about both the state of the world and the information flows between agents. To tackle the MEP problem several tools have been developed and, while the diversity of approaches has led to a deeper understanding of the problem space, each proposed tool lacks some abilities and does not allow for a comprehensive investigation of the information flows. That is why, the objective of our work is to formalize an environment where a complete characterization of the agents' knowledge/beliefs interaction and update is possible. In particular, we aim to achieve such goal by defining a new action-based language for multi-agent epistemic planning and to implement an epistemic planner based on it. This solver should provide a tool flexible enough to reason on different domains, e.g., economy, security, justice and politics, where considering others' knowledge/beliefs could lead to winning strategies.
翻訳日:2021-09-21 01:51:27 公開日:2021-09-17
# (参考訳) 回答セットプログラミングにおける製品構成 [全文訳有]

Product Configuration in Answer Set Programming ( http://arxiv.org/abs/2109.08304v1 )

ライセンス: CC BY 4.0
Seemran Mishra (University of Potsdam, Germany)(参考訳) これは、応答セットプログラミング(asp)でインタラクティブな構成システムを構築するための基盤となる構成知識表現に関する予備的な作業である。 製品構成問題の主要な概念は、自転車構成の例で特定され、議論される。 ファクトフォーマットは、ドメイン固有で、他のシステムからマップできる製品知識を表現するために開発されます。 最後に、設定問題の概念を表すドメインに依存しないASPエンコーディングが提供される。

This is a preliminary work on configuration knowledge representation which serves as a foundation for building interactive configuration systems in Answer Set programming (ASP). The major concepts of the product configuration problem are identified and discussed with a bike configuration example. A fact format is developed for expressing product knowledge that is domain-specific and can be mapped from other systems. Finally, a domain-independent ASP encoding is provided that represents the concepts in the configuration problem.
翻訳日:2021-09-21 01:38:44 公開日:2021-09-17
# (参考訳) 解集合プログラミングにおける時間的行動の形式化 [全文訳有]

Formalisation of Action with Durations in Answer Set Programming ( http://arxiv.org/abs/2109.08305v1 )

ライセンス: CC BY 4.0
Etienne Tignon(参考訳) 本稿では,ポツダム大学の博士課程生であるT. Schaubの指導の下,私が現在行っている研究について論じる。 私は現在ASP.NETのアクション記述を調べています。 より正確に言うと、私のゴールは、ASP.NETの持続時間でアクションを表現する方法を探ることです。 現時点では、さまざまなエージェントやコンテキストの速度を表す方法を模索している、MAPF(Multi-Agent Path Finding)に注目しています。 持続時間に取り組む前に、asp.netのさまざまなアクションの表現を調査して比較したかったのです。 そこで私は、mapf問題に取り組む異なる単純なエンコーディングを比較し始めた。 単純なコードでも、選択や仮定が作成に使われています。 私の仕事の目的は、これらの設計決定の結果をパフォーマンスと知識表現の観点から示すことです。 私の知る限りでは、この話題に関する現在の研究はない。 さらに、持続時間を表現し、関連する問題を解決するさまざまな方法を模索しています。 以前説明したように、それらを比較するつもりでした。 また、このことは、持続時間で問題を解決する革新的な効果的な方法を見つけるのにも役立ちたいです。

In this paper, I will discuss the work I am currently doing as a Ph.D. student at the University of Potsdam, under the tutoring of T. Schaub. I'm currently looking into action description in ASP. More precisely, my goal is to explore how to represent actions with durations in ASP, in different contexts. Right now, I'm focused on Multi-Agent Path Finding (MAPF), looking at how to represent speeds for different agents and contexts. Before tackling duration, I wanted to explore and compare different representations of action taking in ASP. For this, I started comparing different simple encodings tackling the MAPF problem. Even in simple code, choices and assumptions have been made in their creations. The objective of my work is to present the consequences of those design decisions in terms of performance and knowledge representation. As far as I know, there is no current research on this topic. Besides that, I'm also exploring different ways to represent duration and to solve related problems. I planed to compare them the same way I described before. I also want this to help me find innovative and effective ways to solve problems with duration.
翻訳日:2021-09-21 01:24:29 公開日:2021-09-17
# (参考訳) 空間モーダル論理を用いた決定木学習 [全文訳有]

Decision Tree Learning with Spatial Modal Logics ( http://arxiv.org/abs/2109.08325v1 )

ライセンス: CC BY 4.0
Giovanni Pagliarini (Dept. of Mathematics and Computer Science, University of Ferrara, Italy, Dept. of Mathematical, Physical and Computer Sciences, University of Parma, Italy), Guido Sciavicco (Dept. of Mathematics and Computer Science, University of Ferrara, Italy)(参考訳) 記号学習は、解釈可能なモデリングに対する最も単純なアプローチであるが、その応用は単一の構造設計の選択によって妨げられている。 近年,特に時間依存データに対して,より仮説的な記号学習法が登場し始めている。 これらの手法は、時間的決定木のような強力な学習アルゴリズムにおけるモーダル時間論理の表現力を利用しており、その分類能力は、明示的な知識表現を持つモデルを生成する。 空間データの場合,同じアプローチを意図して,本稿では次のように述べる。 一 空間決定木学習の理論を提示すること。 二 古典的C4.5アルゴリズムに基づいて、厳密に拡張した空間決定木学習アルゴリズムの原型的実装を記述すること。 iii) 利用可能なデータセット上で,複数の種類の画像分類問題に対して,空間決定木の予測力と古典命題決定木の予測力を比較する一連の実験を行う。 私たちの結果は、提案モデルから空間モデルへのパフォーマンスの明確な改善を示し、さらに高いレベルの解釈可能性を示している。

Symbolic learning represents the most straightforward approach to interpretable modeling, but its applications have been hampered by a single structural design choice: the adoption of propositional logic as the underlying language. Recently, more-than-propositio nal symbolic learning methods have started to appear, in particular for time-dependent data. These methods exploit the expressive power of modal temporal logics in powerful learning algorithms, such as temporal decision trees, whose classification capabilities are comparable with the best non-symbolic ones, while producing models with explicit knowledge representation. With the intent of following the same approach in the case of spatial data, in this paper we: i) present a theory of spatial decision tree learning; ii) describe a prototypical implementation of a spatial decision tree learning algorithm based, and strictly extending, the classical C4.5 algorithm; and iii) perform a series of experiments in which we compare the predicting power of spatial decision trees with that of classical propositional decision trees in several versions, for a multi-class image classification problem, on publicly available datasets. Our results are encouraging, showing clear improvements in the performances from the propositional to the spatial models, which in turn show higher levels of interpretability.
翻訳日:2021-09-21 01:14:44 公開日:2021-09-17
# (参考訳) デュアルパスU-netを用いた3次元乳房超音波の質量分離 [全文訳有]

Mass Segmentation in Automated 3-D Breast Ultrasound Using Dual-Path U-net ( http://arxiv.org/abs/2109.08330v1 )

ライセンス: CC BY 4.0
Hamed Fayyaz, Ehsan Kozegar, Tao Tan, Mohsen Soryani(参考訳) 3次元乳房検診(ABUS)は,乳がん検診におけるマンモグラフィーの補助効果として提案されている乳房検診の新たな基礎システムである。 ABUSは高密度の乳房ではパフォーマンスが向上する一方、ABUS画像の読影は枯渇し、時間を要する。 そのため,画像の解釈にはコンピュータ支援検出システムが必要である。 マスセグメンテーションはコンピュータ支援検出システムにおいて重要な役割を担い、全体的な性能に影響を与える。 マスセグメンテーションは、質量の大きさ、形状、テクスチャが多種多様であるため、難しい課題である。 さらに、不均衡なデータセットはセグメンテーションを難しくする。 本稿では,深層学習に基づく新しいマスセグメンテーション手法を提案する。 この研究で画像セグメンテーションに使用されるディープネットワークは,近年,高密度セグメンテーションに広く利用されているU-netにインスパイアされている。 このシステムの性能は、悪性度38と良性病変12を含む50マスのデータセットを用いて決定された。 提案手法では,0.74の2段階教師付きエッジベース法と0.65の適応領域成長法を上回り,0.82のセグメント化を実現した。

Automated 3-D breast ultrasound (ABUS) is a newfound system for breast screening that has been proposed as a supplementary modality to mammography for breast cancer detection. While ABUS has better performance in dense breasts, reading ABUS images is exhausting and time-consuming. So, a computer-aided detection system is necessary for interpretation of these images. Mass segmentation plays a vital role in the computer-aided detection systems and it affects the overall performance. Mass segmentation is a challenging task because of the large variety in size, shape, and texture of masses. Moreover, an imbalanced dataset makes segmentation harder. A novel mass segmentation approach based on deep learning is introduced in this paper. The deep network that is used in this study for image segmentation is inspired by U-net, which has been used broadly for dense segmentation in recent years. The system's performance was determined using a dataset of 50 masses including 38 malign and 12 benign lesions. The proposed segmentation method attained a mean Dice of 0.82 which outperformed a two-stage supervised edge-based method with a mean Dice of 0.74 and an adaptive region growing method with a mean Dice of 0.65.
翻訳日:2021-09-20 23:59:07 公開日:2021-09-17
# (参考訳) ビデオレコメンデーションのためのマルチモーダル感性データセット [全文訳有]

A Multimodal Sentiment Dataset for Video Recommendation ( http://arxiv.org/abs/2109.08333v1 )

ライセンス: CC BY 4.0
Hongxuan Tang, Hao Liu, Xinyan Xiao, Hua Wu(参考訳) 近年,マルチモーダル感情分析が目覚ましい進歩を遂げており,その開発に多くのデータセットが提案されている。 一般に、現在のマルチモーダル感情分析データセットは、通常、ポジティブ、ネガティブなど、伝統的な感情/感情のシステムに従う。 しかし,映像レコメンデーションのシナリオに適用した場合,視覚感覚や言語理解の観点から映像の異なるコンテンツを表現するために,従来の感情・感情システムを活用することは困難である。 そこで本稿では,DuVideoSenti と呼ばれるマルチモーダル感情分析データセットを提案するとともに,レコメンデーションシーンにおける映像の感情スタイルを記述した新たな感情システムを提案する。 具体的には、duvideosentiはbaiduに表示された5,630本のビデオからなり、各ビデオにはユーザのリアルなビデオ感覚を記述した感傷的なスタイルラベルが手作業で注釈付けされる。 さらに,UNIMOをDuVideoSentiのベースラインとして提案する。 実験の結果、duvideosentiはマルチモーダル感情分析に新たな課題をもたらし、ビデオ理解とマルチモーダル融合のためのアプローチを評価するための新しいベンチマークとして使用できることが示された。 また,提案するduvideosentiは,マルチモーダル感情分析の開発とビデオレコメンデーションへの応用をさらに改善することを期待している。

Recently, multimodal sentiment analysis has seen remarkable advance and a lot of datasets are proposed for its development. In general, current multimodal sentiment analysis datasets usually follow the traditional system of sentiment/emotion, such as positive, negative and so on. However, when applied in the scenario of video recommendation, the traditional sentiment/emotion system is hard to be leveraged to represent different contents of videos in the perspective of visual senses and language understanding. Based on this, we propose a multimodal sentiment analysis dataset, named baiDu Video Sentiment dataset (DuVideoSenti), and introduce a new sentiment system which is designed to describe the sentimental style of a video on recommendation scenery. Specifically, DuVideoSenti consists of 5,630 videos which displayed on Baidu, each video is manually annotated with a sentimental style label which describes the user's real feeling of a video. Furthermore, we propose UNIMO as our baseline for DuVideoSenti. Experimental results show that DuVideoSenti brings new challenges to multimodal sentiment analysis, and could be used as a new benchmark for evaluating approaches designed for video understanding and multimodal fusion. We also expect our proposed DuVideoSenti could further improve the development of multimodal sentiment analysis and its application to video recommendations.
翻訳日:2021-09-20 23:47:33 公開日:2021-09-17
# (参考訳) Dropoutのドリームランド:学習シミュレータから現実への一般化 [全文訳有]

Dropout's Dream Land: Generalization from Learned Simulators to Reality ( http://arxiv.org/abs/2109.08342v1 )

ライセンス: CC BY 4.0
Zac Wellmer, James T. Kwok(参考訳) 世界モデルは環境をシミュレートするために使用される生成モデルである。 世界モデルは強化学習環境の空間的および時間的表現を学習できることが証明されている。 場合によっては、World Modelはエージェントが自分の夢の中で完全に学習する機会を提供する。 本研究では、夢環境から現実環境(dream2real)への一般化能力の向上について検討する。 本稿では,ニューラルネットワークのドリーム環境から現実に移行するコントローラの能力を改善するための一般的なアプローチを提案する。 これらの改善は、ドメインのランダム化からインスピレーションを得て得られるもので、基本的なアイデアは、手元のタスクを根本的に変えることなく、できるだけ多くのシミュレータをランダム化することだ。 一般的にドメインランダム化は、設定可能なパラメータを持つプレビルドシミュレータへのアクセスを前提としているが、多くの場合、利用できない。 ドロップアウトを使ってワールドモデルをトレーニングすることで、夢の環境はほぼ無限の異なる夢の環境を作り出すことができる。 従来のドロップアウトは、推論時にドロップアウトを使用しないか、複数のサンプルマスク(Monte-Carlo Dropout)によって生成された予測を平均化する。 DropoutのDream Landは、それぞれのユニークなマスクを活用して、多様なドリーム環境を作り出す。 実験の結果,Dropout's Dream Landは,夢と現実のギャップを埋める有効な手法であることがわかった。 さらに,広範囲にわたるアブレーション研究も実施している。

A World Model is a generative model used to simulate an environment. World Models have proven capable of learning spatial and temporal representations of Reinforcement Learning environments. In some cases, a World Model offers an agent the opportunity to learn entirely inside of its own dream environment. In this work we explore improving the generalization capabilities from dream environments to real environments (Dream2Real). We present a general approach to improve a controller's ability to transfer from a neural network dream environment to reality at little additional cost. These improvements are gained by drawing on inspiration from Domain Randomization, where the basic idea is to randomize as much of a simulator as possible without fundamentally changing the task at hand. Generally, Domain Randomization assumes access to a pre-built simulator with configurable parameters but oftentimes this is not available. By training the World Model using dropout, the dream environment is capable of creating a nearly infinite number of different dream environments. Previous use cases of dropout either do not use dropout at inference time or averages the predictions generated by multiple sampled masks (Monte-Carlo Dropout). Dropout's Dream Land leverages each unique mask to create a diverse set of dream environments. Our experimental results show that Dropout's Dream Land is an effective technique to bridge the reality gap between dream environments and reality. Furthermore, we additionally perform an extensive set of ablation studies.
翻訳日:2021-09-20 23:39:10 公開日:2021-09-17
# (参考訳) Comfetch: Sketchingによるメモリ制限されたクライアント上の大規模ネットワークのフェデレーション学習 [全文訳有]

Comfetch: Federated Learning of Large Networks on Memory-Constrained Clients via Sketching ( http://arxiv.org/abs/2109.08346v1 )

ライセンス: CC BY 4.0
Tahseen Rabbani, Brandon Feng, Yifan Yang, Arjun Rajkumar, Amitabh Varshney, Furong Huang(参考訳) 連合学習(federated learning)の一般的なアプリケーションは、多くのクライアントを使用してディープニューラルネットワークをトレーニングする。 最近の取り組みは通信の複雑さを減らすことに重点を置いているが、既存のアルゴリズムでは、各クライアントが現在および完全なパラメータセットをダウンロードできると仮定している。 本研究では,グローバルアーキテクチャの圧縮バージョンを用いた大規模ネットワークのトレーニングを行うための新しいアルゴリズムComfetchを提案し,通信コストとローカルメモリコストを削減した。 本研究では, 深層畳み込みネットワークやLSTMなどの大規模ネットワークを, スケッチしたエージェントの訓練を通じて学習できることを実験的に実証する。 結果として得られたグローバルモデルは、最先端のfetchsgdや古典的なfedavgと比較すると、競争力のあるテスト精度を示す。

A popular application of federated learning is using many clients to train a deep neural network, the parameters of which are maintained on a central server. While recent efforts have focused on reducing communication complexity, existing algorithms assume that each participating client is able to download the current and full set of parameters, which may not be a practical assumption depending on the memory constraints of clients such as mobile devices. In this work, we propose a novel algorithm Comfetch, which allows clients to train large networks using compressed versions of the global architecture via Count Sketch, thereby reducing communication and local memory costs. We provide a theoretical convergence guarantee and experimentally demonstrate that it is possible to learn large networks, such as a deep convolutional network and an LSTM, through federated agents training on their sketched counterparts. The resulting global models exhibit competitive test accuracy when compared against the state-of-the-art FetchSGD and the classical FedAvg, both of which require clients to download the full architecture.
翻訳日:2021-09-20 23:21:48 公開日:2021-09-17
# (参考訳) 正規化を組み込んだ言語モデルのタスク適応型事前学習 [全文訳有]

Task-adaptive Pre-training of Language Models with Word Embedding Regularization ( http://arxiv.org/abs/2109.08354v1 )

ライセンス: CC BY 4.0
Kosuke Nishida, Kyosuke Nishida, Sen Yoshida(参考訳) 事前学習言語モデル(PTLM)は、大量のテキストリソースを用いた事前学習を通じて、ドメインに依存しない言語知識を取得する。 さらなる事前訓練は、事前訓練されたコーパスでカバーされていない領域にptlmを適用するのに有効である。 本稿では,ドメイン適応のためのPTLMの静的単語埋め込みに着目し,ドメイン固有の単語の意味を教える。 本稿では,単語埋め込み規則付きタスク適応型事前学習(TAPTER)を提案する。 TAPTERは、ターゲットドメインで取得した単語埋め込みに近いPTLMの静的単語埋め込みをfastTextで実行することにより、追加の事前トレーニングを実行する。 TAPTERは下流タスクのトレーニングデータを除いて追加のコーパスを必要としない。 我々は,TAPTERが標準微調整とBioASQ(バイオメディカルドメインでの質問応答)およびSQuAD(ウィキペディアドメイン)におけるタスク適応型事前学習の性能を向上させることを確認した。

Pre-trained language models (PTLMs) acquire domain-independent linguistic knowledge through pre-training with massive textual resources. Additional pre-training is effective in adapting PTLMs to domains that are not well covered by the pre-training corpora. Here, we focus on the static word embeddings of PTLMs for domain adaptation to teach PTLMs domain-specific meanings of words. We propose a novel fine-tuning process: task-adaptive pre-training with word embedding regularization (TAPTER). TAPTER runs additional pre-training by making the static word embeddings of a PTLM close to the word embeddings obtained in the target domain with fastText. TAPTER requires no additional corpus except for the training data of the downstream task. We confirmed that TAPTER improves the performance of the standard fine-tuning and the task-adaptive pre-training on BioASQ (question answering in the biomedical domain) and on SQuAD (the Wikipedia domain) when their pre-training corpora were not dominated by in-domain data.
翻訳日:2021-09-20 22:47:41 公開日:2021-09-17
# (参考訳) Gated Cross Attention を用いた薬物・標的相互作用の解釈可能なフレームワーク [全文訳有]

An Interpretable Framework for Drug-Target Interaction with Gated Cross Attention ( http://arxiv.org/abs/2109.08360v1 )

ライセンス: CC BY 4.0
Yeachan Kim, Bonggun Shin(参考訳) silico prediction of drug-target interaction (dti) では、創薬過程のタイムラインとコストを大幅に削減できるため、創薬に重要である。 特に、ディープラーニングに基づくDTIアプローチは、予測の精度と低コストの観点から有望な結果を示している。 しかし、予測結果の解釈可能性や、薬物と標的の間の特徴レベルの相互作用にはほとんど注意を払わない。 本研究では,対話サイトに対して適切な手がかりを提供する新しい解釈可能なフレームワークを提案する。 そこで我々は,これらの特徴間の明示的な相互作用を構築することにより,薬物と標的の特徴を相互に関与するゲート型クロスアテンション機構を精巧に設計する。 この方法のゲーティング機能は、神経モデルが薬物やタンパク質の配列全体にわたるサルエント領域に焦点を合わせ、注意マップである機能からの副産物が解釈可能な因子として機能することを可能にする。 実験の結果,2つのDTIデータセットにおける提案手法の有効性が示された。 さらに、ゲート交叉は変異に敏感に反応し得ることを示し、この結果は変異タンパク質を標的とした新規薬物の同定に関する洞察を与える可能性がある。

In silico prediction of drug-target interactions (DTI) is significant for drug discovery because it can largely reduce timelines and costs in the drug development process. Specifically, deep learning-based DTI approaches have been shown promising results in terms of accuracy and low cost for the prediction. However, they pay little attention to the interpretability of their prediction results and feature-level interactions between a drug and a target. In this study, we propose a novel interpretable framework that can provide reasonable cues for the interaction sites. To this end, we elaborately design a gated cross-attention mechanism that crossly attends drug and target features by constructing explicit interactions between these features. The gating function in the method enables neural models to focus on salient regions over entire sequences of drugs and proteins, and the byproduct from the function, which is the attention map, could serve as interpretable factors. The experimental results show the efficacy of the proposed method in two DTI datasets. Additionally, we show that gated cross-attention can sensitively react to the mutation, and this result could provide insights into the identification of novel drugs targeting mutant proteins.
翻訳日:2021-09-20 22:37:32 公開日:2021-09-17
# (参考訳) CodeQA: ソースコード理解のための質問回答データセット [全文訳有]

CodeQA: A Question Answering Dataset for Source Code Comprehension ( http://arxiv.org/abs/2109.08365v1 )

ライセンス: CC BY 4.0
Chenxiao Liu, Xiaojun Wan(参考訳) ソースコードの理解を目的として,自由形式の質問応答データセットであるcodeqaを提案する。 CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。 自然で忠実な質問や回答を得るために、構文ルールと意味分析を実装し、コードコメントを質問対に変換する。 本稿では,構築過程とデータセットの系統的解析を行う。 データセット上でのいくつかの神経ベースラインによる実験結果を示し,考察した。 質問応答と機械読解に関する研究は急速に進展するが、コード質問応答に注意を向ける先行研究はほとんどない。 この新しいデータセットは、ソースコード理解のための有用な研究ベンチマークとして機能する。

We propose CodeQA, a free-form question answering dataset for the purpose of source code comprehension: given a code snippet and a question, a textual answer is required to be generated. CodeQA contains a Java dataset with 119,778 question-answer pairs and a Python dataset with 70,085 question-answer pairs. To obtain natural and faithful questions and answers, we implement syntactic rules and semantic analysis to transform code comments into question-answer pairs. We present the construction process and conduct systematic analysis of our dataset. Experiment results achieved by several neural baselines on our dataset are shown and discussed. While research on question-answering and machine reading comprehension develops rapidly, few prior work has drawn attention to code question answering. This new dataset can serve as a useful research benchmark for source code comprehension.
翻訳日:2021-09-20 22:24:21 公開日:2021-09-17
# (参考訳) 視覚的注意予測のためのバイオインスパイアされたオーディオ・ビジュアルキュース統合 [全文訳有]

Bio-Inspired Audio-Visual Cues Integration for Visual Attention Prediction ( http://arxiv.org/abs/2109.08371v1 )

ライセンス: CC BY 4.0
Yuan Yuan, Hailong Ning, and Bin Zhao(参考訳) 視覚注意予測(VAP)手法は、視覚タスクにおいて重要かつ必須であるシーンを認識するための人間の選択的な注意機構をシミュレートする。 既存の手法のほとんどは視覚的な手がかりしか考慮していないが、付随する音声情報は無視し、シーンの理解に補完的な情報を提供できる。 実際、聴覚と視覚の手がかりの間には強い関係があり、人間はこれらの手がかりを同時に感知することで周囲のシーンを知覚する。 このことから,バイオインスパイアされた視覚情報統合手法がVAPタスクに提案され,視覚のモダリティを補助することで視覚の注意マップをより正確に予測するためのオーディオモダリティが検討されている。 提案手法は以下の3つの部分からなる。 1)音声視覚符号化 2)音声・視覚的位置、及び 3)複数キュー集約部。 まず,音質を改良したSoundNetアーキテクチャを採用し,空間的位置情報と時間的動き情報の両方を含む視覚的特徴を学習する3D ResNet-50アーキテクチャを改良した。 次に、オーディオ視覚情報間の対応を学習して、映像中の音源を特定するように、オーディオ視覚位置情報部を工夫する。 第3に、最終視覚注意マップを生成する前に、オーディオ視覚情報とセンタバイアスとを適応的に集約するマルチキュー集約部を考案する。 大規模な実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難解な視線追跡データセットで行われ、最先端の視覚的注意モデルよりも大幅に優れている。

Visual Attention Prediction (VAP) methods simulates the human selective attention mechanism to perceive the scene, which is significant and imperative in many vision tasks. Most existing methods only consider visual cues, while neglect the accompanied audio information, which can provide complementary information for the scene understanding. In fact, there exists a strong relation between auditory and visual cues, and humans generally perceive the surrounding scene by simultaneously sensing these cues. Motivated by this, a bio-inspired audio-visual cues integration method is proposed for the VAP task, which explores the audio modality to better predict the visual attention map by assisting vision modality. The proposed method consists of three parts: 1) audio-visual encoding, 2) audio-visual location, and 3) multi-cues aggregation parts. Firstly, a refined SoundNet architecture is adopted to encode audio modality for obtaining corresponding features, and a modified 3D ResNet-50 architecture is employed to learn visual features, containing both spatial location and temporal motion information. Secondly, an audio-visual location part is devised to locate the sound source in the visual scene by learning the correspondence between audio-visual information. Thirdly, a multi-cues aggregation part is devised to adaptively aggregate audio-visual information and center-bias prior to generate the final visual attention map. Extensive experiments are conducted on six challenging audiovisual eye-tracking datasets, including DIEM, AVAD, Coutrot1, Coutrot2, SumMe, and ETMD, which shows significant superiority over state-of-the-art visual attention models.
翻訳日:2021-09-20 22:08:46 公開日:2021-09-17
# (参考訳) PIRenderer: セマンティック・ニューラルレンダリングによる制御可能な画像生成 [全文訳有]

PIRenderer: Controllable Portrait Image Generation via Semantic Neural Rendering ( http://arxiv.org/abs/2109.08379v1 )

ライセンス: CC BY 4.0
Yurui Ren and Ge Li and Yuanqi Chen and Thomas H. Li and Shan Liu(参考訳) 既存の顔の動きを制御してポートレート画像を生成することは、ソーシャルメディア産業にとって大きな成果をもたらす重要な課題である。 使いやすさと直感的な制御のためには、意味論的に意味があり、完全に不整合したパラメータを修正として使う必要がある。 しかし、既存の技術の多くは、そのような細かな制御や間接的な編集方法、すなわち他の個人の動きを模倣する手段を提供していない。 本稿では,3次元形態素顔モデル(3DMM)のパラメータを用いて顔の動きを制御するために,ポートレート画像ニューラルレンダ(PIRenderer)を提案する。 提案モデルでは,直観的な修正により正確な動きを持つフォトリアリスティックなポートレート画像を生成することができる。 直接的および間接的な編集タスクの実験は、このモデルの優位性を示している。 また,このモデルをさらに拡張し,音声入力から逐次動作を抽出することにより,音声駆動の表情再現タスクに取り組む。 本モデルは,単一の参照画像と駆動音声ストリームのみから,説得力のある動画を生成可能であることを示す。 ソースコードはhttps://github.com/R enYurui/PIRender.com で公開されています。

Generating portrait images by controlling the motions of existing faces is an important task of great consequence to social media industries. For easy use and intuitive control, semantically meaningful and fully disentangled parameters should be used as modifications. However, many existing techniques do not provide such fine-grained controls or use indirect editing methods i.e. mimic motions of other individuals. In this paper, a Portrait Image Neural Renderer (PIRenderer) is proposed to control the face motions with the parameters of three-dimensional morphable face models (3DMMs). The proposed model can generate photo-realistic portrait images with accurate movements according to intuitive modifications. Experiments on both direct and indirect editing tasks demonstrate the superiority of this model. Meanwhile, we further extend this model to tackle the audio-driven facial reenactment task by extracting sequential motions from audio inputs. We show that our model can generate coherent videos with convincing movements from only a single reference image and a driving audio stream. Our source code is available at https://github.com/R enYurui/PIRender.
翻訳日:2021-09-20 21:43:14 公開日:2021-09-17
# (参考訳) より近づくために: アスペクトを意見とリンクすることを学ぶ [全文訳有]

To be Closer: Learning to Link up Aspects with Opinions ( http://arxiv.org/abs/2109.08382v1 )

ライセンス: CC BY 4.0
Yuxiang Zhou, Lejian Liao, Yang Gao, Zhanming Jie, Wei Lu(参考訳) 依存性解析木はアスペクトベース感情分析(ABSA)における意見語の検出に有用である。 しかし、オフザシェルフ依存パーサから得られる木は静的であり、ABSAでは準最適である可能性がある。 これは、構文木が意見語とアスペクト語の相互作用を捉えるように設計されていないためである。 本研究では,アスペクト中心のツリー構造を学習することで,アスペクトと対応する意見語の距離を短くすることを目的とする。 アスペクトと意見語は、標準的な依存構文木と比較して、そのような木構造に沿って近いことが期待される。 学習プロセスにより、木構造はアスペクトと意見語を適応的に相関させ、ABSAタスクの極性をよりよく識別することができる。 我々は5つの側面に基づく感情データセットの実験を行い、提案モデルは近年の強いベースラインを大きく上回っている。 さらに,本研究では,SemEval Restaurant14データセットにおいて,アスペクトと意見語の平均距離を少なくとも19%短縮することを示した。

Dependency parse trees are helpful for discovering the opinion words in aspect-based sentiment analysis (ABSA). However, the trees obtained from off-the-shelf dependency parsers are static, and could be sub-optimal in ABSA. This is because the syntactic trees are not designed for capturing the interactions between opinion words and aspect words. In this work, we aim to shorten the distance between aspects and corresponding opinion words by learning an aspect-centric tree structure. The aspect and opinion words are expected to be closer along such tree structure compared to the standard dependency parse tree. The learning process allows the tree structure to adaptively correlate the aspect and opinion words, enabling us to better identify the polarity in the ABSA task. We conduct experiments on five aspect-based sentiment datasets, and the proposed model significantly outperforms recent strong baselines. Furthermore, our thorough analysis demonstrates the average distance between aspect and opinion words are shortened by at least 19% on the standard SemEval Restaurant14 dataset.
翻訳日:2021-09-20 21:24:45 公開日:2021-09-17
# (参考訳) ガイド付き多視点可視化設計のためのセマンティックスナッピング [全文訳有]

Semantic Snapping for Guided Multi-View Visualization Design ( http://arxiv.org/abs/2109.08384v1 )

ライセンス: CC0 1.0
Yngve S. Kristiansen, Laura Garrison and Stefan Bruckner(参考訳) 視覚情報ディスプレイは通常、基礎となるデータの理解を容易にするために使用される複数の視覚化で構成されている。 一般的な例としてダッシュボードがあり、金融、プロセス監視、ビジネスインテリジェンスといったドメインで頻繁に使用される。 しかし、ユーザーは既存のガイドラインを意識せず、そのようなマルチビューの視覚化を作成する際にエキスパートデザインの知識を欠いている可能性がある。 本稿では,非専門家が既存のビューのセットから効果的なマルチビューの可視化をデザインするための手法であるsemantic snappingを提案する。 特定のビューがキャンバス上に置かれる場合、それは、その幾何学的レイアウトではなく、データ次元がチャネルにどのようにマッピングされるかといった視覚的エンコーディング自体の側面に基づいて、残りのビューと"一致"する。 本手法では, コンフリクト, 誤解を招く, 曖昧な設計を検知し, 提案するためにオンザフライ方式を用い, 代替案の提案を行う。 このアプローチでは、ビジュアライゼーションを構成する際に遭遇する共通の落とし穴を避けるためにユーザを誘導することができる。 提案する事例と事例研究は,我々のアプローチの有用性と妥当性を示すものである。

Visual information displays are typically composed of multiple visualizations that are used to facilitate an understanding of the underlying data. A common example are dashboards, which are frequently used in domains such as finance, process monitoring and business intelligence. However, users may not be aware of existing guidelines and lack expert design knowledge when composing such multi-view visualizations. In this paper, we present semantic snapping, an approach to help non-expert users design effective multi-view visualizations from sets of pre-existing views. When a particular view is placed on a canvas, it is "aligned" with the remaining views -- not with respect to its geometric layout, but based on aspects of the visual encoding itself, such as how data dimensions are mapped to channels. Our method uses an on-the-fly procedure to detect and suggest resolutions for conflicting, misleading, or ambiguous designs, as well as to provide suggestions for alternative presentations. With this approach, users can be guided to avoid common pitfalls encountered when composing visualizations. Our provided examples and case studies demonstrate the usefulness and validity of our approach.
翻訳日:2021-09-20 21:08:12 公開日:2021-09-17
# (参考訳) 資本がないときに「ner and pos」を再現する [全文訳有]

reproducing "ner and pos when nothing is capitalized" ( http://arxiv.org/abs/2109.08396v1 )

ライセンス: CC BY 4.0
Andreas Kuster, Jakub Filipek, Viswa Virinchi Muppirala(参考訳) キャピタライゼーションは、名前付きエンティティ認識(NER)や音声タグ(POS)など、多くのNLPタスクにおいて重要な機能である。 我々は、トレーニングデータとテストデータでケーシングがミスマッチした場合の大幅なパフォーマンス低下を緩和する方法を示す論文の結果を再現しようと試みている。 特に、データセットの50%を低くすることで、元の論文の主張と一致する最高のパフォーマンスが得られることを示す。 また、再現しようとする実験のほとんどすべてにおいて、パフォーマンスがわずかに低下していることを示し、パフォーマンスに影響を与える隠れた要因がいくつかある可能性を示唆した。 最後に、作業はすべてパブリックなgithubリポジトリで公開しています。

Capitalization is an important feature in many NLP tasks such as Named Entity Recognition (NER) or Part of Speech Tagging (POS). We are trying to reproduce results of paper which shows how to mitigate a significant performance drop when casing is mismatched between training and testing data. In particular we show that lowercasing 50% of the dataset provides the best performance, matching the claims of the original paper. We also show that we got slightly lower performance in almost all experiments we have tried to reproduce, suggesting that there might be some hidden factors impacting our performance. Lastly, we make all of our work available in a public github repository.
翻訳日:2021-09-20 20:49:47 公開日:2021-09-17
# (参考訳) 資源の再利用:日常的な問題解決から危機管理へ [全文訳有]

Repurposing of Resources: from Everyday Problem Solving through to Crisis Management ( http://arxiv.org/abs/2109.08425v1 )

ライセンス: CC BY 4.0
Antonis Bikakis, Luke Dickens, Anthony Hunter, and Rob Miller(参考訳) 物体や過程を再利用する人間の能力は普遍的であるが、人間の知性のよく理解された側面ではない。 調理時の食材不足や、DIYの際の道具不足など、日常的な状況で再購入が行われる。 また、危機管理を必要とする前例のない危機的状況でも発生する。 自然災害の後、戦時中は、避難や食料の流通などに利用可能な材料や工程を再利用しなければならない。 再購入は、職業的生活(例えば、臨床医は、しばしばライセンス外から薬を再利用する)や社会的課題(例えば、廃品の新しい役割を見つけること)にも同様に重要である。 再購入の重要性にもかかわらず、この話題は学術的な注目を集めていない。 毎日の活動や薬物の補充、自然災害といった様々なドメインの例を考慮し、プロセスの原理的特徴を特定し、モデリングやシミュレーションに関わるいくつかの技術的な課題を記述した。 我々は、代替の事例、すなわち、不足するリソースの代替となるものを見つけること、および既存のリソースに対する新しい役割を特定することを考える。 これらのアイデアは, 汎用的な再資源化理論へと発展し, 実際に再資源化を支援するツールを開発するために, 常識的推論, 議論, 存在論的推論, および様々な機械学習手法に基づくAI手法の開発につながる可能性がある。

The human ability to repurpose objects and processes is universal, but it is not a well-understood aspect of human intelligence. Repurposing arises in everyday situations such as finding substitutes for missing ingredients when cooking, or for unavailable tools when doing DIY. It also arises in critical, unprecedented situations needing crisis management. After natural disasters and during wartime, people must repurpose the materials and processes available to make shelter, distribute food, etc. Repurposing is equally important in professional life (e.g. clinicians often repurpose medicines off-license) and in addressing societal challenges (e.g. finding new roles for waste products,). Despite the importance of repurposing, the topic has received little academic attention. By considering examples from a variety of domains such as every-day activities, drug repurposing and natural disasters, we identify some principle characteristics of the process and describe some technical challenges that would be involved in modelling and simulating it. We consider cases of both substitution, i.e. finding an alternative for a missing resource, and exploitation, i.e. identifying a new role for an existing resource. We argue that these ideas could be developed into general formal theory of repurposing, and that this could then lead to the development of AI methods based on commonsense reasoning, argumentation, ontological reasoning, and various machine learning methods, to develop tools to support repurposing in practice.
翻訳日:2021-09-20 20:40:46 公開日:2021-09-17
# (参考訳) エントロピーパワーの不等式を用いたシンクホーン距離の一般化されたタラグラン不等式 [全文訳有]

Generalized Talagrand Inequality for Sinkhorn Distance using Entropy Power Inequality ( http://arxiv.org/abs/2109.08430v1 )

ライセンス: CC BY 4.0
Shuchan Wang, Photios A. Stavrou and Mikael Skoglund(参考訳) 本稿では,エントロピー最適輸送とエントロピーパワーの不等式(EPI)の関係について検討する。 まず、最適輸送写像の無限小変位凸性を利用するHWI型不等式を証明する。 第二に、表現の数値項に対応するEPIの飽和度を用いて2つのタラグラッド型不等式を導出する。 この項は多種多様な分布に対して評価されるが、ガウス分布やコーシー分布の場合、この項は明示的な形で見られる。 本結果は,Sinkhorn 距離のガウス的タラグランド不等式を強い対数対数の場合に拡張することを示す。

In this paper, we study the connection between entropic optimal transport and entropy power inequality (EPI). First, we prove an HWI-type inequality making use of the infinitesimal displacement convexity of optimal transport map. Second, we derive two Talagrand-type inequalities using the saturation of EPI that corresponds to a numerical term in our expression. We evaluate for a wide variety of distributions this term whereas for Gaussian and i.i.d. Cauchy distributions this term is found in explicit form. We show that our results extend previous results of Gaussian Talagrand inequality for Sinkhorn distance to the strongly log-concave case.
翻訳日:2021-09-20 20:23:15 公開日:2021-09-17
# (参考訳) TS-MULE:時系列予測モデルに対する局所解釈可能なモデルに依存しない説明 [全文訳有]

TS-MULE: Local Interpretable Model-Agnostic Explanations for Time Series Forecast Models ( http://arxiv.org/abs/2109.08438v1 )

ライセンス: CC BY 4.0
Udo Schlegel, Duy Vo Lam, Daniel A. Keim, Daniel Seebacher(参考訳) 時系列予測は、最先端のパフォーマンスを達成するブラックボックスモデルによる天気から故障予測まで、必要なタスクである。 しかし、理解とデバッグは保証されない。 LIME アプローチを拡張する時系列に特有な局所代理モデル記述法である TS-MULE を提案する。 我々の拡張LIMEは時系列データを分割し摂動する様々な方法で動作します。 本稿では,サロゲートアトリビューションの品質を向上させるために,時系列の6つのサンプリングセグメンテーション手法を提案し,その性能を3つのディープラーニングモデルアーキテクチャと3つの共通多変量時系列データセットで実証する。

Time series forecasting is a demanding task ranging from weather to failure forecasting with black-box models achieving state-of-the-art performances. However, understanding and debugging are not guaranteed. We propose TS-MULE, a local surrogate model explanation method specialized for time series extending the LIME approach. Our extended LIME works with various ways to segment and perturb the time series data. In our extension, we present six sampling segmentation approaches for time series to improve the quality of surrogate attributions and demonstrate their performances on three deep learning model architectures and three common multivariate time series datasets.
翻訳日:2021-09-20 20:08:01 公開日:2021-09-17
# (参考訳) 自然言語による論理推論のためのニューラル統一 [全文訳有]

Neural Unification for Logic Reasoning over Natural Language ( http://arxiv.org/abs/2109.08460v1 )

ライセンス: CC BY 4.0
Gabriele Picco, Hoang Thanh Lam, Marco Luca Sbodio, Vanessa Lopez Garcia(参考訳) 自動定理証明 (automated theorem proving, atp) は、いくつかの予想(列)が一連の公理(事実と規則)の論理的帰結であることを示すことができるコンピュータプログラムの開発を扱う。 ATPはいくつかの成功し、予想と公理が正式に提供される(例えば、一階論理公式として形式化される)。 近年のアプローチ(clark et al., 2020)では、自然言語(英語)で表現された公理を導出するためのトランスフォーマーベースのアーキテクチャが提案されている。 この予想はバイナリテキスト分類器によって検証され、トランスフォーマーモデルは公理が与えられた予想の真理値を予測するように訓練される。 RuleTaker のアプローチ (Clark et al., 2020) は精度と一般化の両面で魅力的な結果をもたらし、モデルが十分に深いクエリ(少なくとも3つの推論ステップ)で訓練された場合、トランスフォーマーは最大5つの推論ステップを必要とするクエリの大多数 (97.6%) に正しく答えることができることを示した。 本研究では,よく知られた推論手順である後方連鎖法を模倣することで,モデルが浅いものにのみ訓練された場合でも,深い問い合わせに答えることができることを示す,一般化の観点で最先端結果を達成するニューラル・ユニファイザ(neural unifier)と相対的トレーニング手順を提案する。 このアプローチは、様々なベンチマークデータを用いた実験で実証されている。

Automated Theorem Proving (ATP) deals with the development of computer programs being able to show that some conjectures (queries) are a logical consequence of a set of axioms (facts and rules). There exists several successful ATPs where conjectures and axioms are formally provided (e.g. formalised as First Order Logic formulas). Recent approaches, such as (Clark et al., 2020), have proposed transformer-based architectures for deriving conjectures given axioms expressed in natural language (English). The conjecture is verified through a binary text classifier, where the transformers model is trained to predict the truth value of a conjecture given the axioms. The RuleTaker approach of (Clark et al., 2020) achieves appealing results both in terms of accuracy and in the ability to generalize, showing that when the model is trained with deep enough queries (at least 3 inference steps), the transformers are able to correctly answer the majority of queries (97.6%) that require up to 5 inference steps. In this work we propose a new architecture, namely the Neural Unifier, and a relative training procedure, which achieves state-of-the-art results in term of generalisation, showing that mimicking a well-known inference procedure, the backward chaining, it is possible to answer deep queries even when the model is trained only on shallow ones. The approach is demonstrated in experiments using a diverse set of benchmark data.
翻訳日:2021-09-20 19:59:54 公開日:2021-09-17
# (参考訳) GoG:ビジュアルダイアログのための関係対応グラフオーバーグラフネットワーク [全文訳有]

GoG: Relation-aware Graph-over-Graph Network for Visual Dialog ( http://arxiv.org/abs/2109.08475v1 )

ライセンス: CC BY 4.0
Feilong Chen, Xiuyi Chen, Fandong Meng, Peng Li, Jie Zhou(参考訳) 与えられた画像について人間と有意義な会話をすることを目的としたビジュアルダイアログは、モデルが視覚コンテンツ、ダイアログ履歴、現在の質問に複雑な依存関係を推論する必要があるという課題である。 画像やダイアログ内のオブジェクト間の暗黙の関係をモデル化するために、グラフニューラルネットワークが最近適用されている。 しかし 彼らはその重要性を無視し 1) 対話履歴のコア参照関係と質問表現のための単語間の依存関係関係 2) 画像の表示は,完全表示された質問に基づいて行う。 そこで,視覚対話のための新しい関係対応グラフオーバーグラフネットワーク(GoG)を提案する。 具体的には、GoGは3つの連続グラフから構成される。 1) 対話履歴間の相互参照関係を捉えることを目的としたhグラフ 2) 対話履歴のコア参照解決に基づく単語間の係り受け関係の把握による質問の完全理解を目的とした歴史対応Qグラフ 3)完全な質問表現に基づく画像内のオブジェクト間の関係の把握を目的とした質問認識I-Graph。 追加の機能表現モジュールとして、既存の視覚対話モデルにGoGを追加します。 実験の結果, 生成的および判別的設定において, モデルが強いベースラインを上回ることがわかった。

Visual dialog, which aims to hold a meaningful conversation with humans about a given image, is a challenging task that requires models to reason the complex dependencies among visual content, dialog history, and current questions. Graph neural networks are recently applied to model the implicit relations between objects in an image or dialog. However, they neglect the importance of 1) coreference relations among dialog history and dependency relations between words for the question representation; and 2) the representation of the image based on the fully represented question. Therefore, we propose a novel relation-aware graph-over-graph network (GoG) for visual dialog. Specifically, GoG consists of three sequential graphs: 1) H-Graph, which aims to capture coreference relations among dialog history; 2) History-aware Q-Graph, which aims to fully understand the question through capturing dependency relations between words based on coreference resolution on the dialog history; and 3) Question-aware I-Graph, which aims to capture the relations between objects in an image based on fully question representation. As an additional feature representation module, we add GoG to the existing visual dialogue model. Experimental results show that our model outperforms the strong baseline in both generative and discriminative settings by a significant margin.
翻訳日:2021-09-20 19:44:34 公開日:2021-09-17
# (参考訳) 視覚対話生成のための視覚接地型マルチモーダルインクリメンタルトランス [全文訳有]

Multimodal Incremental Transformer with Visual Grounding for Visual Dialogue Generation ( http://arxiv.org/abs/2109.08478v1 )

ライセンス: CC BY 4.0
Feilong Chen, Fandong Meng, Xiuyi Chen, Peng Li, Jie Zhou(参考訳) 視覚環境の理解に基づく一連の一貫性のある質問に答える必要があるため、視覚対話は難しい課題である。 これまでの研究では、空間的な画像特徴やオブジェクトレベルの画像特徴に暗黙的に関与することで、マルチモーダルなコリファレンスの暗黙的な探索に焦点を当てるが、テキストコンテンツのエンティティに関連付けられた視覚コンテンツに明示的にオブジェクトを配置することの重要性を無視している。 そこで本稿では, 視覚的グラウンドリングと多モードインクリメンタルトランスフォーマの2つの重要な部分からなるMITVGという, {\bf V}isual {\bf G} を包含した, {\bf M}ultimodal {\bf I}ncremental {\bf T}ransformerを提案する。 視覚的な接地は、テキストエンティティによって導かれる画像内の関連オブジェクトを明示的に特定することを目的としている。 マルチモーダルインクリメンタルトランスフォーマーは、対話の順序に応じて、多段的な対話履歴と視覚的なシーンをステップバイステップでエンコードし、文脈的かつ視覚的にコヒーレントな応答を生成する。 VisDial v0.9 と v1.0 のデータセットによる実験結果から,提案モデルが優れていることを示す。

Visual dialogue is a challenging task since it needs to answer a series of coherent questions on the basis of understanding the visual environment. Previous studies focus on the implicit exploration of multimodal co-reference by implicitly attending to spatial image features or object-level image features but neglect the importance of locating the objects explicitly in the visual content, which is associated with entities in the textual content. Therefore, in this paper we propose a {\bf M}ultimodal {\bf I}ncremental {\bf T}ransformer with {\bf V}isual {\bf G}rounding, named MITVG, which consists of two key parts: visual grounding and multimodal incremental transformer. Visual grounding aims to explicitly locate related objects in the image guided by textual entities, which helps the model exclude the visual content that does not need attention. On the basis of visual grounding, the multimodal incremental transformer encodes the multi-turn dialogue history combined with visual scene step by step according to the order of the dialogue and then generates a contextually and visually coherent response. Experimental results on the VisDial v0.9 and v1.0 datasets demonstrate the superiority of the proposed model, which achieves comparable performance.
翻訳日:2021-09-20 19:25:16 公開日:2021-09-17
# (参考訳) cardisort: クロスベンダーによる心臓mr画像の自動ソートのための畳み込みニューラルネットワーク [全文訳有]

CardiSort: a convolutional neural network for cross vendor automated sorting of cardiac MR images ( http://arxiv.org/abs/2109.08479v1 )

ライセンス: CC BY 4.0
Ruth P Lim, Stefan Kachel, Adriana DM Villa, Leighton Kearney, Nuno Bettencourt, Alistair A Young, Amedeo Chiribiri, Cian M Scannell(参考訳) 目的: 臨床後処理効率を向上させるため, 心臓MRI画像のシーケンシャルタイプと画像平面で分類する画像ベース自動深層学習法を開発する。 方法: 多心室MRI検査は, 4センターと3ベンダーから回顧的に収集した。 画像配列(n=17)と平面(n=10)で35配列を分類する2頭畳み込みニューラルネットワーク('cardisort')を訓練した。 単一センター画像(n=234例)に対するsvt,マルチセンター画像(n=479例,3センター)を用いたマルチベンダ訓練(mvt)を行った。 モデル精度は,SVTおよびMVTの保持試験セットにおいて,専門の放射線技師による手動地上真実ラベルと比較した。 mvt (mvtexternal, mvtexternal) の外部検証は, 2 ベンダ (n=80 例) の未発見磁石システムから得られたデータを用いて行った。 結果: SVT (85.2%, 93.2%), MVT (96.5%, 98.1%) では, 高頻度および平面精度が観察された。 MVTexternalのシーケンス精度は92.7%、平面精度は93.0%であった。 一般的なシーケンスと従来の心臓面の精度は高かった。 灌流画像などの中心領域における取得パラメータの変動が大きいクラスやシーケンスに対して, 粗い精度が観察された。 結論: 深層学習ネットワークは,MRI研究をコンポーネントシーケンスと平面に分類し,外部の検証を行うために,マルチベンダデータに基づいて開発された。 改良によって、完全に自動化された後処理パイプラインにおける重要な第一歩である自動シーケンス選択を有効にすることで、ワークフローを改善する可能性がある。

Objectives: To develop an image-based automatic deep learning method to classify cardiac MR images by sequence type and imaging plane for improved clinical post-processing efficiency. Methods: Multi-vendor cardiac MRI studies were retrospectively collected from 4 centres and 3 vendors. A two-head convolutional neural network ('CardiSort') was trained to classify 35 sequences by imaging sequence (n=17) and plane (n=10). Single vendor training (SVT) on single centre images (n=234 patients) and multi-vendor training (MVT) with multicentre images (n = 479 patients, 3 centres) was performed. Model accuracy was compared to manual ground truth labels by an expert radiologist on a hold-out test set for both SVT and MVT. External validation of MVT (MVTexternal) was performed on data from 3 previously unseen magnet systems from 2 vendors (n=80 patients). Results: High sequence and plane accuracies were observed for SVT (85.2% and 93.2% respectively), and MVT (96.5% and 98.1% respectively) on the hold-out test set. MVTexternal yielded sequence accuracy of 92.7% and plane accuracy of 93.0%. There was high accuracy for common sequences and conventional cardiac planes. Poor accuracy was observed for underrepresented classes and sequences where there was greater variability in acquisition parameters across centres, such as perfusion imaging. Conclusions: A deep learning network was developed on multivendor data to classify MRI studies into component sequences and planes, with external validation. With refinement, it has potential to improve workflow by enabling automated sequence selection, an important first step in completely automated post-processing pipelines.
翻訳日:2021-09-20 19:09:32 公開日:2021-09-17
# (参考訳) 屋内マッピングのための深層強化と教師付き学習の統合 [全文訳有]

Integrating Deep Reinforcement and Supervised Learning to Expedite Indoor Mapping ( http://arxiv.org/abs/2109.08490v1 )

ライセンス: CC BY 4.0
Elchanan Zwecher, Eran Iceland, Sean R. Levy, Shmuel Y. Hayoun, Oren Gal, and Ariel Barel(参考訳) 屋内環境のマッピングの課題は解決される。 運動計画問題を解くための典型的なヒューリスティックアルゴリズムはフロンティアに基づく手法であり、環境が完全に未知である場合に特に有効である。 しかしながら、環境のアーキテクチャ的特徴に関する以前の統計データが利用可能である場合、そのようなアルゴリズムは最適とはほど遠い。 さらに、より多くの領域が露出するにつれて、計算時間が大幅に増加する可能性がある。 本稿では,これらの欠点を克服する2つの方法を提案する。 一つは、深層強化学習による運動プランナーの訓練である。 2つ目は、事前訓練された生成深部ニューラルネットワークがマップ予測器として機能することである。 それぞれが学習した環境構造統計を利用して意思決定を改善するのに役立ち、どちらもニューラルネットワークとして実現され、一定の計算時間を確保する。 両手法を組み合わせることで,フロンティアをベースとした移動計画に比べて最大75%短縮できることを示す。

The challenge of mapping indoor environments is addressed. Typical heuristic algorithms for solving the motion planning problem are frontier-based methods, that are especially effective when the environment is completely unknown. However, in cases where prior statistical data on the environment's architectonic features is available, such algorithms can be far from optimal. Furthermore, their calculation time may increase substantially as more areas are exposed. In this paper we propose two means by which to overcome these shortcomings. One is the use of deep reinforcement learning to train the motion planner. The second is the inclusion of a pre-trained generative deep neural network, acting as a map predictor. Each one helps to improve the decision making through use of the learned structural statistics of the environment, and both, being realized as neural networks, ensure a constant calculation time. We show that combining the two methods can shorten the mapping time, compared to frontier-based motion planning, by up to 75%.
翻訳日:2021-09-20 19:01:14 公開日:2021-09-17
# (参考訳) 目にするものと見えないもの - ロボットセンシングから蓄積した群集構造に迫る [全文訳有]

What we see and What we don't see: Imputing Occluded Crowd Structures from Robot Sensing ( http://arxiv.org/abs/2109.08494v1 )

ライセンス: CC BY 4.0
Javad Amirian, Jean-Bernard Hayet, Julien Pettre(参考訳) 混み合った環境での移動ロボットのナビゲーションについて考察する。 我々は,ロボットの周囲の空間,盲点における人間の占有度を,知覚能力の範囲を超えて推定する問題に対処する。 この問題は、ロボットの群集のナビゲーション効率と安全性に重要な影響があるにもかかわらず、かなり未解決であり、周囲の群集状態の推定と予測を必要とする。 そこで本研究では,ロボットの周囲にいる感覚の少ない人々の状態や,群集活動のこれまでの観測に基づいて,人間の存在を推定する最初の方法を提案する。

We consider the navigation of mobile robots in crowded environments, for which onboard sensing of the crowd is typically limited by occlusions. We address the problem of inferring the human occupancy in the space around the robot, in blind spots, beyond the range of its sensing capabilities. This problem is rather unexplored in spite of the important impact it has on the robot crowd navigation efficiency and safety, which requires the estimation and the prediction of the crowd state around it. In this work, we propose the first solution to sample predictions of possible human presence based on the state of a fewer set of sensed people around the robot as well as previous observations of the crowd activity.
翻訳日:2021-09-20 18:49:31 公開日:2021-09-17
# (参考訳) 学習指標のマイクロアーキテクチャ解析 [全文訳有]

Micro-architectural Analysis of a Learned Index ( http://arxiv.org/abs/2109.08495v1 )

ライセンス: CC BY 4.0
Mikkel M{\o}ller Andersen, P{\i}nar T\"oz\"un(参考訳) 2018年にThe Case for Learned Index Structuresが出版されて以来、異なるドメインと異なる機能を持つ学習インデックスに焦点を当てた研究が増えている。 B+Treesのような従来のインデックス構造に代わる学習インデックスの有効性はすでにいくつかの研究で実証されているが、以前の研究はスループットやインデックスサイズといったハイレベルなパフォーマンス指標に重点を置いていた。 本稿では,従来の指標と比較して,学習指標が微構造レベルでどのように振る舞うかを深く研究することを目的とする。 具体的には、先述した学習インデックス構造であるalexに注目した。alexは、機械学習モデルの階層構造からなる、ツリーベースのインメモリインデックス構造である。 学習インデックスに関する当初の提案とは異なり、ALEXはアップデートと挿入を可能にするためにゼロから設計されている。 したがって、学習インデックスを使用して、よりダイナミックなワークロードを可能にする。 本研究では、ALEXの微構造解析を行い、その挙動を学習モデル(ARTとB+Tree)に基づいていない木に基づく指標構造と比較する。 以上の結果から,ALEXはメモリストールによってバインドされていることが明らかとなった。 ARTやB+Treeと比較して、ALEXはストールが少なく、異なるワークロード間でのインストラクションあたりのサイクル値が低い。 一方、ALEXのアウトオブバウンドインサートを処理するために必要なインストラクションの量は、書き込み重負荷に対するリクエスト毎の命令(10X)を大幅に増加させる可能性がある。 しかし、マイクロアーキテクチャの挙動は、この命令フットプリントの増加は高い命令レベルの並列性を示し、従って全体の実行時間に悪影響を及ぼさないことを示している。

Since the publication of The Case for Learned Index Structures in 2018, there has been a rise in research that focuses on learned indexes for different domains and with different functionalities. While the effectiveness of learned indexes as an alternative to traditional index structures such as B+Trees have already been demonstrated by several studies, previous work tend to focus on higher-level performance metrics such as throughput and index size. In this paper, our goal is to dig deeper and investigate how learned indexes behave at a micro-architectural level compared to traditional indexes. More specifically, we focus on previously proposed learned index structure ALEX, which is a tree-based in-memory index structure that consists of a hierarchy of machine learned models. Unlike the original proposal for learned indexes, ALEX is designed from the ground up to allow updates and inserts. Therefore, it enables more dynamic workloads using learned indexes. In this work, we perform a micro-architectural analysis of ALEX and compare its behavior to the tree-based index structures that are not based on learned models, i.e., ART and B+Tree. Our results show that ALEX is bound by memory stalls, mainly stalls due to data misses from the last-level cache. Compared to ART and B+Tree, ALEX exhibits fewer stalls and a lower cycles-per-instructi on value across different workloads. On the other hand, the amount of instructions required to handle out-of-bound inserts in ALEX can increase the instructions needed per request significantly (10X) for write-heavy workloads. However, the micro-architectural behavior shows that this increase in the instruction footprint exhibit high instruction-level parallelism, and, therefore, does not negatively impact the overall execution time.
翻訳日:2021-09-20 18:37:10 公開日:2021-09-17
# (参考訳) ニューラルコモンセンス知識と記号論理則を用いた会話型マルチホップ推論 [全文訳有]

Conversational Multi-Hop Reasoning with Neural Commonsense Knowledge and Symbolic Logic Rules ( http://arxiv.org/abs/2109.08544v1 )

ライセンス: CC BY 4.0
Forough Arabshahi, Jennifer Lee, Antoine Bosselut, Yejin Choi, Tom Mitchell(参考訳) 会話エージェントが直面する課題の1つは、ユーザのコマンドの予測されていない推定を識別できないことである。 本稿では,これを実現するために,会話エージェントのためのゼロショットコモンセンス推論システムを提案する。 if-(state), then-(action), because-(goal) の一般的なテンプレートを満たすユーザコマンドからの無言の推測を明らかにする。 我々の推論者は、背景知識の源泉として、最先端のトランスフォーマーベースの生成コモンセンス知識ベース(KB)を使用している。 本稿では,シンボリック論理規則を用いて検索空間を大幅に削減するニューラルネットワークkbから,マルチホップ推論チェインを抽出するための,新しい反復的知識クエリ機構を提案する。 これまで集められたKBと同様、私たちの常識KBは知識の欠如がちです。 そこで本研究では,人間ユーザに対してコンテキスト型クエリを生成・提示する動的質問生成戦略により,不足した知識を対話的に人間ユーザから引き出す手法を提案する。 我々は,SOTAと比較して35%高い成功率を達成できるユーザによるユーザスタディにより,モデルを評価した。

One of the challenges faced by conversational agents is their inability to identify unstated presumptions of their users' commands, a task trivial for humans due to their common sense. In this paper, we propose a zero-shot commonsense reasoning system for conversational agents in an attempt to achieve this. Our reasoner uncovers unstated presumptions from user commands satisfying a general template of if-(state), then-(action), because-(goal). Our reasoner uses a state-of-the-art transformer-based generative commonsense knowledge base (KB) as its source of background knowledge for reasoning. We propose a novel and iterative knowledge query mechanism to extract multi-hop reasoning chains from the neural KB which uses symbolic logic rules to significantly reduce the search space. Similar to any KBs gathered to date, our commonsense KB is prone to missing knowledge. Therefore, we propose to conversationally elicit the missing knowledge from human users with our novel dynamic question generation strategy, which generates and presents contextualized queries to human users. We evaluate the model with a user study with human users that achieves a 35% higher success rate compared to SOTA.
翻訳日:2021-09-20 18:18:40 公開日:2021-09-17
# (参考訳) 生体情報抽出のためのスロット充填 [全文訳有]

Slot Filling for Biomedical Information Extraction ( http://arxiv.org/abs/2109.08564v1 )

ライセンス: CC BY 4.0
Yannis Papanikolaou, Francine Bennett(参考訳) テキストからの情報抽出(ie)とは、構造化されていないテキストから構造化された知識を抽出する作業を指す。 タスクは通常、名前付きエンティティ認識や関係抽出のような一連のサブタスクで構成される。 エンティティとリレーショナルタイプ固有のトレーニングデータをソーシングすることは、上記のサブタスクにおける大きなボトルネックである。本研究では、生物医学的ieのタスクにスロット充填アプローチを導入し、エンティティとリレーショナル特有のトレーニングデータの必要性を効果的に置き換え、ゼロショット設定の処理を可能にする。 本稿では,Tranformer ベースのバイエンコーダ Dense Passage Retrieval と Transformer ベースのリーダモデルを組み合わせることで,バイオメディカルテキストから関係を抽出する手法を提案する。 検索と読解の両方のための生体医学的スロット充填データセットを組み立て、我々のアプローチが多くの単純なベースラインを上回ることを示す一連の実験を行いました。 また、標準およびゼロショット設定のためのエンドツーエンドのアプローチも評価します。 私たちの研究は、関連するトレーニングデータがなくとも、生物医学的なieタスクの解決方法に関する新たな視点を提供します。 私たちのコード、モデル、事前訓練済みデータはhttps://github.com/h ealx/biomed-slot-fil ling.comで利用可能です。

Information Extraction (IE) from text refers to the task of extracting structured knowledge from unstructured text. The task typically consists of a series of sub-tasks such as Named Entity Recognition and Relation Extraction. Sourcing entity and relation type specific training data is a major bottleneck in the above sub-tasks.In this work we present a slot filling approach to the task of biomedical IE, effectively replacing the need for entity and relation-specific training data, allowing to deal with zero-shot settings. We follow the recently proposed paradigm of coupling a Tranformer-based bi-encoder, Dense Passage Retrieval, with a Transformer-based reader model to extract relations from biomedical text. We assemble a biomedical slot filling dataset for both retrieval and reading comprehension and conduct a series of experiments demonstrating that our approach outperforms a number of simpler baselines. We also evaluate our approach end-to-end for standard as well as zero-shot settings. Our work provides a fresh perspective on how to solve biomedical IE tasks, in the absence of relevant training data. Our code, models and pretrained data are available at https://github.com/h ealx/biomed-slot-fil ling.
翻訳日:2021-09-20 17:58:57 公開日:2021-09-17
# (参考訳) 不均衡データセットに対する自己監督型ニューラルネットワーク探索 [全文訳有]

Self-Supervised Neural Architecture Search for Imbalanced Datasets ( http://arxiv.org/abs/2109.08580v1 )

ライセンス: CC BY-SA 4.0
Aleksandr Timofeev, Grigorios G. Chrysos, Volkan Cevher(参考訳) neural architecture search (nas)は、アノテートされたラベル付きデータセットでトレーニングされた場合、最先端の結果を提供する。 しかし、データの注釈付けやサンプルのバランスの取れた数さえも、医学領域など、さまざまな分野の実践者にとって豪華である。 そのために,3倍のコントリビューションを持つNASベースのフレームワークを提案する。 (a) 自己組織化シナリオ、すなわちアーキテクチャを決定するためにラベルを必要としないことに焦点を当て、 b)データセットが不均衡であると仮定する。 (c) リソース制約されたセットアップ、すなわち単一のGPU(例えばGoogle Colab)上で実行できるように、各コンポーネントを設計する。 我々のコンポーネントは、近年の自己教師型学習 -\citep{zbontar2021barlow}、自己教師型NAS~\citep{kaplan2020self}の上に構築され、不均衡データセットの場合、それらを拡張します。 我々は,CIFAR-10の不均衡なバージョンに対して実験を行い,提案手法が標準的なニューラルネットワークより優れていることを示す。 自然に不均衡なデータセットに対する仮定を検証するために、ChestMNISTとCOVID-19 X線の実験も行います。 結果は,提案手法が不均衡なデータセットでどのように使用できるかを示すとともに,単一のGPU上で完全に動作可能であることを示す。 コードは href{https://github.com/T imofeevAlex/ssnas_im Balanced}{here} で入手できる。

Neural Architecture Search (NAS) provides state-of-the-art results when trained on well-curated datasets with annotated labels. However, annotating data or even having balanced number of samples can be a luxury for practitioners from different scientific fields, e.g., in the medical domain. To that end, we propose a NAS-based framework that bears the threefold contributions: (a) we focus on the self-supervised scenario, i.e., where no labels are required to determine the architecture, and (b) we assume the datasets are imbalanced, (c) we design each component to be able to run on a resource constrained setup, i.e., on a single GPU (e.g. Google Colab). Our components build on top of recent developments in self-supervised learning~\citep{zbontar2021barlow}, self-supervised NAS~\citep{kaplan2020self} and extend them for the case of imbalanced datasets. We conduct experiments on an (artificially) imbalanced version of CIFAR-10 and we demonstrate our proposed method outperforms standard neural networks, while using $27\times$ less parameters. To validate our assumption on a naturally imbalanced dataset, we also conduct experiments on ChestMNIST and COVID-19 X-ray. The results demonstrate how the proposed method can be used in imbalanced datasets, while it can be fully run on a single GPU. Code is available \href{https://github.com/T imofeevAlex/ssnas_im balanced}{here}.
翻訳日:2021-09-20 17:48:09 公開日:2021-09-17
# (参考訳) シングルビデオから生成可能なディバース生成 [全文訳有]

Diverse Generation from a Single Video Made Possible ( http://arxiv.org/abs/2109.08591v1 )

ライセンス: CC BY 4.0
Niv Haim, Ben Feinstein, Niv Granot, Assaf Shocher, Shai Bagon, Tali Dekel, Michal Irani(参考訳) 最も高度なビデオ生成および操作方法は、大量のビデオのコレクションで訓練される。 そのため、トレーニング中のビデオダイナミクスの種類に制限される。 この制限を克服するために、単一のビデオでトレーニングされたGANが最近提案された。 これらは、多様なビデオダイナミックスに柔軟性を提供するが、単一の小さなインプットビデオのトレーニングには数日を要するため、現実的ではない。 本稿では,1つの自然なビデオから高速かつ実用的なビデオ生成と操作を行う手法を提案する。 本手法はフルhdビデオクリップにも数分以内に適用できる。 我々のアプローチは、最近の高度なパッチアレスト近傍アプローチ [Granot et al. 2021] にインスパイアされ、実行時と視覚的品質の両方において、シングルイメージのGANを著しく上回りました。 ここでは,このアプローチを画像からビデオに一般化し,従来の時空パッチベース手法を新たな生成的ビデオモデルとして採用する。 生成した画像パッチを近接するアプローチに適応し、一本の動画で大量の時空パッチに効率よく対処する。 本手法は, 単一ビデオGANよりもリアルで高品質な結果を生成する(定量的, 質的評価による確認)。 さらに、不均等に高速である(実行時間は数日から秒に短縮される)。 多様なビデオ生成以外にも,時空間ビデオの再ターゲティング,映像構造アナロジー,条件付きビデオインペインティングなど,いくつかの難解なビデオ応用例を示す。

Most advanced video generation and manipulation methods train on a large collection of videos. As such, they are restricted to the types of video dynamics they train on. To overcome this limitation, GANs trained on a single video were recently proposed. While these provide more flexibility to a wide variety of video dynamics, they require days to train on a single tiny input video, rendering them impractical. In this paper we present a fast and practical method for video generation and manipulation from a single natural video, which generates diverse high-quality video outputs within seconds (for benchmark videos). Our method can be further applied to Full-HD video clips within minutes. Our approach is inspired by a recent advanced patch-nearest-neighb or based approach [Granot et al. 2021], which was shown to significantly outperform single-image GANs, both in run-time and in visual quality. Here we generalize this approach from images to videos, by casting classical space-time patch-based methods as a new generative video model. We adapt the generative image patch nearest neighbor approach to efficiently cope with the huge number of space-time patches in a single video. Our method generates more realistic and higher quality results than single-video GANs (confirmed by quantitative and qualitative evaluations). Moreover, it is disproportionally faster (runtime reduced from several days to seconds). Other than diverse video generation, we demonstrate several other challenging video applications, including spatio-temporal video retargeting, video structural analogies and conditional video-inpainting.
翻訳日:2021-09-20 17:36:13 公開日:2021-09-17
# (参考訳) スペイン語の語彙借入分類におけるSTILTsの有用性 [全文訳有]

The futility of STILTs for the classification of lexical borrowings in Spanish ( http://arxiv.org/abs/2109.08607v1 )

ライセンス: CC BY 4.0
Javier de la Rosa(参考訳) IberLEF 2021の第1版は、スペインの報道機関に出現し、最近スペイン語に輸入された語彙的借入を検出することに焦点を当てた借入の自動検出(ADoBo)タスクを共有した。 本研究では,既存の事前学習型トランスフォーマーベース言語モデルを用いて,中間ラベル付きデータタスク(STILT)を音声(POS)の一部,名前付きエンティティ認識(NER),コードスイッチング,およびトークンレベルでの借入の分類に対する言語識別アプローチから補修訓練を行った。 実験結果から,STILTは多言語モデルを直接微調整するよりも改良されていないことが示唆された。 しかし、少数の言語のサブセットで訓練された多言語モデルは、多言語BERTよりも合理的に優れているが、与えられたデータセットに対する多言語RoBERTaほど良くない。

The first edition of the IberLEF 2021 shared task on automatic detection of borrowings (ADoBo) focused on detecting lexical borrowings that appeared in the Spanish press and that have recently been imported into the Spanish language. In this work, we tested supplementary training on intermediate labeled-data tasks (STILTs) from part of speech (POS), named entity recognition (NER), code-switching, and language identification approaches to the classification of borrowings at the token level using existing pre-trained transformer-based language models. Our extensive experimental results suggest that STILTs do not provide any improvement over direct fine-tuning of multilingual models. However, multilingual models trained on small subsets of languages perform reasonably better than multilingual BERT but not as good as multilingual RoBERTa for the given dataset.
翻訳日:2021-09-20 17:19:10 公開日:2021-09-17
# (参考訳) データ駆動型オフポリシー推定器の選択:オンラインコンテンツ配信サービスにおけるユーザマーケティングの応用 [全文訳有]

Data-Driven Off-Policy Estimator Selection: An Application in User Marketing on An Online Content Delivery Service ( http://arxiv.org/abs/2109.08621v1 )

ライセンス: CC BY 4.0
Yuta Saito, Takuma Udagawa, and Kei Tateno(参考訳) オフ政治評価(Off-policy Evaluation、OPE)とは、オンラインA/Bテストを行うことなく、異なる政策によって生成された歴史的データを用いて意思決定ポリシーのパフォーマンスを推定する手法である。 正確なOPEは、医療、マーケティング、レコメンデータシステムといった分野において、人間の生活を損なったり、ユーザーエクスペリエンスを損なうような、貧弱な実行ポリシーの展開を避けるために不可欠である。 したがって、理論的背景を持つ多くのOPE手法が提案されている。 このトレンドに対する新たな課題のひとつは、アプリケーション設定毎に適切な推定器が異なる可能性があることだ。 特定の用途や目的のために使用すると見積もる実践者にとって、しばしば不明である。 多くの候補の中から適切な推定値を求めるために,データ駆動型推定値選択手法を用いて,政策外の業績推定値を求める。 概念実証として,実世界のオンラインコンテンツ配信サービス上でクーポン処理ポリシーを評価するための最適な推定器を選択する。 実験では,結果変数の異なる定義で適切な推定器が変化しうることを最初に観察し,OPEの実世界の応用において正確な推定器選択が重要であることを示した。 そして, 推定器選択手法を用いて, 各目的に適した推定器を容易に発見できることを実証した。

Off-policy evaluation (OPE) is the method that attempts to estimate the performance of decision making policies using historical data generated by different policies without conducting costly online A/B tests. Accurate OPE is essential in domains such as healthcare, marketing or recommender systems to avoid deploying poor performing policies, as such policies may hart human lives or destroy the user experience. Thus, many OPE methods with theoretical backgrounds have been proposed. One emerging challenge with this trend is that a suitable estimator can be different for each application setting. It is often unknown for practitioners which estimator to use for their specific applications and purposes. To find out a suitable estimator among many candidates, we use a data-driven estimator selection procedure for off-policy policy performance estimators as a practical solution. As proof of concept, we use our procedure to select the best estimator to evaluate coupon treatment policies on a real-world online content delivery service. In the experiment, we first observe that a suitable estimator might change with different definitions of the outcome variable, and thus the accurate estimator selection is critical in real-world applications of OPE. Then, we demonstrate that, by utilizing the estimator selection procedure, we can easily find out suitable estimators for each purpose.
翻訳日:2021-09-20 17:11:38 公開日:2021-09-17
# (参考訳) 分類に基づく品質推定: 実世界のアプリケーションのための小さく効率的なモデル [全文訳有]

Classification-based Quality Estimation: Small and Efficient Models for Real-world Applications ( http://arxiv.org/abs/2109.08627v1 )

ライセンス: CC BY 4.0
Shuo Sun, Ahmed El-Kishky, Vishrav Chaudhary, James Cross, Francisco Guzm\'an, Lucia Specia(参考訳) 機械翻訳の文レベル品質評価(QE)は、伝統的に回帰タスクとして定式化されており、QEモデルの性能は、典型的にはピアソンと人間のラベルの相関によって測定される。 近年のQEモデルは、人間の判断と従来見られなかったレベルの相関を達成しているが、計算コストが高く、現実のアプリケーションでは利用できないような、多言語対応の言語モデルに依存している。 本研究では,QE のモデル圧縮手法の評価を行い,他の NLP タスクに人気があるにもかかわらず,この回帰環境では性能が劣ることを示した。 回帰タスクにおいてsoma結果を達成するためには,全モデルパラメータ化が必要となる。 しかしながら、qeの下流への応用を考えると、連続範囲でのモデルの表現力のレベルは不要であり、qeを分類問題として再フレーミングし、分類メトリクスを用いたqeモデルを評価することは、実世界のアプリケーションにおける実際のパフォーマンスをよりよく反映することを示している。

Sentence-level Quality estimation (QE) of machine translation is traditionally formulated as a regression task, and the performance of QE models is typically measured by Pearson correlation with human labels. Recent QE models have achieved previously-unseen levels of correlation with human judgments, but they rely on large multilingual contextualized language models that are computationally expensive and make them infeasible for real-world applications. In this work, we evaluate several model compression techniques for QE and find that, despite their popularity in other NLP tasks, they lead to poor performance in this regression setting. We observe that a full model parameterization is required to achieve SoTA results in a regression task. However, we argue that the level of expressiveness of a model in a continuous range is unnecessary given the downstream applications of QE, and show that reframing QE as a classification problem and evaluating QE models using classification metrics would better reflect their actual performance in real-world applications.
翻訳日:2021-09-20 17:07:54 公開日:2021-09-17
# (参考訳) ディープラーニングを用いた自律視覚に基づく衝突回避型uav着陸 [全文訳有]

Autonomous Vision-based UAV Landing with Collision Avoidance using Deep Learning ( http://arxiv.org/abs/2109.08628v1 )

ライセンス: CC BY 4.0
Tianpei Liao, Amal Haridevan, Yibo Liu, Jinjun Shan(参考訳) 複数のUAVが同じプラットフォーム上で通信することなく同時に着陸する際に衝突するリスクがある。 この研究は、視覚に基づく自律着陸を実現し、深層学習に基づく手法を用いて着陸過程における衝突回避を実現する。

There is a risk of collision when multiple UAVs land simultaneously without communication on the same platform. This work accomplishes vision-based autonomous landing and uses a deep-learning-based method to realize collision avoidance during the landing process.
翻訳日:2021-09-20 16:53:39 公開日:2021-09-17
# (参考訳) 接地型自然言語命令:大規模言語モデルは空間情報をキャプチャできるか? [全文訳有]

Grounding Natural Language Instructions: Can Large Language Models Capture Spatial Information? ( http://arxiv.org/abs/2109.08634v1 )

ライセンス: CC BY 4.0
Julia Rozanova, Deborah Ferreira, Krishna Dubba, Weiwei Cheng, Dell Zhang, Andre Freitas(参考訳) インテリジェントなプロセス自動化のために設計されたモデルは、ユーザーインターフェイス要素をグラウンド化できることが要求される。 このインタフェース要素の接地作業は、自然言語の命令を対象の参照元にリンクすることに集中する。 BERTや類似のトレーニング済み言語モデルは、いくつかのNLPタスクで優れているが、UIグラウンドドメインでは広く研究されていない。 この研究は、BERT、RoBERTa、LayoutLMの3つのトランスフォーマーベースモデルのグラウンドディング能力のテストと検証に重点を置いている。 私たちの主な焦点は、これらのモデルの空間的推論スキルである。 学習された空間機能は、特に自然言語命令でターゲットの方向を識別する能力を示すため、uiの接地設定に転送可能であるように見える。

Models designed for intelligent process automation are required to be capable of grounding user interface elements. This task of interface element grounding is centred on linking instructions in natural language to their target referents. Even though BERT and similar pre-trained language models have excelled in several NLP tasks, their use has not been widely explored for the UI grounding domain. This work concentrates on testing and probing the grounding abilities of three different transformer-based models: BERT, RoBERTa and LayoutLM. Our primary focus is on these models' spatial reasoning skills, given their importance in this domain. We observe that LayoutLM has a promising advantage for applications in this domain, even though it was created for a different original purpose (representing scanned documents): the learned spatial features appear to be transferable to the UI grounding setting, especially as they demonstrate the ability to discriminate between target directions in natural language instructions.
翻訳日:2021-09-20 16:48:30 公開日:2021-09-17
# (参考訳) 不特定商品を戦略エージェントに割り当てる:純ナッシュ均衡と公正 [全文訳有]

Allocating Indivisible Goods to Strategic Agents: Pure Nash Equilibria and Fairness ( http://arxiv.org/abs/2109.08644v1 )

ライセンス: CC BY 4.0
Georgios Amanatidis, Georgios Birmpas, Federico Fusco, Philip Lazos, Stefano Leonardi, Rebecca Reiffenh\"auser(参考訳) 我々は,付加価値関数を持つ戦略エージェント群に対して,不可分な商品群を公平に割り当てる問題を考える。 したがって、私たちの設定のメカニズムは、エージェントの本当の値ではなく、報告された値を入力するアルゴリズムであると仮定します。 私たちの主な目標は、すべてのインスタンスに対して純粋なnash平衡を持つメカニズムが存在するか、同時に、これらの平衡に対応する割り当てに対する公平性保証を提供するかを検討することです。 本研究は,1つの善(EF1)まで,1つの善(EFX)まで,うらやましい自由(EF1)の2つの緩和に焦点を合わせ,上記の疑問に肯定的に答える。 特に,非ストラテジックな設定でそのようなアロケーションを生成することが知られているアルゴリズムとして,ラウンドロビン (EF1 のエージェントの割り当て) とプラウトとラフガーデンのカット・アンド・チョースアルゴリズム (SIAM Journal of Discrete Mathematics, 2020) がある。 ラウンドロビンでは、全ての純粋なナッシュ平衡が、根底にある真の値に関してEF1であるアロケーションを誘導するのに対し、プラウトとラフガーデンのアルゴリズムでは、対応するアロケーションは EFX だけでなく、非ストラテジックな設定では、このアルゴリズムには当てはまらない最大シェアフェアネスを満たすことを示す。 さらに、後者の結果の弱いバージョンは、すべてのefx割り当てを誘導する純粋なnash平衡を常に有する2つのエージェントの任意のメカニズムを保持できることを示した。

We consider the problem of fairly allocating a set of indivisible goods to a set of strategic agents with additive valuation functions. We assume no monetary transfers and, therefore, a mechanism in our setting is an algorithm that takes as input the reported -- rather than the true -- values of the agents. Our main goal is to explore whether there exist mechanisms that have pure Nash equilibria for every instance and, at the same time, provide fairness guarantees for the allocations that correspond to these equilibria. We focus on two relaxations of envy-freeness, namely envy-freeness up to one good (EF1), and envy-freeness up to any good (EFX), and we positively answer the above question. In particular, we study two algorithms that are known to produce such allocations in the non-strategic setting: Round-Robin (EF1 allocations for any number of agents) and a cut-and-choose algorithm of Plaut and Roughgarden [SIAM Journal of Discrete Mathematics, 2020] (EFX allocations for two agents). For Round-Robin we show that all of its pure Nash equilibria induce allocations that are EF1 with respect to the underlying true values, while for the algorithm of Plaut and Roughgarden we show that the corresponding allocations not only are EFX but also satisfy maximin share fairness, something that is not true for this algorithm in the non-strategic setting! Further, we show that a weaker version of the latter result holds for any mechanism for two agents that always has pure Nash equilibria which all induce EFX allocations.
翻訳日:2021-09-20 16:38:15 公開日:2021-09-17
# (参考訳) ガウスマルコフ確率場に基づくミニマックス凹ペナルティによるスパースグラフの学習 [全文訳有]

Learning Sparse Graph with Minimax Concave Penalty under Gaussian Markov Random Fields ( http://arxiv.org/abs/2109.08666v1 )

ライセンス: CC BY 4.0
Tatsuya Koyakumaru, Masahiro Yukawa, Eduardo Pavez, and Antonio Ortega(参考訳) 本稿では,データからスパースグラフを学ぶための凸解析フレームワークを提案する。 我々の問題定式化は、いわゆる組合せグラフラプラシアンフレームワークを用いたグラフィカルラッソの拡張に触発されているが、重要な違いは、より解釈性の良いグラフを得るために$\ell_1$ノルムの代わりに非凸を用いることである。 具体的には、回帰問題に対して$\ell_1$よりも低い推定バイアスでスパース解が得られることが知られている弱凸ミニマックス円錐ペナルティ($\ell_1$ノルムとHuber関数の差)を用いる。 このフレームワークでは、グラフラプラシアンは、その上三角部分に対応するベクトルの線型変換によって、最適化において置き換えられる。 モローの分解に依存した再構成により、コスト関数に二次関数を導入することで全体の凸性が保証されることを示す。 この問題は、証明可能な収束の許容条件を示す原始二分割法によって効率よく解ける。 数値的な例では、提案手法は、既存のグラフ学習法をCPU時間で大幅に上回っている。

This paper presents a convex-analytic framework to learn sparse graphs from data. While our problem formulation is inspired by an extension of the graphical lasso using the so-called combinatorial graph Laplacian framework, a key difference is the use of a nonconvex alternative to the $\ell_1$ norm to attain graphs with better interpretability. Specifically, we use the weakly-convex minimax concave penalty (the difference between the $\ell_1$ norm and the Huber function) which is known to yield sparse solutions with lower estimation bias than $\ell_1$ for regression problems. In our framework, the graph Laplacian is replaced in the optimization by a linear transform of the vector corresponding to its upper triangular part. Via a reformulation relying on Moreau's decomposition, we show that overall convexity is guaranteed by introducing a quadratic function to our cost function. The problem can be solved efficiently by the primal-dual splitting method, of which the admissible conditions for provable convergence are presented. Numerical examples show that the proposed method significantly outperforms the existing graph learning methods with reasonable CPU time.
翻訳日:2021-09-20 15:54:31 公開日:2021-09-17
# (参考訳) 対話における制約のないユーザ嗜好の取り扱い [全文訳有]

Towards Handling Unconstrained User Preferences in Dialogue ( http://arxiv.org/abs/2109.08650v1 )

ライセンス: CC BY 4.0
Suraj Pandey, Svetlana Stoyanchev, Rama Doddipatla(参考訳) 場所探索のようなスキーマ駆動の対話情報ナビゲーションシステムに入力されるユーザは通常、データベースフィールドに対応する予め定義された好みのセットまたはスロットを指定することを制限する基礎となるデータベースによって制限される。 ユーザが予め定義されたスキーマにマッチしない制約のない好みを指定する柔軟性を持つ、より自然な情報ナビゲーション対話インターフェースを想定する。 ユーザ要求に関連するエンティティを識別するために,構造化されていない知識からの情報検索を提案する。 我々は、ケンブリッジのレストランデータベースを、各レストランについて構造化されていない知識スニペット(Webからのレビューと情報)で更新し、関連ラベルと一連のクエリスニペットペアに注釈を付ける。 アノテーション付きデータセットを用いてスニペット関連分類器の訓練と評価を行い、推奨精度を評価する。 プリトレーニングトランスモデルをエンコーダとして、教師なし/教師なし分類器が.661/.856の重み付けf1を達成することを示す。

A user input to a schema-driven dialogue information navigation system, such as venue search, is typically constrained by the underlying database which restricts the user to specify a predefined set of preferences, or slots, corresponding to the database fields. We envision a more natural information navigation dialogue interface where a user has flexibility to specify unconstrained preferences that may not match a predefined schema. We propose to use information retrieval from unstructured knowledge to identify entities relevant to a user request. We update the Cambridge restaurants database with unstructured knowledge snippets (reviews and information from the web) for each of the restaurants and annotate a set of query-snippet pairs with a relevance label. We use the annotated dataset to train and evaluate snippet relevance classifiers, as a proxy to evaluating recommendation accuracy. We show that with a pretrained transformer model as an encoder, an unsupervised/supervi sed classifier achieves a weighted F1 of .661/.856.
翻訳日:2021-09-20 15:24:12 公開日:2021-09-17
# (参考訳) 命題応答集合プログラムのための集合意味論

Aggregate Semantics for Propositional Answer Set Programs ( http://arxiv.org/abs/2109.08662v1 )

ライセンス: CC BY 4.0
Mario Alviano, Wolfgang Faber, Martin Gebser(参考訳) Answer Set Programming (ASP)は、知識表現と推論のパラダイムとして1990年代後半に登場した。 ASPの魅力は、強力なオフザシェルフ解決システムとともに、表現力のあるハイレベルモデリング言語の上に構築されます。 モデリング言語に集約式を組み込むユーティリティは、最初のASP解決システムの開始とほぼ同時に実現されているが、集約の一般的な意味論とその効率的な実装は長年にわたる課題であった。 集約は、データベースシステムや、asp.net .net の主要な前駆体の一つであるデダクティブデータベース言語であるdatalogで提案され、広く使われている。 しかし、アグリゲーションの使用は、まだDatalogで制限されていた(再帰を許可するか、モノトンアグリゲーションのみを許可する)が、ASP.NETのコンテキストにおいて、いくつかの制限のないアグリゲーションを統合する方法は進化した。 本調査では,提案するASPプログラムに対して提案された主要な集合的セマンティクスを提示し,比較することにより,開発現場で取り上げる。 計算複雑性や表現力といった重要な性質を強調し,説明例によって異なるアプローチの能力と限界を概説する。

Answer Set Programming (ASP) emerged in the late 1990ies as a paradigm for Knowledge Representation and Reasoning. The attractiveness of ASP builds on an expressive high-level modeling language along with the availability of powerful off-the-shelf solving systems. While the utility of incorporating aggregate expressions in the modeling language has been realized almost simultaneously with the inception of the first ASP solving systems, a general semantics of aggregates and its efficient implementation have been long-standing challenges. Aggregates have been proposed and widely used in database systems, and also in the deductive database language Datalog, which is one of the main precursors of ASP. The use of aggregates was, however, still restricted in Datalog (by either disallowing recursion or only allowing monotone aggregates), while several ways to integrate unrestricted aggregates evolved in the context of ASP. In this survey, we pick up at this point of development by presenting and comparing the main aggregate semantics that have been proposed for propositional ASP programs. We highlight crucial properties such as computational complexity and expressive power, and outline the capabilities and limitations of different approaches by illustrative examples.
翻訳日:2021-09-20 15:07:29 公開日:2021-09-17
# 言語モデル圧縮のための拡張言語文脈

Distilling Linguistic Context for Language Model Compression ( http://arxiv.org/abs/2109.08359v1 )

ライセンス: Link先を確認
Geondo Park, Gyeongman Kim, Eunho Yang(参考訳) 計算コストが高くメモリ集約型ニューラルネットワークは、最近の言語表現学習の成功の背後にある。 知識蒸留は、資源不足の環境でそのような広大な言語モデルを展開するための主要な技術であり、知識を制約なく学習した個々の単語表現に伝達する。 本稿では,言語表現が相対的に位置付けられ,全体として意味的知識を持つという最近の観察に触発されて,文脈的知識を表現の2つのタイプである単語関係と層変換関係を通じて伝達する,言語表現学習のための新たな知識蒸留目標を提案する。 言語モデルの他の蒸留技術とは異なり、我々の文脈蒸留は教師と学生の間の建築的変化に何の制約も与えていない。 提案手法は,様々な大きさのアーキテクチャだけでなく,最近提案されている適応サイズプルーニング手法であるdynabertと組み合わせて,言語理解タスクの難解なベンチマークにおいて有効であることを検証した。

A computationally expensive and memory intensive neural network lies behind the recent success of language representation learning. Knowledge distillation, a major technique for deploying such a vast language model in resource-scarce environments, transfers the knowledge on individual word representations learned without restrictions. In this paper, inspired by the recent observations that language representations are relatively positioned and have more semantic knowledge as a whole, we present a new knowledge distillation objective for language representation learning that transfers the contextual knowledge via two types of relationships across representations: Word Relation and Layer Transforming Relation. Unlike other recent distillation techniques for the language models, our contextual distillation does not have any restrictions on architectural changes between teacher and student. We validate the effectiveness of our method on challenging benchmarks of language understanding tasks, not only in architectures of various sizes, but also in combination with DynaBERT, the recently proposed adaptive size pruning method.
翻訳日:2021-09-20 14:53:38 公開日:2021-09-17
# Primer: 言語モデリングのための効率的なトランスフォーマーの探索

Primer: Searching for Efficient Transformers for Language Modeling ( http://arxiv.org/abs/2109.08668v1 )

ライセンス: Link先を確認
David R. So, Wojciech Ma\'nke, Hanxiao Liu, Zihang Dai, Noam Shazeer, Quoc V. Le(参考訳) 大規模トランスフォーマーモデルは、近年の自然言語処理の進歩の中心である。 しかし、これらのモデルのトレーニングと推論コストは急速に増加し、違法に高価になっている。 ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。 従来の手法と比較して、我々の検索はTransformer TensorFlowプログラムを定義するプリミティブよりも低いレベルで実行される。 我々は、オリジナルのトランスフォーマーや他の自動回帰言語モデリングの変種よりも少ないトレーニングコストを持つアーキテクチャである primer を特定した。 プライマーの改良は主に、ReLUアクティベーションを近似し、Q、K、Vの各投射に深い畳み込み層を追加するという2つの単純な修正によるものである。 実験では、計算規模が大きくなるにつれて変圧器に対するプライマーの利益が増大し、最適なモデルサイズにおける品質に関してパワー法則に従うことが示されている。 また、Primerを異なるコードベースにドロップして、追加のチューニングなしでトレーニングを大幅にスピードアップできることを実証的に検証しています。 例えば、500Mのパラメータサイズで、PrimerはC4の自動回帰言語モデリングのオリジナルのT5アーキテクチャを改善し、トレーニングコストを4倍に削減した。 さらに、訓練コストの低減は、プライマーが目標とするワンショット性能に到達するために計算量を大幅に削減することを意味する。 例えば、GPT-3 XLと同様の1.9Bパラメータ設定では、Primerはトレーニング計算の1/3を使用してTransformerと同じワンショットのパフォーマンスを達成する。 私たちは、再現性を支援するために、私たちのモデルといくつかの比較をT5でオープンソースにしています。

Large Transformer models have been central to recent advances in natural language processing. The training and inference costs of these models, however, have grown rapidly and become prohibitively expensive. Here we aim to reduce the costs of Transformers by searching for a more efficient variant. Compared to previous approaches, our search is performed at a lower level, over the primitives that define a Transformer TensorFlow program. We identify an architecture, named Primer, that has a smaller training cost than the original Transformer and other variants for auto-regressive language modeling. Primer's improvements can be mostly attributed to two simple modifications: squaring ReLU activations and adding a depthwise convolution layer after each Q, K, and V projection in self-attention. Experiments show Primer's gains over Transformer increase as compute scale grows and follow a power law with respect to quality at optimal model sizes. We also verify empirically that Primer can be dropped into different codebases to significantly speed up training without additional tuning. For example, at a 500M parameter size, Primer improves the original T5 architecture on C4 auto-regressive language modeling, reducing the training cost by 4X. Furthermore, the reduced training cost means Primer needs much less compute to reach a target one-shot performance. For instance, in a 1.9B parameter configuration similar to GPT-3 XL, Primer uses 1/3 of the training compute to achieve the same one-shot performance as Transformer. We open source our models and several comparisons in T5 to help with reproducibility.
翻訳日:2021-09-20 14:53:22 公開日:2021-09-17
# 認知エージェントの知識源としての言語モデル

Language Models as a Knowledge Source for Cognitive Agents ( http://arxiv.org/abs/2109.08270v1 )

ライセンス: Link先を確認
Robert E. Wray, III and James R. Kirk and John E. Laird(参考訳) 言語モデル (LM) は大量のコーパスで訓練された文補完エンジンである。 LMは自然言語処理において重要なブレークスルーとして現れており、質問応答、要約、自然言語推論など、文の完成以上の機能を提供する。 これらの能力の多くは認知システムに潜在的な応用をもたらすが、特にタスク学習において、言語モデルをタスク知識の源として活用することは、重要な短期的利益をもたらす。 言語モデルとそれらを適用した様々なタスクを紹介し、言語モデルから知識を抽出する方法について検討する。 得られた分析は、認知システムのための新しい知識源として言語モデルを使用する際の課題と機会を概説する。 また、認知システムが提供する能力を用いて、言語モデルからの知識抽出を改善する方法も特定する。 成功への中心となるのは、認知エージェントが、LMに暗黙的な知識の抽象モデルを学ぶ能力と、高品質な知識を効果的に効率的に抽出する方法である。 本稿では,仮想的なロボットエージェントを紹介し,言語モデルがタスク知識を拡張し,その性能を向上させる方法と,エージェントが言語モデル内の知識を活用できる知識や手法について述べる。

Language models (LMs) are sentence-completion engines trained on massive corpora. LMs have emerged as a significant breakthrough in natural-language processing, providing capabilities that go far beyond sentence completion including question answering, summarization, and natural-language inference. While many of these capabilities have potential application to cognitive systems, exploiting language models as a source of task knowledge, especially for task learning, offers significant, near-term benefits. We introduce language models and the various tasks to which they have been applied and then review methods of knowledge extraction from language models. The resulting analysis outlines both the challenges and opportunities for using language models as a new knowledge source for cognitive systems. It also identifies possible ways to improve knowledge extraction from language models using the capabilities provided by cognitive systems. Central to success will be the ability of a cognitive agent to itself learn an abstract model of the knowledge implicit in the LM as well as methods to extract high-quality knowledge effectively and efficiently. To illustrate, we introduce a hypothetical robot agent and describe how language models could extend its task knowledge and improve its performance and the kinds of knowledge and methods the agent can use to exploit the knowledge within a language model.
翻訳日:2021-09-20 14:52:28 公開日:2021-09-17
# sentiprompt:アスペクトベース感情分析のための感情知識強化プロンプトチューニング

SentiPrompt: Sentiment Knowledge Enhanced Prompt-Tuning for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2109.08306v1 )

ライセンス: Link先を確認
Chengxi Li, Feiyu Gao, Jiajun Bu, Lu Xu, Xiang Chen, Yu Gu, Zirui Shao, Qi Zheng, Ningyu Zhang, Yongpan Wang, Zhi Yu(参考訳) アスペクトベースの感情分析(ABSA)は、アスペクトを抽出し、対応する感情極性を分類し、感情の原因として意見を見つけることを目的とした、よりきめ細かい感情分析タスクである。 最新の研究は、エンドツーエンドフレームワークでabsaタスクを統一的に解決する傾向がある。 しかし、これらのフレームワークはタスク適応的な変更なしに下流タスクから微調整される。 特に、彼らはタスク関連の知識をうまく使用したり、アスペクトと意見の言葉の関係を明示的にモデル化したりせず、より良いパフォーマンスを妨げる。 本稿では,統合フレームワークで言語モデルをチューニングするための感情知識強化プロンプトを用いたsentipromptを提案する。 我々は,三重項からの一貫性と極性判定テンプレートの構築を通じて,側面,意見,極性に関する感情知識を迅速かつ明示的に項関係をモデル化する。 実験の結果,三重項抽出,ペア抽出,アスペクト項抽出において,感情分類による強いベースラインを有意なマージンで上回ることができた。

Aspect-based sentiment analysis (ABSA) is an emerging fine-grained sentiment analysis task that aims to extract aspects, classify corresponding sentiment polarities and find opinions as the causes of sentiment. The latest research tends to solve the ABSA task in a unified way with end-to-end frameworks. Yet, these frameworks get fine-tuned from downstream tasks without any task-adaptive modification. Specifically, they do not use task-related knowledge well or explicitly model relations between aspect and opinion terms, hindering them from better performance. In this paper, we propose SentiPrompt to use sentiment knowledge enhanced prompts to tune the language model in the unified framework. We inject sentiment knowledge regarding aspects, opinions, and polarities into prompt and explicitly model term relations via constructing consistency and polarity judgment templates from the ground truth triplets. Experimental results demonstrate that our approach can outperform strong baselines on Triplet Extraction, Pair Extraction, and Aspect Term Extraction with Sentiment Classification by a notable margin.
翻訳日:2021-09-20 14:52:10 公開日:2021-09-17
# 階層的テキスト分類のためのパス適応マスク機構を備えた階層認識t5

Hierarchy-Aware T5 with Path-Adaptive Mask Mechanism for Hierarchical Text Classification ( http://arxiv.org/abs/2109.08585v1 )

ライセンス: Link先を確認
Wei Huang, Chen Liu, Yihua Zhao, Xinyun Yang, Zhaoming Pan, Zhimin Zhang, Guiquan Liu(参考訳) 階層型テキスト分類(HTC)は,階層型空間で編成されたテキストラベルを予測することを目的としており,自然言語処理の研究に欠かせない重要な課題である。 既存の手法は通常、階層構造全体をエンコードし、ロバストなラベル依存モデルの構築に失敗する。 本稿では,HTC向けの新しいPAMM-HiA-T5モデルを提案する。パス適応マスク機構を備えた階層型T5モデルは,上位ラベルの知識を低レベルラベルに構築するだけでなく,ラベル予測にパス依存情報も導入する。 具体的には,マルチレベルシーケンシャルなラベル構造を生成し,階層的依存関係を多層的に活用し,ブロードファースト検索(bfs)とt5モデルを用いた。 そこで我々は,各経路におけるラベル依存性予測をさらに改善するために,ラベルの経路情報を識別し,他の経路からのノイズ源を除去する独自のパス適応マスク機構(PAMM)を提案する。 3つのベンチマークデータセットに関する総合的な実験により、新しいPAMM-HiA-T5モデルは、特にマクロF1におけるHTCの最先端アプローチを大きく上回っていることが示された。 アブレーション研究はt5ではなくイノベーティブなアプローチが主な改善点であることを示している。

Hierarchical Text Classification (HTC), which aims to predict text labels organized in hierarchical space, is a significant task lacking in investigation in natural language processing. Existing methods usually encode the entire hierarchical structure and fail to construct a robust label-dependent model, making it hard to make accurate predictions on sparse lower-level labels and achieving low Macro-F1. In this paper, we propose a novel PAMM-HiA-T5 model for HTC: a hierarchy-aware T5 model with path-adaptive mask mechanism that not only builds the knowledge of upper-level labels into low-level ones but also introduces path dependency information in label prediction. Specifically, we generate a multi-level sequential label structure to exploit hierarchical dependency across different levels with Breadth-First Search (BFS) and T5 model. To further improve label dependency prediction within each path, we then propose an original path-adaptive mask mechanism (PAMM) to identify the label's path information, eliminating sources of noises from other paths. Comprehensive experiments on three benchmark datasets show that our novel PAMM-HiA-T5 model greatly outperforms all state-of-the-art HTC approaches especially in Macro-F1. The ablation studies show that the improvements mainly come from our innovative approach instead of T5.
翻訳日:2021-09-20 14:51:50 公開日:2021-09-17
# セサミストリートの新しい学生: BERTから学習できるオーダーアウェアマトリックスの埋め込み

New Students on Sesame Street: What Order-Aware Matrix Embeddings Can Learn from BERT ( http://arxiv.org/abs/2109.08449v1 )

ライセンス: Link先を確認
Lukas Galke, Isabelle Cuber, Christoph Meyer, Henrik Ferdinand N\"olscher, Angelina Sonderecker, Ansgar Scherp(参考訳) 大規模事前訓練型言語モデル(PreLM)は、すべてのベンチマークで自然言語処理に革命をもたらしている。 しかし、そのサイズは低リソースや大規模アプリケーションでは禁止されている。 一般的なアプローチでは, 同一構造蒸留やプルーニングによりPreLMのサイズを小さくするが, より効率的なオーダーアウェアな埋込みモデルへのPreLMの蒸留について検討する。 GLUEベンチマークの結果から,BERT から学んだ埋め込み中心の学生は,QQP と RTE で DistilBERT に匹敵する成績を示し,ELMO の得点と一致または超え,言語的受容性の検出に遅れがみられた。

Large-scale pretrained language models (PreLMs) are revolutionizing natural language processing across all benchmarks. However, their sheer size is prohibitive in low-resource or large-scale applications. While common approaches reduce the size of PreLMs via same-architecture distillation or pruning, we explore distilling PreLMs into more efficient order-aware embedding models. Our results on the GLUE benchmark show that embedding-centric students, which have learned from BERT, yield scores comparable to DistilBERT on QQP and RTE, often match or exceed the scores of ELMo, and only fall behind on detecting linguistic acceptability.
翻訳日:2021-09-20 14:50:54 公開日:2021-09-17
# 低リソース環境下でのジョブ表現抽出と分類のためのブースティングトランス

Boosting Transformers for Job Expression Extraction and Classification in a Low-Resource Setting ( http://arxiv.org/abs/2109.08597v1 )

ライセンス: Link先を確認
Lukas Lange and Heike Adel and Jannik Str\"otgen(参考訳) 本稿では,低リソース環境下での変圧器モデルの改善の可能性を検討する。 特に,MEDDOPROFコンペティションにおける3つのサブタスクのうち,最初の2つ,すなわちスペイン語臨床テキストにおけるジョブ表現の抽出と分類に取り組むためのアプローチを提案する。 言語もドメインの専門家も、多言語xlm-rトランスフォーマーモデルを実験し、これらの低リソース情報抽出タスクをシーケンスラベル問題として扱う。 トランスフォーマーモデルを強化するために、ドメインおよび言語適応型事前学習、転送学習、戦略的データスプリットについて検討する。 XLM-Rモデルと比較して,これらの手法を最大5.3F1点まで改善した。 我々の最良のモデルは、それぞれ最初の2つのタスクに対して83.2と79.3のF1を達成する。

In this paper, we explore possible improvements of transformer models in a low-resource setting. In particular, we present our approaches to tackle the first two of three subtasks of the MEDDOPROF competition, i.e., the extraction and classification of job expressions in Spanish clinical texts. As neither language nor domain experts, we experiment with the multilingual XLM-R transformer model and tackle these low-resource information extraction tasks as sequence-labeling problems. We explore domain- and language-adaptive pretraining, transfer learning and strategic datasplits to boost the transformer model. Our results show strong improvements using these methods by up to 5.3 F1 points compared to a fine-tuned XLM-R model. Our best models achieve 83.2 and 79.3 F1 for the first two tasks, respectively.
翻訳日:2021-09-20 14:50:40 公開日:2021-09-17
# ルーティング問題に対する最適化強化学習

Learning Enhanced Optimisation for Routing Problems ( http://arxiv.org/abs/2109.08345v1 )

ライセンス: Link先を確認
Nasrin Sultana, Jeffrey Chan, Tabinda Sarwar, Babak Abbasi, A. K. Qin(参考訳) ディープラーニングアプローチはルーティング問題を解決する上で有望な結果を示している。 しかし、機械学習と運用研究アルゴリズムの間には、まだソリューションの品質にかなりのギャップがある。 近年,機械学習とオペレーショナルリサーチアルゴリズムの強みを融合させる新たな研究ラインが導入されている。 特に、探索摂動演算子は解を改善するために使われてきた。 それにもかかわらず、摂動の使用は品質ソリューションを保証できないかもしれない。 本稿では、ペナルティ項と強化学習を用いて探索作業を適応的に調整するルーティング問題に対する学習に基づくアプローチであるL2GLS(Learning to Guide Local Search)を提案する。 L2GLSは、局所探索(LS)演算子の強度とペナルティ項を組み合わせ、局所最適から逃れる。 ルーティング問題には多くの実用的な応用があり、多くの場合、フィールドを最適化する学習で導入された多くの既存のアルゴリズムに対して、依然として難しい大きなインスタンスをプリセットする。 L2GLSは、他の機械学習手法よりも大きなTSPとCVRPに対して、最先端の新たな結果が得られることを示す。

Deep learning approaches have shown promising results in solving routing problems. However, there is still a substantial gap in solution quality between machine learning and operations research algorithms. Recently, another line of research has been introduced that fuses the strengths of machine learning and operational research algorithms. In particular, search perturbation operators have been used to improve the solution. Nevertheless, using the perturbation may not guarantee a quality solution. This paper presents "Learning to Guide Local Search" (L2GLS), a learning-based approach for routing problems that uses a penalty term and reinforcement learning to adaptively adjust search efforts. L2GLS combines local search (LS) operators' strengths with penalty terms to escape local optimals. Routing problems have many practical applications, often presetting larger instances that are still challenging for many existing algorithms introduced in the learning to optimise field. We show that L2GLS achieves the new state-of-the-art results on larger TSP and CVRP over other machine learning methods.
翻訳日:2021-09-20 14:50:13 公開日:2021-09-17
# 複雑なミスパターンを有する交通データインプットのための動的時空間グラフ畳み込みニューラルネットワーク

Dynamic Spatiotemporal Graph Convolutional Neural Networks for Traffic Data Imputation with Complex Missing Patterns ( http://arxiv.org/abs/2109.08357v1 )

ライセンス: Link先を確認
Yuebing Liang, Zhan Zhao, Lijun Sun(参考訳) データ不足は、インテリジェントな輸送システムにおけるトラフィックデータ収集の必然的かつユビキタスな問題である。 第一に、既存のアプローチでは、交通データにおける複雑な時空間的依存関係、特に時間とともに進化する動的空間的依存関係を捉えることができない。 これらの研究のギャップを埋めるため,我々は動的時空間グラフ畳み込みニューラルネットワーク(dstgcn)と呼ばれる新しいディープラーニングフレームワークを提案する。 このモデルは、繰り返しアーキテクチャとグラフベースの畳み込みを組み合わせて、時空間依存性をモデル化する。 さらに,リアルタイム交通情報と道路ネットワーク構造から動的空間依存性をモデル化するグラフ構造推定手法を提案する。 2つの公共交通速度データセットに基づく広範囲な実験を行い,4種類の欠落パターンを用いて,提案モデルと最先端ディープラーニングアプローチを比較した。 以上の結果から,提案モデルが既存のディープラーニングモデルよりも優れており,グラフ構造推定手法がモデル性能に寄与していることが示唆された。 さらに,提案モデルとテンソル因子化モデルを比較し,異なるトレーニングスキームとデータ可用性の下で異なるモデルファミリーにまたがる異なる行動を見出す。

Missing data is an inevitable and ubiquitous problem for traffic data collection in intelligent transportation systems. Despite extensive research regarding traffic data imputation, there still exist two limitations to be addressed: first, existing approaches fail to capture the complex spatiotemporal dependencies in traffic data, especially the dynamic spatial dependencies evolving with time; second, prior studies mainly focus on randomly missing patterns while other more complex missing scenarios are less discussed. To fill these research gaps, we propose a novel deep learning framework called Dynamic Spatiotemporal Graph Convolutional Neural Networks (DSTGCN) to impute missing traffic data. The model combines the recurrent architecture with graph-based convolutions to model the spatiotemporal dependencies. Moreover, we introduce a graph structure estimation technique to model the dynamic spatial dependencies from real-time traffic information and road network structure. Extensive experiments based on two public traffic speed datasets are conducted to compare our proposed model with state-of-the-art deep learning approaches in four types of missing patterns. The results show that our proposed model outperforms existing deep learning models in all kinds of missing scenarios and the graph structure estimation technique contributes to the model performance. We further compare our proposed model with a tensor factorization model and find distinct behaviors across different model families under different training schemes and data availability.
翻訳日:2021-09-20 14:49:59 公開日:2021-09-17
# Integer Actionsを用いたソフトアクター批判

Soft Actor-Critic With Integer Actions ( http://arxiv.org/abs/2109.08512v1 )

ライセンス: Link先を確認
Ting-Han Fan, Yubo Wang(参考訳) 強化学習は離散的行動の下でよく研究されている。 整数アクションの設定は業界で人気があるが、高次元のためまだ難しい。 そこで本研究では,SAC(Soft Actor-Critic)アルゴリズムの整数再パラメータ化による強化学習について検討する。 整数作用のキーとなる観察は、それらの離散構造が可視性を用いて単純化できることである。 したがって、提案した整数再パラメータ化は1ホット符号化を必要とせず、低次元である。 実験の結果,提案したSACは,ロボット制御タスクの連続動作バージョンや,配電系統制御タスクの近似ポリシ最適化よりも優れていることがわかった。

Reinforcement learning is well-studied under discrete actions. Integer actions setting is popular in the industry yet still challenging due to its high dimensionality. To this end, we study reinforcement learning under integer actions by incorporating the Soft Actor-Critic (SAC) algorithm with an integer reparameterization. Our key observation for integer actions is that their discrete structure can be simplified using their comparability property. Hence, the proposed integer reparameterization does not need one-hot encoding and is of low dimensionality. Experiments show that the proposed SAC under integer actions is as good as the continuous action version on robot control tasks and outperforms Proximal Policy Optimization on power distribution systems control tasks.
翻訳日:2021-09-20 14:49:36 公開日:2021-09-17
# AdaLoss: 計算効率が高く、確率収束性適応勾配法

AdaLoss: A computationally-effi cient and provably convergent adaptive gradient method ( http://arxiv.org/abs/2109.08282v1 )

ライセンス: Link先を確認
Xiaoxia Wu and Yuege Xie and Simon Du and Rachel Ward(参考訳) 本研究では,勾配降下法において,損失関数の情報を直接利用してステップを調整できる適応学習率スケジュール「adaloss」を提案する。 我々はこのスケジュールが線形回帰の線形収束を楽しむことを証明した。 さらに,2層超パラメータニューラルネットワークの文脈において,非凸状態に対する線形収束保証を提供する。 2層ネットワークの第一隠れ層の幅が十分に大きい場合(多項的に)、アダロスは多項式時間でロバストに \emph{to the global minimum} 収束する。 LSTMモデルによるテキストの明確化と制御問題へのポリシー勾配の適用を考慮し,理論的結果を数値的に検証し,数値実験の範囲を広げる。

We propose a computationally-frie ndly adaptive learning rate schedule, "AdaLoss", which directly uses the information of the loss function to adjust the stepsize in gradient descent methods. We prove that this schedule enjoys linear convergence in linear regression. Moreover, we provide a linear convergence guarantee over the non-convex regime, in the context of two-layer over-parameterized neural networks. If the width of the first-hidden layer in the two-layer networks is sufficiently large (polynomially), then AdaLoss converges robustly \emph{to the global minimum} in polynomial time. We numerically verify the theoretical results and extend the scope of the numerical experiments by considering applications in LSTM models for text clarification and policy gradients for control problems.
翻訳日:2021-09-20 14:48:30 公開日:2021-09-17
# ミニマックスパスによるネットワーク基盤のオンライン学習

Online Learning of Network Bottlenecks via Minimax Paths ( http://arxiv.org/abs/2109.08467v1 )

ライセンス: Link先を確認
Niklas {\AA}kerblom, Fazeleh Sadat Hoseini, Morteza Haghir Chehreghani(参考訳) 本稿では,ミニマックス経路抽出によるネットワークのボトルネック同定について検討する。 多くの現実世界のネットワークは、十分な知識が事前に得られない確率的な重みを持っている。 したがって、このタスクを、トンプソンサンプリングの組合せ版を適用し、対応するベイズ的後悔の上限を確立する組合せ半帯域問題としてモデル化する。 問題の計算的難易度により、元の目的を近似した別の問題定式化を考案する。 最後に,実世界指向型および非指向型ネットワーク上での近似定式化により,トンプソンサンプリングの性能を実験的に評価した。

In this paper, we study bottleneck identification in networks via extracting minimax paths. Many real-world networks have stochastic weights for which full knowledge is not available in advance. Therefore, we model this task as a combinatorial semi-bandit problem to which we apply a combinatorial version of Thompson Sampling and establish an upper bound on the corresponding Bayesian regret. Due to the computational intractability of the problem, we then devise an alternative problem formulation which approximates the original objective. Finally, we experimentally evaluate the performance of Thompson Sampling with the approximate formulation on real-world directed and undirected networks.
翻訳日:2021-09-20 14:48:16 公開日:2021-09-17
# 知識と報酬:予測報酬キャッシュリングによる最適探索の学習

Knowledge is reward: Learning optimal exploration by predictive reward cashing ( http://arxiv.org/abs/2109.08518v1 )

ライセンス: Link先を確認
Luca Ambrogioni(参考訳) 知性の一般的な概念と情報の収集と利用の間には強い関連がある。 ベイズ適応探索の理論は、複雑な情報収集タスクを訓練する機械にとって魅力的な最適性フレームワークを提供する。 しかし、結果の最適制御問題の計算複雑性は、理論の主流となる深層AI研究への拡散を制限している。 本稿では,ベイズ適応問題の本質的な数学的構造を利用して,搾取と探索政策の学習を分離しながら,報酬構造をより密にすることで問題を劇的に単純化する。 この単純化の鍵となるのは、現在利用可能な情報の価値を定量化するために使われる、クロスバリューという新しい概念(すなわち、環境において最適な行動をとることの値)から来ている。 これにより、現在の情報状態から予測できる全ての将来の報酬を"キャッシュイン"する、新しいより密度の高い報酬構造が得られる。 実験では,標準的なRLアルゴリズムが故障した場合に,形状やヒューリスティックなボーナスを使わずに,難易度の高い情報収集タスクを学習できるようにする。

There is a strong link between the general concept of intelligence and the ability to collect and use information. The theory of Bayes-adaptive exploration offers an attractive optimality framework for training machines to perform complex information gathering tasks. However, the computational complexity of the resulting optimal control problem has limited the diffusion of the theory to mainstream deep AI research. In this paper we exploit the inherent mathematical structure of Bayes-adaptive problems in order to dramatically simplify the problem by making the reward structure denser while simultaneously decoupling the learning of exploitation and exploration policies. The key to this simplification comes from the novel concept of cross-value (i.e. the value of being in an environment while acting optimally according to another), which we use to quantify the value of currently available information. This results in a new denser reward structure that "cashes in" all future rewards that can be predicted from the current information state. In a set of experiments we show that the approach makes it possible to learn challenging information gathering tasks without the use of shaping and heuristic bonuses in situations where the standard RL algorithms fail.
翻訳日:2021-09-20 14:48:08 公開日:2021-09-17
# 微分乗算器の修正法による私的フェデレーション学習における公平性強化

Enforcing fairness in private federated learning via the modified method of differential multipliers ( http://arxiv.org/abs/2109.08604v1 )

ライセンス: Link先を確認
Borja Rodr\'iguez-G\'alvez and Filip Granqvist and Rogier van Dalen and Matt Seigel(参考訳) 差分プライバシーによるフェデレーション学習、あるいはプライベートフェデレーション学習は、ユーザのプライバシを尊重しながら機械学習モデルをトレーニングする戦略を提供する。 しかしながら、差分プライバシーは、ノイズの存在下での学習が困難であるため、非表現群におけるモデルの性能を不均等に低下させる可能性がある。 機械学習モデルの公平性を強制する既存のアプローチでは、アルゴリズムがユーザのデータにアクセスできる集中型設定が検討されている。 本稿では,ユーザのデータがデバイスを離れないプライベートフェデレーション学習において,グループフェアネスを強制するアルゴリズムを提案する。 まず, 偏乗法の修正法を, 公平性制約を伴う経験的リスク最小化に拡張し, 中央設定で公平性を強制するアルゴリズムを提供する。 そして、このアルゴリズムをプライベートなフェデレーション学習設定に拡張する。 提案されたアルゴリズムであるfpflは、成人データセットのフェデレーションバージョンとフェムニズムデータセットの"unfair"バージョンでテストされている。 これらのデータセットに対する実験は、プライベートフェデレーション学習がトレーニングされたモデルにおける不公平性を如何にアクセントし、FPFLがそのような不公平性を緩和できるかを示している。

Federated learning with differential privacy, or private federated learning, provides a strategy to train machine learning models while respecting users' privacy. However, differential privacy can disproportionately degrade the performance of the models on under-represented groups, as these parts of the distribution are difficult to learn in the presence of noise. Existing approaches for enforcing fairness in machine learning models have considered the centralized setting, in which the algorithm has access to the users' data. This paper introduces an algorithm to enforce group fairness in private federated learning, where users' data does not leave their devices. First, the paper extends the modified method of differential multipliers to empirical risk minimization with fairness constraints, thus providing an algorithm to enforce fairness in the central setting. Then, this algorithm is extended to the private federated learning setting. The proposed algorithm, FPFL, is tested on a federated version of the Adult dataset and an "unfair" version of the FEMNIST dataset. The experiments on these datasets show how private federated learning accentuates unfairness in the trained models, and how FPFL is able to mitigate such unfairness.
翻訳日:2021-09-20 14:47:52 公開日:2021-09-17
# 画像キャプションのためのクロス修正注意に基づく検討モデル

Cross Modification Attention Based Deliberation Model for Image Captioning ( http://arxiv.org/abs/2109.08411v1 )

ライセンス: Link先を確認
Zheng Lian, Yanan Zhang, Haichang Li, Rui Wang, Xiaohui Hu(参考訳) 画像キャプションのための従来のエンコーダ・デコーダフレームワークは、通常、対象の記述文単語を時間順に予測する単一パス復号処理を採用している。 この枠組みの大きな成功にもかかわらず、2つの深刻な欠点に悩まされている。 まず、予測した単語の誤りを訂正できないため、その後の予測を誤解し、エラー蓄積問題を引き起こす可能性がある。 第2に、このようなフレームワークは、すでに生成された単語のみを活用できるが、将来の単語は利用できないため、言語情報に関するグローバルな計画能力が欠如している。 これらの制限を克服するために,ドラフトモデルとして機能するシングルパス復号化モデルが最初に入力画像に従ってドラフトキャプションを生成し,検討モデルが磨き処理を行い,ドラフトキャプションを洗練して画像記述を改善する,ユニバーサル2パス復号化フレームワークを提案する。 さらに,異なるモダリティ間の相補性に着想を得て,画像特徴のセマンティック表現を強化し,キャプション中の誤り情報をフィルタリングする新しいクロス・モーダル・アテンション(cma)モジュールを提案する。 我々は,CMA と,そのデコーダを統合し,CMA-DM (Cross Modification Attention based Deliberation Model) と命名する。 我々は,すべての学習可能なコンポーネントをスクラッチからトレードオフ係数で最適化することで,提案フレームワークを訓練する。 MS COCOデータセットを用いた実験により,本手法は単一パス復号化ベースラインよりも大幅に向上し,他の最先端の2パス復号化手法と比較して競合性能が向上することを示した。

The conventional encoder-decoder framework for image captioning generally adopts a single-pass decoding process, which predicts the target descriptive sentence word by word in temporal order. Despite the great success of this framework, it still suffers from two serious disadvantages. Firstly, it is unable to correct the mistakes in the predicted words, which may mislead the subsequent prediction and result in error accumulation problem. Secondly, such a framework can only leverage the already generated words but not the possible future words, and thus lacks the ability of global planning on linguistic information. To overcome these limitations, we explore a universal two-pass decoding framework, where a single-pass decoding based model serving as the Drafting Model first generates a draft caption according to an input image, and a Deliberation Model then performs the polishing process to refine the draft caption to a better image description. Furthermore, inspired from the complementarity between different modalities, we propose a novel Cross Modification Attention (CMA) module to enhance the semantic expression of the image features and filter out error information from the draft captions. We integrate CMA with the decoder of our Deliberation Model and name it as Cross Modification Attention based Deliberation Model (CMA-DM). We train our proposed framework by jointly optimizing all trainable components from scratch with a trade-off coefficient. Experiments on MS COCO dataset demonstrate that our approach obtains significant improvements over single-pass decoding baselines and achieves competitive performances compared with other state-of-the-art two-pass decoding based methods.
翻訳日:2021-09-20 14:47:12 公開日:2021-09-17
# SaCoFa: プロセスマイニングのためのセマンティックス対応制御フロー匿名化

SaCoFa: Semantics-aware Control-flow Anonymization for Process Mining ( http://arxiv.org/abs/2109.08501v1 )

ライセンス: Link先を確認
Stephan A. Fahrenkrog-Petersen, Martin Kabierski, Fabian R\"osel, Han van der Aa, Matthias Weidlich(参考訳) プライバシ保存プロセスマイニングは、プロセス利害関係者の機密情報の保護を保証しながら、イベントログを使用したビジネスプロセスの分析を可能にする。 この目的のために、既存の手法は、分析のためにトレース変動の頻度分布などのイベントログの特性を抽出するクエリの結果にノイズを加えるが、ノイズ挿入はプロセスの意味を無視し、元のログに存在しないトレースを生成する可能性がある。 これは問題です。 そこで本稿では,プロセス意味論を取り入れたプライバシ保護について論じる。公開データの有用性を低下させ,ノイズの識別を容易にする。 一般的なトレース変数クエリでは、指数関数機構に基づいて、クエリ結果の差分プライバシを確保するためにセマンティック制約が組み込まれていることを示す。 実験により、我々のセマンティクスを意識した匿名化は、既存のアプローチよりもはるかに高い実用性を持つイベントログをもたらすことが示された。

Privacy-preserving process mining enables the analysis of business processes using event logs, while giving guarantees on the protection of sensitive information on process stakeholders. To this end, existing approaches add noise to the results of queries that extract properties of an event log, such as the frequency distribution of trace variants, for analysis.Noise insertion neglects the semantics of the process, though, and may generate traces not present in the original log. This is problematic. It lowers the utility of the published data and makes noise easily identifiable, as some traces will violate well-known semantic constraints.In this paper, we therefore argue for privacy preservation that incorporates a process semantics. For common trace-variant queries, we show how, based on the exponential mechanism, semantic constraints are incorporated to ensure differential privacy of the query result. Experiments demonstrate that our semantics-aware anonymization yields event logs of significantly higher utility than existing approaches.
翻訳日:2021-09-20 14:46:42 公開日:2021-09-17
# 正規化グラディエントブースティングによるコンテキスト対応製品レコメンデーション

Context-aware Retail Product Recommendation with Regularized Gradient Boosting ( http://arxiv.org/abs/2109.08561v1 )

ライセンス: Link先を確認
Sourya Dipta Das, Ayan Basak(参考訳) FARFETCH Fashion Recommendation Challengeでは,推薦インプレッションにおいて,様々な商品がユーザに提示される順序を予測する必要があった。 データは2つのフェーズ – 検証フェーズとテストフェーズ – で提供されました。 検証フェーズには、製品がクリックされたかどうかを示すバイナリ列を含むラベル付きトレーニングセットがあった。 データセットには5000,000以上のレコメンデーションイベント、45万の製品、23万のユニークなユーザが含まれている。 FARFETCHプラットフォームの実際のユーザ間の、真の、偏見のない、匿名化されたインタラクションを表す。 最終評価は第2フェーズのパフォーマンスに応じて行われた。 この課題には合計167名の参加者が参加し,最終評価では0.4658のmrで6位を獲得した。 我々は、製品とユーザコンテキストの類似性を考慮し、製品をより効果的にランク付けする独自のコンテキスト認識システムを設計した。 評価後、テストセットのmrr 0.4784で我々のアプローチを微調整することができた。

In the FARFETCH Fashion Recommendation challenge, the participants needed to predict the order in which various products would be shown to a user in a recommendation impression. The data was provided in two phases - a validation phase and a test phase. The validation phase had a labelled training set that contained a binary column indicating whether a product has been clicked or not. The dataset comprises over 5,000,000 recommendation events, 450,000 products and 230,000 unique users. It represents real, unbiased, but anonymised, interactions of actual users of the FARFETCH platform. The final evaluation was done according to the performance in the second phase. A total of 167 participants participated in the challenge, and we secured the 6th rank during the final evaluation with an MRR of 0.4658 on the test set. We have designed a unique context-aware system that takes the similarity of a product to the user context into account to rank products more effectively. Post evaluation, we have been able to fine-tune our approach with an MRR of 0.4784 on the test set, which would have placed us at the 3rd position.
翻訳日:2021-09-20 14:46:04 公開日:2021-09-17
# 教師アンサンブルのプライベートアグリゲーションに関する公平性分析

A Fairness Analysis on Private Aggregation of Teacher Ensembles ( http://arxiv.org/abs/2109.08630v1 )

ライセンス: Link先を確認
Cuong Tran, My H. Dinh, Kyle Beiter, Ferdinando Fioretto(参考訳) PATE(Private Aggregation of Teacher Ensembles)は、機械学習の重要なフレームワークである。 教師として使用する複数の学習モデルを組み合わせることで、教師間の騒がしい投票によって選択されたアウトプットを予測する。 結果として得られたモデルは、差分プライバシーを満足し、半教師付き設定やデータラベルの保護を望む場合に、高品質なプライベートモデルを学習するのに効果的であることが示されている。 本稿では,プライバシ保護の枠組みが偏見や不公平を増すか否かを問うとともに,PATEが個人やグループ間で精度の相違をもたらすことを示す。 本稿では,アルゴリズムやデータ特性が不均等な影響の原因となっているか,なぜ異なるグループに不均等に影響を与えているのかを分析し,これらの影響を緩和するためのガイドラインを提案する。 提案手法はいくつかのデータセットと設定で評価される。

The Private Aggregation of Teacher Ensembles (PATE) is an important private machine learning framework. It combines multiple learning models used as teachers for a student model that learns to predict an output chosen by noisy voting among the teachers. The resulting model satisfies differential privacy and has been shown effective in learning high-quality private models in semisupervised settings or when one wishes to protect the data labels. This paper asks whether this privacy-preserving framework introduces or exacerbates bias and unfairness and shows that PATE can introduce accuracy disparity among individuals and groups of individuals. The paper analyzes which algorithmic and data properties are responsible for the disproportionate impacts, why these aspects are affecting different groups disproportionately, and proposes guidelines to mitigate these effects. The proposed approach is evaluated on several datasets and settings.
翻訳日:2021-09-20 14:45:47 公開日:2021-09-17
# 製造システムにおける認知デジタル双生児のためのグラフ学習

Graph Learning for Cognitive Digital Twins in Manufacturing Systems ( http://arxiv.org/abs/2109.08632v1 )

ライセンス: Link先を確認
Trier Mortlock, Deepan Muthirayan, Shih-Yuan Yu, Pramod P. Khargonekar, Mohammad A. Al Faruque(参考訳) 将来の製造には、シミュレーションプラットフォームと仮想化と産業プロセスの物理データを結ぶ複雑なシステムが必要である。 デジタル双生児には、物理的双生児、デジタル双生児、そして両者の接続が組み込まれている。 特に製造においてデジタルツインを使うことの利点は、製造ライフサイクル全体にわたって効率を上げることができるため、豊富である。 デジタルツインの概念は、多くの技術の発展によって実現され、時代とともに洗練され、能力が増している。 本稿では、デジタル双生児の次の段階として認知デジタル双生児を詳述し、産業4.0のビジョンの実現に寄与する。 認知的デジタル双生児は、既存の製造システムから引き出された暗黙の知識を創造的、効果的、効果的に活用することができる。 また、企業全体(大規模)のパフォーマンスを改善しながら、より自律的な意思決定とコントロールを可能にします。 本稿では,デジタル双生児の認知機能を実現するためのグラフ学習について述べる。 グラフ学習を利用した製品設計段階における認知デジタル双生児の実現に向けた新しいアプローチを提案する。

Future manufacturing requires complex systems that connect simulation platforms and virtualization with physical data from industrial processes. Digital twins incorporate a physical twin, a digital twin, and the connection between the two. Benefits of using digital twins, especially in manufacturing, are abundant as they can increase efficiency across an entire manufacturing life-cycle. The digital twin concept has become increasingly sophisticated and capable over time, enabled by rises in many technologies. In this paper, we detail the cognitive digital twin as the next stage of advancement of a digital twin that will help realize the vision of Industry 4.0. Cognitive digital twins will allow enterprises to creatively, effectively, and efficiently exploit implicit knowledge drawn from the experience of existing manufacturing systems. They also enable more autonomous decisions and control, while improving the performance across the enterprise (at scale). This paper presents graph learning as one potential pathway towards enabling cognitive functionalities in manufacturing digital twins. A novel approach to realize cognitive digital twins in the product design stage of manufacturing that utilizes graph learning is presented.
翻訳日:2021-09-20 14:45:32 公開日:2021-09-17
# ジオタグ写真を用いた多層視覚類似性に基づくパーソナライズドツーリズムの推薦

Multi-Level Visual Similarity Based Personalized Tourist Attraction Recommendation Using Geo-Tagged Photos ( http://arxiv.org/abs/2109.08275v1 )

ライセンス: Link先を確認
Ling Chen, Dandan Lyu, Shanshan Yu, and Gencai Chen(参考訳) ジオタグ写真ベースの観光アトラクションレコメンデーションは、利用者が撮影した写真から旅行好みを発見することで、適切な観光アトラクションを推奨する。 しかし,既存の視覚コンテンツベース手法では,写真のユーザや観光客のアトラクション情報を十分に活用して視覚的特徴を抽出することはできず,異なる写真の意義を区別することができない。 本稿では,ジオタグ写真(MEAL)を用いた多層視認性に基づくパーソナライズされた観光アトラクションを提案する。 食事は、写真と対話行動データの視覚コンテンツを利用して、利用者と観光客のアトラクションの最終的な埋め込みを取得し、訪問確率を予測するために使用される。 具体的には,写真のユーザ情報と観光アトラクション情報とを交差させることで,4つの視覚的類似度を定義し,写真の視覚コンテンツを埋め込むために対応するクインタプレットロスを導入する。 また、異なる写真の重要さを捉えるために、ユーザや観光地を視覚的に表現するために自己認識機構を利用する。 Flickrからクロールしたデータセットについて実験を行い,本手法の利点を実証した。

Geo-tagged photo based tourist attraction recommendation can discover users' travel preferences from their taken photos, so as to recommend suitable tourist attractions to them. However, existing visual content based methods cannot fully exploit the user and tourist attraction information of photos to extract visual features, and do not differentiate the significances of different photos. In this paper, we propose multi-level visual similarity based personalized tourist attraction recommendation using geo-tagged photos (MEAL). MEAL utilizes the visual contents of photos and interaction behavior data to obtain the final embeddings of users and tourist attractions, which are then used to predict the visit probabilities. Specifically, by crossing the user and tourist attraction information of photos, we define four visual similarity levels and introduce a corresponding quintuplet loss to embed the visual contents of photos. In addition, to capture the significances of different photos, we exploit the self-attention mechanism to obtain the visual representations of users and tourist attractions. We conducted experiments on a dataset crawled from Flickr, and the experimental results proved the advantage of this method.
翻訳日:2021-09-20 14:44:32 公開日:2021-09-17
# 半監督左心房分節に対するクロスドメインデータを用いた適応的階層的二重整合性

Adaptive Hierarchical Dual Consistency for Semi-Supervised Left Atrium Segmentation on Cross-Domain Data ( http://arxiv.org/abs/2109.08311v1 )

ライセンス: Link先を確認
Jun Chen, Heye Zhang, Raad Mohiaddin, Tom Wong, David Firmin, Jennifer Keegan, and Guang Yang(参考訳) 半教師付き学習は、ラベル付きデータが不十分な左房分割モデル学習において大きな意味を持つ。 ドメイン間データに対する半教師付き学習の一般化は、モデルの堅牢性をさらに向上させる上で重要である。 しかし、様々なデータ領域間の分布差とサンプルミスマッチは、半教師付き学習の一般化を妨げる。 本研究では,AHDC(Adaptive Hierarchical Dual Consistency)を用いて,クロスドメインデータに基づく半教師付きLAセグメンテーションを提案する。 AHDCは主に双方向適応推論モジュール(BAI)と階層的デュアル一貫性学習モジュール(HDC)で構成されている。 BAIは2つの異なる領域間の分布の違いとサンプルミスマッチを克服する。 主に2つのマッピングネットワークを逆向きに学習し、相互適応により2つのマッチしたドメインを得る。 hdcは、得られたマッチング領域に基づくクロスドメイン半教師付きセグメンテーションのための階層的二重学習パラダイムを検討する。 主にドメイン内およびドメイン間の両方で補完情報をマイニングするための2つのデュアルモデリングネットワークを構築している。 ドメイン内学習では、相補的モデリング情報を利用するために、双対モデリング対象に一貫性制約を適用する。 ドメイン間学習では、2つのデュアルモデリングネットワークによってモデル化されたlasに一貫性制約を適用し、異なるデータドメイン間の補完的知識を利用する。 今回提案したAHDCは, 異なる中心部からの3D遅延心筋MR(LGE-CMR)データセットと3DCTデータセットを用いて, 評価を行った。 他の最先端手法と比較して,提案したAHDCは高いセグメンテーション精度を実現し,クロスドメイン半教師付きLAセグメンテーションの能力を示した。

Semi-supervised learning provides great significance in left atrium (LA) segmentation model learning with insufficient labelled data. Generalising semi-supervised learning to cross-domain data is of high importance to further improve model robustness. However, the widely existing distribution difference and sample mismatch between different data domains hinder the generalisation of semi-supervised learning. In this study, we alleviate these problems by proposing an Adaptive Hierarchical Dual Consistency (AHDC) for the semi-supervised LA segmentation on cross-domain data. The AHDC mainly consists of a Bidirectional Adversarial Inference module (BAI) and a Hierarchical Dual Consistency learning module (HDC). The BAI overcomes the difference of distributions and the sample mismatch between two different domains. It mainly learns two mapping networks adversarially to obtain two matched domains through mutual adaptation. The HDC investigates a hierarchical dual learning paradigm for cross-domain semi-supervised segmentation based on the obtained matched domains. It mainly builds two dual-modelling networks for mining the complementary information in both intra-domain and inter-domain. For the intra-domain learning, a consistency constraint is applied to the dual-modelling targets to exploit the complementary modelling information. For the inter-domain learning, a consistency constraint is applied to the LAs modelled by two dual-modelling networks to exploit the complementary knowledge among different data domains. We demonstrated the performance of our proposed AHDC on four 3D late gadolinium enhancement cardiac MR (LGE-CMR) datasets from different centres and a 3D CT dataset. Compared to other state-of-the-art methods, our proposed AHDC achieved higher segmentation accuracy, which indicated its capability in the cross-domain semi-supervised LA segmentation.
翻訳日:2021-09-20 14:44:11 公開日:2021-09-17
# MRI再建のためのディープラーニング手法の検討

A review of deep learning methods for MRI reconstruction ( http://arxiv.org/abs/2109.08618v1 )

ライセンス: Link先を確認
Arghya Pal, Yogesh Rathi(参考訳) ディープラーニングの幅広い応用の成功に続いて、ニューラルネットワークベースの機械学習技術は、MRI(MRI)の獲得と再構築戦略の加速に大きな関心を集めている。 コンピュータビジョンと画像処理のための深層学習技術に触発された多くのアイデアが、MRIの高速化のための圧縮センシングの精神における非線形画像再構成に成功している。 この分野の急速に成長する性質を考えると、文献で報告されている多くの深層学習手法の統合と要約が不可欠であり、一般にその分野の理解を深める必要がある。 本稿では,並列イメージングの改善に特に提案されているニューラルネットワークに基づくアプローチの最近の進歩の概要について述べる。 一般的な背景と並列MRIの導入は、k空間に基づく再構成手法の古典的な見方からもたらされる。 改良された正規化器を導入するイメージドメインベースの技術は、ニューラルネットワークを用いた補間戦略の改善に焦点を当てたk空間ベースの手法とともにカバーされる。 この分野は、毎年何千もの論文が公表されて急速に進化していますが、本レビューでは、公開データセットで優れたパフォーマンスを示す方法の幅広いカテゴリをカバーしようとしています。 制約やオープン問題についても論じ、近年ではコミュニティ向けのオープンデータセットやベンチマークを作成する取り組みも検討されている。

Following the success of deep learning in a wide range of applications, neural network-based machine-learning techniques have received significant interest for accelerating magnetic resonance imaging (MRI) acquisition and reconstruction strategies. A number of ideas inspired by deep learning techniques for computer vision and image processing have been successfully applied to nonlinear image reconstruction in the spirit of compressed sensing for accelerated MRI. Given the rapidly growing nature of the field, it is imperative to consolidate and summarize the large number of deep learning methods that have been reported in the literature, to obtain a better understanding of the field in general. This article provides an overview of the recent developments in neural-network based approaches that have been proposed specifically for improving parallel imaging. A general background and introduction to parallel MRI is also given from a classical view of k-space based reconstruction methods. Image domain based techniques that introduce improved regularizers are covered along with k-space based methods which focus on better interpolation strategies using neural networks. While the field is rapidly evolving with thousands of papers published each year, in this review, we attempt to cover broad categories of methods that have shown good performance on publicly available data sets. Limitations and open problems are also discussed and recent efforts for producing open data sets and benchmarks for the community are examined.
翻訳日:2021-09-20 14:43:42 公開日:2021-09-17
# 補助損失と情報ボトルネックによるリアルなポイントゴーアナビゲーション

Realistic PointGoal Navigation via Auxiliary Losses and Information Bottleneck ( http://arxiv.org/abs/2109.08677v1 )

ライセンス: Link先を確認
Guillermo Grande, Dhruv Batra, Erik Wijmans(参考訳) 本研究は, 地対地定位へのアクセスを必要とせず, 作動・センサノイズ下で, 目立たない環境下で目標座標にナビゲートする, 現実的なポイントゴーアナビゲーションを訓練するための新しいアーキテクチャとトレーニングパラダイムを提案する。 Specifically, we find that the primary challenge under this setting is learning localization -- when stripped of idealized localization, agents fail to stop precisely at the goal despite reliably making progress towards it. To address this we introduce a set of auxiliary losses to help the agent learn localization. Further, we explore the idea of treating the precise location of the agent as privileged information -- it is unavailable during test time, however, it is available during training time in simulation. エージェントは,情報ボトルネックを介し,訓練中に地中ローカライズリーディングへのアクセスを制限した。 この設定下では、エージェントは、この特権情報を使用するためのペナルティを負い、学習に不可欠である場合にのみ、この情報を活用するようエージェントに促す。 これにより、エージェントはまずナビゲーションを学習し、トレーニングでこれらの2つの目的を混同するのではなく、ローカライゼーションを学ぶことができる。 提案手法は,半理想化(コンパス+gpsを伴わない無ノイズシミュレーション)と現実的な(ノイズシミュレーションの追加)の両方で評価する。 具体的には、半理想化設定における既存ベースラインを18\%/21\%spl/success 、現実設定で15\%/20\%splで上回る。 改良されたSuccessとSPLメトリクスは、強力なナビゲーションポリシーを維持しながら、エージェントが正確に自己ローカライズする能力の向上を示している。 実装はhttps://github.com/N icoGrande/habitat-po intnav-via-ibで確認できます。

We propose a novel architecture and training paradigm for training realistic PointGoal Navigation -- navigating to a target coordinate in an unseen environment under actuation and sensor noise without access to ground-truth localization. Specifically, we find that the primary challenge under this setting is learning localization -- when stripped of idealized localization, agents fail to stop precisely at the goal despite reliably making progress towards it. To address this we introduce a set of auxiliary losses to help the agent learn localization. Further, we explore the idea of treating the precise location of the agent as privileged information -- it is unavailable during test time, however, it is available during training time in simulation. We grant the agent restricted access to ground-truth localization readings during training via an information bottleneck. Under this setting, the agent incurs a penalty for using this privileged information, encouraging the agent to only leverage this information when it is crucial to learning. This enables the agent to first learn navigation and then learn localization instead of conflating these two objectives in training. We evaluate our proposed method both in a semi-idealized (noiseless simulation without Compass+GPS) and realistic (addition of noisy simulation) settings. Specifically, our method outperforms existing baselines on the semi-idealized setting by 18\%/21\% SPL/Success and by 15\%/20\% SPL in the realistic setting. Our improved Success and SPL metrics indicate our agent's improved ability to accurately self-localize while maintaining a strong navigation policy. Our implementation can be found at https://github.com/N icoGrande/habitat-po intnav-via-ib.
翻訳日:2021-09-20 14:43:24 公開日:2021-09-17
# 並列有限バッファシステムにおけるスケジューリング:遅延フィードバックによる最適決定

Scheduling in Parallel Finite Buffer Systems: Optimal Decisions under Delayed Feedback ( http://arxiv.org/abs/2109.08548v1 )

ライセンス: Link先を確認
Anam Tahir, Bastian Alt, Amr Rizk, Heinz Koeppl(参考訳) 並列キューシステムにおけるスケジューリング決定は、データセンタークラスタでのジョブルーティング、マルチパス通信、ビッグデータシステムなど、多くのコンピューティングおよび通信システムの寸法と操作の基礎となる基本的な問題として生じる。 本質的には、スケジューラは、各到着ジョブを、ロードバランシング、低遅延、低損失率などの最適化目標を目指して、おそらくは異種サーバの1つにマップする。 ここでの最適なスケジューリング決定を見つける上での難しさの1つは、スケジューラがその決定の影響を部分的にのみ観察することである。 本稿では、遅延認識の限られた情報の下で並列キューシステムにおけるスケジューリング決定をキャプチャする部分観測可能(PO)モデルを提案する。 本稿では,スケーラブルなモンテカルロ木探索アルゴリズムを用いて,最適に近いスケジューリングポリシをリアルタイムに見つけるためのシミュレーションモデルを提案する。 提案手法は,Join-the-Shortest-Q ueue,Join-the-Shorte st-Queue(d),Shortest -Expected-Delayなど,他の限られた情報スケジューリング手法よりも優れていることを示す。 最後に,Kaggleが提供するネットワークデータを用いてリアルタイム並列処理を最適化する方法を示す。

Scheduling decisions in parallel queuing systems arise as a fundamental problem, underlying the dimensioning and operation of many computing and communication systems, such as job routing in data center clusters, multipath communication, and Big Data systems. In essence, the scheduler maps each arriving job to one of the possibly heterogeneous servers while aiming at an optimization goal such as load balancing, low average delay or low loss rate. One main difficulty in finding optimal scheduling decisions here is that the scheduler only partially observes the impact of its decisions, e.g., through the delayed acknowledgements of the served jobs. In this paper, we provide a partially observable (PO) model that captures the scheduling decisions in parallel queuing systems under limited information of delayed acknowledgements. We present a simulation model for this PO system to find a near-optimal scheduling policy in real-time using a scalable Monte Carlo tree search algorithm. We numerically show that the resulting policy outperforms other limited information scheduling strategies such as variants of Join-the-Most-Observ ations and has comparable performance to full information strategies like: Join-the-Shortest-Qu eue, Join-the- Shortest-Queue(d) and Shortest-Expected-De lay. Finally, we show how our approach can optimise the real-time parallel processing by using network data provided by Kaggle.
翻訳日:2021-09-20 14:42:59 公開日:2021-09-17
# 層にまたがる類似表現のクラスターを示す微調整トランスフォーマー

Fine-Tuned Transformers Show Clusters of Similar Representations Across Layers ( http://arxiv.org/abs/2109.08406v1 )

ライセンス: Link先を確認
Jason Phang, Haokun Liu, Samuel R. Bowman(参考訳) 下流自然言語理解(NLU)タスクのためのBERTのような微調整済み言語エンコーダの成功にもかかわらず、ニューラルネットワークが微調整後にどのように変化するかはいまだに理解されていない。 本研究では,学習表現の比較手法であるセンタード・カーネルアライメント(cka)を用いて,レイヤ間のタスク調整モデルにおける表現の類似性を測定する。 12のNLUタスクを対象とした実験では、細調整されたRoBERTaとALBERTモデル内の表現の類似性において一貫したブロック対角構造が発見され、初期層と後期層のクラスタ内では強い類似性があるが、それらの間にはない。 後段のレイヤ表現の類似性は、後段のレイヤがタスクパフォーマンスにわずかに寄与することを示し、さらにチューニングを行なわずとも、細調整されたトランスフォーマの上位数層が性能を損なうことなく破棄可能であることを実験で検証する。

Despite the success of fine-tuning pretrained language encoders like BERT for downstream natural language understanding (NLU) tasks, it is still poorly understood how neural networks change after fine-tuning. In this work, we use centered kernel alignment (CKA), a method for comparing learned representations, to measure the similarity of representations in task-tuned models across layers. In experiments across twelve NLU tasks, we discover a consistent block diagonal structure in the similarity of representations within fine-tuned RoBERTa and ALBERT models, with strong similarity within clusters of earlier and later layers, but not between them. The similarity of later layer representations implies that later layers only marginally contribute to task performance, and we verify in experiments that the top few layers of fine-tuned Transformers can be discarded without hurting performance, even with no further tuning.
翻訳日:2021-09-20 14:42:15 公開日:2021-09-17
# 連立機械・ヒューマンチャットハンドオフとサービス満足度分析のための役割選択型共有ネットワーク

A Role-Selected Sharing Network for Joint Machine-Human Chatting Handoff and Service Satisfaction Analysis ( http://arxiv.org/abs/2109.08412v1 )

ライセンス: Link先を確認
Jiawei Liu, Kaisong Song, Yangyang Kang, Guoxiu He, Zhuoren Jiang, Changlong Sun, Wei Lu, Xiaozhong Liu(参考訳) しかしチャットボットは、予期せぬ会話の複雑さとデータの疎遠さのために、さまざまなドメインで人気を集めている。 近年、チャットボットの故障を予測し、チャットボットの品質を高めるための人間とアルゴリズムのコラボレーションを可能にするMHCH(Machine-Human Chatting Handoff)が、産業や学界から注目を集めている。 本研究では,対話満足度推定とハンドオフ予測を1つのマルチタスク学習フレームワークに統合した新しいモデル,ロール選択共有ネットワーク(rssn)を提案する。 ダイアログマイニング以前の取り組みとは異なり、ローカルユーザの満足度を橋渡しとして活用することで、グローバル満足度検出器とハンドオフ予測器は、重要な情報を効果的に交換することができる。 具体的には、共有エンコーダの後、役割情報によって2つのタスク間の関係と相互作用を分離する。 2つの公開データセットに対する大規模な実験は、我々のモデルの有効性を示す。

Chatbot is increasingly thriving in different domains, however, because of unexpected discourse complexity and training data sparseness, its potential distrust hatches vital apprehension. Recently, Machine-Human Chatting Handoff (MHCH), predicting chatbot failure and enabling human-algorithm collaboration to enhance chatbot quality, has attracted increasing attention from industry and academia. In this study, we propose a novel model, Role-Selected Sharing Network (RSSN), which integrates both dialogue satisfaction estimation and handoff prediction in one multi-task learning framework. Unlike prior efforts in dialog mining, by utilizing local user satisfaction as a bridge, global satisfaction detector and handoff predictor can effectively exchange critical information. Specifically, we decouple the relation and interaction between the two tasks by the role information after the shared encoder. Extensive experiments on two public datasets demonstrate the effectiveness of our model.
翻訳日:2021-09-20 14:41:55 公開日:2021-09-17
# 低リソース抽象要約のためのマルチタスク学習の探索

Exploring Multitask Learning for Low-Resource AbstractiveSummariza tion ( http://arxiv.org/abs/2109.08565v1 )

ライセンス: Link先を確認
Ahmed Magooda, Mohamed Elaraby, Diane Litman(参考訳) 本稿では,小型学習コーパスの文脈における抽象要約におけるマルチタスク学習の効果について検討する。 特に,マルチタスク学習による抽象的要約の目標タスクの強化を目的として,4つの異なるタスク(extractive summarization, language modeling, concept detection, paraphrase detection)を個別と組み合わせて取り入れた。 多くのタスクの組み合わせに対して、マルチタスク設定で訓練されたモデルが抽象的な要約のためにのみ訓練されたモデルより優れており、追加の要約データが導入されていないことを示す。 さらに、包括的探索を行い、特定のタスク(例えば、paraphrase検出)が、他のタスクと組み合わせた場合だけでなく、異なるアーキテクチャやトレーニングコーパスを使用する場合にも、抽象的な要約に一貫して役立つことを見出します。

This paper explores the effect of using multitask learning for abstractive summarization in the context of small training corpora. In particular, we incorporate four different tasks (extractive summarization, language modeling, concept detection, and paraphrase detection) both individually and in combination, with the goal of enhancing the target task of abstractive summarization via multitask learning. We show that for many task combinations, a model trained in a multitask setting outperforms a model trained only for abstractive summarization, with no additional summarization data introduced. Additionally, we do a comprehensive search and find that certain tasks (e.g. paraphrase detection) consistently benefit abstractive summarization, not only when combined with other tasks but also when using different architectures and training corpora.
翻訳日:2021-09-20 14:41:39 公開日:2021-09-17
# 抽象要約のためのデータ合成・拡張・カリキュラムによるデータスカースネスの緩和

Mitigating Data Scarceness through Data Synthesis, Augmentation and Curriculum for Abstractive Summarization ( http://arxiv.org/abs/2109.08569v1 )

ライセンス: Link先を確認
Ahmed Magooda, Diane Litman(参考訳) 本稿では,抽象的な要約モデルを改善するための3つの簡単なデータ操作手法(合成,拡張,カリキュラム)について検討する。 本稿では,パラフレージングを用いたデータ合成手法,サンプル混合を用いたデータ拡張手法,および特異性と抽象性に基づく2つの新しい難易度指標を用いたカリキュラム学習を紹介する。 これらの3つの手法は、2つの要約モデルと2つの異なる小さなデータセットの抽象的な要約を改善するのに役立つことを示す実験を行う。 さらに,これらの技術は分離および組み合わせによる性能向上に有効であることを示す。

This paper explores three simple data manipulation techniques (synthesis, augmentation, curriculum) for improving abstractive summarization models without the need for any additional data. We introduce a method of data synthesis with paraphrasing, a data augmentation technique with sample mixing, and curriculum learning with two new difficulty metrics based on specificity and abstractiveness. We conduct experiments to show that these three techniques can help improve abstractive summarization across two summarization models and two different small datasets. Furthermore, we show that these techniques can improve performance when applied in isolation and when combined.
翻訳日:2021-09-20 14:41:22 公開日:2021-09-17
# CommonsenseはSarcasmの検出に役立つか?

Does Commonsense help in detecting Sarcasm? ( http://arxiv.org/abs/2109.08588v1 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury and Snigdha Chaturvedi(参考訳) sarcasm検出は、製品レビューにおける感情識別、ユーザフィードバック、オンラインフォーラムなど、いくつかのnlpタスクにおいて重要である。 言語、文脈、世界の知識を深く理解する必要がある課題である。 本稿では,コモンセンスの知識を取り入れることで,サルカズムの検出に有効かどうかを考察する。 本研究では,事前学習された言語モデル組込みを入力として,グラフ畳み込みネットワークを用いた予測プロセスに常識知識を組み込む。 3つのサルカズム検出データセットを用いた実験により,本手法がベースラインモデルより優れていないことが示された。 我々は,commonsenseサポートが価値を付加し,分類を損なう箇所を分析するために,徹底した実験を行う。 私たちの実装は、https://github.com/b rcsomnath/commonsens e-sarcasmで公開しています。

Sarcasm detection is important for several NLP tasks such as sentiment identification in product reviews, user feedback, and online forums. It is a challenging task requiring a deep understanding of language, context, and world knowledge. In this paper, we investigate whether incorporating commonsense knowledge helps in sarcasm detection. For this, we incorporate commonsense knowledge into the prediction process using a graph convolution network with pre-trained language model embeddings as input. Our experiments with three sarcasm detection datasets indicate that the approach does not outperform the baseline model. We perform an exhaustive set of experiments to analyze where commonsense support adds value and where it hurts classification. Our implementation is publicly available at: https://github.com/b rcsomnath/commonsens e-sarcasm.
翻訳日:2021-09-20 14:41:11 公開日:2021-09-17
# テキスト分類のためのデモグラフィック情報の逆スクレイビング

Adversarial Scrubbing of Demographic Information for Text Classification ( http://arxiv.org/abs/2109.08613v1 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Sayan Ghosh, Yiyuan Li, Junier B. Oliva, Shashank Srivastava and Snigdha Chaturvedi(参考訳) 言語モデルによって学習される文脈表現は、しばしば望ましくない属性、例えばユーザーの人口統計学的関連をエンコードし、無関係な対象タスクのために訓練される。 このような望ましくない属性をスクラブし、ターゲットタスクのパフォーマンスを維持しながら公平な表現を学ぶことを目指している。 本稿では,文脈表現を曖昧にするために,逆学習フレームワーク "Adversarial Scrubber" (ADS) を提案する。 我々は,特定の条件下で人口統計情報を漏らさずに,枠組みが収束することを示す理論的解析を行う。 最小記述長 (mdl) 法を用いてデバイアス性能を評価することにより, 従来の評価手法を拡張する。 8つのデータセットで実験的に評価したところ、ADSはターゲットタスクについて最大限に情報を提供しながら、人口属性に関する最小限の情報で表現を生成する。

Contextual representations learned by language models can often encode undesirable attributes, like demographic associations of the users, while being trained for an unrelated target task. We aim to scrub such undesirable attributes and learn fair representations while maintaining performance on the target task. In this paper, we present an adversarial learning framework "Adversarial Scrubber" (ADS), to debias contextual representations. We perform theoretical analysis to show that our framework converges without leaking demographic information under certain conditions. We extend previous evaluation techniques by evaluating debiasing performance using Minimum Description Length (MDL) probing. Experimental evaluations on 8 datasets show that ADS generates representations with minimal information about demographic attributes while being maximally informative about the target task.
翻訳日:2021-09-20 14:41:02 公開日:2021-09-17
# CKMorph:中央クルド人のための総合的形態解析装置

CKMorph: A Comprehensive Morphological Analyzer for Central Kurdish ( http://arxiv.org/abs/2109.08615v1 )

ライセンス: Link先を確認
Morteza Naserzade, Aso Mahmudi, Hadi Veisi, Hawre Hosseini, Mohammad MohammadAmini(参考訳) 形態素解析器は、特に形態素言語に対する多くの自然言語処理アプリケーションにおいて重要な要素であり、入力語をその構成形態素に分割し、形態素の役割を識別する。 本稿では,豊富な形態を持つ低リソース言語であるCentral Kurdish(CK)の総合的な形態解析手法を提案する。 現存する限られた文献に基づいて、我々はまず言語の形態的および形態的規則の包括的収集と体系的分類を行った。 さらに,約10,000の動詞,名詞,形容詞,名前付き実体,その他の語幹を含む生成語彙を手作業で収集,ラベル付けした。 有限状態トランスデューサに基づくCKMorph Analyzerの実装には,これらのルールセットとリソースを使用した。 将来の研究のためのベンチマークを提供するため,分析器の精度とカバレッジを評価するために,手動でラベル付け,公開テストセットを収集した。 CKMorphは精度テストセットの95.9%を正確に分析することができ、文脈に応じて1000のCKワードが形態学的に分析された。 さらに、CKMorphはカバーテストセットの4.22M CKトークンの95.5%の少なくとも1つの分析を行った。 CK動詞データベースやテストセットを含むアプリケーションとリソースのデモはhttps://github.com/C KMorph.comで公開公開されている。

A morphological analyzer, which is a significant component of many natural language processing applications especially for morphologically rich languages, divides an input word into all its composing morphemes and identifies their morphological roles. In this paper, we introduce a comprehensive morphological analyzer for Central Kurdish (CK), a low-resourced language with a rich morphology. Building upon the limited existing literature, we first assembled and systematically categorized a comprehensive collection of the morphological and morphophonological rules of the language. Additionally, we collected and manually labeled a generative lexicon containing nearly 10,000 verb, noun and adjective stems, named entities, and other types of word stems. We used these rule sets and resources to implement CKMorph Analyzer based on finite-state transducers. In order to provide a benchmark for future research, we collected, manually labeled, and publicly shared test sets for evaluating accuracy and coverage of the analyzer. CKMorph was able to correctly analyze 95.9% of the accuracy test set, containing 1,000 CK words morphologically analyzed according to the context. Moreover, CKMorph gave at least one analysis for 95.5% of 4.22M CK tokens of the coverage test set. The demonstration of the application and resources including CK verb database and test sets are openly accessible at https://github.com/C KMorph.
翻訳日:2021-09-20 14:40:48 公開日:2021-09-17
# rng-kbqa: 知識ベース質問応答のための反復ランキングの改善

RnG-KBQA: Generation Augmented Iterative Ranking for Knowledge Base Question Answering ( http://arxiv.org/abs/2109.08678v1 )

ライセンス: Link先を確認
Xi Ye, Semih Yavuz, Kazuma Hashimoto, Yingbo Zhou, Caiming Xiong(参考訳) 既存のKBQAアプローチは、i.d.テストデータ上での強いパフォーマンスにもかかわらず、見えないKBスキーマ項目に関する問題への一般化に苦慮することが多い。 以前のランキングベースのアプローチは一般化に成功していますが、カバレッジの問題に苦しんでいます。 本稿では,KBQAのランク・アンド・ジェネレートアプローチであるRnG-KBQAについて述べる。 本手法は,まずコントラストランカを用いて,知識グラフの検索により得られた候補論理型をランク付けする。 次に、質問と最終論理形式を構成する上位候補に基づいて、調整された生成モデルを導入する。 我々はgrailqaとwebqspデータセットで最新の結果を得る。 特に,本手法はgrailqaのリーダボードにおいて,従来の最先端技術を大きく上回っている。 さらに、RnG-KBQAは、オラクルエンティティリンクを使用するものを含め、一般的なWebQSPベンチマークにおいて、すべての以前のアプローチよりも優れています。 実験により, 評価と生成の相互作用の有効性が示され, 提案手法は全設定において優れた性能を示し, 特にゼロショットの一般化が向上した。

Existing KBQA approaches, despite achieving strong performance on i.i.d. test data, often struggle in generalizing to questions involving unseen KB schema items. Prior ranking-based approaches have shown some success in generalization, but suffer from the coverage issue. We present RnG-KBQA, a Rank-and-Generate approach for KBQA, which remedies the coverage issue with a generation model while preserving a strong generalization capability. Our approach first uses a contrastive ranker to rank a set of candidate logical forms obtained by searching over the knowledge graph. It then introduces a tailored generation model conditioned on the question and the top-ranked candidates to compose the final logical form. We achieve new state-of-the-art results on GrailQA and WebQSP datasets. In particular, our method surpasses the prior state-of-the-art by a large margin on the GrailQA leaderboard. In addition, RnG-KBQA outperforms all prior approaches on the popular WebQSP benchmark, even including the ones that use the oracle entity linking. The experimental results demonstrate the effectiveness of the interplay between ranking and generation, which leads to the superior performance of our proposed approach across all settings with especially strong improvements in zero-shot generalization.
翻訳日:2021-09-20 14:40:25 公開日:2021-09-17
# GraFormer: 3D Pose推定のためのグラフ畳み込み変換器

GraFormer: Graph Convolution Transformer for 3D Pose Estimation ( http://arxiv.org/abs/2109.08364v1 )

ライセンス: Link先を確認
Weixi Zhao and Yunjie Tian and Qixiang Ye and Jianbin Jiao and Weiqiang Wang(参考訳) 2次元関節間の関係の活用は重要な役割を担っているが、2次元から3次元のポーズ推定において半発達したままである。 そこで本稿では, 3次元ポーズ推定のためのグラフ畳み込みを組み合わせた新しいトランスフォーマーであるgraformerを提案する。 提案されたGraFormerは、2つの繰り返し積み重ねられたコアモジュール、GraAttentionとChebGConvブロックで構成されている。 GraAttentionは、すべての2次元関節が、後のモジュールに不可欠な特徴をもたらすジョイントのグラフ構造情報を弱めることなく、大域的受容領域で相互作用することができる。 接合の明らかな関係をモデル化するバニラグラフの畳み込みとは異なり、ChebGConvブロックは2次元関節を高次球面で相互作用させ、それらの暗黙の関係を定式化する。 GraFormerの優位性を実証的に示すために、人気のあるベンチマークにまたがって広範な実験を行った。 具体的には、GraFormerは18$\%$パラメータを使用しながら、Human3.6Mデータセットのテクニックの状態を上回ります。 コードはhttps://github.com/g raformer/graformerで入手できる。

Exploiting relations among 2D joints plays a crucial role yet remains semi-developed in 2D-to-3D pose estimation. To alleviate this issue, we propose GraFormer, a novel transformer architecture combined with graph convolution for 3D pose estimation. The proposed GraFormer comprises two repeatedly stacked core modules, GraAttention and ChebGConv block. GraAttention enables all 2D joints to interact in global receptive field without weakening the graph structure information of joints, which introduces vital features for later modules. Unlike vanilla graph convolutions that only model the apparent relationship of joints, ChebGConv block enables 2D joints to interact in the high-order sphere, which formulates their hidden implicit relations. We empirically show the superiority of GraFormer through conducting extensive experiments across popular benchmarks. Specifically, GraFormer outperforms state of the art on Human3.6M dataset while using 18$\%$ parameters. The code is available at https://github.com/G raformer/GraFormer .
翻訳日:2021-09-20 14:40:04 公開日:2021-09-17
# ロバストなビデオ表情認識のための表現スニペットトランスフォーマー

Expression Snippet Transformer for Robust Video-based Facial Expression Recognition ( http://arxiv.org/abs/2109.08409v1 )

ライセンス: Link先を確認
Yuanyuan Liu, Wenbin Wang, Chuanxu Feng, Haoyu Zhang, Zhe Chen, Yibing Zhan(参考訳) 最近のtransformerの成功は、ビデオベースの表情認識(fer)を含む様々な視覚理解タスクに新しい方向を与えている。 視覚関係を効果的にモデル化することで、Transformerは複雑なパターンを記述する能力を示した。 しかし、トランスフォーマーは、多くのビデオの表情が小さすぎて意味のある空間的-時間的関係を抽出できないため、微妙な表情の動きに気付きにくい。 そこで本研究では,各動画を少数の顔の動きを含む一連の表現スニペットに分解し,表現スニペットトランスフォーマー(EST)を用いて,スニペット内とスニペット間の関係をモデル化するトランスフォーマーの能力を増強する手法を提案する。 特に,スニペット内モデリングにおいて,スニペットの微妙な顔の動きのエンコーディングを強化するために,注意増強スニペット特徴抽出器(AA-SFE)を考案した。 さらに,Snippet間モデリングでは,シャッフルスニペット順序予測(SSOP)とそれに対応する損失を導入し,シャッフルスニペット順序の同定のためにトランスフォーマーを訓練することにより,その後のスニペット間の微妙な動き変化のモデル化を改善する。 4つの挑戦的データセット(BU-3DFE, MMI, AFEW, DFEW)に対する大規模な実験は、ESTが他のCNNベースの手法よりも優れていることを示す。

The recent success of Transformer has provided a new direction to various visual understanding tasks, including video-based facial expression recognition (FER). By modeling visual relations effectively, Transformer has shown its power for describing complicated patterns. However, Transformer still performs unsatisfactorily to notice subtle facial expression movements, because the expression movements of many videos can be too small to extract meaningful spatial-temporal relations and achieve robust performance. To this end, we propose to decompose each video into a series of expression snippets, each of which contains a small number of facial movements, and attempt to augment the Transformer's ability for modeling intra-snippet and inter-snippet visual relations, respectively, obtaining the Expression snippet Transformer (EST). In particular, for intra-snippet modeling, we devise an attention-augmented snippet feature extractor (AA-SFE) to enhance the encoding of subtle facial movements of each snippet by gradually attending to more salient information. In addition, for inter-snippet modeling, we introduce a shuffled snippet order prediction (SSOP) head and a corresponding loss to improve the modeling of subtle motion changes across subsequent snippets by training the Transformer to identify shuffled snippet orders. Extensive experiments on four challenging datasets (i.e., BU-3DFE, MMI, AFEW, and DFEW) demonstrate that our EST is superior to other CNN-based methods, obtaining state-of-the-art performance.
翻訳日:2021-09-20 14:39:46 公開日:2021-09-17
# 3D仮想環境を計測する:移動可能な3Dオブジェクト

Messing Up 3D Virtual Environments: Transferable Adversarial 3D Objects ( http://arxiv.org/abs/2109.08465v1 )

ライセンス: Link先を確認
Enrico Meloni, Matteo Tiezzi, Luca Pasqualini, Marco Gori, Stefano Melacci(参考訳) ここ数年、科学コミュニティは、3D仮想環境への目覚ましい関心を示し、リアルな仮想世界で機械学習ベースのモデルをトレーニングし、テストした。 一方、これらの環境は、機械学習アルゴリズムの弱点の研究や、機械学習モデルが3Dの敵攻撃に対して堅牢性を得るためにトレーニング設定をシミュレートする手段にもなり得る。 一方, 大規模コミュニティからの貢献を許す公的な環境において, ベンチマークプロセスの無効化を図り, 相手条件の創出を目指す人たちも, 人気が高まっている。 既存のAdversarial Machine Learningアプローチのほとんどは静的イメージに重点を置いており、3D環境の扱い方や、それを観察する分類器を騙すために3Dオブジェクトをどのように変更すべきかの研究はほとんど行われていない。 本稿では, 容易にアクセス可能な要素からなるツールチェーンを用いて, テクスチャを変更することで, 対向3Dオブジェクトの製作方法を検討する。 そこで本研究では,市販の限定サロゲートレンダラーを用いて,レンダリングプロセスのパラメータに関する勾配を計算し,より高度な3Dエンジンへの攻撃をある程度の精度で行うことが可能であることを示す。 本研究では,ターゲットエンジンで有効と推定されるテクスチャ要素の変更に焦点を合わせるために,2種類のレンダラを相互に結合するサリエンシーに基づく攻撃を提案する。

In the last few years, the scientific community showed a remarkable and increasing interest towards 3D Virtual Environments, training and testing Machine Learning-based models in realistic virtual worlds. On one hand, these environments could also become a mean to study the weaknesses of Machine Learning algorithms, or to simulate training settings that allow Machine Learning models to gain robustness to 3D adversarial attacks. On the other hand, their growing popularity might also attract those that aim at creating adversarial conditions to invalidate the benchmarking process, especially in the case of public environments that allow the contribution from a large community of people. Most of the existing Adversarial Machine Learning approaches are focused on static images, and little work has been done in studying how to deal with 3D environments and how a 3D object should be altered to fool a classifier that observes it. In this paper, we study how to craft adversarial 3D objects by altering their textures, using a tool chain composed of easily accessible elements. We show that it is possible, and indeed simple, to create adversarial objects using off-the-shelf limited surrogate renderers that can compute gradients with respect to the parameters of the rendering process, and, to a certain extent, to transfer the attacks to more advanced 3D engines. We propose a saliency-based attack that intersects the two classes of renderers in order to focus the alteration to those texture elements that are estimated to be effective in the target engine, evaluating its impact in popular neural classifiers.
翻訳日:2021-09-20 14:39:17 公開日:2021-09-17
# ActionCLIP: ビデオアクション認識のための新しいパラダイム

ActionCLIP: A New Paradigm for Video Action Recognition ( http://arxiv.org/abs/2109.08472v1 )

ライセンス: Link先を確認
Mengmeng Wang, Jiazheng Xing and Yong Liu(参考訳) ビデオアクション認識の標準的アプローチは、古典的かつ標準的な1対nの投票タスクを神経モデルに指示する。 それらは事前に定義されたカテゴリの固定セットを予測するように訓練され、見当たらない概念を持つ新しいデータセットの転送能力を制限する。 本稿では,単に数にマッピングするのではなく,ラベルテキストの意味情報に重きを置くことにより,行動認識の新しい視点を提案する。 具体的には、このタスクをマルチモーダル学習フレームワーク内のビデオテキストマッチング問題としてモデル化し、よりセマンティック言語による映像表現を強化し、さらなるラベル付きデータやパラメータの要求なしにゼロショットアクション認識を可能にする。 さらに,ラベルテキストの欠如に対処し,膨大なWebデータを活用するために,この多モーダル学習フレームワークに基づく行動認識手法を提案し,これを「事前学習,即時学習,微調整」と呼ぶ。 このパラダイムはまず、大量のWeb画像テキストやビデオテキストデータを事前学習することで、強力な表現を学習する。 そして、アクション認識タスクは、プロンプトエンジニアリングによる事前学習問題のように振る舞う。 最後に、ターゲットデータセットのエンドツーエンドの微調整により、強力なパフォーマンスが得られる。 本稿では,新しいパラダイムであるActionCLIPのインスタンス化について述べる。これは,優れたゼロショット/フェーショット転送能力を持つだけでなく,一般的なアクション認識タスクでも最高性能に達し,VT-B/16をバックボーンとしてKinetics-400上で83.8%の精度を実現している。 コードはhttps://github.com/s allymmx/ActionCLIP.g itで入手できる。

The canonical approach to video action recognition dictates a neural model to do a classic and standard 1-of-N majority vote task. They are trained to predict a fixed set of predefined categories, limiting their transferable ability on new datasets with unseen concepts. In this paper, we provide a new perspective on action recognition by attaching importance to the semantic information of label texts rather than simply mapping them into numbers. Specifically, we model this task as a video-text matching problem within a multimodal learning framework, which strengthens the video representation with more semantic language supervision and enables our model to do zero-shot action recognition without any further labeled data or parameters requirements. Moreover, to handle the deficiency of label texts and make use of tremendous web data, we propose a new paradigm based on this multimodal learning framework for action recognition, which we dub "pre-train, prompt and fine-tune". This paradigm first learns powerful representations from pre-training on a large amount of web image-text or video-text data. Then it makes the action recognition task to act more like pre-training problems via prompt engineering. Finally, it end-to-end fine-tunes on target datasets to obtain strong performance. We give an instantiation of the new paradigm, ActionCLIP, which not only has superior and flexible zero-shot/few-shot transfer ability but also reaches a top performance on general action recognition task, achieving 83.8% top-1 accuracy on Kinetics-400 with a ViT-B/16 as the backbone. Code is available at https://github.com/s allymmx/ActionCLIP.g it
翻訳日:2021-09-20 14:38:50 公開日:2021-09-17
# 歴史的登録の行為分割のための画像ベースモデルにおけるキーワード位置を含む

Including Keyword Position in Image-based Models for Act Segmentation of Historical Registers ( http://arxiv.org/abs/2109.08477v1 )

ライセンス: Link先を確認
M\'elodie Boillet, Martin Maarand, Thierry Paquet and Christopher Kermorvant(参考訳) 複雑な画像のセマンティック領域へのセグメンテーションは、Deep Learningの出現とともにここ数年、関心が高まっている。 最近まで、文書の視覚的外観に焦点をあて、テキストコンテンツが提供する豊富な情報を無視してきた歴史文書分析の方法がほとんどであった。 しかし、複雑な文書を意味領域に分割することは、視覚的な特徴と、最近のモデルが視覚情報とテキスト情報の両方を埋め込むだけでは不可能である。 本稿では,歴史的レジスタを行動などの構造的・意味的な単位に分割するための視覚的・テキスト的情報の利用に焦点を当てる。 行為は、人口統計情報(洗礼、結婚または死)や王室の決定(寄付または恩赦)などの貴重な知識を含む文書記録である。 本稿では,キーフレーズを含むテキスト行の位置を付加した文書画像のリッチ化のための簡単なパイプラインを提案し,これらの画像上で標準的な画像ベースレイアウト解析システムを実行することで,大幅な向上が期待できることを示す。 本研究では,テキスト列の位置や内容が自動認識システムで抽出された実使用条件において,テキスト情報付加時の行動検出率が38%から74%に増加することを示す。

The segmentation of complex images into semantic regions has seen a growing interest these last years with the advent of Deep Learning. Until recently, most existing methods for Historical Document Analysis focused on the visual appearance of documents, ignoring the rich information that textual content can offer. However, the segmentation of complex documents into semantic regions is sometimes impossible relying only on visual features and recent models embed both visual and textual information. In this paper, we focus on the use of both visual and textual information for segmenting historical registers into structured and meaningful units such as acts. An act is a text recording containing valuable knowledge such as demographic information (baptism, marriage or death) or royal decisions (donation or pardon). We propose a simple pipeline to enrich document images with the position of text lines containing key-phrases and show that running a standard image-based layout analysis system on these images can lead to significant gains. Our experiments show that the detection of acts increases from 38 % of mAP to 74 % when adding textual information, in real use-case conditions where text lines positions and content are extracted with an automatic recognition system.
翻訳日:2021-09-20 14:38:24 公開日:2021-09-17
# 視点ボトルネックを用いた3次元立体解析

Pointly-supervised 3D Scene Parsing with Viewpoint Bottleneck ( http://arxiv.org/abs/2109.08553v1 )

ライセンス: Link先を確認
Liyi Luo, Beiwen Tian, Hao Zhao and Guyue Zhou(参考訳) 3Dポイントクラウドのセマンティック理解は、様々なロボティクス応用において重要である。 本稿では,ポイントワイズ・セマンティック・アノテーションが高価であることを考えると,非常に少ないラベルを持つモデル学習の課題に対処する。 主な問題は、多くの未ラベルのポイントをどのように活用するかである。 そこで本研究では,視点ボトルネックと呼ばれる自己教師型3次元表現学習フレームワークを提案する。 異なる視点の下で点雲に適用される相互情報に基づく目的を最適化する。 原則分析により,視点ボトルネックは大規模ポイントクラウドデータに適したエレガントなサーロゲート損失関数をもたらすことが示された。 対照的な学習に基づく以前の芸術と比較すると、視点のボトルネックはサンプル次元ではなく特徴次元に作用する。 このパラダイムシフトには、実装やチューニングが容易で、ネガティブなサンプルは必要とせず、目標のダウンストリームタスクでパフォーマンスが向上する、といういくつかのメリットがあります。 提案手法は,ScanNetの公開ベンチマーク上で,ポイント教師付き設定で評価する。 我々は同等の解の中で最良の量的結果を得る。 一方,様々な難易度場面の質的検証を行った。 彼らは、我々のモデルがロボティクスのアプリケーションにかなり良いシーン解析結果をもたらすことを実証した。 私たちのコード、データ、モデルは公開されます。

Semantic understanding of 3D point clouds is important for various robotics applications. Given that point-wise semantic annotation is expensive, in this paper, we address the challenge of learning models with extremely sparse labels. The core problem is how to leverage numerous unlabeled points. To this end, we propose a self-supervised 3D representation learning framework named viewpoint bottleneck. It optimizes a mutual-information based objective, which is applied on point clouds under different viewpoints. A principled analysis shows that viewpoint bottleneck leads to an elegant surrogate loss function that is suitable for large-scale point cloud data. Compared with former arts based upon contrastive learning, viewpoint bottleneck operates on the feature dimension instead of the sample dimension. This paradigm shift has several advantages: It is easy to implement and tune, does not need negative samples and performs better on our goal down-streaming task. We evaluate our method on the public benchmark ScanNet, under the pointly-supervised setting. We achieve the best quantitative results among comparable solutions. Meanwhile we provide an extensive qualitative inspection on various challenging scenes. They demonstrate that our models can produce fairly good scene parsing results for robotics applications. Our code, data and models will be made public.
翻訳日:2021-09-20 14:38:03 公開日:2021-09-17
# シンプルなエンティティ中心の質問がDense Retrieversに挑戦

Simple Entity-Centric Questions Challenge Dense Retrievers ( http://arxiv.org/abs/2109.08535v1 )

ライセンス: Link先を確認
Christopher Sciavolino, Zexuan Zhong, Jinhyuk Lee, Danqi Chen(参考訳) 近年,厳密な検索モデルの成功により,少数の教師付きトレーニング例を用いてスパースモデルを上回ったオープンドメイン質問応答が急速に普及している。 しかし,本論文では,現在の密度モデルが検索の聖杯ではないことを実証する。 私たちはまず、Wikidataの事実に基づいた、単純でエンティティに富んだ質問の集合であるEntityQuestionsを構築します(例えば、Arve Fursetはどこで生まれたのか?)。 この問題を調査し, 学習中に質問パターンが明示的に観察されない限り, 密集したレトリバーが共通の実体にのみ一般化できることを明らかにする。 我々はこの問題に対処するための2つの簡単な解決策について議論する。 まず,データ拡張が一般化問題を解くことができないことを示す。 第2に,よりロバストなパッセージエンコーダは,特殊な質問エンコーダを用いた質問適応を促進する。 私たちは、さまざまな入力分布でうまく機能する、堅牢で普遍的な密集したレトリバーを作成するという課題に光を当てられることを願っています。

Open-domain question answering has exploded in popularity recently due to the success of dense retrieval models, which have surpassed sparse models using only a few supervised training examples. However, in this paper, we demonstrate current dense models are not yet the holy grail of retrieval. We first construct EntityQuestions, a set of simple, entity-rich questions based on facts from Wikidata (e.g., "Where was Arve Furset born?"), and observe that dense retrievers drastically underperform sparse methods. We investigate this issue and uncover that dense retrievers can only generalize to common entities unless the question pattern is explicitly observed during training. We discuss two simple solutions towards addressing this critical problem. First, we demonstrate that data augmentation is unable to fix the generalization problem. Second, we argue a more robust passage encoder helps facilitate better question adaptation using specialized question encoders. We hope our work can shed light on the challenges in creating a robust, universal dense retriever that works well across different input distributions.
翻訳日:2021-09-20 14:37:48 公開日:2021-09-17
# リアルタイム入札・勧告におけるオフライン強化学習の高速化:シミュレーションの可能性

Accelerating Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation ( http://arxiv.org/abs/2109.08331v1 )

ライセンス: Link先を確認
Haruka Kiyohara, Kosuke Kawakami, Yuta Saito(参考訳) オンライン広告のレコメンダシステム(recsys)とリアルタイム入札(rtb)では,バンディットと強化学習(rl)を用いた逐次意思決定の最適化を試みることが多い。 これらのアプリケーションでは、オフライン強化学習(オフラインrl)とオフポリシー評価(ope)は、オンラインインタラクションを危険にさらすことなくログデータのみを使用して安全なポリシー最適化を可能にするため、有用である。 本稿では,特にRecSys と RTB において,オフライン RL と OPE の実用的な研究を加速するためにシミュレーションを利用する可能性について検討する。 具体的には、シミュレーションがオフラインRLとOPEの実証的研究にどのように役立つかについて議論する。 我々は,オフラインRLとOPEの実証研究において,シミュレーションを効果的に活用すべきという立場を取る。 実世界のデータのみを使用した実験が望ましいという反論に対して,まず,実世界の実験における根本的なリスクと再現可能性の問題について指摘する。 次に,これらの課題をシミュレーションを用いて解決する方法について述べる。 さらに,実世界およびシミュレーションに基づく実験の利点を取り入れて,その立場を防御する方法を示す。 最後に、公開シミュレーションプラットフォームに関して、RecSysおよびRTBにおけるオフラインRLおよびOPEの実践的研究をさらに促進するためのオープンな課題を示す。 この問題の解決策として、現在進行中のオープンソースプロジェクトとその潜在的なユースケースを示します。 オフラインRLとOPEのためのシミュレーションベースの評価プラットフォームの構築と活用は、RecSysとRTBコミュニティにとって大きな関心と関係があると考えています。

In recommender systems (RecSys) and real-time bidding (RTB) for online advertisements, we often try to optimize sequential decision making using bandit and reinforcement learning (RL) techniques. In these applications, offline reinforcement learning (offline RL) and off-policy evaluation (OPE) are beneficial because they enable safe policy optimization using only logged data without any risky online interaction. In this position paper, we explore the potential of using simulation to accelerate practical research of offline RL and OPE, particularly in RecSys and RTB. Specifically, we discuss how simulation can help us conduct empirical research of offline RL and OPE. We take a position to argue that we should effectively use simulations in the empirical research of offline RL and OPE. To refute the counterclaim that experiments using only real-world data are preferable, we first point out the underlying risks and reproducibility issue in real-world experiments. Then, we describe how these issues can be addressed by using simulations. Moreover, we show how to incorporate the benefits of both real-world and simulation-based experiments to defend our position. Finally, we also present an open challenge to further facilitate practical research of offline RL and OPE in RecSys and RTB, with respect to public simulation platforms. As a possible solution for the issue, we show our ongoing open source project and its potential use case. We believe that building and utilizing simulation-based evaluation platforms for offline RL and OPE will be of great interest and relevance for the RecSys and RTB community.
翻訳日:2021-09-20 14:36:21 公開日:2021-09-17
# 垂直連合学習におけるモデルフェアネスの達成

Achieving Model Fairness in Vertical Federated Learning ( http://arxiv.org/abs/2109.08344v1 )

ライセンス: Link先を確認
Changxin Liu Zirui Zhou Yang Shi, Jian Pei, Lingyang Chu, Yong Zhang(参考訳) 重複しない機能を持つ複数の企業がプライベートデータやモデルパラメータを公開せずに機械学習モデルを強化できる垂直連合学習(VFL)が最近注目を集めている。 他の機械学習アルゴリズムと同様に、VFLは公平性の問題に悩まされる。 この問題に取り組むため,本研究では,公正なvflフレームワークを提案する。 まず,学習課題を制約付き最適化問題としてモデル化する,VFLにおける公正モデルトレーニングの問題を体系的に定式化する。 これを解決するために、同値な二重形式を考慮し、各データパーティが通信ラウンド毎に複数の並列化ローカル更新を実行し、通信ラウンドの数を効果的に削減する非同期勾配座標差上昇アルゴリズムを開発する。 このアルゴリズムは, 弱条件下での通信ラウンドにおいて, 二重目的物の$\delta$-stationary 点が$\mathcal{O}(\delta^{-4})$であることを示す。 最後に、3つのベンチマークデータセットに対する広範な実験により、フェアモデルのトレーニングにおいて、我々の手法の優れた性能を示す。

Vertical federated learning (VFL), which enables multiple enterprises possessing non-overlapped features to strengthen their machine learning models without disclosing their private data and model parameters, has received increasing attention lately. Similar to other machine learning algorithms, VFL suffers from fairness issues, i.e., the learned model may be unfairly discriminatory over the group with sensitive attributes. To tackle this problem, we propose a fair VFL framework in this work. First, we systematically formulate the problem of training fair models in VFL, where the learning task is modeled as a constrained optimization problem. To solve it in a federated manner, we consider its equivalent dual form and develop an asynchronous gradient coordinate-descent ascent algorithm, where each data party performs multiple parallelized local updates per communication round to effectively reduce the number of communication rounds. We prove that the algorithm finds a $\delta$-stationary point of the dual objective in $\mathcal{O}(\delta^{-4})$ communication rounds under mild conditions. Finally, extensive experiments on three benchmark datasets demonstrate the superior performance of our method in training fair models.
翻訳日:2021-09-20 14:35:50 公開日:2021-09-17
# 高精度, 解釈可能, 高速アニメーション: AnIterative, Sparse, Nonconvex Approach

Accurate, Interpretable, and Fast Animation: AnIterative, Sparse, and Nonconvex Approach ( http://arxiv.org/abs/2109.08356v1 )

ライセンス: Link先を確認
Stevo Rackovic, Claudia Soares, Dusan Jakovetic and Zoranka Desnica(参考訳) デジタル人間のアニメーションは、人間の顔の高品質な3Dモデルに依存している。 フェイスリグは正確でなければならず、同時に高速に計算できる。 最も一般的なリギングモデルのひとつがblendshapeモデルである。 顔アニメーションにおける非凸逆リグ問題を解くための新しいアルゴリズムを提案する。 我々のアプローチはモデルベースであるが、従来のモデルベースアプローチとは対照的に、高次リグモデルに対する線形近似の代わりに二次的手法を用いる。 これにより、ソリューションの精度が平均で8%向上し、経験的な結果によって確認されたことにより、結果のパラメータベクトルの空間性が向上する -- アニメーションアーティストによる解釈可能性の重要な特徴である。 提案手法は,空間正規化を伴う非凸制約問題に適用したレバンス・マルカート (LM) アルゴリズムに基づいている。 イテレートの複雑さを減らすために、さらに、メジャー化最小化(mm)のパラダイムが実行され、各アルゴリズムの反復でパラメータで分離可能な問題を解決するのが容易になる。 このアルゴリズムは,多数のアニメーションデータセット,プロプライエタリ,オープンソースで評価され,線形リグ近似に基づく標準的な手法と比較して,本手法の優位性を示す。 我々のアルゴリズムは特定の問題をターゲットにしているが、追加の信号処理アプリケーションがあるかもしれない。

Digital human animation relies on high-quality 3D models of the human face: rigs. A face rig must be accurate and, at the same time, fast to compute. One of the most common rigging models is the blendshape model. We propose a novel algorithm for solving the nonconvex inverse rig problem in facial animation. Our approach is model-based, but in contrast with previous model-based approaches, we use a quadratic instead of the linear approximation to the higher order rig model. This increases the accuracy of the solution by 8 percent on average and, confirmed by the empirical results, increases the sparsity of the resulting parameter vector -- an important feature for interpretability by animation artists. The proposed solution is based on a Levenberg-Marquardt (LM) algorithm, applied to a nonconvex constrained problem with sparsity regularization. In order to reduce the complexity of the iterates, a paradigm of Majorization Minimization (MM) is further invoked, which leads to an easy to solve problem that is separable in the parameters at each algorithm iteration. The algorithm is evaluated on a number of animation datasets, proprietary and open-source, and the results indicate the superiority of our method compared to the standard approach based on the linear rig approximation. Although our algorithm targets the specific problem, it might have additional signal processing applications.
翻訳日:2021-09-20 14:35:33 公開日:2021-09-17
# アリババの時系列売上予測のための知識誘導型トランスフォーマー

From Known to Unknown: Knowledge-guided Transformer for Time-Series Sales Forecasting in Alibaba ( http://arxiv.org/abs/2109.08381v1 )

ライセンス: Link先を確認
Xinyuan Qi, Hou Kai, Tong Liu, Zhongzhong Yu, Sihao Hu, Wenwu Ou(参考訳) 時系列予測(TSF)は、電力消費計画や販売予測など、多くの実世界のアプリケーションにおいて基本的に必要である。 電子商取引では、正確な時系列販売予測(TSSF)が経済的利益を著しく増大させる可能性がある。 eコマースにおけるTSSFは、何百万もの製品の将来の販売を予測することを目的としている。 商品の傾向と季節性は様々であり、プロモーション活動は販売に大きな影響を与えている。 上記の困難に加えて、歴史統計以外の将来的な知識も事前に知ることができる。 このような将来の知識は、将来のプロモーション活動が現在の売り上げに与える影響を反映し、より良い精度を達成するのに役立つかもしれない。 しかし、既存のtsf手法の多くは、歴史情報に基づいて未来を予測するだけである。 本研究は,今後の知識の欠落を補うものである。 予測のための将来の知識を導入する以外は、過去の情報、現在の要因、将来の知識を利用して将来の販売を予測する双方向トランスフォーマーに基づくAliformerを提案する。 具体的には,知識の一貫性を活かし,タイミング情報の伝達を誘導する知識誘導型セルフアテンション層を設計する。 また,将来的な知識の活用に重きを置くために,将来重視のトレーニング戦略を提案する。 4つの公開ベンチマークデータセットとtmallから提案された大規模産業データセットに関する広範囲な実験により、aliformerは最先端のtsfメソッドよりも優れた性能を発揮することが示されている。 aliformerはtmall産業テーブルワークで商品選択のためにデプロイされ、データセットは承認次第リリースされる。

Time series forecasting (TSF) is fundamentally required in many real-world applications, such as electricity consumption planning and sales forecasting. In e-commerce, accurate time-series sales forecasting (TSSF) can significantly increase economic benefits. TSSF in e-commerce aims to predict future sales of millions of products. The trend and seasonality of products vary a lot, and the promotion activity heavily influences sales. Besides the above difficulties, we can know some future knowledge in advance except for the historical statistics. Such future knowledge may reflect the influence of the future promotion activity on current sales and help achieve better accuracy. However, most existing TSF methods only predict the future based on historical information. In this work, we make up for the omissions of future knowledge. Except for introducing future knowledge for prediction, we propose Aliformer based on the bidirectional Transformer, which can utilize the historical information, current factor, and future knowledge to predict future sales. Specifically, we design a knowledge-guided self-attention layer that uses known knowledge's consistency to guide the transmission of timing information. And the future-emphasized training strategy is proposed to make the model focus more on the utilization of future knowledge. Extensive experiments on four public benchmark datasets and one proposed large-scale industrial dataset from Tmall demonstrate that Aliformer can perform much better than state-of-the-art TSF methods. Aliformer has been deployed for goods selection on Tmall Industry Tablework, and the dataset will be released upon approval.
翻訳日:2021-09-20 14:35:14 公開日:2021-09-17
# データクラスタリングにおける識別的類似性

Discriminative Similarity for Data Clustering ( http://arxiv.org/abs/2109.08675v1 )

ライセンス: Link先を確認
Yingzhen Yang, Ping Li(参考訳) 類似度に基づくクラスタリング手法は、データ間のペアの類似度に応じて、データをクラスタに分離する。 本稿では,データクラスタリングにおける識別的類似性を学ぶ新しい手法である判別的類似性(cds)によるクラスタリングを提案する。 CDSは、各データパーティションから教師なし類似性に基づく分類器を学習し、データパーティションに関連する学習された分類器の一般化誤差を最小限にして、データの最適分割を探索する。 ラデマッハ複雑性による一般化解析により、教師なし類似性に基づく分類器の一般化誤差は、異なるクラスのデータ間の識別的類似性の和として表される。 導出した識別的類似性は、カーネル密度分類のための統合二乗誤差によっても引き起こせることが証明された。 提案する識別的類似性の性能を評価するために, カーネルを類似関数として用いた新たなクラスタリング法, 教師なしカーネル分類(CDSK)によるCDSを提案する。

Similarity-based clustering methods separate data into clusters according to the pairwise similarity between the data, and the pairwise similarity is crucial for their performance. In this paper, we propose Clustering by Discriminative Similarity (CDS), a novel method which learns discriminative similarity for data clustering. CDS learns an unsupervised similarity-based classifier from each data partition, and searches for the optimal partition of the data by minimizing the generalization error of the learnt classifiers associated with the data partitions. By generalization analysis via Rademacher complexity, the generalization error bound for the unsupervised similarity-based classifier is expressed as the sum of discriminative similarity between the data from different classes. It is proved that the derived discriminative similarity can also be induced by the integrated squared error bound for kernel density classification. In order to evaluate the performance of the proposed discriminative similarity, we propose a new clustering method using a kernel as the similarity function, CDS via unsupervised kernel classification (CDSK), with its effectiveness demonstrated by experimental results.
翻訳日:2021-09-20 14:34:50 公開日:2021-09-17
# ThriftyDAgger: インタラクティブな模倣学習のためのノベルティとリスクゲーティング

ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive Imitation Learning ( http://arxiv.org/abs/2109.08273v1 )

ライセンス: Link先を確認
Ryan Hoque, Ashwin Balakrishna, Ellen Novoseller, Albert Wilcox, Daniel S. Brown, Ken Goldberg(参考訳) 効果的なロボット学習は、しばしばオンラインの人間からのフィードバックと介入を必要とする。これは、対話的な模倣学習における中心的な課題を生じさせる: 人間の監督者に対する学習の促進と負担の制限の両方に、介入のタイミングと長さを制御することは可能か? 本稿では,人的介入を希望する予算を与えられた人的監督者に対して積極的に問合せを行うアルゴリズムであるthriftydaggerを提案する。 ThriftyDAgger は,(1) ロボットが模倣する参照行動を持たない,あるいは(2) ロボットがタスク完了に対する信頼度が低い,新規な状態においてのみ介入を要請するために,学習されたスイッチングポリシを使用する。 後者を検出するために,現状のロボット政策の下でリスクを推定する新しい指標を提案する。 シミュレーション実験と物理的ケーブルルーティング実験により,ThriftyDAggerの介入基準は,従来のアルゴリズムよりも効率よくタスク性能とオーバヘッド負荷のバランスをとることが示唆された。 ThriftyDAggerは実行時にも適用でき、シミュレーションと物理タスクの両方で100%の成功率を達成することができる。 また,ThriftyDAggerは,3ロボット群を制御しながら集中作業を行うユーザスタディ (N=10) により,次の最良アルゴリズムと比較して,人間とロボットのパフォーマンスを58%,ロボットを80%向上させ,オーバヘッド負担を軽減した。

Effective robot learning often requires online human feedback and interventions that can cost significant human time, giving rise to the central challenge in interactive imitation learning: is it possible to control the timing and length of interventions to both facilitate learning and limit burden on the human supervisor? This paper presents ThriftyDAgger, an algorithm for actively querying a human supervisor given a desired budget of human interventions. ThriftyDAgger uses a learned switching policy to solicit interventions only at states that are sufficiently (1) novel, where the robot policy has no reference behavior to imitate, or (2) risky, where the robot has low confidence in task completion. To detect the latter, we introduce a novel metric for estimating risk under the current robot policy. Experiments in simulation and on a physical cable routing experiment suggest that ThriftyDAgger's intervention criteria balances task performance and supervisor burden more effectively than prior algorithms. ThriftyDAgger can also be applied at execution time, where it achieves a 100% success rate on both the simulation and physical tasks. A user study (N=10) in which users control a three-robot fleet while also performing a concentration task suggests that ThriftyDAgger increases human and robot performance by 58% and 80% respectively compared to the next best algorithm while reducing supervisor burden.
翻訳日:2021-09-20 14:34:32 公開日:2021-09-17
# 動的ロボットシナリオのための効率的な状態表現学習

Efficient State Representation Learning for Dynamic Robotic Scenarios ( http://arxiv.org/abs/2109.08642v1 )

ライセンス: Link先を確認
Zhaorun Chen, Liang Gong, Te Sun, Binhao Chen, Shenghan Xie, David Filliat and Natalia D\'iaz-Rodr\'iguez(参考訳) ディープラーニングの急速な進歩は、エンドツーエンドの強化学習(RL)を加速させるが、特にロボットシナリオのような高次元空間での直接適用は、高いサンプル効率に悩まされている。 そのため、複雑な感覚データから低次元状態へのタスク関連特徴の符号化を特に学習するために、状態表現学習(SRL)を提案する。 しかし、SRLの広範な実装は通常、観測状態マッピングを別々に学習する分離戦略によって行われるため、過度に適合しがちである。 このような問題に対処するために、SRLを元のRLスケールに統合する抽象表現によるポリシー最適化という新しいアルゴリズムを提案する。 まず、SRLモデルの更新を支援するためにRL損失に取り組み、強化学習の需要を満たすために州が進化できるようにし、良好な物理的解釈を維持する。 次に,両モデルが効率的に適応できるように,動的パラメータ調整機構を導入する。 第3に、SRLモデルのトレーニングに専門家によるデモンストレーションを活用するために、ドメイン類似と呼ばれる新しい先行モデルを導入する。 最後に、学習過程を監視するために状態グラフによるリアルタイムアクセスを提供する。 その結果,本アルゴリズムは,サンプル効率と最終報酬の観点から,PPOのベースラインとデカップリング戦略よりも優れていた。 そこで本モデルは,高次元のタスクを効率的に処理し,スクラッチから直接実生活ロボットの訓練を容易にする。

While the rapid progress of deep learning fuels end-to-end reinforcement learning (RL), direct application, especially in high-dimensional space like robotic scenarios still suffers from high sample efficiency. Therefore State Representation Learning (SRL) is proposed to specifically learn to encode task-relevant features from complex sensory data into low-dimensional states. However, the pervasive implementation of SRL is usually conducted by a decoupling strategy in which the observation-state mapping is learned separately, which is prone to over-fit. To handle such problem, we present a new algorithm called Policy Optimization via Abstract Representation which integrates SRL into the original RL scale. Firstly, We engage RL loss to assist in updating SRL model so that the states can evolve to meet the demand of reinforcement learning and maintain a good physical interpretation. Secondly, we introduce a dynamic parameter adjustment mechanism so that both models can efficiently adapt to each other. Thirdly, we introduce a new prior called domain resemblance to leverage expert demonstration to train the SRL model. Finally, we provide a real-time access by state graph to monitor the course of learning. Results show that our algorithm outperforms the PPO baselines and decoupling strategies in terms of sample efficiency and final rewards. Thus our model can efficiently deal with tasks in high dimensions and facilitate training real-life robots directly from scratch.
翻訳日:2021-09-20 14:34:04 公開日:2021-09-17
# LoGG3D-Net:3D位置認識のためのローカルガイド付きグローバルディスクリプタ学習

LoGG3D-Net: Locally Guided Global Descriptor Learning for 3D Place Recognition ( http://arxiv.org/abs/2109.08336v1 )

ライセンス: Link先を確認
Kavisha Vidanapathirana, Milad Ramezani, Peyman Moghadam, Sridha Sridharan, Clinton Fookes(参考訳) 検索に基づく位置認識は,構築済みの地図やslam(global data association for concurrent localization and mapping)内で再局在化を実現するための効率的かつ効果的なソリューションである。 このようなアプローチの精度は、抽出されたシーンレベルの表現の品質に大きく依存する。 入力ポイントクラウドからグローバルディスクリプタを学習するエンドツーエンドソリューションは、有望な結果を示しているが、そのようなアプローチは、ローカルな特徴レベルで望ましいプロパティを強制する能力に制限されている。 本稿では,追加の訓練信号(局所的一貫性損失)の導入により,再訪者間で一貫性のある局所的特徴の学習をネットワークに誘導できることを実証する。 私たちは、LoGG3D-Netと呼ばれるエンドツーエンドのトレーニング可能なアーキテクチャでアプローチを定式化します。 2つの大規模公開ベンチマーク (KITTI と MulRan) 実験により,我々の手法は,ほぼリアルタイムに動作しながら,平均$F1_{max}$スコアが0.939$と$0.968$であることを示す。

Retrieval-based place recognition is an efficient and effective solution for enabling re-localization within a pre-built map or global data association for Simultaneous Localization and Mapping (SLAM). The accuracy of such an approach is heavily dependent on the quality of the extracted scene-level representation. While end-to-end solutions, which learn a global descriptor from input point clouds, have demonstrated promising results, such approaches are limited in their ability to enforce desirable properties at the local feature level. In this paper, we demonstrate that the inclusion of an additional training signal (local consistency loss) can guide the network to learning local features which are consistent across revisits, hence leading to more repeatable global descriptors resulting in an overall improvement in place recognition performance. We formulate our approach in an end-to-end trainable architecture called LoGG3D-Net. Experiments on two large-scale public benchmarks (KITTI and MulRan) show that our method achieves mean $F1_{max}$ scores of $0.939$ and $0.968$ on KITTI and MulRan, respectively while operating in near real-time.
翻訳日:2021-09-20 14:32:57 公開日:2021-09-17
# Transformer-Unet:Une tによる生画像処理

Transformer-Unet: Raw Image Processing with Unet ( http://arxiv.org/abs/2109.08417v1 )

ライセンス: Link先を確認
Youyang Sha, Yonghong Zhang, Xuquan Ji and Lei Hu(参考訳) 医用画像のセグメンテーションは, バイオメディカル画像解析において重要な役割を担っている。 良好なセグメンテーションの結果は、医師の判断を助け、患者の経験をさらに改善することができる。 医療画像分析で利用可能な多くのパイプラインの中で、Unetはエンコーダとデコーダの結合を追加することで生の機能を維持できるため、最も人気のあるニューラルネットワークの1つである。 平均すると、自然言語処理タスクを支配する人気モデルとして、トランスフォーマーがコンピュータビジョンタスクに導入され、オブジェクト検出、画像分類、セマンティックセグメンテーションタスクにおいて有望な結果が見られた。 したがって、トランスフォーマーとunetの組み合わせは、個別に働く両方の方法よりも効率的であるはずである。 本稿では,unetの機能マップの代わりにrawイメージにトランスフォーマーモジュールを追加することでトランスフォーマー不均一性を提案し,それに応じてct82データセットでネットワークをテストする。 実験では、エンド・ツー・エンドのネットワークを形成し、従来の多くのunetベースのアルゴリズムよりもセグメンテーション結果を得る。 本論文では,我々のネットワークを実証し,実験結果を示す。

Medical image segmentation have drawn massive attention as it is important in biomedical image analysis. Good segmentation results can assist doctors with their judgement and further improve patients' experience. Among many available pipelines in medical image analysis, Unet is one of the most popular neural networks as it keeps raw features by adding concatenation between encoder and decoder, which makes it still widely used in industrial field. In the mean time, as a popular model which dominates natural language process tasks, transformer is now introduced to computer vision tasks and have seen promising results in object detection, image classification and semantic segmentation tasks. Therefore, the combination of transformer and Unet is supposed to be more efficient than both methods working individually. In this article, we propose Transformer-Unet by adding transformer modules in raw images instead of feature maps in Unet and test our network in CT82 datasets for Pancreas segmentation accordingly. We form an end-to-end network and gain segmentation results better than many previous Unet based algorithms in our experiment. We demonstrate our network and show our experimental results in this paper accordingly.
翻訳日:2021-09-20 14:32:31 公開日:2021-09-17
# LOF:光フローに基づく構造認識線追跡

LOF: Structure-Aware Line Tracking based on Optical Flow ( http://arxiv.org/abs/2109.08466v1 )

ライセンス: Link先を確認
Meixiang Quan, Zheng Chai, Xiao Liu(参考訳) 線は点よりも環境に関する幾何的な情報を提供するため、最近の視覚オドメトリー(vo)では線が広く使われている。 線付きVOは線追跡結果を用いて探索とマップを行うため、VOでは線追跡が重要な要素である。 最先端の線追跡手法は大きな進歩を遂げているが,線検出や予測線分に依存している。 本稿では,上述の依存性を緩和し,計算効率の高い線分を完全かつ正確かつ堅牢に追跡するために,光フロー(lof)に基づく構造認識線追跡アルゴリズムを提案する。 まず,線形光フロー計算に適した線上に画素をサンプリングする勾配に基づく手法を提案する。 そこで, サンプル点間の構造的関係を十分に活用し, 他の対象が占有する点に対するサンプル点の影響を効果的に除去し, 2段階構造認識線分アライメント法を提案する。 さらに,アライメントラインセグメントの向き,位置,エンドポイントを洗練するためのラインリファインメント手法を提案する。 提案したLOFは, ライントラッキング精度, 堅牢性, 効率において最先端性能を向上し, また, ライン付きVOシステムの位置精度とロバスト性も向上することを示した。

Lines provide the significantly richer geometric structural information about the environment than points, so lines are widely used in recent Visual Odometry (VO) works. Since VO with lines use line tracking results to locate and map, line tracking is a crucial component in VO. Although the state-of-the-art line tracking methods have made great progress, they are still heavily dependent on line detection or the predicted line segments. In order to relieve the dependencies described above to track line segments completely, accurately, and robustly at higher computational efficiency, we propose a structure-aware Line tracking algorithm based entirely on Optical Flow (LOF). Firstly, we propose a gradient-based strategy to sample pixels on lines that are suitable for line optical flow calculation. Then, in order to align the lines by fully using the structural relationship between the sampled points on it and effectively removing the influence of sampled points on it occluded by other objects, we propose a two-step structure-aware line segment alignment method. Furthermore, we propose a line refinement method to refine the orientation, position, and endpoints of the aligned line segments. Extensive experimental results demonstrate that the proposed LOF outperforms the state-of-the-art performance in line tracking accuracy, robustness, and efficiency, which also improves the location accuracy and robustness of VO system with lines.
翻訳日:2021-09-20 14:32:13 公開日:2021-09-17
# テンポラルアンサーセットプログラミングのためのオートマタ技術

Automata Techniques for Temporal Answer Set Programming ( http://arxiv.org/abs/2109.08279v1 )

ライセンス: Link先を確認
Susana Hahn(参考訳) 解集合プログラミング(asp)の時間的および動的拡張は動的問題に対処する上で重要な役割を果たす。 私のPh.D.研究では、オートマタ理論と動的論理の関係を利用して、ASPソルバClingOにオートマタベースの技術を加えることで、この種の問題に対処します。

Temporal and dynamic extensions of Answer Set Programming (ASP) have played an important role in addressing dynamic problems, as they allow the use of temporal operators to reason with dynamic scenarios in a very effective way. In my Ph.D. research, I intend to exploit the relationship between automata theory and dynamic logic to add automata-based techniques to the ASP solver CLINGO helping us to deal with theses type of problems.
翻訳日:2021-09-20 14:31:49 公開日:2021-09-17
# 解集合プログラミングの定量的およびストリーム拡張

Quantitative and Stream Extensions of Answer Set Programming ( http://arxiv.org/abs/2109.08281v1 )

ライセンス: Link先を確認
Rafael Kiesel (Vienna University of Technology)(参考訳) 解答セットプログラミングは、制約、ストリーミングドメイン、および解答セットに関連する量について推論する機能によって別々に拡張されている。 本稿では,論理と重み付け論理の強みを生かして,拡張の3つの方向をすべて組み込んだ汎用フレームワークの導入と解析を行う。

Answer Set Programming has separately been extended with constraints, to the streaming domain, and with capabilities to reason over the quantities associated with answer sets. We propose the introduction and analysis of a general framework that incorporates all three directions of extension by exploiting the strengths of Here-and-There Logic and Weighted Logic.
翻訳日:2021-09-20 14:31:40 公開日:2021-09-17
# Carl-Lead: 対照的な深層強化学習によるライダーによるエンドツーエンド自動運転

Carl-Lead: Lidar-based End-to-End Autonomous Driving with Contrastive Deep Reinforcement Learning ( http://arxiv.org/abs/2109.08473v1 )

ライセンス: Link先を確認
Peide Cai, Sukai Wang, Hengli Wang, Ming Liu(参考訳) 非規制交差点における都市群集の自律運転は困難であり、他の車両の動的な閉塞や不確かさを慎重に考慮すべきである。 従来の手法はヒューリスティックであり、手作りのルールとパラメータに基づいているが、新しい状況ではスケールが貧弱である。 したがって、すべての予測可能なシナリオでルールを設計、維持するために高い労働コストを必要とする。 近年,深部強化学習(DRL)は都市交通のシナリオにおいて有望な成果を上げている。 しかし、DRLはサンプル非効率であることが知られており、これまでのほとんどの研究は、騒音や閉塞を考慮せずに、地上のトラックの位置や車両の動きなどの完全な観測を前提としている。 本研究では、DRLを用いて、不完全な部分観察を自然に考慮するライダーベースのエンドツーエンド駆動ポリシーを訓練する。 さらに,教師なしのコントラスト表現学習を補助タスクとして活用し,サンプル効率を向上させる。 比較評価の結果,本手法は最新lidar(sota)のエンド・ツー・エンド運転ネットワークよりも高い成功率を達成し,注意深く調整したルールベース方式よりも安全性と効率性が向上し,ベースラインよりも新しいシナリオへの一般化が図られた。 デモビデオはhttps://caipeide.git hub.io/carl-lead/で見ることができる。

Autonomous driving in urban crowds at unregulated intersections is challenging, where dynamic occlusions and uncertain behaviors of other vehicles should be carefully considered. Traditional methods are heuristic and based on hand-engineered rules and parameters, but scale poorly in new situations. Therefore, they require high labor cost to design and maintain rules in all foreseeable scenarios. Recently, deep reinforcement learning (DRL) has shown promising results in urban driving scenarios. However, DRL is known to be sample inefficient, and most previous works assume perfect observations such as ground-truth locations and motions of vehicles without considering noises and occlusions, which might be a too strong assumption for policy deployment. In this work, we use DRL to train lidar-based end-to-end driving policies that naturally consider imperfect partial observations. We further use unsupervised contrastive representation learning as an auxiliary task to improve the sample efficiency. The comparative evaluation results reveal that our method achieves higher success rates than the state-of-the-art (SOTA) lidar-based end-to-end driving network, better trades off safety and efficiency than the carefully tuned rule-based method, and generalizes better to new scenarios than the baselines. Demo videos are available at https://caipeide.git hub.io/carl-lead/.
翻訳日:2021-09-20 14:31:33 公開日:2021-09-17
# レベルセットかグラデーションラインか? モーダルクラスタリングの統一的視点

Level Sets or Gradient Lines? A Unifying View of Modal Clustering ( http://arxiv.org/abs/2109.08362v1 )

ライセンス: Link先を確認
Ery Arias-Castro and Wanli Qiao(参考訳) 本稿は,1970年代に出現した2つの重要なクラスタリング手法と,ハルディガンが提唱したレベルセットやクラスタツリーによるクラスタリングと,福永とホステラーが提唱した勾配線や勾配流によるクラスタリングの2つの重要な対応性を確立する。

The paper establishes a strong correspondence, if not an equivalence, between two important clustering approaches that emerged in the 1970's: clustering by level sets or cluster tree as proposed by Hartigan and clustering by gradient lines or gradient flow as proposed by Fukunaga and Hosteler.
翻訳日:2021-09-20 14:30:42 公開日:2021-09-17
# Cram\'er-Rao および van Tree を用いた LTI 状態空間モデルに対する非漸近推定下界

Non asymptotic estimation lower bounds for LTI state space models with Cram\'er-Rao and van Trees ( http://arxiv.org/abs/2109.08582v1 )

ライセンス: Link先を確認
Boualem Djehiche and Othmane Mazhar(参考訳) 未知の共分散のガウス励起を持つ線形時間不変(LTI)状態空間モデルに対する推定問題について検討する。 予測推定誤差と最小二乗推定器の平均二乗推定リスクと最小二乗推定リスクに対して漸近的でない下界を与える。 これらの境界は、動力学の行列が単位円上に固有値を持たないとき、明示的な定数でシャープであり、その場合のレート最適である。 提案手法は, 平均二乗推定リスクと一般騒音共分散系を想定し, 既存の下限を下限まで拡張し, 改善する。 我々の導出には、共変数の対応する乗算過程に対する再スケールサンプルの共分散と偏差に対する新しい濃度結果、小さなフィッシャー情報の単位作用素球上の事前の微分幾何学的構成、行列値推定器へのCram\'er-Raoとvan Treesinequalityの拡張が含まれる。

We study the estimation problem for linear time-invariant (LTI) state-space models with Gaussian excitation of an unknown covariance. We provide non asymptotic lower bounds for the expected estimation error and the mean square estimation risk of the least square estimator, and the minimax mean square estimation risk. These bounds are sharp with explicit constants when the matrix of the dynamics has no eigenvalues on the unit circle and are rate-optimal when they do. Our results extend and improve existing lower bounds to lower bounds in expectation of the mean square estimation risk and to systems with a general noise covariance. Instrumental to our derivation are new concentration results for rescaled sample covariances and deviation results for the corresponding multiplication processes of the covariates, a differential geometric construction of a prior on the unit operator ball of small Fisher information, and an extension of the Cram\'er-Rao and van Treesinequalities to matrix-valued estimators.
翻訳日:2021-09-20 14:30:34 公開日:2021-09-17
# 忘れがたいこと: 認定マシンアンラーニングに対する毒殺攻撃

Hard to Forget: Poisoning Attacks on Certified Machine Unlearning ( http://arxiv.org/abs/2109.08266v1 )

ライセンス: Link先を確認
Neil G. Marchant, Benjamin I. P. Rubinstein, Scott Alfeld(参考訳) 消去する権利は、学習モデルのような下流製品に広がる厳格な解釈によって、組織が保持するデータからユーザーの情報を削除することを必要とする。 特定のユーザのデータをスクラッチから再トレーニングすることで、結果モデルへの影響は完全に排除されるが、高い計算コストが伴う。 マシン"アンラーニング"は、完全な再トレーニングによって発生するコストを軽減します。代わりに、モデルは漸進的に更新されます。 未学習モデルと再訓練モデルの区別不能性に関するプライバシの保証に向けて急速に進歩してきたが、現在の形式化は計算に実用的な限界をもたらさない。 本稿では,攻撃者がこの監視をいかに活用できるかを実証し,機械学習によって導入された新しい攻撃面を強調する。 我々は,データ削除の計算コストを増大させようとする攻撃者を考える。 戦略的に設計されたトレーニングデータが削除時に完全に再トレーニングをトリガーする、認定されたマシンアンラーニングに対する毒殺攻撃を導出し、実証的に調査する。

The right to erasure requires removal of a user's information from data held by organizations, with rigorous interpretations extending to downstream products such as learned models. Retraining from scratch with the particular user's data omitted fully removes its influence on the resulting model, but comes with a high computational cost. Machine "unlearning" mitigates the cost incurred by full retraining: instead, models are updated incrementally, possibly only requiring retraining when approximation errors accumulate. Rapid progress has been made towards privacy guarantees on the indistinguishability of unlearned and retrained models, but current formalisms do not place practical bounds on computation. In this paper we demonstrate how an attacker can exploit this oversight, highlighting a novel attack surface introduced by machine unlearning. We consider an attacker aiming to increase the computational cost of data removal. We derive and empirically investigate a poisoning attack on certified machine unlearning where strategically designed training data triggers complete retraining when removed.
翻訳日:2021-09-20 14:29:56 公開日:2021-09-17
# 移動モード検出のためのオープンGPSトラジェクトリデータセットとベンチマーク

An open GPS trajectory dataset and benchmark for travel mode detection ( http://arxiv.org/abs/2109.08527v1 )

ライセンス: Link先を確認
Jinyu Chen, Haoran Zhang, Xuan Song, Ryosuke Shibasaki(参考訳) トラベルモード検出はGPS軌道関連処理の分野でホットな話題となっている。 古い学者は検出の精度を向上させるために多くの数学的方法を開発した。 これらの研究のうち、ほとんど全ての方法がトレーニングのために基礎的真理データセットを必要とする。 多くの研究は、カスタマイズされた方法でトレーニングのためにGPSトラジェクトリデータセットを収集することを選択している。 現在、トラベルモードでマークされたオープンGPSデータセットは存在しない。 もし存在するなら、モデル開発における多くの労力を節約するだけでなく、モデルの性能を比較するのにも役立ちます。 本研究では,旅行モードと移動モード検出のためのベンチマークでマークされたGPSトラジェクトリデータセットを提案する。 データセットは、日本で7人のボランティアが収集し、1ヶ月の期間をカバーする。 交通モードは徒歩から鉄道まで様々である。 ルーチンの一部は、異なる時間帯で繰り返され、異なる道路や旅行条件を経験する。 大規模GPSトラジェクトリデータセットにおける歩行と自転車の走行を区別するためのケーススタディも提供する。

Travel mode detection has been a hot topic in the field of GPS trajectory-related processing. Former scholars have developed many mathematical methods to improve the accuracy of detection. Among these studies, almost all of the methods require ground truth dataset for training. A large amount of the studies choose to collect the GPS trajectory dataset for training by their customized ways. Currently, there is no open GPS dataset marked with travel mode. If there exists one, it will not only save a lot of efforts in model developing, but also help compare the performance of models. In this study, we propose and open GPS trajectory dataset marked with travel mode and benchmark for the travel mode detection. The dataset is collected by 7 independent volunteers in Japan and covers the time period of a complete month. The travel mode ranges from walking to railway. A part of routines are traveled repeatedly in different time slots to experience different road and travel conditions. We also provide a case study to distinguish the walking and bike trips in a massive GPS trajectory dataset.
翻訳日:2021-09-20 14:29:37 公開日:2021-09-17
# マルチロボットナビゲーションのための分散グローバル接続メンテナンス:強化学習アプローチ

Decentralized Global Connectivity Maintenance for Multi-Robot Navigation: A Reinforcement Learning Approach ( http://arxiv.org/abs/2109.08536v1 )

ライセンス: Link先を確認
Minghao Li, Yingrui Jie, Yang Kong, Hui Cheng(参考訳) 接続性維持のためのマルチロボットナビゲーションの問題は、マルチロボットアプリケーションでは難しい。 この研究は、接続を維持しながら未知の環境でマルチロボットチームをナビゲートする方法を調査します。 複数のロボット間で共有される分散型ポリシーを開発するための強化学習(RL)手法を提案する。 距離センサーと他のロボットの位置を考慮し、ナビゲーションの制御コマンドを生成し、ロボットチームのグローバルな接続性を維持することを目的としている。 我々は、制約としてRLフレームワークに接続性に関する懸念を組み込み、ポリシー最適化の探索複雑性を低減するために行動クローニングを導入する。 このポリシーは、ランダムなシミュレーションシナリオで複数のロボットが収集したすべての遷移データを最適化する。 接続制約と行動クローニングの異なる組み合わせを比較することで,提案手法の有効性を検証した。 また,シミュレーションとホロノミックロボット実験の両方において,我々の方針が未知のシナリオに一般化できることを示した。

The problem of multi-robot navigation of connectivity maintenance is challenging in multi-robot applications. This work investigates how to navigate a multi-robot team in unknown environments while maintaining connectivity. We propose a reinforcement learning (RL) approach to develop a decentralized policy, which is shared among multiple robots. Given range sensor measurements and the positions of other robots, the policy aims to generate control commands for navigation and preserve the global connectivity of the robot team. We incorporate connectivity concerns into the RL framework as constraints and introduce behavior cloning to reduce the exploration complexity of policy optimization. The policy is optimized with all transition data collected by multiple robots in random simulated scenarios. We validate the effectiveness of the proposed approach by comparing different combinations of connectivity constraints and behavior cloning. We also show that our policy can generalize to unseen scenarios in both simulation and holonomic robots experiments.
翻訳日:2021-09-20 14:29:24 公開日:2021-09-17
# 定量化による未知視下での公正度測定

Measuring Fairness under Unawareness via Quantification ( http://arxiv.org/abs/2109.08549v1 )

ライセンス: Link先を確認
Alessandro Fabris, Andrea Esuli, Alejandro Moreo, Fabrizio Sebastiani(参考訳) 教師付き学習によって訓練されたモデルは、ハイテイクな領域にますます展開され、予測が人々に関する決定を知らせると、必然的に(肯定的または否定的に)彼らの生活に影響を及ぼす。 結果として、これらのモデルを開発する担当者は、異なる集団に対する彼らの影響を慎重に評価し、人種や性別などのセンシティブな人口特性が特定のグループのメンバーに不公平な処置を与えないことを保証する必要がある。 これを行うためには、モデルの影響を評価する部分における人口統計特性の認識が不可欠である。 残念ながら、これらの属性の収集は、データ最小化とプライバシに関する業界慣行や法律と矛盾することが多い。 このような理由から、トレーニングされたモデルのグループフェアネスを測定するのは難しいかもしれません。 本研究では,グループレベルの有病率推定を直接提供することを目的とした教師あり学習課題である定量化の手法を用いて,センシティブな属性の無意識下でのグループフェアネスを測定する問題に取り組む。 グループフェアネスの推定を無意識で複雑にし,それらを5つの異なる実験プロトコルに形式化し,グループフェアネスの異なる推定器の有効性を評価する。 また, 個人レベルで機密属性を推測する潜在的なモデル誤用の問題を検討し, 定量化アプローチが, 個人の機密属性を推論する(望ましくない)目的から集団フェアネスを測定する(望ましくない)目的を分離するのに適していることを示す。

Models trained by means of supervised learning are increasingly deployed in high-stakes domains, and, when their predictions inform decisions about people, they inevitably impact (positively or negatively) on their lives. As a consequence, those in charge of developing these models must carefully evaluate their impact on different groups of people and ensure that sensitive demographic attributes, such as race or sex, do not result in unfair treatment for members of specific groups. For doing this, awareness of demographic attributes on the part of those evaluating model impacts is fundamental. Unfortunately, the collection of these attributes is often in conflict with industry practices and legislation on data minimization and privacy. For this reason, it may be hard to measure the group fairness of trained models, even from within the companies developing them. In this work, we tackle the problem of measuring group fairness under unawareness of sensitive attributes, by using techniques from quantification, a supervised learning task concerned with directly providing group-level prevalence estimates (rather than individual-level class labels). We identify five important factors that complicate the estimation of fairness under unawareness and formalize them into five different experimental protocols under which we assess the effectiveness of different estimators of group fairness. We also consider the problem of potential model misuse to infer sensitive attributes at an individual level, and demonstrate that quantification approaches are suitable for decoupling the (desirable) objective of measuring group fairness from the (undesirable) objective of inferring sensitive attributes of individuals.
翻訳日:2021-09-20 14:29:09 公開日:2021-09-17
# ニューラルネットワークを用いたリアルタイムロボット遠隔操作のためのライダージェスチャー認識

Neural Network Based Lidar Gesture Recognition for Realtime Robot Teleoperation ( http://arxiv.org/abs/2109.08263v1 )

ライセンス: Link先を確認
Simon Chamorro, Jack Collier, Fran\c{c}ois Grondin(参考訳) 動作変動に頑健な移動ロボット制御のための,低複雑さなライダージェスチャー認識システムを提案する。 本システムでは,ポーズ推定モジュールとジェスチャ分類器からなるモジュラーアプローチを採用している。 既存のステレオベースポーズ推定システムを用いて訓練された畳み込みニューラルネットワークを用いて、ライダースキャンからポーズ推定を推定する。 ジェスチャー分類はLong Short-Term Memory Networkを用いて行われ、推定された身体ポーズのシーケンスを入力としてジェスチャーを予測する。 パイプラインを2つのモジュールに分割することで,ライダースキャンやステレオ画像,あるいはボディキーポイントを抽出できる任意のモダリティといった,入力の次元性が低減される。 lidarの使用はシステムの堅牢性に寄与し、ほとんどの屋外環境で動作し、照明条件とは無関係であり、ロボットの周囲360度の入力を検出することができる。 lidarベースのポーズ推定器とジェスチャー分類器は、データ拡張と自動ラベリング技術を使用し、最小限のデータ収集を必要とし、手動ラベリングの必要性を避ける。 本システムの各モジュールについて実験結果を報告し,実世界のロボット遠隔操作環境でテストすることでその効果を実証する。

We propose a novel low-complexity lidar gesture recognition system for mobile robot control robust to gesture variation. Our system uses a modular approach, consisting of a pose estimation module and a gesture classifier. Pose estimates are predicted from lidar scans using a Convolutional Neural Network trained using an existing stereo-based pose estimation system. Gesture classification is accomplished using a Long Short-Term Memory network and uses a sequence of estimated body poses as input to predict a gesture. Breaking down the pipeline into two modules reduces the dimensionality of the input, which could be lidar scans, stereo imagery, or any other modality from which body keypoints can be extracted, making our system lightweight and suitable for mobile robot control with limited computing power. The use of lidar contributes to the robustness of the system, allowing it to operate in most outdoor conditions, to be independent of lighting conditions, and for input to be detected 360 degrees around the robot. The lidar-based pose estimator and gesture classifier use data augmentation and automated labeling techniques, requiring a minimal amount of data collection and avoiding the need for manual labeling. We report experimental results for each module of our system and demonstrate its effectiveness by testing it in a real-world robot teleoperation setting.
翻訳日:2021-09-20 14:28:43 公開日:2021-09-17
# 強化学習による産業用iot機器の協調的ランダムアクセス

Coordinated Random Access for Industrial IoT With Correlated Traffic By Reinforcement-Learni ng ( http://arxiv.org/abs/2109.08389v1 )

ライセンス: Link先を確認
Alberto Rech, Stefano Tomasin(参考訳) 本稿では,産業用インターネット・オブ・シング(iiot)シナリオのための協調型ランダムアクセス方式を提案する。 これは例えば、外部イベントが複数のMTDで同時にデータ生成をトリガーする時に発生する。 タイムはフレームに分割され、それぞれスロットに分割され、各MTDは、MTDと現在の再送信数の両方に固有の確率密度関数(PDF)を持つ1つのスロットをランダムに選択する。 PDFはパケット衝突の確率を最小限に抑えるためにローカルに最適化されている。 最適化問題は、不完全情報を持つ繰り返しマルコフゲームとしてモデル化され、各MTDに線形報酬応答アルゴリズムを使用し、決定論的(準最適)スロット割り当てに確実に収束する。 提案手法をスロット付きアロハとmin-maxのペアワイズ相関ランダムアクセス方式の両方と比較し,トラフィック強度を適度に保った高いネットワークスループットを実現することを示す。

We propose a coordinated random access scheme for industrial internet-of-things (IIoT) scenarios, with machine-type devices (MTDs) generating sporadic correlated traffic. This occurs, e.g., when external events trigger data generation at multiple MTDs simultaneously. Time is divided into frames, each split into slots and each MTD randomly selects one slot for (re)transmission, with probability density functions (PDFs) specific of both the MTD and the number of the current retransmission. PDFs are locally optimized to minimize the probability of packet collision. The optimization problem is modeled as a repeated Markov game with incomplete information, and the linear reward-inaction algorithm is used at each MTD, which provably converges to a deterministic (suboptimal) slot assignment. We compare our solution with both the slotted ALOHA and the min-max pairwise correlation random access schemes, showing that our approach achieves a higher network throughput with moderate traffic intensity.
翻訳日:2021-09-20 14:28:01 公開日:2021-09-17
# 好奇心は必要か? キュリオス探査における創発的行動の有用性について

Is Curiosity All You Need? On the Utility of Emergent Behaviours from Curious Exploration ( http://arxiv.org/abs/2109.08603v1 )

ライセンス: Link先を確認
Oliver Groth, Markus Wulfmeier, Giulia Vezzani, Vibhavari Dasagi, Tim Hertweck, Roland Hafner, Nicolas Heess, Martin Riedmiller(参考訳) 好奇心に基づく報酬スキームは、複雑でスパース、あるいは長いホリゾンタスクの解の発見を容易にする強力な探索メカニズムを提供することができる。 しかし、エージェントが未探索の空間に到達し、目的が新しい分野への報酬に適応することを学ぶと、常に変化する目的によって上書きされるため、多くの行動が消えてしまう。 我々は、好奇心を高速な環境探索や、特定のタスクに対するボーナス報酬として使うだけでは、このテクニックの潜在能力を最大限活用することができず、有用なスキルを欠いていると論じる。 代わりに、好奇心に基づく学習中に現れる行動の維持に焦点を移すことを提案する。 我々は,これらの自己発見行動がエージェントのレパートリーにおいて,関連する課題を解決する貴重なスキルとなることを示唆する。 本実験は, 学習過程における行動の連続的な変化と, 伝達タスクの発見動作を再利用するための簡単なポリシースナップショット法の利点を実証する。

Curiosity-based reward schemes can present powerful exploration mechanisms which facilitate the discovery of solutions for complex, sparse or long-horizon tasks. However, as the agent learns to reach previously unexplored spaces and the objective adapts to reward new areas, many behaviours emerge only to disappear due to being overwritten by the constantly shifting objective. We argue that merely using curiosity for fast environment exploration or as a bonus reward for a specific task does not harness the full potential of this technique and misses useful skills. Instead, we propose to shift the focus towards retaining the behaviours which emerge during curiosity-based learning. We posit that these self-discovered behaviours serve as valuable skills in an agent's repertoire to solve related tasks. Our experiments demonstrate the continuous shift in behaviour throughout training and the benefits of a simple policy snapshot method to reuse discovered behaviour for transfer tasks.
翻訳日:2021-09-20 14:27:43 公開日:2021-09-17
# (参考訳) ranknas: ペアワイズランキングによる効率的なニューラルネットワーク検索 [全文訳有]

RankNAS: Efficient Neural Architecture Search by Pairwise Ranking ( http://arxiv.org/abs/2109.07383v2 )

ライセンス: CC BY 4.0
Chi Hu, Chenglong Wang, Xiangnan Ma, Xia Meng, Yinqiao Li, Tong Xiao, Jingbo Zhu, Changliang Li(参考訳) 本稿では,課題をランキング問題として定式化することにより,ニューラルネットワーク探索(nas)の効率問題に対処する。 以前の手法では、アーキテクチャの正確なパフォーマンスを推定するために多くのトレーニング例を必要としていたが、実際の目標は「良い」候補と「悪い」候補の区別を見つけることである。 ここでは、パフォーマンス予測に頼らない。 代わりに,ペアランキングを用いたパフォーマンスランキング手法(RankNAS)を提案する。 より少ないトレーニング例を使って、効率的なアーキテクチャ検索を可能にする。 さらに,探索空間を創り出し,より有望な候補に集中するためのアーキテクチャ選択手法を開発した。 機械翻訳と言語モデリングタスクに関する大規模な実験により、RangNASは最先端のNASシステムよりも桁違いに高速で高性能なアーキテクチャを設計できることが示された。

This paper addresses the efficiency challenge of Neural Architecture Search (NAS) by formulating the task as a ranking problem. Previous methods require numerous training examples to estimate the accurate performance of architectures, although the actual goal is to find the distinction between "good" and "bad" candidates. Here we do not resort to performance predictors. Instead, we propose a performance ranking method (RankNAS) via pairwise ranking. It enables efficient architecture search using much fewer training examples. Moreover, we develop an architecture selection method to prune the search space and concentrate on more promising candidates. Extensive experiments on machine translation and language modeling tasks show that RankNAS can design high-performance architectures while being orders of magnitude faster than state-of-the-art NAS systems.
翻訳日:2021-09-20 12:27:57 公開日:2021-09-17
# (参考訳) opv2v:車間通信を用いた認知のためのオープンベンチマークデータセットと融合パイプライン [全文訳有]

OPV2V: An Open Benchmark Dataset and Fusion Pipeline for Perception with Vehicle-to-Vehicle Communication ( http://arxiv.org/abs/2109.07644v2 )

ライセンス: CC BY 4.0
Runsheng Xu, Hao Xiang, Xin Xia, Xu Han, Jinlong Liu, Jiaqi Ma(参考訳) 近年,自動運転車における車両間通信による認識性能の向上が注目されているが,ベンチマークアルゴリズムに適したオープンデータセットが存在しないため,協調的知覚技術の開発・評価が困難になっている。 そこで本研究では,車両間知覚のための最初の大規模オープンシミュレーションデータセットを提案する。 70以上の興味深いシーン、11,464フレーム、232,913個の注釈付き3d車両のバウンディングボックスがあり、カルラの8つの町とロサンゼルスのカルバーシティのデジタルタウンから収集されている。 次に,16種類の実装モデルを用いた総合ベンチマークを構築し,最先端lidar検出アルゴリズムを用いた情報融合戦略(早期,後期,中間融合)の評価を行った。 さらに,複数の連結車両からの情報を集約する新しいAttentive Intermediate Fusionパイプラインを提案する。 実験の結果,提案パイプラインは既存の3次元LiDAR検出器と容易に統合でき,高い圧縮速度でも優れた性能が得られることがわかった。 より多くの研究者がVager-to-Vehicleの知覚を調査できるように、データセット、ベンチマークメソッド、および関連するすべてのコードをhttps://mobility-lab .seas.ucla.edu/opv2v /でリリースします。

Employing Vehicle-to-Vehicle communication to enhance perception performance in self-driving technology has attracted considerable attention recently; however, the absence of a suitable open dataset for benchmarking algorithms has made it difficult to develop and assess cooperative perception technologies. To this end, we present the first large-scale open simulated dataset for Vehicle-to-Vehicle perception. It contains over 70 interesting scenes, 11,464 frames, and 232,913 annotated 3D vehicle bounding boxes, collected from 8 towns in CARLA and a digital town of Culver City, Los Angeles. We then construct a comprehensive benchmark with a total of 16 implemented models to evaluate several information fusion strategies~(i.e. early, late, and intermediate fusion) with state-of-the-art LiDAR detection algorithms. Moreover, we propose a new Attentive Intermediate Fusion pipeline to aggregate information from multiple connected vehicles. Our experiments show that the proposed pipeline can be easily integrated with existing 3D LiDAR detectors and achieve outstanding performance even with large compression rates. To encourage more researchers to investigate Vehicle-to-Vehicle perception, we will release the dataset, benchmark methods, and all related codes in https://mobility-lab .seas.ucla.edu/opv2v /.
翻訳日:2021-09-20 12:11:38 公開日:2021-09-17
# (参考訳) PDBench:タンパク質配列設計のための計算手法の評価 [全文訳有]

PDBench: Evaluating Computational Methods for Protein Sequence Design ( http://arxiv.org/abs/2109.07925v2 )

ライセンス: CC BY-SA 4.0
Leonardo V. Castorina, Rokas Petrenas, Kartic Subr and Christopher W. Wood(参考訳) タンパク質は、太陽エネルギーを化学エネルギーに変換し、DNAを複製し、高性能な材料、センシングなど、あらゆる生物系において重要なプロセスを実行する。 さまざまな機能が自然界でサンプル化されていますが、タンパク質宇宙のごく一部を占めています。 もしこの未探索のタンパク質構造プールを利用することができたら、人類が直面する環境や医療上の課題に取り組むために応用できる有用な性質を持つ新しいタンパク質を探すことができる。 これがタンパク質設計の目的である。 配列設計はタンパク質設計の重要な側面であり、これを実現する多くの方法が開発されている。 近年,分類問題としてのディープラーニング手法が強力なアプローチとして登場している。 報告された性能の改善に加えて、物理ベースの手法に対する大きな利点は、計算負担がユーザから開発者へとシフトし、設計方法へのアクセシビリティが向上することである。 この傾向にもかかわらず、これらのモデルの評価と比較のためのツールは非常に一般的である。 本稿の目的は,評価のタイムリーな問題に対処することと,その影響を加速する具体的な評価基準について,機械学習コミュニティ内でスポットライトを当てることである。 そこで本研究では, 深層学習に基づく手法の性能評価のための, 厳密なベンチマークセットを提案する。 我々の堅牢なベンチマークは、その性能と実用性を評価するのに欠かせない設計手法の振る舞いに関する生物学的知見を提供する。 既存の5つのモデルと2つの新しいモデルを比較した。 最後に,これらのモデルによって生成される設計を,最先端構造予測アルゴリズムであるAlphaFold2を用いて検証し,それらが意図した3次元形状に折り畳まれるかどうかを判断する。

Proteins perform critical processes in all living systems: converting solar energy into chemical energy, replicating DNA, as the basis of highly performant materials, sensing and much more. While an incredible range of functionality has been sampled in nature, it accounts for a tiny fraction of the possible protein universe. If we could tap into this pool of unexplored protein structures, we could search for novel proteins with useful properties that we could apply to tackle the environmental and medical challenges facing humanity. This is the purpose of protein design. Sequence design is an important aspect of protein design, and many successful methods to do this have been developed. Recently, deep-learning methods that frame it as a classification problem have emerged as a powerful approach. Beyond their reported improvement in performance, their primary advantage over physics-based methods is that the computational burden is shifted from the user to the developers, thereby increasing accessibility to the design method. Despite this trend, the tools for assessment and comparison of such models remain quite generic. The goal of this paper is to both address the timely problem of evaluation and to shine a spotlight, within the Machine Learning community, on specific assessment criteria that will accelerate impact. We present a carefully curated benchmark set of proteins and propose a number of standard tests to assess the performance of deep learning based methods. Our robust benchmark provides biological insight into the behaviour of design methods, which is essential for evaluating their performance and utility. We compare five existing models with two novel models for sequence prediction. Finally, we test the designs produced by these models with AlphaFold2, a state-of-the-art structure-prediction algorithm, to determine if they are likely to fold into the intended 3D shapes.
翻訳日:2021-09-20 11:58:30 公開日:2021-09-17
# (参考訳) ROS-X-Habitat: ROSエコシステムをエボダイドAIでブリッジする [全文訳有]

ROS-X-Habitat: Bridging the ROS Ecosystem with Embodied AI ( http://arxiv.org/abs/2109.07703v2 )

ライセンス: CC BY 4.0
Guanxiong Chen, Haoyu Yang and Ian M. Mitchell(参考訳) ROS-X-HabitatはAI Habitatプラットフォームを橋渡しし、強化学習エージェントをROSを介して他のロボットリソースに組み込むソフトウェアインターフェースである。 このインターフェースは、エンボディエージェントとシミュレータ間の標準化された通信プロトコルを提供するだけでなく、物理ベースのシミュレーションも提供する。 このインターフェースにより、ロボットは別のシミュレーション環境でHabitat RLエージェントをトレーニングしたり、Habitat Sim内で独自のロボットアルゴリズムを開発することができる。 サイリコ実験を通じて,ros-x-habitatが生息域エージェントのナビゲーション性能とシミュレーション速度にほとんど影響を与えないこと,rosマッピング,計画およびナビゲーションツールの標準セットが居住域シミュレータで動作できること,居住域エージェントが標準のrosシミュレータガゼボで動作できることを実証した。

We introduce ROS-X-Habitat, a software interface that bridges the AI Habitat platform for embodied reinforcement learning agents with other robotics resources via ROS. This interface not only offers standardized communication protocols between embodied agents and simulators, but also enables physics-based simulation. With this interface, roboticists are able to train their own Habitat RL agents in another simulation environment or to develop their own robotic algorithms inside Habitat Sim. Through in silico experiments, we demonstrate that ROS-X-Habitat has minimal impact on the navigation performance and simulation speed of Habitat agents; that a standard set of ROS mapping, planning and navigation tools can run in the Habitat simulator, and that a Habitat agent can run in the standard ROS simulator Gazebo.
翻訳日:2021-09-20 11:43:23 公開日:2021-09-17
# 人間の精液運動の自動予測のための機械学習フレームワーク

A Machine Learning Framework for Automatic Prediction of Human Semen Motility ( http://arxiv.org/abs/2109.08049v2 )

ライセンス: Link先を確認
Sandra Ottl and Shahin Amiriparian and Maurice Gerczuk and Bj\"orn Schuller(参考訳) 本稿では,Simula Research Laboratoryが収集したビセムデータセットから採取したヒト精液を,精子の運動性に関する機械学習手法で自動的に評価する。 いくつかの回帰モデルは、所定のサンプル中の進行性、非進行性、不運動性精子の割合(0〜100)を自動的に予測するように訓練される。 ビデオサンプルは3つの異なる特徴抽出法、特にカスタム・ムーブメント統計、変位特徴、運動性特化統計に採用されている。 さらに、線形サポートベクトル回帰器(SVR)、多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)の4つの機械学習モデルが、自動運動予測のタスクのために抽出された特徴について訓練されている。 crocker-grierアルゴリズムを使って精子細胞を教師なしの方法で追跡し、検出されたトラックごとに個々の平均二乗変位特徴を抽出することで、運動性を予測する最良の結果が得られる。 これらの特徴は、単語の袋のアプローチを適用してヒストグラム表現に集約される。 最後に、この特徴表現に基づいて線形SVRをトレーニングする。 同じデータセットとスプリットを使用したmedico multimedia for medicine challengeのベストな提案と比較すると、平均絶対誤差(mae)は8.83から7.31に削減できる。 再現性のために、GitHubで実験のソースコードを提供しています。

In this paper, human semen samples from the visem dataset collected by the Simula Research Laboratory are automatically assessed with machine learning methods for their quality in respect to sperm motility. Several regression models are trained to automatically predict the percentage (0 to 100) of progressive, non-progressive, and immotile spermatozoa in a given sample. The video samples are adopted for three different feature extraction methods, in particular custom movement statistics, displacement features, and motility specific statistics have been utilised. Furthermore, four machine learning models, including linear Support Vector Regressor (SVR), Multilayer Perceptron (MLP), Convolutional Neural Network (CNN), and Recurrent Neural Network (RNN), have been trained on the extracted features for the task of automatic motility prediction. Best results for predicting motility are achieved by using the Crocker-Grier algorithm to track sperm cells in an unsupervised way and extracting individual mean squared displacement features for each detected track. These features are then aggregated into a histogram representation applying a Bag-of-Words approach. Finally, a linear SVR is trained on this feature representation. Compared to the best submission of the Medico Multimedia for Medicine challenge, which used the same dataset and splits, the Mean Absolute Error (MAE) could be reduced from 8.83 to 7.31. For the sake of reproducibility, we provide the source code for our experiments on GitHub.
翻訳日:2021-09-20 11:26:02 公開日:2021-09-17
# ビデオにおける時間文接地に関する調査

A Survey on Temporal Sentence Grounding in Videos ( http://arxiv.org/abs/2109.08039v2 )

ライセンス: Link先を確認
Xiaohan Lan, Yitian Yuan, Xin Wang, Zhi Wang and Wenwu Zhu(参考訳) ビデオ中の時間文グラウンドング(TSGV)は、与えられた文問合せに関する未編集ビデオから1つの対象セグメントをローカライズすることを目的としており、ここ数年研究コミュニティで注目が集まっている。 時間的行動の局所化のタスクと異なり、tsgvは自然言語による複雑なアクティビティを事前に定義されたアクションカテゴリから制限することなく見つけることができるため、より柔軟である。 一方、TSGVは2つのモード(テキストとビデオ)間のセマンティックアライメントにテキストと視覚の両方の理解を必要とするため、より難しい。 本調査では,TSGVの概要について概観する。 一 既存の方法の分類を要約すること。 ii) tsgvで使用する評価プロトコル(すなわち、データセットとメトリクス)の詳細な説明と、 三 更なる調査のための現在のベンチマーク設計の潜在的な問題及び研究の方向性を詳細に検討すること。 我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。 具体的には,2段階の手法,エンドツーエンドの手法,強化学習に基づく手法,弱教師付き手法の4つのカテゴリに分類することで,既存のTSGVアプローチについて議論する。 次に、現在の研究進捗を評価するためのベンチマークデータセットと評価指標を示す。 最後に,TSGVにおける最先端の研究を推し進めるであろう,現在の評価プロトコルで不適切に解決された潜在的な問題を指摘することによって,TSGVのいくつかの制限について論じる。 さらに、TSGVに基づいた新しい実践的な設定を備えた3つの典型的なタスクを含む、いくつかの有望な方向性に関する洞察も共有しています。

Temporal sentence grounding in videos(TSGV), which aims to localize one target segment from an untrimmed video with respect to a given sentence query, has drawn increasing attentions in the research community over the past few years. Different from the task of temporal action localization, TSGV is more flexible since it can locate complicated activities via natural languages, without restrictions from predefined action categories. Meanwhile, TSGV is more challenging since it requires both textual and visual understanding for semantic alignment between two modalities(i.e., text and video). In this survey, we give a comprehensive overview for TSGV, which i) summarizes the taxonomy of existing methods, ii) provides a detailed description of the evaluation protocols(i.e., datasets and metrics) to be used in TSGV, and iii) in-depth discusses potential problems of current benchmarking designs and research directions for further investigations. To the best of our knowledge, this is the first systematic survey on temporal sentence grounding. More specifically, we first discuss existing TSGV approaches by grouping them into four categories, i.e., two-stage methods, end-to-end methods, reinforcement learning-based methods, and weakly supervised methods. Then we present the benchmark datasets and evaluation metrics to assess current research progress. Finally, we discuss some limitations in TSGV through pointing out potential problems improperly resolved in the current evaluation protocols, which may push forwards more cutting edge research in TSGV. Besides, we also share our insights on several promising directions, including three typical tasks with new and practical settings based on TSGV.
翻訳日:2021-09-20 11:25:40 公開日:2021-09-17
# 21世紀の大病発生のモデル化--因果的アプローチ

Modelling Major Disease Outbreaks in the 21st Century: A Causal Approach ( http://arxiv.org/abs/2109.07266v2 )

ライセンス: Link先を確認
Aboli Marathe, Saloni Parekh, Harsh Sakhrani(参考訳) 地球規模の事象のダイナミクスをモデル化しようとする疫学者は、疾患の発生など異常と関連する要因を特定する上で大きな課題に直面している。 本稿では,グローバルな開発指標をマーカーとして,感染症の発生に敏感な最も重要な開発セクターを特定する手法を提案する。 我々は,これらの指標と疾患発生の因果関係を統計的に評価し,最も頻度の高い指標を見つけるために,統計手法を用いる。 統計解析に加えて,データインプテーション手法を用いて生の現実世界のデータセットを有意義なデータに変換し,因果推論を行った。 インジケータ間の因果関係の検出に様々なアルゴリズムを適用することが,本研究の課題である。 国間の政府政策の格差が因果連鎖の相違の原因となっているにもかかわらず、いくつかの指標は21世紀に世界中での疾病の発生に敏感な決定要因として現れる。

Epidemiologists aiming to model the dynamics of global events face a significant challenge in identifying the factors linked with anomalies such as disease outbreaks. In this paper, we present a novel method for identifying the most important development sectors sensitive to disease outbreaks by using global development indicators as markers. We use statistical methods to assess the causative linkages between these indicators and disease outbreaks, as well as to find the most often ranked indicators. We used data imputation techniques in addition to statistical analysis to convert raw real-world data sets into meaningful data for causal inference. The application of various algorithms for the detection of causal linkages between the indicators is the subject of this research. Despite the fact that disparities in governmental policies between countries account for differences in causal linkages, several indicators emerge as important determinants sensitive to disease outbreaks over the world in the 21st Century.
翻訳日:2021-09-20 11:25:13 公開日:2021-09-17