このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220306となっている論文です。

PDF登録状況(公開日: 20220306)

TitleAuthorsAbstract論文公表日・翻訳日
# 脳のコネクトームの形を深く学習する

Deep Learning the Shape of the Brain Connectome ( http://arxiv.org/abs/2203.06122v1 )

ライセンス: Link先を確認
Haocheng Dai, Martin Bauer, P. Thomas Fletcher, Sarang C. Joshi(参考訳) 正常脳コネクトームと異常脳コネクトームの変動性と差異を統計的に研究するには、神経結合の数学的モデルが必要である。 本稿では,脳コネクトームをリーマン多様体として表現し,神経接続を測地線としてモデル化する。 DWMRIから脳の形状を推測するための自然なモデリングツールであり、繊維交差を許容できるリーマン計量を推定するために、ディープニューラルネットワークをどのように活用できるかを初めて示す。 提案手法は, 測地・白色・マター・パスウェイアライメントにおける優れた性能を実現し, 従来手法における長年の課題に対処する。

To statistically study the variability and differences between normal and abnormal brain connectomes, a mathematical model of the neural connections is required. In this paper, we represent the brain connectome as a Riemannian manifold, which allows us to model neural connections as geodesics. We show for the first time how one can leverage deep neural networks to estimate a Riemannian metric of the brain that can accommodate fiber crossings and is a natural modeling tool to infer the shape of the brain from DWMRI. Our method achieves excellent performance in geodesic-white-matte r-pathway alignment and tackles the long-standing issue in previous methods: the inability to recover the crossing fibers with high fidelity.
翻訳日:2022-03-20 23:09:31 公開日:2022-03-06
# 肺CTと静止胸部トモシン合成画像の流体的記録

Fluid registration between lung CT and stationary chest tomosynthesis images ( http://arxiv.org/abs/2203.04958v1 )

ライセンス: Link先を確認
Lin Tian, Connor Puett, Peirong Liu, Zhengyang Shen, Stephen R. Aylward, Yueh Z. Lee, Marc Niethammer(参考訳) 画像誘導療法や画像誘導手術において、計画と治療画像の間の興味ある臓器間の空間的対応を推定するために広く利用されている。 しかし、高画質CT画像は計画時にしばしば利用可能であるが、放射線や撮像時間の制約により、治療中に限られた角度の取得が頻繁に使用される。 これは、限られた角度の取得に基づいてCT画像を登録するアルゴリズムを必要とする。 そこで我々は,CTの投影画像とデジタル再構成画像に基づいて3次元変形を推定する3D/2D登録手法を定式化した。 ほとんどの3D/2D登録手法は単純な変換モデルを使うか、基礎となる最適化問題を定式化するために複雑な数学的導出を必要とする。 代わりに、我々のアプローチは、自動微分をサポートする現代の計算ツールボックスと組み合わせることができる微分可能な演算に完全に依存している。 これにより、高速なプロトタイピング、ディープニューラルネットワークとの統合、流体フローモデルを含むさまざまな変換モデルのサポートが可能になる。 我々は,CTと静止胸部トモシンセシス(sDCT)画像の登録に対するアプローチを実証し,それが反復的画像再構成アプローチにどのように自然に導くかを示した。

Registration is widely used in image-guided therapy and image-guided surgery to estimate spatial correspondences between organs of interest between planning and treatment images. However, while high-quality computed tomography (CT) images are often available at planning time, limited angle acquisitions are frequently used during treatment because of radiation concerns or imaging time constraints. This requires algorithms to register CT images based on limited angle acquisitions. We, therefore, formulate a 3D/2D registration approach which infers a 3D deformation based on measured projections and digitally reconstructed radiographs of the CT. Most 3D/2D registration approaches use simple transformation models or require complex mathematical derivations to formulate the underlying optimization problem. Instead, our approach entirely relies on differentiable operations which can be combined with modern computational toolboxes supporting automatic differentiation. This then allows for rapid prototyping, integration with deep neural networks, and to support a variety of transformation models including fluid flow models. We demonstrate our approach for the registration between CT and stationary chest tomosynthesis (sDCT) images and show how it naturally leads to an iterative image reconstruction approach.
翻訳日:2022-03-11 15:32:54 公開日:2022-03-06
# OpenGridGym: 分散市場シミュレーションのためのオープンソースAIフレンドリなツールキット

OpenGridGym: An Open-Source AI-Friendly Toolkit for Distribution Market Simulation ( http://arxiv.org/abs/2203.04410v1 )

ライセンス: Link先を確認
Rayan El Helou, Kiyeob Lee, Dongqi Wu, Le Xie, Srinivas Shakkottai, Vijay Subramanian(参考訳) 提案するOpenGridGymは,分散市場シミュレーションと最先端人工知能(AI)意思決定アルゴリズムのシームレスな統合を可能にする,Pythonベースのオープンソースパッケージである。 提案フレームワークのアーキテクチャと設計の選択肢を紹介するとともに,ユーザがopengridgymとどのように相互作用するかを詳しく説明するとともに,その使用例を示す複数のケースを提供することで,その価値を強調する。 シミュレーションでは、(1)物理グリッド、(2)市場メカニズム、(3)以前の2つのモジュールと相互作用するトレーニング可能なエージェントのセット、(4)上記の3つのモジュールを接続し調整する環境モジュールの4つのモジュールが使用される。 これら4つそれぞれにテンプレートを提供していますが、カスタムの代替品と簡単に交換可能です。 配電市場における重要な設計と運用上の疑問への研究者の対処を支援するために、このツールキットの能力と可能性を説明するいくつかのケーススタディが提示されている。

This paper presents OpenGridGym, an open-source Python-based package that allows for seamless integration of distribution market simulation with state-of-the-art artificial intelligence (AI) decision-making algorithms. We present the architecture and design choice for the proposed framework, elaborate on how users interact with OpenGridGym, and highlight its value by providing multiple cases to demonstrate its use. Four modules are used in any simulation: (1) the physical grid, (2) market mechanisms, (3) a set of trainable agents which interact with the former two modules, and (4) environment module that connects and coordinates the above three. We provide templates for each of those four, but they are easily interchangeable with custom alternatives. Several case studies are presented to illustrate the capability and potential of this toolkit in helping researchers address key design and operational questions in distribution electricity markets.
翻訳日:2022-03-10 17:05:33 公開日:2022-03-06
# (参考訳) 空間構造アライメントの緩和によるショット生成モデル適応 [全文訳有]

Few Shot Generative Model Adaption via Relaxed Spatial Structural Alignment ( http://arxiv.org/abs/2203.04121v1 )

ライセンス: CC BY 4.0
Jiayu Xiao, Liang Li, Chaofei Wang, Zheng-Jun Zha, Qingming Huang(参考訳) 限られたデータでGAN(Generative Adversarial Network)を訓練することは難しい課題である。 実現可能な解決策は、大規模なソースドメインで十分に訓練されたGANから始め、ターゲットドメインにいくつかのサンプルで適応することである。 しかし、既存の手法では過剰フィッティングや崩壊を非常に少ないショットでモデル化しがちである(10点未満)。 そこで本研究では,適応時の対象生成モデルを校正する空間構造アライメント手法を提案する。 自己相関と外乱相関整合性損失を含む領域間空間構造整合性損失を設計する。 ソースとターゲットドメインの合成画像対間の空間構造情報の整合を支援する。 クロスドメインアライメントを緩和するために、生成モデルの元の潜在空間を部分空間に圧縮する。 サブスペースから生成された画像対を近くに引き出す。 質的かつ定量的な実験により,本手法は少数のショット設定において最先端の手法を一貫して超越していることが示された。

Training a generative adversarial network (GAN) with limited data has been a challenging task. A feasible solution is to start with a GAN well-trained on a large scale source domain and adapt it to the target domain with a few samples, termed as few shot generative model adaption. However, existing methods are prone to model overfitting and collapse in extremely few shot setting (less than 10). To solve this problem, we propose a relaxed spatial structural alignment method to calibrate the target generative models during the adaption. We design a cross-domain spatial structural consistency loss comprising the self-correlation and disturbance correlation consistency loss. It helps align the spatial structural information between the synthesis image pairs of the source and target domains. To relax the cross-domain alignment, we compress the original latent space of generative models to a subspace. Image pairs generated from the subspace are pulled closer. Qualitative and quantitative experiments show that our method consistently surpasses the state-of-the-art methods in few shot setting.
翻訳日:2022-03-10 06:23:54 公開日:2022-03-06
# 多系統性甲状腺疾患に対する多チャンネル深層畳み込みニューラルネットワーク

Multi-channel deep convolutional neural networks for multi-classifying thyroid disease ( http://arxiv.org/abs/2203.03627v1 )

ライセンス: Link先を確認
Xinyu Zhang, Vincent CS. Lee, Jia Rong, James C. Lee, Jiangning Song, Feng Liu(参考訳) 甲状腺疾患の症例は1990年代から継続的に増加しており、近年では甲状腺癌がすべての悪性腫瘍の中で最も急速に増加している。 現存する研究のほとんどは、甲状腺癌の検出に深い畳み込みニューラルネットワークを適用することに焦点を当てている。 二項分類における良好な性能にもかかわらず、限定的な研究は甲状腺疾患の多型分類を探求しており、甲状腺疾患の異なるタイプの共存状況の診断についてはあまり知られていない。 そこで本研究では,甲状腺疾患のマルチクラス分類課題に対処するために,新しいマルチチャネル畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 マルチチャネルCNNはCTの利点を生かし,全甲状腺の包括的診断を推進し,疾患の共存状況を強調した。 また,cnnモデルの診断精度を高めるための代替戦略についても検討した。 ベンチマーク実験は、標準のシングルチャネルCNNアーキテクチャと比較して、提案したマルチチャネルCNNアーキテクチャの性能改善を示す。 より具体的には、マルチチャネルcnnは0.902, 0.892, 0.909, 0.993, 0.898をそれぞれ獲得したシングルチャネルcnnとは対照的に、0.99, 0.944, 0.896, 0.994, 0.917, f1の精度を達成した。 また, 性別群では, 女性群では0.908, 男性群では0.901の診断精度が得られた。 この結果から,提案したマルチチャネルCNNの一般化は良好であり,臨床現場での計算的意思決定支援に活用できる可能性が示唆された。

Thyroid disease instances have been continuously increasing since the 1990s, and thyroid cancer has become the most rapidly rising disease among all the malignancies in recent years. Most existing studies focused on applying deep convolutional neural networks for detecting thyroid cancer. Despite their satisfactory performance on binary classification tasks, limited studies have explored multi-class classification of thyroid disease types; much less is known of the diagnosis of co-existence situation for different types of thyroid diseases. Therefore, this study proposed a novel multi-channel convolutional neural network (CNN) architecture to address the multi-class classification task of thyroid disease. The multi-channel CNN merits from computed tomography to drive a comprehensive diagnostic decision for the overall thyroid gland, emphasizing the disease co-existence circumstance. Moreover, this study also examined alternative strategies to enhance the diagnostic accuracy of CNN models through concatenation of different scales of feature maps. Benchmarking experiments demonstrate the improved performance of the proposed multi-channel CNN architecture compared with the standard single-channel CNN architecture. More specifically, the multi-channel CNN achieved an accuracy of 0.909, precision of 0.944, recall of 0.896, specificity of 0.994, and F1 of 0.917, in contrast to the single-channel CNN, which obtained 0.902, 0.892, 0.909, 0.993, 0.898, respectively. In addition, the proposed model was evaluated in different gender groups; it reached a diagnostic accuracy of 0.908 for the female group and 0.901 for the male group. Collectively, the results highlight that the proposed multi-channel CNN has excellent generalization and has the potential to be deployed to provide computational decision support in clinical settings.
翻訳日:2022-03-09 15:50:15 公開日:2022-03-06
# (参考訳) マルチエージェント強化学習のための再帰推論グラフ [全文訳有]

Recursive Reasoning Graph for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2203.02844v1 )

ライセンス: CC BY 4.0
Xiaobai Ma, David Isele, Jayesh K. Gupta, Kikuo Fujimura, Mykel J. Kochenderfer(参考訳) マルチエージェント強化学習(MARL)は、複数のエージェントが相互に相互作用するポリシーを同時に学習する効率的な方法である。 しかし、複雑な相互作用を必要とするシナリオでは、既存のアルゴリズムは他のエージェントに対する自己行動の影響を正確に予測できない。 他のエージェントの潜在的な反応を推論する能力を組み込むことで、エージェントはより効果的な戦略を定式化することができる。 本稿では,学習エージェントが他者との協力や競争をより良くするために,集中型学習・分散実行フレームワークにおいて再帰的推論モデルを採用する。 提案アルゴリズムはRecursive Reasoning Graph (R2G)と呼ばれ、複数のマルチエージェント粒子およびロボットゲームにおける最先端の性能を示す。

Multi-agent reinforcement learning (MARL) provides an efficient way for simultaneously learning policies for multiple agents interacting with each other. However, in scenarios requiring complex interactions, existing algorithms can suffer from an inability to accurately anticipate the influence of self-actions on other agents. Incorporating an ability to reason about other agents' potential responses can allow an agent to formulate more effective strategies. This paper adopts a recursive reasoning model in a centralized-training -decentralized-execu tion framework to help learning agents better cooperate with or compete against others. The proposed algorithm, referred to as the Recursive Reasoning Graph (R2G), shows state-of-the-art performance on multiple multi-agent particle and robotics games.
翻訳日:2022-03-09 08:58:09 公開日:2022-03-06
# (参考訳) 内部脅威分析のためのSPCAGAN拡張を用いたハイブリッドディープラーニングモデル [全文訳有]

Hybrid Deep Learning Model using SPCAGAN Augmentation for Insider Threat Analysis ( http://arxiv.org/abs/2203.02855v1 )

ライセンス: CC BY 4.0
R G Gayathri, Atul Sajjanhar, Yong Xiang(参考訳) 組織内の信頼できる組織からのサイバー攻撃はインサイダー脅威として知られている。 ディープラーニングを使用した異常検出には包括的なデータが必要だが、組織の機密性に関する懸念から、インサイダー脅威データは容易に利用できない。 そのため、脅威分析のための高度なアプローチを探るため、合成データを生成する必要が生じる。 本研究では,不均一なデータソースから入力を受信し,生成元のデータ分布によく似た高品質なデータを生成するために,生成器を訓練するための新たな損失関数を付加する,線形多様体学習に基づく生成逆ネットワークSPCAGANを提案する。 さらに,インサイダー脅威分析のための深層学習に基づくハイブリッドモデルを提案する。 ベンチマークデータセットを用いたデータ合成,異常検出,逆ロバスト性,合成データ品質解析のための広範な実験を行う。 この文脈において、実証的な比較は、GANに基づくオーバーサンプリングは多くの典型的なオーバーサンプリング体制と競合していることを示している。 合成データ生成において,SPCAGANモデルはモード崩壊の問題を克服し,従来のGANモデルよりも高速に収束する。 その結果,提案手法は誤差が低く,精度が高く,従来モデルよりもはるかに優れた合成インサイダー脅威データを生成することがわかった。

Cyberattacks from within an organization's trusted entities are known as insider threats. Anomaly detection using deep learning requires comprehensive data, but insider threat data is not readily available due to confidentiality concerns of organizations. Therefore, there arises demand to generate synthetic data to explore enhanced approaches for threat analysis. We propose a linear manifold learning-based generative adversarial network, SPCAGAN, that takes input from heterogeneous data sources and adds a novel loss function to train the generator to produce high-quality data that closely resembles the original data distribution. Furthermore, we introduce a deep learning-based hybrid model for insider threat analysis. We provide extensive experiments for data synthesis, anomaly detection, adversarial robustness, and synthetic data quality analysis using benchmark datasets. In this context, empirical comparisons show that GAN-based oversampling is competitive with numerous typical oversampling regimes. For synthetic data generation, our SPCAGAN model overcame the problem of mode collapse and converged faster than previous GAN models. Results demonstrate that our proposed approach has a lower error, is more accurate, and generates substantially superior synthetic insider threat data than previous models.
翻訳日:2022-03-09 08:42:37 公開日:2022-03-06
# (参考訳) 新型コロナウイルス比較モデルと政策介入による制御 [全文訳有]

Compartmental Models for COVID-19 and Control via Policy Interventions ( http://arxiv.org/abs/2203.02860v1 )

ライセンス: CC BY 4.0
Swapneel Mehta and Noah Kasmanoff(参考訳) 確率型プログラミング言語(PPL)のツールキットを用いて,SARS-CoV-2(COVID-19 )パンデミックの拡散を再現し,予測する手法を実証する。 我々の目標は、様々なモデリング仮定の影響を調査し、感染症の拡散を制限するために制定された政策介入を動機づけることである。 既存の区画モデルを用いて,pplsにおける推論を用いて疾患パラメータの後方推定を行う方法を示す。 我々は、新型コロナウイルスの本当の数の報告不足などの実践的考察を反映して、一般的な既存モデルを改善し、実世界のデータに対する政策介入をモデル化する必要性を動機付けている。 再利用可能なテンプレートとしてSEI3RDモデルを設計し,その柔軟性を他のモデルと比較した。 また,本研究では,感染した個体群を規制しうる政策介入の最適系列を選択できる欲望アルゴリズムを提案する。 我々は、ポリシーの介入に重点を置いた確率的推論における最先端のドメインへの即時アクセスを可能にする、シンプルでモジュール化された再現可能なフレームワーク内で働いています。 我々は疫学者ではない;この研究の唯一の目的は、新型コロナウイルスの政策立案が現実世界に与える影響を直接推測することではなく、方法の展示として機能することである。

We demonstrate an approach to replicate and forecast the spread of the SARS-CoV-2 (COVID-19) pandemic using the toolkit of probabilistic programming languages (PPLs). Our goal is to study the impact of various modeling assumptions and motivate policy interventions enacted to limit the spread of infectious diseases. Using existing compartmental models we show how to use inference in PPLs to obtain posterior estimates for disease parameters. We improve popular existing models to reflect practical considerations such as the under-reporting of the true number of COVID-19 cases and motivate the need to model policy interventions for real-world data. We design an SEI3RD model as a reusable template and demonstrate its flexibility in comparison to other models. We also provide a greedy algorithm that selects the optimal series of policy interventions that are likely to control the infected population subject to provided constraints. We work within a simple, modular, and reproducible framework to enable immediate cross-domain access to the state-of-the-art in probabilistic inference with emphasis on policy interventions. We are not epidemiologists; the sole aim of this study is to serve as an exposition of methods, not to directly infer the real-world impact of policy-making for COVID-19.
翻訳日:2022-03-09 08:18:40 公開日:2022-03-06
# (参考訳) 拡散写像 : 半群特性を用いたパラメータチューニング [全文訳有]

Diffusion Maps : Using the Semigroup Property for Parameter Tuning ( http://arxiv.org/abs/2203.02867v1 )

ライセンス: CC BY-SA 4.0
Shan Shan and Ingrid Daubechies(参考訳) 拡散写像 (DM) は、非常に大きな次元空間に埋め込まれた(相対的に)低次元多様体の上のあるいは近くにあるデータに対して古典的な次元還元技法を構成する。 dm手順は、データセット上のシミュレーションされたランダムウォークまたは拡散パスから多様体のスペクトルパラメトリを作成することからなる。 しかし、DMは実際にチューニングするのは難しい。 特に、拡散カーネル行列を構成する際に拡散時間tを設定するタスクが重要となる。 我々は拡散作用素の半群性を用いてこの問題に対処する。 t を選択するための半群基準を提案する。 実験によると、この原則は効果的で堅牢である。

Diffusion maps (DM) constitute a classic dimension reduction technique, for data lying on or close to a (relatively) low-dimensional manifold embedded in a much larger dimensional space. The DM procedure consists in constructing a spectral parametrization for the manifold from simulated random walks or diffusion paths on the data set. However, DM is hard to tune in practice. In particular, the task to set a diffusion time t when constructing the diffusion kernel matrix is critical. We address this problem by using the semigroup property of the diffusion operator. We propose a semigroup criterion for picking t. Experiments show that this principled approach is effective and robust.
翻訳日:2022-03-09 08:03:02 公開日:2022-03-06
# (参考訳) Pose Guided Person Image Generationのためのデュアルタスク相関の探索 [全文訳有]

Exploring Dual-task Correlation for Pose Guided Person Image Generation ( http://arxiv.org/abs/2203.02910v1 )

ライセンス: CC BY 4.0
Pengze Zhang, Lingxiao Yang, Jianhuang Lai, Xiaohua Xie(参考訳) Pose Guided Person Image Generation (PGPIG) は、人物画像をソースポーズから所定のターゲットポーズに変換するタスクである。 既存のメソッドのほとんどは、不適切なソース・ツー・ターゲットタスクにのみフォーカスし、合理的なテクスチャマッピングを取得できない。 そこで本研究では,pgpigの性能向上のために,補助タスク(すなわちソース・ツー・ソースタスク)を導入し,デュアル・タスク相関を活用した,新しいデュアル・タスクポーズ・トランスフォーマネットワーク(dptn)を提案する。 DPTNは、ソースからソースへの自己再構成ブランチと、ソースからターゲットへの生成のための変換ブランチを含むシームズ構造である。 それらの部分的な重みを共有することにより、ソース間タスクによって学習される知識は、ソース間学習を効果的に支援することができる。 さらに,2つの分岐をPTM(Pose Transformer Module)でブリッジし,2つのタスク間の関係を適応的に探索する。 このような相関関係は、ソースとターゲット間の全画素のきめ細かいマッピングを確立し、ソーステクスチャ送信を促進して、生成されたターゲット画像の詳細を強化することができる。 拡張実験の結果,DPTNはPSNRとLPIPSの両面で最先端の成績を示した。 さらに、私たちのdptnは9.79億のパラメータしか含んでいません。 私たちのコードは、https://github.com/P angzeCheung/Dual-tas k-Pose-Transformer-N etworkで利用可能です。

Pose Guided Person Image Generation (PGPIG) is the task of transforming a person image from the source pose to a given target pose. Most of the existing methods only focus on the ill-posed source-to-target task and fail to capture reasonable texture mapping. To address this problem, we propose a novel Dual-task Pose Transformer Network (DPTN), which introduces an auxiliary task (i.e., source-to-source task) and exploits the dual-task correlation to promote the performance of PGPIG. The DPTN is of a Siamese structure, containing a source-to-source self-reconstruction branch, and a transformation branch for source-to-target generation. By sharing partial weights between them, the knowledge learned by the source-to-source task can effectively assist the source-to-target learning. Furthermore, we bridge the two branches with a proposed Pose Transformer Module (PTM) to adaptively explore the correlation between features from dual tasks. Such correlation can establish the fine-grained mapping of all the pixels between the sources and the targets, and promote the source texture transmission to enhance the details of the generated target images. Extensive experiments show that our DPTN outperforms state-of-the-arts in terms of both PSNR and LPIPS. In addition, our DPTN only contains 9.79 million parameters, which is significantly smaller than other approaches. Our code is available at: https://github.com/P angzeCheung/Dual-tas k-Pose-Transformer-N etwork.
翻訳日:2022-03-09 07:52:08 公開日:2022-03-06
# (参考訳) 効率的な多言語テキスト分類のためのグラフニューラルネットワーク拡張言語モデル [全文訳有]

Graph Neural Network Enhanced Language Models for Efficient Multilingual Text Classification ( http://arxiv.org/abs/2203.02912v1 )

ライセンス: CC BY 4.0
Samujjwal Ghosh, Subhadeep Maji, Maunendra Sankar Desarkar(参考訳) オンラインソーシャルメディアは災害時の貴重な情報や行動可能な情報の源泉として機能する。 これらの情報は、ユーザ生成コンテンツの性質のため、複数の言語で利用することができる。 これらの実行可能な情報を自動で識別し分類する効果的なシステムは、複数の言語を扱い、限定的な監督下に置かれるべきである。 しかし、既存の研究は主に、十分なラベル付きデータが利用できるという前提で、英語に焦点を当てている。 これらの課題を克服するために,多言語災害関連テキスト分類システムを提案する。 我々のエンドツーエンドのトレーニング可能なフレームワークは、コーパスにトランスフォーマーベースの大規模言語モデルのパワーを応用することで、グラフニューラルネットワークの汎用性を組み合わせ、両者間のクロスアテンションの助けとなる。 我々は,全9つの英語,非英語,モノリンガルのデータセットを,{mono,cross, multi\}の言語分類シナリオで評価した。 我々のフレームワークは、重み付きF$_1$スコアで、災害領域と多言語BERTベースラインにおける最先端モデルよりも優れています。 また,提案モデルの一般化を限定的な監督下で示す。

Online social media works as a source of various valuable and actionable information during disasters. These information might be available in multiple languages due to the nature of user generated content. An effective system to automatically identify and categorize these actionable information should be capable to handle multiple languages and under limited supervision. However, existing works mostly focus on English language only with the assumption that sufficient labeled data is available. To overcome these challenges, we propose a multilingual disaster related text classification system which is capable to work under \{mono, cross and multi\} lingual scenarios and under limited supervision. Our end-to-end trainable framework combines the versatility of graph neural networks, by applying over the corpus, with the power of transformer based large language models, over examples, with the help of cross-attention between the two. We evaluate our framework over total nine English, Non-English and monolingual datasets in \{mono, cross and multi\} lingual classification scenarios. Our framework outperforms state-of-the-art models in disaster domain and multilingual BERT baseline in terms of Weighted F$_1$ score. We also show the generalizability of the proposed model under limited supervision.
翻訳日:2022-03-09 07:35:31 公開日:2022-03-06
# (参考訳) GeoDiff:分子情報生成のための幾何学的拡散モデル [全文訳有]

GeoDiff: a Geometric Diffusion Model for Molecular Conformation Generation ( http://arxiv.org/abs/2203.02923v1 )

ライセンス: CC BY 4.0
Minkai Xu, Lantao Yu, Yang Song, Chence Shi, Stefano Ermon, Jian Tang(参考訳) 分子グラフからの分子配座の予測は、化学情報学と薬物発見の基本的な問題である。 近年、機械学習のアプローチ、特に深層生成モデルにおいて大きな進歩を遂げている。 熱した粒子が元の状態からノイズ分布に拡散する古典的非平衡熱力学における拡散過程に触発されて,本論文では分子コンフォメーション予測のための新しい生成モデルgeodiffを提案する。 ジオディフは各原子を粒子として扱い、拡散過程(ノイズ分布から安定な配座への変換)をマルコフ連鎖として直接反転させることを学ぶ。 しかし、そのような生成過程のモデル化は非常に困難であり、配座の可能性はロート遷移不変量であるべきである。 等価マルコフ核で進化するマルコフ連鎖は設計によって不変分布を誘導できることを理論的に示し、さらにマルコフ核が望ましい同分散性を保つための構築ブロックを提案する。 フレームワーク全体は、(条件付き)可能性に対する重み付き変分下界を最適化することにより、エンドツーエンドで効率的に訓練することができる。 複数のベンチマークの実験では、GeoDiffは既存の最先端アプローチ、特に大きな分子よりも優れているか、あるいは同等であることが示された。

Predicting molecular conformations from molecular graphs is a fundamental problem in cheminformatics and drug discovery. Recently, significant progress has been achieved with machine learning approaches, especially with deep generative models. Inspired by the diffusion process in classical non-equilibrium thermodynamics where heated particles will diffuse from original states to a noise distribution, in this paper, we propose a novel generative model named GeoDiff for molecular conformation prediction. GeoDiff treats each atom as a particle and learns to directly reverse the diffusion process (i.e., transforming from a noise distribution to stable conformations) as a Markov chain. Modeling such a generation process is however very challenging as the likelihood of conformations should be roto-translational invariant. We theoretically show that Markov chains evolving with equivariant Markov kernels can induce an invariant distribution by design, and further propose building blocks for the Markov kernels to preserve the desirable equivariance property. The whole framework can be efficiently trained in an end-to-end fashion by optimizing a weighted variational lower bound to the (conditional) likelihood. Experiments on multiple benchmarks show that GeoDiff is superior or comparable to existing state-of-the-art approaches, especially on large molecules.
翻訳日:2022-03-09 07:18:29 公開日:2022-03-06
# (参考訳) 精密点拡散関数の推定 [全文訳有]

Precise Point Spread Function Estimation ( http://arxiv.org/abs/2203.02953v1 )

ライセンス: CC BY 4.0
Renzhi He, Yan Zhuang, Boya Fu, Fei Liu(参考訳) 点拡散関数 (psf) は, 焦点・焦点からの形状, 深さ推定, 蛍光顕微鏡におけるイメージングプロセスなど多くの分野において重要な役割を担っている。 しかし、点拡散関数のいくつかの変数は、カメラのf数、ピクセルの物理サイズ、焦点深度などを正確に測定することが難しいため、デフォーカス過程の数学的モデルはまだ不明である。 本研究では,デフォーカス過程を記述するために,カメラの点展開関数の正確な数学的モデルを開発する。 まず、PSFの数学的アルゴリズムを導出し、2つのパラメータAとeを抽出する。 Aは、カメラのfナンバー、ピクセルサイズ、出力スケール、混乱の円のスケーリング係数の合成であり、eは焦点深さのずれである。 本研究では,デフォーカスヒストグラムに基づく新しいメトリクスを設計し,シミュレーションされた焦点画像と実際の焦点画像との差を評価し,最適なAとeを得る。 また、フォーカスシステムと構造化光システムから構成されるハードウェアシステムを構築し、フォーカス内画像、フォーカス深度に応じたフォーカス画像、同じ視野における深度マップを取得する。 3種類の画像はデータセットとして、正確なPSFを得るために使用される。 標準平面および実物体に関する実験により,提案アルゴリズムはデフォーカス過程を正確に記述できることを示す。 さらに,本アルゴリズムの精度は,実際の焦点画像,アルゴリズムが生成する焦点画像,他者が生成する焦点画像の差を評価することによって検証される。 その結果,アルゴリズムの損失は他のアルゴリズムよりも40%少ないことがわかった。 データセット、コード、モデルはgithubで入手できる。 https://github.com/c ubhe/ accurate-point-sprea d-function-estimatio n。

Point spread function (PSF) plays a crucial role in many fields, such as shape from focus/defocus, depth estimation, and imaging process in fluorescence microscopy. However, the mathematical model of the defocus process is still unclear because several variables in the point spread function are hard to measure accurately, such as the f-number of cameras, the physical size of a pixel, the focus depth, etc. In this work, we develop a precise mathematical model of the camera's point spread function to describe the defocus process. We first derive the mathematical algorithm for the PSF and extract two parameters A and e. A is the composite of camera's f-number, pixel-size, output scale, and scaling factor of the circle of confusion; e is the deviation of the focus depth. We design a novel metric based on the defocus histogram to evaluate the difference between the simulated focused image and the actual focused image to obtain optimal A and e. We also construct a hardware system consisting of a focusing system and a structured light system to acquire the all-in-focus image, the focused image with corresponding focus depth, and the depth map in the same view. The three types of images, as a dataset, are used to obtain the precise PSF. Our experiments on standard planes and actual objects show that the proposed algorithm can accurately describe the defocus process. The accuracy of our algorithm is further proved by evaluating the difference among the actual focused images, the focused image generated by our algorithm, the focused image generated by others. The results show that the loss of our algorithm is 40% less than others on average. The dataset, code, and model are available on GitHub: https://github.com/c ubhe/ precise-point-spread -function-estimation .
翻訳日:2022-03-09 06:51:09 公開日:2022-03-06
# (参考訳) それは何を意味するのか? 虚偽記憶パターンとしての心的表現 [全文訳有]

What does it mean to represent? Mental representations as falsifiable memory patterns ( http://arxiv.org/abs/2203.02956v1 )

ライセンス: CC BY 4.0
Eloy Parra-Barrero and Yulia Sandamirskaya(参考訳) 表現は神経科学と人工知能(AI)において重要な概念である。 しかし、長年の哲学的議論は、表現として数えられるものを特定することは見かけより難しいと強調している。 この簡潔な意見論文では、表現の哲学的問題に注目し、実装可能なソリューションを提供したいと思います。 神経科学者や技術者がしばしば想定する因果的・テレロジー的アプローチは、表現の十分な説明を提供していないことに注意する。 そこで我々は,アクティベーションの条件パターンに基づいて,世界の推論された潜在構造に対応する表現をスケッチする。 これらの構造は客観的に特定の特性を持つと考えられており、予期せぬ事象の計画、予測、検出を可能にする。 本稿では,単純なニューラルネットワークモデルのシミュレーションを用いて提案する。 この表現の強い概念は、神経科学とAIの将来の研究に役立つと信じています。

Representation is a key notion in neuroscience and artificial intelligence (AI). However, a longstanding philosophical debate highlights that specifying what counts as representation is trickier than it seems. With this brief opinion paper we would like to bring the philosophical problem of representation into attention and provide an implementable solution. We note that causal and teleological approaches often assumed by neuroscientists and engineers fail to provide a satisfactory account of representation. We sketch an alternative according to which representations correspond to inferred latent structures in the world, identified on the basis of conditional patterns of activation. These structures are assumed to have certain properties objectively, which allows for planning, prediction, and detection of unexpected events. We illustrate our proposal with the simulation of a simple neural network model. We believe this stronger notion of representation could inform future research in neuroscience and AI.
翻訳日:2022-03-09 06:35:23 公開日:2022-03-06
# (参考訳) 責任あるAI開発ライフサイクルに向けて - 情報セキュリティからの教訓 [全文訳有]

Towards a Responsible AI Development Lifecycle: Lessons From Information Security ( http://arxiv.org/abs/2203.02958v1 )

ライセンス: CC BY 4.0
Erick Galinkin(参考訳) 法制化と大衆の感情は、倫理的人工知能システムの責任ある開発のための処方として、公正度メトリクス、説明可能性、解釈可能性を促進してきた。 この分野の基礎にはこれらの3つの柱が重要であるが、運用は困難であり、生産環境における問題の解決はシシフィアンをしばしば感じている。 公平度メトリクスは、トレーニングに組み込むのが計算的に困難であり、これらのシステムが犯すすべての危害を軽減することは滅多にない。 解釈可能性と説明容易性は公正に見え、トレーニングデータに含まれる個人情報のプライバシを必然的に低減し、説明が間違っていても、予測に対するユーザの信頼を高める可能性がある。 本研究では,情報セキュリティとセキュアな開発ライフサイクルから学んだ教訓を取り入れ,対向環境におけるユーザ保護に関わる課題を克服し,人工知能システムの開発に責任を負う枠組みを提案する。 特に,脅威モデリング,設計レビュー,浸透テスト,インシデント応答といった概念を,前述の手法の欠点を解決する手段として,AIシステム開発という文脈で活用することを提案する。

Legislation and public sentiment throughout the world have promoted fairness metrics, explainability, and interpretability as prescriptions for the responsible development of ethical artificial intelligence systems. Despite the importance of these three pillars in the foundation of the field, they can be challenging to operationalize and attempts to solve the problems in production environments often feel Sisyphean. This difficulty stems from a number of factors: fairness metrics are computationally difficult to incorporate into training and rarely alleviate all of the harms perpetrated by these systems. Interpretability and explainability can be gamed to appear fair, may inadvertently reduce the privacy of personal information contained in training data, and increase user confidence in predictions -- even when the explanations are wrong. In this work, we propose a framework for responsibly developing artificial intelligence systems by incorporating lessons from the field of information security and the secure development lifecycle to overcome challenges associated with protecting users in adversarial settings. In particular, we propose leveraging the concepts of threat modeling, design review, penetration testing, and incident response in the context of developing AI systems as ways to resolve shortcomings in the aforementioned methods.
翻訳日:2022-03-09 06:26:05 公開日:2022-03-06
# (参考訳) 知識に基づく視覚質問応答のための動的キー値メモリ強化多段階グラフ推論 [全文訳有]

Dynamic Key-value Memory Enhanced Multi-step Graph Reasoning for Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2203.02985v1 )

ライセンス: CC BY 4.0
Mingxiao Li, Marie-Francine Moens(参考訳) 知識に基づく視覚的質問応答(英語: Knowledge-based visual question answering, VQA)とは、エージェントが与えられた画像に表示されていない知識を用いて、画像関連の質問に正しく答えることを要求する視覚言語タスクである。 通常のVQAよりも難しいタスクであるだけでなく、一般的なVQAシステムを構築するための重要なステップでもある。 既存の知識ベースVQAシステムのほとんどは、知識と画像情報を同様に処理し、知識ベース(KB)が三重項に関する完全な情報を含んでいるという事実を無視する一方、抽出された画像情報は、2つのオブジェクト間の関係が欠落または誤検出されているため不完全である可能性がある。 本稿では,動的知識メモリ拡張多段階グラフ推論(DMMGR)と呼ばれる新しいモデルを提案する。 具体的には、メモリモジュールが動的知識表現を学習し、各推論ステップで知識認識質問表現を生成する。 そして、この表現を用いて、空間認識画像グラフ上でグラフ注意演算子を誘導する。 我々のモデルはKRVQRとFVQAデータセット上で新しい最先端の精度を実現する。 また,提案モデルの各成分の有効性を証明するため,アブレーション実験を行った。

Knowledge-based visual question answering (VQA) is a vision-language task that requires an agent to correctly answer image-related questions using knowledge that is not presented in the given image. It is not only a more challenging task than regular VQA but also a vital step towards building a general VQA system. Most existing knowledge-based VQA systems process knowledge and image information similarly and ignore the fact that the knowledge base (KB) contains complete information about a triplet, while the extracted image information might be incomplete as the relations between two objects are missing or wrongly detected. In this paper, we propose a novel model named dynamic knowledge memory enhanced multi-step graph reasoning (DMMGR), which performs explicit and implicit reasoning over a key-value knowledge memory module and a spatial-aware image graph, respectively. Specifically, the memory module learns a dynamic knowledge representation and generates a knowledge-aware question representation at each reasoning step. Then, this representation is used to guide a graph attention operator over the spatial-aware image graph. Our model achieves new state-of-the-art accuracy on the KRVQR and FVQA datasets. We also conduct ablation experiments to prove the effectiveness of each component of the proposed model.
翻訳日:2022-03-09 06:10:34 公開日:2022-03-06
# (参考訳) ビジュアルダイアログにおける相関関係のモデル化 [全文訳有]

Modeling Coreference Relations in Visual Dialog ( http://arxiv.org/abs/2203.02986v1 )

ライセンス: CC BY 4.0
Mingxiao Li, Marie-Francine Moens(参考訳) ビジュアルダイアログは、エージェントがダイアログ履歴と画像の理解に基づいて、画像に根拠付けられた一連の質問に答える必要がある視覚言語タスクである。 ダイアログ内で相互参照関係が発生すると、視覚的な質問応答よりも難しいタスクになる。 これまでのほとんどの研究は、より優れたマルチモーダル表現の学習や、視覚的特徴と言語的特徴を融合する方法の探索に重点を置いてきた。 本稿では,ヒューマンダイアログの言語的知識と談話的特徴に基づき,教師なしの方法でダイアログにおけるコリファレンスを解決するモデルの能力を向上させる2つのソフト制約を提案する。 visdial v1.0データセットの実験的結果は、深層トランスフォーマリンアーキテクチャに2つの新しい言語にインスパイアされたソフト制約を統合したモデルが、既存のモデルや他の視覚言語データセットを事前トレーニングすることなく、既存のモデルと比較して1や他の評価指標をリコールする点で、新たな最先端のパフォーマンスを得ることを示している。 また,提案手法の有効性を定性的に検証した。

Visual dialog is a vision-language task where an agent needs to answer a series of questions grounded in an image based on the understanding of the dialog history and the image. The occurrences of coreference relations in the dialog makes it a more challenging task than visual question-answering. Most previous works have focused on learning better multi-modal representations or on exploring different ways of fusing visual and language features, while the coreferences in the dialog are mainly ignored. In this paper, based on linguistic knowledge and discourse features of human dialog we propose two soft constraints that can improve the model's ability of resolving coreferences in dialog in an unsupervised way. Experimental results on the VisDial v1.0 dataset shows that our model, which integrates two novel and linguistically inspired soft constraints in a deep transformer neural architecture, obtains new state-of-the-art performance in terms of recall at 1 and other evaluation metrics compared to current existing models and this without pretraining on other vision-language datasets. Our qualitative results also demonstrate the effectiveness of the method that we propose.
翻訳日:2022-03-09 05:55:36 公開日:2022-03-06
# (参考訳) 顔画像復元のための意味認識型潜時空間探索 [全文訳有]

Semantic-Aware Latent Space Exploration for Face Image Restoration ( http://arxiv.org/abs/2203.03005v1 )

ライセンス: CC BY 4.0
Yanhui Guo, Fangzhou Luo and Xiaolin Wu(参考訳) 画像復元では、既存のディープラーニングベースの手法はトレーニングデータに過度に適合する傾向にあり、トレーニングの前提から外れた劣化に遭遇すると、悪い結果につながる。 強靭性を改善するため、GAN(Generative Adversarial Network)の先行手法が提案され、フォトリアリスティックおよび高品質な結果を復元する有望な能力が明らかにされた。 しかしこれらの手法は、特に顔画像のような意味的に重要な画像において、意味的混乱に悩まされる。 本稿では,画像復元のための意味認識型潜在空間探索手法(sair)を提案する。 参照セマンティクス情報を明示的にモデル化することで、SAIRは高精細な高現実的な外観だけでなく、セマンティクスの正しさも保たせる。 定量的および定性的な実験は、提案したSAIRの有効性を総合的に示す。 私たちのコードはhttps://github.com/L iamkuo/SAIR.orgにある。

For image restoration, most existing deep learning based methods tend to overfit the training data leading to bad results when encountering unseen degradations out of the assumptions for training. To improve the robustness, generative adversarial network (GAN) prior based methods have been proposed, revealing a promising capability to restore photo-realistic and high-quality results. But these methods suffer from semantic confusion, especially on semantically significant images such as face images. In this paper, we propose a semantic-aware latent space exploration method for image restoration (SAIR). By explicitly modeling referenced semantics information, SAIR can consistently restore severely degraded images not only to high-resolution highly-realistic looks but also to correct semantics. Quantitative and qualitative experiments collectively demonstrate the effectiveness of the proposed SAIR. Our code can be found in https://github.com/L iamkuo/SAIR.
翻訳日:2022-03-09 05:37:28 公開日:2022-03-06
# (参考訳) モダリティに特有なアノテーション付きビデオにおけるマルチモーダル動作認識のための学習不能なモダリティドロップアウト [全文訳有]

Learnable Irrelevant Modality Dropout for Multimodal Action Recognition on Modality-Specific Annotated Videos ( http://arxiv.org/abs/2203.03014v1 )

ライセンス: CC BY 4.0
Saghir Alfasly, Jian Lu, Chen Xu, Yuru Zou(参考訳) ビデオデータセットは、聴覚と視覚のモダリティの両方がラベル付きまたはクラス関連であるマルチモダリティアノテートであると仮定すると、現在のマルチモダリティ法はモダリティ融合またはクロスモダリティ注意を適用する。 しかし,視覚特異的アノテート映像における音声モダリティを効果的に活用することは,特に課題である。 この課題に取り組むために,視覚に特有なアノテートデータセットのオーディオモダリティを効果的に活用する,新しいオーディオビジュアルフレームワークを提案する。 言語モデル(例えばBERT)を採用して、各ビデオラベルを、SAVLDがオーディオデータセットとビデオデータセットの間のブリッジとして機能するK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築する。 次に、SAVLDと事前訓練されたオーディオマルチラベルモデルを用いて、トレーニングフェーズにおけるオーディオ・視覚的モダリティの関連性を推定する。 そこで, 学習可能な非関連モーダリティ・ドロップアウト (IMD) を提案し, 非関連モーダリティを完全に排除し, 関連するモーダリティのみを融合させる。 さらに,視覚モダリティを効率的にモデル化する2ストリームビデオトランスを提案する。 kinetics400 や ucf-101 を含む視覚固有の注釈付きデータセットの結果は、最も関連するアクション認識法を上回るものとして、我々のフレームワークを検証した。

With the assumption that a video dataset is multimodality annotated in which auditory and visual modalities both are labeled or class-relevant, current multimodal methods apply modality fusion or cross-modality attention. However, effectively leveraging the audio modality in vision-specific annotated videos for action recognition is of particular challenge. To tackle this challenge, we propose a novel audio-visual framework that effectively leverages the audio modality in any solely vision-specific annotated dataset. We adopt the language models (e.g., BERT) to build a semantic audio-video label dictionary (SAVLD) that maps each video label to its most K-relevant audio labels in which SAVLD serves as a bridge between audio and video datasets. Then, SAVLD along with a pretrained audio multi-label model are used to estimate the audio-visual modality relevance during the training phase. Accordingly, a novel learnable irrelevant modality dropout (IMD) is proposed to completely drop out the irrelevant audio modality and fuse only the relevant modalities. Moreover, we present a new two-stream video Transformer for efficiently modeling the visual modalities. Results on several vision-specific annotated datasets including Kinetics400 and UCF-101 validated our framework as it outperforms most relevant action recognition methods.
翻訳日:2022-03-09 05:26:20 公開日:2022-03-06
# (参考訳) HEAR 2021: 音声表現の全体的評価 [全文訳有]

HEAR 2021: Holistic Evaluation of Audio Representations ( http://arxiv.org/abs/2203.03022v1 )

ライセンス: CC BY 4.0
Joseph Turian, Jordie Shier, Humair Raj Khan, Bhiksha Raj, Bj\"orn W. Schuller, Christian J. Steinmetz, Colin Malloy, George Tzanetakis, Gissel Velarde, Kirk McNally, Max Henry, Nicolas Pinto, Camille Noufi, Christian Clough, Dorien Herremans, Eduardo Fonseca, Jesse Engel, Justin Salamon, Philippe Esling, Pranay Manocha, Shinji Watanabe, Zeyu Jin and Yonatan Bisk(参考訳) どんなオーディオ埋め込みアプローチが、微調整なしで、様々な日常領域にまたがる幅広いダウンストリームタスクに最適なのか? HEAR 2021 NeurIPSチャレンジの目的は、様々なタスクやシナリオで学習するための強力な基盤を提供する汎用オーディオ表現を開発することである。 HEAR 2021は、音声、環境音、音楽を含む様々な領域にわたるベンチマークスイートを用いて、音声表現を評価する。 共有交換の精神の中で、各参加者は、汎用的でオープンソースで自由に使用できる共通apiに従って、オーディオ埋め込みモデルを提出した。 13の外部チームによる29のモデルを16のデータセットから派生した19のダウンストリームタスクで評価した。 オープン評価コード、提出されたモデル、データセットは重要な貢献であり、これまで不可能だった縦断的研究と同様に、包括的で再現可能な評価を可能にする。 1つの汎用オーディオ表現が人間の耳と同じくらいホモラルに機能するのか、まだ明らかな疑問が残る。

What audio embedding approach generalizes best to a wide range of downstream tasks across a variety of everyday domains without fine-tuning? The aim of the HEAR 2021 NeurIPS challenge is to develop a general-purpose audio representation that provides a strong basis for learning in a wide variety of tasks and scenarios. HEAR 2021 evaluates audio representations using a benchmark suite across a variety of domains, including speech, environmental sound, and music. In the spirit of shared exchange, each participant submitted an audio embedding model following a common API that is general-purpose, open-source, and freely available to use. Twenty-nine models by thirteen external teams were evaluated on nineteen diverse downstream tasks derived from sixteen datasets. Open evaluation code, submitted models and datasets are key contributions, enabling comprehensive and reproducible evaluation, as well as previously impossible longitudinal studies. It still remains an open question whether one single general-purpose audio representation can perform as holistically as the human ear.
翻訳日:2022-03-09 04:54:56 公開日:2022-03-06
# (参考訳) 重み付き平均量子レグレッション

Weighted-average quantile regression ( http://arxiv.org/abs/2203.03032v1 )

ライセンス: CC BY 4.0
Denis Chetverikov, Yukun Liu, Aleh Tsyvinski(参考訳) 本稿では,y$ が依存変数,$x$ が共変量のベクトル,$q_{y|x} が y$ が条件分布の量子関数,$x$,$\psi$ が重み関数,$\beta$ がパラメータのベクトルである,重み付き量子化回帰フレームワーク $\int_0^1 q_{y|x}(u)\psi(u)du を導入する。 このフレームワークは多くの応用された設定に興味を持ち、パラメータのベクトルの推定器を$\beta$で開発する。 我々の推定値は$\sqrt t$ であり、平均 0 であり、容易に推定可能な共分散行列を持つ漸近正規であり、ここで $t$ は利用可能なサンプルのサイズである。 2つの経験的設定に適用することで,推定器の有用性を示す。 まず第一に、金融データに着目し、業界ポートフォリオの期待不足の要因構造について検討する。 第2設定では、賃金データに焦点をあて、不平等や社会福祉への依存を一般的な個人的特性に当てる。

In this paper, we introduce the weighted-average quantile regression framework, $\int_0^1 q_{Y|X}(u)\psi(u)du = X'\beta$, where $Y$ is a dependent variable, $X$ is a vector of covariates, $q_{Y|X}$ is the quantile function of the conditional distribution of $Y$ given $X$, $\psi$ is a weighting function, and $\beta$ is a vector of parameters. We argue that this framework is of interest in many applied settings and develop an estimator of the vector of parameters $\beta$. We show that our estimator is $\sqrt T$-consistent and asymptotically normal with mean zero and easily estimable covariance matrix, where $T$ is the size of available sample. We demonstrate the usefulness of our estimator by applying it in two empirical settings. In the first setting, we focus on financial data and study the factor structures of the expected shortfalls of the industry portfolios. In the second setting, we focus on wage data and study inequality and social welfare dependence on commonly used individual characteristics.
翻訳日:2022-03-09 04:19:19 公開日:2022-03-06
# (参考訳) ランダム化プリミティブを用いた深部演算子ネットワークのスケーラブル不確実性定量化 [全文訳有]

Scalable Uncertainty Quantification for Deep Operator Networks using Randomized Priors ( http://arxiv.org/abs/2203.03048v1 )

ライセンス: CC BY 4.0
Yibo Yang, Georgios Kissas, Paris Perdikaris(参考訳) 本稿では,関数空間における教師あり学習のパラダイムであるディープオペレータネットワーク(DeepONets)における後方不確実性定量化の簡便かつ効果的な手法を提案する。 我々は,ランダム化前のアンサンブルに基づく頻繁なアプローチを採用し,高速化ハードウェア上での高速並列推論のための効率的なベクトル化実装を提案する。 計算力学と気候モデリングの代表的な例の収集を通じて,提案手法の利点が4倍であることを示す。 1)決定論的DeepONetsと比較すると,より堅牢で正確な予測が可能である。 2)複数スケールの関数ペアを持つ希少データセットの信頼性の高い不確実性推定能力を示す。 3) 分布外例と逆例を効果的に検出することができる。 (4) モデルバイアスによる不確実性をシームレスに定量化し, データのノイズ劣化を予測できる。 最後に、我々は、大きなモデルアーキテクチャ、大きなアンサンブルサイズ、およびアクセラレーションされたハードウェア上での並列性能に優れた大きなデータセットを扱えるように最適化されたJAXライブラリ {\em UQDeepONetを提供する。

We present a simple and effective approach for posterior uncertainty quantification in deep operator networks (DeepONets); an emerging paradigm for supervised learning in function spaces. We adopt a frequentist approach based on randomized prior ensembles, and put forth an efficient vectorized implementation for fast parallel inference on accelerated hardware. Through a collection of representative examples in computational mechanics and climate modeling, we show that the merits of the proposed approach are fourfold. (1) It can provide more robust and accurate predictions when compared against deterministic DeepONets. (2) It shows great capability in providing reliable uncertainty estimates on scarce data-sets with multi-scale function pairs. (3) It can effectively detect out-of-distribution and adversarial examples. (4) It can seamlessly quantify uncertainty due to model bias, as well as noise corruption in the data. Finally, we provide an optimized JAX library called {\em UQDeepONet} that can accommodate large model architectures, large ensemble sizes, as well as large data-sets with excellent parallel performance on accelerated hardware, thereby enabling uncertainty quantification for DeepONets in realistic large-scale applications.
翻訳日:2022-03-09 04:16:27 公開日:2022-03-06
# (参考訳) 社会的指標:軌道予測評価の再考と最大主観的推定の有効性 [全文訳有]

Social-Implicit: Rethinking Trajectory Prediction Evaluation and The Effectiveness of Implicit Maximum Likelihood Estimation ( http://arxiv.org/abs/2203.03057v1 )

ライセンス: CC BY 4.0
Abduallah Mohamed, Deyao Zhu, Warren Vu, Mohamed Elhoseiny, Christian Claudel(参考訳) Best-of-N (BoN) Average Displacement Error (ADE)/ Final Displacement Error (FDE) は軌道予測モデルを評価する上で最もよく用いられる指標である。 しかし、BoNは生成したサンプル全体を定量化せず、結果としてモデルの予測品質と性能が不完全である。 本稿では,この問題に対処するための新しい指標Average Mahalanobis Distance (AMD)を提案する。 AMDは、生成したサンプルがどれだけ近いかを測定する計量である。 また,平均最大固有値(AMV)の指標を導入し,予測の全体的拡散を定量化する。 ADE/FDEは分布シフトに敏感ではないことを示し,AMD/AMVの計測値と異なり,精度の偏りが認められた。 本稿では,従来の生成モデルに代えてImplicit Maximum Likelihood Estimation (IMLE)を導入し,そのモデルであるSocial-Implicitを学習する。 IMLEトレーニングメカニズムは、地上の真実に近い軌道を厳密な広がりで予測するAMD/AMVの目標と一致している。 Social-Implicitは5.8Kのパラメータしか持たないメモリ効率の良いディープモデルで、約580Hzでリアルタイムに動作し、競合する結果が得られる。 この問題のインタラクティブなデモは、https://www.abdualla hmohamed.com/social- implicit-amdamv-adef de-demo}で見ることができる。 コードは \url{https://github.com/a bduallahmohamed/soci al-implicit} で入手できる。

Best-of-N (BoN) Average Displacement Error (ADE)/ Final Displacement Error (FDE) is the most used metric for evaluating trajectory prediction models. Yet, the BoN does not quantify the whole generated samples, resulting in an incomplete view of the model's prediction quality and performance. We propose a new metric, Average Mahalanobis Distance (AMD) to tackle this issue. AMD is a metric that quantifies how close the whole generated samples are to the ground truth. We also introduce the Average Maximum Eigenvalue (AMV) metric that quantifies the overall spread of the predictions. Our metrics are validated empirically by showing that the ADE/FDE is not sensitive to distribution shifts, giving a biased sense of accuracy, unlike the AMD/AMV metrics. We introduce the usage of Implicit Maximum Likelihood Estimation (IMLE) as a replacement for traditional generative models to train our model, Social-Implicit. IMLE training mechanism aligns with AMD/AMV objective of predicting trajectories that are close to the ground truth with a tight spread. Social-Implicit is a memory efficient deep model with only 5.8K parameters that runs in real time of about 580Hz and achieves competitive results. Interactive demo of the problem can be seen here \url{https://www.abdualla hmohamed.com/social- implicit-amdamv-adef de-demo}. Code is available at \url{https://github.com/a bduallahmohamed/Soci al-Implicit}.
翻訳日:2022-03-09 03:50:46 公開日:2022-03-06
# (参考訳) テキストレベルグラフニューラルネットワークによるストーリーポイントの労力推定 [全文訳有]

Story Point Effort Estimation by Text Level Graph Neural Network ( http://arxiv.org/abs/2203.03062v1 )

ライセンス: CC BY 4.0
Hung Phan and Ali Jannesari(参考訳) アジャイル手法によって開発されたソフトウェアプロジェクトの努力を見積もることは、プロジェクトマネージャや技術リーダにとって重要です。 タスクの完了に要する時間と開発者の数に関する最初のビューとして、要約を提供する。 この問題に対する従来のアプローチとして、TFIDF(Term Frequency Inverse Document Frequency)など、ソフトウェア作業の自動予測に関する研究がある。 グラフニューラルネットワークは、テキスト分類のための自然言語処理に適用された新しいアプローチである。 グラフニューラルネットワークの利点は、単語のベクトル化シーケンスのアプローチと比較して、単語間の関係のようなより多くの表現を持つグラフデータ構造を介して情報を学ぶ能力に基づいている。 本稿では,ストーリーポイントレベル推定におけるグラフニューラルネットワークのテキスト分類の可能性と可能性について述べる。 実験により,従来の手法に匹敵するストーリーポイントレベルの分類では,GNNテキストレベル分類が約80%の精度で達成可能であることが示された。 我々はまた、GNNのアプローチを分析し、GNNのアプローチがこの問題やソフトウェア工学の他の問題に対して改善できる現在のいくつかの欠点を指摘した。

Estimating the software projects' efforts developed by agile methods is important for project managers or technical leads. It provides a summary as a first view of how many hours and developers are required to complete the tasks. There are research works on automatic predicting the software efforts, including Term Frequency Inverse Document Frequency (TFIDF) as the traditional approach for this problem. Graph Neural Network is a new approach that has been applied in Natural Language Processing for text classification. The advantages of Graph Neural Network are based on the ability to learn information via graph data structure, which has more representations such as the relationships between words compared to approaches of vectorizing sequence of words. In this paper, we show the potential and possible challenges of Graph Neural Network text classification in story point level estimation. By the experiments, we show that the GNN Text Level Classification can achieve as high accuracy as about 80 percent for story points level classification, which is comparable to the traditional approach. We also analyze the GNN approach and point out several current disadvantages that the GNN approach can improve for this problem or other problems in software engineering.
翻訳日:2022-03-09 03:33:05 公開日:2022-03-06
# プレトレーニングBERTのオーディオキャプションへの応用

Leveraging Pre-trained BERT for Audio Captioning ( http://arxiv.org/abs/2203.02838v1 )

ライセンス: Link先を確認
Xubo Liu, Xinhao Mei, Qiushi Huang, Jianyuan Sun, Jinzheng Zhao, Haohe Liu, Mark D. Plumbley, Volkan K{\i}l{\i}\c{c}, Wenwu Wang(参考訳) 音声キャプションは、自然言語を使って音声クリップの内容を記述することを目的としている。 既存の音声キャプションシステムは、オーディオエンコーダによって音響情報を抽出し、その後、言語デコーダを使用してキャプションを生成するエンコーダ/デコーダアーキテクチャに基づいている。 オーディオキャプションシステムのトレーニングは、しばしばデータ不足の問題に遭遇する。 プレトレーニングオーディオニューラルネット(PANN)のような事前学習オーディオモデルからの知識の伝達は、この問題を緩和するための有用な方法として最近登場した。 しかし、デコーダのトレーニング済み言語モデルの利用には、エンコーダに比べて注意が向けられていない。 BERTは訓練済みの言語モデルであり、自然言語処理(NLP)タスクで広く使われている。 しかし,音声キャプションのための言語デコーダとしてのBERTの可能性については検討されていない。 本研究では,事前学習したBERTモデルによる音声キャプションの有効性を示す。 具体的には、PANNをエンコーダとして適用し、公開事前学習されたBERTモデルからデコーダを初期化する。 音声キャプションモデルにおけるデコーダに対するこれらのbertモデルの使用に関する実証研究を行う。 本モデルでは,audiocapsデータセット上の既存の音声キャプション手法と競合する結果を得る。

Audio captioning aims at using natural language to describe the content of an audio clip. Existing audio captioning systems are generally based on an encoder-decoder architecture, in which acoustic information is extracted by an audio encoder and then a language decoder is used to generate the captions. Training an audio captioning system often encounters the problem of data scarcity. Transferring knowledge from pre-trained audio models such as Pre-trained Audio Neural Networks (PANNs) have recently emerged as a useful method to mitigate this issue. However, there is less attention on exploiting pre-trained language models for the decoder, compared with the encoder. BERT is a pre-trained language model that has been extensively used in Natural Language Processing (NLP) tasks. Nevertheless, the potential of BERT as the language decoder for audio captioning has not been investigated. In this study, we demonstrate the efficacy of the pre-trained BERT model for audio captioning. Specifically, we apply PANNs as the encoder and initialize the decoder from the public pre-trained BERT models. We conduct an empirical study on the use of these BERT models for the decoder in the audio captioning model. Our models achieve competitive results with the existing audio captioning methods on the AudioCaps dataset.
翻訳日:2022-03-08 18:43:38 公開日:2022-03-06
# 統合時間周波数シームズ-Unetを用いた単一マイクロホンスピーカ抽出

Single microphone speaker extraction using unified time-frequency Siamese-Unet ( http://arxiv.org/abs/2203.02941v1 )

ライセンス: Link先を確認
Aviad Eisenberg, Sharon Gannot and Shlomo E. Chazan(参考訳) 本稿では,清浄・騒音環境における話者抽出のための時間周波数統合手法を提案する。 混合信号と参照信号が与えられた場合、所望の話者を抽出するための一般的なアプローチは、時間領域または周波数領域に適用される。 提案手法では,両表現を用いたSiamese-Unetアーキテクチャを提案する。 siameseエンコーダは周波数領域に適用され、それぞれノイズスペクトルと参照スペクトルの埋め込みを推定する。 連結表現はデコーダに入力され、所望の話者の実成分と虚成分を推定し、時間領域に逆変換する。 このモデルは、時間領域情報を活用するために、SI-SDR(Scale-Invaria nt Signal-to-Distortion Ratio)損失をトレーニングする。 時間領域損失は、音声パターンを保存するために周波数領域損失と共に正規化される。 実験結果から, 統合手法は訓練が容易であるだけでなく, 最先端(SOTA)ブラインドソース分離法 (BSS) や, 一般的な話者抽出法と比較して優れた結果が得られることがわかった。

In this paper we present a unified time-frequency method for speaker extraction in clean and noisy conditions. Given a mixed signal, along with a reference signal, the common approaches for extracting the desired speaker are either applied in the time-domain or in the frequency-domain. In our approach, we propose a Siamese-Unet architecture that uses both representations. The Siamese encoders are applied in the frequency-domain to infer the embedding of the noisy and reference spectra, respectively. The concatenated representations are then fed into the decoder to estimate the real and imaginary components of the desired speaker, which are then inverse-transformed to the time-domain. The model is trained with the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) loss to exploit the time-domain information. The time-domain loss is also regularized with frequency-domain loss to preserve the speech patterns. Experimental results demonstrate that the unified approach is not only very easy to train, but also provides superior results as compared with state-of-the-art (SOTA) Blind Source Separation (BSS) methods, as well as commonly used speaker extraction approach.
翻訳日:2022-03-08 18:43:19 公開日:2022-03-06
# 完全正のプログラミングによるSDPに基づくニューラルネットワーク検証の一考察

A Unified View of SDP-based Neural Network Verification through Completely Positive Programming ( http://arxiv.org/abs/2203.03034v1 )

ライセンス: Link先を確認
Robin Brown, Edward Schmerling, Navid Azizan, Marco Pavone(参考訳) ニューラルネットワークの入出力関係が所定の運用仕様に準拠していることを検証することは、これらのネットワークを安全クリティカルなアプリケーションにデプロイするための重要な手段である。 SDP(Semidefinite Programming)に基づくRectified Linear Unit (ReLU)ネットワーク検証のアプローチは、この問題を最適化問題に書き起こし、そのような定式化の正確さは、ニューラルネットワークの計算の表現方法における忠実さのレベルを反映し、難解な制約の緩和を反映している。 論文は, sdp 定式化の厳密性向上に向けた進歩を多く含んでいるが, 比較的少ない作業は, sdp 緩和前に元の検証問題を最も正確に把握する方法である。 本研究では、完全正のプログラム(CPP)としての検証の正確な凸定式化を開発し、我々の定式化が最小であることを示す分析を提供する。 我々は,既存のアプローチの統一的な視点を提供し,あるケースで観測される大きな緩和ギャップの原因を考察するために,定式化を利用する。

Verifying that input-output relationships of a neural network conform to prescribed operational specifications is a key enabler towards deploying these networks in safety-critical applications. Semidefinite programming (SDP)-based approaches to Rectified Linear Unit (ReLU) network verification transcribe this problem into an optimization problem, where the accuracy of any such formulation reflects the level of fidelity in how the neural network computation is represented, as well as the relaxations of intractable constraints. While the literature contains much progress on improving the tightness of SDP formulations while maintaining tractability, comparatively little work has been devoted to the other extreme, i.e., how to most accurately capture the original verification problem before SDP relaxation. In this work, we develop an exact, convex formulation of verification as a completely positive program (CPP), and provide analysis showing that our formulation is minimal -- the removal of any constraint fundamentally misrepresents the neural network computation. We leverage our formulation to provide a unifying view of existing approaches, and give insight into the source of large relaxation gaps observed in some cases.
翻訳日:2022-03-08 18:40:33 公開日:2022-03-06
# ノックオフによる変数選択:コンポジットヌル仮説

Variable Selection with the Knockoffs: Composite Null Hypotheses ( http://arxiv.org/abs/2203.02849v1 )

ライセンス: Link先を確認
Mehrdad Pournaderi and Yu Xiang(参考訳) Fixed-X ノックオフフィルタは、任意の(特異でない)設計行列を持つ線形モデルにおける偽発見率(FDR)制御による可変選択のための柔軟なフレームワークであり、LASSO推定による有限サンプル選択推論を可能にする。 本稿では、ノックオフ手順の理論を、実世界の問題によく関係する複合的ヌル仮説を用いたテストに拡張する。 主な技術的課題は、任意の設計から依存した特徴と組み合わせて合成ヌルを扱うことである。 本研究では, 合成ヌルの下での試験統計の新たな構造特性を基盤として, 最小二乗シフト (S-OLS) と特徴応答型製品摂動 (FRPP) の2つの手法を開発した。 また,s-ols法の2つのヒューリスティックな変種を提案し,従属テスト統計の下ではヒューリスティックベースラインとして機能する複合ヌルに対するベンジャミン・ホッホバーグ法(bh)法を上回った。 最後に, 元のノックオフ手順を合成試験に適用した場合のFDRの損失を解析する。

The Fixed-X knockoff filter is a flexible framework for variable selection with false discovery rate (FDR) control in linear models with arbitrary (non-singular) design matrices and it allows for finite-sample selective inference via the LASSO estimates. In this paper, we extend the theory of the knockoff procedure to tests with composite null hypotheses, which are usually more relevant to real-world problems. The main technical challenge lies in handling composite nulls in tandem with dependent features from arbitrary designs. We develop two methods for composite inference with the knockoffs, namely, shifted ordinary least-squares (S-OLS) and feature-response product perturbation (FRPP), building on new structural properties of test statistics under composite nulls. We also propose two heuristic variants of the S-OLS method that outperform the celebrated Benjamini-Hochberg (BH) procedure for composite nulls, which serves as a heuristic baseline under dependent test statistics. Finally, we analyze the loss in FDR when the original knockoff procedure is naively applied on composite tests.
翻訳日:2022-03-08 18:33:14 公開日:2022-03-06
# 磁性材料のためのグラフニューラルネットワークポテンシャル

Graph Neural Network Potential for Magnetic Materials ( http://arxiv.org/abs/2203.02853v1 )

ライセンス: Link先を確認
Hongyu Yu, Yang Zhong, Changsong Xu, Xingao Gong, Hongjun Xiang(参考訳) 機械学習(ML)原子間ポテンシャルは、凝縮物質物理学においてその大きな力を示している。 しかし、構造的自由度と磁気モーメントの両方を含む磁気系のML原子間ポテンシャルはまだ十分に発達していない。 結晶グラフニューラルネットワーク(GNN)に基づくスピン依存ML原子間ポテンシャルアプローチが,任意の磁気系に対して開発された。 ハイゼンベルクエッジグラフニューラルネットワーク(HEGNN)とスピン距離エッジグラフニューラルネットワーク(SEGNN)で構成されている。 このネットワークは、異なる構造間のハイゼンベルク係数の変動と、高次および多体相互作用の微細スピン格子結合を高精度に捉える。 実験では、高次スピンハミルトニアンと2つの複雑なスピン格子ハミルトニアンを完全嵌合させ、BiFeO3のスピン格子結合を捕捉した。 さらに, ひずみを有するBiFeO3の破壊構造を, トレーニングした電位で最適化した。 我々の研究は、強力なML GNNポテンシャルを磁気システムに拡張し、スピン格子結合系における大規模動的シミュレーションの新しい方法を開発した。

Machine Learning (ML) interatomic potential has shown its great power in condensed matter physics. However, ML interatomic potential for a magnetic system including both structural degrees of freedom and magnetic moments has not been well developed yet. A spin-dependent ML interatomic potential approach based on the crystal graph neural network (GNN) has been developed for any magnetic system. It consists of the Heisenberg edge graph neural network (HEGNN) and spin-distance edge graph neural network (SEGNN). The network captures the Heisenberg coefficient variation between different structures and the fine spin-lattice coupling of high order and multi-body interaction with high accuracy. In the tests, this method perfectly fitted a high-order spin Hamiltonian and two complex spin-lattice Hamiltonian and captured the fine spin-lattice coupling in BiFeO3. In addition, a disturbed structure of BiFeO3 with strain was successfully optimized with the trained potential. Our work has expanded the powerful ML GNN potentials to magnetic systems, which paves a new way for large-scale dynamic simulations on spin-lattice coupled systems.
翻訳日:2022-03-08 18:31:43 公開日:2022-03-06
# 微分物理学シミュレーションにおける強化学習のための逆勾配の活用

Leveraging Reward Gradients For Reinforcement Learning in Differentiable Physics Simulations ( http://arxiv.org/abs/2203.02857v1 )

ライセンス: Link先を確認
Sean Gillen and Katie Byl(参考訳) 近年では、幅広いロボットシステムをシミュレートするために使用できる、完全に微分可能な剛体物理学シミュレータが開発されている。 制御のための強化学習の文脈において、これらのシミュレータは理論上、報酬関数の分析勾配に直接アルゴリズムを適用することができる。 しかし、これまでのところ、これらの勾配は使用が極めて困難であることが判明しており、勾配情報を使用しないアルゴリズムでは時代遅れである。 本研究では,これらの勾配を,非線形制御問題の集合に対して,芸術的深層強化学習の状態を上回ることを可能にする,新しいアルゴリズムであるクロスエントロピー解析ポリシー勾配を提案する。

In recent years, fully differentiable rigid body physics simulators have been developed, which can be used to simulate a wide range of robotic systems. In the context of reinforcement learning for control, these simulators theoretically allow algorithms to be applied directly to analytic gradients of the reward function. However, to date, these gradients have proved extremely challenging to use, and are outclassed by algorithms using no gradient information at all. In this work we present a novel algorithm, cross entropy analytic policy gradients, that is able to leverage these gradients to outperform state of art deep reinforcement learning on a set of challenging nonlinear control problems.
翻訳日:2022-03-08 18:31:27 公開日:2022-03-06
# 対称群上のグラフ信号のためのフレーム:表現論的アプローチ

Frames for Graph Signals on the Symmetric Group: A Representation Theoretic Approach ( http://arxiv.org/abs/2203.03036v1 )

ライセンス: Link先を確認
Kathryn Beck and Mahya Ghandehari(参考訳) グラフ信号処理の分野における重要な問題は、グラフの異なる族で定義された信号に対する適切なオーバーコンプリート辞書を開発することである。 対称群のケイリーグラフは、頂点が置換を表すのに対し、生成集合はランク間の距離の概念を形式化するので、ランクデータ解析に自然な応用がある。 対称群の表現のリッチな理論を利用して、すべての原子が対称群の1つの既約表現の係数空間に属するフロベニウス・シュールフレームと呼ばれる特定の種類のフレームを研究する。 我々は、生成集合に関して「互換」である対称群の群代数上のすべてのフロベニウス・シュール系に対する特徴付けを提供する。 このようなフレームは、対称群のケイリーグラフであるペルムタヘドロンに対して、隣接する転位の生成集合で以前に研究されており、分析係数を介してランク付けされたデータセットを有意義に解釈できることが証明されている。 この結果は、ペルムタヘドロンのフレーム構造を任意の逆閉生成集合に一般化する。

An important problem in the field of graph signal processing is developing appropriate overcomplete dictionaries for signals defined on different families of graphs. The Cayley graph of the symmetric group has natural applications in ranked data analysis, as its vertices represent permutations, while the generating set formalizes a notion of distance between rankings. Taking advantage of the rich theory of representations of the symmetric group, we study a particular class of frames, called Frobenius-Schur frames, where every atom belongs to the coefficient space of only one irreducible representation of the symmetric group. We provide a characterization for all Frobenius-Schur frames on the group algebra of the symmetric group which are "compatible" with respect to the generating set. Such frames have been previously studied for the permutahedron, the Cayley graph of the symmetric group with the generating set of adjacent transpositions, and have proved to be capable of producing meaningful interpretation of the ranked data set via the analysis coefficients. Our results generalize frame constructions for the permutahedron to any inverse-closed generating set.
翻訳日:2022-03-08 18:31:16 公開日:2022-03-06
# 対話型意思決定モデルにおけるエージェントの多様性

Diversifying Agent's Behaviors in Interactive Decision Models ( http://arxiv.org/abs/2203.03068v1 )

ライセンス: Link先を確認
Yinghui Pan, Hanyi Zhang, Yifeng Zeng, Biyang Ma, Jing Tang and Zhong Ming(参考訳) 他のエージェントの振る舞いをモデル化することは、複数のエージェント間の相互作用に関する決定モデルにおいて重要な役割を果たす。 自己決定を最適化するには、被写体エージェントは、不確実な環境で同時に行動する他のエージェントをモデル化する必要がある。 しかし、エージェントが競争力があり、対象エージェントが他のエージェントについて完全な知識を得ることができない場合に、モデリング不足が発生する。 エージェントが協力している場合でも、プライバシー上の懸念から本当の行動を共有できないかもしれない。 本稿では,その相互作用に先立って,被験者の意思決定モデルにおける他のエージェントの行動の多様化を検討する。 他エージェントの行動に関する事前の知識から始め、既知の行動から代表的行動特徴を抽出するために線形還元法を用いる。 その後,特徴を拡張して新たな行動を生成し,トップk行動を選択するための2つの多様性計測を提案する。 2つのよく研究された問題領域における新しい手法の性能を示す。 この研究は、オープン人工知能の世界における未知の未知を扱うインテリジェントシステムに貢献する。

Modelling other agents' behaviors plays an important role in decision models for interactions among multiple agents. To optimise its own decisions, a subject agent needs to model what other agents act simultaneously in an uncertain environment. However, modelling insufficiency occurs when the agents are competitive and the subject agent can not get full knowledge about other agents. Even when the agents are collaborative, they may not share their true behaviors due to their privacy concerns. In this article, we investigate into diversifying behaviors of other agents in the subject agent's decision model prior to their interactions. Starting with prior knowledge about other agents' behaviors, we use a linear reduction technique to extract representative behavioral features from the known behaviors. We subsequently generate their new behaviors by expanding the features and propose two diversity measurements to select top-K behaviors. We demonstrate the performance of the new techniques in two well-studied problem domains. This research will contribute to intelligent systems dealing with unknown unknowns in an open artificial intelligence world.
翻訳日:2022-03-08 17:52:12 公開日:2022-03-06
# 自己監督型カテゴリーレベルオブジェクトマップとサイズ推定に向けて

Towards Self-Supervised Category-Level Object Pose and Size Estimation ( http://arxiv.org/abs/2203.02884v1 )

ライセンス: Link先を確認
Yisheng He, Haoqiang Fan, Haibin Huang, Qifeng Chen, Jian Sun(参考訳) 本研究では,一深度画像からカテゴリレベルのオブジェクトポーズとサイズ推定を行う自己教師型フレームワークを提案する。 時間と労働集約的な真実に依存する以前の研究と異なり、我々は同じ形状の点雲に存在する幾何的整合性を利用して自己監督を行う。 具体的には、対象座標系における正規化カテゴリテンプレートメッシュとシーン内の部分的に観測されたオブジェクトインスタンスを与えられた場合、予測と観測されたシーンオブジェクトポイントクラウド間の幾何学的一貫性を強制するために、微分可能な形状変形、登録、レンダリングを適用することが重要となる。 実世界のデータセットに対する我々のアプローチを評価し、我々のアプローチが、完全な教師付きアプローチと競合しながら、従来の単純なベースラインを大きなマージンで上回っていることを見出します。

This work presents a self-supervised framework for category-level object pose and size estimation from a single depth image. Unlike previous works that rely on time-consuming and labor-intensive ground truth pose labels for supervision, we leverage the geometric consistency residing in point clouds of the same shape for self-supervision. Specifically, given a normalized category template mesh in the object-coordinate system and the partially observed object instance in the scene, our key idea is to apply differentiable shape deformation, registration, and rendering to enforce geometric consistency between the predicted and the observed scene object point cloud. We evaluate our approach on real-world datasets and find that our approach outperforms the simple traditional baseline by large margins while being competitive with some fully-supervised approaches.
翻訳日:2022-03-08 17:44:52 公開日:2022-03-06
# 生体画像のロバストインスタンスセグメンテーションに向けた領域提案

Region Proposal Rectification Towards Robust Instance Segmentation of Biological Images ( http://arxiv.org/abs/2203.02846v1 )

ライセンス: Link先を確認
Qilong Zhangli, Jingru Yi, Di Liu, Xiaoxiao He, Zhaoyang Xia, Haiming Tang, He Wang, Mu Zhou, Dimitris Metaxas(参考訳) トップダウンのインスタンスセグメンテーションフレームワークは、ボトムアップフレームワークと比較してオブジェクト検出の優位性を示している。 オーバセグメンテーションに対処するのに効率的だが、トップダウンインスタンスのセグメンテーションはオーバークロップの問題に苦しむ。 しかし、形状や体積などの重要な形態特性を提供するため、生体画像解析には完全なセグメンテーションマスクが不可欠である。 本稿では,この課題に対処する領域提案修正(RPR)モジュールを提案する。 特に、近辺情報を一連のROIに徐々に導入するプログレッシブROIAlignモジュールを提供する。 ROI機能は、提案ボックスの回帰のために注意深いフィードフォワードネットワーク(FFN)にフィードされる。 さらに,提案するrprモジュールは,領域提案位置の補正が著しく向上し,最先端のベースライン手法と比較して,3つの生体画像データセットにおいて好適なインスタンス分割性能を示す。 実験により,提案モジュールはアンカーベースおよびアンカーフリーなトップダウンインスタンスセグメンテーション手法の両方において有効であることが示され,提案手法が生物画像の一般的なトップダウンインスタンスセグメンテーションに適用可能であることが示唆された。

Top-down instance segmentation framework has shown its superiority in object detection compared to the bottom-up framework. While it is efficient in addressing over-segmentation, top-down instance segmentation suffers from over-crop problem. However, a complete segmentation mask is crucial for biological image analysis as it delivers important morphological properties such as shapes and volumes. In this paper, we propose a region proposal rectification (RPR) module to address this challenging incomplete segmentation problem. In particular, we offer a progressive ROIAlign module to introduce neighbor information into a series of ROIs gradually. The ROI features are fed into an attentive feed-forward network (FFN) for proposal box regression. With additional neighbor information, the proposed RPR module shows significant improvement in correction of region proposal locations and thereby exhibits favorable instance segmentation performances on three biological image datasets compared to state-of-the-art baseline methods. Experimental results demonstrate that the proposed RPR module is effective in both anchor-based and anchor-free top-down instance segmentation approaches, suggesting the proposed method can be applied to general top-down instance segmentation of biological images.
翻訳日:2022-03-08 17:20:34 公開日:2022-03-06
# 弱教師付き意味セグメンテーションのためのマルチクラストークントランスフォーマ

Multi-class Token Transformer for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2203.02891v1 )

ライセンス: Link先を確認
Lian Xu, Wanli Ouyang, Mohammed Bennamoun, Farid Boussaid, Dan Xu(参考訳) 本稿では,クラス固有のオブジェクトローカライゼーションマップを,wsss (weakly supervised semantic segmentation) のための擬似ラベルとして学習するためのトランスフォーマティブベースフレームワークを提案する。 標準視覚変換器の1クラストークンの付随領域を利用してクラス非依存のローカライゼーションマップを作成できることに着想を得て,トランスフォーマーモデルが,トランスフォーマー内の複数のクラストークンを学習することで,より識別性の高いオブジェクトローカライゼーションのために,クラス固有の注意を効果的に捉えることができるかどうかを検討する。 そこで本研究では,MCTformerと呼ばれるマルチクラストークン変換器を提案し,複数のクラストークンを用いて,クラストークンとパッチトークン間のインタラクションを学習する。 提案したMCTformerは,異なるクラストークンに対応するクラス間アテンションから,クラス別オブジェクトローカライゼーションマップを作成できる。 また,patch-to-patch変圧器の注意から抽出したパッチレベルのペアワイズ親和性を用いて,局在マップをさらに洗練することを提案する。 さらに,提案フレームワークは,クラス活性化マッピング(CAM)手法を完全に補完し,PASCAL VOCおよびMS COCOデータセット上でのWSSS結果が極めて優れていることを示す。 これらの結果は、WSSSのクラストークンの重要性を浮き彫りにする。

This paper proposes a new transformer-based framework to learn class-specific object localization maps as pseudo labels for weakly supervised semantic segmentation (WSSS). Inspired by the fact that the attended regions of the one-class token in the standard vision transformer can be leveraged to form a class-agnostic localization map, we investigate if the transformer model can also effectively capture class-specific attention for more discriminative object localization by learning multiple class tokens within the transformer. To this end, we propose a Multi-class Token Transformer, termed as MCTformer, which uses multiple class tokens to learn interactions between the class tokens and the patch tokens. The proposed MCTformer can successfully produce class-discriminative object localization maps from class-to-patch attentions corresponding to different class tokens. We also propose to use a patch-level pairwise affinity, which is extracted from the patch-to-patch transformer attention, to further refine the localization maps. Moreover, the proposed framework is shown to fully complement the Class Activation Mapping (CAM) method, leading to remarkably superior WSSS results on the PASCAL VOC and MS COCO datasets. These results underline the importance of the class token for WSSS.
翻訳日:2022-03-08 17:20:15 公開日:2022-03-06
# 弱教師付きセマンティックセグメンテーションのための自己教師付き画像特異的プロトタイプ探索

Self-supervised Image-specific Prototype Exploration for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2203.02909v1 )

ライセンス: Link先を確認
Qi Chen, Lingxiao Yang, Jianhuang Lai, Xiaohua Xie(参考訳) 画像レベルのラベルに基づくWSSS(Weakly Supervised Semantic Segmentation)は,アノテーションコストの低さから注目されている。 既存の手法では、画像画素と分類子重みの相関を測定するクラスアクティベーションマッピング(cam)に依存することが多い。 しかし、分類器は識別領域のみに焦点を当て、画像内の他の有用な情報を無視し、不完全なローカライゼーションマップを生成する。 この問題に対処するために,画像特異的なプロトタイプ探索(IPE)と汎用コンシステンシー(GSC)の損失からなる,画像固有プロトタイプ探索(SIPE)を提案する。 具体的には、全領域をキャプチャする画像のプロトタイプをIPEが作成し、2つのステップで実現した画像特徴CAM(IS-CAM)を作成した。 さらに,一般CAMとIS-CAMの整合性の構築も提案し,特徴表現の最適化とプロトタイプ探査の自己補正能力の向上を図っている。 PASCAL VOC 2012 と MS COCO 2014 のセグメンテーションベンチマークで大規模な実験を行い,画像レベルラベルのみを用いてSIPEが新たな最先端性能を達成することを示す。 コードはhttps://github.com/c henqi1126/sipeで入手できる。

Weakly Supervised Semantic Segmentation (WSSS) based on image-level labels has attracted much attention due to low annotation costs. Existing methods often rely on Class Activation Mapping (CAM) that measures the correlation between image pixels and classifier weight. However, the classifier focuses only on the discriminative regions while ignoring other useful information in each image, resulting in incomplete localization maps. To address this issue, we propose a Self-supervised Image-specific Prototype Exploration (SIPE) that consists of an Image-specific Prototype Exploration (IPE) and a General-Specific Consistency (GSC) loss. Specifically, IPE tailors prototypes for every image to capture complete regions, formed our Image-Specific CAM (IS-CAM), which is realized by two sequential steps. In addition, GSC is proposed to construct the consistency of general CAM and our specific IS-CAM, which further optimizes the feature representation and empowers a self-correction ability of prototype exploration. Extensive experiments are conducted on PASCAL VOC 2012 and MS COCO 2014 segmentation benchmark and results show our SIPE achieves new state-of-the-art performance using only image-level labels. The code is available at https://github.com/c henqi1126/SIPE.
翻訳日:2022-03-08 17:19:52 公開日:2022-03-06
# panformer: パンシャープ化のためのトランスフォーマーベースモデル

PanFormer: a Transformer Based Model for Pan-sharpening ( http://arxiv.org/abs/2203.02916v1 )

ライセンス: Link先を確認
Huanyu Zhou, Qingjie Liu, Yunhong Wang(参考訳) パンシャーピングは、低分解能(LR)マルチスペクトル(MS)画像とそれに対応するパンクロマチック(PAN)画像から高分解能(HR)マルチスペクトル(MS)画像を作成することを目的としている。 近年の深層学習コミュニティにおける新しいファッションに触発されて,パンシャーピングのための新しいトランスフォーマーモデルを提案する。 画像特徴抽出と融合におけるTransformerの可能性を探る。 視覚トランスフォーマーの開発に成功し,パンとmsモダリティからモダリティ特有の特徴を抽出し,スペクトルと空間の特徴をマージするためのクロスアテンションモジュールを適用するために,自己アテンションを備えた2ストリームネットワークを設計した。 パンシャープ画像は、強化された融合特徴から生成される。 GaoFen-2 および WorldView-3 画像に対する大規模な実験により、Transformer ベースのモデルが印象的な結果をもたらし、既存の CNN ベースの手法よりも優れており、これは Transformer をパンシャーピングタスクに導入する大きな可能性を示している。 コードはhttps://github.com/z hysora/panformerで入手できる。

Pan-sharpening aims at producing a high-resolution (HR) multi-spectral (MS) image from a low-resolution (LR) multi-spectral (MS) image and its corresponding panchromatic (PAN) image acquired by a same satellite. Inspired by a new fashion in recent deep learning community, we propose a novel Transformer based model for pan-sharpening. We explore the potential of Transformer in image feature extraction and fusion. Following the successful development of vision transformers, we design a two-stream network with the self-attention to extract the modality-specific features from the PAN and MS modalities and apply a cross-attention module to merge the spectral and spatial features. The pan-sharpened image is produced from the enhanced fused features. Extensive experiments on GaoFen-2 and WorldView-3 images demonstrate that our Transformer based model achieves impressive results and outperforms many existing CNN based methods, which shows the great potential of introducing Transformer to the pan-sharpening task. Codes are available at https://github.com/z hysora/PanFormer.
翻訳日:2022-03-08 17:19:30 公開日:2022-03-06
# 代表的スニペット知識伝播による時間的行動局在の弱化

Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation ( http://arxiv.org/abs/2203.02925v1 )

ライセンス: Link先を確認
Linjiang Huang, Liang Wang, Hongsheng Li(参考訳) 微弱に監督された時間的行動局所化は、行動の時間的境界をローカライズすることを目的としており、同時にビデオレベルのカテゴリラベルのみを用いてカテゴリを識別する。 既存の多くの手法は、分類とローカライゼーションの相違をブリッジするために擬似ラベルを生成するが、通常は擬似ラベル生成に限定した文脈情報のみを使用する。 この問題を軽減するために,代表的要約・伝播フレームワークを提案する。 提案手法では,ビデオスニペット間で情報を伝達し,より優れた擬似ラベルを生成するために,各ビデオ中の代表スニペットをマイニングする。 各ビデオに対して、それぞれの代表スニペットとメモリバンクの代表スニペットが伝播して、イントラおよびイントラビデオ方式で入力機能を更新する。 更新された特徴の時間クラス活性化マップから擬似ラベルを生成し、メインブランチの予測を是正する。 提案手法は,THUMOS14とActivityNet1.3の2つのベンチマークにおける既存手法と比較して優れた性能を示し,THUMOS14の平均mAPは1.2%向上した。

Weakly supervised temporal action localization aims to localize temporal boundaries of actions and simultaneously identify their categories with only video-level category labels. Many existing methods seek to generate pseudo labels for bridging the discrepancy between classification and localization, but usually only make use of limited contextual information for pseudo label generation. To alleviate this problem, we propose a representative snippet summarization and propagation framework. Our method seeks to mine the representative snippets in each video for propagating information between video snippets to generate better pseudo labels. For each video, its own representative snippets and the representative snippets from a memory bank are propagated to update the input features in an intra- and inter-video manner. The pseudo labels are generated from the temporal class activation maps of the updated features to rectify the predictions of the main branch. Our method obtains superior performance in comparison to the existing methods on two benchmarks, THUMOS14 and ActivityNet1.3, achieving gains as high as 1.2% in terms of average mAP on THUMOS14.
翻訳日:2022-03-08 17:19:08 公開日:2022-03-06
# 高精度ジコトモウス画像分割法

Highly Accurate Dichotomous Image Segmentation ( http://arxiv.org/abs/2203.03041v1 )

ライセンス: Link先を確認
Xuebin Qin and Hang Dai and Xiaobin Hu and Deng-Ping Fan and Ling Shao and and Luc Van Gool(参考訳) 本稿では,自然画像から高精度な物体を分割することを目的とした,dichotomous image segmentation(dis)と呼ばれる新しいタスクに関する体系的な研究を行う。 この目的のために我々は,5,470個の高解像度画像(例えば,2K,4K以上の画像)を含むDisdis5Kと呼ばれる最初の大規模データセットを収集した。 すべての画像は、非常にきめ細かいラベルでアノテートされている。 さらに,Disdisモデルトレーニングのための特徴レベルとマスクレベルのガイダンスを併用した,シンプルな中間監視ベースライン(IS-Net)を導入する。 トリックなしでIS-Netは、提案されたdis5Kの様々な最先端ベースラインを上回り、Disdisにおける将来の研究を促進するための一般的な自己学習型の監視ネットワークとなる。 さらに、偽陽性と偽陰性を補正するために必要なマウスクリック操作数を近似するHCE(Human correct efforts)と呼ばれる新しい指標を設計する。 HCEはモデルと現実世界のアプリケーション間のギャップを測定するために使われ、既存のメトリクスを補完することができる。 最後に、最大規模のベンチマークを行い、16の代表的なセグメンテーションモデルを評価し、オブジェクトの複雑さについてより洞察力のある議論を行い、いくつかの潜在的な応用(背景除去、アートデザイン、3D再構成など)を示す。 これらの取り組みの推進は、学術と産業の両方に有望な方向性を開くことができる。 DIS5Kdataset、IS-Netベースライン、HCEメトリック、そして完全なベンチマーク結果をリリースします。

We present a systematic study on a new task called dichotomous image segmentation (DIS), which aims to segment highly accurate objects from natural images. To this end, we collected the first large-scale dataset, called DIS5K, which contains 5,470 high-resolution (e.g., 2K, 4K or larger) images covering camouflaged, salient, or meticulous objects in various backgrounds. All images are annotated with extremely fine-grained labels. In addition, we introduce a simple intermediate supervision baseline (IS-Net) using both feature-level and mask-level guidance for DIS model training. Without tricks, IS-Net outperforms various cutting-edge baselines on the proposed DIS5K, making it a general self-learned supervision network that can help facilitate future research in DIS. Further, we design a new metric called human correction efforts (HCE) which approximates the number of mouse clicking operations required to correct the false positives and false negatives. HCE is utilized to measure the gap between models and real-world applications and thus can complement existing metrics. Finally, we conduct the largest-scale benchmark, evaluating 16 representative segmentation models, providing a more insightful discussion regarding object complexities, and showing several potential applications (e.g., background removal, art design, 3D reconstruction). Hoping these efforts can open up promising directions for both academic and industries. We will release our DIS5Kdataset, IS-Net baseline, HCE metric, and the complete benchmark results.
翻訳日:2022-03-08 17:18:06 公開日:2022-03-06
# 専門的学習によるオンライン健康フォーラムの博士勧告

Doctor Recommendation in Online Health Forums via Expertise Learning ( http://arxiv.org/abs/2203.02932v1 )

ライセンス: Link先を確認
Xiaoxin Lu, Yubo Zhang, Jing Li, Shi Zong(参考訳) 大量の患者クエリがオンラインヘルスフォーラムで毎日生成され、手動の医師が労働集約的なタスクを割り当てる。 そこで本論文では,患者を医師に自動的にペア化するための,医師推薦の新たな課題について検討する。 これまでの推奨作業のほとんどは、過去の行動からターゲットユーザをモデル化することに焦点を当てていますが、プライバシ上の理由から患者のニーズを推測するために、クエリ内の限られた単語のみに依存することができます。 医師モデルでは, 他患者とのプロフィールと過去の対話の併用効果について検討し, 自己学習による対話を探求する。 学習した医師の埋め込みは、患者クエリをマルチヘッドアテンションメカニズムで処理する能力を推定するためにさらに使用される。 実験では、中国のオンライン健康フォーラム「中入義宗」から大規模なデータセットを収集し、私たちのモデルは最先端の結果を示し、医師を特徴づけるためにプロファイルと過去の対話のみを上回ります。

Huge volumes of patient queries are daily generated on online health forums, rendering manual doctor allocation a labor-intensive task. To better help patients, this paper studies a novel task of doctor recommendation to enable automatic pairing of a patient to a doctor with relevant expertise. While most prior work in recommendation focuses on modeling target users from their past behavior, we can only rely on the limited words in a query to infer a patient's needs for privacy reasons. For doctor modeling, we study the joint effects of their profiles and previous dialogues with other patients and explore their interactions via self-learning. The learned doctor embeddings are further employed to estimate their capabilities of handling a patient query with a multi-head attention mechanism. For experiments, a large-scale dataset is collected from Chunyu Yisheng, a Chinese online health forum, where our model exhibits the state-of-the-art results, outperforming baselines only consider profiles and past dialogues to characterize a doctor.
翻訳日:2022-03-08 17:09:54 公開日:2022-03-06
# 2022年ロシア・ウクライナ危機のTwitterデータセット

Twitter Dataset for 2022 Russo-Ukrainian Crisis ( http://arxiv.org/abs/2203.02955v1 )

ライセンス: Link先を確認
Ehsan-Ul Haq, Gareth Tyson, Lik-Hang Lee, Tristan Braud, Pan Hui(参考訳) オンラインソーシャルネットワーク(OSN)は危機時の情報共有において重要な役割を担っている。 このような危機で収集されたデータは、大規模な世論や感情を反映することができる。 さらにOSNデータは、さまざまな団体が公共の意見を収集するために使用するさまざまなキャンペーンの研究にも使用することができる。 このような情報共有キャンペーンは、事実情報の拡散からプロパガンダや誤情報まで幅広い。 我々は2022年のロシア・ウクライナ紛争のtwitterデータセットを提供している。 最初のリリースでは、危機の1週間にシェアされたツイートが660万以上あった。

Online Social Networks (OSNs) play a significant role in information sharing during a crisis. The data collected during such a crisis can reflect the large scale public opinions and sentiment. In addition, OSN data can also be used to study different campaigns that are employed by various entities to engineer public opinions. Such information sharing campaigns can range from spreading factual information to propaganda and misinformation. We provide a Twitter dataset of the 2022 Russo-Ukrainian conflict. In the first release, we share over 1.6 million tweets shared during the 1st week of the crisis.
翻訳日:2022-03-08 17:09:35 公開日:2022-03-06
# 因子化可能なジョイントシフトによる領域適応

Domain Adaptation with Factorizable Joint Shift ( http://arxiv.org/abs/2203.02902v1 )

ライセンス: Link先を確認
Hao He, Yuzhe Yang, Hao Wang(参考訳) 既存のドメイン適応(DA)は通常、ドメインシフトは共変量またはラベルから生じると仮定する。 しかし、現実世界のアプリケーションでは、異なるドメインから選択されたサンプルは、共変量とラベルの両方にバイアスを持つ可能性がある。 本稿では,共変量およびラベルにおけるサンプリングバイアスの共存を扱うための新しい仮定であるFacterizable Joint Shift (FJS)を提案する。 双方からのシフトを許容する一方で、FJSは2つの要因間のバイアスの独立を前提としている。 我々は、FJSがいつ以前の仮定に縮退し、いつ必要になるかについて、理論的、実証的な理解を提供する。 さらに,教師付き領域適応と教師なし領域適応の両面において,共同重要度推定を行うための識別学習目的であるJA(Joint Importance Aligning)を提案する。 提案手法は既存の領域適応アルゴリズムにシームレスに組み込むことで,トレーニングデータの重み付けと重要度を推定できる。 合成データセットの実験は,本手法の利点を実証している。

Existing domain adaptation (DA) usually assumes the domain shift comes from either the covariates or the labels. However, in real-world applications, samples selected from different domains could have biases in both the covariates and the labels. In this paper, we propose a new assumption, Factorizable Joint Shift (FJS), to handle the co-existence of sampling bias in covariates and labels. Although allowing for the shift from both sides, FJS assumes the independence of the bias between the two factors. We provide theoretical and empirical understandings about when FJS degenerates to prior assumptions and when it is necessary. We further propose Joint Importance Aligning (JIA), a discriminative learning objective to obtain joint importance estimators for both supervised and unsupervised domain adaptation. Our method can be seamlessly incorporated with existing domain adaptation algorithms for better importance estimation and weighting on the training data. Experiments on a synthetic dataset demonstrate the advantage of our method.
翻訳日:2022-03-08 17:09:07 公開日:2022-03-06
# データ離散化のためのコアセットと正弦波フィッティング

Coresets for Data Discretization and Sine Wave Fitting ( http://arxiv.org/abs/2203.03009v1 )

ライセンス: Link先を確認
Alaa Maalouf and Murad Tukan and Eric Price and Daniel Kane and Dan Feldman(参考訳) emph{monitoring}問題では、入力は、センサー(gpsや人間の心拍数など)から得られる$[n]:=\{1,\cdots,n\}$の整数の無制限ストリーム$p={p_1,p_2\cdots}$である。 例えば、異常検出のためのゴールは、これまで$P$で受け取った$n$ポイントを単一の周波数$\sin$、例えば$\min_{c\in C} Cost(P,c)+\lambda(c)$、$cost(P,c)=\sum_{i=1}^n \sin^2(\frac{2\pi}{N} p_ic)$、$C\subseteq [N]$ で近似することであり、$\lambda$ は与えられた正規化関数である。 任意の近似誤差$\varepsilon>0$に対して、 \emph{every} set $p$ of $n$ integers が$|s|\in o(\log(n)^{o(1)})$ の重み付き部分集合 $s\subseteq p$(時々core-setと呼ばれる)を持つことが証明され、これは$cost(p,c)$(すべての$c\in [n]$) から$\pm\varepsilon$ の乗算係数まで近似する。 これは、既知のコアセット技術を用いて、$O((\log(N)\log(n))^{O(1)})$メモリを使用するストリーミングアルゴリズムを意味する。 我々の結果は大きな機能のファミリーを支えている。 実験結果とオープンソースコードが提供されている。

In the \emph{monitoring} problem, the input is an unbounded stream $P={p_1,p_2\cdots}$ of integers in $[N]:=\{1,\cdots,N\}$, that are obtained from a sensor (such as GPS or heart beats of a human). The goal (e.g., for anomaly detection) is to approximate the $n$ points received so far in $P$ by a single frequency $\sin$, e.g. $\min_{c\in C}cost(P,c)+\lambda(c)$, where $cost(P,c)=\sum_{i=1}^n \sin^2(\frac{2\pi}{N} p_ic)$, $C\subseteq [N]$ is a feasible set of solutions, and $\lambda$ is a given regularization function. For any approximation error $\varepsilon>0$, we prove that \emph{every} set $P$ of $n$ integers has a weighted subset $S\subseteq P$ (sometimes called core-set) of cardinality $|S|\in O(\log(N)^{O(1)})$ that approximates $cost(P,c)$ (for every $c\in [N]$) up to a multiplicative factor of $1\pm\varepsilon$. Using known coreset techniques, this implies streaming algorithms using only $O((\log(N)\log(n))^{O(1)})$ memory. Our results hold for a large family of functions. Experimental results and open source code are provided.
翻訳日:2022-03-08 17:08:07 公開日:2022-03-06
# RELAXed Multi-Document Summarization のためのマルチドキュメントカバレッジ・リワード

A Multi-Document Coverage Reward for RELAXed Multi-Document Summarization ( http://arxiv.org/abs/2203.02894v1 )

ライセンス: Link先を確認
Jacob Parnell, Inigo Jauregi Unanue and Massimo Piccardi(参考訳) MDS(Multi-document summarization)は近年,新たな専用データセットと有能な言語モデルの提供によって,大きな進歩を遂げている。 しかし、これらのモデルの立証限界は、限定的な参照と単純な最大類似目的に対して訓練されていることである。 他の多くの生成タスクに関して、強化学習(RL)はMDSモデルのトレーニングを改善する可能性を提供しますが、参照サマリーと入力文書の両方を適切に活用するために、慎重に設計された報酬が必要です。 そこで本稿では,ROUGEなどの基準基準基準値と入力文書のカバレッジとのバランスを考慮に入れたMDSベースラインの微調整を提案する。 提案手法の実装には,低分散かつ非バイアスの現代勾配推定器であるRELAX (Grathwohl et al., 2018) を用い, 安定性と計算効率の両立のために, 数ショットスタイルでベースラインを微調整する。 Multi-News と WCEP MDS データセットに対する実験結果から,平均ROUGE スコアが +0.95 pp ,ベースラインが +3.17 pp METEOR スコアが +0.95 pp となった。 さらに、入力された文書のカバレッジが増加し、すべての文書が均等になることを示す。

Multi-document summarization (MDS) has made significant progress in recent years, in part facilitated by the availability of new, dedicated datasets and capacious language models. However, a standing limitation of these models is that they are trained against limited references and with plain maximum-likelihood objectives. As for many other generative tasks, reinforcement learning (RL) offers the potential to improve the training of MDS models; yet, it requires a carefully-designed reward that can ensure appropriate leverage of both the reference summaries and the input documents. For this reason, in this paper we propose fine-tuning an MDS baseline with a reward that balances a reference-based metric such as ROUGE with coverage of the input documents. To implement the approach, we utilize RELAX (Grathwohl et al., 2018), a contemporary gradient estimator which is both low-variance and unbiased, and we fine-tune the baseline in a few-shot style for both stability and computational efficiency. Experimental results over the Multi-News and WCEP MDS datasets show significant improvements of up to +0.95 pp average ROUGE score and +3.17 pp METEOR score over the baseline, and competitive results with the literature. In addition, they show that the coverage of the input documents is increased, and evenly across all documents.
翻訳日:2022-03-08 16:23:04 公開日:2022-03-06
# split and conquer: キーワードとインテントを区別したテキスト意味マッチング

Divide and Conquer: Text Semantic Matching with Disentangled Keywords and Intents ( http://arxiv.org/abs/2203.02898v1 )

ライセンス: Link先を確認
Yicheng Zou, Hongwei Liu, Tao Gui, Junzhe Wang, Qi Zhang, Meng Tang, Haixiang Li, Daniel Wang(参考訳) テキスト意味マッチングは,コミュニティの質問応答や情報検索,レコメンデーションなど,さまざまなシナリオで広く使用されている基本的なタスクである。 ほとんどの最先端マッチングモデル、例えばBERTは、各単語を一様に処理することで直接テキスト比較を行う。 しかし、問合せ文は一般に、粒度が一致する異なるレベルを求める内容を含む。 具体的には、キーワードは厳密に一致すべきアクション、エンティティ、イベントなどの事実情報を表現し、インテントは様々な表現に言い換えられる抽象概念やアイデアを伝達する。 本研究では,キーワードを意図から切り離すことにより,テキストセマンティックマッチングのための簡易かつ効果的な学習手法を提案する。 私たちのアプローチは、推論効率に影響を与えることなく、事前学習された言語モデル(plm)と簡単に組み合わせることができ、3つのベンチマークで幅広いplmに対して安定したパフォーマンス改善を達成できます。

Text semantic matching is a fundamental task that has been widely used in various scenarios, such as community question answering, information retrieval, and recommendation. Most state-of-the-art matching models, e.g., BERT, directly perform text comparison by processing each word uniformly. However, a query sentence generally comprises content that calls for different levels of matching granularity. Specifically, keywords represent factual information such as action, entity, and event that should be strictly matched, while intents convey abstract concepts and ideas that can be paraphrased into various expressions. In this work, we propose a simple yet effective training strategy for text semantic matching in a divide-and-conquer manner by disentangling keywords from intents. Our approach can be easily combined with pre-trained language models (PLM) without influencing their inference efficiency, achieving stable performance improvements against a wide range of PLMs on three benchmarks.
翻訳日:2022-03-08 16:22:39 公開日:2022-03-06
# 条件付きバイリンガル相互情報に基づくニューラルマシン翻訳のための適応学習

Conditional Bilingual Mutual Information Based Adaptive Training for Neural Machine Translation ( http://arxiv.org/abs/2203.02951v1 )

ライセンス: Link先を確認
Songming Zhang, Yijin Liu, Fandong Meng, Yufeng Chen, Jinan Xu, Jian Liu and Jie Zhou(参考訳) トークンレベルの適応トレーニングアプローチは、特定の統計指標(トークン頻度や相互情報など)に基づいて異なるターゲットトークンの損失を再重み付けすることにより、トークンの不均衡問題を緩和し、ニューラルネットワーク翻訳を改善することができる。 標準翻訳モデルが以前のターゲットコンテキストの条件で予測を行うことを考えると、上記の統計指標はターゲットコンテキスト情報を無視し、ターゲットトークンに不適切な重みを割り当てる可能性がある。 1つの解決策は、これらの統計指標にターゲットコンテキストを直接取り込むことであるが、ターゲットコンテキスト対応の統計計算は非常に高価であり、対応するストレージオーバーヘッドは非現実的である。 以上の課題を解決するために,CBMI (Consulal Bilingual mutual information) という目標コンテキスト対応のメトリクスを提案する。 特に,条件付きジョイント分布を分解することにより,翻訳モデルの確率と言語モデルの確率のログ商として定式化することができる。 したがって、CBMIは、事前の統計計算や大きな記憶オーバーヘッドなしに、モデルトレーニング中に効率的に計算することができる。 さらに,トークンレベルのCBMIと文レベルのCBMIの両方に基づく効果的な適応学習手法を提案する。 WMT14英語-ドイツ語およびWMT19中国語-英語タスクの実験結果から,我々の手法はTransformerベースラインおよび他の関連手法よりも優れていることが示された。

Token-level adaptive training approaches can alleviate the token imbalance problem and thus improve neural machine translation, through re-weighting the losses of different target tokens based on specific statistical metrics (e.g., token frequency or mutual information). Given that standard translation models make predictions on the condition of previous target contexts, we argue that the above statistical metrics ignore target context information and may assign inappropriate weights to target tokens. While one possible solution is to directly take target contexts into these statistical metrics, the target-context-aware statistical computing is extremely expensive, and the corresponding storage overhead is unrealistic. To solve the above issues, we propose a target-context-aware metric, named conditional bilingual mutual information (CBMI), which makes it feasible to supplement target context information for statistical metrics. Particularly, our CBMI can be formalized as the log quotient of the translation model probability and language model probability by decomposing the conditional joint distribution. Thus CBMI can be efficiently calculated during model training without any pre-specific statistical calculations and large storage overhead. Furthermore, we propose an effective adaptive training approach based on both the token- and sentence-level CBMI. Experimental results on WMT14 English-German and WMT19 Chinese-English tasks show our approach can significantly outperform the Transformer baseline and other related methods.
翻訳日:2022-03-08 16:22:23 公開日:2022-03-06
# インシシシトな談話関係認識に関する調査

A Survey of Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2203.02982v1 )

ライセンス: Link先を確認
Wei Xiang and Bang Wang(参考訳) 1つ以上の文を含む談話は、人々が自分の考えや意見を伝えるために日々の課題や出来事を記述する。 文は通常、複数のテキストセグメントで構成されているため、会話のテーマの正しい理解は、テキストセグメント間の関係を考慮する必要がある。 関係を伝えるために生のテキストに接続性が存在する場合もあるが、2つのテキストセグメントの間に接続性がない場合が多いが、それらの間に暗黙的な関係が存在する場合が多い。 暗黙的談話関係認識(IDRR)の課題は、暗黙的関係を検出し、接続性のない2つのテキストセグメント間でその感覚を分類することである。 実際、IDRRタスクは、テキスト要約や機械翻訳など、下流のさまざまな自然言語処理タスクにとって重要である。 この記事では、IDRRタスクに関する包括的で最新の調査を提供する。 まず、この分野で広く使われているタスク定義とデータソースをまとめます。 我々は,IDRRタスクに対する主要なソリューションアプローチを開発履歴の観点から分類する。 それぞれの解のカテゴリにおいて,その起源,アイデア,強み,弱みを含む最も代表的な方法を提示し,分析する。 また,標準データ処理手法を用いて公開コーパス上で実験したソリューションの性能比較を行った。 最後に, 談話関係分析の今後の研究方向について述べる。

A discourse containing one or more sentences describes daily issues and events for people to communicate their thoughts and opinions. As sentences are normally consist of multiple text segments, correct understanding of the theme of a discourse should take into consideration of the relations in between text segments. Although sometimes a connective exists in raw texts for conveying relations, it is more often the cases that no connective exists in between two text segments but some implicit relation does exist in between them. The task of implicit discourse relation recognition (IDRR) is to detect implicit relation and classify its sense between two text segments without a connective. Indeed, the IDRR task is important to diverse downstream natural language processing tasks, such as text summarization, machine translation and so on. This article provides a comprehensive and up-to-date survey for the IDRR task. We first summarize the task definition and data sources widely used in the field. We categorize the main solution approaches for the IDRR task from the viewpoint of its development history. In each solution category, we present and analyze the most representative methods, including their origins, ideas, strengths and weaknesses. We also present performance comparisons for those solutions experimented on a public corpus with standard data processing procedures. Finally, we discuss future research directions for discourse relation analysis.
翻訳日:2022-03-08 16:22:00 公開日:2022-03-06
# 機械学習による混合整数プログラミングの解法に関する調査

A Survey for Solving Mixed Integer Programming via Machine Learning ( http://arxiv.org/abs/2203.02878v1 )

ライセンス: Link先を確認
Jiayi Zhang and Chang Liu and Junchi Yan and Xijun Li and Hui-Ling Zhen and Mingxuan Yuan(参考訳) 本稿では,混合整数プログラミング(MIP)問題に対する機械学習の活用の動向について検討する。 理論的には、MIPはNPハード問題であり、組合せ最適化(CO)問題のほとんどは、MIPとして定式化することができる。 他のCO問題と同様に、MIPのための人間設計のヒューリスティックアルゴリズムは優れた初期解に依存し、多くの計算資源を消費する。 したがって,MLを拡張した手法は,過去のデータから典型的なパターンをベースとしたソリューションを提供することができるため,機械学習手法をMIPの解法に適用することを検討する。 本稿では、まず、MIPの定式化とプリミナリーと、MIPを解くための伝統的なアルゴリズムを紹介する。 そして、機械学習とMIPの異なる統合を促進し、関連する学習に基づく手法を導入し、正確なアルゴリズムとヒューリスティックアルゴリズムに分類することを提唱する。 最後に,学習型MIP解法の展望,MIP以外の組合せ最適化問題への方向性,従来の解法と機械学習コンポーネントの相互採用を提案する。

This paper surveys the trend of leveraging machine learning to solve mixed integer programming (MIP) problems. Theoretically, MIP is an NP-hard problem, and most of the combinatorial optimization (CO) problems can be formulated as the MIP. Like other CO problems, the human-designed heuristic algorithms for MIP rely on good initial solutions and cost a lot of computational resources. Therefore, we consider applying machine learning methods to solve MIP, since ML-enhanced approaches can provide the solution based on the typical patterns from the historical data. In this paper, we first introduce the formulation and preliminaries of MIP and several traditional algorithms to solve MIP. Then, we advocate further promoting the different integration of machine learning and MIP and introducing related learning-based methods, which can be classified into exact algorithms and heuristic algorithms. Finally, we propose the outlook for learning-based MIP solvers, direction towards more combinatorial optimization problems beyond MIP, and also the mutual embrace of traditional solvers and machine learning components.
翻訳日:2022-03-08 16:19:07 公開日:2022-03-06
# マルチエージェント環境におけるタスクの階層的スケジューリングと実行

Hierarchically Structured Scheduling and Execution of Tasks in a Multi-Agent Environment ( http://arxiv.org/abs/2203.03021v1 )

ライセンス: Link先を確認
Diogo S. Carvalho and Biswa Sengupta(参考訳) 倉庫環境では、タスクが動的に現れる。 したがって、早期に労働力とマッチングするタスク管理システム(例えば、事前の週)は、必ずしも最適ではない。 また、そのようなシステムのアクション空間が急速に大きくなることは、従来のスケジューラにとって重要な問題である。 しかし強化学習は、長期的、しばしばリモートの目標に向けて順次決定する必要がある問題に対処するのに適している。 本研究では,動的倉庫マルチエージェント環境におけるタスクスケジューリングと,その部分的可観測性のみを有する分散エージェントによるそのようなスケジュールの実行という,階層構造を自ら提示する問題に着目する。 本稿では,高レベルスケジューリング問題と低レベルマルチエージェント問題の両方を解決するために,深層強化学習を提案する。 最後に、テスト時に集中化が不可能な場合も考え、作業者はスケジュールがなく、部分的な可観測性しか持たない環境でタスクの実行に協力する方法を学ぶ必要がある。

In a warehouse environment, tasks appear dynamically. Consequently, a task management system that matches them with the workforce too early (e.g., weeks in advance) is necessarily sub-optimal. Also, the rapidly increasing size of the action space of such a system consists of a significant problem for traditional schedulers. Reinforcement learning, however, is suited to deal with issues requiring making sequential decisions towards a long-term, often remote, goal. In this work, we set ourselves on a problem that presents itself with a hierarchical structure: the task-scheduling, by a centralised agent, in a dynamic warehouse multi-agent environment and the execution of one such schedule, by decentralised agents with only partial observability thereof. We propose to use deep reinforcement learning to solve both the high-level scheduling problem and the low-level multi-agent problem of schedule execution. Finally, we also conceive the case where centralisation is impossible at test time and workers must learn how to cooperate in executing the tasks in an environment with no schedule and only partial observability.
翻訳日:2022-03-08 15:59:21 公開日:2022-03-06
# 顕微鏡画像からの寄生卵の検出と新しいデータセットの出現

Detection of Parasitic Eggs from Microscopy Images and the emergence of a new dataset ( http://arxiv.org/abs/2203.02940v1 )

ライセンス: Link先を確認
Perla Mayo, Nantheera Anantrasirichai, Thanarat H. Chalidabhongse, Duangdao Palasuwan and Alin Achim(参考訳) 顕微鏡画像における寄生卵の自動検出は、人間の専門家の効率を高めると同時に、客観的評価を提供する可能性がある。 このようなプロセスで節約される時間は、患者に迅速な治療を確実にし、専門家の肩から過剰な作業をオフロードするのに役立ちます。 ディープラーニングの進歩は、成功したアーキテクチャを検出に活用し、異なるドメインに取り組むように適応するきっかけとなりました。 我々は,この2つの最先端モデルを利用するフレームワークを提案する。 具体的には,画質の異なる顕微鏡画像に対して,GAN(Generative Adversarial Network)とFaster-RCNN(Faster-R CNN)による画像強調とオブジェクト検出の結果を示す。 これらの技術を用いることで結果が促進されるが、検出が困難である特定の卵種にはさらなる改良が必要である。 その結果、新しいデータセットが作成され、公開され、より広い範囲のクラスと可変性を提供する。

Automatic detection of parasitic eggs in microscopy images has the potential to increase the efficiency of human experts whilst also providing an objective assessment. The time saved by such a process would both help ensure a prompt treatment to patients, and off-load excessive work from experts' shoulders. Advances in deep learning inspired us to exploit successful architectures for detection, adapting them to tackle a different domain. We propose a framework that exploits two such state-of-the-art models. Specifically, we demonstrate results produced by both a Generative Adversarial Network (GAN) and Faster-RCNN, for image enhancement and object detection respectively, on microscopy images of varying quality. The use of these techniques yields encouraging results, though further improvements are still needed for certain egg types whose detection still proves challenging. As a result, a new dataset has been created and made publicly available, providing an even wider range of classes and variability.
翻訳日:2022-03-08 15:55:19 公開日:2022-03-06
# マルチエージェントフェデレーション学習のための完全分散型スケーラブルガウスプロセス

Fully Decentralized, Scalable Gaussian Processes for Multi-Agent Federated Learning ( http://arxiv.org/abs/2203.02865v1 )

ライセンス: Link先を確認
George P. Kontoudis, Daniel J. Stilwell(参考訳) 本稿では,マルチエージェントシステムにおけるgaussian process (gp) トレーニングと予測のための分散・スケーラブルなアルゴリズムを提案する。 GPトレーニング最適化アルゴリズムの実装を分散化するために,乗算器の交互方向法(ADMM)を用いる。 最大推定値を持つGPハイパーパラメータトレーニングの場合, 分散化近位ADMMの閉形式解が提供される。 GP予測のための多重集約技術は反復法とコンセンサス法を用いて分散化される。 さらに,エージェントのサブセットが予測を行うことを可能にする共分散に基づく近接近傍選択戦略を提案する。 提案手法の有効性は,合成データおよび実データに対する数値実験によって示される。

In this paper, we propose decentralized and scalable algorithms for Gaussian process (GP) training and prediction in multi-agent systems. To decentralize the implementation of GP training optimization algorithms, we employ the alternating direction method of multipliers (ADMM). A closed-form solution of the decentralized proximal ADMM is provided for the case of GP hyper-parameter training with maximum likelihood estimation. Multiple aggregation techniques for GP prediction are decentralized with the use of iterative and consensus methods. In addition, we propose a covariance-based nearest neighbor selection strategy that enables a subset of agents to perform predictions. The efficacy of the proposed methods is illustrated with numerical experiments on synthetic and real data.
翻訳日:2022-03-08 15:52:44 公開日:2022-03-06
# ベイズモデル非依存メタ学習はモデル非依存メタ学習より優れているか?

Is Bayesian Model-Agnostic Meta Learning Better than Model-Agnostic Meta Learning, Provably? ( http://arxiv.org/abs/2203.03059v1 )

ライセンス: Link先を確認
Lisha Chen, Tianyi Chen(参考訳) メタ学習は、目に見えないタスクに素早く適応できるモデルを学ぶことを目的としている。 広く使われているメタラーニングには、モデル非依存メタラーニング(MAML)、暗黙のMAML、ベイズ的MAMLなどがある。 不確実性をモデル化する能力のおかげで、ベイジアンMAMLはしばしば有利な経験的性能を持つ。 しかし、ベイジアンMAMLの理論的理解は依然として限られており、特にベイジアンMAMLがMAMLよりも有意に優れた性能を示したのかどうかといった疑問に焦点が当てられている。 本稿では, ベイジアンMAML とベイジアンMAML のメタテストリスクを比較することで, ベイジアンMAML の優位性を理論的に正当化することを目的とする。 メタリニア回帰では,分布非依存型と線形セントロイド型の両方の場合において,ベイジアンMAMLがMAMLよりも有意に低いメタテストリスクがあることが確認された。 実験を通じて理論結果を検証します。

Meta learning aims at learning a model that can quickly adapt to unseen tasks. Widely used meta learning methods include model agnostic meta learning (MAML), implicit MAML, Bayesian MAML. Thanks to its ability of modeling uncertainty, Bayesian MAML often has advantageous empirical performance. However, the theoretical understanding of Bayesian MAML is still limited, especially on questions such as if and when Bayesian MAML has provably better performance than MAML. In this paper, we aim to provide theoretical justifications for Bayesian MAML's advantageous performance by comparing the meta test risks of MAML and Bayesian MAML. In the meta linear regression, under both the distribution agnostic and linear centroid cases, we have established that Bayesian MAML indeed has provably lower meta test risks than MAML. We verify our theoretical results through experiments.
翻訳日:2022-03-08 15:27:15 公開日:2022-03-06
# 深層ニューラルネットワークにおける解釈可能性と摂動アーティファクトの評価

Evaluation of Interpretability Methods and Perturbation Artifacts in Deep Neural Networks ( http://arxiv.org/abs/2203.02928v1 )

ライセンス: Link先を確認
Lennart Brocki, Neo Christopher Chung(参考訳) ディープニューラルネットワークから予測を解釈するという課題は、多くの解釈可能性手法の開発を促した。 多くの解釈可能性法は、クラス確率に関して入力特徴の重要性を定量化しようと試み、重要推定器または正則写像と呼ばれる。 このような解釈可能性を評価するための一般的なアプローチは、予測に重要な入力特徴を摂動させ、精度の低下を観測することである。 しかし、摂動に基づく評価手法は精度劣化の原因を解明する可能性がある。 我々は,解釈可能性法の$\textit{fidelity}$と摂動アーティファクトの寄与を経験的に推定する計算実験を行う。 重要度推定器は全て、ROAR(arXiv:1806.1075 8)の発見と矛盾するランダムなベースラインを明らかに上回る。 さらに,本研究の成果を,大部分で一致している作物改良評価フレームワーク(arxiv:1705.07857)と比較した。 本研究は,アーティファクトの影響を推定し,再訓練することなく解釈可能性を評価することができることを示唆する。

The challenge of interpreting predictions from deep neural networks has prompted the development of numerous interpretability methods. Many of interpretability methods attempt to quantify the importance of input features with respect to the class probabilities, and are called importance estimators or saliency maps. A popular approach to evaluate such interpretability methods is to perturb input features deemed important for predictions and observe the decrease in accuracy. However, perturbation-based evaluation methods may confound the sources of accuracy degradation. We conduct computational experiments that allow to empirically estimate the $\textit{fidelity}$ of interpretability methods and the contribution of perturbation artifacts. All considered importance estimators clearly outperform a random baseline, which contradicts the findings of ROAR [arXiv:1806.10758]. We further compare our results to the crop-and-resize evaluation framework [arXiv:1705.07857], which are largely in agreement. Our study suggests that we can estimate the impact of artifacts and thus empirically evaluate interpretability methods without retraining.
翻訳日:2022-03-08 15:22:40 公開日:2022-03-06
# マルチタスク学習のためのサンプルごとのマルチアノテーションのステアリングについて

On Steering Multi-Annotations per Sample for Multi-Task Learning ( http://arxiv.org/abs/2203.02946v1 )

ライセンス: Link先を確認
Yuanze Li, Yiwen Guo, Qizhang Li, Hongzhi Zhang, Wangmeng Zuo(参考訳) マルチタスク学習の研究はコミュニティから大きな注目を集めている。 著しい進歩にもかかわらず、異なるタスクを最適に学ぶという課題はまだ検討されていない。 以前の作業では、異なるタスクの勾配を変更しようとしていた。 しかし、これらの手法はタスク間の関係を主観的に仮定し、修正された勾配はより正確ではないかもしれない。 本稿では、各サンプルがタスクのサブセットをランダムに割り当てるタスクアロケーションアプローチによってこの問題に対処するメカニズムである確率的タスクアロケーション~(sta)を提案する。 さらに,複数回の反復ですべてのタスクを各例に反復割り当てるインターリーブ確率タスク割り当て~(ista)を提案する。 我々は、様々なデータセットやアプリケーション(NYUv2、Cityscapes、COCO)でSTAとISTAを評価し、シーン理解とインスタンスセグメンテーションを行った。 実験の結果,STAとISTAはいずれも最先端の手法よりも優れていた。 コードは利用可能だ。

The study of multi-task learning has drawn great attention from the community. Despite the remarkable progress, the challenge of optimally learning different tasks simultaneously remains to be explored. Previous works attempt to modify the gradients from different tasks. Yet these methods give a subjective assumption of the relationship between tasks, and the modified gradient may be less accurate. In this paper, we introduce Stochastic Task Allocation~(STA), a mechanism that addresses this issue by a task allocation approach, in which each sample is randomly allocated a subset of tasks. For further progress, we propose Interleaved Stochastic Task Allocation~(ISTA) to iteratively allocate all tasks to each example during several consecutive iterations. We evaluate STA and ISTA on various datasets and applications: NYUv2, Cityscapes, and COCO for scene understanding and instance segmentation. Our experiments show both STA and ISTA outperform current state-of-the-art methods. The code will be available.
翻訳日:2022-03-08 15:22:22 公開日:2022-03-06
# MIRROR:人間とロボットのコミュニケーションを支援するソーシャル・プロジェクション

MIRROR: Differentiable Deep Social Projection for Assistive Human-Robot Communication ( http://arxiv.org/abs/2203.02877v1 )

ライセンス: Link先を確認
Kaiqi Chen, Jeffrey Fong, Harold Soh(参考訳) コミュニケーションは知性の目印です。 本稿では、MIRRORというアプローチを提案する。 (i)人間のデモから人間のモデルを素早く学習し、 (ii)補助的な共有制御設定において、後続の通信計画にモデルを用いる。 MIRRORは、人間が他を理解するために自己モデルを使っていると仮定する社会的投射理論に触発されている。 同様に、MIRRORは強化学習を用いて学習した自己モデルを利用して、人間のモデリングをブートストラップする。 シミュレーションされた人間による実験は、このアプローチが既存の行動クローニングや最先端の模倣学習方法と比較して、高速な学習とより堅牢なモデルにつながることを示している。 また,carlaシミュレータを用いたヒト-サブジェクト実験も行った。 (i)MIRRORは高次元の観測と複雑な世界物理学で複雑な領域にスケールすることができる。 (ii) 参加者が悪天候下でより安全に運転できる効果的な補助コミュニケーションを提供する。

Communication is a hallmark of intelligence. In this work, we present MIRROR, an approach to (i) quickly learn human models from human demonstrations, and (ii) use the models for subsequent communication planning in assistive shared-control settings. MIRROR is inspired by social projection theory, which hypothesizes that humans use self-models to understand others. Likewise, MIRROR leverages self-models learned using reinforcement learning to bootstrap human modeling. Experiments with simulated humans show that this approach leads to rapid learning and more robust models compared to existing behavioral cloning and state-of-the-art imitation learning methods. We also present a human-subject study using the CARLA simulator which shows that (i) MIRROR is able to scale to complex domains with high-dimensional observations and complicated world physics and (ii) provides effective assistive communication that enabled participants to drive more safely in adverse weather conditions.
翻訳日:2022-03-08 15:19:25 公開日:2022-03-06
# 空から見る: 予測警察監視のための機械学習に基づくマルチUAVネットワーク

Watch from sky: machine-learning-bas ed multi-UAV network for predictive police surveillance ( http://arxiv.org/abs/2203.02892v1 )

ライセンス: Link先を確認
Ryusei Sugano, Ryoichi Shinkuma, Takayuki Nishio, Sohei Itahara, Narayan B. Mandayam(参考訳) 本稿では,複数の無人航空機 (UAV) が4つの役割,すなわちセンサ,データ転送,コンピューティング,パトロールを果たす,予測型警察監視のための監視・監視フレームワークを提案する。 当社の枠組みは,UAVがデータの収集・配信に有用であり,モビリティが高いため,犯罪抑止を約束する。 我々のフレームワークは、UAVの制御と派遣、犯罪の予測に機械学習(ML)技術に依存している。 本稿では,本フレームワークの概念モデルを文献と比較する。 また、強化学習と分散ML推論を用いたUAVディスパッチのシミュレーションを、損失のあるUAVネットワーク上で報告する。

This paper presents the watch-from-sky framework, where multiple unmanned aerial vehicles (UAVs) play four roles, i.e., sensing, data forwarding, computing, and patrolling, for predictive police surveillance. Our framework is promising for crime deterrence because UAVs are useful for collecting and distributing data and have high mobility. Our framework relies on machine learning (ML) technology for controlling and dispatching UAVs and predicting crimes. This paper compares the conceptual model of our framework against the literature. It also reports a simulation of UAV dispatching using reinforcement learning and distributed ML inference over a lossy UAV network.
翻訳日:2022-03-08 15:19:13 公開日:2022-03-06
# 平均場近似によるマルチエージェント通信の奥行き畳み込み

Depthwise Convolution for Multi-Agent Communication with Enhanced Mean-Field Approximation ( http://arxiv.org/abs/2203.02896v1 )

ライセンス: Link先を確認
Donghan Xie, Zhi Wang, Chunlin Chen, Daoyi Dong(参考訳) マルチエージェント設定は、部分的可観測性とエージェント間の正確なリアルタイムインタラクションの欠如のため、強化学習(rl)ドメインにおける基本的な課題である。 本稿では,多数のエージェントが共存するマルチエージェントRL(MARL)課題に取り組むための,ローカル通信学習に基づく新しい手法を提案する。 まず,局所的関係を効率的に抽出し,近隣エージェント間の局所的コミュニケーションを学習する深層的畳み込み機能を利用する新しい通信プロトコルを設計する。 マルチエージェント協調を容易にするため,近隣エージェントのポリシーを入力として,共同行動の効果を明確に学習する。 第2に,エージェント相互作用の規模を減らすために,平均場近似を導入する。 隣接エージェントの挙動をより効果的にコーディネートするために,リアルタイムエージェントインタラクションを補正する教師付きポリシー整流ネットワーク(prn)と,近似バイアスを補正するための学習可能な補償項により平均場近似を強化する。 提案手法は,適応交通信号制御 (atsc) タスクや starcraft ii multi-agent challenge (smac) のベースラインアプローチに勝るとともに,効率的なコーディネーションを可能にする。

Multi-agent settings remain a fundamental challenge in the reinforcement learning (RL) domain due to the partial observability and the lack of accurate real-time interactions across agents. In this paper, we propose a new method based on local communication learning to tackle the multi-agent RL (MARL) challenge within a large number of agents coexisting. First, we design a new communication protocol that exploits the ability of depthwise convolution to efficiently extract local relations and learn local communication between neighboring agents. To facilitate multi-agent coordination, we explicitly learn the effect of joint actions by taking the policies of neighboring agents as inputs. Second, we introduce the mean-field approximation into our method to reduce the scale of agent interactions. To more effectively coordinate behaviors of neighboring agents, we enhance the mean-field approximation by a supervised policy rectification network (PRN) for rectifying real-time agent interactions and by a learnable compensation term for correcting the approximation bias. The proposed method enables efficient coordination as well as outperforms several baseline approaches on the adaptive traffic signal control (ATSC) task and the StarCraft II multi-agent challenge (SMAC).
翻訳日:2022-03-08 15:17:48 公開日:2022-03-06
# モデル駆動AIエンジニアリングのための機械学習の自動化

Enabling Automated Machine Learning for Model-Driven AI Engineering ( http://arxiv.org/abs/2203.02927v1 )

ライセンス: Link先を確認
Armin Moin, Ukrit Wattanavaekin, Alexandra Lungu, Moharram Challenger, Atta Badii, Stephan G\"unnemann(参考訳) スマートソフトウェアサービスの開発には、ソフトウェア工学と人工知能(ai)のスキルが必要です。 データサイエンティストのようなAI実践者は、特定のユースケースとデータに基づいて機械学習(ML)モデルの作成とトレーニングを行うなど、AI側に集中することが多い。 それらは一般的に、ソフトウェア開発ライフサイクル全体、システムに対するアーキテクチャ上の決定、予測可能なMLモデル(セキュリティ、プライバシ、スループット、スケーラビリティ、可用性、倫理的、法的、規制上のコンプライアンスなど)を超えたパフォーマンス上の問題に関心がない。 本稿では,モデル駆動型ソフトウェア工学とモデル駆動型AI工学を実現するための新しいアプローチを提案する。 特に、我々はAutomated MLをサポートし、AI集約システムを開発する際に、AIの深い知識のないソフトウェアエンジニアが、タスクに最適なハイパーパラメータを持つ最も適切なMLモデル、アルゴリズム、技術を選択することで支援する。 私たちの研究を検証するために、スマートエネルギー領域でケーススタディを実施します。

Developing smart software services requires both Software Engineering and Artificial Intelligence (AI) skills. AI practitioners, such as data scientists often focus on the AI side, for example, creating and training Machine Learning (ML) models given a specific use case and data. They are typically not concerned with the entire software development life-cycle, architectural decisions for the system and performance issues beyond the predictive ML models (e.g., regarding the security, privacy, throughput, scalability, availability, as well as ethical, legal and regulatory compliance). In this manuscript, we propose a novel approach to enable Model-Driven Software Engineering and Model-Driven AI Engineering. In particular, we support Automated ML, thus assisting software engineers without deep AI knowledge in developing AI-intensive systems by choosing the most appropriate ML model, algorithm and techniques with suitable hyper-parameters for the task at hand. To validate our work, we carry out a case study in the smart energy domain.
翻訳日:2022-03-08 15:17:23 公開日:2022-03-06
# モデル自由な非対称行列分解におけるアルゴリズム正規化

Algorithmic Regularization in Model-free Overparametrized Asymmetric Matrix Factorization ( http://arxiv.org/abs/2203.02839v1 )

ライセンス: Link先を確認
Liwei Jiang, Yudong Chen, Lijun Ding(参考訳) 任意の過パラメータ化を伴う自然な非凸定式化の下で、非対称行列分解問題を研究する。 我々は、観測された行列の階数や特異値についてこれ以上仮定せずにモデルなしの設定を考える。 ランダムな初期化と初期停止を伴うバニラ勾配降下は、追加の正規化を伴わずに観測行列の最も低いランク近似を生成する。 イテレーションの複雑さ、初期化サイズ、ステップサイズ、最終的なエラーの関係を鋭く分析します。 特に、我々の複雑性境界はほぼ次元自由であり、最終誤差に対数的に依存し、その結果はステップ化と初期化に寛大な要件を持つ。 我々の限界は既存の作業を改善し、数値実験とよく一致している。

We study the asymmetric matrix factorization problem under a natural nonconvex formulation with arbitrary overparamatrization. We consider the model-free setting with no further assumption on the rank or singular values of the observed matrix, where the global optima provably overfit. We show that vanilla gradient descent with small random initialization and early stopping produces the best low-rank approximation of the observed matrix, without any additional regularization. We provide a sharp analysis on relationship between the iteration complexity, initialization size, stepsize and final error. In particular, our complexity bound is almost dimension-free and depends logarithmically on the final error, and our results have lenient requirements on the stepsize and initialization. Our bounds improve upon existing work and show good agreement with numerical experiments.
翻訳日:2022-03-08 15:14:07 公開日:2022-03-06
# 輸送予測問題における定常性, 強塩基線, ベンチマークの重要性について

On the importance of stationarity, strong baselines and benchmarks in transport prediction problems ( http://arxiv.org/abs/2203.02954v1 )

ライセンス: Link先を確認
Filipe Rodrigues(参考訳) 過去数年間、交通コミュニティは時空間予測のための新しい深層学習アプローチに関する膨大な研究成果を目撃してきた。 これらの貢献は、人間の移動パターンのかなり安定的で反復的な性質を無視しながら、空間的相関のモデリングを強調する傾向がある。 本稿では, 平均週次パターンと線形回帰に基づく素案ベースライン法が, 交通機関の時空間予測における最先端の深層学習手法に匹敵する結果が得られること, あるいは複数のデータセットにおいて, 定常性や繰り返しパターンの重要性を, 空間的相関の重要性と対比すること, などを示す。 さらに、時空間予測のための新しいアプローチを比較するために使用できる9つの異なる参照ベンチマークを確立し、ベストプラクティスとこの分野の方向性について議論する。

Over the last years, the transportation community has witnessed a tremendous amount of research contributions on new deep learning approaches for spatio-temporal forecasting. These contributions tend to emphasize the modeling of spatial correlations, while neglecting the fairly stable and recurrent nature of human mobility patterns. In this short paper, we show that a naive baseline method based on the average weekly pattern and linear regression can achieve comparable results to many state-of-the-art deep learning approaches for spatio-temporal forecasting in transportation, or even outperform them on several datasets, thus contrasting the importance of stationarity and recurrent patterns in the data with the importance of spatial correlations. Furthermore, we establish 9 different reference benchmarks that can be used to compare new approaches for spatio-temporal forecasting, and provide a discussion on best practices and the direction that the field is taking.
翻訳日:2022-03-08 15:13:53 公開日:2022-03-06
# 長方形ウィンドウのスムース化は、すべてのタペラした長方形ウィンドウに最適

Smoothing with the Best Rectangle Window is Optimal for All Tapered Rectangle Windows ( http://arxiv.org/abs/2203.02997v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 重み付き最小二乗問題に対する重み付きウィンドウの最適選択について検討する。 重み窓はその中心付近で対称であることを示し、これはピークでもある。 テーパー長方形窓重みのクラスを考えるが、これは中心から遠ざかるものではない。 最適長方形ウィンドウはそのようなウィンドウ定義に最適であることを示す。 また、同様の結果を求めるために、最小の絶対値と任意の損失関数のより一般的なケースにまで結果を拡張する。

We investigate the optimal selection of weight windows for the problem of weighted least squares. We show that weight windows should be symmetric around its center, which is also its peak. We consider the class of tapered rectangle window weights, which are nonincreasing away from the center. We show that the best rectangle window is optimal for such window definitions. We also extend our results to the least absolutes and more general case of arbitrary loss functions to find similar results.
翻訳日:2022-03-08 15:13:35 公開日:2022-03-06
# 消費者信用の動的価格設定のためのオフライン深層強化学習

Offline Deep Reinforcement Learning for Dynamic Pricing of Consumer Credit ( http://arxiv.org/abs/2203.03003v1 )

ライセンス: Link先を確認
Raad Khraishi and Ramin Okhrati(参考訳) オフライン深層学習における最近の進歩を利用した消費者信用の価格設定手法を提案する。 このアプローチは静的データセットに依存しており、機能的な要求形式を前提としない。 消費者信用アプリケーションにおける実データと合成データの両方を用いて、保守的q-learningアルゴリズムを用いたアプローチが、オンラインインタラクションや価格実験なしに、効果的なパーソナライズされた価格ポリシーを学習できることを実証する。

We introduce a method for pricing consumer credit using recent advances in offline deep reinforcement learning. This approach relies on a static dataset and requires no assumptions on the functional form of demand. Using both real and synthetic data on consumer credit applications, we demonstrate that our approach using the conservative Q-Learning algorithm is capable of learning an effective personalized pricing policy without any online interaction or price experimentation.
翻訳日:2022-03-08 15:13:28 公開日:2022-03-06
# 内なる悪魔を解き放つ: 言語モデルのための自己デトキシフィケーション

Leashing the Inner Demons: Self-Detoxification for Language Models ( http://arxiv.org/abs/2203.03072v1 )

ライセンス: Link先を確認
Canwen Xu, Zexue He, Zhankui He, Julian McAuley(参考訳) 言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。 本稿では,この現象を研究するための広範な実験を行う。 我々は,プロンプト,デコード戦略,トレーニングコーパスが出力毒性に与える影響を分析する。 そこで本研究では, 言語モデルに対して, 新たなコーパスや外部判別器を使わずに, 自己を「デトックス化」する簡易かつ効果的な手法を提案する。 教師付きベースラインと比較して, 提案手法は, 複数の条件下で生成したコンテンツの良質な生成品質に優れた毒性低下を示す。 警告: 論文に示されているいくつかの例は、無検閲の攻撃的内容を含んでいるかもしれない。

Language models (LMs) can reproduce (or amplify) toxic language seen during training, which poses a risk to their practical application. In this paper, we conduct extensive experiments to study this phenomenon. We analyze the impact of prompts, decoding strategies and training corpora on the output toxicity. Based on our findings, we propose a simple yet effective method for language models to "detoxify" themselves without an additional large corpus or external discriminator. Compared to a supervised baseline, our proposed method shows better toxicity reduction with good generation quality in the generated content under multiple settings. Warning: some examples shown in the paper may contain uncensored offensive content.
翻訳日:2022-03-08 14:41:18 公開日:2022-03-06
# コグニションを用いたロボットテレプレゼンスと遠隔操作の展望:まだ存在するか?

A Perspective on Robotic Telepresence and Teleoperation using Cognition: Are we there yet? ( http://arxiv.org/abs/2203.02959v1 )

ライセンス: Link先を確認
Hrishav Bakul Barua, Ashis Sau, Ruddra dev Roychoudhury(参考訳) テレプレゼンスと遠隔操作ロボティクスは、過去10年間に大きな注目を集めてきた。 AI(Artificial Intelligence)革命はすでに始まっているので、さまざまなロボットアプリケーションが実現されています。 インテリジェントなロボットシステムは、産業環境と家庭環境の両方に展開されている。 telepresenceは、仮想的あるいはロボットのアバターを介して遠隔地に存在するという考えだ。 同様に、様々なタスクのために遠隔地からロボットを操作することを遠隔操作と呼ぶ。 これらの技術は、医療、教育、監視、災害復旧、そして企業や政府部門において重要な応用例となる。 しかし、成熟度、セキュリティ、安全性についてはまだ疑問が残る。 次世代コンピューティングへのユーザエクスペリエンスの向上や,そのようなテクノロジへの信頼も検討する必要があります。

Telepresence and teleoperation robotics have attracted a great amount of attention in the last 10 years. With the Artificial Intelligence (AI) revolution already being started, we can see a wide range of robotic applications being realized. Intelligent robotic systems are being deployed both in industrial and domestic environments. Telepresence is the idea of being present in a remote location virtually or via robotic avatars. Similarly, the idea of operating a robot from a remote location for various tasks is called teleoperation. These technologies find significant application in health care, education, surveillance, disaster recovery, and corporate/government sectors. But question still remains about their maturity, security and safety levels. We also need to think about enhancing the user experience and trust in such technologies going into the next generation of computing.
翻訳日:2022-03-08 14:38:06 公開日:2022-03-06
# ターゲットの語彙に焦点をあてる:機械翻訳のためのマスケッドラベル平滑化

Focus on the Target's Vocabulary: Masked Label Smoothing for Machine Translation ( http://arxiv.org/abs/2203.02889v1 )

ライセンス: Link先を確認
Liang Chen, Runxin Xu, Baobao Chang(参考訳) ラベル平滑化と語彙共有はニューラルマシン翻訳モデルで広く使われている2つの技術である。 しかし、両方のテクニックを単純に適用することは相反する可能性があり、また、サブ最適性能にも繋がる。 平滑化確率を割り当てるとき、元のラベル平滑化は、ターゲット言語に決して現れないソース側の単語を実際のターゲット側の単語と等しく扱い、翻訳モデルにバイアスを与える。 この問題に対処するために、ソース側単語のソフトラベル確率をゼロに隠蔽する新しいメカニズムであるMasked Label Smoothing (MLS)を提案する。 MLSは単純だが効果的であり、ラベルスムーシングと語彙共有をうまく統合する。 我々の広範な実験により、MLSは、翻訳品質とモデルキャリブレーションの両方からバイリンガルおよび多言語翻訳を含む、異なるデータセット上でスムーズなオリジナルのラベルよりも一貫して改善されていることが示されている。 私たちのコードはhttps://github.com/P KUnlp-icler/MLSでリリースされています。

Label smoothing and vocabulary sharing are two widely used techniques in neural machine translation models. However, we argue that simply applying both techniques can be conflicting and even leads to sub-optimal performance. When allocating smoothed probability, original label smoothing treats the source-side words that would never appear in the target language equally to the real target-side words, which could bias the translation model. To address this issue, we propose Masked Label Smoothing (MLS), a new mechanism that masks the soft label probability of source-side words to zero. Simple yet effective, MLS manages to better integrate label smoothing with vocabulary sharing. Our extensive experiments show that MLS consistently yields improvement over original label smoothing on different datasets, including bilingual and multilingual translation from both translation quality and model's calibration. Our code is released at https://github.com/P KUnlp-icler/MLS
翻訳日:2022-03-08 14:37:44 公開日:2022-03-06
# ニューラルテキスト生成の最近の進歩:タスク非依存調査

Recent Advances in Neural Text Generation: A Task-Agnostic Survey ( http://arxiv.org/abs/2203.03047v1 )

ライセンス: Link先を確認
Chen Tang, Frank Guerin, Yucheng Li and Chenghua Lin(参考訳) 近年、自然言語生成のタスクにニューラルモデルを適用することに多くの努力が注がれている。 課題は、人間のような自然なテキストを生成し、生成プロセスを制御することである。 本稿では,ニューラルテキスト生成の最近の進歩をタスク非依存で調査する。 これらの進歩は、データ構築、ニューラルフレームワーク、トレーニングと推論戦略、評価指標の4つの指針に基づいて、多数の開発によって達成されている。 最後に、ニューラルネットワークや背景知識の活用を含むニューラルテキスト生成の今後の方向性について論じる。

In recent years much effort has been devoted to applying neural models to the task of natural language generation. The challenge is to generate natural human-like text, and to control the generation process. This paper presents a task-agnostic survey of recent advances in neural text generation. These advances have been achieved by numerous developments, which we group under the following four headings: data construction, neural frameworks, training and inference strategies, and evaluation metrics. Finally we discuss the future directions for the development of neural text generation including neural pipelines and exploiting back-ground knowledge.
翻訳日:2022-03-08 14:36:04 公開日:2022-03-06
# 時間文接地のための光流動誘導運動と検出ベース外観の探索

Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for Temporal Sentence Grounding ( http://arxiv.org/abs/2203.02966v1 )

ライセンス: Link先を確認
Daizong Liu, Xiang Fang, Wei Hu, Pan Zhou(参考訳) 時間文の接地は、与えられた文クエリに従って、未トリミングビデオ内の目標セグメントを意味的にローカライズすることを目的としている。 これまでの作品の多くは、ビデオ全体における各フレームのフレームレベルの特徴を学習し、それらをテキスト情報と直接マッチさせる。 このようなフレームレベルの特徴抽出は、複雑な内容と微妙な外観の違いを持つあいまいなビデオフレームを区別する上で、これらの手法の障害となる。 連続するフレーム間の微細な外観類似性を区別するために、いくつかの最先端手法は、冗長な背景内容をフィルタリングするために各フレームに詳細なオブジェクトレベルの特徴を求めるために、Faster R-CNNのような検出モデルを使用する。 しかし、これらの手法は、Faster R-CNNのオブジェクト検出モジュールが時間的モデリングを欠いているため、動作分析に苦しむ。 本稿では,この制約を緩和するために,光フロー制御モーションアウェア,検出ベースアウェア,および3dアウェアオブジェクトレベルの特徴を組み込んだ,連続フレーム間の活動を正確にモデル化するための空間時空間オブジェクト関係の推論を行う新しい3d意味推論ネットワーク(ma3srn)を提案する。 具体的には,まず,動き,外観,および3dエンコーディングのための3つの枝を別々に開発し,細粒度な動き誘導,出現誘導,および3d認識対象の特徴を学習した。 そして、対応する枝からの動作情報と外観情報を関連付けて、最終的な精密接地のための3D認識特徴を強化する。 3つの挑戦的データセット(ActivityNet Caption、Charades-STA、TACoS)に関する大規模な実験は、提案されたMA3SRNモデルが新たな最先端を実現することを実証している。

Temporal sentence grounding aims to localize a target segment in an untrimmed video semantically according to a given sentence query. Most previous works focus on learning frame-level features of each whole frame in the entire video, and directly match them with the textual information. Such frame-level feature extraction leads to the obstacles of these methods in distinguishing ambiguous video frames with complicated contents and subtle appearance differences, thus limiting their performance. In order to differentiate fine-grained appearance similarities among consecutive frames, some state-of-the-art methods additionally employ a detection model like Faster R-CNN to obtain detailed object-level features in each frame for filtering out the redundant background contents. However, these methods suffer from missing motion analysis since the object detection module in Faster R-CNN lacks temporal modeling. To alleviate the above limitations, in this paper, we propose a novel Motion- and Appearance-guided 3D Semantic Reasoning Network (MA3SRN), which incorporates optical-flow-guided motion-aware, detection-based appearance-aware, and 3D-aware object-level features to better reason the spatial-temporal object relations for accurately modelling the activity among consecutive frames. Specifically, we first develop three individual branches for motion, appearance, and 3D encoding separately to learn fine-grained motion-guided, appearance-guided, and 3D-aware object features, respectively. Then, both motion and appearance information from corresponding branches are associated to enhance the 3D-aware features for the final precise grounding. Extensive experiments on three challenging datasets (ActivityNet Caption, Charades-STA and TACoS) demonstrate that the proposed MA3SRN model achieves a new state-of-the-art.
翻訳日:2022-03-08 14:34:38 公開日:2022-03-06
# ViTパッチGANによる染色体ストレート化のロバスト化

A Robust Framework of Chromosome Straightening with ViT-Patch GAN ( http://arxiv.org/abs/2203.02901v1 )

ライセンス: Link先を確認
Sifan Song, Jinfeng Wang, Fengrui Cheng, Qirui Cao, Yihan Zuo, Yongteng Lei, Ruomai Yang, Chunxiao Yang, Frans Coenen, Jia Meng, Kang Dang, Jionglong Su(参考訳) 染色体は、曲率の異なる非剛性および非特異性を示す。 染色体ストレートニングは, その後の核型構築, 病理診断, 細胞遺伝地図形成に必須のステップである。 しかし、トレーニング画像が利用できないこと、ストレート化後の染色体の詳細や形状が歪んだこと、一般化能力の低下など、堅牢な染色体のストレート化は依然として困難である。 動作変換生成器と視覚変換器ベースのパッチ(ViT-Patch)識別器で構成される新しいアーキテクチャであるViT-Patch GANを提案する。 ジェネレータは染色体の運動表現を学習し、ストレート化を行う。 ViT-Patchディスクリミネーターの助けを借りて、ストレート化された染色体はより形状とバンドパターンの詳細を保持する。 提案されたフレームワークは、小さなデータセットでトレーニングされ、2つの大きなデータセットに対して最先端のパフォーマンスで染色体画像をストレートすることができる。

Chromosomes exhibit non-rigid and non-articulated nature with varying degrees of curvature. Chromosome straightening is an essential step for subsequent karyotype construction, pathological diagnosis and cytogenetic map development. However, robust chromosome straightening remains challenging, due to the unavailability of training images, distorted chromosome details and shapes after straightening, as well as poor generalization capability. We propose a novel architecture, ViT-Patch GAN, consisting of a motion transformation generator and a Vision Transformer-based patch (ViT-Patch) discriminator. The generator learns the motion representation of chromosomes for straightening. With the help of the ViT-Patch discriminator, the straightened chromosomes retain more shape and banding pattern details. The proposed framework is trained on a small dataset and is able to straighten chromosome images with state-of-the-art performance for two large datasets.
翻訳日:2022-03-08 14:32:25 公開日:2022-03-06