このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220315となっている論文です。

PDF登録状況(公開日: 20220315)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 大規模言語モデルのテキスト-SQL機能の評価 [全文訳有]

Evaluating the Text-to-SQL Capabilities of Large Language Models ( http://arxiv.org/abs/2204.00498v1 )

ライセンス: CC BY 4.0
Nitarshan Rajkumar, Raymond Li, Dzmitry Bahdanau(参考訳) 我々は,コーデックス言語モデルのテキスト対sql機能に関する経験的評価を行う。 微調整なしでは、CodexはSpiderベンチマークの強力なベースラインであり、この設定でCodexの障害モードも解析する。 さらに、GeoQuery と Scholar のベンチマークでは、プロンプトで提供される少数のドメイン内サンプルによって、Codex は最先端のモデルよりもパフォーマンスが向上することを示した。

We perform an empirical evaluation of Text-to-SQL capabilities of the Codex language model. We find that, without any finetuning, Codex is a strong baseline on the Spider benchmark; we also analyze the failure modes of Codex in this setting. Furthermore, we demonstrate on the GeoQuery and Scholar benchmarks that a small number of in-domain examples provided in the prompt enables Codex to perform better than state-of-the-art models finetuned on such few-shot examples.
翻訳日:2022-04-10 14:20:24 公開日:2022-03-15
# ブロック集合! 大規模構造強化学習による組み立て学習

Blocks Assemble! Learning to Assemble with Large-Scale Structured Reinforcement Learning ( http://arxiv.org/abs/2203.13733v1 )

ライセンス: Link先を確認
Seyed Kamyar Seyed Ghasemipour, Daniel Freeman, Byron David, Shixiang (Shane) Gu, Satoshi Kataoka, Igor Mordatch(参考訳) 多部構成の物理構造の組み立ては、自律ロボット工学にとって価値のある製品であり、エンボディされた知的エージェントのオープンエンドトレーニングのための貴重な診断タスクでもある。 子どものおもちゃのキットにインスパイアされた、接続可能な磁石ブロックのセットを備えた自然主義物理学ベースの環境を導入する。 目標は、ブロックを一連のターゲット青写真に組み立てることである。 この目的の単純さにもかかわらず、一連のブロックから多様な青写真を作る構成的性質は、エージェントが遭遇する構造の複雑さの爆発に繋がる。 さらに、アセンブリはエージェントの多段階計画、物理的推論、二元協調を強調する。 大規模な強化学習とグラフベースのポリシの組み合わせは、追加の複雑さを伴わずに、トレーニングエージェントにとって効果的なレシピであり、ゼロショット方式で複雑な未認識の青写真に一般化するだけでなく、トレーニングを受けることなくリセットフリーの環境でも動作する。 広範な実験を通じて,大規模学習の重要性,構造化表現,マルチタスク対シングルタスク学習の貢献,カリキュラムの効果などを強調し,訓練対象者の質的行動について議論する。

Assembly of multi-part physical structures is both a valuable end product for autonomous robotics, as well as a valuable diagnostic task for open-ended training of embodied intelligent agents. We introduce a naturalistic physics-based environment with a set of connectable magnet blocks inspired by children's toy kits. The objective is to assemble blocks into a succession of target blueprints. Despite the simplicity of this objective, the compositional nature of building diverse blueprints from a set of blocks leads to an explosion of complexity in structures that agents encounter. Furthermore, assembly stresses agents' multi-step planning, physical reasoning, and bimanual coordination. We find that the combination of large-scale reinforcement learning and graph-based policies -- surprisingly without any additional complexity -- is an effective recipe for training agents that not only generalize to complex unseen blueprints in a zero-shot manner, but even operate in a reset-free setting without being trained to do so. Through extensive experiments, we highlight the importance of large-scale training, structured representations, contributions of multi-task vs. single-task learning, as well as the effects of curriculums, and discuss qualitative behaviors of trained agents.
翻訳日:2022-04-03 18:27:39 公開日:2022-03-15
# (参考訳) 混合ARCHモデルによる過大評価と過小評価の低減 [全文訳有]

Reducing overestimating and underestimating volatility via the augmented blending-ARCH model ( http://arxiv.org/abs/2203.12456v1 )

ライセンス: CC BY 4.0
Jun Lu, Shao Yi(参考訳) svr-garchモデルは、金融時系列のボラティリティを予測する際には、従来のボラティリティを逸脱して単に予測を生成する傾向があります。 SVR-GARCHモデルは様々な性能測定において優れた性能を保っているが、時系列におけるトレーディング機会、ピークまたはトラフの挙動はすべて、ボラティリティの過小評価や過大評価によって妨げられている。 本稿では,このような問題を克服し,より優れたピークやトラフ動作を予測するためのARCH(BARCH)とBARCH(aBARCH)モデルを提案する。 この方法はSH300やS&P500といった実際のデータセットを用いて説明される。 その結果, 拡張およびブレンディングモデルにより, ボラティリティ予測能力が向上することが示唆された。

SVR-GARCH model tends to "backward eavesdrop" when forecasting the financial time series volatility in which case it tends to simply produce the prediction by deviating the previous volatility. Though the SVR-GARCH model has achieved good performance in terms of various performance measurements, trading opportunities, peak or trough behaviors in the time series are all hampered by underestimating or overestimating the volatility. We propose a blending ARCH (BARCH) and an augmented BARCH (aBARCH) model to overcome this kind of problem and make the prediction towards better peak or trough behaviors. The method is illustrated using real data sets including SH300 and S&P500. The empirical results obtained suggest that the augmented and blending models improve the volatility forecasting ability.
翻訳日:2022-03-27 10:18:12 公開日:2022-03-15
# (参考訳) MMES:大規模最適化のための混合モデルに基づく進化戦略 [全文訳有]

MMES: Mixture Model based Evolution Strategy for Large-Scale Optimization ( http://arxiv.org/abs/2203.12675v1 )

ライセンス: CC BY 4.0
Xiaoyu He and Zibin Zheng and Yuren Zhou(参考訳) 本研究は,大規模環境下での共分散行列適応進化戦略(CMA-ES)の効率的なサンプリング手法を提供する。 cma-es におけるガウスサンプリング法(gaussian sampling in cma-es)に関して,提案手法は混合モデルから突然変異ベクトルを生成する。 この混合モデルの確率分布を解析し、CMA-ESのガウス分布を制御可能な精度で近似することを示す。 このサンプリング法と新しい変異強度適応法を併用して, 大規模最適化のためのcma-es変種であるmixed model based evolution strategy (mmes) を定式化した。 数値シミュレーションにより,CMA-ESの時間的複雑性は著しく低下するが,MMESは回転不変性を保ち,高次元問題に対してスケーラブルであり,グローバルな最適化を行う上での最先端技術と競合することを示した。

This work provides an efficient sampling method for the covariance matrix adaptation evolution strategy (CMA-ES) in large-scale settings. In contract to the Gaussian sampling in CMA-ES, the proposed method generates mutation vectors from a mixture model, which facilitates exploiting the rich variable correlations of the problem landscape within a limited time budget. We analyze the probability distribution of this mixture model and show that it approximates the Gaussian distribution of CMA-ES with a controllable accuracy. We use this sampling method, coupled with a novel method for mutation strength adaptation, to formulate the mixture model based evolution strategy (MMES) -- a CMA-ES variant for large-scale optimization. The numerical simulations show that, while significantly reducing the time complexity of CMA-ES, MMES preserves the rotational invariance, is scalable to high dimensional problems, and is competitive against the state-of-the-arts in performing global optimization.
翻訳日:2022-03-27 09:47:48 公開日:2022-03-15
# (参考訳) 視覚ベースのマニピュレータは手から見る必要がある [全文訳有]

Vision-Based Manipulators Need to Also See from Their Hands ( http://arxiv.org/abs/2203.12677v1 )

ライセンス: CC BY 4.0
Kyle Hsu, Moo Jin Kim, Rafael Rafailov, Jiajun Wu, Chelsea Finn(参考訳) 本研究では,視覚的視点の選択が学習と一般化にどのように影響するかを検討する。 一般的に使用されるグローバルな第三者の視点と比較すると、手中心の視点は可観測性を低下させるが、トレーニング効率とアウト・オブ・ディストリビューションの一般化は一貫して改善する。 これらの利点は、様々な学習アルゴリズム、実験的な設定、分散シフト、そしてシミュレーションと実際のロボット機器の両方に対して保持される。 しかし、これは手中心の可観測性が十分である場合のみであり、それ以外の場合、学習には第三者の視点を含める必要がある。 これを軽減するために、変動情報ボトルネックによる第三者情報ストリームの正規化を提案する。 メタワールドベンチマークから適応したハンドセントリックな可観測性を持つ6つの代表的な操作タスクでは、各タスクに対する分散の一般化を改善することにより、両方の観点で動作する最先端の強化学習エージェントが実現される。 ロボットの手にカメラを装着する実践者もいますが、私たちの研究は、そのメリットを体系的に分析し、エンドツーエンドの視覚ベースのロボット操作を改善するための、シンプルで広く適用可能な洞察を提供します。

We study how the choice of visual perspective affects learning and generalization in the context of physical manipulation from raw sensor observations. Compared with the more commonly used global third-person perspective, a hand-centric (eye-in-hand) perspective affords reduced observability, but we find that it consistently improves training efficiency and out-of-distribution generalization. These benefits hold across a variety of learning algorithms, experimental settings, and distribution shifts, and for both simulated and real robot apparatuses. However, this is only the case when hand-centric observability is sufficient; otherwise, including a third-person perspective is necessary for learning, but also harms out-of-distribution generalization. To mitigate this, we propose to regularize the third-person information stream via a variational information bottleneck. On six representative manipulation tasks with varying hand-centric observability adapted from the Meta-World benchmark, this results in a state-of-the-art reinforcement learning agent operating from both perspectives improving its out-of-distribution generalization on every task. While some practitioners have long put cameras in the hands of robots, our work systematically analyzes the benefits of doing so and provides simple and broadly applicable insights for improving end-to-end learned vision-based robotic manipulation.
翻訳日:2022-03-27 08:50:11 公開日:2022-03-15
# 近似ベイズ計算におけるモデル比較

Model Comparison in Approximate Bayesian Computation ( http://arxiv.org/abs/2203.11276v1 )

ライセンス: Link先を確認
Jan Boelts(参考訳) 自然科学における一般的な問題は、観測データの観点から競合するモデルの比較である。 ベイズモデルの比較は、各モデルがデータに対して与える証拠に基づいて、この比較に対して統計的に健全な枠組みを提供する。 しかし、この枠組みは、実際に使用されるほとんどのモデルにとって難解な確率関数の計算に依存している。 近似ベイズ計算(abc)の分野における以前のアプローチは、確率の評価を回避し、拒絶サンプリングに基づくモデル証拠を推定するが、通常は計算量的に強い。 本稿ではABCにおけるベイズモデルの比較を行うための新しい効率的な手法を提案する。 後方密度推定の最近の進歩に基づき、この手法はパラメトリックな形状の後方モデルに近似する。 特に、観測データの特徴をモデルの後方確率にマッピングするために、混合密度ネットワークを訓練します。 パフォーマンスは2つの例で評価されます。 移動可能なモデル比較問題において、正確な後方確率を正確に予測する。 計算神経科学のユースケースシナリオ -- 2つのイオンチャネルモデルの比較 -- では、基盤となる地対流モデルに高い後方確率が確実に割り当てられる。 全体として、この手法はモデルアーキテクチャに依存しない複雑な生体物理モデルに対するベイズモデルの比較を行うための新しい効率的な方法を提供する。

A common problem in natural sciences is the comparison of competing models in the light of observed data. Bayesian model comparison provides a statistically sound framework for this comparison based on the evidence each model provides for the data. However, this framework relies on the calculation of likelihood functions which are intractable for most models used in practice. Previous approaches in the field of Approximate Bayesian Computation (ABC) circumvent the evaluation of the likelihood and estimate the model evidence based on rejection sampling, but they are typically computationally intense. Here, I propose a new efficient method to perform Bayesian model comparison in ABC. Based on recent advances in posterior density estimation, the method approximates the posterior over models in parametric form. In particular, I train a mixture-density network to map features of the observed data to the posterior probability of the models. The performance is assessed with two examples. On a tractable model comparison problem, the underlying exact posterior probabilities are predicted accurately. In a use-case scenario from computational neuroscience -- the comparison between two ion channel models -- the underlying ground-truth model is reliably assigned a high posterior probability. Overall, the method provides a new efficient way to perform Bayesian model comparison on complex biophysical models independent of the model architecture.
翻訳日:2022-03-27 05:13:26 公開日:2022-03-15
# ベクトル量子化を用いたプライバシー保護音声表現学習

Privacy-Preserving Speech Representation Learning using Vector Quantization ( http://arxiv.org/abs/2203.09518v1 )

ライセンス: Link先を確認
Pierre Champion (MULTISPEECH), Denis Jouvet (MULTISPEECH), Anthony Larcher (LIUM)(参考訳) With the popularity of virtual assistants (e.g., Siri, Alexa), the use of speech recognition is now becoming more and more widespread.However, speech signals contain a lot of sensitive information, such as the speaker's identity, which raises privacy concerns.The presented experiments show that the representations extracted by the deep layers of speech recognition networks contain speaker information.This paper aims to produce an anonymous representation while preserving speech recognition performance.To this end, we propose to use vector quantization to constrain the representation space and induce the network to suppress the speaker identity.The choice of the quantization dictionary size allows to configure the trade-off between utility (speech recognition) and privacy (speaker identity concealment).

With the popularity of virtual assistants (e.g., Siri, Alexa), the use of speech recognition is now becoming more and more widespread.However, speech signals contain a lot of sensitive information, such as the speaker's identity, which raises privacy concerns.The presented experiments show that the representations extracted by the deep layers of speech recognition networks contain speaker information.This paper aims to produce an anonymous representation while preserving speech recognition performance.To this end, we propose to use vector quantization to constrain the representation space and induce the network to suppress the speaker identity.The choice of the quantization dictionary size allows to configure the trade-off between utility (speech recognition) and privacy (speaker identity concealment).
翻訳日:2022-03-27 05:13:10 公開日:2022-03-15
# 私立フェデレーションラーニングによるフリーの剣術師の育成

Training a Tokenizer for Free with Private Federated Learning ( http://arxiv.org/abs/2203.09943v1 )

ライセンス: Link先を確認
Eugene Bagdasaryan, Congzheng Song, Rogier van Dalen, Matt Seigel, and \'Aine Cahill(参考訳) 差分プライバシーによるフェデレーション学習、すなわちプライベートフェデレーション学習(PFL)は、プライバシを損なうことなく、ユーザのデバイスに分散したプライベートデータ上でモデルをトレーニングすることができる。 PFLは、一定の数のパラメータを持つニューラルネットワークのようなモデルに対して効率的であり、したがって固定次元勾配ベクトルである。 このようなモデルには、ニューラルネットワークの言語モデルが含まれているが、トークン化ではない。 トークンライザのトレーニングには、無制限の語彙からの単語の頻度が必要であり、既存の無制限の語彙を見つけるには、別のプライバシー予算が必要である。 回避策は、公開データのトークン化をトレーニングすることだ。 しかし,本論文では,不整合データに基づくトークン化器は,ユーザデータにアクセスするプライバシに違反する"oracle"トークン化器と比較して,モデル性能が20%向上することを示す。 また,単語単位のトークン数が多くても,新しい単語をエンコードできるため,サブワードトークン化は単語単位のコンテクストよりもフェデレーションに適していることを示す。 次に,追加のプライバシー予算を使わずにトークン化を行う新しい手法を提案する。 言語モデルのプライベートな連合学習では、モデルからサンプルを取得し、サンプルシーケンスで新しいトークン化子をトレーニングし、モデル埋め込みを更新します。 その後、プライベートなフェデレーション学習を続け、"oracle"トークンライザの1%以内にパフォーマンスを取得します。 このプロセスは、トークンライザをプライベートデータにのみ間接的にトレーニングするため、差分プライバシーの"ポストプロセッシング保証"を使用することで、追加のプライバシー予算を使用できない。

Federated learning with differential privacy, i.e. private federated learning (PFL), makes it possible to train models on private data distributed across users' devices without harming privacy. PFL is efficient for models, such as neural networks, that have a fixed number of parameters, and thus a fixed-dimensional gradient vector. Such models include neural-net language models, but not tokenizers, the topic of this work. Training a tokenizer requires frequencies of words from an unlimited vocabulary, and existing methods for finding an unlimited vocabulary need a separate privacy budget. A workaround is to train the tokenizer on publicly available data. However, in this paper we first show that a tokenizer trained on mismatched data results in worse model performance compared to a privacy-violating "oracle" tokenizer that accesses user data, with perplexity increasing by 20%. We also show that sub-word tokenizers are better suited to the federated context than word-level ones, since they can encode new words, though with more tokens per word. Second, we propose a novel method to obtain a tokenizer without using any additional privacy budget. During private federated learning of the language model, we sample from the model, train a new tokenizer on the sampled sequences, and update the model embeddings. We then continue private federated learning, and obtain performance within 1% of the "oracle" tokenizer. Since this process trains the tokenizer only indirectly on private data, we can use the "postprocessing guarantee" of differential privacy and thus use no additional privacy budget.
翻訳日:2022-03-27 05:13:01 公開日:2022-03-15
# マルチビュードリーム:コントラスト学習を用いたマルチビューワールドモデル

Multi-View Dreaming: Multi-View World Model with Contrastive Learning ( http://arxiv.org/abs/2203.11024v1 )

ライセンス: Link先を確認
Akira Kinose, Masashi Okada, Ryo Okumura, Tadahiro Taniguchi(参考訳) 本稿では,Dreamingの拡張による多視点観測から認識と制御を統合化するための新しい強化学習エージェントであるMulti-View Dreamingを提案する。 現在の強化学習法のほとんどは単視観察空間を想定しており、空間情報や咬合の欠如などの観測データに制限を課している。 これにより、環境から理想的な観測情報を得るのが難しく、現実世界のロボット工学応用のボトルネックとなる。 本稿では,異なる視点間で共有潜在空間を訓練するためにコントラスト学習を用い,複数の視点における潜在状態の確率分布の統合と制御に専門家の手法がいかに役立つかを示す。 また,ガウス分布ではなく潜在状態のモデル化にカテゴリ分布を用いたマルチビュードリームの変種であるマルチビューdreamingv2を提案する。 実ロボット制御タスクにおいて,提案手法が既存手法の簡単な拡張よりも優れていることを示す実験を行った。

In this paper, we propose Multi-View Dreaming, a novel reinforcement learning agent for integrated recognition and control from multi-view observations by extending Dreaming. Most current reinforcement learning method assumes a single-view observation space, and this imposes limitations on the observed data, such as lack of spatial information and occlusions. This makes obtaining ideal observational information from the environment difficult and is a bottleneck for real-world robotics applications. In this paper, we use contrastive learning to train a shared latent space between different viewpoints, and show how the Products of Experts approach can be used to integrate and control the probability distributions of latent states for multiple viewpoints. We also propose Multi-View DreamingV2, a variant of Multi-View Dreaming that uses a categorical distribution to model the latent state instead of the Gaussian distribution. Experiments show that the proposed method outperforms simple extensions of existing methods in a realistic robot control task.
翻訳日:2022-03-27 05:09:17 公開日:2022-03-15
# モバイルエッジコンピューティングにおけるタスクオフロードのためのリソース割り当て最適化の学習

Learning to Optimize Resource Assignment for Task Offloading in Mobile Edge Computing ( http://arxiv.org/abs/2203.09954v1 )

ライセンス: Link先を確認
Yurong Qian, Jindan Xu, Shuhan Zhu, Wei Xu, Lisheng Fan, and George K. Karagiannidis(参考訳) 本稿では,マルチユーザ・モバイル・エッジ・コンピューティング (mec) システムについて検討する。 従来のブランチ・アンド・バウンド(BnB)アプローチはこの問題の解決に応用できるが、計算複雑性の大きな負担が生じ、BnBの適用が制限される。 この問題に対処するために,BnBアプローチのプルーニング戦略を学ぶために,ディープラーニング(DL)を適用したインテリジェントBnB(IBnB)アプローチを提案する。 この学習手法を用いることで、BnBアプローチの構造がほぼ最適性能を保証し、一方、DLベースのプルーニング戦略は複雑さを著しく低減する。 数値計算により,提案手法は複雑性を80%以上低減した最適性能を実現する。

In this paper, we consider a multiuser mobile edge computing (MEC) system, where a mixed-integer offloading strategy is used to assist the resource assignment for task offloading. Although the conventional branch and bound (BnB) approach can be applied to solve this problem, a huge burden of computational complexity arises which limits the application of BnB. To address this issue, we propose an intelligent BnB (IBnB) approach which applies deep learning (DL) to learn the pruning strategy of the BnB approach. By using this learning scheme, the structure of the BnB approach ensures near-optimal performance and meanwhile DL-based pruning strategy significantly reduces the complexity. Numerical results verify that the proposed IBnB approach achieves optimal performance with complexity reduced by over 80%.
翻訳日:2022-03-27 05:09:03 公開日:2022-03-15
# 繰り返し畳み込み深層学習によるシームレス雷流

Seamless lightning nowcasting with recurrent-convolutio nal deep learning ( http://arxiv.org/abs/2203.10114v1 )

ライセンス: Link先を確認
Jussi Leinonen, Ulrich Hamann, Urs Germann(参考訳) 未来に向けて5分間の時間分解能で雷の発生を予測する深層学習モデルが提示される。 このモデルは繰り返し畳み込みアーキテクチャに基づいており、雷雨細胞の運動、成長、崩壊を含む対流の時空間的発達を認識し予測することができる。 予測は、ストームオブジェクトの検出と追跡を使わずに、静止グリッド上で実行される。 スイスとその周辺地域から収集された入力データは、地上レーダーデータ、可視・赤外線衛星データ、派生クラウド製品、雷検出、数値気象予報、デジタル標高モデルデータから構成される。 本研究では,様々な代替損失関数,クラス重み付け戦略,モデル特徴を分析し,損失関数を最適に選択し,モデルの確率的予測を適切に調整するためのガイドラインを提供する。 これらの分析に基づいて,本研究では焦点損失を用いるが,モデルの再校正が実用的でない場合に有効な選択肢であるクロスエントロピーに対して,わずかな利点しか提供できないと結論づける。

A deep learning model is presented to nowcast the occurrence of lightning at a five-minute time resolution 60 minutes into the future. The model is based on a recurrent-convolutio nal architecture that allows it to recognize and predict the spatiotemporal development of convection, including the motion, growth and decay of thunderstorm cells. The predictions are performed on a stationary grid, without the use of storm object detection and tracking. The input data, collected from an area in and surrounding Switzerland, comprise ground-based radar data, visible/infrared satellite data and derived cloud products, lightning detection, numerical weather prediction and digital elevation model data. We analyze different alternative loss functions, class weighting strategies and model features, providing guidelines for future studies to select loss functions optimally and to properly calibrate the probabilistic predictions of their model. Based on these analyses, we use focal loss in this study, but conclude that it only provides a small benefit over cross entropy, which is a viable option if recalibration of the model is not practical.
翻訳日:2022-03-27 05:08:47 公開日:2022-03-15
# 機械学習によるケーブルネットワーク問題の根本原因の同定

Identifying the root cause of cable network problems with machine learning ( http://arxiv.org/abs/2203.06989v2 )

ライセンス: Link先を確認
Georg Heiler, Thassilo Gadermaier, Thomas Haider, Allan Hanbury, Peter Filzmoser(参考訳) 高品質なネットワーク接続は、ますます重要だ。 ハイブリッドファイバ同軸(hfc)ネットワークでは,過去に上流高ノイズの探索が面倒で時間のかかる作業であった。 ネットワークの不均一性とトポロジー構造による機械学習においても、この課題は依然として困難である。 本稿では、簡単なビジネスルール(特定の値の最大の変更)を自動化し、その性能を最先端の機械学習手法と比較し、精度を2.3倍改善できると結論付ける。 第一に障害が発生しない場合が最善であるので、ネットワークの故障を予測するための複数のアプローチを第二に評価し、ネットワーク上の予測保守を行う。

Good quality network connectivity is ever more important. For hybrid fiber coaxial (HFC) networks, searching for upstream high noise in the past was cumbersome and time-consuming. Even with machine learning due to the heterogeneity of the network and its topological structure, the task remains challenging. We present the automation of a simple business rule (largest change of a specific value) and compare its performance with state-of-the-art machine-learning methods and conclude that the precision@1 can be improved by 2.3 times. As it is best when a fault does not occur in the first place, we secondly evaluate multiple approaches to forecast network faults, which would allow performing predictive maintenance on the network.
翻訳日:2022-03-20 23:11:02 公開日:2022-03-15
# (参考訳) 教師付き機械学習のためのサンプリングバイアス補正:実用的なベイズ推論アプローチ

Sampling Bias Correction for Supervised Machine Learning: A Bayesian Inference Approach with Practical Applications ( http://arxiv.org/abs/2203.06239v2 )

ライセンス: CC BY 4.0
Max Sklar(参考訳) トレーニングセットが既知のサンプリングバイアスの対象となっている教師付き機械学習の問題を考えると、モデルはオリジナルのデータセットに適合するようにトレーニングできるのだろうか? 我々は, サンプリング関数を考慮した後方分布を変化させ, ベイズ推定フレームワークを用いてこれを実現する。 次に、この解をバイナリロジスティック回帰に適用し、データセットがラベルの不均衡のような意図的なサンプルバイアスを受けるシナリオについて議論する。 この手法は, 医療科学から画像認識, マーケティングに至るまで, ビッグデータの統計的推測に広く応用できる。 データ収集からモデル選択に至るまで、推論パイプラインを改善するための実践ツールが提供されるだろう。

Given a supervised machine learning problem where the training set has been subject to a known sampling bias, how can a model be trained to fit the original dataset? We achieve this through the Bayesian inference framework by altering the posterior distribution to account for the sampling function. We then apply this solution to binary logistic regression, and discuss scenarios where a dataset might be subject to intentional sample bias such as label imbalance. This technique is widely applicable for statistical inference on big data, from the medical sciences to image recognition to marketing. Familiarity with it will give the practitioner tools to improve their inference pipeline from data collection to model selection.
翻訳日:2022-03-20 04:17:37 公開日:2022-03-15
# (参考訳) Optimizer Amalgamation [全文訳有]

Optimizer Amalgamation ( http://arxiv.org/abs/2203.06474v2 )

ライセンス: CC BY 4.0
Tianshu Huang, Tianlong Chen, Sijia Liu, Shiyu Chang, Lisa Amini, Zhangyang Wang(参考訳) 与えられた問題に対して適切なオプティマイザを選択することは、研究者や実践者にとって大きな関心事である。 多くの分析オプティマイザは、様々な理論と経験的アプローチを用いて提案されているが、他の競合オプティマイザに対して普遍的な利点を与えるものはない。 そこで私たちは、Optimizer Amalgamationという新しい問題の研究を動機付けています。 "Teacher"オプティマイザのプールをひとつの"Student"オプティマイザに組み合わせて、問題固有のパフォーマンスをより高める方法はどうすればよいのでしょう? 本稿では,「最適化する学習」という分野から着想を得て,学習可能な融合目標について述べる。 まず、勾配降下による解析最適化器のプールをアマルガメートする3つの異なるアマルガメーション機構を定義する。 そして,アマルガメーション過程の分散を低減するために,アマルガメーション対象を摂動させることでアマルガメーション過程を安定化する方法も検討する。 最後に,アマルガメート成分と比較して,アマルガメートオプティマイザの優越性を示す実験を行い,ベースラインの最適化を学習し,分散による摂動低減の有効性を示した。 私たちのコードと事前トレーニングされたモデルは、http://github.com/VI TA-Group/OptimizerAm algamation.comで公開されています。

Selecting an appropriate optimizer for a given problem is of major interest for researchers and practitioners. Many analytical optimizers have been proposed using a variety of theoretical and empirical approaches; however, none can offer a universal advantage over other competitive optimizers. We are thus motivated to study a new problem named Optimizer Amalgamation: how can we best combine a pool of "teacher" optimizers into a single "student" optimizer that can have stronger problem-specific performance? In this paper, we draw inspiration from the field of "learning to optimize" to use a learnable amalgamation target. First, we define three differentiable amalgamation mechanisms to amalgamate a pool of analytical optimizers by gradient descent. Then, in order to reduce variance of the amalgamation process, we also explore methods to stabilize the amalgamation process by perturbing the amalgamation target. Finally, we present experiments showing the superiority of our amalgamated optimizer compared to its amalgamated components and learning to optimize baselines, and the efficacy of our variance reducing perturbations. Our code and pre-trained models are publicly available at http://github.com/VI TA-Group/OptimizerAm algamation.
翻訳日:2022-03-19 21:01:10 公開日:2022-03-15
# (参考訳) 機械学習のための分散メモリスパースカーネル [全文訳有]

Distributed-Memory Sparse Kernels for Machine Learning ( http://arxiv.org/abs/2203.07673v1 )

ライセンス: CC BY 4.0
Vivek Bharadwaj, Aydin Bulu\c{c}, James Demmel(参考訳) Smpled Dense Times Dense Matrix Multiplication (SDDMM) と Sparse Times Dense Matrix Multiplication (SpMM) は、協調フィルタリング、文書クラスタリング、グラフ埋め込みなどの様々な設定に現れる。 SDDMM出力は、後続のSpMM操作の入力スパース行列となることが多い。 既存の作業は、これらのプリミティブの共有メモリ並列化に焦点を当てている。 SpMMのための通信最小化分散1.5Dアルゴリズムは広く分析されているが、SDDMMや、FusedMMと呼ばれるSDDMMとSpMMのバック・ツー・バック・シーケンスにはそのような分析は存在しない。 分散メモリの1.5dおよび2.5dアルゴリズムを同一の通信コストと入出力データレイアウトを持つsddmmのアルゴリズムに変換することができることを示す。 さらに,sddmm と spmm のシーケンスにおける入力密度行列の複製を再利用するか,あるいはローカルな sddmm と spmm カーネルを融合させるかの2つの通信誘導戦略を提案する。 我々は、lbnlのcray xc40であるcori上で、erdos-renyi乱数行列と大きな実世界のスパース行列を用いて、fusedmmアルゴリズムをベンチマークする。 それぞれ68コアの256ノード上では、1.5D FusedMMアルゴリズムは、分散メモリのSpMMとSDDMMカーネルをシークエンスで実行するよりも、通信に費やした時間の少なくとも30%を節約できる。 数億のエッジを持つ現実世界の行列では、私たちのアルゴリズムはPETScのSpMMアルゴリズムよりも少なくとも10倍のスピードアップを示している。 これらの行列上では、SDDMMとSpMMの最適化されていないシーケンスよりも最大1.6倍高速なランタイムを示す。 我々は、アルゴリズムのスケーリングを現実世界のアプリケーションに組み込んでテストし、交互least-squaresによる協調フィルタリングや注意に基づくグラフニューラルネットワークの推論を含む。

Sampled Dense Times Dense Matrix Multiplication (SDDMM) and Sparse Times Dense Matrix Multiplication (SpMM) appear in diverse settings, such as collaborative filtering, document clustering, and graph embedding. Frequently, the SDDMM output becomes the input sparse matrix for a subsequent SpMM operation. Existing work has focused on shared memory parallelization of these primitives. While there has been extensive analysis of communication-minimi zing distributed 1.5D algorithms for SpMM, no such analysis exists for SDDMM or the back-to-back sequence of SDDMM and SpMM, termed FusedMM. We show that distributed memory 1.5D and 2.5D algorithms for SpMM can be converted to algorithms for SDDMM with identical communication costs and input / output data layouts. Further, we give two communication-elidin g strategies to reduce costs further for FusedMM kernels: either reusing the replication of an input dense matrix for the SDDMM and SpMM in sequence, or fusing the local SDDMM and SpMM kernels. We benchmark FusedMM algorithms on Cori, a Cray XC40 at LBNL, using Erdos-Renyi random matrices and large real-world sparse matrices. On 256 nodes with 68 cores each, 1.5D FusedMM algorithms using either communication eliding approach can save at least 30% of time spent exclusively in communication compared to executing a distributed-memory SpMM and SDDMM kernel in sequence. On real-world matrices with hundreds of millions of edges, all of our algorithms exhibit at least a 10x speedup over the SpMM algorithm in PETSc. On these matrices, our communication-elidin g techniques exhibit runtimes up to 1.6 times faster than an unoptimized sequence of SDDMM and SpMM. We embed and test the scaling of our algorithms in real-world applications, including collaborative filtering via alternating-least-sq uares and inference for attention-based graph neural networks.
翻訳日:2022-03-19 11:14:33 公開日:2022-03-15
# (参考訳) リストのソートと木の構築のためのqubo [全文訳有]

QUBOs for Sorting Lists and Building Trees ( http://arxiv.org/abs/2203.08815v1 )

ライセンス: CC BY 4.0
Christian Bauckhage, Thore Gerlach, Nico Piatkowski(参考訳) リストのソートや検索木やヒープの構築といった基本的なタスクは、二次的制約のないバイナリ最適化問題(QUBO)としてモデル化できることを示す。 この考え方は、これらのタスクを置換問題として理解し、適切な置換行列を表すQUBOを考案することである。 本稿では,このようなQUBOの構築方法と,ホップフィールドネットやアディアバティックな)量子コンピューティングを用いてそれを解く方法について論じる。 簡単に言えば、神経計算手法や量子コンピュータは、通常抽象データ構造に関連する問題を解くことができる。

We show that the fundamental tasks of sorting lists and building search trees or heaps can be modeled as quadratic unconstrained binary optimization problems (QUBOs). The idea is to understand these tasks as permutation problems and to devise QUBOs whose solutions represent appropriate permutation matrices. We discuss how to construct such QUBOs and how to solve them using Hopfield nets or adiabatic) quantum computing. In short, we show that neurocomputing methods or quantum computers can solve problems usually associated with abstract data structures.
翻訳日:2022-03-19 10:43:07 公開日:2022-03-15
# (参考訳) 神経ネットワーク型遺伝的プログラムによる統治方程式の発見

Neural-Network-Direc ted Genetic Programmer for Discovery of Governing Equations ( http://arxiv.org/abs/2203.08808v1 )

ライセンス: CC BY 4.0
Shahab Razavi, Eric R. Gamazon(参考訳) 本研究では,観測データから数式を抽出するシンボリック回帰フレームワークを開発した。 進化的アプローチであるfaigpは、文法にエンコードされた関数代数の性質を活用し、普遍近似の理論的保証とブロアを最小化する方法を提供するように設計されている。 この枠組みでは、文法の演算子の選択は物理理論や対称性の考慮によって伝達される。 現在、「自然の物質」を導出できる理論は存在しないので、進化過程からこれらの係数を抽出する実験的な研究は方法論的関心事である。 本研究は,トランスクリプトームの研究から適応した多様性尺度や複雑性尺度など,多種多様な正規化要因がフレームワークの性能に与える影響を定量化する。 ニューラルネットワークと遺伝的プログラマを活用した実装では,非自明な記号的等価表現(ラマヌジャン表現)や,潜在的に興味深い数値的応用による近似を生成する。 本フレームワークを説明するために、転写因子による遺伝子調節の考慮を含むリガンド受容体結合動態のモデル、およびオミクスデータからのシストロームの調節範囲のモデルを示す。 本研究は,新しいセンシングシステムと高スループットスクリーニング技術から得られた実験データにおける支配方程式の発見のためのデータ駆動手法の開発に重要な意味を持つ。

We develop a symbolic regression framework for extracting the governing mathematical expressions from observed data. The evolutionary approach, faiGP, is designed to leverage the properties of a function algebra that have been encoded into a grammar, providing a theoretical guarantee of universal approximation and a way to minimize bloat. In this framework, the choice of operators of the grammar may be informed by a physical theory or symmetry considerations. Since there is currently no theory that can derive the 'constants of nature', an empirical investigation on extracting these coefficients from an evolutionary process is of methodological interest. We quantify the impact of different types of regularizers, including a diversity metric adapted from studies of the transcriptome and a complexity measure, on the performance of the framework. Our implementation, which leverages neural networks and a genetic programmer, generates non-trivial symbolically equivalent expressions ("Ramanujan expressions") or approximations with potentially interesting numerical applications. To illustrate the framework, a model of ligand-receptor binding kinetics, including an account of gene regulation by transcription factors, and a model of the regulatory range of the cistrome from omics data are presented. This study has important implications on the development of data-driven methodologies for the discovery of governing equations in experimental data derived from new sensing systems and high-throughput screening technologies.
翻訳日:2022-03-19 10:32:11 公開日:2022-03-15
# (参考訳) 可変シーンのニューラルグローバル照明のためのアクティブ探索 [全文訳有]

Active Exploration for Neural Global Illumination of Variable Scenes ( http://arxiv.org/abs/2203.08272v1 )

ライセンス: CC BY 4.0
Stavros Diolatzis and Julien Philip and George Drettakis(参考訳) ニューラルレンダリングアルゴリズムは、多くの基底真理画像の照明の神経表現を学習することで、フォトリアリスティックレンダリングの基本的な新しいアプローチを導入している。 与えられた可変シーン、すなわちオブジェクト、材料、ライト、ビューポイントのトレーニングでは、可変パラメータの次元が増加すると、可能なトレーニングデータインスタンスの空間dはすぐに管理不能になる。 本稿では,dを探索するマルコフ連鎖モンテカルロを用いた新しい能動的探索法を紹介し,トレーニングとオンザフライサンプルデータ生成の最も助けとなるサンプル(すなわち,グランド・トゥルート・レンダリング)を生成する。 トレーニングサンプルをレンダリングするコストを最小化するために,自己調整型サンプル再利用戦略を導入する。 我々は、シーン構成の明示的なパラメータ化を条件に、新しいシーンインスタンスのレンダリングを学習するニューラルジェネレータにアプローチを適用する。 その結果, 能動探査は一様サンプリングよりも効率的にネットワークを訓練でき, コンバージェンスにおける一様サンプリングよりも優れた品質が得られることがわかった。 本手法では,要求品質と変動に応じて5~18時間トレーニング後の動的シーンナビゲーションと操作が可能な,非常に高いサンプル数を必要とするハードライト輸送経路(複雑な因果関係など)のインタラクティブなレンダリングを可能にする。

Neural rendering algorithms introduce a fundamentally new approach for photorealistic rendering, typically by learning a neural representation of illumination on large numbers of ground truth images. When training for a given variable scene, i.e., changing objects, materials, lights and viewpoint, the space D of possible training data instances quickly becomes unmanageable as the dimensions of variable parameters increase. We introduce a novel Active Exploration method using Markov Chain Monte Carlo, which explores D, generating samples (i.e., ground truth renderings) that best help training and interleaves training and on-the-fly sample data generation. We introduce a self-tuning sample reuse strategy to minimize the expensive step of rendering training samples. We apply our approach on a neural generator that learns to render novel scene instances given an explicit parameterization of the scene configuration. Our results show that Active Exploration trains our network much more efficiently than uniformly sampling, and together with our resolution enhancement approach, achieves better quality than uniform sampling at convergence. Our method allows interactive rendering of hard light transport paths (e.g., complex caustics) -- that require very high samples counts to be captured -- and provides dynamic scene navigation and manipulation, after training for 5-18 hours depending on required quality and variations.
翻訳日:2022-03-19 10:30:34 公開日:2022-03-15
# 高エネルギー物理検出器シミュレーションのための代理モデルと微分可能プログラムの新しい方向

New directions for surrogate models and differentiable programming for High Energy Physics detector simulation ( http://arxiv.org/abs/2203.08806v1 )

ライセンス: Link先を確認
Andreas Adelmann, Walter Hopkins, Evangelos Kourlitis, Michael Kagan, Gregor Kasieczka, Claudius Krause, David Shih, Vinicius Mikuni, Benjamin Nachman, Kevin Pedro, Daniel Winklehner(参考訳) 将来の実験施設における高エネルギー物理検出器シミュレーションの計算コストは、現在利用可能な資源を超えるだろう。 この課題を克服するために、機械学習手法を用いたサロゲートモデルに関する新しいアイデアが、計算コストの高いコンポーネントを置き換えるために検討されている。 さらに、微分可能プログラミングは、制御可能でスケーラブルなシミュレーションルーチンを提供する補完的なアプローチとして提案されている。 本論文では,2021年の素粒子物理学コミュニティ計画演習(snowmass)の文脈において,サロゲートモデルと検出器シミュレーションに適用する微分計画の新しいかつ継続的な取り組みについて論じる。

The computational cost for high energy physics detector simulation in future experimental facilities is going to exceed the current available resources. To overcome this challenge, new ideas on surrogate models using machine learning methods are being explored to replace computationally expensive components. Additionally, differentiable programming has been proposed as a complementary approach, providing controllable and scalable simulation routines. In this document, new and ongoing efforts for surrogate models and differential programming applied to detector simulation are discussed in the context of the 2021 Particle Physics Community Planning Exercise (`Snowmass').
翻訳日:2022-03-18 16:04:41 公開日:2022-03-15
# CaRTS:視覚と運動データからの因果性駆動型ロボットツールセグメンテーション

CaRTS: Causality-driven Robot Tool Segmentation from Vision and Kinematics Data ( http://arxiv.org/abs/2203.09475v1 )

ライセンス: Link先を確認
Hao Ding, Jintan Zhang, Peter Kazanzides, Jieying Wu, and Mathias Unberath(参考訳) ロボット支援手術中の視覚に基づくロボットツールのセグメンテーションは、拡張現実フィードバックのような下流の応用を可能にし、ロボットキネマティクスの不正確さを許容する。 深層学習の導入により,楽器のセグメンテーションを直接的に,画像から直接解決する手法が多数提示された。 これらのアプローチはベンチマークデータセットに顕著な進歩をもたらしたが、その堅牢性に関する根本的な課題は残っている。 本稿では,ロボットツールセグメンテーションタスクの相補的因果モデルに基づいて設計した因果性駆動型ロボットツールセグメンテーションアルゴリズムCaRTSを提案する。 観察された画像から直接セグメンテーションマスクを推測する代わりに、CaRTSは、最初の不正確なロボット運動パラメータを前方運動学と微分レンダリングによって更新し、画像特徴の類似性をエンドツーエンドに最適化することで、ツールモデルを画像観察と反復的に一致させる。 我々は,dvrkの合成と実データの両方で競合する手法でカートをベンチマークし,正確な制御シナリオで生成し,反事実合成を可能にした。 訓練領域テストデータにおいて、カートは、逆相変化試験データでテストした場合によく保存される93.4のサイススコア(ディススコア91.8)を達成し、低輝度、煙、血液、背景パターンを呈する。 これは、同じデータでトレーニングされテストされた純粋な画像ベースの方法の、それぞれ95.0と62.8のdiceスコアと比較するのが好ましい。 今後の作業では、ビデオのフレームレートを達成するためにCaRTSを加速し、実際に発生する影響を推定する。 これらの制限にもかかわらず、結果は有望である:高いセグメンテーション精度を達成することに加えて、カートは真のロボットキネマティクスの見積もりを提供する。

Vision-based segmentation of the robotic tool during robot-assisted surgery enables downstream applications, such as augmented reality feedback, while allowing for inaccuracies in robot kinematics. With the introduction of deep learning, many methods were presented to solve instrument segmentation directly and solely from images. While these approaches made remarkable progress on benchmark datasets, fundamental challenges pertaining to their robustness remain. We present CaRTS, a causality-driven robot tool segmentation algorithm, that is designed based on a complementary causal model of the robot tool segmentation task. Rather than directly inferring segmentation masks from observed images, CaRTS iteratively aligns tool models with image observations by updating the initially incorrect robot kinematic parameters through forward kinematics and differentiable rendering to optimize image feature similarity end-to-end. We benchmark CaRTS with competing techniques on both synthetic as well as real data from the dVRK, generated in precisely controlled scenarios to allow for counterfactual synthesis. On training-domain test data, CaRTS achieves a Dice score of 93.4 that is preserved well (Dice score of 91.8) when tested on counterfactual altered test data, exhibiting low brightness, smoke, blood, and altered background patterns. This compares favorably to Dice scores of 95.0 and 62.8, respectively, of a purely image-based method trained and tested on the same data. Future work will involve accelerating CaRTS to achieve video framerate and estimating the impact occlusion has in practice. Despite these limitations, our results are promising: In addition to achieving high segmentation accuracy, CaRTS provides estimates of the true robot kinematics, which may benefit applications such as force estimation.
翻訳日:2022-03-18 15:58:46 公開日:2022-03-15
# 適応局在型人工粘度を持つ物理インフォームニューラルネットワーク

Physics-Informed Neural Networks with Adaptive Localized Artificial Viscosity ( http://arxiv.org/abs/2203.08802v1 )

ライセンス: Link先を確認
E.J.R. Coutinho, M. Dall'Aqua, L. McClenny, M. Zhong, U. Braga-Neto, E. Gildin(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)によって記述される様々な物理現象に適用される有望なツールである。 しかし、PINNは、様々な非線形双曲型PDEを含む特定の「剛性」問題において、その解に衝撃を与えるような訓練が難しいことが観察されている。 最近の研究ではpdeに拡散項を追加し、ピンがこれらの問題を解決するために人工粘度(av)値を手動で調整した。 本稿では, 人工粘性値の事前定義に依存しない, この問題に対する3つのアプローチを提案する。 最初の方法はグローバルなAV値を学ぶが、他の2つはパラメタライズされたAVマップまたは残差ベースのAVマップを用いてショックの周囲の局所化されたAV値を学ぶ。 提案手法をバーガース方程式とバックリー・レヴェレット方程式に適用し,後者は石油工学における古典的問題である。 その結果,提案手法は小さいAV値と正確な衝撃位置の両方を学習し,非適応的グローバルAV代替手法による近似誤差を改善することができることがわかった。

Physics-informed Neural Network (PINN) is a promising tool that has been applied in a variety of physical phenomena described by partial differential equations (PDE). However, it has been observed that PINNs are difficult to train in certain "stiff" problems, which include various nonlinear hyperbolic PDEs that display shocks in their solutions. Recent studies added a diffusion term to the PDE, and an artificial viscosity (AV) value was manually tuned to allow PINNs to solve these problems. In this paper, we propose three approaches to address this problem, none of which rely on an a priori definition of the artificial viscosity value. The first method learns a global AV value, whereas the other two learn localized AV values around the shocks, by means of a parametrized AV map or a residual-based AV map. We applied the proposed methods to the inviscid Burgers equation and the Buckley-Leverett equation, the latter being a classical problem in Petroleum Engineering. The results show that the proposed methods are able to learn both a small AV value and the accurate shock location and improve the approximation error over a nonadaptive global AV alternative method.
翻訳日:2022-03-18 15:57:23 公開日:2022-03-15
# Semi-FedSER:Multivie w Pseudo-Labeling を用いたフェデレーション学習における音声感情認識のための半教師付き学習

Semi-FedSER: Semi-supervised Learning for Speech Emotion Recognition On Federated Learning using Multiview Pseudo-Labeling ( http://arxiv.org/abs/2203.08810v1 )

ライセンス: Link先を確認
Tiantian Feng and Shrikanth Narayanan(参考訳) 音声感情認識(SER)アプリケーションは、クライアント側の音声データをリモートクラウドプラットフォームに取得して送信し、さらなる処理を行うため、しばしばプライバシー上の懸念に結びついている。 これらの音声データは、音声の内容や感情情報だけでなく、話者のアイデンティティ、人口特性、健康状態を明らかにすることができる。 Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習アルゴリズムである。 このアルゴリズムは、ユーザーのデバイスから生の音声または音声の特徴を共有することがプライバシー攻撃に弱いため、serアプリケーションにとって大きな可能性を示している。 しかしながら、flの大きな課題は、高品質なラベル付きデータサンプルの可用性の制限である。 本研究では,ラベル付きデータとラベルなしデータの両方を利用する半教師付きフェデレート学習フレームワークであるSemi-FedSERを提案し,FLにおける限定ラベル付きデータサンプルの課題に対処する。 筆者らは,IEMOCAP と MSP-Improv の2つのベンチマークデータセットを用いて,ローカルラベルレート l=20 であっても,SER が所望の性能を実現できることを示した。

Speech Emotion Recognition (SER) application is frequently associated with privacy concerns as it often acquires and transmits speech data at the client-side to remote cloud platforms for further processing. These speech data can reveal not only speech content and affective information but the speaker's identity, demographic traits, and health status. Federated learning (FL) is a distributed machine learning algorithm that coordinates clients to train a model collaboratively without sharing local data. This algorithm shows enormous potential for SER applications as sharing raw speech or speech features from a user's device is vulnerable to privacy attacks. However, a major challenge in FL is limited availability of high-quality labeled data samples. In this work, we propose a semi-supervised federated learning framework, Semi-FedSER, that utilizes both labeled and unlabeled data samples to address the challenge of limited labeled data samples in FL. We show that our Semi-FedSER can generate desired SER performance even when the local label rate l=20 using two SER benchmark datasets: IEMOCAP and MSP-Improv.
翻訳日:2022-03-18 15:51:16 公開日:2022-03-15
# 深層学習による合成gaia dr2中の暗黒物質サブハロの感度推定

Sensitivity Estimation for Dark Matter Subhalos in Synthetic Gaia DR2 using Deep Learning ( http://arxiv.org/abs/2203.08161v1 )

ライセンス: Link先を確認
Abdullah Bazarov, Mar\'ia Benito, Gert H\"utsi, Rain Kipper, Joosep Pata and Sven P\~oder(参考訳) 宿主銀河を公転する暗黒物質サブハロースの存在は、宇宙論の枠組みの一般的な予測である。 これは暗黒物質の性質を制限する有望な方法である。 ここでは, ダークマターサブハロースの通過によって位相空間分布が乱れうる恒星を, 機械学習を用いて検出する課題について述べる。 トレーニングデータは、3つの銀河系のような銀河と9つの合成ガイア DR2サーベイである。 まず,異常検出アルゴリズムを用いてシミュレーション銀河の摂動の大きさを定量化した。 また,異常検出に基づくアプローチと教師付き分類との比較により,ガイア DR2 系カタログにおけるこのアプローチの有効性を推定した。 約5億個の合成星観測器に最適化された分類アルゴリズムは、穏やかだが非ゼロの感度を示す。 この分類に基づくアプローチは、検出可能な領域の非常に限られたサブハロの数から期待されるように、シミュレーションにおけるサブハロの正確な位置を特定するのに十分敏感ではない。 ガイアデータセットの巨大なサイズは、ダークマター探索の潜在的な領域を選択し、最終的に銀河系のサブハロ質量関数を制限できるスケーラブルで正確な計算手法のさらなる発展を動機付けている。

The abundance of dark matter subhalos orbiting a host galaxy is a generic prediction of the cosmological framework. It is a promising way to constrain the nature of dark matter. Here we describe the challenges of detecting stars whose phase-space distribution may be perturbed by the passage of dark matter subhalos using a machine learning approach. The training data are three Milky Way-like galaxies and nine synthetic Gaia DR2 surveys derived from these. We first quantify the magnitude of the perturbations in the simulated galaxies using an anomaly detection algorithm. We also estimate the feasibility of this approach in the Gaia DR2-like catalogues by comparing the anomaly detection based approach with a supervised classification. We find that a classification algorithm optimized on about half a billion synthetic star observables exhibits mild but nonzero sensitivity. This classification-based approach is not sufficiently sensitive to pinpoint the exact locations of subhalos in the simulation, as would be expected from the very limited number of subhalos in the detectable region. The enormous size of the Gaia dataset motivates the further development of scalable and accurate computational methods that could be used to select potential regions of interest for dark matter searches to ultimately constrain the Milky Way's subhalo mass function.
翻訳日:2022-03-18 14:06:44 公開日:2022-03-15
# 皮膚科aiの多彩なキュレーション画像セットにおける性能の相違

Disparities in Dermatology AI Performance on a Diverse, Curated Clinical Image Set ( http://arxiv.org/abs/2203.08807v1 )

ライセンス: Link先を確認
Roxana Daneshjou, Kailas Vodrahalli, Roberto A Novoa, Melissa Jenkins, Weixin Liang, Veronica Rotemberg, Justin Ko, Susan M Swetter, Elizabeth E Bailey, Olivier Gevaert, Pritam Mukherjee, Michelle Phung, Kiana Yekrang, Bradley Fong, Rachna Sahasrabudhe, Johan A. C. Allerup, Utako Okata-Karigane, James Zou, Albert Chiou(参考訳) 皮膚科医療へのアクセスは大きな問題であり、世界中で30億人の人々がケアへのアクセスを欠いている。 人工知能(AI)は皮膚疾患の治療に役立つ。 しかし、ほとんどのaiモデルは、多様な肌色やまれな疾患の画像で厳格に評価されていない。 この文脈でアルゴリズム性能の潜在的なバイアスを確認するために、我々は、多種多様な皮膚科画像(ddi)データセットをキュレートした。 656画像のこのデータセットを用いて、最先端の皮膚科AIモデルはDDIにおいて著しく悪化し、この曲線下(ROC-AUC)のレシーバ演算子曲線面積は、元の試験結果と比較して27~36%減少している。 すべてのモデルは、ddiデータセットで表される暗い肌色とまれな疾患でより良く行われた。 さらに、AIトレーニングやデータセットのテストのための視覚的なラベルを提供する皮膚科医は、地上の真実の生検アノテーションと比較して、暗い肌のトーンや珍しい病気の画像に悪影響を及ぼすこともわかりました。 最後に、多彩なDDI画像上の微調整AIモデルは、光と暗い肌のトーンのパフォーマンスギャップを埋めた。 さらに、皮膚の色調の異なる画像の悪性度を識別するアルゴリズムは、皮膚科医より優れていた。 本研究は,多様な患者や疾患に対する信頼性を確保するために対処する必要がある皮膚科AIの重要な弱点とバイアスを明らかにする。

Access to dermatological care is a major issue, with an estimated 3 billion people lacking access to care globally. Artificial intelligence (AI) may aid in triaging skin diseases. However, most AI models have not been rigorously assessed on images of diverse skin tones or uncommon diseases. To ascertain potential biases in algorithm performance in this context, we curated the Diverse Dermatology Images (DDI) dataset-the first publicly available, expertly curated, and pathologically confirmed image dataset with diverse skin tones. Using this dataset of 656 images, we show that state-of-the-art dermatology AI models perform substantially worse on DDI, with receiver operator curve area under the curve (ROC-AUC) dropping by 27-36 percent compared to the models' original test results. All the models performed worse on dark skin tones and uncommon diseases, which are represented in the DDI dataset. Additionally, we find that dermatologists, who typically provide visual labels for AI training and test datasets, also perform worse on images of dark skin tones and uncommon diseases compared to ground truth biopsy annotations. Finally, fine-tuning AI models on the well-characterized and diverse DDI images closed the performance gap between light and dark skin tones. Moreover, algorithms fine-tuned on diverse skin tones outperformed dermatologists on identifying malignancy on images of dark skin tones. Our findings identify important weaknesses and biases in dermatology AI that need to be addressed to ensure reliable application to diverse patients and diseases.
翻訳日:2022-03-18 13:07:21 公開日:2022-03-15
# 微生物の自己正規化密度マップ(SNDM)

Self-Normalized Density Map (SNDM) for Counting Microbiological Objects ( http://arxiv.org/abs/2203.09474v1 )

ライセンス: Link先を確認
Krzysztof M. Graczyk, Jaros{\l}aw Paw{\l}owski, Sylwia Majchrowska, Tomasz Golan(参考訳) 画像上の微生物学的対象を数えるための密度マップ(DM)手法の統計的性質を詳細に研究した。 DMはU$^2$-Netで与えられる。 ディープニューラルネットワークにはブートストラップとモンテカルロ(mc)ドロップアウトという2つの統計的手法が用いられている。 dm予測の不確実性に関する詳細な分析は、dmモデルの欠陥をより深く理解することにつながる。 本研究では,ネットワークにおける自己正規化モジュールを提案する。 SNDM(Self-Normalized Density Map)と呼ばれる改良されたネットワークモデルは、画像内のオブジェクトの総数を正確に予測するために、出力密度マップを自身で修正することができる。 SNDMアーキテクチャはオリジナルのモデルより優れている。 さらに、bootstrapとmc dropoutの両方の統計フレームワークは、元のモデルでは観測されなかったsndmの一貫した統計結果を持っている。

The statistical properties of the density map (DM) approach to counting microbiological objects on images are studied in detail. The DM is given by U$^2$-Net. Two statistical methods for deep neural networks are utilized: the bootstrap and the Monte Carlo (MC) dropout. The detailed analysis of the uncertainties for the DM predictions leads to a deeper understanding of the DM model's deficiencies. Based on our investigation, we propose a self-normalization module in the network. The improved network model, called Self-Normalized Density Map (SNDM), can correct its output density map by itself to accurately predict the total number of objects in the image. The SNDM architecture outperforms the original model. Moreover, both statistical frameworks -- bootstrap and MC dropout -- have consistent statistical results for SNDM, which were not observed in the original model.
翻訳日:2022-03-18 13:05:18 公開日:2022-03-15
# (参考訳) 不規則幾何領域における温度場予測のための物理とデータ共駆動サーロゲートモデリング手法 [全文訳有]

A physics and data co-driven surrogate modeling approach for temperature field prediction on irregular geometric domain ( http://arxiv.org/abs/2203.08150v1 )

ライセンス: CC0 1.0
Kairui Bao, Wen Yao, Xiaoya Zhang, Wei Peng, Yu Li(参考訳) 航空機の構造最適化ループ全体において、熱分析は非常に重要な役割を果たす。 しかし、従来の解析ツールを直接適用する場合、特に各最適化が繰り返しパラメータの変更と熱分析を伴う場合、計算の重荷に直面している。 近年、ディープラーニングの急速な発展に伴い、この障害を克服するためにいくつかの畳み込みニューラルネットワーク(CNN)サロゲートモデルが導入されている。 しかし, 不規則幾何領域の温度場予測(tfp-igd)では, ほとんどが正規画像の処理に起因しているため, cnnは有能ではない。 この難しさを緩和するために,新しい物理とデータ共駆動のサロゲートモデリング手法を提案する。 まず、幾何パラメータ化におけるベジエ曲線の適用後、不規則な物理平面と正規な計算平面の間の座標変換を生成するために体適合座標写像を導入する。 第2に、損失関数として偏微分方程式(pde)残差を持つ物理駆動cnnサーロゲートを高速メッシュ(meshing surrogate)に利用し、上記の正則計算平面(thermal surrogate)における温度場の解を学習することを目的としたマルチレベル還元次法に基づくデータ駆動サーロゲートモデルを提案する。 最後に、メッシュサーロゲートが提供する格子位置情報と熱サーロゲート(結合モデル)が提供するスカラー温度場情報とを組み合わせることで、不規則な幾何領域上の温度場予測に幾何学パラメータから端から端までのサーロゲートモデルに到達する。 その結果,本手法は他のcnn法と比較してトレーニング時間を短縮しつつ,より小さなデータセットでの精度予測を著しく改善できることがわかった。

In the whole aircraft structural optimization loop, thermal analysis plays a very important role. But it faces a severe computational burden when directly applying traditional numerical analysis tools, especially when each optimization involves repetitive parameter modification and thermal analysis followed. Recently, with the fast development of deep learning, several Convolutional Neural Network (CNN) surrogate models have been introduced to overcome this obstacle. However, for temperature field prediction on irregular geometric domains (TFP-IGD), CNN can hardly be competent since most of them stem from processing for regular images. To alleviate this difficulty, we propose a novel physics and data co-driven surrogate modeling method. First, after adapting the Bezier curve in geometric parameterization, a body-fitted coordinate mapping is introduced to generate coordinate transforms between the irregular physical plane and regular computational plane. Second, a physics-driven CNN surrogate with partial differential equation (PDE) residuals as a loss function is utilized for fast meshing (meshing surrogate); then, we present a data-driven surrogate model based on the multi-level reduced-order method, aiming to learn solutions of temperature field in the above regular computational plane (thermal surrogate). Finally, combining the grid position information provided by the meshing surrogate with the scalar temperature field information provided by the thermal surrogate (combined model), we reach an end-to-end surrogate model from geometric parameters to temperature field prediction on an irregular geometric domain. Numerical results demonstrate that our method can significantly improve accuracy prediction on a smaller dataset while reducing the training time when compared with other CNN methods.
翻訳日:2022-03-18 10:40:38 公開日:2022-03-15
# (参考訳) 自然クラスタリングによる深層学習の理解に向けて

Towards understanding deep learning with the natural clustering prior ( http://arxiv.org/abs/2203.08174v1 )

ライセンス: CC BY 4.0
Simon Carbonnelle(参考訳) 機械学習システムの設計に統合された事前知識(事前知識)は、その一般化能力に強く影響する。 深層学習の特定の文脈では、これらの先行課題のいくつかは、深層学習設計に関わる生体脳のヒューリスティックスと仮近似から暗黙的に現れるため、あまり理解されていない。 本論文は,教師付き画像分類問題のレンズを通して,3つの文からなる自然クラスタリングの暗黙的統合について検討する。 (i)自然画像は、豊かなクラスター構造を示す。 (ii)画像クラスは複数のクラスタから構成され、 (iii) 各クラスタは、単一のクラスの例を含む。 クラスを複数のクラスタに分解することは、教師なしのクラスタリングにより、教師なしのディープラーニングシステムが適切な決定境界を定義することができることを意味する。 そこで本論文は,深層学習システムにおける暗黙的なクラスタリング能力,機構,ハイパーパラメータを同定し,それらの一般化能力を説明する上での妥当性を評価することを目的としている。 我々は、深層ニューラルネットワークのニューロンおよび層レベルでの表現だけでなく、トレーニングダイナミクスの広範な実証研究を通じてこれを行う。 その結果得られた実験のコレクションは、ディープラーニングを理解する前に自然クラスタリングの関連性に関する予備的な証拠を提供する。

The prior knowledge (a.k.a. priors) integrated into the design of a machine learning system strongly influences its generalization abilities. In the specific context of deep learning, some of these priors are poorly understood as they implicitly emerge from the successful heuristics and tentative approximations of biological brains involved in deep learning design. Through the lens of supervised image classification problems, this thesis investigates the implicit integration of a natural clustering prior composed of three statements: (i) natural images exhibit a rich clustered structure, (ii) image classes are composed of multiple clusters and (iii) each cluster contains examples from a single class. The decomposition of classes into multiple clusters implies that supervised deep learning systems could benefit from unsupervised clustering to define appropriate decision boundaries. Hence, this thesis attempts to identify implicit clustering abilities, mechanisms and hyperparameters in deep learning systems and evaluate their relevance for explaining the generalization abilities of these systems. We do so through an extensive empirical study of the training dynamics as well as the neuron- and layer-level representations of deep neural networks. The resulting collection of experiments provides preliminary evidence for the relevance of the natural clustering prior for understanding deep learning.
翻訳日:2022-03-18 10:23:26 公開日:2022-03-15
# (参考訳) SemiPFL: エッジインテリジェンスのためのパーソナライズされた半監督型フェデレーション学習フレームワーク [全文訳有]

SemiPFL: Personalized Semi-Supervised Federated Learning Framework for Edge Intelligence ( http://arxiv.org/abs/2203.08176v1 )

ライセンス: CC BY 4.0
Arvin Tashakori, Wenwen Zhang, Z. Jane Wang, and Peyman Servati(参考訳) ウェアラブルデバイスとIoT(Internet-of-Thin gs)の最近の進歩は、エッジデバイスで生成されたセンサデータの大幅な増加につながっている。 このような大量のデータを分類タスクにラベル付けすることは困難であることが証明されている。 さらに、異なるユーザによって生成されたデータは、さまざまな個人属性とエッジの不均一性を持ち、すべてのユーザに適したグローバルモデルを開発するのが現実的ではない。 データプライバシと通信コストに関する懸念は、集中的なデータの蓄積とトレーニングも禁じている。 本稿では、ラベル付きデータセットや制限付きラベル付きデータセットを持たないエッジユーザと、十分なパフォーマンスのモデルのトレーニングに不十分な大量のラベル付きデータをサポートする、新しいパーソナライズされた半教師付きフェデレーション学習(semipfl)フレームワークを提案する。 この作業では、エッジユーザが協力してサーバ内のハイパーネットワークをトレーニングし、ユーザ毎にパーソナライズされたオートエンコーダを生成する。 エッジユーザから更新を受けた後、サーバは各ユーザに対してベースモデルのセットを生成し、ユーザが自身のラベル付きデータセットを使用してローカルに集約する。 提案したフレームワークを様々な公開データセット上で総合的に評価し、SemiPFLが同じ仮定で最先端のフェデレーション学習フレームワークより優れていることを示す。 また,ラベル付きデータセットや限定ラベル付きデータセットが存在しないユーザや,ラベル付きデータやユーザ数の増加によるパフォーマンス向上,エッジの不均一性と限定アノテーションを扱うためのSemiPFLの有効性を示す。 パーソナライズされた半教師付き学習を活用することで、SemiPFLは、ウェアラブルヘルスからIoTに至るまで、幅広いアプリケーションシナリオにおいて、データアノテートとプライバシ保護の必要性を劇的に低減する。

Recent advances in wearable devices and Internet-of-Things (IoT) have led to massive growth in sensor data generated in edge devices. Labeling such massive data for classification tasks has proven to be challenging. In addition, data generated by different users bear various personal attributes and edge heterogeneity, rendering it impractical to develop a global model that adapts well to all users. Concerns over data privacy and communication costs also prohibit centralized data accumulation and training. This paper proposes a novel personalized semi-supervised federated learning (SemiPFL) framework to support edge users having no label or limited labeled datasets and a sizable amount of unlabeled data that is insufficient to train a well-performing model. In this work, edge users collaborate to train a hyper-network in the server, generating personalized autoencoders for each user. After receiving updates from edge users, the server produces a set of base models for each user, which the users locally aggregate them using their own labeled dataset. We comprehensively evaluate our proposed framework on various public datasets and demonstrate that SemiPFL outperforms state-of-art federated learning frameworks under the same assumptions. We also show that the solution performs well for users without labeled datasets or having limited labeled datasets and increasing performance for increased labeled data and number of users, signifying the effectiveness of SemiPFL for handling edge heterogeneity and limited annotation. By leveraging personalized semi-supervised learning, SemiPFL dramatically reduces the need for annotating data and preserving privacy in a wide range of application scenarios, from wearable health to IoT.
翻訳日:2022-03-18 10:20:46 公開日:2022-03-15
# (参考訳) 多平面ボリュームセグメンテーションにおけるUNetアーキテクチャー-3つの膝MRIコホートによる検証 [全文訳有]

UNet Architectures in Multiplanar Volumetric Segmentation -- Validated on Three Knee MRI Cohorts ( http://arxiv.org/abs/2203.08194v1 )

ライセンス: CC BY 4.0
Sandeep Singh Sengara, Christopher Meulengrachtb, Mikael Ploug Boesenb, Anders F{\o}hrby Overgaardb, Henrik Gudbergsenb, Janus Damm Nybingb, Erik Bj{\o}rnager Dam(参考訳) UNetは、新しい方法の検証が必要な2D医療画像のセグメンテーションのためのゴールドスタンダードメソッドとなっている。 しかし、近年では、有望な結果を得るためにいくつかの変種が提案されている。 しかしながら、これらのアーキテクチャの一般性については明確なコンセンサスがなく、UNetは現在、方法論的なゴールドスタンダードのままである。 本研究の目的は、3Dセグメンテーションのための最も有望なUNetアーキテクチャのいくつかを評価することである。 3Dスキャンのセグメンテーションでは、UNetにインスパイアされたメソッドも支配的だが、アプリケーションによって大きなバリエーションがある。 異なる次元でアーキテクチャを評価し、異なる手法に埋め込まれ、異なるタスクのために、これらのUNet代替品のいずれかがUNetよりもさらに良く一般化する新しいゴールド標準として有望であるかどうかを評価することを目的とした。 具体的には,miccaiセグメンテーションdecathlonにおいて優れた一般化を示したマルチプランナーunet3dセグメンテーション法において,中心となる2次元セグメンテーションコアとしてアーキテクチャを調査した。 一般性(generalisability)は、有望な unet-variant がこの設定で unet を一貫して上回れば証明できる。 そこで我々は, 膝関節MRIを用いた3種類のコホートから軟骨分節の4つの構造について検討した。

UNet has become the gold standard method for segmenting 2D medical images that any new method must be validated against. However, in recent years, several variations of the seminal UNet have been proposed with promising results. However, there is no clear consensus on the generalisability of these architectures, and UNet currently remains the methodological gold standard. The purpose of this study was to evaluate some of the most promising UNet-inspired architectures for 3D segmentation. For the segmentation of 3D scans, UNet-inspired methods are also dominant, but there is a larger variety across applications. By evaluating the architectures in a different dimensionality, embedded in a different method, and for a different task, we aimed to evaluate if any of these UNet-alternatives are promising as a new gold standard that generalizes even better than UNet. Specifically, we investigated the architectures as the central 2D segmentation core in the Multi-Planar Unet 3D segmentation method that previously demonstrated excellent generalization in the MICCAI Segmentation Decathlon. Generalisability can be demonstrated if a promising UNet-variant consistently outperforms UNet in this setting. For this purpose, we evaluated four architectures for cartilage segmentation from three different cohorts with knee MRIs.
翻訳日:2022-03-18 10:02:05 公開日:2022-03-15
# (参考訳) HUMUS-Net:高速MRI再構成のためのハイブリッドアンロールマルチスケールネットワークアーキテクチャ [全文訳有]

HUMUS-Net: Hybrid unrolled multi-scale network architecture for accelerated MRI reconstruction ( http://arxiv.org/abs/2203.08213v1 )

ライセンス: CC BY 4.0
Zalan Fabian, Mahdi Soltanolkotabi(参考訳) MRIの早期再建では、アンダーサンプリングとノイズ測定のセットから患者の解剖が復元される。 ディープラーニングのアプローチは、この不適切な逆問題を解くことに成功し、非常に高品質な再構築を実現できることが証明されている。 しかし、現在のアーキテクチャはコンボリューションに大きく依存しており、コンボリューションはコンテンツに依存しず、画像の長距離依存性のモデリングが困難である。 近年,現代自然言語処理の推進役であるTransformersが,視覚タスクを多用する強力なビルディングブロックとして登場している。 これらのモデルは入力画像を重複しないパッチに分割し、パッチを低次元のトークンに埋め込み、上記の畳み込みアーキテクチャの弱点に苦しむことのない自己照応機構を利用する。 しかし、Transformerは計算とメモリのコストが非常に高い。 1)入力画像解像度が高く、かつ 2) 画像が細部情報を保持するために多数のパッチに分割する必要がある場合, いずれもMRI再構成などの低レベル視力問題に典型的であり, 複合効果を有する。 これらの課題に取り組むため,本論文では,畳み込みの有益な負のバイアスと効率と変圧器ブロックのパワーを組み合わせたハイブリッドアーキテクチャであるhumus-netを提案する。 HUMUS-Netは、畳み込みブロックを介して高分解能特徴を抽出し、新しいトランスフォーマーベースのマルチスケール特徴抽出器を介して低分解能特徴を洗練する。 両方のレベルの特徴を合成して高分解能出力再構成を行う。 我々のネットワークは、最も広く公開されているMRIデータセットである高速MRIデータセット上で、新しい最先端技術を確立する。 HUMUS-Netの他の2つのMRIデータセットの性能を実証し、我々の設計を検証するための微細なアブレーション研究を行う。

In accelerated MRI reconstruction, the anatomy of a patient is recovered from a set of under-sampled and noisy measurements. Deep learning approaches have been proven to be successful in solving this ill-posed inverse problem and are capable of producing very high quality reconstructions. However, current architectures heavily rely on convolutions, that are content-independent and have difficulties modeling long-range dependencies in images. Recently, Transformers, the workhorse of contemporary natural language processing, have emerged as powerful building blocks for a multitude of vision tasks. These models split input images into non-overlapping patches, embed the patches into lower-dimensional tokens and utilize a self-attention mechanism that does not suffer from the aforementioned weaknesses of convolutional architectures. However, Transformers incur extremely high compute and memory cost when 1) the input image resolution is high and 2) when the image needs to be split into a large number of patches to preserve fine detail information, both of which are typical in low-level vision problems such as MRI reconstruction, having a compounding effect. To tackle these challenges, we propose HUMUS-Net, a hybrid architecture that combines the beneficial implicit bias and efficiency of convolutions with the power of Transformer blocks in an unrolled and multi-scale network. HUMUS-Net extracts high-resolution features via convolutional blocks and refines low-resolution features via a novel Transformer-based multi-scale feature extractor. Features from both levels are then synthesized into a high-resolution output reconstruction. Our network establishes new state of the art on the largest publicly available MRI dataset, the fastMRI dataset. We further demonstrate the performance of HUMUS-Net on two other popular MRI datasets and perform fine-grained ablation studies to validate our design.
翻訳日:2022-03-18 09:40:35 公開日:2022-03-15
# (参考訳) CrowdMLP: マルチグラニュラリティMLPによる微妙な群衆カウント [全文訳有]

CrowdMLP: Weakly-Supervised Crowd Counting via Multi-Granularity MLP ( http://arxiv.org/abs/2203.08219v1 )

ライセンス: CC0 1.0
Mingjie Wang, Jun Zhou, Hao Cai, Minglun Gong(参考訳) 既存の最先端のクラウドカウントアルゴリズムは、場所レベルのアノテーションを過度に頼っている。 カウントレベル(弱)の監視信号しか利用できない場合、明示的な空間的制約が欠如しているため、総カウントを後退させるのは困難で誤りやすい。 この問題に対処するために,マルチグラニュラ性mlpレグレッサを考案し,埋め込みのグローバル依存性のモデル化と総カウントの回帰を探究する,新規かつ効率的なカウンタ(crowdmlp)が提案されている。 具体的には、現地で訓練された事前学習されたフロントエンドをカスケードして、内在的な空間的手がかりを持つ粗い特徴マップを抽出することで、モデルが自明な結果に崩壊することを防ぐ。 粗い埋め込みは、生の群衆のシーンとともに、異なる粒度レベルでトークン化されます。 多粒度MLPは、グローバル情報をマイニングするために、基数、チャネル、空間の次元でトークンを混合する。 限られたサンプルのバリアや空間的ヒントの不足を回避すべく,スプリットカウントという効果的なプロキシタスクも提案されている。 大規模な実験により、CrowdMLPは既存の弱い教師付きカウントアルゴリズムを著しく上回り、最先端のロケーションレベルの教師付きアプローチと同等に機能することが示された。

Existing state-of-the-art crowd counting algorithms rely excessively on location-level annotations, which are burdensome to acquire. When only count-level (weak) supervisory signals are available, it is arduous and error-prone to regress total counts due to the lack of explicit spatial constraints. To address this issue, a novel and efficient counter (referred to as CrowdMLP) is presented, which probes into modelling global dependencies of embeddings and regressing total counts by devising a multi-granularity MLP regressor. In specific, a locally-focused pre-trained frontend is cascaded to extract crude feature maps with intrinsic spatial cues, which prevent the model from collapsing into trivial outcomes. The crude embeddings, along with raw crowd scenes, are tokenized at different granularity levels. The multi-granularity MLP then proceeds to mix tokens at the dimensions of cardinality, channel, and spatial for mining global information. An effective proxy task, namely Split-Counting, is also proposed to evade the barrier of limited samples and the shortage of spatial hints in a self-supervised manner. Extensive experiments demonstrate that CrowdMLP significantly outperforms existing weakly-supervised counting algorithms and performs on par with state-of-the-art location-level supervised approaches.
翻訳日:2022-03-18 09:19:56 公開日:2022-03-15
# (参考訳) 強化学習のためのZipfian環境 [全文訳有]

Zipfian environments for Reinforcement Learning ( http://arxiv.org/abs/2203.08222v1 )

ライセンス: CC BY 4.0
Stephanie C. Y. Chan and Andrew K. Lampinen and Pierre H. Richemond and Felix Hill(参考訳) 人間や動物が自然界で学ぶようになると、それらは一様ではない実体、状況、出来事の分布に遭遇する。 典型的には、比較的小さな経験が頻繁に遭遇するが、多くの重要な経験は稀に起こる。 高度に歪んだヘビーテールの現実性は、人間や動物が特別な記憶システムを進化させることによって、特定の学習課題を引き起こす。 対照的に、最も人気のあるRL環境とベンチマークは、プロパティ、オブジェクト、状況、タスクのほぼ均一なバリエーションを含んでいる。 環境特性の分布がそれほど均一ではない世界で、rlアルゴリズムはどのように機能するのか? そこで本研究では,Zipfian(discrete power law)分布に応じてエージェントの経験が変化する3つの補完的RL環境を開発する。 これらのベンチマークでは、標準のDeep RLアーキテクチャとアルゴリズムが、一般的な状況やタスクの有用な知識を取得するが、より稀なものについて適切に学習することができない。 この障害をよりよく理解するために、現在のアプローチの異なる側面がレアなイベントのパフォーマンスを改善するのにどのように調整されるかを調べ、rlの目的関数、エージェントのメモリシステム、自己監督学習の目的がエージェントのまれな経験から学ぶ能力に影響を与えていることを示す。 これらの結果から, シュキュード体験からの学習はシミュレーションや研究室を超えてディープRL手法を適用する上で重要な課題であり, 我々のZipfian環境はこの目標に向けての今後の進歩を測る基盤となることが示唆された。

As humans and animals learn in the natural world, they encounter distributions of entities, situations and events that are far from uniform. Typically, a relatively small set of experiences are encountered frequently, while many important experiences occur only rarely. The highly-skewed, heavy-tailed nature of reality poses particular learning challenges that humans and animals have met by evolving specialised memory systems. By contrast, most popular RL environments and benchmarks involve approximately uniform variation of properties, objects, situations or tasks. How will RL algorithms perform in worlds (like ours) where the distribution of environment features is far less uniform? To explore this question, we develop three complementary RL environments where the agent's experience varies according to a Zipfian (discrete power law) distribution. On these benchmarks, we find that standard Deep RL architectures and algorithms acquire useful knowledge of common situations and tasks, but fail to adequately learn about rarer ones. To understand this failure better, we explore how different aspects of current approaches may be adjusted to help improve performance on rare events, and show that the RL objective function, the agent's memory system and self-supervised learning objectives can all influence an agent's ability to learn from uncommon experiences. Together, these results show that learning robustly from skewed experience is a critical challenge for applying Deep RL methods beyond simulations or laboratories, and our Zipfian environments provide a basis for measuring future progress towards this goal.
翻訳日:2022-03-18 09:03:25 公開日:2022-03-15
# (参考訳) 性障害: 医学的機械学習における性/生殖機能導入の落とし穴と回避方法 [全文訳有]

Sex Trouble: Common pitfalls in incorporating sex/gender in medical machine learning and how to avoid them ( http://arxiv.org/abs/2203.08227v1 )

ライセンス: CC BY 4.0
Kendra Albert and Maggie Delano(参考訳) 性別や性別に関する虚偽の仮定は、二進法、静的、調和性を含む医療システムに深く埋め込まれている。 機械学習の研究者たちは、これらの仮定の性質を理解して、それらの永続性を避ける必要がある。 この観点では、研究者がセックス/ジェンダーデータを扱う際に犯す3つの一般的な誤りを識別する:「セックス・混乱」、データセット内のセックスが何を行うか、意味しないかを識別できないこと、「セックス・オブッセッション」、セックス、特に出生時に割り当てられたセックスは、ほとんどのアプリケーションにとって関連する変数である、という信念、セックスとジェンダーの融合である「セックス/ジェンダー・スリップ」。 次に、これらの落とし穴が、患者の成果の振り返り分析から、リスク予測とケア管理のためのアルゴリズムの開発まで、あらゆる場面で一般的に使用される電子健康記録データに基づいて、機械学習研究にどのように現れるかについて議論する。 最後に、私たちは、トランスジェンダーの人々を含むすべての患者により良いサービスを提供し、セックス/ジェンダーの質問にもっと注意深く関与する、研究とアルゴリズムの両方を機械学習研究者がいかに作成できるかについて、一連の推奨を提供している。

False assumptions about sex and gender are deeply embedded in the medical system, including that they are binary, static, and concordant. Machine learning researchers must understand the nature of these assumptions in order to avoid perpetuating them. In this perspectives piece, we identify three common mistakes that researchers make when dealing with sex/gender data: "sex confusion", the failure to identity what sex in a dataset does or doesn't mean; "sex obsession", the belief that sex, specifically sex assigned at birth, is the relevant variable for most applications; and "sex/gender slippage", the conflation of sex and gender even in contexts where only one or the other is known. We then discuss how these pitfalls show up in machine learning studies based on electronic health record data, which is commonly used for everything from retrospective analysis of patient outcomes to the development of algorithms to predict risk and administer care. Finally, we offer a series of recommendations about how machine learning researchers can produce both research and algorithms that more carefully engage with questions of sex/gender, better serving all patients, including transgender people.
翻訳日:2022-03-18 08:38:47 公開日:2022-03-15
# (参考訳) 大規模動作空間における非線形強化学習 : 後方サンプリングの構造条件とサンプル効率

Non-Linear Reinforcement Learning in Large Action Spaces: Structural Conditions and Sample-efficiency of Posterior Sampling ( http://arxiv.org/abs/2203.08248v1 )

ライセンス: CC BY 4.0
Alekh Agarwal and Tong Zhang(参考訳) リッチな観測と関数近似を備えたRL(Reinforcement Learning)は,特に基礎となる関数近似器が線形である場合,近年著しく進歩している。 この線形レジームでは、潜在的に無限の状態と作用空間を既知の特徴埋め込みを通じて捉えることができる計算的かつ統計的に効率的な手法が存在し、これらの特徴の(イントラシックな)次元でサンプル複雑性をスケーリングする。 作用空間が有限であるとき、さらに高度な結果により、基礎となるRL問題に対する適切な構造的制約の下での非線形関数近似が可能となり、例えば、それらへのアクセスを仮定する代わりに良い特徴の学習が可能になる。 本研究では,線形埋め込み可能性条件下での一般作用空間に対して,すべての線形および有限作用設定を一般化した非線形関数近似の最初の結果を示す。 このような問題に対して,新しい楽観的な後方サンプリング戦略であるts^3を設計し,rl問題のランクパラメータ,本研究で導入された線形埋め込み次元,関数クラス複雑性の標準尺度などを用いた,最悪のサンプル複雑性の保証を示す。

Provably sample-efficient Reinforcement Learning (RL) with rich observations and function approximation has witnessed tremendous recent progress, particularly when the underlying function approximators are linear. In this linear regime, computationally and statistically efficient methods exist where the potentially infinite state and action spaces can be captured through a known feature embedding, with the sample complexity scaling with the (intrinsic) dimension of these features. When the action space is finite, significantly more sophisticated results allow non-linear function approximation under appropriate structural constraints on the underlying RL problem, permitting for instance, the learning of good features instead of assuming access to them. In this work, we present the first result for non-linear function approximation which holds for general action spaces under a linear embeddability condition, which generalizes all linear and finite action settings. We design a novel optimistic posterior sampling strategy, TS^3 for such problems, and show worst case sample complexity guarantees that scale with a rank parameter of the RL problem, the linear embedding dimension introduced in this work and standard measures of the function class complexity.
翻訳日:2022-03-18 08:10:43 公開日:2022-03-15
# (参考訳) 多段階x線学的要約のための微分可能マルチエージェントアクタ-クリティック [全文訳有]

Differentiable Multi-Agent Actor-Critic for Multi-Step Radiology Report Summarization ( http://arxiv.org/abs/2203.08257v1 )

ライセンス: CC BY 4.0
Sanjeev Kumar Karn, Ning Liu, Hinrich Schuetze and Oladimeji Farri(参考訳) 画像研究に関する放射線医学レポートのImpressionIONSセクションは、放射線医の推論と結論の要約であり、また、特定の診断を確認または除外する参考医師を助ける。 典型的な情報豊富な放射線学レポートの要約要約を自動的に生成するために、一連のタスクが要求される。 これらのタスクには、レポートから健全なコンテンツを取得し、簡潔で簡単に消費可能なIMPRESSIONSセクションを生成することが含まれる。 放射線学レポートの要約に関する以前の研究は、単一段階のエンドツーエンドモデルに焦点を当てていた。 放射線報告書要約のカスケード構造と説明可能性を完全に検討するために,2つのイノベーションを紹介する。 まず,抽出的要約と抽象的要約という2段階のアプローチを設計する。 次に,抽出部を,(1)文の抽出と(2)キーワードの抽出という2つの独立したタスクに分割する。 F1スコアの総合的な改善が3.4%であるシングルステップと2ステップの抽出プロセスベースラインと比較して,我々の新しいアプローチがより正確に要約されることを示す。

The IMPRESSIONS section of a radiology report about an imaging study is a summary of the radiologist's reasoning and conclusions, and it also aids the referring physician in confirming or excluding certain diagnoses. A cascade of tasks are required to automatically generate an abstractive summary of the typical information-rich radiology report. These tasks include acquisition of salient content from the report and generation of a concise, easily consumable IMPRESSIONS section. Prior research on radiology report summarization has focused on single-step end-to-end models -- which subsume the task of salient content acquisition. To fully explore the cascade structure and explainability of radiology report summarization, we introduce two innovations. First, we design a two-step approach: extractive summarization followed by abstractive summarization. Second, we additionally break down the extractive part into two independent tasks: extraction of salient (1) sentences and (2) keywords. Experiments on a publicly available radiology report dataset show our novel approach leads to a more precise summary compared to single-step and to two-step-with-single -extractive-process baselines with an overall improvement in F1 score Of 3-4%.
翻訳日:2022-03-18 08:08:52 公開日:2022-03-15
# (参考訳) 低資源コーパスマイニングにおける品質評価 [全文訳有]

Better Quality Estimation for Low Resource Corpus Mining ( http://arxiv.org/abs/2203.08259v1 )

ライセンス: CC BY 4.0
Muhammed Yusuf Kocyigit, Jiho Lee, Derry Wijaya(参考訳) 品質評価(QE)モデルは、マシン翻訳モデルの評価やトレーニング方法を変える可能性がある。 しかし、これらのモデルは一般的な採用を実現するための堅牢性に欠けていた。 現状のQEモデルは、Parallel Corpus Mining(PCM)環境でテストした場合、ドメイン外の例に対する堅牢性の欠如により予期せぬ悪い結果が得られた。 本稿では,マルチタスク学習とデータ拡張,コントラスト学習を組み合わせたQE性能の向上を提案する。 本稿では,Parallel Corpus Miningセットアップでテストした場合のMLQEチャレンジとQEモデルの堅牢性において,QE性能を著しく向上することを示す。 我々はPCMの精度を0.80以上向上させ、数百万の文対を使ってモデルを訓練する最先端PCM手法と同等にする。 比較として,1000倍少ないデータ,合計7Kパラレル文を用い,新しい低リソースPCM法を提案する。

Quality Estimation (QE) models have the potential to change how we evaluate and maybe even train machine translation models. However, these models still lack the robustness to achieve general adoption. We show that State-of-the-art QE models, when tested in a Parallel Corpus Mining (PCM) setting, perform unexpectedly bad due to a lack of robustness to out-of-domain examples. We propose a combination of multitask training, data augmentation and contrastive learning to achieve better and more robust QE performance. We show that our method improves QE performance significantly in the MLQE challenge and the robustness of QE models when tested in the Parallel Corpus Mining setup. We increase the accuracy in PCM by more than 0.80, making it on par with state-of-the-art PCM methods that use millions of sentence pairs to train their models. In comparison, we use a thousand times less data, 7K parallel sentences in total, and propose a novel low resource PCM method.
翻訳日:2022-03-18 07:34:51 公開日:2022-03-15
# (参考訳) チャネル状態情報を用いた教師なし位置決めとマッピングのためのニューラルRFSLAM [全文訳有]

Neural RF SLAM for unsupervised positioning and mapping with channel state information ( http://arxiv.org/abs/2203.08264v1 )

ライセンス: CC BY 4.0
Shreya Kadambi, Arash Behboodi, Joseph B. Soriaga, Max Welling, Roohollah Amiri, Srinivas Yerramalli, Taesang Yoo(参考訳) 位置情報を持たないチャネル状態情報(CSI)値から、アイソメトリにマッピングしたユーザ位置と環境を、教師なしの方法で共同学習するニューラルネットワークアーキテクチャを提案する。 モデルはエンコーダ-デコーダアーキテクチャに基づいている。 エンコーダネットワークはcsi値をユーザロケーションにマップする。 デコーダネットワークは仮想アンカーを用いて環境をパラメータ化することで伝播の物理をモデル化する。 エンコーダ出力と仮想アンカー位置から、超解像法を用いてCSIから抽出された飛行時間(ToF)のセットを再構築することを目的としている。 ニューラルネットワークタスクは、予測をセットして、エンドツーエンドでトレーニングされる。 提案モデルでは,物理ベースのデコーダを適用すれば,解釈可能な潜在能力,すなわちユーザ位置を学習できる。 提案手法は,2次元環境における4cm中央値誤差と3次元環境における15cm中央値誤差を復元しながら,単一アンカーSISOセットアップによる合成光線追跡に基づくデータセットのサブメーター精度を実現する。

We present a neural network architecture for jointly learning user locations and environment mapping up to isometry, in an unsupervised way, from channel state information (CSI) values with no location information. The model is based on an encoder-decoder architecture. The encoder network maps CSI values to the user location. The decoder network models the physics of propagation by parametrizing the environment using virtual anchors. It aims at reconstructing, from the encoder output and virtual anchor location, the set of time of flights (ToFs) that are extracted from CSI using super-resolution methods. The neural network task is set prediction and is accordingly trained end-to-end. The proposed model learns an interpretable latent, i.e., user location, by just enforcing a physics-based decoder. It is shown that the proposed model achieves sub-meter accuracy on synthetic ray tracing based datasets with single anchor SISO setup while recovering the environment map up to 4cm median error in a 2D environment and 15cm in a 3D environment
翻訳日:2022-03-18 07:19:28 公開日:2022-03-15
# (参考訳) 非神経モデル問題:神経参照表現生成システムの再評価 [全文訳有]

Non-neural Models Matter: A Re-evaluation of Neural Referring Expression Generation Systems ( http://arxiv.org/abs/2203.08274v1 )

ライセンス: CC BY 4.0
Fahime Same, Guanyi Chen, Kees van Deemter(参考訳) 近年、ニューラルネットワークはnlgのルールベースや古典的な機械学習アプローチを上回っている。 これらの古典的なアプローチは、例えば新しいニューラルモデルを評価する際にはしばしば無視される。 なぜなら、あるタスクにおいて、よく設計された非神経アプローチは、ニューラルネットワークよりも優れたパフォーマンスを達成するからです。 本稿では,言語文脈で参照表現を生成するタスクを例に挙げる。 異なる2つの英語データセット(webnlgとwsj)を調査し,各アルゴリズムを自動評価と人間評価の両方を用いて評価した。 これらの評価の結果、単純なルールセットを持つルールベースシステムは、最先端のニューラルREGシステムと比較して、両方のデータセットでオンパーまたはより良いパフォーマンスを達成することが示唆された。 より現実的なデータセットの場合、よく設計された言語機能を備えた機械学習ベースのシステムであるwsjは、最もパフォーマンスが良かった。 私たちの研究が、将来的には非神経モデルを検討するよう研究者に促すことを願っています。

In recent years, neural models have often outperformed rule-based and classic Machine Learning approaches in NLG. These classic approaches are now often disregarded, for example when new neural models are evaluated. We argue that they should not be overlooked, since, for some tasks, well-designed non-neural approaches achieve better performance than neural ones. In this paper, the task of generating referring expressions in linguistic context is used as an example. We examined two very different English datasets (WEBNLG and WSJ), and evaluated each algorithm using both automatic and human evaluations. Overall, the results of these evaluations suggest that rule-based systems with simple rule sets achieve on-par or better performance on both datasets compared to state-of-the-art neural REG systems. In the case of the more realistic dataset, WSJ, a machine learning-based system with well-designed linguistic features performed best. We hope that our work can encourage researchers to consider non-neural models in future.
翻訳日:2022-03-18 07:07:41 公開日:2022-03-15
# (参考訳) 自己分配蒸留:効率的な不確実性推定 [全文訳有]

Self-Distribution Distillation: Efficient Uncertainty Estimation ( http://arxiv.org/abs/2203.08295v1 )

ライセンス: CC BY 4.0
Yassir Fathullah and Mark J. F. Gales(参考訳) ディープラーニングは、安全クリティカルな領域にますます適用されています。 これらのシナリオでは、システムによって適切な決定が行われることを保証するために、モデルの予測の不確実性レベルを知ることが重要です。 深いアンサンブルは、様々な不確実性の尺度を得るためのデファクトの標準的アプローチである。 しかしながら、アンサンブルはトレーニングおよび/またはデプロイメントフェーズに必要なリソースを著しく増加させることが多い。 これらのフェーズの1つのコストに対処するアプローチが開発されている。 本研究では,不確かさを推定できる単一モデルを効率的に訓練できる自己分配蒸留(s2d)という新しい訓練手法を提案する。 さらに、これらのモデルのアンサンブルを構築し、階層的なアンサンブル蒸留アプローチを適用することができる。 CIFAR-100の実験では、S2Dモデルは標準モデルとモンテカルロのドロップアウトよりも優れていた。 LSUN, Tiny ImageNet, SVHN では, 標準の深層アンサンブルであっても, S2D ベースのアンサンブルと新しい蒸留モデルにより性能が向上することを示した。

Deep learning is increasingly being applied in safety-critical domains. For these scenarios it is important to know the level of uncertainty in a model's prediction to ensure appropriate decisions are made by the system. Deep ensembles are the de-facto standard approach to obtaining various measures of uncertainty. However, ensembles often significantly increase the resources required in the training and/or deployment phases. Approaches have been developed that typically address the costs in one of these phases. In this work we propose a novel training approach, self-distribution distillation (S2D), which is able to efficiently train a single model that can estimate uncertainties. Furthermore it is possible to build ensembles of these models and apply hierarchical ensemble distillation approaches. Experiments on CIFAR-100 showed that S2D models outperformed standard models and Monte-Carlo dropout. Additional out-of-distribution detection experiments on LSUN, Tiny ImageNet, SVHN showed that even a standard deep ensemble can be outperformed using S2D based ensembles and novel distilled models.
翻訳日:2022-03-18 06:49:54 公開日:2022-03-15
# (参考訳) 2段階コントラスト学習による単語翻訳の改善 [全文訳有]

Improving Word Translation via Two-Stage Contrastive Learning ( http://arxiv.org/abs/2203.08307v1 )

ライセンス: CC BY 4.0
Yaoyiran Li, Fangyu Liu, Nigel Collier, Anna Korhonen, Ivan Vuli\'c(参考訳) 単語翻訳またはバイリンガル語彙誘導(BLI)は、異なる言語間の語彙的ギャップを埋めることを目的とした重要な言語間タスクである。 本研究では,BLIタスクのための頑健で効果的な2段階のコントラスト学習フレームワークを提案する。 c1では,静的な単語埋め込み(wes)間の標準的な言語間リニアマップを,より洗練された言語間マップのための自己学習手順に統合する方法を示す。 ステージC2では、BLI指向のmBERTのコントラスト微調整を行い、単語翻訳能力を解放する。 また, 'C2-tuned' mBERT から誘導される静的 WE がStage C1 からの静的 WE を補完することを示す。 多様な言語のための標準BLIデータセットと異なる実験環境に関する総合的な実験は、我々のフレームワークによって実現された大きな成果を示している。 ステージc1からのbliメソッドはすでに、最先端のbliメソッドに比較してかなりの成果を上げていますが、さらに強力な改善は、完全な2段階フレームワーク(例えば、28の言語ペアにまたがる112/112 bliセットアップの獲得を報告します。

Word translation or bilingual lexicon induction (BLI) is a key cross-lingual task, aiming to bridge the lexical gap between different languages. In this work, we propose a robust and effective two-stage contrastive learning framework for the BLI task. At Stage C1, we propose to refine standard cross-lingual linear maps between static word embeddings (WEs) via a contrastive learning objective; we also show how to integrate it into the self-learning procedure for even more refined cross-lingual maps. In Stage C2, we conduct BLI-oriented contrastive fine-tuning of mBERT, unlocking its word translation capability. We also show that static WEs induced from the `C2-tuned' mBERT complement static WEs from Stage C1. Comprehensive experiments on standard BLI datasets for diverse languages and different experimental setups demonstrate substantial gains achieved by our framework. While the BLI method from Stage C1 already yields substantial gains over all state-of-the-art BLI methods in our comparison, even stronger improvements are met with the full two-stage framework: e.g., we report gains for 112/112 BLI setups, spanning 28 language pairs.
翻訳日:2022-03-18 06:31:08 公開日:2022-03-15
# (参考訳) ADATIME:時系列データに基づくドメイン適応のためのベンチマークスイート [全文訳有]

ADATIME: A Benchmarking Suite for Domain Adaptation on Time Series Data ( http://arxiv.org/abs/2203.08321v1 )

ライセンス: CC BY 4.0
Mohamed Ragab, Emadeldeen Eldele, Wee Ling Tan, Chuan-Sheng Foo, Zhenghua Chen, Min Wu, Chee-Keong Kwoh, Xiaoli Li(参考訳) 教師なしドメイン適応法(unsupervised domain adaptation method)は、トレーニングデータとは異なる(シフトされた)分布を持つ可能性のあるラベルなしテストデータをうまく一般化することを目的としている。 このような手法は一般的に画像データ上で開発され、時系列データへの応用は少ない。 時系列領域適応に関する既存の研究は、評価スキーム、データセット、バックボーンニューラルネットワークアーキテクチャの不整合に苦しむ。 さらに、ラベル付きターゲットデータは通常、教師なしドメイン適応の基本的な前提に反するモデル選択に使用される。 これらの課題に対処するため、時系列データ上で異なるドメイン適応手法を体系的かつ適切に評価するベンチマーク評価スイート(ADATIME)を開発した。 具体的には、バックボーンニューラルネットワークアーキテクチャとベンチマークデータセットを標準化するとともに、ラベル付きデータや少数のラベル付きサンプルで動作可能な、より現実的なモデル選択アプローチも検討しています。 本評価は,時系列データ用に開発された最近の手法に加えて,最先端の視覚領域適応手法を時系列データに適用することを含む。 20のクロスドメインシナリオにまたがる4つの代表的なデータセットにおいて、10の最先端手法を評価するための広範な実験を行った。 提案手法は,ハイパーパラメータの選択を慎重に行うことで,時系列領域適応法と競合することが示唆された。 さらに、ハイパーパラメーターは現実的なモデル選択アプローチに基づいて選択できることがわかった。 本研究は,時系列データにドメイン適応手法を適用するための実践的洞察を公開し,将来的な研究のための基盤を構築する。 コードは \href{https://github.com/e madeldeen24/adatime}{github.com/emadeldee n24/adatime} で入手できる。

Unsupervised domain adaptation methods aim to generalize well on unlabeled test data that may have a different (shifted) distribution from the training data. Such methods are typically developed on image data, and their application to time series data is less explored. Existing works on time series domain adaptation suffer from inconsistencies in evaluation schemes, datasets, and backbone neural network architectures. Moreover, labeled target data are usually employed for model selection, which violates the fundamental assumption of unsupervised domain adaptation. To address these issues, we develop a benchmarking evaluation suite (ADATIME) to systematically and fairly evaluate different domain adaptation methods on time series data. Specifically, we standardize the backbone neural network architectures and benchmarking datasets, while also exploring more realistic model selection approaches that can work with no labeled data or just few labeled samples. Our evaluation includes adapting state-of-the-art visual domain adaptation methods to time series data in addition to the recent methods specifically developed for time series data. We conduct extensive experiments to evaluate 10 state-of-the-art methods on four representative datasets spanning 20 cross-domain scenarios. Our results suggest that with careful selection of hyper-parameters, visual domain adaptation methods are competitive with methods proposed for time series domain adaptation. In addition, we find that hyper-parameters could be selected based on realistic model selection approaches. Our work unveils practical insights for applying domain adaptation methods on time series data and builds a solid foundation for future works in the field. The code is available at \href{https://github.com/e madeldeen24/AdaTime}{github.com/emadeldee n24/AdaTime}.
翻訳日:2022-03-18 05:41:18 公開日:2022-03-15
# MoReL: マルチオミクス関係学習

MoReL: Multi-omics Relational Learning ( http://arxiv.org/abs/2203.08149v1 )

ライセンス: Link先を確認
Arman Hasanzadeh, Ehsan Hajiramezanali, Nick Duffield, Xiaoning Qian(参考訳) マルチオミクスデータ解析は隠れた分子間相互作用を発見し、生命や疾患の研究において興味を持つ細胞過程の制御および/またはシグナル伝達経路を明らかにする可能性がある。 実世界のマルチオミクスデータを扱う際の重要な課題の1つは、様々な種類のオミクスデータに対して異なる条件下で、既存のデータから収集されるように、異質な構造とデータ品質を示す可能性があることである。 本稿では,分子間相互作用をヘテロジニアスなビューで表す多部グラフを,対応するビューの潜在表現間の融合Gromov-Wasserstein (FGW) 正規化を用いて効率的に推定する,新しいディープベイズ生成モデルを提案する。 このようなディープベイズ生成モデルにおける最適な輸送正則化により、グラフ構造化データと非構造化データの両方を異なるビューに含めるだけでなく、分布ベースの正則化によってモデルの柔軟性を高めることができる。 これにより、不均一潜在変数分布の効率的なアライメントは、既存の点ベースグラフ埋め込み法と比較して信頼性の高い相互作用予測を導出することができる。 いくつかの実世界のデータセットに対する実験により、既存のベースラインと比較して意味のある相互作用を推測するMoReLの性能が向上した。

Multi-omics data analysis has the potential to discover hidden molecular interactions, revealing potential regulatory and/or signal transduction pathways for cellular processes of interest when studying life and disease systems. One of critical challenges when dealing with real-world multi-omics data is that they may manifest heterogeneous structures and data quality as often existing data may be collected from different subjects under different conditions for each type of omics data. We propose a novel deep Bayesian generative model to efficiently infer a multi-partite graph encoding molecular interactions across such heterogeneous views, using a fused Gromov-Wasserstein (FGW) regularization between latent representations of corresponding views for integrative analysis. With such an optimal transport regularization in the deep Bayesian generative model, it not only allows incorporating view-specific side information, either with graph-structured or unstructured data in different views, but also increases the model flexibility with the distribution-based regularization. This allows efficient alignment of heterogeneous latent variable distributions to derive reliable interaction predictions compared to the existing point-based graph embedding methods. Our experiments on several real-world datasets demonstrate enhanced performance of MoReL in inferring meaningful interactions compared to existing baselines.
翻訳日:2022-03-17 16:04:52 公開日:2022-03-15
# 深入射フーリエニューラル演算子(IFNO)の学習と異種材料モデリングへの応用

Learning Deep Implicit Fourier Neural Operators (IFNOs) with Applications to Heterogeneous Material Modeling ( http://arxiv.org/abs/2203.08205v1 )

ライセンス: Link先を確認
Huaiqian You, Quinn Zhang, Colton J. Ross, Chung-Hao Lee, Yue Yu(参考訳) 連続体力学理論に基づく構成的モデリングは、材料の力学的応答をモデル化する古典的なアプローチである。 しかし、構成法則が未知である場合、あるいは欠陥や不均一性が高い場合、これらの古典的モデルが不正確になる可能性がある。 本研究では, 従来の構成モデルを用いることなく, 高忠実度シミュレーションや実験測定を直接利用して材料応答を予測するデータ駆動モデリングを提案する。 特に、材料応答は、負荷条件と結果の変位および/または損傷場の間の暗黙的なマッピングを学習し、ニューラルネットワークが解演算子のサロゲートとなるようにモデル化される。 物質的不均一性と欠陥による複雑な応答をモデル化するため,我々は,インプリシティ・フーリエ・ニューラル・オペレーター(IFNO)と呼ばれる新しいディープ・ニューラル・オペレーター・アーキテクチャを開発した。 IFNOでは、レイヤ間のインクリメントは、機能空間における長距離依存関係をキャプチャする統合演算子としてモデル化される。 ネットワークが深まるにつれて、IFNOの極限は固定点方程式となり、暗黙のニューラル演算子となり、物質モデリング問題における変位/損傷フィールド解決手順を自然に模倣する。 本研究では, 超弾性材料, 異方性材料, 脆性材料など, 提案手法の性能を示す。 提案手法は,デジタル画像相関(dic)追跡測定から直接材料モデルを学習する手法を応用し,変位場予測において,学習した解演算子が従来の構成モデルを大きく上回ることを示す。

Constitutive modeling based on continuum mechanics theory has been a classical approach for modeling the mechanical responses of materials. However, when constitutive laws are unknown or when defects and/or high degrees of heterogeneity are present, these classical models may become inaccurate. In this work, we propose to use data-driven modeling, which directly utilizes high-fidelity simulation and/or experimental measurements to predict a material's response without using conventional constitutive models. Specifically, the material response is modeled by learning the implicit mappings between loading conditions and the resultant displacement and/or damage fields, with the neural network serving as a surrogate for a solution operator. To model the complex responses due to material heterogeneity and defects, we develop a novel deep neural operator architecture, which we coin as the Implicit Fourier Neural Operator (IFNO). In the IFNO, the increment between layers is modeled as an integral operator to capture the long-range dependencies in the feature space. As the network gets deeper, the limit of IFNO becomes a fixed point equation that yields an implicit neural operator and naturally mimics the displacement/damage fields solving procedure in material modeling problems. We demonstrate the performance of our proposed method for a number of examples, including hyperelastic, anisotropic and brittle materials. As an application, we further employ the proposed approach to learn the material models directly from digital image correlation (DIC) tracking measurements, and show that the learned solution operators substantially outperform the conventional constitutive models in predicting displacement fields.
翻訳日:2022-03-17 16:04:30 公開日:2022-03-15
# 懐疑的衝撃早期予測のための時間認識内・視線情報を用いた行方不明者EHRの再構築

Reconstructing Missing EHRs Using Time-Aware Within- and Cross-Visit Information for Septic Shock Early Prediction ( http://arxiv.org/abs/2203.08245v1 )

ライセンス: Link先を確認
Ge Gao, Farzaneh Khoshnevisan, Min Chi(参考訳) 現実世界の電子健康記録(ehrs)は、しばしば高いデータ欠落率に苦しめられている。 例えば当社のEHRでは、いくつかの機能では、欠落率を最大90%、すべての機能で平均欠落率を約70%としています。 本研究では,多変量依存関係を多変量依存性に自然に活用するTA-DualCV (Time-Aware Dual-Cross-Visit missing value imputation) を提案する。 具体的には、TA-DualCVは、異なる特徴の測定にまたがる欠落パターンの潜伏構造を捉え、また、時間ステップと不規則な時間間隔の両方に基づいて、欠落パターンの潜伏パターンを捉える。 TA-DualCVは,マスクレートを最大90%まで変更した教師なし計算タスクと,Long Short-Term Memory (LSTM) を用いた敗血症性ショックの24時間早期予測の2種類のタスクにおいて,3種類の実世界の EHR を用いて評価した。 以上の結果から, TA-DualCVは, DETROIT や TAME といった既存の最先端のインキュベーションベースラインよりも, 両タイプのタスクにおいて優れた性能を示すことがわかった。

Real-world Electronic Health Records (EHRs) are often plagued by a high rate of missing data. In our EHRs, for example, the missing rates can be as high as 90% for some features, with an average missing rate of around 70% across all features. We propose a Time-Aware Dual-Cross-Visit missing value imputation method, named TA-DualCV, which spontaneously leverages multivariate dependencies across features and longitudinal dependencies both within- and cross-visit to maximize the information extracted from limited observable records in EHRs. Specifically, TA-DualCV captures the latent structure of missing patterns across measurements of different features and it also considers the time continuity and capture the latent temporal missing patterns based on both time-steps and irregular time-intervals. TA-DualCV is evaluated using three large real-world EHRs on two types of tasks: an unsupervised imputation task by varying mask rates up to 90% and a supervised 24-hour early prediction of septic shock using Long Short-Term Memory (LSTM). Our results show that TA-DualCV performs significantly better than all of the existing state-of-the-art imputation baselines, such as DETROIT and TAME, on both types of tasks.
翻訳日:2022-03-17 16:04:01 公開日:2022-03-15
# 表層深層学習のための説明可能性フレームワーク

An explainability framework for cortical surface-based deep learning ( http://arxiv.org/abs/2203.08312v1 )

ライセンス: Link先を確認
Fernanda L. Ribeiro, Steffen Bollmann, Ross Cunnington, and Alexander M. Puckett(参考訳) 説明可能性手法の出現により、エンドユーザが容易に理解し実装できる概念を通じて、ディープニューラルネットワークがどのように動作するのかをより深く理解できるようになった。 ほとんどの説明可能性法は従来の深層学習のために設計されているが、幾何深層学習では、データは主にグラフとして表現される。 これらの表現は、特に神経イメージングの分野において、脳の構造的および機能的配線パターン(脳コネクトーム)を表すグラフと、脳の解剖学的構造を表す皮質表面モデルが使用される医療画像データから定期的に派生している。 重要な頂点(脳領域)とグラフ分類の特徴を特定するための説明可能性技術が開発されているが、これらの手法は、面ベースモダリティ変換(あるいは頂点回帰)のようなより複雑なタスクにはまだ欠けている。 そこで我々は,皮質表面の深層学習のためのフレームワークを開発し,モダリティ伝達タスクのための透過的なシステムを提供することにより,表面説明可能性のアプローチの必要性に対処する。 まず,表面データに摂動に基づくアプローチを適用した。 そこで我々は,大脳皮質表面モデルから直接解剖学から脳機能を予測するために開発された幾何学的深層学習モデルで用いられる重要な特徴と頂点を解析するために摂動法を適用した。 我々の説明可能性フレームワークは,重要な特徴とその空間的位置を識別できるだけでなく,信頼性と有効性も示している。

The emergence of explainability methods has enabled a better comprehension of how deep neural networks operate through concepts that are easily understood and implemented by the end user. While most explainability methods have been designed for traditional deep learning, some have been further developed for geometric deep learning, in which data are predominantly represented as graphs. These representations are regularly derived from medical imaging data, particularly in the field of neuroimaging, in which graphs are used to represent brain structural and functional wiring patterns (brain connectomes) and cortical surface models are used to represent the anatomical structure of the brain. Although explainability techniques have been developed for identifying important vertices (brain areas) and features for graph classification, these methods are still lacking for more complex tasks, such as surface-based modality transfer (or vertex-wise regression). Here, we address the need for surface-based explainability approaches by developing a framework for cortical surface-based deep learning, providing a transparent system for modality transfer tasks. First, we adapted a perturbation-based approach for use with surface data. Then, we applied our perturbation-based method to investigate the key features and vertices used by a geometric deep learning model developed to predict brain function from anatomy directly on a cortical surface model. We show that our explainability framework is not only able to identify important features and their spatial location but that it is also reliable and valid.
翻訳日:2022-03-17 15:59:07 公開日:2022-03-15
# 多対多マップのモデリングフレームワークとしての繊維束形態

Fiber Bundle Morphisms as a Framework for Modeling Many-to-Many Maps ( http://arxiv.org/abs/2203.08189v1 )

ライセンス: Link先を確認
Elizabeth Coda, Nico Courts, Colby Wight, Loc Truong, WoongJo Choi, Charles Godfrey, Tegan Emerson, Keerti Kappagantula, Henry Kvinge(参考訳) 機械学習アルゴリズムのベンチマークに使用される‘nice’データセットには一般的に反映されていないが、現実は多対多と表現されるプロセスで溢れている。 すなわち、単一の入力は、多くの異なる出力(ノイズ、不完全測定、またはプロセスの内在的確率)を出力し、多くの異なる入力は同じ出力(つまり、写像は射出的ではない)を出力することができる。 例えば、言語的曖昧さのため、一つの文が様々な感情解釈を持ち、同時に多くの異なる文が同じ感情を表現することができるような感情分析タスクを想像してください。 そのような多値関数 $f: X \rightarrow Y$ をモデル化する場合、$f で分布をモデル化できることがしばしば有用である。 (x)特定の入力$x$とファイバー$f^{-1}上の分布について (y)$ 特定の出力は $y$ である。 このような分析はユーザーを助ける (i)研究している過程に固有のばらつきをよりよく理解し、 (ii)出力$y$を達成するために使用できる特定の入力$x$の範囲を理解する。 ファイババンドルフレームワークを多対一プロセスのモデル化に用いた既存の研究に続いて、ファイババンドルの射が、多対多プロセスの構造を自然に捉えたモデルを構築するためのテンプレートを提供する方法について述べる。

While it is not generally reflected in the `nice' datasets used for benchmarking machine learning algorithms, the real-world is full of processes that would be best described as many-to-many. That is, a single input can potentially yield many different outputs (whether due to noise, imperfect measurement, or intrinsic stochasticity in the process) and many different inputs can yield the same output (that is, the map is not injective). For example, imagine a sentiment analysis task where, due to linguistic ambiguity, a single statement can have a range of different sentiment interpretations while at the same time many distinct statements can represent the same sentiment. When modeling such a multivalued function $f: X \rightarrow Y$, it is frequently useful to be able to model the distribution on $f(x)$ for specific input $x$ as well as the distribution on fiber $f^{-1}(y)$ for specific output $y$. Such an analysis helps the user (i) better understand the variance intrinsic to the process they are studying and (ii) understand the range of specific input $x$ that can be used to achieve output $y$. Following existing work which used a fiber bundle framework to better model many-to-one processes, we describe how morphisms of fiber bundles provide a template for building models which naturally capture the structure of many-to-many processes.
翻訳日:2022-03-17 15:29:43 公開日:2022-03-15
# AUTOMATA:Compute-Eff icient Hyper-parameter Tuningのための勾配ベースデータセット選択

AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient Hyper-parameter Tuning ( http://arxiv.org/abs/2203.08212v1 )

ライセンス: Link先を確認
Krishnateja Killamsetty, Guttu Sai Abhishek, Aakriti, Alexandre V. Evfimievski, Lucian Popa, Ganesh Ramakrishnan, Rishabh Iyer(参考訳) ディープニューラルネットワークは近年、大きな成功を収めているが、そのパフォーマンスは使用するハイパーパラメータに大きく依存するため、ディープモデルのトレーニングはしばしば困難である。 さらに、最先端(SOTA)ハイパーパラメータ最適化(HPO)アルゴリズムでさえ、最適なハイパーパラメータ構成を見つけるのに時間を要するため、さまざまなハイパーパラメータのセットに対して、データセット全体にわたって複数のトレーニングを実行する必要がある。 我々の中心的な洞察は、ハイパーパラメータ最適化に関わるモデルトレーニングのためにデータセットの情報サブセットを使用することで、最適なハイパーパラメータ構成をはるかに高速に見つけることができるということです。 本稿では,ハイパーパラメータチューニングのための勾配型サブセット選択フレームワークであるautomattaを提案する。 テキスト,視覚,表領域における実世界のデータセットに関する実験を通じて,超パラメータチューニングにおけるAUTOMATAの有効性を実証的に評価した。 実験の結果、勾配に基づくデータサブセットをハイパーパラメータチューニングに使用すると、3$\times$-30$\times$ のターンアラウンド時間とスピードアップが大幅に向上し、データセット全体のハイパーパラメータに匹敵する性能が得られた。

Deep neural networks have seen great success in recent years; however, training a deep model is often challenging as its performance heavily depends on the hyper-parameters used. In addition, finding the optimal hyper-parameter configuration, even with state-of-the-art (SOTA) hyper-parameter optimization (HPO) algorithms, can be time-consuming, requiring multiple training runs over the entire dataset for different possible sets of hyper-parameters. Our central insight is that using an informative subset of the dataset for model training runs involved in hyper-parameter optimization, allows us to find the optimal hyper-parameter configuration significantly faster. In this work, we propose AUTOMATA, a gradient-based subset selection framework for hyper-parameter tuning. We empirically evaluate the effectiveness of AUTOMATA in hyper-parameter tuning through several experiments on real-world datasets in the text, vision, and tabular domains. Our experiments show that using gradient-based data subsets for hyper-parameter tuning achieves significantly faster turnaround times and speedups of 3$\times$-30$\times$ while achieving comparable performance to the hyper-parameters found using the entire dataset.
翻訳日:2022-03-17 15:29:20 公開日:2022-03-15
# ハイパーデコーダ:マルチタスクnlp用のインスタンス固有デコーダ

Hyperdecoders: Instance-specific decoders for multi-task NLP ( http://arxiv.org/abs/2203.08304v1 )

ライセンス: Link先を確認
Hamish Ivison and Matthew E. Peters(参考訳) NLPにおけるマルチタスクのための入力条件付きハイパーネットについて検討し、エンコーダの出力に条件付きハイパーネットワークを用いてデコーダのパラメータ効率適応を生成する。 このアプローチは、各入力インスタンスに対してユニークなデコーダを生成し、各タスクのデコーダを専門とする以前の作業よりもネットワークの柔軟性を増す。 本手法はシーケンス分類タスク,抽出QA,要約に応用し,基礎となるモデルを完全に微調整し,従来のパラメータ効率のよい微調整手法を超越することが多いことを確かめる。 MRQAベンチマークで評価されたドメイン外でのゲインは特に大きい。 さらに,事前学習モデルが凍結されるにつれて,本手法は非関係なタスク間の負の干渉を排除し,完全に微調整されたアプローチでは共通の障害モードとなる。 我々のモデルが生成した埋め込みの分析は、このアプローチの大きな利点は、エンコーダがデコーダをより効果的に制御できることを示し、隠れた表現から他のタスクの出力フォーマットやラベルに干渉することなく、最終的なテキストベースのラベルへのマッピングを可能にする。

We investigate input-conditioned hypernetworks for multi-tasking in NLP, generating parameter-efficient adaptations for a decoder using a hypernetwork conditioned on the output of an encoder. This approach produces a unique decoder for every input instance, allowing the network a larger degree of flexibility than prior work that specializes the decoder for each task. We apply our method to sequence classification tasks, extractive QA, and summarisation and find that it often outperforms fully finetuning the underlying model and surpasses previous parameter efficient fine-tuning methods. Gains are particularly large when evaluated out-of-domain on the MRQA benchmark. In addition, as the pretrained model is frozen, our method eliminates negative interference among unrelated tasks, a common failure mode in fully fine-tuned approaches. An analysis of the embeddings produced by our model suggests that a large benefit of our approach is allowing the encoder more effective control over the decoder, allowing mapping from hidden representations to a final text-based label without interference from other tasks' output formats or labels.
翻訳日:2022-03-17 14:57:53 公開日:2022-03-15
# ゼロショット言語間イベント引数抽出のための多言語生成言語モデル

Multilingual Generative Language Models for Zero-Shot Cross-Lingual Event Argument Extraction ( http://arxiv.org/abs/2203.08308v1 )

ライセンス: Link先を確認
Kuan-Hao Huang, I-Hung Hsu, Premkumar Natarajan, Kai-Wei Chang, Nanyun Peng(参考訳) 本稿では,ゼロショットクロスリンガルイベント引数抽出(eae)のための多言語事前学習型生成言語モデルについて検討する。 EAEを言語生成タスクとして定式化することにより、イベント構造を効果的にエンコードし、引数間の依存関係をキャプチャする。 我々は,任意の言語と互換性のあるイベント引数構造を表現するために,言語に依存しないテンプレートを設計した。 提案するモデルでは,多言語事前学習型生成言語モデルを用いて,入力文から抽出した引数で言語に依存しないテンプレートを補う文を生成する。 モデルはソース言語でトレーニングされ、イベント引数抽出のためにターゲット言語に直接適用される。 実験により、提案モデルがゼロショットクロスランガルAEにおいて現在の最先端モデルより優れていることが示された。 ゼロショット言語間伝達eaeにおける生成言語モデルの使用の利点と限界をよりよく理解するために,包括的研究と誤り解析を行った。

We present a study on leveraging multilingual pre-trained generative language models for zero-shot cross-lingual event argument extraction (EAE). By formulating EAE as a language generation task, our method effectively encodes event structures and captures the dependencies between arguments. We design language-agnostic templates to represent the event argument structures, which are compatible with any language, hence facilitating the cross-lingual transfer. Our proposed model finetunes multilingual pre-trained generative language models to generate sentences that fill in the language-agnostic template with arguments extracted from the input passage. The model is trained on source languages and is then directly applied to target languages for event argument extraction. Experiments demonstrate that the proposed model outperforms the current state-of-the-art models on zero-shot cross-lingual EAE. Comprehensive studies and error analyses are presented to better understand the advantages and the current limitations of using generative language models for zero-shot cross-lingual transfer EAE.
翻訳日:2022-03-17 14:57:34 公開日:2022-03-15
# DeepFusion:マルチモード3Dオブジェクト検出のためのライダーカメラディープフュージョン

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection ( http://arxiv.org/abs/2203.08195v1 )

ライセンス: Link先を確認
Yingwei Li, Adams Wei Yu, Tianjian Meng, Ben Caine, Jiquan Ngiam, Daiyi Peng, Junyang Shen, Bo Wu, Yifeng Lu, Denny Zhou, Quoc V. Le, Alan Yuille, Mingxing Tan(参考訳) ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。 一般的なマルチモーダル手法は、単に生のlidarポイントの雲をカメラ機能でデコレートし、既存の3d検出モデルに直接供給する。 しかし、これらの機能はしばしば拡張され集約されるため、融合における重要な課題は、変換された機能を2つのモードから効果的に整列する方法である。 本稿では,2つの新しい手法を提案する。例えば回転などの幾何学的拡張を反転させてライダー点と画像画素間の正確な幾何的アライメントを実現するInverseAugと,融合時の画像特徴とライダー特徴との相関を動的に捉えるLearningableAlignである。 InverseAug と LearnableAlign に基づいて,DeepFusion という,従来の手法よりも高精度な汎用マルチモーダル3次元検出モデル群を開発した。 例えば、DeepFusionは、それぞれ6.7、8.9、および6.2 LEVEL_2 APHの歩行者検出に基づいて、PointPillars、CenterPoint、および3D-MANベースラインを改善している。 特に,waymo open datasetにおける最先端のパフォーマンスを実現し,入力破損や分散データに対する強固なモデルロバスト性を示す。 コードはhttps://github.com/t ensorflow/lingvo/tre e/master/lingvo/で公開される。

Lidars and cameras are critical sensors that provide complementary information for 3D detection in autonomous driving. While prevalent multi-modal methods simply decorate raw lidar point clouds with camera features and feed them directly to existing 3D detection models, our study shows that fusing camera features with deep lidar features instead of raw points, can lead to better performance. However, as those features are often augmented and aggregated, a key challenge in fusion is how to effectively align the transformed features from two modalities. In this paper, we propose two novel techniques: InverseAug that inverses geometric-related augmentations, e.g., rotation, to enable accurate geometric alignment between lidar points and image pixels, and LearnableAlign that leverages cross-attention to dynamically capture the correlations between image and lidar features during fusion. Based on InverseAug and LearnableAlign, we develop a family of generic multi-modal 3D detection models named DeepFusion, which is more accurate than previous methods. For example, DeepFusion improves PointPillars, CenterPoint, and 3D-MAN baselines on Pedestrian detection for 6.7, 8.9, and 6.2 LEVEL_2 APH, respectively. Notably, our models achieve state-of-the-art performance on Waymo Open Dataset, and show strong model robustness against input corruptions and out-of-distribution data. Code will be publicly available at https://github.com/t ensorflow/lingvo/tre e/master/lingvo/.
翻訳日:2022-03-17 14:51:37 公開日:2022-03-15
# インタラクティブなポートレート調和

Interactive Portrait Harmonization ( http://arxiv.org/abs/2203.08216v1 )

ライセンス: Link先を確認
Jeya Maria Jose Valanarasu, He Zhang, Jianming Zhang, Yilin Wang, Zhe Lin, Jose Echevarria, Yinglan Ma, Zijun Wei, Kalyan Sunkavalli, and Vishal M. Patel(参考訳) 現在の画像調和法は、背景全体を調和のためのガイダンスと見なしている。 しかし、これはユーザーがバックグラウンドで特定のオブジェクト/人物を選択して調和を導く能力を制限する可能性がある。 ユーザと調和のフレキシブルなインタラクションを実現するために、背景全体ではなく、参照画像内の選択された \emph{region} に対して調和を行う新しい設定であるinteractive harmonizationを導入する。 背景画像の特定の領域をユーザが選択して、調和を導くための新しい柔軟なフレームワークが提案されている。 プロのポートレートハーモニゼーション利用者に触発されて、合成フォアグラウンドと選択基準領域の間の色/輝度条件を最適に整合させる新しい輝度マッチング損失も導入する。 このフレームワークは、視覚的に美しいポートレート編集を実現するイメージ調和パイプラインをより制御する。 さらに,ポートレート・ハーモニゼーションの検証を行うために慎重に調整された新しいデータセットも導入する。 合成データと実世界のデータセットの両方に関する広範な実験により、提案手法は従来の調和ベースライン、特に肖像画と比較して効率的かつ堅牢であることが示されている。 Project Webpage at \href{https://jeya-maria-j ose.github.io/IPH-we b/}{https://jeya-maria-j ose.github.io/IPH-we b/}

Current image harmonization methods consider the entire background as the guidance for harmonization. However, this may limit the capability for user to choose any specific object/person in the background to guide the harmonization. To enable flexible interaction between user and harmonization, we introduce interactive harmonization, a new setting where the harmonization is performed with respect to a selected \emph{region} in the reference image instead of the entire background. A new flexible framework that allows users to pick certain regions of the background image and use it to guide the harmonization is proposed. Inspired by professional portrait harmonization users, we also introduce a new luminance matching loss to optimally match the color/luminance conditions between the composite foreground and select reference region. This framework provides more control to the image harmonization pipeline achieving visually pleasing portrait edits. Furthermore, we also introduce a new dataset carefully curated for validating portrait harmonization. Extensive experiments on both synthetic and real-world datasets show that the proposed approach is efficient and robust compared to previous harmonization baselines, especially for portraits. Project Webpage at \href{https://jeya-maria-j ose.github.io/IPH-we b/}{https://jeya-maria-j ose.github.io/IPH-we b/}
翻訳日:2022-03-17 14:51:06 公開日:2022-03-15
# 条件付き生成逆ネットワークを用いた運転異常検出

Driving Anomaly Detection Using Conditional Generative Adversarial Network ( http://arxiv.org/abs/2203.08289v1 )

ライセンス: Link先を確認
Yuning Qiu, Teruhisa Misu, Carlos Busso(参考訳) 高度運転支援システム(ADAS)では異常運転検出が重要な問題である。 潜在的な事故を避けるために、できるだけ早く潜在的な危険シナリオを特定することが重要である。 本研究では,条件付き生成逆数ネットワーク(GAN)を用いた運転異常の定量化手法を提案する。 この手法は、事前に観測された信号にモデルを条件付けすることで、今後の運転シナリオを予測する。 このシステムは、予測信号と実信号との判別器からの出力の差を計量として、駆動セグメントの異常度を定量化する。 我々は,運転者の生理的信号と制御領域のネットワークバス(CAN-Bus)信号を考慮し,運転者中心のアプローチをとる。 このアプローチはconvolutional neural networks (cnns) で実装され、識別的特徴表現を抽出し、long short-term memory (lstm) 細胞で時間情報をキャプチャする。 この研究は、運転イベントを手動で注釈付けした250時間の自然主義的な記録を含む、運転異常データセット(DAD)を用いて実施および評価されている。 実験の結果,路上歩行者の回避や交通規則違反など,異常と思われるイベントに注釈が付された記録は,イベントアノテーションを伴わない記録よりも異常スコアが高いことがわかった。 結果は知覚的評価を用いて検証され、アノテータは高い異常スコアで検出されたビデオのリスクと親しみやすさを評価する。 以上の結果から, 道路上の運転区間は, 他の運転区間よりも危険度が高く, 定期的な視認性が低いことが示唆された。

Anomaly driving detection is an important problem in advanced driver assistance systems (ADAS). It is important to identify potential hazard scenarios as early as possible to avoid potential accidents. This study proposes an unsupervised method to quantify driving anomalies using a conditional generative adversarial network (GAN). The approach predicts upcoming driving scenarios by conditioning the models on the previously observed signals. The system uses the difference of the output from the discriminator between the predicted and actual signals as a metric to quantify the anomaly degree of a driving segment. We take a driver-centric approach, considering physiological signals from the driver and controller area network-Bus (CAN-Bus) signals from the vehicle. The approach is implemented with convolutional neural networks (CNNs) to extract discriminative feature representations, and with long short-term memory (LSTM) cells to capture temporal information. The study is implemented and evaluated with the driving anomaly dataset (DAD), which includes 250 hours of naturalistic recordings manually annotated with driving events. The experimental results reveal that recordings annotated with events that are likely to be anomalous, such as avoiding on-road pedestrians and traffic rule violations, have higher anomaly scores than recordings without any event annotation. The results are validated with perceptual evaluations, where annotators are asked to assess the risk and familiarity of the videos detected with high anomaly scores. The results indicate that the driving segments with higher anomaly scores are more risky and less regularly seen on the road than other driving segments, validating the proposed unsupervised approach.
翻訳日:2022-03-17 14:50:43 公開日:2022-03-15
# 顔識別におけるデータセットの不均衡とバイアスの深化

A Deep Dive into Dataset Imbalance and Bias in Face Identification ( http://arxiv.org/abs/2203.08235v1 )

ライセンス: Link先を確認
Valeriia Cherepanova, Steven Reich, Samuel Dooley, Hossein Souri, Micah Goldblum, Tom Goldstein(参考訳) 自動顔認識(FR)システムが普及するにつれて、これらのシステムのバイアスは単なる学術的な問題ではなく、公衆の懸念事項である。 メディアの描写はしばしば偏見の主源として不均衡を重んじることが多く、すなわち、FRモデルが非白人や女性のイメージに悪影響を及ぼす。 最近の学術研究は、この関係をより微妙な図を描いている。 しかし、FRにおけるデータ不均衡に関するこれまでの研究は、顔認証設定にのみ焦点を合わせてきたが、顔識別設定は法執行機関のような敏感なアプリケーションにデプロイされているにもかかわらず、ほとんど無視されてきた。 これは「不均衡」は識別においてより複雑な問題であり、トレーニングデータだけでなく、テストデータにも不均衡が生じ、さらに、各人口集団に属するアイデンティティの割合や各アイデンティティに属する画像の数に影響を及ぼす可能性があるため、不幸な欠落である。 本研究は、顔の識別における各種類の不均衡の影響を徹底的に調べ、この設定におけるバイアスに影響を及ぼす他の要因について議論することによって、研究におけるこのギャップに対処する。

As the deployment of automated face recognition (FR) systems proliferates, bias in these systems is not just an academic question, but a matter of public concern. Media portrayals often center imbalance as the main source of bias, i.e., that FR models perform worse on images of non-white people or women because these demographic groups are underrepresented in training data. Recent academic research paints a more nuanced picture of this relationship. However, previous studies of data imbalance in FR have focused exclusively on the face verification setting, while the face identification setting has been largely ignored, despite being deployed in sensitive applications such as law enforcement. This is an unfortunate omission, as 'imbalance' is a more complex matter in identification; imbalance may arise in not only the training data, but also the testing data, and furthermore may affect the proportion of identities belonging to each demographic group or the number of images belonging to each identity. In this work, we address this gap in the research by thoroughly exploring the effects of each kind of imbalance possible in face identification, and discuss other factors which may impact bias in this setting.
翻訳日:2022-03-17 14:20:14 公開日:2022-03-15
# 統一視覚変圧器圧縮

Unified Visual Transformer Compression ( http://arxiv.org/abs/2203.08243v1 )

ライセンス: Link先を確認
Shixing Yu, Tianlong Chen, Jiayi Shen, Huan Yuan, Jianchao Tan, Sen Yang, Ji Liu, Zhangyang Wang(参考訳) ビジョントランスフォーマー(ViT)は近年人気を集めている。 畳み込みのようなカスタマイズされたイメージ演算子がなくても、大規模なデータで適切にトレーニングされた場合、ViTは競争力を発揮する。 しかし、ViTsの計算オーバーヘッドは、マルチヘッド自己注意モジュールなどの積み重ねのため、いまだに禁じられている。 畳み込みニューラルネットワークの圧縮における膨大な文献や成功と比較すると、視覚トランスフォーマーの圧縮の研究も始まったばかりであり、既存の作品では圧縮の1つか2つの側面に焦点を当てている。 本稿では,pruning,layer skipping,knowledge distillationの3つの効果的な手法をシームレスに組み立てる統一vit圧縮フレームワークを提案する。 我々は, 蒸留損失下でのモデル重み, 層別プルーニング比/マスク, スキップ構成を目標とした, 予算制約付きエンドツーエンド最適化フレームワークを定式化した。 最適化問題は原始双対アルゴリズムを用いて解かれる。 実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。 例えば、DeiT-Tinyは精度を損なうことなく、オリジナルのFLOPの50%までトリミングできる。 コードはオンラインで入手できる。~\url{https://github.com/V ITA-Group/UVC}。

Vision transformers (ViTs) have gained popularity recently. Even without customized image operators such as convolutions, ViTs can yield competitive performance when properly trained on massive data. However, the computational overhead of ViTs remains prohibitive, due to stacking multi-head self-attention modules and else. Compared to the vast literature and prevailing success in compressing convolutional neural networks, the study of Vision Transformer compression has also just emerged, and existing works focused on one or two aspects of compression. This paper proposes a unified ViT compression framework that seamlessly assembles three effective techniques: pruning, layer skipping, and knowledge distillation. We formulate a budget-constrained, end-to-end optimization framework, targeting jointly learning model weights, layer-wise pruning ratios/masks, and skip configurations, under a distillation loss. The optimization problem is then solved using the primal-dual algorithm. Experiments are conducted with several ViT variants, e.g. DeiT and T2T-ViT backbones on the ImageNet dataset, and our approach consistently outperforms recent competitors. For example, DeiT-Tiny can be trimmed down to 50\% of the original FLOPs almost without losing accuracy. Codes are available online:~\url{https://github.com/V ITA-Group/UVC}.
翻訳日:2022-03-17 14:19:53 公開日:2022-03-15
# 2速ネットワークアンサンブルによる増分土地利用・土地被覆衛星画像チップの効率的な分類

2-speed network ensemble for efficient classification of incremental land-use/land-cover satellite image chips ( http://arxiv.org/abs/2203.08267v1 )

ライセンス: Link先を確認
Michael James Horry, Subrata Chakraborty, Biswajeet Pradhan, Nagesh Shukla and Sanjoy Paul(参考訳) 衛星画像データの増大は、非常に大規模なデータセットのタイムリーな分析に基づいてデータ駆動決定を行う産業や政府にとって、課題となっている。 衛星画像の自動分類によく使われるディープラーニングアルゴリズムは、トレーニングの時間とリソース集約である。 ビッグデータのコンテキストにおける再トレーニングのコストは,新たなイメージデータやクラスをトレーニングコーパスに追加する場合に,現実的な課題となる。 本稿では,適応性,正確性,スケーラブルな衛星画像チップ分類方式の必要性を認識し,その有効性について述べる。 一 訓練が遅いが、高精度な視力変換装置 ii) 高速で訓練可能な低パラメータ畳み込みニューラルネットワーク。 vision transformerモデルはスケーラブルで正確な基盤モデルを提供する。 高速CNNは、より低い精度で、新たにラベル付けされたデータを分析に組み込む効率的な手段を提供する。 インクリメンタルデータをシミュレートするために、非常に大きな(約400,000イメージ)So2Sat LCZ42衛星画像チップデータセットを4つの間隔に分割し、高速CNNを間隔毎に再トレーニングし、ビジョントランスフォーマーを半間隔毎にトレーニングする。 この実験的なセットアップは、時間とともにデータボリュームと多様性が増加することを模倣している。 自動土地被覆/土地利用分類のタスクでは、各データインクリメントのアンサンブルモデルは、so2satデータセットのホールドアウトテストパーティションに対して65%の精度で各コンポーネントモデルを上回る。 提案したアンサンブルとスタッガードトレーニングスケジュールは、非常に大量の衛星データを処理するために最適化されたスケーラブルで費用対効果の高い衛星画像分類スキームを提供する。

The ever-growing volume of satellite imagery data presents a challenge for industry and governments making data-driven decisions based on the timely analysis of very large data sets. Commonly used deep learning algorithms for automatic classification of satellite images are time and resource-intensive to train. The cost of retraining in the context of Big Data presents a practical challenge when new image data and/or classes are added to a training corpus. Recognizing the need for an adaptable, accurate, and scalable satellite image chip classification scheme, in this research we present an ensemble of: i) a slow to train but high accuracy vision transformer; and ii) a fast to train, low-parameter convolutional neural network. The vision transformer model provides a scalable and accurate foundation model. The high-speed CNN provides an efficient means of incorporating newly labelled data into analysis, at the expense of lower accuracy. To simulate incremental data, the very large (~400,000 images) So2Sat LCZ42 satellite image chip dataset is divided into four intervals, with the high-speed CNN retrained every interval and the vision transformer trained every half interval. This experimental setup mimics an increase in data volume and diversity over time. For the task of automated land-cover/land-use classification, the ensemble models for each data increment outperform each of the component models, with best accuracy of 65% against a holdout test partition of the So2Sat dataset. The proposed ensemble and staggered training schedule provide a scalable and cost-effective satellite image classification scheme that is optimized to process very large volumes of satellite data.
翻訳日:2022-03-17 14:19:32 公開日:2022-03-15
# Sim-to-Real Reinforcement Learningによる双方向操作とアタッチメント

Bi-Manual Manipulation and Attachment via Sim-to-Real Reinforcement Learning ( http://arxiv.org/abs/2203.08277v1 )

ライセンス: Link先を確認
Satoshi Kataoka, Seyed Kamyar Seyed Ghasemipour, Daniel Freeman, Igor Mordatch(参考訳) ロボット操作の成功の大部分は、解決可能なタスクの範囲をピック・アンド・プレース、挿入、オブジェクトの再配置に制限する単腕ロボットに限られている。 対照的に、デュアルアームとマルチアームのロボットプラットフォームは、洗濯の折りたたみや調理スキルの実行など、対処可能な多様な問題を解き放ちます。 しかし,マルチアームロボット用コントローラの開発は,協調動作の必要性やロボット同士の衝突回避など,多くのユニークな課題によって複雑化されている。 これらの課題を踏まえて,本研究は,シミュレーションで訓練された強化学習(rl)を用いて,実際のロボットプラットフォーム上で実現可能な,双方向タスクの解法について検討する。 我々のRLアプローチは、リアルタイム(4Hz)の共同空間制御と、フィルタされていない観察を直接ニューラルネットワークポリシーに渡すことにより、大幅に単純化される。 また,RL政策の効果的な訓練に繋がるシミュレート環境の改善についても論じる。 制御アルゴリズムの設計に加えて、両手動協調を強調する両手動ロボットに対して、高レベルの知覚などの直交的複雑化要因を除去しながら、公正な評価タスクをいかに設計するかが課題である。 本研究では、2つのロボットアームが2つのブロックに磁気的接続点を取り付けることを目的としたコネクトタスクをデザインする。 2台のxarm6ロボットと3dプリントされたブロックを磁気アタッチメントで検証した結果,本システムはブロックを拾い上げるのに100%成功し,コネクテッドタスクで65%成功していることがわかった。

Most successes in robotic manipulation have been restricted to single-arm robots, which limits the range of solvable tasks to pick-and-place, insertion, and objects rearrangement. In contrast, dual and multi arm robot platforms unlock a rich diversity of problems that can be tackled, such as laundry folding and executing cooking skills. However, developing controllers for multi-arm robots is complexified by a number of unique challenges, such as the need for coordinated bimanual behaviors, and collision avoidance amongst robots. Given these challenges, in this work we study how to solve bi-manual tasks using reinforcement learning (RL) trained in simulation, such that the resulting policies can be executed on real robotic platforms. Our RL approach results in significant simplifications due to using real-time (4Hz) joint-space control and directly passing unfiltered observations to neural networks policies. We also extensively discuss modifications to our simulated environment which lead to effective training of RL policies. In addition to designing control algorithms, a key challenge is how to design fair evaluation tasks for bi-manual robots that stress bimanual coordination, while removing orthogonal complicating factors such as high-level perception. In this work, we design a Connect Task, where the aim is for two robot arms to pick up and attach two blocks with magnetic connection points. We validate our approach with two xArm6 robots and 3D printed blocks with magnetic attachments, and find that our system has 100% success rate at picking up blocks, and 65% success rate at the Connect Task.
翻訳日:2022-03-17 14:15:33 公開日:2022-03-15
# TAKDE:リアルタイム動的密度推定のための時間適応カーネル密度推定器

TAKDE: Temporal Adaptive Kernel Density Estimator for Real-Time Dynamic Density Estimation ( http://arxiv.org/abs/2203.08317v1 )

ライセンス: Link先を確認
Yinsong Wang, Yu Ding, Shahin Shahrampour(参考訳) リアルタイム密度推定はコンピュータビジョンや信号処理を含む多くのアプリケーションで広く使われている。 カーネル密度推定は最も一般的な密度推定技術の1つであり、"スライディングウィンドウ"機構はカーネル密度推定器を動的プロセスに適応させる。 本稿では「すべり窓」カーネル密度推定器に対する漸近平均積分二乗誤差(AMISE)の上界を導出する。 この上限は、時間適応型カーネル密度推定器(TAKDE)と呼ばれる新しい推定器を考案するための原理的なガイドを提供する。 スライディングウインドウ」カーネル密度推定器のヒューリスティックアプローチと比較して、TAKDEは最悪のAMISEの観点で理論的に最適である。 合成および実世界のデータセットを用いて数値実験を行い、TAKDEが他の最先端の動的密度推定器(カーネルファミリー以外のものを含む)より優れていることを示す。 特にTAKDEは、より小さなランタイムで優れたテストログライクな動作を実現している。

Real-time density estimation is ubiquitous in many applications, including computer vision and signal processing. Kernel density estimation is arguably one of the most commonly used density estimation techniques, and the use of "sliding window" mechanism adapts kernel density estimators to dynamic processes. In this paper, we derive the asymptotic mean integrated squared error (AMISE) upper bound for the "sliding window" kernel density estimator. This upper bound provides a principled guide to devise a novel estimator, which we name the temporal adaptive kernel density estimator (TAKDE). Compared to heuristic approaches for "sliding window" kernel density estimator, TAKDE is theoretically optimal in terms of the worst-case AMISE. We provide numerical experiments using synthetic and real-world datasets, showing that TAKDE outperforms other state-of-the-art dynamic density estimators (including those outside of kernel family). In particular, TAKDE achieves a superior test log-likelihood with a smaller runtime.
翻訳日:2022-03-17 14:15:05 公開日:2022-03-15
# fastkassim: 高速なツリーカーネルベースの構文類似度メトリクス

FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric ( http://arxiv.org/abs/2203.08299v1 )

ライセンス: Link先を確認
Maximillian Chen, Caitlyn Chen, Xiao Yu, Zhou Yu(参考訳) 構文は言語の基本的な構成要素であるが、音声や文書レベルでの構文的類似性やコヒーレンスを捉えるために使われる指標は少ない。 既存の標準文書レベルの構文類似度メトリクスは計算コストが高く、構文的に異なる文書に直面すると一貫性がない。 これらの課題に対処するため、我々はfastkassimという発話と文書レベルの構文的類似性のためのメトリクスを提示し、ツリーカーネルに基づく文書のペア間で最も類似した依存関係解析ツリーをペアで平均する。 FastKASSIMは構文上の相違や長さの違いに対してより堅牢であり、r/ChangeMyViewコーパスのドキュメントよりも5.2倍高速である。

Syntax is a fundamental component of language, yet few metrics have been employed to capture syntactic similarity or coherence at the utterance- and document-level. The existing standard document-level syntactic similarity metric is computationally expensive and performs inconsistently when faced with syntactically dissimilar documents. To address these challenges, we present FastKASSIM, a metric for utterance- and document-level syntactic similarity which pairs and averages the most similar dependency parse trees between a pair of documents based on tree kernels. FastKASSIM is more robust to syntactic dissimilarities and differences in length, and runs up to to 5.2 times faster than our baseline method over the documents in the r/ChangeMyView corpus.
翻訳日:2022-03-17 14:12:41 公開日:2022-03-15
# 法的テキスト処理における注意ニューラルネットワークの改善に向けて

Toward Improving Attentive Neural Networks in Legal Text Processing ( http://arxiv.org/abs/2203.08244v1 )

ライセンス: Link先を確認
Ha-Thanh Nguyen(参考訳) 近年、ニューラルネットワーク技術の進歩、特に注意深いディープラーニングモデルのおかげで、自然言語処理は多くの素晴らしい成果を上げている。 しかし、自動化された法的ワード処理は自然言語処理の難しい分野である。 法文はしばしば長く、複雑な法的用語を含んでいる。 したがって、一般的な文書でうまく機能するモデルは、法的文書を扱う際の課題に直面している。 我々は本研究における実験でこの問題の存在を確認した。 本論文では,自動法的文書処理における注意型ニューラルネットワークの改善の主な成果を選択的に提示する。 言語モデルは大きくなる傾向にあるが、専門家の知識がなければ、これらのモデルはドメイン適応、特に法律のような専門分野において失敗することがある。

In recent years, thanks to breakthroughs in neural network techniques especially attentive deep learning models, natural language processing has made many impressive achievements. However, automated legal word processing is still a difficult branch of natural language processing. Legal sentences are often long and contain complicated legal terminologies. Hence, models that work well on general documents still face challenges in dealing with legal documents. We have verified the existence of this problem with our experiments in this work. In this dissertation, we selectively present the main achievements in improving attentive neural networks in automatic legal document processing. Language models tend to grow larger and larger, though, without expert knowledge, these models can still fail in domain adaptation, especially for specialized fields like law.
翻訳日:2022-03-17 13:49:58 公開日:2022-03-15
# データ汚染:記憶から搾取まで

Data Contamination: From Memorization to Exploitation ( http://arxiv.org/abs/2203.08242v1 )

ライセンス: Link先を確認
Inbal Magar and Roy Schwartz(参考訳) 事前訓練された言語モデルは、通常、大量のWebベースのデータセットでトレーニングされる。 モデルが下流タスクで汚染されたデータをどの程度活用しているかは明らかではない。 この問題を研究するための原則的な方法を提案する。 wikipediaとラベル付きダウンストリームデータセットの共同コーパスでbertモデルを事前トレーニングし、関連するタスクでそれらを微調整します。 事前学習中に見られたサンプルと見えないサンプルのパフォーマンスを比較することで、記憶と搾取のレベルを定義し、定量化することができる。 2つのモデルと3つの下流タスクによる実験では、エクスプロイションが存在することが示されているが、他のモデルでは汚染されたデータを記憶するが、それを悪用しないものもある。 これら2つの尺度は, 汚染データの重複数やモデルサイズなど, 異なる要因によって影響を受けることを示す。 以上の結果から,大規模webスケールデータセットの解析の重要性を強調する。nlpの進歩は,言語理解が向上し,データエクスプロイトが向上しないことを示す。

Pretrained language models are typically trained on massive web-based datasets, which are often "contaminated" with downstream test sets. It is not clear to what extent models exploit the contaminated data for downstream tasks. We present a principled method to study this question. We pretrain BERT models on joint corpora of Wikipedia and labeled downstream datasets, and fine-tune them on the relevant task. Comparing performance between samples seen and unseen during pretraining enables us to define and quantify levels of memorization and exploitation. Experiments with two models and three downstream tasks show that exploitation exists in some cases, but in others the models memorize the contaminated data, but do not exploit it. We show that these two measures are affected by different factors such as the number of duplications of the contaminated data and the model size. Our results highlight the importance of analyzing massive web-scale datasets to verify that progress in NLP is obtained by better language understanding and not better data exploitation.
翻訳日:2022-03-17 13:45:58 公開日:2022-03-15
# データレスニューラルネットワークを用いた組合せ最適化への微分可能アプローチ

A Differentiable Approach to Combinatorial Optimization using Dataless Neural Networks ( http://arxiv.org/abs/2203.08209v1 )

ライセンス: Link先を確認
Ismail R. Alkhouri, George K. Atia, Alvaro Velasquez(参考訳) 離散構造を推論する機械学習ソリューションの成功は、組合せ最適化アルゴリズムでの採用に注目を集めている。 このようなアプローチは一般に、ある問題インスタンスの分布から引き出された興味の組合せ構造のデータセットを活用することによって教師あり学習に依存する。 強化学習もそのような構造を見つけるために用いられている。 本稿では,解を生成するニューラルネットワークのトレーニングにデータを必要としないという,根本的に異なるアプローチを提案する。 特に、組合せ最適化問題をニューラルネットワークに還元し、これらのパラメータが関心の構造を与えるように、ネットワークのパラメータを洗練するためにデータレストレーニングスキームを用いる。 グラフ内の最大独立集合と最大傾きを見つけるための組合せ最適化問題を考察する。 原則として,これらの問題はnp-hard complexityクラスに属するため,提案手法はnp-hard問題の解法として利用できる。 さらに,大規模グラフを扱う普遍的なグラフ削減手法を提案する。 この削減は、グラフ分割のコミュニティ検出を活用し、任意のグラフタイプおよび/または密度に適用できる。 合成グラフと実世界のベンチマークによる実験結果から,本手法はデータを必要としない,最先端のヒューリスティック,強化学習,機械学習に基づく手法と同等あるいは同等に動作可能であることが示された。

The success of machine learning solutions for reasoning about discrete structures has brought attention to its adoption within combinatorial optimization algorithms. Such approaches generally rely on supervised learning by leveraging datasets of the combinatorial structures of interest drawn from some distribution of problem instances. Reinforcement learning has also been employed to find such structures. In this paper, we propose a radically different approach in that no data is required for training the neural networks that produce the solution. In particular, we reduce the combinatorial optimization problem to a neural network and employ a dataless training scheme to refine the parameters of the network such that those parameters yield the structure of interest. We consider the combinatorial optimization problems of finding maximum independent sets and maximum cliques in a graph. In principle, since these problems belong to the NP-hard complexity class, our proposed approach can be used to solve any other NP-hard problem. Additionally, we propose a universal graph reduction procedure to handle large scale graphs. The reduction exploits community detection for graph partitioning and is applicable to any graph type and/or density. Experimental evaluation on both synthetic graphs and real-world benchmarks demonstrates that our method performs on par with or outperforms state-of-the-art heuristic, reinforcement learning, and machine learning based methods without requiring any data.
翻訳日:2022-03-17 13:43:49 公開日:2022-03-15
# socialvae: timewise latentsを用いた人間の軌道予測

SocialVAE: Human Trajectory Prediction using Timewise Latents ( http://arxiv.org/abs/2203.08207v1 )

ライセンス: Link先を確認
Pei Xu, Jean-Bernard Hayet, Ioannis Karamouzas(参考訳) 歩行者の動きを予測することは、人間の行動分析だけでなく、安全で効率的な人間とエージェントの相互作用にも重要である。 しかし、大きな進歩にもかかわらず、人間のナビゲーション決定の不確実性やマルチモーダル性を捉える既存のアプローチは依然として困難である。 本稿では,人間の軌道予測の新しいアプローチであるSocialVAEを提案する。 socialvaeの中核は、確率的再帰的ニューラルネットワークを利用して予測を行い、社会的注意機構と後方後方近似を組み合わせることで、歩行者のナビゲーション戦略のより良い抽出を可能にする、タイムワイズな変分オートエンコーダアーキテクチャである。 本研究では,ETH/UCYベンチマーク,Stanford Drone Dataset,SportVU NBA運動データセットなど,歩行者軌道予測ベンチマークの最先端性能を向上することを示す。 コードは {\tt https://github.com/x upei0610/socialvae} で入手できる。

Predicting pedestrian movement is critical for human behavior analysis and also for safe and efficient human-agent interactions. However, despite significant advancements, it is still challenging for existing approaches to capture the uncertainty and multimodality of human navigation decision making. In this paper, we propose SocialVAE, a novel approach for human trajectory prediction. The core of SocialVAE is a timewise variational autoencoder architecture that exploits stochastic recurrent neural networks to perform prediction, combined with a social attention mechanism and backward posterior approximation to allow for better extraction of pedestrian navigation strategies. We show that SocialVAE improves current state-of-the-art performance on several pedestrian trajectory prediction benchmarks, including the ETH/UCY benchmark, the Stanford Drone Dataset and SportVU NBA movement dataset. Code is available at: {\tt https://github.com/x upei0610/SocialVAE}.
翻訳日:2022-03-17 13:41:54 公開日:2022-03-15
# 自動歩行:コンピュータビジョンによる歩行タスク映像の自動失調リスク評価

Auto-Gait: Automatic Ataxia Risk Assessment with Computer Vision on Gait Task Videos ( http://arxiv.org/abs/2203.08215v1 )

ライセンス: Link先を確認
Wasifur Rahman, Masum Hasan, Md Saiful Islam, Titilayo Olubajo, Jeet Thaker, Abdelrahman Abdelkader, Phillip Yang, Tetsuo Ashizawa, Ehsan Hoque(参考訳) 本稿では,我々ができるかどうかを考察する。 1)失調症特異的歩行特性(リスク予測)の参加者を検出し、 2)歩行による失調の重症度を評価する。 対象者89名,コントロール24名,プレマニフェスト(プレマニフェスト)の脊髄小脳性失調症(scas)と診断された65名から155本の映像を収集し,米国の8つの州にある11の医療施設からataxia(sara)の評価・評価のための歩行課題を行った。 本研究では,参加者を周囲から分離する手法を開発し,歩幅,歩幅,揺動,安定性,速度などの歩行特性を捉えた。 我々のリスク予測モデルは83.06%の精度と80.23%のF1スコアを達成する。 同様に、重度評価モデルでは平均絶対誤差(MAE)スコアが0.6225、ピアソン相関係数スコアが0.7268となる。 我々のモデルは、トレーニング中に使われていないサイトのデータに基づいて、依然として競争力を発揮しています。 さらに,特徴量分析により,従来の臨床知識と一致し,より広い歩幅,歩行速度の低下,不安定度の増加,運動失調度の増加が確認された。 我々のモデルは、将来、非臨床環境における遠隔失調評価の可能性をもたらし、失調症ケアのアクセシビリティを大幅に改善する可能性がある。 さらに、我々の基盤となるデータセットは、地理的に多様なコホートから集められ、さらに株式を増やす可能性を強調した。 この研究で使用されたコードは一般に公開されており、匿名化されたボディポーズのランドマークデータセットは、我々のInstitutional Review Board(IRB)の承認を得て公開される可能性がある。

In this paper, we investigated whether we can 1) detect participants with ataxia-specific gait characteristics (risk-prediction), and 2) assess severity of ataxia from gait (severity-assessment ). We collected 155 videos from 89 participants, 24 controls and 65 diagnosed with (or are pre-manifest) spinocerebellar ataxias (SCAs), performing the gait task of the Scale for the Assessment and Rating of Ataxia (SARA) from 11 medical sites located in 8 different states in the United States. We developed a method to separate the participants from their surroundings and constructed several features to capture gait characteristics like step width, step length, swing, stability, speed, etc. Our risk-prediction model achieves 83.06% accuracy and an 80.23% F1 score. Similarly, our severity-assessment model achieves a mean absolute error (MAE) score of 0.6225 and a Pearson's correlation coefficient score of 0.7268. Our models still performed competitively when evaluated on data from sites not used during training. Furthermore, through feature importance analysis, we found that our models associate wider steps, decreased walking speed, and increased instability with greater ataxia severity, which is consistent with previously established clinical knowledge. Our models create possibilities for remote ataxia assessment in non-clinical settings in the future, which could significantly improve accessibility of ataxia care. Furthermore, our underlying dataset was assembled from a geographically diverse cohort, highlighting its potential to further increase equity. The code used in this study is open to the public, and the anonymized body pose landmark dataset could be released upon approval from our Institutional Review Board (IRB).
翻訳日:2022-03-17 13:41:38 公開日:2022-03-15
# (参考訳) 多変量特異スペクトル解析による感圧塗料データの時系列画像推定 [全文訳有]

Time-series image denoising of pressure-sensitive paint data by projected multivariate singular spectrum analysis ( http://arxiv.org/abs/2203.07574v1 )

ライセンス: CC BY 4.0
Yuya Ohmichi, Kohmi Takahashi, Kazuyuki Nakakita(参考訳) 非定常感圧塗料(PSP)測定データのような時系列データは、かなりの量のランダムノイズを含む可能性がある。 そこで本研究では,多変量特異スペクトル解析(MSSA)と低次元データ表現を組み合わせたノイズ低減手法について検討した。 MSSAは時間遅延埋め込みを利用した状態空間再構築技術であり、データを特異値分解(SVD)ベースに投影することで低次元表現を実現する。 提案手法が提案する非定常PSPデータ,すなわち投影されたMSSAの雑音低減性能は,最もよく用いられる雑音低減手法であるトラッピングSVD法と比較される。 その結果, 予測MSSAは, 乱れSVD法よりもランダムノイズの低減性能が高いことがわかった。 また, トラニケートされたSVD法とは対照的に, 投影されたMSSAの性能はトラニケートランクに敏感ではない。 さらに、投影されたMSSAは、ノイズ入力データから状態空間内の滑らかな軌跡を抽出することにより、効果的に復調する。 予測されたMSSAは、PSP測定データだけでなく、様々な高次元時系列データにおいても、ランダムノイズの低減に有効である。

Time-series data, such as unsteady pressure-sensitive paint (PSP) measurement data, may contain a significant amount of random noise. Thus, in this study, we investigated a noise-reduction method that combines multivariate singular spectrum analysis (MSSA) with low-dimensional data representation. MSSA is a state-space reconstruction technique that utilizes time-delay embedding, and the low-dimensional representation is achieved by projecting data onto the singular value decomposition (SVD) basis. The noise-reduction performance of the proposed method for unsteady PSP data, i.e., the projected MSSA, is compared with that of the truncated SVD method, one of the most employed noise-reduction methods. The result shows that the projected MSSA exhibits better performance in reducing random noise than the truncated SVD method. Additionally, in contrast to that of the truncated SVD method, the performance of the projected MSSA is less sensitive to the truncation rank. Furthermore, the projected MSSA achieves denoising effectively by extracting smooth trajectories in a state space from noisy input data. Expectedly, the projected MSSA will be effective for reducing random noise in not only PSP measurement data, but also various high-dimensional time-series data.
翻訳日:2022-03-17 09:56:05 公開日:2022-03-15
# (参考訳) 気晴らしは 公正に必要なのは [全文訳有]

Distraction is All You Need for Fairness ( http://arxiv.org/abs/2203.07593v1 )

ライセンス: CC BY 4.0
Mehdi Yazdani-Jahromi and AmirArsalan Rajabi and Aida Tayebi and Ozlem Ozmen Garibay(参考訳) 近年の人工知能モデルの成長と自動意思決定におけるその役割拡大により、これらのモデルがバイアスを受けないことが極めて重要である。 これらのモデルが、学習対象の関数や学習アルゴリズムに固有の、トレーニング対象のデータに存在しているバイアスを含ませたり、増幅したりできることを示す証拠はたくさんある。 本稿では,予測精度を維持しつつ,公平性を向上させる新しい分類アルゴリズムを提案する。 ネットワークは、保護属性に対する事前学習された分類器の埋め込み層を利用して、保護属性の予測における分類の邪魔をするために注意層を使用する。 フェアネス文献で提案した6つの最先端手法と比較し,精度を維持しつつバイアスを最小限に抑えながら,これらの手法よりも優れていることを示す。

With the recent growth in artificial intelligence models and its expanding role in automated decision making, ensuring that these models are not biased is of vital importance. There is an abundance of evidence suggesting that these models could contain or even amplify the bias present in the data on which they are trained, inherent to their objective function and learning algorithms. In this paper, we propose a novel classification algorithm that improves fairness, while maintaining accuracy of the predictions. Utilizing the embedding layer of a pre-trained classifier for the protected attributes, the network uses an attention layer to distract the classification from depending on the protected attribute in its predictions. We compare our model with six state-of-the-art methodologies proposed in fairness literature, and show that the model is superior to those methods in terms of minimizing bias while maintaining accuracy.
翻訳日:2022-03-17 09:45:38 公開日:2022-03-15
# (参考訳) 量子有限オートマタと準代数 [全文訳有]

Quantum Finite Automata and Quiver Algebras ( http://arxiv.org/abs/2203.07597v1 )

ライセンス: CC BY 4.0
George Jeffreys and Siu-Cheong Lau(参考訳) 量子有限オートマトンによる[JL21]と[JL22]のアイデアと結果の応用を見いだす。 近接リングの代数的概念を用いた多重時間測定により量子有限オートマトンを再構成する。 これは量子コンピューティングとディープラーニングに対する統一的な理解を与える。 ニアリングがクイバーから来ると、勾配降下によって最適化できる計量を持つ計算機のよいモジュライ空間が得られる。

We find an application in quantum finite automata for the ideas and results of [JL21] and [JL22]. We reformulate quantum finite automata with multiple-time measurements using the algebraic notion of near-ring. This gives a unified understanding towards quantum computing and deep learning. When the near-ring comes from a quiver, we have a nice moduli space of computing machines with metric that can be optimized by gradient descent.
翻訳日:2022-03-17 09:32:49 公開日:2022-03-15
# (参考訳) シーンワイズ進化による手続き的テキスト理解 [全文訳有]

Procedural Text Understanding via Scene-Wise Evolution ( http://arxiv.org/abs/2203.07600v1 )

ライセンス: CC0 1.0
Jialong Tang, Hongyu Lin, Meng Liao, Yaojie Lu, Xianpei Han, Le Sun, Weijian Xie, Jin Xu(参考訳) 手続き的テキスト理解は機械が動的物語の中の実体状態について推論する必要がある。 現在の手続き的テキスト理解アプローチは、通常、各エンティティを個別に追跡し、各エンティティの異なる状態を独立に予測するtextbf{entity-wise} である。 このようなエンティティ指向のパラダイムは、エンティティとその状態間の相互作用を考慮しない。 本稿では,すべてのエンティティの状態を逐次追跡する手続き的テキスト理解のための新しい \textbf{scene-wise}パラダイムを提案する。 このパラダイムに基づき、我々は、物語全体を通してエンティティ、状態、それらの関係の進化を共同で定式化するために、一連の動的に進化するシーングラフを導入する \textbf{s}cene \textbf{g}raph \textbf{r}easoner (\textbf{sgr})を提案する。 このようにして、すべての実体と状態の間の深い相互作用は、シーングラフから同時にキャプチャできる。 実験により、SGRは新たな最先端性能を達成するだけでなく、推論の速度を著しく加速することが示された。

Procedural text understanding requires machines to reason about entity states within the dynamical narratives. Current procedural text understanding approaches are commonly \textbf{entity-wise}, which separately track each entity and independently predict different states of each entity. Such an entity-wise paradigm does not consider the interaction between entities and their states. In this paper, we propose a new \textbf{scene-wise} paradigm for procedural text understanding, which jointly tracks states of all entities in a scene-by-scene manner. Based on this paradigm, we propose \textbf{S}cene \textbf{G}raph \textbf{R}easoner (\textbf{SGR}), which introduces a series of dynamically evolving scene graphs to jointly formulate the evolution of entities, states and their associations throughout the narrative. In this way, the deep interactions between all entities and states can be jointly captured and simultaneously derived from scene graphs. Experiments show that SGR not only achieves the new state-of-the-art performance but also significantly accelerates the speed of reasoning.
翻訳日:2022-03-17 09:22:27 公開日:2022-03-15
# (参考訳) CARETS: VQAのための一貫性とロバスト性評価テストスイート [全文訳有]

CARETS: A Consistency And Robustness Evaluative Test Suite for VQA ( http://arxiv.org/abs/2203.07613v1 )

ライセンス: CC BY 4.0
Carlos E. Jimenez, Olga Russakovsky, Karthik Narasimhan(参考訳) 本稿では,最新のVQAモデルの一貫性とロバスト性を測定するシステムテストスイートであるCARETSを紹介する。 既存のVQAテストセットとは対照的に、CARETSはバランスの取れた質問生成を備えて、テストモデルのためのインスタンスのペアを作成し、各ペアはリフレッシング、論理対称性、イメージ難読化などの特定の機能に焦点を当てている。 本稿では,CARETS上の6つの最新のVQAシステムを評価し,モデル理解におけるいくつかの動作可能な弱点を同定する。 興味深いことに、最も洗練されたモデルでさえ、共同で項の順序を交換したり、質問で言及された答えの選択数を変えるといった側面に敏感である。 マルチモーダルモデルロバスト性を評価するための拡張可能なツールとしてCARETSをリリースする。

We introduce CARETS, a systematic test suite to measure consistency and robustness of modern VQA models through a series of six fine-grained capability tests. In contrast to existing VQA test sets, CARETS features balanced question generation to create pairs of instances to test models, with each pair focusing on a specific capability such as rephrasing, logical symmetry or image obfuscation. We evaluate six modern VQA systems on CARETS and identify several actionable weaknesses in model comprehension, especially with concepts such as negation, disjunction, or hypernym invariance. Interestingly, even the most sophisticated models are sensitive to aspects such as swapping the order of terms in a conjunction or varying the number of answer choices mentioned in the question. We release CARETS to be used as an extensible tool for evaluating multi-modal model robustness.
翻訳日:2022-03-17 09:07:16 公開日:2022-03-15
# (参考訳) 言語モデルは盗作するか? [全文訳有]

Do Language Models Plagiarize? ( http://arxiv.org/abs/2203.07618v1 )

ライセンス: CC BY 4.0
Jooyoung Lee, Thai Le, Jinghui Chen, Dongwon Lee(参考訳) 過去の文献では、言語モデルはテキストの文脈や感受性を十分に理解しておらず、訓練セットにある句や文を記憶することがある。 本稿では, 人工テキストを生成する際に, 記憶だけでなく, 訓練サンプルの盗用も検討する。 以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。 主な結果は4つあります 1) より多くの能力を有する言語モデル 2 微調整された言語モデルは、補助データの特徴に基づく盗作の異なるパターンを示す。 3)断続的言語モデル分布からのサンプリングは,温度サンプリングよりも盗作の程度を高くする傾向がある。 4) 言語モデルにおける盗作は、重大なプライバシー影響をもたらす可能性がある。 全体として、我々の研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために予防措置を講じるべきであることを示唆している。

Past literature has illustrated that language models do not fully understand the context and sensitivity of text and can sometimes memorize phrases or sentences present in their training sets. In this paper, we investigate whether they not only memorize but also plagiarize training samples when generating artificial texts. Our findings support that they, especially GPT-2, reuse particular pieces of texts from the training corpus with or without obfuscation. We have four main results: 1) language models with more capacity plagiarize more; 2) fine-tuned language models demonstrate differing patterns of plagiarism based on characteristics of auxiliary data; 3) sampling from truncated language modeling distributions tends to heighten the degree of plagiarism as opposed to temperature sampling, and 4) plagiarism in language models can have serious privacy consequences. Overall, our work implies that future research on neural language models should take precautions to avoid models plagiarizing their training datasets.
翻訳日:2022-03-17 08:48:38 公開日:2022-03-15
# (参考訳) 次世代物理設備におけるトリガー・データ取得システムの革新 [全文訳有]

Innovations in trigger and data acquisition systems for next-generation physics facilities ( http://arxiv.org/abs/2203.07620v1 )

ライセンス: CC BY 4.0
Rainer Bartoldus, Catrin Bernius, David W. Miller(参考訳) データ集約型物理施設は、収集される膨大な量のデータを収集、配布、処理、フィルタリング、分析するために、ヘテロジニアスおよび大規模データ処理および計算システムに依存している。 さらに、これらのタスクは、様々なパラメータに極端な制約を課すハードリアルタイムまたは準リアルタイム処理パイプラインで実行されることが多い。 その結果、このような施設を設計、建設、運営する上で、多くの様々な課題に直面している。 これは素粒子物理学のエネルギーと強度のフロンティアにおいて特に当てはまり、生データの帯域幅は300m以上の個々のセンサーから供給される不均一な高次元データの100 tb/sを超える。 これらの施設に配備されたデータフィルタリングと圧縮アルゴリズムは、10^5$の1のレベルで運用されることが多く、一度実行されると、これらのアルゴリズムはデータキュレーションのプロセスを駆動し、これらのシステムの物理的影響における重要な役割をさらに強調する。 このホワイトペーパーは、これらの施設が直面している課題を、トリガーとデータ取得のインスツルメンテーションとシステムの設計、インストール、コミッショニング、統合、運用、そしてそれに必要なドメイン知識と技術的専門知識の構築で強調することを目的としています。

Data-intensive physics facilities are increasingly reliant on heterogeneous and large-scale data processing and computational systems in order to collect, distribute, process, filter, and analyze the ever increasing huge volumes of data being collected. Moreover, these tasks are often performed in hard real-time or quasi real-time processing pipelines that place extreme constraints on various parameters and design choices for those systems. Consequently, a large number and variety of challenges are faced to design, construct, and operate such facilities. This is especially true at the energy and intensity frontiers of particle physics where bandwidths of raw data can exceed 100 Tb/s of heterogeneous, high-dimensional data sourced from >300M individual sensors. Data filtering and compression algorithms deployed at these facilities often operate at the level of 1 part in $10^5$, and once executed, these algorithms drive the data curation process, further highlighting the critical roles that these systems have in the physics impact of those endeavors. This White Paper aims to highlight the challenges that these facilities face in the design of the trigger and data acquisition instrumentation and systems, as well as in their installation, commissioning, integration and operation, and in building the domain knowledge and technical expertise required to do so.
翻訳日:2022-03-17 08:25:45 公開日:2022-03-15
# (参考訳) 弱教師付きコントラスト学習とクラスタリングによるイベント表現の改善 [全文訳有]

Improving Event Representation via Simultaneous Weakly Supervised Contrastive Learning and Clustering ( http://arxiv.org/abs/2203.07633v1 )

ライセンス: CC BY 4.0
Jun Gao, Wei Wang, Changlong Yu, Huan Zhao, Wilfred Ng, Ruifeng Xu(参考訳) テキストで記述されたイベントの表現は、様々なタスクにおいて重要である。 本稿では、イベント表現学習のための、弱い教師付きコントラスト学習およびクラスタリングフレームワークであるswccについて述べる。 SWCCはイベントの共起情報を利用してイベント表現を学習する。 具体的には,複数の正と複数の負を考慮できる弱教師付きコントラスト学習法と,意味的に関連した事象の引き離しを回避するプロトタイプベースのクラスタリング法を提案する。 モデルトレーニングでは、SWCCは弱い教師付きコントラスト学習とプロトタイプベースのクラスタリングを同時に実行することで表現を学習する。 実験結果から,SWCCはHard similarityおよびTransive Sentence similarityタスクにおいて,他のベースラインよりも優れていた。 さらに、プロトタイプベースのクラスタリング手法の徹底的な解析により、学習したプロトタイプベクトルがイベント間の様々な関係を暗黙的に捉えることができることを示した。

Representations of events described in text are important for various tasks. In this work, we present SWCC: a Simultaneous Weakly supervised Contrastive learning and Clustering framework for event representation learning. SWCC learns event representations by making better use of co-occurrence information of events. Specifically, we introduce a weakly supervised contrastive learning method that allows us to consider multiple positives and multiple negatives, and a prototype-based clustering method that avoids semantically related events being pulled apart. For model training, SWCC learns representations by simultaneously performing weakly supervised contrastive learning and prototype-based clustering. Experimental results show that SWCC outperforms other baselines on Hard Similarity and Transitive Sentence Similarity tasks. In addition, a thorough analysis of the prototype-based clustering method demonstrates that the learned prototype vectors are able to implicitly capture various relations between events.
翻訳日:2022-03-17 08:10:39 公開日:2022-03-15
# (参考訳) sparsity-number を用いた生涯行列補完 [全文訳有]

Lifelong Matrix Completion with Sparsity-Number ( http://arxiv.org/abs/2203.07637v1 )

ライセンス: CC BY 4.0
Ilqar Ramazanli(参考訳) マトリックス補完問題はこれまで、様々な適応的および受動的設定下で研究されてきた。 これまで,コヒーレンスパラメータを用いたパッシブ,二相,単相のアルゴリズムと,空間数を用いた多相アルゴリズムが提案されてきた。 多くの条件において, 空間数を用いた理論的下界への到達法が示されている。 しかし、上記の方法は行列完了過程を通じて多くのフェーズで実行されているため、各段階においてより有意義な決定を行う。 したがって、この手法が従来のアルゴリズムより優れていることは当然である。 本稿では,スパーシティ数の概念を用いて,二相完全行列補完アルゴリズムに拡張可能な単相列空間復元アルゴリズムを提案する。 さらに,本手法は多相行列復元アルゴリズムと同等の効率性を示す。 提案アルゴリズムの性能を示す実験的な証拠を提供する。

Matrix completion problem has been previously studied under various adaptive and passive settings. Previously, researchers have proposed passive, two-phase and single-phase algorithms using coherence parameter, and multi phase algorithm using sparsity-number. It has been shown that the method using sparsity-number reaching to theoretical lower bounds in many conditions. However, the aforementioned method is running in many phases through the matrix completion process, therefore it makes much more informative decision at each stage. Hence, it is natural that the method outperforms previous algorithms. In this paper, we are using the idea of sparsity-number and propose and single-phase column space recovery algorithm which can be extended to two-phase exact matrix completion algorithm. Moreover, we show that these methods are as efficient as multi-phase matrix recovery algorithm. We provide experimental evidence to illustrate the performance of our algorithm.
翻訳日:2022-03-17 07:51:24 公開日:2022-03-15
# (参考訳) 解釈型ニューラルネットワークによる教師なしキーフレーズ抽出 [全文訳有]

Unsupervised Keyphrase Extraction via Interpretable Neural Networks ( http://arxiv.org/abs/2203.07640v1 )

ライセンス: CC BY 4.0
Rishabh Joshi and Vidhisha Balachandran and Emily Saldanha and Maria Glenski and Svitlana Volkova and Yulia Tsvetkov(参考訳) キーフレーズ抽出は、文書のキーコンセプトを表す「重要な」フレーズのリストを自動的に抽出することを目的としている。 教師なしのキーフレーズ抽出の以前のアプローチは、類似性やグラフ中心性を通じてフレーズの重要性のヒューリスティックな概念を取り入れ、それらを開発するために広範なドメイン知識を必要としていた。 テキストのトピックを予測するのに最も有用なフレーズは重要なキーワードである。 そこで本研究では,トピック分類の下流課題に対する入力句の予測的影響を計測し,キーフレーズを識別するための自己説明型ニューラルネットワークinspectを提案する。 この手法は, アドホックなヒューリスティックスの必要性を緩和するだけでなく, 科学的出版物とニュース記事という2つの領域の4つの異なるデータセットから, 教師なしのキーフレーズを抽出することで, 最先端の成果が得られることを示す。 最終的には、解釈可能なニューラルネットワークをnlpシステムに内在する要素として、モデル予測を人間に説明するツールとしてだけでなく、新たな利用法を提案する。

Keyphrase extraction aims at automatically extracting a list of "important" phrases which represent the key concepts in a document. Prior approaches for unsupervised keyphrase extraction resort to heuristic notions of phrase importance via embedding similarities or graph centrality, requiring extensive domain expertise to develop them. Our work proposes an alternative operational definition: phrases that are most useful for predicting the topic of a text are important keyphrases. To this end, we propose INSPECT -- a self-explaining neural framework for identifying influential keyphrases by measuring the predictive impact of input phrases on the downstream task of topic classification. We show that this novel approach not only alleviates the need for ad-hoc heuristics but also achieves state-of-the-art results in unsupervised keyphrase extraction across four diverse datasets in two domains: scientific publications and news articles. Ultimately, our study suggests a new usage of interpretable neural networks as an intrinsic component in NLP systems, and not only as a tool for explaining model predictions to humans.
翻訳日:2022-03-17 07:44:05 公開日:2022-03-15
# (参考訳) 合成翻訳はテキストの品質を向上できるか? [全文訳有]

Can Synthetic Translations Improve Bitext Quality? ( http://arxiv.org/abs/2203.07643v1 )

ライセンス: CC BY 4.0
Eleftheria Briakou and Marine Carpuat(参考訳) 合成翻訳は、主にデータ拡張の手段として、幅広いNLPタスクに使われてきた。 この研究は、どのように合成翻訳を用いて、採掘されたbitextにおける潜在的に不完全な参照翻訳を修正できるかを探求する。 合成サンプルは,nmtノイズを緩和する意味同値分類器に基づいて原文を置き換える際に,追加のバイリンガルの監督なしにバイテキストの品質を向上させることができる。 改良されたbitextの品質は、人間による評価によって本質的に確認され、バイリンガル誘導およびMTタスクを介して外因的に確認される。

Synthetic translations have been used for a wide range of NLP tasks primarily as a means of data augmentation. This work explores, instead, how synthetic translations can be used to revise potentially imperfect reference translations in mined bitext. We find that synthetic samples can improve bitext quality without any additional bilingual supervision when they replace the originals based on a semantic equivalence classifier that helps mitigate NMT noise. The improved quality of the revised bitext is confirmed intrinsically via human evaluation and extrinsically through bilingual induction and MT tasks.
翻訳日:2022-03-17 07:27:29 公開日:2022-03-15
# (参考訳) 同期による高能率長系列符号化 [全文訳有]

Efficient Long Sequence Encoding via Synchronization ( http://arxiv.org/abs/2203.07644v1 )

ライセンス: CC BY 4.0
Xiangyang Mou, Mo Yu, Bingsheng Yao, Lifu Huang(参考訳) 事前訓練されたTransformerモデルは、幅広いNLPタスクで成功しているが、長い入力シーケンスを扱う場合、非効率である。 既存の研究では、長いシーケンスをセグメント化して、階層的エンコーディングやポストホックアグリゲーションによってこの課題を克服しようとしている。 階層符号化のための同期機構を提案する。 まず,各セグメントにまたがるアンカートークンを識別し,元の入力シーケンスでその役割によってグループ化する。 次にTransformer層内のアンカー埋め込みは、自己保持モジュールを介してグループ内で同期される。 私たちのアプローチは、十分な柔軟性を持つ一般的なフレームワークです -- 新しいタスクに適応すると、タスク固有のアンカー定義で簡単に拡張できます。 長い入力文の異なる2つの代表的なタスク、ナラティブカサマリ設定とhotpotqaからのワイルドマルチホップ推論の実験は、効率を維持しながらセグメント間のグローバル情報交換を改善することができることを実証する。

Pre-trained Transformer models have achieved successes in a wide range of NLP tasks, but are inefficient when dealing with long input sequences. Existing studies try to overcome this challenge via segmenting the long sequence followed by hierarchical encoding or post-hoc aggregation. We propose a synchronization mechanism for hierarchical encoding. Our approach first identifies anchor tokens across segments and groups them by their roles in the original input sequence. Then inside Transformer layer, anchor embeddings are synchronized within their group via a self-attention module. Our approach is a general framework with sufficient flexibility -- when adapted to a new task, it is easy to be enhanced with the task-specific anchor definitions. Experiments on two representative tasks with different types of long input texts, NarrativeQA summary setting and wild multi-hop reasoning from HotpotQA, demonstrate that our approach is able to improve the global information exchange among segments while maintaining efficiency.
翻訳日:2022-03-17 07:03:52 公開日:2022-03-15
# (参考訳) 神経放射投射 [全文訳有]

Neural Radiance Projection ( http://arxiv.org/abs/2203.07658v1 )

ライセンス: CC BY 4.0
Pham Ngoc Huy and Tran Minh Quan(参考訳) 提案手法であるneural radiance projection (nerp) では,x線画像分割における畳み込みニューラルネットワークの訓練が不足している3つの問題に対処している。 生成逆数ネットワークを利用することで、より正確なラベル付き3DCTデータから、大量の物理ベースのX線画像、いわゆる変分再構成ラジオグラフ(VRR)を合成することができる。 結果として、VRRはフォトリアリスティックなメトリクスの点で他の投影法よりも忠実に提示される。 NeRPからの出力を追加することは、同じX線画像でトレーニングされたバニラUNetモデルを上回る。

The proposed method, Neural Radiance Projection (NeRP), addresses the three most fundamental shortages of training such a convolutional neural network on X-ray image segmentation: dealing with missing/limited human-annotated datasets; ambiguity on the per-pixel label; and the imbalance across positive- and negative- classes distribution. By harnessing a generative adversarial network, we can synthesize a massive amount of physics-based X-ray images, so-called Variationally Reconstructed Radiographs (VRRs), alongside their segmentation from more accurate labeled 3D Computed Tomography data. As a result, VRRs present more faithfully than other projection methods in terms of photo-realistic metrics. Adding outputs from NeRP also surpasses the vanilla UNet models trained on the same pairs of X-ray images.
翻訳日:2022-03-17 06:56:29 公開日:2022-03-15
# (参考訳) すべてを支配するエージェント:マルチエージェント会話型aiに向けて [全文訳有]

One Agent To Rule Them All: Towards Multi-agent Conversational AI ( http://arxiv.org/abs/2203.07665v1 )

ライセンス: CC BY 4.0
Christopher Clarke, Joseph Joshua Peper, Karthik Krishnamurthy, Walter Talamonti, Kevin Leach, Walter Lasecki, Yiping Kang, Lingjia Tang, Jason Mars(参考訳) 市場における市販の会話エージェント(CA)の量の増加により、ユーザは学習に悩まされ、タスクを達成するために複数のエージェントを採用するようになった。 先行研究では、単一のエージェントの設計において、多数のドメインをサポートすることを検討してきたが、対話体験は、望まれる能力の広いアクション空間に悩まされている。 これらの問題に対処するために,複数のブラックボックスCAを大規模に組み合わせることに焦点を当てた新しいタスクBBAI: Black-Box Agent Integrationを導入する。 この課題を解決するために,質問エージェントペアリングと質問応答ペアリングの2つの手法を検討した。 これらの技術を活用して、複数のCAと対話するための統一インターフェースを提供するスケーラブルなシステムであるOne For All(OFA)を設計します。 さらに,MARS:Multi-Agent Response Selectionは,ユーザ質問とエージェント応答ペアを共同で符号化する質問応答ペアのための新しいエンコーダモデルである。 異なるドメインにまたがる商用CAのアンサンブルを,OFAが自動的かつ正確に統合できることを実証する。 具体的には,MARSエンコーダを用いてBBAIタスクにおいて高い精度を実現し,高いベースラインを達成している。

The increasing volume of commercially available conversational agents (CAs) on the market has resulted in users being burdened with learning and adopting multiple agents to accomplish their tasks. Though prior work has explored supporting a multitude of domains within the design of a single agent, the interaction experience suffers due to the large action space of desired capabilities. To address these problems, we introduce a new task BBAI: Black-Box Agent Integration, focusing on combining the capabilities of multiple black-box CAs at scale. We explore two techniques: question agent pairing and question response pairing aimed at resolving this task. Leveraging these techniques, we design One For All (OFA), a scalable system that provides a unified interface to interact with multiple CAs. Additionally, we introduce MARS: Multi-Agent Response Selection, a new encoder model for question response pairing that jointly encodes user question and agent response pairs. We demonstrate that OFA is able to automatically and accurately integrate an ensemble of commercially available CAs spanning disparate domains. Specifically, using the MARS encoder we achieve the highest accuracy on our BBAI task, outperforming strong baselines.
翻訳日:2022-03-17 06:46:34 公開日:2022-03-15
# (参考訳) SATS:連続セマンティックセグメンテーションのための自己注意伝達 [全文訳有]

SATS: Self-Attention Transfer for Continual Semantic Segmentation ( http://arxiv.org/abs/2203.07667v1 )

ライセンス: CC BY 4.0
Yiqiao Qiu, Yixing Shen, Zhuohao Sun, Yanchong Zheng, Xiaobin Chang, Weishi Zheng, and Ruixuan Wang(参考訳) 画像領域のセグメント化を継続的に学習することは、多くのインテリジェントシステムにとって望ましい能力である。 しかし、このような連続的なセマンティクスセグメンテーションは、連続的な分類学習と同じ破滅的な忘れ方の問題に苦しむ。 もともと連続的な分類のための複数の知識蒸留戦略は、連続的なセマンティックセグメンテーションにうまく適応しているが、彼らは1つ以上の完全な畳み込みネットワークの層からの出力に基づいて古い知識を移譲することを考える。 既存のソリューションとは違って,各画像内の要素(画素や小さな局所領域など)間の関係を,クラス内知識とクラス間知識の両方をキャプチャする,知識に関連する新しいタイプの情報転送を提案する。 関係情報は、トランスフォーマースタイルセグメンテーションモデルにおける自己注意マップから有効に得ることができる。 各画像内の同じクラスに属する画素が類似した視覚特性を持つことが多いことを考慮し、知識伝達のためのより効率的な関係情報を提供するために、クラス固有の領域プーリングを適用する。 複数の公開ベンチマークにおける広範な評価は、提案手法が壊滅的な放棄問題を効果的に緩和し、その柔軟な組み合わせと1つ以上の広く採用されている戦略が最先端soluを著しく上回っていることを裏付けている。

Continually learning to segment more and more types of image regions is a desired capability for many intelligent systems. However, such continual semantic segmentation suffers from the same catastrophic forgetting issue as in continual classification learning. While multiple knowledge distillation strategies originally for continual classification have been well adapted to continual semantic segmentation, they only consider transferring old knowledge based on the outputs from one or more layers of deep fully convolutional networks. Different from existing solutions, this study proposes to transfer a new type of information relevant to knowledge, i.e. the relationships between elements (Eg. pixels or small local regions) within each image which can capture both within-class and between-class knowledge. The relationship information can be effectively obtained from the self-attention maps in a Transformer-style segmentation model. Considering that pixels belonging to the same class in each image often share similar visual properties, a class-specific region pooling is applied to provide more efficient relationship information for knowledge transfer. Extensive evaluations on multiple public benchmarks support that the proposed self-attention transfer method can further effectively alleviate the catastrophic forgetting issue, and its flexible combination with one or more widely adopted strategies significantly outperforms state-of-the-art solu
翻訳日:2022-03-17 06:33:48 公開日:2022-03-15
# (参考訳) 群集シーンにおけるプログレッシブ・エンド物体検出 [全文訳有]

Progressive End-to-End Object Detection in Crowded Scenes ( http://arxiv.org/abs/2203.07669v1 )

ライセンス: CC BY 4.0
Anlin Zheng, Yuang Zhang, Xiangyu Zhang, Xiaojuan Qi, Jian Sun(参考訳) 本稿では,群衆検出のための新しいクエリベース検出フレームワークを提案する。 前のクエリベースの検出器は2つの欠点を抱えている: まず、複数の予測が1つのオブジェクトに対して推論され、通常、混雑したシーンで、デコードステージの深さが大きくなると、パフォーマンスが飽和する。 1対1のラベル割り当て規則の性質から,上記の問題に対処するための漸進的予測手法を提案する。 具体的には、まず、受理されたクエリを選択して真の正の予測を生成し、その後、受理された予測に従って残りのノイズの多いクエリを精査する。 提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。 我々のアプローチと合わせて、Sparse RCNN は 92.0\% $\text{AP}$, 41.4\% $\text{MR}^{-2}$, 83.2\% $\text{JI}$ on the challenge CrowdHuman \cite{shao2018crowd human} dataset, outform the box-based method MIP \cite{chu2020detection}。 さらに,CityPersons \cite{zhang2017citypersons } やCOCO \cite{lin2014microsoft} のような中程度でやや混み合ったデータセットに対して,この手法は依然として一貫した改善が得られる。 コードはhttps://github.com/m egvii-model/Iter-E2E DETで公開される。

In this paper, we propose a new query-based detection framework for crowd detection. Previous query-based detectors suffer from two drawbacks: first, multiple predictions will be inferred for a single object, typically in crowded scenes; second, the performance saturates as the depth of the decoding stage increases. Benefiting from the nature of the one-to-one label assignment rule, we propose a progressive predicting method to address the above issues. Specifically, we first select accepted queries prone to generate true positive predictions, then refine the rest noisy queries according to the previously accepted predictions. Experiments show that our method can significantly boost the performance of query-based detectors in crowded scenes. Equipped with our approach, Sparse RCNN achieves 92.0\% $\text{AP}$, 41.4\% $\text{MR}^{-2}$ and 83.2\% $\text{JI}$ on the challenging CrowdHuman \cite{shao2018crowdhuman} dataset, outperforming the box-based method MIP \cite{chu2020detection} that specifies in handling crowded scenarios. Moreover, the proposed method, robust to crowdedness, can still obtain consistent improvements on moderately and slightly crowded datasets like CityPersons \cite{zhang2017citypersons } and COCO \cite{lin2014microsoft}. Code will be made publicly available at https://github.com/m egvii-model/Iter-E2E DET.
翻訳日:2022-03-17 05:56:10 公開日:2022-03-15
# (参考訳) 同型射影蒸留による意味検索のための圧縮文表現 [全文訳有]

Compressing Sentence Representation for Semantic Retrieval via Homomorphic Projective Distillation ( http://arxiv.org/abs/2203.07687v1 )

ライセンス: CC BY 4.0
Xuandong Zhao, Zhiguo Yu, Ming Wu, Lei Li(参考訳) 高度にコンパクトで効果的な文表現を学ぶには? 事前訓練された言語モデルは、多くのNLPタスクに有効である。 しかし、これらのモデルはしばしば巨大であり、大きな文埋め込みを生み出す。 さらに、大きなモデルと小さなモデルの間には大きなパフォーマンスギャップがあります。 本稿では,圧縮文の埋め込みを学習するための同相射影蒸留(HPD)を提案する。 提案手法は,学習可能なプロジェクション層を持つ小さなトランスフォーマーエンコーダモデルを拡張して,文表現の質を維持するために学習済み言語モデルを模倣しながら,コンパクトな表現を生成する。 本手法は,semantic textual similarity (sts) と semantic retrieval (sr) の両タスクにおいて異なるモデルサイズで評価する。 実験により,本手法がSTSタスクの2.7-4.5ポイントの性能向上を達成することを示す。 SRタスクでは,検索速度 (8.2$\times$) とメモリ使用量 (8.0$\times$) を最先端の大規模モデルと比較して改善する。

How to learn highly compact yet effective sentence representation? Pre-trained language models have been effective in many NLP tasks. However, these models are often huge and produce large sentence embeddings. Moreover, there is a big performance gap between large and small models. In this paper, we propose Homomorphic Projective Distillation (HPD) to learn compressed sentence embeddings. Our method augments a small Transformer encoder model with learnable projection layers to produce compact representations while mimicking a large pre-trained language model to retain the sentence representation quality. We evaluate our method with different model sizes on both semantic textual similarity (STS) and semantic retrieval (SR) tasks. Experiments show that our method achieves 2.7-4.5 points performance gain on STS tasks compared with previous best representations of the same size. In SR tasks, our method improves retrieval speed (8.2$\times$) and memory usage (8.0$\times$) compared with state-of-the-art large models.
翻訳日:2022-03-17 05:38:39 公開日:2022-03-15
# (参考訳) ロバストな非剛性形状マッチングのための暗黙的フィールド監督

Implicit field supervision for robust non-rigid shape matching ( http://arxiv.org/abs/2203.07694v1 )

ライセンス: CC BY 4.0
Ramana Sundararaman, Gautam Pai, Maks Ovsjanikov(参考訳) 2つの非剛性変形形状の対応を確立することは、ビジュアルコンピューティングにおける最も基本的な問題の1つである。 既存の手法では、ノイズ、外れ値、自己閉塞などの実世界のデータに固有の課題が提示されると、弱いレジリエンスを示すことが多い。 一方、オートデコーダは幾何学的に有意義な潜在埋め込みを学ぶ上で強い表現力を示している。 しかしながら、それらが \emph{shape analysis} や、特に非剛体形状対応において使われることは限られている。 本稿では,固定テンプレート上で連続的な形状方向の変形場を学習するauto-decoderフレームワークに基づく手法を提案する。 平面上の点の変形場を監督し、新しい \emph{signed distance regularization} (sdr) を介して面外点の正則化を行うことにより、テンプレートと形状 \emph{volumes} のアライメントを学習する。 古典的対応法とは異なり,本手法は強いアーティファクトの存在下では極めて頑健であり,任意の形状カテゴリに一般化できる。 クリーンな水密メッシュ(emph{without})でトレーニングされたデータ拡張は、妥協されたデータと実世界のスキャンで魅力的なパフォーマンスを示す。

Establishing a correspondence between two non-rigidly deforming shapes is one of the most fundamental problems in visual computing. Existing methods often show weak resilience when presented with challenges innate to real-world data such as noise, outliers, self-occlusion etc. On the other hand, auto-decoders have demonstrated strong expressive power in learning geometrically meaningful latent embeddings. However, their use in \emph{shape analysis} and especially in non-rigid shape correspondence has been limited. In this paper, we introduce an approach based on auto-decoder framework, that learns a continuous shape-wise deformation field over a fixed template. By supervising the deformation field for points on-surface and regularising for points off-surface through a novel \emph{Signed Distance Regularisation} (SDR), we learn an alignment between the template and shape \emph{volumes}. Unlike classical correspondence techniques, our method is remarkably robust in the presence of strong artefacts and can be generalised to arbitrary shape categories. Trained on clean water-tight meshes, \emph{without} any data-augmentation, we demonstrate compelling performance on compromised data and real-world scans.
翻訳日:2022-03-17 05:26:56 公開日:2022-03-15
# (参考訳) 乳がんの病理組織像における自己監督的表現法 [全文訳有]

Magnification Prior: A Self-Supervised Method for Learning Representations on Breast Cancer Histopathological Images ( http://arxiv.org/abs/2203.07707v1 )

ライセンス: CC BY 4.0
Prakash Chandra Chhipa, Richa Upadhyay, Gustav Grund Pihlgren, Rajkumar Saini, Seiichi Uchida and Marcus Liwicki(参考訳) 本研究は, 拡大因子を用いた病理組織像にラベルを付けずに効率的な表現を学習するための, 自己指導型事前学習法を提案する。 他の最先端の研究は主に人間のアノテーションに大きく依存する完全な教師付き学習アプローチに焦点を当てている。 しかし、ラベル付きおよびラベルなしデータの不足は、病理学における長年にわたる課題である。 現在、ラベルのない表現学習は、病理学領域では未発見である。 提案手法であるmpcs(magnification prior contrastive similarity, magnification prior contrastive similarity)は,乳がんの小規模データセットにおけるラベルのない表現の自己教師あり学習を可能にする。 提案手法は, 完全教師付き学習環境において, ラベルの20%のみを微調整や性能向上に使用した場合に, 悪性度分類における完全教師付き学習性能と一致させる。 仮説を定式化し、人間の優位性を減らすことが自己監督における効率的な表現学習につながるという実証的な証拠を提供する。 この作業の実装はGitHubhttps://github .com/prakashchhipa/M agnification-Prior-S elf-Supervised-Metho dで公開されている。

This work presents a novel self-supervised pre-training method to learn efficient representations without labels on histopathology medical images utilizing magnification factors. Other state-of-theart works mainly focus on fully supervised learning approaches that rely heavily on human annotations. However, the scarcity of labeled and unlabeled data is a long-standing challenge in histopathology. Currently, representation learning without labels remains unexplored for the histopathology domain. The proposed method, Magnification Prior Contrastive Similarity (MPCS), enables self-supervised learning of representations without labels on small-scale breast cancer dataset BreakHis by exploiting magnification factor, inductive transfer, and reducing human prior. The proposed method matches fully supervised learning state-of-the-art performance in malignancy classification when only 20% of labels are used in fine-tuning and outperform previous works in fully supervised learning settings. It formulates a hypothesis and provides empirical evidence to support that reducing human-prior leads to efficient representation learning in self-supervision. The implementation of this work is available online on GitHub - https://github.com/p rakashchhipa/Magnifi cation-Prior-Self-Su pervised-Method
翻訳日:2022-03-17 04:47:27 公開日:2022-03-15
# (参考訳) LDP: ディープラーニング学習と推論のための学習可能な動的精度 [全文訳有]

LDP: Learnable Dynamic Precision for Efficient Deep Neural Network Training and Inference ( http://arxiv.org/abs/2203.07713v1 )

ライセンス: CC BY-SA 4.0
Zhongzhi Yu, Yonggan Fu, Shang Wu, Mengquan Li, Haoran You, Yingyan Lin(参考訳) 低精度深層ニューラルネットワーク(DNN)トレーニングは、最高のビットレベルからトレーニングコストを削減できるため、DNNのトレーニング効率を高める最も効果的なテクニックの1つである。 既存の作業はトレーニングプロセス全体においてモデルの精度を主に修正するが、いくつかの先駆的な研究により、動的精度のスケジュールはDNNがより正確な精度に収束するのに役立つ一方で、静的精度のトレーニングよりも低いトレーニングコストにつながることが示されている。 しかし、既存の動的低精度トレーニング手法は、効率と精度の面で有利なトレードオフを達成するために手動で設計した精度スケジュールに依存しており、より包括的な実用的応用と達成可能な性能を制限している。 この目的のために,学習可能な動的精度DNNトレーニングフレームワークであるLPPを提案し,学習中の時間的・空間的動的精度スケジュールを自動的に学習し,最適な精度と効率のトレードオフを実現する。 LDP訓練されたDNNは推論時に本質的に効率的であることに注意が必要だ。 さらに,学習段階の異なるDNNと学習前後のDNN層の特徴をよりよく理解し,さらなるイノベーションを促進するための洞察を導き出すため,異なるタスクにおける時間的・空間的精度のスケジュールとDNNの分布を可視化する。 7つのネットワーク、5つのデータセット、3つのタスクからなる大規模な実験とアブレーション研究により、提案されたLDPは、トレーニング効率の観点から、常に最先端(SOTA)のDNNトレーニング技術より優れており、精度のトレードオフが達成されていることが示された。 例えば、自動化の利点に加えて、私たちのLCPは、最高のSOTA法と比較して、CIFAR-10上でResNet-20をトレーニングする際に、39.1\%低い計算コストで0.31\%の精度を達成する。

Low precision deep neural network (DNN) training is one of the most effective techniques for boosting DNNs' training efficiency, as it trims down the training cost from the finest bit level. While existing works mostly fix the model precision during the whole training process, a few pioneering works have shown that dynamic precision schedules help DNNs converge to a better accuracy while leading to a lower training cost than their static precision training counterparts. However, existing dynamic low precision training methods rely on manually designed precision schedules to achieve advantageous efficiency and accuracy trade-offs, limiting their more comprehensive practical applications and achievable performance. To this end, we propose LDP, a Learnable Dynamic Precision DNN training framework that can automatically learn a temporally and spatially dynamic precision schedule during training towards optimal accuracy and efficiency trade-offs. It is worth noting that LDP-trained DNNs are by nature efficient during inference. Furthermore, we visualize the resulting temporal and spatial precision schedule and distribution of LDP trained DNNs on different tasks to better understand the corresponding DNNs' characteristics at different training stages and DNN layers both during and after training, drawing insights for promoting further innovations. Extensive experiments and ablation studies (seven networks, five datasets, and three tasks) show that the proposed LDP consistently outperforms state-of-the-art (SOTA) low precision DNN training techniques in terms of training efficiency and achieved accuracy trade-offs. For example, in addition to having the advantage of being automated, our LDP achieves a 0.31\% higher accuracy with a 39.1\% lower computational cost when training ResNet-20 on CIFAR-10 as compared with the best SOTA method.
翻訳日:2022-03-17 04:29:12 公開日:2022-03-15
# (参考訳) ビデオランゲージ事前学習の民主化のための地域再生機能 [全文訳有]

Revitalize Region Feature for Democratizing Video-Language Pre-training ( http://arxiv.org/abs/2203.07720v1 )

ライセンス: CC0 1.0
Guanyu Cai, Yixiao Ge, Alex Jinpeng Wang, Rui Yan, Xudong Lin, Ying Shan, Lianghua He, Xiaohu Qie, Jianping Wu, Mike Zheng Shou(参考訳) ビデオ言語事前学習(VLP)における近年の主流手法は、下流の映像言語タスクにおける高度なパフォーマンスを達成するために、原画素からの転送可能な表現をエンドツーエンドに学習する。 驚くべき結果にもかかわらず、VLPの研究は膨大なデータと長い訓練時間を必要として非常に高価になり、さらなる探査を妨げている。 本研究では,空間的および時間的視覚的冗長性を低減し,同時にVLP研究の民主化を図り,最先端の成果を達成するために,疎遠なビデオクリップの領域的特徴を再活性化する。 具体的には,文中の領域と特定の単語間のきめ細かな関係を適切に最適化し,抽出された領域特徴とテキスト間のドメイン/モダリティ切断を解消する,双方向の領域単語アライメント規則化を提案する。 7つのデータセット上の下流のテキスト対ビデオ検索およびビデオ質問応答タスクの広範な結果から,提案手法の有効性と効率性が両立することを示す。例えば,本手法は,これまでの最も効率的なvlp法と比較して,80\%少ないデータと85\%少ない事前学習時間で競合する結果が得られる。 コードは \url{https://github.com/C uthbertCai/DemoVLP} で入手できる。

Recent dominant methods for video-language pre-training (VLP) learn transferable representations from the raw pixels in an end-to-end manner to achieve advanced performance on downstream video-language tasks. Despite the impressive results, VLP research becomes extremely expensive with the need for massive data and a long training time, preventing further explorations. In this work, we revitalize region features of sparsely sampled video clips to significantly reduce both spatial and temporal visual redundancy towards democratizing VLP research at the same time achieving state-of-the-art results. Specifically, to fully explore the potential of region features, we introduce a novel bidirectional region-word alignment regularization that properly optimizes the fine-grained relations between regions and certain words in sentences, eliminating the domain/modality disconnections between pre-extracted region features and text. Extensive results of downstream text-to-video retrieval and video question answering tasks on seven datasets demonstrate the superiority of our method on both effectiveness and efficiency, e.g., our method achieves competing results with 80\% fewer data and 85\% less pre-training time compared to the most efficient VLP method so far. The code will be available at \url{https://github.com/C uthbertCai/DemoVLP}.
翻訳日:2022-03-17 04:05:54 公開日:2022-03-15
# (参考訳) CODA: 自律走行における物体検出のための実世界道路コーナーケースデータセット

CODA: A Real-World Road Corner Case Dataset for Object Detection in Autonomous Driving ( http://arxiv.org/abs/2203.07724v1 )

ライセンス: CC BY 4.0
Kaican Li, Kai Chen, Haoyu Wang, Lanqing Hong, Chaoqiang Ye, Jianhua Han, Yukuai Chen, Wei Zhang, Chunjing Xu, Dit-Yan Yeung, Xiaodan Liang, Zhenguo Li, Hang Xu(参考訳) 現代の自動運転のためのディープラーニングオブジェクト検出手法は、通常、歩行者や車といった一般的な交通参加者の序列カテゴリーを仮定する。 ほとんどの既存の検出器は、異常な物体やコーナーケース(例えば、通りを横断する犬など)を検出できないため、いくつかの状況では深刻な事故を引き起こし、信頼性の高い自律運転の現実の応用のタイムラインが不確実である。 真に確実な自動運転システムの開発を妨げる主な理由は、コーナーケースにおける物体検知器の性能を評価するための公開データセットがないことである。 したがって、我々は、この視覚ベースの検出器の重大な問題を露呈する、CODAという挑戦的なデータセットを導入する。 データセットは1500の慎重に選択された現実世界の運転シーンで構成され、それぞれが4つの対象レベルのコーナーケース(平均30以上の対象カテゴリ)を含んでいる。 CODAでは、大規模自動運転データセットで訓練された標準物体検出器の性能は、mARの12.8%以下に著しく低下した。 さらに,最先端のオープンワールド物体検出器を用いて実験を行い,codaの新規物体の同定に失敗したことを発見した。 当社のCODAデータセットは、現実の自律運転の信頼性検出におけるさらなる研究を促進するものと期待している。 データセットはhttps://coda-dataset .github.ioで公開されます。

Contemporary deep-learning object detection methods for autonomous driving usually assume prefixed categories of common traffic participants, such as pedestrians and cars. Most existing detectors are unable to detect uncommon objects and corner cases (e.g., a dog crossing a street), which may lead to severe accidents in some situations, making the timeline for the real-world application of reliable autonomous driving uncertain. One main reason that impedes the development of truly reliably self-driving systems is the lack of public datasets for evaluating the performance of object detectors on corner cases. Hence, we introduce a challenging dataset named CODA that exposes this critical problem of vision-based detectors. The dataset consists of 1500 carefully selected real-world driving scenes, each containing four object-level corner cases (on average), spanning 30+ object categories. On CODA, the performance of standard object detectors trained on large-scale autonomous driving datasets significantly drops to no more than 12.8% in mAR. Moreover, we experiment with the state-of-the-art open-world object detector and find that it also fails to reliably identify the novel objects in CODA, suggesting that a robust perception system for autonomous driving is probably still far from reach. We expect our CODA dataset to facilitate further research in reliable detection for real-world autonomous driving. Our dataset will be released at https://coda-dataset .github.io.
翻訳日:2022-03-17 03:49:28 公開日:2022-03-15
# (参考訳) オルディナルラベルを用いた医用画像分類のためのメタオルディナル回帰森林 [全文訳有]

Meta Ordinal Regression Forest for Medical Image Classification with Ordinal Labels ( http://arxiv.org/abs/2203.07725v1 )

ライセンス: CC BY 4.0
Yiming Lei, Haiping Zhu, Junping Zhang, Hongming Shan(参考訳) 医用画像分類の性能は、一般的にクロスエントロピー(CE)損失で訓練されるディープ畳み込みニューラルネットワーク(CNN)によって向上している。 しかし、ラベルが本質的な順序性、例えば良性腫瘍から悪性腫瘍への進展を示す場合、CE損失はそのような順序情報を考慮に入れることができず、より一般化することができる。 本稿では,畳み込みニューラルネットワークとディファレンシャルフォレストを組み合わせることで,順序ラベルを用いた医用画像分類のためのメタ順序回帰フォレスト(morf)手法を提案する。 提案したMORFの利点は、ツリーワイド重み付けネット(TWW-Net)とグループ化特徴選択(GFS)モジュールの2つから成り立っている。 まず、TWW-Netは、対応する木の分類損失からマッピングされた特定の重量で、森林の各木を割り当てる。 したがって、全ての木は異なる重みを持ち、木々の予測のばらつきを緩和するのに役立つ。 第2に、GFSモジュールは、以前使用されていた固定フォレストではなく、動的フォレストを可能にし、ランダムな特徴摂動を可能にする。 トレーニング中、ヘシアン行列を計算し、メタラーニングフレームワークにおけるcnnバックボーンとtww-netのパラメータを最適化する。 LIDC-IDRIとBreast Ultrasound Datasetの2つの医用画像分類データセットによる実験結果から,既存の最先端手法よりもMORF法の方が優れた性能を示した。

The performance of medical image classification has been enhanced by deep convolutional neural networks (CNNs), which are typically trained with cross-entropy (CE) loss. However, when the label presents an intrinsic ordinal property in nature, e.g., the development from benign to malignant tumor, CE loss cannot take into account such ordinal information to allow for better generalization. To improve model generalization with ordinal information, we propose a novel meta ordinal regression forest (MORF) method for medical image classification with ordinal labels, which learns the ordinal relationship through the combination of convolutional neural network and differential forest in a meta-learning framework. The merits of the proposed MORF come from the following two components: a tree-wise weighting net (TWW-Net) and a grouped feature selection (GFS) module. First, the TWW-Net assigns each tree in the forest with a specific weight that is mapped from the classification loss of the corresponding tree. Hence, all the trees possess varying weights, which is helpful for alleviating the tree-wise prediction variance. Second, the GFS module enables a dynamic forest rather than a fixed one that was previously used, allowing for random feature perturbation. During training, we alternatively optimize the parameters of the CNN backbone and TWW-Net in the meta-learning framework through calculating the Hessian matrix. Experimental results on two medical image classification datasets with ordinal labels, i.e., LIDC-IDRI and Breast Ultrasound Dataset, demonstrate the superior performances of our MORF method over existing state-of-the-art methods.
翻訳日:2022-03-17 03:48:23 公開日:2022-03-15
# (参考訳) 胸部X線画像における新型コロナウイルスの分類のセキュア化:プライバシー保護型ディープラーニングアプローチ [全文訳有]

Securing the Classification of COVID-19 in Chest X-ray Images: A Privacy-Preserving Deep Learning Approach ( http://arxiv.org/abs/2203.07728v1 )

ライセンス: CC BY 4.0
Wadii Boulila, Adel Ammar, Bilel Benjdira, Anis Koubaa(参考訳) 深層学習(DL)はその卓越した効率のため、医療関連分野でますます活用されている。 しかし、DLモデルが使用する個々の健康データをプライベートかつセキュアにしておく必要がある。 データの保護と個人のプライバシーの保護は、ますます大きな問題になりつつある。 DLとプライバシーコミュニティのギャップを埋めなければならない。 本稿では,チェストX線画像の分類をセキュアにするために,プライバシー保護型ディープラーニング(PPDL)に基づくアプローチを提案する。 本研究の目的は,胸部x線画像が持つデータのプライバシーを損なうことなく,その潜在能力を最大限に活用することである。 提案手法は,部分同型暗号化を用いたデータセットの暗号化と,暗号化画像上でのDLアルゴリズムのトレーニング/テストという2つのステップに基づいている。 COVID-19ラジオグラフィーデータベースの実験結果によると、MobileNetV2モデルは通常のデータに対して94.2%、暗号化されたデータに対して93.3%の精度を達成している。

Deep learning (DL) is being increasingly utilized in healthcare-related fields due to its outstanding efficiency. However, we have to keep the individual health data used by DL models private and secure. Protecting data and preserving the privacy of individuals has become an increasingly prevalent issue. The gap between the DL and privacy communities must be bridged. In this paper, we propose privacy-preserving deep learning (PPDL)-based approach to secure the classification of Chest X-ray images. This study aims to use Chest X-ray images to their fullest potential without compromising the privacy of the data that it contains. The proposed approach is based on two steps: encrypting the dataset using partially homomorphic encryption and training/testing the DL algorithm over the encrypted images. Experimental results on the COVID-19 Radiography database show that the MobileNetV2 model achieves an accuracy of 94.2% over the plain data and 93.3% over the encrypted data.
翻訳日:2022-03-17 03:21:58 公開日:2022-03-15
# (参考訳) 誤情報検出のためのBERTに基づく事前学習言語モデルの評価 [全文訳有]

Evaluating BERT-based Pre-training Language Models for Detecting Misinformation ( http://arxiv.org/abs/2203.07731v1 )

ライセンス: CC BY 4.0
Rini Anggrainingsih, Ghulam Mubashar Hassan and Amitava Datta(参考訳) オンラインに投稿された全ての情報に対する監督が欠如しているため、オンライン情報の質を制御することは困難である。 オンラインメディア上の大量の投稿と、それがいかに急速に拡散したかを考えると、手動によるチェックはほとんど不可能だ。 そのため,誤情報拡散の悪影響を抑えるために,自動噂検出技術が必要である。 これまでの研究は主にテキストデータの重要な特徴の発見と抽出に重点を置いていた。 しかし、抽出機能は時間がかかり、非常に効果的なプロセスではない。 本研究では,テキストデータをベクトルにエンコードするbert型事前学習言語モデルを提案し,ニューラルネットワークモデルを用いてこれらのベクトルを分類し,誤情報を検出する。 Furthermore, different language models (LM) ' performance with different trainable parameters was compared. The proposed technique is tested on different short and long text datasets. The result of the proposed technique has been compared with the state-of-the-art techniques on the same datasets. The results show that the proposed technique performs better than the state-of-the-art techniques. We also tested the proposed technique by combining the datasets. The results demonstrated that the large data training and testing size considerably improves the technique's performance.

It is challenging to control the quality of online information due to the lack of supervision over all the information posted online. Manual checking is almost impossible given the vast number of posts made on online media and how quickly they spread. Therefore, there is a need for automated rumour detection techniques to limit the adverse effects of spreading misinformation. Previous studies mainly focused on finding and extracting the significant features of text data. However, extracting features is time-consuming and not a highly effective process. This study proposes the BERT- based pre-trained language models to encode text data into vectors and utilise neural network models to classify these vectors to detect misinformation. Furthermore, different language models (LM) ' performance with different trainable parameters was compared. The proposed technique is tested on different short and long text datasets. The result of the proposed technique has been compared with the state-of-the-art techniques on the same datasets. The results show that the proposed technique performs better than the state-of-the-art techniques. We also tested the proposed technique by combining the datasets. The results demonstrated that the large data training and testing size considerably improves the technique's performance.
翻訳日:2022-03-17 03:11:42 公開日:2022-03-15
# (参考訳) S2F2:単眼画像からの自己監督型高忠実顔再構成

S2F2: Self-Supervised High Fidelity Face Reconstruction from Monocular Image ( http://arxiv.org/abs/2203.07732v1 )

ライセンス: CC BY 4.0
Abdallah Dib, Junghyun Ahn, Cedric Thebault, Philippe-Henri Gosselin, Louis Chevallier(参考訳) 単一の単眼画像から空間的に変化する顔反射率の詳細な顔形状を再構成する新しい顔再構成法を提案する。 我々は、DNNベースの自動エンコーダの最近の進歩に基づいて、自己教師付きで訓練された異なる光線追跡画像形成技術を構築した。 学習に基づくアプローチとリアルタイム再構築の利点を提供する一方で、後者の手法は忠実性に欠けていた。 本研究では, 自己教師付き学習のみを用いて, 初めて高忠実度顔再構成を実現する。 我々の新しい粗い深層アーキテクチャは、1つの画像から高速に顔反射率を分解する難解な問題を解くことができる。 最先端の手法と比較して,より視覚的に魅力的な再構築を実現する。

We present a novel face reconstruction method capable of reconstructing detailed face geometry, spatially varying face reflectance from a single monocular image. We build our work upon the recent advances of DNN-based auto-encoders with differentiable ray tracing image formation, trained in self-supervised manner. While providing the advantage of learning-based approaches and real-time reconstruction, the latter methods lacked fidelity. In this work, we achieve, for the first time, high fidelity face reconstruction using self-supervised learning only. Our novel coarse-to-fine deep architecture allows us to solve the challenging problem of decoupling face reflectance from geometry using a single image, at high computational speed. Compared to state-of-the-art methods, our method achieves more visually appealing reconstruction.
翻訳日:2022-03-17 02:50:56 公開日:2022-03-15
# (参考訳) CSN:Few-Shot分類のためのコンポーネントスーパービジョンネットワーク [全文訳有]

CSN: Component-Supervised Network for Few-Shot Classification ( http://arxiv.org/abs/2203.07738v1 )

ライセンス: CC BY 4.0
Shuai Shao, Baodi Liu, Lei Xing, Lifei Zhao, Yanjiang Wang, Weifeng Liu, and Yicong Zhou(参考訳) 数発分類(FSC)タスクは近年ホットな研究トピックとなっている。 本研究の目的は,ラベル付きデータに不足する分類問題に対して,横断的カテゴリベースで対処することである。 通常、研究者は基本データを使って特徴抽出器を事前訓練し、新しいデータの特徴を抽出して認識する。 特筆すべきは、新規なセットはいくつかの注釈付きサンプルしか持たず、ベースセットとは全く異なるカテゴリを持ち、事前訓練された特徴抽出器が新規なデータに不完全に対応できないことである。 この問題をFEM(Feature-Extracto r-Maladaptive)問題と呼ぶ。 本稿では,本問題の根本原因から,FSCの性能向上を目的としたCSN(Component-Superv ised Network)を提案する。 基本集合と新規集合の分類は異なるが、サンプルの成分の組成は似ていると我々は信じている。 例えば、猫も犬も脚も頭部も含んでいる。 実際、このようなエンティティコンポーネントはクラス内安定です。 細かなクロスカテゴリの汎用性と新しいカテゴリの一般化がある。 そこで,我々は,自然言語処理でよく使われる辞書であるWordNetについて言及し,サンプルの成分情報を収集し,特徴抽出器の適応性を向上させるためにコンポーネントベース補助タスクを構築する。 2つのベンチマークデータセット (mini-imagenet と tiered-imagenet) で実験を行い, 最新技術と比較して$0.9\%$-$5.8\%$の改善がcsnの効率を評価した。

The few-shot classification (FSC) task has been a hot research topic in recent years. It aims to address the classification problem with insufficient labeled data on a cross-category basis. Typically, researchers pre-train a feature extractor with base data, then use it to extract the features of novel data and recognize them. Notably, the novel set only has a few annotated samples and has entirely different categories from the base set, which leads to that the pre-trained feature extractor can not adapt to the novel data flawlessly. We dub this problem as Feature-Extractor-Ma ladaptive (FEM) problem. Starting from the root cause of this problem, this paper presents a new scheme, Component-Supervised Network (CSN), to improve the performance of FSC. We believe that although the categories of base and novel sets are different, the composition of the sample's components is similar. For example, both cat and dog contain leg and head components. Actually, such entity components are intra-class stable. They have fine cross-category versatility and new category generalization. Therefore, we refer to WordNet, a dictionary commonly used in natural language processing, to collect component information of samples and construct a component-based auxiliary task to improve the adaptability of the feature extractor. We conduct experiments on two benchmark datasets (mini-ImageNet and tiered-ImageNet), the improvements of $0.9\%$-$5.8\%$ compared with state-of-the-arts have evaluated the efficiency of our CSN.
翻訳日:2022-03-17 02:49:49 公開日:2022-03-15
# (参考訳) Neural-MPC: 四脚ロボットとアジャイルロボットプラットフォームのためのディープラーニングモデル予測制御 [全文訳有]

Neural-MPC: Deep Learning Model Predictive Control for Quadrotors and Agile Robotic Platforms ( http://arxiv.org/abs/2203.07747v1 )

ライセンス: CC BY 4.0
Tim Salzmann, Elia Kaufmann, Marco Pavone, Davide Scaramuzza, Markus Ryll(参考訳) モデル予測制御(MPC)は、高性能自律システムの組込み制御において一般的なフレームワークとなっている。 しかし, MPCを用いた制御性能向上のためには, 正確な力学モデルが重要である。 リアルタイム操作を維持するため、組込みシステムで使用されるダイナミクスモデルは単純な第一原理モデルに制限されており、その代表力を実質的に制限している。 対照的に、ニューラルネットワークはデータから純粋に複雑な効果をモデル化することができる。 このような単純なモデルとは対照的に、ニューラルネットワークのような機械学習アプローチは、複雑な動的効果を正確にモデル化することが示されているが、その大きな計算複雑性は、高速なリアルタイム反復ループと組み合わせることを妨げる。 本研究では,大規模で複雑なニューラルネットワークアーキテクチャをモデル予測制御パイプライン内のダイナミクスモデルとして効率的に統合するフレームワークであるneural-mpcを提案する。 シミュレーションと高アジャイルな四極子プラットフォームを用いた実世界実験では,ニューラルネットワークのダイナミクスを伴わない最先端のMPCアプローチと比較して,位置追跡誤差が最大83%減少した。

Model Predictive Control (MPC) has become a popular framework in embedded control for high-performance autonomous systems. However, to achieve good control performance using MPC, an accurate dynamics model is key. To maintain real-time operation, the dynamics models used on embedded systems have been limited to simple first-principle models, which substantially limits their representative power. In contrast, neural networks can model complex effects purely from data. In contrast to such simple models, machine learning approaches such as neural networks have been shown to accurately model even complex dynamic effects, but their large computational complexity hindered combination with fast real-time iteration loops. With this work, we present Neural-MPC, a framework to efficiently integrate large, complex neural network architectures as dynamics models within a model-predictive control pipeline. Our experiments, performed in simulation and the real world on a highly agile quadrotor platform, demonstrate up to 83% reduction in positional tracking error when compared to state-of-the-art MPC approaches without neural network dynamics.
翻訳日:2022-03-17 02:25:08 公開日:2022-03-15
# (参考訳) ラプラス近似を用いた生成モデルとベイズ反転 [全文訳有]

Generative models and Bayesian inversion using Laplace approximation ( http://arxiv.org/abs/2203.07755v1 )

ライセンス: CC BY-SA 4.0
Manuel Marschall, Gerd W\"ubbeler, Franko Schm\"ahling, Clemens Elster(参考訳) 逆問題の解法に対するベイズ的アプローチは、事前の選択に依存する。 この重要な要素は、確率的な方法で専門家の知識や物理的な制約を定式化し、推論の成功に重要な役割を果たす。 近年,生成モデルを用いてベイズ逆問題を解く手法が提案されている。 生成モデル(Generative model)は、あるデータベースによく似た特性を持つデータを生成する機械学習の一般的なツールである。 通常、生成されたデータの分布は低次元多様体に埋め込まれる。 逆問題に対して、生成モデルは、磁気共鳴(mr)イメージングにおけるヒト脳の組織の典型的な構造のような、要求される溶液の性質を反映するデータベース上で訓練される。 この推論は、逆問題の次元性を強く減少させる生成モデルによって決定される低次元多様体において実行される。 しかし、この進行により、実際の変数にルベーグ密度がないことが認められ、到達した精度は生成モデルの品質に強く依存する。 線形ガウスモデルに対しては、元の高次元空間で実行される確率的生成モデルに基づく代替ベイズ推論を探求する。 生成モデルによって誘導される必要な事前確率密度関数を解析的に導出するためにラプラス近似を用いる。 その結果, 推定結果の特性について検討した。 具体的には、導出ベイズ推定が、生成モデルの低次元多様体を用いたアプローチとは対照的に一貫したものであることを示す。 mnistデータセットは,理論的な知見を裏付ける数値実験を行うために用いられる。

The Bayesian approach to solving inverse problems relies on the choice of a prior. This critical ingredient allows the formulation of expert knowledge or physical constraints in a probabilistic fashion and plays an important role for the success of the inference. Recently, Bayesian inverse problems were solved using generative models as highly informative priors. Generative models are a popular tool in machine learning to generate data whose properties closely resemble those of a given database. Typically, the generated distribution of data is embedded in a low-dimensional manifold. For the inverse problem, a generative model is trained on a database that reflects the properties of the sought solution, such as typical structures of the tissue in the human brain in magnetic resonance (MR) imaging. The inference is carried out in the low-dimensional manifold determined by the generative model which strongly reduces the dimensionality of the inverse problem. However, this proceeding produces a posterior that admits no Lebesgue density in the actual variables and the accuracy reached can strongly depend on the quality of the generative model. For linear Gaussian models we explore an alternative Bayesian inference based on probabilistic generative models which is carried out in the original high-dimensional space. A Laplace approximation is employed to analytically derive the required prior probability density function induced by the generative model. Properties of the resulting inference are investigated. Specifically, we show that derived Bayes estimates are consistent, in contrast to the approach employing the low-dimensional manifold of the generative model. The MNIST data set is used to construct numerical experiments which confirm our theoretical findings.
翻訳日:2022-03-17 02:08:06 公開日:2022-03-15
# (参考訳) デジタルホログラフィ顕微鏡のための微小ネットワークを用いた高速オートフォーカス [全文訳有]

Fast Autofocusing using Tiny Networks for Digital Holographic Microscopy ( http://arxiv.org/abs/2203.07772v1 )

ライセンス: CC BY 4.0
St\'ephane Cuenat, Louis Andr\'eoli, Antoine N. Andr\'e, Patrick Sandoz, Guillaume J. Laurent, Rapha\"el Couturier and Maxime Jacquot(参考訳) ディジタルホログラフィーの数値波面バックプロパゲーション原理は、Z軸に沿った機械的変位を伴わずに、ユニークな拡張焦点能力を示す。 しかし、正確な焦点距離の決定は非自明で時間を要する問題である。 自動焦点を回帰問題としてキャストし,実験とシミュレーションの両方のホログラム上でテストするために,deep learning (dl) ソリューションを提案する。 単一波長のデジタルホログラムをデジタルホログラム顕微鏡 (dhm) で記録し, 10$\mathrm{x}$ の光学的対象を, 92$\mu$m の軸方向で3dで移動させた。 小型のビジョントランスフォーマー(TViT)、小型のVGG16(TVGG)、小型のスウィントランスフォーマー(TSwinT)など、小型のDLモデルが提案され、比較されている。 実験により、予測集束距離$Z_R^{\mathrm{Pred}}$は、DHMのDHM深度15$\mu$mと比較して平均1.2$\mu$mの精度で正確に推定されることが示された。 数値シミュレーションにより、全ての小さなモデルは、0.3$\mu$m以下の誤差を持つ$Z_R^{\mathrm{Pred}}$を与える。 このような展望は、生命科学やマイクロロボティクスのための3D顕微鏡のような応用におけるコンピュータビジョン位置センシングの現在の能力を大幅に改善するだろう。 さらに、全てのモデルがcpu上のアート推論時間に達し、1推論につき25ミリ秒未満である。

The numerical wavefront backpropagation principle of digital holography confers unique extended focus capabilities, without mechanical displacements along z-axis. However, the determination of the correct focusing distance is a non-trivial and time consuming issue. A deep learning (DL) solution is proposed to cast the autofocusing as a regression problem and tested over both experimental and simulated holograms. Single wavelength digital holograms were recorded by a Digital Holographic Microscope (DHM) with a 10$\mathrm{x}$ microscope objective from a patterned target moving in 3D over an axial range of 92 $\mu$m. Tiny DL models are proposed and compared such as a tiny Vision Transformer (TViT), tiny VGG16 (TVGG) and a tiny Swin-Transfomer (TSwinT). The experiments show that the predicted focusing distance $Z_R^{\mathrm{Pred}}$ is accurately inferred with an accuracy of 1.2 $\mu$m in average in comparison with the DHM depth of field of 15 $\mu$m. Numerical simulations show that all tiny models give the $Z_R^{\mathrm{Pred}}$ with an error below 0.3 $\mu$m. Such a prospect would significantly improve the current capabilities of computer vision position sensing in applications such as 3D microscopy for life sciences or micro-robotics. Moreover, all models reach state of the art inference time on CPU, less than 25 ms per inference.
翻訳日:2022-03-17 01:49:09 公開日:2022-03-15
# (参考訳) ブロックを取り巻く社会選択:ブロックチェーンの計算社会選択について [全文訳有]

Social Choice Around the Block: On the Computational Social Choice of Blockchain ( http://arxiv.org/abs/2203.07777v1 )

ライセンス: CC BY 4.0
Davide Grossi(参考訳) ブロックチェーン技術の最も革新的な側面の1つは、分散プロトコルの振る舞いを規制するインセンティブ層の導入である。 したがって、ブロックチェーンシステムの設計者は、経済メカニズムの設計に関連するものと類似した問題に直面し、計算環境においてそれらに直面します。 本稿では,ブロックチェーン研究における計算的社会的選択の重要性について論じる。 2つの分野のインターフェースにおけるいくつかの課題を識別し、それらの間の交配の強い可能性を示す。

One of the most innovative aspects of blockchain technology consists in the introduction of an incentive layer to regulate the behavior of distributed protocols. The designer of a blockchain system faces therefore issues that are akin to those relevant for the design of economic mechanisms, and faces them in a computational setting. From this perspective the present paper argues for the importance of computational social choice in blockchain research. It identifies a few challenges at the interface of the two fields that illustrate the strong potential for cross-fertilization between them.
翻訳日:2022-03-17 01:30:59 公開日:2022-03-15
# (参考訳) UniSAr: テキストからSQLへの統一構造対応自動回帰言語モデル [全文訳有]

UniSAr: A Unified Structure-Aware Autoregressive Language Model for Text-to-SQL ( http://arxiv.org/abs/2203.07781v1 )

ライセンス: CC BY 4.0
Longxu Dou, Yan Gao, Mingyang Pan, Dingzirui Wang, Jian-Guang Lou, Wanxiang Che, Dechen Zhan(参考訳) 既存のtext-to-sqlセマンティクスパーサは、通常、複数のテーブル、ドメイン、ターンにまたがるクエリを扱うような特定の設定のために設計されている。 そこで我々はunisar(unified structure-aware autoregressive language model)を提案する。 特に、UniSArは既存の自己回帰言語モデルを拡張して、3つの非侵襲的な拡張を組み込んで構造を認識させる。(1)データベーススキーマ、会話コンテキスト、およびそれらの関係をエンコードするための構造マークの追加、(2)データベーススキーマに対してよく構造化されたSQLをデコードするための制約付き復号化、(3)データベーススキーマに基づいた潜在的なJOIN関係をSQLで完遂するためのSQL補完。 マルチドメイン、マルチテーブル、マルチターンをカバーする7つのよく知られたテキスト-sqlデータセットにおいて、unisarは、最も高度な特別に設計されたテキスト-sqlモデルと非常に同等あるいは優れたパフォーマンスを示している。 重要なことは、私たちのUniSArは非侵襲的であるため、テキストからSQLへの他のコアモデルの進歩も、パフォーマンスをさらに向上するために私たちの拡張を採用することができます。

Existing text-to-SQL semantic parsers are typically designed for particular settings such as handling queries that span multiple tables, domains or turns which makes them ineffective when applied to different settings. We present UniSAr (Unified Structure-Aware Autoregressive Language Model), which benefits from directly using an off-the-shelf language model architecture and demonstrates consistently high performance under different settings. Specifically, UniSAr extends existing autoregressive language models to incorporate three non-invasive extensions to make them structure-aware: (1) adding structure mark to encode database schema, conversation context, and their relationships; (2) constrained decoding to decode well structured SQL for a given database schema; and (3) SQL completion to complete potential missing JOIN relationships in SQL based on database schema. On seven well-known text-to-SQL datasets covering multi-domain, multi-table and multi-turn, UniSAr demonstrates highly comparable or better performance to the most advanced specifically-designe d text-to-SQL models. Importantly, our UniSAr is non-invasive, such that other core model advances in text-to-SQL can also adopt our extensions to further enhance performance.
翻訳日:2022-03-17 01:17:17 公開日:2022-03-15
# (参考訳) ゴースト・イン・ザ・マシンはアメリカのアクセント:gpt-3における価値相反 [全文訳有]

The Ghost in the Machine has an American accent: value conflict in GPT-3 ( http://arxiv.org/abs/2203.07785v1 )

ライセンス: CC BY 4.0
Rebecca L Johnson, Giada Pistilli, Natalia Men\'edez-Gonz\'alez, Leslye Denisse Dias Duran, Enrico Panai, Julija Kalpokiene, Donald Jay Bertulfo(参考訳) 大規模言語モデルの文脈におけるアライメント問題は、世界における複数の人間の価値を考慮する必要がある。 世界の文化には多くの共鳴と重なり合う価値観がある一方で、相反する、しかし平等に妥当な価値も数多く存在する。 特に入力プロンプトと生成された出力との間に価値の衝突がある場合、モデルがどの文化的価値を示すかを観察することが重要である。 言語と文化的価値の共創が大規模言語モデル(LLM)に与える影響について論じる。 gpt-3のトレーニングデータの構成を調査し、世界の言語とインターネットアクセス人口統計と比較し、いくつかの国家における支配的価値の統計的プロファイルを報告した。 我々は、世界価値調査(World Values Survey)が報告した、アメリカの世論に直交する値を含む、いくつかの言語や国を表す様々な価値豊富なテキストを用いて、GPT-3をテストした。 入力テキストに埋め込まれた値が生成された出力に変異されているのを観測し、これらの矛盾する値が報告された米国内の値とより一致していることに注意した。 これらの結果に対する議論は、モラルバリュー多元主義(mvp)レンズを用いて、これらの価値変異をよりよく理解する。 最後に、この分野の他の作業にどのように貢献できるかを推奨します。

The alignment problem in the context of large language models must consider the plurality of human values in our world. Whilst there are many resonant and overlapping values amongst the world's cultures, there are also many conflicting, yet equally valid, values. It is important to observe which cultural values a model exhibits, particularly when there is a value conflict between input prompts and generated outputs. We discuss how the co-creation of language and cultural value impacts large language models (LLMs). We explore the constitution of the training data for GPT-3 and compare that to the world's language and internet access demographics, as well as to reported statistical profiles of dominant values in some Nation-states. We stress tested GPT-3 with a range of value-rich texts representing several languages and nations; including some with values orthogonal to dominant US public opinion as reported by the World Values Survey. We observed when values embedded in the input text were mutated in the generated outputs and noted when these conflicting values were more aligned with reported dominant US values. Our discussion of these results uses a moral value pluralism (MVP) lens to better understand these value mutations. Finally, we provide recommendations for how our work may contribute to other current work in the field.
翻訳日:2022-03-17 01:01:07 公開日:2022-03-15
# (参考訳) リーマン確率のベイズ累積を用いたエンドツーエンドp300bci [全文訳有]

End-to-end P300 BCI using Bayesian accumulation of Riemannian probabilities ( http://arxiv.org/abs/2203.07807v1 )

ライセンス: CC BY-SA 4.0
Quentin Barth\'elemy, Sylvain Chevallier, Rapha\"elle Bertrand-Lalo, Pierre Clisson(参考訳) 脳-コンピュータインタフェース(bci)では、イベント関連電位(erp)に基づくアプローチのほとんどはp300の検出に焦点を当てており、スペラータスクの単一試行分類を目指している。 これは重要な目的であるが、既存のP300 BCIは正確な分類精度を達成するためにいくつかの繰り返しを必要とする。 P300 BCIにおける信号処理と機械学習の進歩は、主にP300検出部を中心に展開され、文字分類はスコープから外される。 良質なキャラクタ分類を維持しつつ繰り返し回数を減らすためには,完全な分類問題を受け入れることが重要である。 本稿では,特徴抽出から端から端までのパイプラインを導入し,確率的リーマンmdmを用いてerpレベルの分類を行い,ベイズ的信頼度蓄積を用いた文字レベルの分類を行う。 既存のアプローチでは、キャラクタがフラッシュされると、キャラクタの信頼性が向上する一方、新たなパイプラインであるBayesian accumulate of Riemannian probabilities (ASAP)は、各フラッシュ後のキャラクタの信頼性を更新する。 信号からbci文字への情報をシームレスに処理するためのベイズアプローチの適切な導出と理論的再構成を提供する。 提案手法は,公開p300データセットの標準手法よりもはるかに優れた性能を示す。

In brain-computer interfaces (BCI), most of the approaches based on event-related potential (ERP) focus on the detection of P300, aiming for single trial classification for a speller task. While this is an important objective, existing P300 BCI still require several repetitions to achieve a correct classification accuracy. Signal processing and machine learning advances in P300 BCI mostly revolve around the P300 detection part, leaving the character classification out of the scope. To reduce the number of repetitions while maintaining a good character classification, it is critical to embrace the full classification problem. We introduce an end-to-end pipeline, starting from feature extraction, and is composed of an ERP-level classification using probabilistic Riemannian MDM which feeds a character-level classification using Bayesian accumulation of confidence across trials. Whereas existing approaches only increase the confidence of a character when it is flashed, our new pipeline, called Bayesian accumulation of Riemannian probabilities (ASAP), update the confidence of each character after each flash. We provide the proper derivation and theoretical reformulation of this Bayesian approach for a seamless processing of information from signal to BCI characters. We demonstrate that our approach performs significantly better than standard methods on public P300 datasets.
翻訳日:2022-03-17 00:39:08 公開日:2022-03-15
# (参考訳) 対人対人増悪:アルツハイマー病の分類における応用 [全文訳有]

Adversarial Counterfactual Augmentation: Application in Alzheimer's Disease Classification ( http://arxiv.org/abs/2203.07815v1 )

ライセンス: CC BY 4.0
Tian Xia, Pedro Sanchez, Chen Qin, Sotirios A. Tsaftaris(参考訳) データ拡張は、過剰フィッティングを減らし、モデルの堅牢性を改善するために、ディープラーニングで広く使われている。 しかし、ローテーション、トリミング、フリップなど伝統的なデータ拡張技術では、例えば、脳画像の年齢を変更するような \textit{semantic} 変換は考慮していない。 従来の研究は,「textit{counterfactuals」を生成することによって意味増強を実現しようとしたが,下流トレーニングを改善するために最も「textit{ Effective}」がどれかを考えることなく,深層生成モデルを訓練し,無作為生成モデルで反事実をランダムに生成する方法に焦点をあてた。 これらのアプローチとは違って,本研究では,事前学習した生成モデルを用いて下流タスクを改善するために,最も\textit{effective} な逆元を見つけることを目的とした,新しい逆相反相加法を提案する。 具体的には、ジェネレータの入力 \textit{conditional factor} と下流 \textit{classifier} を、勾配バックプロパゲーションを交互かつ反復的に更新する逆ゲームを構築する。 鍵となる考え方は、分類器の \textit{hard} の反ファクトとなる条件因子を見つけることである。 これは分類器の `\textit{weakness}' を見つけ、意図的に生成モデルを通じてその弱値を \textit{overcome} に強制すると見なすことができる。 提案手法の有効性を実証するために,前訓練した脳老化合成モデルに基づいて,アルツハイマー病(AD)を下流課題として分類し,本手法の有効性を検証した。 提案手法はテスト精度を向上し,素早い相関を緩和できることを示す。 コードは受理時にリリースされる。

Data augmentation has been widely used in deep learning to reduce over-fitting and improve the robustness of models. However, traditional data augmentation techniques, e.g., rotation, cropping, flipping, etc., do not consider \textit{semantic} transformations, e.g., changing the age of a brain image. Previous works tried to achieve semantic augmentation by generating \textit{counterfactuals}, but they focused on how to train deep generative models and randomly created counterfactuals with the generative models without considering which counterfactuals are most \textit{effective} for improving downstream training. Different from these approaches, in this work, we propose a novel adversarial counterfactual augmentation scheme that aims to find the most \textit{effective} counterfactuals to improve downstream tasks with a pre-trained generative model. Specifically, we construct an adversarial game where we update the input \textit{conditional factor} of the generator and the downstream \textit{classifier} with gradient backpropagation alternatively and iteratively. The key idea is to find conditional factors that can result in \textit{hard} counterfactuals for the classifier. This can be viewed as finding the `\textit{weakness}' of the classifier and purposely forcing it to \textit{overcome} its weakness via the generative model. To demonstrate the effectiveness of the proposed approach, we validate the method with the classification of Alzheimer's Disease (AD) as the downstream task based on a pre-trained brain ageing synthesis model. We show the proposed approach improves test accuracy and can alleviate spurious correlations. Code will be released upon acceptance.
翻訳日:2022-03-17 00:20:15 公開日:2022-03-15
# (参考訳) SISL:Ssplicing Detection and Localizationのための自己監督型画像署名学習 [全文訳有]

SISL:Self-Supervised Image Signature Learning for Splicing Detection and Localization ( http://arxiv.org/abs/2203.07824v1 )

ライセンス: CC BY 4.0
Susmit Agrawal, Prabhat Kumar, Siddharth Seth, Toufiq Parag, Maneesh Singh, Venkatesh Babu(参考訳) 最近の画像操作検出アルゴリズムは、ほとんどがディープネットワークモデルを使っている。 これらのアプローチでは、ネットワークをトレーニングするために、高密度のピクセルワイズ・グラウンドルース・マスク、カメラid、画像メタデータが必要となる。 一方、無数の改ざん可能性を表すトレーニングセットを構築することは現実的ではない。 一方、ソーシャルメディアプラットフォームや商用アプリケーションでは、画像からのメタデータだけでなく、カメラIDの削除も制限されることが多い。 厳密な基盤構造やカメラや画像のメタデータを使わずに検出モデルを訓練するための自己教師付きアルゴリズムは、多くの法医学的応用に極めて有用である。 本稿では,画像の周波数変換からスプライシング検出/局所化モデルを訓練するための自己教師型アプローチを提案する。 このスプリケート領域を特定するために,画像固有署名を自己整合性(イメージ)を強制してキャプチャする表現を深層ネットワークで学習する。 提案モデルでは,ラベルやメタデータを使わずに,標準データセット上で複数の既存メソッドの類似あるいはより良い性能が得られることを示す。

Recent algorithms for image manipulation detection almost exclusively use deep network models. These approaches require either dense pixelwise groundtruth masks, camera ids, or image metadata to train the networks. On one hand, constructing a training set to represent the countless tampering possibilities is impractical. On the other hand, social media platforms or commercial applications are often constrained to remove camera ids as well as metadata from images. A self-supervised algorithm for training manipulation detection models without dense groundtruth or camera/image metadata would be extremely useful for many forensics applications. In this paper, we propose self-supervised approach for training splicing detection/localizati on models from frequency transforms of images. To identify the spliced regions, our deep network learns a representation to capture an image specific signature by enforcing (image) self consistency . We experimentally demonstrate that our proposed model can yield similar or better performances of multiple existing methods on standard datasets without relying on labels or metadata.
翻訳日:2022-03-17 00:07:28 公開日:2022-03-15
# (参考訳) BERTはブラウザのユーザインタフェースを学習する? 統合視覚・言語BERTを用いたマルチステップタスクの探索 [全文訳有]

Do BERTs Learn to Use Browser User Interface? Exploring Multi-Step Tasks with Unified Vision-and-Language BERTs ( http://arxiv.org/abs/2203.07828v1 )

ライセンス: CC BY 4.0
Taichi Iki and Akiko Aizawa(参考訳) 事前訓練されたトランスフォーマーは、タスクに依存しない表現のため、統一されたマルチタスクモデルの基礎となる。 事前訓練されたトランスフォーマーは、テキストからテキストまでのフレームワークと組み合わせて、1つのモデルで複数のタスクを実行する。 グラフィカルユーザインタフェース(GUI)によるタスク実行は、視覚と言語入力を伴う多段階タスクを含む様々なタスクに対応する別の候補である。 しかし、事前訓練されたトランスフォーマーとguiによる実行を組み合わせる論文は少ない。 このギャップを埋めるために、モデルが複数のステップでWebページで実装されたGUIを操作することでタスクを実行するフレームワークを探索する。 本稿では,ページ遷移を伴わないタスクページを開発し,BERT拡張を提案する。 BERT拡張をこれらのタスクページと共同でトレーニングし、以下の結果を得た。 1) タスクページをページ遷移なしで使用することが学習された。 2) ページ遷移のない5つのタスクのうち4つにおいて、このモデルは、ブラウザを使用しないオリジナルのBERTの性能の75%以上を実行する。 (3) モデルは, 目に見えないタスクを効果的に一般化しなかった。 これらの結果から, BERTをGUIによるマルチステップタスクに微調整できること, 一般化性の向上の余地があることが示唆された。 コードはオンラインで入手できる。

Pre-trained Transformers are good foundations for unified multi-task models owing to their task-agnostic representation. Pre-trained Transformers are often combined with text-to-text framework to execute multiple tasks by a single model. Performing a task through a graphical user interface (GUI) is another candidate to accommodate various tasks, including multi-step tasks with vision and language inputs. However, few papers combine pre-trained Transformers with performing through GUI. To fill this gap, we explore a framework in which a model performs a task by manipulating the GUI implemented with web pages in multiple steps. We develop task pages with and without page transitions and propose a BERT extension for the framework. We jointly trained our BERT extension with those task pages, and made the following observations. (1) The model learned to use both task pages with and without page transition. (2) In four out of five tasks without page transitions, the model performs greater than 75% of the performance of the original BERT, which does not use browsers. (3) The model did not generalize effectively on unseen tasks. These results suggest that we can fine-tune BERTs to multi-step tasks through GUIs, and there is room for improvement in their generalizability. Code will be available online.
翻訳日:2022-03-16 23:50:42 公開日:2022-03-15
# (参考訳) AMR解析と生成のためのグラフ事前学習 [全文訳有]

Graph Pre-training for AMR Parsing and Generation ( http://arxiv.org/abs/2203.07836v1 )

ライセンス: CC BY 4.0
Xuefeng Bai, Yulong Chen, Yue Zhang(参考訳) 抽象意味表現(AMR)は、グラフ構造におけるテキストのコアセマンティック情報を強調する。 近年、プレトレーニング言語モデル (PLM) は、それぞれAMR解析とAMR-to-text生成の高度なタスクを持っている。 しかし、plmは通常、テキストデータに基づいて事前学習されるため、構造知識のモデリングには最適ではない。 そこで本稿では,AMRグラフ上のPLMの構造認識を改善するために,グラフ自己教師型トレーニングについて検討する。 特に,グラフ間事前学習のための2つのグラフ自動エンコーディング戦略と,事前学習中にテキストとグラフ情報を統合するための4つのタスクを導入する。 さらに、事前学習と微調整のギャップを埋める統一的なフレームワークを設計する。 AMR解析とAMR-to-text生成の両方の実験により,本モデルの有用性が示された。 私たちの知識では、セマンティックグラフの事前学習を最初に検討しています。

Abstract meaning representation (AMR) highlights the core semantic information of text in a graph structure. Recently, pre-trained language models (PLMs) have advanced tasks of AMR parsing and AMR-to-text generation, respectively. However, PLMs are typically pre-trained on textual data, thus are sub-optimal for modeling structural knowledge. To this end, we investigate graph self-supervised training to improve the structure awareness of PLMs over AMR graphs. In particular, we introduce two graph auto-encoding strategies for graph-to-graph pre-training and four tasks to integrate text and graph information during pre-training. We further design a unified framework to bridge the gap between pre-training and fine-tuning tasks. Experiments on both AMR parsing and AMR-to-text generation show the superiority of our model. To our knowledge, we are the first to consider pre-training on semantic graphs.
翻訳日:2022-03-16 23:27:12 公開日:2022-03-15
# (参考訳) 時間的概念ドリフトによるマルチラベル分類の改善:ラベルワイズにおけるグループロバストアルゴリズムの再検討 [全文訳有]

Improved Multi-label Classification under Temporal Concept Drift: Rethinking Group-Robust Algorithms in a Label-Wise Setting ( http://arxiv.org/abs/2203.07856v1 )

ライセンス: CC BY 4.0
Ilias Chalkidis and Anders S{\o}gaard(参考訳) 法的・生物医学的テキストなどの文書分類では、非常に稀なものを含む数百のクラスや、政策の変更、紛争、パンデミックなど、現実世界の出来事の影響によって引き起こされる一時的な概念ドリフトを扱うことが多い。 クラス不均衡とドリフトは、既知の目標分布をシミュレート(あるいは補償)するためにトレーニングデータを再サンプリングすることで緩和されることがあるが、もし目標分布が未知の将来の事象によって決定されたらどうだろうか? このような文書分類器の訓練やグループロバスト最適化アルゴリズムの評価に使用される基礎となる最適化アルゴリズムに注目し,グループレベルの差異を緩和するために当初提案した。 概念ドリフト下での適応アルゴリズムとしてグループロバストアルゴリズムをリフレーミングすると,不変リスク最小化とスペクトル分離が,クラス不均衡と概念ドリフトに対する非形式サンプリングに基づくアプローチよりも優れており,マイノリティクラスでのパフォーマンスが向上する。 この効果はラベルセットが大きいほど顕著である。

In document classification for, e.g., legal and biomedical text, we often deal with hundreds of classes, including very infrequent ones, as well as temporal concept drift caused by the influence of real world events, e.g., policy changes, conflicts, or pandemics. Class imbalance and drift can sometimes be mitigated by resampling the training data to simulate (or compensate for) a known target distribution, but what if the target distribution is determined by unknown future events? Instead of simply resampling uniformly to hedge our bets, we focus on the underlying optimization algorithms used to train such document classifiers and evaluate several group-robust optimization algorithms, initially proposed to mitigate group-level disparities. Reframing group-robust algorithms as adaptation algorithms under concept drift, we find that Invariant Risk Minimization and Spectral Decoupling outperform sampling-based approaches to class imbalance and concept drift, and lead to much better performance on minority classes. The effect is more pronounced the larger the label set.
翻訳日:2022-03-16 23:03:24 公開日:2022-03-15
# (参考訳) LOVEによる語彙外埋め込みの導入による言語モデルのロバスト化 [全文訳有]

Imputing Out-of-Vocabulary Embeddings with LOVE Makes Language Models Robust with Little Cost ( http://arxiv.org/abs/2203.07860v1 )

ライセンス: CC BY-SA 4.0
Lihu Chen and Ga\"el Varoquaux and Fabian M. Suchanek(参考訳) 最先端のNLPシステムは単語埋め込みを持つ入力を表すが、外語彙(OOV)の単語に直面すると不安定である。 この問題に対処するために,単語の表面形式のみを用いて事前学習した埋め込みの挙動を学習することにより,未知の単語に対してベクトルを生成するミメク様モデルの原理に従う。 本稿では,既存の事前学習言語モデル(BERTなど)の単語表現を拡張したシンプルなコントラスト学習フレームワークLOVEを提案する。 広範な評価によって、当社の軽量モデルは、オリジナルのデータセットと破損した派生データの両方において、以前の競合製品と同等あるいはそれ以上のパフォーマンスを達成しています。 さらに、FastTextやBERTでプラグイン・アンド・プレイで使用することで、堅牢性を大幅に向上させることができる。

State-of-the-art NLP systems represent inputs with word embeddings, but these are brittle when faced with Out-of-Vocabulary (OOV) words. To address this issue, we follow the principle of mimick-like models to generate vectors for unseen words, by learning the behavior of pre-trained embeddings using only the surface form of words. We present a simple contrastive learning framework, LOVE, which extends the word representation of an existing pre-trained language model (such as BERT), and makes it robust to OOV with few additional parameters. Extensive evaluations demonstrate that our lightweight model achieves similar or even better performances than prior competitors, both on original datasets and on corrupted variants. Moreover, it can be used in a plug-and-play fashion with FastText and BERT, where it significantly improves their robustness.
翻訳日:2022-03-16 22:43:07 公開日:2022-03-15
# (参考訳) ガウス過程帯域最適化における改善アルゴリズムのレギュレット境界 [全文訳有]

Regret Bounds for Expected Improvement Algorithms in Gaussian Process Bandit Optimization ( http://arxiv.org/abs/2203.07875v1 )

ライセンス: CC BY 4.0
Hung Tran-The and Sunil Gupta and Santu Rana and Svetha Venkatesh(参考訳) 期待されている改善(EI)アルゴリズムは、その単純さと効率性から不確実性の下で最適化するための最も一般的な戦略の1つである。 その人気にもかかわらず、このアルゴリズムの理論的側面は適切に分析されていない。 特に、ノイズ環境では、標準帰納的収束を伴うEI戦略は、ガウス過程のバンドイット最適化問題に対する未解決の問題である。 我々は,GP予測平均を通じて定義された標準既存元を持つEIの変種を提案することによって,この問題に答えることを目指している。 我々のアルゴリズムは収束し、$\mathcal O(\gamma_T\sqrt{T})$の累積後悔境界を達成し、$\gamma_T$は、観測値とガウス過程モデルの間の最大情報ゲインである。 この変種EIに基づいて,従来よりも高速に収束する改良GP-EIアルゴリズムを提案する。 特に、提案したEIの変種は、以前の研究のように、RKHSノルムとノイズの準ガウス性パラメータの知識を必要としない。 本稿では,いくつかのベースラインと比較し,アルゴリズムの有効性を実証する。

The expected improvement (EI) algorithm is one of the most popular strategies for optimization under uncertainty due to its simplicity and efficiency. Despite its popularity, the theoretical aspects of this algorithm have not been properly analyzed. In particular, whether in the noisy setting, the EI strategy with a standard incumbent converges is still an open question of the Gaussian process bandit optimization problem. We aim to answer this question by proposing a variant of EI with a standard incumbent defined via the GP predictive mean. We prove that our algorithm converges, and achieves a cumulative regret bound of $\mathcal O(\gamma_T\sqrt{T})$, where $\gamma_T$ is the maximum information gain between $T$ observations and the Gaussian process model. Based on this variant of EI, we further propose an algorithm called Improved GP-EI that converges faster than previous counterparts. In particular, our proposed variants of EI do not require the knowledge of the RKHS norm and the noise's sub-Gaussianity parameter as in previous works. Empirical validation in our paper demonstrates the effectiveness of our algorithms compared to several baselines.
翻訳日:2022-03-16 22:21:52 公開日:2022-03-15
# (参考訳) 雑音の信号:文字認識言語モデルを用いたランダムな文字列に符号化された意味探索 [全文訳有]

Signal in Noise: Exploring Meaning Encoded in Random Character Sequences with Character-Aware Language Models ( http://arxiv.org/abs/2203.07911v1 )

ライセンス: CC BY 4.0
Mark Chu, Bhargav Srinivasa Desikan, Ethan O. Nadler, Ruggerio L. Sardo, Elise Darragh-Ford, and Douglas Guilbeault(参考訳) 自然言語処理モデルは分布仮説に基づいて単語表現を学習し、単語の文脈(例えば共起)は意味と相関すると主張する。 ランダムな文字列からなる$n$-grams または $garble$ は、既存の言語内外の単語の意味を研究するための新しい文脈を提供する。 特に、ランダムに生成された文字 $n$-grams は意味を欠いているが、それらに含まれる文字の分布に基づく原始情報を含んでいる。 characterBERT を用いて,巨大コーパス,既存言語,擬似単語の埋め込みを研究することにより,モデルの高次元埋め込み空間の軸を同定し,これらのクラスを$n$-gram で分離する。 さらに,この軸は,単語の一部,形態,概念具体性など,既存の言語の構造に関係していることを示す。 したがって、主に現存する言語に限られる研究とは対照的に、本研究は意味と原始情報が本質的に結びついていることを明らかにする。

Natural language processing models learn word representations based on the distributional hypothesis, which asserts that word context (e.g., co-occurrence) correlates with meaning. We propose that $n$-grams composed of random character sequences, or $garble$, provide a novel context for studying word meaning both within and beyond extant language. In particular, randomly generated character $n$-grams lack meaning but contain primitive information based on the distribution of characters they contain. By studying the embeddings of a large corpus of garble, extant language, and pseudowords using CharacterBERT, we identify an axis in the model's high-dimensional embedding space that separates these classes of $n$-grams. Furthermore, we show that this axis relates to structure within extant language, including word part-of-speech, morphology, and concept concreteness. Thus, in contrast to studies that are mainly limited to extant language, our work reveals that meaning and primitive information are intrinsically linked.
翻訳日:2022-03-16 21:49:05 公開日:2022-03-15
# (参考訳) SIFTの特徴からの相対的視点

Relative Pose from SIFT Features ( http://arxiv.org/abs/2203.07930v1 )

ライセンス: CC BY 4.0
Daniel Barath, Zuzana Kukelova(参考訳) 本稿では,エピポーラ幾何学と向き・スケール共変の幾何学的関係,例えばSIFTの特徴について述べる。 基本行列の未知の要素と向きとスケールに関する新しい線形制約を導出する。 この方程式は、よく知られた極性制約と共に使用することができ、例えば、基本的な行列を4つのSIFT対応、3つの必須行列から推定し、3つの対応から半校正されたケースを解くことができる。 エピポーラ幾何推定のためによく知られた点ベースアプローチ(例えば 5pt, 6pt, 7pt ソルバ)よりも少ない対応を必要とするため、ransac のようなランダム化ロバスト推定は著しく高速である。 提案する制約は、合成環境における多くの問題と、80000以上の画像ペアで公開されている実世界のデータセットでテストされる。 処理時間に関しては最先端よりも優れており、多くの場合より正確な結果をもたらす。

This paper proposes the geometric relationship of epipolar geometry and orientation- and scale-covariant, e.g., SIFT, features. We derive a new linear constraint relating the unknown elements of the fundamental matrix and the orientation and scale. This equation can be used together with the well-known epipolar constraint to, e.g., estimate the fundamental matrix from four SIFT correspondences, essential matrix from three, and to solve the semi-calibrated case from three correspondences. Requiring fewer correspondences than the well-known point-based approaches (e.g., 5PT, 6PT and 7PT solvers) for epipolar geometry estimation makes RANSAC-like randomized robust estimation significantly faster. The proposed constraint is tested on a number of problems in a synthetic environment and on publicly available real-world datasets on more than 80000 image pairs. It is superior to the state-of-the-art in terms of processing time while often leading to more accurate results.
翻訳日:2022-03-16 21:31:14 公開日:2022-03-15
# (参考訳) DialogueNeRF: リアルアバター対面ビデオ生成に向けて

DialogueNeRF: Towards Realistic Avatar Face-to-face Conversation Video Generation ( http://arxiv.org/abs/2203.07931v1 )

ライセンス: CC BY 4.0
Zanwei Zhou, Zi Wang, Shunyu Yao, Yichao Yan, Chen Yang, Guangtao Zhai, Junchi Yan, Xiaokang Yang(参考訳) 会話はメタバースにおける仮想アバター活動の重要な構成要素である。 自然言語処理の発展に伴い、テキストと音声による会話生成は画期的な進歩を遂げた。 対面会話は毎日の会話の大部分を占める。 しかし、この作業には十分な注意が払われていない。 本稿では,現実的な人間の対面会話プロセスを生成することを目的とした新しいタスクを提案し,このターゲットを探索するための新しいデータセットを提案する。 この課題に取り組むために,音声,頭部ポーズ,表情といった一連の会話信号を用いて,同一ネットワーク内でモデル化されたすべての対話者を用いて,人間のアバター間の対面会話ビデオを合成する新しい枠組みを提案する。 本手法は, 映像品質, ポーズ系列傾向, および映像の自然性など, 異なる側面の定量的, 質的実験により評価される。 すべてのコード、データ、モデルが公開される予定だ。

Conversation is an essential component of virtual avatar activities in the metaverse. With the development of natural language processing, textual and vocal conversation generation has achieved a significant breakthrough. Face-to-face conversations account for the vast majority of daily conversations. However, this task has not acquired enough attention. In this paper, we propose a novel task that aims to generate a realistic human avatar face-to-face conversation process and present a new dataset to explore this target. To tackle this novel task, we propose a new framework that utilizes a series of conversation signals, e.g. audio, head pose, and expression, to synthesize face-to-face conversation videos between human avatars, with all the interlocutors modeled within the same network. Our method is evaluated by quantitative and qualitative experiments in different aspects, e.g. image quality, pose sequence trend, and naturalness of the rendering videos. All the code, data, and models will be made publicly available.
翻訳日:2022-03-16 21:30:19 公開日:2022-03-15
# (参考訳) PDNS-Net: グラフ学習のためのネットワーク解像度の大規模不均一グラフベンチマークデータセット [全文訳有]

PDNS-Net: A Large Heterogeneous Graph Benchmark Dataset of Network Resolutions for Graph Learning ( http://arxiv.org/abs/2203.07969v1 )

ライセンス: CC BY 4.0
Udesh Kumarasinghe, Fatih Deniz, Mohamed Nabeel(参考訳) グラフ学習アルゴリズムの最先端を進めるためには,大規模な実世界のデータセットを構築する必要がある。 均質グラフのためのベンチマークデータセットは数多く存在するが、ヘテロジニアスグラフで利用可能なものはごくわずかである。 さらに、後者のグラフはサイズが小さく、分類メトリクスと計算資源利用の観点からグラフ学習アルゴリズムがどのように機能するかを理解するのに不十分である。 悪意のあるドメイン分類タスクに対して,447Kノードと897Kエッジを含む公開ヘテロジニアスグラフデータセットであるPDNS-Netを紹介する。 一般的な異種データセットであるIMDBとDBLPと比較して、PDNS-Netはそれぞれ38倍と17倍である。 本研究では,データ収集手法,異種グラフ構築,記述統計,予備グラフ分類性能などを含むPDNS-Netの詳細な解析を行う。 データセットはhttps://github.com/q cri/PDNS-Netで公開されている。 PDNS-Net上での一般的な同種グラフニューラルネットワークと異種グラフニューラルネットワークの予備評価により,これらのモデルの性能向上にはさらなる研究が必要であることが明らかになった。

In order to advance the state of the art in graph learning algorithms, it is necessary to construct large real-world datasets. While there are many benchmark datasets for homogeneous graphs, only a few of them are available for heterogeneous graphs. Furthermore, the latter graphs are small in size rendering them insufficient to understand how graph learning algorithms perform in terms of classification metrics and computational resource utilization. We introduce, PDNS-Net, the largest public heterogeneous graph dataset containing 447K nodes and 897K edges for the malicious domain classification task. Compared to the popular heterogeneous datasets IMDB and DBLP, PDNS-Net is 38 and 17 times bigger respectively. We provide a detailed analysis of PDNS-Net including the data collection methodology, heterogeneous graph construction, descriptive statistics and preliminary graph classification performance. The dataset is publicly available at https://github.com/q cri/PDNS-Net. Our preliminary evaluation of both popular homogeneous and heterogeneous graph neural networks on PDNS-Net reveals that further research is required to improve the performance of these models on large heterogeneous graphs.
翻訳日:2022-03-16 21:29:20 公開日:2022-03-15
# (参考訳) MOBDrone:人間を救うためのドローンビデオデータセット [全文訳有]

MOBDrone: a Drone Video Dataset for Man OverBoard Rescue ( http://arxiv.org/abs/2203.07973v1 )

ライセンス: CC BY 4.0
Donato Cafarelli and Luca Ciampi and Lucia Vadicamo and Claudio Gennaro and Andrea Berton and Marco Paterni and Chiara Benvenuti and Mirko Passera and Fabrizio Falchi(参考訳) カメラを装備した現代の無人航空機(UAV)は、オーバーボード(MOB)で倒れた人々の識別と救助をスピードアップする上で重要な役割を担っている。 この目的のために、ドローンから取得した視覚データの自動理解に人工知能技術を活用することができる。 しかし、航空画像における海中人検出は、主に、このタスクのための訓練とテストのための特別な注釈付きデータセットが欠如しているため、困難である。 このギャップを埋めるために、異なる高度、カメラの撮影角度、照明などの条件下で、海洋環境下で125万以上のドローンビュー画像の収集であるMOBDroneベンチマークを導入、公開する。 手動で180万以上のオブジェクトに注釈を付け、そのうち約1万3千人がオーバーボードし、バウンディングボックスで正確にローカライズしました。 さらに,MOBDroneデータに基づくいくつかの最先端物体検出器の性能解析を行い,さらなる研究の基盤となる。

Modern Unmanned Aerial Vehicles (UAV) equipped with cameras can play an essential role in speeding up the identification and rescue of people who have fallen overboard, i.e., man overboard (MOB). To this end, Artificial Intelligence techniques can be leveraged for the automatic understanding of visual data acquired from drones. However, detecting people at sea in aerial imagery is challenging primarily due to the lack of specialized annotated datasets for training and testing detectors for this task. To fill this gap, we introduce and publicly release the MOBDrone benchmark, a collection of more than 125K drone-view images in a marine environment under several conditions, such as different altitudes, camera shooting angles, and illumination. We manually annotated more than 180K objects, of which about 113K man overboard, precisely localizing them with bounding boxes. Moreover, we conduct a thorough performance analysis of several state-of-the-art object detectors on the MOBDrone data, serving as baselines for further research.
翻訳日:2022-03-16 21:22:21 公開日:2022-03-15
# (参考訳) エンド・ツー・エンドビデオ学習におけるバッチ正規化の落とし穴--手術ワークフロー分析に関する研究 [全文訳有]

On the Pitfalls of Batch Normalization for End-to-End Video Learning: A Study on Surgical Workflow Analysis ( http://arxiv.org/abs/2203.07976v1 )

ライセンス: CC BY 4.0
Dominik Rivoir, Isabel Funke, Stefanie Speidel(参考訳) バッチの他のサンプルに依存するバッチ正規化(BN)固有の性質は、シーケンシャルモデリングを含むいくつかのタスクで問題を引き起こすことが知られており、これらの分野における代替案の使用につながっている。 しかし,ビデオ学習においては,視覚的特徴抽出にBNをユビキタスに使用しているにもかかわらず,これらの問題は研究されていない。 我々は,BNの特性がCNNのトレーニングにおいて大きな障害を生じさせ,時間モデルがビデオタスクで終端すると主張している。 しかし,外科的ワークフロー分析などの専門領域では,特徴抽出器が不足しているため,エンド・ツー・エンドの学習が望ましいと考えられる。 手術ワークフロー分析におけるこれまでの研究は、複雑な多段階学習手順を通じてbn関連の問題を避けてきたが、単純なエンドツーエンドのcnn-lstmであっても、bnのないcnnを使用する場合の技術の状態を上回ることができる。 さらに,手術予知作業における「加熱」現象を含むBN関連問題の発生時期を詳細に分析した。 BNの限界に対する深い理解とエンドツーエンドのアプローチの再検討が、外科的ワークフロー分析や一般的なビデオ学習における将来の研究に有用であることを期待している。

Batch Normalization's (BN) unique property of depending on other samples in a batch is known to cause problems in several tasks, including sequential modeling, and has led to the use of alternatives in these fields. In video learning, however, these problems are less studied, despite the ubiquitous use of BN in CNNs for visual feature extraction. We argue that BN's properties create major obstacles for training CNNs and temporal models end to end in video tasks. Yet, end-to-end learning seems preferable in specialized domains such as surgical workflow analysis, which lack well-pretrained feature extractors. While previous work in surgical workflow analysis has avoided BN-related issues through complex, multi-stage learning procedures, we show that even simple, end-to-end CNN-LSTMs can outperform the state of the art when CNNs without BN are used. Moreover, we analyze in detail when BN-related issues occur, including a "cheating" phenomenon in surgical anticipation tasks. We hope that a deeper understanding of BN's limitations and a reconsideration of end-to-end approaches can be beneficial for future research in surgical workflow analysis and general video learning.
翻訳日:2022-03-16 21:11:59 公開日:2022-03-15
# (参考訳) 確率的集合予測としての物体検出

Object Detection as Probabilistic Set Prediction ( http://arxiv.org/abs/2203.07980v1 )

ライセンス: CC BY 4.0
Georg Hess, Christoffer Petersson, Lennart Svensson(参考訳) 正確な不確実性推定は、安全クリティカルなシステムに深層物体検出器を配備するには不可欠である。 確率的物体検出器の開発と評価は、任意のしきい値や検出器の分布選択を制限する傾向がある既存の性能指標の欠点によって妨げられている。 本研究では,オブジェクト検出を,オブジェクトの集合上の分布を予測するセット予測タスクとみなす。 ランダムな有限集合に対する負のlog-likelihoodを用いて,確率的物体検出器の評価と訓練のための適切なスコアリングルールを提案する。 提案手法は,既存の確率的検出器に適用でき,しきい値がなく,アーキテクチャ間を公平に比較できる。 COCOデータセットでは3種類の検出器が評価されている。 その結果,既存の検出器のトレーニングは非確率的指標に最適化されていることがわかった。 我々は、自分たちの不確実性を正確に推定できる新しい物体検出器の開発を奨励したい。 コードはリリースされる。

Accurate uncertainty estimates are essential for deploying deep object detectors in safety-critical systems. The development and evaluation of probabilistic object detectors have been hindered by shortcomings in existing performance measures, which tend to involve arbitrary thresholds or limit the detector's choice of distributions. In this work, we propose to view object detection as a set prediction task where detectors predict the distribution over the set of objects. Using the negative log-likelihood for random finite sets, we present a proper scoring rule for evaluating and training probabilistic object detectors. The proposed method can be applied to existing probabilistic detectors, is free from thresholds, and enables fair comparison between architectures. Three different types of detectors are evaluated on the COCO dataset. Our results indicate that the training of existing detectors is optimized toward non-probabilistic metrics. We hope to encourage the development of new object detectors that can accurately estimate their own uncertainty. Code will be released.
翻訳日:2022-03-16 20:52:00 公開日:2022-03-15
# (参考訳) 算術によるデータ認識動的システムの線形時間検証 [全文訳有]

Linear-Time Verification of Data-Aware Dynamic Systems with Arithmetic ( http://arxiv.org/abs/2203.07982v1 )

ライセンス: CC BY 4.0
Paolo Felli, Marco Montali, Sarah Winkler(参考訳) 動的システムのモデリングと検証とそれらが運用するデータの組み合わせは、AIやいくつかのアプリケーションドメインで勢いを増している。 本稿では,データ認識動的システム(dds)の表現的かつ簡潔なフレームワークについて検討し,線形算術を用いて拡張し,以下の貢献を与える。 まず,忠実な有限状態抽象の存在を保証する「有限要約」の新たな意味的性質を導入する。 これを頼りに、証人が線形時間有限トレース特性のために存在するかどうかを確認することは、有限要約を持つDSに対して決定可能であることを示す。 第二に、形式的手法やデータベース理論で研究されたいくつかの決定可能性条件が、この性質の具体的かつ検証可能な例であることを示す。 これはまた、新たな決定可能性結果をもたらす。 第三に、有限要約の抽象的一様性がモジュラリティの結果をもたらすことを示す: システムは、その性質を持つより小さなシステムに適切に分割できるならば、有限要約を楽しむ。 私たちの結果は、以前のアプローチでは手が届かなかったシステムを分析できます。 最後に,プロトタイプ実装におけるアプローチの実現可能性を示す。

Combined modeling and verification of dynamic systems and the data they operate on has gained momentum in AI and in several application domains. We investigate the expressive yet concise framework of data-aware dynamic systems (DDS), extending it with linear arithmetic, and provide the following contributions. First, we introduce a new, semantic property of "finite summary", which guarantees the existence of a faithful finite-state abstraction. We rely on this to show that checking whether a witness exists for a linear-time, finite-trace property is decidable for DDSs with finite summary. Second, we demonstrate that several decidability conditions studied in formal methods and database theory can be seen as concrete, checkable instances of this property. This also gives rise to new decidability results. Third, we show how the abstract, uniform property of finite summary leads to modularity results: a system enjoys finite summary if it can be partitioned appropriately into smaller systems that possess the property. Our results allow us to analyze systems that were out of reach in earlier approaches. Finally, we demonstrate the feasibility of our approach in a prototype implementation.
翻訳日:2022-03-16 20:50:12 公開日:2022-03-15
# (参考訳) データ効率の良いグラフ文法学習による分子生成 [全文訳有]

Data-Efficient Graph Grammar Learning for Molecular Generation ( http://arxiv.org/abs/2203.08031v1 )

ライセンス: CC BY 4.0
Minghao Guo, Veronika Thost, Beichen Li, Payel Das, Jie Chen, Wojciech Matusik(参考訳) 分子生成の問題は近年大きな注目を集めている。 既存の手法は通常、ディープニューラルネットワークに基づいており、数十万のサンプルを持つ大規模データセットのトレーニングを必要とする。 しかし実際には、労働集約的な実験とデータ収集のため、クラス固有の化学データセットのサイズは通常制限されている(例:数十のサンプル)。 これは、分子設計空間を包括的に記述する深層学習生成モデルにとって大きな課題である。 もう一つの大きな課題は、物理的に合成可能な分子のみを生成することである。 これはニューラルネットワークに基づく生成モデルにとって非自明なタスクであり、関連する化学知識は限られたトレーニングデータからのみ抽出し、一般化することができる。 本研究では、一般的なベンチマークよりも桁違いに小さいデータセットから学習できるデータ効率のよい生成モデルを提案する。 この手法の核心は、一連の生産規則から分子を生成する学習可能なグラフ文法である。 人間の助けがなければ、これらの生産ルールはトレーニングデータから自動的に構築される。 さらに、さらなる文法最適化により、追加の化学知識をモデルに組み込むことができる。 我々の学習したグラフ文法は、それぞれ${\sim}20$のサンプルのみを含む3つのモノマーデータセットに対して、高品質な分子を生成するための最先端の結果をもたらす。 提案手法は, トレーニングサンプルが117ドルしかなく, 難易度の高いポリマー生成タスクにおいて, 811ドルのデータポイントを用いた既存手法と競合し, 優れた性能を実現している。 コードはhttps://github.com/g mh14/data_ efficient_grammarで入手できる。

The problem of molecular generation has received significant attention recently. Existing methods are typically based on deep neural networks and require training on large datasets with tens of thousands of samples. In practice, however, the size of class-specific chemical datasets is usually limited (e.g., dozens of samples) due to labor-intensive experimentation and data collection. This presents a considerable challenge for the deep learning generative models to comprehensively describe the molecular design space. Another major challenge is to generate only physically synthesizable molecules. This is a non-trivial task for neural network-based generative models since the relevant chemical knowledge can only be extracted and generalized from the limited training data. In this work, we propose a data-efficient generative model that can be learned from datasets with orders of magnitude smaller sizes than common benchmarks. At the heart of this method is a learnable graph grammar that generates molecules from a sequence of production rules. Without any human assistance, these production rules are automatically constructed from training data. Furthermore, additional chemical knowledge can be incorporated in the model by further grammar optimization. Our learned graph grammar yields state-of-the-art results on generating high-quality molecules for three monomer datasets that contain only ${\sim}20$ samples each. Our approach also achieves remarkable performance in a challenging polymer generation task with only $117$ training samples and is competitive against existing methods using $81$k data points. Code is available at https://github.com/g mh14/data_efficient_ grammar.
翻訳日:2022-03-16 19:39:47 公開日:2022-03-15
# (参考訳) PET画像のノイズレベル認識フレームワーク [全文訳有]

A Noise-level-aware Framework for PET Image Denoising ( http://arxiv.org/abs/2203.08034v1 )

ライセンス: CC BY 4.0
Ye Li, Jianan Cui, Junyu Chen, Guodong Zeng, Scott Wollenweber, Floris Jansen, Se-In Jang, Kyungsang Kim, Kuang Gong and Quanzheng Li(参考訳) PETでは、異なる身体領域に存在する相対的(信号依存)ノイズの量は著しく異なり、その領域に存在するカウントの数と本質的に関連している。 ある領域におけるカウントの数は、原則として、全投与活動、スキャナ感受性、画像取得期間、その領域における放射性医薬品トレーサの取り込み、およびその領域を取り巻く患者の局所身体形態計測に依存する。 理論的には、低カウント(高相対ノイズ)画像よりも高カウント画像(低相対ノイズ)をデノベーションするために、デノエーション操作の量が少なく、その逆も少なくなる。 現在の深層学習に基づくpet画像分類法は主に画像の出現のみを訓練し,ノイズレベルの異なる画像に対して特別な処理を行なわない。 我々の仮説は、入力画像の局所的相対的ノイズレベルを深部畳み込みニューラルネットワーク(DCNN)に明示的に与えることによって、DCNNは画像の外観のみを訓練することよりも優れているというものである。 そこで本研究では,局所雑音レベルをDCNNに埋め込むことのできる雑音レベル対応フレームワークを提案する。 GE Discovery MI PET/CTシステムで取得した30と15の患者PET画像に対して,提案手法の訓練と試験を行った。 実験の結果,NLEを含まない同一ネットワークに対してPSNRとSSIMの増大はp<0.001と統計的に有意であり,提案手法は強いベースライン法を大きなマージンで大幅に上回った。

In PET, the amount of relative (signal-dependent) noise present in different body regions can be significantly different and is inherently related to the number of counts present in that region. The number of counts in a region depends, in principle and among other factors, on the total administered activity, scanner sensitivity, image acquisition duration, radiopharmaceutical tracer uptake in the region, and patient local body morphometry surrounding the region. In theory, less amount of denoising operations is needed to denoise a high-count (low relative noise) image than images a low-count (high relative noise) image, and vice versa. The current deep-learning-based methods for PET image denoising are predominantly trained on image appearance only and have no special treatment for images of different noise levels. Our hypothesis is that by explicitly providing the local relative noise level of the input image to a deep convolutional neural network (DCNN), the DCNN can outperform itself trained on image appearance only. To this end, we propose a noise-level-aware framework denoising framework that allows embedding of local noise level into a DCNN. The proposed is trained and tested on 30 and 15 patient PET images acquired on a GE Discovery MI PET/CT system. Our experiments showed that the increases in both PSNR and SSIM from our backbone network with relative noise level embedding (NLE) versus the same network without NLE were statistically significant with p<0.001, and the proposed method significantly outperformed a strong baseline method by a large margin.
翻訳日:2022-03-16 18:49:38 公開日:2022-03-15
# (参考訳) 腹部CT登録のための多臓器点雲登録アルゴリズム [全文訳有]

A multi-organ point cloud registration algorithm for abdominal CT registration ( http://arxiv.org/abs/2203.08041v1 )

ライセンス: CC BY 4.0
Samuel Joutard, Thomas Pheiffer, Chloe Audigier, Patrick Wohlfahrt, Reuben Dorent, Sebastien Piat, Tom Vercauteren, Marc Modat, Tommaso Mansi(参考訳) 胸部ct画像の登録は,疾患進行追跡や手術計画など,いくつかの作業において重要なステップである。 複雑な変形を示すヒト腹部の不均一な内容のため、これは挑戦的なステップでもある。 本研究では,興味ある臓器のサブセットを正確に登録することに焦点を当てる。 我々は,ベイジアン・コヒーレント・ポイント・ドリフトアルゴリズム(BCPD)を拡張して,通常,自動セグメンテーション・パイプラインから抽出されるような臓器表面点雲を登録する。 我々は,BCPDアルゴリズムの多臓器バージョンであるMO-BCPDを導入し,この課題の3つの重要な側面を明示的にモデル化する。 このモデルは、ボリューム全体の変形を推定するための補間フレームワークも提供する。 LITSチャレンジデータセットから異なる患者を登録することで,本手法の有効性を実証する。 解剖学的ランドマーク上のターゲット登録誤差は、標準のBCPDに比べてMO-BCPDの約2倍小さいが、個々の臓器の変形にも同じ制約を課す。

Registering CT images of the chest is a crucial step for several tasks such as disease progression tracking or surgical planning. It is also a challenging step because of the heterogeneous content of the human abdomen which implies complex deformations. In this work, we focus on accurately registering a subset of organs of interest. We register organ surface point clouds, as may typically be extracted from an automatic segmentation pipeline, by expanding the Bayesian Coherent Point Drift algorithm (BCPD). We introduce MO-BCPD, a multi-organ version of the BCPD algorithm which explicitly models three important aspects of this task: organ individual elastic properties, inter-organ motion coherence and segmentation inaccuracy. This model also provides an interpolation framework to estimate the deformation of the entire volume. We demonstrate the efficiency of our method by registering different patients from the LITS challenge dataset. The target registration error on anatomical landmarks is almost twice as small for MO-BCPD compared to standard BCPD while imposing the same constraints on individual organs deformation.
翻訳日:2022-03-16 18:43:58 公開日:2022-03-15
# (参考訳) POETREE: 適応決定木を用いた解釈可能な政策学習 [全文訳有]

POETREE: Interpretable Policy Learning with Adaptive Decision Trees ( http://arxiv.org/abs/2203.08057v1 )

ライセンス: CC BY 4.0
Aliz\'ee Pace, Alex J. Chan, Mihaela van der Schaar(参考訳) 観察された行動から人間の意思決定モデルを構築することは、臨床ケアのような現実世界の政策をよりよく理解し、診断し、支援するために重要である。 確立された政策学習アプローチは依然として模倣のパフォーマンスに重点を置いているため、実証された意思決定プロセスの説明には至らない。 意思決定木による政策抽出(PoETREE)は、患者の観察と医療史に基づいて医師の行動を決定する確率的ツリーポリシーを構築し、完全オフラインかつ部分的に観察可能な臨床決定環境と互換性のある、ポリシー学習を解釈可能な新しいフレームワークである。 完全微分可能なツリーアーキテクチャは、最適化の間に徐々に成長し、その複雑さをモデリングタスクに適応させ、再発を通じて患者の履歴の表現を学習し、患者の情報に時間とともに適応する決定木ポリシーをもたらす。 このポリシー学習手法は、観察された行動の理解、定量化、正確に再現することだけでなく、将来の意思決定支援システムを改善する可能性についても、現実および合成医療データセットの最先端を上回っている。

Building models of human decision-making from observed behaviour is critical to better understand, diagnose and support real-world policies such as clinical care. As established policy learning approaches remain focused on imitation performance, they fall short of explaining the demonstrated decision-making process. Policy Extraction through decision Trees (POETREE) is a novel framework for interpretable policy learning, compatible with fully-offline and partially-observable clinical decision environments -- and builds probabilistic tree policies determining physician actions based on patients' observations and medical history. Fully-differentiable tree architectures are grown incrementally during optimization to adapt their complexity to the modelling task, and learn a representation of patient history through recurrence, resulting in decision tree policies that adapt over time with patient information. This policy learning method outperforms the state-of-the-art on real and synthetic medical datasets, both in terms of understanding, quantifying and evaluating observed behaviour as well as in accurately replicating it -- with potential to improve future decision support systems.
翻訳日:2022-03-16 18:27:49 公開日:2022-03-15
# (参考訳) 共通性と矛盾を探る:多視点サブスペースクラスタリングへの協調的平滑なアプローチ [全文訳有]

Seeking Commonness and Inconsistencies: A Jointly Smoothed Approach to Multi-view Subspace Clustering ( http://arxiv.org/abs/2203.08060v1 )

ライセンス: CC BY 4.0
Xiaosha Cai, Dong Huang, Guang-Yu Zhang, Chang-Dong Wang(参考訳) マルチビューサブスペースクラスタリングは、ロバストクラスタリングのために複数のビューから隠れたサブスペース構造を発見することを目的としており、近年は注目されている。 大幅な進歩にもかかわらず、以前のマルチビューサブスペースクラスタリングアルゴリズムのほとんどは、まだ2つの制限に直面している。 まず、複数のビューの一貫性(あるいは共通性)に焦点を当てるが、サブスペース表現におけるクロスビューの不整合をキャプチャする能力に欠けることが多い。 第二に、それらの多くは複数のビューの局所構造を見落としており、同時に複数の局所構造を利用して部分空間表現学習を強化することはできない。 本稿では,これら2つの制約に対処するため,JSMC(Jointly smoothed multi-view subspace clustering)アプローチを提案する。 具体的には,部分空間表現学習にクロスビュー共通性と不整合を同時に取り入れる。 ビュー・コンセンサス・グルーピング効果は、複数のビューの局所構造を共同利用してビュー・コモンネス表現を規則化し、核ノルムによる低ランク制約と結び付けてクラスタ構造を強化する。 このようにして、クロスビューの共通性と不整合、ビュー・コンセンサス・グループ化効果、低ランク表現を統一目的関数にシームレスに組み込むことにより、交互最適化アルゴリズムを実行し、クラスタリングのためのロバストな部分空間表現を実現する。 様々な実世界のマルチビューデータセットの実験結果から,提案手法の優位性が確認された。

Multi-view subspace clustering aims to discover the hidden subspace structures from multiple views for robust clustering, and has been attracting considerable attention in recent years. Despite significant progress, most of the previous multi-view subspace clustering algorithms are still faced with two limitations. First, they usually focus on the consistency (or commonness) of multiple views, yet often lack the ability to capture the cross-view inconsistencies in subspace representations. Second, many of them overlook the local structures of multiple views and cannot jointly leverage multiple local structures to enhance the subspace representation learning. To address these two limitations, in this paper, we propose a jointly smoothed multi-view subspace clustering (JSMC) approach. Specifically, we simultaneously incorporate the cross-view commonness and inconsistencies into the subspace representation learning. The view-consensus grouping effect is presented to jointly exploit the local structures of multiple views to regularize the view-commonness representation, which is further associated with the low-rank constraint via the nuclear norm to strengthen its cluster structure. Thus the cross-view commonness and inconsistencies, the view-consensus grouping effect, and the low-rank representation are seamlessly incorporated into a unified objective function, upon which an alternating optimization algorithm is performed to achieve a robust subspace representation for clustering. Experimental results on a variety of real-world multi-view datasets have confirmed the superiority of the proposed approach.
翻訳日:2022-03-16 17:54:01 公開日:2022-03-15
# (参考訳) MotionCLIP:CLIP空間に人間の動きを生成する [全文訳有]

MotionCLIP: Exposing Human Motion Generation to CLIP Space ( http://arxiv.org/abs/2203.08063v1 )

ライセンス: CC BY-SA 4.0
Guy Tevet, Brian Gordon, Amir Hertz, Amit H. Bermano, Daniel Cohen-Or(参考訳) motionclipは潜伏埋め込みを特徴とする3次元ヒューマンモーション自動エンコーダで,不連続でよく振る舞うとともに,高度に意味のあるテキスト記述をサポートする。 MotionCLIPは、その潜在空間とCLIP(Contrastive Language- Image Pre-training)モデルとの整合によって、独自のパワーを得る。 ヒトの運動多様体をCLIP空間にアライメントすることは、CLIPの極めて豊かな意味的知識を多様体に暗黙的に注入する。 特に、セマンティックに類似した動きを互いに近くに置くことで連続性を助け、CLIP空間構造から継承されるアンタングルメントを解消する。 MotionCLIPはトランスフォーマーベースのモーションオートエンコーダを備えており、CLIP空間におけるテキストラベルの位置に合わせて動きを再構築する。 さらに,クリップの独特の視覚理解を活用し,自己教師付きでフレームに動きを整合させることにより,さらに強い信号を注入する。 私たちは、CLIPがモーションドメインを見たことがないが、MotionCLIPは前例のないテキストとモーションの機能を提供する。 例えば、文章のプロンプト "couch" は、舌の類似性により、座ったままの動作にデコードされ、プロンプト "spiderman" は、トレーニング中に見るに及ばない web-swinging のようなソリューションになる。 さらに,導入された潜在空間を,動きの補間,編集,認識にどのように活用できるかを示す。

We introduce MotionCLIP, a 3D human motion auto-encoder featuring a latent embedding that is disentangled, well behaved, and supports highly semantic textual descriptions. MotionCLIP gains its unique power by aligning its latent space with that of the Contrastive Language-Image Pre-training (CLIP) model. Aligning the human motion manifold to CLIP space implicitly infuses the extremely rich semantic knowledge of CLIP into the manifold. In particular, it helps continuity by placing semantically similar motions close to one another, and disentanglement, which is inherited from the CLIP-space structure. MotionCLIP comprises a transformer-based motion auto-encoder, trained to reconstruct motion while being aligned to its text label's position in CLIP-space. We further leverage CLIP's unique visual understanding and inject an even stronger signal through aligning motion to rendered frames in a self-supervised manner. We show that although CLIP has never seen the motion domain, MotionCLIP offers unprecedented text-to-motion abilities, allowing out-of-domain actions, disentangled editing, and abstract language specification. For example, the text prompt "couch" is decoded into a sitting down motion, due to lingual similarity, and the prompt "Spiderman" results in a web-swinging-like solution that is far from seen during training. In addition, we show how the introduced latent space can be leveraged for motion interpolation, editing and recognition.
翻訳日:2022-03-16 17:32:28 公開日:2022-03-15
# (参考訳) インターネットサービス分野におけるデータモニタリング [全文訳有]

Practical data monitoring in the internet-services domain ( http://arxiv.org/abs/2203.08067v1 )

ライセンス: CC BY 4.0
Nikhil Galagali(参考訳) 大規模自動監視、異常検出、およびメトリクスの根本原因分析は、インターネットサービス産業にとって必須の要件である。 何百万ものメトリクスを継続的に監視する必要性に対処するため、大規模なインターネットベースの企業では、多くの異常検出アプローチが毎日使用されている。 しかし、測定値の異常を正確にかつ効率的に検出するための大きな進歩にもかかわらず、測定値の数の大幅なスケールは、調査が必要な偽アラームの数が依然として多いことを意味する。 本稿では,信頼性の高い大規模異常検出のための枠組みを提案する。 既存のアプローチよりもはるかに正確であり、モデルの解釈が容易であり、インターネットサービスドメインで実用的なデータ監視を可能にする。

Large-scale automated monitoring, anomaly detection, and root cause analysis of metrics is an essential requirement of the internet-services industry. To address the need to continuously monitor millions of metrics, many anomaly detection approaches are being used on a daily basis by large internet-based companies. However, in spite of the significant progress made to accurately and efficiently detect anomalies in metrics, the sheer scale of the number of metrics has meant there are still a large number of false alarms that need to be investigated. This paper presents a framework for reliable large-scale anomaly detection. It is significantly more accurate than existing approaches and allows for easy interpretation of models, thus enabling practical data monitoring in the internet-services domain.
翻訳日:2022-03-16 17:19:09 公開日:2022-03-15
# (参考訳) 再生粒子トンプソンサンプリング

Regenerative Particle Thompson Sampling ( http://arxiv.org/abs/2203.08082v1 )

ライセンス: CC BY-SA 4.0
Zeyu Zhou, Bruce Hajek, Nakjung Choi, Anwar Walid(参考訳) 本稿では, 再生粒子トンプソンサンプリング (RPTS) を提案する。 トンプソンサンプリングそのものは確率的バンディット問題を解決するベイズ的ヒューリスティックであるが、連続した後続分布を維持するという難しさのために実際に実装することは困難である。 粒子トンプソンサンプリング(英: particle thompson sampling、pts)は、連続分布を重み付き静粒子の集合で支持される離散分布に置き換えることで得られるトンプソンサンプリングの近似である。 PTSでは、いくつかの適合粒子を除く全ての重みが0に収束する。 RPTSは、崩壊する不適合粒子を除去し、不適合粒子の近傍で新しい粒子を再生する、というヒューリスティックに基づいている。 実証的な証拠は、RPTSからRPTSへの均一な改善と、5Gネットワークスライシングへの応用を含む一連の代表的な帯域幅問題に対するRPTSの柔軟性と有効性を示している。

This paper proposes regenerative particle Thompson sampling (RPTS), a flexible variation of Thompson sampling. Thompson sampling itself is a Bayesian heuristic for solving stochastic bandit problems, but it is hard to implement in practice due to the intractability of maintaining a continuous posterior distribution. Particle Thompson sampling (PTS) is an approximation of Thompson sampling obtained by simply replacing the continuous distribution by a discrete distribution supported at a set of weighted static particles. We observe that in PTS, the weights of all but a few fit particles converge to zero. RPTS is based on the heuristic: delete the decaying unfit particles and regenerate new particles in the vicinity of fit surviving particles. Empirical evidence shows uniform improvement from PTS to RPTS and flexibility and efficacy of RPTS across a set of representative bandit problems, including an application to 5G network slicing.
翻訳日:2022-03-16 17:12:29 公開日:2022-03-15
# (参考訳) 資源制約付きキーフレーズ生成のための表現学習 [全文訳有]

Representation Learning for Resource-Constrained Keyphrase Generation ( http://arxiv.org/abs/2203.08118v1 )

ライセンス: CC BY 4.0
Di Wu, Wasi Uddin Ahmad, Sunipa Dev, Kai-Wei Chang(参考訳) State-of-the-art Keyphrase生成メソッドは一般的に大きなアノテーション付きデータセットに依存し、制約のあるリソースを持つドメインでのパフォーマンスを制限する。 この課題を克服するために,キーフレーズ生成タスクに適した中間表現を学習するための戦略を検討する。 我々は,キーフレーズ生成に必要なドメイン固有知識を凝縮させる言語モデル目標として,salient span recoveryとsalient span predictionを導入する。 本研究では,複数のキーフレーズ生成ベンチマークを用いた実験を行い,提案手法の有効性を示す。 また,本手法は,大規模訓練セットで訓練したsoma法の性能に近づくことにより,キーフレーズの欠落の発生に特に有益であると考えられる。

State-of-the-art keyphrase generation methods generally depend on large annotated datasets, limiting their performance in domains with constrained resources. To overcome this challenge, we investigate strategies to learn an intermediate representation suitable for the keyphrase generation task. We introduce salient span recovery and salient span prediction as guided denoising language modeling objectives that condense the domain-specific knowledge essential for keyphrase generation. Through experiments on multiple scientific keyphrase generation benchmarks, we show the effectiveness of the proposed approach for facilitating low-resource and zero-shot keyphrase generation. Furthermore, we observe that our method especially benefits the generation of absent keyphrases, approaching the performance of SOTA methods trained with large training sets.
翻訳日:2022-03-16 17:11:22 公開日:2022-03-15
# NINN:看護誘発ニューラルネットワーク

NINNs: Nudging Induced Neural Networks ( http://arxiv.org/abs/2203.07947v1 )

ライセンス: Link先を確認
Harbir Antil, Rainald L\"ohner, Randy Price(参考訳) ディープニューラルネットワーク(DNN)の精度を制御し改善する、ヌーディング誘導ニューラルネットワーク(NINN)と呼ばれる新しいアルゴリズムが導入されている。 NINNsフレームワークは、既存のDNNに匹敵するコストで、ほとんどすべての既存のDNNに適用できる。 NINNは、ネットワークの前方伝播にフィードバック制御項を追加することで機能する。 フィードバック項は、ニューラルネットワークを所望の量の関心に向ける。 ninn は、例えば、nudging のような既存のデータ同化アルゴリズムと比較した場合、高い精度をもたらす複数の利点がある。 NINNに対して厳密な収束解析が確立されている。 アルゴリズム的および理論的知見は、データ同化と化学反応流の例で示される。

New algorithms called nudging induced neural networks (NINNs), to control and improve the accuracy of deep neural networks (DNNs), are introduced. The NINNs framework can be applied to almost all pre-existing DNNs, with forward propagation, with costs comparable to existing DNNs. NINNs work by adding a feedback control term to the forward propagation of the network. The feedback term nudges the neural network towards a desired quantity of interest. NINNs offer multiple advantages, for instance, they lead to higher accuracy when compared with existing data assimilation algorithms such as nudging. Rigorous convergence analysis is established for NINNs. The algorithmic and theoretical findings are illustrated on examples from data assimilation and chemically reacting flows.
翻訳日:2022-03-16 16:48:58 公開日:2022-03-15
# 線形計算複雑性をもつ分数ブラウン運動の償却推論

Amortised inference of fractional Brownian motion with linear computational complexity ( http://arxiv.org/abs/2203.07961v1 )

ライセンス: Link先を確認
Fran\c{c}ois Laurent, Christian Vestergaard, Jean-Baptiste Masson, Alhassan Cass\'e, Hippolyte Verdier(参考訳) 本稿では,ランダムウォークのパラメータを推定するためのシミュレーションに基づくモーメントベイズ推論スキームを提案する。 提案手法は歩行パラメータの後方分布を確率自由な方法で学習する。 最初のステップでは、グラフニューラルネットワークがシミュレーションデータに基づいてトレーニングされ、ランダムウォークの最適化された低次元要約統計を学習する。 第2のステップでは、可逆ニューラルネットワークが変動推論を用いて学習要約統計からパラメータの後方分布を生成する。 単一軌道からの分数的ブラウン運動モデルのパラメータを推定するために本手法を適用した。 償却推論手順の計算複雑性は、軌道長と線形にスケールし、その精度は、幅広い長さにわたって有界なCram{\'e}r-Raoと類似している。 アプローチは位置雑音に対して堅牢であり、訓練中に見られるものよりも長い軌道によく一般化する。 最後に、このスキームを適用して、環境内の有限な相関時間はさらに個々の軌道から推測できることを示す。

We introduce a simulation-based, amortised Bayesian inference scheme to infer the parameters of random walks. Our approach learns the posterior distribution of the walks' parameters with a likelihood-free method. In the first step a graph neural network is trained on simulated data to learn optimized low-dimensional summary statistics of the random walk. In the second step an invertible neural network generates the posterior distribution of the parameters from the learnt summary statistics using variational inference. We apply our method to infer the parameters of the fractional Brownian motion model from single trajectories. The computational complexity of the amortized inference procedure scales linearly with trajectory length, and its precision scales similarly to the Cram{\'e}r-Rao bound over a wide range of lengths. The approach is robust to positional noise, and generalizes well to trajectories longer than those seen during training. Finally, we adapt this scheme to show that a finite decorrelation time in the environment can furthermore be inferred from individual trajectories.
翻訳日:2022-03-16 16:48:47 公開日:2022-03-15
# 疑わしい偶然とポイントワイズな相互情報について

On Suspicious Coincidences and Pointwise Mutual Information ( http://arxiv.org/abs/2203.08089v1 )

ライセンス: Link先を確認
Christopher K. I. Williams(参考訳) Barlow (1985) は、2つの事象の共起が $A$ と $B$ であるなら、$P(A,B) \gg P(A) P(B)$ である、と仮定した。 最初に、2 の時間 2$ の共起テーブルに関する古典的測度をレビューし、例えばユールの$Y$ (Yule, 1912) は確率比$\lambda$ にのみ依存し、テーブルの限界確率には依存しない。 次に,P(A,B)/P(A)P(B)$の比率に依存する相互情報(MI)とポイントワイド相互情報(PMI)について,関連性の尺度として論じる。 限界効果を除去すると、MIとPMIは$\lambda$の関数として$Y$と同じような振る舞いをする。 ポイントワイドの相互情報は、疑わしい偶然を警告するために、いくつかの研究コミュニティで広く利用されているが、スペーサーイベントに対するPMIの感度を留意しておくことが重要である。

Barlow (1985) hypothesized that the co-occurrence of two events $A$ and $B$ is "suspicious" if $P(A,B) \gg P(A) P(B)$. We first review classical measures of association for $2 \times 2$ contingency tables, including Yule's $Y$ (Yule, 1912), which depends only on the odds ratio $\lambda$, and is independent of the marginal probabilities of the table. We then discuss the mutual information (MI) and pointwise mutual information (PMI), which depend on the ratio $P(A,B)/P(A)P(B)$, as measures of association. We show that, once the effect of the marginals is removed, MI and PMI behave similarly to $Y$ as functions of $\lambda$. The pointwise mutual information is used extensively in some research communities for flagging suspicious coincidences, but it is important to bear in mind the sensitivity of the PMI to the marginals, with increased scores for sparser events.
翻訳日:2022-03-16 16:48:17 公開日:2022-03-15
# (参考訳) フェデレーションデータ解析のためのプライバシアウェア圧縮 [全文訳有]

Privacy-Aware Compression for Federated Data Analysis ( http://arxiv.org/abs/2203.08134v1 )

ライセンス: CC BY 4.0
Kamalika Chaudhuri, Chuan Guo, Mike Rabbat(参考訳) フェデレーションデータ分析(federated data analytics)は、分散データ分析のためのフレームワークであり、サーバが分散低帯域ユーザデバイスのグループからノイズの多い応答をコンパイルして集計統計を推定する。 このフレームワークの2つの大きな課題は、ユーザデータがしばしばセンシティブであり、ユーザデバイスがネットワーク帯域幅が低いため、圧縮である。 先行研究は、標準圧縮アルゴリズムと既知のプライバシメカニズムを組み合わせることで、これらの課題を別々に解決した。 本研究では,この問題を概観し,特定の通信予算に対して機能するプライバシ対応圧縮機構のファミリーを設計する。 まず,特定の条件下で最適な分散を持つ1つの実数を伝達するメカニズムを提案する。 次に、アプリケーションをフェデレートされた学習のために、位置プライバシーのユースケースとベクターの差分プライバシーにどのように拡張するかを示す。 我々の実験は、多くの設定で同じプライバシー損失に対して、我々のメカニズムがより良いユーティリティ対圧縮トレードオフをもたらすことを実証している。

Federated data analytics is a framework for distributed data analysis where a server compiles noisy responses from a group of distributed low-bandwidth user devices to estimate aggregate statistics. Two major challenges in this framework are privacy, since user data is often sensitive, and compression, since the user devices have low network bandwidth. Prior work has addressed these challenges separately by combining standard compression algorithms with known privacy mechanisms. In this work, we take a holistic look at the problem and design a family of privacy-aware compression mechanisms that work for any given communication budget. We first propose a mechanism for transmitting a single real number that has optimal variance under certain conditions. We then show how to extend it to metric differential privacy for location privacy use-cases, as well as vectors, for application to federated learning. Our experiments illustrate that our mechanism can lead to better utility vs. compression trade-offs for the same privacy loss in a number of settings.
翻訳日:2022-03-16 16:46:55 公開日:2022-03-15
# 人気度予測問題に対するグラフ表現学習 : サーベイ

Graph Representation Learning for Popularity Prediction Problem: A Survey ( http://arxiv.org/abs/2203.07632v1 )

ライセンス: Link先を確認
Tiantian Chen, Jianxiong Guo and Weili Wu(参考訳) Twitter、Facebook、LinkedIn、WeChatなどのオンラインソーシャルプラットフォームは、過去10年で非常に急速に成長し、人々が互いに情報を共有し共有するための最も効果的なプラットフォームの一つとなっている。 口の言葉」の影響により、情報は通常これらのソーシャルメディアプラットフォームに急速に拡散する。 そのため,情報拡散のメカニズムを解明し,情報拡散の結果を定量化することが重要である。 バイラルマーケティングと広告における高いパフォーマンスをよりよく理解し、達成するために、この問題に多くの努力が注がれている。 一方で、ニューラルネットワークの開発はここ数年で花開いたので、多数のグラフ表現学習(grl)モデルが誕生した。 従来のモデルと比較して、GRL法はより効果的であることがしばしば示される。 本稿では,grl手法による人気予測問題に対する既存作品の包括的レビューを行い,それらのモデルと手法により関連する文献を2つの大きなクラスに分類する。 深層学習は、畳み込みニューラルネットワーク、グラフ畳み込みネットワーク、グラフ注意ネットワーク、グラフニューラルネットワーク、繰り返しニューラルネットワーク、強化学習の6つの小さなクラスに分類される。 これらの異なるモデルの性能を比較し,その強みと限界について論じる。 最後に,人気予測問題の課題と今後の可能性について概説する。

The online social platforms, like Twitter, Facebook, LinkedIn and WeChat, have grown really fast in last decade and have been one of the most effective platforms for people to communicate and share information with each other. Due to the "word of mouth" effects, information usually can spread rapidly on these social media platforms. Therefore, it is important to study the mechanisms driving the information diffusion and quantify the consequence of information spread. A lot of efforts have been focused on this problem to help us better understand and achieve higher performance in viral marketing and advertising. On the other hand, the development of neural networks has blossomed in the last few years, leading to a large number of graph representation learning (GRL) models. Compared to traditional models, GRL methods are often shown to be more effective. In this paper, we present a comprehensive review for existing works using GRL methods for popularity prediction problem, and categorize related literatures into two big classes, according to their mainly used model and techniques: embedding-based methods and deep learning methods. Deep learning method is further classified into six small classes: convolutional neural networks, graph convolutional networks, graph attention networks, graph neural networks, recurrent neural networks, and reinforcement learning. We compare the performance of these different models and discuss their strengths and limitations. Finally, we outline the challenges and future chances for popularity prediction problem.
翻訳日:2022-03-16 16:21:29 公開日:2022-03-15
# シンボル実行の異なる安全なニューロシンボリック学習

Safe Neurosymbolic Learning with Differentiable Symbolic Execution ( http://arxiv.org/abs/2203.07671v1 )

ライセンス: Link先を確認
Chenxi Yang, Swarat Chaudhuri(参考訳) 本稿では,ニューラルネットワークを用いたプログラムの最悪のケースセーフパラメータの学習問題と,記号的,人文的なコードについて検討する。 このようなニューロシンボリックプログラムは多くの安全クリティカルな領域で発生する。 しかし、微分不能な操作を使うことができるため、既存の勾配に基づくアプローチでパラメータを学習することは困難である。 この問題に対する我々のアプローチであるDSEは、プログラム内の制御フロー経路をサンプリングし、これらの経路に沿って最悪の「安全損失」を象徴的に構成し、REINFORCE推定器の一般化を用いてプログラム操作を通してこれらの損失の勾配を逆伝搬する。 本手法は合成タスクと実世界のベンチマークを組み合わせて評価する。 実験の結果,DSEはこれらのタスクにおいて最先端のDiffAI法よりも優れていた。

We study the problem of learning worst-case-safe parameters for programs that use neural networks as well as symbolic, human-written code. Such neurosymbolic programs arise in many safety-critical domains. However, because they can use nondifferentiable operations, it is hard to learn their parameters using existing gradient-based approaches to safe learning. Our approach to this problem, Differentiable Symbolic Execution (DSE), samples control flow paths in a program, symbolically constructs worst-case "safety losses" along these paths, and backpropagates the gradients of these losses through program operations using a generalization of the REINFORCE estimator. We evaluate the method on a mix of synthetic tasks and real-world benchmarks. Our experiments show that DSE significantly outperforms the state-of-the-art DiffAI method on these tasks.
翻訳日:2022-03-16 16:21:08 公開日:2022-03-15
# グラフ分類のためのグラフニューラルネットワークへのヘテロフィリ

Incorporating Heterophily into Graph Neural Networks for Graph Classification ( http://arxiv.org/abs/2203.07678v1 )

ライセンス: Link先を確認
Wei Ye, Jiayi Yang, Sourav Medya, Ambuj Singh(参考訳) グラフニューラルネットワーク(GNN)は、しばしばグラフにおいて強いホモフィリを仮定するが、連結ノードは異なるクラスラベルと異なる特徴を持つ傾向にある。 実世界のシナリオでは、グラフはホモフィリーとヘテロフィリーの両方を示すノードを持つ。 この設定を一般化することができないため、グラフ分類では多くのGNNが不十分である。 本稿では、2つの有用な設計を識別し、IHGNN (Incorporated Heterophily into Graph Neural Networks) と呼ばれる新しいGNNアーキテクチャを開発することにより、この制限に対処する。 これらの設計には、ノードのエゴおよび隣接する埋め込みの統合と分離、すべてのノード埋め込みを最終グラフレベルの読み出し関数として結合することが含まれる。 最初の設計では、統合はMLPと連結関数の合成である射影関数によって分離される。 2つ目の設計により、グラフレベルの読み出し関数は異なるノード埋め込みを区別できる。 両方の設計で使われる関数は射出的であるため、IHGNNは単純ではあるが1-WLほど強力である。 我々は、様々なグラフデータセット上でIHGNNを実証的に検証し、グラフ分類タスクにおける最先端性能を実現することを実証する。

Graph neural networks (GNNs) often assume strong homophily in graphs, seldom considering heterophily which means connected nodes tend to have different class labels and dissimilar features. In real-world scenarios, graphs may have nodes that exhibit both homophily and heterophily. Failing to generalize to this setting makes many GNNs underperform in graph classification. In this paper, we address this limitation by identifying two useful designs and develop a novel GNN architecture called IHGNN (Incorporating Heterophily into Graph Neural Networks). These designs include integration and separation of the ego- and neighbor-embeddings of nodes; and concatenation of all the node embeddings as the final graph-level readout function. In the first design, integration is combined with separation by an injective function which is the composition of the MLP and the concatenation function. The second design enables the graph-level readout function to differentiate between different node embeddings. As the functions used in both the designs are injective, IHGNN, while being simple, has an expressiveness as powerful as the 1-WL. We empirically validate IHGNN on various graph datasets and demonstrate that it achieves state-of-the-art performance on the graph classification task.
翻訳日:2022-03-16 16:20:54 公開日:2022-03-15
# ビットスライスアーキテクチャによるエネルギー効率の高いDNN加速

Energy-efficient Dense DNN Acceleration with Signed Bit-slice Architecture ( http://arxiv.org/abs/2203.07679v1 )

ライセンス: Link先を確認
Dongseok Im, Gwangtae Park, Zhiyong Li, Junha Ryu, and Hoi-Jun Yoo(参考訳) モバイルシステムオンチップ(SoC)上で実行されるディープニューラルネットワーク(DNN)の数が増えるにつれて、モバイルSoCは、限られたハードウェアリソースと電力予算の中でリアルタイムのDNNアクセラレーションに悩まされる。 従来の移動型ニューラルプロセッシングユニット(NPU)は、低ビットコンピューティングとスパシティの活用を生かしているが、高精度で高密度なDNNを高速化することはできない。 本稿では,符号付きビットスライスのゼロ値を多数利用することにより,高精度と高密度DNNの両方を高速化するエネルギー効率の高い符号付きビットスライスアーキテクチャを提案する。 署名されたビットスライス表現(SBR)の変更は、ビットスライスを低次のビットスライスから1ドルで借りることによって、1111_{2}$ビットスライスから0000_{2}$に署名した。 その結果、高密度DNNでも多数のゼロビットスライスを生成する。 さらに、2の補数データの正と負の値のバランスをとり、ビットスライスの高次をプリコンプリートし、残りの高次ビットスライスの高次をスキップするビットスライスの出力推測を可能にする。 符号付きビットスライスアーキテクチャは、ゼロ入力の符号付きビットスライスを圧縮してスキップし、ゼロスキップユニットは、推測された入力をゼロにマスキングして出力スキップをサポートする。 さらに、異種ネットワークオンチップ(NoC)は、データ再利用可能性の活用と伝送帯域幅の削減に有効である。 本稿では,署名されたビットスライスアーキテクチャを制御するための特殊命令セットアーキテクチャ(ISA)と階層的命令デコーダを紹介する。 最後に、署名されたビットスライスアーキテクチャは、以前のビットスライスアクセラレータであるBit-fusionを$\times3.65$高効率、$\times3.88$高エネルギ効率、$\times5.35$高スループットで上回る。

As the number of deep neural networks (DNNs) to be executed on a mobile system-on-chip (SoC) increases, the mobile SoC suffers from the real-time DNN acceleration within its limited hardware resources and power budget. Although the previous mobile neural processing units (NPUs) take advantage of low-bit computing and exploitation of the sparsity, it is incapable of accelerating high-precision and dense DNNs. This paper proposes energy-efficient signed bit-slice architecture which accelerates both high-precision and dense DNNs by exploiting a large number of zero values of signed bit-slices. Proposed signed bit-slice representation (SBR) changes signed $1111_{2}$ bit-slice to $0000_{2}$ by borrowing a $1$ value from its lower order of bit-slice. As a result, it generates a large number of zero bit-slices even in dense DNNs. Moreover, it balances the positive and negative values of 2's complement data, allowing bit-slice based output speculation which pre-computes high order of bit-slices and skips the remaining dense low order of bit-slices. The signed bit-slice architecture compresses and skips the zero input signed bit-slices, and the zero skipping unit also supports the output skipping by masking the speculated inputs as zero. Additionally, the heterogeneous network-on-chip (NoC) benefits the exploitation of data reusability and reduction of transmission bandwidth. The paper introduces a specialized instruction set architecture (ISA) and a hierarchical instruction decoder for the control of the signed bit-slice architecture. Finally, the signed bit-slice architecture outperforms the previous bit-slice accelerator, Bit-fusion, over $\times3.65$ higher area-efficiency, $\times3.88$ higher energy-efficiency, and $\times5.35$ higher throughput.
翻訳日:2022-03-16 16:19:42 公開日:2022-03-15
# 検証および監査可能なフェデレーション異常検出のためのフレームワーク

A Framework for Verifiable and Auditable Federated Anomaly Detection ( http://arxiv.org/abs/2203.07802v1 )

ライセンス: Link先を確認
Gabriele Santin and Inna Skarbovsky and Fabiana Fournier and Bruno Lepri(参考訳) フェデレーション・ライニング(federated lean)は、機械学習タスクのソリューションのためのエージェントのグループ間の協調を管理するための、新たなアプローチである。 本稿では,異常検出(あるいは分類やレアイベント)の特定のケースでこの問題に取り組む新しいアルゴリズムアーキテクチャを提案する。典型的なアプリケーションでは,センシティブルな情報を含むデータを構成することが多いが,異常な例の不足がコラボレーションを促進する。 本稿では,データ完全性を損なわない効果的な洞察共有機構を備えた正確な分類器の開発のためのツールとして,ランダムフォレストをどのように利用できるかを示す。 さらに,新たなアーキテクチャをブロックチェーンインフラストラクチャに容易に統合して,検証可能かつ監査可能なアルゴリズムの実行を保証する方法について説明する。 さらに,本研究が,本論文で論じる特定のタスクやアーキテクチャを超えた,より一般的なアンサンブル学習手法の設計の基盤となる可能性についても論じる。

Federated Leaning is an emerging approach to manage cooperation between a group of agents for the solution of Machine Learning tasks, with the goal of improving each agent's performance without disclosing any data. In this paper we present a novel algorithmic architecture that tackle this problem in the particular case of Anomaly Detection (or classification or rare events), a setting where typical applications often comprise data with sensible information, but where the scarcity of anomalous examples encourages collaboration. We show how Random Forests can be used as a tool for the development of accurate classifiers with an effective insight-sharing mechanism that does not break the data integrity. Moreover, we explain how the new architecture can be readily integrated in a blockchain infrastructure to ensure the verifiable and auditable execution of the algorithm. Furthermore, we discuss how this work may set the basis for a more general approach for the design of federated ensemble-learning methods beyond the specific task and architecture discussed in this paper.
翻訳日:2022-03-16 16:19:04 公開日:2022-03-15
# 機械学習を用いた一般社会工学的攻撃に対する脅威検出

Threat Detection for General Social Engineering Attack Using Machine Learning Techniques ( http://arxiv.org/abs/2203.07933v1 )

ライセンス: Link先を確認
Zuoguang Wang, Yimo Ren, Hongsong Zhu, Limin Sun(参考訳) 本稿では、メールフィッシングなど特定のSE攻撃タイプに着目したり制限したりするのではなく、機械学習(ML)技術を用いた一般社会工学(SE)攻撃に対する脅威検出について検討する。 まず,従来の知識グラフからSE脅威データを処理し,次に異なる脅威特徴を抽出し,3つの異なる特徴の組み合わせに対応する新しいデータセットを生成する。 最後に、3つのデータセットを用いて9種類のMLモデルを作成し、訓練し、その性能を27の脅威検出/分類器と270の実験で比較分析する。 実験の結果と分析の結果は 1) ml技術は一般のse攻撃脅威の検出に有効であり、いくつかのmlモデルは非常に効果的である;mlベースのse脅威検出は知識グラフに基づくアプローチと相補的である。 2) 生成されたデータセットは使用可能であり、以前の研究で提案されたseドメインオントロジーはse攻撃を解剖し、se脅威機能を提供し、将来の研究のためのデータモデルとして使用できる。 さらに、異なるMLモデルとデータセットの特性に関する多くの結論と分析について論じる。

This paper explores the threat detection for general social engineering (SE) attack using machine learning (ML) techniques, rather than focusing on or limited to a specific SE attack type, e.g. email phishing. Firstly, this paper processes and obtains more SE threat data from the previous knowledge graph, and then extracts different threat features and generates new datasets corresponding with three different feature combinations. Finally, 9 types of ML models are created and trained using the three datasets, respectively, and their performance are compared and analyzed with 27 threat detectors/classifier s and 270 experiments. The experimental results and analysis show that: 1) the ML techniques is feasible in detecting general SE attack threat and some ML models are quite effective; ML-based SE threat detection is complementary with knowledge graph-based approaches; 2) the generated datasets are usable; the SE domain ontology proposed in previous work can dissect SE attacks and deliver the SE threat features, allowing it to be used as a data model for future research. Besides, many conclusions and analyses about the characteristics of different ML models and the datasets are discussed.
翻訳日:2022-03-16 16:18:27 公開日:2022-03-15
# 単純なニューラルネットワークにおける到達可能性

Reachability In Simple Neural Networks ( http://arxiv.org/abs/2203.07941v1 )

ライセンス: Link先を確認
Marco S\"alzer and Martin Lange(参考訳) 我々は、(深度)ニューラルネットワークの到達可能性問題の複雑さを調査し、有効な入力が与えられたとき、有効な出力を計算するか? この問題は一般のニューラルネットワークに対してNP完全であり、線形不等式の接続によって与えられる入力/出力次元に関する仕様である。 我々は、証明を再結合し、元の上界と下界の証明のいくつかの欠陥を修復する。 この結果から,NP-hardnessはすでに,単純な仕様とニューラルネットワークの制限されたクラスに当てはまることを示した。 1つの隠蔽層と1の出力次元と1つの負のゼロと1つの正の重みまたはバイアスを持つニューラルネットワークが与えられると、NPハードネスを確保するのに十分である。 さらに,ニューラルネットワーク検証研究の方向性について,その拡張可能性に関する詳細な議論と展望を行う。

We investigate the complexity of the reachability problem for (deep) neural networks: does it compute valid output given some valid input? It was recently claimed that the problem is NP-complete for general neural networks and specifications over the input/output dimension given by conjunctions of linear inequalities. We recapitulate the proof and repair some flaws in the original upper and lower bound proofs. Motivated by the general result, we show that NP-hardness already holds for restricted classes of simple specifications and neural networks. Allowing for a single hidden layer and an output dimension of one as well as neural networks with just one negative, zero and one positive weight or bias is sufficient to ensure NP-hardness. Additionally, we give a thorough discussion and outlook of possible extensions for this direction of research on neural network verification.
翻訳日:2022-03-16 16:18:09 公開日:2022-03-15
# 信号補間のための拡張グラフの学習

Learning Expanding Graphs for Signal Interpolation ( http://arxiv.org/abs/2203.07966v1 )

ライセンス: Link先を確認
Bishwadeep Das, Elvin Isufi(参考訳) グラフ上で信号処理を行うには、基盤となる固定トポロジに関する知識が必要である。 しかしながら、グラフのサイズは時間とともに大きくなり、接続性が不明な新しいノードが現れることが多いため、コールドスタートレコメンデーションのようなアプリケーションでのダウンストリームタスクが難しくなる。 我々は、特定のノードのトポロジ的接続を無視する入ってくるノードにおける信号補間の問題に対処する。 具体的には,アタッチメント確率とエッジ重みによってパラメータ化された入力ノードに対する確率的アタッチメントモデルを提案する。 信号値の補間を目標として,先行入力ノードのアタッチメント動作のみに依存することにより,これらのパラメータをデータ駆動方式で推定する。 そこで本研究では,問題の非凸性,局所凸化可能な条件の導出について検討し,アタッチメント確率とエッジ重みを推定する交互射影降下法を提案する。 コールドスタート協調フィルタリングにおける合成データと実データを用いた数値実験は,我々の知見を裏付けるものである。

Performing signal processing over graphs requires knowledge of the underlying fixed topology. However, graphs often grow in size with new nodes appearing over time, whose connectivity is typically unknown; hence, making more challenging the downstream tasks in applications like cold start recommendation. We address such a challenge for signal interpolation at the incoming nodes blind to the topological connectivity of the specific node. Specifically, we propose a stochastic attachment model for incoming nodes parameterized by the attachment probabilities and edge weights. We estimate these parameters in a data-driven fashion by relying only on the attachment behaviour of earlier incoming nodes with the goal of interpolating the signal value. We study the non-convexity of the problem at hand, derive conditions when it can be marginally convexified, and propose an alternating projected descent approach between estimating the attachment probabilities and the edge weights. Numerical experiments with synthetic and real data dealing in cold start collaborative filtering corroborate our findings.
翻訳日:2022-03-16 16:17:57 公開日:2022-03-15
# パブリックデータセット内のデータ臭い

Data Smells in Public Datasets ( http://arxiv.org/abs/2203.08007v1 )

ライセンス: Link先を確認
Arumoy Shome and Luis Cruz and Arie van Deursen(参考訳) 医療、野生生物保護、自律運転、刑事司法システムといった高度な分野における人工知能(AI)の採用は、AIに対するデータ中心のアプローチを要求する。 データサイエンティストは、データの研究と整理に多くの時間を費やしているが、データ分析を支援するツールは不足している。 本研究では,公開データセットの繰り返しデータ品質問題を明らかにする。 コードの臭いと同様に、機械学習システムにおける問題や技術的負債の早期の兆候を示すために使用できる新しいデータ臭いカタログを導入する。 データセットにおけるデータ品質問題の発生状況を理解するため、25の公開データセットを分析し、14のデータ臭いを識別する。

The adoption of Artificial Intelligence (AI) in high-stakes domains such as healthcare, wildlife preservation, autonomous driving and criminal justice system calls for a data-centric approach to AI. Data scientists spend the majority of their time studying and wrangling the data, yet tools to aid them with data analysis are lacking. This study identifies the recurrent data quality issues in public datasets. Analogous to code smells, we introduce a novel catalogue of data smells that can be used to indicate early signs of problems or technical debt in machine learning systems. To understand the prevalence of data quality issues in datasets, we analyse 25 public datasets and identify 14 data smells.
翻訳日:2022-03-16 16:17:42 公開日:2022-03-15
# 小さなプリント回路上での機械学習分類のための近似決定木

Approximate Decision Trees For Machine Learning Classification on Tiny Printed Circuits ( http://arxiv.org/abs/2203.08011v1 )

ライセンス: Link先を確認
Konstantinos Balaskas, Georgios Zervakis, Kostas Siozios, Mehdi B. Tahoori, Joerg Henkel(参考訳) 印刷電子(PE)は、統合密度、面積と性能などの従来の評価指標ではシリコンベースのシステムと競合することができないが、PEはオンデマンドの超低価格製造、柔軟性、非毒性などの魅力的な特性を提供する。 結果として、リソグラフィベースのシリコンエレクトロニクスでは触れられないアプリケーションドメインをターゲットにしており、コンピュータの普及はあまり見られていない。 しかし、PEの魅力的な特徴にもかかわらず、PEの大きな特徴は機械学習(ML)分類器のような複雑な印刷回路の実現を禁止している。 本研究では,機械学習の分類に決定木のハードウェアフレンドリな性質を利用し,近似設計のハードウェア効率を生かして,小型で超資源制約付き,電池駆動のプリントアプリケーションに適した近似ml分類器を生成する。

Although Printed Electronics (PE) cannot compete with silicon-based systems in conventional evaluation metrics, e.g., integration density, area and performance, PE offers attractive properties such as on-demand ultra-low-cost fabrication, flexibility and non-toxicity. As a result, it targets application domains that are untouchable by lithography-based silicon electronics and thus have not yet seen much proliferation of computing. However, despite the attractive characteristics of PE, the large feature sizes in PE prohibit the realization of complex printed circuits, such as Machine Learning (ML) classifiers. In this work, we exploit the hardware-friendly nature of Decision Trees for machine learning classification and leverage the hardware-efficiency of the approximate design in order to generate approximate ML classifiers that are suitable for tiny, ultra-resource constrained, and battery-powered printed applications.
翻訳日:2022-03-16 16:16:33 公開日:2022-03-15
# グラフ拡張によるグラフフィルタリング

Graph filtering over expanding graphs ( http://arxiv.org/abs/2203.08058v1 )

ライセンス: Link先を確認
Bishwadeep Das, Elvin Isufi(参考訳) データから表現を学ぶ能力は、基盤となるドメインとの結合を活用できるフィルタを設計する能力に関連しています。 グラフフィルタはネットワークデータのためのそのようなツールであり、無数のアプリケーションで使われてきた。 しかしグラフフィルタは、実用的ネットワークが拡大しているにもかかわらず、固定数のノードでのみ動作する。 この設定でフィルタを学習することは、次元が増大するだけでなく、接続性はアタッチメントモデルでのみ知られているため困難である。 本稿では,そのようなモデルのみに依存するグラフ拡張データに対するフィルタ学習手法を提案する。 フィルタを確率的に特徴付けることで,マルチカーネル学習に触発された経験的リスク最小化フレームワークを開発し,入力ノードにおける情報流入と流出のバランスをとる。 グラフの拡張に対する認知学習と半教師あり学習(SSL)のアプローチを、正確なトポロジに依存するベースラインと比較して、ほぼ最適性能を示す。 SSLでは、提案方式では、受信ノード情報を使用して既存のノードのタスクを改善する。 これらの知見は、確率接続モデルのみに依存することにより、グラフの拡張よりも表現を学習するための基礎を築いた。

Our capacity to learn representations from data is related to our ability to design filters that can leverage their coupling with the underlying domain. Graph filters are one such tool for network data and have been used in a myriad of applications. But graph filters work only with a fixed number of nodes despite the expanding nature of practical networks. Learning filters in this setting is challenging not only because of the increased dimensions but also because the connectivity is known only up to an attachment model. We propose a filter learning scheme for data over expanding graphs by relying only on such a model. By characterizing the filter stochastically, we develop an empirical risk minimization framework inspired by multi-kernel learning to balance the information inflow and outflow at the incoming nodes. We particularize the approach for denoising and semi-supervised learning (SSL) over expanding graphs and show near-optimal performance compared with baselines relying on the exact topology. For SSL, the proposed scheme uses the incoming node information to improve the task on the existing ones. These findings lay the foundation for learning representations over expanding graphs by relying only on the stochastic connectivity model.
翻訳日:2022-03-16 16:16:12 公開日:2022-03-15
# gauss-hermite行列点過程の新規なサンプリング法とモンテカルロ積分への応用

A novel sampler for Gauss-Hermite determinantal point processes with application to Monte Carlo integration ( http://arxiv.org/abs/2203.08061v1 )

ライセンス: Link先を確認
Nicholas P Baskerville(参考訳) 決定点過程は、機械学習と統計モデリングにおける比較的未発達のツールであり、反発を伴う分布の標準統計例である。 While their mathematical formulation is elegant and appealing, their practical use, such as simply sampling from them, is far from straightforward.Rece nt work has shown how a particular type of determinantal point process defined on the compact multidimensional space $[-1, 1]^d$ can be practically sampled and further shown how such samples can be used to improve Monte Carlo integration.This work extends those results to a new determinantal point process on $\mathbb{R}^d$ by constructing a novel sampling scheme. この新しいプロセスから得られたサンプルは、特に機械学習アプリケーションに関連するガウス測度に対するモンテカルロ積分に有用であることが示されている。

Determinantal points processes are a promising but relatively under-developed tool in machine learning and statistical modelling, being the canonical statistical example of distributions with repulsion. While their mathematical formulation is elegant and appealing, their practical use, such as simply sampling from them, is far from straightforward.Rece nt work has shown how a particular type of determinantal point process defined on the compact multidimensional space $[-1, 1]^d$ can be practically sampled and further shown how such samples can be used to improve Monte Carlo integration.This work extends those results to a new determinantal point process on $\mathbb{R}^d$ by constructing a novel sampling scheme. Samples from this new process are shown to be useful in Monte Carlo integration against Gaussian measure, which is particularly relevant in machine learning applications.
翻訳日:2022-03-16 16:15:55 公開日:2022-03-15
# ActFormer: 一般動作型3次元モーション生成に向けたGANトランスフォーマーフレームワーク

ActFormer: A GAN Transformer Framework towards General Action-Conditioned 3D Human Motion Generation ( http://arxiv.org/abs/2203.07706v1 )

ライセンス: Link先を確認
Ziyang Song, Dongliang Wang, Nan Jiang, Zhicheng Fang, Chenjing Ding, Weihao Gan, Wei Wu(参考訳) 本稿では,1対1の動作だけでなく,複数対1の対話行動を含む,一般的な動作条件付き3次元動作生成のためのGANトランスフォーマーフレームワークを提案する。 提案手法は,ガウスプロセスが先行するGANトレーニングスキームの下で,強力な動作条件変換器(ActFormer)から構成される。 このような設計は、トランスフォーマーの強い時空間表現能力、GANの生成モデルにおける優越性、潜伏前の時間的相関を組み合わせている。 さらに、時相相関とトランスフォーマーエンコーダとのヒューマンインタラクションを交互にモデル化することにより、ActFormerは自然に多人数動作に拡張することができる。 NTU RGB+D 120 や BABEL など,大規模ベンチマークにおける他の手法との比較により,本手法の有効性を検証した。 また、複雑な多対人戦闘行動の合成データセットを導入し、多対人動作生成の研究を容易にする。 本手法は, 多様な動作表現への適応性を実証し, 一人称動作生成タスクと複数人称動作生成タスクの両方において, SOTA法よりも優れた性能を実現する。

We present a GAN Transformer framework for general action-conditioned 3D human motion generation, including not only single-person actions but also multi-person interactive actions. Our approach consists of a powerful Action-conditioned motion transFormer (ActFormer) under a GAN training scheme, equipped with a Gaussian Process latent prior. Such a design combines the strong spatio-temporal representation capacity of Transformer, superiority in generative modeling of GAN, and inherent temporal correlations from latent prior. Furthermore, ActFormer can be naturally extended to multi-person motions by alternately modeling temporal correlations and human interactions with Transformer encoders. We validate our approach by comparison with other methods on larger-scale benchmarks, including NTU RGB+D 120 and BABEL. We also introduce a new synthetic dataset of complex multi-person combat behaviors to facilitate research on multi-person motion generation. Our method demonstrates adaptability to various human motion representations and achieves leading performance over SOTA methods on both single-person and multi-person motion generation tasks, indicating a hopeful step towards a universal human motion generator.
翻訳日:2022-03-16 16:15:13 公開日:2022-03-15
# (参考訳) 2Dから3Dへ:単眼深度予測のベンチマーク再考 [全文訳有]

From 2D to 3D: Re-thinking Benchmarking of Monocular Depth Prediction ( http://arxiv.org/abs/2203.08122v1 )

ライセンス: CC BY 4.0
Evin P{\i}nar \"Ornek, Shristi Mudgal, Johanna Wald, Yida Wang, Nassir Navab and Federico Tombari(参考訳) 近年,単分子深度予測法(MDP)とベンチマークツールの急速な進化が相まって提案されている。 しかし、MDPは現在ベンチマークの過剰適合を目撃しており、3Dアプリケーションにおける予測の有用性を評価するのに有効な指標に頼っていると論じる。 これにより、2Dベースの距離を最適化するのではなく、シーンの3D構造を正確に認識し、推定に向けて改善する新しい手法の設計と開発が制限される。 本研究の目的は,3次元形状の質を評価するための評価基準の限界を示すことにより,mdpの構造的認識を提供することである。 本稿では,MDP手法の3次元幾何評価に適した指標セットと,提案手法に不可欠な室内ベンチマークRIO-D3Dを提案する。 我々のベンチマークは、RGB-D再構成から得られた高品質な深度マップを特徴とする実世界のデータセットに基づいている。 さらに、これを3Dシーン補完の密接な作業のベンチマークに役立てる。

There have been numerous recently proposed methods for monocular depth prediction (MDP) coupled with the equally rapid evolution of benchmarking tools. However, we argue that MDP is currently witnessing benchmark over-fitting and relying on metrics that are only partially helpful to gauge the usefulness of the predictions for 3D applications. This limits the design and development of novel methods that are truly aware of - and improving towards estimating - the 3D structure of the scene rather than optimizing 2D-based distances. In this work, we aim to bring structural awareness to MDP, an inherently 3D task, by exhibiting the limits of evaluation metrics towards assessing the quality of the 3D geometry. We propose a set of metrics well suited to evaluate the 3D geometry of MDP approaches and a novel indoor benchmark, RIO-D3D, crucial for the proposed evaluation methodology. Our benchmark is based on a real-world dataset featuring high-quality rendered depth maps obtained from RGB-D reconstructions. We further demonstrate this to help benchmark the closely-tied task of 3D scene completion.
翻訳日:2022-03-16 16:13:26 公開日:2022-03-15
# 熱画像の焦点について

On the focusing of thermal images ( http://arxiv.org/abs/2203.07805v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Ji\v{r}\'i Mekyska, Virginia Espinosa-Duro(参考訳) 本稿では,焦点自動計測に適した新しいサーモグラフィ画像データベースを提案する。 このデータベースは8つの異なるシーンで構成され、各シーンは96の異なるフォーカス位置の1つの画像を含む。 本データベースを用いて, 最適な焦点位置を決定するために, 6つの焦点尺度の有用性を評価する。 実験の結果,計算負荷が低い場合でも,最適な焦点位置の自動検出が可能であることがわかった。 また,熱画像の取得を支援するためのツールも提案する。 我々の知る限りでは、これは熱画像の自動焦点に関する最初の研究である。

In this paper we present a new thermographic image database suitable for the analysis of automatic focus measures. This database consists of 8 different sets of scenes, where each scene contains one image for 96 different focus positions. Using this database we evaluate the usefulness of six focus measures with the goal to determine the optimal focus position. Experimental results reveal that an accurate automatic detection of optimal focus position is possible, even with a low computational burden. We also present an acquisition tool able to help the acquisition of thermal images. To the best of our knowledge, this is the first study about automatic focus of thermal images.
翻訳日:2022-03-16 15:52:59 公開日:2022-03-15
# SPA-VAE: 教師なし3次元点雲生成のための類似部品割り当て

SPA-VAE: Similar-Parts-Assign ment for Unsupervised 3D Point Cloud Generation ( http://arxiv.org/abs/2203.07825v1 )

ライセンス: Link先を確認
Shidi Li, Christian Walder, Miaomiao Liu(参考訳) 本稿では,学習部分に基づく自己相似性を考慮した,教師なし部分認識ポイントクラウド生成の問題に対処する。 我々のSPA-VAEは、任意の対象に対して潜在正準候補形状のセットと、そのような候補形状の集合を、組み立てた対象の1つ以上の場所に変換する。 このように、例えばテーブルの各脚の表面にあるノイズのあるサンプルは、効果的に組み合わせて単一の脚のプロトタイプを推定する。 生データに部品ベースの自己相似性が存在する場合、この方法で部品間でデータを共有することは、モデリング精度、適切な自己相似生成出力、咬合の正確なインフィルング、モデルパシモニーといった多くの利点を享受する。 SPA-VAEは、共有部分の割り当てにGumbel-softmaxトリックを使用する変分ベイズ的アプローチを用いてエンドツーエンドで訓練され、様々な新しい損失を伴って適切な帰納バイアスを与える。 ShapeNetの定量的および定性的分析はSPA-VAEの利点を示している。

This paper addresses the problem of unsupervised parts-aware point cloud generation with learned parts-based self-similarity. Our SPA-VAE infers a set of latent canonical candidate shapes for any given object, along with a set of rigid body transformations for each such candidate shape to one or more locations within the assembled object. In this way, noisy samples on the surface of, say, each leg of a table, are effectively combined to estimate a single leg prototype. When parts-based self-similarity exists in the raw data, sharing data among parts in this way confers numerous advantages: modeling accuracy, appropriately self-similar generative outputs, precise in-filling of occlusions, and model parsimony. SPA-VAE is trained end-to-end using a variational Bayesian approach which uses the Gumbel-softmax trick for the shared part assignments, along with various novel losses to provide appropriate inductive biases. Quantitative and qualitative analyses on ShapeNet demonstrate the advantage of SPA-VAE.
翻訳日:2022-03-16 15:52:51 公開日:2022-03-15
# Pose-MUM : 半教師付き人間のPose推定のためのキーポイント関係の強化

Pose-MUM : Reinforcing Key Points Relationship for Semi-Supervised Human Pose Estimation ( http://arxiv.org/abs/2203.07837v1 )

ライセンス: Link先を確認
JongMok Kim, Hwijun Lee, Jaeseung Lim, Jongkeun Na, Nojun Kwak, Jin Young Choi(参考訳) 半教師型学習(SSL)の教師・学生の枠組みにおいて,高度に設計された強弱増強戦略と信頼性の高い擬似ラベルを生成する安定教師が不可欠である。 これらのことを念頭に置いて、半教師付き人間のポーズ推定(SSHPE)タスクに適合するため、Mix/UnMix(MUM)拡張を修正したPose-MUMと呼ばれる新しいアプローチを提案する。 密集予測タスクにおけるMUMと同様に、提案するPose-MUMは、ポーズ推定のための強弱増強を行い、中間層に混合プロセスを追加することにより、従来の手法よりも人間のキーポイント間の関係を学習するネットワークを誘導する。 さらに,指数移動平均正規化(EMAN)の教師を採用し,SSLフレームワークに適しており,性能の向上も図っている。 また,MS-COCOデータセットの大規模な実験により,SSHPEベンチマークによる従来の手法よりも常に性能を向上し,提案手法の優位性を示した。

A well-designed strong-weak augmentation strategy and the stable teacher to generate reliable pseudo labels are essential in the teacher-student framework of semi-supervised learning (SSL). Considering these in mind, to suit the semi-supervised human pose estimation (SSHPE) task, we propose a novel approach referred to as Pose-MUM that modifies Mix/UnMix (MUM) augmentation. Like MUM in the dense prediction task, the proposed Pose-MUM makes strong-weak augmentation for pose estimation and leads the network to learn the relationship between each human key point much better than the conventional methods by adding the mixing process in intermediate layers in a stochastic manner. In addition, we employ the exponential-moving-a verage-normalization (EMAN) teacher, which is stable and well-suited to the SSL framework and furthermore boosts the performance. Extensive experiments on MS-COCO dataset show the superiority of our proposed method by consistently improving the performance over the previous methods following SSHPE benchmark.
翻訳日:2022-03-16 15:52:32 公開日:2022-03-15
# bamboo:人間と機械のシナジーで継続的に大規模ビジョンデータセットを構築する

Bamboo: Building Mega-Scale Vision Dataset Continually with Human-Machine Synergy ( http://arxiv.org/abs/2203.07845v1 )

ライセンス: Link先を確認
Yuanhan Zhang, Qinghong Sun, Yichun Zhou, Zexin He, Zhenfei Yin, Kun Wang, Lu Sheng, Yu Qiao, Jing Shao, Ziwei Liu(参考訳) 大規模データセットはコンピュータビジョンにおいて重要な役割を果たす。 既存のデータセットはヒューリスティックなラベルシステムに従って収集されるか、サンプルを区別せずに盲目的に注釈付けされる。 大規模データセットを体系的に収集、注釈付け、構築する方法は、未解決の問題である。 本研究では,包括的ラベルシステム上で,高品質なビジョンデータセットを積極的にかつ継続的に構築することを提唱する。 具体的には,分類と検出のための大規模かつ情報拡散データセットであるbamboo datasetをコントリビュートする。 bambooは、包括的なカテゴリを69mのイメージ分類アノテーションと170,586のオブジェクトバウンディングボックスアノテーションで配置することを目指している。 ImageNet22KやObjects365と比較して、Bambooで事前訓練されたモデルは、さまざまな下流タスク(分類で6.2%、検出で2.1%)で優れたパフォーマンスを実現している。 さらに,1000以上の実験から得られた大規模事前学習に関する貴重な知見も提供する。 ラベルシステムとアノテーションパイプラインの両方にスケーラブルな性質があるため、Bambooは今後も成長を続け、コミュニティの集合的な取り組みから恩恵を受けていくでしょう。

Large-scale datasets play a vital role in computer vision. Existing datasets are either collected according to heuristic label systems or annotated blindly without differentiation to samples, making them inefficient and unscalable. How to systematically collect, annotate and build a mega-scale dataset remains an open question. In this work, we advocate building a high-quality vision dataset actively and continually on a comprehensive label system. Specifically, we contribute Bamboo Dataset, a mega-scale and information-dense dataset for both classification and detection. Bamboo aims to populate the comprehensive categories with 69M image classification annotations and 170,586 object bounding box annotations. Compared to ImageNet22K and Objects365, models pre-trained on Bamboo achieve superior performance among various downstream tasks (6.2% gains on classification and 2.1% gains on detection). In addition, we provide valuable observations regarding large-scale pre-training from over 1,000 experiments. Due to its scalable nature on both label system and annotation pipeline, Bamboo will continue to grow and benefit from the collective efforts of the community, which we hope would pave the way for more general vision models.
翻訳日:2022-03-16 15:52:13 公開日:2022-03-15
# LiP-Flow:潜在空間における正規化フローによるコーデックアバターの推論時間優先学習

LiP-Flow: Learning Inference-time Priors for Codec Avatars via Normalizing Flows in Latent Space ( http://arxiv.org/abs/2203.07881v1 )

ライセンス: Link先を確認
Emre Aksan, Shugao Ma, Akin Caliskan, Stanislav Pidhorskyi, Alexander Richard, Shih-En Wei, Jason Saragih, Otmar Hilliges(参考訳) カメラドームで撮影されたマルチビューデータから訓練されたニューラルフェイスアバターは、フォトリアリスティックな3d再構成を生成できる。 しかし、推論時には、ヘッドセット搭載カメラや前面カメラによって記録された部分的なビューや、まばらな顔のランドマークなど、限られた入力によって駆動されなければならない。 この非対称性を緩和するために、ランタイム入力を条件とした事前モデルを導入し、この前の空間を潜在空間の正規化フローを介して3d顔モデルに結びつける。 提案するモデルであるlip-flowは,リッチなトレーニング時間と貧弱な推論時間観測から表現を学ぶ2つのエンコーダで構成されている。 正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性目的を定義する。 我々は,表現空間と再現品質の類似性を最大化するために,両モデルのエンドツーエンドを訓練し,限られた駆動信号を認識する3次元顔モデルを構築した。 潜在コードは部分的またはスパースな観察から3dアバターを再構築するために最適化されている。 提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。

Neural face avatars that are trained from multi-view data captured in camera domes can produce photo-realistic 3D reconstructions. However, at inference time, they must be driven by limited inputs such as partial views recorded by headset-mounted cameras or a front-facing camera, and sparse facial landmarks. To mitigate this asymmetry, we introduce a prior model that is conditioned on the runtime inputs and tie this prior space to the 3D face model via a normalizing flow in the latent space. Our proposed model, LiP-Flow, consists of two encoders that learn representations from the rich training-time and impoverished inference-time observations. A normalizing flow bridges the two representation spaces and transforms latent samples from one domain to another, allowing us to define a latent likelihood objective. We trained our model end-to-end to maximize the similarity of both representation spaces and the reconstruction quality, making the 3D face model aware of the limited driving signals. We conduct extensive evaluations where the latent codes are optimized to reconstruct 3D avatars from partial or sparse observations. We show that our approach leads to an expressive and effective prior, capturing facial dynamics and subtle expressions better.
翻訳日:2022-03-16 15:51:54 公開日:2022-03-15
# Panoptic SwiftNet: リアルタイムパノプティックセグメンテーションのためのピラミッドフュージョン

Panoptic SwiftNet: Pyramidal Fusion for Real-time Panoptic Segmentation ( http://arxiv.org/abs/2203.07908v1 )

ライセンス: Link先を確認
Josip \v{S}ari\'c, Marin Or\v{s}i\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) デンスパン光学予測は、自動運転、自動倉庫、アグリロボティクスなど、既存の多くのアプリケーションにおいて重要な要素である。 しかし、これらのアプリケーションのほとんどは、ビジュアルクローズドループ制御への入力として、回復した密接なセマンティクスを利用する。 したがって、実際のデプロイメントでは、組み込みハードウェア上の大きな入力解像度よりもリアルタイムな推論が必要となる。 これらの要件は、限られた計算資源で高い精度を提供する計算効率のよいアプローチを求める。 我々は,マルチスケール特徴抽出のためのトレーディングオフバックボーンキャパシティにより,この目標を達成することを提案する。 パンオプティカルセグメンテーションに対する同時代のアプローチと比較して,本手法の主な特徴は,ピラミッド融合によるスケール同変特徴抽出とクロススケールアップサンプリングである。 我々の最良のモデルは、フル解像度の2MPxイメージで60 FPSでCityscapes val上で55.9%のPQ、FP16 Tensor RT最適化でRTX3090を達成する。

Dense panoptic prediction is a key ingredient in many existing applications such as autonomous driving, automated warehouses or agri-robotics. However, most of these applications leverage the recovered dense semantics as an input to visual closed-loop control. Hence, practical deployments require real-time inference over large input resolutions on embedded hardware. These requirements call for computationally efficient approaches which deliver high accuracy with limited computational resources. We propose to achieve this goal by trading-off backbone capacity for multi-scale feature extraction. In comparison with contemporaneous approaches to panoptic segmentation, the main novelties of our method are scale-equivariant feature extraction and cross-scale upsampling through pyramidal fusion. Our best model achieves 55.9% PQ on Cityscapes val at 60 FPS on full resolution 2MPx images and RTX3090 with FP16 Tensor RT optimization.
翻訳日:2022-03-16 15:51:31 公開日:2022-03-15
# GPV-Pose:幾何誘導ポイントワイド投票によるカテゴリーレベルのオブジェクトポーズ推定

GPV-Pose: Category-level Object Pose Estimation via Geometry-guided Point-wise Voting ( http://arxiv.org/abs/2203.07918v1 )

ライセンス: Link先を確認
Yan Di, Ruida Zhang, Zhiqiang Lou, Fabian Manhardt, Xiangyang Ji, Nassir Navab and Federico Tombari(参考訳) 6Dオブジェクトのポーズ推定は最近飛躍的な進歩を遂げましたが、ほとんどのメソッドは1つまたは少数の異なるオブジェクトしか扱えず、アプリケーションを制限することができます。 この問題を回避するため、最近、カテゴリレベルのオブジェクトのポーズ推定が改訂され、6Dのポーズを予測し、与えられたオブジェクトクラスから未確認のインスタンスの3Dメトリックサイズを予測することが目的である。 しかし、クラス内形状の変化が激しいため、これははるかに難しい作業である。 この問題に対処するため,我々は,幾何学的洞察を活かした,ロバストなカテゴリレベルのポーズ推定のための新しいフレームワークであるgpv-poseを提案する。 まず,共役信頼度駆動回転表現を導入し,関連する回転行列の幾何認識による復元を可能にする。 第2に,3次元オブジェクトバウンディングボックスのロバスト検索のための,新しい幾何誘導型ポイントワイズ投票パラダイムを提案する。 最後に、これらの異なる出力ストリームを活用することで、幾何的整合項をいくつか適用し、特に非対称なカテゴリのパフォーマンスをさらに向上させることができる。 GPV-Poseは、20FPSのリアルタイム推論速度をほぼ達成しながら、一般的な公開ベンチマークにおいて最先端の競合製品よりも優れた結果をもたらす。

While 6D object pose estimation has recently made a huge leap forward, most methods can still only handle a single or a handful of different objects, which limits their applications. To circumvent this problem, category-level object pose estimation has recently been revamped, which aims at predicting the 6D pose as well as the 3D metric size for previously unseen instances from a given set of object classes. This is, however, a much more challenging task due to severe intra-class shape variations. To address this issue, we propose GPV-Pose, a novel framework for robust category-level pose estimation, harnessing geometric insights to enhance the learning of category-level pose-sensitive features. First, we introduce a decoupled confidence-driven rotation representation, which allows geometry-aware recovery of the associated rotation matrix. Second, we propose a novel geometry-guided point-wise voting paradigm for robust retrieval of the 3D object bounding box. Finally, leveraging these different output streams, we can enforce several geometric consistency terms, further increasing performance, especially for non-symmetric categories. GPV-Pose produces superior results to state-of-the-art competitors on common public benchmarks, whilst almost achieving real-time inference speed at 20 FPS.
翻訳日:2022-03-16 15:51:19 公開日:2022-03-15
# OcclusionFusion:リアルタイム動的3次元再構成のためのOcclusion-aware Motion Estimation

OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic 3D Reconstruction ( http://arxiv.org/abs/2203.07977v1 )

ライセンス: Link先を確認
Wenbin Lin, Chengwei Zheng, Jun-Hai Yong, Feng Xu(参考訳) RGBDベースのリアルタイム3D再構成は、オンライントラッキングでエラーが蓄積される可能性があるため、フレーム間動作推定の不正確さに悩まされる。 この問題は、強い閉塞のため、シングルビューベースのシステムではさらに深刻である。 そこで本研究では, 咬合認識3次元運動の計算法であるoctorionfusionを提案する。 本手法では,まず可視領域の運動を推定し,時間的情報と組み合わせて,LSTM関連グラフニューラルネットワークを用いて隠蔽領域の運動を推定する。 さらに,ネットワーク出力を確率モデルでモデル化し,信頼できない動きを軽減し,ロバストな追跡を可能にすることにより,推定動作の信頼性を算出する。 公開データセットおよび自記録データを用いた実験結果から,本手法が既存のシングルビューベースリアルタイム手法を大差で上回っていることが判明した。 動作エラーの低減により,提案手法は長大かつ難易度の高い動作シーケンスを処理できる。 シーケンス結果については、プロジェクトページを参照してください。

RGBD-based real-time dynamic 3D reconstruction suffers from inaccurate inter-frame motion estimation as errors may accumulate with online tracking. This problem is even more severe for single-view-based systems due to strong occlusions. Based on these observations, we propose OcclusionFusion, a novel method to calculate occlusion-aware 3D motion to guide the reconstruction. In our technique, the motion of visible regions is first estimated and combined with temporal information to infer the motion of the occluded regions through an LSTM-involved graph neural network. Furthermore, our method computes the confidence of the estimated motion by modeling the network output with a probabilistic model, which alleviates untrustworthy motions and enables robust tracking. Experimental results on public datasets and our own recorded data show that our technique outperforms existing single-view-based real-time methods by a large margin. With the reduction of the motion errors, the proposed technique can handle long and challenging motion sequences. Please check out the project page for sequence results: https://wenbin-lin.g ithub.io/OcclusionFu sion.
翻訳日:2022-03-16 15:50:05 公開日:2022-03-15
# Smoothing Matters: ドメイン適応セマンティックセマンティックセグメンテーションのためのMomentum Transformer

Smoothing Matters: Momentum Transformer for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2203.07988v1 )

ライセンス: Link先を確認
Runfa Chen, Yu Rong, Shangmin Guo, Jiaqi Han, Fuchun Sun, Tingyang Xu, Wenbing Huang(参考訳) コンピュータビジョンにおけるビジョントランスフォーマー変種(ViT)の大成功の後、ドメイン適応セマンティックセマンティックセグメンテーションにおいて大きな可能性を示した。 残念ながら、ドメイン適応セマンティックセグメンテーションにローカルなViTを直接適用しても、期待される改善は得られない。 局所的なVTの落とし穴は、擬似ラベル構成とターゲットドメインのアライメントの両方で発生する高周波数成分が原因であることが判明した。 これらの高周波成分は、局所的なViTのトレーニングを非常に平滑にし、転送性を傷つける。 本稿では,ローパスフィルタリング機構である運動量ネットワークを導入し,対象領域の特徴や擬似ラベルの学習ダイナミクスを円滑にする。 さらに,試料の重要度を評価するために,源領域と対象領域の分布を動的重み付けによって調整する動的不一致測定法を提案する。 上記の問題に取り組んだ後、sim2realベンチマークに関する広範囲な実験により、提案手法が最先端手法よりも優れていることが示された。 私たちのコードはhttps://github.com/a lpc91/TransDAで利用可能です。

After the great success of Vision Transformer variants (ViTs) in computer vision, it has also demonstrated great potential in domain adaptive semantic segmentation. Unfortunately, straightforwardly applying local ViTs in domain adaptive semantic segmentation does not bring in expected improvement. We find that the pitfall of local ViTs is due to the severe high-frequency components generated during both the pseudo-label construction and features alignment for target domains. These high-frequency components make the training of local ViTs very unsmooth and hurt their transferability. In this paper, we introduce a low-pass filtering mechanism, momentum network, to smooth the learning dynamics of target domain features and pseudo labels. Furthermore, we propose a dynamic of discrepancy measurement to align the distributions in the source and target domains via dynamic weights to evaluate the importance of the samples. After tackling the above issues, extensive experiments on sim2real benchmarks show that the proposed method outperforms the state-of-the-art methods. Our codes are available at https://github.com/a lpc91/TransDA
翻訳日:2022-03-16 15:49:43 公開日:2022-03-15
# シーン理解のための逆ピラミッドマルチタスク変換器

Inverted Pyramid Multi-task Transformer for Dense Scene Understanding ( http://arxiv.org/abs/2203.07997v1 )

ライセンス: Link先を確認
Hanrong Ye and Dan Xu(参考訳) マルチタスク密集シーン理解(マルチタスク密集シーン理解)は、画素ワイドな予測を伴う一連の関連タスクの同時認識と推論を必要とする、繁栄する研究領域である。 既存の作業の多くは畳み込み操作の多用による局所性モデリングの厳しい制限に直面するが、グローバルな空間配置とマルチタスクのコンテキストにおける相互作用と推論の学習はこの問題に欠かせない。 本稿では,空間位置と複数のタスクの同時モデリングを統一的なフレームワークで行うための,エンドツーエンドの逆ピラミッドマルチタスク(InvPT)トランスを提案する。 我々の知る限りでは、シーン理解のためのマルチタスク密度予測のためのトランスフォーマー構造の設計を探求する最初の研究である。 さらに,高解像度の空間分解能は高密度な予測には極めて有益であることが広く証明されている。 invptは、徐々に増加する解像度でマルチタスク機能インタラクションを学ぶための効率的なアップトランスフォーマブロックを提供し、効果的なセルフアテンションメッセージパッシングとマルチスケール機能アグリゲーションを組み込んで、高い解像度でタスク固有の予測を生成する。 提案手法は,NYUD-v2 と PASCAL-Context のデータセット上でのマルチタスク性能を向上し,従来よりも大幅に向上した。 コードとトレーニングされたモデルは一般公開される。

Multi-task dense scene understanding is a thriving research domain that requires simultaneous perception and reasoning on a series of correlated tasks with pixel-wise prediction. Most existing works encounter a severe limitation of modeling in the locality due to heavy utilization of convolution operations, while learning interactions and inference in a global spatial-position and multi-task context is critical for this problem. In this paper, we propose a novel end-to-end Inverted Pyramid multi-task (InvPT) Transformer to perform simultaneous modeling of spatial positions and multiple tasks in a unified framework. To the best of our knowledge, this is the first work that explores designing a transformer structure for multi-task dense prediction for scene understanding. Besides, it is widely demonstrated that a higher spatial resolution is remarkably beneficial for dense predictions, while it is very challenging for existing transformers to go deeper with higher resolutions due to huge complexity to large spatial size. InvPT presents an efficient UP-Transformer block to learn multi-task feature interaction at gradually increased resolutions, which also incorporates effective self-attention message passing and multi-scale feature aggregation to produce task-specific prediction at a high resolution. Our method achieves superior multi-task performance on NYUD-v2 and PASCAL-Context datasets respectively, and significantly outperforms previous state-of-the-arts. Code and trained models will be publicly available.
翻訳日:2022-03-16 15:49:21 公開日:2022-03-15
# ワンショット自然言語空間ビデオグラウンドのための情報ツリーによるエンドツーエンドモデリング

End-to-End Modeling via Information Tree for One-Shot Natural Language Spatial Video Grounding ( http://arxiv.org/abs/2203.08013v1 )

ライセンス: Link先を確認
Mengze Li, Tianbao Wang, Haoyu Zhang, Shengyu Zhang, Zhou Zhao, Jiaxu Miao, Wenqiao Zhang, Wenming Tan, Jin Wang, Peng Wang, Shiliang Pu and Fei Wu(参考訳) 自然言語空間ビデオグラウンドティングは,ビデオフレーム内の関連オブジェクトをクエリとして記述文で検出することを目的としている。 大きな進歩にもかかわらず、既存の手法の多くは密集したビデオフレームアノテーションに依存しており、膨大な量の人的努力を必要とする。 アノテーション予算の制限下で効果的なグラウンド化を実現するため,ワンショット映像のグラウンド化について検討し,一フレームだけラベル付けした動画フレームで自然言語をエンド・ツー・エンドで学習する。 エンドツーエンドのワンショットビデオグラウンディングの大きな課題のひとつは、言語クエリやラベル付きフレームとは無関係なビデオフレームの存在である。 もう一つの課題は、限られた監督に関係しており、非効果的な表現学習をもたらす可能性がある。 これらの課題に対処するため、我々はワンショットビデオグラウンドディング(IT-OS)のためのインフォメーションツリーを介してエンドツーエンドモデルを設計した。 そのキーモジュールであるインフォメーションツリーは、分岐探索と分岐収穫技術に基づく無関係フレームの干渉を取り除くことができる。 また,情報木に基づく複数の自己教師ありタスクを提案し,ラベルの不十分な表現学習を改善する。 ベンチマークデータセットの実験は、我々のモデルの有効性を示す。

Natural language spatial video grounding aims to detect the relevant objects in video frames with descriptive sentences as the query. In spite of the great advances, most existing methods rely on dense video frame annotations, which require a tremendous amount of human effort. To achieve effective grounding under a limited annotation budget, we investigate one-shot video grounding, and learn to ground natural language in all video frames with solely one frame labeled, in an end-to-end manner. One major challenge of end-to-end one-shot video grounding is the existence of videos frames that are either irrelevant to the language query or the labeled frames. Another challenge relates to the limited supervision, which might result in ineffective representation learning. To address these challenges, we designed an end-to-end model via Information Tree for One-Shot video grounding (IT-OS). Its key module, the information tree, can eliminate the interference of irrelevant frames based on branch search and branch cropping techniques. In addition, several self-supervised tasks are proposed based on the information tree to improve the representation learning under insufficient labeling. Experiments on the benchmark dataset demonstrate the effectiveness of our model.
翻訳日:2022-03-16 15:48:53 公開日:2022-03-15
# 自動運転車のレーダーデータ活用のためのディープラーニング

Deep learning for radar data exploitation of autonomous vehicle ( http://arxiv.org/abs/2203.08038v1 )

ライセンス: Link先を確認
Arthur Ouaknine(参考訳) 自動運転は複雑な運転シーンの詳細な理解を必要とする。 車両のセンサーの冗長性と相補性は環境の正確で堅牢な理解をもたらし、それによって性能と安全性のレベルが向上する。 この論文は、周囲の物体の相対速度を含む低コストな能動センサー特性である自動車RADARに焦点を当てており、悪天候の影響を受けない重要な利点がある。 ディープラーニングの急速な進歩と公共運転データセットの利用により、視覚ベースの運転システムの認識能力は大幅に向上した。 RADARセンサーは、角分解能の低さや、RAARの生データのサイズ、ノイズ、複雑さ、利用可能なデータセットの欠如など、シーン理解にはほとんど使われない。 この論文は、注釈付きデータセットの構築から適応型ディープラーニングアーキテクチャの概念まで、RADARシーン理解の広範な研究を提案する。 まず、この論文は現在のデータ不足に対処するためのアプローチを詳述する。 注釈付きデータを作成するための単純なシミュレーションと生成手法が提示される。 また、同期カメラとRADARデータからなるCARRADAデータセットを半自動アノテーション方式で記述する。 この論文では、RADARセマンティックセグメンテーションに関連付けられた損失関数を備えたディープラーニングアーキテクチャを提案する。 また、シーン理解のためのLiDARとRADARセンサーの融合の研究を開放する手法も導入している。 最後に、この論文は、同期high-definition(hd)レーダー、lidar、カメラを備えたラジアルデータセットであるcollaborative contributionsを公開する。 また、物体検出と自由運転空間分割のためのマルチタスク学習を行いながら、RADAR信号処理パイプラインを推定する深層学習アーキテクチャを提案する。

Autonomous driving requires a detailed understanding of complex driving scenes. The redundancy and complementarity of the vehicle's sensors provide an accurate and robust comprehension of the environment, thereby increasing the level of performance and safety. This thesis focuses the on automotive RADAR, which is a low-cost active sensor measuring properties of surrounding objects, including their relative speed, and has the key advantage of not being impacted by adverse weather conditions. With the rapid progress of deep learning and the availability of public driving datasets, the perception ability of vision-based driving systems has considerably improved. The RADAR sensor is seldom used for scene understanding due to its poor angular resolution, the size, noise, and complexity of RADAR raw data as well as the lack of available datasets. This thesis proposes an extensive study of RADAR scene understanding, from the construction of an annotated dataset to the conception of adapted deep learning architectures. First, this thesis details approaches to tackle the current lack of data. A simple simulation as well as generative methods for creating annotated data will be presented. It will also describe the CARRADA dataset, composed of synchronised camera and RADAR data with a semi-automatic annotation method. This thesis then present a proposed set of deep learning architectures with their associated loss functions for RADAR semantic segmentation. It also introduces a method to open up research into the fusion of LiDAR and RADAR sensors for scene understanding. Finally, this thesis exposes a collaborative contribution, the RADIal dataset with synchronised High-Definition (HD) RADAR, LiDAR and camera. A deep learning architecture is also proposed to estimate the RADAR signal processing pipeline while performing multitask learning for object detection and free driving space segmentation.
翻訳日:2022-03-16 15:48:32 公開日:2022-03-15
# 2次元物体検出における双曲埋め込みについて

On Hyperbolic Embeddings in 2D Object Detection ( http://arxiv.org/abs/2203.08049v1 )

ライセンス: Link先を確認
Christopher Lang, Alexander Braun, Abhinav Valada(参考訳) 物体検出の大部分はユークリッド空間で定式化されており、ユークリッドまたは球面測地距離は画像領域とオブジェクトクラスのプロトタイプとの類似度を測定する。 本研究では,双曲幾何学が対象分類空間の基盤構造に適合するかどうかを考察する。 2段階,キーポイントベース,およびトランスフォーマーベースのオブジェクト検出アーキテクチャに双曲型分類器を組み込み,大規模,長期,ゼロショットのオブジェクト検出ベンチマークで評価する。 広範な実験評価において,分類空間の構造に出現する分類クラス階層を観察し,分類誤差を低減し,全体のオブジェクト検出性能を向上させた。

Object detection, for the most part, has been formulated in the euclidean space, where euclidean or spherical geodesic distances measure the similarity of an image region to an object class prototype. In this work, we study whether a hyperbolic geometry better matches the underlying structure of the object classification space. We incorporate a hyperbolic classifier in two-stage, keypoint-based, and transformer-based object detection architectures and evaluate them on large-scale, long-tailed, and zero-shot object detection benchmarks. In our extensive experimental evaluations, we observe categorical class hierarchies emerging in the structure of the classification space, resulting in lower classification errors and boosting the overall object detection performance.
翻訳日:2022-03-16 15:48:06 公開日:2022-03-15
# 映像からアバターを作るためのアニマタブルニューラルネットワーク

Animatable Neural Implicit Surfaces for Creating Avatars from Videos ( http://arxiv.org/abs/2203.08133v1 )

ライセンス: Link先を確認
Sida Peng, Shangzhan Zhang, Zhen Xu, Chen Geng, Boyi Jiang, Hujun Bao, Xiaowei Zhou(参考訳) 本論文は, カメラビューの少ない映像から, アニマタブルな人間モデルを再構築することを目的とする。 最近のいくつかの作品は、人間の幾何学と神経放射の場を表現し、パラメトリックな人間のモデルを使ってアニメーションの変形場を作り、ビデオから詳細な3d人間のモデルを復元する。 しかし, 放射界表面の制約が欠如しているため, 復元結果はノイズが多い傾向にある。 さらに、3次元空間における人間の外観を生成するため、そのレンダリング品質は変形場の精度に大きく依存する。 これらの問題を解決するために, 人体形状を符号付き距離場でモデル化し, 2次元ニューラルレンダラーで2次元画像空間への外観生成をデフェクトする Animatable Neural Implicit Surface (AniSDF) を提案する。 符号付き距離場は学習した幾何学を自然に規則化し、人間の身体の高品質な再構築を可能にし、レンダリング速度を改善するためにさらに使用できる。 さらに、2Dニューラルレンダラーは幾何誤差を補うことができるため、不正確な変形に対してより堅牢である。 いくつかのデータセットにおける実験により、提案手法は、最近のヒトの再構成および合成法を大きなマージンで上回っていることが示されている。

This paper aims to reconstruct an animatable human model from a video of very sparse camera views. Some recent works represent human geometry and appearance with neural radiance fields and utilize parametric human models to produce deformation fields for animation, which enables them to recover detailed 3D human models from videos. However, their reconstruction results tend to be noisy due to the lack of surface constraints on radiance fields. Moreover, as they generate the human appearance in 3D space, their rendering quality heavily depends on the accuracy of deformation fields. To solve these problems, we propose Animatable Neural Implicit Surface (AniSDF), which models the human geometry with a signed distance field and defers the appearance generation to the 2D image space with a 2D neural renderer. The signed distance field naturally regularizes the learned geometry, enabling the high-quality reconstruction of human bodies, which can be further used to improve the rendering speed. Moreover, the 2D neural renderer can be learned to compensate for geometric errors, making the rendering more robust to inaccurate deformations. Experiments on several datasets show that the proposed approach outperforms recent human reconstruction and synthesis methods by a large margin.
翻訳日:2022-03-16 15:47:53 公開日:2022-03-15
# グラフ分類のための構造推論を用いた教師付きコントラスト学習

Supervised Contrastive Learning with Structure Inference for Graph Classification ( http://arxiv.org/abs/2203.07691v1 )

ライセンス: Link先を確認
Hao Jia, Junzhong Ji, and Minglong Lei(参考訳) 高度なグラフニューラルネットワークは近年,グラフ分類タスクにおいて大きな可能性を示している。 ノードの分類とは異なり、ノードの埋め込みはノードのラベルを学習するために直接使用できるが、グラフの分類は、識別グラフの埋め込みを生成するために異なるトポロジー情報の階層的な蓄積を必要とする。 それでも、グラフ構造を完全に探求し、効果的なグラフ分類パイプラインを定式化する方法は、まだ初歩的である。 本稿では,教師付きコントラスト学習に基づくグラフ分類のための構造推論に基づく新しいグラフニューラルネットワークを提案する。 まず、既存のエッジセットを強化する追加接続を発見できるデータ駆動グラフ拡張戦略を提案する。 具体的には,拡散カスケードに基づく構造推定ステージを用いて,ノード類似度の高い接続を復元する。 次に,グラフニューラルネットワークのコントラストパワーを向上させるために,教師付きコントラスト損失を用いたグラフ分類を提案する。 ラベル情報の統合により、1-vs-manyのコントラスト学習が多-vs-many設定に拡張され、トポロジ的類似性の高いグラフレベルの埋め込みがより深く引き出される。 教師付きコントラスト損失と構造推論は、トポロジカルパターンを十分に探索して識別グラフ埋め込みを生成する階層型グラフニューラルネットワークに自然に組み込むことができる。 実験の結果,最近の最先端手法と比較して提案手法の有効性が示された。

Advanced graph neural networks have shown great potentials in graph classification tasks recently. Different from node classification where node embeddings aggregated from local neighbors can be directly used to learn node labels, graph classification requires a hierarchical accumulation of different levels of topological information to generate discriminative graph embeddings. Still, how to fully explore graph structures and formulate an effective graph classification pipeline remains rudimentary. In this paper, we propose a novel graph neural network based on supervised contrastive learning with structure inference for graph classification. First, we propose a data-driven graph augmentation strategy that can discover additional connections to enhance the existing edge set. Concretely, we resort to a structure inference stage based on diffusion cascades to recover possible connections with high node similarities. Second, to improve the contrastive power of graph neural networks, we propose to use a supervised contrastive loss for graph classification. With the integration of label information, the one-vs-many contrastive learning can be extended to a many-vs-many setting, so that the graph-level embeddings with higher topological similarities will be pulled closer. The supervised contrastive loss and structure inference can be naturally incorporated within the hierarchical graph neural networks where the topological patterns can be fully explored to produce discriminative graph embeddings. Experiment results show the effectiveness of the proposed method compared with recent state-of-the-art methods.
翻訳日:2022-03-16 15:46:07 公開日:2022-03-15
# beyond explains: xaiベースのモデル改善の機会と課題

Beyond Explaining: Opportunities and Challenges of XAI-Based Model Improvement ( http://arxiv.org/abs/2203.08008v1 )

ライセンス: Link先を確認
Leander Weber, Sebastian Lapuschkin, Alexander Binder, Wojciech Samek(参考訳) 説明可能な人工知能(XAI)は、高度に複雑で不透明な機械学習(ML)モデルに透明性をもたらす、新たな研究分野である。 近年,ブラックボックス分類器の判定方法が数多く開発されているが,これらのツールは可視化以上の用途ではほとんど使われていない。 最近になって、研究者たちは実際にモデルを改善するために説明を取り入れた。 本稿では,機械学習モデルの諸特性改善にXAIを実用的に応用する手法を概観し,これらの手法を体系的に分類し,それぞれの長所と短所を比較した。 我々は,これらの手法に関する理論的視点を提供し,モデル一般化能力や推論などの特性改善にどのように役立つのかを,おもちゃやリアルな設定で実験を通じて実証的に示す。 さらに、これらの手法の潜在的な欠点と欠点について論じる。 結論として,xaiに基づくモデル改善は,複雑で定量化が容易なモデル特性に対しても有益であるが,その成功は,使用するモデルやデータセットなど多種多様な要因や,使用する説明方法によって異なるため,慎重に適用する必要がある。

Explainable Artificial Intelligence (XAI) is an emerging research field bringing transparency to highly complex and opaque machine learning (ML) models. Despite the development of a multitude of methods to explain the decisions of black-box classifiers in recent years, these tools are seldomly used beyond visualization purposes. Only recently, researchers have started to employ explanations in practice to actually improve models. This paper offers a comprehensive overview over techniques that apply XAI practically for improving various properties of ML models, and systematically categorizes these approaches, comparing their respective strengths and weaknesses. We provide a theoretical perspective on these methods, and show empirically through experiments on toy and realistic settings how explanations can help improve properties such as model generalization ability or reasoning, among others. We further discuss potential caveats and drawbacks of these methods. We conclude that while model improvement based on XAI can have significant beneficial effects even on complex and not easily quantifyable model properties, these methods need to be applied carefully, since their success can vary depending on a multitude of factors, such as the model and dataset used, or the employed explanation method.
翻訳日:2022-03-16 15:45:44 公開日:2022-03-15
# 再利用可能な資源を用いたオンラインタスク割り当て問題

Online Task Assignment Problems with Reusable Resources ( http://arxiv.org/abs/2203.07605v1 )

ライセンス: Link先を確認
Hanna Sumita, Shinji Ito, Kei Takemura, Daisuke Hatano, Takuro Fukunaga, Naonori Kakimura, Ken-ichi Kawarabayashi(参考訳) 本研究では,ライドシェアリング,クラウドソーシング,求人といった実践的な応用を動機とした,再利用可能な資源を用いたオンラインタスク割り当て問題について検討する。 この問題では、オフライン頂点(エージェント)のセットが与えられ、オンライン頂点(タスク)が既知の時間依存分布に従ってランダムに到着する。 到着後、我々はその任務を直ちに、そして無断でエージェントに割り当てる。 課題の目標は、完了したタスクが生み出す総利益を最大化することである。 本問題の主な特徴は,(1)エージェントが再利用可能なこと,(2)エージェントが割り当てられたタスクを完了した後に市場に戻ってくること,(2)エージェントがマーケットに留まるために割り当てられたタスクを拒絶すること,(3)タスクが複数のエージェントに対応できること,である。 オンラインタスクが(1)の下に1つのエージェントに割り当てられた既存の作業の作業を一般化する。 本稿では,上記の設定に対して1/2$の競合性を持つオンラインアルゴリズムを提案する。 さらに、各エージェントが割り当てられたタスクを最大$\Delta$で拒否できる場合、アルゴリズムは競争率$\Delta/(3\Delta-1)\ geq 1/3$を持つ。 また,提案アルゴリズムを数値実験により評価する。

We study online task assignment problem with reusable resources, motivated by practical applications such as ridesharing, crowdsourcing and job hiring. In the problem, we are given a set of offline vertices (agents), and, at each time, an online vertex (task) arrives randomly according to a known time-dependent distribution. Upon arrival, we assign the task to agents immediately and irrevocably. The goal of the problem is to maximize the expected total profit produced by completed tasks. The key features of our problem are (1) an agent is reusable, i.e., an agent comes back to the market after completing the assigned task, (2) an agent may reject the assigned task to stay the market, and (3) a task may accommodate multiple agents. The setting generalizes that of existing work in which an online task is assigned to one agent under (1). In this paper, we propose an online algorithm that is $1/2$-competitive for the above setting, which is tight. Moreover, when each agent can reject assigned tasks at most $\Delta$ times, the algorithm is shown to have the competitive ratio $\Delta/(3\Delta-1)\ geq 1/3$. We also evaluate our proposed algorithm with numerical experiments.
翻訳日:2022-03-16 15:45:10 公開日:2022-03-15
# マルチエージェント強化学習入門と自律型モビリティへの応用

An Introduction to Multi-Agent Reinforcement Learning and Review of its Application to Autonomous Mobility ( http://arxiv.org/abs/2203.07676v1 )

ライセンス: Link先を確認
Lukas M. Schmidt, Johanna Brosig, Axel Plinge, Bjoern M. Eskofier, Christopher Mutschler(参考訳) モビリティとトラフィックの多くのシナリオは、共同ソリューションを見つけるために協力する必要がある複数の異なるエージェントを含んでいる。 行動計画の最近の進歩は強化学習を用いて効果的な行動戦略を見つける。 しかし、自動運転車や車間通信が成熟するにつれて、単独の独立したエージェントのみを利用するソリューションは、道路上での潜在的なパフォーマンス向上を後押しする。 マルチエージェント強化学習(MARL、Multi-Agent Reinforcement Learning)は、複数のエージェントが相互に相互作用する最適な解を見つけることを目的とした研究分野である。 この研究は、自律移動の研究者にこの分野の概要を提供することを目的としている。 まずmarlを説明し、重要な概念を紹介します。 次に,marlアルゴリズムを支える中心的なパラダイムについて論じ,各パラダイムにおける最先端の手法とアイデアについて概説する。 この背景から,自律移動シナリオにおけるMARLの適用状況を調査し,既存のシナリオと実装の概要を紹介する。

Many scenarios in mobility and traffic involve multiple different agents that need to cooperate to find a joint solution. Recent advances in behavioral planning use Reinforcement Learning to find effective and performant behavior strategies. However, as autonomous vehicles and vehicle-to-X communications become more mature, solutions that only utilize single, independent agents leave potential performance gains on the road. Multi-Agent Reinforcement Learning (MARL) is a research field that aims to find optimal solutions for multiple agents that interact with each other. This work aims to give an overview of the field to researchers in autonomous mobility. We first explain MARL and introduce important concepts. Then, we discuss the central paradigms that underlie MARL algorithms, and give an overview of state-of-the-art methods and ideas in each paradigm. With this background, we survey applications of MARL in autonomous mobility scenarios and give an overview of existing scenarios and implementations.
翻訳日:2022-03-16 15:43:09 公開日:2022-03-15
# マルチメディアを用いたマルチユニット拡散オークション

Multi-Unit Diffusion Auctions with Intermediaries ( http://arxiv.org/abs/2203.07796v1 )

ライセンス: Link先を確認
Bin Li, Dong Hao, Dengji Zhao(参考訳) 本稿では,各仲介業者が個別の購入者の集合を所有し,すべての仲介業者が相互に連携する仲介者による複数ユニットオークションについて検討する。 我々のゴールは、入札情報を個人に広めるために仲介者にインセンティブを与えることで、個人購入者や近隣仲介者を含め、より多くの潜在的な購入者がオークションに参加できるようにすることです。 そこで我々は,仲介者の戦略的相互作用を取り入れた拡散型オークションフレームワークを構築した。 フレームワーク内の古典的なVickrey-Clarke-Grove s(VCG)メカニズムは、最大社会福祉を達成することができるが、販売者の収入を減少させるか、あるいは赤字につながる可能性がある。 本論では,社会福祉を最大化するだけでなく,VCGの仕組みに比較して販売者の収益を向上する,批判的地区オークション(Critical neighborhood auction)という新たなオークションを提案する。

This paper studies multi-unit auctions powered by intermediaries, where each intermediary owns a private set of unit-demand buyers and all intermediaries are networked with each other. Our goal is to incentivize the intermediaries to diffuse the auction information to individuals they can reach, including their private buyers and neighboring intermediaries, so that more potential buyers are able to participate in the auction. To this end, we build a diffusion-based auction framework which incorporates the strategic interaction of intermediaries. It is showed that the classic Vickrey-Clarke-Grove s (VCG) mechanism within the framework can achieve the maximum social welfare, but it may decrease the seller's revenue or even lead to a deficit. To overcome the revenue issue, we propose a novel auction, called critical neighborhood auction, which not only maximizes the social welfare, but also improves the seller's revenue comparing to the VCG mechanism with/without intermediaries.
翻訳日:2022-03-16 15:42:53 公開日:2022-03-15
# 識別的パッチ選択とマルチインスタンス学習による病理像の乳癌分子サブタイプ予測

Breast Cancer Molecular Subtypes Prediction on Pathological Images with Discriminative Patch Selecting and Multi-Instance Learning ( http://arxiv.org/abs/2203.07659v1 )

ライセンス: Link先を確認
Hong Liu, Wen-Dong Xu, Zi-Hao Shang, Xiang-Dong Wang, Hai-Yan Zhou, Ke-Wen Ma, Huan Zhou, Jia-Lin Qi, Jia-Rui Jiang, Li-Lan Tan, Hui-Min Zeng, Hui-Juan Cai, Kuan-Song Wang and Yue-Liang Qian(参考訳) 乳癌の分子サブタイプは、パーソナライズされた臨床治療への重要な参照である。 コストと労力の節約のために、通常は患者のパラフィンブロックの1つのみが、その後の免疫組織化学(IHC)のために選択される。 避けられないサンプリングエラーは腫瘍の不均一性により危険であり、治療が遅れる可能性がある。 AI法を用いた従来のH&E画像からの分子サブタイプ予測は、IHCの適切なパラフィンブロックを事前にスクリーン化するために有用であり、有用である。 IHCから分子サブタイプのWSIレベルラベルしか取得できないため、これは難しい作業です。 Gigapixel WSIは、深層学習のために計算可能となる膨大な数のパッチに分割されている。 粗いスライドレベルラベルでは、パッチベースの手法は、折り畳み、過剰な領域、非腫瘍組織などの豊富なノイズパッチに悩まされる。 H&E WSIsを用いた乳癌分子種別予測には, 識別パッチ選択とマルチインスタンス学習に基づく弱教師付き学習フレームワークが提案された。 まず, 分子サブタイプ表現を学習し, ノイズパッチをフィルタリングするために, 共同学習戦略を採用した。 次に、データセットのサブタイプの不均衡に対処するためにバランスのとれたサンプリング戦略が使用された。 さらに,クラスタ中心に基づく局所的外乱係数を用いたノイズパッチフィルタリングアルゴリズムを提案し,識別パッチをさらに選択した。 最後に, 得られた識別パッチ上でMILフレームワークを微調整し, さらに分子置換性能を向上させるために, スライド制約情報の統合パッチを用いた。 実験の結果,本手法の有効性が実証され,臨床におけるihc用パラフィンブロックの事前スクリーニングを支援する可能性が示唆された。

Molecular subtypes of breast cancer are important references to personalized clinical treatment. For cost and labor savings, only one of the patient's paraffin blocks is usually selected for subsequent immunohistochemistry (IHC) to obtain molecular subtypes. Inevitable sampling error is risky due to tumor heterogeneity and could result in a delay in treatment. Molecular subtype prediction from conventional H&E pathological whole slide images (WSI) using AI method is useful and critical to assist pathologists pre-screen proper paraffin block for IHC. It's a challenging task since only WSI level labels of molecular subtypes can be obtained from IHC. Gigapixel WSIs are divided into a huge number of patches to be computationally feasible for deep learning. While with coarse slide-level labels, patch-based methods may suffer from abundant noise patches, such as folds, overstained regions, or non-tumor tissues. A weakly supervised learning framework based on discriminative patch selecting and multi-instance learning was proposed for breast cancer molecular subtype prediction from H&E WSIs. Firstly, co-teaching strategy was adopted to learn molecular subtype representations and filter out noise patches. Then, a balanced sampling strategy was used to handle the imbalance in subtypes in the dataset. In addition, a noise patch filtering algorithm that used local outlier factor based on cluster centers was proposed to further select discriminative patches. Finally, a loss function integrating patch with slide constraint information was used to finetune MIL framework on obtained discriminative patches and further improve the performance of molecular subtyping. The experimental results confirmed the effectiveness of the proposed method and our models outperformed even senior pathologists, with potential to assist pathologists to pre-screen paraffin blocks for IHC in clinic.
翻訳日:2022-03-16 15:42:24 公開日:2022-03-15
# コントラストディエンタングルメント学習を用いた非ペア深部画像デハジング

Unpaired Deep Image Dehazing Using Contrastive Disentanglement Learning ( http://arxiv.org/abs/2203.07677v1 )

ライセンス: Link先を確認
Xiang Chen, Zhentao Fan, Zhuoran Zheng, Yufeng Li, Yufeng Huang, Longgang Dai, Caihua Kong, Pengpeng Li(参考訳) 本研究では, 効果的に未ペアの学習に基づく画像デハージングネットワークを提案する。 本稿では,イメージデハジングを2段階分離因子分散タスク,すなわちクリアイメージ再構成のタスク関連要因とヘイズ関連分布のタスク関連要因として扱う新しい視点を提供する。 深部特徴空間におけるこれら2種類の因子の絡み合いを実現するため、CycleGANフレームワークにコントラスト学習を導入し、生成した画像を潜伏因子に関連付けることによって、非絡み合い表現を学習する。 このような定式化により,提案手法であるcdd-ganは,まず,エンコーダネットワークと協調して交互に更新する負のジェネレータを開発し,難解な負の敵のキューを生成する。 そして、これらの負の敵は、バックボーン表現ネットワークと共にエンドツーエンドに訓練され、識別情報を高め、対向的コントラスト損失を最大化して要因の絡み合い性能を促進する。 トレーニング中,ハード・ネガティブな例がタスクの無関係な因子を抑圧し,アンペアな明快な例がタスク関連因子を増強し,ヘイズ除去の促進と画像復元の助けとなることを示した。 人工的および実世界の両方のデータセットに対する広範囲な実験により、我々の手法は既存の最先端のデハージングアプローチに対して好適に機能することを示した。

We present an effective unpaired learning based image dehazing network from an unpaired set of clear and hazy images. This paper provides a new perspective to treat image dehazing as a two-class separated factor disentanglement task, i.e, the task-relevant factor of clear image reconstruction and the task-irrelevant factor of haze-relevant distribution. To achieve the disentanglement of these two-class factors in deep feature space, contrastive learning is introduced into a CycleGAN framework to learn disentangled representations by guiding the generated images to be associated with latent factors. With such formulation, the proposed contrastive disentangled dehazing method (CDD-GAN) first develops negative generators to cooperate with the encoder network to update alternately, so as to produce a queue of challenging negative adversaries. Then these negative adversaries are trained end-to-end together with the backbone representation network to enhance the discriminative information and promote factor disentanglement performance by maximizing the adversarial contrastive loss. During the training, we further show that hard negative examples can suppress the task-irrelevant factors and unpaired clear exemples can enhance the task-relevant factors, in order to better facilitate haze removal and help image restoration. Extensive experiments on both synthetic and real-world datasets demonstrate that our method performs favorably against existing state-of-the-art unpaired dehazing approaches.
翻訳日:2022-03-16 15:41:55 公開日:2022-03-15
# 磁気共鳴画像の画質評価

Image Quality Assessment for Magnetic Resonance Imaging ( http://arxiv.org/abs/2203.07809v1 )

ライセンス: Link先を確認
Segrey Kastryulin and Jamil Zakirov and Nicola Pezzotti and Dmitry V. Dylov(参考訳) 画像品質評価(IQA)アルゴリズムは、画像品質に対する人間の認識を再現することを目的としている。 画像の強化、生成、回復モデルの人気が高まり、その性能を評価する多くの方法の開発が進められた。 しかし、ほとんどのiqaソリューションは、医用画像など特定の領域に適用可能なため、一般的なドメインで画像品質を予測するように設計されている。 さらに、特定のタスクに対するこれらのIQAメトリクスの選択は、通常、手動によるノイズや人工的ぼかしなどの意図的に引き起こされる歪みを伴うが、選択されたメトリクスは実際のコンピュータビジョンモデルの出力を判断するために使用される。 本研究では,これまで最も広範囲にわたる磁気共鳴イメージング(mri)のiqa評価研究(主観スコア14,700)を行い,これらのギャップを埋めようとしている。 mriに関連する問題を解決するために訓練されたニューラルネットワークモデルの出力を使い、スキャン加速度における画像再構成、動きの補正、ノイズ除去などを行う。 7人の放射線学者がこれらの歪んだ画像を評価し、その判定は35の異なる画像品質指標(フル参照、ノン参照、分布ベースメトリクス)と相関した。 我々は,再建画像に対する放射線技師の認識を反映し,MRIスキャンの品質に関する最も診断に影響を及ぼす基準である,信号対雑音比,コントラスト対雑音比,人工物の存在について考察した。

Image quality assessment (IQA) algorithms aim to reproduce the human's perception of the image quality. The growing popularity of image enhancement, generation, and recovery models instigated the development of many methods to assess their performance. However, most IQA solutions are designed to predict image quality in the general domain, with the applicability to specific areas, such as medical imaging, remaining questionable. Moreover, the selection of these IQA metrics for a specific task typically involves intentionally induced distortions, such as manually added noise or artificial blurring; yet, the chosen metrics are then used to judge the output of real-life computer vision models. In this work, we aspire to fill these gaps by carrying out the most extensive IQA evaluation study for Magnetic Resonance Imaging (MRI) to date (14,700 subjective scores). We use outputs of neural network models trained to solve problems relevant to MRI, including image reconstruction in the scan acceleration, motion correction, and denoising. Seven trained radiologists assess these distorted images, with their verdicts then correlated with 35 different image quality metrics (full-reference, no-reference, and distribution-based metrics considered). Our emphasis is on reflecting the radiologist's perception of the reconstructed images, gauging the most diagnostically influential criteria for the quality of MRI scans: signal-to-noise ratio, contrast-to-noise ratio, and the presence of artifacts.
翻訳日:2022-03-16 15:39:47 公開日:2022-03-15
# 四元曲面による同時局在とマッピング

Simultaneous Localisation and Mapping with Quadric Surfaces ( http://arxiv.org/abs/2203.08040v1 )

ライセンス: Link先を確認
Tristan Laidlow and Andrew J. Davison(参考訳) 同時局所化とマッピング(SLAM)でマップを表現するには、多くの可能性がある。 希少でキーポイントベースのSLAMシステムは、驚くほどの精度と堅牢性を達成したが、それらのマップは多くのロボット作業に適していないかもしれない。 複雑なSLAMシステムは、密集した再構成を生成できるが、計算コストが高く、スパースシステムと同様に、シーンの構造に関する高レベルな情報がない。 人為的な環境には多くの構造があり、SLAMシステムの特徴として二次曲面を利用できるようにすることでこれを活用しようとしている。 二次曲面の最小表現を導入し、これを最小二乗の定式化に組み込む方法を示す。 また、我々の表現が、革命の四次数に見られるような四次数に関する追加の制約を含むように容易に拡張できることを示す。 最後に、この表現を用いた概念実証SLAMシステムを導入し、RGB-Dデータセットを用いた実験結果を示す。

There are many possibilities for how to represent the map in simultaneous localisation and mapping (SLAM). While sparse, keypoint-based SLAM systems have achieved impressive levels of accuracy and robustness, their maps may not be suitable for many robotic tasks. Dense SLAM systems are capable of producing dense reconstructions, but can be computationally expensive and, like sparse systems, lack higher-level information about the structure of a scene. Human-made environments contain a lot of structure, and we seek to take advantage of this by enabling the use of quadric surfaces as features in SLAM systems. We introduce a minimal representation for quadric surfaces and show how this can be included in a least-squares formulation. We also show how our representation can be easily extended to include additional constraints on quadrics such as those found in quadrics of revolution. Finally, we introduce a proof-of-concept SLAM system using our representation, and provide some experimental results using an RGB-D dataset.
翻訳日:2022-03-16 15:38:53 公開日:2022-03-15
# ARTEMIS:テキスト明示的マッチングと暗黙的類似性を用いた注意に基づく検索

ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and Implicit Similarity ( http://arxiv.org/abs/2203.08101v1 )

ライセンス: Link先を確認
Ginger Delmas and Rafael Sampaio de Rezende and Gabriela Csurka and Diane Larlus(参考訳) 画像を探す直感的な方法は、例画像と相補的なテキストからなるクエリを使用することである。 1つ目は検索にリッチで暗黙的なコンテキストを提供するが、後者は明示的に新しい特徴を呼び出したり、サンプル画像のいくつかの要素をどのように変更して望ましいターゲット画像を取得するかを指定する。 現在のアプローチでは、クエリの2つの要素のそれぞれの特徴を単一の表現に組み合わせ、潜在的なターゲットイメージの特徴と比較することができる。 本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。 それらから着想を得て,各問合せ要素と対象画像との特定の関係を活用し,2つの相補的モダリティ間の仲介を可能にする軽量注意機構を導出する。 提案手法を複数の検索ベンチマークで検証し,画像と関連した自由形テキスト修飾器を用いて検索する。 提案手法は,従来の研究のように,サイド情報,多レベル特徴,重度事前学習,大規模アーキテクチャに頼ることなく,最先端の成果が得られる。

An intuitive way to search for images is to use queries composed of an example image and a complementary text. While the first provides rich and implicit context for the search, the latter explicitly calls for new traits, or specifies how some elements of the example image should be changed to retrieve the desired target image. Current approaches typically combine the features of each of the two elements of the query into a single representation, which can then be compared to the ones of the potential target images. Our work aims at shedding new light on the task by looking at it through the prism of two familiar and related frameworks: text-to-image and image-to-image retrieval. Taking inspiration from them, we exploit the specific relation of each query element with the targeted image and derive light-weight attention mechanisms which enable to mediate between the two complementary modalities. We validate our approach on several retrieval benchmarks, querying with images and their associated free-form text modifiers. Our method obtains state-of-the-art results without resorting to side information, multi-level features, heavy pre-training nor large architectures as in previous works.
翻訳日:2022-03-16 15:38:37 公開日:2022-03-15
# (参考訳) 効果的なビデオアップスケーリングのための時空間ダウンサンプリングの学習 [全文訳有]

Learning Spatio-Temporal Downsampling for Effective Video Upscaling ( http://arxiv.org/abs/2203.08140v1 )

ライセンス: CC BY 4.0
Xiaoyu Xiang, Yapeng Tian, Vijay Rengarajan, Lucas Young, Bo Zhu, Rakesh Ranjan(参考訳) ダウンサンプリングは最も基本的な画像処理操作の1つである。 ビデオに印加される不適切な時空間ダウンサンプリングは、空間におけるモワーイパターンや時間におけるワゴンホイール効果などのエイリアス問題を引き起こす。 その結果,低解像度で低フレームレートの映像を空間と時間でアップスケールする逆タスクは,情報損失やアーティファクトのエイリアスなどによる問題となる。 本稿では時空間ダウンサンプラーを学習することで時空間エイリアス問題を解決することを目的とする。 この目標に向けて,時空間ダウンサンプリングとアップサンプリングを共同で学習するニューラルネットワークフレームワークを提案する。 これにより、ダウンサンプラーはオリジナルのビデオのキーパターンを保持でき、アップサンプラーの復元性能を最大化できる。 ダウンサンプリング結果を一般的な画像およびビデオストレージフォーマットと互換性を持たせるため、ダウンサンプリング結果は微分可能な量子化層でuint8に符号化される。 時空間対応を十分に活用するために,時空間伝搬と時空間特徴再構成のための2つの新しいモジュールを提案する。 実験の結果,提案手法は,ダウンサンプリングとアップスケーリングの両方において空間テクスチャと動きパターンを保ち,時空間復元の質を著しく向上させることがわかった。 さらに,任意のビデオサンプリング,ぼやけたフレーム再構成,効率的なビデオストレージなど,さまざまなアプリケーションを実現する。

Downsampling is one of the most basic image processing operations. Improper spatio-temporal downsampling applied on videos can cause aliasing issues such as moir\'e patterns in space and the wagon-wheel effect in time. Consequently, the inverse task of upscaling a low-resolution, low frame-rate video in space and time becomes a challenging ill-posed problem due to information loss and aliasing artifacts. In this paper, we aim to solve the space-time aliasing problem by learning a spatio-temporal downsampler. Towards this goal, we propose a neural network framework that jointly learns spatio-temporal downsampling and upsampling. It enables the downsampler to retain the key patterns of the original video and maximizes the reconstruction performance of the upsampler. To make the downsamping results compatible with popular image and video storage formats, the downsampling results are encoded to uint8 with a differentiable quantization layer. To fully utilize the space-time correspondences, we propose two novel modules for explicit temporal propagation and space-time feature rearrangement. Experimental results show that our proposed method significantly boosts the space-time reconstruction quality by preserving spatial textures and motion patterns in both downsampling and upscaling. Moreover, our framework enables a variety of applications, including arbitrary video resampling, blurry frame reconstruction, and efficient video storage.
翻訳日:2022-03-16 15:37:13 公開日:2022-03-15
# 確率的誤差モデルによるグラフニューラルネットワークの感度

Graph Neural Network Sensitivity Under Probabilistic Error Model ( http://arxiv.org/abs/2203.07831v1 )

ライセンス: Link先を確認
Xinjue Wang, Esa Ollila and Sergiy A. Vorobyov(参考訳) グラフ畳み込みネットワーク(GCN)はグラフ畳み込みによってグラフ信号表現をうまく学習することができる。 グラフの畳み込みは、データのトポロジ的依存関係を含み、データ特徴を伝播するグラフフィルタに依存する。 しかし、伝播行列(例えば、隣接行列)における推定誤差は、グラフフィルタやGCNに大きな影響を与える可能性がある。 本稿では,確率的グラフ誤差モデルがGCNの性能に与える影響について検討する。 誤差モデルの下での隣接行列はグラフサイズと誤差確率の関数によって境界づけられていることを証明する。 さらに,自己ループを付加した正規化隣接行列の上界を解析的に指定する。 最後に, この確率的誤差モデルを用いて, 合成データセット上で実験を行い, 簡易GCNの感度について検討する。

Graph convolutional networks (GCNs) can successfully learn the graph signal representation by graph convolution. The graph convolution depends on the graph filter, which contains the topological dependency of data and propagates data features. However, the estimation errors in the propagation matrix (e.g., the adjacency matrix) can have a significant impact on graph filters and GCNs. In this paper, we study the effect of a probabilistic graph error model on the performance of the GCNs. We prove that the adjacency matrix under the error model is bounded by a function of graph size and error probability. We further analytically specify the upper bound of a normalized adjacency matrix with self-loop added. Finally, we illustrate the error bounds by running experiments on a synthetic dataset and study the sensitivity of a simple GCN under this probabilistic error model on accuracy.
翻訳日:2022-03-16 15:12:39 公開日:2022-03-15
# 適切な校正誤差による信頼できる深層学習:予測不確かさの信頼性を定量化する統一的アプローチ

Trustworthy Deep Learning via Proper Calibration Errors: A Unifying Approach for Quantifying the Reliability of Predictive Uncertainty ( http://arxiv.org/abs/2203.07835v1 )

ライセンス: Link先を確認
Sebastian Gruber and Florian Buettner(参考訳) モデルの信頼性はセンシティブな現実世界のアプリケーションにとって不可欠であり、実践者は不確実性校正の観点からディープニューラルネットワークの評価にますます注力している。 校正誤差は確率的予測の信頼性を定量化するために設計されているが、その推定値は通常バイアスがあり一貫性がない。 本研究では,各キャリブレーション誤差を適切なスコアに関連付け,各上限値に最適な推定特性を与える,適切なキャリブレーション誤差の枠組みを提案する。 この上界により,任意の注入再調整法のキャリブレーション改善を偏りなく確実に推定できる。 我々のアプローチとは対照的に、最も一般的に使われている推定器は、補正手法の真の改善に関してかなり偏りがあることを実証する。

With model trustworthiness being crucial for sensitive real-world applications, practitioners are putting more and more focus on evaluating deep neural networks in terms of uncertainty calibration. Calibration errors are designed to quantify the reliability of probabilistic predictions but their estimators are usually biased and inconsistent. In this work, we introduce the framework of proper calibration errors, which relates every calibration error to a proper score and provides a respective upper bound with optimal estimation properties. This upper bound allows us to reliably estimate the calibration improvement of any injective recalibration method in an unbiased manner. We demonstrate that, in contrast to our approach, the most commonly used estimators are substantially biased with respect to the true improvement of recalibration methods.
翻訳日:2022-03-16 15:12:28 公開日:2022-03-15
# 近似性と一般化

Approximability and Generalisation ( http://arxiv.org/abs/2203.07989v1 )

ライセンス: Link先を確認
Andrew J. Turner and Ata Kab\'an(参考訳) 近似学習マシンは、量子化、分解、ハッシュ化、その他の圧縮された予測器を含む小さなデバイスの時代に人気となり、そのような手法の優れた一般化能力の説明と保証を試み始めたばかりである。 本稿では,データから学習する予測器の完全精度と近似設定の両方において,手元の近似演算子の動作に対する予測器の感度という概念を通して,学習における近似可能性の役割について検討する。 そのような予測器の一般化に関する上限を証明し、任意のpac-learnableクラスと任意の任意の近似作用素に対して以下の主要な発見を与える。 1) 緩やかな条件下では, より小さなラベル付きサンプルから近似可能な目標概念が学習可能であることを示す。 2)近似も同じ一般化保証を享受する優れた予測器を保証するアルゴリズムを与える。 3) センシティビティのクラスにおける自然な構造例に注目し, 追加のラベルなしデータに対する不要な要件を低減し, 場合によっては排除する可能性も示唆し, 問題インスタンスが他よりも学習しやすいものに新たな光を当てた。 これらの結果は、一様境界を最小化することで適切なアルゴリズムを提案する統計的学習理論の一般的な目標に、現代のモデル圧縮アプローチの範囲を組み込む。

Approximate learning machines have become popular in the era of small devices, including quantised, factorised, hashed, or otherwise compressed predictors, and the quest to explain and guarantee good generalisation abilities for such methods has just begun. In this paper we study the role of approximability in learning, both in the full precision and the approximated settings of the predictor that is learned from the data, through a notion of sensitivity of predictors to the action of the approximation operator at hand. We prove upper bounds on the generalisation of such predictors, yielding the following main findings, for any PAC-learnable class and any given approximation operator. 1) We show that under mild conditions, approximable target concepts are learnable from a smaller labelled sample, provided sufficient unlabelled data. 2) We give algorithms that guarantee a good predictor whose approximation also enjoys the same generalisation guarantees. 3) We highlight natural examples of structure in the class of sensitivities, which reduce, and possibly even eliminate the otherwise abundant requirement of additional unlabelled data, and henceforth shed new light onto what makes one problem instance easier to learn than another. These results embed the scope of modern model compression approaches into the general goal of statistical learning theory, which in return suggests appropriate algorithms through minimising uniform bounds.
翻訳日:2022-03-16 15:12:14 公開日:2022-03-15
# ショートカットのないディープラーニング:テーラー整流器によるカーネル形成

Deep Learning without Shortcuts: Shaping the Kernel with Tailored Rectifiers ( http://arxiv.org/abs/2203.08120v1 )

ライセンス: Link先を確認
Guodong Zhang, Aleksandar Botev, James Martens(参考訳) 非常に深いニューラルネットワークのトレーニングは、依然として非常に難しい課題です。 一般的な解決策はショートカット接続と正規化レイヤを使用することであり、どちらも人気のあるresnetアーキテクチャの重要な要素である。 しかし、ResNetsが真に深いネットワークよりも浅いネットワークのアンサンブルのように振る舞うことを示す強い証拠がある。 近年、深いバニラネットワーク(すなわち、正規化層やショートカット接続のないネットワーク)は、特定の変換をアクティベーション関数に適用することでResNetsと同じくらい高速にトレーニングできることが示されている。 しかし、この手法(Deep Kernel Shapingと呼ばれる)はReLUと完全には互換性がなく、ImageNet上のResNetよりもはるかに過適合なネットワークを生成する。 本稿では、ReLUの亜種であるLeaky ReLUと完全に互換性のある新しいタイプの変換を開発することで、この状況を是正する。 本稿では,本手法が計算コストを不要に削減し,(同じ幅/深さの)resnetと競合し,カオスのエッジ(eoc)法で得られたものよりもはるかに高い深層バニラネットワークによる検証精度を実現することを示す。 EOCとは異なり、私たちが取得した検証精度は、深さによって悪化することはない。

Training very deep neural networks is still an extremely challenging task. The common solution is to use shortcut connections and normalization layers, which are both crucial ingredients in the popular ResNet architecture. However, there is strong evidence to suggest that ResNets behave more like ensembles of shallower networks than truly deep ones. Recently, it was shown that deep vanilla networks (i.e. networks without normalization layers or shortcut connections) can be trained as fast as ResNets by applying certain transformations to their activation functions. However, this method (called Deep Kernel Shaping) isn't fully compatible with ReLUs, and produces networks that overfit significantly more than ResNets on ImageNet. In this work, we rectify this situation by developing a new type of transformation that is fully compatible with a variant of ReLUs -- Leaky ReLUs. We show in experiments that our method, which introduces negligible extra computational cost, achieves validation accuracies with deep vanilla networks that are competitive with ResNets (of the same width/depth), and significantly higher than those obtained with the Edge of Chaos (EOC) method. And unlike with EOC, the validation accuracies we obtain do not get worse with depth.
翻訳日:2022-03-16 15:11:50 公開日:2022-03-15
# タスク非依存ロバスト表現学習

Task-Agnostic Robust Representation Learning ( http://arxiv.org/abs/2203.07596v1 )

ライセンス: Link先を確認
A. Tuan Nguyen, Ser Nam Lim, Philip Torr(参考訳) ディープラーニングモデルはその入力の小さなが意図的に選択された摂動に対して極めて脆弱であることが報告されている。 特に、深層ネットワークは、クリーンな画像にほぼ最適の精度があるにもかかわらず、しばしば、最悪のケースで人間の目に見えない摂動(いわゆる敵の例)で画像を誤って分類する。 この問題に対処するために,ネットワークのトレーニング手順を学習し,堅牢性を改善するための研究が盛んに行われている。 しかし、これまでの研究のほとんどは教師あり学習の事例に焦点を当てている。 自己指導型学習手法の普及に伴い、下流タスクにおける結果の表現の頑健さを研究・改善することが重要である。 本稿では,ラベルなしデータを用いたロバスト表現学習の課題をタスクに依存しない方法で検討する。 具体的には、クリーンデータへの損失とロバスト性正規化子を用いて、下流タスクにおける予測モデル(学習した表現に基づく)の敵対的損失の上限を、まず導出する。 さらに,正規化器はタスク非依存であるので,表現学習フェーズにおいて直接的に最小化し,下流予測モデルをより堅牢にすることを提案する。 広範な実験により,本手法は関連するベースラインと比較して好適な敵性能が得られることが示された。

It has been reported that deep learning models are extremely vulnerable to small but intentionally chosen perturbations of its input. In particular, a deep network, despite its near-optimal accuracy on the clean images, often mis-classifies an image with a worst-case but humanly imperceptible perturbation (so-called adversarial examples). To tackle this problem, a great amount of research has been done to study the training procedure of a network to improve its robustness. However, most of the research so far has focused on the case of supervised learning. With the increasing popularity of self-supervised learning methods, it is also important to study and improve the robustness of their resulting representation on the downstream tasks. In this paper, we study the problem of robust representation learning with unlabeled data in a task-agnostic manner. Specifically, we first derive an upper bound on the adversarial loss of a prediction model (which is based on the learned representation) on any downstream task, using its loss on the clean data and a robustness regularizer. Moreover, the regularizer is task-independent, thus we propose to minimize it directly during the representation learning phase to make the downstream prediction model more robust. Extensive experiments show that our method achieves preferable adversarial performance compared to relevant baselines.
翻訳日:2022-03-16 15:11:26 公開日:2022-03-15
# 雑音ラベル学習における雑音検出のためのスケーラブルなペナルド回帰法

Scalable Penalized Regression for Noise Detection in Learning with Noisy Labels ( http://arxiv.org/abs/2203.07788v1 )

ライセンス: Link先を確認
Yikai Wang, Xinwei Sun, and Yanwei Fu(参考訳) ノイズのあるトレーニングセットは通常、ニューラルネットワークの一般化と堅牢性の低下につながる。 本稿では,理論上保証される雑音ラベル検出フレームワークを用いて,雑音ラベル(lnl)を用いた学習のための雑音データの検出と除去を行う。 具体的には,ネットワーク特徴と1つのホットラベルの線形関係をモデル化するためにペナルティ化回帰をデザインし,回帰モデルで解いた非ゼロ平均シフトパラメータを用いて雑音データを同定する。 多数のカテゴリとトレーニングデータを含むデータセットにスケーラブルなフレームワークを提供するため,ペナライズドレグレッション(penalized regression, ペナライズドレグレッション)によって並列に解決可能な,トレーニングセット全体を小さなピースに分割するための分割アルゴリズムを提案し,スケーラブルなペナライズレグレッション(spr)フレームワークを導出する。 雑音データを正確に識別するための非漸近確率条件を提案する。 SPRは、標準教師付きトレーニングパイプラインのサンプル選択モジュールとみなすことができるが、さらに半教師付きアルゴリズムと組み合わせて、ノイズの多いデータをラベルなしデータとしてさらに活用する。 いくつかのベンチマークデータセットと実世界のノイズデータセットの実験結果から,我々のフレームワークの有効性が示された。 私たちのコードとトレーニング済みモデルはhttps://github.com/y ikai-wang/spr-lnlでリリースしています。

Noisy training set usually leads to the degradation of generalization and robustness of neural networks. In this paper, we propose using a theoretically guaranteed noisy label detection framework to detect and remove noisy data for Learning with Noisy Labels (LNL). Specifically, we design a penalized regression to model the linear relation between network features and one-hot labels, where the noisy data are identified by the non-zero mean shift parameters solved in the regression model. To make the framework scalable to datasets that contain a large number of categories and training data, we propose a split algorithm to divide the whole training set into small pieces that can be solved by the penalized regression in parallel, leading to the Scalable Penalized Regression (SPR) framework. We provide the non-asymptotic probabilistic condition for SPR to correctly identify the noisy data. While SPR can be regarded as a sample selection module for standard supervised training pipeline, we further combine it with semi-supervised algorithm to further exploit the support of noisy data as unlabeled data. Experimental results on several benchmark datasets and real-world noisy datasets show the effectiveness of our framework. Our code and pretrained models are released at https://github.com/Y ikai-Wang/SPR-LNL.
翻訳日:2022-03-16 15:11:05 公開日:2022-03-15
# interspace pruning:adaptive filter representationsを使用してスパースcnnのトレーニングを改善する

Interspace Pruning: Using Adaptive Filter Representations to Improve Training of Sparse CNNs ( http://arxiv.org/abs/2203.07808v1 )

ライセンス: Link先を確認
Paul Wimmer, Jens Mehnert and Alexandru Paul Condurache(参考訳) 非構造化プルーニングは、トレーニングと推論時間の両方において、畳み込みニューラルネットワーク(CNN)のメモリフットプリントを削減するのに適している。 cnnは$k \times k$フィルタで配列されたパラメータを含む。 標準非構造化プルーニング(sp)はフィルタ要素を0にすることでcnnのメモリフットプリントを削減し、フィルタを制約する固定部分空間を指定する。 特に刈り取りがトレーニングの前後に適用される場合、これは強いバイアスを引き起こす。 これを解決するために,既存のプルーニング法を改善する汎用ツールであるInterspace pruning (IP)を導入する。 動的インタースペースで表現されるフィルタを、基礎となる適応フィルタ基底(FB)の線形結合で使用する。 IPの場合、FB係数はゼロに設定され、未切断係数とFBは共同で訓練される。 本研究は,IPの優れた性能を示す数学的証拠を提供し,テストされたすべての非構造化プルーニング法において,IPがSPより優れていることを示す。 特に、ImageNetのプルーニングや高いスパシティへのプルーニングのような困難な状況では、IPは、同じランタイムとパラメータコストでSPを大きく上回る。 最後に,IPの進歩は,トレーニング性の向上と一般化能力の向上によるものであることを示す。

Unstructured pruning is well suited to reduce the memory footprint of convolutional neural networks (CNNs), both at training and inference time. CNNs contain parameters arranged in $K \times K$ filters. Standard unstructured pruning (SP) reduces the memory footprint of CNNs by setting filter elements to zero, thereby specifying a fixed subspace that constrains the filter. Especially if pruning is applied before or during training, this induces a strong bias. To overcome this, we introduce interspace pruning (IP), a general tool to improve existing pruning methods. It uses filters represented in a dynamic interspace by linear combinations of an underlying adaptive filter basis (FB). For IP, FB coefficients are set to zero while un-pruned coefficients and FBs are trained jointly. In this work, we provide mathematical evidence for IP's superior performance and demonstrate that IP outperforms SP on all tested state-of-the-art unstructured pruning methods. Especially in challenging situations, like pruning for ImageNet or pruning to high sparsity, IP greatly exceeds SP with equal runtime and parameter costs. Finally, we show that advances of IP are due to improved trainability and superior generalization ability.
翻訳日:2022-03-16 15:10:43 公開日:2022-03-15
# 内在的神経場:多様体上の学習関数

Intrinsic Neural Fields: Learning Functions on Manifolds ( http://arxiv.org/abs/2203.07967v1 )

ライセンス: Link先を確認
Lukas Koestler, Daniel Grittner, Michael Moeller, Daniel Cremers, Zorah L\"ahner(参考訳) ニューラルフィールドはコンピュータビジョンのコミュニティにおいて、新しい視点合成、幾何再構成、生成モデリングにおいて優れた性能を持つため、大きな注目を集めている。 彼らの利点は、健全な理論的基盤と、現在のディープラーニングフレームワークへの簡単な実装である。 ニューラルネットワークは、例えばテクスチャ再構成のために多様体上の信号に適用されているが、それらの表現はユークリッド空間に形を外在的に埋め込むことに限られている。 外部埋め込みは既知の内在多様体の性質を無視し、非フレキシブル Wrt である。 学習した関数の転送。 これらの制限を克服するために、この研究は多様体上の神経場の新しい多目的表現である内在神経場を導入している。 内在神経場は、ニューラルネットワークの利点とラプラス・ベルトラミ作用素のスペクトル特性を結合する。 理論的には、内在性ニューラルフィールドは外在性ニューラルフィールドフレームワークの望ましい多くの特性を継承するが、等尺性不変性のような追加の内在性を示す。 実験では、内在的な神経場が最先端の画像から高忠実なテクスチャを再構成し、基礎となる多様体の離散化に頑健であることを示す。 変形した形状と異なる形状のテクスチャ転送、ビュー依存の現実画像からのテクスチャ再構築、メッシュや点雲における離散化に依存しない学習など、様々な応用により、内在的ニューラルネットワークの汎用性を実証する。

Neural fields have gained significant attention in the computer vision community due to their excellent performance in novel view synthesis, geometry reconstruction, and generative modeling. Some of their advantages are a sound theoretic foundation and an easy implementation in current deep learning frameworks. While neural fields have been applied to signals on manifolds, e.g., for texture reconstruction, their representation has been limited to extrinsically embedding the shape into Euclidean space. The extrinsic embedding ignores known intrinsic manifold properties and is inflexible wrt. transfer of the learned function. To overcome these limitations, this work introduces intrinsic neural fields, a novel and versatile representation for neural fields on manifolds. Intrinsic neural fields combine the advantages of neural fields with the spectral properties of the Laplace-Beltrami operator. We show theoretically that intrinsic neural fields inherit many desirable properties of the extrinsic neural field framework but exhibit additional intrinsic qualities, like isometry invariance. In experiments, we show intrinsic neural fields can reconstruct high-fidelity textures from images with state-of-the-art quality and are robust to the discretization of the underlying manifold. We demonstrate the versatility of intrinsic neural fields by tackling various applications: texture transfer between deformed shapes & different shapes, texture reconstruction from real-world images with view dependence, and discretization-agnos tic learning on meshes and point clouds.
翻訳日:2022-03-16 15:10:19 公開日:2022-03-15
# ニューラルネットは2回同じモデルを学習できるのか? 決定境界の観点からの再現性と二重降下の検討

Can Neural Nets Learn the Same Model Twice? Investigating Reproducibility and Double Descent from the Decision Boundary Perspective ( http://arxiv.org/abs/2203.08124v1 )

ライセンス: Link先を確認
Gowthami Somepalli, Liam Fowl, Arpit Bansal, Ping Yeh-Chiang, Yehuda Dar, Richard Baraniuk, Micah Goldblum, Tom Goldstein(参考訳) ニューラルネットワーク決定境界と決定領域を可視化する手法について議論する。 ニューラルネットワークトレーニングにおける再現性と一般化に関する問題を,これらの可視化を用いて調査する。 モデルアーキテクチャの変更(およびそれに伴う帰納的バイアス)が決定境界を視覚的に変化させるのに対して、同じアーキテクチャを持つ複数の実行は、特にワイドアーキテクチャの場合には、強い類似性を伴う。 また,二重降下現象を可視化するために決定境界法を用いる。 決定境界再現性はモデル幅に強く依存している。 補間しきい値付近では、ニューラルネットワーク決定境界は多くの小さな決定領域に断片化され、これらの領域は再現不可能である。 一方、非常に狭いネットワークと非常に広いネットワークは、比較的少数の決定領域を持つ決定境界において高い再現性を持つ。 凸モデルにおける二重降下現象の理論と我々の観測がどう関係しているかを論じる。 コードはhttps://github.com/s omepago/dbVizで入手できる。

We discuss methods for visualizing neural network decision boundaries and decision regions. We use these visualizations to investigate issues related to reproducibility and generalization in neural network training. We observe that changes in model architecture (and its associate inductive bias) cause visible changes in decision boundaries, while multiple runs with the same architecture yield results with strong similarities, especially in the case of wide architectures. We also use decision boundary methods to visualize double descent phenomena. We see that decision boundary reproducibility depends strongly on model width. Near the threshold of interpolation, neural network decision boundaries become fragmented into many small decision regions, and these regions are non-reproducible. Meanwhile, very narrows and very wide networks have high levels of reproducibility in their decision boundaries with relatively few decision regions. We discuss how our observations relate to the theory of double descent phenomena in convex models. Code is available at https://github.com/s omepago/dbViz
翻訳日:2022-03-16 15:09:40 公開日:2022-03-15
# tsm:自然言語処理によるハニーファイルの誘惑の測定

TSM: Measuring the Enticement of Honeyfiles with Natural Language Processing ( http://arxiv.org/abs/2203.07580v1 )

ライセンス: Link先を確認
Roelien C. Timmer and David Liebowitz and Surya Nepal and Salil Kanhere(参考訳) honeyfileの展開は、侵入者や悪意のあるインサイダーの意図や関心をディフェンダーに知らせる、サイバー詐欺における有用な侵入検出方法である。 ハニーファイルの重要な特性であるエンチテンションは、ファイルがそれと対話するために侵入者を引き付けることができる範囲である。 本稿では,トピックモデリングを用いてリポジトリ内のファイルを表現する新しいメトリクスであるトピック意味マッチング(tsm)と,honeyfileテキストとトピックワードをロバストに比較するための埋め込みベクトル空間における意味マッチングを提案する。 また、異なる自然言語処理(NLP)手法で作成したハニーファイルコーパスも提示する。 実験により、TSMは組織間比較に有効であり、ハニーファイルのエンチメントを測定するための有望なツールであることが示された。 TSMはNLP技術を用いた最初の尺度であり、局所的な文脈の重要トピックの内容とハニーファイルを比較したハニーファイルの内容のエンティベーションを定量化し、言い換えるのに堅牢である。

Honeyfile deployment is a useful breach detection method in cyber deception that can also inform defenders about the intent and interests of intruders and malicious insiders. A key property of a honeyfile, enticement, is the extent to which the file can attract an intruder to interact with it. We introduce a novel metric, Topic Semantic Matching (TSM), which uses topic modelling to represent files in the repository and semantic matching in an embedding vector space to compare honeyfile text and topic words robustly. We also present a honeyfile corpus created with different Natural Language Processing (NLP) methods. Experiments show that TSM is effective in inter-corpus comparisons and is a promising tool to measure the enticement of honeyfiles. TSM is the first measure to use NLP techniques to quantify the enticement of honeyfile content that compares the essential topical content of local contexts to honeyfiles and is robust to paraphrasing.
翻訳日:2022-03-16 15:08:48 公開日:2022-03-15
# 補間と摂動を伴う高密度検索のための文書表現の強化

Augmenting Document Representations for Dense Retrieval with Interpolation and Perturbation ( http://arxiv.org/abs/2203.07735v1 )

ライセンス: Link先を確認
Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park(参考訳) 濃密な表現空間における入力クエリの最も関連性の高い文書の検索を目的とした高密度検索モデルは,その顕著な成功に対して大きな注目を集めている。 しかし、高密度モデルは顕著なパフォーマンスのために大量のラベル付きトレーニングデータを必要とするが、人間によって注釈付けされたクエリドキュメントペアを取得することはしばしば困難である。 そこで本研究では,その補間と摂動によって文書の表現を増強する,高密度検索(dar)フレームワークのための簡易かつ効果的な文書拡張手法を提案する。 2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、DARが関連するベースラインを大幅に上回ることを示す。

Dense retrieval models, which aim at retrieving the most relevant document for an input query on a dense representation space, have gained considerable attention for their remarkable success. Yet, dense models require a vast amount of labeled training data for notable performance, whereas it is often challenging to acquire query-document pairs annotated by humans. To tackle this problem, we propose a simple but effective Document Augmentation for dense Retrieval (DAR) framework, which augments the representations of documents with their interpolation and perturbation. We validate the performance of DAR on retrieval tasks with two benchmark datasets, showing that the proposed DAR significantly outperforms relevant baselines on the dense retrieval of both the labeled and unlabeled documents.
翻訳日:2022-03-16 15:08:27 公開日:2022-03-15
# 学習リーマン多様体上の反応性運動の生成

Reactive Motion Generation on Learned Riemannian Manifolds ( http://arxiv.org/abs/2203.07761v1 )

ライセンス: Link先を確認
Hadi Beik-Mohammadi, S{\o}ren Hauberg, Georgios Arvanitidis, Gerhard Neumann, Leonel Rozo(参考訳) 近年、モーション学習の進歩により、ロボットは新しいスキルを習得し、構造化された環境と非構造化された環境の両方で目に見えない状況に適応できるようになった。 実際に、動作学習法は関連するパターンを捕捉し、動的障害物回避や可変目標などの新しい条件に調整する。 本稿では,リーマン多様体の観点からロボットの動き学習パラダイムを考察する。 リーマン多様体は、測地学が自然な運動スキルである人間のデモンストレーションを通して学べる。 測地学は、新しい変分オートエンコーダ(VAE)によって生成された学習されたリーマン計量を用いて生成される。 さらに,障害物を考慮した環境メトリクスを用いて学習多様体を再構成することにより,オンザフライ・エンドエフェクタ/マルチランブ障害物回避を容易にする手法を提案する。 これらの測地線を用いて生成された運動は、以前は明らかに示されていなかった多重解法タスクを自然に引き起こす可能性がある。 我々は7自由度ロボットマニピュレータを用いてタスクスペースとジョイントスペースのシナリオでこのアプローチを広範囲にテストした。 本研究では,人間の操作者が示す複雑な動作パターンに基づいて,動作スキルを学習し,生成することができることを示す。 さらに,複数の障害物回避戦略を評価し,複数モード設定で軌道を生成する。

In recent decades, advancements in motion learning have enabled robots to acquire new skills and adapt to unseen conditions in both structured and unstructured environments. In practice, motion learning methods capture relevant patterns and adjust them to new conditions such as dynamic obstacle avoidance or variable targets. In this paper, we investigate the robot motion learning paradigm from a Riemannian manifold perspective. We argue that Riemannian manifolds may be learned via human demonstrations in which geodesics are natural motion skills. The geodesics are generated using a learned Riemannian metric produced by our novel variational autoencoder (VAE), which is especially intended to recover full-pose end-effector states and joint space configurations. In addition, we propose a technique for facilitating on-the-fly end-effector/multipl e-limb obstacle avoidance by reshaping the learned manifold using an obstacle-aware ambient metric. The motion generated using these geodesics may naturally result in multiple-solution tasks that have not been explicitly demonstrated previously. We extensively tested our approach in task space and joint space scenarios using a 7-DoF robotic manipulator. We demonstrate that our method is capable of learning and generating motion skills based on complicated motion patterns demonstrated by a human operator. Additionally, we assess several obstacle avoidance strategies and generate trajectories in multiple-mode settings.
翻訳日:2022-03-16 15:08:13 公開日:2022-03-15
# 信念の組込みコミュニケーションを推論する学習

Learning to Infer Belief Embedded Communication ( http://arxiv.org/abs/2203.07832v1 )

ライセンス: Link先を確認
Guo Ye and Han Liu and Biswa Sengupta(参考訳) コミュニケーションを伴うマルチエージェント協調問題において、エージェントの意図をエンコードし、他のエージェントの戦略を解釈する能力は、将来のアクションの計画に不可欠である。 本稿では,エージェントの言語学習能力を模倣する,IEC(Intention Embedded Communication)と呼ばれる新しいアルゴリズムを提案する。 IECには、過去の行動に対応する他のエージェントの意図を復号するための知覚モジュールが含まれている。 また、2つ以上のエージェントとのコミュニケーション中に暗黙の文法を学ぶための言語生成モジュールも含まれている。 このような文法は、構成上、効率的な通信のためにコンパクトでなければならない。 どちらのモジュールもコンジョイント進化 (conjoint evolution) - 試行錯誤によって選択した言語を学習できる幼児のバブリングに似ている。 我々は、捕食者/獲物、交通ジャンクション、レベルベースの採餌という3つのマルチエージェント環境を利用して、MADDPGのような最先端のアルゴリズムよりも、より速く(50%)学習できることを示す。 アブレーション研究により、推定信念モジュール、通信モジュール、隠蔽状態の無効化はモデル性能をそれぞれ38%、60%、30%減少させることが示された。 したがって、他のエージェントの振る舞いをモデル化することで、他のエージェントが文法を学習し、効率的にコミュニケーションする言語を開発することを提案する。 提案手法を協調シナリオの集合上で評価し,他のマルチエージェントベースラインよりも優れた性能を示す。 また、エージェントが他人の状態を判断し、継続的なコミュニケーションによってこの能力を学ぶことが不可欠であることを示す。

In multi-agent collaboration problems with communication, an agent's ability to encode their intention and interpret other agents' strategies is critical for planning their future actions. This paper introduces a novel algorithm called Intention Embedded Communication (IEC) to mimic an agent's language learning ability. IEC contains a perception module for decoding other agents' intentions in response to their past actions. It also includes a language generation module for learning implicit grammar during communication with two or more agents. Such grammar, by construction, should be compact for efficient communication. Both modules undergo conjoint evolution - similar to an infant's babbling that enables it to learn a language of choice by trial and error. We utilised three multi-agent environments, namely predator/prey, traffic junction and level-based foraging and illustrate that such a co-evolution enables us to learn much quicker (50%) than state-of-the-art algorithms like MADDPG. Ablation studies further show that disabling the inferring belief module, communication module, and the hidden states reduces the model performance by 38%, 60% and 30%, respectively. Hence, we suggest that modelling other agents' behaviour accelerates another agent to learn grammar and develop a language to communicate efficiently. We evaluate our method on a set of cooperative scenarios and show its superior performance to other multi-agent baselines. We also demonstrate that it is essential for agents to reason about others' states and learn this ability by continuous communication.
翻訳日:2022-03-16 15:07:54 公開日:2022-03-15
# 深部生成モデルによるプライバシ保護プロセスデータの生成

Generating Privacy-Preserving Process Data with Deep Generative Models ( http://arxiv.org/abs/2203.07949v1 )

ライセンス: Link先を確認
Keyi Li, Sen Yang, Travis M. Sullivan, Randall S. Burd, Ivan Marsic(参考訳) 機密情報によるプロセスデータの直接的な共有はできないため、プロセスデータのマイニングと分析の研究が妨げられる。 データ暗号化手法はデータを保護するために研究されているが、復号化され、個々の識別につながる可能性がある。 表現学習の異なるモデルを実験し,学習モデルを用いて合成プロセスデータを生成する。 我々は,プロセスデータ生成のための逆生成ネットワーク(ProcessGAN)を導入し,生成器と識別器の2つのトランスフォーマーネットワークを導入した。 我々は,6つの実世界のデータセットでProcessGANと従来のモデルを評価し,そのうち2つは公開され,4つは医療領域で収集された。 統計的指標と教師付き学習スコアを用いて合成データの評価を行った。 また、プロセスマイニングを用いて、真正および合成データセットのワークフローを発見し、医療専門家に合成ワークフローの臨床的適用性を評価した。 ProcessGANは、複雑なプロセスの小さな認証データセットでトレーニングされた場合、従来のシーケンシャルモデルよりも優れていた。 processganは、医療プロセスのような複雑なプロセスで重要なアクティビティ間の長距離依存性を表現した。 従来のシーケンシャルモデルは、単純なプロセスの大規模データでトレーニングするとより良く機能する。 結論として, プロセスガンは, 実データと区別できない大量の合成プロセスデータを生成することができる。

Process data with confidential information cannot be shared directly in public, which hinders the research in process data mining and analytics. Data encryption methods have been studied to protect the data, but they still may be decrypted, which leads to individual identification. We experimented with different models of representation learning and used the learned model to generate synthetic process data. We introduced an adversarial generative network for process data generation (ProcessGAN) with two Transformer networks for the generator and the discriminator. We evaluated ProcessGAN and traditional models on six real-world datasets, of which two are public and four are collected in medical domains. We used statistical metrics and supervised learning scores to evaluate the synthetic data. We also used process mining to discover workflows for the authentic and synthetic datasets and had medical experts evaluate the clinical applicability of the synthetic workflows. We found that ProcessGAN outperformed traditional sequential models when trained on small authentic datasets of complex processes. ProcessGAN better represented the long-range dependencies between the activities, which is important for complicated processes such as the medical processes. Traditional sequential models performed better when trained on large data of simple processes. We conclude that ProcessGAN can generate a large amount of sharable synthetic process data indistinguishable from authentic data.
翻訳日:2022-03-16 15:05:48 公開日:2022-03-15
# 2人の専門家による効率的かつ最適固定時間後悔

Efficient and Optimal Fixed-Time Regret with Two Experts ( http://arxiv.org/abs/2203.07577v1 )

ライセンス: Link先を確認
Laura Greenstreet, Nicholas J. A. Harvey, Victor Sanches Portella(参考訳) 専門家のアドバイスによる予測は、オンライン学習における基礎的な問題である。 t$ ラウンドと n$ エキスパートのインスタンスでは、classic multiplicative weights update メソッドは、事前に $t$ が知られている場合、最大$\sqrt{(t/2)\ln n}$ で苦しむ。 さらに、これは、$t$ と $n$ の両方が無限大に成長するときに漸近的に最適である。 しかし、n$が小さい/固定されている場合、より後悔する保証のあるアルゴリズムが存在する。 カバーは1967年に、2つの専門家問題に対する動的プログラミングアルゴリズムを、最大$\sqrt{t/2\pi} + o(1)$プリプロセス時間で後悔する$\{0,1\}$コストに制限した。 本研究では,[0,1]$ のコストと 1 ターンあたり $o(1)$ の処理時間という2つの専門家のアドバイスによる予測の最適アルゴリズムを提案する。 提案アルゴリズムは,確率計算の手法とツールに基づく専門家問題の最近の研究に基づいている。

Prediction with expert advice is a foundational problem in online learning. In instances with $T$ rounds and $n$ experts, the classical Multiplicative Weights Update method suffers at most $\sqrt{(T/2)\ln n}$ regret when $T$ is known beforehand. Moreover, this is asymptotically optimal when both $T$ and $n$ grow to infinity. However, when the number of experts $n$ is small/fixed, algorithms with better regret guarantees exist. Cover showed in 1967 a dynamic programming algorithm for the two-experts problem restricted to $\{0,1\}$ costs that suffers at most $\sqrt{T/2\pi} + O(1)$ regret with $O(T^2)$ pre-processing time. In this work, we propose an optimal algorithm for prediction with two experts' advice that works even for costs in $[0,1]$ and with $O(1)$ processing time per turn. Our algorithm builds up on recent work on the experts problem based on techniques and tools from stochastic calculus.
翻訳日:2022-03-16 15:05:31 公開日:2022-03-15
# 確率的支配による2つのサンプルの比較:グラフィカルアプローチ

Comparing two samples through stochastic dominance: a graphical approach ( http://arxiv.org/abs/2203.07889v1 )

ライセンス: Link先を確認
Etor Arza, Josu Ceberio, Ekhi\~ne Irurozki, Aritz P\'erez(参考訳) 確率的最適化アルゴリズムのパフォーマンスやカオス環境における強化学習エージェントの総報酬は、予測不可能な結果が一般的である2つの例である。 これらの測度は確率変数としてモデル化でき、期待値またはヌル仮説統計テストのようなより洗練されたツールを介して互いに比較することができる。 本稿では,推定累積分布関数に従って2つのサンプルを視覚的に比較するフレームワークを提案する。 まず、確率変数の1つの累積分布関数が他方をスコラ的に支配する割合を定量化する2つの確率変数に対する支配度尺度を導入する。 次に,分位数に分解するグラフィカルな手法を提案する。 一 提案された支配措置及び 二 確率変数の一方が他方よりも低い値を取る確率 実証的な目的により,提案手法を用いて既に公開された研究の実験を再評価し,追加の結論(他の手法の欠如)が推測可能であることを示す。 さらに、RVCompareというソフトウェアパッケージは、提案したフレームワークを適用して実験するための便利な方法として作られた。

Non-deterministic measurements are common in real-world scenarios: the performance of a stochastic optimization algorithm or the total reward of a reinforcement learning agent in a chaotic environment are just two examples in which unpredictable outcomes are common. These measures can be modeled as random variables and compared among each other via their expected values or more sophisticated tools such as null hypothesis statistical tests. In this paper, we propose an alternative framework to visually compare two samples according to their estimated cumulative distribution functions. First, we introduce a dominance measure for two random variables that quantifies the proportion in which the cumulative distribution function of one of the random variables scholastically dominates the other one. Then, we present a graphical method that decomposes in quantiles i) the proposed dominance measure and ii) the probability that one of the random variables takes lower values than the other. With illustrative purposes, we re-evaluate the experimentation of an already published work with the proposed methodology and we show that additional conclusions (missed by the rest of the methods) can be inferred. Additionally, the software package RVCompare was created as a convenient way of applying and experimenting with the proposed framework.
翻訳日:2022-03-16 15:05:11 公開日:2022-03-15
# スケーラブルなBigraphical Lasso: カウントデータのための双方向スパースネットワーク推論

Scalable Bigraphical Lasso: Two-way Sparse Network Inference for Count Data ( http://arxiv.org/abs/2203.07912v1 )

ライセンス: Link先を確認
Sijia Li, Mart\'in L\'opez-Garc\'ia, Neil D. Lawrence, Luisa Cutillo(参考訳) 古典的には、統計データセットは特徴(n > p$)よりも多くのデータポイントを持つ。 古典統計学の標準モデルは、パラメータによってデータポイントが条件付き独立と見なされる場合に対応する。 しかし、$n\approx p$ や $p > n$ ではそのようなモデルは不確定である。 Kalaitzis et al. (2013) は、グラフのチャート積に基づいたスパース精度行列の推定器である Bigraphical Lasso を導入した。 残念ながら、元のBigraphical Lassoアルゴリズムはメモリ要求のため、大きな p と n の場合には適用できない。 直積グラフの固有値分解を利用して、より効率的なアルゴリズムのバージョンを示し、メモリ要求を$o(n^2p^2)$から$o(n^2 + p^2)$に削減する。 生物学、医学、社会科学など、さまざまな応用分野における多くのデータセットには、ガウスに基づくモデルが適用できないカウントデータがある。 我々のマルチウェイネットワーク推論アプローチは離散データに利用できる。 我々の方法論はインスタンスと機能の両方の依存関係を考慮し、高次元データの計算複雑性を低減し、離散データと連続データの両方を扱えるようにする。 本手法の性能を示すために,合成データと実データの両方について数値的研究を行った。

Classically, statistical datasets have a larger number of data points than features ($n > p$). The standard model of classical statistics caters for the case where data points are considered conditionally independent given the parameters. However, for $n\approx p$ or $p > n$ such models are poorly determined. Kalaitzis et al. (2013) introduced the Bigraphical Lasso, an estimator for sparse precision matrices based on the Cartesian product of graphs. Unfortunately, the original Bigraphical Lasso algorithm is not applicable in case of large p and n due to memory requirements. We exploit eigenvalue decomposition of the Cartesian product graph to present a more efficient version of the algorithm which reduces memory requirements from $O(n^2p^2)$ to $O(n^2 + p^2)$. Many datasets in different application fields, such as biology, medicine and social science, come with count data, for which Gaussian based models are not applicable. Our multi-way network inference approach can be used for discrete data. Our methodology accounts for the dependencies across both instances and features, reduces the computational complexity for high dimensional data and enables to deal with both discrete and continuous data. Numerical studies on both synthetic and real datasets are presented to showcase the performance of our method.
翻訳日:2022-03-16 15:04:52 公開日:2022-03-15
# 近傍近傍の時間複雑度を考慮した自然階層クラスタ解析

Natural Hierarchical Cluster Analysis by Nearest Neighbors with Near-Linear Time Complexity ( http://arxiv.org/abs/2203.08027v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本稿では,クラスタの階層構造を自然に定義する最近傍のクラスタリングアルゴリズムを提案する。 集約的および分割的階層クラスタリングアルゴリズムとは対照的に,階層クラスタの分割が入力データセットに従って純粋に定義されるという意味で,我々のアプローチはアルゴリズムの反復的な動作に依存しない。 我々の手法は、ボトムアップバージョンやトップダウンバージョンとして実装できるため、普遍的な階層的クラスタリング手法であり、どちらも同じクラスタリングをもたらす。 ある種のデータセットでは、アルゴリズムが線形に近い時間と空間の複雑さを持つことを示す。

We propose a nearest neighbor based clustering algorithm that results in a naturally defined hierarchy of clusters. In contrast to the agglomerative and divisive hierarchical clustering algorithms, our approach is not dependent on the iterative working of the algorithm, in the sense that the partitions of the hierarchical clusters are purely defined in accordance with the input dataset. Our method is a universal hierarchical clustering approach since it can be implemented as bottom up or top down versions, both of which result in the same clustering. We show that for certain types of datasets, our algorithm has near-linear time and space complexity.
翻訳日:2022-03-16 15:03:15 公開日:2022-03-15
# CryoAI:実際のCryo-EM画像から3次元分子ボリュームを初期再構成する可能性

CryoAI: Amortized Inference of Poses for Ab Initio Reconstruction of 3D Molecular Volumes from Real Cryo-EM Images ( http://arxiv.org/abs/2203.08138v1 )

ライセンス: Link先を確認
Axel Levy, Fr\'ed\'eric Poitevin, Julien Martel, Youssef Nashed, Ariana Peck, Nina Miolane, Daniel Ratner, Mike Dunne, Gordon Wetzstein(参考訳) クリオ電子顕微鏡(cryo-EM)は構造生物学において重要なツールとなり、生命の基本的な構成要素を理解するのに役立っている。 cryo-emのアルゴリズム上の課題は、未知の3dポーズと、非常にノイズの多い2d画像から生体分子の3d電子散乱ポテンシャルを共同で推定することである。 しかし、既存の再構成アルゴリズムは、計算コストとメモリコストが高いため、急速に増大するCryo-EMデータセットのサイズに容易に対応できない。 粒子ポーズの直勾配最適化と単一粒子Creo-EMデータからの電子散乱電位を用いた等質コンフォメーションのアブ初期再構成アルゴリズムであるCreoAIを導入する。 CryoAIは、各粒子画像のポーズを予測する学習エンコーダと物理ベースのデコーダを組み合わせて、各粒子画像を散乱ポテンシャル体積の暗黙の表現に集約する。 このボリュームは計算効率のためにフーリエ領域に格納され、メモリ効率のために現代の座標ネットワークアーキテクチャを利用する。 同期化損失関数と組み合わせて、このフレームワークは、シミュレーションデータと実験データの両方に対して最先端のCryo-EMソルバに匹敵する品質を達成し、大規模なデータセットでは1桁高速で、既存の手法よりもメモリ要求が大幅に低い。

Cryo-electron microscopy (cryo-EM) has become a tool of fundamental importance in structural biology, helping us understand the basic building blocks of life. The algorithmic challenge of cryo-EM is to jointly estimate the unknown 3D poses and the 3D electron scattering potential of a biomolecule from millions of extremely noisy 2D images. Existing reconstruction algorithms, however, cannot easily keep pace with the rapidly growing size of cryo-EM datasets due to their high computational and memory cost. We introduce cryoAI, an ab initio reconstruction algorithm for homogeneous conformations that uses direct gradient-based optimization of particle poses and the electron scattering potential from single-particle cryo-EM data. CryoAI combines a learned encoder that predicts the poses of each particle image with a physics-based decoder to aggregate each particle image into an implicit representation of the scattering potential volume. This volume is stored in the Fourier domain for computational efficiency and leverages a modern coordinate network architecture for memory efficiency. Combined with a symmetrized loss function, this framework achieves results of a quality on par with state-of-the-art cryo-EM solvers for both simulated and experimental data, one order of magnitude faster for large datasets and with significantly lower memory requirements than existing methods.
翻訳日:2022-03-16 15:02:19 公開日:2022-03-15
# 視覚目標定位による物体操作

Object Manipulation via Visual Target Localization ( http://arxiv.org/abs/2203.08141v1 )

ライセンス: Link先を確認
Kiana Ehsani, Ali Farhadi, Aniruddha Kembhavi, Roozbeh Mottaghi(参考訳) オブジェクト操作は、Embodied AIエージェントが周囲の世界と対話するために必要な重要なスキルである。 オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。 これには、エージェントの腕によるターゲットオブジェクトの閉塞、ノイズのあるオブジェクトの検出と位置決め、エージェントがシーン内を動き回るときにターゲットが頻繁に視界から外れることが含まれる。 本研究では,対象物体を探索する環境を探索し,対象物が見えなくても3d座標を計算し,その3d位置を推定する手法であるvisual object location estimation (m-vole)を提案する。 対象位置推定器を使わずに同じ感覚スイートにアクセスできるモデルに対して,成功率を3倍に向上させた結果,被写体位置推定器を使わずにトレーニングを行った結果,被写体深度知覚とエージェント位置推定における雑音に頑健であることが判明した。 重要なことに、提案手法は、具体化aiにおける最近の研究で一般的に採用されている理想化されたローカライゼーションと認識に関するいくつかの仮定を緩和する。

Object manipulation is a critical skill required for Embodied AI agents interacting with the world around them. Training agents to manipulate objects, poses many challenges. These include occlusion of the target object by the agent's arm, noisy object detection and localization, and the target frequently going out of view as the agent moves around in the scene. We propose Manipulation via Visual Object Location Estimation (m-VOLE), an approach that explores the environment in search for target objects, computes their 3D coordinates once they are located, and then continues to estimate their 3D locations even when the objects are not visible, thus robustly aiding the task of manipulating these objects throughout the episode. Our evaluations show a massive 3x improvement in success rate over a model that has access to the same sensory suite but is trained without the object location estimator, and our analysis shows that our agent is robust to noise in depth perception and agent localization. Importantly, our proposed approach relaxes several assumptions about idealized localization and perception that are commonly employed by recent works in embodied AI -- an important step towards training agents for object manipulation in the real world.
翻訳日:2022-03-16 15:01:50 公開日:2022-03-15
# 機械学習と宇宙論

Machine Learning and Cosmology ( http://arxiv.org/abs/2203.08056v1 )

ライセンス: Link先を確認
Cora Dvorkin, Siddharth Mishra-Sharma, Brian Nord, V. Ashley Villar, Camille Avestruz, Keith Bechtol, Aleksandra \'Ciprijanovi\'c, Andrew J. Connolly, Lehman H. Garrison, Gautham Narayan, and Francisco Villaescusa-Navarro(参考訳) 機械学習に基づく手法は、最近、宇宙論の多くの分野において大きな進歩を遂げた。 このプロセスを通じて、新しい計算ツール、データ収集、モデル開発、分析、発見に関する新しい視点、そして新しいコミュニティや教育経路が出現した。 急速な進歩にもかかわらず、宇宙論と機械学習の交点における大きなポテンシャルはいまだに残っていない。 本稿では、宇宙学における機械学習の適用に関する現在および現在進行中の進展を概説し、技術開発と新興コミュニティの育成を通じて、今後10年間に急成長するこれらのツールの科学的影響を最大化することを目的とした一連の勧告を提供する。

Methods based on machine learning have recently made substantial inroads in many corners of cosmology. Through this process, new computational tools, new perspectives on data collection, model development, analysis, and discovery, as well as new communities and educational pathways have emerged. Despite rapid progress, substantial potential at the intersection of cosmology and machine learning remains untapped. In this white paper, we summarize current and ongoing developments relating to the application of machine learning within cosmology and provide a set of recommendations aimed at maximizing the scientific impact of these burgeoning tools over the coming decade through both technical development as well as the fostering of emerging communities.
翻訳日:2022-03-16 15:01:31 公開日:2022-03-15
# アルゴリズム分類器のためのカテゴリー表現学習とRGフロー演算子

Categorical Representation Learning and RG flow operators for algorithmic classifiers ( http://arxiv.org/abs/2203.07975v1 )

ライセンス: Link先を確認
Artan Sheshmani and Yizhuang You and Wenbo Fu and Ahmadreza Azizi(参考訳) 最初の2人の著者によるカテゴリー表現学習(arxiv:2103.14770)の初期の形式化に続いて、rgフローに基づく分類器の構成について論じる。 量子場理論、ホログラフィック双対性、双曲幾何学における正規化群フロー(RG)の理論からアイデアを抽出し、それらをニューラルODEと混合し、RG-フロー分類器(RG-flow categorifier)と呼ばれる新しいアルゴリズム自然言語処理(NLP)アーキテクチャを構築し、すべての層でデータ分類と生成が可能なRG分類器(RG categorifier)を短くする。 バイオメディカルデータセットにアルゴリズムプラットフォームを適用し,その性能をシーケンス・トゥ・ファンクション・マッピングの分野で示す。 特に、rg分類器をインフルエンザウイルスの特定のゲノム配列に適用し、我々の技術が、与えられたゲノム配列から情報を抽出し、それらの隠れた対称性と支配的な特徴を見つけ、それらを分類し、訓練されたデータを使用して、ヒトの免疫系を回避できる新しいウイルスのセットに関連する新しい有望な生成配列の確率的予測を行う方法を示す。 現在の記事の内容は、最初の2人の著者によって提出された最近の米国特許出願(米国特許出願番号63/313.504)の一部である。

Following the earlier formalism of the categorical representation learning (arXiv:2103.14770) by the first two authors, we discuss the construction of the "RG-flow based categorifier". Borrowing ideas from theory of renormalization group flows (RG) in quantum field theory, holographic duality, and hyperbolic geometry, and mixing them with neural ODE's, we construct a new algorithmic natural language processing (NLP) architecture, called the RG-flow categorifier or for short the RG categorifier, which is capable of data classification and generation in all layers. We apply our algorithmic platform to biomedical data sets and show its performance in the field of sequence-to-function mapping. In particular we apply the RG categorifier to particular genomic sequences of flu viruses and show how our technology is capable of extracting the information from given genomic sequences, find their hidden symmetries and dominant features, classify them and use the trained data to make stochastic prediction of new plausible generated sequences associated with new set of viruses which could avoid the human immune system. The content of the current article is part of the recent US patent application submitted by first two authors (U.S. Patent Application No.: 63/313.504).
翻訳日:2022-03-16 15:00:15 公開日:2022-03-15
# トップダウンおよびボトムアップ推論を用いた長文要約

Long Document Summarization with Top-down and Bottom-up Inference ( http://arxiv.org/abs/2203.07586v1 )

ライセンス: Link先を確認
Bo Pang, Erik Nijkamp, Wojciech Kry\'sci\'nski, Silvio Savarese, Yingbo Zhou, Caiming Xiong(参考訳) テキスト要約は、長い文書を凝縮し、キー情報を保持することを目的としている。 要約モデルの成功に欠かせないのは、ソース文書における単語やトークンの潜在表現の忠実な推論である。 最近のモデルでは、トランスフォーマーエンコーダで潜在表現を推測するが、これは純粋にボトムアップである。 また、自己アテンションに基づく推論モデルは、シーケンス長に関して二次複雑性の課題に直面している。 これら2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。 トップレベルがより粗い時間スケールで長距離依存性をキャプチャし、ボトムトークンレベルが詳細を保持するドキュメントの階層的潜在構造を前提としています。 この階層構造により、ボトムアップとトップダウンの両方でトークン表現を更新できる。 ボトムアップパスでは、トークン表現はその効率を活用するために局所的な自己アテンションで推論される。 その後、トークンが長距離依存性をキャプチャするためにトップダウン補正が適用される。 本稿では,物語,会話,科学文書,ニュースなど,多種多様な要約データセットにおける提案フレームワークの有効性を実証する。 本モデルでは,(1)完全注意トランスに比べて,メモリ効率と計算効率が向上した短い文書の性能と,(2)最近の効率のよいトランスに比べて,幅広い長文要約ベンチマークにおける最先端の性能を実現する。 また,本モデルでは本書全体を要約して,$0.27\%$パラメータ (464m 対 175b) と,最近の gpt-3 ベースのモデルに比べてはるかに少ないトレーニングデータを用いて,競合性能を達成できることを示した。 これらの結果は,提案フレームワークの汎用性とメリットを示している。

Text summarization aims to condense long documents and retain key information. Critical to the success of a summarization model is the faithful inference of latent representations of words or tokens in the source documents. Most recent models infer the latent representations with a transformer encoder, which is purely bottom-up. Also, self-attention-based inference models face the challenge of quadratic complexity with respect to sequence length. We propose a principled inference framework to improve summarization models on these two aspects. Our framework assumes a hierarchical latent structure of a document where the top-level captures the long range dependency at a coarser time scale and the bottom token level preserves the details. Critically, this hierarchical structure enables token representations to be updated in both a bottom-up and top-down manner. In the bottom-up pass, token representations are inferred with local self-attention to leverage its efficiency. Top-down correction is then applied to allow tokens to capture long-range dependency. We demonstrate the effectiveness of the proposed framework on a diverse set of summarization datasets, including narrative, conversational, scientific documents and news. Our model achieves (1) competitive or better performance on short documents with higher memory and compute efficiency, compared to full attention transformers, and (2) state-of-the-art performance on a wide range of long document summarization benchmarks, compared to recent efficient transformers. We also show that our model can summarize an entire book and achieve competitive performance using $0.27\%$ parameters (464M vs. 175B) and much less training data, compared to a recent GPT-3-based model. These results indicate the general applicability and benefits of the proposed framework.
翻訳日:2022-03-16 14:58:44 公開日:2022-03-15
# スパース符号化を用いた教師なし抽出的意見要約

Unsupervised Extractive Opinion Summarization Using Sparse Coding ( http://arxiv.org/abs/2203.07921v1 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Chao Zhao, Snigdha Chaturvedi(参考訳) Opinion summarizationは、複数のユーザレビューから情報をカプセル化した要約を自動的に生成するタスクである。 本稿では,セマンティック・オートエンコーダ(Semantic Autoencoder,SemAE)について,教師なしの方法で抽出的意見要約を行う。 SemAEは辞書学習を使用して、レビューから暗黙的に意味情報をキャプチャし、各文のセマンティック単位に対する潜在表現を学習する。 セマンティックユニットは抽象的なセマンティック概念をキャプチャする。 抽出要約アルゴリズムは,その表現を利用して,数百のレビューの中から代表者の意見を識別する。 SemAEはまた、アスペクト固有の要約を生成するために制御可能な要約を実行することもできる。 宇宙とamazonのデータセットでの強力なパフォーマンスを報告し、モデルの機能を調べる実験を行いました。 私たちのコードはhttps://github.com/b rcsomnath/SemAE.comで公開されています。

Opinion summarization is the task of automatically generating summaries that encapsulate information from multiple user reviews. We present Semantic Autoencoder (SemAE) to perform extractive opinion summarization in an unsupervised manner. SemAE uses dictionary learning to implicitly capture semantic information from the review and learns a latent representation of each sentence over semantic units. A semantic unit is supposed to capture an abstract semantic concept. Our extractive summarization algorithm leverages the representations to identify representative opinions among hundreds of reviews. SemAE is also able to perform controllable summarization to generate aspect-specific summaries. We report strong performance on SPACE and AMAZON datasets, and perform experiments to investigate the functioning of our model. Our code is publicly available at https://github.com/b rcsomnath/SemAE.
翻訳日:2022-03-16 14:56:46 公開日:2022-03-15
# プロンプティングによるモジュール・パラメータ効率多モード核融合

Modular and Parameter-Efficient Multimodal Fusion with Prompting ( http://arxiv.org/abs/2203.08055v1 )

ライセンス: Link先を確認
Sheng Liang, Mengjie Zhao, Hinrich Sch\"utze(参考訳) 最近の研究は、大規模マルチモーダル事前訓練において顕著な進歩を遂げている。 モデルサイズの急速な成長の文脈では、微調整以外の効率的で柔軟な方法を求める必要がある。 本稿では,プロンプトベクトルを用いてモダリティを整列する手法を提案する。 本手法は,低リソース環境下でのマルチモーダル融合法と同等の性能を実現する。 さらに,提案手法は2つ以上のデータモダリティを含むタスクの処理において,モジュラーかつパラメータ効率が良いことを示す。

Recent research has made impressive progress in large-scale multimodal pre-training. In the context of the rapid growth of model size, it is necessary to seek efficient and flexible methods other than finetuning. In this paper, we propose to use prompt vectors to align the modalities. Our method achieves comparable performance to several other multimodal fusion methods in low-resource settings. We further show that our method is modular and parameter-efficient for processing tasks involving two or more data modalities.
翻訳日:2022-03-16 14:56:34 公開日:2022-03-15
# 眼球運動パターンの予測における(精神医学的)言語的, 可読性的特徴とその流出の影響の測定

Measuring the Impact of (Psycho-)Linguistic and Readability Features and Their Spill Over Effects on the Prediction of Eye Movement Patterns ( http://arxiv.org/abs/2203.08085v1 )

ライセンス: Link先を確認
Daniel Wiechmann, Yu Qiao, Elma Kerz, Justus Mattern(参考訳) NLPと機械学習の併用による自然主義的読書における視線パターンの予測への関心が高まっている。 トランスフォーマーに基づく言語モデルを用いて有望な結果が得られたが、それらのモデルの性能と一般的なテキスト特性を関連付ける作業はほとんど行われていない。 本稿では,2つの視線追跡コーパスと2つの言語モデル(BERTとGPT-2)による実験について報告する。 あらゆる実験において,人間の読解行動を予測するための幅広い特徴(音韻的複雑性,語彙的富度,レジスタベース多語の組み合わせ,可読性,心理言語的単語特性)の効果を検証した。 本実験は, トランスフォーマーに基づく言語モデルの特徴とアーキテクチャの両方が, 自然視読影時の複数の視線追跡指標を予測する役割を担っていることを示す。 また,SP-LIMEを用いて,異なるグループからの特徴の相対的重要性を決定する実験結果を報告する。

There is a growing interest in the combined use of NLP and machine learning methods to predict gaze patterns during naturalistic reading. While promising results have been obtained through the use of transformer-based language models, little work has been undertaken to relate the performance of such models to general text characteristics. In this paper we report on experiments with two eye-tracking corpora of naturalistic reading and two language models (BERT and GPT-2). In all experiments, we test effects of a broad spectrum of features for predicting human reading behavior that fall into five categories (syntactic complexity, lexical richness, register-based multiword combinations, readability and psycholinguistic word properties). Our experiments show that both the features included and the architecture of the transformer-based language models play a role in predicting multiple eye-tracking measures during naturalistic reading. We also report the results of experiments aimed at determining the relative importance of features from different groups using SP-LIME.
翻訳日:2022-03-16 14:56:27 公開日:2022-03-15
# 時間的知識グラフ推論のための複雑な進化パターン学習

Complex Evolutional Pattern Learning for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2203.07782v1 )

ライセンス: Link先を確認
Zixuan Li, Saiping Guan, Xiaolong Jin, Weihua Peng, Yajuan Lyu, Yong Zhu, Long Bai, Wei Li, Jiafeng Guo and Xueqi Cheng(参考訳) 時間知識グラフ(TKG)は、異なるタイムスタンプに対応するKGの列である。 tkg推論は、歴史的kg系列から将来の潜在的な事実を予測することを目的としている。 このタスクの鍵は、これらのシーケンスから事実の進化パターンを掘り下げ、理解することである。 進化パターンは、長さの多様性と時間変化の2つの側面において複雑である。 既存のtkg推論のモデルは固定長のファクトシーケンスのモデル化に焦点を当てており、長さの異なる複雑な進化パターンを見つけることはできない。 さらに、これらのモデルはすべてオフラインでトレーニングされており、それ以降の進化パターンの変化にうまく適応できない。 そこで我々は,CEN(Complex Evolutional Network)と呼ばれる新しいモデルを提案し,CNN(Convolutional Neural Network)を用いて,異なる長さの進化パターンを扱う。 さらに、オンライン環境下でモデルを学習し、時間とともに進化するパターンの変化に対応することを提案する。 大規模な実験により、CENは従来のオフラインと提案されたオンライン設定の両方で大幅なパフォーマンス改善を達成している。

A Temporal Knowledge Graph (TKG) is a sequence of KGs corresponding to different timestamps. TKG reasoning aims to predict potential facts in the future given the historical KG sequences. One key of this task is to mine and understand evolutional patterns of facts from these sequences. The evolutional patterns are complex in two aspects, length-diversity and time-variability. Existing models for TKG reasoning focus on modeling fact sequences of a fixed length, which cannot discover complex evolutional patterns that vary in length. Furthermore, these models are all trained offline, which cannot well adapt to the changes of evolutional patterns from then on. Thus, we propose a new model, called Complex Evolutional Network (CEN), which uses a length-aware Convolutional Neural Network (CNN) to handle evolutional patterns of different lengths via an easy-to-difficult curriculum learning strategy. Besides, we propose to learn the model under the online setting so that it can adapt to the changes of evolutional patterns over time. Extensive experiments demonstrate that CEN obtains substantial performance improvement under both the traditional offline and the proposed online settings.
翻訳日:2022-03-16 14:54:18 公開日:2022-03-15
# RotateQVS: 時間知識グラフ補完のための四元ベクトル空間の回転としてテンポラル情報を表現する

RotateQVS: Representing Temporal Information as Rotations in Quaternion Vector Space for Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2203.07993v1 )

ライセンス: Link先を確認
Kai Chen, Ye Wang, Yitong Li and Aiping Li(参考訳) 時間的要因は、病気の進展や政治状況の発達など、現実的な応用における事実の成長と結びついており、時間的知識グラフ(TKG)の研究は、多くの注目を集めている。 TKGでは、時間性に固有の関係パターンを、時間的事実を横断する表現学習と推論のために研究する必要がある。 しかし,既存の手法では時間的関係パターンをモデル化することは困難であり,解釈可能性に欠けるため,時間とともに進化する関係の内在的な関係を捉えることはできない。 本稿では,四元数ベクトル空間 (rotateqvs) における回転とハミルトン四元数空間における複素ベクトルの関係を表す新しい時空間モデリング手法を提案する。 提案手法は, 対称性, 非対称性, 逆数などのTKGにおける重要な関係パターンをモデル化し, 時間発展関係を理論的に捉えることができる。 提案手法は,4つの時間的知識グラフベンチマーク上でリンク予測タスクの性能を向上させることができることを示す。

Temporal factors are tied to the growth of facts in realistic applications, such as the progress of diseases and the development of political situation, therefore, research on Temporal Knowledge Graph (TKG) attracks much attention. In TKG, relation patterns inherent with temporality are required to be studied for representation learning and reasoning across temporal facts. However, existing methods can hardly model temporal relation patterns, nor can capture the intrinsic connections between relations when evolving over time, lacking of interpretability. In this paper, we propose a novel temporal modeling method which represents temporal entities as Rotations in Quaternion Vector Space (RotateQVS) and relations as complex vectors in Hamilton's quaternion space. We demonstrate our method can model key patterns of relations in TKG, such as symmetry, asymmetry, inverse, and can further capture time-evolved relations by theory. Empirically, we show that our method can boost the performance of link prediction tasks over four temporal knowledge graph benchmarks.
翻訳日:2022-03-16 14:53:59 公開日:2022-03-15
# セグメンテーションにすべきでないことを学ぶ:Few-Shot Segmentationの新しい視点

Learning What Not to Segment: A New Perspective on Few-Shot Segmentation ( http://arxiv.org/abs/2203.07615v1 )

ライセンス: Link先を確認
Chunbo Lang, Gong Cheng, Binfei Tu, Junwei Han(参考訳) 近年では、FSS ( few-shot segmentation) が広く開発されている。 これまでのほとんどの研究は、分類タスクから派生したメタラーニングフレームワークを通じて一般化を図っているが、訓練されたモデルは、理想的にはクラスに依存しないのではなく、見たクラスに偏っているため、新しい概念の認識を妨げる。 本稿では,この問題を解消するための新鮮で分かりやすい洞察を提案する。 具体的には、従来のfssモデル(meta learner)に新たなブランチ(base learner)を適用して、ベースクラスのターゲット、すなわちセグメンテーションを必要としない領域を明示的に識別する。 そして、これら2人の学習者が並列に出力する粗い結果を適応的に統合し、正確なセグメンテーション予測を行う。 さらに,メタ学習者の感性を考慮して,入力画像ペア間のシーン差を推定し,モデルアンサンブル予測を容易にする調整因子を提案する。 PASCAL-5i と COCO-20i の大幅な性能向上は有効性を検証するものであり、我々の多目的スキームは2人の素人学習者でさえ新しい最先端の手法を定めている。 さらに,提案手法のユニークな性質に照らして,ベースクラスと新規クラスの双方の画素が決定されるような,より現実的で挑戦的な設定,すなわち一般化されたfsにも拡張する。 ソースコードはgithub.com/chunbolan g/BAMで入手できる。

Recently few-shot segmentation (FSS) has been extensively developed. Most previous works strive to achieve generalization through the meta-learning framework derived from classification tasks; however, the trained models are biased towards the seen classes instead of being ideally class-agnostic, thus hindering the recognition of new concepts. This paper proposes a fresh and straightforward insight to alleviate the problem. Specifically, we apply an additional branch (base learner) to the conventional FSS model (meta learner) to explicitly identify the targets of base classes, i.e., the regions that do not need to be segmented. Then, the coarse results output by these two learners in parallel are adaptively integrated to yield precise segmentation prediction. Considering the sensitivity of meta learner, we further introduce an adjustment factor to estimate the scene differences between the input image pairs for facilitating the model ensemble forecasting. The substantial performance gains on PASCAL-5i and COCO-20i verify the effectiveness, and surprisingly, our versatile scheme sets a new state-of-the-art even with two plain learners. Moreover, in light of the unique nature of the proposed approach, we also extend it to a more realistic but challenging setting, i.e., generalized FSS, where the pixels of both base and novel classes are required to be determined. The source code is available at github.com/chunbolan g/BAM.
翻訳日:2022-03-16 14:53:17 公開日:2022-03-15
# P-STMO:3次元人文推定のための事前学習型時空間多対一モデル

P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose Estimation ( http://arxiv.org/abs/2203.07628v1 )

ライセンス: Link先を確認
Wenkang Shan, Zhenhua Liu, Xinfeng Zhang, Shanshe Wang, Siwei Ma, Wen Gao(参考訳) 本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。 空間的・時間的情報収集の難しさを軽減するため,この課題を事前学習(ステップI)と微調整(ステップII)の2段階に分けた。 第1段階では、マスク付きポーズモデリングと呼ばれる、自己教師付き事前学習サブタスクが提案されている。 入力シーケンス内のヒト関節は、空間領域と時間領域の両方でランダムにマスクされる。 一般的なオートエンコーダを用いて元の2Dポーズを復元し、この方法で空間的および時間的依存関係をキャプチャすることができる。 ステージIIでは、事前訓練されたエンコーダがSTMOモデルにロードされ、微調整される。 エンコーダには、現在のフレーム内の3Dポーズを予測する多対一のフレームアグリゲータが続く。 特に、MLPブロックをSTMOの空間特徴抽出器として利用し、他の方法よりも優れた性能が得られる。 さらに,データ冗長性を低下させるため,時間的ダウンサンプリング戦略を提案する。 2つのベンチマーク実験により,本手法はパラメータが少なく,計算オーバーヘッドが少なく,最先端の手法よりも優れていることが示された。 例えば、P-STMOモデルはCPNからの2Dポーズを入力として使用する場合、Human3.6Mデータセット上で42.1mmMPJPEを達成する。 一方、最先端の手法に1.5-7.1倍のスピードアップをもたらす。 コードはhttps://github.com/p aTRICK-swk/P-STMOで入手できる。

This paper introduces a novel Pre-trained Spatial Temporal Many-to-One (P-STMO) model for 2D-to-3D human pose estimation task. To reduce the difficulty of capturing spatial and temporal information, we divide this task into two stages: pre-training (Stage I) and fine-tuning (Stage II). In Stage I, a self-supervised pre-training sub-task, termed masked pose modeling, is proposed. The human joints in the input sequence are randomly masked in both spatial and temporal domains. A general form of denoising auto-encoder is exploited to recover the original 2D poses and the encoder is capable of capturing spatial and temporal dependencies in this way. In Stage II, the pre-trained encoder is loaded to STMO model and fine-tuned. The encoder is followed by a many-to-one frame aggregator to predict the 3D pose in the current frame. Especially, an MLP block is utilized as the spatial feature extractor in STMO, which yields better performance than other methods. In addition, a temporal downsampling strategy is proposed to diminish data redundancy. Extensive experiments on two benchmarks show that our method outperforms state-of-the-art methods with fewer parameters and less computational overhead. For example, our P-STMO model achieves 42.1mm MPJPE on Human3.6M dataset when using 2D poses from CPN as inputs. Meanwhile, it brings a 1.5-7.1 times speedup to state-of-the-art methods. Code is available at https://github.com/p aTRICK-swk/P-STMO.
翻訳日:2022-03-16 14:52:53 公開日:2022-03-15
# wave-san: クロスドメイン・マイナショット学習のためのウェーブレットベースの拡張ネットワーク

Wave-SAN: Wavelet based Style Augmentation Network for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2203.07656v1 )

ライセンス: Link先を確認
Yuqian Fu, Yu Xie, Yanwei Fu, Jingjing Chen, Yu-Gang Jiang(参考訳) これまでのFSLは、一般的な概念やカテゴリの自然なイメージに限られていた。 これらの作業は、ソースクラスとターゲットクラスの間に非常に高い視覚的類似性を仮定する。 対照的に、最近提案されたクロスドメイン・ショットラーニング (CD-FSL) は、多くのラベル付き例の一般的な自然画像から、少数のラベル付き例の新規ドメイン固有ターゲットカテゴリへの知識の伝達を目的としている。 CD-FSLの鍵となる課題は、ソースとターゲットドメインの間の大きなデータシフトにある。 これにより、CD-FSLタスクに対処するために古典的なFSLメソッドを直接拡張するのは、非常に簡単ではない。 そこで本稿では,cd-fslの問題を,ソースデータセットのスタイル分布にまたがって検討する。 特にウェーブレット変換を導入し、視覚表現を形状やスタイルなどの低周波成分、例えばテクスチャなどの高周波成分に分解する。 我々のモデルを視覚的スタイルに堅牢にするために、低周波成分のスタイルを交換することで、ソースイメージを拡張します。 本稿では,新しいStyle Augmentation (StyleAug) モジュールを提案する。 さらに, 自己教師学習(ssl)モジュールを提案することで, スタイル提示画像の予測が, 変化しない画像と意味的に類似していることを保証する。 これにより、スタイルを交換する際の潜在的なセマンティックドリフトの問題を回避することができる。 2つのCD-FSLベンチマークの大規模な実験により,本手法の有効性が示された。 コードとモデルはリリースされます。

Previous few-shot learning (FSL) works mostly are limited to natural images of general concepts and categories. These works assume very high visual similarity between the source and target classes. In contrast, the recently proposed cross-domain few-shot learning (CD-FSL) aims at transferring knowledge from general nature images of many labeled examples to novel domain-specific target categories of only a few labeled examples. The key challenge of CD-FSL lies in the huge data shift between source and target domains, which is typically in the form of totally different visual styles. This makes it very nontrivial to directly extend the classical FSL methods to address the CD-FSL task. To this end, this paper studies the problem of CD-FSL by spanning the style distributions of the source dataset. Particularly, wavelet transform is introduced to enable the decomposition of visual representations into low-frequency components such as shape and style and high-frequency components e.g., texture. To make our model robust to visual styles, the source images are augmented by swapping the styles of their low-frequency components with each other. We propose a novel Style Augmentation (StyleAug) module to implement this idea. Furthermore, we present a Self-Supervised Learning (SSL) module to ensure the predictions of style-augmented images are semantically similar to the unchanged ones. This avoids the potential semantic drift problem in exchanging the styles. Extensive experiments on two CD-FSL benchmarks show the effectiveness of our method. Our codes and models will be released.
翻訳日:2022-03-16 14:52:30 公開日:2022-03-15
# 超解像のためのリッチcnn変換機能アグリゲーションネットワーク

Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution ( http://arxiv.org/abs/2203.07682v1 )

ライセンス: Link先を確認
Jinsu Yoo, Taehoon Kim, Sihaeng Lee, Seung Hwan Kim, Honglak Lee, Tae Hyun Kim(参考訳) 近年の視覚トランスフォーマーは、様々なコンピュータビジョンタスクで有望な結果を得ている。 特に、純粋なトランスフォーマーベースの画像復元アーキテクチャは、多数のトレーニング可能なパラメータを持つマルチタスク事前トレーニングを用いて、既存のCNNベースの手法を超越している。 本稿では,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を利用して,SR結果をさらに改善する,高分解能タスクのための効果的なハイブリッドアーキテクチャを提案する。 具体的には, 変圧器と畳み込み分岐からなるアーキテクチャであり, それぞれの表現を補うために2つの分岐を相互に融合することにより, 性能を実質的に向上させる。 さらに,異なるスケールのトークン間の情報的関係を効率的に活用できる,クロススケールなトークンアテンションモジュールを提案する。 提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。

Recent vision transformers along with self-attention have achieved promising results on various computer vision tasks. In particular, a pure transformer-based image restoration architecture surpasses the existing CNN-based methods using multi-task pre-training with a large number of trainable parameters. In this paper, we introduce an effective hybrid architecture for super-resolution (SR) tasks, which leverages local features from CNNs and long-range dependencies captured by transformers to further improve the SR results. Specifically, our architecture comprises of transformer and convolution branches, and we substantially elevate the performance by mutually fusing two branches to complement each representation. Furthermore, we propose a cross-scale token attention module, which allows the transformer to efficiently exploit the informative relationships among tokens across different scales. Our proposed method achieves state-of-the-art SR results on numerous benchmark datasets.
翻訳日:2022-03-16 14:52:08 公開日:2022-03-15
# InsCon:自己教師付き学習によるインスタンスの一貫性特徴表現

InsCon:Instance Consistency Feature Representation via Self-Supervised Learning ( http://arxiv.org/abs/2203.07688v1 )

ライセンス: Link先を確認
Junwei Yang, Ke Zhang, Zhaolin Cui, Jinming Su, Junfeng Luo, and Xiaolin Wei(参考訳) 自己教師付き学習による特徴表現は,画像レベルのコントラスト学習において顕著な成功を収めている。 画像レベルの特徴表現は、主に1つのインスタンスにおけるコントラスト学習に焦点を当てているが、オブジェクト検出やインスタンス分割のような、前文と下流予測タスクの客観的な違いを無視する。 下流予測タスクにおける特徴表現のパワーを完全に解き放つために,マルチインスタンス情報の取得と,オブジェクト認識とローカライゼーションのためのセル・インスタンス機能の抽出を専門とする,InsConというエンドツーエンドのセルフ教師付きフレームワークを提案する。 一方、InsConは、マルチインスタンスイメージを入力として適用し、学習した機能を対応するインスタンスビュー間で整合させるターゲット学習パラダイムを構築し、マルチインスタンス認識タスクにより適している。 一方、InsConでは、セルの整合性を利用して、きめ細かい特徴表現を強化し、正確な境界ローカライゼーションを実現する。 その結果、InsConは意味的特徴表現のマルチインスタンス一貫性と空間的特徴表現のセルインスタンス一貫性を学習した。 実験では,COCO オブジェクト検出における MoCo v2 を 1.1% AP^{bb} で上回り,Mask R-CNN R50-FPN ネットワーク構造を用いた COCO インスタンス分割では 1.0% AP^{mk} で90k繰り返し,PASCAL VOC オブジェクト検出では 2.1% APbb で24k反復で高速 R-CNN R50-C4 ネットワーク構造を用いた。

Feature representation via self-supervised learning has reached remarkable success in image-level contrastive learning, which brings impressive performances on image classification tasks. While image-level feature representation mainly focuses on contrastive learning in single instance, it ignores the objective differences between pretext and downstream prediction tasks such as object detection and instance segmentation. In order to fully unleash the power of feature representation on downstream prediction tasks, we propose a new end-to-end self-supervised framework called InsCon, which is devoted to capturing multi-instance information and extracting cell-instance features for object recognition and localization. On the one hand, InsCon builds a targeted learning paradigm that applies multi-instance images as input, aligning the learned feature between corresponding instance views, which makes it more appropriate for multi-instance recognition tasks. On the other hand, InsCon introduces the pull and push of cell-instance, which utilizes cell consistency to enhance fine-grained feature representation for precise boundary localization. As a result, InsCon learns multi-instance consistency on semantic feature representation and cell-instance consistency on spatial feature representation. Experiments demonstrate the method we proposed surpasses MoCo v2 by 1.1% AP^{bb} on COCO object detection and 1.0% AP^{mk} on COCO instance segmentation using Mask R-CNN R50-FPN network structure with 90k iterations, 2.1% APbb on PASCAL VOC objection detection using Faster R-CNN R50-C4 network structure with 24k iterations.
翻訳日:2022-03-16 14:51:55 公開日:2022-03-15
# 多人数3次元ポーズ推定のための分布認識型単段モデル

Distribution-Aware Single-Stage Models for Multi-Person 3D Pose Estimation ( http://arxiv.org/abs/2203.07697v1 )

ライセンス: Link先を確認
Zitian Wang, Xuecheng Nie, Xiaochao Qu, Yunpeng Chen, Si Liu(参考訳) 本稿では,多人数3次元ポーズ推定問題に取り組むための分散認識単段モデルを提案する。 既存のトップダウン法とボトムアップ法と異なり,提案したDASモデルは1パス方式で3Dカメラ空間内の人物位置と対応する身体関節を同時にローカライズする。 これにより、効率が向上した単純化されたパイプラインが実現される。 さらにdasは、以前の作品のように単純なラプラシアンやガウス的な仮定をするのではなく、それらの位置の回帰のための身体関節の真の分布を学ぶ。 これにより、モデル予測に価値ある優先順位が与えられ、ボリュームベースの予測と競合するパフォーマンスを達成するために回帰ベースのスキームが促進される。 さらに、DASは回帰目標に徐々に近づき、最適化の難しさを軽減し、回帰性能をさらに高める再帰的な更新戦略を利用する。 DASは完全な畳み込みニューラルネットワークで実装され、エンドツーエンドで学習可能である。 CMU Panoptic と MuPoTS-3D のベンチマーク実験は、提案したDASモデルのより優れた効率、特に以前のベストモデルよりも1.5倍の高速化、そして多人数の3Dポーズ推定における最先端の精度を示す。

In this paper, we present a novel Distribution-Aware Single-stage (DAS) model for tackling the challenging multi-person 3D pose estimation problem. Different from existing top-down and bottom-up methods, the proposed DAS model simultaneously localizes person positions and their corresponding body joints in the 3D camera space in a one-pass manner. This leads to a simplified pipeline with enhanced efficiency. In addition, DAS learns the true distribution of body joints for the regression of their positions, rather than making a simple Laplacian or Gaussian assumption as previous works. This provides valuable priors for model prediction and thus boosts the regression-based scheme to achieve competitive performance with volumetric-base ones. Moreover, DAS exploits a recursive update strategy for progressively approaching to regression target, alleviating the optimization difficulty and further lifting the regression performance. DAS is implemented with a fully Convolutional Neural Network and end-to-end learnable. Comprehensive experiments on benchmarks CMU Panoptic and MuPoTS-3D demonstrate the superior efficiency of the proposed DAS model, specifically 1.5x speedup over previous best model, and its stat-of-the-art accuracy for multi-person 3D pose estimation.
翻訳日:2022-03-16 14:50:25 公開日:2022-03-15
# aprnet:フォトリアリスティックテキスト画像生成のための注意に基づくピクセルワイズレンダリングネットワーク

APRNet: Attention-based Pixel-wise Rendering Network for Photo-Realistic Text Image Generation ( http://arxiv.org/abs/2203.07705v1 )

ライセンス: Link先を確認
Yangming Shi, Haisong Ding, Kai Chen, Qiang Huo(参考訳) スタイルガイドテキスト画像生成は、テキストコンテンツを変更せずに参照画像の外観を模倣してテキスト画像の合成を試みる。 テキスト画像の外観は多くの側面を含む。 本稿では,スタイル画像の背景と前景の色パターンをコンテンツ画像に転送し,写真リアルテキスト画像を生成することに焦点を当てる。 この目標を達成するために 1) テキスト画像の背景を大まかに模倣するコンテンツスタイルのクロスアテンションに基づく画素サンプリング手法 2) スタイル画像の異なる色パターンを空間的適応的にコンテンツ画像に転送する画素毎のスタイル変調技術 3) スタイルとコンテンツ画像間の不一致問題を解決するためのクロス・アテンションに基づくマルチスケールスタイル融合アプローチ 4) トレーニングのためのスタイル,コンテンツ,真実のイメージタプルを作成するためのイメージパッチシャッフル戦略。 SCUT-HCCDocとCASIA-OLHWDBデータセットを用いた中国語手書きテキスト画像合成実験の結果,提案手法は合成テキスト画像の品質を向上し,より写真リアリスティックにすることができることを示した。

Style-guided text image generation tries to synthesize text image by imitating reference image's appearance while keeping text content unaltered. The text image appearance includes many aspects. In this paper, we focus on transferring style image's background and foreground color patterns to the content image to generate photo-realistic text image. To achieve this goal, we propose 1) a content-style cross attention based pixel sampling approach to roughly mimicking the style text image's background; 2) a pixel-wise style modulation technique to transfer varying color patterns of the style image to the content image spatial-adaptively; 3) a cross attention based multi-scale style fusion approach to solving text foreground misalignment issue between style and content images; 4) an image patch shuffling strategy to create style, content and ground truth image tuples for training. Experimental results on Chinese handwriting text image synthesis with SCUT-HCCDoc and CASIA-OLHWDB datasets demonstrate that the proposed method can improve the quality of synthetic text images and make them more photo-realistic.
翻訳日:2022-03-16 14:50:03 公開日:2022-03-15
# 白内障眼底画像の注釈のない復元ネットワーク

An Annotation-free Restoration Network for Cataractous Fundus Images ( http://arxiv.org/abs/2203.07737v1 )

ライセンス: Link先を確認
Heng Li, Haofeng Liu, Yan Hu, Huazhu Fu, Yitian Zhao, Hanpei Miao, Jiang Liu(参考訳) 白内障は世界の視覚喪失の主な原因である。 白内障患者の診断と治療の確実性を高めるため,白内障眼底画像の可読性を向上させるために修復アルゴリズムを開発した。 残念ながら、アノテーションの要件はクリニックにおけるこれらのアルゴリズムの適用を制限する。 本稿では, 白内障性眼底画像(arcnet)をアノテーションフリーで復元し, 臨床応用可能性を高めるネットワークを提案する。 注釈はArcNetでは不要であり、眼底画像から高周波成分を抽出して網膜構造の保存におけるセグメンテーションを置き換える。 復元モデルは合成画像から学習し、実際の白内障画像に適用する。 ArcNetの性能と有効性を検証するために、大規模な実験が実施されている。 現状のアルゴリズムに対してArcNetを用いて良好な性能を達成し,白内障患者の眼底疾患の診断をArcNetで促進する。 注釈付きデータがない場合に白内障画像を適切に復元する能力は、提案アルゴリズムの優れた臨床実践性を約束する。

Cataracts are the leading cause of vision loss worldwide. Restoration algorithms are developed to improve the readability of cataract fundus images in order to increase the certainty in diagnosis and treatment for cataract patients. Unfortunately, the requirement of annotation limits the application of these algorithms in clinics. This paper proposes a network to annotation-freely restore cataractous fundus images (ArcNet) so as to boost the clinical practicability of restoration. Annotations are unnecessary in ArcNet, where the high-frequency component is extracted from fundus images to replace segmentation in the preservation of retinal structures. The restoration model is learned from the synthesized images and adapted to real cataract images. Extensive experiments are implemented to verify the performance and effectiveness of ArcNet. Favorable performance is achieved using ArcNet against state-of-the-art algorithms, and the diagnosis of ocular fundus diseases in cataract patients is promoted by ArcNet. The capability of properly restoring cataractous images in the absence of annotated data promises the proposed algorithm outstanding clinical practicability.
翻訳日:2022-03-16 14:49:44 公開日:2022-03-15
# 任意型転送と領域一般化のための厳密な特徴分布マッチング

Exact Feature Distribution Matching for Arbitrary Style Transfer and Domain Generalization ( http://arxiv.org/abs/2203.07740v1 )

ライセンス: Link先を確認
Yabin Zhang, Minghan Li, Ruihuang Li, Kui Jia, Lei Zhang(参考訳) 任意スタイル転送(AST)とドメイン一般化(DG)は重要かつ困難な視覚学習課題であり、特徴分布マッチング問題として利用することができる。 ガウス的特徴分布の仮定により、従来の特徴分布マッチング法は通常、特徴の平均偏差と標準偏差に一致する。 しかし、実世界のデータの特徴分布は通常ガウシアンよりもはるかに複雑であり、一階統計と二階統計のみを用いることで正確に一致することはできないが、高階統計を分布マッチングに使用することは計算学的に禁止されている。 本研究では,画像特徴空間にExact Histogram Matching (EHM)を適用することで実現可能な,画像特徴の経験的累積分布関数(eCDF)を正確にマッチングすることで,EFDM(Exact Feature Distribution Matching)を実行することを提案する。 特に、高速なEHMアルゴリズムであるSort-Matchingは、低コストでEFDMをプラグアンドプレイで実行するために使用される。 提案手法の有効性を,様々なASTタスクとDGタスクで検証し,新しい成果を実証した。 コードはhttps://github.com/Y BZh/EFDMで入手できる。

Arbitrary style transfer (AST) and domain generalization (DG) are important yet challenging visual learning tasks, which can be cast as a feature distribution matching problem. With the assumption of Gaussian feature distribution, conventional feature distribution matching methods usually match the mean and standard deviation of features. However, the feature distributions of real-world data are usually much more complicated than Gaussian, which cannot be accurately matched by using only the first-order and second-order statistics, while it is computationally prohibitive to use high-order statistics for distribution matching. In this work, we, for the first time to our best knowledge, propose to perform Exact Feature Distribution Matching (EFDM) by exactly matching the empirical Cumulative Distribution Functions (eCDFs) of image features, which could be implemented by applying the Exact Histogram Matching (EHM) in the image feature space. Particularly, a fast EHM algorithm, named Sort-Matching, is employed to perform EFDM in a plug-and-play manner with minimal cost. The effectiveness of our proposed EFDM method is verified on a variety of AST and DG tasks, demonstrating new state-of-the-art results. Codes are available at https://github.com/Y BZh/EFDM.
翻訳日:2022-03-16 14:49:29 公開日:2022-03-15
# リアルタイム高分解能画像変換のためのマルチサーブ変換器

Multi-Curve Translator for Real-Time High-Resolution Image-to-Image Translation ( http://arxiv.org/abs/2203.07756v1 )

ライセンス: Link先を確認
Yuda Song, Hui Qian, Xin Du(参考訳) 画像から画像への翻訳手法は、画像の特徴を抽出し翻訳し、画像を再構成する完全な畳み込みネットワークに基づいている。 しかし、高解像度画像を扱う場合の計算コストは許容できない。 そこで本研究では,対応する入力画素の変換画素を予測できるマルチカーブ変換器(mct)を提案する。 そして高解像度画像が低解像度版にダウンサンプリングされた場合、失われたピクセルは残りのピクセルの隣のピクセルである。 そのためmctは、ダウンサンプリングされた画像のみにネットワークを供給し、全解像度画像のマッピングを実行することができ、計算コストを劇的に削減することができる。 さらに、MCTは既存のベースモデルを利用するプラグインアプローチであり、出力層のみを置き換える必要がある。 MCTの変種は、4K画像をリアルタイムで処理し、様々な画像から画像への変換タスクのベースモデルと同等またはそれ以上の性能を達成できることを示した。

The dominant image-to-image translation methods are based on fully convolutional networks, which extract and translate an image's features and then reconstruct the image. However, they have unacceptable computational costs when working with high-resolution images. To this end, we present the Multi-Curve Translator (MCT), which not only predicts the translated pixels for the corresponding input pixels but also for their neighboring pixels. And if a high-resolution image is downsampled to its low-resolution version, the lost pixels are the remaining pixels' neighboring pixels. So MCT makes it possible to feed the network only the downsampled image to perform the mapping for the full-resolution image, which can dramatically lower the computational cost. Besides, MCT is a plug-in approach that utilizes existing base models and requires only replacing their output layers. Experiments demonstrate that the MCT variants can process 4K images in real-time and achieve comparable or even better performance than the base models on various image-to-image translation tasks.
翻訳日:2022-03-16 14:49:06 公開日:2022-03-15
# ディープラーニングを用いたパーキング分析フレームワーク

Parking Analytics Framework using Deep Learning ( http://arxiv.org/abs/2203.07792v1 )

ライセンス: Link先を確認
Bilel Benjdira, Anis Koubaa, Wadii Boulila and Adel Ammar(参考訳) 車両の数が継続的に増加し、駐車監視と分析が現代の都市で重要な特徴となっている。 本研究では,カーパーキングエリアをモニタし,その居住状況をリアルタイムに分析する手法を提案する。 このソリューションは、画像分析とディープラーニングの技術の組み合わせに基づいている。 パイプライン内に4つのビルディングブロック(車両検出、車両追跡、駐車スロットの手動アノテーション、レイトレーシングアルゴリズムによる占有推定)が組み込まれている。 本手法の目的は、駐車スペースの利用を最適化し、運転者が車に最適な駐車スペースを見つけるのに要する時間を短縮することである。 また、駐車場のスペースをより良く管理し、誤用事例を発見するのに役立ちます。 提供されたソリューションのデモは、以下のビデオリンクで示される。 v=KbAt8zT14Tc。

With the number of vehicles continuously increasing, parking monitoring and analysis are becoming a substantial feature of modern cities. In this study, we present a methodology to monitor car parking areas and to analyze their occupancy in real-time. The solution is based on a combination between image analysis and deep learning techniques. It incorporates four building blocks put inside a pipeline: vehicle detection, vehicle tracking, manual annotation of parking slots, and occupancy estimation using the Ray Tracing algorithm. The aim of this methodology is to optimize the use of parking areas and to reduce the time wasted by daily drivers to find the right parking slot for their cars. Also, it helps to better manage the space of the parking areas and to discover misuse cases. A demonstration of the provided solution is shown in the following video link: https://www.youtube. com/watch?v=KbAt8zT14Tc.
翻訳日:2022-03-16 14:48:48 公開日:2022-03-15
# (参考訳) サロゲートギャップ最小化はシャープネスアウェアトレーニングを改善する [全文訳有]

Surrogate Gap Minimization Improves Sharpness-Aware Training ( http://arxiv.org/abs/2203.08065v1 )

ライセンス: CC BY 4.0
Juntang Zhuang, Boqing Gong, Liangzhe Yuan, Yin Cui, Hartwig Adam, Nicha Dvornek, Sekhar Tatikonda, James Duncan, Ting Liu(参考訳) 最近提案された Sharpness-Aware Minimization (SAM) は、パラメータ空間内の近傍における最大損失として定義される \textit{perturbed loss} を最小化することにより、一般化を改善する。 しかし, 鋭く平らなミニマはいずれも摂動損失が低く, SAMが必ずしも平らなミニマを好まないことが示唆された。 代わりに、近傍の半径(摂動損失を導出するために)が小さいとき、局所的な最小値においてヘッシアンの支配的固有値と同値な測度である \textit{surrogate gap} を定義する。 サーロゲートギャップは計算が容易で、トレーニング中の直接最小化が実現可能である。 上記の観察に基づいて,sam の計算オーバーヘッドが無視できる新しい改良であるsurrogate \textbf{g}ap guided \textbf{s}harpness-\textbf{a}ware \textbf{m}inimization (gsam)を提案する。 概念的には、GSAMは2つのステップから構成される。 1)乱れた損失を最小限に抑えるSAMのような勾配降下 2) \textit{ascent} ステップは (勾配分解後の) \textit{orthogonal} 方向に進み、サーロゲートギャップを最小化し、摂動損失に影響を与えない。 GSAMが(ステップ別に)損失の少ない地域を狙う 1 と低シャープさ (ステップ2 によって) は、高い一般化能力を持つモデルを生み出します。 理論的には、GSAMの収束とSAMよりも確実に優れた一般化を示す。 経験的に、GSAMは一貫して一般化を改善している(例えば、ImageNet Top-1の精度でSAMよりも+3.2\%、SAMより+5.4\%)。 コードは \url{ https://sites.google .com/view/gsam-iclr2 2/home} でリリースされる。

The recently proposed Sharpness-Aware Minimization (SAM) improves generalization by minimizing a \textit{perturbed loss} defined as the maximum loss within a neighborhood in the parameter space. However, we show that both sharp and flat minima can have a low perturbed loss, implying that SAM does not always prefer flat minima. Instead, we define a \textit{surrogate gap}, a measure equivalent to the dominant eigenvalue of Hessian at a local minimum when the radius of the neighborhood (to derive the perturbed loss) is small. The surrogate gap is easy to compute and feasible for direct minimization during training. Based on the above observations, we propose Surrogate \textbf{G}ap Guided \textbf{S}harpness-\textbf{A}ware \textbf{M}inimization (GSAM), a novel improvement over SAM with negligible computation overhead. Conceptually, GSAM consists of two steps: 1) a gradient descent like SAM to minimize the perturbed loss, and 2) an \textit{ascent} step in the \textit{orthogonal} direction (after gradient decomposition) to minimize the surrogate gap and yet not affect the perturbed loss. GSAM seeks a region with both small loss (by step 1) and low sharpness (by step 2), giving rise to a model with high generalization capabilities. Theoretically, we show the convergence of GSAM and provably better generalization than SAM. Empirically, GSAM consistently improves generalization (e.g., +3.2\% over SAM and +5.4\% over AdamW on ImageNet top-1 accuracy for ViT-B/32). Code is released at \url{ https://sites.google .com/view/gsam-iclr2 2/home}.
翻訳日:2022-03-16 14:48:06 公開日:2022-03-15
# SCD: 文の自己矛盾的デコレーション

SCD: Self-Contrastive Decorrelation for Sentence Embeddings ( http://arxiv.org/abs/2203.07847v1 )

ライセンス: Link先を確認
Tassilo Klein, Moin Nabi(参考訳) 本稿では,自己管理型アプローチである自己コントラスト劣化(SCD)を提案する。 入力文が与えられると、自己矛盾的および非相関的目標を最適化する。 異なるレートで標準ドロップアウトのインスタンス化に起因するコントラストを活用することにより、表現の学習を容易にする。 提案手法は概念的には単純だが経験的に強力である。 コントラストペアを使用せずに、複数のベンチマークで最先端のメソッドと同等の結果が得られる。 本研究は,現在のコントラスト法よりも頑健な,効率的な自己教師付き学習手法への道を開くものである。

In this paper, we propose Self-Contrastive Decorrelation (SCD), a self-supervised approach. Given an input sentence, it optimizes a joint self-contrastive and decorrelation objective. Learning a representation is facilitated by leveraging the contrast arising from the instantiation of standard dropout at different rates. The proposed method is conceptually simple yet empirically powerful. It achieves comparable results with state-of-the-art methods on multiple benchmarks without using contrastive pairs. This study opens up avenues for efficient self-supervised learning methods that are more robust than current contrastive methods.
翻訳日:2022-03-16 13:04:09 公開日:2022-03-15
# 金常用グリッター:線形および非線形ガード属性情報のスペクトル除去

Gold Doesn't Always Glitter: Spectral Removal of Linear and Nonlinear Guarded Attribute Information ( http://arxiv.org/abs/2203.07893v1 )

ライセンス: Link先を確認
Shun Shao, Yftah Ziser, Shay B. Cohen(参考訳) 本稿では,神経表現から保護情報を取り除くための簡易かつ効果的な方法(Spectral Attribute removaL; SAL)について述べる。 本手法は特異値分解と固有値分解を用いて入力表現を最大共分散ではなくガードされた情報との共分散の少ない方向へ投影する。 まず,線形情報除去から始まり,カーネルを用いた非線形情報除去にアルゴリズムを一般化する。 提案手法は,従来の手法と比較して保護された情報を除去した後もメインタスク性能が向上することを示す。 さらに,これらの属性に関する情報を削除するためには,比較的少ない量の保護された属性データが必要であることを実証した。

We describe a simple and effective method (Spectral Attribute removaL; SAL) to remove guarded information from neural representations. Our method uses singular value decomposition and eigenvalue decomposition to project the input representations into directions with reduced covariance with the guarded information rather than maximal covariance as normally these factorization methods are used. We begin with linear information removal and proceed to generalize our algorithm to the case of nonlinear information removal through the use of kernels. Our experiments demonstrate that our algorithm retains better main task performance after removing the guarded information compared to previous methods. In addition, our experiments demonstrate that we need a relatively small amount of guarded attribute data to remove information about these attributes, which lowers the exposure to such possibly sensitive data and fits better low-resource scenarios.
翻訳日:2022-03-16 13:04:02 公開日:2022-03-15
# 説得的対話による実情報と社会的内容のシームレスな統合

Seamlessly Integrating Factual Information and Social Content with Persuasive Dialogue ( http://arxiv.org/abs/2203.07657v1 )

ライセンス: Link先を確認
Maximillian Chen, Weiyan Shi, Feifan Yan, Ryan Hou, Jingwen Zhang, Saurav Sahay, Zhou Yu(参考訳) 効果的な人間とチャットボットの会話は、一貫性と効率の両方を達成する必要がある。 説得のような複雑な会話設定は、態度や行動の変化を伝達するので、そのトピックに直接関連しない場合でも、ユーザーの視点を慎重に検討し、対処する必要がある。 本稿では,事実情報とソーシャルコンテンツとをシームレスに統合した,モジュール型対話システムフレームワークを提案する。 我々のフレームワークは、ソーシャルとタスクの混在した対話タスクに一般化可能である。 本研究では,フレームワークのユーザ評価を,ベースラインのエンドツーエンド生成モデルと比較した。 ソーシャルコンテンツや事実的質問を明示的に扱わないベースラインモデルと比較して,コンピテンスやフレンドリネスなど,あらゆる面でより好適であると評価した。

Effective human-chatbot conversations need to achieve both coherence and efficiency. Complex conversation settings such as persuasion involve communicating changes in attitude or behavior, so users' perspectives need to be carefully considered and addressed, even when not directly related to the topic. In this work, we contribute a novel modular dialogue system framework that seamlessly integrates factual information and social content into persuasive dialogue. Our framework is generalizable to any dialogue tasks that have mixed social and task contents. We conducted a study that compared user evaluations of our framework versus a baseline end-to-end generation model. We found our model was evaluated to be more favorable in all dimensions including competence and friendliness compared to the baseline model which does not explicitly handle social content or factual questions.
翻訳日:2022-03-16 13:03:50 公開日:2022-03-15
# ReACC: 検索可能なコード補完フレームワーク

ReACC: A Retrieval-Augmented Code Completion Framework ( http://arxiv.org/abs/2203.07722v1 )

ライセンス: Link先を確認
Shuai Lu, Nan Duan, Hojae Han, Daya Guo, Seung-won Hwang, Alexey Svyatkovskiy(参考訳) コード補完は、コードコンテキストに従って次のコードトークンを予測することを目的としており、ソフトウェア開発の生産性を向上させることができる。 最近の研究は、大規模なソースコードデータセットから学習することで、トランスフォーマによる統計的言語モデリングがコード補完タスクのパフォーマンスを大幅に改善できることを証明している。 しかし、現在のアプローチはファイルやプロジェクト内のコードコンテキスト、すなわち内部コンテキストのみに焦点を当てている。 我々の区別は、コードを記述する際に関連するコードスニペットからコピーする人間の振る舞いにインスパイアされた"外部"コンテキストを利用します。 具体的には,レキシカルコピーと類似のセマンティクスによるコード参照の両方を活用する検索拡張コード補完フレームワークを提案する。 我々は、ソースコード検索とプログラミング言語の自動回帰言語モデルを組み合わせた段階的な訓練手法を採用する。 我々はPythonおよびJavaプログラミング言語のコード補完タスクにおけるアプローチを評価し、CodeXGLUEベンチマークで最先端のパフォーマンスを達成する。

Code completion, which aims to predict the following code token(s) according to the code context, can improve the productivity of software development. Recent work has proved that statistical language modeling with transformers can greatly improve the performance in the code completion task via learning from large-scale source code datasets. However, current approaches focus only on code context within the file or project, i.e. internal context. Our distinction is utilizing "external" context, inspired by human behaviors of copying from the related code snippets when writing code. Specifically, we propose a retrieval-augmented code completion framework, leveraging both lexical copying and referring to code with similar semantics by retrieval. We adopt a stage-wise training approach that combines a source code retriever and an auto-regressive language model for programming language. We evaluate our approach in the code completion task in Python and Java programming languages, achieving a state-of-the-art performance on CodeXGLUE benchmark.
翻訳日:2022-03-16 13:03:36 公開日:2022-03-15
# 時系列の振る舞い予測に最適なRNNセル構造は何か?

What is the best RNN-cell structure for forecasting each time series behavior? ( http://arxiv.org/abs/2203.07844v1 )

ライセンス: Link先を確認
Rohaifa Khaldi, Abdellatif El Afia, Raddouane Chiheb, Siham Tabik(参考訳) 時系列予測が多くの分野において最も重要なものであることは疑いない。 時系列予測タスクに最もよく使用される機械学習モデルは、recurrent neural networks (rnn)である。 通常、これらのモデルは、ELMAN、Long-Short Term Memory (LSTM)、Gated Recurrent Unit (GRU) の3つの最も一般的なセルの1つを使って構築される。 しかし、なぜ、いつ各rnn細胞構造を使用するのかは明らかではない。 実際、全ての時系列の挙動の包括的特徴は存在せず、それぞれの行動に最も適したRNN細胞構造についてのガイダンスも存在しない。 本研究の目的は,全時系列行動(決定論的,ランダムウォーク,非線形,ロングメモリ,カオス)の包括的分類法を示し,時系列行動ごとに最適なrnn細胞構造について考察することである。 1) LSTM-Vanilla 細胞における各成分の役割を評価・解析し,その基本構造(1つの細胞成分の除去・追加・置換)に基づいて11種類の変異体を作製した。 2) 第2の実験は20個の可能なrnn細胞構造の性能を評価し解析する。 以上の結果から,MGU-SLIM3細胞は決定的および非線形行動に最も推奨され,MGU-SLIM2細胞はランダムウォーク行動に最も適しており,FB1細胞は長期記憶行動に,LSTM-SLIM1はカオス行動に最も適していることがわかった。

It is unquestionable that time series forecasting is of paramount importance in many fields. The most used machine learning models to address time series forecasting tasks are Recurrent Neural Networks (RNNs). Typically, those models are built using one of the three most popular cells, ELMAN, Long-Short Term Memory (LSTM), or Gated Recurrent Unit (GRU) cells, each cell has a different structure and implies a different computational cost. However, it is not clear why and when to use each RNN-cell structure. Actually, there is no comprehensive characterization of all the possible time series behaviors and no guidance on what RNN cell structure is the most suitable for each behavior. The objective of this study is two-fold: it presents a comprehensive taxonomy of all-time series behaviors (deterministic, random-walk, nonlinear, long-memory, and chaotic), and provides insights into the best RNN cell structure for each time series behavior. We conducted two experiments: (1) The first experiment evaluates and analyzes the role of each component in the LSTM-Vanilla cell by creating 11 variants based on one alteration in its basic architecture (removing, adding, or substituting one cell component). (2) The second experiment evaluates and analyzes the performance of 20 possible RNN-cell structures. Our results showed that the MGU-SLIM3 cell is the most recommended for deterministic and nonlinear behaviors, the MGU-SLIM2 cell is the most suitable for random-walk behavior, FB1 cell is advocated for long-memory behavior, and LSTM-SLIM1 for chaotic behavior.
翻訳日:2022-03-16 13:00:54 公開日:2022-03-15
# igeood: 分布外検出への情報幾何アプローチ

Igeood: An Information Geometry Approach to Out-of-Distribution Detection ( http://arxiv.org/abs/2203.07798v1 )

ライセンス: Link先を確認
Eduardo Dadalto Camara Gomes, Florence Alberge, Pierre Duhamel and Pablo Piantanida(参考訳) 信頼性の高いアウト・オブ・ディストリビューション(OOD)検出は、より安全な機械学習(ML)システムを実装するための基本となる。 本稿では,OODサンプルの検出に有効な方法であるIgeoodを紹介する。 Igeoodは任意のトレーニング済みニューラルネットワークに適用され、MLモデルへのさまざまなアクセス度の下で動作し、OODデータにOODサンプルや仮定を必要としないが、OODサンプルから(利用可能であれば)恩恵を受けることができる。 基礎となるデータ分布間の測地線(Fisher-Rao)距離を構築することで、当社の判別器は、ロジット出力からの信頼スコアと深層ニューラルネットワークの学習特徴を組み合わせることができる。 経験的に、Igeoodはさまざまなネットワークアーキテクチャやデータセット上で競合する最先端の手法よりも優れています。

Reliable out-of-distribution (OOD) detection is fundamental to implementing safer modern machine learning (ML) systems. In this paper, we introduce Igeood, an effective method for detecting OOD samples. Igeood applies to any pre-trained neural network, works under various degrees of access to the ML model, does not require OOD samples or assumptions on the OOD data but can also benefit (if available) from OOD samples. By building on the geodesic (Fisher-Rao) distance between the underlying data distributions, our discriminator can combine confidence scores from the logits outputs and the learned features of a deep neural network. Empirically, we show that Igeood outperforms competing state-of-the-art methods on a variety of network architectures and datasets.
翻訳日:2022-03-16 13:00:24 公開日:2022-03-15
# (参考訳) k-vqg:コモンセンス獲得のための知識認識ビジュアル質問生成 [全文訳有]

K-VQG: Knowledge-aware Visual Question Generation for Common-sense Acquisition ( http://arxiv.org/abs/2203.07890v1 )

ライセンス: CC BY 4.0
Kohei Uehara, Tatsuya Harada(参考訳) 視覚質問生成(VQG)は、画像から質問を生成するタスクである。 人間が画像について質問すると、その目標は、しばしば新しい知識を取得することである。 しかしながら、VQGに関する既存の研究は、主に知識獲得の目的を見越して、回答や質問カテゴリからの質問生成に対処してきた。 知識獲得の視点をVQGに導入するため,我々はK-VQGという新しい知識認識型VQGデータセットを構築した。 これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。 また,質問のターゲットとして知識をエンコードし,使用することができる新しいVQGモデルを開発した。 実験の結果,本モデルはk-vqgデータセットの既存モデルよりも優れていた。

Visual Question Generation (VQG) is a task to generate questions from images. When humans ask questions about an image, their goal is often to acquire some new knowledge. However, existing studies on VQG have mainly addressed question generation from answers or question categories, overlooking the objectives of knowledge acquisition. To introduce a knowledge acquisition perspective into VQG, we constructed a novel knowledge-aware VQG dataset called K-VQG. This is the first large, humanly annotated dataset in which questions regarding images are tied to structured knowledge. We also developed a new VQG model that can encode and use knowledge as the target for a question. The experiment results show that our model outperforms existing models on the K-VQG dataset.
翻訳日:2022-03-16 12:57:24 公開日:2022-03-15
# ブラックボックスに何が入ってるの? 物体検出器内部の偽陰性機構

What's in the Black Box? The False Negative Mechanisms Inside Object Detectors ( http://arxiv.org/abs/2203.07662v1 )

ライセンス: Link先を確認
Dimity Miller, Peyman Moghadam, Mark Cox, Matt Wildie, Raja Jurdak(参考訳) 物体検出では、検出器が対象物体を検知できなかったときに偽陰性が発生する。 物体検出器が偽陰性を引き起こす理由を理解するため、我々は5つの「偽陰性メカニズム」を特定し、それぞれのメカニズムが検出器アーキテクチャ内の特定のコンポーネントがどのように失敗したかを記述した。 2段階および1段階のアンカーボックスオブジェクト検出器アーキテクチャに着目し,これらの偽陰性メカニズムを定量化する枠組みを提案する。 このフレームワークを用いて,高速なR-CNNとRetinaNetが,ベンチマークビジョンデータセットやロボティクスデータセットのオブジェクトの検出に失敗した理由を考察する。 コンピュータビジョンベンチマークのデータセットとロボティクスの展開シナリオとでは,検出器の偽陰性メカニズムが著しく異なることを示す。 これは、ベンチマークデータセット用に開発されたオブジェクト検出器をロボティクスアプリケーションへ変換する意味を持つ。

In object detection, false negatives arise when a detector fails to detect a target object. To understand why object detectors produce false negatives, we identify five 'false negative mechanisms', where each mechanism describes how a specific component inside the detector architecture failed. Focusing on two-stage and one-stage anchor-box object detector architectures, we introduce a framework for quantifying these false negative mechanisms. Using this framework, we investigate why Faster R-CNN and RetinaNet fail to detect objects in benchmark vision datasets and robotics datasets. We show that a detector's false negative mechanisms differ significantly between computer vision benchmark datasets and robotics deployment scenarios. This has implications for the translation of object detectors developed for benchmark datasets to robotics applications.
翻訳日:2022-03-16 12:42:30 公開日:2022-03-15
# 1つのネットワークが全てを支配していない: 自己監督型学習における手作りアーキテクチャを超えて

One Network Doesn't Rule Them All: Moving Beyond Handcrafted Architectures in Self-Supervised Learning ( http://arxiv.org/abs/2203.08130v1 )

ライセンス: Link先を確認
Sharath Girish, Debadeepta Dey, Neel Joshi, Vibhav Vineet, Shital Shah, Caio Cesar Teodoro Mendes, Abhinav Shrivastava, Yale Song(参考訳) 自己教師付き学習(SSL)に関する現在の文献は、ラベルのないデータに基づいてニューラルネットワークをより効果的にトレーニングするための学習目標の開発に焦点を当てている。 典型的な開発プロセスは、imagenetでデモされたresnetのような確立されたアーキテクチャを取り、それらを下流のシナリオで新しく開発された目標を評価するために使用する。 これは便利ではあるが、教師付き学習文学において重要視されているアーキテクチャの役割を考慮に入れていない。 本研究では、SSLにおいてネットワークアーキテクチャが重要な役割を果たすことを示す広範な実証的証拠を確立する。 我々は,100以上のresnetアーキテクチャとmobilenetアーキテクチャを用いた大規模研究を行い,ssl設定の11のダウンストリームシナリオで評価した。 シナリオにまたがって一貫して機能するネットワークは1つも存在しないことを示す。 そこで我々は,ネットワーク重みだけでなく,SSL方式のアーキテクチャトポロジも学習することを提案する。 本研究では,画像分類ベンチマーク(ImageNet-1K, iNat2021など)において,大規模で計算量の多いResNet50と競合しながら,"自己教師型アーキテクチャ"が人気ハンドクラフトアーキテクチャ(ResNet18, MobileNetV2)を上回っていることを示す。 この結果から,SSLにおける手作りアーキテクチャを超えて,アーキテクチャ検索を自己指導型学習対象に組み込むことを考えるべき時が来たことを示唆している。

The current literature on self-supervised learning (SSL) focuses on developing learning objectives to train neural networks more effectively on unlabeled data. The typical development process involves taking well-established architectures, e.g., ResNet demonstrated on ImageNet, and using them to evaluate newly developed objectives on downstream scenarios. While convenient, this does not take into account the role of architectures which has been shown to be crucial in the supervised learning literature. In this work, we establish extensive empirical evidence showing that a network architecture plays a significant role in SSL. We conduct a large-scale study with over 100 variants of ResNet and MobileNet architectures and evaluate them across 11 downstream scenarios in the SSL setting. We show that there is no one network that performs consistently well across the scenarios. Based on this, we propose to learn not only network weights but also architecture topologies in the SSL regime. We show that "self-supervised architectures" outperform popular handcrafted architectures (ResNet18 and MobileNetV2) while performing competitively with the larger and computationally heavy ResNet50 on major image classification benchmarks (ImageNet-1K, iNat2021, and more). Our results suggest that it is time to consider moving beyond handcrafted architectures in SSL and start thinking about incorporating architecture search into self-supervised learning objectives.
翻訳日:2022-03-16 12:41:58 公開日:2022-03-15
# 多言語混合: 補間による多言語ニューラルマシン翻訳の改善

Multilingual Mix: Example Interpolation Improves Multilingual Neural Machine Translation ( http://arxiv.org/abs/2203.07627v1 )

ライセンス: Link先を確認
Yong Cheng, Ankur Bapna, Orhan Firat, Yuan Cao, Pidong Wang, Wolfgang Macherey(参考訳) 多言語ニューラルマシン翻訳モデルは、複数の言語ペアから引き出されたサンプルの混合の可能性を最大化するために訓練される。 これらのモデルに適用される優越的帰納バイアスは、言語間の共通語彙と共有パラメータの集合であり、異なる言語対から引き出された例に対応する入力とラベルは、いまだに異なる部分空間に存在するかもしれない。 本稿では,言語ペアをインスタンスレベルでフューズするために,多言語クロスオーバーエンコーダデコーダ(mXEncDec)を導入する。 異なる言語ペアのインスタンスを結合した'クロスオーバー例'に補間することで、言語間の入出力空間の共有を促進する。 多言語設定におけるサンプルのより良い融合を保証するため、重データ不均衡下での異種言語間の例補間を改善するためのいくつかの手法を提案する。 大規模なWMT多言語データセットの実験により、我々のアプローチは、英語から英語、多言語、ゼロショットの翻訳タスク(+0.5 BLEUから+5.5 BLEUポイントまで)における品質を著しく改善することを示した。 コードスイッチセットの結果から,多言語多言語例へのモデル一般化を改善するための手法の有用性が示された。 また,表現レベルでのアプローチの利点を分析するために,質的,定量的な表現比較を行う。

Multilingual neural machine translation models are trained to maximize the likelihood of a mix of examples drawn from multiple language pairs. The dominant inductive bias applied to these models is a shared vocabulary and a shared set of parameters across languages; the inputs and labels corresponding to examples drawn from different language pairs might still reside in distinct sub-spaces. In this paper, we introduce multilingual crossover encoder-decoder (mXEncDec) to fuse language pairs at an instance level. Our approach interpolates instances from different language pairs into joint `crossover examples' in order to encourage sharing input and output spaces across languages. To ensure better fusion of examples in multilingual settings, we propose several techniques to improve example interpolation across dissimilar languages under heavy data imbalance. Experiments on a large-scale WMT multilingual dataset demonstrate that our approach significantly improves quality on English-to-Many, Many-to-English and zero-shot translation tasks (from +0.5 BLEU up to +5.5 BLEU points). Results on code-switching sets demonstrate the capability of our approach to improve model generalization to out-of-distribution multilingual examples. We also conduct qualitative and quantitative representation comparisons to analyze the advantages of our approach at the representation level.
翻訳日:2022-03-16 12:41:11 公開日:2022-03-15
# InfoDCL:ソーシャル・ミーニングのための遠隔指導型コントラスト学習フレームワーク

InfoDCL: A Distantly Supervised Contrastive Learning Framework for Social Meaning ( http://arxiv.org/abs/2203.07648v1 )

ライセンス: Link先を確認
Chiyu Zhang, Muhammad Abdul-Mageed, Ganesh Jawahar(参考訳) 既存の教師付きコントラスト学習フレームワークには2つの大きな欠点がある。 (i)実世界のタスクの大部分に制限されるラベル付きデータに依存しており、 (II) 負のサンプルを重み付けするために, コーパスレベルの情報を無視しながら, インスタンスレベルの情報に基づくクラス間関係を組み込んだ。 これらの課題を緩和するために、コントラスト学習の文脈で自然に発生する代理ラベルを利用してコーパスレベルの情報を活用する効果的な遠隔教師付きコントラスト学習フレームワーク(InfoDCL)を提案する。 我々のフレームワークは、汎用的および少数的な設定の両方において、幅広い社会的意味タスク(ドメイン内およびドメイン外)において、既存のコントラスト学習手法(自己監督、教師付き、弱教師付き)よりも優れています。 提案手法は英語に加えて3つの言語で示すように,言語に依存しない。

Existing supervised contrastive learning frameworks suffer from two major drawbacks: (i) they depend on labeled data, which is limited for the majority of tasks in real-world, and (ii) they incorporate inter-class relationships based on instance-level information, while ignoring corpus-level information, for weighting negative samples. To mitigate these challenges, we propose an effective distantly supervised contrastive learning framework (InfoDCL) that makes use of naturally occurring surrogate labels in the context of contrastive learning and employs pointwise mutual information to leverage corpus-level information. Our framework outperforms an extensive set of existing contrastive learning methods (self-supervised, supervised, and weakly supervised) on a wide range of social meaning tasks (in-domain and out-of-domain), in both the general and few-shot settings. Our method is also language-agnostic, as we demonstrate on three languages in addition to English.
翻訳日:2022-03-16 12:39:39 公開日:2022-03-15
# ViWOZ:低リソース言語のためのマルチドメインタスク指向対話システムデータセット

ViWOZ: A Multi-Domain Task-Oriented Dialogue Systems Dataset For Low-resource Language ( http://arxiv.org/abs/2203.07742v1 )

ライセンス: Link先を確認
Phi Nguyen Van, Tung Cao Hoang, Dung Nguyen Manh, Quan Nguyen Minh, Long Tran Quoc(参考訳) 現在のタスク指向対話システム(ToD)のほとんどは、興味深い結果を得たにもかかわらず、中国語や英語のような少数の言語向けに設計されている。 したがって、標準データセットと評価ポリシーが存在しないため、低リソース言語でのそれらの性能は依然として重大な問題である。 この問題に対処するため,我々はベトナムのタスク指向対話データセットであるviwozを提案した。 viwozはベトナム初の低リソース言語であるマルチターンマルチドメインタスク指向データセットである。 データセットは合計5,000の対話で構成されており、60,946の完全な注釈付き発話が含まれている。 さらに,低リソース言語シナリオにおけるモジュールモデルとエンド・ツー・エンドモデルの総合ベンチマークも提供する。 これらの特徴により、VWOZデータセットは、多言語タスク指向対話システムの構築に関する将来の研究を可能にする。

Most of the current task-oriented dialogue systems (ToD), despite having interesting results, are designed for a handful of languages like Chinese and English. Therefore, their performance in low-resource languages is still a significant problem due to the absence of a standard dataset and evaluation policy. To address this problem, we proposed ViWOZ, a fully-annotated Vietnamese task-oriented dialogue dataset. ViWOZ is the first multi-turn, multi-domain tasked oriented dataset in Vietnamese, a low-resource language. The dataset consists of a total of 5,000 dialogues, including 60,946 fully annotated utterances. Furthermore, we provide a comprehensive benchmark of both modular and end-to-end models in low-resource language scenarios. With those characteristics, the ViWOZ dataset enables future studies on creating a multilingual task-oriented dialogue system.
翻訳日:2022-03-16 12:39:21 公開日:2022-03-15
# テキストに書かれていないもの:視覚信号から空間共通性を探る

Things not Written in Text: Exploring Spatial Commonsense from Visual Signals ( http://arxiv.org/abs/2203.08075v1 )

ライセンス: Link先を確認
Xiao Liu, Da Yin, Yansong Feng, Dongyan Zhao(参考訳) 空間コモンセンス(spatial commonsense)とは、空間的な位置と物体(ライオンと女の子の相対的な大きさ、サイクリング時の自転車に対する少年の位置など)の関係に関する知識であり、コモンセンスの知識の重要な部分である。 プレトレーニング言語モデル(PLM)は多くのNLPタスクに成功しているが、空間コモンセンス推論では効果がないことが示されている。 画像がテキストよりも空間コモンセンスを示す可能性が高いという観察から始め、視覚信号を持つモデルがテキストベースのPLMよりも空間コモンセンスを学習するかどうかを探る。 本研究では,物体の相対的スケールと,異なる行動下の人と物体の位置関係に着目した空間共通性ベンチマークを提案する。 本研究では,視覚言語による事前学習モデルや画像合成モデルを含む視覚信号を用いたplmとモデルを調査し,画像合成モデルが他のモデルよりも正確かつ一貫した空間知識を学習できることを示す。 画像合成モデルからの空間知識は、空間共通性を必要とする自然言語理解にも役立つ。

Spatial commonsense, the knowledge about spatial position and relationship between objects (like the relative size of a lion and a girl, and the position of a boy relative to a bicycle when cycling), is an important part of commonsense knowledge. Although pretrained language models (PLMs) succeed in many NLP tasks, they are shown to be ineffective in spatial commonsense reasoning. Starting from the observation that images are more likely to exhibit spatial commonsense than texts, we explore whether models with visual signals learn more spatial commonsense than text-based PLMs. We propose a spatial commonsense benchmark that focuses on the relative scales of objects, and the positional relationship between people and objects under different actions. We probe PLMs and models with visual signals, including vision-language pretrained models and image synthesis models, on this benchmark, and find that image synthesis models are more capable of learning accurate and consistent spatial knowledge than other models. The spatial knowledge from image synthesis models also helps in natural language understanding tasks that require spatial commonsense.
翻訳日:2022-03-16 12:39:12 公開日:2022-03-15
# 右から左を言えますか? vqaの新たな課題の提示

Can you even tell left from right? Presenting a new challenge for VQA ( http://arxiv.org/abs/2203.07664v1 )

ライセンス: Link先を確認
Sai Raam Venkatraman, Rishi Rao, S. Balasubramanian, Chandra Sekhar Vorugunti, R. Raghunatha Sarma(参考訳) 視覚的質問応答(vqa)には,モデルの強みと弱みを評価する手段が必要である。 このような評価の1つの側面は、構成的一般化の評価や、トレーニングセットとは異なるシーンでモデルがうまく答えられる能力である。 したがって、この目的のために、列車とテストセットが構成的に大きく異なるデータセットが必要である。 そこで本研究では,VQAの一般的なデータセットが優れた評価指標ではないことを示す。 この問題を解決するために、VQAのための合成データセットであるUncommon Objects in Unseen Configurations (UOUC)を提案する。 UOUCはかなり複雑だが、構成的にもよく分離されている。 UOUCのオブジェクトクラスはダンジョンズ&ドラゴンズゲームから528文字の380クレーゼで構成されている。 uoucの列車は20万シーンからなるが、テストセットは30,000シーンで構成される。 作曲の一般化、単純な推論、暗記を研究するために、UOUCの各シーンには最大10の新たな質問が注釈付けされている。 これらは空間的関係、場面への仮説的変化、数え上げ、比較、記憶、記憶に基づく推論を扱う。 UOUCは合計で200万以上の質問を出している。 UOUCはまた、VQAのモデルの性能向上に強い挑戦だと考えている。 近年のVQAモデルの評価では,構成的一般化が乏しく,単純な推論に対する能力は比較的低い。 これらの結果から,UOUCはVQAの強力なベンチマークとして研究の進展につながる可能性が示唆された。

Visual Question Answering (VQA) needs a means of evaluating the strengths and weaknesses of models. One aspect of such an evaluation is the evaluation of compositional generalisation, or the ability of a model to answer well on scenes whose scene-setups are different from the training set. Therefore, for this purpose, we need datasets whose train and test sets differ significantly in composition. In this work, we present several quantitative measures of compositional separation and find that popular datasets for VQA are not good evaluators. To solve this, we present Uncommon Objects in Unseen Configurations (UOUC), a synthetic dataset for VQA. UOUC is at once fairly complex while also being well-separated, compositionally. The object-class of UOUC consists of 380 clasess taken from 528 characters from the Dungeons and Dragons game. The train set of UOUC consists of 200,000 scenes; whereas the test set consists of 30,000 scenes. In order to study compositional generalisation, simple reasoning and memorisation, each scene of UOUC is annotated with up to 10 novel questions. These deal with spatial relationships, hypothetical changes to scenes, counting, comparison, memorisation and memory-based reasoning. In total, UOUC presents over 2 million questions. UOUC also finds itself as a strong challenge to well-performing models for VQA. Our evaluation of recent models for VQA shows poor compositional generalisation, and comparatively lower ability towards simple reasoning. These results suggest that UOUC could lead to advances in research by being a strong benchmark for VQA.
翻訳日:2022-03-16 12:38:52 公開日:2022-03-15
# 画像インバージョンと編集のためのスタイル変換器

Style Transformer for Image Inversion and Editing ( http://arxiv.org/abs/2203.07932v1 )

ライセンス: Link先を確認
Xueqi Hu, Qiusheng Huang, Zhengyi Shi, Siyuan Li, Changxin Gao, Li Sun, Qingli Li(参考訳) 既存のGANインバージョン手法では、信頼性の高い再構築とフレキシブルな編集のための遅延コードを提供できない。 本稿では,プリトレーニングされたスタイルガンのトランスベース画像インバージョンおよび編集モデルを提案する。 提案モデルはcnnエンコーダを使用して,キーと値として多スケール画像機能を提供する。 一方、ジェネレータの異なるレイヤで決定されるスタイルコードをクエリとして扱う。 まずクエリトークンを学習可能なパラメータとして初期化し、w+スペースにマップする。 次に、多段階的な自己および相互アテンションを利用して、ジェネレータによる入力を反転させる目的でクエリを更新する。 さらに,この逆コードに基づいて,事前学習された潜在性分類器による参照属性とラベル属性の編集を行い,高品質な画像から画像への柔軟な翻訳を実現する。 大規模な実験を行い、StyleGAN内の反転タスクと編集タスクの両方でより良いパフォーマンスを示す。

Existing GAN inversion methods fail to provide latent codes for reliable reconstruction and flexible editing simultaneously. This paper presents a transformer-based image inversion and editing model for pretrained StyleGAN which is not only with less distortions, but also of high quality and flexibility for editing. The proposed model employs a CNN encoder to provide multi-scale image features as keys and values. Meanwhile it regards the style code to be determined for different layers of the generator as queries. It first initializes query tokens as learnable parameters and maps them into W+ space. Then the multi-stage alternate self- and cross-attention are utilized, updating queries with the purpose of inverting the input by the generator. Moreover, based on the inverted code, we investigate the reference- and label-based attribute editing through a pretrained latent classifier, and achieve flexible image-to-image translation with high quality results. Extensive experiments are carried out, showing better performances on both inversion and editing tasks within StyleGAN.
翻訳日:2022-03-16 12:38:29 公開日:2022-03-15
# 奥行き量子化による暗黙的特徴デカップリング

Implicit Feature Decoupling with Depthwise Quantization ( http://arxiv.org/abs/2203.08080v1 )

ライセンス: Link先を確認
Iordanis Fostiropoulos, Barry Boehm(参考訳) 量子化はディープニューラルネットワーク(DNN)の複数の領域に適用されている。 弱統計依存の$\textit{feature axis}$ に沿って分解された部分テンソルに$\textit{quantization}$ が適用される深さ方向量子化 (dq) を提案する。 特徴分解によって$\textit{representation capacity}$が指数関数的に増加し、メモリとパラメータコストが線形的に増加する。 さらに、DNNアーキテクチャを変更することなく、既存のエンコーダ/デコーダフレームワークに直接適用することができる。 dqを階層型オートエンコーダのコンテキストで使用し,画像特徴表現のエンドツーエンドをトレーニングする。 本稿では,空間的特徴とチャネル的特徴の相互相関解析を行い,チャネル軸に沿った画像特徴表現の分解を提案する。 奥行き方向演算子の性能向上は、暗黙的特徴分離による表現能力の増大によるものである。 CIFAR-10, ImageNet-32, ImageNet-64では, 従来よりも高い精度でDQを評価した。 画像サイズを増加させることで,69%のパラメータを削減し,従来よりも高速なコンバージェンスを持つ単一の階層モデルを段階的にトレーニングする。

Quantization has been applied to multiple domains in Deep Neural Networks (DNNs). We propose Depthwise Quantization (DQ) where $\textit{quantization}$ is applied to a decomposed sub-tensor along the $\textit{feature axis}$ of weak statistical dependence. The feature decomposition leads to an exponential increase in $\textit{representation capacity}$ with a linear increase in memory and parameter cost. In addition, DQ can be directly applied to existing encoder-decoder frameworks without modification of the DNN architecture. We use DQ in the context of Hierarchical Auto-Encoder and train end-to-end on an image feature representation. We provide an analysis on cross-correlation between spatial and channel features and we propose a decomposition of the image feature representation along the channel axis. The improved performance of the depthwise operator is due to the increased representation capacity from implicit feature decoupling. We evaluate DQ on the likelihood estimation task, where it outperforms the previous state-of-the-art on CIFAR-10, ImageNet-32 and ImageNet-64. We progressively train with increasing image size a single hierarchical model that uses 69% less parameters and has a faster convergence than the previous works.
翻訳日:2022-03-16 12:38:12 公開日:2022-03-15
# 一般化したものの頑丈ではない? データ修正手法が外部一般化と対向ロバスト性に及ぼす影響の比較

Generalized but not Robust? Comparing the Effects of Data Modification Methods on Out-of-Domain Generalization and Adversarial Robustness ( http://arxiv.org/abs/2203.07653v1 )

ライセンス: Link先を確認
Tejas Gokhale, Swaroop Mishra, Man Luo, Bhavdeep Singh Sachdeva and Chitta Baral(参考訳) 追加のトレーニングデータセット、データ拡張、デバイアス、データセットフィルタリングによるデータ修正は、自然言語処理とコンピュータビジョンの文献の両方において、ドメイン外入力(ood)に一般化するための効果的なソリューションとして提案されている。 しかし,データ修正が敵の強靭性に及ぼす影響は明らかでない。 本研究では,共通データ修正戦略の包括的研究を行い,そのドメイン内およびオード性能だけでなく,ar(adversarial robustness)についても評価する。 また,2次元合成データセットを用いて,各手法がトレーニング分布に与える影響を可視化する。 この研究は、目に見えない領域への一般化と敵の摂動に対する防御の関係を理解するための実証的研究である。 以上の結果から,OODの精度とARの両面で,より多くのデータ(追加データセットやデータ拡張)が有用であることが示唆された。 しかし、データフィルタリング(以前は自然言語推論におけるOODの精度向上が示されていた)は、質問応答や画像分類などのタスクにおいてOODの精度を損なう。 私たちは、この方向の将来の仕事を伝えるために、実験から洞察を与えます。

Data modification, either via additional training datasets, data augmentation, debiasing, and dataset filtering, has been proposed as an effective solution for generalizing to out-of-domain (OOD) inputs, in both natural language processing and computer vision literature. However, the effect of data modification on adversarial robustness remains unclear. In this work, we conduct a comprehensive study of common data modification strategies and evaluate not only their in-domain and OOD performance, but also their adversarial robustness (AR). We also present results on a two-dimensional synthetic dataset to visualize the effect of each method on the training distribution. This work serves as an empirical study towards understanding the relationship between generalizing to unseen domains and defending against adversarial perturbations. Our findings suggest that more data (either via additional datasets or data augmentation) benefits both OOD accuracy and AR. However, data filtering (previously shown to improve OOD accuracy on natural language inference) hurts OOD accuracy on other tasks such as question answering and image classification. We provide insights from our experiments to inform future work in this direction.
翻訳日:2022-03-16 12:18:59 公開日:2022-03-15
# 低リソース言語ではコーパスの品質は本当に重要か?

Does Corpus Quality Really Matter for Low-Resource Languages? ( http://arxiv.org/abs/2203.08111v1 )

ライセンス: Link先を確認
Mikel Artetxe, Itziar Aldabe, Rodrigo Agerri, Olatz Perez-de-Vi\~naspre, Aitor Soroa(参考訳) 非英語コーパスの大部分は、自動的にフィルタされたCommonCrawlから派生している。 以前の作業では、これらのデータセットの品質に関する大きな問題(Kreutzerなど、2021年)が特定されていたが、それが下流のパフォーマンスに与える影響は明らかではない。 ケーススタディとしてBasqueを採用して、CommonCrawlのフィルタに代わるものとして、カスタマイズされたクローリング(高品質なコンテンツでウェブサイトを手動で識別し、スクラップする)について検討する。 我々の新しいコーパスはEusCrawlと呼ばれ、CC100やmC4のような人気のある多言語コーパスのバスク部分に似ているが、ネイティブアノテータによってはるかに高品質である。 例えば、文書の66%は、mC4 と CC100 の 2 3% に対して、EusCrawl の 高品質と評価されている。 しかし,事前学習に使用するコーパスによらず,下流タスクについても同様の結果が得られる。 私たちの研究は、低リソース言語におけるnluのパフォーマンスは、主にデータの品質よりも量によって制限されていることを示唆しています。

The vast majority of non-English corpora are derived from automatically filtered versions of CommonCrawl. While prior work has identified major issues on the quality of these datasets (Kreutzer et al., 2021), it is not clear how this impacts downstream performance. Taking Basque as a case study, we explore tailored crawling (manually identifying and scraping websites with high-quality content) as an alternative to filtering CommonCrawl. Our new corpus, called EusCrawl, is similar in size to the Basque portion of popular multilingual corpora like CC100 and mC4, yet it has a much higher quality according to native annotators. For instance, 66% of documents are rated as high-quality for EusCrawl, in contrast with <33% for both mC4 and CC100. Nevertheless, we obtain similar results on downstream tasks regardless of the corpus used for pre-training. Our work suggests that NLU performance in low-resource languages is primarily constrained by the quantity rather than the quality of the data, prompting for methods to exploit more diverse data sources.
翻訳日:2022-03-16 12:16:55 公開日:2022-03-15
# 確率的確率的推論の加速

Accelerating Stochastic Probabilistic Inference ( http://arxiv.org/abs/2203.07585v1 )

ライセンス: Link先を確認
Minta Liu, Suliang Bu(参考訳) 近年,確率的モデルの後部近似を求める能力により,確率的変分推論 (SVI) がますます魅力的になっている。 確率的最適化により変動目標を最適化し、自然勾配のノイズを推定する。 しかし、最先端のsviアルゴリズムのほとんどが一階最適化アルゴリズムに基づいており、しばしば収束率の低下に苦しむ。 本稿では,二階法と確率的変分推論のギャップを,二階法に基づく確率的変分推論手法の提案により埋める。 特に、まず、変分対象のヘッセン行列を導出する。 次に、2次SVIを効率的に実装するための2つの数値スキームを考案する。 提案手法の有効性と効率の両方をバックアップするために,合成データと実データの両方について,徹底的な実験評価を行った。

Recently, Stochastic Variational Inference (SVI) has been increasingly attractive thanks to its ability to find good posterior approximations of probabilistic models. It optimizes the variational objective with stochastic optimization, following noisy estimates of the natural gradient. However, almost all the state-of-the-art SVI algorithms are based on first-order optimization algorithm and often suffer from poor convergence rate. In this paper, we bridge the gap between second-order methods and stochastic variational inference by proposing a second-order based stochastic variational inference approach. In particular, firstly we derive the Hessian matrix of the variational objective. Then we devise two numerical schemes to implement second-order SVI efficiently. Thorough empirical evaluations are investigated on both synthetic and real dataset to backup both the effectiveness and efficiency of the proposed approach.
翻訳日:2022-03-16 12:16:22 公開日:2022-03-15
# depts: 周期時系列予測のための深い拡張学習

DEPTS: Deep Expansion Learning for Periodic Time Series Forecasting ( http://arxiv.org/abs/2203.07681v1 )

ライセンス: Link先を確認
Wei Fan, Shun Zheng, Xiaohan Yi, Wei Cao, Yanjie Fu, Jiang Bian, Tie-Yan Liu(参考訳) 周期的時系列予測(PTS)は、早期警戒、事前計画、資源スケジューリングなどの重要なタスクを育成する様々な産業において重要な役割を果たす。 しかし、PTS信号の複雑な依存は、その固有の周期性や、様々な周期の洗練された構成は、PTS予測の性能を妨げている。 本稿では,pts予測のための深層拡張学習フレームワークであるdeptsを提案する。 DEPTSは、周期状態を隠れ変数として導入することで分離された定式化から始まり、上記の2つの課題に取り組むために2つの専用モジュールを作成するよう刺激する。 まず,これらの複雑な依存関係の層別拡張を行うために,残差学習の上に拡張モジュールを開発する。 第二に、パラメータ化された周期関数を持つ周期モジュールを導入し、多様な周期を捉えるのに十分な容量を持つ。 さらに、我々の2つのカスタマイズされたモジュールは、局所的なモーメントまたは大域的な周期性に起因する予測や、振幅や周波数などの特定のコア周期特性を特徴付けるなど、ある種の解釈可能な能力を持つ。 合成データと実世界のデータの両方に対する大規模な実験は、PTS処理におけるDEPTSの有効性を示した。 ほとんどの場合、DEPTSは最高のベースラインよりも大幅に改善されている。 特に、エラーの削減は、いくつかのケースで最大20%に達する可能性がある。 最後に、すべてのコードが公開されている。

Periodic time series (PTS) forecasting plays a crucial role in a variety of industries to foster critical tasks, such as early warning, pre-planning, resource scheduling, etc. However, the complicated dependencies of the PTS signal on its inherent periodicity as well as the sophisticated composition of various periods hinder the performance of PTS forecasting. In this paper, we introduce a deep expansion learning framework, DEPTS, for PTS forecasting. DEPTS starts with a decoupled formulation by introducing the periodic state as a hidden variable, which stimulates us to make two dedicated modules to tackle the aforementioned two challenges. First, we develop an expansion module on top of residual learning to perform a layer-by-layer expansion of those complicated dependencies. Second, we introduce a periodicity module with a parameterized periodic function that holds sufficient capacity to capture diversified periods. Moreover, our two customized modules also have certain interpretable capabilities, such as attributing the forecasts to either local momenta or global periodicity and characterizing certain core periodic properties, e.g., amplitudes and frequencies. Extensive experiments on both synthetic data and real-world data demonstrate the effectiveness of DEPTS on handling PTS. In most cases, DEPTS achieves significant improvements over the best baseline. Specifically, the error reduction can even reach up to 20% for a few cases. Finally, all codes are publicly available.
翻訳日:2022-03-16 12:16:10 公開日:2022-03-15
# (参考訳) バーテンダー型社会ロボットを用いた個人化HRIのためのROSアーキテクチャ [全文訳有]

A ROS Architecture for Personalised HRI with a Bartender Social Robot ( http://arxiv.org/abs/2203.06631v2 )

ライセンス: CC BY-SA 4.0
Alessandra Rossi, Maria Di Maro, Antonio Origlia, Agostino Palmiero and Silvia Rossi(参考訳) brillo(interactive long-lasting operations用バーテンダーロボット)プロジェクトは、バーテンダータスクを完了しながら顧客と対話できる自律的なバーテンダーを作ることを目標としている。 このようなシナリオでは、魅力的な技術の使用に関連している人々のノベルティ効果は、摩耗する運命にあり、その結果、サービスロボティクスアプリケーションの成功に悪影響を及ぼす。 そのため、サービスにアクセスしながらパーソナライズされた自然なインタラクションを提供することは、ユーザのエンゲージメントを高め、その結果、彼らの忠誠心を高める上で最重要となる。 本稿では,異なる社会的信号の処理を管理する知覚層,多人数インタラクションを処理する意思決定層,腕と顔からなる複合ロボットの動作を制御する実行層を統合した3層rosアーキテクチャを提案する。 最後に、信条層を通じたユーザモデリングは、個人化されたインタラクションを可能にする。

BRILLO (Bartending Robot for Interactive Long-Lasting Operations) project has the overall goal of creating an autonomous robotic bartender that can interact with customers while accomplishing its bartending tasks. In such a scenario, people's novelty effect connected to the use of an attractive technology is destined to wear off and, consequently, it negatively affects the success of the service robotics application. For this reason, providing personalised natural interaction while accessing its services is of paramount importance for increasing users' engagement and, consequently, their loyalty. In this paper, we present the developed three-layers ROS architecture integrating a perception layer managing the processing of different social signals, a decision-making layer for handling multi-party interactions, and an execution layer controlling the behaviour of a complex robot composed of arms and a face. Finally, user modelling through a beliefs layer allows for personalised interaction.
翻訳日:2022-03-16 12:14:44 公開日:2022-03-15
# (参考訳) 関節方位スケール空間表現の類似同変線形変換 [全文訳有]

Similarity Equivariant Linear Transformation of Joint Orientation-Scale Space Representations ( http://arxiv.org/abs/2203.06786v2 )

ライセンス: CC BY 4.0
Xinhua Zhang and Lance R. Williams(参考訳) 畳み込みは、1つ以上の変数がシフトで通勤する関数の線形演算として定義される。 群畳み込み(group convolution)は、より一般的な幾何学的変換を表す群要素の関数上の線型演算の概念を一般化し、それらの変換と交換する。 類似度変換は形状を保存する画像上の最も一般的な幾何学的変換であるため、類似度変換に同値な群畳み込みは最も一般的な形状保存線形作用素である。 類似性変換は4つの自由パラメータを持つため、群畳み込みは4次元の共役向きスケール空間上で定義される。 等変線型作用素に関する以前の研究は離散群に限定されているが、類似性群は連続である。 本稿では,連続類似性変換に同値な離散表現上の線形作用素について述べる。 これは、ジョイントシフト可能-ツイスタブル-スケーリング機能である関数の基底を使用することで達成される。 これらのピンホイール関数は、向き付け次元におけるフーリエ級数と対数スケール次元におけるラプラス変換を使い、位置、向き、スケールで連続的に補間できる空間的局所化関数の基底を形成する。 この結果は、一般に視覚計算に関して有意であるが、ブラウン運動の速度における粒子が追従する閉じた輪郭の形状同変分布を計算するために、その実用性を最初に示す。 輪郭は、よく知られた双安定な照明輪郭誘導パターンを表す点と線端の集合によって制約される。

Convolution is conventionally defined as a linear operation on functions of one or more variables which commutes with shifts. Group convolution generalizes the concept to linear operations on functions of group elements representing more general geometric transformations and which commute with those transformations. Since similarity transformation is the most general geometric transformation on images that preserves shape, the group convolution that is equivariant to similarity transformation is the most general shape preserving linear operator. Because similarity transformations have four free parameters, group convolutions are defined on four-dimensional, joint orientation-scale spaces. Although prior work on equivariant linear operators has been limited to discrete groups, the similarity group is continuous. In this paper, we describe linear operators on discrete representations that are equivariant to continuous similarity transformation. This is achieved by using a basis of functions that is it joint shiftable-twistable- scalable. These pinwheel functions use Fourier series in the orientation dimension and Laplace transform in the log-scale dimension to form a basis of spatially localized functions that can be continuously interpolated in position, orientation and scale. Although this result is potentially significant with respect to visual computation generally, we present an initial demonstration of its utility by using it to compute a shape equivariant distribution of closed contours traced by particles undergoing Brownian motion in velocity. The contours are constrained by sets of points and line endings representing well known bistable illusory contour inducing patterns.
翻訳日:2022-03-16 12:00:48 公開日:2022-03-15
# (参考訳) XYLayoutLM:ビジュアルリッチ文書理解のためのレイアウト対応マルチモーダルネットワーク

XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding ( http://arxiv.org/abs/2203.06947v2 )

ライセンス: CC BY 4.0
Zhangxuan Gu, Changhua Meng, Ke Wang, Jun Lan, Weiqiang Wang, Ming Gu, Liqing Zhang(参考訳) 近年,ビジュアル・リッチ文書理解(VRDU)のための様々なマルチモーダルネットワークが提案されている。 しかし,既存の手法の多くは,ocrツールによる不適切な読み出し順序を無視し,シーケンス情報を取り込む位置埋め込みを用いる。 本稿では,Augmented XY Cut が生成する適切な読み出し順序から,リッチなレイアウト情報を取り込み,活用するための,XYLayoutLM というロバストなレイアウト対応マルチモーダルネットワークを提案する。 さらに、可変長の入力シーケンスを扱うために拡張条件位置符号化モジュールを提案し、さらに位置埋め込みを生成しながら、テキストと視覚の両方から局所レイアウト情報を抽出する。 実験の結果,XYLayoutLMは文書理解タスクにおける競合的な結果が得られることがわかった。

Recently, various multimodal networks for Visually-Rich Document Understanding(VRDU) have been proposed, showing the promotion of transformers by integrating visual and layout information with the text embeddings. However, most existing approaches utilize the position embeddings to incorporate the sequence information, neglecting the noisy improper reading order obtained by OCR tools. In this paper, we propose a robust layout-aware multimodal network named XYLayoutLM to capture and leverage rich layout information from proper reading orders produced by our Augmented XY Cut. Moreover, a Dilated Conditional Position Encoding module is proposed to deal with the input sequence of variable lengths, and it additionally extracts local layout information from both textual and visual modalities while generating position embeddings. Experiment results show that our XYLayoutLM achieves competitive results on document understanding tasks.
翻訳日:2022-03-16 11:33:34 公開日:2022-03-15
# (参考訳) 水中生息地における魚の分類のためのコンピュータビジョンと深層学習 [全文訳有]

Computer Vision and Deep Learning for Fish Classification in Underwater Habitats: A Survey ( http://arxiv.org/abs/2203.06951v2 )

ライセンス: CC BY 4.0
Alzayat Saleh, Marcus Sheaves, Mostafa Rahimi Azghadi(参考訳) 海洋科学者は、水中のビデオ記録を使って、自然の生息地の魚種を調査します。 これは、魚類が気候変動や生息地の減少、漁業の圧力にどう反応するかを理解し予測するのに役立ちます。 この情報は人的消費のための持続可能な漁業開発と環境保全に不可欠である。 しかし、収集された膨大な量のビデオは、有用な情報を抽出し、人間の作業に時間を要する。 この問題を解決するための有望な方法は最先端のDeep Learning (DL)技術であり、DLは海洋科学者が大量の映像を迅速かつ効率的に解析し、従来の手動モニタリング手法では得られないニッチな情報を解き放つのに役立つ。 本稿では,魚の生息環境モニタリングに関する文献を水中魚の分類に焦点をあてて紹介しながら,DLの重要概念の概要について述べる。 また,水中画像処理におけるDL開発における主な課題についても論じ,それに対応するためのアプローチを提案する。 最後に,海洋生息環境モニタリング研究領域への洞察を提供し,水中画像処理におけるdlの将来像を明らかにする。 本研究の目的は, 海洋科学者が, dlベースの水中魚類生息環境モニタリングの文献を調査したいコンピュータ科学者に対して, dlを応用したい, 幅広い読者に知らせることである。

Marine scientists use remote underwater video recording to survey fish species in their natural habitats. This helps them understand and predict how fish respond to climate change, habitat degradation, and fishing pressure. This information is essential for developing sustainable fisheries for human consumption, and for preserving the environment. However, the enormous volume of collected videos makes extracting useful information a daunting and time-consuming task for a human. A promising method to address this problem is the cutting-edge Deep Learning (DL) technology.DL can help marine scientists parse large volumes of video promptly and efficiently, unlocking niche information that cannot be obtained using conventional manual monitoring methods. In this paper, we provide an overview of the key concepts of DL, while presenting a survey of literature on fish habitat monitoring with a focus on underwater fish classification. We also discuss the main challenges faced when developing DL for underwater image processing and propose approaches to address them. Finally, we provide insights into the marine habitat monitoring research domain and shed light on what the future of DL for underwater image processing may hold. This paper aims to inform a wide range of readers from marine scientists who would like to apply DL in their research to computer scientists who would like to survey state-of-the-art DL-based underwater fish habitat monitoring literature.
翻訳日:2022-03-16 11:32:39 公開日:2022-03-15
# (参考訳) Graph-Survival: 一時的ネットワーク上での機械学習のためのサバイバル分析フレームワーク [全文訳有]

Graph-Survival: A Survival Analysis Framework for Machine Learning on Temporal Networks ( http://arxiv.org/abs/2203.07260v2 )

ライセンス: CC BY 4.0
Rapha\"el Romero, Bo Kang, Tijl De Bie(参考訳) 連続時間時間ネットワークは、実世界のデータセットと多様体の応用において、その全能性によって注目が集まっている。 静的ネットワークモデルは静的なトポロジカルな正規性を捉えることに成功しているが、ネットワークの生成を説明する因果的性質から生じる効果をモデル化できないことが多い。 ネットワークの時間的側面の爆発は、過去数十年間、様々な研究の焦点となっている。 連続時間時間ネットワークのための生成モデルを設計するためのフレームワークを提案する。 エッジ固有の時間点過程におけるマルコフの第一次仮定を仮定すると、時間変化履歴に基づく特徴をこれらの予測の共変量として使用しながら、イベント間の待ち時間に直接、生存分析モデルを直接柔軟に適用することができる。 このアプローチは、多変量点プロセスによる時間ネットワーク解析の文書化された分野と、生存分析に適応した方法論的ツールを結びつける。 本稿では,本フレームワーク内のモデルに適合する手法と,所望の特性を持つ新しい時間ネットワークをシミュレートするアルゴリズムを提案する。 下流リンク予測タスクにおける提案手法を評価し,ネットワークシミュレーションの質的評価を行う。

Continuous time temporal networks are attracting increasing attention due their omnipresence in real-world datasets and they manifold applications. While static network models have been successful in capturing static topological regularities, they often fail to model effects coming from the causal nature that explain the generation of networks. Exploiting the temporal aspect of networks has thus been the focus of various studies in the last decades. We propose a framework for designing generative models for continuous time temporal networks. Assuming a first order Markov assumption on the edge-specific temporal point processes enables us to flexibly apply survival analysis models directly on the waiting time between events, while using time-varying history-based features as covariates for these predictions. This approach links the well-documented field of temporal networks analysis through multivariate point processes, with methodological tools adapted from survival analysis. We propose a fitting method for models within this framework, and an algorithm for simulating new temporal networks having desired properties. We evaluate our method on a downstream future link prediction task, and provide a qualitative assessment of the network simulations.
翻訳日:2022-03-16 10:56:30 公開日:2022-03-15
# 医科教育ビデオにおける視覚プロンプト時間解答接地に向けて

Towards Visual-Prompt Temporal Answering Grounding in Medical Instructional Video ( http://arxiv.org/abs/2203.06667v2 )

ライセンス: Link先を確認
Bin Li, Yixuan Weng, Bin Sun and Shutao Li(参考訳) ビデオ中の時間応答グラウンドディング(TAGV)は、ビデオ中の時間文グラウンドディング(TSGV)から自然に導出される新しいタスクである。 未解決のビデオとテキストの質問を考えると、このタスクは、意味的に質問に答えられるビデオからマッチングスパンを見つけることを目的としています。 既存の手法では、テキスト質問によって検索された視覚的フレーム幅をマッチングすることにより、視覚的スパンベースの質問応答(QA)アプローチでTAGVタスクを定式化する傾向にある。 しかし,テキスト質問と視覚応答の特徴のセマンティクスの弱い相関や大きなギャップのため,既存の視覚的スパン予測手法はTAGVタスクではうまく機能しない。 本稿では,事前学習型言語モデル (plm) におけるテキストスパンのローカライズを視覚強調機能で強化する,vptsl(visual-prompt text span localizing)法を提案する。 具体的には、コンテキストクエリアテンションを用いて、テキスト特徴と視覚的特徴との間のクロスモーダルモデリングを行う。 次に、線状層を有するハイライトモジュールを介してハイライト機能を取得し、ビジュアルプロンプトを提供する。 テキストの特徴と視覚的特徴のセマンティクスと相関を緩和するために,PLMにおける疑問,字幕,視覚的プロンプトを符号化してテキストスパン予測器を設計する。 その結果、TAGVタスクは、応答フレームタイムラインに一致するサブタイトルのスパンを予測するために定式化される。 MedVidQAと呼ばれる医療指導データセットに関する大規模な実験では、提案されたVPTSLは他の最先端の手法よりも優れており、視覚的プロンプトとテキストスパン予測器の有効性を示している。

The temporal answering grounding in the video (TAGV) is a new task naturally deriving from temporal sentence grounding in the video (TSGV). Given an untrimmed video and a text question, this task aims at locating the matching span from the video that can semantically answer the question. Existing methods tend to formulate the TAGV task with a visual span-based question answering (QA) approach by matching the visual frame span queried by the text question. However, due to the weak correlations and huge gaps in semantics in features between the textual question and visual answer, existing methods adopting visual span predictor fail to perform well in the TAGV task. In this work, we propose a visual-prompt text span localizing (VPTSL) method, which enhances the text span localization in the pre-trained language model (PLM) with the visual highlight features. Specifically, the context query attention is utilized to perform cross-modal modeling between the textual and visual features. Then, the highlight features are obtained through the highlight module with a linear layer to provide the visual prompt. To alleviate the differences in semantics and correlations between textual and visual features, we design the text span predictor by encoding the question, the subtitles, and the visual prompt in the PLM. As a result, the TAGV task is formulated to predict the span of subtitles matching the answering frame timeline. Extensive experiments on the medical instructional dataset, namely MedVidQA, show the proposed VPTSL outperforms other state-of-the-art methods, which demonstrates the effectiveness of visual prompt and the text span predictor.
翻訳日:2022-03-16 10:43:17 公開日:2022-03-15
# Delta Tuning:事前学習型言語モデルのためのパラメータ効率的な手法の総合的研究

Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models ( http://arxiv.org/abs/2203.06904v2 )

ライセンス: Link先を確認
Ning Ding, Yujia Qin, Guang Yang, Fuchao Wei, Zonghan Yang, Yusheng Su, Shengding Hu, Yulin Chen, Chi-Min Chan, Weize Chen, Jing Yi, Weilin Zhao, Xiaozhi Wang, Zhiyuan Liu, Hai-Tao Zheng, Jianfei Chen, Yang Liu, Jie Tang, Juanzi Li, Maosong Sun(参考訳) 成功にもかかわらず、大規模なPLMを微調整するプロセスは、違法な適応コストをもたらす。 実際、余剰モデルのパラメータをすべて微調整し、異なるタスクに対して別々のインスタンスを保持することは事実上不可能である。 本論文では, デルタチューニングと呼ばれる, PLMのパラメータ効率適応に着目した新たな研究分野が必要である。 標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部だけを微調整し、残りは無修正にし、計算とストレージのコストを大幅に削減する。 最近の研究では、パラメータ選択の異なる一連のデルタ調律法がフルパラメータの微調整と同等の性能を達成できることが示されており、大規模plmを刺激する新しい有望な方法が示唆されている。 本稿では,まずデルタチューニングの問題について述べるとともに,最近のデルタチューニング手法を概観する。 また,既存のデルタチューニング手法を加算法,仕様法,パラメータ化法という3つのグループに分割する統合分類基準を提案する。 当初は大きなモデルを操る効率的な方法として提案されていたが、デルタチューニングとともに発見された興味深い証拠の一部は、PLMや深層ニューラルネットワークのメカニズムを明らかにするのに役立つと信じている。 そこで本研究では,デルタチューニングの有効性の基礎となる理論原理について論じ,最適化と最適制御の観点からデルタチューニングを解釈するフレームワークを提案する。 さらに,100以上のNLPタスクの結果が,様々な手法の総合的な性能比較を示す代表手法に関する総合的な実証的研究を行った。 実験結果は、デルタチューニングの組合せ、スケーリング、転送可能な特性の分析もカバーしている。

Despite the success, the process of fine-tuning large-scale PLMs brings prohibitive adaptation costs. In fact, fine-tuning all the parameters of a colossal model and retaining separate instances for different tasks are practically infeasible. This necessitates a new branch of research focusing on the parameter-efficient adaptation of PLMs, dubbed as delta tuning in this paper. In contrast with the standard fine-tuning, delta tuning only fine-tunes a small portion of the model parameters while keeping the rest untouched, largely reducing both the computation and storage costs. Recent studies have demonstrated that a series of delta tuning methods with distinct tuned parameter selection could achieve performance on a par with full-parameter fine-tuning, suggesting a new promising way of stimulating large-scale PLMs. In this paper, we first formally describe the problem of delta tuning and then comprehensively review recent delta tuning approaches. We also propose a unified categorization criterion that divide existing delta tuning methods into three groups: addition-based, specification-based, and reparameterization-b ased methods. Though initially proposed as an efficient method to steer large models, we believe that some of the fascinating evidence discovered along with delta tuning could help further reveal the mechanisms of PLMs and even deep neural networks. To this end, we discuss the theoretical principles underlying the effectiveness of delta tuning and propose frameworks to interpret delta tuning from the perspective of optimization and optimal control, respectively. Furthermore, we provide a holistic empirical study of representative methods, where results on over 100 NLP tasks demonstrate a comprehensive performance comparison of different approaches. The experimental results also cover the analysis of combinatorial, scaling and transferable properties of delta tuning.
翻訳日:2022-03-16 10:42:45 公開日:2022-03-15
# 深層オートオーグメント

Deep AutoAugment ( http://arxiv.org/abs/2203.06172v2 )

ライセンス: Link先を確認
Yu Zheng, Zhi Zhang, Shen Yan, Mi Zhang(参考訳) 最近の自動化されたデータ拡張手法は最先端の結果をもたらすが、その設計空間と派生したデータ拡張戦略は依然として強力な人間の優先事項を取り入れている。 本研究では,手書きのデフォルト拡張を検索データ拡張と共に修正するのではなく,Deep AutoAugment (DeepAA) というデータ拡張検索のための完全自動アプローチを提案する。 deepaaは、拡張層を1つずつ積み重ねて収束するまで、段階的に多層データ拡張パイプラインをスクラッチから構築する。 各拡張層について、ポリシーは、元の勾配と、低分散の方向に沿った拡張データのコサイン類似性を最大化するために最適化される。 実験の結果, 既定の増補がなくても, 従来よりも高い性能を達成した増補政策を学習できることが判明した。 広範囲なアブレーション研究は、正規化勾配マッチングがデータ拡張ポリシーの効果的な探索法であることを示している。 私たちのコードは、https://github.com/M SU-MLSys-Lab/DeepAAで利用可能です。

While recent automated data augmentation methods lead to state-of-the-art results, their design spaces and the derived data augmentation strategies still incorporate strong human priors. In this work, instead of fixing a set of hand-picked default augmentations alongside the searched data augmentations, we propose a fully automated approach for data augmentation search named Deep AutoAugment (DeepAA). DeepAA progressively builds a multi-layer data augmentation pipeline from scratch by stacking augmentation layers one at a time until reaching convergence. For each augmentation layer, the policy is optimized to maximize the cosine similarity between the gradients of the original and augmented data along the direction with low variance. Our experiments show that even without default augmentations, we can learn an augmentation policy that achieves strong performance with that of previous works. Extensive ablation studies show that the regularized gradient matching is an effective search method for data augmentation policies. Our code is available at: https://github.com/M SU-MLSys-Lab/DeepAA .
翻訳日:2022-03-16 10:42:18 公開日:2022-03-15
# PillarGrid:3次元物体検出のためのディープラーニングによる協調認識

PillarGrid: Deep Learning-based Cooperative Perception for 3D Object Detection from Onboard-Roadside LiDAR ( http://arxiv.org/abs/2203.06319v2 )

ライセンス: Link先を確認
Zhengwei Bai, Guoyuan Wu, Matthew J. Barth, Yongkang Liu, Emrah Akin Sisbot, Kentaro Oguchi(参考訳) 3次元物体検出は、安全、移動性、持続可能性の観点から、現代交通システムのボトルネックを解き放つ重要な鍵である、自律運転を可能にする上で、基本的な役割を果たす。 点雲からのSOTA(State-of-the-ar t)オブジェクト検出法のほとんどは、特に密集した交通シナリオにおいて、その範囲と閉塞によって必然的に性能が制限される単一搭載LiDARに基づいて開発されている。 本稿では,コネクテッド・オートマチック・カー(CAV)の状況認識を高めるために,複数の3次元LiDAR(車載および道路側の両方)からの情報を利用した新しい協調認識手法である「textit{PillarGrid}」を提案する。 pillargridは4つの主要なフェーズからなる。 1)点雲の協調前処理, 2)柱回りボクセル化と特徴抽出 3)複数のセンサの特徴のグリッドワイドな融合、及び 4)畳み込みニューラルネットワーク(CNN)を用いた3次元物体検出。 モデルトレーニングとテストのための新しい協調認識プラットフォームを開発した。 広汎な実験により、PillarGridはSOTA単一LiDARに基づく3Dオブジェクト検出法よりも精度と範囲を大きなマージンで上回ることがわかった。

3D object detection plays a fundamental role in enabling autonomous driving, which is regarded as the significant key to unlocking the bottleneck of contemporary transportation systems from the perspectives of safety, mobility, and sustainability. Most of the state-of-the-art (SOTA) object detection methods from point clouds are developed based on a single onboard LiDAR, whose performance will be inevitably limited by the range and occlusion, especially in dense traffic scenarios. In this paper, we propose \textit{PillarGrid}, a novel cooperative perception method fusing information from multiple 3D LiDARs (both on-board and roadside), to enhance the situation awareness for connected and automated vehicles (CAVs). PillarGrid consists of four main phases: 1) cooperative preprocessing of point clouds, 2) pillar-wise voxelization and feature extraction, 3) grid-wise deep fusion of features from multiple sensors, and 4) convolutional neural network (CNN)-based augmented 3D object detection. A novel cooperative perception platform is developed for model training and testing. Extensive experimentation shows that PillarGrid outperforms the SOTA single-LiDAR-based 3D object detection methods with respect to both accuracy and range by a large margin.
翻訳日:2022-03-16 10:42:02 公開日:2022-03-15
# ミスマッチ生成モデルを用いたロバストマルコフ決定過程の政策学習

Policy Learning for Robust Markov Decision Process with a Mismatched Generative Model ( http://arxiv.org/abs/2203.06587v2 )

ライセンス: Link先を確認
Jialian Li, Tongzheng Ren, Dong Yan, Hang Su, Jun Zhu(参考訳) 医療や自動操縦といった高度なシナリオでは、オンラインの実験データを収集してエージェントを訓練するのは危険か不可能です。 シミュレーションベースのトレーニングはこの問題を軽減することができるが、シミュレータと実際の環境から固有のミスマッチに悩まされる可能性がある。 したがって,シミュレータを用いて実世界展開のための堅牢なポリシーを学ぶことが不可欠である。 本研究では,ロバスト・マルコフ決定過程(RMDP)に対する政策学習について考察する。 具体的には、学習環境を生成モデルとして特徴付けることができ、テスト中に制約のある摂動をモデルに追加できるような設定に焦点を当てる。 これは,サンプルからトレーニング環境の不確実性を同時に推定し,テストの最悪の摂動を見出す必要があるため,さらなる技術的困難をもたらすものだ。 そこで本研究では,対戦相手としての摂動を形式化し,二人プレイのゼロサムゲームを得る汎用的な手法を提案し,さらにnash均衡がロバストな方針に対応することを示す。 生成モデルからのサンプルの多項式数を用いて,本アルゴリズムは高い確率で最適に近いロバストポリシを求めることができることを示す。 本手法は穏やかな仮定の下で一般的な摂動に対処でき,ゲーム理論的な定式化によりロバスト部分可観測マルコフ決定プロセスのようなより複雑な問題にも拡張することができる。

In high-stake scenarios like medical treatment and auto-piloting, it's risky or even infeasible to collect online experimental data to train the agent. Simulation-based training can alleviate this issue, but may suffer from its inherent mismatches from the simulator and real environment. It is therefore imperative to utilize the simulator to learn a robust policy for the real-world deployment. In this work, we consider policy learning for Robust Markov Decision Processes (RMDP), where the agent tries to seek a robust policy with respect to unexpected perturbations on the environments. Specifically, we focus on the setting where the training environment can be characterized as a generative model and a constrained perturbation can be added to the model during testing. Our goal is to identify a near-optimal robust policy for the perturbed testing environment, which introduces additional technical difficulties as we need to simultaneously estimate the training environment uncertainty from samples and find the worst-case perturbation for testing. To solve this issue, we propose a generic method which formalizes the perturbation as an opponent to obtain a two-player zero-sum game, and further show that the Nash Equilibrium corresponds to the robust policy. We prove that, with a polynomial number of samples from the generative model, our algorithm can find a near-optimal robust policy with a high probability. Our method is able to deal with general perturbations under some mild assumptions and can also be extended to more complex problems like robust partial observable Markov decision process, thanks to the game-theoretical formulation.
翻訳日:2022-03-16 10:41:40 公開日:2022-03-15
# SciNLI: 科学テキストによる自然言語推論のためのコーパス

SciNLI: A Corpus for Natural Language Inference on Scientific Text ( http://arxiv.org/abs/2203.06728v2 )

ライセンス: Link先を確認
Mobashir Sadat and Cornelia Caragea(参考訳) 既存の自然言語推論(NLI)データセットは、自然言語理解(NLU)研究の進展に役立っているが、科学的テキストとは無関係である。 本稿では,NLPと計算言語学の学術論文から抽出した107,412の文対を含む,科学テキストの形式を捉えるNLIのための大規模データセットであるSciNLIを紹介する。 科学文献で用いられるテキストは語彙と文構造の両方において日常言語で使われるテキストとは大きく異なるので,本データセットは科学的なNLUモデルを評価するためのベンチマークとして適している。 我々の実験によると、SciNLIは既存のNLIデータセットよりも分類が難しい。 XLNetで最高のパフォーマンスモデルは、わずか78.18%のマクロF1スコアと78.23%の精度で、改善の余地があることを示しています。

Existing Natural Language Inference (NLI) datasets, while being instrumental in the advancement of Natural Language Understanding (NLU) research, are not related to scientific text. In this paper, we introduce SciNLI, a large dataset for NLI that captures the formality in scientific text and contains 107,412 sentence pairs extracted from scholarly papers on NLP and computational linguistics. Given that the text used in scientific literature differs vastly from the text used in everyday language both in terms of vocabulary and sentence structure, our dataset is well suited to serve as a benchmark for the evaluation of scientific NLU models. Our experiments show that SciNLI is harder to classify than the existing NLI datasets. Our best performing model with XLNet achieves a Macro F1 score of only 78.18% and an accuracy of 78.23% showing that there is substantial room for improvement.
翻訳日:2022-03-16 10:41:15 公開日:2022-03-15
# 回転するシャッター画像に二重反転歪みをもたらす

Bringing Rolling Shutter Images Alive with Dual Reversed Distortion ( http://arxiv.org/abs/2203.06451v2 )

ライセンス: Link先を確認
Zhihang Zhong, Mingdeng Cao, Xiao Sun, Zhirong Wu, Zhongyi Zhou, Yinqiang Zheng, Stephen Lin, Imari Sato(参考訳) ローリングシャッター(RS)歪みは、RSカメラの露出中に瞬時グローバルシャッター(GS)フレームから一列のピクセルを選択した結果であると解釈することができる。 これは、各瞬時GSフレームの情報が部分的に、しかし順次、行依存の歪みに埋め込まれていることを意味する。 この事実に触発されて,RS歪みに苦しむ画像から非歪なGSフレームを抽出するといった,このプロセスの逆転という課題に対処する。 しかし、RS歪みは、読み出し設定やカメラに対するシーン要素の相対速度などの他の要因と結合しているため、時間的に隣接した画像間の幾何学的相関のみを利用するモデルは、読み出し設定が異なるデータや、カメラモーションとオブジェクトモーションの両方で動的シーンを処理する場合の一般性に乏しい。 本稿では,2つの連続するフレームの代わりに,2台のRSカメラで撮像した2枚の画像に逆RS方向を印加する手法を提案する。 双対逆歪の対称かつ相補的な性質を基礎として, rs時間中の速度場の反復学習により2重光流列を生成するための新しいエンドツーエンドモデルifedを開発した。 大規模な実験結果から,IFEDは,隣接したRS画像を利用した最先端技術と同様に,単純なカスケード方式よりも優れていることが示された。 最も重要なことは、合成データセットでトレーニングされているにもかかわらず、IFEDは実世界のRS歪み画像からGSフレームのシーケンスを取得するのに効果的であることを示している。

Rolling shutter (RS) distortion can be interpreted as the result of picking a row of pixels from instant global shutter (GS) frames over time during the exposure of the RS camera. This means that the information of each instant GS frame is partially, yet sequentially, embedded into the row-dependent distortion. Inspired by this fact, we address the challenging task of reversing this process, i.e., extracting undistorted GS frames from images suffering from RS distortion. However, since RS distortion is coupled with other factors such as readout settings and the relative velocity of scene elements to the camera, models that only exploit the geometric correlation between temporally adjacent images suffer from poor generality in processing data with different readout settings and dynamic scenes with both camera motion and object motion. In this paper, instead of two consecutive frames, we propose to exploit a pair of images captured by dual RS cameras with reversed RS directions for this highly challenging task. Grounded on the symmetric and complementary nature of dual reversed distortion, we develop a novel end-to-end model, IFED, to generate dual optical flow sequence through iterative learning of the velocity field during the RS time. Extensive experimental results demonstrate that IFED is superior to naive cascade schemes, as well as the state-of-the-art which utilizes adjacent RS images. Most importantly, although it is trained on a synthetic dataset, IFED is shown to be effective at retrieving GS frame sequences from real-world RS distorted images of dynamic scenes.
翻訳日:2022-03-16 10:41:00 公開日:2022-03-15
# ヘッドビデオ生成のための奥行き認識型生成アドバイザラルネットワーク

Depth-Aware Generative Adversarial Network for Talking Head Video Generation ( http://arxiv.org/abs/2203.06605v2 )

ライセンス: Link先を確認
Fa-Ting Hong, Longhao Zhang, Li Shen, and Dan Xu(参考訳) トーキングヘッドビデオ生成は、入力画像から学習した2次元表現(外観や動きなど)に重きを置き、与えられた音源画像と駆動映像から識別情報とポーズ情報とをそれぞれ含む合成ヒューマンフェイスビデオを作成することを目的としている。 しかし,高密度な3次元顔形状(例えば画素幅の深さ)は,特に正確な3次元顔構造を生成し,ノイズのある情報を散らばった背景と区別することが有用であるため,この作業にとって極めて重要である。 それでも、密集した3dジオメトリのアノテーションはビデオには高価であり、通常このビデオ生成タスクには使用できない。 本稿では,まず,高価な3dアノテーションデータを必要とせずに,顔映像から密集した3次元形状(すなわち奥行き)を自動的に復元する自己教師付き幾何学習手法を提案する。 さらに,学習した深度マップに基づいて,人間の頭部の臨界運動を捉えた粗い顔のキーポイントを推定する手法を提案する。 より密集した方法では、深度を利用して3D対応のクロスモーダル(外観と深さ)の注意を学習し、ソース画像表現を歪ませるための運動場の生成を導く。 これらすべての貢献は、トーキングヘッド生成のための新しい深さ認識生成逆ネットワーク(dagan)を構成する。 大規模な実験により,提案手法は極めて現実的な顔を生成し,目に見えない人間の顔に対して有意な結果が得られた。

Talking head video generation aims to produce a synthetic human face video that contains the identity and pose information respectively from a given source image and a driving video.Existing works for this task heavily rely on 2D representations (e.g. appearance and motion) learned from the input images. However, dense 3D facial geometry (e.g. pixel-wise depth) is extremely important for this task as it is particularly beneficial for us to essentially generate accurate 3D face structures and distinguish noisy information from the possibly cluttered background. Nevertheless, dense 3D geometry annotations are prohibitively costly for videos and are typically not available for this video generation task. In this paper, we first introduce a self-supervised geometry learning method to automatically recover the dense 3D geometry (i.e.depth) from the face videos without the requirement of any expensive 3D annotation data. Based on the learned dense depth maps, we further propose to leverage them to estimate sparse facial keypoints that capture the critical movement of the human head. In a more dense way, the depth is also utilized to learn 3D-aware cross-modal (i.e. appearance and depth) attention to guide the generation of motion fields for warping source image representations. All these contributions compose a novel depth-aware generative adversarial network (DaGAN) for talking head generation. Extensive experiments conducted demonstrate that our proposed method can generate highly realistic faces, and achieve significant results on the unseen human faces.
翻訳日:2022-03-16 10:39:45 公開日:2022-03-15
# Blind2Unblind:視覚的な盲点で自己監督された画像

Blind2Unblind: Self-Supervised Image Denoising with Visible Blind Spots ( http://arxiv.org/abs/2203.06967v2 )

ライセンス: Link先を確認
Zejin Wang, Jiazheng Liu, Guoqing Li, Hua Han(参考訳) 大規模な実雑音とクリーンなペアは高価で入手が難しい。 一方で、合成データで訓練された教師付きデノイザーは、実際には不十分である。 単一ノイズ画像からのみ学習する自己教師型デノイザは、データ収集問題を解決する。 しかし、特に盲点駆動の自己教師型復調法は、入力やネットワーク設計において大きな情報損失を被る。 貴重な情報がないことにより、デノナイジング性能の上限が劇的に低下する。 本稿では,ブラインドスポット駆動型復調法における情報損失を克服する,Blind2Unblindというシンプルな手法を提案する。 まず,グローバル認識を可能にし,トレーニングを高速化するグローバルウェアマスクマッパーを提案する。 マスクマッパーは、識別されたボリューム上の盲点のすべてのピクセルをサンプリングし、それらを同じチャネルにマップすることで、損失関数を一度にすべての盲点を最適化する。 第2に,目隠しネットワークを訓練し,盲点を視認する再視認性損失を提案する。 デノイザは、情報を失ったり、アイデンティティマッピングに閉じ込められたりすることなく、生のノイズ画像から直接学習することができる。 また,再可視損失の収束を理論的に解析する。 総合的および実世界のデータセットに関する広範な実験は、これまでの研究よりも優れた性能を示している。 コードはhttps://github.com/d emonsjin/blind2unbli ndで入手できる。

Real noisy-clean pairs on a large scale are costly and difficult to obtain. Meanwhile, supervised denoisers trained on synthetic data perform poorly in practice. Self-supervised denoisers, which learn only from single noisy images, solve the data collection problem. However, self-supervised denoising methods, especially blindspot-driven ones, suffer sizable information loss during input or network design. The absence of valuable information dramatically reduces the upper bound of denoising performance. In this paper, we propose a simple yet efficient approach called Blind2Unblind to overcome the information loss in blindspot-driven denoising methods. First, we introduce a global-aware mask mapper that enables global perception and accelerates training. The mask mapper samples all pixels at blind spots on denoised volumes and maps them to the same channel, allowing the loss function to optimize all blind spots at once. Second, we propose a re-visible loss to train the denoising network and make blind spots visible. The denoiser can learn directly from raw noise images without losing information or being trapped in identity mapping. We also theoretically analyze the convergence of the re-visible loss. Extensive experiments on synthetic and real-world datasets demonstrate the superior performance of our approach compared to previous work. Code is available at https://github.com/d emonsjin/Blind2Unbli nd.
翻訳日:2022-03-16 10:39:20 公開日:2022-03-15
# ロバスト画像分類器への逆振幅スワップ

Adversarial amplitude swap towards robust image classifiers ( http://arxiv.org/abs/2203.07138v2 )

ライセンス: Link先を確認
Tan Chun Yang, Hiroshi Kera, Kazuhiko Kawamoto(参考訳) 近年, 畳み込みニューラルネットワーク(CNN)による画像摂動の脆弱性について, 周波数の観点から検討している。 本研究では,逆画像の振幅スペクトルと位相スペクトルがCNN分類器の堅牢性に及ぼす影響について検討する。 総合的な実験により, 対向画像の振幅スペクトルとクリーン画像の位相スペクトルを組み合わせた画像は, 適度な摂動と一般の摂動を許容し, それらの画像を用いたトレーニングにより, CNN分類器をより汎用的な堅牢性を持たせ, 共通の汚職と対向的摂動の両方の下で良好に機能することがわかった。 また,2種類のオーバーフィッティング(破滅的なオーバーフィッティングと堅牢なオーバーフィッティング)は,前述のスペクトル再結合によって回避できることがわかった。 これらの結果は,真に堅牢な分類器の理解と訓練に寄与すると考えられる。

The vulnerability of convolutional neural networks (CNNs) to image perturbations such as common corruptions and adversarial perturbations has recently been investigated from the perspective of frequency. In this study, we investigate the effect of the amplitude and phase spectra of adversarial images on the robustness of CNN classifiers. Extensive experiments revealed that the images generated by combining the amplitude spectrum of adversarial images and the phase spectrum of clean images accommodates moderate and general perturbations, and training with these images equips a CNN classifier with more general robustness, performing well under both common corruptions and adversarial perturbations. We also found that two types of overfitting (catastrophic overfitting and robust overfitting) can be circumvented by the aforementioned spectrum recombination. We believe that these results contribute to the understanding and the training of truly robust classifiers.
翻訳日:2022-03-16 10:39:02 公開日:2022-03-15
# ビデオカモフラージュ物体検出のための入射運動ハンドリング

Implicit Motion Handling for Video Camouflaged Object Detection ( http://arxiv.org/abs/2203.07363v2 )

ライセンス: Link先を確認
Xuelian Cheng, Huan Xiong, Deng-Ping Fan, Yiran Zhong, Mehrtash Harandi, Tom Drummond, Zongyuan Ge(参考訳) 本稿では,ビデオフレームからカモフラージュされたオブジェクトを検出するために,短期的ダイナミクスと長期的時間的一貫性の両方を利用する新しいビデオカモフラーグオブジェクト検出(VCOD)フレームワークを提案する。 カモフラージュされた物体の本質的な性質は、通常、背景に類似したパターンを呈し、静止画から識別するのが難しくなることである。 したがって、動画の時間的ダイナミクスを効果的に扱うことがVCODタスクの鍵となる。 しかし、現在のvcod法は、運動推定誤差とセグメンテーション誤差の両方から検出誤差が累積される運動を表現するためにホモグラフィや光学フローを利用することが多い。 一方,提案手法では,単一の最適化フレームワーク内で運動推定と物体分割を統一する。 具体的には,隣接するフレーム間の動きを暗黙的に捉え,最終的なセグメンテーション監督を利用して暗黙的な動き推定とセグメンテーションを共同で最適化する。 さらに,ビデオシーケンス内の時間的一貫性を強制するために,時空間変換器を併用して短期予測を洗練させる。 VCODベンチマークに関する大規模な実験は、我々のアプローチのアーキテクチャの有効性を示している。 また,大規模なVCODデータセットである MoCA-Mask と,画素レベルの手作りグラウンドトルースマスクを提供し,従来手法による包括的なVCODベンチマークを構築し,この方向の研究を容易にする。 Dataset Link: https://xueliancheng .github.io/SLT-Net-p roject

We propose a new video camouflaged object detection (VCOD) framework that can exploit both short-term dynamics and long-term temporal consistency to detect camouflaged objects from video frames. An essential property of camouflaged objects is that they usually exhibit patterns similar to the background and thus make them hard to identify from still images. Therefore, effectively handling temporal dynamics in videos becomes the key for the VCOD task as the camouflaged objects will be noticeable when they move. However, current VCOD methods often leverage homography or optical flows to represent motions, where the detection error may accumulate from both the motion estimation error and the segmentation error. On the other hand, our method unifies motion estimation and object segmentation within a single optimization framework. Specifically, we build a dense correlation volume to implicitly capture motions between neighbouring frames and utilize the final segmentation supervision to optimize the implicit motion estimation and segmentation jointly. Furthermore, to enforce temporal consistency within a video sequence, we jointly utilize a spatio-temporal transformer to refine the short-term predictions. Extensive experiments on VCOD benchmarks demonstrate the architectural effectiveness of our approach. We also provide a large-scale VCOD dataset named MoCA-Mask with pixel-level handcrafted ground-truth masks and construct a comprehensive VCOD benchmark with previous methods to facilitate research in this direction. Dataset Link: https://xueliancheng .github.io/SLT-Net-p roject.
翻訳日:2022-03-16 10:38:44 公開日:2022-03-15
# 動的データに対する可変係数線形判別式解析

Varying Coefficient Linear Discriminant Analysis for Dynamic Data ( http://arxiv.org/abs/2203.06371v2 )

ライセンス: Link先を確認
Yajie Bao and Yuyang Liu(参考訳) 線形識別分析(LDA)は統計学と機械学習において重要な分類ツールである。 本稿では、ベイズの識別方向が不均一性に対応するための露出変数の関数である動的データに対する変動係数LDAモデルについて検討する。 ベイズ方向と平行な新たな識別方向関数を導出することにより,B-スプライン近似に基づく最小二乗推定法を提案する。 高次元のシステムでは、対応するデータ駆動型判別規則は、既存の動的線形計画規則よりも計算効率が高い。 また,推定誤差のバウンドや一様過大分類率などの理論結果も定式化する。 合成データおよび実データに関する数値実験は,提案手法の優越性を裏付けるものである。

Linear discriminant analysis (LDA) is a vital classification tool in statistics and machine learning. This paper investigates the varying coefficient LDA model for dynamic data, with Bayes' discriminant direction being a function of some exposure variable to address the heterogeneity. By deriving a new discriminant direction function parallel with Bayes' direction, we propose a least-square estimation procedure based on the B-spline approximation. For high-dimensional regime, the corresponding data-driven discriminant rule is more computationally efficient than the existed dynamic linear programming rule. We also establish the corresponding theoretical results, including estimation error bound and the uniform excess misclassification rate. Numerical experiments on synthetic data and real data both corroborate the superiority of our proposed classification method.
翻訳日:2022-03-16 10:38:18 公開日:2022-03-15
# マルチユーザMIMOシステムにおけるビットメトリック復号速度:理論

Bit-Metric Decoding Rate in Multi-User MIMO Systems: Theory ( http://arxiv.org/abs/2203.06271v2 )

ライセンス: Link先を確認
K. Pavan Srinath and Jakob Hoydis(参考訳) リンク適応(la)は、送信機によって使用される変調符号化方式(mcs)が、特定のターゲット誤り率を満たすためにチャネル条件に適合する無線通信の最も重要な側面の1つである。 シングルユーザsiso(su-siso)システムでは、受信機で後等化信号対干渉雑音比(sinr)を演算してlaを行う。 同じ技術は、線形検出器を使用するマルチユーザMIMO(MU-MIMO)受信機でも使用できる。 ポスト等化SINRのもう1つの重要な用途は物理層(PHY)の抽象化であり、システムレベルのシミュレーションを高速化するために、チャネルエンコーダ、検出器、チャネルデコーダなどのPHYブロックを抽象化モデルに置き換える。 これは、ポスト等化SINRをコードワードエラーレート(CER)またはブロックエラーレート(BLER)にマッピングすることで達成される。 しかし、スフィアデコーダアルゴリズムの変種を使用するような非線形受信機を持つMU-MIMOシステムでは、LAとPHYの抽象化を極めて困難にするポスト等化SINRの等価性は知られていない。 この重要な問題はこの2部からなる論文で論じられている。 ここでは、一連のチャネル実現のための検出器のビットメトリック復号率(BMDR)と呼ばれる計量を示す。 BMDRは任意の検出器に対する非等化後のSINRと同値である。 BMDRには、その瞬時に計算できるクローズドフォーム表現がないため、それを予測するための機械学習アプローチが提示される。 第2部では、任意の検出器を持つMU-MIMOシステムに対して、BMDRを用いてLA、検出器選択、PHY抽象化を行うアルゴリズムを記述している。 主張を裏付ける大規模なシミュレーション結果が提示される。

Link-adaptation (LA) is one of the most important aspects of wireless communications where the modulation and coding scheme (MCS) used by the transmitter is adapted to the channel conditions in order to meet a certain target error-rate. In a single-user SISO (SU-SISO) system, LA is performed by computing the post-equalization signal-to-interferen ce-noise ratio (SINR) at the receiver. The same technique can be employed in multi-user MIMO (MU-MIMO) receivers that use linear detectors. Another important use of post-equalization SINR is for physical layer (PHY) abstraction, where several PHY blocks like the channel encoder, the detector, and the channel decoder are replaced by an abstraction model in order to speed up system-level simulations. This is achieved by mapping the post-equalization SINR to a codeword error rate (CER) or a block error rate (BLER). However, for MU-MIMO systems with non-linear receivers, like those that use variants of the sphere-decoder algorithm, there is no known equivalent of post-equalization SINR which makes both LA and PHY abstraction extremely challenging. This important issue is addressed in this two-part paper. A metric called the bit-metric decoding rate (BMDR) of a detector for a set of channel realizations is presented in this part. BMDR is the proposed equivalent of post-equalization SINR for arbitrary detectors. Since BMDR does not have a closed form expression that would enable its instantaneous calculation, a machine-learning approach to predict it is presented. The second part describes the algorithms to perform LA, detector selection, and PHY abstraction using BMDR for MU-MIMO systems with arbitrary detectors. Extensive simulation results corroborating the claims are presented.
翻訳日:2022-03-16 10:38:09 公開日:2022-03-15
# マルチユーザMIMOシステムにおけるビットメトリックデコードレート:応用

Bit-Metric Decoding Rate in Multi-User MIMO Systems: Applications ( http://arxiv.org/abs/2203.06273v2 )

ライセンス: Link先を確認
K. Pavan Srinath and Jakob Hoydis(参考訳) これは、リンク適応(LA)と物理層(PHY)の非線形受信機を用いたマルチユーザMIMO(MU-MIMO)システムの抽象化に焦点を当てた2部構成の論文の第2部である。 第1部では、非線形受信機に対する非等化信号-干渉-雑音比(SINR)の等価性として、検出器に対するビットメトリック復号率(BMDR)と呼ばれる新しい計量を提案する。 このBMDRはクローズドな形式表現を持たないため,機械学習による評価手法を効果的に提案する。 この部分では、第一部で開発された概念を用いて、LAの新しいアルゴリズム、利用可能な検出器リストからの動的検出器選択、任意の受信機を持つMU-MIMOシステムのPHY抽象化を開発する。 提案アルゴリズムの有効性を実証する大規模なシミュレーション結果を示す。

This is the second part of a two-part paper that focuses on link-adaptation (LA) and physical layer (PHY) abstraction for multi-user MIMO (MU-MIMO) systems with non-linear receivers. The first part proposes a new metric, called bit-metric decoding rate (BMDR) for a detector, as being the equivalent of post-equalization signal-to-interferen ce-noise ratio (SINR) for non-linear receivers. Since this BMDR does not have a closed form expression, a machine-learning based approach to estimate it effectively is presented. In this part, the concepts developed in the first part are utilized to develop novel algorithms for LA, dynamic detector selection from a list of available detectors, and PHY abstraction in MU-MIMO systems with arbitrary receivers. Extensive simulation results that substantiate the efficacy of the proposed algorithms are presented.
翻訳日:2022-03-16 10:36:15 公開日:2022-03-15