このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220303となっている論文です。

PDF登録状況(公開日: 20220303)

TitleAuthorsAbstract論文公表日・翻訳日
# ディープニューラルネットワークによる画像応答回帰

Image Response Regression via Deep Neural Networks ( http://arxiv.org/abs/2006.09911v4 )

ライセンス: Link先を確認
Daiwei Zhang, Lexin Li, Chandra Sripada, Jian Kang(参考訳) 画像と共変量ベクトルの関連性を説明することは、医用画像研究において中心的な関心事である。 画像応答回帰のこの問題に取り組むために,空間変化係数モデルの枠組みにおいて,深層ニューラルネットワークを用いて空間変化関数を推定する新しい非パラメトリック手法を提案する。 既存のソリューションと比較して,提案手法は空間的滑らかさと対象の不均一性を明確に説明し,簡単な解釈を持ち,複雑な関連パターンを捉える上で非常に柔軟かつ正確である。 提案手法の主な考え方は,画像ボクセルを有効試料として扱うことであり,医用画像研究の大部分を悩ませる限られたサンプルサイズの問題を軽減するだけでなく,より堅牢で再現可能な結果をもたらす。 区分的な滑らかな関数の広い族に着目し,推定と選択の一貫性を確立し,漸近的誤差境界を導出する。 本手法の有効性を集中シミュレーションにより実証し,その利点を2つの機能的磁気共鳴イメージングデータセットの解析により明らかにする。

Delineating the associations between images and a vector of covariates is of central interest in medical imaging studies. To tackle this problem of image response regression, we propose a novel nonparametric approach in the framework of spatially varying coefficient models, where the spatially varying functions are estimated through deep neural networks. Compared to existing solutions, the proposed method explicitly accounts for spatial smoothness and subject heterogeneity, has straightforward interpretations, and is highly flexible and accurate in capturing complex association patterns. A key idea in our approach is to treat the image voxels as the effective samples, which not only alleviates the limited sample size issue that haunts the majority of medical imaging studies, but also leads to more robust and reproducible results. Focusing on a broad family of piecewise smooth functions, we establish the estimation and selection consistency, and derive the asymptotic error bounds. We demonstrate the efficacy of the method through intensive simulations, and further illustrate its advantages with analyses of two functional magnetic resonance imaging datasets.
翻訳日:2022-11-19 20:27:43 公開日:2022-03-03
# 型付きシンボルを持つ関数集合 : ハイブリッド非線形到達性とフィルタリングのための混合ゾノトープとポリノトープ

Functional sets with typed symbols : Mixed zonotopes and Polynotopes for hybrid nonlinear reachability and filtering ( http://arxiv.org/abs/2009.07387v2 )

ライセンス: Link先を確認
Christophe Combastel(参考訳) サイバーフィジカルシステム(cps)の検証と合成は困難であり、まだ多くの問題を引き起こしている。 本稿では,記号型領域の関数イメージとして定義される混合集合の新しい概念に基づいて,意欲的評価と怠け者評価を組み合わせた構成的アプローチを提案する。 構文と意味は明確に区別される。 連続(内部)と離散(符号付き、ブール)の記号型は、線形および多項式関数を通して依存をモデル化するために用いられ、ゾノトピックとポリノトピックの混合となる。 ポリノトープは、型付き記号でスパース多項式ゾノトープを拡張する。 ポリノーペは間隔の混合符号化を伝播し、論理ゲートの挙動を記述する。 関数完全性の結果と、一次非線形およびスイッチング関数の包含方法が与えられる。 ポリノトピックカルマンフィルタ(PKF)は、ゾノトピックカルマンフィルタ(ZKF)のハイブリッド非線形拡張として提案される。 確率的不確実性パラダイムを持つ橋について概説する。 最後に、比較を含むいくつかの離散的、連続的、ハイブリッドな数値例が理論結果の有効性を示している。

Verification and synthesis of Cyber-Physical Systems (CPS) are challenging and still raise numerous issues so far. In this paper, based on a new concept of mixed sets defined as function images of symbol type domains, a compositional approach combining eager and lazy evaluations is proposed. Syntax and semantics are explicitly distinguished. Both continuous (interval) and discrete (signed, boolean) symbol types are used to model dependencies through linear and polynomial functions, so leading to mixed zonotopic and polynotopic sets. Polynotopes extend sparse polynomial zonotopes with typed symbols. Polynotopes can both propagate a mixed encoding of intervals and describe the behavior of logic gates. A functional completeness result is given, as well as an inclusion method for elementary nonlinear and switching functions. A Polynotopic Kalman Filter (PKF) is then proposed as a hybrid nonlinear extension of Zonotopic Kalman Filters (ZKF). Bridges with a stochastic uncertainty paradigm are briefly outlined. Finally, several discrete, continuous and hybrid numerical examples including comparisons illustrate the effectiveness of the theoretical results.
翻訳日:2022-10-18 06:51:35 公開日:2022-03-03
# 状態と遷移のグラフを用いた布の操作の符号化

Encoding cloth manipulations using a graph of states and transitions ( http://arxiv.org/abs/2009.14681v2 )

ライセンス: Link先を確認
J\'ulia Borr\`as, Guillem Aleny\`a and Carme Torras(参考訳) 衣服の操作は、家庭内のロボット作業に非常に関係があるが、操作中の布の振る舞いを表現、認識、予測する複雑さのため、多くの課題が生じる。 本研究では,タスクを状態と遷移のシーケンスとして表現できる布の操作状態の汎用的,コンパクトかつ簡易な表現を提案する。 タスクを達成するためのすべての戦略をエンコードするクラス操作グラフも定義しています。 映像とモーションデータを用いた人体実験から学習した2つの異なる布の操作タスクを符号化するために,新しい表現法を提案する。 単純な表現が意味のある運動プリミティブのマップをいかに得るかを示す。

Cloth manipulation is very relevant for domestic robotic tasks, but it presents many challenges due to the complexity of representing, recognizing and predicting the behaviour of cloth under manipulation. In this work, we propose a generic, compact and simplified representation of the states of cloth manipulation that allows for representing tasks as sequences of states and transitions. We also define a Cloth Manipulation Graph that encodes all the strategies to accomplish a task. Our novel representation is used to encode two different cloth manipulation tasks, learned from an experiment with human subjects with video and motion data. We show how our simplified representation allows to obtain a map of meaningful motion primitives.
翻訳日:2022-10-13 00:12:57 公開日:2022-03-03
# (参考訳) テキスト自動要約手法の包括的考察

Automatic Text Summarization Methods: A Comprehensive Review ( http://arxiv.org/abs/2204.01849v1 )

ライセンス: CC0 1.0
Divakar Yadav, Jalpa Desai, Arun Kumar Yadav(参考訳) インターネットの急速な成長によって生じた最も差し迫った問題の1つは、情報過負荷として知られている。 要約形式で関連情報をシンプルにすることは、インターネット上で話題の素材が豊富であるため、多くの人々を支援する。 大量のテキストを手作業で要約することは、人間にとってかなり難しい。 そのため、より複雑で強力な要約者の必要性が増した。 研究者は1950年代から要約を作成するためのアプローチを改善しようとしており、機械生成の要約は人間が作成した要約と一致している。 本研究は,要約手法,使用技術,標準データセット,評価指標,研究の今後の展望など,テキスト要約概念の詳細な解析結果を提供する。 最も一般的に受け入れられているアプローチは抽出的かつ抽象的であり、この研究で詳細に研究されている。 再利用可能なリソースとインフラの開発を要約して評価し、結果の比較と再現を行い、結果を改善するための競争を繰り広げる。 本研究では,生成した要約の異なる評価方法について述べる。 最後に、本研究の最後に、テキスト要約研究に関連するいくつかの課題と研究機会について述べ、この領域で働く潜在的な研究者にとって有用である可能性がある。

One of the most pressing issues that have arisen due to the rapid growth of the Internet is known as information overloading. Simplifying the relevant information in the form of a summary will assist many people because the material on any topic is plentiful on the Internet. Manually summarising massive amounts of text is quite challenging for humans. So, it has increased the need for more complex and powerful summarizers. Researchers have been trying to improve approaches for creating summaries since the 1950s, such that the machine-generated summary matches the human-created summary. This study provides a detailed state-of-the-art analysis of text summarization concepts such as summarization approaches, techniques used, standard datasets, evaluation metrics and future scopes for research. The most commonly accepted approaches are extractive and abstractive, studied in detail in this work. Evaluating the summary and increasing the development of reusable resources and infrastructure aids in comparing and replicating findings, adding competition to improve the outcomes. Different evaluation methods of generated summaries are also discussed in this study. Finally, at the end of this study, several challenges and research opportunities related to text summarization research are mentioned that may be useful for potential researchers working in this area.
翻訳日:2022-04-10 15:35:40 公開日:2022-03-03
# (参考訳) 自律運転のための光フローに基づく運動検出

Optical Flow Based Motion Detection for Autonomous Driving ( http://arxiv.org/abs/2203.11693v1 )

ライセンス: CC BY 4.0
Ka Man Lo(参考訳) モーション検出は、自動運転の基本的だが難しい課題である。 特にハイウェイのようなシーンでは、遠隔のオブジェクトに注意を払う必要がある。 遠距離車両を対象としたニューラルネットワークモデルを用いて,光学流場情報を入力として動作状態の分類を行う。 この実験は精度が高く、私たちのアイデアが実現可能で有望であることを示します。 訓練されたモデルは、近隣の車両にも許容できる性能を達成する。 私たちの仕事はPyTorchで行われます。 nuScenes、FastFlowNet、RAFTといったオープンツールが使用されている。 ビジュアライゼーションビデオはhttps://www.youtube.com/playlist? list=PLVVrWgq4OrlBnRebmkGZO1iDHEksMHKGk。

Motion detection is a fundamental but challenging task for autonomous driving. In particular scenes like highway, remote objects have to be paid extra attention for better controlling decision. Aiming at distant vehicles, we train a neural network model to classify the motion status using optical flow field information as the input. The experiments result in high accuracy, showing that our idea is viable and promising. The trained model also achieves an acceptable performance for nearby vehicles. Our work is implemented in PyTorch. Open tools including nuScenes, FastFlowNet and RAFT are used. Visualization videos are available at https://www.youtube.com/playlist?list=PLVVrWgq4OrlBnRebmkGZO1iDHEksMHKGk .
翻訳日:2022-03-27 13:17:14 公開日:2022-03-03
# (参考訳) 高度不均衡なセマンティックラベルを用いたパノプティックセグメンテーション

Panoptic segmentation with highly imbalanced semantic labels ( http://arxiv.org/abs/2203.11692v1 )

ライセンス: CC BY 4.0
Josef Lorenz Rumberger, Elias Baumann, Peter Hirsch, Dagmar Kainmueller(参考訳) 本書では,isbi 2022におけるconicチャレンジへの提案のために考案したpanopticセグメンテーション手法について述べる。 提案手法の主な特徴は,高度不均衡なセルのセマンティックセグメンテーションのために特別に設計した重み付き損失と,Hovernetのようなアーキテクチャで組み合わせた既存の最先端の原子核インスタンスセグメンテーションモデルである。

This manuscript describes the panoptic segmentation method we devised for our submission to the CONIC challenge at ISBI 2022. Key features of our method are a weighted loss that we specifically engineered for semantic segmentation of highly imbalanced cell types, and an existing state-of-the art nuclei instance segmentation model, which we combine in a Hovernet-like architecture.
翻訳日:2022-03-27 13:11:43 公開日:2022-03-03
# (参考訳) 創発的進化カリキュラムにおける伝達ダイナミクス

Transfer Dynamics in Emergent Evolutionary Curricula ( http://arxiv.org/abs/2203.10941v1 )

ライセンス: CC0 1.0
Aaron Dharna, Amy K Hoover, Julian Togelius, L. B. Soros(参考訳) PINSKYは、ゲームベースのドメインにおける神経進化によるオープンエンド学習システムである。 Paired Open-Ended Trailblazer (POET)システムをベースにしており、二足歩行者の学習と環境生成を探索し、General Video Game AI (GVGAI)システムでゲームに適応する。 以前の研究は、レベルとニューラルネットワークポリシを共同進化させることで、成功しているポリシを最適化だけで生成できないレベルを見つけることができた。 傾斜に基づくフィットネスの代替として人工生命の分野で研究され、最小基準(mc)に基づく選択は進化集団の多様性を育むのに役立つ。 本稿で論じる主な問題は、オープンエンドラーニングが実際にどのように機能するかであり、特に、ある進化的分岐(種)から別の進化的分岐(種)へポリシーを移す役割に焦点を当てている。 系統樹の作成,政策の進化的軌跡の分析,種別による経年変化の時間的分解などを通じて,システムの動態を解析した。 さらに、最小限の基準が発生レベル多様性および種間移動に与える影響を分析する。 最も洞察に富んだ発見は、種間移動は稀ではあるが、システムの成功に不可欠であるということである。

PINSKY is a system for open-ended learning through neuroevolution in game-based domains. It builds on the Paired Open-Ended Trailblazer (POET) system, which originally explored learning and environment generation for bipedal walkers, and adapts it to games in the General Video Game AI (GVGAI) system. Previous work showed that by co-evolving levels and neural network policies, levels could be found for which successful policies could not be created via optimization alone. Studied in the realm of Artificial Life as a potentially open-ended alternative to gradient-based fitness, minimal criteria (MC)-based selection helps foster diversity in evolutionary populations. The main question addressed by this paper is how the open-ended learning actually works, focusing in particular on the role of transfer of policies from one evolutionary branch ("species") to another. We analyze the dynamics of the system through creating phylogenetic trees, analyzing evolutionary trajectories of policies, and temporally breaking down transfers according to species type. Furthermore, we analyze the impact of the minimal criterion on generated level diversity and inter-species transfer. The most insightful finding is that inter-species transfer, while rare, is crucial to the system's success.
翻訳日:2022-03-27 13:07:55 公開日:2022-03-03
# 複数目標目標のUAV探索の不確実性

Uncertainty with UAV Search of Multiple Goal-oriented Targets ( http://arxiv.org/abs/2203.09476v1 )

ライセンス: Link先を確認
Mor Sinay, Noa Agmon, Oleg Maksimov, Aviad Fux, Sarit Kraus(参考訳) 本稿では,不確実性下でのuav探索目標の複雑な問題について考察する。 uavチームの目標は、選択した目標に到達する前に、移動中のすべての目標を可能な限り早く見つけ出すことです。 第一に、UAVは目標の場所や目的地を知らない。 第二に、UAVの感知能力は完璧ではない。 第3に、ターゲットの動きモデルが不明である。 我々は,全目標の迅速かつ良好な検出の確率を最適化することを目的とした,エントロピーと確率的時間的信念を組み合わせたUAVのためのリアルタイムアルゴリズムフレームワークを提案する。 我々は,アルゴリズムの枠組みを実証的に評価し,その効率性や性能向上を他の手法と比較した。 さらに,対象をシミュレートするコンピュータエージェントであるpeer designed agents(pdas)を用いて,このシナリオにおけるアルゴリズムフレームワークが他のソリューションよりも優れていることを示す。

This paper considers the complex problem of a team of UAVs searching targets under uncertainty. The goal of the UAV team is to find all of the moving targets as quickly as possible before they arrive at their selected goal. The uncertainty considered is threefold: First, the UAVs do not know the targets' locations and destinations. Second, the sensing capabilities of the UAVs are not perfect. Third, the targets' movement model is unknown. We suggest a real-time algorithmic framework for the UAVs, combining entropy and stochastic-temporal belief, that aims at optimizing the probability of a quick and successful detection of all of the targets. We have empirically evaluated the algorithmic framework, and have shown its efficiency and significant performance improvement compared to other solutions. Furthermore, we have evaluated our framework using Peer Designed Agents (PDAs), which are computer agents that simulate targets and show that our algorithmic framework outperforms other solutions in this scenario.
翻訳日:2022-03-20 23:10:15 公開日:2022-03-03
# ゆるいバウンディングボックスアノテーションを用いた弱教師付き画像分割を支援する極性変換に基づく多重インスタンス学習

Polar Transformation Based Multiple Instance Learning Assisting Weakly Supervised Image Segmentation With Loose Bounding Box Annotations ( http://arxiv.org/abs/2203.06000v1 )

ライセンス: Link先を確認
Juan Wang and Bin Xia(参考訳) 本研究では,ゆるい境界ボックスによる画像セグメント化について検討した。 ゆるいバウンディングボックスを監督として使用する場合のイメージセグメンテーションを支援するために,極性変換に基づく複数インスタンス学習戦略を提案する。 この方法では、極性変換の原点に近いピクセルが境界ボックス内のオブジェクトに属する可能性が高いという観測を組み込むために、重み付き滑らかな最大近似が導入された。 提案手法はdice係数を用いた公衆医療データセット上で評価した。 その結果は優れた性能を示した。 コードは \url{https://github.com/wangjuan313/wsis-polartransform} で入手できる。

This study investigates weakly supervised image segmentation using loose bounding box supervision. It presents a multiple instance learning strategy based on polar transformation to assist image segmentation when loose bounding boxes are employed as supervision. In this strategy, weighted smooth maximum approximation is introduced to incorporate the observation that pixels closer to the origin of the polar transformation are more likely to belong to the object in the bounding box. The proposed approach was evaluated on a public medical dataset using Dice coefficient. The results demonstrate its superior performance. The codes are available at \url{https://github.com/wangjuan313/wsis-polartransform}.
翻訳日:2022-03-20 23:10:01 公開日:2022-03-03
# (参考訳) 乗用車追従モデルのための双方向深部強化学習手法

Bilateral Deep Reinforcement Learning Approach for Better-than-human Car Following Model ( http://arxiv.org/abs/2203.04749v1 )

ライセンス: CC BY 4.0
Tianyu Shi, Yifei Ai, Omar ElSamadisy, Baher Abdulhai(参考訳) 今後数年間、自動運転車(AV)はますます普及し、より安全で便利な旅行の機会と、自動化と接続性を活用したよりスマートな交通制御方法を提供する。 後続車は自動運転における主要な機能である。 近年,強化学習に基づく車の追従が注目され,人間に匹敵する性能水準の学習と達成が目指されている。 しかし、既存のRL手法のほとんどは一方的な問題であり、前方の車両のみを感知している。 しかし,近年のwang and horn [16]では,両車追従が前方車と後方車とを考慮し,システムの安定性が向上していることが示されている。 本稿では,この両車追従をrlを用いて学習し,効率の最大化,ジェルク最小化,安全報酬などの目標を学習し,人間の運転に勝る学習モデルへと導くことを仮定する。 本研究では,車追従制御のための二元制御モデル(bcm)に基づく状態と報酬関数に二元情報を統合して,車追従制御のための深層強化学習(drl)フレームワークを提案する。 さらに,分散マルチエージェント強化学習フレームワークを用いて,エージェント毎に対応する制御アクションを生成する。 我々のシミュレーション結果は、学習方針が人間の運転方針より優れていることを示している。 (a)車間ヘッドウェイ (b)平均速度 c (複数形 cs) (d)衝突までの時間(TTC)と (e)弦安定性。

In the coming years and decades, autonomous vehicles (AVs) will become increasingly prevalent, offering new opportunities for safer and more convenient travel and potentially smarter traffic control methods exploiting automation and connectivity. Car following is a prime function in autonomous driving. Car following based on reinforcement learning has received attention in recent years with the goal of learning and achieving performance levels comparable to humans. However, most existing RL methods model car following as a unilateral problem, sensing only the vehicle ahead. Recent literature, however, Wang and Horn [16] has shown that bilateral car following that considers the vehicle ahead and the vehicle behind exhibits better system stability. In this paper we hypothesize that this bilateral car following can be learned using RL, while learning other goals such as efficiency maximisation, jerk minimization, and safety rewards leading to a learned model that outperforms human driving. We propose and introduce a Deep Reinforcement Learning (DRL) framework for car following control by integrating bilateral information into both state and reward function based on the bilateral control model (BCM) for car following control. Furthermore, we use a decentralized multi-agent reinforcement learning framework to generate the corresponding control action for each agent. Our simulation results demonstrate that our learned policy is better than the human driving policy in terms of (a) inter-vehicle headways, (b) average speed, (c) jerk, (d) Time to Collision (TTC) and (e) string stability.
翻訳日:2022-03-13 14:14:48 公開日:2022-03-03
# (参考訳) SIERRA: 研究自動化のためのモジュールフレームワーク

SIERRA: A Modular Framework for Research Automation ( http://arxiv.org/abs/2203.04748v1 )

ライセンス: CC BY 4.0
John Harwell, London Lowmanstone, Maria Gini(参考訳) 現代のインテリジェントシステム研究者は科学的手法を用いて、システム行動に関する仮説を作成し、その仮説をテストするために1つ以上の独立した変数を用いて実験を行う。 本稿では,研究の加速と成果の再現性向上のための新しい枠組みであるSIERRAを紹介する。 SIERRAは、実験用の独立変数を素早く指定し、実験的な入力を生成し、実験を自動的に実行し、結果を処理してグラフやビデオなどの成果物を生成する。 sierraは、実行環境(hpcハードウェア、実ロボットなど)とターゲットプラットフォーム(軌道シミュレータまたは実ロボット)とは独立して再現可能な自動化を提供し、正確な実験レプリケーション(実行環境とプラットフォームの限界まで)を可能にする。 これは深くモジュール化されたアプローチを採用しており、個々の研究者のニーズに対する自動化のカスタマイズと拡張を容易にし、手動の実験構成や結果処理をスローアウトスクリプトを通じて排除する。

Modern intelligent systems researchers employ the scientific method: they form hypotheses about system behavior, and then run experiments using one or more independent variables to test their hypotheses. We present SIERRA, a novel framework structured around that idea for accelerating research developments and improving reproducibility of results. SIERRA makes it easy to quickly specify the independent variable(s) for an experiment, generate experimental inputs, automatically run the experiment, and process the results to generate deliverables such as graphs and videos. SIERRA provides reproducible automation independent of the execution environment (HPC hardware, real robots, etc.) and targeted platform (arbitrary simulator or real robots), enabling exact experiment replication (up to the limit of the execution environment and platform). It employs a deeply modular approach that allows easy customization and extension of automation for the needs of individual researchers, thereby eliminating manual experiment configuration and result processing via throw-away scripts.
翻訳日:2022-03-13 13:57:48 公開日:2022-03-03
# 新しい時代: インテリジェントな教育システムは、何百万ものオンライン学習を変革する

A New Era: Intelligent Tutoring Systems Will Transform Online Learning for Millions ( http://arxiv.org/abs/2203.03724v1 )

ライセンス: Link先を確認
Francois St-Hilaire, Dung Do Vu, Antoine Frau, Nathan Burns, Farid Faraji, Joseph Potochny, Stephane Robert, Arnaud Roussel, Selene Zheng, Taylor Glazier, Junfel Vincent Romano, Robert Belfer, Muhammad Shayan, Ariella Smofsky, Tommy Delarosbil, Seulmin Ahn, Simon Eden-Walker, Kritika Sony, Ansona Onyi Ching, Sabina Elkins, Anush Stepanyan, Adela Matajova, Victor Chen, Hossein Sahraei, Robert Larson, Nadia Markova, Andrew Barkett, Laurent Charlin, Yoshua Bengio, Iulian Vlad Serban, Ekaterina Kochmar(参考訳) 人工知能(AI)が社会の大きな側面を変革したにもかかわらず、その潜在能力のごく一部は、もちろん教育のために研究されている。 AIを活用した学習は、数百万人の学習者に高度にパーソナライズされ、アクティブで実践的な学習体験を提供する。 これは特にオンライン学習プラットフォームのコンテキストに関係しています。 本稿では,2つの人気オンライン学習プラットフォーム(n=199人)の学習結果について,講義ビデオとマルチチョイスクイズを用いたコンテンツを配信する従来のMOOCプラットフォームと,高度にパーソナライズされた,アクティブかつ実用的な学習体験を提供するKorbit学習プラットフォームを比較した。 Korbitプラットフォーム上では,学習結果の大規模かつ統計的に有意な増加が観察され,完全なフィードバックが得られてコース完了率が向上し,学習率がMOOCプラットフォーム上の学生と,Korbitプラットフォーム上でパーソナライズされたフィードバックを受けていないコントロールグループ内の学生の2~2.5倍に向上した。 結果は、パーソナライズされたアクティブな学習AIシステムによって達成される、素晴らしい影響を示しています。 この技術と学習体験を世界中の何百万人もの学習者に提供することは、教育の民主化に向けた大きな前進を表している。

Despite artificial intelligence (AI) having transformed major aspects of our society, less than a fraction of its potential has been explored, let alone deployed, for education. AI-powered learning can provide millions of learners with a highly personalized, active and practical learning experience, which is key to successful learning. This is especially relevant in the context of online learning platforms. In this paper, we present the results of a comparative head-to-head study on learning outcomes for two popular online learning platforms (n=199 participants): A MOOC platform following a traditional model delivering content using lecture videos and multiple-choice quizzes, and the Korbit learning platform providing a highly personalized, active and practical learning experience. We observe a huge and statistically significant increase in the learning outcomes, with students on the Korbit platform providing full feedback resulting in higher course completion rates and achieving learning gains 2 to 2.5 times higher than both students on the MOOC platform and students in a control group who don't receive personalized feedback on the Korbit platform. The results demonstrate the tremendous impact that can be achieved with a personalized, active learning AI-powered system. Making this technology and learning experience available to millions of learners around the world will represent a significant leap forward towards the democratization of education.
翻訳日:2022-03-13 13:26:22 公開日:2022-03-03
# (参考訳) アンサンブル分類器を用いた単一ラベル特許の自動分類

Automated Single-Label Patent Classification using Ensemble Classifiers ( http://arxiv.org/abs/2203.03552v1 )

ライセンス: CC BY 4.0
Eleni Kamateri, Vasileios Stamatis, Konstantinos Diamantaras, Michail Salampasis(参考訳) 毎日何千もの特許出願が世界中の特許事務所に届いている。 特許出願が提出された場合の重要なサブタスクは、特定の技術分野に詳しい特許審査官に特許出願のルーティングを可能にする複雑で階層的な特許分類スキームから1つ以上の分類コードを割り当てることである。 このタスクは通常、特許専門家によって行われるが、多くの応用と発明の潜在的な複雑さのため、通常は圧倒される。 したがって、このコード割り当てマニュアルタスクは、特許専門家に近い精度で、特許出願を分類する分類システムによって、サポートされるか、あるいは完全に自動化される必要がある。 他の多くのテキスト分析問題と同様に、この知的に要求される課題は、単語埋め込みとディープラーニング技術を用いて研究されてきた。 本稿では,これらの研究成果を概観し,サブクラスレベルの自動特許分類における特徴表現を用いた類似の深層学習手法を試行する。 その上,特許文書の異なる部分で訓練されたアンサンブル分類器の革新的な手法を提案する。 我々の知る限りでは、特許分類問題に対してアンサンブル法が提案されたのはこれが初めてである。 我々の最初の結果は、分類器のアンサンブルアーキテクチャが、スタンドアロンのソリューションと同じ分類器を用いた最先端技術を大幅に上回っていることを示すものである。

Many thousands of patent applications arrive at patent offices around the world every day. One important subtask when a patent application is submitted is to assign one or more classification codes from the complex and hierarchical patent classification schemes that will enable routing of the patent application to a patent examiner who is knowledgeable about the specific technical field. This task is typically undertaken by patent professionals, however due to the large number of applications and the potential complexity of an invention, they are usually overwhelmed. Therefore, there is a need for this code assignment manual task to be supported or even fully automated by classification systems that will classify patent applications, hopefully with an accuracy close to patent professionals. Like in many other text analysis problems, in the last years, this intellectually demanding task has been studied using word embeddings and deep learning techniques. In this paper we shortly review these research efforts and experiment with similar deep learning techniques using different feature representations on automatic patent classification in the level of sub-classes. On top of that, we present an innovative method of ensemble classifiers trained with different parts of the patent document. To the best of our knowledge, this is the first time that an ensemble method was proposed for the patent classification problem. Our first results are quite promising showing that an ensemble architecture of classifiers significantly outperforms current state-of-the-art techniques using the same classifiers as standalone solutions.
翻訳日:2022-03-12 06:10:07 公開日:2022-03-03
# (参考訳) 量子テンソルネットワーク機械学習における勾配降下法の改良

Improvements to Gradient Descent Methods for Quantum Tensor Network Machine Learning ( http://arxiv.org/abs/2203.03366v1 )

ライセンス: CC BY 4.0
Fergus Barratt, James Dborin, Lewis Wright(参考訳) テンソルネットワークは、無数の異なるアプリケーションで機械学習に重要な価値を示している。 しかし、標準勾配勾配勾配を用いたテンソルネットワークの最適化は実際は困難であることが証明されている。 テンソルネットワークは初期化の問題に悩まされ、爆発的あるいは消滅し、広範なハイパーパラメータチューニングを必要とする。 これらの問題を解決する努力は、通常、特定のネットワークアーキテクチャ、またはアドホック処方薬に依存する。 本稿では、初期化とハイパーパラメータチューニングの問題に対処し、確立された機械学習技術を用いてテンソルネットワークのトレーニングを可能にする。 本稿では,任意のテンソルネットワークを初期化する「コピーノード」法と,結合次元に対する勾配に基づく正則化手法を導入する。 本稿では, 量子インスパイアされたテンソルネットワークモデルと, パラメータをはるかに少なく生成し, 一般化性能を向上することを示す数値計算結果を提案する。

Tensor networks have demonstrated significant value for machine learning in a myriad of different applications. However, optimizing tensor networks using standard gradient descent has proven to be difficult in practice. Tensor networks suffer from initialization problems resulting in exploding or vanishing gradients and require extensive hyperparameter tuning. Efforts to overcome these problems usually depend on specific network architectures, or ad hoc prescriptions. In this paper we address the problems of initialization and hyperparameter tuning, making it possible to train tensor networks using established machine learning techniques. We introduce a `copy node' method that successfully initializes arbitrary tensor networks, in addition to a gradient based regularization technique for bond dimensions. We present numerical results that show that the combination of techniques presented here produces quantum inspired tensor network models with far fewer parameters, while improving generalization performance.
翻訳日:2022-03-12 05:59:46 公開日:2022-03-03
# (参考訳) ディスプレイ前面品質検査のための合成欠陥生成:サーベイ

Synthetic Defect Generation for Display Front-of-Screen Quality Inspection: A Survey ( http://arxiv.org/abs/2203.03429v1 )

ライセンス: CC BY-SA 4.0
Shancong Mou, Meng Cao, Zhendong Hong, Ping Huang, Jiulong Shan and Jianjun Shi(参考訳) 製造工程におけるディスプレイの大量生産には,ディスプレイ前面(FOS)の品質検査が不可欠である。 しかし、深刻な不均衡なデータ、特に限られた数の欠陥サンプルは、ディープラーニングアルゴリズムの応用を妨げている長期にわたる問題である。 合成欠陥データ生成はこの問題を解決するのに役立ちます。 本稿では,FOSの品質検査タスクに応用可能な,最先端の合成データ生成手法と評価指標について述べる。

Display front-of-screen (FOS) quality inspection is essential for the mass production of displays in the manufacturing process. However, the severe imbalanced data, especially the limited number of defect samples, has been a long-standing problem that hinders the successful application of deep learning algorithms. Synthetic defect data generation can help address this issue. This paper reviews the state-of-the-art synthetic data generation methods and the evaluation metrics that can potentially be applied to display FOS quality inspection tasks.
翻訳日:2022-03-12 05:49:34 公開日:2022-03-03
# (参考訳) 感情認識のための関心領域(ROI)の注意に基づく検出

Attention-based Region of Interest (ROI) Detection for Speech Emotion Recognition ( http://arxiv.org/abs/2203.03428v1 )

ライセンス: CC BY 4.0
Jay Desai, Houwei Cao, Ravi Shah(参考訳) 実生活におけるアプリケーションの自動感情認識は難しい課題である。 ヒトの感情表現は副次的であり、複数の感情表現の組み合わせによって伝達される。 既存の感情認識研究では、各音声発話/ビデオクリップはラベル付け/分類されている。 しかし、発話/クリップレベルのラベリングと分類は、微妙な発話/クリップ時間ダイナミクスを捉えるには大きすぎる。 Forexampleでは、発話/ビデオクリップは、通常、感情のない領域と、感情のない領域のみを含む。 本稿では, 深部脳神経回路網における注意機構を用いて, 人間の情緒的音声/ビデオにおいてより感情的に有意な関心領域(ROI)の検出を行い, さらに, 感情的に有意な関心領域を集約することで, 時間的情動動態を推定することを提案する。 音声とビデオのROIを比較して分析する。 本研究では,6つの基本的感情を認識する多クラス分類タスクにおいて,提案した注目ネットワークと最先端LSTMモデルの性能を比較し,提案した注目モデルの性能は著しく向上した。 さらに、意味重み分布を用いて、発話が感情の混合としてどのように表現できるかを解釈することができる。

Automatic emotion recognition for real-life appli-cations is a challenging task. Human emotion expressions aresubtle, and can be conveyed by a combination of several emo-tions. In most existing emotion recognition studies, each audioutterance/video clip is labelled/classified in its entirety. However,utterance/clip-level labelling and classification can be too coarseto capture the subtle intra-utterance/clip temporal dynamics. Forexample, an utterance/video clip usually contains only a fewemotion-salient regions and many emotionless regions. In thisstudy, we propose to use attention mechanism in deep recurrentneural networks to detection the Regions-of-Interest (ROI) thatare more emotionally salient in human emotional speech/video,and further estimate the temporal emotion dynamics by aggre-gating those emotionally salient regions-of-interest. We comparethe ROI from audio and video and analyse them. We comparethe performance of the proposed attention networks with thestate-of-the-art LSTM models on multi-class classification task ofrecognizing six basic human emotions, and the proposed attentionmodels exhibit significantly better performance. Furthermore, theattention weight distribution can be used to interpret how anutterance can be expressed as a mixture of possible emotions.
翻訳日:2022-03-12 05:28:21 公開日:2022-03-03
# 進化する記号密度汎関数

Evolving symbolic density functionals ( http://arxiv.org/abs/2203.02540v1 )

ライセンス: Link先を確認
He Ma, Arunachalam Narayanaswamy, Patrick Riley, Li Li(参考訳) 正確な密度汎関数の体系的な開発は、科学者にとって長年の課題だった。 機械学習(ML)の近似機能への応用が急速に進んでいるにもかかわらず、結果のML関数は通常、数万以上のパラメータを含むため、従来の人間設計のシンボル関数との定式化において大きなギャップが生じる。 本稿では,人間に説明しやすく,評価が安価で,他のml関数よりも既存の密度汎関数コードへの統合が容易なシンボリック関数進化探索(syfes)という新しい枠組みを提案する。 まず、事前の知識がなければ、SyFESはスクラッチから既知の機能を再構築した。 そして、既存の機能的な$\omega$b97m-vから進化し、syfesは新しい機能であるgas22(googleaccelerated science 22)を発見した。 我々のフレームワークは,記号密度関数の体系的開発に計算能力を活用するための新たな方向を開く。

Systematic development of accurate density functionals has been a decades-long challenge for scientists. Despite the emerging application of machine learning (ML) in approximating functionals, the resulting ML functionals usually contain more than tens of thousands parameters, which makes a huge gap in the formulation with the conventional human-designed symbolic functionals. We propose a new framework, Symbolic Functional Evolutionary Search (SyFES), that automatically constructs accurate functionals in the symbolic form, which is more explainable to humans, cheaper to evaluate, and easier to integrate to existing density functional theory codes than other ML functionals. We first show that without prior knowledge, SyFES reconstructed a known functional from scratch. We then demonstrate that evolving from an existing functional $\omega$B97M-V, SyFES found a new functional, GAS22 (Google Accelerated Science 22), that performs better on main-group chemistry. Our framework opens a new direction in leveraging computing power for the systematic development of symbolic density functionals.
翻訳日:2022-03-08 18:32:49 公開日:2022-03-03
# ARM 4-BIT PQ: SIMDベースのARM上の近似近傍探索高速化

ARM 4-BIT PQ: SIMD-based Acceleration for Approximate Nearest Neighbor Search on ARM ( http://arxiv.org/abs/2203.02505v1 )

ライセンス: Link先を確認
Yusuke Matsui, Yoshiki Imaizumi, Naoya Miyamoto, Naoki Yoshifuji(参考訳) ARMアーキテクチャ上での4ビット製品量子化(PQ)を高速化する。 特に、従来の4ビットpqの劇的な性能はavx2のようなx64固有のsimdレジスタに強く依存しているため、armではそのような優れた性能を達成できない。 このギャップを埋めるために、まず2つの128ビットレジスタを256ビットコンポーネントとしてバンドルする。 次に、ARM固有のNEON命令を使用して各シャッフル操作を適用する。 このシンプルだが重要な修正を行うことで、ARMアーキテクチャ上の4ビットPQの劇的な高速化を実現します。 実験の結果,提案手法は同じ精度で単純PQよりも10倍改善できることがわかった。

We accelerate the 4-bit product quantization (PQ) on the ARM architecture. Notably, the drastic performance of the conventional 4-bit PQ strongly relies on x64-specific SIMD register, such as AVX2; hence, we cannot yet achieve such good performance on ARM. To fill this gap, we first bundle two 128-bit registers as one 256-bit component. We then apply shuffle operations for each using the ARM-specific NEON instruction. By making this simple but critical modification, we achieve a dramatic speedup for the 4-bit PQ on an ARM architecture. Experiments show that the proposed method consistently achieves a 10x improvement over the naive PQ with the same accuracy.
翻訳日:2022-03-08 15:57:12 公開日:2022-03-03
# (参考訳) 品質・量:身体CTにおける多臓器分割への統一的アプローチに向けて

Quality or Quantity: Toward a Unified Approach for Multi-organ Segmentation in Body CT ( http://arxiv.org/abs/2203.01934v1 )

ライセンス: CC BY 4.0
Fakrul Islam Tushar, Husam Nujaim, Wanyi Fu, Ehsan Abadi, Maciej A. Mazurowski, Ehsan Samei, William P. Segars, Joseph Y. Lo(参考訳) 医療画像の臓器セグメンテーションは、仮想画像の試行において重要なステップである。 しかし、オルガンセグメンテーションデータセットは品質(ラベルは数臓器しかカバーしていないため)と量(ケース番号が限られているため)で制限されている。 本研究では,品質と量とのトレードオフについて検討した。 我々のゴールは、身体CTの多臓器分割のための統一的なアプローチを作ることで、多数の正確な仮想ファントムの作成を容易にすることである。 まず、2つのセグメンテーションアーキテクチャ(3d-unet と densevnet)を比較した。それらは、22の臓器で完全にラベル付けされたxcatデータを使用してトレーニングされ、3d-unet をよりよいパフォーマンスモデルとして選択した。 我々はXCAT訓練モデルを用いて、7つの臓器のみを分節したCT-ORGデータセットの擬似ラベルを生成する。 まず、XCATデータセット上で3D-UNetモデルをトレーニングし、品質データを表現し、XCATデータセットとCT-ORGデータセットの両方でテストしました。 次に,CT-ORGデータセットをトレーニングセットに組み込んだ3D-UNetのトレーニングを行った。 データセットの両方に真のラベルがあり、擬似ラベルに依存すると劣化するオルガンのセグメンテーションのパフォーマンスが向上した。 両データセットに臓器をラベル付けした場合,Exp-2ではXCATでは平均DSC,CT-ORGでは1。 これは、品質データがモデルの性能を改善する鍵であることを示している。

Organ segmentation of medical images is a key step in virtual imaging trials. However, organ segmentation datasets are limited in terms of quality (because labels cover only a few organs) and quantity (since case numbers are limited). In this study, we explored the tradeoffs between quality and quantity. Our goal is to create a unified approach for multi-organ segmentation of body CT, which will facilitate the creation of large numbers of accurate virtual phantoms. Initially, we compared two segmentation architectures, 3D-Unet and DenseVNet, which were trained using XCAT data that is fully labeled with 22 organs, and chose the 3D-Unet as the better performing model. We used the XCAT-trained model to generate pseudo-labels for the CT-ORG dataset that has only 7 organs segmented. We performed two experiments: First, we trained 3D-UNet model on the XCAT dataset, representing quality data, and tested it on both XCAT and CT-ORG datasets. Second, we trained 3D-UNet after including the CT-ORG dataset into the training set to have more quantity. Performance improved for segmentation in the organs where we have true labels in both datasets and degraded when relying on pseudo-labels. When organs were labeled in both datasets, Exp-2 improved Average DSC in XCAT and CT-ORG by 1. This demonstrates that quality data is the key to improving the model's performance.
翻訳日:2022-03-08 05:37:36 公開日:2022-03-03
# (参考訳) E-CIR: イベント強化連続インテンシティリカバリ

E-CIR: Event-Enhanced Continuous Intensity Recovery ( http://arxiv.org/abs/2203.01935v1 )

ライセンス: CC BY 4.0
Chen Song, Qixing Huang, Chandrajit Bajaj(参考訳) シャッターボタンを押せば、カメラが光を感知し始める。 露出間隔の間、シーンとカメラの間の相対的な動きは、共通の望ましくないビジュアルアーティファクトである動きのぼやけを引き起こす。 本稿では,ぼやけた画像を時間から強度までパラメトリック関数を表すシャープなビデオに変換するE-CIRを提案する。 E-CIRは補助入力としてイベントを利用する。 時間的イベント構造を利用してパラメトリックベースを構築する方法について論じる。 本稿では,深層学習モデルを用いて関数係数を推定する方法を示す。 外観整合性を向上させるため,連続フレーム間の視覚特徴を伝達するリファインメントモジュールについても紹介する。 最先端のイベント強化型デブロアリング手法と比較して、E-CIRはよりスムーズでリアルな結果を生成する。 E-CIRの実装はhttps://github.com/chensong1995/E-CIRで公開されている。

A camera begins to sense light the moment we press the shutter button. During the exposure interval, relative motion between the scene and the camera causes motion blur, a common undesirable visual artifact. This paper presents E-CIR, which converts a blurry image into a sharp video represented as a parametric function from time to intensity. E-CIR leverages events as an auxiliary input. We discuss how to exploit the temporal event structure to construct the parametric bases. We demonstrate how to train a deep learning model to predict the function coefficients. To improve the appearance consistency, we further introduce a refinement module to propagate visual features among consecutive frames. Compared to state-of-the-art event-enhanced deblurring approaches, E-CIR generates smoother and more realistic results. The implementation of E-CIR is available at https://github.com/chensong1995/E-CIR.
翻訳日:2022-03-08 05:33:12 公開日:2022-03-03
# (参考訳) 2つの時系列再構成手法を用いたLSTMオートエンコーダを用いた深層学習型ベイズ推論の比較

Comparison of LSTM autoencoder based deep learning enabled Bayesian inference using two time series reconstruction approaches ( http://arxiv.org/abs/2203.01936v1 )

ライセンス: CC BY 4.0
Saumik Dana(参考訳) 本研究では,バイーシアン推論,マルコフ連鎖モンテカルロ,LSTMオートエンコーダの形での深層学習を組み合わせることで,連成流れや地力学問題における地表面データからの射出速度のロバストな推定を行う。 LSTMオートエンコーダを用いて,水注入問題による断層表面上の格子点の変位時系列を再構成する。 次に、このLSTMオートエンコーダに基づくモデルをベイズ推論フレームワークの高忠実度モデルの代わりに展開し、変位入力から注入率を推定する。

In this work, we use a combination of Bayesian inference, Markov chain Monte Carlo and deep learning in the form of LSTM autoencoders to build and test a framework to provide robust estimates of injection rate from ground surface data in coupled flow and geomechanics problems. We use LSTM autoencoders to reconstruct the displacement time series for grid points on the top surface of a faulting due to water injection problem. We then deploy this LSTM autoencoder based model instead of the high fidelity model in the Bayesian inference framework to estimate injection rate from displacement input.
翻訳日:2022-03-08 05:18:46 公開日:2022-03-03
# (参考訳) スポーツにおけるコンピュータビジョンの包括的レビュー : オープンイシュー,将来動向,研究の方向性

A Comprehensive Review of Computer Vision in Sports: Open Issues, Future Trends and Research Directions ( http://arxiv.org/abs/2203.02281v1 )

ライセンス: CC BY-SA 4.0
Banoth Thulasya Naik, Mohammad Farukh Hashmi, Neeraj Dhanraj Bokde, Zaher Mundher Yaseen(参考訳) 近年のスポーツとコンピュータビジョン技術のビデオ解析の発展は、様々な重要な操作を可能にするために大きな改善を遂げている。 サッカー、バスケットボール、クリケット、バドミントンなどのスポーツにおける詳細な複雑な分析などの情報を提供するため、研究は主に異なるタスクを遂行するためのコンピュータビジョン技術に重点を置いている。 本稿では,スポーツにおける選手の検出と分類,スポーツにおける選手やボールの追跡,選手やボールの軌跡の予測,チーム戦略の認識,スポーツにおける各種イベントの分類など,様々な応用におけるスポーツビデオ解析の包括的レビューを行う。 さらに,スポーツに関する様々な応用特化課題に関する論文と,それらに関する研究者の見解について論じる。 様々なスポーツにコンピュータビジョン技術を展開するスポーツには幅広い研究範囲があるため、特定のスポーツに関連する公開データセットがいくつか提供されている。 この研究は、スポーツビジョン、GPUベースのワークステーション、組み込みプラットフォームにおける人工知能(AI)の応用に関する詳細な議論をレビューする。 最後に,スポーツにおける視覚認知の分野における研究の方向性,課題,今後の動向について述べる。

Recent developments in video analysis of sports and computer vision techniques have achieved significant improvements to enable a variety of critical operations. To provide enhanced information, such as detailed complex analysis in sports like soccer, basketball, cricket, badminton, etc., studies have focused mainly on computer vision techniques employed to carry out different tasks. This paper presents a comprehensive review of sports video analysis for various applications high-level analysis such as detection and classification of players, tracking player or ball in sports and predicting the trajectories of player or ball, recognizing the teams strategies, classifying various events in sports. The paper further discusses published works in a variety of application-specific tasks related to sports and the present researchers views regarding them. Since there is a wide research scope in sports for deploying computer vision techniques in various sports, some of the publicly available datasets related to a particular sport have been provided. This work reviews a detailed discussion on some of the artificial intelligence(AI)applications in sports vision, GPU-based work stations, and embedded platforms. Finally, this review identifies the research directions, probable challenges, and future trends in the area of visual recognition in sports.
翻訳日:2022-03-08 05:06:39 公開日:2022-03-03
# (参考訳) ノイズマルチラベル胸部x線分類のためのセマンティックガイド画像仮想属性学習

Semantic-guided Image Virtual Attribute Learning for Noisy Multi-label Chest X-ray Classification ( http://arxiv.org/abs/2203.01937v1 )

ライセンス: CC BY 4.0
Yuanhong Chen, Fengbei Liu, Yu Tian, Yuyuan Liu, Gustavo Carneiro(参考訳) 深層学習法は、医用画像解析問題において顕著な分類精度を示しており、これは主にクリーンラベルを手動で注釈付けした大規模なデータセットが利用可能であることに起因する。 しかし、このような手動アノテーションは大規模なデータセットでは高価であるため、マシン生成のノイズラベルに依存する可能性がある。 多くの胸部x線 (cxr) 分類器は、マシン生成ラベルを持つデータセットからモデル化されているが、その訓練手順は一般にノイズラベルサンプルの存在に頑健ではなく、それらのサンプルを過剰に適合させて副最適解を生成することができる。 さらに、CXRデータセットは主にマルチラベルであるため、現在のマルチクラス問題用に設計されたノイズラベル学習手法は容易に適応できない。 このようなノイズの多いマルチラベルCXR学習問題に対処するために,ラベルからのセマンティック情報を用いて画像仮想属性を推定し,トレーニングサンプルからのノイズの多いマルチラベルの識別と修正を支援する学習手法を提案する。 多様なノイズの多いマルチラベルトレーニングセットとクリーンなテストセットの実験は、我々のモデルがすべてのデータセットに対して最先端の精度と堅牢性を持っていることを示している。

Deep learning methods have shown outstanding classification accuracy in medical image analysis problems, which is largely attributed to the availability of large datasets manually annotated with clean labels. However, such manual annotation can be expensive to obtain for large datasets, so we may rely on machine-generated noisy labels. Many Chest X-ray (CXR) classifiers are modelled from datasets with machine-generated labels, but their training procedure is in general not robust to the presence of noisy-label samples and can overfit those samples to produce sub-optimal solutions. Furthermore, CXR datasets are mostly multi-label, so current noisy-label learning methods designed for multi-class problems cannot be easily adapted. To address such noisy multi-label CXR learning problem, we propose a new learning method based on estimating image virtual attributes using semantic information from the label to assist in the identification and correction of noisy multi-labels from training samples. Our experiments on diverse noisy multi-label training sets and clean testing sets show that our model has state-of-the-art accuracy and robustness across all datasets.
翻訳日:2022-03-08 05:05:01 公開日:2022-03-03
# (参考訳) 本質的動機づけによる強化学習: 簡単な紹介

Intrinsically-Motivated Reinforcement Learning: A Brief Introduction ( http://arxiv.org/abs/2203.02298v1 )

ライセンス: CC BY-SA 4.0
Mingqi Yuan(参考訳) 強化学習(rl)は、機械学習の3つの基本的なパラダイムの1つである。 goやstarcraftといった複雑なタスクで印象的なパフォーマンスを発揮しており、スマートな製造と自動運転にますます関わっている。 しかし、rlは常に探索・探索ジレンマに苦しむ。 本稿では,RLにおける探査改善の問題点を考察し,本質的な動機付け型RLを導入した。 古典的な探索戦略とは対照的に、本質的に動機づけられたRLは、本質的な学習モチベーションを利用して、持続可能な探索インセンティブを提供する。 既存の固有報酬法を慎重に分類し,その実用的欠点を分析した。 さらに,従来の手法の欠点を克服し,強力な探索インセンティブを提供するR'enyi状態エントロピー最大化による固有報酬法を提案する。 最後に,提案するモジュールの性能が向上し,高い効率と頑健性が得られた。

Reinforcement learning (RL) is one of the three basic paradigms of machine learning. It has demonstrated impressive performance in many complex tasks like Go and StarCraft, which is increasingly involved in smart manufacturing and autonomous driving. However, RL consistently suffers from the exploration-exploitation dilemma. In this paper, we investigated the problem of improving exploration in RL and introduced the intrinsically-motivated RL. In sharp contrast to the classic exploration strategies, intrinsically-motivated RL utilizes the intrinsic learning motivation to provide sustainable exploration incentives. We carefully classified the existing intrinsic reward methods and analyzed their practical drawbacks. Moreover, we proposed a new intrinsic reward method via R\'enyi state entropy maximization, which overcomes the drawbacks of the preceding methods and provides powerful exploration incentives. Finally, extensive simulation demonstrated that the proposed module achieve superior performance with higher efficiency and robustness.
翻訳日:2022-03-08 04:54:28 公開日:2022-03-03
# (参考訳) 構造MRI画像を用いたアルツハイマー病の進行性MCI分類のためのマルチストリーム畳み込みニューラルネットワーク

A multi-stream convolutional neural network for classification of progressive MCI in Alzheimer's disease using structural MRI images ( http://arxiv.org/abs/2203.01944v1 )

ライセンス: CC BY 4.0
Mona Ashtari-Majlan and Abbas Seifi and Mohammad Mahdi Dehshibi(参考訳) 進行性MCI患者の一部が発症するので、早期にアルツハイマー病とその前頭葉ステージ(軽度認知障害(MCI)とも呼ばれる)を診断することが重要である。 安定したMCIとプログレッシブMCIを分類するために,パッチベースの画像データを用いたマルチストリーム深層畳み込みニューラルネットワークを提案する。 まず,アルツハイマー病のMRI画像と認知正常な被験者を比較し,多変量統計検査を用いて解剖学的特徴を識別する。 これらのランドマークは、MRI画像を分類するために提案されたマルチストリーム畳み込みニューラルネットワークに供給されるパッチを抽出するために使用される。 次に、進行性MCI画像と解剖学的に類似しているアルツハイマー病画像と、進行性MCI訓練データの欠如を補うための認知正常画像を用いて、別のシナリオでアーキテクチャを訓練する。 最後に,学習したモデル重みを提案アーキテクチャに転送し,progressive mciとstable mciデータを用いてモデルを微調整する。 ADNI-1データセットによる実験結果から,本手法は既存のMCI分類法よりも85.96%優れていた。

Early diagnosis of Alzheimer's disease and its prodromal stage, also known as mild cognitive impairment (MCI), is critical since some patients with progressive MCI will develop the disease. We propose a multi-stream deep convolutional neural network fed with patch-based imaging data to classify stable MCI and progressive MCI. First, we compare MRI images of Alzheimer's disease with cognitively normal subjects to identify distinct anatomical landmarks using a multivariate statistical test. These landmarks are then used to extract patches that are fed into the proposed multi-stream convolutional neural network to classify MRI images. Next, we train the architecture in a separate scenario using samples from Alzheimer's disease images, which are anatomically similar to the progressive MCI ones and cognitively normal images to compensate for the lack of progressive MCI training data. Finally, we transfer the trained model weights to the proposed architecture in order to fine-tune the model using progressive MCI and stable MCI data. Experimental results on the ADNI-1 dataset indicate that our method outperforms existing methods for MCI classification, with an F1-score of 85.96%.
翻訳日:2022-03-08 04:53:11 公開日:2022-03-03
# (参考訳) リッチ・ポータブル・大規模歩行者データ収集に向けて

Towards Rich, Portable, and Large-Scale Pedestrian Data Collection ( http://arxiv.org/abs/2203.01974v1 )

ライセンス: CC BY 4.0
Allan Wang, Abhijat Biswas, Henny Admoni, Aaron Steinfeld(参考訳) 近年,歩行者行動研究は機械学習に基づく手法へとシフトし,歩行者インタラクションのモデル化に関する話題に収束している。 そのためには、豊富な情報を含む大規模データセットが必要である。 本稿では,多様な環境での大規模データ収集を容易にする,ポータブルなデータ収集システムを提案する。 また,高速軌道ラベル生成のための半自律的なラベルパイプラインとシステムを結合する。 本システムの有効性を,収集したデータセットである tbd pedestrian dataset の導入により実証する。 既存の歩行者データと比較すると、我々のデータセットには3つの要素が含まれている: 計量空間に基礎を置く人間認証ラベル、トップダウンとビュービューの組み合わせ、社会的に適切な「ロボット」の存在下での自然主義的人間の行動。 さらに、tbdの歩行者データセットは、同様の既存のデータセットよりも量が多く、独自の歩行者行動を含む。

Recently, pedestrian behavior research has shifted towards machine learning based methods and converged on the topic of modeling pedestrian interactions. For this, a large-scale dataset that contains rich information is needed. We propose a data collection system that is portable, which facilitates accessible large-scale data collection in diverse environments. We also couple the system with a semi-autonomous labeling pipeline for fast trajectory label production. We demonstrate the effectiveness of our system by further introducing a dataset we have collected -- the TBD pedestrian dataset. Compared with existing pedestrian datasets, our dataset contains three components: human verified labels grounded in the metric space, a combination of top-down and perspective views, and naturalistic human behavior in the presence of a socially appropriate "robot". In addition, the TBD pedestrian dataset is larger in quantity compared to similar existing datasets and contains unique pedestrian behavior.
翻訳日:2022-03-08 04:31:44 公開日:2022-03-03
# (参考訳) 人間-ロボット協調のためのオーディオ・ビジュアルオブジェクト分類

Audio-Visual Object Classification for Human-Robot Collaboration ( http://arxiv.org/abs/2203.01977v1 )

ライセンス: CC BY 4.0
A. Xompero, Y. L. Pang, T. Patten, A. Prabhakar, B. Calli, A. Cavallaro(参考訳) 人間とロボットのコラボレーションは、例えばカップにコンテンツを注いだり、フードボックスを動かしたりしながら、人が操作するコンテナの物理的特性を接触なく推定する必要がある。 音響信号や視覚信号は、その物体の物理的特性を推定するために使用され、その物体は、形状、材料、大きさに大きく異なり、また人の手によっても遮られる。 そこで本研究では,本課題におけるcorsmal challenge (corsmal challenge) とdataset (dataset) を用いて,アルゴリズムの性能評価を行う。 課題のタスクは、オブジェクト(コンテナ)の質量、容量、寸法の推定と、その内容のタイプと量を分類することである。 この課題の新たな特徴は,人間-ロボット間ハンドオーバにおける推定誤差の影響を可視化し評価するためのシミュレーションフレームワークである。

Human-robot collaboration requires the contactless estimation of the physical properties of containers manipulated by a person, for example while pouring content in a cup or moving a food box. Acoustic and visual signals can be used to estimate the physical properties of such objects, which may vary substantially in shape, material and size, and also be occluded by the hands of the person. To facilitate comparisons and stimulate progress in solving this problem, we present the CORSMAL challenge and a dataset to assess the performance of the algorithms through a set of well-defined performance scores. The tasks of the challenge are the estimation of the mass, capacity, and dimensions of the object (container), and the classification of the type and amount of its content. A novel feature of the challenge is our real-to-simulation framework for visualising and assessing the impact of estimation errors in human-to-robot handovers.
翻訳日:2022-03-08 04:15:14 公開日:2022-03-03
# (参考訳) 関心領域に基づくニューラルビデオ圧縮

Region-of-Interest Based Neural Video Compression ( http://arxiv.org/abs/2203.01978v1 )

ライセンス: CC BY 4.0
Yura Perugachi-Diaz, Guillaume Sauti\`ere, Davide Abati, Yang Yang, Amirhossein Habibian, Taco S Cohen(参考訳) 人間はシーンのすべての部分を同じ解像度で知覚するのではなく、少数の関心領域(ROI)に焦点を当てる。 従来のオブジェクトベースのコーデックは、この生物学的直観を生かして、残りの領域の歪みの増加を犠牲にして、突出した領域に有利なビットを均一に割り当てることができる。 近年、ビデオ圧縮のためにいくつかのニューラルコーデックが導入されているが、ROIベースの処理能力に欠け、すべての空間的位置で均一に動作している。 本稿では、ROIに基づくニューラルビデオ符号化の2つのモデルを紹介する。 まず,2値のROIマスクで入力される暗黙のモデルを提案し,背景の歪みを非強調にすることで学習する。 次に,潜在変数の異なる空間領域に対する量子化バイナリ幅の制御を可能にする明示的潜在スケーリング手法をroiマスク上で設計する。 大規模な実験により,提案手法はROIにおけるR-D(Ryse-Distortion)のパフォーマンスにおいて,すべてのベースラインを上回ります。 さらに、異なるデータセットや推論時に任意のROIに一般化することができる。 最後に、これらはトレーニング中に高価なピクセルレベルのアノテーションを必要としない。 私たちの知る限りでは、私たちの提案はROIベースの能力をニューラルビデオ圧縮モデルに統合する最初のソリューションです。

Humans do not perceive all parts of a scene with the same resolution, but rather focus on few regions of interest (ROIs). Traditional Object-Based codecs take advantage of this biological intuition, and are capable of non-uniform allocation of bits in favor of salient regions, at the expense of increased distortion the remaining areas: such a strategy allows a boost in perceptual quality under low rate constraints. Recently, several neural codecs have been introduced for video compression, yet they operate uniformly over all spatial locations, lacking the capability of ROI-based processing. In this paper, we introduce two models for ROI-based neural video coding. First, we propose an implicit model that is fed with a binary ROI mask and it is trained by de-emphasizing the distortion of the background. Secondly, we design an explicit latent scaling method, that allows control over the quantization binwidth for different spatial regions of latent variables, conditioned on the ROI mask. By extensive experiments, we show that our methods outperform all our baselines in terms of Rate-Distortion (R-D) performance in the ROI. Moreover, they can generalize to different datasets and to any arbitrary ROI at inference time. Finally, they do not require expensive pixel-level annotations during training, as synthetic ROI masks can be used with little to no degradation in performance. To the best of our knowledge, our proposals are the first solutions that integrate ROI-based capabilities into neural video compression models.
翻訳日:2022-03-08 03:46:38 公開日:2022-03-03
# (参考訳) 軽量高密度予測ネットワークのための高速ニューラルネットワーク探索

Fast Neural Architecture Search for Lightweight Dense Prediction Networks ( http://arxiv.org/abs/2203.01994v1 )

ライセンス: CC BY 4.0
Lam Huynh, Esa Rahtu, Jiri Matas, Janne Heikkila(参考訳) センス予測(Dense prediction)は、入力画像の各ピクセルを予測値でマッピングすることを目的としたコンピュータビジョン問題のクラスである。 問題によっては、出力値は連続的または離散的である。 例えば、単眼深度推定と画像超解像はしばしば回帰として定式化されるが、意味セグメンテーションは密集した分類、すなわち離散問題である。 より具体的には、単眼深度推定問題は、ロボティクス、シーン理解、拡張現実など、様々なアプリケーションで使用される単一の画像から深い深さマップを生成する。 SISR(Single Image Super- resolution)は、低解像度画像から高解像度画像を生成する低レベルの視覚タスクである。 sisrは、より詳細な画像が貴重な情報を提供できる医療・監視イメージングに広く利用されている。 一方、セマンティックセグメンテーションは、画像理解タスクに不可欠な所定の画像から、異なる意味カテゴリの密な注釈付きマップを予測する。

Dense prediction is a class of computer vision problems aiming at mapping every pixel of the input image with some predicted values. Depending on the problem, the output values can be either continous or discrete. For instance, monocular depth estimation and image super-resolution are often formulated as regression, while semantic segmentation is a dense classification, i.e. discrete, problem. More specifically, the monocular depth estimation problem produces a dense depth map from a single image to be used in various applications including robotics, scene understanding, and augmented reality. Single image super-resolution (SISR) is a low-level vision task that generates a high-resolution image from its low-resolution counterpart. SISR is widely utilized in medical and surveillance imaging, where images with more precise details can provide invaluable information. On the other hand, semantic segmentation predicts a dense annotated map of different semantic categories from a given image that is crucial for image understanding tasks.
翻訳日:2022-03-08 03:24:25 公開日:2022-03-03
# (参考訳) Counting Molecules: 走査型トンネル顕微鏡画像における分子の自動列挙と分類のためのPythonベースのスキーム

Counting Molecules: Python based scheme for automated enumeration and categorization of molecules in scanning tunneling microscopy images ( http://arxiv.org/abs/2203.01998v1 )

ライセンス: CC BY 4.0
Jack Hellerstedt, Ale\v{s} Cahl\'ik, Martin \v{S}vec, Oleksandr Stetsovych, and Tyler Hennen(参考訳) 走査トンネルと原子間力顕微鏡(STM/nc-AFM)は、様々な化学種の空間分解能を提供するために急速に進歩している。 特に、前駆体や生成物を直接調べることで、表面化学反応を特徴付けるために用いられる。 キラル効果や自己組織化構造も研究できる。 このオープンソースのモジュール型のピソンベースのスキームは、中規模(10$\times$10から100$\times$100 nm)の走査プローブイメージに存在する様々な分子の分類を自動化する。

Scanning tunneling and atomic force microscopies (STM/nc-AFM) are rapidly progressing to offer unprecedented spatial resolution of a diverse array of chemical species. In particular, they are employed to characterize on-surface chemical reactions by directly examining precursors and products. Chiral effects and self-assembled structures can also be investigated. This open source, modular, python based scheme automates the categorization of a variety of molecules present in medium sized (10$\times$10 to 100$\times$100 nm) scanned probe images.
翻訳日:2022-03-08 03:03:44 公開日:2022-03-03
# (参考訳) 対人訓練が堅牢な精度を損なう理由

Why adversarial training can hurt robust accuracy ( http://arxiv.org/abs/2203.02006v1 )

ライセンス: CC BY 4.0
Jacob Clarysse and Julia H\"ormann and Fanny Yang(参考訳) テスト精度の高い機械学習分類器は、しばしば敵対的な攻撃を受ける。 敵対的な訓練がこの問題を和らげると信じられている。 本稿では,十分なデータが得られれば,逆のトレーニングが役に立つとしても,サンプルサイズの小さな領域では堅牢な一般化に支障をきたす可能性があることを実証する。 まず,この現象を無ノイズ観測を伴う高次元線形分類系で証明する。 我々の証明は、特徴学習モデルにも移行可能な説明的洞察を提供する。 さらに,マスク攻撃やオブジェクトの破損などのクラス情報を効果的に低減する知覚的攻撃に対して,同じ振る舞いが生じることを,標準画像データセットの実験で観察した。

Machine learning classifiers with high test accuracy often perform poorly under adversarial attacks. It is commonly believed that adversarial training alleviates this issue. In this paper, we demonstrate that, surprisingly, the opposite may be true -- Even though adversarial training helps when enough data is available, it may hurt robust generalization in the small sample size regime. We first prove this phenomenon for a high-dimensional linear classification setting with noiseless observations. Our proof provides explanatory insights that may also transfer to feature learning models. Further, we observe in experiments on standard image datasets that the same behavior occurs for perceptible attacks that effectively reduce class information such as mask attacks and object corruptions.
翻訳日:2022-03-08 02:54:38 公開日:2022-03-03
# (参考訳) 知識伝達ネットワークによる不均一グラフのゼロショット領域適応

Zero-shot Domain Adaptation of Heterogeneous Graphs via Knowledge Transfer Networks ( http://arxiv.org/abs/2203.02018v1 )

ライセンス: CC BY 4.0
Minji Yoon, John Palowitch, Dustin Zelle, Ziniu Hu, Ruslan Salakhutdinov, Bryan Perozzi(参考訳) ノードのタイプ全体(例えばユーザ)にラベルがない場合(おそらくはプライバシの問題のため)、どのようにして異種グラフ内のノードを予測できますか? ヘテロジニアスグラフニューラルネットワーク(HGNN)は、強力な表現学習技術として優れた性能を示しているが、異なるノードタイプに根付いたラベルを使って直接学習する方法はない。 ドメイン適応(DA)はこの設定をターゲットとしているが、既存のDAはHGNNに直接適用することはできない。 ヘテロジニアスグラフでは、ソースドメインとターゲットドメインは異なるモダリティを持つため、HGNNは異なる特徴抽出器を提供するが、DAの大半はソースドメインとターゲットドメインが共通の特徴抽出器を共有すると仮定する。 本研究では,HGNNにおけるゼロショット領域適応の問題に対処する。 まず,HGNNから抽出した音源と対象領域の特徴の関係を理論的に推論し,HGNNの知識伝達ネットワーク(HGNN-KTN)を提案する。 HGNN-KTNは、ソースとターゲットの特徴の関係を学習し、ターゲットの分布をソースドメインにマップする。 HGNN-KTNは最先端のベースラインを上回り、現実世界のベンチマークグラフ上で実行される18の異なるドメイン適応タスクに対して最大73.3%のMRRを示した。

How can we make predictions for nodes in a heterogeneous graph when an entire type of node (e.g. user) has no labels (perhaps due to privacy issues) at all? Although heterogeneous graph neural networks (HGNNs) have shown superior performance as powerful representation learning techniques, there is no direct way to learn using labels rooted at different node types. Domain adaptation (DA) targets this setting, however, existing DA can not be applied directly to HGNNs. In heterogeneous graphs, the source and target domains have different modalities, thus HGNNs provide different feature extractors to them, while most of DA assumes source and target domains share a common feature extractor. In this work, we address the issue of zero-shot domain adaptation in HGNNs. We first theoretically induce a relationship between source and target domain features extracted from HGNNs, then propose a novel domain adaptation method, Knowledge Transfer Networks for HGNNs (HGNN-KTN). HGNN-KTN learns the relationship between source and target features, then maps the target distributions into the source domain. HGNN-KTN outperforms state-of-the-art baselines, showing up to 73.3% higher in MRR on 18 different domain adaptation tasks running on real-world benchmark graphs.
翻訳日:2022-03-08 02:53:22 公開日:2022-03-03
# (参考訳) 証明可能かつ効率的な連続表現学習

Provable and Efficient Continual Representation Learning ( http://arxiv.org/abs/2203.02026v1 )

ライセンス: CC BY 4.0
Yingcong Li, Mingchen Li, M. Salman Asif, Samet Oymak(参考訳) 連続学習(CL)では、悲惨なことを忘れずに一連のタスクを学習できるモデルを設計することが目的である。 CLには豊富なテクニックセットがあるが、以前のタスクによって構築された表現が、ネットワークに追加される新しいタスクにどのように役立つかについての理解は比較的少ない。 そこで我々は,新しいタスクが到着するにつれて,継続表現学習(CRL)の課題を学習する。 サブネットワーク(PackNetなど)にタスクを埋め込むゼロフォッゲッティング手法に着目し,CRLが新しいタスクを学習する際のサンプル効率を大幅に向上させることを示す実験を行った。 そこで本研究では,crlの統計的利点を定式化することにより,新しいタスクのサンプル複雑性と一般化誤差境界を提供することにより,crlの理論的保証を確立する。 私たちの分析と実験では、タスクを学ぶ順番の重要性も強調しています。 具体的には、初期タスクが大きなサンプルサイズと高い"表現多様性"を持つ場合、CLの利点を示す。 ダイバーシティは、新しいタスクの追加が小さな表現ミスマッチを引き起こし、わずかなサンプルで学習でき、さらにいくつかの非ゼロウェイトしかトレーニングできないことを保証します。 最後に,表象学習の利点を保ちながら,各タスクサブネットワークが推論時間内に効率的であることを保証できるかどうかを問う。 そこで本研究では,sparse packnet (espn) とよばれる予測効率の高いパックネットの変種を提案する。 ESPNは、精度をほぼ保ちながら計算するFLOPを最大80%削減する必要のあるチャンネルスパースサブネットにタスクを埋め込み、さまざまなベースラインと非常に競合する。 要約すると、この研究は表現学習の観点からデータと計算効率の高いCLに向かって一歩前進する。 githubページ: https://github.com/ucr-optml/ctrl

In continual learning (CL), the goal is to design models that can learn a sequence of tasks without catastrophic forgetting. While there is a rich set of techniques for CL, relatively little understanding exists on how representations built by previous tasks benefit new tasks that are added to the network. To address this, we study the problem of continual representation learning (CRL) where we learn an evolving representation as new tasks arrive. Focusing on zero-forgetting methods where tasks are embedded in subnetworks (e.g., PackNet), we first provide experiments demonstrating CRL can significantly boost sample efficiency when learning new tasks. To explain this, we establish theoretical guarantees for CRL by providing sample complexity and generalization error bounds for new tasks by formalizing the statistical benefits of previously-learned representations. Our analysis and experiments also highlight the importance of the order in which we learn the tasks. Specifically, we show that CL benefits if the initial tasks have large sample size and high "representation diversity". Diversity ensures that adding new tasks incurs small representation mismatch and can be learned with few samples while training only few additional nonzero weights. Finally, we ask whether one can ensure each task subnetwork to be efficient during inference time while retaining the benefits of representation learning. To this end, we propose an inference-efficient variation of PackNet called Efficient Sparse PackNet (ESPN) which employs joint channel & weight pruning. ESPN embeds tasks in channel-sparse subnets requiring up to 80% less FLOPs to compute while approximately retaining accuracy and is very competitive with a variety of baselines. In summary, this work takes a step towards data and compute-efficient CL with a representation learning perspective. GitHub page: https://github.com/ucr-optml/CtRL
翻訳日:2022-03-08 02:30:00 公開日:2022-03-03
# (参考訳) データ効率と解釈可能な表状異常検出

Data-Efficient and Interpretable Tabular Anomaly Detection ( http://arxiv.org/abs/2203.02034v1 )

ライセンス: CC BY 4.0
Chun-Hao Chang, Jinsung Yoon, Sercan Arik, Madeleine Udell, Tomas Pfister(参考訳) 異常検出(AD)は多くのアプリケーションにおいて重要な役割を果たす。 私たちは、現実のアプリケーションに統合するために重要なADの2つの未調査の側面に焦点を当てます。 第一に、ほとんどのADメソッドはラベル付きデータを組み込むことができないが、これは実際に少量で利用可能であり、高いAD精度を達成するために不可欠である。 第二に、ほとんどの広告メソッドは解釈不可能であり、ステークホルダーが異常の背後にある理由を理解するのを妨げるボトルネックである。 本稿では,ホワイトボックスモデルクラスである一般化加法モデルを適用し,ノイズや不均質な特徴を自然に処理する部分識別目的を用いて異常を検出する新しいアドフレームワークを提案する。 さらに、提案フレームワークであるDIADは、ラベル付きデータの少量を組み込んで、半教師付き設定における異常検出性能をさらに向上させることができる。 各種表付きデータセットを用いた教師なし設定と半教師なし設定の両方において、これまでの作業と比較して、我々のフレームワークの優位性を示す。 例えば、5以下のラベル付き異常DIADは、ラベルなしデータからADを学習することで86.2\%から89.4\%に改善される。 また、diadが特定のサンプルを異常と考える理由を説明する洞察的な解釈も提示する。

Anomaly detection (AD) plays an important role in numerous applications. We focus on two understudied aspects of AD that are critical for integration into real-world applications. First, most AD methods cannot incorporate labeled data that are often available in practice in small quantities and can be crucial to achieve high AD accuracy. Second, most AD methods are not interpretable, a bottleneck that prevents stakeholders from understanding the reason behind the anomalies. In this paper, we propose a novel AD framework that adapts a white-box model class, Generalized Additive Models, to detect anomalies using a partial identification objective which naturally handles noisy or heterogeneous features. In addition, the proposed framework, DIAD, can incorporate a small amount of labeled data to further boost anomaly detection performances in semi-supervised settings. We demonstrate the superiority of our framework compared to previous work in both unsupervised and semi-supervised settings using diverse tabular datasets. For example, under 5 labeled anomalies DIAD improves from 86.2\% to 89.4\% AUC by learning AD from unlabeled data. We also present insightful interpretations that explain why DIAD deems certain samples as anomalies.
翻訳日:2022-03-08 01:50:37 公開日:2022-03-03
# (参考訳) 正常化に基づく術後小脳損傷の自動検出と分節化

Automatic Detection and Segmentation of Postoperative Cerebellar Damage Based on Normalization ( http://arxiv.org/abs/2203.02042v1 )

ライセンス: CC BY 4.0
Silu Zhang, Stuart McAfee, Zoltan Patay, Matthew Scoggins(参考訳) 外科的切除は小児後窩腫瘍の治療の一般的な方法である。 しかし, 外科的損傷は避けられないことが多く, 術後合併症との関連はよく分かっていない。 小脳損傷の確実な局在と測定は、損傷した小脳領域と術後の神経学的結果との関係を研究するために重要である。 既存の小脳の正常化法は術後のスキャンでは信頼できないため,手指ラベリングによる外科的損傷の測定が現在行われている。 本研究では,術後3次元t1磁気共鳴画像を用いた手術による小脳損傷を自動的に検出し,測定するロバストアルゴリズムを開発した。 提案手法では, 術後スキャン用にカスタマイズされたベイズアルゴリズムを用いて, 正常な脳組織を抽出する。 次に、脳テンプレート全体をネイティブ空間に非線形に登録することで小脳を分離する。 摘出された小脳は、前ステップから派生した解剖学的情報を用いて、空間的に偏ったアトラス(SUIT)空間に正規化される。 最後に、正規化された小脳とスーツテンプレートを比較してアトラス空間で損傷を検出する。 髄芽腫と診断された153例の術後検査において,ヒトの期待値による損傷検出ツールの評価を行った。 また,人間の介入なしに提案手法をテストするシミュレーションを設計した。 その結果,提案手法は様々なシナリオにおいて優れた性能を示した。

Surgical resection is a common procedure in the treatment of pediatric posterior fossa tumors. However, surgical damage is often unavoidable and its association with postoperative complications is not well understood. A reliable localization and measure of cerebellar damage is fundamental to study the relationship between the damaged cerebellar regions and postoperative neurological outcomes. Existing cerebellum normalization methods are not reliable on postoperative scans, therefore current approaches to measure surgical damage rely on manual labelling. In this work, we develop a robust algorithm to automatically detect and measure cerebellum damage due to surgery using postoperative 3D T1 magnetic resonance imaging. In our proposed approach, normal brain tissues are first segmented using a Bayesian algorithm customized for postoperative scans. Next, the cerebellum is isolated by nonlinear registration of a whole brain template to the native space. The isolated cerebellum is then normalized into the spatially unbiased atlas (SUIT) space using anatomical information derived from the previous step. Finally, the damage is detected in the atlas space by comparing the normalized cerebellum and the SUIT template. We evaluated our damage detection tool on postoperative scans of 153 patients diagnosed with medulloblastoma based on inspection by human expects. We also designed a simulation to test the proposed approach without human intervention. Our results show that the proposed approach has superior performance on various scenarios.
翻訳日:2022-03-08 01:28:41 公開日:2022-03-03
# (参考訳) テキスト生成のための深潜時変動モデル

Deep Latent-Variable Models for Text Generation ( http://arxiv.org/abs/2203.02055v1 )

ライセンス: CC BY 4.0
Xiaoyu Shen(参考訳) テキスト生成は、下流タスクのためのヒューマンライクな自然言語出力を作ることを目的としている。 機械翻訳、文書要約、対話生成など、幅広いアプリケーションをカバーしている。 近年,ディープニューラルネットワークを用いたエンドツーエンドアーキテクチャが広く採用されている。 エンドツーエンドのアプローチは、かつて複雑な手作りのルールで設計されていたすべてのサブモジュールを、包括的なエンコード・デコードアーキテクチャにまとめる。 十分なトレーニングデータがあれば、最先端のパフォーマンスを達成できるが、言語やドメインに依存した知識は不要だ。 それでも、ディープラーニングモデルは極めてデータ不足であることが知られており、それらから生成されたテキストは通常、多様性、解釈可能性、制御性に悩まされる。 その結果、実際のアプリケーションでそれらから出力を信頼することは困難である。 深い潜伏変数モデルは、中間潜伏過程上の確率分布を指定することにより、深層ニューラルネットワークの表現力を維持しながらこれらの問題に対処する潜在的な方法を提供する。 この論文は、テキスト生成のための標準エンコーダデコーダモデルよりも、潜伏変数の深いモデルがいかに改善できるかを示す。

Text generation aims to produce human-like natural language output for down-stream tasks. It covers a wide range of applications like machine translation, document summarization, dialogue generation and so on. Recently deep neural network-based end-to-end architectures have been widely adopted. The end-to-end approach conflates all sub-modules, which used to be designed by complex handcrafted rules, into a holistic encode-decode architecture. Given enough training data, it is able to achieve state-of-the-art performance yet avoiding the need of language/domain-dependent knowledge. Nonetheless, deep learning models are known to be extremely data-hungry, and text generated from them usually suffer from low diversity, interpretability and controllability. As a result, it is difficult to trust the output from them in real-life applications. Deep latent-variable models, by specifying the probabilistic distribution over an intermediate latent process, provide a potential way of addressing these problems while maintaining the expressive power of deep neural networks. This dissertation presents how deep latent-variable models can improve over the standard encoder-decoder model for text generation.
翻訳日:2022-03-08 01:17:41 公開日:2022-03-03
# (参考訳) 対称構造畳み込みニューラルネットワーク

Symmetry Structured Convolutional Neural Networks ( http://arxiv.org/abs/2203.02056v1 )

ライセンス: CC BY 4.0
Kehelwala Dewage Gayan Maduranga, Vasily Zadorozhnyy, Qiang Ye(参考訳) 本研究では,空間次元に対称な2次元構造を持つ畳み込みニューラルネットワーク(cnns)を考える。 このようなネットワークは、RNAとタンパク質配列の二次構造推論問題と同様に、シーケンシャルレコメンデーション問題に対するペアワイズ関係をモデル化する。 我々はネットワークの畳み込み層における対称性構造を生成し保存するCNNアーキテクチャを開発した。 我々は、トレーニングを通して対称性を維持するために更新ルールを生成する畳み込みカーネルのパラメータ化を提案する。 このアーキテクチャを、逐次レコメンデーション問題、RNA二次構造推定問題、タンパク質接触マップ予測問題に適用し、対称構造ネットワークがより少ない数のマシンパラメータを用いて改善結果を生成することを示す。

We consider Convolutional Neural Networks (CNNs) with 2D structured features that are symmetric in the spatial dimensions. Such networks arise in modeling pairwise relationships for a sequential recommendation problem, as well as secondary structure inference problems of RNA and protein sequences. We develop a CNN architecture that generates and preserves the symmetry structure in the network's convolutional layers. We present parameterizations for the convolutional kernels that produce update rules to maintain symmetry throughout the training. We apply this architecture to the sequential recommendation problem, the RNA secondary structure inference problem, and the protein contact map prediction problem, showing that the symmetric structured networks produce improved results using fewer numbers of machine parameters.
翻訳日:2022-03-08 01:16:27 公開日:2022-03-03
# (参考訳) 深部状態空間モデルにおける解釈可能な潜在変数

Interpretable Latent Variables in Deep State Space Models ( http://arxiv.org/abs/2203.02057v1 )

ライセンス: CC BY 4.0
Haoxuan Wu, David S. Matteson and Martin T. Wells(参考訳) 本稿では,リカレントニューラルネットワークと状態空間フレームワークを組み合わせて時系列データを予測する深層状態空間モデル(dssms)の新バージョンを提案する。 モデルは観測された系列を、時間を通して非線形に進化する潜在変数の関数として推定する。 DSSMに固有の複雑さと非線形性のため、DSSMに関する以前の研究は通常、解釈するのが非常に難しい潜伏変数を生成していた。 本稿は,2つのキー変更による解釈可能な潜在パラメータの生成に焦点をあてる。 まず、応答変数を潜在変数の線形変換に制限し、いくつかのノイズを伴って予測デコーダを単純化する。 第2に,潜伏変数の縮小先行値を用いて冗長性を低減し,ロバスト性を向上させる。 これらの変化により、潜在変数はより理解しやすくなり、結果として生じる潜在変数を線形混合モデルにおけるランダムな効果として解釈することができる。 2つの公開ベンチマークデータセットを通して、結果のモデルが予測性能を改善することを示す。

We introduce a new version of deep state-space models (DSSMs) that combines a recurrent neural network with a state-space framework to forecast time series data. The model estimates the observed series as functions of latent variables that evolve non-linearly through time. Due to the complexity and non-linearity inherent in DSSMs, previous works on DSSMs typically produced latent variables that are very difficult to interpret. Our paper focus on producing interpretable latent parameters with two key modifications. First, we simplify the predictive decoder by restricting the response variables to be a linear transformation of the latent variables plus some noise. Second, we utilize shrinkage priors on the latent variables to reduce redundancy and improve robustness. These changes make the latent variables much easier to understand and allow us to interpret the resulting latent variables as random effects in a linear mixed model. We show through two public benchmark datasets the resulting model improves forecasting performances.
翻訳日:2022-03-08 00:58:56 公開日:2022-03-03
# 混合連続カテゴリーパラメータ問題に対する適応サーロゲートモデルを用いた多目的ロバスト最適化

Multi-objective robust optimization using adaptive surrogate models for problems with mixed continuous-categorical parameters ( http://arxiv.org/abs/2203.01996v1 )

ライセンス: Link先を確認
M. Moustapha, A. Galimshina, G. Habert, B. Sudret(参考訳) 不確実性を明確に説明することは、エンジニアリング構造の安全性にとって最重要である。 構造設計の初期段階でしばしば実行される最適化は、このタスクに理想的なフレームワークを提供する。 不確実性が主に目的関数に影響する場合、伝統的にロバストな設計最適化が考慮される。 この研究はさらに、同時に扱う必要がある複数の競合する目的関数の存在を前提としている。 最適化問題は、1つの計量における最適性とロバスト性の組み合わせを可能にする目的関数の量子化を考えることによって定式化される。 共通乱数の概念を導入することで、非支配的ソーティング遺伝的アルゴリズム (nsga-ii) において汎用解法を用いてネスト最適化問題を解くことができる。 しかしながら、そのようなアプローチの計算コストは、実世界の問題におけるその応用にとって深刻なハードルである。 そこで我々は、Kriging を用いた代理支援アプローチを、関連する計算モデルの低コストな近似として提案する。 提案手法は、適応的に構築されたKrigingモデルを用いて、NSGA-IIを逐次実行することからなる。 最後に, 質的設計パラメータの選択を含むアプリケーションとして, 混合カテゴリ連続パラメータを考慮した手法を提案する。 この手法は、その効率を示す2つの分析例に適用される。 第3の応用は、そのライフサイクルコストと環境影響の両方を考慮した建物の最適改修シナリオの選択に関するものである。 改修に関しては、暖房システムの交換が最優先事項であることが示されている。

Explicitly accounting for uncertainties is paramount to the safety of engineering structures. Optimization which is often carried out at the early stage of the structural design offers an ideal framework for this task. When the uncertainties are mainly affecting the objective function, robust design optimization is traditionally considered. This work further assumes the existence of multiple and competing objective functions that need to be dealt with simultaneously. The optimization problem is formulated by considering quantiles of the objective functions which allows for the combination of both optimality and robustness in a single metric. By introducing the concept of common random numbers, the resulting nested optimization problem may be solved using a general-purpose solver, herein the non-dominated sorting genetic algorithm (NSGA-II). The computational cost of such an approach is however a serious hurdle to its application in real-world problems. We therefore propose a surrogate-assisted approach using Kriging as an inexpensive approximation of the associated computational model. The proposed approach consists of sequentially carrying out NSGA-II while using an adaptively built Kriging model to estimate of the quantiles. Finally, the methodology is adapted to account for mixed categorical-continuous parameters as the applications involve the selection of qualitative design parameters as well. The methodology is first applied to two analytical examples showing its efficiency. The third application relates to the selection of optimal renovation scenarios of a building considering both its life cycle cost and environmental impact. It shows that when it comes to renovation, the heating system replacement should be the priority.
翻訳日:2022-03-07 16:27:03 公開日:2022-03-03
# バナジウムレドックスフローバッテリのモデリングのための物理拘束型ディープニューラルネットワーク

Enhanced physics-constrained deep neural networks for modeling vanadium redox flow battery ( http://arxiv.org/abs/2203.01985v1 )

ライセンス: Link先を確認
QiZhi He, Yucheng Fu, Panos Stinis, Alexandre Tartakovsky(参考訳) 数値モデリングとシミュレーションは,基礎となるメカニズムの包括的理解とコスト効率のよいプロセス最適化,フローバッテリの制御に不可欠である。 本研究では,vanadium redox flow battery (vrfbs) における高精度電圧予測を実現するために,物理制約付き深層ニューラルネットワーク (pcdnn) アプローチの強化版を提案する。 PCDNNアプローチの目的は、物理学に基づくゼロ次元(0D)VRFBモデルをニューラルネットワークに強制し、様々なバッテリ動作条件に対するモデルの一般化を保証することである。 0Dモデルの単純化によって制限されたPCDNNは、極端なSOC領域における急激な電圧変化を捉えることができない。 極端範囲における電圧予測の精度を向上させるために,0Dモデル自体から発生する予測誤差を軽減し,結果として得られたアプローチを拡張PCDNN(ePCDNN)と呼ぶ第2の(強化された)DNNを導入する。 モデル予測を実験データと比較することにより,epcdnnアプローチは電圧放電曲線のテール領域を含む帯電-放電サイクルを通して,電圧応答を正確に把握できることを実証する。 標準PCDNNと比較して,ePCDNNの予測精度は大幅に向上した。 ePCDNNをトレーニングする損失関数は、物理制約付きDNNと拡張DNNの重みを調整することで柔軟に設計されている。 これにより、ePCDNNフレームワークは、物理モデル忠実度が変化するバッテリシステムに転送できる。

Numerical modeling and simulation have become indispensable tools for advancing a comprehensive understanding of the underlying mechanisms and cost-effective process optimization and control of flow batteries. In this study, we propose an enhanced version of the physics-constrained deep neural network (PCDNN) approach [1] to provide high-accuracy voltage predictions in the vanadium redox flow batteries (VRFBs). The purpose of the PCDNN approach is to enforce the physics-based zero-dimensional (0D) VRFB model in a neural network to assure model generalization for various battery operation conditions. Limited by the simplifications of the 0D model, the PCDNN cannot capture sharp voltage changes in the extreme SOC regions. To improve the accuracy of voltage prediction at extreme ranges, we introduce a second (enhanced) DNN to mitigate the prediction errors carried from the 0D model itself and call the resulting approach enhanced PCDNN (ePCDNN). By comparing the model prediction with experimental data, we demonstrate that the ePCDNN approach can accurately capture the voltage response throughout the charge--discharge cycle, including the tail region of the voltage discharge curve. Compared to the standard PCDNN, the prediction accuracy of the ePCDNN is significantly improved. The loss function for training the ePCDNN is designed to be flexible by adjusting the weights of the physics-constrained DNN and the enhanced DNN. This allows the ePCDNN framework to be transferable to battery systems with variable physical model fidelity.
翻訳日:2022-03-07 16:26:41 公開日:2022-03-03
# ADPCMスキームにおける非線形予測モデル計算

Nonlinear predictive models computation in ADPCM schemes ( http://arxiv.org/abs/2203.02020v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy(参考訳) 近年,音声符号化に適用される非線形予測に関する論文がいくつか発表されている。 ICASSP98において、ニューラルネットワークに基づく非線形予測器を用いたADPCMスキームに基づくシステムを提案する。 最も重要なパラメータは、訓練条件と試験条件のミスマッチに対する優れた一般化能力と堅牢性を達成するための訓練手順であった。 本稿では,SEGSNRの1.2dB(ベイズ正規化)における元のシステムの性能を改善するための新しいアプローチを提案する。 フレーム間のSEGSNRのばらつきも最小限に抑えられ、新しいスキームは出力のより安定した品質を生み出す。

Recently several papers have been published on nonlinear prediction applied to speech coding. At ICASSP98 we presented a system based on an ADPCM scheme with a nonlinear predictor based on a neural net. The most critical parameter was the training procedure in order to achieve good generalization capability and robustness against mismatch between training and testing conditions. In this paper, we propose several new approaches that improve the performance of the original system in up to 1.2dB of SEGSNR (using bayesian regularization). The variance of the SEGSNR between frames is also minimized, so the new scheme produces a more stable quality of the output.
翻訳日:2022-03-07 16:20:48 公開日:2022-03-03
# 圧縮予測情報符号化

Compressed Predictive Information Coding ( http://arxiv.org/abs/2203.02051v1 )

ライセンス: Link先を確認
Rui Meng, Tianyi Luo, Kristofer Bouchard(参考訳) 教師なし学習は人工知能、機械学習、神経科学など多くの分野で重要な役割を果たしている。 静的データと比較して、動的データの低次元構造を抽出する方法が遅れている。 我々は,動的データから有用な表現を抽出する新しい情報理論フレームワーク,Compressed Predictive Information Coding (CPIC)を開発した。 CPICは過去(入力)を線形部分空間に選択的に投影し、将来(出力)から投影される圧縮データについて予測する。 我々のフレームワークの重要な洞察は、圧縮の複雑さを最小化し、潜在空間における予測情報を最大化することで表現を学ぶことである。 我々はCPIC損失の変動境界を導出し、最大予測可能な情報を取得するために潜時空間を誘導する。 我々の変動境界は相互情報の境界を利用して扱いやすい。 エンコーダに確率性を導入することは、より優れた表現に強く寄与する。 さらに,変分法はガウス的仮定に基づく推定よりも相互情報推定に優れる。 CPICは低信号-雑音比の雑音力学系の潜時空間を復元できることを示し,神経科学データにおける外因性変数の予測的特徴を抽出する。

Unsupervised learning plays an important role in many fields, such as artificial intelligence, machine learning, and neuroscience. Compared to static data, methods for extracting low-dimensional structure for dynamic data are lagging. We developed a novel information-theoretic framework, Compressed Predictive Information Coding (CPIC), to extract useful representations from dynamic data. CPIC selectively projects the past (input) into a linear subspace that is predictive about the compressed data projected from the future (output). The key insight of our framework is to learn representations by minimizing the compression complexity and maximizing the predictive information in latent space. We derive variational bounds of the CPIC loss which induces the latent space to capture information that is maximally predictive. Our variational bounds are tractable by leveraging bounds of mutual information. We find that introducing stochasticity in the encoder robustly contributes to better representation. Furthermore, variational approaches perform better in mutual information estimation compared with estimates under a Gaussian assumption. We demonstrate that CPIC is able to recover the latent space of noisy dynamical systems with low signal-to-noise ratios, and extracts features predictive of exogenous variables in neuroscience data.
翻訳日:2022-03-07 16:20:39 公開日:2022-03-03
# フォトニックチップを用いた機械学習による分子特性の予測

A photonic chip-based machine learning approach for the prediction of molecular properties ( http://arxiv.org/abs/2203.02285v1 )

ライセンス: Link先を確認
Jonathan Wei Zhong Lau, Hui Zhang, Lingxiao Wan, Liang Shi, Hong Cai, Xianshu Luo, Patrick Lo, Chee-Kong Lee, Leong-Chuan Kwek, Ai Qun Liu(参考訳) 機械学習の手法は、新しい分子や材料の発見プロセスに革命をもたらした。 しかし、複雑な分子に対するニューラルネットワークの集中的なトレーニングプロセスは、計算コストの指数関数的な増加をもたらし、長いシミュレーション時間と高いエネルギー消費を生み出している。 フォトニックチップ技術は、デジタルコンピュータよりも高速なデータ処理とエネルギー消費の少ないニューラルネットワークを実装するための代替プラットフォームを提供する。 ここでは、分子の量子力学的性質を予測するためのフォトニックニューラルネットワークの能力を実証する。 さらに,マルチタスク回帰学習アルゴリズムを用いて,複数の特性をフォトニックチップで同時に学習できることが示される。 フォトニクス技術は、ハードウェアコストを伴わずに複雑な評価ニューラルネットワークを実装でき、分子特性予測のために従来の実数値ニューラルネットワークよりも優れていることを示す。 本研究は,創薬や材料設計などの分子科学における大規模機械学習応用にフォトニック技術を活用するための道を開いたものである。

Machine learning methods have revolutionized the discovery process of new molecules and materials. However, the intensive training process of neural networks for molecules with ever increasing complexity has resulted in exponential growth in computation cost, leading to long simulation time and high energy consumption. Photonic chip technology offers an alternative platform for implementing neural network with faster data processing and lower energy usage compared to digital computers. Here, we demonstrate the capability of photonic neural networks in predicting the quantum mechanical properties of molecules. Additionally, we show that multiple properties can be learned simultaneously in a photonic chip via a multi-task regression learning algorithm, which we believe is the first of its kind, as most previous works focus on implementing a network for the task of classification. Photonics technology are also naturally capable of implementing complex-valued neural networks at no additional hardware cost and we show that such neural networks outperform conventional real-valued networks for molecular property prediction. Our work opens the avenue for harnessing photonic technology for large-scale machine learning applications in molecular sciences such as drug discovery and materials design.
翻訳日:2022-03-07 16:20:22 公開日:2022-03-03
# 感覚フィードバックの有無による時間最適化経路追跡の学習

Learning Time-optimized Path Tracking with or without Sensory Feedback ( http://arxiv.org/abs/2203.01968v1 )

ライセンス: Link先を確認
Jonas C. Kiemel, Torsten Kr\"oger(参考訳) 本稿では,各ロボット関節の位置,速度,加速度,ジェルクの制限を超過することなく,ロボットがジョイント空間で定義された参照経路を素早く追従できる学習に基づくアプローチを提案する。 時間-最適経路パラメータ化のオフラインメソッドとは対照的に、動作中に参照パスを変更することができる。 さらに,二足歩行ロボットによる参照経路を,バランスを損なうことなく追従するために,感覚フィードバックを活用できる。 本手法では,物理シミュレータが生成したデータを用いて強化学習により学習するニューラルネットワークによってロボットを制御する。 数学的な観点から、時間最適化された方法で参照経路を追跡する問題はマルコフ決定プロセスとして形式化される。 各状態は、参照パスの次の部分を指定する固定数のウェイポイントを含む。 作用空間は、得られる全ての動きが指定された運動的関節限界を満たすように設計される。 報酬関数は最終的に、実行時間、望ましい参照パスからの逸脱、バランスのようなオプション的な追加目的の間のトレードオフを反映します。 また, 産業用と人型の両方のロボットに対して, 時間に最適化された経路追跡が効果的に学習できることを示す。 さらに,シミュレーションで訓練したネットワークを,実際のクカロボットに転送できることを実証した。

In this paper, we present a learning-based approach that allows a robot to quickly follow a reference path defined in joint space without exceeding limits on the position, velocity, acceleration and jerk of each robot joint. Contrary to offline methods for time-optimal path parameterization, the reference path can be changed during motion execution. In addition, our approach can utilize sensory feedback, for instance, to follow a reference path with a bipedal robot without losing balance. With our method, the robot is controlled by a neural network that is trained via reinforcement learning using data generated by a physics simulator. From a mathematical perspective, the problem of tracking a reference path in a time-optimized manner is formalized as a Markov decision process. Each state includes a fixed number of waypoints specifying the next part of the reference path. The action space is designed in such a way that all resulting motions comply with the specified kinematic joint limits. The reward function finally reflects the trade-off between the execution time, the deviation from the desired reference path and optional additional objectives like balancing. We evaluate our approach with and without additional objectives and show that time-optimized path tracking can be successfully learned for both industrial and humanoid robots. In addition, we demonstrate that networks trained in simulation can be successfully transferred to a real Kuka robot.
翻訳日:2022-03-07 15:49:13 公開日:2022-03-03
# 階層的cnnとリトレーニングを伴わない野生脳mriのロバストセグメンテーション

Robust Segmentation of Brain MRI in the Wild with Hierarchical CNNs and no Retraining ( http://arxiv.org/abs/2203.01969v1 )

ライセンス: Link先を確認
Benjamin Billot, Magdamo Colin, Sean E. Arnold, Sudeshna Das, Juan. E. Iglesias(参考訳) クリニックで取得した脳MRIスキャンの振り返り分析は、研究データセットよりはるかに大きなサンプルサイズの神経画像研究を可能にする可能性がある。 しかし, 被験者はMRコントラスト, 解像度, 方向など, 非常に可変なプロトコルでスキャンされるため, このような臨床像を「野」で分析することは困難である。 それでも、画像分割のための畳み込みニューラルネットワーク(CNN)とドメインランダム化の最近の進歩は、SynthSegによって最もよく表現されているが、臨床MRIの大規模な形態計測を可能にしている。 本研究では,マサチューセッツ総合病院で取得した1万件以上のスキャンデータを用いて,SynthSegの評価を行った。 一般的にSynthSegは頑健であるが,低信号-雑音比,組織コントラストの低いスキャンではフェールすることが多い。 次に、条件付きセグメンテーションとCNNの階層構造を用いてこれらの問題を緩和する新しい手法であるSynthSeg+を提案する。 この手法はSynthSegよりもかなり頑健であり,カスケードネットワークや最先端セグメンテーション手法よりも優れていることを示す。 最後に,本研究は,質の高い1mm,t1重み付きスキャンで行った研究で観察された萎縮パターンを忠実に再現する,概念実証ボリューム研究に適用する。 コードとトレーニングされたモデルはhttps://github.com/BBillot/SynthSegで公開されている。

Retrospective analysis of brain MRI scans acquired in the clinic has the potential to enable neuroimaging studies with sample sizes much larger than those found in research datasets. However, analysing such clinical images "in the wild" is challenging, since subjects are scanned with highly variable protocols (MR contrast, resolution, orientation, etc.). Nevertheless, recent advances in convolutional neural networks (CNNs) and domain randomisation for image segmentation, best represented by the publicly available method SynthSeg, may enable morphometry of clinical MRI at scale. In this work, we first evaluate SynthSeg on an uncurated, heterogeneous dataset of more than 10,000 scans acquired at Massachusetts General Hospital. We show that SynthSeg is generally robust, but frequently falters on scans with low signal-to-noise ratio or poor tissue contrast. Next, we propose SynthSeg+, a novel method that greatly mitigates these problems using a hierarchy of conditional segmentation and denoising CNNs. We show that this method is considerably more robust than SynthSeg, while also outperforming cascaded networks and state-of-the-art segmentation denoising methods. Finally, we apply our approach to a proof-of-concept volumetric study of ageing, where it closely replicates atrophy patterns observed in research studies conducted on high-quality, 1mm, T1-weighted scans. The code and trained model are publicly available at https://github.com/BBillot/SynthSeg.
翻訳日:2022-03-07 15:45:37 公開日:2022-03-03
# 超ボクセルを用いた自己スーパービジョンによる異常検出による医療画像分割

Anomaly Detection-Inspired Few-Shot Medical Image Segmentation Through Self-Supervision With Supervoxels ( http://arxiv.org/abs/2203.02048v1 )

ライセンス: Link先を確認
Stine Hansen, Srishti Gautam, Robert Jenssen, Michael Kampffmeyer(参考訳) 近年の研究では,自己監督によるラベル効率の低い少数ショット学習が,有望な医用画像セグメンテーションの結果を達成できることが示されている。 しかし、少数ショットセグメンテーションモデルは通常、セグメンテーションクラスのプロトタイプ表現に依存しており、パフォーマンスを低下させるようなローカル情報を失う。 これは、医用画像分割問題において、一般的に大きく、非常に異質な背景クラスにおいて特に問題となる。 従来の研究では,各クラスごとに追加のプロトタイプを学習してこの問題に対処する試みがあったが,プロトタイプは限られた数のスライスに基づいているため,このアドホックなソリューションは背景特性を捉えるには不十分である。 これを動機とし,前景クラス(例えば1臓器)が比較的均質であることの観察から,背景を明示的にモデル化することを避けた,医療画像分割のための新しい異常検出法を提案する。 代わりに、全てのクエリピクセルの異常スコアを計算するために、単一の前景プロトタイプにのみ依存しています。 次に、学習しきい値を用いてこれらの異常スコアをしきい値にすることでセグメント化を行う。 超ボクセルによる医用画像の3次元構造を利用する新しい自己スーパービジョンタスクの支援により,腹腔内臓器分画と心臓分画の2つの代表的なmriデータセットにおける前回の最先端アプローチを上回って,異常検出に触発された医療用画像分画モデルを提案する。

Recent work has shown that label-efficient few-shot learning through self-supervision can achieve promising medical image segmentation results. However, few-shot segmentation models typically rely on prototype representations of the semantic classes, resulting in a loss of local information that can degrade performance. This is particularly problematic for the typically large and highly heterogeneous background class in medical image segmentation problems. Previous works have attempted to address this issue by learning additional prototypes for each class, but since the prototypes are based on a limited number of slices, we argue that this ad-hoc solution is insufficient to capture the background properties. Motivated by this, and the observation that the foreground class (e.g., one organ) is relatively homogeneous, we propose a novel anomaly detection-inspired approach to few-shot medical image segmentation in which we refrain from modeling the background explicitly. Instead, we rely solely on a single foreground prototype to compute anomaly scores for all query pixels. The segmentation is then performed by thresholding these anomaly scores using a learned threshold. Assisted by a novel self-supervision task that exploits the 3D structure of medical images through supervoxels, our proposed anomaly detection-inspired few-shot medical image segmentation model outperforms previous state-of-the-art approaches on two representative MRI datasets for the tasks of abdominal organ segmentation and cardiac segmentation.
翻訳日:2022-03-07 15:45:09 公開日:2022-03-03
# sim2real instance-level style transfer による6次元ポーズ推定

Sim2Real Instance-Level Style Transfer for 6D Pose Estimation ( http://arxiv.org/abs/2203.02069v1 )

ライセンス: Link先を確認
Takuya Ikeda, Suomi Tanishige, Ayako Amma, Michael Sudano, Herv\'e Audren, Koichi Nishiwaki(参考訳) 近年,6次元ポーズ推定ネットワークの訓練において合成データが広く利用されている。 しかし、合成データと実際のデータの間には、テクスチャや素材の違いなど、まだ自明な領域ギャップがある。 これらのギャップはパフォーマンスに測定可能な影響を与えます。 この問題を解決するために,6次元ポーズ推定ネットワークトレーニングのためのシミュレーションを現実(sim2real)インスタンスレベルで導入する。 私たちのアプローチは、人間の介入なしに、合成から現実へとターゲットオブジェクトのスタイルを個々に転送します。 これにより、ポーズ推定ネットワークのトレーニングのための合成データの品質が向上する。 また,データ収集からポーズ推定ネットワークのトレーニングまでの完全なパイプラインを提案し,実世界のロボットプラットフォーム上で広範な評価を行う。 提案手法は,ポーズ推定性能とスタイル転送に適応した画像の写実性の両方において有意な改善を示した。

In recent years, synthetic data has been widely used in the training of 6D pose estimation networks, in part because it automatically provides perfect annotation at low cost. However, there are still non-trivial domain gaps, such as differences in textures/materials, between synthetic and real data. These gaps have a measurable impact on performance. To solve this problem, we introduce a simulation to reality (sim2real) instance-level style transfer for 6D pose estimation network training. Our approach transfers the style of target objects individually, from synthetic to real, without human intervention. This improves the quality of synthetic data for training pose estimation networks. We also propose a complete pipeline from data collection to the training of a pose estimation network and conduct extensive evaluation on a real-world robotic platform. Our evaluation shows significant improvement achieved by our method in both pose estimation performance and the realism of images adapted by the style transfer.
翻訳日:2022-03-07 15:44:41 公開日:2022-03-03
# 極性サンプリング:特異値を用いた事前学習生成ネットワークの品質と多様性制御

Polarity Sampling: Quality and Diversity Control of Pre-Trained Generative Networks via Singular Values ( http://arxiv.org/abs/2203.01993v1 )

ライセンス: Link先を確認
Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk(参考訳) 提案するPolarity Smplingは,事前学習した深層生成ネットワークDGNの生成品質と多様性を制御するための,理論上正当化されたプラグアンドプレイ方式である。 DGN が連続な部分的アフィンスプラインによって近似できるという事実を活用して、DGN のジャコビアン特異値の積の関数として解析的 DGN 出力空間分布を$\rho$ に導く。 私たちは$\rho$ the $\textbf{polarity}$パラメータをダブし、$\rho$がDGNのサンプリングをDGNの出力空間分布のモード($\rho < 0$)またはアンチモーメント($\rho > 0$)に集中していることを証明する。 非ゼロ極性値は、多くの最先端DGNに対して、トランケーションのような標準手法よりも精度の高いパレートフロンティアを実現することを示す。 また,s stylegan3,biggan-deep,nvae,および条件付きおよび非条件画像生成タスクを含む多数の最先端dgnにおいて,全体的な世代品質(例えばフレシェ開始距離)の向上に関する定量的・定性的な結果を示す。 特に、Polarity SmplingはFFHQ DatasetのStyleGAN2、LSUN Car DatasetのStyleGAN2、AFHQv2 DatasetのStyleGAN3をFID 3.95に再定義している。 デモ: bit.ly/polarity-demo-colab

We present Polarity Sampling, a theoretically justified plug-and-play method for controlling the generation quality and diversity of pre-trained deep generative networks DGNs). Leveraging the fact that DGNs are, or can be approximated by, continuous piecewise affine splines, we derive the analytical DGN output space distribution as a function of the product of the DGN's Jacobian singular values raised to a power $\rho$. We dub $\rho$ the $\textbf{polarity}$ parameter and prove that $\rho$ focuses the DGN sampling on the modes ($\rho < 0$) or anti-modes ($\rho > 0$) of the DGN output-space distribution. We demonstrate that nonzero polarity values achieve a better precision-recall (quality-diversity) Pareto frontier than standard methods, such as truncation, for a number of state-of-the-art DGNs. We also present quantitative and qualitative results on the improvement of overall generation quality (e.g., in terms of the Frechet Inception Distance) for a number of state-of-the-art DGNs, including StyleGAN3, BigGAN-deep, NVAE, for different conditional and unconditional image generation tasks. In particular, Polarity Sampling redefines the state-of-the-art for StyleGAN2 on the FFHQ Dataset to FID 2.57, StyleGAN2 on the LSUN Car Dataset to FID 2.27 and StyleGAN3 on the AFHQv2 Dataset to FID 3.95. Demo: bit.ly/polarity-demo-colab
翻訳日:2022-03-07 15:14:41 公開日:2022-03-03
# CoNIC Challenge 2022 における StarDist を用いた病理組織像の核分割と分類

Nuclei segmentation and classification in histopathology images with StarDist for the CoNIC Challenge 2022 ( http://arxiv.org/abs/2203.02284v1 )

ライセンス: Link先を確認
Martin Weigert and Uwe Schmidt(参考訳) 病理組織像における核のセグメンテーションと分類は、計算病理学において重要な課題である。 ここでは、2022年のColon Nuclei Identification and Counting(CoNIC)チャレンジにおいて、星凸形状表現に基づくディープラーニングに基づくアプローチであるStarDistの使い方を説明する。

Segmentation and classification of nuclei in histopathology images is an important task in computational pathology. Here we describe how we used StarDist, a deep learning based approach based on star-convex shape representations, for the Colon Nuclei Identification and Counting (CoNIC) challenge 2022.
翻訳日:2022-03-07 15:08:45 公開日:2022-03-03
# オーバーラップに基づく語彙生成は関連言語間の言語間移動を改善する

Overlap-based Vocabulary Generation Improves Cross-lingual Transfer Among Related Languages ( http://arxiv.org/abs/2203.01976v1 )

ライセンス: Link先を確認
Vaidehi Patil, Partha Talukdar, Sunita Sarawagi(参考訳) mbert や xlm-r のような事前訓練された多言語モデルでは、低webリソース言語 (lrl) へのゼロショットクロスリンガルトランスファーに大きな可能性がある。 しかし、モデル容量が限られているため、高次Webリソース言語(HRL)とLRLの単言語コーパスのサイズが大きく異なるため、LRLとHRLを併用するには十分なスコープが得られず、LRLの下流タスク性能に影響を及ぼす。 本稿では,lrlのコーパス制限を克服するために,語彙重複の次元に沿った言語ファミリーにおける言語間の関係性を活用することができることを論じる。 本稿では,bpe語彙生成アルゴリズムの単純かつ効果的な修正であるbpe (bpe) を提案する。 複数のNLPタスクとデータセットに関する広範な実験を通して、OBPEはHRLと共有されるトークンを介してLRLの表現を増加させる語彙を生成する。 これにより、HRL表現と精度を低下させることなく、関連するHRLからLRLへのゼロショット転送が改善される。 トークンオーバーラップの重要性を否定する従来の研究とは異なり、低リソース関連言語設定ではトークンオーバーラップが重要であることを示す。 合成的に重複をゼロに減らすと、ゼロショット転送精度が4倍に低下する。

Pre-trained multilingual language models such as mBERT and XLM-R have demonstrated great potential for zero-shot cross-lingual transfer to low web-resource languages (LRL). However, due to limited model capacity, the large difference in the sizes of available monolingual corpora between high web-resource languages (HRL) and LRLs does not provide enough scope of co-embedding the LRL with the HRL, thereby affecting downstream task performance of LRLs. In this paper, we argue that relatedness among languages in a language family along the dimension of lexical overlap may be leveraged to overcome some of the corpora limitations of LRLs. We propose Overlap BPE (OBPE), a simple yet effective modification to the BPE vocabulary generation algorithm which enhances overlap across related languages. Through extensive experiments on multiple NLP tasks and datasets, we observe that OBPE generates a vocabulary that increases the representation of LRLs via tokens shared with HRLs. This results in improved zero-shot transfer from related HRLs to LRLs without reducing HRL representation and accuracy. Unlike previous studies that dismissed the importance of token-overlap, we show that in the low-resource related language setting, token overlap matters. Synthetically reducing the overlap to zero can cause as much as a four-fold drop in zero-shot transfer accuracy.
翻訳日:2022-03-07 14:53:34 公開日:2022-03-03
# 残留量子化を用いた自己回帰画像生成

Autoregressive Image Generation using Residual Quantization ( http://arxiv.org/abs/2203.01941v1 )

ライセンス: Link先を確認
Doyup Lee, Chiheon Kim, Saehoon Kim, Minsu Cho, Wook-Shin Han(参考訳) 高解像度画像の自動回帰(AR)モデリングでは、ベクトル量子化(VQ)は離散コードのシーケンスとして画像を表す。 短いシーケンス長は、コード間の長距離相互作用を考慮するために計算コストを削減するために重要である。 しかし, 従来のVQでは符号列を短くすることができず, 高忠実度画像を同時に生成できないと仮定する。 本研究では,Residual-Quantized VAE (RQ-VAE) とRQ-Transformer (RQ-Transformer) から構成される2段階のフレームワークを提案する。 固定コードブックのサイズが与えられると、rq-vaeは画像の特徴マップを正確に近似し、画像を離散符号のスタックマップとして表現することができる。 次に、rq変換器は、次の符号スタックを予測して、量子化された特徴ベクトルを次の位置で予測する。 rq-vaeの正確な近似により、256$\times$256の画像を特徴マップの8$\times$8の解像度で表現することができ、rq-transformerは計算コストを効率的に削減できる。 その結果,我々のフレームワークは,条件付きおよび条件付き画像生成の様々なベンチマークにおいて,既存のarモデルを上回っている。 また,提案手法は従来のARモデルよりもはるかに高速で,高品質な画像を生成する。

For autoregressive (AR) modeling of high-resolution images, vector quantization (VQ) represents an image as a sequence of discrete codes. A short sequence length is important for an AR model to reduce its computational costs to consider long-range interactions of codes. However, we postulate that previous VQ cannot shorten the code sequence and generate high-fidelity images together in terms of the rate-distortion trade-off. In this study, we propose the two-stage framework, which consists of Residual-Quantized VAE (RQ-VAE) and RQ-Transformer, to effectively generate high-resolution images. Given a fixed codebook size, RQ-VAE can precisely approximate a feature map of an image and represent the image as a stacked map of discrete codes. Then, RQ-Transformer learns to predict the quantized feature vector at the next position by predicting the next stack of codes. Thanks to the precise approximation of RQ-VAE, we can represent a 256$\times$256 image as 8$\times$8 resolution of the feature map, and RQ-Transformer can efficiently reduce the computational costs. Consequently, our framework outperforms the existing AR models on various benchmarks of unconditional and conditional image generation. Our approach also has a significantly faster sampling speed than previous AR models to generate high-quality images.
翻訳日:2022-03-07 14:37:51 公開日:2022-03-03
# カラー空間に基づくニュークリインスタンスセグメンテーションと分類のためのHoVer-Net

Color Space-based HoVer-Net for Nuclei Instance Segmentation and Classification ( http://arxiv.org/abs/2203.01940v1 )

ライセンス: Link先を確認
Hussam Azzuni, Muhammad Ridzuan, Min Xu, and Mohammad Yaqub(参考訳) 核のセグメンテーションと分類は、多くの異なる顕微鏡医学分析アプリケーションに利用される最初の、そして最も重要なステップである。 しかし、小さな物体の分割、不均衡、核の種類間の微細な違いなど、多くの問題に悩まされている。 本稿では,これらの問題に対処するための様々な貢献を行った。 まず、最近リリースされた"ConvNeXt"がHoVer-Netモデルのエンコーダとして使われました。 第二に、原子核間の視覚的差異を高めるために、多チャンネルカラー空間に基づくアプローチを用いて特徴の抽出を支援する。 第3に,UFL(Unified Focal Los)は背景不均衡に対処するために用いられた。 最後に、モデルの一般化性を確保するために、SAM(Sharpness-Aware Minimization)が用いられた。 全体としては、CoNiC Challenge 2022の予備テストセットで現在の最先端(SOTA)であるHoVer-Netを12.489%のmPQ+で上回りました。

Nuclei segmentation and classification is the first and most crucial step that is utilized for many different microscopy medical analysis applications. However, it suffers from many issues such as the segmentation of small objects, imbalance, and fine-grained differences between types of nuclei. In this paper, multiple different contributions were done tackling these problems present. Firstly, the recently released "ConvNeXt" was used as the encoder for HoVer-Net model since it leverages the key components of transformers that make them perform well. Secondly, to enhance the visual differences between nuclei, a multi-channel color space-based approach is used to aid the model in extracting distinguishing features. Thirdly, Unified Focal loss (UFL) was used to tackle the background-foreground imbalance. Finally, Sharpness-Aware Minimization (SAM) was used to ensure generalizability of the model. Overall, we were able to outperform the current state-of-the-art (SOTA), HoVer-Net, on the preliminary test set of the CoNiC Challenge 2022 by 12.489% mPQ+.
翻訳日:2022-03-07 14:36:18 公開日:2022-03-03
# 表現型確率ブロックモデルにおける制約スペクトルクラスタリングの整合性について

On consistency of constrained spectral clustering under representation-aware stochastic block model ( http://arxiv.org/abs/2203.02005v1 )

ライセンス: Link先を確認
Shubham Gupta and Ambedkar Dukkipati(参考訳) スペクトルクラスタリングは、その柔軟性、計算効率、そしてよく理解された理論的性能保証のために、実際に広く使われている。 近年,人口レベルの制約下でのバランスの取れたクラスターを見つけるためにスペクトルクラスタリングが研究されている。 これらの制約は、補助分類ノード属性の形式で利用可能な追加情報によって指定される。 本稿では,これらの属性を観測可能ではなく,補助グラフの潜在特徴として表現できるシナリオについて考察する。 これを動機としたスペクトルクラスタリングは、与えられた \textit{similarity graph} $\mathcal{G}$ において、各個人が補助グラフ $\mathcal{R}$ に対して適切に表現されるようなバランスのとれたクラスタを見つけることを目的として研究される(これを表現グラフと呼ぶ)。 この考え方を定式化する個別レベルのバランス制約を提案する。 我々の研究は、与えられたパーティションを$\mathcal{G}$に配置するだけでなく、表現グラフ$\mathcal{R}$に符号化された補助情報を植え付ける興味深い確率的ブロックモデルにつながります。 この環境では、非正規化および正規化スペクトルクラスタリングの変種を開発する。 これらのアルゴリズムは$\mathcal{R}$を使って、提案された制約をほぼ満たす$\mathcal{G}$のクラスタを見つける。 また,上述の確率的ブロックモデルの変種からサンプリングしたグラフの個々レベルの制約の下での制約付きスペクトルクラスタリングに対する最初の統計的一貫性を定式化する。 実験結果は理論的な結果と相関する。

Spectral clustering is widely used in practice due to its flexibility, computational efficiency, and well-understood theoretical performance guarantees. Recently, spectral clustering has been studied to find balanced clusters under population-level constraints. These constraints are specified by additional information available in the form of auxiliary categorical node attributes. In this paper, we consider a scenario where these attributes may not be observable, but manifest as latent features of an auxiliary graph. Motivated by this, we study constrained spectral clustering with the aim of finding balanced clusters in a given \textit{similarity graph} $\mathcal{G}$, such that each individual is adequately represented with respect to an auxiliary graph $\mathcal{R}$ (we refer to this as representation graph). We propose an individual-level balancing constraint that formalizes this idea. Our work leads to an interesting stochastic block model that not only plants the given partitions in $\mathcal{G}$ but also plants the auxiliary information encoded in the representation graph $\mathcal{R}$. We develop unnormalized and normalized variants of spectral clustering in this setting. These algorithms use $\mathcal{R}$ to find clusters in $\mathcal{G}$ that approximately satisfy the proposed constraint. We also establish the first statistical consistency result for constrained spectral clustering under individual-level constraints for graphs sampled from the above-mentioned variant of the stochastic block model. Our experimental results corroborate our theoretical findings.
翻訳日:2022-03-07 14:17:25 公開日:2022-03-03
# DIME:分散局所説明によるマルチモーダルモデルの微粒化解釈

DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations ( http://arxiv.org/abs/2203.02013v1 )

ライセンス: Link先を確認
Yiwei Lyu, Paul Pu Liang, Zihao Deng, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) 人工知能(AI)モデルの意思決定プロセスを理解する能力は、ステークホルダーがモデルの振る舞いを視覚化し、モデルデバッギングを実行し、AIモデルの信頼を促進し、協調的な人間とAIの意思決定を支援するために重要である。 その結果、解釈可能で説明可能なAIの研究分野は、AIコミュニティと、AIを対象分野に適用しようとする学際的科学者の間で注目を集めている。 本稿では,画像,テキスト,音声,時系列データなどの異種データソース間のインタラクションを表現およびキャプチャする上で,機械学習手法のクラスである,マルチモーダルモデルの解釈における最先端の進歩に焦点を当てる。 マルチモーダルモデルは、医療、ロボティクス、マルチメディア、感情コンピューティング、人間とコンピュータの相互作用など、多くの現実世界の応用を拡大してきた。 ユニモーダル貢献 (uc) とマルチモーダルインタラクション (mi) のモデル分割を行うことで,提案手法であるdimeは,任意のモダリティ,モデルアーキテクチャ,タスク間の汎用性を維持しつつ,マルチモーダルモデルの高精度かつ細粒度な解析を可能にする。 合成および実世界のマルチモーダルタスクの包括的な実験を通じて、dimeは正確な不連続の説明を生成し、マルチモーダルモデルのユーザによるモデルの振る舞いのより深い理解を支援するとともに、実際のデプロイのためにこれらのモデルをデバッグおよび改善するためのステップを示す。 実験のコードはhttps://github.com/lvyiwei1/dimeで確認できます。

The ability for a human to understand an Artificial Intelligence (AI) model's decision-making process is critical in enabling stakeholders to visualize model behavior, perform model debugging, promote trust in AI models, and assist in collaborative human-AI decision-making. As a result, the research fields of interpretable and explainable AI have gained traction within AI communities as well as interdisciplinary scientists seeking to apply AI in their subject areas. In this paper, we focus on advancing the state-of-the-art in interpreting multimodal models - a class of machine learning methods that tackle core challenges in representing and capturing interactions between heterogeneous data sources such as images, text, audio, and time-series data. Multimodal models have proliferated numerous real-world applications across healthcare, robotics, multimedia, affective computing, and human-computer interaction. By performing model disentanglement into unimodal contributions (UC) and multimodal interactions (MI), our proposed approach, DIME, enables accurate and fine-grained analysis of multimodal models while maintaining generality across arbitrary modalities, model architectures, and tasks. Through a comprehensive suite of experiments on both synthetic and real-world multimodal tasks, we show that DIME generates accurate disentangled explanations, helps users of multimodal models gain a deeper understanding of model behavior, and presents a step towards debugging and improving these models for real-world deployment. Code for our experiments can be found at https://github.com/lvyiwei1/DIME.
翻訳日:2022-03-07 13:54:51 公開日:2022-03-03
# Mind the Gap:マルチモーダルコントラスト表現学習におけるモダリティギャップの理解

Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning ( http://arxiv.org/abs/2203.02053v1 )

ライセンス: Link先を確認
Weixin Liang, Yuhui Zhang, Yongchan Kwon, Serena Yeung, James Zou(参考訳) マルチモーダルモデルの表現空間の興味深い幾何学的現象であるモダリティギャップを提案する。 具体的には、CLIPのようなマルチモーダルモデルにおいて、異なるデータモダリティ(画像やテキストなど)が共有表現の腕の長さに埋め込まれていることを示す。 系統分析の結果,このギャップはモデル初期化とコントラスト学習最適化の組み合わせによって引き起こされることが示された。 モデル初期化では、共通のディープニューラルネットワークの表現が狭い円錐に制限されていることを経験的および理論的に示す。 その結果、2つのエンコーダを持つマルチモーダルモデルでは、モデルが初期化されるとき、2つのモダリティの表現は明らかに分離される。 最適化の間、コントラスト学習は、異なるモダリティを一定の距離で分離し、損失関数の温度パラメータに影響される。 実験により, モダリティギャップ距離の変化は, 下流のゼロショット分類性能と公平性の向上に大きく影響することが示された。 私たちのコードとデータはhttps://modalitygap.readthedocs.io/で利用可能です。

We present modality gap, an intriguing geometric phenomenon of the representation space of multi-modal models. Specifically, we show that different data modalities (e.g. images and text) are embedded at arm's length in their shared representation in multi-modal models such as CLIP. Our systematic analysis demonstrates that this gap is caused by a combination of model initialization and contrastive learning optimization. In model initialization, we show empirically and theoretically that the representation of a common deep neural network is restricted to a narrow cone. As a consequence, in a multi-modal model with two encoders, the representations of the two modalities are clearly apart when the model is initialized. During optimization, contrastive learning keeps the different modalities separate by a certain distance, which is influenced by the temperature parameter in the loss function. Our experiments further demonstrate that varying the modality gap distance has a significant impact in improving the model's downstream zero-shot classification performance and fairness. Our code and data are available at https://modalitygap.readthedocs.io/
翻訳日:2022-03-07 13:54:24 公開日:2022-03-03
# インターベンション、どこでどのように? スケールにおける因果モデルの実験設計

Interventions, Where and How? Experimental Design for Causal Models at Scale ( http://arxiv.org/abs/2203.02016v1 )

ライセンス: Link先を確認
Panagiotis Tigas, Yashas Annadani, Andrew Jesson, Bernhard Sch\"olkopf, Yarin Gal, Stefan Bauer(参考訳) 観測データおよび介入データからの因果発見は,基礎構造因果モデル(scm)の推定に不確実性をもたらす限られたデータと非識別性のため困難である。 これらの不確実性を組み込んで最適な実験(介入)を行うことは、真のSCMを素早く特定するのに役立ちます。 限られたデータからの因果発見のための実験設計における既存の方法は、SCMの線形仮定に依存するか、介入対象のみを選択するかのいずれかである。 本稿では,ベイジアン因果発見の最近の進歩をベイジアン最適実験設計フレームワークに組み入れ,非線形で大規模なSCMの因果発見を能動的に行うとともに,対象と介入すべき値の両方を選択した。 本研究では, 線形および非線形SCMの合成グラフ(Erdos-R\enyi, Scale Free)と, シリコン内単細胞遺伝子制御ネットワークデータセットDREAMの性能を示す。

Causal discovery from observational and interventional data is challenging due to limited data and non-identifiability which introduces uncertainties in estimating the underlying structural causal model (SCM). Incorporating these uncertainties and selecting optimal experiments (interventions) to perform can help to identify the true SCM faster. Existing methods in experimental design for causal discovery from limited data either rely on linear assumptions for the SCM or select only the intervention target. In this paper, we incorporate recent advances in Bayesian causal discovery into the Bayesian optimal experimental design framework, which allows for active causal discovery of nonlinear, large SCMs, while selecting both the target and the value to intervene with. We demonstrate the performance of the proposed method on synthetic graphs (Erdos-R\`enyi, Scale Free) for both linear and nonlinear SCMs as well as on the in-silico single-cell gene regulatory network dataset, DREAM.
翻訳日:2022-03-07 13:53:27 公開日:2022-03-03
# (参考訳) フィードフォワードニューラルネットワークの正確な前画像計算のための解析的手法

An Analytical Approach to Compute the Exact Preimage of Feed-Forward Neural Networks ( http://arxiv.org/abs/2203.00438v2 )

ライセンス: CC BY 4.0
Th\'eo Nancy, Vassili Maillet, Johann Barbier(参考訳) ニューラルネットワークは、手動で記述するには複雑すぎる関数を自動的に適合させる便利な方法である。 このアプローチの欠点は、内部で何が起きたのか理解せずにブラックボックスを構築することにある。 プレイメージを見つけることは、なぜニューラルネットワークがそのような出力を与えたのかをよりよく理解するのに役立ちます。 ほとんどのニューラルネットワークは非インジェクティブ関数であるため、数値的な方法だけで計算することは不可能であることが多い。 本研究の目的は,隠蔽層に対する線形あるいは断片的な線形活性化関数を持つフィードフォワードニューラルネットワークの正確な事前画像を計算する方法を提供することである。 他のメソッドとは対照的に、これはユニークな出力に対してユニークなソリューションを返すのではなく、解析的に全体と正確な事前イメージを返す。

Neural networks are a convenient way to automatically fit functions that are too complex to be described by hand. The downside of this approach is that it leads to build a black-box without understanding what happened inside. Finding the preimage would help to better understand how and why such neural networks had given such outputs. Because most of the neural networks are noninjective function, it is often impossible to compute it entirely only by a numerical way. The point of this study is to give a method to compute the exact preimage of any Feed-Forward Neural Network with linear or piecewise linear activation functions for hidden layers. In contrast to other methods, this one is not returning a unique solution for a unique output but returns analytically the entire and exact preimage.
翻訳日:2022-03-05 14:27:47 公開日:2022-03-03
# (参考訳) 観測された隕石落下のドローンと機械学習による回復

Successful Recovery of an Observed Meteorite Fall Using Drones and Machine Learning ( http://arxiv.org/abs/2203.01466v1 )

ライセンス: CC BY-SA 4.0
Seamus L. Anderson, Martin C. Towner, John Fairweather, Philip A. Bland, Hadrien A. R. Devillepoix, Eleanor K. Sansom, Martin Cupak, Patrick M. Shober, Gretchen K. Benedix(参考訳) ドローンと機械学習アルゴリズムを用いて,新しい隕石落下を初めて回収したことを報告した。 2021年4月1日の火球は、砂漠の火球ネットワークによって西オーストラリアで観測され、予測された残存質量に対して落下面積が計算された。 捜索隊が現場に到着し、4日間で5.1km2の地域を調査した。 畳み込みニューラルネットワークは、これまで回収された隕石を核融合地殻で訓練し、飛行毎にフィールドコンピュータで画像を処理しました。 アルゴリズムによって特定された隕石候補は、2つのユーザーインターフェースを使用してチームメンバーによってソートされ、偽陽性を排除した。 生き残った候補者は小型ドローンで再訪し、より高い解像度で撮影された後、排除されたり、最終的に対面で訪問されたりした。 70gの隕石は、計算された落下線から50m以内に回収され、多くの観測された隕石の落下の効率的な収集を容易にするこの方法の有効性が実証された。

We report the first-time recovery of a fresh meteorite fall using a drone and a machine learning algorithm. A fireball on the 1st April 2021 was observed over Western Australia by the Desert Fireball Network, for which a fall area was calculated for the predicted surviving mass. A search team arrived on site and surveyed 5.1 km2 area over a 4-day period. A convolutional neural network, trained on previously-recovered meteorites with fusion crusts, processed the images on our field computer after each flight. meteorite candidates identified by the algorithm were sorted by team members using two user interfaces to eliminate false positives. Surviving candidates were revisited with a smaller drone, and imaged in higher resolution, before being eliminated or finally being visited in-person. The 70 g meteorite was recovered within 50 m of the calculated fall line using, demonstrating the effectiveness of this methodology which will facilitate the efficient collection of many more observed meteorite falls.
翻訳日:2022-03-05 09:40:10 公開日:2022-03-03
# (参考訳) cyclemix:scribble supervisorによる医用画像分割のための総合的戦略

CycleMix: A Holistic Strategy for Medical Image Segmentation from Scribble Supervision ( http://arxiv.org/abs/2203.01475v1 )

ライセンス: CC BY 4.0
Ke Zhang and Xiahai Zhuang(参考訳) 医用画像セグメンテーションのタスクでは, 大量の完全注釈付きトレーニングデータの収集に費用がかかる。 より弱い形のアノテーションであるscribbleは、実際にはより得ることができるが、scribblesの限られた監督からセグメンテーションモデルを訓練することは依然として困難である。 そこで本研究では,この課題に対処するために,混合強化とサイクル一貫性からなるクリブル学習に基づく医用画像セグメンテーションのための新しい枠組みを提案する。 監督強化のため、CycleMixはランダム閉塞の専用設計でミックスアップ戦略を採用し、スクリブルのインクリメントとデクリメントを実行する。 監督の正則化のために、cyclemixは一貫性の損失を伴うトレーニング目標を強化し、一貫性のないセグメンテーションを罰し、結果としてセグメンテーション性能が大幅に向上する。 ACDCとMSCMRsegの2つのオープンデータセットの結果、提案手法は性能を向上し、完全教師付き手法と同等あるいはそれ以上の精度を示した。 MSCMRsegのコードと専門家が作ったスクリブルアノテーションは、この記事が公開されたらリリースされる。

Curating a large set of fully annotated training data can be costly, especially for the tasks of medical image segmentation. Scribble, a weaker form of annotation, is more obtainable in practice, but training segmentation models from limited supervision of scribbles is still challenging. To address the difficulties, we propose a new framework for scribble learning-based medical image segmentation, which is composed of mix augmentation and cycle consistency and thus is referred to as CycleMix. For augmentation of supervision, CycleMix adopts the mixup strategy with a dedicated design of random occlusion, to perform increments and decrements of scribbles. For regularization of supervision, CycleMix intensifies the training objective with consistency losses to penalize inconsistent segmentation, which results in significant improvement of segmentation performance. Results on two open datasets, i.e., ACDC and MSCMRseg, showed that the proposed method achieved exhilarating performance, demonstrating comparable or even better accuracy than the fully-supervised methods. The code and expert-made scribble annotations for MSCMRseg will be released once this article is accepted for publication.
翻訳日:2022-03-05 09:32:11 公開日:2022-03-03
# (参考訳) エッジ推論のための軽量ニューラルネットワーク

Weightless Neural Networks for Efficient Edge Inference ( http://arxiv.org/abs/2203.01479v1 )

ライセンス: CC BY 4.0
Zachary Susskind, Aman Arora, Igor Dantas Dos Santos Miranda, Luis Armando Quintanilla Villon, Rafael Fontella Katopodis, Leandro Santiago de Araujo, Diego Leonel Cadette Dutra, Priscila Machado Vieira Lima, Felipe Maia Galvao Franca, Mauricio Breternitz Jr., and Lizy K. John(参考訳) ウェイトレスニューラルネットワーク(WNN)は、テーブルルックアップを使用して推論を行う機械学習モデルのクラスである。 これは、乗算累積演算を使用するディープニューラルネットワーク(DNN)とは対照的である。 最先端のWNNアーキテクチャは、DNNの実装コストのごく一部であるが、一般的な画像認識タスクの精度に遅れを取っている。 さらに、既存のWNNアーキテクチャの多くは高いメモリ要求に悩まされている。 本稿では,ブルームフィルタの数え上げ,ハードウェアフレンドリーなハッシュ処理,ガウス型非線形温度計エンコーディングなど,先行作業よりもアルゴリズム的かつアーキテクチャ上重要な改良を施した,新しいwnnアーキテクチャであるbthowenを提案する。 BTHOWeNは、同等の量子化されたDNNに優れたレイテンシとエネルギー効率を提供することで、大規模で成長するエッジコンピューティングセクターをターゲットにしている。 9つの分類データセットにわたる最先端のWNNと比較すると、BTHOWeNの平均誤差は40%以上、モデルサイズは50%以上減少する。 次に,fpgaベースの加速器を提示することにより,bthowenアーキテクチャの有効性を実証し,マルチレイヤー・パーセプトロン(mlp)や畳み込みモデルなど,同様の精度の高い量子化dnn加速器と比較した。 提案されたBTHOWeNモデルは、MLPモデルよりも約80%少ないエネルギーを消費し、遅延は85%削減された。 エッジ上で効率的なMLを求める中で、WNNは明らかに追加の注意を払っている。

Weightless Neural Networks (WNNs) are a class of machine learning model which use table lookups to perform inference. This is in contrast with Deep Neural Networks (DNNs), which use multiply-accumulate operations. State-of-the-art WNN architectures have a fraction of the implementation cost of DNNs, but still lag behind them on accuracy for common image recognition tasks. Additionally, many existing WNN architectures suffer from high memory requirements. In this paper, we propose a novel WNN architecture, BTHOWeN, with key algorithmic and architectural improvements over prior work, namely counting Bloom filters, hardware-friendly hashing, and Gaussian-based nonlinear thermometer encodings to improve model accuracy and reduce area and energy consumption. BTHOWeN targets the large and growing edge computing sector by providing superior latency and energy efficiency to comparable quantized DNNs. Compared to state-of-the-art WNNs across nine classification datasets, BTHOWeN on average reduces error by more than than 40% and model size by more than 50%. We then demonstrate the viability of the BTHOWeN architecture by presenting an FPGA-based accelerator, and compare its latency and resource usage against similarly accurate quantized DNN accelerators, including Multi-Layer Perceptron (MLP) and convolutional models. The proposed BTHOWeN models consume almost 80% less energy than the MLP models, with nearly 85% reduction in latency. In our quest for efficient ML on the edge, WNNs are clearly deserving of additional attention.
翻訳日:2022-03-05 09:03:16 公開日:2022-03-03
# (参考訳) コミュニティ構造を持つabcdランダムグラフモデルのモジュラリティ

Modularity of the ABCD Random Graph Model with Community Structure ( http://arxiv.org/abs/2203.01480v1 )

ライセンス: CC BY 4.0
Bogumil Kaminski, Bartosz Pankratz, Pawel Pralat, Francois Theberge(参考訳) コミュニティ検出のための人工ベンチマーク(abcd)グラフは、程度とコミュニティサイズの両方のコミュニティ構造とパワーロー分布を持つランダムグラフモデルである。 このモデルは、よく知られたLFRモデルと類似した性質を持つグラフを生成し、主要なパラメータ $\xi$ は LFRモデルで対応するパラメータ $\mu$ を模倣するように調整することができる。 本稿では,abcdモデルの様々な理論漸近特性について検討する。 特に,コミュニティ検出の文脈において,ネットワークの最も重要なグラフ特性であるモジュラリティ関数を分析した。 実際、モジュラリティ関数はネットワークにおけるコミュニティ構造の存在を測定するためにしばしば用いられる。 また、広く使われているルービンアルゴリズムを含む多くのコミュニティ検出アルゴリズムで品質関数として使われている。

The Artificial Benchmark for Community Detection (ABCD) graph is a random graph model with community structure and power-law distribution for both degrees and community sizes. The model generates graphs with similar properties as the well-known LFR one, and its main parameter $\xi$ can be tuned to mimic its counterpart in the LFR model, the mixing parameter $\mu$. In this paper, we investigate various theoretical asymptotic properties of the ABCD model. In particular, we analyze the modularity function, arguably, the most important graph property of networks in the context of community detection. Indeed, the modularity function is often used to measure the presence of community structure in networks. It is also used as a quality function in many community detection algorithms, including the widely used Louvain algorithm.
翻訳日:2022-03-05 08:42:07 公開日:2022-03-03
# (参考訳) MetaDT: 解釈可能なFew-Shot学習のためのメタ決定木

MetaDT: Meta Decision Tree for Interpretable Few-Shot Learning ( http://arxiv.org/abs/2203.01482v1 )

ライセンス: CC BY 4.0
Baoquan Zhang, Hao Jiang, Xutao Li, Shanshan Feng, Yunming Ye, Rui Ye(参考訳) FSL(Few-Shot Learning)は、新しいクラスをいくつかの例で認識することを目的とした課題である。 近年,FSL性能向上のためのメタ学習や表現学習の観点から,多くの手法が提案されている。 しかし、FSL決定プロセスの解釈可能性に焦点を当てた研究はほとんどない。 本稿では,新しい決定木ベースのメタ学習フレームワークであるmetadtを提案することで,解釈可能なfslへの一歩を踏み出す。 我々の洞察は、既存の表現学習手法の最後のブラックボックスFSL分類器をメタ学習で解釈可能な決定木に置き換えることである。 鍵となる課題は、FSL設定において決定木(すなわち、各ノードのツリー構造とパラメータ)を効果的に学習する方法である。 この課題に対処するため、木のようなクラス階層を先程紹介します。 1) 階層は,木構造として直接使用される。 2) クラス階層を無向グラフとして扱うことにより, グラフ畳み込みに基づく決定木推論ネットワークをメタ学習者として設計し, 各ノードのパラメータを推定する。 最後に、2ループ最適化機構をフレームワークに組み込んで、わずかな例で決定木を高速に適応させます。 性能比較および解釈可能性分析に関する大規模な実験は,MetaDTの有効性と優位性を示している。 私たちのコードは受け入れ次第公開されます。

Few-Shot Learning (FSL) is a challenging task, which aims to recognize novel classes with few examples. Recently, lots of methods have been proposed from the perspective of meta-learning and representation learning for improving FSL performance. However, few works focus on the interpretability of FSL decision process. In this paper, we take a step towards the interpretable FSL by proposing a novel decision tree-based meta-learning framework, namely, MetaDT. Our insight is replacing the last black-box FSL classifier of the existing representation learning methods by an interpretable decision tree with meta-learning. The key challenge is how to effectively learn the decision tree (i.e., the tree structure and the parameters of each node) in the FSL setting. To address the challenge, we introduce a tree-like class hierarchy as our prior: 1) the hierarchy is directly employed as the tree structure; 2) by regarding the class hierarchy as an undirected graph, a graph convolution-based decision tree inference network is designed as our meta-learner to learn to infer the parameters of each node. At last, a two-loop optimization mechanism is incorporated into our framework for a fast adaptation of the decision tree with few examples. Extensive experiments on performance comparison and interpretability analysis show the effectiveness and superiority of our MetaDT. Our code will be publicly available upon acceptance.
翻訳日:2022-03-05 08:41:08 公開日:2022-03-03
# (参考訳) 両世界のベスト - 対数的後悔と方針転換による強化学習

The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret and Policy Switches ( http://arxiv.org/abs/2203.01491v1 )

ライセンス: CC BY 4.0
Grigoris Velegkas, Zhuoran Yang, Amin Karbasi(参考訳) 本稿では,モデルフリー設定とモデルベース設定の両方において,エピソディック強化学習(rl)における後悔の最小化の問題について検討する。 我々は、一般関数クラスと一般モデルクラスで学習することに集中し、これらのクラスのeluder次元でスケールする結果を導出する。 インスタンス非依存の遺言保証を主に確立している既存の作業体とは対照的に、インスタンス依存の設定に焦点を合わせ、遺言が各状態のベストアクションと2番目のベストアクションの間にギャップがあることを仮定して、水平線T$と対数的にスケールすることを示します。 さらに、そのような対数的後悔境界は、$O(\log T)$スイッチングコスト(適応複雑性とも呼ばれる)のアルゴリズムによって実現可能であることを示す。 言い換えれば、これらのアルゴリズムは実行中にポリシーを変更することは滅多にない。 最後に、結果を低い境界で補うことで、表の設定であっても、$o(\log T)$より低い後悔の保証を期待できないことを示す。

In this paper, we study the problem of regret minimization for episodic Reinforcement Learning (RL) both in the model-free and the model-based setting. We focus on learning with general function classes and general model classes, and we derive results that scale with the eluder dimension of these classes. In contrast to the existing body of work that mainly establishes instance-independent regret guarantees, we focus on the instance-dependent setting and show that the regret scales logarithmically with the horizon $T$, provided that there is a gap between the best and the second best action in every state. In addition, we show that such a logarithmic regret bound is realizable by algorithms with $O(\log T)$ switching cost (also known as adaptivity complexity). In other words, these algorithms rarely switch their policy during the course of their execution. Finally, we complement our results with lower bounds which show that even in the tabular setting, we cannot hope for regret guarantees lower than $o(\log T)$.
翻訳日:2022-03-05 08:08:51 公開日:2022-03-03
# (参考訳) NeW CRF:単眼深度推定のためのニューラルウィンドウ完全連結CRF

NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation ( http://arxiv.org/abs/2203.01502v1 )

ライセンス: CC BY 4.0
Weihao Yuan, Xiaodong Gu, Zuozhuo Dai, Siyu Zhu, Ping Tan(参考訳) 単一の画像から正確な深度を推定することは、本質的に曖昧で不適切であるため難しい。 近年,深度マップを直接回帰するネットワークの設計がますます複雑化しており,CRF最適化の道をたどっている。 高価な計算のため、CRFは通常グラフ全体ではなく地区間で実行される。 完全接続型CRFの可能性を生かし、入力をウィンドウに分割し、各ウィンドウ内でFC-CRF最適化を行い、計算複雑性を低減し、FC-CRFの実現を可能にする。 グラフ内のノード間の関係をよりよく把握するために、マルチヘッドアテンション機構を利用して、ネットワークに供給されたマルチヘッドポテンシャル関数を計算し、最適化された深度マップを出力する。 次にボトムアップトップダウン構造を構築し,このニューラルウインドウfc-crfsモジュールがデコーダとして,視覚トランスフォーマがエンコーダとして機能する。 実験により,提案手法は従来の手法と比較して,KITTIおよびNYUv2データセットのすべての指標における性能を著しく向上することが示された。 さらに,提案手法はパノラマ画像に直接適用でき,matterport3dデータセット上の従来のパノラマ手法を上回ることができる。 私たちのメソッドのソースコードを公開します。

Estimating the accurate depth from a single image is challenging since it is inherently ambiguous and ill-posed. While recent works design increasingly complicated and powerful networks to directly regress the depth map, we take the path of CRFs optimization. Due to the expensive computation, CRFs are usually performed between neighborhoods rather than the whole graph. To leverage the potential of fully-connected CRFs, we split the input into windows and perform the FC-CRFs optimization within each window, which reduces the computation complexity and makes FC-CRFs feasible. To better capture the relationships between nodes in the graph, we exploit the multi-head attention mechanism to compute a multi-head potential function, which is fed to the networks to output an optimized depth map. Then we build a bottom-up-top-down structure, where this neural window FC-CRFs module serves as the decoder, and a vision transformer serves as the encoder. The experiments demonstrate that our method significantly improves the performance across all metrics on both the KITTI and NYUv2 datasets, compared to previous methods. Furthermore, the proposed method can be directly applied to panorama images and outperforms all previous panorama methods on the MatterPort3D dataset. The source code of our method will be made public.
翻訳日:2022-03-05 07:22:41 公開日:2022-03-03
# (参考訳) 偽陽性率域における部分AUCの大規模最適化

Large-scale Optimization of Partial AUC in a Range of False Positive Rates ( http://arxiv.org/abs/2203.01505v1 )

ライセンス: CC BY 4.0
Yao Yao, Qihang Lin, Tianbao Yang(参考訳) ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。 しかしながら、これはROC空間における全ての偽陽性率(FPR)に対する真の正の率(TPR)を要約している。 部分的なAUCは、AUCの一般化として、特定の範囲のFPRに対してのみTPRを要約し、多くの実世界の状況においてより適切なパフォーマンス尺度である。 FPRにおける部分的なAUC最適化は研究されてきたが、既存のアルゴリズムはビッグデータには拡張性がなく、ディープラーニングにも適用できない。 この課題に対処するために,我々はこの問題を任意の滑らかな予測関数(例えばディープニューラルネットワーク)に対して非スムース差オブ凸(dc)プログラムにキャストし,非スムースdc最適化の最近の進歩に触発されたモロー包絡平滑化法に基づく効率的な近似勾配降下法の開発を可能にした。 大規模データ処理の効率を向上させるため,本アルゴリズムでは効率的な確率的ブロック座標更新を行った。 提案アルゴリズムは,効率のよい解法を欠くランク付き範囲損失の和を最小化するためにも利用できる。 我々は約$\epsilon$臨界解を見つけるために$\tilde o(1/\epsilon^6)$という複雑さを確立した。 最後に,提案アルゴリズムによる部分的auc最大化とランク付けされた範囲損失最小化の和の有効性を数値的に証明した。

The area under the ROC curve (AUC) is one of the most widely used performance measures for classification models in machine learning. However, it summarizes the true positive rates (TPRs) over all false positive rates (FPRs) in the ROC space, which may include the FPRs with no practical relevance in some applications. The partial AUC, as a generalization of the AUC, summarizes only the TPRs over a specific range of the FPRs and is thus a more suitable performance measure in many real-world situations. Although partial AUC optimization in a range of FPRs had been studied, existing algorithms are not scalable to big data and not applicable to deep learning. To address this challenge, we cast the problem into a non-smooth difference-of-convex (DC) program for any smooth predictive functions (e.g., deep neural networks), which allowed us to develop an efficient approximated gradient descent method based on the Moreau envelope smoothing technique, inspired by recent advances in non-smooth DC optimization. To increase the efficiency of large data processing, we used an efficient stochastic block coordinate update in our algorithm. Our proposed algorithm can also be used to minimize the sum of ranked range loss, which also lacks efficient solvers. We established a complexity of $\tilde O(1/\epsilon^6)$ for finding a nearly $\epsilon$-critical solution. Finally, we numerically demonstrated the effectiveness of our proposed algorithms for both partial AUC maximization and sum of ranked range loss minimization.
翻訳日:2022-03-05 06:59:33 公開日:2022-03-03
# (参考訳) 画像間翻訳作業におけるコントラスト学習のためのパッチワイズ意味関係の探索

Exploring Patch-wise Semantic Relation for Contrastive Learning in Image-to-Image Translation Tasks ( http://arxiv.org/abs/2203.01532v1 )

ライセンス: CC BY 4.0
Chanyong Jung, Gihyun Kwon, Jong Chul Ye(参考訳) 近年,空間対応性を高めるために,異なる空間位置を対比する,コントラスト学習に基づく画像翻訳手法が提案されている。 しかし、これらの手法はしばしば画像内の様々な意味関係を無視している。 そこで本研究では,画像のイメージパッチ間の不均一なセマンティクスに焦点をあて,多種多様なセマンティクスを利用する,分離されたコントラスト学習とともに,新しいセマンティクス関係整合性(SRC)正則化を提案する。 性能をさらに向上するため,意味的関係を利用して負のマイニングを行う。 我々は,画像翻訳における単一モーダルと多モーダルの3つのタスク,およびGAN圧縮タスクについて検証した。 実験の結果,3つのタスクすべてにおいて,本手法の最先端性能が確認された。

Recently, contrastive learning-based image translation methods have been proposed, which contrasts different spatial locations to enhance the spatial correspondence. However, the methods often ignore the diverse semantic relation within the images. To address this, here we propose a novel semantic relation consistency (SRC) regularization along with the decoupled contrastive learning, which utilize the diverse semantics by focusing on the heterogeneous semantics between the image patches of a single image. To further improve the performance, we present a hard negative mining by exploiting the semantic relation. We verified our method for three tasks: single-modal and multi-modal image translations, and GAN compression task for image translation. Experimental results confirmed the state-of-art performance of our method in all the three tasks.
翻訳日:2022-03-05 06:58:13 公開日:2022-03-03
# (参考訳) 視覚トランスフォーマの最近の進歩:最近の研究動向と展望

Recent Advances in Vision Transformer: A Survey and Outlook of Recent Work ( http://arxiv.org/abs/2203.01536v1 )

ライセンス: CC BY 4.0
Khawar Islam(参考訳) ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、様々なビジョンタスクにおいてより人気があり、支配的な技術になりつつある。 コンピュータビジョンにおける要求技術として、ViTは長距離関係に着目しながら様々な視覚問題を解くことに成功した。 本稿では,自己注意機構の基本概念と背景を紹介することから始める。 次に、その強度と弱さ、計算コスト、およびトレーニングおよびテストデータセットの観点から説明した最近のトップパフォーマンスのViT手法の概要を紹介する。 一般的なベンチマークデータセット上で,様々なViTアルゴリズムと代表的CNN手法の性能を徹底的に比較する。 最後に、洞察に富んだ観測でいくつかの限界を探求し、さらなる研究の方向性を提供する。 プロジェクトページと論文のコレクションはhttps://github.com/khawar512/vit-surveyで入手できる。

Vision Transformers (ViTs) are becoming more popular and dominating technique for various vision tasks, compare to Convolutional Neural Networks (CNNs). As a demanding technique in computer vision, ViTs have been successfully solved various vision problems while focusing on long-range relationships. In this paper, we begin by introducing the fundamental concepts and background of the self-attention mechanism. Next, we provide a comprehensive overview of recent top-performing ViT methods describing in terms of strength and weakness, computational cost as well as training and testing dataset. We thoroughly compare the performance of various ViT algorithms and most representative CNN methods on popular benchmark datasets. Finally, we explore some limitations with insightful observations and provide further research direction. The project page along with the collections of papers are available at https://github.com/khawar512/ViT-Survey
翻訳日:2022-03-05 06:45:38 公開日:2022-03-03
# (参考訳) スパイクニューラルネットワークにおける正規化と残留ブロックの役割再考

Rethinking the role of normalization and residual blocks for spiking neural networks ( http://arxiv.org/abs/2203.01544v1 )

ライセンス: CC BY 4.0
Shin-ichi Ikegawa, Ryuji Saiin, Yoshihide Sawada, Naotake Natori(参考訳) 生物学的にインスパイアされたスパイクニューラルネットワーク(SNN)は、超低消費電力エネルギー消費を実現するために広く利用されている。 しかし、深いSNNは、隠れた層にスパイクニューロンが過剰に発射されるため、訓練が容易ではない。 この問題に対処するために,後シナプス電位正規化という,新しい単純な正規化手法を提案する。 この正規化は標準正規化から減算項を取り除き、分散の代わりに第2の生モーメントを除算項として用いる。 この単純な正規化を後シナプス電位に行うことにより、スパイク発射を制御でき、訓練を順応することができる。 実験の結果,SNNの正規化は,他の正規化モデルよりも優れていた。 さらに, 予備活性化残差ブロックを通し, 提案モデルは100層以上でsns専用の特別な手法を使わずにトレーニングできる。

Biologically inspired spiking neural networks (SNNs) are widely used to realize ultralow-power energy consumption. However, deep SNNs are not easy to train due to the excessive firing of spiking neurons in the hidden layers. To tackle this problem, we propose a novel but simple normalization technique called postsynaptic potential normalization. This normalization removes the subtraction term from the standard normalization and uses the second raw moment instead of the variance as the division term. The spike firing can be controlled, enabling the training to proceed appropriating, by conducting this simple normalization to the postsynaptic potential. The experimental results show that SNNs with our normalization outperformed other models using other normalizations. Furthermore, through the pre-activation residual blocks, the proposed model can train with more than 100 layers without other special techniques dedicated to SNNs.
翻訳日:2022-03-05 06:35:25 公開日:2022-03-03
# (参考訳) 多クラス学習能力のキャラクタリゼーション

A Characterization of Multiclass Learnability ( http://arxiv.org/abs/2203.01550v1 )

ライセンス: CC BY 4.0
Nataly Brukhim, Daniel Carmon, Irit Dinur, Shay Moran and Amir Yehudayoff(参考訳) 学習理論におけるセミナルな結果は、Vapnik-Chervonenkis次元を通してバイナリクラスのPAC学習可能性を特徴づける。 この特徴を一般的なマルチクラス設定に拡張することは、1980年代後半のマルチクラスpac学習の先駆的研究から始まった。 DS次元(Daniely and Shalev-Shwartz (2014) によって定義される組合せ次元)を通して多クラスPAC学習可能性を特徴づける。 二項の場合の古典的特徴は、経験的リスク最小化に沸騰する。 対照的に、我々のマルチクラスケースの特徴付けには、様々なアルゴリズム的アイデアが含まれています。 リスト学習設定では、与えられた未知の入力に対して単一の結果を予測する代わりに、予測の短いメニューを提供することが目標である。 第2の主な成果は,多クラス学習可能性の特徴付けの中心的候補であるナタラジャン次元に関するものです。 この次元はNatarajan (1988)によってPAC学習の障壁として導入された。 ナタラジャン次元が一般のPAC学習可能性を特徴づけるかどうかについては、いくつかの論文でオープンな疑問として提起されている。 この研究は否定的な答えを与える: ナタラジャン次元 1 の非学習可能なクラスを構築する。 構成に関して、概念クラスとトポロジー(つまり、カラフルな単体複体)の基本的な関係を同定する。 我々はJanuszkiewicz と Swiatkowski による双曲的擬多様体の深くて関連する構成に決定的に依存する。 双曲性は、明らかな障壁がないにもかかわらず解決が難しい学習問題に直接関係していることは興味深い。 これは、機械学習が数学の様々な分野に持つ実りあるリンクのもうひとつの実演である。

A seminal result in learning theory characterizes the PAC learnability of binary classes through the Vapnik-Chervonenkis dimension. Extending this characterization to the general multiclass setting has been open since the pioneering works on multiclass PAC learning in the late 1980s. This work resolves this problem: we characterize multiclass PAC learnability through the DS dimension, a combinatorial dimension defined by Daniely and Shalev-Shwartz (2014). The classical characterization of the binary case boils down to empirical risk minimization. In contrast, our characterization of the multiclass case involves a variety of algorithmic ideas; these include a natural setting we call list PAC learning. In the list learning setting, instead of predicting a single outcome for a given unseen input, the goal is to provide a short menu of predictions. Our second main result concerns the Natarajan dimension, which has been a central candidate for characterizing multiclass learnability. This dimension was introduced by Natarajan (1988) as a barrier for PAC learning. Whether the Natarajan dimension characterizes PAC learnability in general has been posed as an open question in several papers since. This work provides a negative answer: we construct a non-learnable class with Natarajan dimension one. For the construction, we identify a fundamental connection between concept classes and topology (i.e., colorful simplicial complexes). We crucially rely on a deep and involved construction of hyperbolic pseudo-manifolds by Januszkiewicz and Swiatkowski. It is interesting that hyperbolicity is directly related to learning problems that are difficult to solve although no obvious barriers exist. This is another demonstration of the fruitful links machine learning has with different areas in mathematics.
翻訳日:2022-03-05 06:24:07 公開日:2022-03-03
# (参考訳) DareFightingICEコンペティション:ファイティングゲームサウンドデザインとAIコンペティション

DareFightingICE Competition: A Fighting Game Sound Design and AI Competition ( http://arxiv.org/abs/2203.01556v1 )

ライセンス: CC BY 4.0
Ibrahim Khan, Thai Van Nguyen, Xincheng Dai, and Ruck Thawonmas(参考訳) 本稿では、2022年のIEEE Conference on Games (CoG)で、DareFightingICE Competitionと呼ばれる新しいコンペティションを提示します。 競技にはサウンドデザイントラックとAIトラックの2つのトラックがある。 この競技用のゲームプラットフォームは、戦闘ゲームプラットフォームであるdarefightingiceとも呼ばれる。 DareFightingICEは、2021年までのCoGのコンペで、対戦ゲームにおける人工知能(AI)の研究を促進するために使用された音響設計のFightingICEである。 サウンドデザイントラックでは、サンプルとしてデフォールトなdarefightingiceのサウンドデザインを考えると、参加者は最高のサウンドデザインを競います。 AIトラックの参加者は、相手と戦うための入力(盲目のAI)として音のみを与えられたキャラクタを制御するAIアルゴリズムの開発を依頼される。 両線路間の相乗効果を最大化する手段についても述べる。 このコンペティションは、視覚障害者のための効果的なサウンドデザインを考案するのに役立つ。 私たちの知る限りでは、DareFightingICEコンペティションはCoGの内外における初めてのコンペティションです。

This paper presents a new competition -- at the 2022 IEEE Conference on Games (CoG) -- called DareFightingICE Competition. The competition has two tracks: a sound design track and an AI track. The game platform for this competition is also called DareFightingICE, a fighting game platform. DareFightingICE is a sound-design-enhanced version of FightingICE, used earlier in a competition at CoG until 2021 to promote artificial intelligence (AI) research in fighting games. In the sound design track, participants compete for the best sound design, given the default sound design of DareFightingICE as a sample. Participants of the AI track are asked to develop their AI algorithm that controls a character given only sound as the input (blind AI) to fight against their opponent; a sample deep-learning blind AI will be provided by us. Our means to maximize the synergy between the two tracks are also described. This competition serves to come up with effective sound designs for visually impaired players, a group in the gaming community which has been mostly ignored. To the best of our knowledge, DareFightingICE Competition is the first of its kind within and outside of CoG.
翻訳日:2022-03-05 06:22:56 公開日:2022-03-03
# (参考訳) ViTransPAD:顔提示検出のための畳み込みと自己注意を用いたビデオ変換器

ViTransPAD: Video Transformer using convolution and self-attention for Face Presentation Attack Detection ( http://arxiv.org/abs/2203.01562v1 )

ライセンス: CC BY 4.0
Zuheng Ming, Zitong Yu, Musab Al-Ghadi, Muriel Visani, Muhammad MuzzamilLuqman, Jean-Christophe Burie(参考訳) 顔の提示攻撃検出(PAD)は,顔の生体認証システムに対するスプーフ攻撃を防ぐ重要な手段である。 PADに対する畳み込みニューラルネットワーク(CNN)に基づく多くの研究は、文脈を考慮せずに画像レベルのバイナリ分類タスクとして問題を定式化する。 あるいは、視覚変換器(ViT)が自己アテンションを用いて画像のコンテキストに到達し、PADのメインストリームとなる。 vitに触発されて,フレーム内の局所的なディテールに注目するだけでなく,フレーム上の長距離の依存関係を捉えることのできる,短距離・長距離の時空間的注意を持つ顔パッド(vitranspad)用ビデオトランスフォーマーを提案する。 マルチスケール・マルチヘッド・セルフアタテンション(MsMHSA)アーキテクチャを用いて,Q,K,Vのマルチスケール・パッチパーティションを粗大な方法でトランスフォーマーの頭部にマップすることで,顔PADの画素レベルの識別を行うための微細な表現を学習することができる。 純粋変圧器における畳み込みの帰納バイアスが欠如しているため,提案したViTransPADに畳み込みを導入し,畳み込みパッチ埋め込みと畳み込みプロジェクションを用いてCNNの望ましい特性を統合する。 提案したViTransPADは,顔PADの新たなバックボーンとして機能し,精度・計算バランスが良好であることを示す。

Face Presentation Attack Detection (PAD) is an important measure to prevent spoof attacks for face biometric systems. Many works based on Convolution Neural Networks (CNNs) for face PAD formulate the problem as an image-level binary classification task without considering the context. Alternatively, Vision Transformers (ViT) using self-attention to attend the context of an image become the mainstreams in face PAD. Inspired by ViT, we propose a Video-based Transformer for face PAD (ViTransPAD) with short/long-range spatio-temporal attention which can not only focus on local details with short attention within a frame but also capture long-range dependencies over frames. Instead of using coarse image patches with single-scale as in ViT, we propose the Multi-scale Multi-Head Self-Attention (MsMHSA) architecture to accommodate multi-scale patch partitions of Q, K, V feature maps to the heads of transformer in a coarse-to-fine manner, which enables to learn a fine-grained representation to perform pixel-level discrimination for face PAD. Due to lack inductive biases of convolutions in pure transformers, we also introduce convolutions to the proposed ViTransPAD to integrate the desirable properties of CNNs by using convolution patch embedding and convolution projection. The extensive experiments show the effectiveness of our proposed ViTransPAD with a preferable accuracy-computation balance, which can serve as a new backbone for face PAD.
翻訳日:2022-03-05 06:07:46 公開日:2022-03-03
# (参考訳) node と homophily を越えたグラフ表現学習

Graph Representation Learning Beyond Node and Homophily ( http://arxiv.org/abs/2203.01564v1 )

ライセンス: CC BY 4.0
You Li, Bei Lin, Binli Luo, Ning Gui(参考訳) 教師なしグラフ表現学習は、様々なグラフ情報を下流のタスクに依存しない高密度ベクトル埋め込みに蒸留することを目的としている。 しかし、既存のグラフ表現学習アプローチは、主にノードホモフィリーの仮定に基づいて設計されている: 連結ノードは、同様のラベルを持ち、ノード中心の下流タスクのパフォーマンスを最適化する傾向がある。 彼らの設計は明らかにタスク非依存の原則に反しており、一般にノードビューやホモフィリー仮定を超えて特徴信号を要求するエッジ分類のようなタスクのパフォーマンスの低下に苦しむ。 本稿では,2つのノードを組込みの基本単位として使用し,ノード間の高周波信号を保持し,ノード関連タスクとエッジ関連タスクをサポートする新しい非教師付きグラフ埋め込み手法であるPairEを提案する。 したがって、マルチセルフ教師付きオートエンコーダは、2つのプリテキストタスクを満たすように設計されている: 1つは高周波信号をより良く保持し、もう1つは共通性の表現を強化する。 ベンチマークデータセットの多様性に関する広範な実験は、ペアの高頻度信号と低周波数信号の両方に依存するエッジ分類タスクに対して最大101.1\%、ノード分類タスクで最大82.5\%のパフォーマンス向上によって、ペアが教師なしの最先端ベースラインよりも優れていることを明確に示しています。

Unsupervised graph representation learning aims to distill various graph information into a downstream task-agnostic dense vector embedding. However, existing graph representation learning approaches are designed mainly under the node homophily assumption: connected nodes tend to have similar labels and optimize performance on node-centric downstream tasks. Their design is apparently against the task-agnostic principle and generally suffers poor performance in tasks, e.g., edge classification, that demands feature signals beyond the node-view and homophily assumption. To condense different feature signals into the embeddings, this paper proposes PairE, a novel unsupervised graph embedding method using two paired nodes as the basic unit of embedding to retain the high-frequency signals between nodes to support node-related and edge-related tasks. Accordingly, a multi-self-supervised autoencoder is designed to fulfill two pretext tasks: one retains the high-frequency signal better, and another enhances the representation of commonality. Our extensive experiments on a diversity of benchmark datasets clearly show that PairE outperforms the unsupervised state-of-the-art baselines, with up to 101.1\% relative improvement on the edge classification tasks that rely on both the high and low-frequency signals in the pair and up to 82.5\% relative performance gain on the node classification tasks.
翻訳日:2022-03-05 05:56:59 公開日:2022-03-03
# (参考訳) 光深度推定のための閉塞型コストコンストラクタ

Occlusion-Aware Cost Constructor for Light Field Depth Estimation ( http://arxiv.org/abs/2203.01576v1 )

ライセンス: CC BY 4.0
Yingqian Wang, Longguang Wang, Zhengyu Liang, Jungang Yang, Wei An, Yulan Guo(参考訳) マッチングコスト構築は光場深度推定における重要なステップであるが,ディープラーニング時代にはほとんど研究されなかった。 近年の深層学習に基づくLF深度推定手法は,各サブアパーチャ画像(SAI)を,複雑で時間を要する一連のオフセットに順次シフトすることで,マッチングコストを構築する。 本稿では,LF深度推定のための整合コストを構築するための簡易かつ高速なコンストラクタを提案する。 我々のコストコンストラクタは、特別に設計された拡張率を持つ一連の畳み込みによって構成される。 SAIアレイにコストコンストラクタを適用することにより、予め定義された差分の下でピクセルを統合することができ、シフト操作を使わずにマッチングコストを構築することができる。 さらに、提案するコストコンストラクタは、オクルージョン対応であり、異なるビューから画素を動的に変調することで、オクルージョンを処理できる。 提案するコストコンストラクタに基づいて,LF深度推定のためのディープネットワークを開発する。 我々のネットワークは、平均二乗誤差(MSE)の観点からよく使われる4D LFベンチマークで第1位であり、他の最先端手法よりも高速な実行時間を達成する。

Matching cost construction is a key step in light field (LF) depth estimation, but was rarely studied in the deep learning era. Recent deep learning-based LF depth estimation methods construct matching cost by sequentially shifting each sub-aperture image (SAI) with a series of predefined offsets, which is complex and time-consuming. In this paper, we propose a simple and fast cost constructor to construct matching cost for LF depth estimation. Our cost constructor is composed by a series of convolutions with specifically designed dilation rates. By applying our cost constructor to SAI arrays, pixels under predefined disparities can be integrated and matching cost can be constructed without using any shifting operation. More importantly, the proposed cost constructor is occlusion-aware and can handle occlusions by dynamically modulating pixels from different views. Based on the proposed cost constructor, we develop a deep network for LF depth estimation. Our network ranks first on the commonly used 4D LF benchmark in terms of the mean square error (MSE), and achieves a faster running time than other state-of-the-art methods.
翻訳日:2022-03-05 05:32:10 公開日:2022-03-03
# (参考訳) GRUに基づくアテンション機構を用いた画像キャプション生成のためのディープニューラルネットワークフレームワーク

A Deep Neural Framework for Image Caption Generation Using GRU-Based Attention Mechanism ( http://arxiv.org/abs/2203.01594v1 )

ライセンス: CC0 1.0
Rashid Khan, M Shujah Islam, Khadija Kanwal, Mansoor Iqbal, Md. Imran Hossain, and Zhongfu Ye(参考訳) 画像キャプションは、画像のテキスト説明を作成することを含むコンピュータビジョンと自然言語処理の急速な研究分野である。 本研究では,事前学習した畳み込みニューラルネットワーク(CNN)を用いて画像から特徴を抽出し,特徴を注意機構と統合し,繰り返しニューラルネットワーク(RNN)を用いてキャプションを生成するシステムを開発することを目的とする。 画像から特徴ベクトルをグラフィカルな属性としてエンコードするために,複数の事前学習された畳み込みニューラルネットワークを用いた。 その後、GRUとして知られる言語モデルが記述文を構成するデコーダとして選択される。 パフォーマンス向上のために,BahdanauのアテンションモデルとGRUを組み合わせることで,画像の特定の部分に学習を集中させることができる。 MSCOCOデータセットでは、実験結果は最先端のアプローチと競合する性能を達成する。

Image captioning is a fast-growing research field of computer vision and natural language processing that involves creating text explanations for images. This study aims to develop a system that uses a pre-trained convolutional neural network (CNN) to extract features from an image, integrates the features with an attention mechanism, and creates captions using a recurrent neural network (RNN). To encode an image into a feature vector as graphical attributes, we employed multiple pre-trained convolutional neural networks. Following that, a language model known as GRU is chosen as the decoder to construct the descriptive sentence. In order to increase performance, we merge the Bahdanau attention model with GRU to allow learning to be focused on a specific portion of the image. On the MSCOCO dataset, the experimental results achieve competitive performance against state-of-the-art approaches.
翻訳日:2022-03-05 05:15:56 公開日:2022-03-03
# (参考訳) 事前学習型グラフニューラルネットワークのためのニューラルグラフマッチング

Neural Graph Matching for Pre-training Graph Neural Networks ( http://arxiv.org/abs/2203.01597v1 )

ライセンス: CC BY 4.0
Yupeng Hou, Binbin Hu, Wayne Xin Zhao, Zhiqiang Zhang, Jun Zhou, Ji-Rong Wen(参考訳) 近年,グラフニューラルネットワーク (gnns) は構造データのモデリング能力が向上している。 しかし、下流タスクに適応する場合、通常は豊富なタスク固有のラベル付きデータを必要とする。 データ不足に対する有望な解決策は、大量のラベルのないグラフや粗いラベル付きグラフ上で、転送可能で表現可能なGNNモデルを事前訓練することである。 次に、事前訓練されたGNNは、タスク固有のきめ細かいラベルを持つ下流データセットに微調整される。 本稿では、GMPTと呼ばれるグラフマッチングに基づくGNN事前学習フレームワークを提案する。 1対のグラフに着目し,グラフ内メッセージパッシングとグラフ間メッセージパッシングの両方からなる,ニューラルネットワークによる構造的対応を学習する。 このように、異なるグラフとペアリングすると、与えられたグラフの適応表現を学習でき、ノードレベルとグラフレベルの特性は、自然に一つの事前学習タスクで考慮される。 提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。 さらに,時間/メモリ消費を大幅に削減するための近似的なコントラストトレーニング戦略を提案する。 マルチドメイン・アウト・オブ・ディストリビューション・ベンチマークに関する広範な実験により,本手法の有効性が実証された。 コードは、https://github.com/RUCAIBox/GMPTで入手できる。

Recently, graph neural networks (GNNs) have been shown powerful capacity at modeling structural data. However, when adapted to downstream tasks, it usually requires abundant task-specific labeled data, which can be extremely scarce in practice. A promising solution to data scarcity is to pre-train a transferable and expressive GNN model on large amounts of unlabeled graphs or coarse-grained labeled graphs. Then the pre-trained GNN is fine-tuned on downstream datasets with task-specific fine-grained labels. In this paper, we present a novel Graph Matching based GNN Pre-Training framework, called GMPT. Focusing on a pair of graphs, we propose to learn structural correspondences between them via neural graph matching, consisting of both intra-graph message passing and inter-graph message passing. In this way, we can learn adaptive representations for a given graph when paired with different graphs, and both node- and graph-level characteristics are naturally considered in a single pre-training task. The proposed method can be applied to fully self-supervised pre-training and coarse-grained supervised pre-training. We further propose an approximate contrastive training strategy to significantly reduce time/memory consumption. Extensive experiments on multi-domain, out-of-distribution benchmarks have demonstrated the effectiveness of our approach. The code is available at: https://github.com/RUCAIBox/GMPT.
翻訳日:2022-03-05 05:06:18 公開日:2022-03-03
# (参考訳) AdaFamily:Adamライクな適応勾配法の一家系

AdaFamily: A family of Adam-like adaptive gradient methods ( http://arxiv.org/abs/2203.01603v1 )

ライセンス: CC BY 4.0
Hannes Fassold(参考訳) 本稿では,深層ニューラルネットワークの新たな学習法であるadafamilyを提案する。 適応勾配法の一種であり、adam、adabelief、adamomentumといった最適化アルゴリズムをブレンドしたものと解釈することができる。 画像分類のための標準データセットの実験を行い、提案手法がこれらのアルゴリズムより優れていることを示す。

We propose AdaFamily, a novel method for training deep neural networks. It is a family of adaptive gradient methods and can be interpreted as sort of a blend of the optimization algorithms Adam, AdaBelief and AdaMomentum. We perform experiments on standard datasets for image classification, demonstrating that our proposed method outperforms these algorithms.
翻訳日:2022-03-05 04:52:36 公開日:2022-03-03
# (参考訳) 整数プログラミングを用いたロバスト支援ベクトルマシンのアンサンブル法

Ensemble Methods for Robust Support Vector Machines using Integer Programming ( http://arxiv.org/abs/2203.01606v1 )

ライセンス: CC BY 4.0
Jannis Kurtz(参考訳) 本研究では,トレーニングデータが不確実性,すなわち正確なデータポイントが分かっていないことを仮定して,二分分類問題を研究する。 この問題に取り組むため、ロバストな機械学習の分野では、トレーニングデータの小さな摂動に対して堅牢なモデルを開発することが目標だ。 ロバストサポートベクターマシン(svm)を研究し、データセットの異なる摂動上の非ロバストsvmを反復的に解くアンサンブル法により古典的アプローチを拡張する。 その後、未知のデータポイントの分類を行い、計算されたすべてのSVMソリューションの多数決を行う。 逆問題に対する3つの異なる変種、正確な問題、緩和された変種、効率的なヒューリスティック変種について検討する。 正確かつ緩和された変種は整数プログラミングの定式化を用いてモデル化できるが、ヒューリスティックな変種は簡単かつ効率的なアルゴリズムで実装できる。 すべての導出方法はランダムで現実的なデータセット上でテストされ、従来のロバストなsvmモデルに比べて保護レベルを変更する場合、導出されたアンサンブル法ははるかに安定した振る舞いを持つことが示された。

In this work we study binary classification problems where we assume that our training data is subject to uncertainty, i.e. the precise data points are not known. To tackle this issue in the field of robust machine learning the aim is to develop models which are robust against small perturbations in the training data. We study robust support vector machines (SVM) and extend the classical approach by an ensemble method which iteratively solves a non-robust SVM on different perturbations of the dataset, where the perturbations are derived by an adversarial problem. Afterwards for classification of an unknown data point we perform a majority vote of all calculated SVM solutions. We study three different variants for the adversarial problem, the exact problem, a relaxed variant and an efficient heuristic variant. While the exact and the relaxed variant can be modeled using integer programming formulations, the heuristic one can be implemented by an easy and efficient algorithm. All derived methods are tested on random and realistic datasets and the results indicate that the derived ensemble methods have a much more stable behaviour when changing the protection level compared to the classical robust SVM model.
翻訳日:2022-03-05 04:45:28 公開日:2022-03-03
# (参考訳) ナノパブリケーションに基づくセマンティックパブリッシングとレビュー:ホルマライゼーション論文を用いたフィールドスタディ

Nanopublication-Based Semantic Publishing and Reviewing: A Field Study with Formalization Papers ( http://arxiv.org/abs/2203.01608v1 )

ライセンス: CC BY 4.0
Cristina-Iulia Bucur and Tobias Kuhn and Davide Ceolin and Jacco van Ossenbruggen(参考訳) With the rapidly increasing amount of scientific literature,it is getting continuously more difficult for researchers in different disciplines to be updated with the recent findings in their field of study.Processing scientific articles in an automated fashion has been proposed as a solution to this problem,but the accuracy of such processing remains very poor for extraction tasks beyond the basic ones.Few approaches have tried to change how we publish scientific results in the first place,by making articles machine-interpretable by expressing them with formal semantics from the start.In the work presented here,we set out to demonstrate that we can formally publish high-level scientific claims in formal logic,and publish the results in a special issue of an existing journal.We use the concept and technology of nanopublications for this endeavor,and represent not just the submissions and final papers in this RDF-based format,but also the whole process in between,including reviews,responses,and decisions.We do this by performing a field study with what we call formalization papers,which contribute a novel formalization of a previously published claim.We received 15 submissions from 18 authors,who then went through the whole publication process leading to the publication of their contributions in the special issue.Our evaluation shows the technical and practical feasibility of our approach.The participating authors mostly showed high levels of interest and confidence,and mostly experienced the process as not very difficult,despite the technical nature of the current user interfaces.We believe that these results indicate that it is possible to publish scientific results from different fields with machine-interpretable semantics from the start,which in turn opens countless possibilities to radically improve in the future the effectiveness and efficiency of the scientific endeavor as a whole.

With the rapidly increasing amount of scientific literature,it is getting continuously more difficult for researchers in different disciplines to be updated with the recent findings in their field of study.Processing scientific articles in an automated fashion has been proposed as a solution to this problem,but the accuracy of such processing remains very poor for extraction tasks beyond the basic ones.Few approaches have tried to change how we publish scientific results in the first place,by making articles machine-interpretable by expressing them with formal semantics from the start.In the work presented here,we set out to demonstrate that we can formally publish high-level scientific claims in formal logic,and publish the results in a special issue of an existing journal.We use the concept and technology of nanopublications for this endeavor,and represent not just the submissions and final papers in this RDF-based format,but also the whole process in between,including reviews,responses,and decisions.We do this by performing a field study with what we call formalization papers,which contribute a novel formalization of a previously published claim.We received 15 submissions from 18 authors,who then went through the whole publication process leading to the publication of their contributions in the special issue.Our evaluation shows the technical and practical feasibility of our approach.The participating authors mostly showed high levels of interest and confidence,and mostly experienced the process as not very difficult,despite the technical nature of the current user interfaces.We believe that these results indicate that it is possible to publish scientific results from different fields with machine-interpretable semantics from the start,which in turn opens countless possibilities to radically improve in the future the effectiveness and efficiency of the scientific endeavor as a whole.
翻訳日:2022-03-05 04:19:46 公開日:2022-03-03
# (参考訳) 初期時系列分類アルゴリズム:経験的比較

Early Time-Series Classification Algorithms: An Empirical Comparison ( http://arxiv.org/abs/2203.01628v1 )

ライセンス: CC BY 4.0
Charilaos Akasiadis and Evgenios Kladis and Evangelos Michelioudakis and Elias Alevizos and Alexander Artikis(参考訳) 早期時系列分類(Early Time-Series Classification, ETSC)は、できるだけ少ない測定で時系列のクラスを予測するタスクである。 このような手法は、多くの時間クリティカルな応用において分類予測を得るために用いられる。 しかし、データ特性の微分は、イヤーライン、精度、F1スコア、トレーニング時間といった点でアルゴリズムのパフォーマンスに影響を与えるため、あらゆる問題に対して利用可能なテクニックは等しく適していない。 我々は,生活科学と海洋ドメインを起源とする2つの新しいデータセットと同様に,公開データに対して既存のETSCアルゴリズムを6つ評価した。 我々のゴールは、ETSCアルゴリズムの評価と比較のためのフレームワークを提供することであり、そのようなアプローチが実際のアプリケーションでどのように機能するかの直感を得ることである。 提示されたフレームワークは、新しい関連するテクニックのベンチマークとしても機能する。

Early Time-Series Classification (ETSC) is the task of predicting the class of incoming time-series by observing as few measurements as possible. Such methods can be employed to obtain classification forecasts in many time-critical applications. However, available techniques are not equally suitable for every problem, since differentiations in the data characteristics can impact algorithm performance in terms of earliness, accuracy, F1-score, and training time. We evaluate six existing ETSC algorithms on publicly available data, as well as on two newly introduced datasets originating from the life sciences and maritime domains. Our goal is to provide a framework for the evaluation and comparison of ETSC algorithms and to obtain intuition on how such approaches perform on real-life applications. The presented framework may also serve as a benchmark for new related techniques.
翻訳日:2022-03-05 03:32:43 公開日:2022-03-03
# (参考訳) 多変量非中心超幾何分布の連続緩和

Continuous Relaxation For The Multivariate Non-Central Hypergeometric Distribution ( http://arxiv.org/abs/2203.01629v1 )

ライセンス: CC BY 4.0
Thomas M. Sutter, Laura Manduchi, Alain Ryser, Julia E. Vogt(参考訳) 要素の集合を事前未知サイズの与えられた数のグループに分割することは、多くのアプリケーションにおいて重要なタスクである。 厳しい制約のため、現代の機械学習フレームワークでの直接の使用を禁止する、微分不能な問題である。 したがって、以前の作品は概ね準最適ヒューリスティックや単純化された仮定に基づいている。 多変量超幾何分布は、与えられたサンプルを複数のグループに分散する方法の確率的定式化を提供する。 残念ながら、離散確率分布として、どちらも微分可能ではない。 本研究では,多変量非中心超幾何分布に対する連続緩和を提案する。 効率的で数値的に安定なサンプリング手法を提案する。 これにより、超幾何分布のパラメータ化勾配と、その自動微分フレームワークへの統合が可能になる。 提案する2つの共通機械学習タスクにおける定式化の適用性とユーザビリティを強調した。

Partitioning a set of elements into a given number of groups of a priori unknown sizes is an important task in many applications. Due to hard constraints, it is a non-differentiable problem which prohibits its direct use in modern machine learning frameworks. Hence, previous works mostly fall back on suboptimal heuristics or simplified assumptions. The multivariate hypergeometric distribution offers a probabilistic formulation of how to distribute a given number of samples across multiple groups. Unfortunately, as a discrete probability distribution, it neither is differentiable. In this work, we propose a continuous relaxation for the multivariate non-central hypergeometric distribution. We introduce an efficient and numerically stable sampling procedure. This enables reparameterized gradients for the hypergeometric distribution and its integration into automatic differentiation frameworks. We highlight the applicability and usability of the proposed formulation on two different common machine learning tasks.
翻訳日:2022-03-05 03:08:01 公開日:2022-03-03
# (参考訳) Helgason-Fourier解析に基づく非コンパクト対称性空間とリッジレット変換の完全接続網

Fully-Connected Network on Noncompact Symmetric Space and Ridgelet Transform based on Helgason-Fourier Analysis ( http://arxiv.org/abs/2203.01631v1 )

ライセンス: CC BY 4.0
Sho Sonoda, Isao Ishikawa, Masahiro Ikeda(参考訳) 双曲空間や対称正定値行列(SPD)多様体のようなリーマン対称空間上のニューラルネットワークは、幾何学的深層学習の研究の新たな主題である。 非コンパクト対称空間上のヘルガソン・フーリエ変換の確立された枠組みに基づいて、双曲型ニューラルネットワーク(hnn)とspdnetをカバーする非コンパクト対称空間上の完全連結ネットワークとその関連リッジレット変換を特別な場合として提示する。 リッジレット変換(英: ridgelet transform)は、ニューロンが分散する深さ2の連続ネットワークの解析演算子であり、任意の関数をネットワークの重みにマッピングする。 座標自由化により、非線形活性化関数の役割はウェーブレット関数であることが判明し、再構成公式は提案したネットワークの普遍性を直接生成する。

Neural network on Riemannian symmetric space such as hyperbolic space and the manifold of symmetric positive definite (SPD) matrices is an emerging subject of research in geometric deep learning. Based on the well-established framework of the Helgason-Fourier transform on the noncompact symmetric space, we present a fully-connected network and its associated ridgelet transform on the noncompact symmetric space, covering the hyperbolic neural network (HNN) and the SPDNet as special cases. The ridgelet transform is an analysis operator of a depth-2 continuous network spanned by neurons, namely, it maps an arbitrary given function to the weights of a network. Thanks to the coordinate-free reformulation, the role of nonlinear activation functions is revealed to be a wavelet function, and the reconstruction formula directly yields the universality of the proposed networks.
翻訳日:2022-03-05 02:48:08 公開日:2022-03-03
# (参考訳) トレース比基準に基づく並列特徴選択

Parallel feature selection based on the trace ratio criterion ( http://arxiv.org/abs/2203.01635v1 )

ライセンス: CC BY-SA 4.0
Thu Nguyen, Thanh Nhan Phan, Van Nhuong Nguyen, Thanh Binh Nguyen, P{\aa}l Halvorsen, Michael Riegler(参考訳) 今日のデータの成長は、管理と推論に挑戦している。 特徴抽出法は推論のためのデータサイズを減らすことができるが、データストレージのコストを最小限に抑えるには役に立たない。 一方、機能の選択は冗長な機能を取り除くのに役立つため、推論だけでなく、管理コストの削減にも役立ちます。 本研究は,非常に大規模なデータセットにスケールする並列特徴選択手法,すなわちトレース基準を用いた並列特徴選択(pfst)を提案する。 本研究では,fisher の判別分析におけるクラス分離性尺度である trace criterion を用いて特徴的有用性を評価する。 基準の望ましい性質を理論的に分析した。 この基準に基づいてpfstは、一見冗長に見える機能を並列に削除して、最初に前方選択を行うことで、ビッグデータセットの一連の機能から急速に重要な機能を見つけ出す。 モデルに最も重要な機能が含まれた後、適合性を改善する可能性のあるインタラクションに対する貢献を振り返る。 最後に、前方ステップで追加された冗長性をチェックするために、後方選択を行います。 本手法は,選択した特徴の分類器として線形判別分析を用いて各種実験により評価した。 実験により,本手法は,比較対象の他の手法による時間的差の小さい特徴セットを生成可能であることが示された。 さらに、pfst が選択した特徴を訓練した分類器は、他の手法で選択した特徴よりも精度が向上するだけでなく、利用可能な全ての特徴の分類よりも精度が向上する。

The growth of data today poses a challenge in management and inference. While feature extraction methods are capable of reducing the size of the data for inference, they do not help in minimizing the cost of data storage. On the other hand, feature selection helps to remove the redundant features and therefore is helpful not only in inference but also in reducing management costs. This work presents a novel parallel feature selection approach for classification, namely Parallel Feature Selection using Trace criterion (PFST), which scales up to very large datasets. Our method uses trace criterion, a measure of class separability used in Fisher's Discriminant Analysis, to evaluate feature usefulness. We analyzed the criterion's desirable properties theoretically. Based on the criterion, PFST rapidly finds important features out of a set of features for big datasets by first making a forward selection with early removal of seemingly redundant features parallelly. After the most important features are included in the model, we check back their contribution for possible interaction that may improve the fit. Lastly, we make a backward selection to check back possible redundant added by the forward steps. We evaluate our methods via various experiments using Linear Discriminant Analysis as the classifier on selected features. The experiments show that our method can produce a small set of features in a fraction of the amount of time by the other methods under comparison. In addition, the classifier trained on the features selected by PFST not only achieves better accuracy than the ones chosen by other approaches but can also achieve better accuracy than the classification on all available features.
翻訳日:2022-03-05 02:21:35 公開日:2022-03-03
# (参考訳) リスクアウェア確率的最短経路

Risk-aware Stochastic Shortest Path ( http://arxiv.org/abs/2203.01640v1 )

ライセンス: CC BY 4.0
Tobias Meggendorfer(参考訳) マルコフ決定過程(MDP)における確率的最短経路(SSP)に対するリスク認識制御の問題を扱う。 典型的には、sspに対する期待は考慮されるが、これは発生リスクに従わない。 本稿では,確立されたリスク尺度である条件付きリスク(CVaR)を最適化する。 我々はマルコフ連鎖とMDPの両方を扱い、それぞれ線形計画法と値反復法に基づく2つのアルゴリズムを新しい洞察を通じて導入する。 どちらのアルゴリズムも正確かつ確実に正しい解を提供する。 プロトタイプ実装の評価は, リスク認識制御が適度なモデルで実現可能であることを示す。

We treat the problem of risk-aware control for stochastic shortest path (SSP) on Markov decision processes (MDP). Typically, expectation is considered for SSP, which however is oblivious to the incurred risk. We present an alternative view, instead optimizing conditional value-at-risk (CVaR), an established risk measure. We treat both Markov chains as well as MDP and introduce, through novel insights, two algorithms, based on linear programming and value iteration, respectively. Both algorithms offer precise and provably correct solutions. Evaluation of our prototype implementation shows that risk-aware control is feasible on several moderately sized models.
翻訳日:2022-03-05 02:06:01 公開日:2022-03-03
# (参考訳) マルチレゾリューション意味セグメンテーションのためのuav適応経路計画

Adaptive Path Planning for UAVs for Multi-Resolution Semantic Segmentation ( http://arxiv.org/abs/2203.01642v1 )

ライセンス: CC BY 4.0
Felix Stache, Jonas Westheider, Federico Magistri, Cyrill Stachniss, Marija Popovi\'c(参考訳) 効率的なデータ収集手法は、地球とそのエコシステムの理解を深める上で重要な役割を果たします。 多くの応用において、監視とリモートセンシングのための無人航空機(UAV)の使用は、高い移動性、低コスト、柔軟な展開のために急速に勢いを増している。 重要な課題は、飛行時間の制限により、大きな環境で取得したデータの価値を最大化するためのミッション計画である。 これは例えば、農地のモニタリングに関係している。 本稿では,UAVの正確なセマンティックセグメンテーションのための適応経路計画の問題に対処する。 本稿では,UAV経路に適応して,入ってくる画像から検出された細部までの詳細な領域で必要な高精細なセマンティックセマンティックセマンティックセマンティクスを得るオンライン計画アルゴリズムを提案する。 これにより,画像解像度の最大値での網羅的マッピングにエネルギーを浪費することなく,低高度で綿密な検査を行うことができる。 我々のアプローチの重要な特徴は、UAV高度とセマンティックセグメンテーションの精度の関係をキャプチャするディープラーニングベースのアーキテクチャの新しい精度モデルである。 我々は,実世界データを用いて異なる領域に対するアプローチを評価し,ソリューションの有効性と生成性を証明する。

Efficient data collection methods play a major role in helping us better understand the Earth and its ecosystems. In many applications, the usage of unmanned aerial vehicles (UAVs) for monitoring and remote sensing is rapidly gaining momentum due to their high mobility, low cost, and flexible deployment. A key challenge is planning missions to maximize the value of acquired data in large environments given flight time limitations. This is, for example, relevant for monitoring agricultural fields. This paper addresses the problem of adaptive path planning for accurate semantic segmentation of using UAVs. We propose an online planning algorithm which adapts the UAV paths to obtain high-resolution semantic segmentations necessary in areas with fine details as they are detected in incoming images. This enables us to perform close inspections at low altitudes only where required, without wasting energy on exhaustive mapping at maximum image resolution. A key feature of our approach is a new accuracy model for deep learning-based architectures that captures the relationship between UAV altitude and semantic segmentation accuracy. We evaluate our approach on different domains using real-world data, proving the efficacy and generability of our solution.
翻訳日:2022-03-05 01:44:16 公開日:2022-03-03
# (参考訳) 強化学習を用いた複数EV充電ステーションの需要応答調整のための最適化コスト関数

Optimized cost function for demand response coordination of multiple EV charging stations using reinforcement learning ( http://arxiv.org/abs/2203.01654v1 )

ライセンス: CC BY-SA 4.0
Manu Lahariya, Nasrin Sadeghianpourhamami and Chris Develder(参考訳) 電気自動車(EV)充電ステーションは、かなりの柔軟性を持つかなりの負荷を表す。 需要応答(DR)アルゴリズムの柔軟性の活用は、電力グリッドの需要と供給を管理しバランスをとるためにますます重要になっている。 強化学習(RL)に基づくモデルフリーDRは、そのようなEV充電負荷のバランスをとるための魅力的なアプローチである。 我々は、複数の充電ステーションを同時に調整するマルコフ決定プロセス(MDP)に基づくRLに関する以前の研究に基づいて構築する。 しかし,前回の研究で採用した計算コスト関数は,その実現可能性と実用性を制限した大きな訓練時間をもたらすことに留意する。 したがって、我々は、基本的に学習した制御ポリシーが常に柔軟性を提供しない充電需要を満たすよう強制するコスト関数の改善を提案する。 提案したバッチRLのQ-iteration実装を,実世界のデータを用いて,オリジナル(コスト)のQ-iteration実装と比較した。 具体的には,負荷平ら化の場合,2つのアプローチを比較する。 (i)RLに基づく充電ポリシーを学習するための処理時間 (2)未確認のテストデータに対する目標負荷を満たすという観点からの政策決定の全体的なパフォーマンス。 パフォーマンスは、異なるトレーニング期間と異なるトレーニングサンプルサイズで分析される。 両RLポリシのパフォーマンス結果に加えて、両方の点でパフォーマンスバウンダリを提供します。 (i)最適全知戦略、及び (ii)時間とともに一様に充電する単純なヒューリスティックな個別のev

Electric vehicle (EV) charging stations represent a substantial load with significant flexibility. The exploitation of that flexibility in demand response (DR) algorithms becomes increasingly important to manage and balance demand and supply in power grids. Model-free DR based on reinforcement learning (RL) is an attractive approach to balance such EV charging load. We build on previous research on RL, based on a Markov decision process (MDP) to simultaneously coordinate multiple charging stations. However, we note that the computationally expensive cost function adopted in the previous research leads to large training times, which limits the feasibility and practicality of the approach. We, therefore, propose an improved cost function that essentially forces the learned control policy to always fulfill any charging demand that does not offer any flexibility. We rigorously compare the newly proposed batch RL fitted Q-iteration implementation with the original (costly) one, using real-world data. Specifically, for the case of load flattening, we compare the two approaches in terms of (i) the processing time to learn the RL-based charging policy, as well as (ii) the overall performance of the policy decisions in terms of meeting the target load for unseen test data. The performance is analyzed for different training periods and varying training sample sizes. In addition to both RL policies performance results, we provide performance bounds in terms of both (i) an optimal all-knowing strategy, and (ii) a simple heuristic spreading individual EV charging uniformly over time
翻訳日:2022-03-05 01:25:22 公開日:2022-03-03
# (参考訳) AIカンファレンスの多様性監視 - DivinAIプロジェクトにおける教訓と今後の課題

Monitoring Diversity of AI Conferences: Lessons Learnt and Future Challenges in the DivinAI Project ( http://arxiv.org/abs/2203.01657v1 )

ライセンス: CC BY-SA 4.0
Isabelle Hupont, Emilia Gomez, Songul Tolan, Lorenzo Porcaro, Ana Freire(参考訳) DivinAIは、欧州委員会合同研究センターが推進するオープンで協力的なイニシアチブで、AIカンファレンスに関連する多様性指標を測定し、監視する。 本稿では、divinaiプロジェクトの初年度に学んだ主な成果と教訓を要約し、aiコミュニティによるさらなる開発とメンテナンスのための一連の推奨事項を提案する。

DivinAI is an open and collaborative initiative promoted by the European Commission's Joint Research Centre to measure and monitor diversity indicators related to AI conferences, with special focus on gender balance, geographical representation, and presence of academia vs companies. This paper summarizes the main achievements and lessons learnt during the first year of life of the DivinAI project, and proposes a set of recommendations for its further development and maintenance by the AI community.
翻訳日:2022-03-05 01:16:26 公開日:2022-03-03
# (参考訳) アンタングル表現を用いた翻訳肺画像解析

Translational Lung Imaging Analysis Through Disentangled Representations ( http://arxiv.org/abs/2203.01668v1 )

ライセンス: CC BY 4.0
Pedro M. Gordaliza, Juan Jos\'e Vaquero, Arrate Mu\~noz-Barrutia(参考訳) 新しい治療法の開発には、種間病理過程を特徴付けるために(pre)-clinical imagingを用いた翻訳動物モデルによる臨床試験がしばしば必要となる。 ディープラーニング(DL)モデルは、画像から関連する情報を取得するのを自動化するために一般的に使用される。 しかし、一般的には、絡み合ったデザインの産物として、生産性や説明可能性の低下に悩まされ、動物モデルごとに特定のDLモデルが作られる。 したがって、dlの高容量を利用して種間画像から統計的関係を発見することは不可能である。 この問題を軽減するため,本研究では,異なる動物モデルの画像から異種情報を抽出するモデルと,その画像を生成するメカニズムを提案する。 本手法は, 深部生成モデル, 絡み合い, 因果表現学習の交差点に位置する。 結核に感染した病理肺の画像から最適化され、 a) 入力スライスから、容積におけるその位置、その属する動物モデル、損傷の有無、更には、肺全体を覆うマスク(nnU-Netとの類似の重なり方)を生成すること。 b)上記の変数を設定して現実的な肺画像を生成すること c) 破損した入力スライスの健全なバージョンである偽画像を生成する。

The development of new treatments often requires clinical trials with translational animal models using (pre)-clinical imaging to characterize inter-species pathological processes. Deep Learning (DL) models are commonly used to automate retrieving relevant information from the images. Nevertheless, they typically suffer from low generability and explainability as a product of their entangled design, resulting in a specific DL model per animal model. Consequently, it is not possible to take advantage of the high capacity of DL to discover statistical relationships from inter-species images. To alleviate this problem, in this work, we present a model capable of extracting disentangled information from images of different animal models and the mechanisms that generate the images. Our method is located at the intersection between deep generative models, disentanglement and causal representation learning. It is optimized from images of pathological lung infected by Tuberculosis and is able: a) from an input slice, infer its position in a volume, the animal model to which it belongs, the damage present and even more, generate a mask covering the whole lung (similar overlap measures to the nnU-Net), b) generate realistic lung images by setting the above variables and c) generate counterfactual images, namely, healthy versions of a damaged input slice.
翻訳日:2022-03-05 01:10:14 公開日:2022-03-03
# (参考訳) 可視的熱的人物再同定のための地球モーバー距離

Cross-Modality Earth Mover's Distance for Visible Thermal Person Re-Identification ( http://arxiv.org/abs/2203.01675v1 )

ライセンス: CC BY 4.0
Yongguo Ling, Zhun Zhong, Donglin Cao, Zhiming Luo, Yaojin Lin, Shaozi Li, Nicu Sebe(参考訳) Visible thermal person re-identification (VT-ReID) は、モダリティ間の相違とアイデンティティ内変異に悩まされる。 分布アライメントはvt-reidの一般的なソリューションであるが、通常、id内変異の影響に制限される。 本稿では,モーダリティアライメントにおける自己同一性内変動の影響を軽減するために,Cross-Modality Earth Mover's Distance (CM-EMD)を提案する。 CM-EMDは最適な輸送戦略を選択し、より小さなアイデンティティ内変動を持つペアに高い重みを割り当てる。 この方法では、モデルはモダリティ間の不一致を減らすことに集中し、アイデンティティ内変異に注意を払わないようにし、より効果的なモダリティアライメントへと繋がる。 さらに,CM-EMDの利点を改善するための2つの手法を提案する。 まず,モダリティアライメントによる識別劣化問題を克服するために,Cross-Modality Discrimination Learning (CM-DL) を設計した。 同一性内変異と同一性間分散の比を減少させることで、CM-DLはモデルにより識別的な表現を学習させる。 第2に,Multi-Granularity Structure (MGS)を構築し,粗度と微粒度の両方のモードをCM-EMDと整列させる。 大規模実験はCM-EMDとその補助技術(CM-DLとMGS)の利点を示している。 提案手法は2つのVT-ReIDベンチマークにおける最先端性能を実現する。

Visible thermal person re-identification (VT-ReID) suffers from the inter-modality discrepancy and intra-identity variations. Distribution alignment is a popular solution for VT-ReID, which, however, is usually restricted to the influence of the intra-identity variations. In this paper, we propose the Cross-Modality Earth Mover's Distance (CM-EMD) that can alleviate the impact of the intra-identity variations during modality alignment. CM-EMD selects an optimal transport strategy and assigns high weights to pairs that have a smaller intra-identity variation. In this manner, the model will focus on reducing the inter-modality discrepancy while paying less attention to intra-identity variations, leading to a more effective modality alignment. Moreover, we introduce two techniques to improve the advantage of CM-EMD. First, the Cross-Modality Discrimination Learning (CM-DL) is designed to overcome the discrimination degradation problem caused by modality alignment. By reducing the ratio between intra-identity and inter-identity variances, CM-DL leads the model to learn more discriminative representations. Second, we construct the Multi-Granularity Structure (MGS), enabling us to align modalities from both coarse- and fine-grained levels with the proposed CM-EMD. Extensive experiments show the benefits of the proposed CM-EMD and its auxiliary techniques (CM-DL and MGS). Our method achieves state-of-the-art performance on two VT-ReID benchmarks.
翻訳日:2022-03-05 00:55:29 公開日:2022-03-03
# (参考訳) テキスト分類における単語逆例の検出:ロバスト密度推定によるベンチマークとベースライン

Detection of Word Adversarial Examples in Text Classification: Benchmark and Baseline via Robust Density Estimation ( http://arxiv.org/abs/2203.01677v1 )

ライセンス: CC BY 4.0
KiYoon Yoo, Jangho Kim, Jiho Jang, Nojun Kwak(参考訳) 単語レベルの敵対攻撃はNLPモデルで成功し、近年はトランスフォーマーモデルの性能が大幅に低下している。 対策として、敵の防御が検討されているが、敵の例を検出するための努力は比較的少ない。 しかし、敵対的な例を検出することは、特定の集団に関する情報を蓄積し、さらに強固な防衛システムへの一歩を踏み出そうとする自動化タスク(例えば感情分析をレビューする)に不可欠である。 この目的のために、4つのデータセットと4つのモデルに対する4つの一般的な攻撃方法のためのデータセットをリリースし、この分野のさらなる研究を促進する。 さらに,30のデータセット-アタックモデルの組み合わせのうち,29のAUCが最も高い密度推定に基づく競合ベースラインを提案する。 ソースコードはhttps://github.com/anoymous92874838/text-adv-detectionで入手できる。

Word-level adversarial attacks have shown success in NLP models, drastically decreasing the performance of transformer-based models in recent years. As a countermeasure, adversarial defense has been explored, but relatively few efforts have been made to detect adversarial examples. However, detecting adversarial examples may be crucial for automated tasks (e.g. review sentiment analysis) that wish to amass information about a certain population and additionally be a step towards a robust defense system. To this end, we release a dataset for four popular attack methods on four datasets and four models to encourage further research in this field. Along with it, we propose a competitive baseline based on density estimation that has the highest AUC on 29 out of 30 dataset-attack-model combinations. Source code is available in https://github.com/anoymous92874838/text-adv-detection.
翻訳日:2022-03-05 00:31:38 公開日:2022-03-03
# (参考訳) ワンショットランドマーク検出のための相対距離問題

Relative distance matters for one-shot landmark detection ( http://arxiv.org/abs/2203.01687v1 )

ライセンス: CC BY 4.0
Qingsong Yao and Jianji Wang and Yihua Sun and Quan Quan and Heqin Zhu and S. Kevin Zhou(参考訳) カスケード比較(CC2D)のような対照的な学習に基づく手法は、一発的医学的ランドマーク検出に大きな可能性を示している。 しかし、CC2Dではランドマーク間の相対距離の重要なキューは無視されている。 本稿では,比較的離れたランドマークを比較的類似度の低い埋め込みに投影することを理論的に促進することが証明された訓練段階において,単純なyet効率の相対距離バイアスを組み込むことで,CC2DをバージョンIIにアップグレードする。 その結果、CC2Dv2は正しいランドマークから遠く離れた地点を検出できない。 さらに,整形外科手術者の負担を軽減するために,下肢の生体力学的パラメータを測定するためのオープンソースのランドマークラベルデータセットを提案する。 CC2Dv2の有効性は、ISBI 2015 Grand-Challenge of cephalometric radiographsと我々の新しいデータセットの公開データセットで評価され、最先端のワンショットランドマーク検出アプローチよりも大幅に優れている。

Contrastive learning based methods such as cascade comparing to detect (CC2D) have shown great potential for one-shot medical landmark detection. However, the important cue of relative distance between landmarks is ignored in CC2D. In this paper, we upgrade CC2D to version II by incorporating a simple-yet-effective relative distance bias in the training stage, which is theoretically proved to encourage the encoder to project the relatively distant landmarks to the embeddings with low similarities. As consequence, CC2Dv2 is less possible to detect a wrong point far from the correct landmark. Furthermore, we present an open-source, landmark-labeled dataset for the measurement of biomechanical parameters of the lower extremity to alleviate the burden of orthopedic surgeons. The effectiveness of CC2Dv2 is evaluated on the public dataset from the ISBI 2015 Grand-Challenge of cephalometric radiographs and our new dataset, which greatly outperforms the state-of-the-art one-shot landmark detection approaches.
翻訳日:2022-03-05 00:11:32 公開日:2022-03-03
# (参考訳) マルチスケールトポロジカルロス項を用いた3次元再構成のための形状情報取得

Capturing Shape Information with Multi-Scale Topological Loss Terms for 3D Reconstruction ( http://arxiv.org/abs/2203.01703v1 )

ライセンス: CC BY 4.0
Dominik J. E. Waibel, Scott Atwell, Matthias Meier, Carsten Marr, and Bastian Rieck(参考訳) 2D画像から3Dオブジェクトを再構築することは、私たちの脳と機械学習アルゴリズムにとって難しい。 この空間的推論タスクを支援するためには、オブジェクトの全体形状に関するコンテキスト情報が必要である。 しかし、そのような情報は確立された損失項(例:ダイス損失)では捉えられない。 本稿では, 連結成分, サイクル, 空隙などの多次元位相特徴を再構成損失に含め, 幾何学的形状情報を補完することを提案する。 提案手法は, 3次元体積データから3次元形状データから位相特性を計算し, 最適輸送距離を用いて復元過程を導出する。 このトポロジ認識損失は、完全に微分可能で、計算効率が高く、任意のニューラルネットワークに追加することができる。 shaprは2次元顕微鏡画像に基づいて個々の細胞の3d細胞形状を予測するモデルである。 単一物体の幾何学的情報と位相的情報の両方を併用して形状を評価するハイブリッドロスにより,地形的情報により再構成の質が大幅に向上し,画像データセットからより関連性の高い特徴を抽出できることが明らかになった。

Reconstructing 3D objects from 2D images is both challenging for our brains and machine learning algorithms. To support this spatial reasoning task, contextual information about the overall shape of an object is critical. However, such information is not captured by established loss terms (e.g. Dice loss). We propose to complement geometrical shape information by including multi-scale topological features, such as connected components, cycles, and voids, in the reconstruction loss. Our method calculates topological features from 3D volumetric data based on cubical complexes and uses an optimal transport distance to guide the reconstruction process. This topology-aware loss is fully differentiable, computationally efficient, and can be added to any neural network. We demonstrate the utility of our loss by incorporating it into SHAPR, a model for predicting the 3D cell shape of individual cells based on 2D microscopy images. Using a hybrid loss that leverages both geometrical and topological information of single objects to assess their shape, we find that topological information substantially improves the quality of reconstructions, thus highlighting its ability to extract more relevant features from image datasets.
翻訳日:2022-03-04 23:59:48 公開日:2022-03-03
# (参考訳) ニューラルネットワークを用いた高品質GAN生成顔画像の検出

Detecting High-Quality GAN-Generated Face Images using Neural Networks ( http://arxiv.org/abs/2203.01716v1 )

ライセンス: CC BY 4.0
Ehsan Nowroozi, Mauro Conti, Yassine Mekdad(参考訳) 過去数十年間、コンピュータビジョンにおける前世代のganモデル(generative adversarial networks)の過剰使用により、本物のものと視覚的に区別できない人工顔画像の作成が可能になった。 これらの画像は、特に敵対的な設定で、偽のソーシャルメディアアカウントやその他の偽のオンラインプロフィールを作成するために使用される。 このような悪意のある活動は、ユーザのアイデンティティの信頼性に悪影響を及ぼす可能性がある。 一方で、近年のganモデルでは、空間的アーティファクトの証拠がなくても高品質な顔画像を作成することができる。 したがって、均一なカラーチャネル相関の再組み立ては困難な研究課題である。 これらの課題に直面するためには、偽の顔画像と本物とを区別できる効率的なツールを開発する必要がある。 本稿では,人工顔画像合成に焦点をあてたスペクトル帯域の相違を利用して,gan生成画像と本物画像とを区別する新しい手法を提案する。 特に,クロスバンド共起行列と空間共起行列を用いて,顔画像のデジタル保存を可能にする。 そして,これらの手法を実装し,人工顔から実物を特定するために,畳み込みニューラルネットワーク(CNN)アーキテクチャに供給する。 さらに,性能向上は特に重要であり,処理後の異なる環境では92%以上達成できることを示した。 最後に,この手法が帯域内空間共起のみに基づく検出法を改善できることを実証するいくつかの研究結果を示す。

In the past decades, the excessive use of the last-generation GAN (Generative Adversarial Networks) models in computer vision has enabled the creation of artificial face images that are visually indistinguishable from genuine ones. These images are particularly used in adversarial settings to create fake social media accounts and other fake online profiles. Such malicious activities can negatively impact the trustworthiness of users identities. On the other hand, the recent development of GAN models may create high-quality face images without evidence of spatial artifacts. Therefore, reassembling uniform color channel correlations is a challenging research problem. To face these challenges, we need to develop efficient tools able to differentiate between fake and authentic face images. In this chapter, we propose a new strategy to differentiate GAN-generated images from authentic images by leveraging spectral band discrepancies, focusing on artificial face image synthesis. In particular, we enable the digital preservation of face images using the Cross-band co-occurrence matrix and spatial co-occurrence matrix. Then, we implement these techniques and feed them to a Convolutional Neural Networks (CNN) architecture to identify the real from artificial faces. Additionally, we show that the performance boost is particularly significant and achieves more than 92% in different post-processing environments. Finally, we provide several research observations demonstrating that this strategy improves a comparable detection method based only on intra-band spatial co-occurrences.
翻訳日:2022-03-04 23:48:31 公開日:2022-03-03
# (参考訳) なぜ機械学習の実践者は手動チューニングを使うのか? 質的研究

Why Do Machine Learning Practitioners Still Use Manual Tuning? A Qualitative Study ( http://arxiv.org/abs/2203.01717v1 )

ライセンス: CC BY 4.0
Niklas Hasebrook, Felix Morsbach, Niclas Kannengie{\ss}er, J\"org Franke, Frank Hutter, Ali Sunyaev(参考訳) ベイジアン最適化のような現在の高度ハイパーパラメータ最適化(HPO)法はサンプリング効率が高く、複製性を促進する。 それでも、機械学習(ML)の実践者(例えば、エンジニア、科学者)は、HPOメソッドをほとんど適用せず、HPO中にリソース消費を増加させたり、過度に最適化されたMLモデルに繋がる可能性がある。 そこで,実践者は,実践者の努力を減らし,観客のコンプライアンスを目標とするなど,異なる目標を達成するためにHPO方式を選択する。 このような目標に沿ったHPO法を開発するためには,実践者が特定のHPO法を決定する理由を明らかにする必要がある。 質的研究は,そのような理由を明らかにするのに最も適しているため,実践者が異なるhpo手法を選択する理由を説明するために,半構造化面接を行った。 インタビューでは、6つの主要な実践者目標(例:モデル理解の増大)と、HPOメソッド(例:利用可能なコンピューティングリソース)の決定に影響を及ぼす11つの重要な要因が明らかになった。 我々は,実践者が異なるHPOメソッドを決定する理由の理解を深め,実践目標と整合させることで,HPOメソッドの改善のための推奨事項を概説する。

Current advanced hyperparameter optimization (HPO) methods, such as Bayesian optimization, have high sampling efficiency and facilitate replicability. Nonetheless, machine learning (ML) practitioners (e.g., engineers, scientists) mostly apply less advanced HPO methods, which can increase resource consumption during HPO or lead to underoptimized ML models. Therefore, we suspect that practitioners choose their HPO method to achieve different goals, such as decrease practitioner effort and target audience compliance. To develop HPO methods that align with such goals, the reasons why practitioners decide for specific HPO methods must be unveiled and thoroughly understood. Because qualitative research is most suitable to uncover such reasons and find potential explanations for them, we conducted semi-structured interviews to explain why practitioners choose different HPO methods. The interviews revealed six principal practitioner goals (e.g., increasing model comprehension), and eleven key factors that impact decisions for HPO methods (e.g., available computing resources). We deepen the understanding about why practitioners decide for different HPO methods and outline recommendations for improvements of HPO methods by aligning them with practitioner goals.
翻訳日:2022-03-04 23:37:42 公開日:2022-03-03
# (参考訳) トランキャット付き感染マップのトポロジカルデータ解析

Topological data analysis of truncated contagion maps ( http://arxiv.org/abs/2203.01720v1 )

ライセンス: CC BY 4.0
Florian Klimm(参考訳) ネットワーク上の動的プロセスの研究は、感染過程の研究に焦点が当てられている。 感染はユークリッド空間におけるノードの埋め込みに関する情報を得るために用いられることが示されている。 具体的には、しきい値感染のアクティベーション時間を用いて、多様体学習のアプローチとして汚染マップを構築することができる。 伝染マップの欠点の一つは、高い計算コストである。 本稿では,しきい値感染の停止が,感染マップの構築をかなりスピードアップさせることを実証する。 最後に, 単細胞RNAシークエンシングデータに対して, 細胞類似性ネットワークの形で, 生物学的な多様体を明らかにするために, 感染マップが有用であることを示す。 全体として,我々の研究は,実証的ネットワークデータに対する多様体学習アプローチとして,伝染マップを活用している。

The investigation of dynamical processes on networks has been one focus for the study of contagion processes. It has been demonstrated that contagions can be used to obtain information about the embedding of nodes in a Euclidean space. Specifically, one can use the activation times of threshold contagions to construct contagion maps as a manifold-learning approach. One drawback of contagion maps is their high computational cost. Here, we demonstrate that a truncation of the threshold contagions may considerably speed up the construction of contagion maps. Finally, we show that contagion maps may be used to find an insightful low-dimensional embedding for single-cell RNA-sequencing data in the form of cell-similarity networks and so reveal biological manifolds. Overall, our work makes the use of contagion maps as manifold-learning approaches on empirical network data more viable.
翻訳日:2022-03-04 23:23:51 公開日:2022-03-03
# (参考訳) 一般化された人物再同定のためのガウス過程による分散バッチ正規化

Debiased Batch Normalization via Gaussian Process for Generalizable Person Re-Identification ( http://arxiv.org/abs/2203.01723v1 )

ライセンス: CC BY 4.0
Jiawei Liu, Zhipeng Huang, Liang Li, Kecheng Zheng, Zheng-Jun Zha(参考訳) generalizable person re-identificationは、未知のドメインでうまく機能するいくつかのラベル付きソースドメインでのみモデルを学ぶことを目的としている。 unseenドメインにアクセスできなければ、限られた数のソースドメインから学んだバッチ正規化(bn)層の特徴統計は、間違いなくunseenドメインに偏っている。 これは、見当たらないドメインで特徴表現学習を誤解させ、モデルのジェネリザイトン能力を低下させる。 本稿では,bn層からの特徴統計量推定を動的に自己改良するガウス過程としてモデル化し,一般化を改善するために未認識領域へのバイアスを緩和するgaussian process approach (gdnorm) による新しいデバイアスバッチ正規化を提案する。 具体的には、複数のドメイン固有bn層からなる軽量モデルを確立し、個々のソースドメインの識別性を捉え、対応するドメイン固有bn層のパラメータを学習する。 これらの異なるソースドメインのパラメータはガウス過程を推定するために使われる。 我々は、このガウス過程からのいくつかの経路をランダムにサンプリングし、既存のソースドメイン以外の潜在的新しいドメインのBN推定として機能し、これらの学習パラメータをソースドメインからさらに最適化し、代わりにより正確なガウス過程を推定する。 多数のソースドメインがなくても、GDNormはガウス過程の平均経路を用いて、テスト中の計算コストを低く保ちながら、偏りのあるBN推定を提供することができる。 広範な実験により,我々のgdnormは,未解決領域におけるモデルの一般化能力を効果的に改善できることが証明された。

Generalizable person re-identification aims to learn a model with only several labeled source domains that can perform well on unseen domains. Without access to the unseen domain, the feature statistics of the batch normalization (BN) layer learned from a limited number of source domains is doubtlessly biased for unseen domain. This would mislead the feature representation learning for unseen domain and deteriorate the generalizaiton ability of the model. In this paper, we propose a novel Debiased Batch Normalization via Gaussian Process approach (GDNorm) for generalizable person re-identification, which models the feature statistic estimation from BN layers as a dynamically self-refining Gaussian process to alleviate the bias to unseen domain for improving the generalization. Specifically, we establish a lightweight model with multiple set of domain-specific BN layers to capture the discriminability of individual source domain, and learn the corresponding parameters of the domain-specific BN layers. These parameters of different source domains are employed to deduce a Gaussian process. We randomly sample several paths from this Gaussian process served as the BN estimations of potential new domains outside of existing source domains, which can further optimize these learned parameters from source domains, and estimate more accurate Gaussian process by them in return, tending to real data distribution. Even without a large number of source domains, GDNorm can still provide debiased BN estimation by using the mean path of the Gaussian process, while maintaining low computational cost during testing. Extensive experiments demonstrate that our GDNorm effectively improves the generalization ability of the model on unseen domain.
翻訳日:2022-03-04 23:05:03 公開日:2022-03-03
# (参考訳) RGB赤外線人物再同定のためのモダリティ適応混合と不変分解

Modality-Adaptive Mixup and Invariant Decomposition for RGB-Infrared Person Re-Identification ( http://arxiv.org/abs/2203.01735v1 )

ライセンス: CC BY 4.0
Zhipeng Huang, Jiawei Liu, Liang Li, Kecheng Zheng, Zheng-Jun Zha(参考訳) rgb-infrared person re-identification(rgb-infrared person re-identification)は、新たなクロスモダリティ再識別タスクである。 本研究では,RGB-赤外線人物再識別のための新しいモダリティ適応型混合・不変分解(MID)手法を提案する。 MIDは、RGBと赤外線画像の混合画像を生成するためのモダリティ適応混合方式を設計し、画素レベルで固有のモダリティ差を緩和する。 それはモダリティミックスアップ手順をマルコフ決定プロセスとして定式化し、アクター-クリティックエージェントは深い強化学習枠組みの下で、異なる領域のクロスモダリティ画像間の動的および局所的な線形補間ポリシーを学習する。 このような方針は、より連続な潜在空間におけるモダリティ不変性を保証し、腐敗した混合モダリティサンプルによる多様体の侵入を避ける。 さらに、モダリティの相違をさらに克服し、特徴レベルでの不変な視覚意味論を強制するために、MIDは、モダリティ適応的畳み込み分解を用いて、正規畳み込み層をモダリティ固有基底層とモダリティ共有係数層に分解する。 2つの挑戦的ベンチマークの大規模な実験結果は、最先端手法よりもMIDの優れた性能を示す。

RGB-infrared person re-identification is an emerging cross-modality re-identification task, which is very challenging due to significant modality discrepancy between RGB and infrared images. In this work, we propose a novel modality-adaptive mixup and invariant decomposition (MID) approach for RGB-infrared person re-identification towards learning modality-invariant and discriminative representations. MID designs a modality-adaptive mixup scheme to generate suitable mixed modality images between RGB and infrared images for mitigating the inherent modality discrepancy at the pixel-level. It formulates modality mixup procedure as Markov decision process, where an actor-critic agent learns dynamical and local linear interpolation policy between different regions of cross-modality images under a deep reinforcement learning framework. Such policy guarantees modality-invariance in a more continuous latent space and avoids manifold intrusion by the corrupted mixed modality samples. Moreover, to further counter modality discrepancy and enforce invariant visual semantics at the feature-level, MID employs modality-adaptive convolution decomposition to disassemble a regular convolution layer into modality-specific basis layers and a modality-shared coefficient layer. Extensive experimental results on two challenging benchmarks demonstrate superior performance of MID over state-of-the-art methods.
翻訳日:2022-03-04 22:49:58 公開日:2022-03-03
# (参考訳) ウクライナ危機の影響を予測するための機械学習モデル

Machine learning model to project the impact of Ukraine crisis ( http://arxiv.org/abs/2203.01738v1 )

ライセンス: CC BY-SA 4.0
Javad T. Firouzjaee and Pouriya Khaliliyan(参考訳) 2022年2月24日のロシアによるウクライナ攻撃は、金融市場と地政学的危機を巻き起こした。 本稿では、この危機に関与している金、石油(WTI)、NDAQ、既知の通貨などの主要な経済指標を選択し、この戦争がそれらに与える量的効果を見出そうとする。 戦争効果の定量化には、これらの経済指標間の相関特徴と関係を利用し、データセットを作成し、予測結果を実データと比較する。 戦争効果の研究には機械学習線形回帰を用いる。 我々は、経験的実験を行い、これらの経済指標データセットを用いて、この戦争料金とその主要経済指標への影響を評価し予測する。

Russia's attack on Ukraine on Thursday 24 February 2022 hitched financial markets and the increased geopolitical crisis. In this paper, we select some main economic indexes, such as Gold, Oil (WTI), NDAQ, and known currency which are involved in this crisis and try to find the quantitative effect of this war on them. To quantify the war effect, we use the correlation feature and the relationships between these economic indices, create datasets, and compare the results of forecasts with real data. To study war effects, we use Machine Learning Linear Regression. We carry on empirical experiments and perform on these economic indices datasets to evaluate and predict this war tolls and its effects on main economics indexes.
翻訳日:2022-03-04 22:34:19 公開日:2022-03-03
# (参考訳) 非ストロングリ凸最小方形に対する加速SGD

Accelerated SGD for Non-Strongly-Convex Least Squares ( http://arxiv.org/abs/2203.01744v1 )

ライセンス: CC BY 4.0
Aditya Varre, Nicolas Flammarion(参考訳) 非強凸条件における最小二乗回帰問題に対する確率近似を考察する。 本稿では,問題の雑音依存性の観点から最適予測誤差率を達成する最初の実用的アルゴリズムを,初期条件の忘れ込みを$o(d/t^2)$に高速化しながら,$o(d/t)$とする。 我々の新しいアルゴリズムは、加速勾配勾配の簡単な修正に基づいている。 アルゴリズムの平均値と最後の反復値の両方について収束結果を提供する。 これらの新しい境界の厳密性を記述するために、ノイズのない設定で一致する下限を示し、アルゴリズムの最適性を示す。

We consider stochastic approximation for the least squares regression problem in the non-strongly convex setting. We present the first practical algorithm that achieves the optimal prediction error rates in terms of dependence on the noise of the problem, as $O(d/t)$ while accelerating the forgetting of the initial conditions to $O(d/t^2)$. Our new algorithm is based on a simple modification of the accelerated gradient descent. We provide convergence results for both the averaged and the last iterate of the algorithm. In order to describe the tightness of these new bounds, we present a matching lower bound in the noiseless setting and thus show the optimality of our algorithm.
翻訳日:2022-03-04 22:29:38 公開日:2022-03-03
# (参考訳) 特徴量分散データにおける垂直結合主成分分析とそのカーネル拡張

Vertical Federated Principal Component Analysis and Its Kernel Extension on Feature-wise Distributed Data ( http://arxiv.org/abs/2203.01752v1 )

ライセンス: CC BY 4.0
Yiu-ming Cheung, Juyong Jiang, Feng Yu, and Jian Lou(参考訳) 様々な分野へのフェデレーション学習(fl)の膨大な研究関心と急速な応用にもかかわらず、既存の研究は主に水平分割されたローカルデータセットの設定下での教師付きフェデレーション学習に焦点を当てている。 本稿では,垂直分割データセット設定下での教師なしFLについて検討する。 そこで本研究では,全クライアントのジョイントデータセット間の寸法を低減し,下流データ解析のための主成分特徴情報を抽出した,垂直分割データセット(vfedpca)のためのフェデレート主成分分析を提案する。 さらに, 非線形次元の低減を生かし, 多くの実データセットに存在する非線形特性を効果的かつ協調的にモデル化できる垂直結合型先進カーネル主成分分析法(VFedAKPCA)を提案する。 さらに,2つの通信トポロジについて検討する。 ひとつはサーバクライアントトポロジで、半信頼のサーバがフェデレーショントレーニングをコーディネートするのに対して、もうひとつは完全な分散トポロジであり、クライアント自身が隣人と通信できるようにすることで、サーバの要件をさらに排除する。 vfedpcaとvfedakpcaを垂直分割したfl設定下での5種類の実世界データセットの広範な実験を行った。 https://github.com/juyongjiang/VFedPCA-VFedAKPCA

Despite enormous research interest and rapid application of federated learning (FL) to various areas, existing studies mostly focus on supervised federated learning under the horizontally partitioned local dataset setting. This paper will study the unsupervised FL under the vertically partitioned dataset setting. Accordingly, we propose the federated principal component analysis for vertically partitioned dataset (VFedPCA) method, which reduces the dimensionality across the joint datasets over all the clients and extracts the principal component feature information for downstream data analysis. We further take advantage of the nonlinear dimensionality reduction and propose the vertical federated advanced kernel principal component analysis (VFedAKPCA) method, which can effectively and collaboratively model the nonlinear nature existing in many real datasets. In addition, we study two communication topologies. The first is a server-client topology where a semi-trusted server coordinates the federated training, while the second is the fully-decentralized topology which further eliminates the requirement of the server by allowing clients themselves to communicate with their neighbors. Extensive experiments conducted on five types of real-world datasets corroborate the efficacy of VFedPCA and VFedAKPCA under the vertically partitioned FL setting. Code is available at: https://github.com/juyongjiang/VFedPCA-VFedAKPCA
翻訳日:2022-03-04 22:28:38 公開日:2022-03-03
# (参考訳) PINA:1つのRGB-Dビデオシーケンスからパーソナライズされた暗黙のニューラルアバターを学習する

PINA: Learning a Personalized Implicit Neural Avatar from a Single RGB-D Video Sequence ( http://arxiv.org/abs/2203.01754v1 )

ライセンス: CC BY 4.0
Zijian Dong, Chen Guo, Jie Song, Xu Chen, Andreas Geiger, Otmar Hilliges(参考訳) 本稿では,短いRGB-Dシーケンスからパーソナライズされたインシシットニューラルアバター(PINA)を学習する方法を提案する。 これにより、熟練していないユーザは、自分自身の詳細な、パーソナライズされた仮想コピーを作成できる。 PINAは完全なスキャンを必要としないし、人間の大規模なデータセットから事前学習する必要もない。 この設定での完全なアバターの学習は、ノイズが多く不完全な深度観測しかできないため困難である(すなわち、フレームごとの身体の部分的な視界のみ)。 正準空間で定義されるポーズ条件付暗黙面と変形場を介して形状と非剛性変形を学習する手法を提案する。 これにより、すべての部分的な観測を単一の一貫した正準表現に融合することができる。 fusionはポーズ、形状、スキンのパラメータに対するグローバル最適化問題として定式化されている。 この方法では、さまざまな人や服装スタイルで、本物のノイズの多いRGB-Dシーケンスからニューラルアバターを学習することができる。

We present a novel method to learn Personalized Implicit Neural Avatars (PINA) from a short RGB-D sequence. This allows non-expert users to create a detailed and personalized virtual copy of themselves, which can be animated with realistic clothing deformations. PINA does not require complete scans, nor does it require a prior learned from large datasets of clothed humans. Learning a complete avatar in this setting is challenging, since only few depth observations are available, which are noisy and incomplete (i.e.only partial visibility of the body per frame). We propose a method to learn the shape and non-rigid deformations via a pose-conditioned implicit surface and a deformation field, defined in canonical space. This allows us to fuse all partial observations into a single consistent canonical representation. Fusion is formulated as a global optimization problem over the pose, shape and skinning parameters. The method can learn neural avatars from real noisy RGB-D sequences for a diverse set of people and clothing styles and these avatars can be animated given unseen motion sequences.
翻訳日:2022-03-04 22:07:12 公開日:2022-03-03
# (参考訳) 粒子駆動型神経放射場を用いた流体動力学グラウンドニング

NeuroFluid: Fluid Dynamics Grounding with Particle-Driven Neural Radiance Fields ( http://arxiv.org/abs/2203.01762v1 )

ライセンス: CC BY 4.0
Shanyan Guan, Huayu Deng, Yunbo Wang, Xiaokang Yang(参考訳) 深層学習は流体のような複雑な粒子系の物理力学をモデル化する大きな可能性を示している(ラグランジュ的記述)。 しかし、既存のアプローチでは、位置や速度を含む連続的な粒子特性の監督が必要である。 本稿では,流体表面の逐次的な視覚観測から流体粒子系の状態遷移と相互作用を推定する,流体力学グラウンドと呼ばれる部分的に観測可能なシナリオについて考察する。 我々はNeuroFluidという2段階の異なるネットワークを提案する。 私たちのアプローチは (i)体積レンダリング機能に流体物性を含む粒子駆動ニューラルレンダリング装置 (II) レンダリング画像と観察画像の差を低減するために最適化された粒子遷移モデル。 neurofluidは、粒子ベースの流体力学の教師なし学習に、これら2つのモデルを共同で訓練することで最初のソリューションを提供する。 初期形状,粘性,密度の異なる流体の物理を合理的に推定できることが示されている。 乱流のような複雑な流体力学を理解するための潜在的に代替的なアプローチであり、従来の数学的物理学の手法を用いてモデル化することは困難である。

Deep learning has shown great potential for modeling the physical dynamics of complex particle systems such as fluids (in Lagrangian descriptions). Existing approaches, however, require the supervision of consecutive particle properties, including positions and velocities. In this paper, we consider a partially observable scenario known as fluid dynamics grounding, that is, inferring the state transitions and interactions within the fluid particle systems from sequential visual observations of the fluid surface. We propose a differentiable two-stage network named NeuroFluid. Our approach consists of (i) a particle-driven neural renderer, which involves fluid physical properties into the volume rendering function, and (ii) a particle transition model optimized to reduce the differences between the rendered and the observed images. NeuroFluid provides the first solution to unsupervised learning of particle-based fluid dynamics by training these two models jointly. It is shown to reasonably estimate the underlying physics of fluids with different initial shapes, viscosity, and densities. It is a potential alternative approach to understanding complex fluid mechanics, such as turbulence, that are difficult to model using traditional methods of mathematical physics.
翻訳日:2022-03-04 21:52:08 公開日:2022-03-03
# (参考訳) 雑音画像認識のためのランダム量子ニューラルネットワーク(RQNN)

Random Quantum Neural Networks (RQNN) for Noisy Image Recognition ( http://arxiv.org/abs/2203.01764v1 )

ライセンス: CC BY-SA 4.0
Debanjan Konar, Erol Gelenbe, Soham Bhandary, Aditya Das Sarma, and Attila Cangi(参考訳) 古典的ランダムニューラルネットワーク(RNN)は、意思決定、信号処理、画像認識タスクに有効な応用を実証している。 しかし、それらの実装はランダムなスパイキング信号の確率的挙動の代わりに確率分布を出力する決定論的デジタルシステムに限られている。 我々は、スパイクRNNのランダム性をよりよく活用するための堅牢なトレーニング戦略を備えた、教師付きランダム量子ニューラルネットワーク(RQNN)のクラスを紹介する。 提案するrqnnは、量子情報理論とニューロン情報エンコーディングの空間-時空間的確率的スパイク特性に触発された重畳状態と振幅符号化特性を持つハイブリッド古典量子アルゴリズムを用いる。 提案するrqnnモデルを広範囲に検証し,限られた数の \emph{qubits} を持つpennylane量子シミュレータによるハイブリッド古典量子アルゴリズムを用いて検証した。 MNIST、FashionMNIST、KMNISTデータセットの実験により、提案されたRQNNモデルは平均分類精度が94.9 %$であることを示した。 さらに、実験結果は、古典的(RNN)、古典的スパイキングニューラルネットワーク(SNN)、古典的畳み込みニューラルネットワーク(AlexNet)と比較して画像分類精度が向上し、ノイズの多い環境でのRQNNの有効性とレジリエンスが示された。 さらに、RQNNはノイズに対処でき、NISQデバイスにおけるコンピュータビジョンを含む様々なアプリケーションに有用である。 PyTorchのコード(https://github.com/darthsimpus/RQN)はGitHubで公開されている。

Classical Random Neural Networks (RNNs) have demonstrated effective applications in decision making, signal processing, and image recognition tasks. However, their implementation has been limited to deterministic digital systems that output probability distributions in lieu of stochastic behaviors of random spiking signals. We introduce the novel class of supervised Random Quantum Neural Networks (RQNNs) with a robust training strategy to better exploit the random nature of the spiking RNN. The proposed RQNN employs hybrid classical-quantum algorithms with superposition state and amplitude encoding features, inspired by quantum information theory and the brain's spatial-temporal stochastic spiking property of neuron information encoding. We have extensively validated our proposed RQNN model, relying on hybrid classical-quantum algorithms via the PennyLane Quantum simulator with a limited number of \emph{qubits}. Experiments on the MNIST, FashionMNIST, and KMNIST datasets demonstrate that the proposed RQNN model achieves an average classification accuracy of $94.9\%$. Additionally, the experimental findings illustrate the proposed RQNN's effectiveness and resilience in noisy settings, with enhanced image classification accuracy when compared to the classical counterparts (RNNs), classical Spiking Neural Networks (SNNs), and the classical convolutional neural network (AlexNet). Furthermore, the RQNN can deal with noise, which is useful for various applications, including computer vision in NISQ devices. The PyTorch code (https://github.com/darthsimpus/RQN) is made available on GitHub to reproduce the results reported in this manuscript.
翻訳日:2022-03-04 21:35:04 公開日:2022-03-03
# (参考訳) PeerSum: 抽象的マルチドキュメント要約のためのピアレビューデータセット

PeerSum: A Peer Review Dataset for Abstractive Multi-document Summarization ( http://arxiv.org/abs/2203.01769v1 )

ライセンス: CC BY 4.0
Miao Li, Jianzhong Qi, Jey Han Lau(参考訳) 我々は,科学論文のピアレビューを用いた新しいmdsデータセットであるpeersumを提案する。 我々のデータセットは既存のMDSデータセットと異なり、私たちの要約(メタレビュー)は非常に抽象的で、ソースドキュメント(レビュー)の真の要約であり、ソースドキュメント間の相違も特徴である。 現在最先端のMDSモデルは、PeerSumの高品質なサマリーを生成するのに苦労しており、新しい研究機会を提供しています。

We present PeerSum, a new MDS dataset using peer reviews of scientific publications. Our dataset differs from the existing MDS datasets in that our summaries (i.e., the meta-reviews) are highly abstractive and they are real summaries of the source documents (i.e., the reviews) and it also features disagreements among source documents. We found that current state-of-the-art MDS models struggle to generate high-quality summaries for PeerSum, offering new research opportunities.
翻訳日:2022-03-04 21:13:17 公開日:2022-03-03
# (参考訳) 強度画像に基づくライダーfiducial markerシステム

Intensity Image-based LiDAR Fiducial Marker System ( http://arxiv.org/abs/2203.01816v1 )

ライセンス: CC BY 4.0
Yibo Liu, Hunter Schofield, Jinjun Shan(参考訳) LiDARのフィデューシャルマーカーシステムはロボット応用には不可欠だが、現時点では稀である。 本稿では,強度画像に基づくlidar fiducial marker (iilfm) システムを開発した。 このシステムは入力として強度を持つ非構造点雲のみを必要とし、マーカー配置や形状に制限はない。 インテンシティ画像を介してポイントクラウド内の予め定義された3次元フィドシアムを探索するマーカー検出方法を導入する。 そして、検出された3D画像を利用して世界座標系からLiDAR座標系への伝達を記述するLiDAR 6-DOFポーズを推定する手法を開発した。 さらに、これらのプロセスはすべてリアルタイムで実行される(Livox Mid-40では40Hz、VLP-16では143Hz)。 定性的,定量的な実験を行い,従来の視覚計測マーカーシステムと同様の利便性と精度を実証した。 コードと結果は、https://github.com/York-SDCNLab/IILFMで公開されている。

The fiducial marker system for LiDAR is crucial for the robotic application but it is still rare to date. In this paper, an Intensity Image-based LiDAR Fiducial Marker (IILFM) system is developed. This system only requires an unstructured point cloud with intensity as the input and it has no restriction on marker placement and shape. A marker detection method that locates the predefined 3D fiducials in the point cloud through the intensity image is introduced. Then, an approach that utilizes the detected 3D fiducials to estimate the LiDAR 6-DOF pose that describes the transmission from the world coordinate system to the LiDAR coordinate system is developed. Moreover, all these processes run in real-time (approx 40 Hz on Livox Mid-40 and approx 143 Hz on VLP-16). Qualitative and quantitative experiments are conducted to demonstrate that the proposed system has similar convenience and accuracy as the conventional visual fiducial marker system. The codes and results are available at: https://github.com/York-SDCNLab/IILFM.
翻訳日:2022-03-04 21:05:29 公開日:2022-03-03
# (参考訳) 対話グラフと人的軌道予測を用いた社会認識型ロボット群ナビゲーション

Socially Aware Robot Crowd Navigation with Interaction Graphs and Human Trajectory Prediction ( http://arxiv.org/abs/2203.01821v1 )

ライセンス: CC BY 4.0
Shuijing Liu, Peixin Chang, Zhe Huang, Neeloy Chakraborty, Weihang Liang, Junyi Geng, and Katherine Driggs-Campbell(参考訳) 我々は、密集した対話的な人間の群集における安全で社会的に認識されるロボットナビゲーションの問題を研究する。 従来の作業では、歩行者の個人空間をモデル化し、ロボットの行動の社会的コンプライアンスを無視するための簡易な手法を使用していた。 本稿では,歩行歩行者の個人的空間をより正確に表現し,その将来性について述べる。 予測されたパーソナルゾーンは強化学習フレームワークに組み込まれ、ロボットがパーソナルゾーンに侵入することを防ぐ。 社会的に認識されたナビゲーションポリシーを学習するために、空間と時間を通してエージェント間の相互作用をキャプチャする注意機構を備えた新しいグラフニューラルネットワークを提案する。 本手法は,群集ナビゲーションのシナリオにおいて,ロボットが優れたナビゲーション性能と非侵襲性を達成できることを実証する。 シミュレータで学んだポリシーを現実世界のTurtleBot 2iに転送することに成功した。

We study the problem of safe and socially aware robot navigation in dense and interactive human crowds. Previous works use simplified methods to model the personal spaces of pedestrians and ignore the social compliance of the robot behaviors. In this paper, we provide a more accurate representation of personal zones of walking pedestrians with their future trajectories. The predicted personal zones are incorporated into a reinforcement learning framework to prevent the robot from intruding into the personal zones. To learn socially aware navigation policies, we propose a novel recurrent graph neural network with attention mechanisms to capture the interactions among agents through space and time. We demonstrate that our method enables the robot to achieve good navigation performance and non-invasiveness in challenging crowd navigation scenarios. We successfully transfer the policy learned in the simulator to a real-world TurtleBot 2i.
翻訳日:2022-03-04 20:50:07 公開日:2022-03-03
# (参考訳) 木型線形構造因果モデルにおける同定

Identification in Tree-shaped Linear Structural Causal Models ( http://arxiv.org/abs/2203.01852v1 )

ライセンス: CC BY 4.0
Benito van der Zander, Marcel Wien\"obst, Markus Bl\"aser, Maciej Li\'skiewicz(参考訳) 線形構造方程式モデルは、直接因果効果を有向エッジとして、共起因子を有向エッジとして表現する。 オープンな問題は、ノード間の相関から因果パラメータを特定することである。 我々は,有向成分が木を形成するモデルを調査し,古典的インストゥルメンタル変数の他に,二方向エッジの欠落サイクルを用いてモデルを特定することができることを示す。 隣り合う有向エッジの因果パラメータの1つまたは2つの解を得るために、明確に解ける二次方程式の系が得られる。 複数の欠落サイクルを組み合わせることで、一意な解を得る方法を示す。 これにより、以前に必要であったgr\"obner基底に基づくアプローチのインスタンスを識別できるアルゴリズムが作成され、構造パラメータの数の2倍の時間複雑性を持つ。

Linear structural equation models represent direct causal effects as directed edges and confounding factors as bidirected edges. An open problem is to identify the causal parameters from correlations between the nodes. We investigate models, whose directed component forms a tree, and show that there, besides classical instrumental variables, missing cycles of bidirected edges can be used to identify the model. They can yield systems of quadratic equations that we explicitly solve to obtain one or two solutions for the causal parameters of adjacent directed edges. We show how multiple missing cycles can be combined to obtain a unique solution. This results in an algorithm that can identify instances that previously required approaches based on Gr\"obner bases, which have doubly-exponential time complexity in the number of structural parameters.
翻訳日:2022-03-04 20:33:05 公開日:2022-03-03
# (参考訳) 逆強化学習を改善するための対物関係の推論

Reasoning about Counterfactuals to Improve Human Inverse Reinforcement Learning ( http://arxiv.org/abs/2203.01855v1 )

ライセンス: CC BY 4.0
Michael S. Lee, Henny Admoni, Reid Simmons(参考訳) ロボットとうまく協力するには、意思決定を理解する必要があります。 人間は自然に他のエージェントの信念や欲求を、逆強化学習(IRL)に似た方法で観察可能な振る舞いを推論することによって推測する。 これにより、ロボットは人間のIRLに有益な実演を提供することで、信念や欲求を伝えることができる。 情報的なデモンストレーションは、ロボットの意思決定に対する現在の理解からロボットが何をするかという学習者の期待とは大きく異なるものである。 しかし、標準IRLは学習者の既存の期待をモデル化していないため、この逆の推論はできない。 ロボットが人間の理解を最大化するためのデモを選択できるように,ロボットの意思決定に関する学習者の現在の理解を人間のirlのモデルに組み込むことを提案する。 また,人間が見えない環境下でのロボットの動作を予測しにくいことを推定するための新しい尺度を提案する。 ユーザ調査によると、テストの難易度は、人間のパフォーマンスと信頼性とよく相関している。 興味深いことに、デモを選択する際の人間の信念や反事実を考えると、簡単なテストでは人間のパフォーマンスは低下するが、難しいテストではパフォーマンスが向上し、モデルをどのように活用するかについての洞察が得られる。

To collaborate well with robots, we must be able to understand their decision making. Humans naturally infer other agents' beliefs and desires by reasoning about their observable behavior in a way that resembles inverse reinforcement learning (IRL). Thus, robots can convey their beliefs and desires by providing demonstrations that are informative for a human's IRL. An informative demonstration is one that differs strongly from the learner's expectations of what the robot will do given their current understanding of the robot's decision making. However, standard IRL does not model the learner's existing expectations, and thus cannot do this counterfactual reasoning. We propose to incorporate the learner's current understanding of the robot's decision making into our model of human IRL, so that our robot can select demonstrations that maximize the human's understanding. We also propose a novel measure for estimating the difficulty for a human to predict instances of a robot's behavior in unseen environments. A user study finds that our test difficulty measure correlates well with human performance and confidence. Interestingly, considering human beliefs and counterfactuals when selecting demonstrations decreases human performance on easy tests, but increases performance on difficult tests, providing insight on how to best utilize such models.
翻訳日:2022-03-04 19:50:41 公開日:2022-03-03
# (参考訳) 社会的な文脈では世界は違うように見える:人間の実験データのニューラルネットワーク分析

The world seems different in a social context: a neural network analysis of human experimental data ( http://arxiv.org/abs/2203.01862v1 )

ライセンス: CC BY 4.0
Maria Tsfasman, Anja Philippsen, Carlo Mazzola, Serge Thill, Alessandra Sciutti, Yukie Nagai(参考訳) 人間の知覚と行動は状況的文脈、特に社会的相互作用によって影響を受ける。 最近の研究では、人間が自分でやるか、ロボットと一緒に行うかによって、視覚刺激を知覚することが示されている。 特に, 中心的傾向効果は非社会的課題設定よりも社会的に強いことがわかった。 しかし、そのような行動の変化が社会的相互作用によって引き起こされる特定の性質と、その基礎となる人間の脳の認知過程は、いまだによく理解されていない。 本稿では,上記の行動データ集合の予測符号化理論に触発された人工ニューラルネットワークを訓練することで,この問題に対処する。 この計算モデルを用いて、人間の実験における状況によって引き起こされた行動の変化が、感覚や先行情報が知覚にどのような影響を与えるかを示すパラメータの連続的な修正によって説明できるかどうかを検討する。 先行的・知覚的信号の精度を変化させることで,人間の行動データを個人および社会的なタスク設定の両方で再現することが可能であることを実証し,社会的・非社会的なタスク設定が実際に連続体上に存在する可能性を示唆する。 同時に、トレーニングされたネットワークの神経活性化トレースの分析は、個人や社会的条件において、情報が根本的に異なる方法でコード化されていることを示す。 本研究は,共有知覚の認知メカニズムに関する仮説を生成するための行動データの計算的複製の重要性を強調し,神経科学の分野でのフォローアップ研究にインスピレーションを与える可能性がある。

Human perception and behavior are affected by the situational context, in particular during social interactions. A recent study demonstrated that humans perceive visual stimuli differently depending on whether they do the task by themselves or together with a robot. Specifically, it was found that the central tendency effect is stronger in social than in non-social task settings. The particular nature of such behavioral changes induced by social interaction, and their underlying cognitive processes in the human brain are, however, still not well understood. In this paper, we address this question by training an artificial neural network inspired by the predictive coding theory on the above behavioral data set. Using this computational model, we investigate whether the change in behavior that was caused by the situational context in the human experiment could be explained by continuous modifications of a parameter expressing how strongly sensory and prior information affect perception. We demonstrate that it is possible to replicate human behavioral data in both individual and social task settings by modifying the precision of prior and sensory signals, indicating that social and non-social task settings might in fact exist on a continuum. At the same time an analysis of the neural activation traces of the trained networks provides evidence that information is coded in fundamentally different ways in the network in the individual and in the social conditions. Our results emphasize the importance of computational replications of behavioral data for generating hypotheses on the underlying cognitive mechanisms of shared perception and may provide inspiration for follow-up studies in the field of neuroscience.
翻訳日:2022-03-04 19:34:46 公開日:2022-03-03
# (参考訳) latentformer:マルチエージェントトランスベースインタラクションモデリングと軌道予測

LatentFormer: Multi-Agent Transformer-Based Interaction Modeling and Trajectory Prediction ( http://arxiv.org/abs/2203.01880v1 )

ライセンス: CC BY 4.0
Elmira Amirloo, Amir Rasouli, Peter Lakner, Mohsen Rohani, Jun Luo(参考訳) マルチエージェント軌道予測は自動運転の基本的な問題である。 予測における重要な課題は、周囲のエージェントの振る舞いを正確に予測し、シーンコンテキストを理解することである。 そこで本研究では, 将来の車両軌跡予測のためのトランスフォーマモデルである latentformer を提案する。 提案手法はシーン内の動的オブジェクト間の相互作用をモデル化する新しい手法を利用する。 観測時間中にクロスエージェント相互作用をモデル化する既存のアプローチとは対照的に、この手法はエージェントの将来状態も活用する。 これは、エージェントの進化状態が最終予測における過去の軌跡やシーンエンコーディングの貢献を自己回帰的に制御する階層的な注意機構を用いて達成される。 さらに,視覚トランスフォーマーモジュールを用いて,局所的および大域的なシーンコンテキストを効果的にキャプチャし,より許容可能な将来のトラジェクタ生成を導くマルチレゾリューションマップ符号化方式を提案する。 提案手法をnuscenesベンチマークデータセット上で評価し,提案手法が最先端性能を達成し,軌道指標を最大40%向上させることを示す。 さらに,広範囲なアブレーション研究を通じて,提案手法の各種成分の寄与について検討した。

Multi-agent trajectory prediction is a fundamental problem in autonomous driving. The key challenges in prediction are accurately anticipating the behavior of surrounding agents and understanding the scene context. To address these problems, we propose LatentFormer, a transformer-based model for predicting future vehicle trajectories. The proposed method leverages a novel technique for modeling interactions among dynamic objects in the scene. Contrary to many existing approaches which model cross-agent interactions during the observation time, our method additionally exploits the future states of the agents. This is accomplished using a hierarchical attention mechanism where the evolving states of the agents autoregressively control the contributions of past trajectories and scene encodings in the final prediction. Furthermore, we propose a multi-resolution map encoding scheme that relies on a vision transformer module to effectively capture both local and global scene context to guide the generation of more admissible future trajectories. We evaluate the proposed method on the nuScenes benchmark dataset and show that our approach achieves state-of-the-art performance and improves upon trajectory metrics by up to 40%. We further investigate the contributions of various components of the proposed technique via extensive ablation studies.
翻訳日:2022-03-04 19:06:35 公開日:2022-03-03
# (参考訳) マルチモーダル単一セルデータ統合のためのグラフニューラルネットワーク

Graph Neural Networks for Multimodal Single-Cell Data Integration ( http://arxiv.org/abs/2203.01884v1 )

ライセンス: CC BY 4.0
Hongzhi Wen, Jiayuan Ding, Wei Jin, Yuying Xie, Jiliang Tang(参考訳) 近年のマルチモーダル単一細胞技術の発展により、同じ細胞から複数のオミクスデータを同時に取得することが可能となり、細胞状態やダイナミクスに関する深い洞察が得られている。 しかし、マルチモーダルデータから共同表現を学習し、モダリティ間の関係をモデル化することは困難であり、さらに重要なのは、大量の単一モーダルデータセットを下流分析に組み込むことである。 これらの課題に対処し、マルチモーダルなシングルセルデータ解析を容易にするために、$\textit{modality prediction}$、$\textit{modality matching}$、$\textit{joint embedded}$という3つの重要なタスクが導入されている。 本稿では,これらの3つのタスクに対処する汎用グラフニューラルネットワークフレームワークである $\textit{scMoGNN}$ を示し,この $\textit{scMoGNN}$ が,最先端および従来のアプローチと比較して,3つのタスクすべてにおいて優れた結果を示す。 この方法は、$\href{https://openproblems.bio/neurips_2021/}{\textit{neurips 2021 competition}}$から$\textit{modality prediction}$のランキングで公式の勝者です。

Recent advances in multimodal single-cell technologies have enabled simultaneous acquisitions of multiple omics data from the same cell, providing deeper insights into cellular states and dynamics. However, it is challenging to learn the joint representations from the multimodal data, model the relationship between modalities, and, more importantly, incorporate the vast amount of single-modality datasets into the downstream analyses. To address these challenges and correspondingly facilitate multimodal single-cell data analyses, three key tasks have been introduced: $\textit{modality prediction}$, $\textit{modality matching}$ and $\textit{joint embedding}$. In this work, we present a general Graph Neural Network framework $\textit{scMoGNN}$ to tackle these three tasks and show that $\textit{scMoGNN}$ demonstrates superior results in all three tasks compared with the state-of-the-art and conventional approaches. Our method is an official winner in the overall ranking of $\textit{modality prediction}$ from $\href{https://openproblems.bio/neurips_2021/}{\textit{NeurIPS 2021 Competition}}$.
翻訳日:2022-03-04 18:52:16 公開日:2022-03-03
# (参考訳) 政策イテレーションによる量子強化学習

Quantum Reinforcement Learning via Policy Iteration ( http://arxiv.org/abs/2203.01889v1 )

ライセンス: CC BY 4.0
El Amine Cherrat and Iordanis Kerenidis and Anupam Prakash(参考訳) 量子コンピューティングは、特に教師なしおよび教師なし学習において、機械学習アプリケーションを大幅にスピードアップする可能性を示している。 一方, 意思決定問題の解決には強化学習が不可欠であり, 政策反復法がそのような手法の基礎となっている。 本稿では,ポリシーイテレーションを通じて量子強化学習を行うための汎用フレームワークを提案する。 この枠組みを設計・解析することにより検証する: \emph{quantum policy evaluation} 法: \emph{quantum policy evaluation} 法:$\pi$ の値関数をエンコードする量子状態を構築し、これらの量子状態に対する後処理測定結果による \emph{quantum policy improvement} 法。 最後に,OpenAI の Gym を用いた2つの環境における量子アルゴリズムの理論的および実験的性能について検討した。

Quantum computing has shown the potential to substantially speed up machine learning applications, in particular for supervised and unsupervised learning. Reinforcement learning, on the other hand, has become essential for solving many decision making problems and policy iteration methods remain the foundation of such approaches. In this paper, we provide a general framework for performing quantum reinforcement learning via policy iteration. We validate our framework by designing and analyzing: \emph{quantum policy evaluation} methods for infinite horizon discounted problems by building quantum states that approximately encode the value function of a policy $\pi$; and \emph{quantum policy improvement} methods by post-processing measurement outcomes on these quantum states. Last, we study the theoretical and experimental performance of our quantum algorithms on two environments from OpenAI's Gym.
翻訳日:2022-03-04 18:30:15 公開日:2022-03-03
# (参考訳) コントラスト対応訓練によるツイートのヘルスメンション分類の改善

Improving Health Mentioning Classification of Tweets using Contrastive Adversarial Training ( http://arxiv.org/abs/2203.01895v1 )

ライセンス: CC0 1.0
Pervaiz Iqbal Khan, Shoaib Ahmed Siddiqui, Imran Razzak, Andreas Dengel, and Sheraz Ahmed(参考訳) health mentioning classification (hmc) は、入力テキストをhealth mention or notと分類する。 病語への比定的かつ非健康的な言及は分類課題を困難にする。 入力テキストのコンテキストを学ぶことが、この問題の鍵となる。 そのアイデアは、周囲の単語で単語の表現を学習し、テキスト中の絵文字を使って分類結果を改善することにある。 本稿では,モデルの微調整時にレギュラライザとして機能する逆訓練を用いて,入力テキストの単語表現を改善する。 モデルの埋め込みを摂動し、クリーンな例と反対の例のペアでモデルをトレーニングすることで、逆の例を生成します。 さらに,一対の清潔かつ摂動的な例を互いに接近させ,他の例を表現空間から遠ざけるコントラスト的損失を利用する。 我々は、PHM2017データセットの拡張バージョン上で、この手法を訓練し、評価する。 実験では、BERT-Largeベースラインが1.0%、RoBERTa-Largeベースラインが0.6%、F1スコアが5.8%となっている。 さらに,説明可能なaiのパワーを利用して,結果を簡潔に分析する。

Health mentioning classification (HMC) classifies an input text as health mention or not. Figurative and non-health mention of disease words makes the classification task challenging. Learning the context of the input text is the key to this problem. The idea is to learn word representation by its surrounding words and utilize emojis in the text to help improve the classification results. In this paper, we improve the word representation of the input text using adversarial training that acts as a regularizer during fine-tuning of the model. We generate adversarial examples by perturbing the embeddings of the model and then train the model on a pair of clean and adversarial examples. Additionally, we utilize contrastive loss that pushes a pair of clean and perturbed examples close to each other and other examples away in the representation space. We train and evaluate the method on an extended version of the publicly available PHM2017 dataset. Experiments show an improvement of 1.0% over BERT-Large baseline and 0.6% over RoBERTa-Large baseline, whereas 5.8% over the state-of-the-art in terms of F1 score. Furthermore, we provide a brief analysis of the results by utilizing the power of explainable AI.
翻訳日:2022-03-04 17:58:02 公開日:2022-03-03
# (参考訳) 森林操業における自動ロググラッピングのための事例分割

Instance Segmentation for Autonomous Log Grasping in Forestry Operations ( http://arxiv.org/abs/2203.01902v1 )

ライセンス: CC BY 4.0
Jean-Michel Fortin, Olivier Gamache, Vincent Grondin, Fran\c{c}ois Pomerleau, Philippe Gigu\`ere(参考訳) 木ログのピッキングは自動化が難しいタスクです。 実際、ログは通常乱雑な構成で、ランダムに向き付けされ、重複する。 ログの抽出自動化に関する最近の研究は通常、ログのポーズが知られていると仮定するが、実際の知覚問題はほとんど考慮されていない。 本稿では,データ駆動型アプローチを用いて,後者を正則に扱う。 まず、woodingseg 1.0という新しいデータセットを紹介し、ログ用のバウンディングボックスとピクセルレベルのマスクアノテーションの両方を含む、密に注釈付きです。 このデータセットは、2500個の個別セグメントログを持つ220の画像からなる。 このデータセットを用いて,個々のログ検出とセグメンテーションのタスクにおける3つのニューラルネットワークアーキテクチャを比較した。 当然のことながら、我々の結果は、ログの方向性を考慮していない軸整列提案が19.03mAPで不十分であることを示している。 ローテーション対応の提案法では、結果が31.83 mAPに大幅に改善された。 さらに興味深いことに、Transformerベースのアプローチでは、回転に対する誘導バイアスがなく、他の2つよりも優れており、私たちのデータセットで57.53のmAPを達成した。 我々のユースケースは、散らばった細長いオブジェクトに対する領域ベースのアプローチの限界を示す。 また、この特定のタスクにおける注意に基づく手法の可能性を強調し、ピクセルレベルで直接作業する。 これらの奨励的な結果は、このような認識システムが、オペレーターの短期的支援や、将来のログ抽出操作の完全自動化に利用できることを示している。

Wood logs picking is a challenging task to automate. Indeed, logs usually come in cluttered configurations, randomly orientated and overlapping. Recent work on log picking automation usually assume that the logs' pose is known, with little consideration given to the actual perception problem. In this paper, we squarely address the latter, using a data-driven approach. First, we introduce a novel dataset, named TimberSeg 1.0, that is densely annotated, i.e., that includes both bounding boxes and pixel-level mask annotations for logs. This dataset comprises 220 images with 2500 individually segmented logs. Using our dataset, we then compare three neural network architectures on the task of individual logs detection and segmentation; two region-based methods and one attention-based method. Unsurprisingly, our results show that axis-aligned proposals, failing to take into account the directional nature of logs, underperform with 19.03 mAP. A rotation-aware proposal method significantly improve results to 31.83 mAP. More interestingly, a Transformer-based approach, without any inductive bias on rotations, outperformed the two others, achieving a mAP of 57.53 on our dataset. Our use case demonstrates the limitations of region-based approaches for cluttered, elongated objects. It also highlights the potential of attention-based methods on this specific task, as they work directly at the pixel-level. These encouraging results indicate that such a perception system could be used to assist the operators on the short-term, or to fully automate log picking operations in the future.
翻訳日:2022-03-04 17:44:25 公開日:2022-03-03
# (参考訳) 関係性への注意:分散多重ネットワークのためのマルチ埋め込み

Pay Attention to Relations: Multi-embeddings for Attributed Multiplex Networks ( http://arxiv.org/abs/2203.01903v1 )

ライセンス: CC BY 4.0
Joshua Melton, Michael Ridenhour, and Siddharth Krishnan(参考訳) グラフ畳み込みニューラルネットワーク(gcns)は、ノード分類、リンク予測、コミュニティ検出など、多くの下流ネットワークマイニングタスクにおいて効果的な機械学習アルゴリズムとなっている。 しかし、ほとんどのGCN法は同種ネットワーク向けに開発されており、各ノードに1つの埋め込みに限られている。 複雑なシステムは、しばしば異種多重ネットワークで表されるが、GCNモデルでは困難であり、そのような技術はノード間で発生する多様なコンテキストや様々な相互作用を捉える必要がある。 本稿では,ヘテロジニアス・マルチプレックス・ネットワークのための新しい統一的関係認識埋め込みフレームワークであるrahmenを提案する。 本モデルでは,ノード属性,モチーフに基づく特徴量,関係性に基づくGCNアプローチ,関係性自己アテンションを組み込んで,異種多重ネットワークにおけるノードの埋め込みを学習する。 従来の作業とは対照的に、rahmenはより表現力に富んだ埋め込みフレームワークであり、そのようなネットワーク内のノードの多面的な性質を取り入れ、多様なノードのコンテキストをキャプチャするマルチエンベディングのセットを生成する。 我々は,Amazon,Twitter,YouTube,Tio PPIの4つの実世界のデータセットを,トランスダクティブおよびインダクティブの両方で評価した。 以上の結果から,RAHMeNは同等の最先端ネットワーク埋め込みモデルより一貫して優れており,RAHMeNの自己アテンション解析により異種多重ネットワークに存在する関係間の相互関係が明らかとなった。

Graph Convolutional Neural Networks (GCNs) have become effective machine learning algorithms for many downstream network mining tasks such as node classification, link prediction, and community detection. However, most GCN methods have been developed for homogenous networks and are limited to a single embedding for each node. Complex systems, often represented by heterogeneous, multiplex networks present a more difficult challenge for GCN models and require that such techniques capture the diverse contexts and assorted interactions that occur between nodes. In this work, we propose RAHMeN, a novel unified relation-aware embedding framework for attributed heterogeneous multiplex networks. Our model incorporates node attributes, motif-based features, relation-based GCN approaches, and relational self-attention to learn embeddings of nodes with respect to the various relations in a heterogeneous, multiplex network. In contrast to prior work, RAHMeN is a more expressive embedding framework that embraces the multi-faceted nature of nodes in such networks, producing a set of multi-embeddings that capture the varied and diverse contexts of nodes. We evaluate our model on four real-world datasets from Amazon, Twitter, YouTube, and Tissue PPIs in both transductive and inductive settings. Our results show that RAHMeN consistently outperforms comparable state-of-the-art network embedding models, and an analysis of RAHMeN's relational self-attention demonstrates that our model discovers interpretable connections between relations present in heterogeneous, multiplex networks.
翻訳日:2022-03-04 17:29:13 公開日:2022-03-03
# (参考訳) Min-Max Bilevel Multi-Objective Optimizationと機械学習への応用

Min-Max Bilevel Multi-objective Optimization with Applications in Machine Learning ( http://arxiv.org/abs/2203.01924v1 )

ライセンス: CC BY 4.0
Alex Gu, Songtao Lu, Parikshit Ram, Lily Weng(参考訳) 本稿では,表現学習とハイパーパラメータ最適化の応用を強調する,汎用的min-max多目的最適化フレームワークを提案する。 メタラーニング、マルチタスク学習、表現学習といった多くの機械学習アプリケーションでは、パラメータのサブセットはすべてのタスクで共有され、各タスクは独自のパラメータセットを持っている。 非凸min-max最適化の最近の進歩を活かし,すべてのタスクに対して頑健な共有パラメータのセットを抽出し,さらにトレーニングとテストタスク間の分散シフトを克服できる,勾配下降2レベル最適化(morbit)アルゴリズムを提案する。 理論的解析によれば、MORBiT は非凸問題のクラスに対して $\mathcal{O}(\sqrt{n}K^{-2/5})$ の速度で一階定常点に収束し、$K$ は反復の総数を表し、$n$ はタスクの数を表す。 全体として、min-max二値多目的最適化問題を定式化し、収束率保証付き単一ループ2時間スケールアルゴリズムを提供し、最適化器の一般化能力に関する理論的境界を示す。 正弦波回帰と表現学習の実験結果は、最先端法よりもモービットが優れていることを示し、我々の収束と一般化の結果を検証する。

This paper is the first to propose a generic min-max bilevel multi-objective optimization framework, highlighting applications in representation learning and hyperparameter optimization. In many machine learning applications such as meta-learning, multi-task learning, and representation learning, a subset of the parameters are shared by all the tasks, while each specific task has its own set of additional parameters. By leveraging the recent advances of nonconvex min-max optimization, we propose a gradient descent-ascent bilevel optimization (MORBiT) algorithm which is able to extract a set of shared parameters that is robust over all tasks and further overcomes the distributional shift between training and testing tasks. Theoretical analyses show that MORBiT converges to the first-order stationary point at a rate of $\mathcal{O}(\sqrt{n}K^{-2/5})$ for a class of nonconvex problems, where $K$ denotes the total number of iterations and $n$ denotes the number of tasks. Overall, we formulate a min-max bilevel multi-objective optimization problem, provide a single loop two-timescale algorithm with convergence rate guarantees, and show theoretical bounds on the generalization abilities of the optimizer. Experimental results on sinusoid regression and representation learning showcase the superiority of MORBiT over state-of-the-art methods, validating our convergence and generalization results.
翻訳日:2022-03-04 17:12:24 公開日:2022-03-03
# ディープラーニングに基づくSPECT復調手法の限界性能の検討:オブザーバ-スタディに基づく評価

Investigating the limited performance of a deep-learning-based SPECT denoising approach: An observer-study-based characterization ( http://arxiv.org/abs/2203.01918v1 )

ライセンス: Link先を確認
Zitong Yu and Md Ashequr Rahman and Abhinav K. Jha(参考訳) 画像品質に基づく複数の客観的評価では、深層学習に基づく認知法が信号検出タスクにおいて限られた性能を示すことが報告されている。 私たちの目標は、この限られたパフォーマンスの理由を調べることです。 この目的を達成するために,dlに基づく個別信号特性の分別手法をタスクベースで評価した。 本研究は, SPECT画像の denoising におけるDL-based approach の評価の文脈において行った。 トレーニングデータは,2次元パラレルホールコリメータspectシステムを用いて撮影された,クラスタ化されたラピー背景内の異なる大きさと形状の信号からなる。 プロジェクションは正常値と20%低い値で生成され、どちらもOSEMアルゴリズムを用いて再構成された。 CNNベースのデノイザは、ローカウント画像を処理するために訓練された。 このCNNの性能は、SKE/BKS信号検出タスクとして各評価を設計することで、5つの異なる信号サイズと4つの異なるSBRで特徴づけられた。 この課題における性能は擬人化調を用いて評価された。 先行研究と同様に,dlに基づく除音法は信号検出タスクの性能を向上しなかった。 オブザーバ・スタディに基づく特徴付けの考え方を用いた評価では,DLに基づく復調手法はいずれかの信号タイプに対する信号検出タスクの性能を向上しなかった。 これらの結果から,信号サイズとコントラストの関数として,DLに基づく denoising 手法の性能に関する新たな知見が得られた。 より一般的には、観察者による評価は、特定の対象特性に対する手法の感度を評価するメカニズムを提供し、線形系に対する変調伝達関数のような特性に類似して研究される。 最後に、この研究はdlベースの分別アプローチを客観的にタスクベースで評価することの必要性を強調する。

Multiple objective assessment of image-quality-based studies have reported that several deep-learning-based denoising methods show limited performance on signal-detection tasks. Our goal was to investigate the reasons for this limited performance. To achieve this goal, we conducted a task-based characterization of a DL-based denoising approach for individual signal properties. We conducted this study in the context of evaluating a DL-based approach for denoising SPECT images. The training data consisted of signals of different sizes and shapes within a clustered-lumpy background, imaged with a 2D parallel-hole-collimator SPECT system. The projections were generated at normal and 20% low count level, both of which were reconstructed using an OSEM algorithm. A CNN-based denoiser was trained to process the low-count images. The performance of this CNN was characterized for five different signal sizes and four different SBR by designing each evaluation as an SKE/BKS signal-detection task. Performance on this task was evaluated using an anthropomorphic CHO. As in previous studies, we observed that the DL-based denoising method did not improve performance on signal-detection tasks. Evaluation using the idea of observer-study-based characterization demonstrated that the DL-based denoising approach did not improve performance on the signal-detection task for any of the signal types. Overall, these results provide new insights on the performance of the DL-based denoising approach as a function of signal size and contrast. More generally, the observer study-based characterization provides a mechanism to evaluate the sensitivity of the method to specific object properties and may be explored as analogous to characterizations such as modulation transfer function for linear systems. Finally, this work underscores the need for objective task-based evaluation of DL-based denoising approaches.
翻訳日:2022-03-04 17:09:41 公開日:2022-03-03
# twitter上でのcovid-19反ワクチン談話の自動クラスタリング

Automated clustering of COVID-19 anti-vaccine discourse on Twitter ( http://arxiv.org/abs/2203.01549v1 )

ライセンス: Link先を確認
Ignacio Ojea Quintana and Marc Cheong and Mark Alfano and Ritsaart Reimann and Colin Klein(参考訳) 予防接種に対する態度はますます二極化しており、ワクチンの不正情報や共謀説をオンラインで見るのが一般的である。 Ojea Quintana et al.(2021年)でTwitterワクチンに関する観察的研究が行われ、著者らは、2019年12月から2020年6月までの間に、約6ヶ月のTwitter言論 -- 1.30万のオリジナルツイートと1800万のリツイートを分析した。 この研究は Ojea Quintana et al. (2021) に拡張され、データサイエンスから2つの主要な貢献をしている。 まず、著者らの初期のネットワーククラスタリングと質的分析技術に基づいて、アンチワクチン(抗ワクチンキャンペーンやワクチンデニエ)と他のクラスター(集団的、他)の会話で使われる言語パターンを明確に定義し、可視化することができる。 第二に、Antivaxxersのつぶやきの特徴を用いて、あるユーザーが予防接種言語を使っているかどうかを判断するテキスト分類器を開発し、最終的に、疫病環境の健康を改善し、公衆衛生イニシアチブを加速させる早期警戒メカニズムに寄与する。

Attitudes about vaccination have become more polarized; it is common to see vaccine disinformation and fringe conspiracy theories online. An observational study of Twitter vaccine discourse is found in Ojea Quintana et al. (2021): the authors analyzed approximately six months' of Twitter discourse -- 1.3 million original tweets and 18 million retweets between December 2019 and June 2020, ranging from before to after the establishment of Covid-19 as a pandemic. This work expands upon Ojea Quintana et al. (2021) with two main contributions from data science. First, based on the authors' initial network clustering and qualitative analysis techniques, we are able to clearly demarcate and visualize the language patterns used in discourse by Antivaxxers (anti-vaccination campaigners and vaccine deniers) versus other clusters (collectively, Others). Second, using the characteristics of Antivaxxers' tweets, we develop text classifiers to determine the likelihood a given user is employing anti-vaccination language, ultimately contributing to an early-warning mechanism to improve the health of our epistemic environment and bolster (and not hinder) public health initiatives.
翻訳日:2022-03-04 17:08:39 公開日:2022-03-03
# 表面偏微分方程式を解くための浅部物理学インフォームドニューラルネットワーク

A shallow physics-informed neural network for solving partial differential equations on surfaces ( http://arxiv.org/abs/2203.01581v1 )

ライセンス: Link先を確認
Wei-Fan Hu, Yi-Jun Shih, Te-Sheng Lin, Ming-Chih Lai(参考訳) 本稿では,表面上の偏微分方程式を解くためのメッシュフリー物理形ニューラルネットワークを提案する。 埋め込み手法の考え方に基づき、従来のデカルト微分作用素を用いて基底となる曲面微分方程式を記述する。 レベルセット関数の助けを借りて、表面の正規曲率や平均曲率などの表面幾何量を直接計算し、表面微分式に使用することができる。 したがって、文献で使われる通常の拡張制約を課す代わりに、損失関数のカルト微分式全体を考慮に入れます。 一方で、完全に浅い(一つの隠れ層)ネットワークを採用することで、現在のモデルの実装とトレーニングが容易になります。 複素曲面幾何学における定常および時間依存偏微分方程式の数値実験を行った。 その結果、わずか数百のトレーニング可能なパラメータで、ネットワークモデルが高い予測精度を達成できることが分かりました。

In this paper, we introduce a mesh-free physics-informed neural network for solving partial differential equations on surfaces. Based on the idea of embedding techniques, we write the underlying surface differential equations using conventional Cartesian differential operators. With the aid of level set function, the surface geometrical quantities, such as the normal and mean curvature of the surface, can be computed directly and used in our surface differential expressions. So instead of imposing the normal extension constraints used in literature, we take the whole Cartesian differential expressions into account in our loss function. Meanwhile, we adopt a completely shallow (one hidden layer) network so the present model is easy to implement and train. We perform a series of numerical experiments on both stationary and time-dependent partial differential equations on complicated surface geometries. The result shows that, with just a few hundred trainable parameters, our network model is able to achieve high predictive accuracy.
翻訳日:2022-03-04 17:08:12 公開日:2022-03-03
# 人口ベースSHMにおけるグラフニューラルネットワークの適用について

On an application of graph neural networks in population based SHM ( http://arxiv.org/abs/2203.01646v1 )

ライセンス: Link先を確認
G. Tsialiamanis, C. Mylonas, E. Chatzi, D.J. Wagg, N. Dervilis, K. Worden(参考訳) 人口ベースの構造健康モニタリング(pbshm)の分野では,近年,異なる構造のscmモデル間の知識の伝達が試みられている。 この試みは同種および異種集団に焦点を当てている。 構造間で知識を伝達するより一般的なアプローチは、すべての可算構造を多次元基底多様体上の点として考慮し、ファイバー束を構築することである。 基本多様体の点とそのファイバーの間の写像、任意の構造のポテンシャル状態は学習できるので、この考えは非常に強力である。 より小さなスケールの問題は、しかしそれでも有用であり、全ての繊維の特定の点、すなわち人口内の損傷のない構造の状態に対応する点を学ぶことである。 PBSHMの枠組みでは、上記の問題に対するデータ駆動アプローチが開発されている。 構造はグラフに変換され、グラフニューラルネットワーク(GNN)アルゴリズムを用いて、集団内で推論が試みられる。 このアルゴリズムは、そのようなアプリケーションに存在する大きな問題を解決する。 構造はサイズが異なり、抽象オブジェクトとして定義されるため、不均質な集団内で推論を試みることは自明ではない。 提案手法はトラスをシミュレートした集団で検証した。 この応用の目的は、異なる大きさのトラスの最初の自然周波数を、異なる環境温度と異なるバーメンバータイプで予測することである。 総人口の一部を使ってGNNを訓練した後、トレーニングデータセットに含まれていないトラスでテストされた。 その結果,リグレッションの精度は,ノード数やメンバ数が高い構造においても,トレーニングに使用したものよりも良好であることが判明した。

Attempts have been made recently in the field of population-based structural health monitoring (PBSHM), to transfer knowledge between SHM models of different structures. The attempts have been focussed on homogeneous and heterogeneous populations. A more general approach to transferring knowledge between structures, is by considering all plausible structures as points on a multidimensional base manifold and building a fibre bundle. The idea is quite powerful, since, a mapping between points in the base manifold and their fibres, the potential states of any arbitrary structure, can be learnt. A smaller scale problem, but still useful, is that of learning a specific point of every fibre, i.e. that corresponding to the undamaged state of structures within a population. Under the framework of PBSHM, a data-driven approach to the aforementioned problem is developed. Structures are converted into graphs and inference is attempted within a population, using a graph neural network (GNN) algorithm. The algorithm solves a major problem existing in such applications. Structures comprise different sizes and are defined as abstract objects, thus attempting to perform inference within a heterogeneous population is not trivial. The proposed approach is tested in a simulated population of trusses. The goal of the application is to predict the first natural frequency of trusses of different sizes, across different environmental temperatures and having different bar member types. After training the GNN using part of the total population, it was tested on trusses that were not included in the training dataset. Results show that the accuracy of the regression is satisfactory even in structures with higher number of nodes and members than those used to train it.
翻訳日:2022-03-04 17:07:56 公開日:2022-03-03
# SHM問題の分割と伝達学習の並列性について

On partitioning of an SHM problem and parallels with transfer learning ( http://arxiv.org/abs/2203.01655v1 )

ライセンス: Link先を確認
G. Tsialiamanis, D.J. Wagg, P.A. Gardner, N. Dervilis, K. Worden(参考訳) 本研究では, 構造的健康モニタリング問題に対して, 問題分割アプローチと転校学習を動機とするスキームを適用した。 この場合の特定の問題は航空機の翼に損傷を与えることである。 最初の実験は、ニューラルネットワークが損傷をローカライズするために訓練された最初のアプローチと共に記述された。 結果が理想的ではなかったのは,トレーニングデータの不足と,2件の損傷の解決が困難であったためである。 本論文では,問題を2つのサブプロブレムに分割し,分類精度の向上を図る。 サブプロブレムは、最も分類が難しい損傷事例を分離して得られる。 この問題に対する第2のアプローチは、より単純なダメージケースでトレーニングされたネットワークが、より難しいケースで特徴抽出に役立つかどうかを確認するために、転送学習(通常より深いネットワークで適用される)のアイデアを採用することである。 ネットワーク間の固定トレーニングされたレイヤーの転送は、特徴空間においてクラスをより分離可能とし、収束を早めることによって分類を改善する。

In the current work, a problem-splitting approach and a scheme motivated by transfer learning is applied to a structural health monitoring problem. The specific problem in this case is that of localising damage on an aircraft wing. The original experiment is described, together with the initial approach, in which a neural network was trained to localise damage. The results were not ideal, partly because of a scarcity of training data, and partly because of the difficulty in resolving two of the damage cases. In the current paper, the problem is split into two sub-problems and an increase in classification accuracy is obtained. The sub-problems are obtained by separating out the most difficult-to-classify damage cases. A second approach to the problem is considered by adopting ideas from transfer learning (usually applied in much deeper) networks to see if a network trained on the simpler damage cases can help with feature extraction in the more difficult cases. The transfer of a fixed trained batch of layers between the networks is found to improve classification by making the classes more separable in the feature space and to speed up convergence.
翻訳日:2022-03-04 17:06:00 公開日:2022-03-03
# 光イメージングにおける展開支援ブートストラップ位相検索

Unfolding-Aided Bootstrapped Phase Retrieval in Optical Imaging ( http://arxiv.org/abs/2203.01695v1 )

ライセンス: Link先を確認
Samuel Pinilla, Kumar Vijay Mishra, Igor Shevkunov, Mojtaba Soltanalian, Vladimir Katkovnik and Karen Egiazarian(参考訳) 光画像における位相検索は、その回折パターンの形で取得された位相のないデータから複素信号の回復を指す。 これらのパターンは、センサーに符号化された回折パターンをもたらすシーンを変調するために、回折光学素子(DOE)を使用するコヒーレント光源によって取得される。 近年, モデル駆動型ネットワークや深部展開のハイブリッドアプローチは, 位相探索アルゴリズムの複雑さを束縛し, 有効性を保ちつつ, 効果的な代替手段として浮上している。 さらに、このようなハイブリッドアプローチは、理論的な特異性条件に従うDOEの設計を改善することを約束している。 新たな実験装置を活用する機会があり、さらに複雑なDOE位相探索アプリケーションを解決できる。 本稿では, 近近・中・遠領域を問わず, ブートストラップによる深部展開のアルゴリズムと応用について概説する。

Phase retrieval in optical imaging refers to the recovery of a complex signal from phaseless data acquired in the form of its diffraction patterns. These patterns are acquired through a system with a coherent light source that employs a diffractive optical element (DOE) to modulate the scene resulting in coded diffraction patterns at the sensor. Recently, the hybrid approach of model-driven network or deep unfolding has emerged as an effective alternative because it allows for bounding the complexity of phase retrieval algorithms while also retaining their efficacy. Additionally, such hybrid approaches have shown promise in improving the design of DOEs that follow theoretical uniqueness conditions. There are opportunities to exploit novel experimental setups and resolve even more complex DOE phase retrieval applications. This paper presents an overview of algorithms and applications of deep unfolding for bootstrapped - regardless of near, middle, and far zones - phase retrieval.
翻訳日:2022-03-04 17:05:43 公開日:2022-03-03
# ニューラルスプライン流を用いた低次元音声属性生成モデル

Generative Modeling for Low Dimensional Speech Attributes with Neural Spline Flows ( http://arxiv.org/abs/2203.01786v1 )

ライセンス: Link先を確認
Kevin J. Shih, Rafael Valle, Rohan Badlani, J\~oao Felipe Santos, Bryan Catanzaro(参考訳) 近年のテキスト音声合成における生成モデリングの進歩にもかかわらず、これらのモデルはFastPitchやFastSpeech2のようなピッチ条件決定モデルの微調整性は同じではない。 ピッチ情報は低次元だけでなく不連続であり、特に生成的な設定でモデル化するのが困難である。 本研究では,上記の問題を扱うためのいくつかの手法について,正規化フローモデルを用いて検討する。 この問題は神経スプライン流にも非常に適しており、これは流れの正規化においてより一般的なアフィン結合機構の代替として非常に表現力に富んでいる。

Despite recent advances in generative modeling for text-to-speech synthesis, these models do not yet have the same fine-grained adjustability of pitch-conditioned deterministic models such as FastPitch and FastSpeech2. Pitch information is not only low-dimensional, but also discontinuous, making it particularly difficult to model in a generative setting. Our work explores several techniques for handling the aforementioned issues in the context of Normalizing Flow models. We also find this problem to be very well suited for Neural Spline flows, which is a highly expressive alternative to the more common affine-coupling mechanism in Normalizing Flows.
翻訳日:2022-03-04 17:05:29 公開日:2022-03-03
# 熱力学インフォームドグラフニューラルネットワーク

Thermodynamics-informed graph neural networks ( http://arxiv.org/abs/2203.01874v1 )

ライセンス: Link先を確認
Quercus Hern\'andez, Alberto Bad\'ias, Francisco Chinesta, El\'ias Cueto(参考訳) 本稿では,散逸力学系の時間発展を予測するための深層学習法を提案する。 幾何的および熱力学的帰納バイアスを用いて、結果の積分スキームの精度と一般化を改善することを提案する。 1つ目は、非ユークリッド幾何学的事前および置換不変ノードとエッジ更新関数を誘導するグラフニューラルネットワークである。 第2のバイアスは、より一般的な非保守的力学をモデル化するために、ハミルトン形式論の拡張である問題のジェネリック構造を学ぶことで強制される。 いくつかの例は、それぞれ流体力学と固体力学の文脈におけるオイラー記述とラグランジュ記述の両方で提供されている。

In this paper we present a deep learning method to predict the time evolution of dissipative dynamical systems. We propose using both geometric and thermodynamic inductive biases to improve accuracy and generalization of the resulting integration scheme. The first is achieved with Graph Neural Networks, which induces a non-Euclidean geometrical prior and permutation invariant node and edge update functions. The second bias is forced by learning the GENERIC structure of the problem, an extension of the Hamiltonian formalism, to model more general non-conservative dynamics. Several examples are provided in both Eulerian and Lagrangian description in the context of fluid and solid mechanics respectively.
翻訳日:2022-03-04 17:05:12 公開日:2022-03-03
# リアルレースカーシミュレーションのための適応型人間ドライバーモデル

An Adaptive Human Driver Model for Realistic Race Car Simulations ( http://arxiv.org/abs/2203.01909v1 )

ライセンス: Link先を確認
Stefan L\"ockel, Siwei Ju, Maximilian Schaller, Peter van Vliet, Jan Peters(参考訳) ハイパフォーマンスレースカーのエンジニアリングには、実世界のテストや人力運転のシミュレーションを用いて、人間のドライバーを直接考慮する必要がある。 それとは別に、人間のようなレースドライバーモデルによるオフラインシミュレーションは、この車両開発プロセスをより効率的かつ効率的にするが、様々な課題のために入手するのは難しい。 本研究は,レースドライバーの行動をよりよく理解し,模倣学習に基づく適応型人間ドライバーモデルを導入することを目的としている。 既存の発見とプロのレースエンジニアとのインタビューを用いて、基本的な適応メカニズムと、ドライバーが新しいトラックでラップタイムを最適化する方法を識別する。 次に,これらの知見を用いて,最近提示した確率的ドライバモデリング手法の一般化と適応手法を開発し,プロのレースドライバーと最先端のレースカーシミュレータのデータを用いて評価する。 我々のフレームワークは、ほぼ人間に近い性能で、目に見えないレーストラック上で現実的な走行線分布を作成できることを示します。 さらに, ドライバーモデルでは, 走行ラップを1周ずつ最適化し, 先行ラップからの走行誤差を補正し, 高速ラップタイムを実現している。 この研究は、現代の車両開発プロセスにおけるシミュレーション手法の迅速化と、自動走行およびレース技術のサポートを目的とした、人間のドライバーの理解とモデリングに寄与する。

Engineering a high-performance race car requires a direct consideration of the human driver using real-world tests or Human-Driver-in-the-Loop simulations. Apart from that, offline simulations with human-like race driver models could make this vehicle development process more effective and efficient but are hard to obtain due to various challenges. With this work, we intend to provide a better understanding of race driver behavior and introduce an adaptive human race driver model based on imitation learning. Using existing findings and an interview with a professional race engineer, we identify fundamental adaptation mechanisms and how drivers learn to optimize lap time on a new track. Subsequently, we use these insights to develop generalization and adaptation techniques for a recently presented probabilistic driver modeling approach and evaluate it using data from professional race drivers and a state-of-the-art race car simulator. We show that our framework can create realistic driving line distributions on unseen race tracks with almost human-like performance. Moreover, our driver model optimizes its driving lap by lap, correcting driving errors from previous laps while achieving faster lap times. This work contributes to a better understanding and modeling of the human driver, aiming to expedite simulation methods in the modern vehicle development process and potentially supporting automated driving and racing technologies.
翻訳日:2022-03-04 17:05:02 公開日:2022-03-03
# プライベート高次元仮説テスト

Private High-Dimensional Hypothesis Testing ( http://arxiv.org/abs/2203.01537v1 )

ライセンス: Link先を確認
Shyam Narayanan(参考訳) 高次元分布の同一性検証のための微分プライベートアルゴリズムの改良を提案する。 Specifically, for $d$-dimensional Gaussian distributions with known covariance $\Sigma$, we can test whether the distribution comes from $\mathcal{N}(\mu^*, \Sigma)$ for some fixed $\mu^*$ or from some $\mathcal{N}(\mu, \Sigma)$ with total variation distance at least $\alpha$ from $\mathcal{N}(\mu^*, \Sigma)$ with $(\varepsilon, 0)$-differential privacy, using only \[\tilde{O}\left(\frac{d^{1/2}}{\alpha^2} + \frac{d^{1/3}}{\alpha^{4/3} \cdot \varepsilon^{2/3}} + \frac{1}{\alpha \cdot \varepsilon}\right)\] samples if the algorithm is allowed to be computationally inefficient, and only \[\tilde{O}\left(\frac{d^{1/2}}{\alpha^2} + \frac{d^{1/4}}{\alpha \cdot \varepsilon}\right)\] samples for a computationally efficient algorithm. また,計算効率の悪いアルゴリズムが最適なサンプル複雑性を持つことを示す。 またアルゴリズムを様々な関連する問題にも拡張し、有界だが未知の共分散を持つガウス平均検定、$\{\pm 1\}^d$ の積分布の均一性検定、耐性テストなどを行う。 従来の計算効率と非効率的なアルゴリズムに対するcanonne, kamath, mcmillan, ullman, zakynthinou \cite{canonnekmuz20} のベストプラクティスよりも精度が向上し,多くの標準パラメータ設定において,計算効率のよいアルゴリズムでさえ,最適な \emph{non-private} サンプル複雑性である $o\left(\frac{\sqrt{d}}{\alpha^2}\right)$ に適合する。 さらに, 意外なことに, $d$-dimensional Gaussian のプライベートアイデンティティテストは, $d$ \cite{AcharyaSZ18} の領域上の離散分布のプライベートIDテストよりも少ないサンプルで行うことができる。 通称「CanonneKMUZ20」。

We provide improved differentially private algorithms for identity testing of high-dimensional distributions. Specifically, for $d$-dimensional Gaussian distributions with known covariance $\Sigma$, we can test whether the distribution comes from $\mathcal{N}(\mu^*, \Sigma)$ for some fixed $\mu^*$ or from some $\mathcal{N}(\mu, \Sigma)$ with total variation distance at least $\alpha$ from $\mathcal{N}(\mu^*, \Sigma)$ with $(\varepsilon, 0)$-differential privacy, using only \[\tilde{O}\left(\frac{d^{1/2}}{\alpha^2} + \frac{d^{1/3}}{\alpha^{4/3} \cdot \varepsilon^{2/3}} + \frac{1}{\alpha \cdot \varepsilon}\right)\] samples if the algorithm is allowed to be computationally inefficient, and only \[\tilde{O}\left(\frac{d^{1/2}}{\alpha^2} + \frac{d^{1/4}}{\alpha \cdot \varepsilon}\right)\] samples for a computationally efficient algorithm. We also provide a matching lower bound showing that our computationally inefficient algorithm has optimal sample complexity. We also extend our algorithms to various related problems, including mean testing of Gaussians with bounded but unknown covariance, uniformity testing of product distributions over $\{\pm 1\}^d$, and tolerant testing. Our results improve over the previous best work of Canonne, Kamath, McMillan, Ullman, and Zakynthinou \cite{CanonneKMUZ20} for both computationally efficient and inefficient algorithms, and even our computationally efficient algorithm matches the optimal \emph{non-private} sample complexity of $O\left(\frac{\sqrt{d}}{\alpha^2}\right)$ in many standard parameter settings. In addition, our results show that, surprisingly, private identity testing of $d$-dimensional Gaussians can be done with fewer samples than private identity testing of discrete distributions over a domain of size $d$ \cite{AcharyaSZ18}, which refutes a conjectured lower bound of Canonne et al. \cite{CanonneKMUZ20}.
翻訳日:2022-03-04 17:04:40 公開日:2022-03-03
# (参考訳) 実世界のミリ波展開におけるコンピュータビジョン支援ブロック予測

Computer Vision Aided Blockage Prediction in Real-World Millimeter Wave Deployments ( http://arxiv.org/abs/2203.01907v1 )

ライセンス: CC BY 4.0
Gouranga Charan and Ahmed Alkhateeb(参考訳) 本稿では、視覚的(RGBカメラ)データと機械学習を用いてミリ波(mmWave)ダイナミックリンクブロックを積極的に予測する最初の実世界の評価を行う。 リンク障害が起こる前に、LOS(Line-of-sight)リンク遮断を積極的に予測することで、mWave/sub-THzネットワークはプロアクティブビーム切替やハンドオフなどのプロアクティブネットワーク管理決定を行うことができる。 これにより、無線リソースを効率的に活用しながら、ネットワークの信頼性とレイテンシを大幅に向上させることができる。 この成果を評価するために、本論文は i) インフラストラクチャノードに設置されたカメラが捉えた視覚データを処理し,コンピュータビジョンに基づくソリューションを開発する。 (II)マルチモーダルセンシングと通信データを含む大規模実世界のデータセットDeepSense 6Gに基づく提案手法の実現可能性について検討した。 採用されている実世界のデータセットに基づいて、開発したソリューションは、将来の$0.1$sで発生する障害を予測するために$\approx 90\%$精度と$\approx 80\%$で達成している。

This paper provides the first real-world evaluation of using visual (RGB camera) data and machine learning for proactively predicting millimeter wave (mmWave) dynamic link blockages before they happen. Proactively predicting line-of-sight (LOS) link blockages enables mmWave/sub-THz networks to make proactive network management decisions, such as proactive beam switching and hand-off) before a link failure happens. This can significantly enhance the network reliability and latency while efficiently utilizing the wireless resources. To evaluate this gain in reality, this paper (i) develops a computer vision based solution that processes the visual data captured by a camera installed at the infrastructure node and (ii) studies the feasibility of the proposed solution based on the large-scale real-world dataset, DeepSense 6G, that comprises multi-modal sensing and communication data. Based on the adopted real-world dataset, the developed solution achieves $\approx 90\%$ accuracy in predicting blockages happening within the future $0.1$s and $\approx 80\%$ for blockages happening within $1$s, which highlights a promising solution for mmWave/sub-THz communication networks.
翻訳日:2022-03-04 17:03:09 公開日:2022-03-03
# ad2attack:リアルタイムuav追跡に対する適応型逆襲

Ad2Attack: Adaptive Adversarial Attack on Real-Time UAV Tracking ( http://arxiv.org/abs/2203.01516v1 )

ライセンス: Link先を確認
Changhong Fu, Sihang Li, Xinnan Yuan, Junjie Ye, Ziang Cao, Fangqiang Ding(参考訳) 視覚トラッキングは、無人航空機(UAV)関連の広範囲なアプリケーションに採用されており、UAVトラッカーの堅牢性に対する要求が高まっている。 しかし、知覚不能な摂動を追加することで、簡単にトラッカーを騙し、追跡障害を引き起こす。 このリスクはしばしば見落とされ、現在はほとんど研究されていない。 したがって、UAV追跡の潜在的なリスクと堅牢性に対する認識を高めるために、この研究は、新しい適応的敵攻撃アプローチ、すなわち、UAVオブジェクト追跡に対するAd$2$Attackを提案する。 具体的には、検索パッチ画像の再サンプリング中に、逆例がオンラインで生成され、追跡者が次のフレームでターゲットを失う。 Ad$2$Attackは直接ダウンサンプリングモジュールと適応ステージを持つ超解像度アップサンプリングモジュールで構成されている。 攻撃のインセプティビリティと効率のバランスをとるための新しい最適化関数を提案する。 いくつかのよく知られたベンチマークと実世界の条件に関する総合的な実験は、我々の攻撃方法の有効性を示している。

Visual tracking is adopted to extensive unmanned aerial vehicle (UAV)-related applications, which leads to a highly demanding requirement on the robustness of UAV trackers. However, adding imperceptible perturbations can easily fool the tracker and cause tracking failures. This risk is often overlooked and rarely researched at present. Therefore, to help increase awareness of the potential risk and the robustness of UAV tracking, this work proposes a novel adaptive adversarial attack approach, i.e., Ad$^2$Attack, against UAV object tracking. Specifically, adversarial examples are generated online during the resampling of the search patch image, which leads trackers to lose the target in the following frames. Ad$^2$Attack is composed of a direct downsampling module and a super-resolution upsampling module with adaptive stages. A novel optimization function is proposed for balancing the imperceptibility and efficiency of the attack. Comprehensive experiments on several well-known benchmarks and real-world conditions show the effectiveness of our attack method, which dramatically reduces the performance of the most advanced Siamese trackers.
翻訳日:2022-03-04 16:50:51 公開日:2022-03-03
# クロスドメインリモートセンシング画像分割のためのカリキュラム型局所言語適応

Curriculum-style Local-to-global Adaptation for Cross-domain Remote Sensing Image Segmentation ( http://arxiv.org/abs/2203.01539v1 )

ライセンス: Link先を確認
Bo Zhang, Tao Chen, and Bin Wang(参考訳) 自然画像に基づくセグメンテーションタスクでは領域適応が広く研究されているが、超高分解能(vhr)リモートセンシング画像(rsis)のクロスドメインセグメンテーションに関する研究は未検討のままである。 VHR RSIsベースのクロスドメインセグメンテーションは、主に2つの重要な課題に直面している。 1)多種多様な対象区分を有する大規模土地被覆は,高度に局所的なパッチレベルのデータ分布のずれをもたらし,異なる局所的なパッチに対して異なる適応困難をもたらす。 2) 異なるVHRセンサタイプや動的に変化するモードにより,同じ地理的位置であっても,VHRイメージは集中的なデータ分布の違いを経験し,グローバルな特徴レベルのドメインギャップを生じる。 これらの課題に対処するために、VHR RSIのセグメンテーションのためのカリキュラムスタイルのローカル・グローバル・クロスドメイン適応フレームワークを提案する。 提案するカリキュラムスタイル適応は,対象領域の各パッチに対してエントロピースコアを用いて得られる適応難易度に応じて,容易かつ難易度の高い適応プロセスを実行し,ドメインイメージ内の局所パッチを適切に調整する。 提案手法は, 局所的な意味からグローバルな構造的特徴の相違点への特徴アライメント処理を行い, 上記の領域間特徴の相違点を低減できる意味レベルドメイン分類器とエントロピーレベルドメイン分類器からなる。 地理的な位置変化や画像モードの変動など,様々なクロスドメインシナリオにおいて大規模な実験が行われ,提案手法がVHR RSIの領域適応性を著しく向上させることを示す実験結果が得られた。 私たちのコードは、https://github.com/BOBrown/CCDA_LGFA.comで利用可能です。

Although domain adaptation has been extensively studied in natural image-based segmentation task, the research on cross-domain segmentation for very high resolution (VHR) remote sensing images (RSIs) still remains underexplored. The VHR RSIs-based cross-domain segmentation mainly faces two critical challenges: 1) Large area land covers with many diverse object categories bring severe local patch-level data distribution deviations, thus yielding different adaptation difficulties for different local patches; 2) Different VHR sensor types or dynamically changing modes cause the VHR images to go through intensive data distribution differences even for the same geographical location, resulting in different global feature-level domain gap. To address these challenges, we propose a curriculum-style local-to-global cross-domain adaptation framework for the segmentation of VHR RSIs. The proposed curriculum-style adaptation performs the adaptation process in an easy-to-hard way according to the adaptation difficulties that can be obtained using an entropy-based score for each patch of the target domain, and thus well aligns the local patches in a domain image. The proposed local-to-global adaptation performs the feature alignment process from the locally semantic to globally structural feature discrepancies, and consists of a semantic-level domain classifier and an entropy-level domain classifier that can reduce the above cross-domain feature discrepancies. Extensive experiments have been conducted in various cross-domain scenarios, including geographic location variations and imaging mode variations, and the experimental results demonstrate that the proposed method can significantly boost the domain adaptability of segmentation networks for VHR RSIs. Our code is available at: https://github.com/BOBrown/CCDA_LGFA.
翻訳日:2022-03-04 16:50:33 公開日:2022-03-03
# 拘束的教師なし異常セグメンテーション

Constrained unsupervised anomaly segmentation ( http://arxiv.org/abs/2203.01671v1 )

ライセンス: Link先を確認
Julio Silva-Rodr\'iguez, Valery Naranjo and Jose Dolz(参考訳) 現在の教師なし異常局所化アプローチは、通常画像の分布を学習するための生成モデルに依存しており、これは後に再構成画像上の誤りから生じる潜在的な異常領域を特定するために使われる。 しかしながら、ほとんどすべての先行文献の主な制限は、異常を見つけるためにクラス固有のしきい値を設定するために異常画像を使用する必要があることである。 これにより、通常のデータしかアクセスできない現実的なシナリオでのユーザビリティが制限される。 この大きな欠点にもかかわらず、トレーニング中に注意マップの監督を統合することで、この制限に対処した作品はごくわずかである。 本研究では,しきい値を定義するために異常画像へのアクセスを必要としない新しい定式化を提案する。 さらに、最近の研究とは対照的に、提案する制約をより原則的に定式化し、制約付き最適化においてよく知られた知識を活用する。 特に、先行作業における注目マップ上の等式制約は、より柔軟性のある不等式制約に置き換えられる。 加えて、ペナルティベースの関数の制限に対処するために、私たちは制約を扱うために人気のあるlog-barrierメソッドを拡張しています。 最後に、アテンションマップのシャノンエントロピーを最大化し、提案されたモデルのハイパーパラメータの量を削減する代替正規化項を提案する。 脳病変セグメンテーションに関する2つの公開データセットに関する総合的な実験は、提案手法が関連する文献を大幅に上回り、教師なし病変セグメンテーションのための新しい最先端の結果を確立し、異常な画像にアクセスする必要がないことを示した。

Current unsupervised anomaly localization approaches rely on generative models to learn the distribution of normal images, which is later used to identify potential anomalous regions derived from errors on the reconstructed images. However, a main limitation of nearly all prior literature is the need of employing anomalous images to set a class-specific threshold to locate the anomalies. This limits their usability in realistic scenarios, where only normal data is typically accessible. Despite this major drawback, only a handful of works have addressed this limitation, by integrating supervision on attention maps during training. In this work, we propose a novel formulation that does not require accessing images with abnormalities to define the threshold. Furthermore, and in contrast to very recent work, the proposed constraint is formulated in a more principled manner, leveraging well-known knowledge in constrained optimization. In particular, the equality constraint on the attention maps in prior work is replaced by an inequality constraint, which allows more flexibility. In addition, to address the limitations of penalty-based functions we employ an extension of the popular log-barrier methods to handle the constraint. Last, we propose an alternative regularization term that maximizes the Shannon entropy of the attention maps, reducing the amount of hyperparameters of the proposed model. Comprehensive experiments on two publicly available datasets on brain lesion segmentation demonstrate that the proposed approach substantially outperforms relevant literature, establishing new state-of-the-art results for unsupervised lesion segmentation, and without the need to access anomalous images.
翻訳日:2022-03-04 16:49:59 公開日:2022-03-03
# STUN: 位置認識のための自己学習不確かさ推定

STUN: Self-Teaching Uncertainty Estimation for Place Recognition ( http://arxiv.org/abs/2203.01851v1 )

ライセンス: Link先を確認
Kaiwen Cai, Chris Xiaoxuan Lu and Xiaowei Huang(参考訳) 場所認識は、同時局所化とマッピング(SLAM)と空間知覚の鍵となる。 しかし、野生の場所認識はしばしば、視点の変更や街路の外観など、画像の変化による誤った予測に苦しむ。 場所認識のライフサイクルに不確実性推定を統合することは、場所認識性能に及ぼす変動の影響を緩和する有望な方法である。 しかし、既存の不確実性推定手法は計算効率が良くない(モンテカルロドロップアウトなど)か、精度が低下するコストがかかる。 本稿では,その場所を同時に予測し,入力画像から予測の不確かさを推定する自己学習フレームワークSTUNを提案する。 この目的のために,我々はまず標準メトリック学習パイプラインを用いて教師ネットを訓練し,埋め込み前処理を生成する。 そして、事前訓練された教師ネットに指導され、追加の分散分岐を有する学生ネットを訓練し、埋め込み先を微調整し、サンプル毎に不確かさサンプルを推定する。 オンライン推論フェーズでは、学生ネットのみを使用して不確実性を伴う場所予測を生成する。 不確実性に無関係な位置認識システムと比較すると,予測精度を犠牲にすることなく,不確実性推定を無償で行うことができる。 大規模ピッツバーグ30kデータセットに対する実験結果から,STUNは認識精度と不確実性評価の品質の両方において最先端の手法より優れていることが示された。

Place recognition is key to Simultaneous Localization and Mapping (SLAM) and spatial perception. However, a place recognition in the wild often suffers from erroneous predictions due to image variations, e.g., changing viewpoints and street appearance. Integrating uncertainty estimation into the life cycle of place recognition is a promising method to mitigate the impact of variations on place recognition performance. However, existing uncertainty estimation approaches in this vein are either computationally inefficient (e.g., Monte Carlo dropout) or at the cost of dropped accuracy. This paper proposes STUN, a self-teaching framework that learns to simultaneously predict the place and estimate the prediction uncertainty given an input image. To this end, we first train a teacher net using a standard metric learning pipeline to produce embedding priors. Then, supervised by the pretrained teacher net, a student net with an additional variance branch is trained to finetune the embedding priors and estimate the uncertainty sample by sample. During the online inference phase, we only use the student net to generate a place prediction in conjunction with the uncertainty. When compared with place recognition systems that are ignorant to the uncertainty, our framework features the uncertainty estimation for free without sacrificing any prediction accuracy. Our experimental results on the large-scale Pittsburgh30k dataset demonstrate that STUN outperforms the state-of-the-art methods in both recognition accuracy and the quality of uncertainty estimation.
翻訳日:2022-03-04 16:49:33 公開日:2022-03-03
# NeRF-Supervision:ニューラル・ラジアンス・フィールドから高密度物体記述子を学習する

NeRF-Supervision: Learning Dense Object Descriptors from Neural Radiance Fields ( http://arxiv.org/abs/2203.01913v1 )

ライセンス: Link先を確認
Lin Yen-Chen, Pete Florence, Jonathan T. Barron, Tsung-Yi Lin, Alberto Rodriguez, Phillip Isola(参考訳) フォークやウイスキーのような薄い反射性のある物体は日常生活では一般的だが、一般的なrgb-dカメラやマルチビューステレオ技術では復元が難しいため、ロボットの知覚では特に困難である。 従来のパイプラインはこのような物体と競合するが、ニューラル・レージアンス・フィールド(Neural Radiance Fields, NeRF)は近年、薄い構造や反射材料を持つ物体のビュー合成に極めて効果的であることが示されている。 本稿では,ロバストなロボットビジョンシステムのための新しい監視源として,NeRFの利用について検討する。 特に,シーンのNeRF表現が高密度オブジェクト記述子を訓練するのに有効であることを示す。 オブジェクトの複数のビュー間の密接な対応を抽出するために最適化されたnerfを使用し、これらの対応をオブジェクトのビュー不変表現を学ぶためのトレーニングデータとして使用する。 NeRFの密度場の利用により,従来の深度マップの手法とは対照的に,新しい深度分布定式化による対応問題を再構築することができる。 また,本手法により教師されたディエンス対応モデルは,市販の学習記述子を106%上回り(PCK@3px,倍増性能),ベースラインを29%上回る結果を得た。 さらに、学習した高密度記述子は、ロボットが6自由度(6自由度)の正確な選択と、細く反射的な物体の配置を行えることを実証する。

Thin, reflective objects such as forks and whisks are common in our daily lives, but they are particularly challenging for robot perception because it is hard to reconstruct them using commodity RGB-D cameras or multi-view stereo techniques. While traditional pipelines struggle with objects like these, Neural Radiance Fields (NeRFs) have recently been shown to be remarkably effective for performing view synthesis on objects with thin structures or reflective materials. In this paper we explore the use of NeRF as a new source of supervision for robust robot vision systems. In particular, we demonstrate that a NeRF representation of a scene can be used to train dense object descriptors. We use an optimized NeRF to extract dense correspondences between multiple views of an object, and then use these correspondences as training data for learning a view-invariant representation of the object. NeRF's usage of a density field allows us to reformulate the correspondence problem with a novel distribution-of-depths formulation, as opposed to the conventional approach of using a depth map. Dense correspondence models supervised with our method significantly outperform off-the-shelf learned descriptors by 106% (PCK@3px metric, more than doubling performance) and outperform our baseline supervised with multi-view stereo by 29%. Furthermore, we demonstrate the learned dense descriptors enable robots to perform accurate 6-degree of freedom (6-DoF) pick and place of thin and reflective objects.
翻訳日:2022-03-04 16:49:08 公開日:2022-03-03
# モノクロ画像から3Dヒューマンメッシュを復元する:サーベイ

Recovering 3D Human Mesh from Monocular Images: A Survey ( http://arxiv.org/abs/2203.01923v1 )

ライセンス: Link先を確認
Yating Tian, Hongwen Zhang, Yebin Liu, Limin Wang(参考訳) 単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。 統計ボディーモデルのリリース以来、3Dのメッシュリカバリが注目されている。 2D-to-3Dリフトプロセスにおける課題を克服するために、2つのパラダイムが開発された。 一 最適化目標として異なるデータ項及び正規化項を活用する最適化に基づくパラダイム 二 エンドツーエンドの方法で問題を解決するために、深層学習技術が取り入れられる回帰型パラダイム。 一方、継続的な取り組みは、幅広いデータセットの3Dメッシュラベルの品質向上に向けられている。 過去10年間に顕著な進歩を遂げてきたが、柔軟性のある体の動き、多様な外観、複雑な環境、そして未完成の注釈のために、この課題はまだ挑戦的だ。 私たちの知る限りでは、この調査はモノキュラー3dメッシュリカバリのタスクに焦点を当てた最初の調査です。 まず、身体モデルの導入から始め、その強みと弱さを詳細に分析することで、回復フレームワークとトレーニング目標を導入します。 また、データセット、評価メトリクス、ベンチマーク結果も要約します。 オープン問題と今後の方向性は最終的に議論され、研究者のモチベーションを高め、この分野の研究を促進することを望んでいる。 定期的に更新されたプロジェクトページはhttps://github.com/tinatiansjz/hmr-surveyで見ることができる。

Estimating human pose and shape from monocular images is a long-standing problem in computer vision. Since the release of statistical body models, 3D human mesh recovery has been drawing broader attention. With the same goal of obtaining well-aligned and physically plausible mesh results, two paradigms have been developed to overcome challenges in the 2D-to-3D lifting process: i) an optimization-based paradigm, where different data terms and regularization terms are exploited as optimization objectives; and ii) a regression-based paradigm, where deep learning techniques are embraced to solve the problem in an end-to-end fashion. Meanwhile, continuous efforts are devoted to improving the quality of 3D mesh labels for a wide range of datasets. Though remarkable progress has been achieved in the past decade, the task is still challenging due to flexible body motions, diverse appearances, complex environments, and insufficient in-the-wild annotations. To the best of our knowledge, this is the first survey to focus on the task of monocular 3D human mesh recovery. We start with the introduction of body models, and then introduce recovery frameworks and training objectives by providing in-depth analyses of their strengths and weaknesses. We also summarize datasets, evaluation metrics, and benchmark results. Open issues and future directions are discussed in the end, hoping to motivate researchers and facilitate their research in this area. A regularly updated project page can be found at https://github.com/tinatiansjz/hmr-survey.
翻訳日:2022-03-04 16:48:36 公開日:2022-03-03
# 遺伝的アルゴリズムによるカーネル密度推定

Kernel Density Estimation by Genetic Algorithm ( http://arxiv.org/abs/2203.01535v1 )

ライセンス: Link先を確認
Kiheiji Nishida(参考訳) 本研究では,遺伝的アルゴリズムによる多変量カーネル密度推定のためのデータ凝縮法を提案する。 まず,提案アルゴリズムは,元のサンプルから置換した任意のサイズのサブサンプルを生成する。 サブサンプルとそれらの構成データポイントはそれぞれ、遺伝的アルゴリズムの用語において、$\it{chromosome}$と$\it{gene}$と見なされる。 次に、各サブサンプルは2つの新しいサブサンプルを生成し、各データポイントは、ある確率で$\it{crossover}$, $\it{mutation}$, $\it{reproduction}$のいずれかに直面している。 適合値の点で支配的なサブサンプルは次世代に継承される。 このプロセスは世代によって繰り返し生成され、その完了時にカーネル密度推定器のスパース表現をもたらす。 シミュレーションにより, 推定器の性能が他の既知の密度推定器よりも優れていることを確認した。

This study proposes a data condensation method for multivariate kernel density estimation by genetic algorithm. First, our proposed algorithm generates multiple subsamples of a given size with replacement from the original sample. The subsamples and their constituting data points are regarded as $\it{chromosome}$ and $\it{gene}$, respectively, in the terminology of genetic algorithm. Second, each pair of subsamples breeds two new subsamples, where each data point faces either $\it{crossover}$, $\it{mutation}$, or $\it{reproduction}$ with a certain probability. The dominant subsamples in terms of fitness values are inherited by the next generation. This process is repeated generation by generation and brings the sparse representation of kernel density estimator in its completion. We confirmed from simulation studies that the resulting estimator can perform better than other well-known density estimators.
翻訳日:2022-03-04 16:46:45 公開日:2022-03-03
# 多孔質媒体における熱水機械(THM)プロセスの物理インフォームドニューラルネットワーク解

Physics-informed neural network solution of thermo-hydro-mechanical (THM) processes in porous media ( http://arxiv.org/abs/2203.01514v1 )

ライセンス: Link先を確認
Danial Amini, Ehsan Haghighat, Ruben Juanes(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)によって記述される問題の前方、逆、代理モデリングへの関心が高まっている。 しかしながら、それらが複数の結合されたPDEによって支配される多重物理学問題への応用は、このアプローチの堅牢性と広範な適用性を妨げているユニークな課題を提示する。 本稿では, 熱伝導率, 透水性, 弾性率の異なる空間的, 時間的スケールの多孔質媒体における熱-水-機械(THM)プロセスに関わる問題の前方解へのPINNの適用について検討する。 さらに、PINNは最適化問題の多目的性や非凸性といった課題に直面している。 これらの根本的な問題に対処するため,(1)深層学習アルゴリズムに最も適した次元のない形でTHM制御方程式を書き換える,(2)多目的最適化問題の同時解の必要性を回避し,解探索におけるオプティマイザのタスクを促進する,逐次的なトレーニング戦略を提案する,(3)多目的最適化問題の勾配流の剛性を克服するための平均適応重み戦略を提案する。 最後に、このフレームワークを1dと~2dのいくつかの合成問題の解に適用する。

Physics-Informed Neural Networks (PINNs) have received increased interest for forward, inverse, and surrogate modeling of problems described by partial differential equations (PDE). However, their application to multiphysics problem, governed by several coupled PDEs, present unique challenges that have hindered the robustness and widespread applicability of this approach. Here we investigate the application of PINNs to the forward solution of problems involving thermo-hydro-mechanical (THM) processes in porous media, which exhibit disparate spatial and temporal scales in thermal conductivity, hydraulic permeability, and elasticity. In addition, PINNs are faced with the challenges of the multi-objective and non-convex nature of the optimization problem. To address these fundamental issues, we: (1)~rewrite the THM governing equations in dimensionless form that is best suited for deep-learning algorithms; (2)~propose a sequential training strategy that circumvents the need for a simultaneous solution of the multiphysics problem and facilitates the task of optimizers in the solution search; and (3)~leverage adaptive weight strategies to overcome the stiffness in the gradient flow of the multi-objective optimization problem. Finally, we apply this framework to the solution of several synthetic problems in 1D and~2D.
翻訳日:2022-03-04 16:43:22 公開日:2022-03-03
# ロバスト損失を用いた半教師付き学習

Semi-supervised Learning using Robust Loss ( http://arxiv.org/abs/2203.01524v1 )

ライセンス: Link先を確認
Wenhui Cui, Haleh Akrami, Anand A. Joshi, Richard M. Leahy(参考訳) 手動でラベル付けされたデータの量は医療用途に限られているため、半教師付き学習と自動ラベリング戦略は、ディープニューラルネットワークのトレーニングに有用である。 しかし、自動生成ラベルの品質は、手動ラベルよりも不均一で劣る可能性がある。 本稿では,手動ラベル付きデータと追加ラベル付きデータの両方を活用するための半教師付きトレーニング戦略を提案する。 既存の手法とは対照的に,自動ラベル付きデータに対してロバストな損失を適用し,教師学習フレームワークを用いて不均一なデータ品質を自動的に補償する。 まず,ラベル付きデータに事前学習した教師モデルを用いて,ラベル付きデータに対する擬似ラベルを生成する。 これらの擬似ラベルはノイズが多く、ディープニューラルネットワークのトレーニングにラベル付きデータと共に使用すると、学習された特徴表現とネットワークの一般化が著しく低下する。 ここではロバスト損失関数を用いて擬似ラベルの効果を緩和する。 具体的には,ベータクロスエントロピー,対称クロスエントロピー,一般化クロスエントロピーという3つのロバストな損失関数を用いる。 提案手法は,画像分類やセグメンテーションアプリケーションにおいてラベルの不均一な品質を補償することにより,モデル性能を向上させる。

The amount of manually labeled data is limited in medical applications, so semi-supervised learning and automatic labeling strategies can be an asset for training deep neural networks. However, the quality of the automatically generated labels can be uneven and inferior to manual labels. In this paper, we suggest a semi-supervised training strategy for leveraging both manually labeled data and extra unlabeled data. In contrast to the existing approaches, we apply robust loss for the automated labeled data to automatically compensate for the uneven data quality using a teacher-student framework. First, we generate pseudo-labels for unlabeled data using a teacher model pre-trained on labeled data. These pseudo-labels are noisy, and using them along with labeled data for training a deep neural network can severely degrade learned feature representations and the generalization of the network. Here we mitigate the effect of these pseudo-labels by using robust loss functions. Specifically, we use three robust loss functions, namely beta cross-entropy, symmetric cross-entropy, and generalized cross-entropy. We show that our proposed strategy improves the model performance by compensating for the uneven quality of labels in image classification as well as segmentation applications.
翻訳日:2022-03-04 16:42:58 公開日:2022-03-03
# 曲率グラフ生成逆ネットワーク

Curvature Graph Generative Adversarial Networks ( http://arxiv.org/abs/2203.01604v1 )

ライセンス: Link先を確認
Jianxin Li, Xingcheng Fu, Qingyun Sun, Cheng Ji, Jiajun Tan, Jia Wu, Hao Peng(参考訳) GAN(Generative Adversarial Network)はグラフデータの一般化と堅牢な学習に広く利用されている。 しかし、非ユークリッドグラフデータでは、既存のganベースのグラフ表現法は離散空間におけるランダムウォークやトラバースによって負のサンプルを生成し、トポロジー特性(例えば階層構造や円形性)の情報損失につながる。 さらに、グラフデータのトポロジ的不均一性(すなわちグラフ構造全体の異なる密度)により、それらは深刻なトポロジ的歪み問題に悩まされる。 本稿では、リーマン幾何学多様体における最初のganに基づくグラフ表現法である、新しい曲率グラフ生成逆ネットワーク法である \textbf{\modelname} を提案する。 位相特性をよりよく保存するために、離散構造を連続リーマン幾何学多様体として近似し、ラップされた正規分布から負のサンプルを効率的に生成する。 位相的異質性に対処するために,局所的な構造に対してリッチ曲率を活用し,低歪み表現を得る。 大規模な実験により、CurvGANは複数のタスクにまたがる最先端の手法を一貫して大幅に上回り、より優れた堅牢性と一般化を示した。

Generative adversarial network (GAN) is widely used for generalized and robust learning on graph data. However, for non-Euclidean graph data, the existing GAN-based graph representation methods generate negative samples by random walk or traverse in discrete space, leading to the information loss of topological properties (e.g. hierarchy and circularity). Moreover, due to the topological heterogeneity (i.e., different densities across the graph structure) of graph data, they suffer from serious topological distortion problems. In this paper, we proposed a novel Curvature Graph Generative Adversarial Networks method, named \textbf{\modelname}, which is the first GAN-based graph representation method in the Riemannian geometric manifold. To better preserve the topological properties, we approximate the discrete structure as a continuous Riemannian geometric manifold and generate negative samples efficiently from the wrapped normal distribution. To deal with the topological heterogeneity, we leverage the Ricci curvature for local structures with different topological properties, obtaining to low-distortion representations. Extensive experiments show that CurvGAN consistently and significantly outperforms the state-of-the-art methods across multiple tasks and shows superior robustness and generalization.
翻訳日:2022-03-04 16:42:38 公開日:2022-03-03
# 物理データ駆動機械学習モデル:IPMCソフト人工筋肉の非線形・動的・開ループ同定のためのハイブリッド手法

Physics-Data Driven Machine Learning Based Model: A Hybrid Way for Nonlinear, Dynamic, and Open-loop Identification of IPMC Soft Artificial Muscles ( http://arxiv.org/abs/2203.01616v1 )

ライセンス: Link先を確認
Mohsen Annabestani, Mohammad Hossein Sayyad, Zahra Meskar, Mehdi Fardmanesh, and Barbara Mazzolai(参考訳) イオン性高分子金属複合材料(ipmcs)は、工業的および生物医学的用途に最も好適な生体適合性材料の一つである。 それらの利点にもかかわらず、その欠点には、モデリングプロセスを複雑にする非線形およびヒステリックな振る舞いが含まれる。 以前の研究では、通常自己回帰モデルを使用してIPMCアクチュエータの動作を予測する。 自動回帰モデルを使用する主な欠点は、モバイルおよびリアルタイムアプリケーションでは使用できないことである。 本研究では,IPMCアクチュエータのためのハイブリッド解析インテリジェントモデルを提案する。 このモデルの最も顕著な特徴は、非自己回帰構造である。 本研究で提案されるハイブリッドの概念は,IPMC以外の様々な問題に一般化することができる。 本研究で使用される構造は、解析モデルとディープニューラルネットワークで構成され、ipmcアクチュエータに非線形、動的、非自己回帰モデルを提供する。 最後に、提案したハイブリッドモデルを用いて達成される平均NMSEは9.5781e-04であり、他の非自己回帰構造と比較して誤差率を著しく低下させる。

Ionic Polymer Metal Composites (IPMCs) are one of the most preferred choices among biocompatible materials for industrial and biomedical applications. Despite their advantages, some of their drawbacks include non-linear and hysteretic behavior, which complicates the modeling process. In previous works, usually autoregressive models were used to predict the behavior of an IPMC actuator. The main drawback of using an autoregressive model is that it cannot be used in mobile and real-time applications. In this study, we proposed a hybrid analytical intelligent model for an IPMC actuator. The most outstanding feature of this model is its non-autoregressive structure. The hybrid concept proposed in this study can be generalized to various problems other than IPMCs. The structure used in this work comprises an analytical model and a deep neural network, providing a non-linear, dynamic, and non-autoregressive model for the IPMC actuator. Lastly, the average NMSE achieved using the proposed hybrid model is 9.5781e-04 showing a significant drop in the error rate compared to other non-autoregressive structures.
翻訳日:2022-03-04 16:42:15 公開日:2022-03-03
# 視線追跡とxrによるx線診断の改善

Improving X-ray Diagnostics through Eye-Tracking and XR ( http://arxiv.org/abs/2203.01643v1 )

ライセンス: Link先を確認
Catarina Moreira and Isabel Blanco Nobre and Sandra Costa Sousa and Jo\~ao Madeiras Pereira and Joaquim Jorge(参考訳) 放射線科医がx線を読影し、迅速、快適、効果的に診断する必要性が高まっている。 放射線科医が生産性を最大化するために、複雑な検査の解釈における読書室の影響を考慮し、より高いボリュームと報告速度が患者の予後に影響を与えないことを保証することが不可欠である。 バーチャルリアリティ(VR)は、X線画像を評価するための臨床実践のための破壊的技術である。 プロがデジタル画像を調べると、不適切な人間工学的姿勢や不適切な部屋の状態によって引き起こされる障害を克服する可能性があると我々は主張する。

There is a growing need to assist radiologists in performing X-ray readings and diagnoses fast, comfortably, and effectively. As radiologists strive to maximize productivity, it is essential to consider the impact of reading rooms in interpreting complex examinations and ensure that higher volume and reporting speeds do not compromise patient outcomes. Virtual Reality (VR) is a disruptive technology for clinical practice in assessing X-ray images. We argue that conjugating eye-tracking with VR devices and Machine Learning may overcome obstacles posed by inadequate ergonomic postures and poor room conditions that often cause erroneous diagnostics when professionals examine digital images.
翻訳日:2022-03-04 16:41:58 公開日:2022-03-03
# 品質以上の量:大規模コモディティビジョンデータを用いたAVモーションプランナの訓練

Quantity over Quality: Training an AV Motion Planner with Large Scale Commodity Vision Data ( http://arxiv.org/abs/2203.01681v1 )

ライセンス: Link先を確認
Lukas Platinsky, Tayyab Naseer, Hui Chen, Ben Haines, Haoyue Zhu, Hugo Grimmett, Luca Del Pero(参考訳) 自動運転(autonomous vehicle, av)産業がautonomous 2.0へと移行するにつれ、自動運転システムのパフォーマンスは、大量の専門家による運転デモに大きく依存し始める。 しかし、このデモデータの収集には一般的に高価なhdセンサースイート(lidar+レーダー+カメラ)が必要であり、必要な規模ではすぐに経済的に実現不可能になる。 これは、hdセンサースイートよりも桁違いに安いが、忠実度は低い、データ収集のためのコモディティビジョンセンサーの使用を動機付けている。 もしこれらをAV運動プランナーの訓練に活用できれば、運転イベントの「長い尾」を観察することは経済的に実行可能な戦略となる。 提案する主な貢献として,hdセンサデータでトレーニングされたプランナーを少ないコストで上回るコモディティビジョンデータを用いて,高性能なモーションプランナーを訓練することが可能であることを示した。 これら2つのセンサ構成をトレーニングする際の自律システムの性能を比較し,さらに,100hのコモディティビジョンデータをトレーニングしたプランナーが,高価なHDデータを25hの高精細なデータで処理することで,より少ないセンサ忠実度を補えることを示す。 また、これを実現するために取り組むべき技術的課題も共有しています。 私たちの知る限りでは、実世界のデータを使ってこれが可能であることを最初に実証しています。

With the Autonomous Vehicle (AV) industry shifting towards Autonomy 2.0, the performance of self-driving systems starts to rely heavily on large quantities of expert driving demonstrations. However, collecting this demonstration data typically involves expensive HD sensor suites (LiDAR + RADAR + cameras), which quickly becomes financially infeasible at the scales required. This motivates the use of commodity vision sensors for data collection, which are an order of magnitude cheaper than the HD sensor suites, but offer lower fidelity. If it were possible to leverage these for training an AV motion planner, observing the `long tail' of driving events would become a financially viable strategy. As our main contribution we show it is possible to train a high-performance motion planner using commodity vision data which outperforms planners trained on HD-sensor data for a fraction of the cost. We do this by comparing the autonomy system performance when training on these two different sensor configurations, and showing that we can compensate for the lower sensor fidelity by means of increased quantity: a planner trained on 100h of commodity vision data outperforms one with 25h of expensive HD data. We also share the technical challenges we had to tackle to make this work. To the best of our knowledge, we are the first to demonstrate that this is possible using real-world data.
翻訳日:2022-03-04 16:40:26 公開日:2022-03-03
# KamNet: KamLAND-Zenにおけるレアイベント検索のための統合時空間深部ニューラルネットワーク

KamNet: An Integrated Spatiotemporal Deep Neural Network for Rare Event Search in KamLAND-Zen ( http://arxiv.org/abs/2203.01870v1 )

ライセンス: Link先を確認
Aobo Li, Zhenghao Fu, Lindley A. Winslow, Christopher P. Grant, Hasung Song, Hideyoshi Ozaki, Itaru Shimizu, Atsuto Takeuchi(参考訳) 希少な事象探索により、他の方法でアクセスできないエネルギースケールで新しい物理を探すことができる。 機械学習は、これらの検出器が提供する情報を最大化する新しいツールを提供する。 情報はスパースであり、このアルゴリズムは最低レベルのデータから始め、検出器内のすべての対称性を利用して結果を生成する。 本研究では,幾何学的深層学習と時空間データ解析のブレークスルーを活かし,ニュートリノのない二重ベータ崩壊を探索するキロトンスケールの球状液体シンチレータ検出器であるkamland-zenの物理学的到達範囲を最大化するために,kamnetを提案する。 KamLANDの簡易な背景モデルを用いて、KamNetはMCシミュレーションのベンチマークにおいて従来のCNNよりも高いロバスト性を持つことを示す。 シミュレーションデータを用いて、KamNetがKamLAND-Zenの感度を$0\nu\beta\beta$と$0\nu\beta\beta$にアップする能力を実証する。 この研究の重要な要素は、背景の拒絶のためにKamNetが使用している物理を解明するための注意機構の追加である。

Rare event searches allow us to search for new physics at energy scales inaccessible with other means by leveraging specialized large-mass detectors. Machine learning provides a new tool to maximize the information provided by these detectors. The information is sparse, which forces these algorithms to start from the lowest level data and exploit all symmetries in the detector to produce results. In this work we present KamNet which harnesses breakthroughs in geometric deep learning and spatiotemporal data analysis to maximize the physics reach of KamLAND-Zen, a kiloton scale spherical liquid scintillator detector searching for neutrinoless double beta decay ($0\nu\beta\beta$). Using a simplified background model for KamLAND we show that KamNet outperforms a conventional CNN on benchmarking MC simulations with an increasing level of robustness. Using simulated data, we then demonstrate KamNet's ability to increase KamLAND-Zen's sensitivity to $0\nu\beta\beta$ and $0\nu\beta\beta$ to excited states. A key component of this work is the addition of an attention mechanism to elucidate the underlying physics KamNet is using for the background rejection.
翻訳日:2022-03-04 16:40:04 公開日:2022-03-03
# Tensor Computation Runtimeのクエリ処理

Query Processing on Tensor Computation Runtimes ( http://arxiv.org/abs/2203.01877v1 )

ライセンス: Link先を確認
Dong He, Supun Nakandala, Dalitso Banda, Rathijit Sen, Karla Saur, Kwanghyun Park, Carlo Curino, Jes\'us Camacho-Rodr\'iguez, Konstantinos Karanasos, Matteo Interlandi(参考訳) 人工知能(AI)における計算の膨大な需要は、AIのための新しいハードウェアとソフトウェアシステムに、例外なく投資している。 これにより、主要なクラウドプロバイダが提供する特別なハードウェアデバイスが爆発的に増えている。 一方、テンソルベースのインターフェースを通じて低レベルの複雑さを隠すことで、PyTorchのようなテンソル計算ランタイム(TCR)は、データサイエンティストが新しいハードウェアが提供するエキサイティングな機能を効率的に活用することができる。 本稿では,ai分野におけるイノベーションの波にデータベースがどのように乗れるかを検討する。 具体的には,TCRのテンソルインタフェースを利用したSQLクエリプロセッサであるTensor Query Processor (TQP)を提案する。 TQP は TCR が提供する特殊テンソルルーチン上でリレーショナル演算子を実行する新しいアルゴリズムを実装することで,完全な TPC-H ベンチマークを効率的に実行することができる。 一方、TQPは通常の開発作業のほんの一部しか必要とせず、様々なハードウェアをターゲットにすることができる。 実験によると、TQPはCPUのみのシステムでクエリ実行時間を最大20倍改善し、特殊なGPUソリューションで最大5倍改善できる。 最後に、TQPはML予測とSQLエンドツーエンドを混合したクエリを高速化し、CPUベースラインの最大5倍のスピードアップを提供する。

The huge demand for computation in artificial intelligence (AI) is driving unparalleled investments in new hardware and software systems for AI. This leads to an explosion in the number of specialized hardware devices, which are now part of the offerings of major cloud providers. Meanwhile, by hiding the low-level complexity through a tensor-based interface, tensor computation runtimes (TCRs) such as PyTorch allow data scientists to efficiently exploit the exciting capabilities offered by the new hardware. In this paper, we explore how databases can ride the wave of innovation happening in the AI space. Specifically, we present Tensor Query Processor (TQP): a SQL query processor leveraging the tensor interface of TCRs. TQP is able to efficiently run the full TPC-H benchmark by implementing novel algorithms for executing relational operators on the specialized tensor routines provided by TCRs. Meanwhile, TQP can target various hardware while only requiring a fraction of the usual development effort. Experiments show that TQP can improve query execution time by up to 20x over CPU-only systems, and up to 5x over specialized GPU solutions. Finally, TQP can accelerate queries mixing ML predictions and SQL end-to-end, and deliver up to 5x speedup over CPU baselines.
翻訳日:2022-03-04 16:39:38 公開日:2022-03-03
# 方向持続図による不定値関数の再構成

Reconstruction of univariate functions from directional persistence diagrams ( http://arxiv.org/abs/2203.01894v1 )

ライセンス: Link先を確認
Aina Ferr\`a, Carles Casacuberta, Oriol Pujol(参考訳) 単変数関数 $f$ を高さ関数から異なる方向のサブレベル集合の永続化図を用いて近似する方法を述べる。 我々は、断片的線形ケースと滑らかなケースに対するアルゴリズムを提供する。 非退化臨界点を持つ滑らかな関数の場合、5つの方向が必要となる一方、3つの方向は、その方向持続図の集まりから分断線形連続関数のすべての局所極大と極小を見つけるのに十分である。 パーシステンスダイアグラムによる関数の近似は、ニューラルネットワーク分類器の情報を失うことなく、信号関数の臨界点の数を減らすことを目的とした機械学習における重要帰属の研究に動機づけられている。

We describe a method for approximating a single-variable function $f$ using persistence diagrams of sublevel sets of $f$ from height functions in different directions. We provide algorithms for the piecewise linear case and for the smooth case. Three directions suffice to locate all local maxima and minima of a piecewise linear continuous function from its collection of directional persistence diagrams, while five directions are needed in the case of smooth functions with non-degenerate critical points. Our approximation of functions by means of persistence diagrams is motivated by a study of importance attribution in machine learning, where one seeks to reduce the number of critical points of signal functions without a significant loss of information for a neural network classifier.
翻訳日:2022-03-04 16:39:16 公開日:2022-03-03
# (参考訳) 境界反発によるラベルのみモデル反転攻撃

Label-Only Model Inversion Attacks via Boundary Repulsion ( http://arxiv.org/abs/2203.01925v1 )

ライセンス: CC BY-SA 4.0
Mostafa Kahla, Si Chen, Hoang Anh Just, Ruoxi Jia(参考訳) 最近の研究では、最先端のディープニューラルネットワークは、特定のターゲットクラスのプライベートトレーニングデータを再構築するためにモデルへのアクセスを乱用するモデル反転攻撃に対して脆弱であることが示されている。 既存の攻撃は、完全なターゲットモデル(ホワイトボックス)またはモデルのソフトラベル(ブラックボックス)へのアクセスに依存する。 しかし、より難しいがより実用的なシナリオでは、攻撃者が信頼度尺度なしでモデルの予測ラベルへのアクセスしかできないという、事前の作業は行われていない。 本稿では,対象モデルの予測ラベルのみを用いて,プライベートトレーニングデータを反転させるアルゴリズム,Bundary-Repelling Model Inversion (BREP-MI)を提案する。 我々のアルゴリズムの重要なアイデアは、モデルが予測したラベルを球面上で評価し、ターゲットクラスの中心点に到達する方向を推定することである。 顔認識の例を用いて、BREP-MIで再構成した画像は、様々なデータセットやターゲットモデルアーキテクチャのためのプライベートトレーニングデータのセマンティクスを再現することに成功した。 brep-miを最先端のホワイトボックスおよびブラックボックスモデルの反転攻撃と比較した結果、ターゲットモデルに関する知識が少ないにもかかわらず、brep-miはブラックボックス攻撃よりも優れており、ホワイトボックス攻撃と同等の結果が得られることがわかった。

Recent studies show that the state-of-the-art deep neural networks are vulnerable to model inversion attacks, in which access to a model is abused to reconstruct private training data of any given target class. Existing attacks rely on having access to either the complete target model (whitebox) or the model's soft-labels (blackbox). However, no prior work has been done in the harder but more practical scenario, in which the attacker only has access to the model's predicted label, without a confidence measure. In this paper, we introduce an algorithm, Boundary-Repelling Model Inversion (BREP-MI), to invert private training data using only the target model's predicted labels. The key idea of our algorithm is to evaluate the model's predicted labels over a sphere and then estimate the direction to reach the target class's centroid. Using the example of face recognition, we show that the images reconstructed by BREP-MI successfully reproduce the semantics of the private training data for various datasets and target model architectures. We compare BREP-MI with the state-of-the-art whitebox and blackbox model inversion attacks and the results show that despite assuming less knowledge about the target model, BREP-MI outperforms the blackbox attack and achieves comparable results to the whitebox attack.
翻訳日:2022-03-04 16:36:53 公開日:2022-03-03
# ポイントクラウド上の3次元インスタンスセグメンテーションのためのSoftGroup

SoftGroup for 3D Instance Segmentation on Point Clouds ( http://arxiv.org/abs/2203.01509v1 )

ライセンス: Link先を確認
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo(参考訳) 既存の最先端の3Dインスタンスセグメンテーションメソッドはセグメンテーションを行い、次にグループ化を行う。 各点が1つのクラスに関連付けられているようにセマンティックセグメンテーションを実行する際に、ハード予測を行う。 しかし、難しい決定から生じる誤りは、(1)予測された事例と基礎的事実との重なり合いが低く、(2)実質的な偽陽性が生じるグループ化へと伝播する。 上述の問題に対処するために,ボトムアップソフトグルーピングとトップダウンリファインメントによるソフトグループと呼ばれる3次元インスタンスセグメンテーション手法を提案する。 softgroupは、各ポイントを複数のクラスに関連付けることで、意味的予測エラーに起因する問題を緩和し、背景として分類する学習によって偽陽性インスタンスを抑制する。 異なるデータセットと複数の評価指標に関する実験結果は、softgroupの有効性を示している。 その性能は、ScanNet v2の隠れテストセットで+6.2%、AP_50で+6.8%という、最強の先行手法を超える。 SoftGroupも高速で、ScanNet v2データセット上の単一のTitan Xで1スキャンあたり345msで動作する。 両方のデータセットのソースコードとトレーニングされたモデルは、 \url{https://github.com/thangvubk/softgroup.git}で入手できる。

Existing state-of-the-art 3D instance segmentation methods perform semantic segmentation followed by grouping. The hard predictions are made when performing semantic segmentation such that each point is associated with a single class. However, the errors stemming from hard decision propagate into grouping that results in (1) low overlaps between the predicted instance with the ground truth and (2) substantial false positives. To address the aforementioned problems, this paper proposes a 3D instance segmentation method referred to as SoftGroup by performing bottom-up soft grouping followed by top-down refinement. SoftGroup allows each point to be associated with multiple classes to mitigate the problems stemming from semantic prediction errors and suppresses false positive instances by learning to categorize them as background. Experimental results on different datasets and multiple evaluation metrics demonstrate the efficacy of SoftGroup. Its performance surpasses the strongest prior method by a significant margin of +6.2% on the ScanNet v2 hidden test set and +6.8% on S3DIS Area 5 in terms of AP_50. SoftGroup is also fast, running at 345ms per scan with a single Titan X on ScanNet v2 dataset. The source code and trained models for both datasets are available at \url{https://github.com/thangvubk/SoftGroup.git}.
翻訳日:2022-03-04 16:16:49 公開日:2022-03-03
# BatchFormer:ロバスト表現学習のためのサンプル関係探索学習

BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning ( http://arxiv.org/abs/2203.01522v1 )

ライセンス: Link先を確認
Zhi Hou, Baosheng Yu, Dacheng Tao(参考訳) ディープニューラルネットワークの成功にもかかわらず、データ不均衡、未認識分布、ドメインシフトといったデータ不足の問題のために、深層表現学習には依然として多くの課題がある。 上記の問題に対処するために、サンプル関係をバニラ方式(入力関数と損失関数の両方の観点から)で探究するために様々な手法が考案され、サンプル関係で学習するためのディープニューラルネットワークの内部構造の研究に失敗した。 そこで本研究では,各ミニバッチからサンプル関係を学習する深層ニューラルネットワーク自体を実現することを提案する。 具体的には、各ミニバッチのバッチ次元に適用されるバッチトランスフォーマまたはバッチフォーマを導入し、トレーニング中のサンプル関係を暗黙的に調査する。 提案手法は, 異なるサンプルの協調作業を可能にする。例えば, ヘッドクラスのサンプルは, ロングテール認識のためのテールクラスの学習にも貢献できる。 さらに、トレーニングとテストの間のギャップを軽減するため、トレーニング中のバッチフォーマの有無に関わらず、分類器を共有することで、テスト中に削除することができる。 提案手法は,10以上のデータセットを対象とした広範囲な実験を行い,ロングテール認識,コンポジションゼロショット学習,ドメイン一般化,コントラスト学習などのタスクを伴わずに,異なるデータ不足アプリケーションに対して大幅な改善を実現する。 コードは \url{https://github.com/zhihou7/BatchFormer} で公開される。

Despite the success of deep neural networks, there are still many challenges in deep representation learning due to the data scarcity issues such as data imbalance, unseen distribution, and domain shift. To address the above-mentioned issues, a variety of methods have been devised to explore the sample relationships in a vanilla way (i.e., from the perspectives of either the input or the loss function), failing to explore the internal structure of deep neural networks for learning with sample relationships. Inspired by this, we propose to enable deep neural networks themselves with the ability to learn the sample relationships from each mini-batch. Specifically, we introduce a batch transformer module or BatchFormer, which is then applied into the batch dimension of each mini-batch to implicitly explore sample relationships during training. By doing this, the proposed method enables the collaboration of different samples, e.g., the head-class samples can also contribute to the learning of the tail classes for long-tailed recognition. Furthermore, to mitigate the gap between training and testing, we share the classifier between with or without the BatchFormer during training, which can thus be removed during testing. We perform extensive experiments on over ten datasets and the proposed method achieves significant improvements on different data scarcity applications without any bells and whistles, including the tasks of long-tailed recognition, compositional zero-shot learning, domain generalization, and contrastive learning. Code will be made publicly available at \url{https://github.com/zhihou7/BatchFormer}
翻訳日:2022-03-04 16:16:25 公開日:2022-03-03
# CAFE: 特徴の調整によるデータセットの理解

CAFE: Learning to Condense Dataset by Aligning Features ( http://arxiv.org/abs/2203.01531v1 )

ライセンス: Link先を確認
Kai Wang, Bo Zhao, Xiangyu Peng, Zheng Zhu, Shuo Yang, Shuo Wang, Guan Huang, Hakan Bilen, Xinchao Wang, and Yang You(参考訳) Dataset Condensationは、面倒なトレーニングセットをコンパクトな合成セットに凝縮することで、ネットワークトレーニングの労力を削減することを目的としている。 最先端のアプローチは、実データバッチと合成データバッチ間の勾配を一致させることで、合成データの学習に大きく依存する。 直感的なモチベーションと有望な結果にもかかわらず、このような勾配ベースの手法は、本質的には、優占的な勾配を生み出すバイアスのあるサンプルセットに簡単に過剰に適合し、従って、データ分布のグローバルな監視を欠いている。 本稿では,実特徴分布の保存と合成集合の識別力の保持を明示的に試み,様々なアーキテクチャへの強力な一般化能力に自らを貸与する特徴の整列化(cafe)によってデータセットを凝縮する新しい手法を提案する。 我々のアプローチの核心は、実サンプルの分類を考慮しつつ、様々なスケールにわたる実データと合成データの特徴を整合させる効果的な戦略である。 さらに,パラメータ更新を適応的に調整し,オーバー・アンダー・フィッティングを防止する動的バイレベル最適化が提案されている。 提案したCAFEをさまざまなデータセットで検証し,SVHNデータセットでは最大11%のパフォーマンス向上が達成された。 大規模な実験と分析により,提案設計の有効性と必要性が検証された。

Dataset condensation aims at reducing the network training effort through condensing a cumbersome training set into a compact synthetic one. State-of-the-art approaches largely rely on learning the synthetic data by matching the gradients between the real and synthetic data batches. Despite the intuitive motivation and promising results, such gradient-based methods, by nature, easily overfit to a biased set of samples that produce dominant gradients, and thus lack global supervision of data distribution. In this paper, we propose a novel scheme to Condense dataset by Aligning FEatures (CAFE), which explicitly attempts to preserve the real-feature distribution as well as the discriminant power of the resulting synthetic set, lending itself to strong generalization capability to various architectures. At the heart of our approach is an effective strategy to align features from the real and synthetic data across various scales, while accounting for the classification of real samples. Our scheme is further backed up by a novel dynamic bi-level optimization, which adaptively adjusts parameter updates to prevent over-/under-fitting. We validate the proposed CAFE across various datasets, and demonstrate that it generally outperforms the state of the art: on the SVHN dataset, for example, the performance gain is up to 11%. Extensive experiments and analyses verify the effectiveness and necessity of proposed designs.
翻訳日:2022-03-04 16:16:00 公開日:2022-03-03
# SegTAD:セマンティックセグメンテーションによる正確な時間的行動検出

SegTAD: Precise Temporal Action Detection via Semantic Segmentation ( http://arxiv.org/abs/2203.01542v1 )

ライセンス: Link先を確認
Chen Zhao, Merey Ramazanova, Mengmeng Xu, Bernard Ghanem(参考訳) 時間的行動検出(TAD)はビデオ解析において重要な課題である。 既存の作品の多くは、画像オブジェクト検出からインスピレーションを得ており、提案生成 - 分類問題として再編成する傾向がある。 しかし、このパラダイムには2つの注意点がある。 まず、提案には注釈付きラベルが備わっておらず、経験的コンパイルが必要となるため、アノテーションの情報は必ずしもモデルトレーニングプロセスで正確に使用されるわけではない。 第二に、アクションの時間スケールには大きなバリエーションがあり、この事実を無視するとビデオの特徴が不足する可能性がある。 これらの問題に対処し、正確に時間的行動検出をモデル化するために、意味セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。 tadの1次元的性質により,粗粒度検出アノテーションを細粒度セマンティックセグメンテーションアノテーションに無償で変換することができる。 我々は,提案ラベルの不正確さによる影響を緩和するために,適切な監督を行う。 本稿では,1次元セマンティックセグメンテーションネットワーク (1D-SSN) と提案検出ネットワーク (PDN) から構成されるエンドツーエンドフレームワークSegTADを提案する。

Temporal action detection (TAD) is an important yet challenging task in video analysis. Most existing works draw inspiration from image object detection and tend to reformulate it as a proposal generation - classification problem. However, there are two caveats with this paradigm. First, proposals are not equipped with annotated labels, which have to be empirically compiled, thus the information in the annotations is not necessarily precisely employed in the model training process. Second, there are large variations in the temporal scale of actions, and neglecting this fact may lead to deficient representation in the video features. To address these issues and precisely model temporal action detection, we formulate the task of temporal action detection in a novel perspective of semantic segmentation. Owing to the 1-dimensional property of TAD, we are able to convert the coarse-grained detection annotations to fine-grained semantic segmentation annotations for free. We take advantage of them to provide precise supervision so as to mitigate the impact induced by the imprecise proposal labels. We propose an end-to-end framework SegTAD composed of a 1D semantic segmentation network (1D-SSN) and a proposal detection network (PDN).
翻訳日:2022-03-04 16:15:34 公開日:2022-03-03
# 視野依存的放射場における形状-照度あいまいさの解消

Addressing the Shape-Radiance Ambiguity in View-Dependent Radiance Fields ( http://arxiv.org/abs/2203.01553v1 )

ライセンス: Link先を確認
Sverker Rasmuson, Erik Sintorn, Ulf Assarsson(参考訳) 本稿では,3次元再構成の収束と品質を高めるために,輝度場における視点依存情報を扱う手法を提案する。 ビュー依存の放射場は、いわゆる形状照度曖昧性に苦しめられ、ビュー依存色の高い角分解能を与える不正確な幾何学に繋がる可能性がある。 本稿では,視界依存とランベルト成分の分離を目的とした,各カメラの前面に差分平面を追加することを提案する。 また、そのような分離が困難である場合に表面を分離するのに役立つ低解像度のビュー依存関数である、トレーニングするが保存しない追加ステップを提案する。 これらの追加は性能とメモリ使用量にはほとんど影響しないが、Spherical Harmonicsのようなビュー依存を明示的に扱うことなく、非常に特異なコンポーネントでシーンを再構築することができる。

We present a method for handling view-dependent information in radiance fields to help with convergence and quality of 3D reconstruction. Radiance fields with view-dependence suffers from the so called shape-radiance ambiguity, which can lead to incorrect geometry given a high angular resolution of view-dependent colors. We propose the addition of a difference plane in front of each camera, with the purpose of separating view-dependent and Lambertian components during training. We also propose an additional step where we train, but do not store, a low-resolution view-dependent function that helps to isolate the surface if such a separation is proven difficult. These additions have a small impact on performance and memory usage but enables reconstruction of scenes with highly specular components without any other explicit handling of view-dependence such as Spherical Harmonics.
翻訳日:2022-03-04 16:15:13 公開日:2022-03-03
# RGBと推定深さの多層融合に基づく自己監督エゴ運動推定

Self-Supervised Ego-Motion Estimation Based on Multi-Layer Fusion of RGB and Inferred Depth ( http://arxiv.org/abs/2203.01557v1 )

ライセンス: Link先を確認
Zijie Jiang, Hajime Taira, Naoyuki Miyashita and Masatoshi Okutomi(参考訳) 既存の自己監督深度推定法や自我運動推定法では、自我運動推定は通常、RGB情報のみを活用することに制限される。 近年, 深度, 加速度, 角速度などの他のモードからの情報を融合させることにより, 自己監督エゴモーション推定の精度を向上する手法が提案されている。 しかし、彼らはしばしば異なる融合戦略がパフォーマンスにどのように影響するかに焦点を当てる。 本稿では,ego運動推定における異なる融合戦略の効果について検討し,rgbと推定された深度情報を多層融合方式で活用し,自己教師付き深度学習とego運動推定のための新しい枠組みを提案する。 その結果,KITTI odometry ベンチマークを用いた学習手法の最先端性能が得られた。 また,提案手法の利点を明確に示すため,推定深度情報と核融合戦略を利用した設計選択に関する詳細な研究も行われている。

In existing self-supervised depth and ego-motion estimation methods, ego-motion estimation is usually limited to only leveraging RGB information. Recently, several methods have been proposed to further improve the accuracy of self-supervised ego-motion estimation by fusing information from other modalities, e.g., depth, acceleration, and angular velocity. However, they rarely focus on how different fusion strategies affect performance. In this paper, we investigate the effect of different fusion strategies for ego-motion estimation and propose a new framework for self-supervised learning of depth and ego-motion estimation, which performs ego-motion estimation by leveraging RGB and inferred depth information in a Multi-Layer Fusion manner. As a result, we have achieved state-of-the-art performance among learning-based methods on the KITTI odometry benchmark. Detailed studies on the design choices of leveraging inferred depth information and fusion strategies have also been carried out, which clearly demonstrate the advantages of our proposed framework.
翻訳日:2022-03-04 16:14:56 公開日:2022-03-03
# HOI4D:カテゴリーレベル人間-オブジェクトインタラクションのための4Dエゴセントリックデータセット

HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction ( http://arxiv.org/abs/2203.01577v1 )

ライセンス: Link先を確認
Yunze Liu, Yun Liu, Che Jiang, Zhoujie Fu, Kangbo Lyu, Weikang Wan, Hao Shen, Boqiang Liang, He Wang, Li Yi(参考訳) そこで本研究では,リッチアノテーションを用いた大規模4DエゴセントリックデータセットHOI4Dを提案する。 HOI4Dは、3M RGB-Dエゴセントリックなビデオフレームで構成され、9人の参加者が収集し、610の室内室の20のカテゴリから1000の異なるオブジェクトインスタンスと相互作用する。 また、再構成されたオブジェクトメッシュとシーンポイントクラウドとともに、3Dハンドポーズ、カテゴリレベルのオブジェクトポーズ、ハンドアクションのためのフレームワイドアノテーションも提供されている。 HOI4Dでは,4次元ダイナミックポイントクラウドシーケンスのセマンティックセグメンテーション,カテゴリレベルのオブジェクトポーズトラッキング,多種多様なインタラクションターゲットによるエゴセントリックアクションセグメンテーションを含む,4次元視覚信号からカテゴリレベルのHOIを促進する3つのベンチマークタスクを確立する。 詳細な分析によると、HOI4Dは既存の手法に大きな課題をもたらし、大きな研究機会を生み出している。 近いうちにデータセットをリリースします。

We present HOI4D, a large-scale 4D egocentric dataset with rich annotations, to catalyze the research of category-level human-object interaction. HOI4D consists of 3M RGB-D egocentric video frames over 5000 sequences collected by 9 participants interacting with 1000 different object instances from 20 categories over 610 different indoor rooms. Frame-wise annotations for panoptic segmentation, motion segmentation, 3D hand pose, category-level object pose and hand action have also been provided, together with reconstructed object meshes and scene point clouds. With HOI4D, we establish three benchmarking tasks to promote category-level HOI from 4D visual signals including semantic segmentation of 4D dynamic point cloud sequences, category-level object pose tracking, and egocentric action segmentation with diverse interaction targets. In-depth analysis shows HOI4D poses great challenges to existing methods and produces great research opportunities. We will release the dataset soon.
翻訳日:2022-03-04 16:13:09 公開日:2022-03-03
# 普遍的後方互換表現学習に向けて

Towards Universal Backward-Compatible Representation Learning ( http://arxiv.org/abs/2203.01583v1 )

ライセンス: Link先を確認
Binjie Zhang, Yixiao Ge, Yantao Shen, Shupeng Su, Chun Yuan, Xuyuan Xu, Yexin Wang, Ying Shan(参考訳) ビジュアルサーチシステムの従来のモデルアップグレードでは、ギャラリーイメージを新しいモデル("backfill"と呼ばれる)に投入することでギャラリー機能のオフライン更新が必要であり、特に大規模アプリケーションでは時間と費用がかかる。 したがって、後方互換性のある表現学習のタスクは、新しいクエリ機能が古いギャラリー機能と相互運用可能なバックフィルフリーモデルアップグレードをサポートするために導入された。 成功にもかかわらず、以前の研究は密集したトレーニングシナリオ(すなわち、新しいトレーニングセットは旧クラスと同じクラスを共有している)のみを調査し、より現実的で挑戦的なオープンセットシナリオによって制限されている。 そこで本研究では,モデル更新におけるすべてのデータ分割を網羅する,普遍的後方互換表現学習の新たな問題を提案する。 さらに,Universal Backward-Compatible Training (UniBCT) と呼ばれる,新しい構造的プロトタイプの改良アルゴリズムを提案する。 大規模顔認識データセットMS1Mv3とIJB-Cの総合的な実験により,本手法の有効性を実証した。

Conventional model upgrades for visual search systems require offline refresh of gallery features by feeding gallery images into new models (dubbed as "backfill"), which is time-consuming and expensive, especially in large-scale applications. The task of backward-compatible representation learning is therefore introduced to support backfill-free model upgrades, where the new query features are interoperable with the old gallery features. Despite the success, previous works only investigated a close-set training scenario (i.e., the new training set shares the same classes as the old one), and are limited by more realistic and challenging open-set scenarios. To this end, we first introduce a new problem of universal backward-compatible representation learning, covering all possible data split in model upgrades. We further propose a simple yet effective method, dubbed as Universal Backward-Compatible Training (UniBCT) with a novel structural prototype refinement algorithm, to learn compatible representations in all kinds of model upgrading benchmarks in a unified manner. Comprehensive experiments on the large-scale face recognition datasets MS1Mv3 and IJB-C fully demonstrate the effectiveness of our method.
翻訳日:2022-03-04 16:12:48 公開日:2022-03-03
# 効率的な推論のための多段視覚変換器

Multi-Tailed Vision Transformer for Efficient Inference ( http://arxiv.org/abs/2203.01587v1 )

ライセンス: Link先を確認
Yunke Wang, Bo Du, Chang Xu(参考訳) 近年、視覚トランスフォーマー(vit)は画像認識において有望な性能を達成し、様々な視覚タスクにおいて徐々に強力なバックボーンとして機能している。 Transformerのシーケンシャル入力を満たすために、ViTのテールはまず各画像を一定長さの視覚トークンのシーケンスに分割する。 次に、以下の自己注意層がトークン間のグローバルな関係を構築し、下流タスクに有用な表現を生成する。 実証的には、より多くのトークンで画像を表現することでパフォーマンスが向上するが、トークンの数に対する自己認識層の2次計算の複雑さは、ViTの推論の効率に深刻な影響を及ぼす可能性がある。 計算量削減のために、トランスフォーマーエンコーダで不定形トークンを段階的にプルーニングする手法がいくつかあるが、トランスフォーマーが触れない前にトークンの数を残している。 実際、トランスコーダの入力によるトークンの削減は、以下の計算コストを直接削減することができる。 本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。 MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。 テール予測器を導入し、画像の正確な予測を行うのに最も効率的なテールを決定する。 どちらのモジュールも、Gumbel-Softmaxのトリックでエンドツーエンドで最適化されている。 ImageNet-1Kの実験では、MT-ViTは精度を低下させることなくFLOPを著しく低減し、他の比較手法を精度とFLOPの両方で上回った。

Recently, Vision Transformer (ViT) has achieved promising performance in image recognition and gradually serves as a powerful backbone in various vision tasks. To satisfy the sequential input of Transformer, the tail of ViT first splits each image into a sequence of visual tokens with a fixed length. Then the following self-attention layers constructs the global relationship between tokens to produce useful representation for the downstream tasks. Empirically, representing the image with more tokens leads to better performance, yet the quadratic computational complexity of self-attention layer to the number of tokens could seriously influence the efficiency of ViT's inference. For computational reduction, a few pruning methods progressively prune uninformative tokens in the Transformer encoder, while leaving the number of tokens before the Transformer untouched. In fact, fewer tokens as the input for the Transformer encoder can directly reduce the following computational cost. In this spirit, we propose a Multi-Tailed Vision Transformer (MT-ViT) in the paper. MT-ViT adopts multiple tails to produce visual sequences of different lengths for the following Transformer encoder. A tail predictor is introduced to decide which tail is the most efficient for the image to produce accurate prediction. Both modules are optimized in an end-to-end fashion, with the Gumbel-Softmax trick. Experiments on ImageNet-1K demonstrate that MT-ViT can achieve a significant reduction on FLOPs with no degradation of the accuracy and outperform other compared methods in both accuracy and FLOPs.
翻訳日:2022-03-04 16:12:26 公開日:2022-03-03
# 人間の3D動作予測:サーベイ

3D Human Motion Prediction: A Survey ( http://arxiv.org/abs/2203.01593v1 )

ライセンス: Link先を確認
Kedi Lyu, Haipeng Chen, Zhenguang Liu, Beiqi Zhang, Ruili Wang(参考訳) 3Dの人間の動きを予測することは、コンピュータビジョンとマシンインテリジェンスにおいて大きな重要性と課題の1つであり、機械が人間の振る舞いを理解するのに役立つ。 ディープ・ニューラル・ネットワーク(dnn)の発展と理解の高まり、大規模人間の動きデータセットの利用可能化により、人間の運動予測は学界や産業コミュニティの関心の高まりとともに著しく進歩した。 この文脈では、既存の公開文献から関連する作品を振り返り分析するために、3次元人間の運動予測に関する包括的調査を行う。 さらに,従来の3次元動作予測手法を分類するために,関連する分類法を構築した。 本調査では, 人間のポーズ表現, ネットワーク構造設計, および textit{prediction target} の3つのカテゴリに分類される。 本研究は,2015年以降の人間行動予測分野における関連する学術雑誌および会議論文を網羅的にレビューし,本調査で提案された分類に基づいて詳細に紹介する。 さらに,本論文では,公開ベンチマークデータセットの概要,評価基準,性能比較について述べる。 最先端の手法の限界についても議論し、将来の探査への道を開くことを期待している。

3D human motion prediction, predicting future poses from a given sequence, is an issue of great significance and challenge in computer vision and machine intelligence, which can help machines in understanding human behaviors. Due to the increasing development and understanding of Deep Neural Networks (DNNs) and the availability of large-scale human motion datasets, the human motion prediction has been remarkably advanced with a surge of interest among academia and industrial community. In this context, a comprehensive survey on 3D human motion prediction is conducted for the purpose of retrospecting and analyzing relevant works from existing released literature. In addition, a pertinent taxonomy is constructed to categorize these existing approaches for 3D human motion prediction. In this survey, relevant methods are categorized into three categories: human pose representation, network structure design, and \textit{prediction target}. We systematically review all relevant journal and conference papers in the field of human motion prediction since 2015, which are presented in detail based on proposed categorizations in this survey. Furthermore, the outline for the public benchmark datasets, evaluation criteria, and performance comparisons are respectively presented in this paper. The limitations of the state-of-the-art methods are discussed as well, hoping for paving the way for future explorations.
翻訳日:2022-03-04 16:12:01 公開日:2022-03-03
# 手書き数式認識のための構文認識ネットワーク

Syntax-Aware Network for Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2203.01601v1 )

ライセンス: Link先を確認
Ye Yuan, Xiao Liu, Wondimu Dikubab, Hui Liu, Zhilong Ji, Zhongqin Wu, Xiang Bai(参考訳) 手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。 HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。 しかし、これらの手法は「ある文字から別の文字へ」予測されるというパラダイムを踏襲しており、数学的表現やカニ足跡の複雑な構造によって必然的に予測誤差が生じる。 本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。 具体的には,各表現のラテックスマークアップシーケンスを解析木に変換するための文法規則のセットを示し,そのマークアップシーケンス予測をディープニューラルネットワークを用いてツリートラバースプロセスとしてモデル化する。 このように,提案手法はhmerの構造予測誤差を回避し,表現の構文文脈を効果的に記述することができる。 2つのベンチマークデータセットを用いた実験により,本手法の認識性能は先行技術よりも有意に向上した。 本手法の有効性をさらに検証するために,1万の書き手から取得した10万の手書き数式画像からなる大規模データセットを作成する。 この作業のソースコード、新しいデータセット、事前トレーニングされたモデルが公開される。

Handwritten mathematical expression recognition (HMER) is a challenging task that has many potential applications. Recent methods for HMER have achieved outstanding performance with an encoder-decoder architecture. However, these methods adhere to the paradigm that the prediction is made "from one character to another", which inevitably yields prediction errors due to the complicated structures of mathematical expressions or crabbed handwritings. In this paper, we propose a simple and efficient method for HMER, which is the first to incorporate syntax information into an encoder-decoder network. Specifically, we present a set of grammar rules for converting the LaTeX markup sequence of each expression into a parsing tree; then, we model the markup sequence prediction as a tree traverse process with a deep neural network. In this way, the proposed method can effectively describe the syntax context of expressions, avoiding the structure prediction errors of HMER. Experiments on two benchmark datasets demonstrate that our method achieves significantly better recognition performance than prior arts. To further validate the effectiveness of our method, we create a large-scale dataset consisting of 100k handwritten mathematical expression images acquired from ten thousand writers. The source code, new dataset, and pre-trained models of this work will be publicly available.
翻訳日:2022-03-04 16:11:39 公開日:2022-03-03
# 相関を考慮した深部追跡

Correlation-Aware Deep Tracking ( http://arxiv.org/abs/2203.01666v1 )

ライセンス: Link先を確認
Fei Xie, Chunyu Wang, Guangting Wang, Yue Cao, Wankou Yang, Wenjun Zeng(参考訳) ロバストさと識別力は視覚的物体追跡の基本的な2つの要件である。 多くの追跡パラダイムにおいて、シームズ様ネットワークによって抽出された特徴は、追跡対象と妨害対象を完全に識別できないため、これら2つの要件を同時に満たさない。 多くの手法はロバストな相関操作の設計に重点を置いているが,本手法は自己/横断的意図に基づく,新たなターゲット依存型特徴ネットワークを提案する。 Siameseのような特徴抽出とは対照的に、我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。 複数のレイヤを通して2つのイメージの特徴を広範囲に一致させることで、ターゲット外の特徴を抑制でき、結果としてインスタンス変動的な特徴抽出が可能になる。 検索画像の出力特徴は、余分な相関ステップなしで目標位置を予測するために直接使用できる。 さらに, このモデルでは, 豊富な非ペア画像に対して柔軟に事前学習でき, 既存の手法よりも収束速度が著しく向上する。 大規模実験により,リアルタイム実行時の最先端結果が得られた。 我々の機能ネットワークは、トラッキング性能を高めるために既存のトラッキングパイプラインにもシームレスに適用できる。 コードは利用可能だ。

Robustness and discrimination power are two fundamental requirements in visual object tracking. In most tracking paradigms, we find that the features extracted by the popular Siamese-like networks cannot fully discriminatively model the tracked targets and distractor objects, hindering them from simultaneously meeting these two requirements. While most methods focus on designing robust correlation operations, we propose a novel target-dependent feature network inspired by the self-/cross-attention scheme. In contrast to the Siamese-like feature extraction, our network deeply embeds cross-image feature correlation in multiple layers of the feature network. By extensively matching the features of the two images through multiple layers, it is able to suppress non-target features, resulting in instance-varying feature extraction. The output features of the search image can be directly used for predicting target locations without extra correlation step. Moreover, our model can be flexibly pre-trained on abundant unpaired images, leading to notably faster convergence than the existing methods. Extensive experiments show our method achieves the state-of-the-art results while running at real-time. Our feature networks also can be applied to existing tracking pipelines seamlessly to raise the tracking performance. Code will be available.
翻訳日:2022-03-04 16:11:18 公開日:2022-03-03
# 中間ドメインによるクロスドメイン人物再識別のためのソース間ギャップのブリッジ化

Bridging the Source-to-target Gap for Cross-domain Person Re-Identification with Intermediate Domains ( http://arxiv.org/abs/2203.01682v1 )

ライセンス: Link先を確認
Yongxing Dai, Yifan Sun, Jun Liu, Zekun Tong, Yi Yang, Ling-Yu Duan(参考訳) unsupervised domain adaptive (uda) re-idのような、クロスドメインの人物再識別(re-id)は、ソースからターゲットドメインへのアイデンティティ識別知識の転送を目的としている。 既存の手法では、ソースとターゲットドメインは互いに分離されており、中間状態は両方のドメイン間でモデル化されない。 2つの独立したドメイン間で知識を直接転送するのは、特にドメインギャップが大きい場合、非常に難しい。 新たな観点から、これらの2つの領域は完全に孤立しているのではなく、中間領域を通して接続できると仮定する。 本稿では,ソースドメインとターゲットドメインを直接一致させる代わりに,ソースドメインとターゲットドメインを中間ドメインと整合させて,スムーズな知識伝達を提案する。 中間領域の発見と利用を目的として,中間領域モジュール (IDM) とミラー生成モジュール (MGM) を提案する。 IDMには2つの機能がある。 1)ソースドメインとターゲットドメインから隠蔽層の特徴を混合して複数の中間ドメインを生成する。 2) ソース/ターゲットドメイン機能と中間ドメイン機能の間のドメインギャップを動的に低減する。 IDMは良好なドメインアライメントを実現するが、副作用、すなわち混合操作は、IDを新しいアイデンティティに混ぜ、元のIDを失う可能性がある。 これを補うため、MGMは特徴をIDM生成中間ドメインにマッピングし、元のアイデンティティを変更することなく導入する。 これにより、ドメインのバリエーションを最小限に抑え、ソース/ターゲットドメインと中間ドメインのアライメントを促進し、IDMをIMM++に強化することができる。 提案手法をUDAとドメイン一般化(DG)の両方のシナリオで広範囲に評価し,IDM++がクロスドメイン・リIDに対して一貫した性能向上を実現し,新たな技術を実現することを確認する。

Cross-domain person re-identification (re-ID), such as unsupervised domain adaptive (UDA) re-ID, aims to transfer the identity-discriminative knowledge from the source to the target domain. Existing methods commonly consider the source and target domains are isolated from each other, i.e., no intermediate status is modeled between both domains. Directly transferring the knowledge between two isolated domains can be very difficult, especially when the domain gap is large. From a novel perspective, we assume these two domains are not completely isolated, but can be connected through intermediate domains. Instead of directly aligning the source and target domains against each other, we propose to align the source and target domains against their intermediate domains for a smooth knowledge transfer. To discover and utilize these intermediate domains, we propose an Intermediate Domain Module (IDM) and a Mirrors Generation Module (MGM). IDM has two functions: 1) it generates multiple intermediate domains by mixing the hidden-layer features from source and target domains and 2) it dynamically reduces the domain gap between the source / target domain features and the intermediate domain features. While IDM achieves good domain alignment, it introduces a side effect, i.e., the mix-up operation may mix the identities into a new identity and lose the original identities. To compensate this, MGM is introduced by mapping the features into the IDM-generated intermediate domains without changing their original identity. It allows to focus on minimizing domain variations to promote the alignment between the source / target domain and intermediate domains, which reinforces IDM into IDM++. We extensively evaluate our method under both the UDA and domain generalization (DG) scenarios and observe that IDM++ yields consistent performance improvement for cross-domain re-ID, achieving new state of the art.
翻訳日:2022-03-04 16:11:01 公開日:2022-03-03
# 3d siamese trackingを超えて:3d single object tracking in point cloudsのためのモーション中心パラダイム

Beyond 3D Siamese Tracking: A Motion-Centric Paradigm for 3D Single Object Tracking in Point Clouds ( http://arxiv.org/abs/2203.01730v1 )

ライセンス: Link先を確認
Chaoda Zheng, Xu Yan, Haiming Zhang, Baoyuan Wang, Shenghui Cheng, Shuguang Cui, Zhen Li(参考訳) LiDAR点雲における3Dオブジェクトトラッキング(3D SOT)は、自動運転において重要な役割を果たす。 現在のアプローチはすべて、外観マッチングに基づくシームズパラダイムに従っている。 しかし、LiDARの点雲は通常無テクスチャで不完全であり、効果的な外観マッチングを妨げる。 さらに、従来の手法は目標間の重要な動きの手がかりを大きく見落としている。 本研究では, 3d siamese tracking以外にも,新たな視点から3d sotを扱うモーションセントリックパラダイムを導入する。 このパラダイムに従って,マッチングフリーな2段トラッカーM^2-Trackを提案する。 1段目では、M^2-トラックが動き変換によって連続したフレーム内でターゲットをローカライズする。 そして、第2段の動作支援形状完了により、ターゲットボックスを洗練する。 大規模な実験により、M^2-Trackは、57FPS(それぞれKITTI、NuScenes、Waymo Open Dataset)で実行中の3つの大規模データセットの最先端を著しく上回っていることが確認された。 さらに、各コンポーネントの有効性を検証し、外観マッチングと組み合わせることで、動き中心パラダイムの有望なポテンシャルを示す。

3D single object tracking (3D SOT) in LiDAR point clouds plays a crucial role in autonomous driving. Current approaches all follow the Siamese paradigm based on appearance matching. However, LiDAR point clouds are usually textureless and incomplete, which hinders effective appearance matching. Besides, previous methods greatly overlook the critical motion clues among targets. In this work, beyond 3D Siamese tracking, we introduce a motion-centric paradigm to handle 3D SOT from a new perspective. Following this paradigm, we propose a matching-free two-stage tracker M^2-Track. At the 1^st-stage, M^2-Track localizes the target within successive frames via motion transformation. Then it refines the target box through motion-assisted shape completion at the 2^nd-stage. Extensive experiments confirm that M^2-Track significantly outperforms previous state-of-the-arts on three large-scale datasets while running at 57FPS (~8%, ~17%, and ~22%) precision gains on KITTI, NuScenes, and Waymo Open Dataset respectively). Further analysis verifies each component's effectiveness and shows the motion-centric paradigm's promising potential when combined with appearance matching.
翻訳日:2022-03-04 16:09:13 公開日:2022-03-03
# クリック型インタラクティブビデオオブジェクトセグメンテーションの再検討

Revisiting Click-based Interactive Video Object Segmentation ( http://arxiv.org/abs/2203.01784v1 )

ライセンス: Link先を確認
Stephane Vujasinovic, Sebastian Bullinger, Stefan Becker, Norbert Scherer-Negenborn, Michael Arens and Rainer Stiefelhagen(参考訳) 現在の対話型ビデオオブジェクトセグメンテーション(iVOS)は、正確なオブジェクトマスクを生成するために、スクリブルベースのインタラクションに依存しているが、Clickベースのインタラクティブなビデオオブジェクトセグメンテーション(CiVOS)フレームワークは、必要なユーザのワークロードを可能な限り単純化する。 CiVOSはユーザインタラクションとマスク伝搬を反映したデカップリングモジュール上に構築されている。 インタラクションモジュールはクリックベースのインタラクションをオブジェクトマスクに変換し、伝播モジュールによって残りのフレームに推論される。 追加のユーザインタラクションにより、オブジェクトマスクの洗練が可能になる。 このアプローチは、一般的な対話型~DAVISデータセットで広く評価されているが、クリックベースのインタラクションとスクリブルベースのインタラクションに必然的に適応している。 様々なユーザ入力を反映し、davisパフォーマンスメトリックを調整してハードウェアに依存しない比較を行うために、評価中にクリックを生成するいくつかの戦略を検討する。 提示されたCivVOSパイプラインは、低いユーザワークロードを必要とするが、競争結果を達成する。

While current methods for interactive Video Object Segmentation (iVOS) rely on scribble-based interactions to generate precise object masks, we propose a Click-based interactive Video Object Segmentation (CiVOS) framework to simplify the required user workload as much as possible. CiVOS builds on de-coupled modules reflecting user interaction and mask propagation. The interaction module converts click-based interactions into an object mask, which is then inferred to the remaining frames by the propagation module. Additional user interactions allow for a refinement of the object mask. The approach is extensively evaluated on the popular interactive~DAVIS dataset, but with an inevitable adaptation of scribble-based interactions with click-based counterparts. We consider several strategies for generating clicks during our evaluation to reflect various user inputs and adjust the DAVIS performance metric to perform a hardware-independent comparison. The presented CiVOS pipeline achieves competitive results, although requiring a lower user workload.
翻訳日:2022-03-04 16:08:55 公開日:2022-03-03
# 顔行動単位認識と顔面麻痺推定のための適応型局所的グローバルリレーショナルネットワーク

Adaptive Local-Global Relational Network for Facial Action Units Recognition and Facial Paralysis Estimation ( http://arxiv.org/abs/2203.01800v1 )

ライセンス: Link先を確認
Xuri Ge, Joemon M. Jose, Pengcheng Wang, Arunachalam Iyer, Xiao Liu, and Hu Han(参考訳) face action unit (aus) は、face action coding system (facs) によって定義された特定の顔部位における顔面筋の動きのユニークなセットであり、ほぼあらゆる解剖学的に可能な表情を記述するのに使用できる。 多くの既存の顔動作単位(aus)認識アプローチは、異なるauに対応する複数の独立したブランチからの局所的な特徴を結合することにより、au表現を強化することが多い。 さらに、正規形状の事前定義されたAU領域からの特徴抽出は、表現能力を制限する。 本稿では,顔のAU認識のための適応的局所的関係ネットワーク(ALGRNet)を提案し,顔の麻痺推定に応用する。 ALGRNetは主に3つの新しい構造、すなわち、検出されたランドマークに基づいて適応的な筋肉領域を学習する適応的な領域学習モジュール、局所的なAU特徴間の潜在的な相互援助と排除関係をモデル化するスキップ-BiLSTMモジュール、および局所的なAUと局所的なAU改善のための顔全体の相補性を探索する特徴融合&精製モジュールからなる。 提案手法を評価するために,algrnetを医療従事者によって収集・注釈付された顔面麻痺データセットに移行した。 BP4DとdisFA AUデータセットの実験により、提案手法は最先端の手法よりも大きなマージンで優れていることが示された。 また,顔の麻痺推定への応用として,提案するALGRNetの有効性を実証した。

Facial action units (AUs) refer to a unique set of facial muscle movements at certain facial locations defined by the Facial Action Coding System (FACS), which can be used for describing nearly any anatomically possible facial expression. Many existing facial action units (AUs) recognition approaches often enhance the AU representation by combining local features from multiple independent branches, each corresponding to a different AU, which usually neglect potential mutual assistance and exclusion relationship between AU branches or simply employ a pre-defined and fixed knowledge-graph as a prior. In addition, extracting features from pre-defined AU regions of regular shapes limits the representation ability. In this paper, we propose a novel Adaptive Local-Global Relational Network (ALGRNet) for facial AU recognition and apply it to facial paralysis estimation. ALGRNet mainly consists of three novel structures, i.e., an adaptive region learning module which learns the adaptive muscle regions based on the detected landmarks, a skip-BiLSTM module which models the latent mutual assistance and exclusion relationship among local AU features, and a feature fusion\&refining module which explores the complementarity between local AUs and the whole face for the local AU refinement. In order to evaluate our proposed method, we migrated ALGRNet to a facial paralysis dataset which is collected and annotated by medical professionals. Experiments on the BP4D and DISFA AU datasets show that the proposed approach outperforms the state-of-the-art methods by a large margin. Additionally, we also demonstrated the effectiveness of the proposed ALGRNet in applications to facial paralysis estimation.
翻訳日:2022-03-04 16:08:36 公開日:2022-03-03
# lgt-net:geometry-aware transformer networkを用いた室内パノラマルームレイアウト推定

LGT-Net: Indoor Panoramic Room Layout Estimation with Geometry-Aware Transformer Network ( http://arxiv.org/abs/2203.01824v1 )

ライセンス: Link先を確認
Zhigang Jiang, Zhongzheng Xiang, Jinhua Xu, Ming Zhao(参考訳) 深層ニューラルネットワークを用いた単一パノラマによる3次元室内レイアウト推定は大きな進歩を遂げている。 しかし, 従来の手法では, 境界の緯度や地平線深度のみで, 部屋配置の効率的な幾何学的認識が得られなかった。 本研究では,水平方向と垂直方向の両方で水平方向と垂直方向の空間配置を全方位で認識できることを示す。 さらに,正規化と正規化の勾配を考慮した平面幾何学的損失関数を提案し,壁面と角の回転を監督する。 SWG変換器(SWG Transformer)と呼ばれる新しいトランスフォーマーアーキテクチャを用いて,空間配置推定のための効率的なネットワークLGT-Netを提案する。 SWG変換器は(シフト)ウィンドウブロックとグローバルブロックで構成され、局所的およびグローバルな幾何学的関係を結合する。 さらに,パノラマの空間識別能力を高めるために,トランスの相対的位置埋め込みを新たに設計する。 実験により,提案したLGT-Netは,ベンチマークデータセット上での現在の最先端技術(SOTA)よりも優れた性能を実現することが示された。

3D room layout estimation by a single panorama using deep neural networks has made great progress. However, previous approaches can not obtain efficient geometry awareness of room layout with the only latitude of boundaries or horizon-depth. We present that using horizon-depth along with room height can obtain omnidirectional-geometry awareness of room layout in both horizontal and vertical directions. In addition, we propose a planar-geometry aware loss function with normals and gradients of normals to supervise the planeness of walls and turning of corners. We propose an efficient network, LGT-Net, for room layout estimation, which contains a novel Transformer architecture called SWG Transformer to model geometry relations. SWG Transformer consists of (Shifted) Window Blocks and Global Blocks to combine the local and global geometry relations. Moreover, we design a novel relative position embedding of Transformer to enhance the spatial identification ability for the panorama. Experiments show that the proposed LGT-Net achieves better performance than current state-of-the-arts (SOTA) on benchmark datasets.
翻訳日:2022-03-04 16:08:04 公開日:2022-03-03
# trackletクエリと提案による効率的なビデオインスタンスセグメンテーション

Efficient Video Instance Segmentation via Tracklet Query and Proposal ( http://arxiv.org/abs/2203.01853v1 )

ライセンス: Link先を確認
Jialian Wu, Sudhir Yarram, Hui Liang, Tian Lan, Junsong Yuan, Jayan Eledath, and Gerard Medioni(参考訳) Video Instance Segmentation (VIS)は、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。 最近のクリップレベルvisは、フレームレベルのvis(トラッキング・バイ・セグメンテーション)よりも強力なパフォーマンスを示す度に、短いビデオクリップを入力として取り込む。 しかし、ほとんどのクリップレベルのメソッドはエンドツーエンドの学習もリアルタイムもできない。 これらの制限は、最新のVIS変換器(VisTR)によって対処される。 しかし、VisTRはフレームが密集しているため、長時間の訓練に苦しむ。 さらに、vistrは複数のクリップ間でインスタンストラックレットをリンクする手作りのデータアソシエーションを必要とするため、複数のビデオクリップで完全にはエンドツーエンドで学習できない。 本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。 中心となるのはトラックレットクエリとトラックレットの提案で、反復的なクエリとビデオのインタラクションによって、空間と時間にわたって関心領域(RoI)を関連付ける。 さらに,クリップ間のトラックレットリンクをエンドツーエンドで学習可能にした対応学習を提案する。 VisTRと比較して、EfficientVISはトレーニングエポックを15倍少なくし、YouTube-VISベンチマークで最先端の精度を達成する。 一方,本手法では,データアソシエーションを伴わずに,単一のエンドツーエンドパスで全ビデオインスタンスのセグメンテーションを可能にする。

Video Instance Segmentation (VIS) aims to simultaneously classify, segment, and track multiple object instances in videos. Recent clip-level VIS takes a short video clip as input each time showing stronger performance than frame-level VIS (tracking-by-segmentation), as more temporal context from multiple frames is utilized. Yet, most clip-level methods are neither end-to-end learnable nor real-time. These limitations are addressed by the recent VIS transformer (VisTR) which performs VIS end-to-end within a clip. However, VisTR suffers from long training time due to its frame-wise dense attention. In addition, VisTR is not fully end-to-end learnable in multiple video clips as it requires a hand-crafted data association to link instance tracklets between successive clips. This paper proposes EfficientVIS, a fully end-to-end framework with efficient training and inference. At the core are tracklet query and tracklet proposal that associate and segment regions-of-interest (RoIs) across space and time by an iterative query-video interaction. We further propose a correspondence learning that makes tracklets linking between clips end-to-end learnable. Compared to VisTR, EfficientVIS requires 15x fewer training epochs while achieving state-of-the-art accuracy on the YouTube-VIS benchmark. Meanwhile, our method enables whole video instance segmentation in a single end-to-end pass without data association at all.
翻訳日:2022-03-04 16:07:47 公開日:2022-03-03
# 自己教師付き学習視覚モデルにおける社会的バイアスの分布に関する研究

A study on the distribution of social biases in self-supervised learning visual models ( http://arxiv.org/abs/2203.01854v1 )

ライセンス: Link先を確認
Kirill Sirotkin, Pablo Carballeira, Marcos Escudero-Vi\~nolo(参考訳) ディープニューラルネットワークは、十分にサンプル化されている場合、データ分布の学習に有効である。 しかし、トレーニングデータに暗黙的に組み込まれている非関連要因に強く偏っている。 これらは、非効率なデータサンプリングや不均一なデータサンプリングのような運用上のバイアスを含むが、社会的バイアスが暗黙的に存在することや、トレーニングデータや不公平なトレーニングスケジュールで明示的に定義されていることなど、倫理的な懸念もある。 人間のプロセスに影響を与えるタスクでは、社会的偏見の学習は差別的で非倫理的で信頼できない結果をもたらす可能性がある。 社会的バイアスはラベル付きデータに対する教師付き学習に由来すると考えられており、ラベル付きデータを必要としないため、自己監視学習(SSL)は効率的でバイアスのないソリューションとして誤って現れる。 しかし最近、一般的なSSLメソッドにもバイアスが組み込まれていることが証明された。 本稿では,様々なsslビジュアルモデルのバイアスをイメージネットデータを用いて学習し,心理専門家が社会バイアスを測定するために設計した手法とデータセットを用いて検討する。 SSLモデルの種類とそれが組み込むバイアスの数との間には相関関係があることが示されている。 さらに,この数値は,ネットワーク全体のモデルの精度や変化に厳密には依存しないことが示唆された。 最後に、注意深いSSLモデル選択プロセスは、高い性能を維持しながら、デプロイされたモデルにおける社会的バイアスの数を減らすことができると結論づける。

Deep neural networks are efficient at learning the data distribution if it is sufficiently sampled. However, they can be strongly biased by non-relevant factors implicitly incorporated in the training data. These include operational biases, such as ineffective or uneven data sampling, but also ethical concerns, as the social biases are implicitly present\textemdash even inadvertently, in the training data or explicitly defined in unfair training schedules. In tasks having impact on human processes, the learning of social biases may produce discriminatory, unethical and untrustworthy consequences. It is often assumed that social biases stem from supervised learning on labelled data, and thus, Self-Supervised Learning (SSL) wrongly appears as an efficient and bias-free solution, as it does not require labelled data. However, it was recently proven that a popular SSL method also incorporates biases. In this paper, we study the biases of a varied set of SSL visual models, trained using ImageNet data, using a method and dataset designed by psychological experts to measure social biases. We show that there is a correlation between the type of the SSL model and the number of biases that it incorporates. Furthermore, the results also suggest that this number does not strictly depend on the model's accuracy and changes throughout the network. Finally, we conclude that a careful SSL model selection process can reduce the number of social biases in the deployed model, whilst keeping high performance.
翻訳日:2022-03-04 16:07:23 公開日:2022-03-03
# TCTrack: 航空追跡のための時間的コンテキスト

TCTrack: Temporal Contexts for Aerial Tracking ( http://arxiv.org/abs/2203.01885v1 )

ライセンス: Link先を確認
Ziang Cao, Ziyuan Huang, Liang Pan, Shiwei Zhang, Ziwei Liu, Changhong Fu(参考訳) 連続するフレーム間の時間的コンテキストは、既存のビジュアルトラッカーで完全に活用されるには程遠い。 本稿では,航空追跡のための時間的コンテキストを完全に活用するための総合的なフレームワークであるTCTrackを提案する。 時間文脈は \textbf{two level} に組み込まれ、これは \textbf{features} の抽出と \textbf{similarity map} の洗練である。 具体的には,先行するフレームに応じて畳み込み重みを動的に調整することにより,時間的情報を用いて空間的特徴を高めるために,オンラインの時間適応畳み込みを提案する。 まず,類似度マップの正確な調整のために時間知識が復号される前に,時間知識をメモリ効率のよい方法で効果的に符号化する適応時相変換器を提案する。 TCTrackは効率的かつ効率的で、4つの航空追跡ベンチマークの評価は、その印象的なパフォーマンスを示している。現実世界のUAVテストはNVIDIA Jetson AGX Xavier上で27FPS以上の高速さを示している。

Temporal contexts among consecutive frames are far from been fully utilized in existing visual trackers. In this work, we present TCTrack, a comprehensive framework to fully exploit temporal contexts for aerial tracking. The temporal contexts are incorporated at \textbf{two levels}: the extraction of \textbf{features} and the refinement of \textbf{similarity maps}. Specifically, for feature extraction, an online temporally adaptive convolution is proposed to enhance the spatial features using temporal information, which is achieved by dynamically calibrating the convolution weights according to the previous frames. For similarity map refinement, we propose an adaptive temporal transformer, which first effectively encodes temporal knowledge in a memory-efficient way, before the temporal knowledge is decoded for accurate adjustment of the similarity map. TCTrack is effective and efficient: evaluation on four aerial tracking benchmarks shows its impressive performance; real-world UAV tests show its high speed of over 27 FPS on NVIDIA Jetson AGX Xavier.
翻訳日:2022-03-04 16:07:00 公開日:2022-03-03
# Correct-N-Contrast:Spurious相関に対するロバスト性改善のためのコントラスト的アプローチ

Correct-N-Contrast: A Contrastive Approach for Improving Robustness to Spurious Correlations ( http://arxiv.org/abs/2203.01517v1 )

ライセンス: Link先を確認
Michael Zhang, Nimit S. Sohoni, Hongyang R. Zhang, Chelsea Finn, Christopher R\'e(参考訳) スプリアス相関は、堅牢な機械学習にとって大きな課題となる。 経験的リスク最小化(experience risk minimization, erm)でトレーニングされたモデルは、クラスラベルとスプリアス属性の相関に依存することを学び、これらの相関を伴わないデータグループのパフォーマンスを低下させる。 これは、sprious属性ラベルが利用できない場合に特に対処が難しい。 属性ラベルをトレーニングすることなく,スプリアス相関データの最悪グループ性能を改善するために,スプリアス相関に頑健な表現を直接学習するコントラスト(cnc)を提案する。 ERMモデルは優れたスプリアス特性予測器となり得るため、CNCは(1)訓練されたERMモデルの出力を使用して同一クラスでサンプルを識別するが、異なるスプリアス特徴を識別し、(2)対照的な学習で頑健なモデルを訓練し、同クラスのサンプルについて同様の表現を学習する。 cncをサポートするために,cncが最小化しようとする,最悪のグループエラーと表現アライメント損失との新たな接続を導入する。 我々は,クラス上のアライメント損失が,クラス上のアライメント損失が,クラス内の最悪のグループと平均エラーギャップの上限に達するのに役立つことを示す。 一般的なベンチマークでは、CNCはアライメント損失を大幅に減らし、最先端の最悪のグループ精度を平均3.6%向上させる。 CNCはまた、グループラベルを必要とするオラクルメソッドと競合する。

Spurious correlations pose a major challenge for robust machine learning. Models trained with empirical risk minimization (ERM) may learn to rely on correlations between class labels and spurious attributes, leading to poor performance on data groups without these correlations. This is particularly challenging to address when spurious attribute labels are unavailable. To improve worst-group performance on spuriously correlated data without training attribute labels, we propose Correct-N-Contrast (CNC), a contrastive approach to directly learn representations robust to spurious correlations. As ERM models can be good spurious attribute predictors, CNC works by (1) using a trained ERM model's outputs to identify samples with the same class but dissimilar spurious features, and (2) training a robust model with contrastive learning to learn similar representations for same-class samples. To support CNC, we introduce new connections between worst-group error and a representation alignment loss that CNC aims to minimize. We empirically observe that worst-group error closely tracks with alignment loss, and prove that the alignment loss over a class helps upper-bound the class's worst-group vs. average error gap. On popular benchmarks, CNC reduces alignment loss drastically, and achieves state-of-the-art worst-group accuracy by 3.6% average absolute lift. CNC is also competitive with oracle methods that require group labels.
翻訳日:2022-03-04 16:05:15 公開日:2022-03-03
# 条件付き生成逆数ネットワークを用いたパラメトリック構造データの生成について

On generating parametrised structural data using conditional generative adversarial networks ( http://arxiv.org/abs/2203.01641v1 )

ライセンス: Link先を確認
G. Tsialiamanis, D.J. Wagg, N. Dervilis, K. Worden(参考訳) 構造健康モニタリング(SHM)において最も一般的なアプローチは、データ駆動モデルを使用して構造とその状態に関する予測と推測を行うことである。 このような方法はほとんどデータの品質に依存します。 SHMの規律の中では、データは与えられたタスクに十分な精度でモデルを構築するのに必ずしも十分とは限らない。 さらに悪いことに、異なる環境条件下での構造物の挙動に関するデータがデータセットから完全に欠落している可能性がある。 本研究では,このような問題に対処する目的で,GAN(Generative Adversarial Network)アルゴリズムのバリエーションを用いて人工データを生成する。 上記の変分は条件付きGANまたはcGANの変分である。 このアルゴリズムは人工データを生成するためにだけでなく、既知のパラメータに従って多様体の変換を学ぶためにも用いられる。 構造の応答が多様体内の点によって表されると仮定すると、空間の一部は構造に影響する外部条件の変化によって形成される。 このアイデアは、環境係数の特定の値の構造データを生成するために利用されるため、shmにおいて効率的であることが証明される。 このスキームは、異なる温度と湿度条件下で作動する模擬構造体に適用される。 cGANは、ある範囲内の温度のいくつかの離散値のデータに基づいて訓練され、この範囲のすべての温度のデータを生成することができる。 同様の問題における古典的回帰と比較すると、cGANは未知の環境パラメータが構造に影響を与えることを許容し、既知のパラメータの全ての値に対してすべての多様体を生成することができる。

A powerful approach, and one of the most common ones in structural health monitoring (SHM), is to use data-driven models to make predictions and inferences about structures and their condition. Such methods almost exclusively rely on the quality of the data. Within the SHM discipline, data do not always suffice to build models with satisfactory accuracy for given tasks. Even worse, data may be completely missing from one's dataset, regarding the behaviour of a structure under different environmental conditions. In the current work, with a view to confronting such issues, the generation of artificial data using a variation of the generative adversarial network (GAN) algorithm, is used. The aforementioned variation is that of the conditional GAN or cGAN. The algorithm is not only used to generate artificial data, but also to learn transformations of manifolds according to some known parameters. Assuming that the structure's response is represented by points in a manifold, part of the space will be formed due to variations in external conditions affecting the structure. This idea proves efficient in SHM, as it is exploited to generate structural data for specific values of environmental coefficients. The scheme is applied here on a simulated structure which operates under different temperature and humidity conditions. The cGAN is trained on data for some discrete values of the temperature within some range, and is able to generate data for every temperature in this range with satisfactory accuracy. The novelty, compared to classic regression in similar problems, is that the cGAN allows unknown environmental parameters to affect the structure and can generate whole manifolds of data for every value of the known parameters, while the unknown ones vary within the generated manifolds.
翻訳日:2022-03-04 16:04:46 公開日:2022-03-03
# ビッグデータにおける異常検出

Anomaly Detection in Big Data ( http://arxiv.org/abs/2203.01684v1 )

ライセンス: Link先を確認
Chandresh Kumar Maurya(参考訳) 異常は、通常の振る舞いに従わないシステムの状態として定義される。 例えば、特定のしきい値より上の原子炉チャネルにおける中性子の放出は異常である。 ビッグデータとは、emph{high volume, streaming, heterogeneous, distributed} であり、しばしば \emph{sparse} であるデータセットを指す。 ビッグデータは最近は珍しくありません。 たとえば、インターネットのライブデータによると、1日に投稿されたツイートの数は5億を超えている。 データラデン領域におけるデータ爆発のため、小さなデータセットのために開発された従来の異常検出技術は大規模データセットでは不十分である。 そこで我々は,ビッグデータにおける異常検出に取り組むための代替手法を提案する。 基本的に、ビッグデータにおける異常検出をスケールする方法は2つある。 1つは \emph{online} 学習、もう1つは \emph{distributed} 学習に基づいている。 論文の目的は,異常を効率的に検出しながらビッグデータ問題に取り組むことである。 そこで我々はまず,ビッグデータのemph{streaming}問題を取り上げ,Passive-Aggressive GMEAN(PAGMEAN)アルゴリズムを提案する。 オンライン学習アルゴリズムは、多数のデータポイントや次元に対して十分にスケールすることができるが、複数の場所で分散されたときにデータを処理することはできない。 そこで本研究ではADMMを用いた異常検出アルゴリズムを提案する。 最後に,原子力プラントデータにおける異常検出の事例について述べる。

Anomaly is defined as a state of the system that do not conform to the normal behavior. For example, the emission of neutrons in a nuclear reactor channel above the specified threshold is an anomaly. Big data refers to the data set that is \emph{high volume, streaming, heterogeneous, distributed} and often \emph{sparse}. Big data is not uncommon these days. For example, as per Internet live stats, the number of tweets posted per day has gone above 500 millions. Due to data explosion in data laden domains, traditional anomaly detection techniques developed for small data sets scale poorly on large-scale data sets. Therefore, we take an alternative approach to tackle anomaly detection in big data. Essentially, there are two ways to scale anomaly detection in big data. The first is based on the \emph{online} learning and the second is based on the \emph{distributed} learning. Our aim in the thesis is to tackle big data problems while detecting anomaly efficiently. To that end, we first take \emph{streaming} issue of the big data and propose Passive-Aggressive GMEAN (PAGMEAN) algorithms. Although, online learning algorithm can scale well over large number of data points and dimensions, they can not process data when it is distributed at multiple locations; which is quite common these days. Therefore, we propose anomaly detection algorithm which is inherently distributed using ADMM. Finally, we present a case study on anomaly detection in nuclear power plant data.
翻訳日:2022-03-04 16:02:11 公開日:2022-03-03
# 同変変量推論によるOracleの最適サブセット下での集合関数の学習

Learning Set Functions Under the Optimal Subset Oracle via Equivariant Variational Inference ( http://arxiv.org/abs/2203.01693v1 )

ライセンス: Link先を確認
Zijing Ou, Tingyang Xu, Qinliang Su, Yingzhen Li, Peilin Zhao, Yatao Bian(参考訳) 学習セット関数は、ai支援薬物発見における製品推奨や複合選択など、多くのアプリケーションでますます重要になっている。 既存の研究の多くは、関数値オラクルに基づく集合関数学習の方法論を研究しており、これは高価な監視信号を必要とする。 これは、オプティマル・サブセット(OS)のオラクルの下で弱い監督しか持たないアプリケーションにとって非現実的であり、その研究は驚くほど見落としている。 そこで本研究では,os oracle 下での学習集合関数のデシデラタを同時に満たすために,equivset と呼ばれる原理的かつ実用的最大度学習フレームワークを提案する。 一 モデル化されている集合質量関数の置換不変性 二 異なる地上セットの許可 三 完全微分可能性 iv) 最低限の先行,及び v)スケーラビリティ。 私たちのフレームワークの主なコンポーネントは、集合質量関数のエネルギーベースの処理、置換不変性を扱うdeepsetスタイルのアーキテクチャ、平均場変分推論、そしてその償却変種である。 このフレームワークは恥ずかしいほどシンプルで、実世界の3つのアプリケーション(Amazon製品レコメンデーション、仮想スクリーニングのためのセット異常検出、複合選択など)に関する実証的研究は、EquiVSetがベースラインをはるかに上回っていることを示している。

Learning set functions becomes increasingly more important in many applications like product recommendation and compound selection in AI-aided drug discovery. The majority of existing works study methodologies of set function learning under the function value oracle, which, however, requires expensive supervision signals. This renders it impractical for applications with only weak supervisions under the Optimal Subset (OS) oracle, the study of which is surprisingly overlooked. In this work, we present a principled yet practical maximum likelihood learning framework, termed as EquiVSet, that simultaneously meets the following desiderata of learning set functions under the OS oracle: i) permutation invariance of the set mass function being modeled; ii) permission of varying ground set; iii) fully differentiability; iv) minimum prior; and v) scalability. The main components of our framework involve: an energy-based treatment of the set mass function, DeepSet-style architectures to handle permutation invariance, mean-field variational inference, and its amortized variants. Although the framework is embarrassingly simple, empirical studies on three real-world applications (including Amazon product recommendation, set anomaly detection and compound selection for virtual screening) demonstrate that EquiVSet outperforms the baselines by a large margin.
翻訳日:2022-03-04 16:01:51 公開日:2022-03-03
# (参考訳) CenterSnap:シングルショットマルチオブジェクト3D形状再構成とカテゴリー6D画像とサイズ推定

CenterSnap: Single-Shot Multi-Object 3D Shape Reconstruction and Categorical 6D Pose and Size Estimation ( http://arxiv.org/abs/2203.01929v1 )

ライセンス: CC BY 4.0
Muhammad Zubair Irshad, Thomas Kollar, Michael Laskey, Kevin Stone, Zsolt Kira(参考訳) 本稿では, 単視点RGB-D観測による同時多目的3次元再構成, 6次元ポーズ, サイズ推定の複雑な課題について検討する。 インスタンスレベルのポーズ推定とは対照的に,cadモデルが推論時に利用できない,より困難な問題に注目する。 既存のアプローチは主に、イメージ内の各オブジェクトインスタンスをローカライズして検出し、3Dメッシュまたは6Dポーズに回帰する複雑なマルチステージパイプラインに従う。 これらのアプローチは、オクルージョンが存在する複雑なマルチオブジェクトシナリオにおいて、高い計算コストと低いパフォーマンスに苦しむ。 そこで,本研究では,3次元形状と6次元ポーズとサイズを共に有界自由な方法で推定する一段階的手法を提案する。 特に,オブジェクトインスタンスを空間中心として扱い,各センタが物体の完全な形状と6次元のポーズと大きさを示す。 このピクセル単位の表現を通じて、複数の新しいオブジェクトインスタンスをリアルタイム(40fps)に再構築し、6dのポーズとサイズを単一のフォワードパスで予測することができる。 提案手法は,複数オブジェクトのShapeNetデータセットとNOCSデータセットに対して,新しい実世界のオブジェクトインスタンスに対するmAPの12.6%の絶対的な改善とともに,すべての形状完了とカテゴリー6Dポーズおよびサイズ推定ベースラインを著しく上回ることを示す。

This paper studies the complex task of simultaneous multi-object 3D reconstruction, 6D pose and size estimation from a single-view RGB-D observation. In contrast to instance-level pose estimation, we focus on a more challenging problem where CAD models are not available at inference time. Existing approaches mainly follow a complex multi-stage pipeline which first localizes and detects each object instance in the image and then regresses to either their 3D meshes or 6D poses. These approaches suffer from high-computational cost and low performance in complex multi-object scenarios, where occlusions can be present. Hence, we present a simple one-stage approach to predict both the 3D shape and estimate the 6D pose and size jointly in a bounding-box free manner. In particular, our method treats object instances as spatial centers where each center denotes the complete shape of an object along with its 6D pose and size. Through this per-pixel representation, our approach can reconstruct in real-time (40 FPS) multiple novel object instances and predict their 6D pose and sizes in a single-forward pass. Through extensive experiments, we demonstrate that our approach significantly outperforms all shape completion and categorical 6D pose and size estimation baselines on multi-object ShapeNet and NOCS datasets respectively with a 12.6% absolute improvement in mAP for 6D pose for novel real-world object instances.
翻訳日:2022-03-04 15:58:48 公開日:2022-03-03
# テンソル分解と辞書を用いた共同確率推定

Joint Probability Estimation Using Tensor Decomposition and Dictionaries ( http://arxiv.org/abs/2203.01667v1 )

ライセンス: Link先を確認
Shaan ul Haque, Ajit Rajwade and Karthik S. Gurumoorthy(参考訳) 本研究では,与えられた離散確率変数と連続確率変数の(推定された)2次元辺数から,生成物の密度/質量関数の混合により,結合確率が分解され近似されるという仮定の下で,非パラメトリックな確率推定を行う。 ガウス混合モデル(gmms)のような半パラメトリック手法を用いて確率密度関数(pdf)を推定する問題は広く研究されている。 しかし、基礎となる密度がラプラシア系や一般化ガウス系、ユニフォーム系、コーシー系といった他の様々な分布の混合物である場合、このような手法は不十分な結果をもたらす。 さらにgmmは、自然にハイブリッドであるジョイント分布、すなわち、ある確率変数は離散的であり、他の変数は連続的であると見積もる最善の選択ではない。 本稿では,低階テンソル分解を伴う信号処理における辞書表現のアイデアを用いたPDF推定手法を提案する。 我々の知る限りでは、テンソル分解を伴う辞書を用いた共同pdfの推定はこれが初めてである。 我々は、データを調べて分布の様々なファミリーの辞書を作成し、それを混合した製品の各分解因子を近似するために利用する。 我々のアプローチは自然にn$-dimensionalのハイブリッド分布を扱うことができる。 提案手法は, 美術推定器の状態と比較した場合の, 分類率の向上と誤り率の低下の観点から, 各種合成データセットと実データセットを比較検討した。

In this work, we study non-parametric estimation of joint probabilities of a given set of discrete and continuous random variables from their (empirically estimated) 2D marginals, under the assumption that the joint probability could be decomposed and approximated by a mixture of product densities/mass functions. The problem of estimating the joint probability density function (PDF) using semi-parametric techniques such as Gaussian Mixture Models (GMMs) is widely studied. However such techniques yield poor results when the underlying densities are mixtures of various other families of distributions such as Laplacian or generalized Gaussian, uniform, Cauchy, etc. Further, GMMs are not the best choice to estimate joint distributions which are hybrid in nature, i.e., some random variables are discrete while others are continuous. We present a novel approach for estimating the PDF using ideas from dictionary representations in signal processing coupled with low rank tensor decompositions. To the best our knowledge, this is the first work on estimating joint PDFs employing dictionaries alongside tensor decompositions. We create a dictionary of various families of distributions by inspecting the data, and use it to approximate each decomposed factor of the product in the mixture. Our approach can naturally handle hybrid $N$-dimensional distributions. We test our approach on a variety of synthetic and real datasets to demonstrate its effectiveness in terms of better classification rates and lower error rates, when compared to state of the art estimators.
翻訳日:2022-03-04 15:30:53 公開日:2022-03-03
# 非定常環境における強化学習

Reinforcement Learning in Possibly Nonstationary Environments ( http://arxiv.org/abs/2203.01707v1 )

ライセンス: Link先を確認
Mengbing Li, Chengchun Shi, Zhenke Wu and Piotr Fryzlewicz(参考訳) オフライン非定常環境における強化学習(RL)手法を検討する。 文献における既存のRLアルゴリズムの多くは、システムの遷移と報酬関数が時間とともに一定となるような定常性の仮定に依存している。 しかし、定常性の仮定は実際には制限的であり、交通信号制御、ロボット工学、モバイル健康など、多くのアプリケーションで違反される可能性が高い。 本稿では,事前収集履歴データに基づく最適政策の非定常性をテストするための一貫した手順を,追加のオンラインデータ収集なしに開発する。 提案するテストに基づいて,非定常環境におけるポリシー最適化のための既存のrl手法と自然に結合可能な逐次的変更点検出法を更に開発する。 本手法の有用性は, 理論的な結果, シミュレーション研究, および2018年のインターン健康研究の実データ例によって示される。 提案手順のpython実装はhttps://github.com/limengbinggz/cusum-rlで利用可能である。

We consider reinforcement learning (RL) methods in offline nonstationary environments. Many existing RL algorithms in the literature rely on the stationarity assumption that requires the system transition and the reward function to be constant over time. However, the stationarity assumption is restrictive in practice and is likely to be violated in a number of applications, including traffic signal control, robotics and mobile health. In this paper, we develop a consistent procedure to test the nonstationarity of the optimal policy based on pre-collected historical data, without additional online data collection. Based on the proposed test, we further develop a sequential change point detection method that can be naturally coupled with existing state-of-the-art RL methods for policy optimisation in nonstationary environments. The usefulness of our method is illustrated by theoretical results, simulation studies, and a real data example from the 2018 Intern Health Study. A Python implementation of the proposed procedure is available at https://github.com/limengbinggz/CUSUM-RL
翻訳日:2022-03-04 15:30:30 公開日:2022-03-03
# T-Cal:予測モデルの校正のための最適試験

T-Cal: An optimal test for the calibration of predictive models ( http://arxiv.org/abs/2203.01850v1 )

ライセンス: Link先を確認
Donghwan Lee, Xinmeng Huang, Hamed Hassani, Edgar Dobriban(参考訳) 機械学習手法の予測精度は着実に向上しているが、不確実性予測の校正は大きな課題となっている。 多くの研究は十分に調整された予測モデルを得ることに集中しているが、モデルのキャリブレーションの信頼性についてはあまり知られていない。 これにより、キャリブレーションを改善するアルゴリズムが実効性を持つ場合や、有限データセットのランダムノイズによる単なるアーティファクトである場合の能力が制限される。 本研究では,仮説検証問題として有限検証データセットを用いて予測モデルの誤校正を検出することを検討する。 ヌル仮説は予測モデルがキャリブレーションされ、別の仮説はキャリブレーションからの偏差が十分に大きいというものである。 クラスの状態確率が予測の十分滑らかな関数である場合にのみ誤校正を検出することができる。 条件付きクラス確率が H より古い連続性である場合、$\ell_2$-Expected Calibration Error (ECE) のデバイアスド・プラグイン推定器に基づくキャリブレーションの最小値検定である T-Cal を提案する。 さらに、未知の滑らかさに適応するAdaptive T-Calを提案する。 我々は、一般的なディープニューラルネットアーキテクチャと標準のポストホックキャリブレーション法を含む幅広い実験によって、理論的な知見を検証する。 T-Calは、離散値予測器の古典的なテストと組み合わせて、事実上の確率的分類法の校正をテストするための実用的な汎用ツールである。

The prediction accuracy of machine learning methods is steadily increasing, but the calibration of their uncertainty predictions poses a significant challenge. Numerous works focus on obtaining well-calibrated predictive models, but less is known about reliably assessing model calibration. This limits our ability to know when algorithms for improving calibration have a real effect, and when their improvements are merely artifacts due to random noise in finite datasets. In this work, we consider detecting mis-calibration of predictive models using a finite validation dataset as a hypothesis testing problem. The null hypothesis is that the predictive model is calibrated, while the alternative hypothesis is that the deviation from calibration is sufficiently large. We find that detecting mis-calibration is only possible when the conditional probabilities of the classes are sufficiently smooth functions of the predictions. When the conditional class probabilities are H\"older continuous, we propose T-Cal, a minimax optimal test for calibration based on a debiased plug-in estimator of the $\ell_2$-Expected Calibration Error (ECE). We further propose Adaptive T-Cal, a version that is adaptive to unknown smoothness. We verify our theoretical findings with a broad range of experiments, including with several popular deep neural net architectures and several standard post-hoc calibration methods. T-Cal is a practical general-purpose tool, which -- combined with classical tests for discrete-valued predictors -- can be used to test the calibration of virtually any probabilistic classification method.
翻訳日:2022-03-04 15:30:16 公開日:2022-03-03
# PetsGAN: 単一画像生成の優先事項を再考

PetsGAN: Rethinking Priors for Single Image Generation ( http://arxiv.org/abs/2203.01488v1 )

ライセンス: Link先を確認
Zicheng Zhang, Yinglu Liu, Congying Han, Hailin Shi, Tiande Guo, Bowen Zhou(参考訳) 単一画像生成(SIG)は、与えられた単一画像と類似した視覚的内容を持つ多様なサンプルを生成すると説明され、まず、単一の画像の内部パッチ分布を段階的に学習するために、GANのピラミッドを構築するSinGANによって導入された。 また、幅広い画像操作タスクにおいて大きな可能性を秘めている。 しかし、シンタンのパラダイムは、世代品質と訓練時間に関して制限がある。 第一に、高レベルの情報がないため、SinGANはシーンやテクスチャ画像のようにオブジェクトイメージを扱えない。 第2に,個別のプログレッシブトレーニングスキームは時間を要するため,アーティファクトの蓄積が容易である。 本稿では、これらの問題に対処するため、SIG問題を掘り下げ、内部および外部の事前の完全活用によりSinGANを改善する。 本論文の主な貢献は次のとおりである。 1) 正規化潜在変数モデルをSIGに導入する。 我々の知る限りでは、SIGの明確な定式化と最適化の目標を与えるのはこれが初めてであり、既存のSIGのメソッドは全て、このモデルの特別なケースとみなすことができる。 2) SinGAN の課題を克服するために, 先進的なエンドツーエンドトレーニング GAN (PetsGAN) を設計する。 本手法は時間を要するプログレッシブトレーニングスキームを排除し,エンドツーエンドでトレーニングすることができる。 3) 画像品質, 多様性, トレーニング速度の両面において, 本手法の優位性を示すために, 定性的かつ定量的な実験を多数構築する。 さらに,本手法を他の画像操作タスク(例えば,スタイル転送,調和化)に適用し,提案手法の有効性と有効性を示す。

Single image generation (SIG), described as generating diverse samples that have similar visual content with the given single image, is first introduced by SinGAN which builds a pyramid of GANs to progressively learn the internal patch distribution of the single image. It also shows great potentials in a wide range of image manipulation tasks. However, the paradigm of SinGAN has limitations in terms of generation quality and training time. Firstly, due to the lack of high-level information, SinGAN cannot handle the object images well as it does on the scene and texture images. Secondly, the separate progressive training scheme is time-consuming and easy to cause artifact accumulation. To tackle these problems, in this paper, we dig into the SIG problem and improve SinGAN by fully-utilization of internal and external priors. The main contributions of this paper include: 1) We introduce to SIG a regularized latent variable model. To the best of our knowledge, it is the first time to give a clear formulation and optimization goal of SIG, and all the existing methods for SIG can be regarded as special cases of this model. 2) We design a novel Prior-based end-to-end training GAN (PetsGAN) to overcome the problems of SinGAN. Our method gets rid of the time-consuming progressive training scheme and can be trained end-to-end. 3) We construct abundant qualitative and quantitative experiments to show the superiority of our method on both generated image quality, diversity, and the training speed. Moreover, we apply our method to other image manipulation tasks (e.g., style transfer, harmonization), and the results further prove the effectiveness and efficiency of our method.
翻訳日:2022-03-04 15:29:17 公開日:2022-03-03
# ドメイン適応としてのオブジェクトローカライゼーションの弱さ

Weakly Supervised Object Localization as Domain Adaption ( http://arxiv.org/abs/2203.01714v1 )

ライセンス: Link先を確認
Lei Zhu, Qi She, Qian Chen, Yunfei You, Boyu Wang, Yanye Lu(参考訳) 弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルの分類マスクの監督のみでオブジェクトをローカライズすることに焦点を当てる。 従来のWSOL手法の多くは、MIL(Multi-instance Learning)機構を用いて分類構造に基づいてオブジェクトをローカライズする分類活性化マップ(CAM)に従っている。 しかし、MIL機構により、CAMはオブジェクト全体ではなく、識別対象部分のみを活性化させ、オブジェクトのローカライズ性能を低下させる。 この問題を解決するため、wsolをドメイン適応(da)タスクとしてモデル化し、ソース/イメージドメインでトレーニングされたスコア推定器をターゲット/ピクセルドメインでテストしてオブジェクトを見つけるという新しい視点を提供する。 この観点では、DA-WSOLパイプラインは、ローカライズ性能を高めるために、WSOLにDAアプローチをより深く関与するように設計されています。 提案したターゲットサンプリング戦略を用いて、異なるタイプのターゲットサンプルを選択する。 これらの種類のターゲットサンプルに基づいて、ドメイン適応局在(dal)損失を詳述する。 2つのドメイン間の特徴分布をDAで整列し、推定器はUniversum regularizationによってターゲットドメインのキューを知覚する。 実験の結果、パイプラインはマルチベンチマークでSOTA法より優れていることがわかった。 コードは \url{https://github.com/zh460045050/da-wsol_cvpr2022} でリリースされる。

Weakly supervised object localization (WSOL) focuses on localizing objects only with the supervision of image-level classification masks. Most previous WSOL methods follow the classification activation map (CAM) that localizes objects based on the classification structure with the multi-instance learning (MIL) mechanism. However, the MIL mechanism makes CAM only activate discriminative object parts rather than the whole object, weakening its performance for localizing objects. To avoid this problem, this work provides a novel perspective that models WSOL as a domain adaption (DA) task, where the score estimator trained on the source/image domain is tested on the target/pixel domain to locate objects. Under this perspective, a DA-WSOL pipeline is designed to better engage DA approaches into WSOL to enhance localization performance. It utilizes a proposed target sampling strategy to select different types of target samples. Based on these types of target samples, domain adaption localization (DAL) loss is elaborated. It aligns the feature distribution between the two domains by DA and makes the estimator perceive target domain cues by Universum regularization. Experiments show that our pipeline outperforms SOTA methods on multi benchmarks. Code are released at \url{https://github.com/zh460045050/DA-WSOL_CVPR2022}.
翻訳日:2022-03-04 15:28:45 公開日:2022-03-03
# 生態学的自動分類のための新しいパラダイムとしての視覚トランスフォーマーのアンサンブル

Ensembles of Vision Transformers as a New Paradigm for Automated Classification in Ecology ( http://arxiv.org/abs/2203.01726v1 )

ライセンス: Link先を確認
S. Kyathanahally, T. Hardeman, M. Reyes, E. Merz, T. Bulas, F. Pomati, and M. Baity-Jesi(参考訳) 生物多様性のモニタリングは天然資源の管理と保護に最重要である。 大きな時間的または空間的なスケールで生物の画像を収集することは、自然生態系の生物多様性の変化を監視し、研究する上で有望なプラクティスであり、環境への干渉を最小限に抑えた大量のデータを提供する。 ディープラーニングモデルは現在、生物の分類単位への分類を自動化するために使われている。 しかし、これらの分類器の精度は、制御が困難であり、データの分析や解釈を著しく妨げうる測定ノイズをもたらす。 本研究では,データ効率の高い画像トランスフォーマー (deits) のアンサンブルによって,この限界を克服できることを示す。 我々は,様々な起源の多くの生態画像データセットと,プランクトンから昆虫,鳥類,犬種,野生動物,サンゴまで幅広い生物について,その結果を検証した。 テストするすべてのデータセットについて、データセットによっては、以前のsomaに対するエラーを18.48%から87.50%まで削減し、多くの場合、完全な分類に非常に近いパフォーマンスを達成します。 DeiTsのアンサンブルが優れている主な理由は、DiTsのシングルモデルのパフォーマンスによるものではなく、独立したモデルによる予測が重なり合いが小さく、それによって得られる利益が最大になるという事実による。 これにより、DeiTのアンサンブルは生物多様性監視における画像分類の最良の候補となる。

Monitoring biodiversity is paramount to manage and protect natural resources, particularly in times of global change. Collecting images of organisms over large temporal or spatial scales is a promising practice to monitor and study biodiversity change of natural ecosystems, providing large amounts of data with minimal interference with the environment. Deep learning models are currently used to automate classification of organisms into taxonomic units. However, imprecision in these classifiers introduce a measurement noise that is difficult to control and can significantly hinder the analysis and interpretation of data. In our study, we show that this limitation can be overcome by ensembles of Data-efficient image Transformers (DeiTs), which significantly outperform the previous state of the art (SOTA). We validate our results on a large number of ecological imaging datasets of diverse origin, and organisms of study ranging from plankton to insects, birds, dog breeds, animals in the wild, and corals. On all the data sets we test, we achieve a new SOTA, with a reduction of the error with respect to the previous SOTA ranging from 18.48% to 87.50%, depending on the data set, and often achieving performances very close to perfect classification. The main reason why ensembles of DeiTs perform better is not due to the single-model performance of DeiTs, but rather to the fact that predictions by independent models have a smaller overlap, and this maximizes the profit gained by ensembling. This positions DeiT ensembles as the best candidate for image classification in biodiversity monitoring.
翻訳日:2022-03-04 15:28:23 公開日:2022-03-03
# 雑音ラベル学習のためのコントラスト表現の学習について

On Learning Contrastive Representations for Learning with Noisy Labels ( http://arxiv.org/abs/2203.01785v1 )

ライセンス: Link先を確認
Li Yi, Sheng Liu, Qi She, A. Ian McLeod, Boyu Wang(参考訳) ディープニューラルネットワークは、ソフトマックスクロスエントロピー(CE)損失でノイズラベルを容易に記憶することができる。 従来の研究では、ノイズロス関数をCE損失に組み込むことに重点を置いていた。 しかし、記憶の問題は緩和されているが、いまだに非破壊的なCE損失のために残っている。 この問題に対処するために,分類器がCE損失下でラベルノイズを記憶し難いデータに対して,頑健なコントラスト表現を学習することに注力する。 本稿では,ラベルノイズが表現学習を支配しない雑音データに対して,そのような表現を学習するための新しいコントラスト正規化関数を提案する。 提案する正規化関数によって引き起こされる表現を理論的に検討することにより,学習された表現が真のラベルに関する情報を保持し,破損したラベルに関する情報を破棄することを明らかにした。 さらに, 実験結果から, 学習した表現がラベル雑音に対して頑健であることを示唆する。 本手法の有効性は,ベンチマークデータセットを用いた実験により実証された。

Deep neural networks are able to memorize noisy labels easily with a softmax cross-entropy (CE) loss. Previous studies attempted to address this issue focus on incorporating a noise-robust loss function to the CE loss. However, the memorization issue is alleviated but still remains due to the non-robust CE loss. To address this issue, we focus on learning robust contrastive representations of data on which the classifier is hard to memorize the label noise under the CE loss. We propose a novel contrastive regularization function to learn such representations over noisy data where label noise does not dominate the representation learning. By theoretically investigating the representations induced by the proposed regularization function, we reveal that the learned representations keep information related to true labels and discard information related to corrupted labels. Moreover, our theoretical results also indicate that the learned representations are robust to the label noise. The effectiveness of this method is demonstrated with experiments on benchmark datasets.
翻訳日:2022-03-04 15:27:56 公開日:2022-03-03
# 変動の隠れた要因に対するロバスト性と適応

Robustness and Adaptation to Hidden Factors of Variation ( http://arxiv.org/abs/2203.01864v1 )

ライセンス: Link先を確認
William Paul and Philippe Burlina(参考訳) ここでは、AIの堅牢性の特定の側面に取り組み、データの変化の隠された要因に対するモデルパフォーマンスの不変/非感受性を求める。 この目的に向けて、我々は2段階の戦略を採用しました a) モデルが過小評価される原因となるセンシティブな要因の生成モデルを介して、教師なしの発見を行い、 b)これらのセンシティブな要因の影響にその性能を不変にするためにモデルを介入する。 データ拡張,意味的一貫性,敵対的アライメントの3つを含む,ロバスト性に対する3つの介入を検討した。 本手法は,不均一性(感度)と全体的な性能(実用性)のトレードオフを測定する指標を用いて評価し,その利点を3つの設定(教師なし,半教師なし,一般化)に示す。

We tackle here a specific, still not widely addressed aspect, of AI robustness, which consists of seeking invariance / insensitivity of model performance to hidden factors of variations in the data. Towards this end, we employ a two step strategy that a) does unsupervised discovery, via generative models, of sensitive factors that cause models to under-perform, and b) intervenes models to make their performance invariant to these sensitive factors' influence. We consider 3 separate interventions for robustness, including: data augmentation, semantic consistency, and adversarial alignment. We evaluate our method using metrics that measure trade offs between invariance (insensitivity) and overall performance (utility) and show the benefits of our method for 3 settings (unsupervised, semi-supervised and generalization).
翻訳日:2022-03-04 15:27:22 公開日:2022-03-03
# 多層読み出しを用いた貯留層計算による深部qネットワーク

Deep Q-network using reservoir computing with multi-layered readout ( http://arxiv.org/abs/2203.01465v1 )

ライセンス: Link先を確認
Toshitaka Matsuki(参考訳) リカレントニューラルネットワーク(RNN)に基づく強化学習(RL)は、文脈に依存したタスクの学習に使われ、近年の研究で顕著な学習性能を持つ手法として注目されている。 しかし、rnnベースのrlは、学習手順が計算コストが高くなりがちであり、bptt(バックプロパゲーション・アワー・タイム)によるトレーニングは、勾配の消失/爆発の問題のため不安定である。 BPTTを使わずにエージェントを訓練し,これらの問題を回避するリプレイメモリの導入手法が提案されている。 このアプローチの基本的な考え方は、環境からの観測を貯留層ネットワークに入力し、観測と貯留層出力の両方をメモリに格納するということである。 本稿では,1つの線形層からなる読み出し層に対して多層ニューラルネットワークを用いることにより,本手法の性能が向上することを示す。 実験の結果,多層読み出しにより,時系列処理を必要とする4つの古典的制御タスクの学習性能が向上することがわかった。

Recurrent neural network (RNN) based reinforcement learning (RL) is used for learning context-dependent tasks and has also attracted attention as a method with remarkable learning performance in recent research. However, RNN-based RL has some issues that the learning procedures tend to be more computationally expensive, and training with backpropagation through time (BPTT) is unstable because of vanishing/exploding gradients problem. An approach with replay memory introducing reservoir computing has been proposed, which trains an agent without BPTT and avoids these issues. The basic idea of this approach is that observations from the environment are input to the reservoir network, and both the observation and the reservoir output are stored in the memory. This paper shows that the performance of this method improves by using a multi-layered neural network for the readout layer, which regularly consists of a single linear layer. The experimental results show that using multi-layered readout improves the learning performance of four classical control tasks that require time-series processing.
翻訳日:2022-03-04 15:26:45 公開日:2022-03-03
# ロバストPAC$^m$:モデルミス種別と外乱下でのアンサンブルモデルの訓練

Robust PAC$^m$: Training Ensemble Models Under Model Misspecification and Outliers ( http://arxiv.org/abs/2203.01859v1 )

ライセンス: Link先を確認
Matteo Zecchin, Sangwoo Park, Osvaldo Simeone, Marios Kountouris, David Gesbert(参考訳) 標準ベイズ学習は、モデル不特定性および外れ値の存在下で最適部分一般化能力を有することが知られている。 pac-bayes理論は、ベイズ学習によって最小化される自由エネルギーの基準が、異常値によって汚染されないサンプリング分布の仮定の下でギブス予測器(すなわち、後からランダムに描画された単一モデル)の一般化誤差に縛られることを証明している。 この視点は、モデルが誤って特定され、アンサンブルが必要であり、データが外れ値に影響された場合にベイズ学習の限界を正当化する。 最近の研究で、PAC-Bayes境界(PAC$^m$)は、アンサンブル予測器の性能を考慮に入れた自由エネルギー指標を導入し、不特定条件下での性能を向上させるために導出された。 本研究は,一般化対数スコア関数とpac$^m$アンサンブル境界を組み合わせた,新しいロバストな自由エネルギー基準を提案する。 提案する自由エネルギー訓練基準は,モデル不特定化と異常値の有害な効果を相殺する予測分布を生成する。

Standard Bayesian learning is known to have suboptimal generalization capabilities under model misspecification and in the presence of outliers. PAC-Bayes theory demonstrates that the free energy criterion minimized by Bayesian learning is a bound on the generalization error for Gibbs predictors (i.e., for single models drawn at random from the posterior) under the assumption of sampling distributions uncontaminated by outliers. This viewpoint provides a justification for the limitations of Bayesian learning when the model is misspecified, requiring ensembling, and when data is affected by outliers. In recent work, PAC-Bayes bounds - referred to as PAC$^m$ - were derived to introduce free energy metrics that account for the performance of ensemble predictors, obtaining enhanced performance under misspecification. This work presents a novel robust free energy criterion that combines the generalized logarithm score function with PAC$^m$ ensemble bounds. The proposed free energy training criterion produces predictive distributions that are able to concurrently counteract the detrimental effects of model misspecification and outliers.
翻訳日:2022-03-04 15:26:11 公開日:2022-03-03
# 話題埋め込みの混合による単語埋め込みの混合表現

Representing Mixtures of Word Embeddings with Mixtures of Topic Embeddings ( http://arxiv.org/abs/2203.01570v1 )

ライセンス: Link先を確認
Dongsheng Wang, Dandan Guo, He Zhao, Huangjie Zheng, Korawat Tanwisuth, Bo Chen, Mingyuan Zhou(参考訳) トピックモデルは、文書の各単語がどのように生成されるかを説明する生成モデルとして定式化されることが多い。 文書中の共起語を捉えることに重点を置いており、短い文書の分析において性能の低下に苦しむことが多い。 加えて、そのパラメータ推定は、しばしば、スケーラブルでないか、大きな近似誤差に苦しむ近似後方推定に依存する。 本稿では、各文書を単語埋め込みベクトルの集合として、各トピックを同じ埋め込み空間内の埋め込みベクトルとしてモデル化する新しいトピックモデリングフレームワークを提案する。 同じベクトル空間に単語とトピックを埋め込み、文書の単語の埋め込みベクトルとそれらのトピックのセマンティックな差異を測る方法を定義し、すべての文書に対して期待される差を最小化するためにトピックの埋め込みを最適化する。 テキスト解析実験により,提案手法は,ミニバッチの確率的勾配降下に基づく最適化に適しており,それゆえ大規模コーパスに拡張可能であり,よりコヒーレントで多様なトピックを発見し,より優れた文書表現を抽出するための競合性能を提供することが示された。

A topic model is often formulated as a generative model that explains how each word of a document is generated given a set of topics and document-specific topic proportions. It is focused on capturing the word co-occurrences in a document and hence often suffers from poor performance in analyzing short documents. In addition, its parameter estimation often relies on approximate posterior inference that is either not scalable or suffers from large approximation error. This paper introduces a new topic-modeling framework where each document is viewed as a set of word embedding vectors and each topic is modeled as an embedding vector in the same embedding space. Embedding the words and topics in the same vector space, we define a method to measure the semantic difference between the embedding vectors of the words of a document and these of the topics, and optimize the topic embeddings to minimize the expected difference over all documents. Experiments on text analysis demonstrate that the proposed method, which is amenable to mini-batch stochastic gradient descent based optimization and hence scalable to big corpora, provides competitive performance in discovering more coherent and diverse topics and extracting better document representations.
翻訳日:2022-03-04 15:24:02 公開日:2022-03-03
# ランダム化アダマール変換の一様近似とその応用

Uniform Approximations for Randomized Hadamard Transforms with Applications ( http://arxiv.org/abs/2203.01599v1 )

ライセンス: Link先を確認
Yeshwanth Cherapanamjeri, Jelani Nelson(参考訳) RHT (Randomized Hadamard Transforms) は、コンピュータサイエンスや機械学習において、様々な領域にまたがる高密度な非構造化ランダム行列の使用に対する、計算的に効率的な代替手段として登場した。 次元減少や圧縮センシングといったいくつかの応用において、RHTsに基づく手法の理論的保証は、i.d.\エントリを持つ密度ランダム行列を用いたアプローチに匹敵する。 しかし、そのような応用のいくつかは、行列からサンプリングされた行数がかなり小さい低次元の領域にある。 事前の議論は、カーネル近似のような機械学習アプリケーションでよく見られる高次元の規則には適用できない。 ガウス対角線を持つ RHT のアンサンブルが与えられたとき、$\{M^i\}_{i = 1}^m$ および任意の$$-Lipschitz関数、$f: \mathbb{R} \to \mathbb{R}$ は、$\{M^i v\}_{i = 1}^m$ の平均が真ガウス行列を用いて得られるものと同等の速度で、その期待値に一様収束することを証明する。 我々は、高次元状態における2つの応用に対する改善された保証を導出するために、不等式を使用する。 1)カーネル近似と 2) 距離推定。 カーネル近似では、RHTによって構築されたランダムな特徴に対する最初の \emph{uniform} 近似保証を証明し、実験的な成功に理論的に正当性を与える一方で、距離推定については、著者による以前の研究よりも実行時の保証が改善されたデータ構造を示唆する。 私たちの一般的な不平等は他のアプリケーションで使われる可能性が高いと信じています。

Randomized Hadamard Transforms (RHTs) have emerged as a computationally efficient alternative to the use of dense unstructured random matrices across a range of domains in computer science and machine learning. For several applications such as dimensionality reduction and compressed sensing, the theoretical guarantees for methods based on RHTs are comparable to approaches using dense random matrices with i.i.d.\ entries. However, several such applications are in the low-dimensional regime where the number of rows sampled from the matrix is rather small. Prior arguments are not applicable to the high-dimensional regime often found in machine learning applications like kernel approximation. Given an ensemble of RHTs with Gaussian diagonals, $\{M^i\}_{i = 1}^m$, and any $1$-Lipschitz function, $f: \mathbb{R} \to \mathbb{R}$, we prove that the average of $f$ over the entries of $\{M^i v\}_{i = 1}^m$ converges to its expectation uniformly over $\| v \| \leq 1$ at a rate comparable to that obtained from using truly Gaussian matrices. We use our inequality to then derive improved guarantees for two applications in the high-dimensional regime: 1) kernel approximation and 2) distance estimation. For kernel approximation, we prove the first \emph{uniform} approximation guarantees for random features constructed through RHTs lending theoretical justification to their empirical success while for distance estimation, our convergence result implies data structures with improved runtime guarantees over previous work by the authors. We believe our general inequality is likely to find use in other applications.
翻訳日:2022-03-04 15:23:41 公開日:2022-03-03
# フェイルセーフ・ジェネレーティブ・アドバーサリー・イミテーション学習

Fail-Safe Generative Adversarial Imitation Learning ( http://arxiv.org/abs/2203.01696v1 )

ライセンス: Link先を確認
Philipp Geiger, Christoph-Nikolas Straehle(参考訳) フレキシブルで安全な模倣学習 (IL) のために, 生成模倣ポリシーを安全層と併用し, 全体的な明示的密度/漸進性を持ち, 生成敵対的IL (GAIL) を用いてエンドツーエンドの訓練が可能であり, 理論的に最悪の安全/悪質性を保証するモジュール方式を提案する。 安全層の正確な密度は、断片的に微分可能なインジェクションの可算非インジェクティブ・グルリングと変量式を用いて得られる。 セーフセット(安全層がマップする)は、リプシッツ連続性や凸引数とともに、サンプリングアクションとその将来のフェイルセーフフォールバック継続によって推測される。 また,すでにトレーニング中(水平方向のイミテーションエラー)に安全層を使用することの利点を示す理論的境界を,テスト時(二次誤差)にのみ使用することと比較した。 実世界のドライバーのインタラクションデータに挑戦する実験では,提案手法のトラクタビリティ,安全性,模倣性能を実証的に実証した。

For flexible yet safe imitation learning (IL), we propose a modular approach that uses a generative imitator policy with a safety layer, has an overall explicit density/gradient, can therefore be end-to-end trained using generative adversarial IL (GAIL), and comes with theoretical worst-case safety/robustness guarantees. The safety layer's exact density comes from using a countable non-injective gluing of piecewise differentiable injections and the change-of-variables formula. The safe set (into which the safety layer maps) is inferred by sampling actions and their potential future fail-safe fallback continuations, together with Lipschitz continuity and convexity arguments. We also provide theoretical bounds showing the advantage of using the safety layer already during training (imitation error linear in the horizon) compared to only using it at test time (quadratic error). In an experiment on challenging real-world driver interaction data, we empirically demonstrate tractability, safety and imitation performance of our approach.
翻訳日:2022-03-04 15:23:01 公開日:2022-03-03
# 動的ネットワークのためのベイズ散逸グラフ

Bayesian Spillover Graphs for Dynamic Networks ( http://arxiv.org/abs/2203.01912v1 )

ライセンス: Link先を確認
Grace Deng, David S. Matteson(参考訳) 我々は,時間的関係を学習し,臨界ノードを同定し,動的システムにおけるマルチ水平流出効果の不確実性を定量化する新しい手法であるBayesian Spillover Graphs(BSG)を提案する。 bsgは予測誤差分散分解(fevd)による解釈可能な枠組みとベイズ時系列モデルによる包括的不確実性定量化の両方を利用して、システムリスクと予測変動の観点で時間関係を文脈化している。 forecast horizon hyperparameter $h$ は短期状態と平衡状態の両方のネットワーク動作を学習できる。 さまざまなグラフとエラー仕様の下でソースノードとシンクノードを識別する実験は、最先端のベイズネットワークとディープラーニングのベースラインに対する大きなパフォーマンス向上を示している。 実世界のシステムへの応用は、間接的な流出やリスクの定量化の探索分析ツールとしてbsgも紹介している。

We present Bayesian Spillover Graphs (BSG), a novel method for learning temporal relationships, identifying critical nodes, and quantifying uncertainty for multi-horizon spillover effects in a dynamic system. BSG leverages both an interpretable framework via forecast error variance decompositions (FEVD) and comprehensive uncertainty quantification via Bayesian time series models to contextualize temporal relationships in terms of systemic risk and prediction variability. Forecast horizon hyperparameter $h$ allows for learning both short-term and equilibrium state network behaviors. Experiments for identifying source and sink nodes under various graph and error specifications show significant performance gains against state-of-the-art Bayesian Networks and deep-learning baselines. Applications to real-world systems also showcase BSG as an exploratory analysis tool for uncovering indirect spillovers and quantifying risk.
翻訳日:2022-03-04 15:22:38 公開日:2022-03-03
# ロボット注入のための自己教師付き透明液体セグメンテーション

Self-supervised Transparent Liquid Segmentation for Robotic Pouring ( http://arxiv.org/abs/2203.01538v1 )

ライセンス: Link先を確認
Gautham Narayan Narasimhan, Kai Zhang, Ben Eisner, Xingyu Lin, David Held(参考訳) 液体状態の推定は注ぐなどのロボット作業において重要であるが、透明液体の状態の推定は難しい問題である。 本研究では,rgb画像から水などの透明な液体を,手作業による注記や加熱を必要とせずにセグメント化できる新しいセグメンテーションパイプラインを提案する。 代わりに、色付き液体の画像から合成生成した透明な液体画像に変換可能な生成モデルを用いて、色付きおよび透明な液体画像の非ペア化データセットのみを訓練する。 背景減算を用いて色付き液体のセグメンテーションラベルを自動的に取得する。 実験の結果, 手動アノテーションを必要とせず, 透明液体のセグメンテーションマスクを正確に予測できることがわかった。 透明カップ内の液高さを知覚して注水を制御するロボット注水作業における透明液体セグメンテーションの有用性を実証する。 ビデオや補足資料も用意されている。

Liquid state estimation is important for robotics tasks such as pouring; however, estimating the state of transparent liquids is a challenging problem. We propose a novel segmentation pipeline that can segment transparent liquids such as water from a static, RGB image without requiring any manual annotations or heating of the liquid for training. Instead, we use a generative model that is capable of translating images of colored liquids into synthetically generated transparent liquid images, trained only on an unpaired dataset of colored and transparent liquid images. Segmentation labels of colored liquids are obtained automatically using background subtraction. Our experiments show that we are able to accurately predict a segmentation mask for transparent liquids without requiring any manual annotations. We demonstrate the utility of transparent liquid segmentation in a robotic pouring task that controls pouring by perceiving the liquid height in a transparent cup. Accompanying video and supplementary materials can be found
翻訳日:2022-03-04 15:20:29 公開日:2022-03-03
# fuchs dystrophy を伴う角膜内皮の鏡像のセグメンテーションにおける非局所的フィードバックによる高密度化

DenseUNets with feedback non-local attention for the segmentation of specular microscopy images of the corneal endothelium with Fuchs dystrophy ( http://arxiv.org/abs/2203.01882v1 )

ライセンス: Link先を確認
Juan P. Vigueras-Guill\'en and Jeroen van Rooij and Bart T.H. van Dooren and Hans G. Lemij and Esma Islamaj and Lucas J. van Vliet and Koenraad A. Vermeer(参考訳) 角膜内皮細胞性ジストロフィー (Fuchs endothelial dystrophy) を呈する顕微鏡画像から角膜内皮細胞パラメータを推定するために, フィードバック非局所的注意 (fNLA) と呼ばれる新しい注意機構を含む新しい深層学習手法を提案する。 提案手法はまず,まず細胞縁を推定し,よく検出された細胞を選択し,最後に誤りを訂正するために後処理法を適用し,角膜パラメータを推定する二分節(細胞密度[ECD],変動係数[CV],六角性[HEX])を提供する。 本研究では,topcon sp-1p顕微鏡で取得した1203枚の画像を分析した。 全画像で手動セグメンテーションが行われた。 我々は、異なるネットワーク(UNet, ResUNeXt, DenseUNets, UNet++)の結果を比較し、fNLAのDenseUNetsは、ECDで23.16[cells/mm$^{2}$]、CVで1.28[%]、HEXで3.13[%]という平均的な絶対誤差で、Topconのビルトインソフトウェアで得られたエラーの3-6倍の誤差で、最高のパフォーマンスを提供することがわかった。 我々のアプローチでは, ガッタが影響を受ける細胞を著しく良好に処理し, 小さいガッタが占める細胞縁を検知し, 大きなガッタが覆う領域を廃棄した。 fNLAは局所情報を利用し、腸骨領域の鋭い縁を提供し、よく検出された細胞の選択により良い結果をもたらした。 総じて,本手法は,この課題を適切に解決した文献において,最初の手法であるguttaeを用いて,極めて困難な鏡像の信頼性と精度を推定する手法である。 コードはGitHubで入手可能です。

To estimate the corneal endothelial parameters from specular microscopy images depicting cornea guttata (Fuchs endothelial dystrophy), we propose a new deep learning methodology that includes a novel attention mechanism named feedback non-local attention (fNLA). Our approach first infers the cell edges, then selects the cells that are well detected, and finally applies a postprocessing method to correct mistakes and provide the binary segmentation from which the corneal parameters are estimated (cell density [ECD], coefficient of variation [CV], and hexagonality [HEX]). In this study, we analyzed 1203 images acquired with a Topcon SP-1P microscope, 500 of which contained guttae. Manual segmentation was performed in all images. We compared the results of different networks (UNet, ResUNeXt, DenseUNets, UNet++) and found that DenseUNets with fNLA provided the best performance, with a mean absolute error of 23.16 [cells/mm$^{2}$] in ECD, 1.28 [%] in CV, and 3.13 [%] in HEX, which was 3-6 times smaller than the error obtained by Topcon's built-in software. Our approach handled the cells affected by guttae remarkably well, detecting cell edges occluded by small guttae while discarding areas covered by large guttae. fNLA made use of the local information, providing sharper edges in guttae areas and better results in the selection of well-detected cells. Overall, the proposed method obtained reliable and accurate estimations in extremely challenging specular images with guttae, being the first method in the literature to solve this problem adequately. Code is available in our GitHub.
翻訳日:2022-03-04 15:20:14 公開日:2022-03-03
# ROCT-Net:網膜CT画像からの共通疾患検出のための空間分解能学習を改良した新しいアンサンブル深部畳み込みモデル

ROCT-Net: A new ensemble deep convolutional model with improved spatial resolution learning for detecting common diseases from retinal OCT images ( http://arxiv.org/abs/2203.01883v1 )

ライセンス: Link先を確認
Mohammad Rahimzadeh and Mahmoud Reza Mohammadi(参考訳) 光コヒーレンス断層撮影(OCT)は網膜の層を可視化する技術としてよく知られている。 網膜疾患の正確な診断と早期診断は、患者が視力に重大な損傷を負うのを予防する。 computer-assisted diagnostic (cad) システムは眼科医の検査の改善に大いに役立つ。 本稿では,oct画像から網膜疾患を検出するための,新しい深層アンサンブル畳み込みニューラルネットワークを提案する。 このモデルは2つのロバストな畳み込みモデルの学習アーキテクチャを用いて,リッチでマルチレゾリューションな特徴を生成する。 空間分解能は医療画像、特に小さな必須点を含むOCT画像において重要な要素である。 計算コストを増大させることなく空間分解能学習を増強するアンサンブルモデルに,新しい建築後モデルを適用する。 導入されたアーキテクチャ後モデルは、特徴マップの空間値の利用を改善するために、任意の特徴抽出モデルにデプロイすることができる。 われわれは, 加齢関連黄斑変性症 (AMD) , 中枢性血清網膜症 (CSR) , 糖尿病網膜症 (DR) , 脈絡膜新生血管形成 (CNV) , 糖尿病黄斑浮腫 (DME) , ドルーセンの6つの重要な網膜疾患を検出できるモデルを作成するために, 実験のために2つのオープンソースデータセットを収集した。 2つのデータセットに関する実験と、他のよく知られた深層畳み込みニューラルネットワークとの比較により、アーキテクチャが分類精度を最大5%向上できることが証明された。 提案手法がCADシステム開発の次のステップを生み出し,今後の研究を支援することを願っている。 本論文のコードはhttps://github.com/mr7495/OCT分類で共有されている。

Optical coherence tomography (OCT) imaging is a well-known technology for visualizing retinal layers and helps ophthalmologists to detect possible diseases. Accurate and early diagnosis of common retinal diseases can prevent the patients from suffering critical damages to their vision. Computer-aided diagnosis (CAD) systems can significantly assist ophthalmologists in improving their examinations. This paper presents a new enhanced deep ensemble convolutional neural network for detecting retinal diseases from OCT images. Our model generates rich and multi-resolution features by employing the learning architectures of two robust convolutional models. Spatial resolution is a critical factor in medical images, especially the OCT images that contain tiny essential points. To empower our model, we apply a new post-architecture model to our ensemble model for enhancing spatial resolution learning without increasing computational costs. The introduced post-architecture model can be deployed to any feature extraction model to improve the utilization of the feature map's spatial values. We have collected two open-source datasets for our experiments to make our models capable of detecting six crucial retinal diseases: Age-related Macular Degeneration (AMD), Central Serous Retinopathy (CSR), Diabetic Retinopathy (DR), Choroidal Neovascularization (CNV), Diabetic Macular Edema (DME), and Drusen alongside the normal cases. Our experiments on two datasets and comparing our model with some other well-known deep convolutional neural networks have proven that our architecture can increase the classification accuracy up to 5%. We hope that our proposed methods create the next step of CAD systems development and help future researches. The code of this paper is shared at https://github.com/mr7495/OCT-classification.
翻訳日:2022-03-04 15:19:32 公開日:2022-03-03
# NUQ:不確かさの量子化による拡散MRIのノイズメトリクス

NUQ: A Noise Metric for Diffusion MRI via Uncertainty Discrepancy Quantification ( http://arxiv.org/abs/2203.01921v1 )

ライセンス: Link先を確認
Shreyas Fadnavis, Jens Sj\"olund, Anders Eklund, Eleftherios Garyfallidis(参考訳) 拡散MRI(dMRI)は組織微細構造に敏感な唯一の非侵襲的手法であり、組織微細構造と白質経路の再構築に使用できる。 このようなタスクの精度は、dMRIの低信号対雑音比によって妨げられる。 今日、ノイズは主に残留地図の視覚的検査と推定標準偏差によって特徴付けられる。 しかし,このような質的評価だけでは,下流課題に対する騒音の影響を推定することは困難である。 そこで本研究では, 基礎的真理参照画像が存在しない場合の定量的画像品質解析のための新しい指標, ノイズ不確かさ定量化(nuq)を提案する。 NUQは最近のベイズ的dMRIモデルの定式化を用いて、ミクロ構造測定の不確かさを推定している。 具体的には、NUQは、最大平均誤差測定値を用いて、マイクロ構造測定の後方分布から得られたサンプルを比較して、プールされた品質スコアを算出する。 NUQはノイズのきめ細かい分析を可能にし、視覚的に知覚できない詳細を捉える。 実際のデータセットに対して定性的および定量的な比較を行い、NUQが異なるデノイザと取得に対して一貫したスコアを生成することを示す。 最後に, 統合失調症とコントロールのコホートにnuqを使用することにより, グループ差に対する分別の影響を定量化する。

Diffusion MRI (dMRI) is the only non-invasive technique sensitive to tissue micro-architecture, which can, in turn, be used to reconstruct tissue microstructure and white matter pathways. The accuracy of such tasks is hampered by the low signal-to-noise ratio in dMRI. Today, the noise is characterized mainly by visual inspection of residual maps and estimated standard deviation. However, it is hard to estimate the impact of noise on downstream tasks based only on such qualitative assessments. To address this issue, we introduce a novel metric, Noise Uncertainty Quantification (NUQ), for quantitative image quality analysis in the absence of a ground truth reference image. NUQ uses a recent Bayesian formulation of dMRI models to estimate the uncertainty of microstructural measures. Specifically, NUQ uses the maximum mean discrepancy metric to compute a pooled quality score by comparing samples drawn from the posterior distribution of the microstructure measures. We show that NUQ allows a fine-grained analysis of noise, capturing details that are visually imperceptible. We perform qualitative and quantitative comparisons on real datasets, showing that NUQ generates consistent scores across different denoisers and acquisitions. Lastly, by using NUQ on a cohort of schizophrenics and controls, we quantify the substantial impact of denoising on group differences.
翻訳日:2022-03-04 15:18:59 公開日:2022-03-03
# コードシノニムは問題:自動icd符号化のための複数シノニムマッチングネットワーク

Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding ( http://arxiv.org/abs/2203.01515v1 )

ライセンス: Link先を確認
Zheng Yuan, Chuanqi Tan, Songfang Huang(参考訳) 自動ICD符号化は、疾患コードを電子カルテ(EMR)に割り当てるものとして定義される。 既存のメソッドは通常、関連するテキストスニペットにマッチするコード表現にラベルを付ける。 コード階層や記述でラベルをモデル化するこれらの作業とは異なり、コードシノニムは、emrにおけるコード表現がicdの記述から異なるという観察に基づいて、より包括的な知識を提供できると主張している。 UMLSの概念にコードを合わせることで、すべてのコードの同義語を集めます。 そこで,コード表現学習に同義語を利用する複数の同義語マッチングネットワークを提案し,最終的にコード分類を支援する。 mimic-iiiデータセットの実験では,提案手法が先行する最先端手法よりも優れていた。

Automatic ICD coding is defined as assigning disease codes to electronic medical records (EMRs). Existing methods usually apply label attention with code representations to match related text snippets. Unlike these works that model the label with the code hierarchy or description, we argue that the code synonyms can provide more comprehensive knowledge based on the observation that the code expressions in EMRs vary from their descriptions in ICD. By aligning codes to concepts in UMLS, we collect synonyms of every code. Then, we propose a multiple synonyms matching network to leverage synonyms for better code representation learning, and finally help the code classification. Experiments on the MIMIC-III dataset show that our proposed method outperforms previous state-of-the-art methods.
翻訳日:2022-03-04 15:18:37 公開日:2022-03-03
# UDAAN - 文書翻訳のための機械学習ベースのポスト編集ツール

UDAAN - Machine Learning based Post-Editing tool for Document Translation ( http://arxiv.org/abs/2203.01644v1 )

ライセンス: Link先を確認
Ayush Maheshwari, Ajay Ravindran, Venkatapathy Subramanian, Akshay Jalan, Ganesh Ramakrishnan(参考訳) オープンソースポスト編集ツールであるUDAANを導入し、様々な言語で出版可能な標準文書を迅速に作成するための手作業による編集作業を削減できる。 UDAANにはエンドツーエンドの機械翻訳(MT)と後編集パイプラインがあり、ユーザーは文書をアップロードして生のMT出力を得ることができる。 さらに、ユーザはツールを使って生の翻訳を編集できる。 UDAANにはいくつかの利点がある。 a) ドメインを意識した語彙に基づく語彙制約MT b) 利用者に対するソースターゲット及びターゲットターゲットレキシコン提案 置換はソースとターゲットテキストのレキシコンアライメントに基づいて行われる。 c) 翻訳の提案は,ユーザインタラクション中に作成されたログに基づいて行う。 d)編集中のユーザの認知負荷を低減させるソースターゲット文アライメント可視化。 e) ツールからの翻訳アウトプットは、ドキュメント、ラテックス、PDFなど、複数のフォーマットで利用可能です。 実験を英語からヒンディー語への翻訳に限定するが、このツールはソース言語とターゲット言語とは独立している。 ツールとユーザからのフィードバックをもとにした実験結果から,本ツールは文書をスクラッチから翻訳するベースライン法と比較して,約3倍の速度で翻訳時間を短縮できることがわかった。

We introduce UDAAN, an open-source post-editing tool that can reduce manual editing efforts to quickly produce publishable-standard documents in different languages. UDAAN has an end-to-end Machine Translation (MT) plus post-editing pipeline wherein users can upload a document to obtain raw MT output. Further, users can edit the raw translations using our tool. UDAAN offers several advantages: a) Domain-aware, vocabulary-based lexical constrained MT. b) source-target and target-target lexicon suggestions for users. Replacements are based on the source and target texts lexicon alignment. c) Suggestions for translations are based on logs created during user interaction. d) Source-target sentence alignment visualisation that reduces the cognitive load of users during editing. e) Translated outputs from our tool are available in multiple formats: docs, latex, and PDF. Although we limit our experiments to English-to-Hindi translation for the current study, our tool is independent of the source and target languages. Experimental results based on the usage of the tools and users feedback show that our tool speeds up the translation time approximately by a factor of three compared to the baseline method of translating documents from scratch.
翻訳日:2022-03-04 15:17:08 公開日:2022-03-03
# 単純ハッシュに基づく言語理解と生成のための早期解法

A Simple Hash-Based Early Exiting Approach For Language Understanding and Generation ( http://arxiv.org/abs/2203.01670v1 )

ライセンス: Link先を確認
Tianxiang Sun, Xiangyang Liu, Wei Zhu, Zhichao Geng, Lingling Wu, Yilong He, Yuan Ni, Guotong Xie, Xuanjing Huang, Xipeng Qiu(参考訳) 早期終了は、難易度の推定に応じて異なるレイヤでインスタンスを終了させることを可能にする。 以前の著作では、通常、一般化やしきい値調整に苦しむインスタンスの難易度を測定するために、内部出力のエントロピーのようなヒューリスティックな指標が採用されている。 対照的に、退出する学習やインスタンスの難易度を予測する学習は、より魅力的な方法です。 このような "learn-to-exit" モジュールの使用にいくつかの努力が注がれているが、インスタンスの難しさがどの程度うまく学べるかは、まだ不明である。 結果として、まずインスタンス難易度を学習する実験を行い、現代のニューラルモデルがインスタンス難易度を予測できないことを示した。 そこで本研究では,提案手法を応用したハッシュ・ツー・エクストイット・モジュールをハッシュ関数に置き換え,各トークンを固定エグジット層に割り当てる手法を提案する。 従来の方法とは異なり、HashEEは内部分類器や余分なパラメータを必要としないため、より効率的である。 分類,回帰,生成タスクに関する実験結果から,HashEEは従来の最先端早期出口法と比較してFLOPや推論時間が少なく,高い性能を達成できることが示された。

Early exiting allows instances to exit at different layers according to the estimation of difficulty. Previous works usually adopt heuristic metrics such as the entropy of internal outputs to measure instance difficulty, which suffers from generalization and threshold-tuning. In contrast, learning to exit, or learning to predict instance difficulty is a more appealing way. Though some effort has been devoted to employing such "learn-to-exit" modules, it is still unknown whether and how well the instance difficulty can be learned. As a response, we first conduct experiments on the learnability of instance difficulty, which demonstrates that modern neural models perform poorly on predicting instance difficulty. Based on this observation, we propose a simple-yet-effective Hash-based Early Exiting approach (HashEE) that replaces the learn-to-exit modules with hash functions to assign each token to a fixed exiting layer. Different from previous methods, HashEE requires no internal classifiers nor extra parameters, and therefore is more efficient. Experimental results on classification, regression, and generation tasks demonstrate that HashEE can achieve higher performance with fewer FLOPs and inference time compared with previous state-of-the-art early exiting methods.
翻訳日:2022-03-04 15:16:52 公開日:2022-03-03
# クリックスルーデータを用いたコンテキスト拡張短文マッチング

Context Enhanced Short Text Matching using Clickthrough Data ( http://arxiv.org/abs/2203.01849v1 )

ライセンス: Link先を確認
Mao Yan Chen, Haiyun Jiang, Yujiu Yang(参考訳) 短文マッチングタスクは、2つの短文が同じ意味的意味または意図を持っているかどうかを判断するモデルを用いる。 既存の短いテキストマッチングモデルは通常、情報不足やいくつかの重要な手がかりが欠けている短いテキストの内容に依存する。 したがって、短いテキストは、意味的な意味を完結させるために外部知識を必要とする。 この問題に対処するために,外部知識を導入し,短文文脈表現を強化するための新しい短文マッチングフレームワークを提案する。 より詳しくは、外部コンテキストによる短いテキスト表現を豊かにするための自己認識機構を適用する。 2つの中国語データセットと1つの英語データセットの実験は、我々のフレームワークが最先端のショートテキストマッチングモデルよりも優れていることを示している。

The short text matching task employs a model to determine whether two short texts have the same semantic meaning or intent. Existing short text matching models usually rely on the content of short texts which are lack information or missing some key clues. Therefore, the short texts need external knowledge to complete their semantic meaning. To address this issue, we propose a new short text matching framework for introducing external knowledge to enhance the short text contextual representation. In detail, we apply a self-attention mechanism to enrich short text representation with external contexts. Experiments on two Chinese datasets and one English dataset demonstrate that our framework outperforms the state-of-the-art short text matching models.
翻訳日:2022-03-04 15:16:30 公開日:2022-03-03
# 可能な限り、必要な限り、:コントラスト条件付き過剰および過度翻訳の検出

As Little as Possible, as Much as Necessary: Detecting Over- and Undertranslations with Contrastive Conditioning ( http://arxiv.org/abs/2203.01927v1 )

ライセンス: Link先を確認
Jannis Vamvas and Rico Sennrich(参考訳) コンテンツの削除と追加は、ニューラルマシン翻訳の典型的な問題である。 既成の翻訳モデルを用いて,そのような現象を検出する手法を提案する。 コントラストコンディショニングを用いて、翻訳モデルの下での完全シーケンスの可能性と、対応するソースまたは対象シーケンスを与えられた部分の可能性を比較検討する。 これにより、参照翻訳がなくても、翻訳中の過剰な単語とソース内の未翻訳の単語をピンポイントできる。 本手法の精度は,独自の品質推定モデルを必要とする教師あり手法に匹敵する。

Omission and addition of content is a typical issue in neural machine translation. We propose a method for detecting such phenomena with off-the-shelf translation models. Using contrastive conditioning, we compare the likelihood of a full sequence under a translation model to the likelihood of its parts, given the corresponding source or target sequence. This allows to pinpoint superfluous words in the translation and untranslated words in the source even in the absence of a reference translation. The accuracy of our method is comparable to a supervised method that requires a custom quality estimation model.
翻訳日:2022-03-04 15:16:19 公開日:2022-03-03
# ヒト運動予測のための時空間ゲーティング隣接GCN

Spatial-Temporal Gating-Adjacency GCN for Human Motion Prediction ( http://arxiv.org/abs/2203.01474v1 )

ライセンス: Link先を確認
Chongyang Zhong, Lei Hu, Zihao Zhang, Yongjing Ye, Shihong Xia(参考訳) ヒストリカルモーションシーケンスに基づく将来の動きの予測はコンピュータビジョンの基本的な問題であり、自律運転やロボット工学に広く応用されている。 近年の研究では、グラフ畳み込みネットワーク(gcn)が異なるジョイント間の関係をモデル化するのに役立つことが示されている。 しかし,人間の運動データにおける変種や多様な行動型を考えると,空間的・時間的関係の相互依存性は,非結合的なモデリング戦略によって描写が困難となる。 そこで本稿では,多様な行動型に対する複雑な時空間依存性を学習するために,時空間ゲーティング・アジャクエンスGCN(GAGCN)を提案する。 具体的には,空間的隣接行列を混合した適応的隣接行列を用いてGCNの一般化を促進するため,ゲーティングネットワークを採用する。 さらに、GAGCNは空間時間モデリングの重みのバランスをとることで空間時間と時間との相互依存性に対処する。 ヒト3.6M, AMASS, 3DPWの広範囲な実験により, GAGCNは短期および長期の予測において最先端の性能を発揮することが示された。 私たちのコードは将来リリースされるでしょう。

Predicting future motion based on historical motion sequence is a fundamental problem in computer vision, and it has wide applications in autonomous driving and robotics. Some recent works have shown that Graph Convolutional Networks(GCN) are instrumental in modeling the relationship between different joints. However, considering the variants and diverse action types in human motion data, the cross-dependency of the spatial-temporal relationships will be difficult to depict due to the decoupled modeling strategy, which may also exacerbate the problem of insufficient generalization. Therefore, we propose the Spatial-Temporal Gating-Adjacency GCN(GAGCN) to learn the complex spatial-temporal dependencies over diverse action types. Specifically, we adopt gating networks to enhance the generalization of GCN via the trainable adaptive adjacency matrix obtained by blending the candidate spatial-temporal adjacency matrices. Moreover, GAGCN addresses the cross-dependency of space and time by balancing the weights of spatial-temporal modeling and fusing the decoupled spatial-temporal features. Extensive experiments on Human 3.6M, AMASS, and 3DPW demonstrate that GAGCN achieves state-of-the-art performance in both short-term and long-term predictions. Our code will be released in the future.
翻訳日:2022-03-04 15:16:10 公開日:2022-03-03
# (参考訳) 教師なしモデルのラベルフリー説明可能性

Label-Free Explainability for Unsupervised Models ( http://arxiv.org/abs/2203.01928v1 )

ライセンス: CC BY 4.0
Jonathan Crabb\'e and Mihaela van der Schaar(参考訳) 教師なしのブラックボックスモデルは解釈が難しい。 実際、既存の説明可能性メソッドのほとんどは、ブラックボックスの出力のどのコンポーネントを解釈するかをラベルで選択する必要がある。 ラベルがない場合、ブラックボックス出力は、コンポーネントが意味のある量に対応しない表現ベクトルであることが多い。 したがって、ラベルなしの教師なし/自己教師付き設定で解釈するコンポーネントを選択することは重要だが未解決の問題である。 このギャップを埋めるために,(1)ラベルフリーな特徴量,(2)ラベルフリーな例量,(2)ブラックボックスが推論時に表現を構築するためのトレーニング例,という,ポストホックな説明技術の2つの重要な拡張を導入する。 既存の機能やサンプル重要メソッドを取り囲む単純なラッパーとして、私たちの拡張をうまく実装できることを実証します。 我々は、異なる教師なしタスクで訓練された様々なオートエンコーダによって学習された表現空間の質的かつ定量的比較を通して、ラベルのない説明可能性パラダイムの有用性を示す。

Unsupervised black-box models are challenging to interpret. Indeed, most existing explainability methods require labels to select which component(s) of the black-box's output to interpret. In the absence of labels, black-box outputs often are representation vectors whose components do not correspond to any meaningful quantity. Hence, choosing which component(s) to interpret in a label-free unsupervised/self-supervised setting is an important, yet unsolved problem. To bridge this gap in the literature, we introduce two crucial extensions of post-hoc explanation techniques: (1) label-free feature importance and (2) label-free example importance that respectively highlight influential features and training examples for a black-box to construct representations at inference time. We demonstrate that our extensions can be successfully implemented as simple wrappers around many existing feature and example importance methods. We illustrate the utility of our label-free explainability paradigm through a qualitative and quantitative comparison of representation spaces learned by various autoencoders trained on distinct unsupervised tasks.
翻訳日:2022-03-04 15:13:53 公開日:2022-03-03
# 視覚言語知能:タスク,表現学習,大規模モデル

Vision-Language Intelligence: Tasks, Representation Learning, and Large Models ( http://arxiv.org/abs/2203.01922v1 )

ライセンス: Link先を確認
Feng Li, Hao Zhang, Yi-Fan Zhang, Shilong Liu, Jian Guo, Lionel M. Ni, PengChuan Zhang, Lei Zhang(参考訳) 本稿では,視覚言語(VL)インテリジェンスを時間的観点から包括的に調査する。 この調査は、コンピュータビジョンと自然言語処理の両方の顕著な進歩と、シングルモダリティ処理からマルチモダリティ理解へ移行する最近のトレンドに触発されたものである。 本稿では,この分野の開発をタスク固有法,視覚言語前訓練法(vlp)法,大規模弱ラベルデータによる大規模モデルという3つの期間にまとめる。 まず,タスク固有の手法の開発を紹介するために,一般的なVLタスクを例に挙げる。 次に、VLP手法に注目し、モデル構造とトレーニング手法の重要なコンポーネントを包括的にレビューする。 その後、最近の研究は、大規模な生画像テキストデータを用いて、ゼロまたは少ないショット学習タスクでより一般化された言語対応の視覚表現を学習していることを示す。 最後に,モダリティ連携,統一表現,知識導入に向けた今後の展望について論じる。 このレビューは、AIとMLの研究者や実践者、特にコンピュータビジョンや自然言語処理に関心のある人に役立つと信じています。

This paper presents a comprehensive survey of vision-language (VL) intelligence from the perspective of time. This survey is inspired by the remarkable progress in both computer vision and natural language processing, and recent trends shifting from single modality processing to multiple modality comprehension. We summarize the development in this field into three time periods, namely task-specific methods, vision-language pre-training (VLP) methods, and larger models empowered by large-scale weakly-labeled data. We first take some common VL tasks as examples to introduce the development of task-specific methods. Then we focus on VLP methods and comprehensively review key components of the model structures and training methods. After that, we show how recent work utilizes large-scale raw image-text data to learn language-aligned visual representations that generalize better on zero or few shot learning tasks. Finally, we discuss some potential future trends towards modality cooperation, unified representation, and knowledge incorporation. We believe that this review will be of help for researchers and practitioners of AI and ML, especially those interested in computer vision and natural language processing.
翻訳日:2022-03-04 14:39:11 公開日:2022-03-03
# QaNER: 名前付きエンティティ認識のための質問応答モデルの提案

QaNER: Prompting Question Answering Models for Few-shot Named Entity Recognition ( http://arxiv.org/abs/2203.01543v1 )

ライセンス: Link先を確認
Andy T. Liu, Wei Xiao, Henghui Zhu, Dejiao Zhang, Shang-Wen Li, Andrew Arnold(参考訳) 近年,事前学習された言語モデルに対するプロンプトベースの学習は,ラベル効率を向上させるために,プロンプトをタスクガイダンスとして活用することで,数発の固有認識(NER)に成功した。 しかし、従来の数ショットNERのプロンプトベースの手法には、計算複雑性の向上、ゼロショット能力の低下、手動プロンプトエンジニアリングの必要、迅速な堅牢性の欠如などの制限がある。 本稿では,QaNER(QaNER)と呼ばれるQAを用いた新しいプロンプトベースの学習NER手法を提案することにより,これらの問題点に対処する。 私たちのアプローチには 1) NER問題をQA定式化に変換するための洗練された戦略 2)QAモデルのNER即時生成 3) いくつかの注釈付きNER例に基づくQAモデルによるプロンプトベースのチューニング。 4)QAモデルによるゼロショットNER。 提案手法を従来の手法と比較すると,qanerは推論が高速で,迅速な品質に影響を受けず,ハイパーパラメータに堅牢であると同時に,低リソースのパフォーマンスとゼロショット能力も大幅に向上している。

Recently, prompt-based learning for pre-trained language models has succeeded in few-shot Named Entity Recognition (NER) by exploiting prompts as task guidance to increase label efficiency. However, previous prompt-based methods for few-shot NER have limitations such as a higher computational complexity, poor zero-shot ability, requiring manual prompt engineering, or lack of prompt robustness. In this work, we address these shortcomings by proposing a new prompt-based learning NER method with Question Answering (QA), called QaNER. Our approach includes 1) a refined strategy for converting NER problems into the QA formulation; 2) NER prompt generation for QA models; 3) prompt-based tuning with QA models on a few annotated NER examples; 4) zero-shot NER by prompting the QA model. Comparing the proposed approach with previous methods, QaNER is faster at inference, insensitive to the prompt quality, and robust to hyper-parameters, as well as demonstrating significantly better low-resource performance and zero-shot capability.
翻訳日:2022-03-04 14:38:53 公開日:2022-03-03
# スパースベイズ最適化

Sparse Bayesian Optimization ( http://arxiv.org/abs/2203.01900v1 )

ライセンス: Link先を確認
Sulin Liu, Qing Feng, David Eriksson, Benjamin Letham, Eytan Bakshy(参考訳) ベイズ最適化(BO)はブラックボックスの目的関数の標本効率最適化のための強力な手法である。 しかし, 推薦システムなどの分野へのBOの適用には, BO文献ではこれまで研究されてきたような, 構成の解釈可能性や簡易性を考慮に入れなければならない場合が多い。 この設定にBOを適用させるため、よりスパースで解釈可能な構成を発見できる正規化ベースのアプローチをいくつか提示する。 我々は,$l_0$正規化で直接動作することにより,スパーシティを目標とするホモトピー継続に基づく新しい微分可能緩和を提案する。 正規化BOの故障モードを特定し,目標目標とスパーシティを同時に最大化するためにベイズ最適化(SEBO)を探索するハイパーパラメータフリーな手法を開発した。 seboと固定正則化に基づく手法は, 合成問題と実世界問題で評価され, スパーシティを効率的に最適化できることを示す。

Bayesian optimization (BO) is a powerful approach to sample-efficient optimization of black-box objective functions. However, the application of BO to areas such as recommendation systems often requires taking the interpretability and simplicity of the configurations into consideration, a setting that has not been previously studied in the BO literature. To make BO applicable in this setting, we present several regularization-based approaches that allow us to discover sparse and more interpretable configurations. We propose a novel differentiable relaxation based on homotopy continuation that makes it possible to target sparsity by working directly with $L_0$ regularization. We identify failure modes for regularized BO and develop a hyperparameter-free method, sparsity exploring Bayesian optimization (SEBO) that seeks to simultaneously maximize a target objective and sparsity. SEBO and methods based on fixed regularization are evaluated on synthetic and real-world problems, and we show that we are able to efficiently optimize for sparsity.
翻訳日:2022-03-04 14:37:57 公開日:2022-03-03
# 実践的強化学習について:確率的ロバスト性、スケーラビリティ、統計的効率性

On Practical Reinforcement Learning: Provable Robustness, Scalability, and Statistical Efficiency ( http://arxiv.org/abs/2203.01758v1 )

ライセンス: Link先を確認
Thanh Nguyen-Tang(参考訳) この論文は、ロバストRL、分布RL、および神経機能近似を用いたオフラインRLを含む、現代の実践的考察において、基礎強化学習法を厳格に研究している。 論文はまず、rlの概要と統計と最適化における重要な技術的背景を読者に提供する。 それぞれの設定において、論文は研究すべき問題を動機付け、現在の文献をレビューし、証明可能な効率保証を備えた計算効率の良いアルゴリズムを提供し、将来の研究方向で結論付ける。 この論文は、アルゴリズム的、理論的、経験的に、上の3つの設定に基本的な貢献をし、実践的な考察に関係している。

This thesis rigorously studies fundamental reinforcement learning (RL) methods in modern practical considerations, including robust RL, distributional RL, and offline RL with neural function approximation. The thesis first prepares the readers with an overall overview of RL and key technical background in statistics and optimization. In each of the settings, the thesis motivates the problems to be studied, reviews the current literature, provides computationally efficient algorithms with provable efficiency guarantees, and concludes with future research directions. The thesis makes fundamental contributions to the three settings above, both algorithmically, theoretically, and empirically, while staying relevant to practical considerations.
翻訳日:2022-03-04 14:37:40 公開日:2022-03-03
# 選択バイアス下における局所制約に基づく因果発見

Local Constraint-Based Causal Discovery under Selection Bias ( http://arxiv.org/abs/2203.01848v1 )

ライセンス: Link先を確認
Philip Versteeg, Cheng Zhang and Joris M. Mooij(参考訳) 本稿では,独立制約選択バイアスから因果関係を発見することの問題点を考察する。 この設定では、セミナルFCIアルゴリズムは健全で完全であるが、選択バイアス下での出力の因果解釈の基準は知られていない。 代わりに独立関係の局所的なパターンに注目し、背景知識を含む3変数のみの健全な手法は見つからない。 y構造のパターンは、選択バイアス下のデータから因果関係を予測する際に健全であることが示されている。 選択機構を含むシミュレーション実験において,Y構造に対する有限サンプルスコアリングルールを導入し,因果関係の予測に成功した。 実世界のマイクロアレイデータでは、y構造変種が異なるデータセットでうまく動作し、選択バイアスによるスプリアス相関を回避できることを示した。

We consider the problem of discovering causal relations from independence constraints selection bias in addition to confounding is present. While the seminal FCI algorithm is sound and complete in this setup, no criterion for the causal interpretation of its output under selection bias is presently known. We focus instead on local patterns of independence relations, where we find no sound method for only three variable that can include background knowledge. Y-Structure patterns are shown to be sound in predicting causal relations from data under selection bias, where cycles may be present. We introduce a finite-sample scoring rule for Y-Structures that is shown to successfully predict causal relations in simulation experiments that include selection mechanisms. On real-world microarray data, we show that a Y-Structure variant performs well across different datasets, potentially circumventing spurious correlations due to selection bias.
翻訳日:2022-03-04 14:37:27 公開日:2022-03-03
# 自己教師付き学習の失敗モードの理解

Understanding Failure Modes of Self-Supervised Learning ( http://arxiv.org/abs/2203.01881v1 )

ライセンス: Link先を確認
Neha Mukund Kalibhat, Kanika Narang, Liang Tan, Hamed Firooz, Maziar Sanjabi, Soheil Feizi(参考訳) 自己教師付き学習手法は下流分類タスクにおいて顕著な結果を示した。 しかし、それらの失敗モデルを理解し、これらのモデルの学習された表現を解釈する作業は限られている。 本稿では,これらの課題に取り組み,下流タスクにおける誤分類の根本原因を理解することにより,自己教師付きモデルの表現空間について検討する。 我々は,SimCLR,SwaV,MoCo V2,BYOLなどの最先端の自己教師型モデルにおいて,正確な分類されたサンプルの表現は,他の特徴と比較して高い差分値を持つ識別的特徴がほとんどないことを示した。 これは、誤って分類されたサンプルの表現と明らかに対照的である。 また、表現空間におけるノイズの特徴は、しばしば画像のスプリアス属性に対応し、モデルの解釈が困難になる。 これらの観察に基づいて,ラベル情報にアクセスせずに,下流タスクで与えられたサンプルが誤分類される可能性があり,最大 0.90 の auprc を達成することができる,サンプル回りの自己教師付き表現品質スコア(または q-score)を提案する。 Q-Scoreは、画像Net-100上でSimCLRの相対的な精度を3.26%向上させる低品質表現の正規化としても使用できる。 さらに,q-score正則化は表現スパーシティを増加させ,ノイズを低減し,勾配熱マップによる解釈性を向上させることを示した。

Self-supervised learning methods have shown impressive results in downstream classification tasks. However, there is limited work in understanding their failure models and interpreting the learned representations of these models. In this paper, we tackle these issues and study the representation space of self-supervised models by understanding the underlying reasons for misclassifications in a downstream task. Over several state-of-the-art self-supervised models including SimCLR, SwaV, MoCo V2 and BYOL, we observe that representations of correctly classified samples have few discriminative features with highly deviated values compared to other features. This is in a clear contrast with representations of misclassified samples. We also observe that noisy features in the representation space often correspond to spurious attributes in images making the models less interpretable. Building on these observations, we propose a sample-wise Self-Supervised Representation Quality Score (or, Q-Score) that, without access to any label information, is able to predict if a given sample is likely to be misclassified in the downstream task, achieving an AUPRC of up to 0.90. Q-Score can also be used as a regularization to remedy low-quality representations leading to 3.26% relative improvement in accuracy of SimCLR on ImageNet-100. Moreover, we show that Q-Score regularization increases representation sparsity, thus reducing noise and improving interpretability through gradient heatmaps.
翻訳日:2022-03-04 14:36:48 公開日:2022-03-03
# 実画像デノイジングのための選択的残差m-net

Selective Residual M-Net for Real Image Denoising ( http://arxiv.org/abs/2203.01645v1 )

ライセンス: Link先を確認
Chi-Mao Fan, Tsung-Jung Liu, Kuan-Hsien Liu(参考訳) 画像復元は低レベルのビジョンタスクであり、劣化した画像をノイズのない画像に復元する。 ディープニューラルネットワークの成功により、畳み込みニューラルネットワークは従来の復元手法を超越し、コンピュータビジョン領域で主流となる。 本稿では,U-Netから改良された階層型アーキテクチャを用いて,視覚的実画像復調ネットワーク(SRMNet)を提案する。 具体的には、M-Netと呼ばれる階層構造上の残留ブロックを持つ選択的カーネルを用いて、マルチスケールのセマンティック情報を強化する。 さらに、srmnetは、定量的指標と視覚的品質の観点から、2つの合成データと2つの実世界のノイズデータセットの競合性能結果を有する。 ソースコードと事前訓練されたモデルはhttps://github.com/TentativeGitHub/SRMNet.comで入手できる。

Image restoration is a low-level vision task which is to restore degraded images to noise-free images. With the success of deep neural networks, the convolutional neural networks surpass the traditional restoration methods and become the mainstream in the computer vision area. To advance the performanceof denoising algorithms, we propose a blind real image denoising network (SRMNet) by employing a hierarchical architecture improved from U-Net. Specifically, we use a selective kernel with residual block on the hierarchical structure called M-Net to enrich the multi-scale semantic information. Furthermore, our SRMNet has competitive performance results on two synthetic and two real-world noisy datasets in terms of quantitative metrics and visual quality. The source code and pretrained model are available at https://github.com/TentativeGitHub/SRMNet.
翻訳日:2022-03-04 14:36:21 公開日:2022-03-03
# 対話状態としての対話要約(DS2), テンプレートガイドによる対話状態追跡のための要約

Dialogue Summaries as Dialogue States (DS2), Template-Guided Summarization for Few-shot Dialogue State Tracking ( http://arxiv.org/abs/2203.01552v1 )

ライセンス: Link先を確認
Jamin Shin, Hangyeol Yu, Hyeongdon Moon, Andrea Madotto, Juneyoung Park(参考訳) タスク指向の対話の注釈は、高価で難しいデータ収集プロセスで悪名高い。 対話状態追跡(DST)は,この問題に対する現実的な解決策である。 本稿では,対話要約が本質的に非構造化の対話状態であることを仮定し,対話状態追跡を対話要約問題として再構成することを提案する。 本稿では,対話状態から規則の組によって生成された合成テンプレートに基づく対話要約を用いて,テキスト対テキスト言語モデルを訓練する。 そして、要約生成ルールを逆に適用して対話状態を復元することができる。 提案手法は,MultiWoZ 2.0と2.1において,クロスドメインとマルチドメインの両方の設定において,従来のDSTよりも優れていることを示す。 また,本手法は,全ての状態を同時に生成できるため,トレーニングと推論の両方において大きなスピードアップを示す。 最後に,分析結果から,サマリーテンプレートの自然性がトレーニングの成功に重要な役割を担っていることを知る。

Annotating task-oriented dialogues is notorious for the expensive and difficult data collection process. Few-shot dialogue state tracking (DST) is a realistic solution to this problem. In this paper, we hypothesize that dialogue summaries are essentially unstructured dialogue states; hence, we propose to reformulate dialogue state tracking as a dialogue summarization problem. To elaborate, we train a text-to-text language model with synthetic template-based dialogue summaries, generated by a set of rules from the dialogue states. Then, the dialogue states can be recovered by inversely applying the summary generation rules. We empirically show that our method DS2 outperforms previous works on few-shot DST in MultiWoZ 2.0 and 2.1, in both cross-domain and multi-domain settings. Our method also exhibits vast speedup during both training and inference as it can generate all states at once. Finally, based on our analysis, we discover that the naturalness of the summary templates plays a key role for successful training.
翻訳日:2022-03-04 14:36:08 公開日:2022-03-03
# 再生可能な環境:空間と時間の動画操作

Playable Environments: Video Manipulation in Space and Time ( http://arxiv.org/abs/2203.01914v1 )

ライセンス: Link先を確認
Willi Menapace, Aliaksandr Siarohin, Christian Theobalt, Vladislav Golyanik, Sergey Tulyakov, St\'ephane Lathuili\`ere, Elisa Ricci(参考訳) 再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。 提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。 アクションは教師なしの方法で学習されます。 カメラは所望の視点を得るために制御できる。 提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。 オブジェクトの多様な外観をサポートするため,我々はスタイルに基づく変調によるニューラルラディアンス場を拡張した。 提案手法は,推定カメラパラメータと2dオブジェクト位置のみを必要とする単眼映像の集合を訓練する。 挑戦的なベンチマークを設定するために、カメラの動きが著しい2つの大規模ビデオデータセットを導入する。 我々の実験によって証明されたように、プレイ可能な環境は、プレイ可能な3Dビデオ生成、スタイリゼーション、操作など、以前のビデオ合成作業では達成できないいくつかのクリエイティブなアプリケーションを可能にする。 詳細、コード、例はhttps://willi-menapace.github.io/playable-environments-websiteで確認できる。

We present Playable Environments - a new representation for interactive video generation and manipulation in space and time. With a single image at inference time, our novel framework allows the user to move objects in 3D while generating a video by providing a sequence of desired actions. The actions are learnt in an unsupervised manner. The camera can be controlled to get the desired viewpoint. Our method builds an environment state for each frame, which can be manipulated by our proposed action module and decoded back to the image space with volumetric rendering. To support diverse appearances of objects, we extend neural radiance fields with style-based modulation. Our method trains on a collection of various monocular videos requiring only the estimated camera parameters and 2D object locations. To set a challenging benchmark, we introduce two large scale video datasets with significant camera movements. As evidenced by our experiments, playable environments enable several creative applications not attainable by prior video synthesis works, including playable 3D video generation, stylization and manipulation. Further details, code and examples are available at https://willi-menapace.github.io/playable-environments-website
翻訳日:2022-03-04 14:35:52 公開日:2022-03-03
# 知識グラフの帰納的リンク予測のためのオープンチャレンジ

An Open Challenge for Inductive Link Prediction on Knowledge Graphs ( http://arxiv.org/abs/2203.01520v1 )

ライセンス: Link先を確認
Mikhail Galkin, Max Berrendorf, Charles Tapley Hoyt(参考訳) 知識グラフ(KGs)に対する表現学習の新たなトレンドは、あるグラフ上でトレーニングし、未知のエンティティを持つ新しいグラフ上で推論を実行する誘導的タスクに賛成する、既知のエンティティの固定されたセット上の帰納的リンク予測タスクを越えている。 帰納的な設定では、ノード機能は利用できないことが多く、浅いエンティティの埋め込み行列をトレーニングすることは意味がない。 関心が高まっているにもかかわらず、帰納的表現学習方法を評価するためのベンチマークは不十分である。 本稿では,KGインダクティブリンク予測における新たな課題であるILPC 2022を紹介する。 この目的のために、既存のインダクティブベンチマークよりもはるかに大きいトレーニングと推論グラフのさまざまなサイズのWikidataに基づく2つの新しいデータセットを構築した。 また,最近提案する帰納的手法を活用した2つの強力なベースラインを提供する。 この課題が,インダクティブグラフ表現学習領域におけるコミュニティの取り組みの合理化に役立つことを願っています。 ilpc 2022は評価の公平性と再現性に関するベストプラクティスに従い、https://github.com/pykeen/ilpc2022で利用可能である。

An emerging trend in representation learning over knowledge graphs (KGs) moves beyond transductive link prediction tasks over a fixed set of known entities in favor of inductive tasks that imply training on one graph and performing inference over a new graph with unseen entities. In inductive setups, node features are often not available and training shallow entity embedding matrices is meaningless as they cannot be used at inference time with unseen entities. Despite the growing interest, there are not enough benchmarks for evaluating inductive representation learning methods. In this work, we introduce ILPC 2022, a novel open challenge on KG inductive link prediction. To this end, we constructed two new datasets based on Wikidata with various sizes of training and inference graphs that are much larger than existing inductive benchmarks. We also provide two strong baselines leveraging recently proposed inductive methods. We hope this challenge helps to streamline community efforts in the inductive graph representation learning area. ILPC 2022 follows best practices on evaluation fairness and reproducibility, and is available at https://github.com/pykeen/ilpc2022.
翻訳日:2022-03-04 14:33:30 公開日:2022-03-03
# 分布深層モデルに対するバイアス緩和に向けたフェアネスアウェアな逆方向摂動

Fairness-aware Adversarial Perturbation Towards Bias Mitigation for Deployed Deep Models ( http://arxiv.org/abs/2203.01584v1 )

ライセンス: Link先を確認
Zhibo Wang, Xiaowei Dong, Henry Xue, Zhifei Zhang, Weifeng Chiu, Tao Wei, Kui Ren(参考訳) 公正性の優先は、人工知能(AI)システムにおいて、特に社会的な応用において、例えば、雇用制度は、異なる集団の応募者を平等に推薦し、リスクアセスメントシステムは刑事司法における人種差別を排除しなければならない。 AIシステムの倫理的発展に向けた既存の取り組みは、トレーニングセットのバイアスを軽減するためにデータサイエンスを活用し、トレーニングプロセスに公正原則を導入した。 しかし、デプロイされたAIシステムでは、実際に再トレーニングやチューニングができない場合がある。 対照的に、フェアネス・アウェア・逆境摂動(FAAP)というより柔軟なアプローチを提案する。 主な利点は、faapがパラメータと構造の観点からデプロイされたモデルを変更しないことである。 これを実現するために,デプロイされたモデルから潜在表現に基づいてフェアネス関連属性を識別する識別器を設計する。 一方、摂動発生器は、摂動入力から公平性に関連する特徴を抽出できないように、判別器に対して訓練される。 実証実験により,提案したFAAPの有効性と性能が示された。 さらに、FAAPは実際の商用展開(モデルパラメータにはアクセスできない)で検証されており、ブラックボックス適応の可能性を予見してFAAPの転送可能性を示している。

Prioritizing fairness is of central importance in artificial intelligence (AI) systems, especially for those societal applications, e.g., hiring systems should recommend applicants equally from different demographic groups, and risk assessment systems must eliminate racism in criminal justice. Existing efforts towards the ethical development of AI systems have leveraged data science to mitigate biases in the training set or introduced fairness principles into the training process. For a deployed AI system, however, it may not allow for retraining or tuning in practice. By contrast, we propose a more flexible approach, i.e., fairness-aware adversarial perturbation (FAAP), which learns to perturb input data to blind deployed models on fairness-related features, e.g., gender and ethnicity. The key advantage is that FAAP does not modify deployed models in terms of parameters and structures. To achieve this, we design a discriminator to distinguish fairness-related attributes based on latent representations from deployed models. Meanwhile, a perturbation generator is trained against the discriminator, such that no fairness-related features could be extracted from perturbed inputs. Exhaustive experimental evaluation demonstrates the effectiveness and superior performance of the proposed FAAP. In addition, FAAP is validated on real-world commercial deployments (inaccessible to model parameters), which shows the transferability of FAAP, foreseeing the potential of black-box adaptation.
翻訳日:2022-03-04 14:33:11 公開日:2022-03-03
# $\beta$-DARTS: 微分可能なアーキテクチャ検索のためのベータデカイ正規化

$\beta$-DARTS: Beta-Decay Regularization for Differentiable Architecture Search ( http://arxiv.org/abs/2203.01665v1 )

ライセンス: Link先を確認
Peng Ye, Baopu Li, Yikang Li, Tao Chen, Jiayuan Fan, Wanli Ouyang(参考訳) neural architecture search~(nas)は、ディープニューラルネットワークを自動設計する能力により、近年ますます注目を集めている。 その中でも、dartのような異なるnasアプローチが検索効率で人気を集めている。 しかし、性能の崩壊に対する弱固さと探索されたアーキテクチャの一般化能力の低さという2つの主な問題に苦しんでいる。 これら2つの問題を解決するために,DARTSに基づくNAS探索プロセスの正規化のために,β-Decayと呼ばれるシンプルだが効率的な正規化法を提案する。 特に、β-decay正規化は、活性化されたアーキテクチャパラメータの価値とばらつきを過大に防ぐために制約を課すことができる。 さらに,その動作方法と動作理由について,詳細な理論的解析を行う。 NAS-Bench-201の実験結果から,提案手法は探索過程の安定化に有効であり,探索されたネットワークを異なるデータセット間で転送しやすくする。 さらに,本手法は,学習時間やデータへの依存度が低いという優れた特性を示す。 様々な探索空間とデータセットに関する総合的な実験により,提案手法の有効性が検証された。

Neural Architecture Search~(NAS) has attracted increasingly more attention in recent years because of its capability to design deep neural networks automatically. Among them, differential NAS approaches such as DARTS, have gained popularity for the search efficiency. However, they suffer from two main issues, the weak robustness to the performance collapse and the poor generalization ability of the searched architectures. To solve these two problems, a simple-but-efficient regularization method, termed as Beta-Decay, is proposed to regularize the DARTS-based NAS searching process. Specifically, Beta-Decay regularization can impose constraints to keep the value and variance of activated architecture parameters from too large. Furthermore, we provide in-depth theoretical analysis on how it works and why it works. Experimental results on NAS-Bench-201 show that our proposed method can help to stabilize the searching process and makes the searched network more transferable across different datasets. In addition, our search scheme shows an outstanding property of being less dependent on training time and data. Comprehensive experiments on a variety of search spaces and datasets validate the effectiveness of the proposed method.
翻訳日:2022-03-04 14:32:44 公開日:2022-03-03
# 特徴操作としてのデータ拡張:砂漠の牛と草の牛の物語

Data Augmentation as Feature Manipulation: a story of desert cows and grass cows ( http://arxiv.org/abs/2203.01572v1 )

ライセンス: Link先を確認
Ruoqi Shen, S\'ebastien Bubeck, Suriya Gunasekar(参考訳) データ拡張は機械学習パイプラインの基礎であるが、その理論的基盤はいまだに不明である。 単にデータセットのサイズを人工的に拡張する方法なのだろうか? あるいは、モデルにある種の不変性を満たすよう促すか? 本研究では,学習過程のダイナミック性に及ぼすデータ拡張の影響について検討する。 データ拡張によって、さまざまな機能の相対的重要性が変化し、効果的な情報を提供するが、学習プロセスで取得しやすい機能を学ぶことがより困難になる。 重要なことは、ニューラルネットワークのような非線形モデルでは、この効果がより顕著であることを示している。 本研究の主な貢献は,allen-zhuとli [2020]により最近提案されたマルチビューモデルにおける2層畳み込みニューラルネットワークの学習ダイナミクスに関するデータ拡張の詳細な解析である。 我々は、この分析を、データ拡張が特徴操作の一形態と見なせるというさらなる実験的な証拠で補完する。

Data augmentation is a cornerstone of the machine learning pipeline, yet its theoretical underpinnings remain unclear. Is it merely a way to artificially augment the data set size? Or is it about encouraging the model to satisfy certain invariance? In this work we consider another angle, and we study the effect of data augmentation on the dynamic of the learning process. We find that data augmentation can alter the relative importance of various features, effectively making certain informative but hard to learn features more likely to be captured in the learning process. Importantly, we show that this effect is more pronounced for non-linear models, such as neural networks. Our main contribution is a detailed analysis of data augmentation on the learning dynamic for a two layer convolutional neural network in the recently proposed multi-view model by Allen-Zhu and Li [2020]. We complement this analysis with further experimental evidence that data augmentation can be viewed as a form of feature manipulation.
翻訳日:2022-03-04 14:32:11 公開日:2022-03-03
# (参考訳) 非凸収束保証を用いた深層学習のための部分的AUCの最適化

When AUC meets DRO: Optimizing Partial AUC for Deep Learning with Non-Convex Convergence Guarantee ( http://arxiv.org/abs/2203.00176v2 )

ライセンス: CC BY 4.0
Dixian Zhu, Gang Li, Bokun Wang, Xiaodong Wu, Tianbao Yang(参考訳) 本稿では,深層学習に適用可能な一方向および二方向部分AUC(pAUC)の最適化のための,系統的かつ効率的な勾配法を提案する。 本稿では,各正値データの損失を定義するために分散ロバスト最適化(DRO)を用いて,pAUCサロゲート目的の新たな定式化を提案する。 我々はDROの2つの定式化について検討し、そのうちの1つは条件値-at-risk(CVaR)に基づいており、pAUCの非滑らかだが正確な推定器を出力し、もう1つは不正確なが滑らかなpAUCの推定器を生成するKL発散正規化DROに基づいている。 1方向と2方向のpauc最大化について,2つのアルゴリズムを提案し,それらの2つの定式化を最適化するための収束性を証明する。 各種データセットの深層学習におけるpAUC最大化のためのアルゴリズムの有効性を示す実験を行った。

In this paper, we propose systematic and efficient gradient-based methods for both one-way and two-way partial AUC (pAUC) maximization that are applicable to deep learning. We propose new formulations of pAUC surrogate objectives by using the distributionally robust optimization (DRO) to define the loss for each individual positive data. We consider two formulations of DRO, one of which is based on conditional-value-at-risk (CVaR) that yields a non-smooth but exact estimator for pAUC, and another one is based on a KL divergence regularized DRO that yields an inexact but smooth (soft) estimator for pAUC. For both one-way and two-way pAUC maximization, we propose two algorithms and prove their convergence for optimizing their two formulations, respectively. Experiments demonstrate the effectiveness of the proposed algorithms for pAUC maximization for deep learning on various datasets.
翻訳日:2022-03-04 14:30:12 公開日:2022-03-03
# (参考訳) グループベースサブセットスキャンによる生成モデルの創造性評価

Towards Creativity Characterization of Generative Models via Group-based Subset Scanning ( http://arxiv.org/abs/2203.00523v2 )

ライセンス: CC BY 4.0
Celia Cintas, Payel Das, Brian Quanz, Girmaw Abebe Tadesse, Skyler Speakman, Pin-Yu Chen(参考訳) 可変オートエンコーダ (VAE) やGAN (Generative Adversarial Networks) のような深層生成モデルは、計算創造性研究に広く利用されている。 しかし、このようなモデルは散逸したサンプル生成を避けるために分散生成を妨げ、創造性を制限している。 このように、人間の創造性の研究を生成的深層学習技術に取り入れることで、アウトプットをより魅力的で人間らしくする機会が得られる。 創造性研究に向けた生成モデルの出現を見る限り、これらのモデルから創造的なアウトプットを特徴づける機械学習ベースのサロゲートメトリクスの必要性は不可欠である。 生成モデルの隠れ層における異常なノードアクティベーションのサブセットを検出し,創造プロセスを識別,定量化し,特徴付けるグループベースサブセットスキャンを提案する。 標準画像ベンチマークおよびそれらの「創造的生成」変異を用いた実験により,提案するサブセットスコア分布は,画素空間よりも活性化空間における創造的プロセスの検出に有用であることを明らかにした。 さらに, 創造的なサンプルは, 通常のサンプルや非創造的なサンプルよりも大きな異常部分を生成することがわかった。 創造的復号プロセスで強調されるノードアクティベーションは、通常のサンプル生成に責任を持つものとは異なる。 最後に,本手法で選択したサブセットのイメージが人間の評価者によって創造的であるかどうかを検証し,人間の創造性知覚と深部神経網内のノード活性化との関連性を示した。

Deep generative models, such as Variational Autoencoders (VAEs) and Generative Adversarial Networks (GANs), have been employed widely in computational creativity research. However, such models discourage out-of-distribution generation to avoid spurious sample generation, thereby limiting their creativity. Thus, incorporating research on human creativity into generative deep learning techniques presents an opportunity to make their outputs more compelling and human-like. As we see the emergence of generative models directed toward creativity research, a need for machine learning-based surrogate metrics to characterize creative output from these models is imperative. We propose group-based subset scanning to identify, quantify, and characterize creative processes by detecting a subset of anomalous node-activations in the hidden layers of the generative models. Our experiments on the standard image benchmarks, and their "creatively generated" variants, reveal that the proposed subset scores distribution is more useful for detecting creative processes in the activation space rather than the pixel space. Further, we found that creative samples generate larger subsets of anomalies than normal or non-creative samples across datasets. The node activations highlighted during the creative decoding process are different from those responsible for the normal sample generation. Lastly, we assess if the images from the subsets selected by our method were also found creative by human evaluators, presenting a link between creativity perception in humans and node activations within deep neural nets.
翻訳日:2022-03-04 13:24:19 公開日:2022-03-03
# Representation Codebook を用いたマルチモーダルアライメント

Multi-modal Alignment using Representation Codebook ( http://arxiv.org/abs/2203.00048v2 )

ライセンス: Link先を確認
Jiali Duan, Liqun Chen, Son Tran, Jinyu Yang, Yi Xu, Belinda Zeng, Trishul Chilimbi(参考訳) 異なるモダリティからの信号の調整は、クロスモダリティ融合のような後段のパフォーマンスに影響を与えるため、視覚言語表現学習の重要なステップである。 画像とテキストは通常、機能空間の異なる領域に存在するため、特にトレーニング中に機能がまだ進化している場合、インスタンスレベルで直接整列することは困難である。 本稿では,クラスタ表現を用いて,より高い,より安定したレベルに整列することを提案する。 具体的には、画像とテキストを同一エンティティの2つの「ビュー」として扱い、それらをクラスタセンター辞書(コードブック)にまたがる共同視覚言語符号化空間にエンコードする。 クラスタ割り当てを同時に最適化しながら,正と負のサンプルをクラスタ割り当てで比較する。 さらに, 学習プロセスを円滑にするために, 教師・生徒の蒸留パラダイムを採用し, 一つの視点のモーメント教師が生徒の学習を指導する。 我々は,共通ビジョン言語ベンチマークに対するアプローチを評価し,他の様々なトランスファータスクと競合しながら,ゼロショットのクロスモーダル検索において新しいSoTAを得る。

Aligning signals from different modalities is an important step in vision-language representation learning as it affects the performance of later stages such as cross-modality fusion. Since image and text typically reside in different regions of the feature space, directly aligning them at instance level is challenging especially when features are still evolving during training. In this paper, we propose to align at a higher and more stable level using cluster representation. Specifically, we treat image and text as two "views" of the same entity, and encode them into a joint vision-language coding space spanned by a dictionary of cluster centers (codebook). We contrast positive and negative samples via their cluster assignments while simultaneously optimizing the cluster centers. To further smooth out the learning process, we adopt a teacher-student distillation paradigm, where the momentum teacher of one view guides the student learning of the other. We evaluated our approach on common vision language benchmarks and obtain new SoTA on zero-shot cross modality retrieval while being competitive on various other transfer tasks.
翻訳日:2022-03-04 12:57:35 公開日:2022-03-03
# 簡易かつ普遍的な回転同変点クラウドネットワーク

A Simple and Universal Rotation Equivariant Point-cloud Network ( http://arxiv.org/abs/2203.01216v2 )

ライセンス: Link先を確認
Ben Finkelshtein, Chaim Baskin, Haggai Maron, Nadav Dym(参考訳) 置換や剛体運動に等しいことは、様々な3次元学習問題において重要な帰納バイアスとなる。 最近、等変テンソル場ネットワークアーキテクチャが普遍であることが示され、任意の等変関数を近似することができる。 本稿では,よりシンプルなアーキテクチャを提案するとともに,同じ普遍性保証を享受し,Modelnet40の性能を評価する。 実験を再現するコードは \url{https://github.com/simpleinvariance/universalnetwork} で利用可能です。

Equivariance to permutations and rigid motions is an important inductive bias for various 3D learning problems. Recently it has been shown that the equivariant Tensor Field Network architecture is universal -- it can approximate any equivariant function. In this paper we suggest a much simpler architecture, prove that it enjoys the same universality guarantees and evaluate its performance on Modelnet40. The code to reproduce our experiments is available at \url{https://github.com/simpleinvariance/UniversalNetwork}
翻訳日:2022-03-04 12:57:17 公開日:2022-03-03
# 医用画像分割のためのマルチスケール変換器:アーキテクチャ,モデル効率,ベンチマーク

A Multi-scale Transformer for Medical Image Segmentation: Architectures, Model Efficiency, and Benchmarks ( http://arxiv.org/abs/2203.00131v2 )

ライセンス: Link先を確認
Yunhe Gao, Mu Zhou, Di Liu, Dimitris Metaxas(参考訳) トランスフォーマーは多くの自然言語処理や視覚タスクで成功しているように見えてきたが、医療画像への潜在的な応用は、この分野の独特な難しさのために、未発見のままである。 本研究では,医用画像セグメンテーションの性能と効率を向上させるために,畳み込みニューラルネットワークとTransformerの強みを組み合わせたシンプルなバックボーンモデルUTNetV2を提案する。 utnetv2のクリティカルな設計には,(1)トランスブロック内の投影とフィードフォワードネットワークに深さ分離可能な畳み込みを導入することで,cnn(translation invariance)の局所的関係モデリングと望ましい特性をトランスフォーマにもたらし,大規模事前トレーニングの必要性をなくす,ハイブリッド階層アーキテクチャを用いた3つの革新が含まれている。 2) 適応的に更新されたセマンティックマップを導入することにより, 自己注意の2次計算複雑性を線形に低減する効率的な双方向注意(B-MHA)を提案する。 効率的な注意により、高解像度のトークンマップにおける長距離関係を捕捉し、きめ細かい誤差を修正することができる。 (3)B-MHAのセマンティックマップは,計算オーバーヘッドを伴わずに,意味的かつ空間的に多スケールな機能融合を実現できる。 さらに,様々な医用画像分割タスクに基づくcnnとtransformerの比較コードベースを提供し,両アーキテクチャのメリットと欠点を評価した。 UTNetV2は、大規模データセット、小規模データセット、2Dおよび3D設定など、さまざまな設定における最先端のパフォーマンスをデモした。

Transformers have emerged to be successful in a number of natural language processing and vision tasks, but their potential applications to medical imaging remain largely unexplored due to the unique difficulties of this field. In this study, we present UTNetV2, a simple yet powerful backbone model that combines the strengths of the convolutional neural network and Transformer for enhancing performance and efficiency in medical image segmentation. The critical design of UTNetV2 includes three innovations: (1) We used a hybrid hierarchical architecture by introducing depthwise separable convolution to projection and feed-forward network in the Transformer block, which brings local relationship modeling and desirable properties of CNNs (translation invariance) to Transformer, thus eliminate the requirement of large-scale pre-training. (2) We proposed efficient bidirectional attention (B-MHA) that reduces the quadratic computation complexity of self-attention to linear by introducing an adaptively updated semantic map. The efficient attention makes it possible to capture long-range relationship and correct the fine-grained errors in high-resolution token maps. (3) The semantic maps in the B-MHA allow us to perform semantically and spatially global multi-scale feature fusion without introducing much computational overhead. Furthermore, we provide a fair comparison codebase of CNN-based and Transformer-based on various medical image segmentation tasks to evaluate the merits and defects of both architectures. UTNetV2 demonstrated state-of-the-art performance across various settings, including large-scale datasets, small-scale datasets, 2D and 3D settings.
翻訳日:2022-03-04 12:57:09 公開日:2022-03-03
# MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video

MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video ( http://arxiv.org/abs/2203.00859v2 )

ライセンス: Link先を確認
Jinlu Zhang, Zhigang Tu, Jianyu Yang, Yujin Chen, Junsong Yuan(参考訳) 近年,全フレームの身体関節を考慮した2次元キーポイントシーケンスから3次元人物ポーズを推定するトランスフォーマティブ・ソリューションが提案されている。 異なる関節の運動が異なることが観察された。 しかし,前者は各関節の立体的フレーム間対応を効率的にモデル化できないため,空間-時間相関の学習が不十分である。 本研究では,各関節の時間運動を別々にモデル化する時間的トランスフォーマブロックと,空間的トランスフォーマブロックとを有するmixste(mixed spatio-temporal encoder)を提案する。 これら2つのブロックは交互に利用され、時空間的特徴エンコーディングが向上する。 さらに、ネットワーク出力は、入力ビデオの中央フレームから全体フレームに拡張され、入力シーケンスと出力シーケンスとのコヒーレンスが改善される。 提案手法を評価するために,Human3.6M,MPI-INF-3DHP,HumanEvaの3つのベンチマーク実験を行った。 その結果,Human3.6Mデータセットでは,P-MPJPEが10.9%,MPJPEが7.6%向上した。 コードは利用可能。

Recent transformer-based solutions have been introduced to estimate 3D human pose from 2D keypoint sequence by considering body joints among all frames globally to learn spatio-temporal correlation. We observe that the motions of different joints differ significantly. However, the previous methods cannot efficiently model the solid inter-frame correspondence of each joint, leading to insufficient learning of spatial-temporal correlation. We propose MixSTE (Mixed Spatio-Temporal Encoder), which has a temporal transformer block to separately model the temporal motion of each joint and a spatial transformer block to learn inter-joint spatial correlation. These two blocks are utilized alternately to obtain better spatio-temporal feature encoding. In addition, the network output is extended from the central frame to entire frames of the input video, thereby improving the coherence between the input and output sequences. Extensive experiments are conducted on three benchmarks (i.e. Human3.6M, MPI-INF-3DHP, and HumanEva) to evaluate the proposed method. The results show that our model outperforms the state-of-the-art approach by 10.9% P-MPJPE and 7.6% MPJPE on the Human3.6M dataset. Code is available.
翻訳日:2022-03-04 12:56:38 公開日:2022-03-03
# ポイントクラウド理解のための統一クエリベースパラダイム

A Unified Query-based Paradigm for Point Cloud Understanding ( http://arxiv.org/abs/2203.01252v2 )

ライセンス: Link先を確認
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya Jia(参考訳) 3Dポイントのクラウド理解は、自動運転とロボット工学の重要なコンポーネントである。 本稿では,検出,セグメンテーション,分類を含む3次元理解タスクのための新しい埋め込みクエリーパラダイム(EQ-Paradigm)を提案する。 EQ-Paradigmは既存の3Dバックボーンアーキテクチャと異なるタスクヘッドの組み合わせを可能にする統一パラダイムである。 EQ-Paradigmの下では、入力はまず、タスクやヘッドに依存しない任意の特徴抽出アーキテクチャで埋め込み段階で符号化される。 そして、クエリステージにより、エンコードされた機能を多様なタスクヘッドに適用できる。 これは、クエリステージに中間表現、すなわちq表現を導入し、埋め込みステージとタスクヘッドの間のブリッジとして機能することで実現される。 クエリステージネットワークとして,新しいQ-Netを設計する。 セマンティックセグメンテーション,オブジェクト検出,形状分類などの多種多様な3次元タスクに対する大規模な実験結果から,Q-Netと接するEQ-Paradigmは汎用的で効果的なパイプラインであり,バックボーンとヘッドの柔軟な協調を可能にし,最先端手法の性能をさらに向上させる。 すべてのコードとモデルが間もなく公開される。

3D point cloud understanding is an important component in autonomous driving and robotics. In this paper, we present a novel Embedding-Querying paradigm (EQ-Paradigm) for 3D understanding tasks including detection, segmentation and classification. EQ-Paradigm is a unified paradigm that enables the combination of any existing 3D backbone architectures with different task heads. Under the EQ-Paradigm, the input is firstly encoded in the embedding stage with an arbitrary feature extraction architecture, which is independent of tasks and heads. Then, the querying stage enables the encoded features to be applicable for diverse task heads. This is achieved by introducing an intermediate representation, i.e., Q-representation, in the querying stage to serve as a bridge between the embedding stage and task heads. We design a novel Q-Net as the querying stage network. Extensive experimental results on various 3D tasks including semantic segmentation, object detection and shape classification show that EQ-Paradigm in tandem with Q-Net is a general and effective pipeline, which enables a flexible collaboration of backbones and heads, and further boosts the performance of the state-of-the-art methods. All codes and models will be published soon.
翻訳日:2022-03-04 12:56:11 公開日:2022-03-03
# アイデンティティ一貫性変換器によるセレブ保護

Protecting Celebrities with Identity Consistency Transformer ( http://arxiv.org/abs/2203.01318v2 )

ライセンス: Link先を確認
Xiaoyi Dong and Jianmin Bao and Dongdong Chen and Ting Zhang and Weiming Zhang and Nenghai Yu and Dong Chen and Fang Wen and Baining Guo(参考訳) 本研究では,内面領域と外面領域の同一性を見出すことにより,高度な意味論,特に識別情報に着目し,疑似顔を検出する新しい顔偽造検出手法であるアイデンティティ一貫性変換器を提案する。 Identity Consistency Transformerは、ID整合性決定のための整合性損失を組み込む。 その結果,id一貫性トランスフォーマは,異なるデータセット間だけでなく,deepfakeビデオを含む実世界のアプリケーションに見られる様々な画像劣化フォームにおいて,優れた一般化能力を示すことがわかった。 アイデンティティ一貫性変換器は、そのような情報が利用可能であれば、追加のID情報で容易に拡張できるため、有名人を含む顔の偽造を検出するのに特に適している。

In this work we propose Identity Consistency Transformer, a novel face forgery detection method that focuses on high-level semantics, specifically identity information, and detecting a suspect face by finding identity inconsistency in inner and outer face regions. The Identity Consistency Transformer incorporates a consistency loss for identity consistency determination. We show that Identity Consistency Transformer exhibits superior generalization ability not only across different datasets but also across various types of image degradation forms found in real-world applications including deepfake videos. The Identity Consistency Transformer can be easily enhanced with additional identity information when such information is available, and for this reason it is especially well-suited for detecting face forgeries involving celebrities.
翻訳日:2022-03-04 12:55:50 公開日:2022-03-03
# 構造を用いた個人化フェデレーション学習

Personalized Federated Learning With Structure ( http://arxiv.org/abs/2203.00829v2 )

ライセンス: Link先を確認
Fengwen Chen, Guodong Longr, Zonghan Wu, Tianyi Zhou and Jing Jiang(参考訳) 知識共有とモデルパーソナライゼーションは、パーソナライズされたフェデレーション学習(PFL)のパフォーマンスに影響を与える2つの重要な要素である。 既存のPFL手法は、知識共有を、その間の隠れた関係に関係なく、すべてのクライアントの集約として扱う。 本稿では,クライアント間の構造情報を活用し,pflにおける知識共有プロセスを強化することを目的とする。 各クライアントのローカルな関係とプライベートデータセットを使って、グローバルモデルとパーソナライズモデルを同時に学習する、新しい構造化フェデレーション学習(sfl)フレームワークを提案する。 このフレームワークは、パーソナライズされたモデルと構造トポロジ情報間の複雑な関係を統一フレームワークにモデル化するための新しい最適化問題として定式化されている。 さらに、事前定義された構造とは対照的に、クライアントのモデルのパラメータ間の類似性を利用して構造を自動的に学習する構造学習コンポーネントを追加することで、フレームワークをさらに強化することができる。 大規模な実験を行うことで,実世界のデータセットを用いてサーバ集約プロセスに構造情報を導入することにより,フェデレーション学習のメリットを実証する。

Knowledge sharing and model personalization are two key components to impact the performance of personalized federated learning (PFL). Existing PFL methods simply treat knowledge sharing as an aggregation of all clients regardless of the hidden relations among them. This paper is to enhance the knowledge-sharing process in PFL by leveraging the structural information among clients. We propose a novel structured federated learning(SFL) framework to simultaneously learn the global model and personalized model using each client's local relations with others and its private dataset. This proposed framework has been formulated to a new optimization problem to model the complex relationship among personalized models and structural topology information into a unified framework. Moreover, in contrast to a pre-defined structure, our framework could be further enhanced by adding a structure learning component to automatically learn the structure using the similarities between clients' models' parameters. By conducting extensive experiments, we first demonstrate how federated learning can be benefited by introducing structural information into the server aggregation process with a real-world dataset, and then the effectiveness of the proposed method has been demonstrated in varying degrees of data non-iid settings.
翻訳日:2022-03-04 12:54:22 公開日:2022-03-03
# 機械学習によるフィールド可搬型サイトメトリーのためのレンズレスイメージング技術

Machine learning based lens-free imaging technique for field-portable cytometry ( http://arxiv.org/abs/2203.00899v2 )

ライセンス: Link先を確認
Rajkumar Vaghashiya, Sanghoon Shin, Varun Chauhan, Kaushal Kapadiya, Smit Sanghavi, Sungkyu Seo, Mohendra Roy(参考訳) レンズフリーシャドウイメージング技術(LSIT)は、マイクロ粒子や生体細胞のキャラクタリゼーションのための確立された技術である。 その単純さと費用対効果により、完全血球数(CBC)の自動解析、細胞生存性、2D細胞形態学、3D細胞トモグラフィーなど、様々な低コストのソリューションが進化してきた。 このカスタム開発のlsitcytometer用自動キャラクタリゼーションアルゴリズムは、lsitcytometerの細胞回折パターンを手作りした特徴に基づいており、その特徴は個々の細胞タイプの何千ものサンプルから得られた実験結果から決定され、自動分類やキャラクタリゼーションのための新しい細胞タイプの導入によってシステムを制限した。 さらに、その性能は、小さな信号や背景雑音による画像(細胞回折パターン)の符号に悩まされている。 本研究では,深層ニューラルネットワークにおける学習の伝達に基づく自動エンコーダや適応セルキャラクタリゼーション技術などの人工知能による自動信号強調手法を活用することで,これらの課題に対処する。 提案法の性能は, 赤血球 (rbc) や白血球 (wbc) といったほとんどの細胞タイプにおいて, 信号の5db以上の増加とともに98%以上の精度向上を示した。 さらに、モデルは、数回の学習イテレーションで新しいタイプのサンプルを学習し、既存のサンプルタイプとともに新しく導入されたサンプルをうまく分類することができる。

Lens-free Shadow Imaging Technique (LSIT) is a well-established technique for the characterization of microparticles and biological cells. Due to its simplicity and cost-effectiveness, various low-cost solutions have been evolved, such as automatic analysis of complete blood count (CBC), cell viability, 2D cell morphology, 3D cell tomography, etc. The developed auto characterization algorithm so far for this custom-developed LSIT cytometer was based on the hand-crafted features of the cell diffraction patterns from the LSIT cytometer, that were determined from our empirical findings on thousands of samples of individual cell types, which limit the system in terms of induction of a new cell type for auto classification or characterization. Further, its performance is suffering from poor image (cell diffraction pattern) signatures due to its small signal or background noise. In this work, we address these issues by leveraging the artificial intelligence-powered auto signal enhancing scheme such as denoising autoencoder and adaptive cell characterization technique based on the transfer of learning in deep neural networks. The performance of our proposed method shows an increase in accuracy >98% along with the signal enhancement of >5 dB for most of the cell types, such as Red Blood Cell (RBC) and White Blood Cell (WBC). Furthermore, the model is adaptive to learn new type of samples within a few learning iterations and able to successfully classify the newly introduced sample along with the existing other sample types.
翻訳日:2022-03-04 12:54:03 公開日:2022-03-03
# Pareto Frontier Approximation Network (PA-Net)による双方向TSPの解法

Pareto Frontier Approximation Network (PA-Net) to Solve Bi-objective TSP ( http://arxiv.org/abs/2203.01298v2 )

ライセンス: Link先を確認
Ishaan Mehta and Sajad Saeedi(参考訳) トラベリングセールスパーソン問題(TSP)は、関連する目的関数を最小化(または最大化)しながらタスクセットを実行する最適な順序を見つけるために使用される古典的なリソース割り当て問題である。 ロボット工学において、計画、スケジューリングなどの用途に広く使われている。 本研究では,2つの目的に対して,強化学習を用いてTSPを解く。 しばしば多目的最適化問題において、関連する目的関数は本質的に矛盾することがある。 そのような場合、最適性はパレート最適性の観点から定義される。 対象空間におけるこれらのパレート最適解の組はパレート前線(あるいはフロンティア)を形成する。 各ソリューションには独自のトレードオフがある。 本研究では,btsp (bi-objective traveling salesperson problem) 問題に対して,pareto front の近似値を生成するネットワーク pa-net を提案する。 まず、BTSPを制約付き最適化問題に変換する。 そして、ラグランジアン緩和と政策勾配を用いて、この制約のある問題を解決するためにネットワークを訓練します。 PA-Netでは、高速な推論時間で高品質なParetoフロントを生成することができます。 最後に,ロボットナビゲーションタスク/カバレッジ計画において,PA-Netを用いて最適な訪問順序を求める。

Travelling salesperson problem (TSP) is a classic resource allocation problem used to find an optimal order of doing a set of tasks while minimizing (or maximizing) an associated objective function. It is widely used in robotics for applications such as planning, scheduling etc. In this work, we solve TSP for two objectives using reinforcement learning. Often in multi objective optimization problems, the associated objective functions can be conflicting in nature. In such cases, the optimality is defined in terms of Pareto optimality. A set of these Pareto Optimal solutions in the objective space form a Pareto front (or frontier). Each solution has its own trade off. In this work, we present PA-Net, a network that generates good approximations of the Pareto front for the bi-objective travelling salesperson problem (BTSP). Firstly, BTSP is converted into a constrained optimization problem. We then train our network to solve this constrained problem using the Lagrangian relaxation and policy gradient. With PA-Net we are able to generate good quality Pareto fronts with fast inference times. Finally, we present the application of PA-Net to find optimal visiting order in a robotic navigation task/coverage planning.
翻訳日:2022-03-04 12:53:39 公開日:2022-03-03
# Meta-RangeSeg:複数特徴集合を用いたLiDARシーケンスセマンティックセグメンテーション

Meta-RangeSeg: LiDAR Sequence Semantic Segmentation Using Multiple Feature Aggregation ( http://arxiv.org/abs/2202.13377v2 )

ライセンス: Link先を確認
Song Wang, Jianke Zhu, Ruixiang Zhang(参考訳) LiDARセンサーは、自動運転車やインテリジェントロボットの認識システムに不可欠である。 実世界のアプリケーションにおけるリアルタイム要求を満たすためには、LiDARスキャンを効率的にセグメント化する必要がある。 従来のアプローチのほとんどは、2次元球面領域の画像に直接3Dポイントクラウドを投影することで、画像分割に効率的な2次元畳み込み操作を利用できる。 奨励的な結果を得たものの、周辺情報は球面投影では保存されていない。 さらに、単一のスキャンセグメンテーションタスクでは、時間情報は考慮されない。 そこで本稿では,空間時空間情報を取り込むために,新しい領域残像表現を導入するメタレンジセグメンテーションを提案する。 具体的にはメタカーネルを用いてメタ特徴を抽出し、2Dレンジ画像座標の入力とCartesian座標の出力の不整合を低減する。 効率的なu-netバックボーンを使用して、マルチスケール機能を得る。 さらに、FAM(Feature Aggregation Module)は、メタ特徴とマルチスケール特徴を集約し、レンジチャネルの役割を強化する傾向にある。 我々は,LiDARセマンティックセグメンテーションのためのデファクトデータセットであるSemanticKITTIの性能評価に関する広範な実験を行った。 その結果,提案手法は既存の手法よりも効率的かつ効果的であることが判明した。 私たちの完全な実装はhttps://github.com/songw-zju/Meta-RangeSegで公開されています。

LiDAR sensor is essential to the perception system in autonomous vehicles and intelligent robots. To fulfill the real-time requirements in real-world applications, it is necessary to efficiently segment the LiDAR scans. Most of previous approaches directly project 3D point cloud onto the 2D spherical range image so that they can make use of the efficient 2D convolutional operations for image segmentation. Although having achieved the encouraging results, the neighborhood information is not well-preserved in the spherical projection. Moreover, the temporal information is not taken into consideration in the single scan segmentation task. To tackle these problems, we propose a novel approach to semantic segmentation for LiDAR sequences named Meta-RangeSeg, where a novel range residual image representation is introduced to capture the spatial-temporal information. Specifically, Meta-Kernel is employed to extract the meta features, which reduces the inconsistency between the 2D range image coordinates input and Cartesian coordinates output. An efficient U-Net backbone is used to obtain the multi-scale features. Furthermore, Feature Aggregation Module (FAM) aggregates the meta features and multi-scale features, which tends to strengthen the role of range channel. We have conducted extensive experiments for performance evaluation on SemanticKITTI, which is the de-facto dataset for LiDAR semantic segmentation. The promising results show that our proposed Meta-RangeSeg method is more efficient and effective than the existing approaches. Our full implementation is publicly available at https://github.com/songw-zju/Meta-RangeSeg .
翻訳日:2022-03-04 12:53:18 公開日:2022-03-03
# より強力なグラフニューラルネットワークのための等変および安定位置符号化

Equivariant and Stable Positional Encoding for More Powerful Graph Neural Networks ( http://arxiv.org/abs/2203.00199v2 )

ライセンス: Link先を確認
Haorui Wang, Haoteng Yin, Muhan Zhang, Pan Li(参考訳) グラフニューラルネットワーク(GNN)は多くのグラフベースの学習タスクにおいて大きな利点を示しているが、リンク/モチーフ予測などのノードセットに基づいてタスクを正確に予測することができないことが多い。 近年,ランダムなノード特徴やノード距離特徴を用いてこの問題に対処する研究が多数提案されている。 しかし、収束の遅さ、不正確な予測、あるいは高い複雑さに苦しむ。 本研究では,Laplacian EigenmapやDeepwalkなど,位置符号化(PE)技術によって与えられるノードの位置特徴を利用できるGNNを再検討する。 pe を持つ gnn は、しばしば、(インダクティブな)グラフや安定グラフに一般化できないため、批判される。 本稿では、これらの問題を原理的に研究し、厳密な数学的解析を伴うGNN層のクラスである証明可能な解を提案する。 PEGは独自のチャネルを使用して、元のノード機能と位置機能を更新する。 PEGは、元のノードの特徴である置換同値 w.r.t と回転同値 w.r.t を同時に課す。 8つの実世界のネットワーク上でのリンク予測実験は、一般化とスケーラビリティにおけるPEGの利点を示している。

Graph neural networks (GNN) have shown great advantages in many graph-based learning tasks but often fail to predict accurately for a task-based on sets of nodes such as link/motif prediction and so on. Many works have recently proposed to address this problem by using random node features or node distance features. However, they suffer from either slow convergence, inaccurate prediction, or high complexity. In this work, we revisit GNNs that allow using positional features of nodes given by positional encoding (PE) techniques such as Laplacian Eigenmap, Deepwalk, etc. GNNs with PE often get criticized because they are not generalizable to unseen graphs (inductive) or stable. Here, we study these issues in a principled way and propose a provable solution, a class of GNN layers termed PEG with rigorous mathematical analysis. PEG uses separate channels to update the original node features and positional features. PEG imposes permutation equivariance w.r.t. the original node features and rotation equivariance w.r.t. the positional features simultaneously. Extensive link prediction experiments over 8 real-world networks demonstrate the advantages of PEG in generalization and scalability.
翻訳日:2022-03-04 12:52:53 公開日:2022-03-03
# 量子回路をユニタリ演算子として学ぶAns\atze

Beyond Ans\"atze: Learning Quantum Circuits as Unitary Operators ( http://arxiv.org/abs/2203.00601v2 )

ライセンス: Link先を確認
B\'alint M\'at\'e, Bertrand Le Saux, Maxwell Henderson(参考訳) 本稿では、ユニタリ群$U(2^N)$の演算子として、$N$ワイヤ上で量子回路を最適化する利点について検討する。 リー代数 $\mathfrak u(2^n)$ で勾配に基づく最適化を行い、指数写像を用いてユニタリ行列をパラメトリズする。 u(2^n)$ は ansatz によって引き起こされる探索空間よりも一般的であるだけでなく、古典的なコンピュータでの操作が容易であると主張する。 結果として得られるアプローチは高速でアンサッツフリーで、$n$のワイヤ上ですべてのans\"atzeのパフォーマンスの上限を提供する。

This paper explores the advantages of optimizing quantum circuits on $N$ wires as operators in the unitary group $U(2^N)$. We run gradient-based optimization in the Lie algebra $\mathfrak u(2^N)$ and use the exponential map to parametrize unitary matrices. We argue that $U(2^N)$ is not only more general than the search space induced by an ansatz, but in ways easier to work with on classical computers. The resulting approach is quick, ansatz-free and provides an upper bound on performance over all ans\"atze on $N$ wires.
翻訳日:2022-03-04 12:52:34 公開日:2022-03-03
# プレトレーニングをANNからSNNへのブリッジとして再考

Rethinking Pretraining as a Bridge from ANNs to SNNs ( http://arxiv.org/abs/2203.01158v2 )

ライセンス: Link先を確認
Yihan Lin, Yifan Hu, Shijie Ma, Guoqo Li, Dongjie Yu(参考訳) スパイキングニューラルネットワーク(snn)は、脳にインスパイアされた典型的なモデルとして知られ、その特徴は、豊富な神経細胞のダイナミクス、多様なコーディングスキーム、低消費電力特性である。 高精度モデルを得る方法は、SNNの分野では常に主要な課題である。 現在、よく訓練されたニューラルネットワーク(ANN)をSNNに変換したり、SNNを直接訓練することで、変換されたSNNを得る2つの主要な方法が存在する。 しかしながら、変換されたSNNの推論時間は長すぎるが、SNNトレーニングは一般的に非常に費用がかかり非効率である。 本研究では,2つの異なるトレーニング手法の概念を,プレトレイン技術とBPベースの深部SNNトレーニング機構の助けを借りて組み合わせることで,新しいSNNトレーニングパラダイムを提案する。 提案するパラダイムは、SNNをトレーニングするためのより効率的なパイプラインであると考えています。 パイプラインには静的データ転送タスク用のパイプと動的データ転送タスク用のパイプが含まれている。 SOTAの結果は、大規模なイベント駆動データセットES-ImageNetで得られる。 トレーニングアクセラレーションでは、ImageNet-1Kでの1/10のトレーニング時間とES-ImageNetでの2/5のトレーニング時間と、新しいデータセットES-UCF101の時間精度ベンチマークを用いて、同様のLIF-SNNと同じ(あるいはそれ以上の)精度を達成する。 これらの実験結果は、ANNとSNNのパラメータ関数の類似性を明らかにし、このSNNトレーニングパイプラインの様々な可能性を示す。

Spiking neural networks (SNNs) are known as a typical kind of brain-inspired models with their unique features of rich neuronal dynamics, diverse coding schemes and low power consumption properties. How to obtain a high-accuracy model has always been the main challenge in the field of SNN. Currently, there are two mainstream methods, i.e., obtaining a converted SNN through converting a well-trained Artificial Neural Network (ANN) to its SNN counterpart or training an SNN directly. However, the inference time of a converted SNN is too long, while SNN training is generally very costly and inefficient. In this work, a new SNN training paradigm is proposed by combining the concepts of the two different training methods with the help of the pretrain technique and BP-based deep SNN training mechanism. We believe that the proposed paradigm is a more efficient pipeline for training SNNs. The pipeline includes pipeS for static data transfer tasks and pipeD for dynamic data transfer tasks. SOTA results are obtained in a large-scale event-driven dataset ES-ImageNet. For training acceleration, we achieve the same (or higher) best accuracy as similar LIF-SNNs using 1/10 training time on ImageNet-1K and 2/5 training time on ES-ImageNet and also provide a time-accuracy benchmark for a new dataset ES-UCF101. These experimental results reveal the similarity of the functions of parameters between ANNs and SNNs and also demonstrate the various potential applications of this SNN training pipeline.
翻訳日:2022-03-04 12:52:23 公開日:2022-03-03
# DCT-Former:離散コサイン変換による効率的な自己認識

DCT-Former: Efficient Self-Attention with Discrete Cosine Transform ( http://arxiv.org/abs/2203.01178v2 )

ライセンス: Link先を確認
Carmelo Scribano, Giorgia Franchini, Marco Prato and Marko Bertogna(参考訳) トラスフォーマーアーキテクチャの導入以来、自然言語処理とコンピュータビジョンアプリケーションの両方において支配的なアーキテクチャとして登場した。 これは、メモリ消費と演算数の両方が増加し、$O(n^2)$、$n$は入力シーケンスの長さを表すので、非常に長いシーケンスのモデリングを必要とするアプリケーションを制限する。 この問題を緩和するための文献では、いくつかのアプローチが提案されているが、成功度は様々である。 我々のアイデアは、離散コサイン変換の特性を活用してアテンションモジュールの近似を導出するために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。 実験の広範なセクションでは,本手法が同一性能のメモリを消費しにくくし,推論時間を大幅に短縮することを示した。 これにより、特に組込みプラットフォーム上のリアルタイムコンテキストに適している。 さらに、我々の研究結果は、メモリフットプリントを削減したより広範なディープニューラルネットワークモデルの出発点となるかもしれないと仮定する。 実装はhttps://github.com/cscribano/DCT-Former-Publicで公開される。

Since their introduction the Trasformer architectures emerged as the dominating architectures for both natural language processing and, more recently, computer vision applications. An intrinsic limitation of this family of "fully-attentive" architectures arises from the computation of the dot-product attention, which grows both in memory consumption and number of operations as $O(n^2)$ where $n$ stands for the input sequence length, thus limiting the applications that require modeling very long sequences. Several approaches have been proposed so far in the literature to mitigate this issue, with varying degrees of success. Our idea takes inspiration from the world of lossy data compression (such as the JPEG algorithm) to derive an approximation of the attention module by leveraging the properties of the Discrete Cosine Transform. An extensive section of experiments shows that our method takes up less memory for the same performance, while also drastically reducing inference time. This makes it particularly suitable in real-time contexts on embedded platforms. Moreover, we assume that the results of our research might serve as a starting point for a broader family of deep neural models with reduced memory footprint. The implementation will be made publicly available at https://github.com/cscribano/DCT-Former-Public
翻訳日:2022-03-04 12:51:54 公開日:2022-03-03
# ベイズ検索の代替としての畳み込みニューラルネットワーク

Convolutional neural networks as an alternative to Bayesian retrievals ( http://arxiv.org/abs/2203.01236v2 )

ライセンス: Link先を確認
Francisco Ardevol Martinez, Michiel Min, Inga Kamp, Paul I. Palmer(参考訳) 太陽系外惑星の観測は、現在ベイズ検索技術で分析されている。 使用するモデルの計算負荷のため、モデルの複雑さと計算時間の間に妥協が必要となる。 将来の施設からのデータ分析では、検索の計算負荷を増大させる複雑なモデルが必要となり、太陽系外惑星の観測を解釈するためのより高速なアプローチが求められている。 我々の目標は、太陽系外惑星透過スペクトルの機械学習検索をネストサンプリングと比較し、統計学的に有意なスペクトルサンプルのベイズ検索と同等に信頼性があるかどうかを、桁違いに高速で理解することである。 我々は合成透過スペクトルとその対応する惑星および大気パラメータの格子を生成し、一方は自由化学モデル、もう一方は平衡化学モデルを用いて生成する。 各グリッドは、HST/WFC3とJWST/NIRSpecの両方をシミュレートするために再結合され、合計4つのデータセットが生成される。 畳み込みニューラルネットワーク(CNN)は、それぞれのデータセットでトレーニングされる。 我々は,ネストサンプリングと機械学習を用いて,モデルタイプと楽器の組み合わせ毎に1,000のシミュレーション観測を行った。 また、実際のWFC3伝送スペクトルの検索にも両方の手法を用いる。 最後に、モデルの誤った仮定に対して、機械学習とネストサンプリングがいかに堅牢であるかをテストします。 CNNは、パラメータの予測値と真値の間の決定係数を低くする。 ネステッドサンプリングは検索の約8%で不確実性を過小評価する一方、CNNはそれらを正確に推定する。 実際のWFC3観測では、ネストサンプリングと機械学習はスペクトルの約86%に対して$2\sigma$で一致している。 誤った仮定で検索を行う場合、ネストサンプリングはケースの12%から41%で不確実性を過小評価するが、CNNでは10%以下である。

Exoplanet observations are currently analysed with Bayesian retrieval techniques. Due to the computational load of the models used, a compromise is needed between model complexity and computing time. Analysis of data from future facilities, will need more complex models which will increase the computational load of retrievals, prompting the search for a faster approach for interpreting exoplanet observations. Our goal is to compare machine learning retrievals of exoplanet transmission spectra with nested sampling, and understand if machine learning can be as reliable as Bayesian retrievals for a statistically significant sample of spectra while being orders of magnitude faster. We generate grids of synthetic transmission spectra and their corresponding planetary and atmospheric parameters, one using free chemistry models, and the other using equilibrium chemistry models. Each grid is subsequently rebinned to simulate both HST/WFC3 and JWST/NIRSpec observations, yielding four datasets in total. Convolutional neural networks (CNNs) are trained with each of the datasets. We perform retrievals on a 1,000 simulated observations for each combination of model type and instrument with nested sampling and machine learning. We also use both methods to perform retrievals on real WFC3 transmission spectra. Finally, we test how robust machine learning and nested sampling are against incorrect assumptions in our models. CNNs reach a lower coefficient of determination between predicted and true values of the parameters. Nested sampling underestimates the uncertainty in ~8% of retrievals, whereas CNNs estimate them correctly. For real WFC3 observations, nested sampling and machine learning agree within $2\sigma$ for ~86% of spectra. When doing retrievals with incorrect assumptions, nested sampling underestimates the uncertainty in ~12% to ~41% of cases, whereas this is always below ~10% for the CNN.
翻訳日:2022-03-04 12:51:35 公開日:2022-03-03