このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221121となっている論文です。

PDF登録状況(公開日: 20221121)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子ノイズによる一般化不確かさ原理のテスト

Testing Generalised Uncertainty Principles through Quantum Noise ( http://arxiv.org/abs/2005.08984v2 )

ライセンス: Link先を確認
Parth Girdhar, Andrew C. Doherty(参考訳) 量子重力に対するいくつかのアプローチによって動機付けられた、一般化された不確実性原理、特に標準的位置-運動量交換関係の修正に関する多くの文献がある。 これらの修正された関係のいくつかは、いかなる物理理論であろう一般的な原理とも一致している。 このような修正された通勤者は観測可能な大きな結果をもたらす。 ここでは、あるよく研究されている修正型通勤機を仮定して、オプトメカニカルシステムの雑音挙動について検討する。 テーブルトップの光学実験における放射圧ノイズの最近の観測と高度LIGOの位置雑音スペクトルから, 改良型通勤機の境界を導出する。 このような実験がどのように調整され、そのような境界が大幅に改善され、亜原子の測定値を上回る可能性がある。

Motivated by several approaches to quantum gravity, there is a considerable literature on generalised uncertainty principles particularly through modification of the canonical position-momentum commutation relations. Some of these modified relations are also consistent with general principles that may be supposed of any physical theory. Such modified commutators have significant observable consequences. Here we study the noisy behaviour of an optomechanical system assuming a certain commonly studied modified commutator. From recent observations of radiation pressure noise in tabletop optomechanical experiments as well as the position noise spectrum of Advanced LIGO we derive bounds on the modified commutator. We find how such experiments can be adjusted to provide significant improvements in such bounds, potentially surpassing those from sub-atomic measurements.
翻訳日:2023-05-19 11:04:01 公開日:2022-11-21
# キタエフ連鎖を正確に解き、ノイズクビットからマヨラナゼロモードを生成する

Exactly solving the Kitaev chain and generating Majorana-zero-modes out of noisy qubits ( http://arxiv.org/abs/2108.07235v3 )

ライセンス: Link先を確認
Marko J. Ran\v{c}i\'c(参考訳) マヨナ-ゼロモデム (MZM) は、キタエフ連鎖と呼ばれる物理系の縁状態として存在すると予測された。 MZMは独自の反粒子である粒子をホストし、頑丈な量子ビットの基礎として使用できる。 しかし、その存在を証明する試みはすべて決定的な結果をもたらした。 ここで、キエフ連鎖は量子コンピューティングの方法論で完全に解かれ、MZMの特性はキエフ・ハミルトンの固有状態を公用量子コンピュータの3つのノイズ量子ビット上に生成することによって探索される。 存在論的実験の後、北エフ・ハミルトニアンの2つの固有状態がMZMによる8つのシグネチャを示すことを示した。 この結果は、実際の物理システムで実施されたMZMの、最も包括的な検証セットである。 さらに、この写本の発見は、公開量子コンピュータの利用者にとって容易に再現可能であり、MZMsによる別の重要な研究の問題を解決する。

Majorana-zero-modes (MZMs) were predicted to exist as edge states of a physical system called the Kitaev chain. MZMs should host particles that are their own antiparticles and could be used as a basis for a qubit which is robust-to-noise. However, all attempts to prove their existence gave inconclusive results. Here, the Kitaev chain is exactly solved with a quantum computing methodology and properties of MZMs are probed by generating eigenstates of the Kitev Hamiltonian on 3 noisy qubits of a publicly available quantum computer. After an ontological elaboration I show that two eigenstates of the Kitaev Hamiltonian exhibit eight signatures attributed to MZMs. The results presented here are a most comprehensive set of validations of MZMs ever conducted in an actual physical system. Furthermore, the findings of this manuscript are easily reproducible for any user of publicly available quantum computers, solving another important problem of research with MZMs-the result reproducibility crisis.
翻訳日:2023-03-18 07:32:10 公開日:2022-11-21
# ディスク幾何におけるマヨラナ零モードの回転

Rotating Majorana Zero Modes in a disk geometry ( http://arxiv.org/abs/2109.03549v3 )

ライセンス: Link先を確認
Liu Yang, Alessandro Principi, Niels R. Walet(参考訳) 位相量子コンピュータのビルディングブロックとしての利用を理解するため,$p$波超伝導体を用いた薄板におけるMajoranaゼロモードの操作について検討した。 本研究では,平面内磁場印加時に生じる2次位相角モードを解析し,非断熱的効果に着目して,磁場回転時の動的進化を計算する。 Floquet解析を用いて,高周波と近接断熱進化の相転移を特徴付ける。 ゼロモードと励起状態の周波数独立結合により, 断熱相においても振動が持続することを示し, 数値解析および数値化を行った。 これらの結果は,この結合から生じる非断熱誤差を回避し,トポロジカル量子計算のロバスト性を高めるため,回転周波数の制御が簡単な方法であることを示している。

We study the manipulation of Majorana zero modes in a thin disk made from a $p$-wave superconductor in order to understand their use as a building block for topological quantum computers. We analyze the second-order topological corner modes that arise when an in-plane magnetic field is applied, and calculate their dynamical evolution when rotating the magnetic field, with special emphasis on non-adiabatic effects. We characterize the phase transition between high-frequency and near-adiabatic evolution using Floquet analysis. We show that oscillations persist even in the adiabatic phase because of a frequency independent coupling between zero modes and excited states, which we have quantified numerically and analytically. These results show that controlling the rotation frequency can be a simple method to avoid the non-adiabatic errors originated from this coupling and thus increase the robustness of topological quantum computation.
翻訳日:2023-03-15 20:42:48 公開日:2022-11-21
# 超強結合系における定常状態:摂動拡大と第一次秩序

Steady state in ultrastrong coupling regime: perturbative expansion and first orders ( http://arxiv.org/abs/2110.02186v4 )

ライセンス: Link先を確認
Camille L Latune(参考訳) 熱浴に強く結合した系の力学と定常状態の理解は、量子技術のいくつかの分野における有望な応用において大きな理論的課題である。 定常状態に到達するためのいくつかの戦略のうち、1つは平均力ギブズ状態の近似式(大域的システムバス熱状態の減少状態)を得るためのものである。 本稿では,最近導出された平均力ギブス状態の超強結合限界に対する補正項の解析式について述べる。 第1次項は、強デコヒーレンス状態のマスター方程式である動的アプローチから得られる第1次補正と正確に一致する。 これにより、平均力ギブス状態との減少定常状態の同定が強化される。 さらに, 平均力ギブス状態の高温膨張から得られた別の最近の結果と比較した。 超強結合と高温との良好な一致を数値的に観察した。 これはこれらの結果の妥当性を確認します。 特に、コヒーレンスの観点からすると、3つの結果全てが超強結合から弱結合への遷移をスケッチできることを示している。

Understanding better the dynamics and steady states of systems strongly coupled to thermal baths is a great theoretical challenge with promising applications in several fields of quantum technologies. Among several strategies to gain access to the steady state, one consists in obtaining approximate expressions of the mean force Gibbs state, the reduced state of the global system-bath thermal state, largely credited to be the steady state. Here, we present analytical expressions of corrective terms to the ultrastrong coupling limit of the mean force Gibbs state, which has been recently derived. We find that the first order term precisely coincides with the first order correction obtained from a dynamical approach -- master equation in the strong-decoherence regime. This strengthens the identification of the reduced steady state with the mean force Gibbs state. Additionally, we also compare our expressions with another recent result obtained from a high temperature expansion of the mean force Gibbs state. We observe numerically a good agreement for ultra strong coupling as well as for high temperatures. This confirms the validity of all these results. In particular, we show that, in term of coherences, all three results allow one to sketch the transition from ultrastrong coupling to weak coupling.
翻訳日:2023-03-12 12:12:19 公開日:2022-11-21
# 61kビットプログラム型超伝導プロセッサを用いた量子多体状態の量子ニューロンセンシング

Quantum Neuronal Sensing of Quantum Many-Body States on a 61-Qubit Programmable Superconducting Processor ( http://arxiv.org/abs/2201.05957v2 )

ライセンス: Link先を確認
Ming Gong, He-Liang Huang, Shiyu Wang, Chu Guo, Shaowei Li, Yulin Wu, Qingling Zhu, Youwei Zhao, Shaojun Guo, Haoran Qian, Yangsen Ye, Chen Zha, Fusheng Chen, Chong Ying, Jiale Yu, Daojin Fan, Dachao Wu, Hong Su, Hui Deng, Hao Rong, Kaili Zhang, Sirui Cao, Jin Lin, Yu Xu, Lihua Sun, Cheng Guo, Na Li, Futian Liang, Akitada Sakurai, Kae Nemoto, W. J. Munro, Yong-Heng Huo, Chao-Yang Lu, Cheng-Zhi Peng, Xiaobo Zhu, Jian-Wei Pan(参考訳) 物質の性質と相の異なる多体量子状態の分類は、量子多体物理学における最も基本的な課題の1つである。 しかし、膨大な数の相互作用する粒子から生じる指数関数的複雑性のため、大規模な量子状態の分類は古典的アプローチでは極めて困難である。 本稿では,量子ニューロンセンシングという新しいアプローチを提案する。 本研究では,61量子ビット超伝導量子プロセッサを用いて,物質のエルゴディド相と局所化相の2種類の多体現象を効率的に分類できることを示す。 我々の量子ニューロンセンシングプロセスは、固有スペクトルの統計特性から得られる必要な情報を抽出し、これらの位相を1キュービットだけ測定することで区別することができる。 本研究は、短期量子プロセッサにおける量子ニューロンセンシングの実現可能性と拡張性を示し、大規模システムにおける量子多体現象を探索するための新しい道を開く。

Classifying many-body quantum states with distinct properties and phases of matter is one of the most fundamental tasks in quantum many-body physics. However, due to the exponential complexity that emerges from the enormous numbers of interacting particles, classifying large-scale quantum states has been extremely challenging for classical approaches. Here, we propose a new approach called quantum neuronal sensing. Utilizing a 61 qubit superconducting quantum processor, we show that our scheme can efficiently classify two different types of many-body phenomena: namely the ergodic and localized phases of matter. Our quantum neuronal sensing process allows us to extract the necessary information coming from the statistical characteristics of the eigenspectrum to distinguish these phases of matter by measuring only one qubit. Our work demonstrates the feasibility and scalability of quantum neuronal sensing for near-term quantum processors and opens new avenues for exploring quantum many-body phenomena in larger-scale systems.
翻訳日:2023-03-01 00:50:31 公開日:2022-11-21
# 高次元量子系に対する反線型超作用素、量子幾何不変および反線型対称性

Antilinear superoperator, quantum geometric invariance, and antilinear symmetry for higher-dimensional quantum systems ( http://arxiv.org/abs/2202.10989v3 )

ライセンス: Link先を確認
Lu Wei, Zhian Jia, Dagomir Kaszlikowski, Sheng Tan(参考訳) 本稿では, 量子力学系, 特に量子幾何不変性, 絡み合い分布, 対称性の研究における, 反線形超作用素とその応用について体系的に検討する。 我々は、反線形量子チャネル、反線形ユニタリスーパーオペレータ、反ユニタリスーパーオペレータ、一般化された$\theta$-共役を含む、反線形スーパーオペレータのいくつかの重要なクラスを研究した。 次にブロッホ表現を用いて、高次元量子系の量子幾何変換に関する体系的な研究を行う。 異なる一般化された$\theta$-共役を選択することにより、ユークリッド計量やミンコフスキー計量を含むブロッホ空間の異なる計量が得られる。 次に,これらの幾何構造を用いて,量子幾何不変性によって制限された多成分系上の絡み合い分布について検討する。 開量子系の強および弱反線型超作用素対称性についても論じる。

We present a systematical investigation of antilinear superoperators and their applications in studying open quantum systems, especially quantum geometric invariance, entanglement distribution, and symmetry. We study several crucial classes of antilinear superoperators, including antilinear quantum channels, antilinearly unital superoperators, antiunitary superoperators, and generalized $\Theta$-conjugation. Then using Bloch representation, we present a systematic investigation on quantum geometric transformations of higher-dimensional quantum systems. By choosing different generalized $\Theta$-conjugation, different metrics for the space of Bloch space-time vectors are obtained, including Euclidean metric and Minkowskian metric. Then using these geometric structures, we investigate the entanglement distribution over a multipartite system restricted by quantum geometric invariance. The strong and weak antilinear superoperator symmetry of the open quantum system is also discussed.
翻訳日:2023-02-24 05:51:06 公開日:2022-11-21
# ホン・ウー・マンデル効果のコヒーレンス解釈

Coherence interpretation of the Hong-Ou-Mandel effect ( http://arxiv.org/abs/2203.13983v2 )

ライセンス: Link先を確認
B. S. Ham(参考訳) 香港・ウー・マンデル(hom)効果の2光子強度相関は、過去数十年間、最も興味深い量子特性の1つのために集中的に研究されてきた。 量子力学の粒子の性質によると、ビームスプリッターと相互作用する不明瞭な光子特性が光子束現象の前提条件である。 ここでは、光子の波動特性に基づくコヒーレンスアプローチを用いて、絡み合った光子対に基づいてHOM効果を解釈する。 その結果、HOM効果の完全な解は、量子力学に違反することなく決定論的に不明瞭な光子特性に対するコヒーレンスアプローチから導かれる。 したがって、HOM効果は、干渉縞のないHOMディップが全ての相互作用する光子対のアンサンブルデコヒーレンスに起因する干渉計系における対光子間の相対位相関係として完全に理解されている。

Two-photon intensity correlation of the Hong-Ou-Mandel (HOM) effect has been intensively studied over the last several decades for one of the most interesting quantum features. According to the particle nature of quantum mechanics, indistinguishable photon characteristics interacting on a beam splitter are the prerequisite of the photon bunching phenomenon. Here, a coherence approach based on the wave nature of a photon is used to interpret HOM effect based on entangled photon pairs. As a result, a complete solution of the HOM effect is derived from the coherence approach for the indistinguishable photon characteristics in a deterministic way without violation of quantum mechanics. Thus, HOM effect is now perfectly understood as a relative phase relation between paired photons in an interferometric system, where the HOM dip with no interference fringe is due to ensemble decoherence of all interacting photon pairs.
翻訳日:2023-02-20 18:54:40 公開日:2022-11-21
# CodEval: プログラミングアサインメントにおける学生の成功を改善する

CodEval: Improving Student Success In Programming Assignments ( http://arxiv.org/abs/2211.11883v1 )

ライセンス: Link先を確認
Aditi Agrawal, Archit Jain, Benjamin Reed(参考訳) CodEvalはCanvas Learning Management Systemと統合されたコード評価ツールで、申請後数分以内に学生の作業を自動的に評価する。 この早期のフィードバックにより、学生は応募の質が評価される前に、投稿の問題をキャッチして修正することが可能となり、応募の質が明確になる。 CodEvalは、テストのコンパイルや実行、グレーディングの質的な側面に費やす時間を増やすといった、グレーディングの面倒な側面を処理する。 CodEvalを使用する前に、インストラクターは学生が課題によって評価される概念を、期限後まで明確に理解することができない。 CodeEvalは、インストラクターが生徒の理解のギャップを特定し、対処するのに役立ち、より多くの学生が課題を完了するのに役立ちます。 我々は公開Canvas APIを使ってPythonを使ってCodEvalを実装した。 canvasコースのインストラクターやグレーダは、codevalを使用して、プログラミング課題の応募を自動的に評価することができる。 我々は,コンパイルパラメータ,入力,出力,コマンドライン引数,タイムアウト,終了コード,使用する関数,ファイルの生成,出力バリデータなど,サブミッションの要件を表現する構文を開発した。 codevalをオープンソースにしました。 CodEvalは、学生、学年、インストラクターにとって簡単なツールであり、Canvasとシームレスに統合される。 私たちは、90人の学生と複数のコーディング課題を持つ2つのクラスでcodevalを使用した経験を共有しています。

CodEval is a code evaluation tool that integrates with the Canvas Learning Management System to automatically evaluates students' work within a few minutes of the submission. This early feedback allows students to catch and correct problems in their submissions before their submission is graded and gives them a clear idea of the quality of their submission. CodEval handles the tedious aspects of grading, such as compiling and running tests, leaving graders more time to spend on the qualitative aspect of grading. Before using CodEval, instructors would not have a clear view of the student's comprehension of the concept evaluated by the assignment until after the due date. CodeEval helps instructors identify and address the gaps in students' understanding and thus helps more students successfully complete the assignment. We implemented CodEval using Python using the public Canvas API. Any instructor or grader for a Canvas course can use CodEval to automatically evaluate submissions for programming assignments. We developed a syntax to express requirements of submissions such as compilation parameters, inputs, outputs, command-line arguments, timeouts, exit codes, functions used, files generated, output validators, and more. We have made CodEval open source. CodEval is an easy tool for students, graders, and instructors and seamlessly integrates with Canvas. We share our experience with using CodEval in two classes with a total of 90 students and multiple coding assignments.
翻訳日:2023-02-19 12:35:10 公開日:2022-11-21
# 音声スポーフィング対策:分類学、最先端、一般化可能性の実験分析、オープンチャレンジ、今後の展開

Voice Spoofing Countermeasures: Taxonomy, State-of-the-art, experimental analysis of generalizability, open challenges, and the way forward ( http://arxiv.org/abs/2210.00417v2 )

ライセンス: Link先を確認
Awais Khan, Khalid Mahmood Malik, James Ryan, and Mikul Saravanan(参考訳) 悪質な俳優は、異なる音声詐欺攻撃を使ってasvシステムを騙し、偽情報を広めるためにも利用しようとするかもしれない。 これらのスプーフィング攻撃を検出するための様々な対策が提案されている。 過去6~7年間の自動話者検証(ASV)システムにおけるスプーフィング検出に関する広範な研究により、研究を分類し、最先端の対策に関する質的かつ定量的な比較を行う必要がある。 さらに、既存の調査では、音声スプーフィング評価と話者検証、スプーフィング対策に対する逆/アンチフォレンス攻撃、asv自体、あるいは単一モデルを用いて複数の攻撃を検出するための統一ソリューションに関する統合ソリューションをレビューしていない。 さらに, コーパスを横断して評価することで, 汎用性を評価するために, アップルとアプライズを比較検討する作業は行われていない。 本研究では,音声合成 (SS) , 音声変換 (VC) , リプレイ攻撃 (replay attack) を検出するために, 手作り特徴, ディープラーニング, エンドツーエンド, ユニバーサルスプーフィング対策ソリューションを用いたスプーフィング検出に関する文献のレビューを行う。 さらに,音声スプーフィング評価と話者照合,音声対策に対する敵対的・反フォレンス的攻撃,asvに対する統合ソリューションについて検討した。 既存のスプーフィング対策の限界と課題も提示する。 本稿では,これらの対策の性能を複数のデータセット上で報告し,コーパス間で評価する。 実験では, GMM, SVM, CNN, CNN-GRU分類器とともに, ASVspoof2019 と VSDC のデータセットを用いる。 (結果の再現性のため、テストベッドのコードはGitHubリポジトリで確認できます。

Malicious actors may seek to use different voice-spoofing attacks to fool ASV systems and even use them for spreading misinformation. Various countermeasures have been proposed to detect these spoofing attacks. Due to the extensive work done on spoofing detection in automated speaker verification (ASV) systems in the last 6-7 years, there is a need to classify the research and perform qualitative and quantitative comparisons on state-of-the-art countermeasures. Additionally, no existing survey paper has reviewed integrated solutions to voice spoofing evaluation and speaker verification, adversarial/antiforensics attacks on spoofing countermeasures, and ASV itself, or unified solutions to detect multiple attacks using a single model. Further, no work has been done to provide an apples-to-apples comparison of published countermeasures in order to assess their generalizability by evaluating them across corpora. In this work, we conduct a review of the literature on spoofing detection using hand-crafted features, deep learning, end-to-end, and universal spoofing countermeasure solutions to detect speech synthesis (SS), voice conversion (VC), and replay attacks. Additionally, we also review integrated solutions to voice spoofing evaluation and speaker verification, adversarial and anti-forensics attacks on voice countermeasures, and ASV. The limitations and challenges of the existing spoofing countermeasures are also presented. We report the performance of these countermeasures on several datasets and evaluate them across corpora. For the experiments, we employ the ASVspoof2019 and VSDC datasets along with GMM, SVM, CNN, and CNN-GRU classifiers. (For reproduceability of the results, the code of the test bed can be found in our GitHub Repository.
翻訳日:2023-02-19 11:27:19 公開日:2022-11-21
# NLPにおけるフェアネスの再コンテキスト化--インドを事例として

Re-contextualizing Fairness in NLP: The Case of India ( http://arxiv.org/abs/2209.12226v5 )

ライセンス: Link先を確認
Shaily Bhatt, Sunipa Dev, Partha Talukdar, Shachi Dave, Vinodkumar Prabhakaran(参考訳) 最近の研究では、NLPデータとモデルに望ましくないバイアスが明らかになった。 しかし、これらの取り組みは西洋の社会格差に焦点を合わせており、他の地域文化の文脈に直接的な移植性はない。 本稿では,インドの文脈におけるNLPフェアネスに着目した。 まず、インドにおける社会的格差の顕著な軸の簡単な説明から始める。 インドの文脈で公平性評価のためのリソースを構築し、それらを使っていくつかの軸に沿って予測バイアスを示す。 次に、地域と宗教のための社会的ステレオタイプを深く掘り下げ、コーパスやモデルでその傾向を示す。 最後に、インドの文脈におけるNLPフェアネス研究の再コンテキスト化、インド社会の文脈におけるc-counting、NLP能力とリソースの技術的ギャップの埋め合わせ、インドの文化的価値への適応に関する総合的な研究課題を概説する。 インドに集中する一方で、この枠組みは他の地理文化の文脈に一般化することができる。

Recent research has revealed undesirable biases in NLP data and models. However, these efforts focus on social disparities in West, and are not directly portable to other geo-cultural contexts. In this paper, we focus on NLP fair-ness in the context of India. We start with a brief account of the prominent axes of social disparities in India. We build resources for fairness evaluation in the Indian context and use them to demonstrate prediction biases along some of the axes. We then delve deeper into social stereotypes for Region andReligion, demonstrating its prevalence in corpora and models. Finally, we outline a holistic research agenda to re-contextualize NLP fairness research for the Indian context, ac-counting for Indian societal context, bridging technological gaps in NLP capabilities and re-sources, and adapting to Indian cultural values. While we focus on India, this framework can be generalized to other geo-cultural contexts.
翻訳日:2023-02-19 11:22:36 公開日:2022-11-21
# 双対ユニタリ作用素の構成と局所同値性:動的写像から量子組合せ設計へ

Construction and local equivalence of dual-unitary operators: from dynamical maps to quantum combinatorial designs ( http://arxiv.org/abs/2205.08842v2 )

ライセンス: Link先を確認
Suhail Ahmad Rather, S. Aravinda, Arul Lakshminarayan(参考訳) 2粒子双対ユニタリ(最大絡み合い)演算子から構築された量子回路は、通常は非可積分な多体系の最小モデルとして機能するが、双対ユニタリ演算子自体の構成と特性は部分的には理解されていない。 ユニタリ作用素の空間上の非線形写像がPRLで提案された。 ~125, 070501 (2020) となり、演算子は任意に双対ユニタリに近い。 ここでは,アトラクションの盆地,不動点,二元ユニタリへのアプローチ率を記述した2量子ビットの場合の地図を解析的に検討する。 最大絡み合い力を持つ双対ユニタリ作用素のサブセットは 2-ユニタリ作用素または完全テンソルであり、四つの極大絡み合い状態と同値である。 局所次元が$d=2$より大きい場合にのみ存在することが知られている。 非線形写像を用い、その確率多様体を導入し、新しい双対作用素と二元作用素の明示的な例を構築する。 クラスを区別する局所ユニタリ同値の基準も導入され、様々な具体的な結果や予想を$d=3$で表示するために使用される。 直交のラテン正方形は、2単位の置換を構成するために「古典的な組合せ設計」を提供することが知られている。 一般の双対ユニタリ作用素に対する古典的な量子設計から真の量子設計へ拡張し、$d=4$の 2-ユニタリの最小サイズの真の量子設計の例を示す。

While quantum circuits built from two-particle dual-unitary (maximally entangled) operators serve as minimal models of typically nonintegrable many-body systems, the construction and characterization of dual-unitary operators themselves are only partially understood. A nonlinear map on the space of unitary operators was proposed in PRL.~125, 070501 (2020) that results in operators being arbitrarily close to dual unitaries. Here we study the map analytically for the two-qubit case describing the basins of attraction, fixed points, and rates of approach to dual unitaries. A subset of dual-unitary operators having maximum entangling power are 2-unitary operators or perfect tensors, and are equivalent to four-party absolutely maximally entangled states. It is known that they only exist if the local dimension is larger than $d=2$. We use the nonlinear map, and introduce stochastic variants of it, to construct explicit examples of new dual and 2-unitary operators. A necessary criterion for their local unitary equivalence to distinguish classes is also introduced and used to display various concrete results and a conjecture in $d=3$. It is known that orthogonal Latin squares provide a ``classical combinatorial design" for constructing permutations that are 2-unitary. We extend the underlying design from classical to genuine quantum ones for general dual-unitary operators and give an example of what might be the smallest sized genuinely quantum design of a 2-unitary in $d=4$.
翻訳日:2023-02-12 18:12:39 公開日:2022-11-21
# 障害を有する光学的トラッピング量子ガスの階層的次元交叉

Hierarchical dimensional crossover of an optically-trapped quantum gas with disorder ( http://arxiv.org/abs/2205.11007v2 )

ライセンス: Link先を確認
KangKang Li and Zhaoxin Liang(参考訳) 次元性は低次元物理学の定式化に欠かせない要素であり、基本的なレベルでの次元交叉の研究は困難である。 本研究の目的は、階層的次元の交叉、すなわち3次元から準2次元へ、そして1次元への交叉を研究することである。 本システムでは,3次元ボース・アインシュタイン凝縮体 (BEC) を異方性2次元光学格子に固定し, 格子深さが$x$方向に沿って$V_1$と$y$方向に沿って$V_2$であり, 階層的次元交叉は$V_1$と$V_2$によって制御される。 我々は,系の基底状態エネルギー,量子枯渇,超流動密度を解析的に導出する。 本結果は, 量子ゆらぎの挙動における3次元クエージ-2D-1D次元の交叉効果を示す。 シナリオを実験的に実現するための条件についても論じる。

Dimensionality serves as an indispensable ingredient in any attempt to formulate the low-dimensional physics, and studying the dimensional crossover at a fundamental level is challenging. The purpose of this work is to study the hierarchical dimensional crossovers, namely the crossover from three dimensions (3D) to quasi-2D and then to 1D. Our system consists of a 3D Bose-Einstein condensate (BEC) trapped in an anisotropic 2D optical lattice characterized by the lattice depths $V_1$ along the $x$ direction and $V_2$ along the $y$ direction, respectively, where the hierarchical dimensional crossover is controlled via $V_1$ and $V_2$. We analytically derive the ground-state energy, quantum depletion and the superfluid density of the system. Our results demonstrate the 3D-quasi-2D-1D dimensional crossovers in the behavior of quantum fluctuations. Conditions for possible experimental realization of our scenario are also discussed.
翻訳日:2023-02-12 00:57:05 公開日:2022-11-21
# トポロジカル指向増幅

Topological directed amplification ( http://arxiv.org/abs/2206.11879v2 )

ライセンス: Link先を確認
Bikashkali Midya(参考訳) 非正規なToeplitz演算子によって記述される漸近的に安定な皮膚効果格子のクラスにおいて、ある初期摂動のトポロジカル指向増幅の現象を理論的に明らかにし、正の ``numerical Ordinate" $\omega(H_g)>0$ で表される。 非正規時間的進化は、グローバルな散逸の存在においても、エッジ状態増幅の直感的な過渡的なフェーズを示すことが示され、これは漸近現象と大きく異なる振る舞いであり、$H_g$のスペクトル分析が直接明らかにできない。 効果の一貫した記述は 'pseudospectrum' の一般的なツールによって提供され、最大パワー増幅の定量的推定は {\it Kreiss constant} によって提供される。 最大増幅力を達成する最適初期条件を決定するためのレシピは、プロパゲータ $e^{-i H_g t}$ の特異値分解によって与えられる。 さらに、スキン効果レーザアレイにおける非正規性と非線形性の相互作用により、スケーラブルな安定出力パワーで狭域放出スペクトルが容易になることを予測した。

A phenomenon of topological directed amplification of certain initial perturbations is revealed theoretically to emerge in a class of asymptotically stable skin-effect lattices described by nonnormal Toeplitz operators $H_g$ with positive ``numerical ordinate" $\omega(H_g)>0$. Nonnormal temporal evolution, even in the presence of global dissipation, is shown to manifest a counterintuitive transient phase of edge-state amplification -- a behavior, drastically different from the asymptote, that spectral analysis of $H_g$ fails to directly reveal. A consistent description of the effect is provided by the general tool of ``pseudospectrum", and a quantitative estimation of the maximum power amplification is provided by the {\it Kreiss constant}. A recipe to determine an optimal initial condition that will attain maximum amplification power is given by singular value decomposition of the propagator $e^{-i H_g t}$. It is further predicted that the interplay between nonnormality and nonlinearity in a skin-effect laser array can facilitate narrow-emission spectra with scalable stable-output power.
翻訳日:2023-02-08 06:54:48 公開日:2022-11-21
# 浅い回路を用いた量子状態の近似符号化

Approximate encoding of quantum states using shallow circuits ( http://arxiv.org/abs/2207.00028v3 )

ライセンス: Link先を確認
Matan Ben Dov, David Shnaiderov, Adi Makmal, Emanuele G. Dalla Torre(参考訳) 量子シミュレーションとアルゴリズムの一般的な要件は、2量子ゲートのシーケンスを通して複雑な状態を作成することである。 一般量子状態の場合、ゲートの数は量子ビット数で指数関数的に増加し、短期量子デバイスでは実現不可能となる。 本稿では,限られた数のゲートを用いて,対象状態の近似符号化を行うことを目標とする。 最初のステップとして、1次元行列積状態のような古典的に効率よく表される量子状態を考える。 テンソルネットワーク手法を用いて,固定数のゲートに対する最適実装にアプローチする最適化アルゴリズムを開発した。 我々のアルゴリズムは、古典的コンピュータ上で効率的に動作し、多項式数だけを必要とする。 実機上での最適回路と準最適回路を比較し,本手法の有効性を実証する。 次に、提案した最適化アルゴリズムを量子コンピュータに直接実装し、グローバルなコスト関数ではなく局所的なコスト関数を用いることで、固有のバレン高原を克服する。 現実的なショットノイズをシミュレートすることにより、必要な測定値の数がキュービット数と多項式的にスケールすることを検証する。 本研究は,局所ゲートを用いた目標状態作成のための普遍的手法を提供し,既知の戦略に対する大幅な改善を示す。

A common requirement of quantum simulations and algorithms is the preparation of complex states through sequences of 2-qubit gates. For a generic quantum state, the number of gates grows exponentially with the number of qubits, becoming unfeasible on near-term quantum devices. Here, we aim at creating an approximate encoding of the target state using a limited number of gates. As a first step, we consider a quantum state that is efficiently represented classically, such as a one-dimensional matrix product state. Using tensor network techniques, we develop an optimization algorithm that approaches the optimal implementation for a fixed number of gates. Our algorithm runs efficiently on classical computers and requires a polynomial number of iterations only. We demonstrate the feasibility of our approach by comparing optimal and suboptimal circuits on real devices. We, next, consider the implementation of the proposed optimization algorithm directly on a quantum computer and overcome inherent barren plateaus by employing a local cost function rather than a global one. By simulating realistic shot noise, we verify that the number of required measurements scales polynomially with the number of qubits. Our work offers a universal method to prepare target states using local gates and represents a significant improvement over known strategies.
翻訳日:2023-02-07 04:24:21 公開日:2022-11-21
# 量子物質と重力の結合

Coupling Quantum Matter and Gravity ( http://arxiv.org/abs/2207.05029v2 )

ライセンス: Link先を確認
Domenico Giulini, Andr\'e Gro{\ss}ardt, Philip K. Schwartz(参考訳) この貢献では、量子物質と古典的重力場を結合しようとするときに遭遇するいくつかの問題に対処します。 まずはバックグラウンドに関する一般的な議論から始めて,さらに2つの技術的セクションに進むのです。 最初の技術的部分では、外部重力場における複合二粒子系のハミルトニアンが、バックリアクションなしで体系的なニュートン後の設定でどのように計算できるかを考える。 これにより,「相対論的効果」を手作業で加えることで,より体系的で直感的なアプローチの一貫性と完全性を確実に評価することができる。 第2の技術的部分では、量子物質が半古典的アインシュタイン方程式を介して古典的な重力場の源として機能するかという問題を考える。 このアプローチが根本的に矛盾しているという影響への声明は、批判的にレビューされる。

In this contribution we deal with several issues one encounters when trying to couple quantum matter to classical gravitational fields. We start with a general background discussion and then move on to two more technical sections. In the first technical part we consider the question how the Hamiltonian of a composite two-particle system in an external gravitational field can be computed in a systematic post-Newtonian setting without backreaction. This enables us to reliably estimate the consistency and completeness of less systematic and more intuitive approaches that attempt to solve this problem by adding `relativistic effects' by hand. In the second technical part we consider the question of how quantum matter may act as source for classical gravitational fields via the semiclassical Einstein equations. Statements to the effect that this approach is fundamentally inconsistent are critically reviewed.
翻訳日:2023-02-05 12:12:53 公開日:2022-11-21
# スピンレスフェルミオン鎖におけるペアまたはマルチマーに基づく多体傷のエクササイズ

Exact many-body scars based on pairs or multimers in a chain of spinless fermions ( http://arxiv.org/abs/2207.07531v3 )

ライセンス: Link先を確認
Lorenzo Gotta, Leonardo Mazza, Pascal Simon, Guillaume Roux(参考訳) 我々は、$\eta$-pairing状態のスピンレスアナログがモデルの量子多体傷であるスピンレスフェルミオンの1Dモデルハミルトニアンを構築する。 これらの状態は励起状態であり、準体積の絡み合いエントロピースケーリングを示す:エネルギーに等間隔(ロスシュミットエコーにおける周期的振動とそれらの重ね合わせで準備された初期状態の観測可能な時間発展)を持つ状態の塔を形成し、固有状態の熱化仮説を弱く破るという意味では非定型的である。 ブリルアンゾーンの端に位置するマルチマーによって生成される傷跡状態の塔をモデルとして提示することにより,そのアプローチを拡張する。

We construct a 1D model Hamiltonian of spinless fermions for which the spinless analogue of $\eta$-pairing states are quantum many-body scars of the model. These states are excited states and display subvolume entanglement entropy scaling; they form a tower of states that are equally spaced in energy (resulting in periodic oscillations in the Loschmidt echo and in the time evolution of observables for initial states prepared in a superposition of them) and are atypical in the sense that they weakly break the eigenstate thermalization hypothesis, while the other excited states are thermal. We extend the approach by presenting models with a tower of scar states generated by multimers located at the edge of the Brillouin zone.
翻訳日:2023-02-04 22:50:17 公開日:2022-11-21
# 調節性位置障害を伴う双極子系のペア局在

Pair localization in dipolar systems with tunable positional disorder ( http://arxiv.org/abs/2207.14474v2 )

ライセンス: Link先を確認
Adrian Braemer, Titus Franz, Matthias Weidem\"uller, Martin G\"arttner(参考訳) 強い相互作用を持つ量子系は、焼成障害を受け、ガラス性や多体局在などの興味深い現象を示す。 理論的な研究は主にランダムポテンシャルの形で障害に焦点を当てているが、多くの実験的な実現は粒子間相互作用において障害を特徴付ける。 このような障害が双極子遮断効果を用いて設計できるコールド・リドバーグ・ガスに触発されて、この障害がランダムなスピン-スピンカップリングによってのみ引き起こされるハイゼンベルクxxzスピンモデルの研究を行った。 確立されたスペクトルおよび固有状態特性と絡み合いエントロピーを用いて、この系は局所的な交差関係を示し、強い相互作用を持つペアをシステム内の創発的局所保存量として同定し、我々の数値結果と一致した直感的な物理画像へと導く。

Strongly interacting quantum systems subject to quenched disorder exhibit intriguing phenomena such as glassiness and many-body localization. Theoretical studies have mainly focused on disorder in the form of random potentials, while many experimental realizations naturally feature disorder in the interparticle interactions. Inspired by cold Rydberg gases, where such disorder can be engineered using the dipole blockade effect,we study a Heisenberg XXZ spin model where the disorder is exclusively due to random spin-spin couplings, arising from power-law interactions between randomly positioned spins. Using established spectral and eigenstate properties and entanglement entropy, we show that this system exhibits a localization crossover and identify strongly interacting pairs as emergent local conserved quantities in the system, leading to an intuitive physical picture consistent with our numerical results.
翻訳日:2023-02-03 02:25:00 公開日:2022-11-21
# スピンスピン速度依存性相互作用の制約

Constraints on Spin-Spin-Velocity-Dependent Interaction ( http://arxiv.org/abs/2208.00658v2 )

ライセンス: Link先を確認
Wei Ji, Weipeng Li, Pavel Fadeev, Filip Ficek, Jianan Qin, Kai Wei, Yong-Chun Liu, Dmitry Budker(参考訳) エキゾチックなスピン依存力の存在は、標準模型を超えた新しい物理学に光を当てるかもしれない。 2つの鉄シールド型smco$_5$電子スピン源と2つの光ポンピング磁力計を用いて、異種な長距離スピンスピンスピン速度依存力を求める。 スピン源と磁力計の配向を最適化し、エキゾチックな力を高め、コモンモードノイズを効果的に減算する。 1\,cmから1\,kmの範囲で陽子-電子相互作用の直接限界を設定した。 我々の実験は以前の実験よりも10桁以上改善されている。

The existence of exotic spin-dependent forces may shine light on new physics beyond the Standard Model. We utilize two iron shielded SmCo$_5$ electron-spin sources and two optically pumped magnetometers to search for exotic long-range spin-spin-velocity-dependent force. The orientations of spin sources and magnetometers are optimized such that the exotic force is enhanced and common-mode noise is effectively subtracted. We set direct limit on proton-electron interaction in the force range from 1\,cm to 1\,km. Our experiment represents more than ten orders of magnitude improvement than previous works.
翻訳日:2023-02-02 19:13:18 公開日:2022-11-21
# 直接光子計測によるガウス状態量子照明の境界

Bound for Gaussian-state Quantum illumination using direct photon measurement ( http://arxiv.org/abs/2210.01471v2 )

ライセンス: Link先を確認
Su-Yong Lee, Dong Hwan Kim, Yonggi Jo, Taek Jeong, Duk Y. Kim, and Zaeill Kim(参考訳) 量子センシングにおいて、実現可能な測定境界を見つけることが重要である。 オンオフ検出器や光子数分解検出器を用いてガウス状態の量子照明を解析し、その性能を信号対雑音比で評価する。 まず、一致計数の場合、コヒーレント状態および古典的相関熱状態(cct)状態を上回る2モード圧縮真空(tmsv)状態により、最適性能が与えられる。 しかし、オンオフ検出器を使用する場合、コヒーレント状態は信号平均光子数を増加させてTMSV状態に打ち勝つことができる。 第2に、非検出イベントを含む全ての計数確率のフィッシャー情報アプローチにより、性能の向上を図る。 フィッシャー情報アプローチでは、tmsv状態は最高の性能を示すが、cct状態はオンオフ検出器を使用すると信号平均光子数の増加でtmsv状態を打ち負かすことができる。 また, 変位圧縮状態は, 単一モードガウス状態において最高の性能を示すことを示す。

Finding feasible measurement bound is important in quantum sensing. We present analytic bound for quantum illumination with Gaussian state when using on-off detector or photon number resolving detector, where its performance is evaluated with signal-to-noise ratio. First, in the case of coincidence counting, the best performance is given by two-mode squeezed vacuum (TMSV) state which outperforms coherent state and classically correlated thermal (CCT) state. However coherent state can beat the TMSV state with increasing signal mean photon number when using the on-off detector. Second, the performance is enhanced by taking Fisher information approach of all counting probabilities including non-detection events. In the Fisher information approach, the TMSV state still presents the best performance but the CCT state can beat the TMSV state with increasing signal mean photon number when using the on-off detector. We also show that displaced squeezed state exhibits the best performance in the single-mode Gaussian state.
翻訳日:2023-01-23 22:12:54 公開日:2022-11-21
# 不完全相関障害を有するSYKトラバーサブルワームホールについて

On SYK traversable wormhole with imperfectly correlated disorders ( http://arxiv.org/abs/2210.13123v2 )

ライセンス: Link先を確認
Tomoki Nosaka and Tokiro Numasawa(参考訳) 本稿では,2つのSachdev-Ye-Kitaevモデル(L-systemとR-system)の位相構造を,不完全相関障害と単純な相互作用で結合する。 2つの系の障害が完全に相関すると、$J_{i_1\cdots i_q}^{(L)}=J_{i_1\cdots i_q}^{(R)}$は、高温の2つのブラックホール相と低温のトラベル可能なワームホール相の間の有限温度での相転移を示すことが知られている。 相関 $\langle J_{i_1\cdots i_q}^{(L)} J_{i_1\cdots i_q}^{(R)}\rangle$ が減少すると臨界温度は低下する。 同時に、L系とR系との間の低温相の伝達が抑制され、システム全体のカオス指数が大きくなる。 興味深いことに、相関がq依存性の臨界値よりも小さい場合、位相遷移はパラメータ空間全体に完全に消失する。 ゼロ温度では、相関が小さくなるにつれてエネルギーギャップが大きくなる。 一般化された熱場二重状態も変分状態として用いる。 興味深いことに、この状態は大きな q 極限の基底状態と一致する。

In this paper we study the phase structure of two Sachdev-Ye-Kitaev models (L-system and R-system) coupled by a simple interaction, with imperfectly correlated disorder. When the disorder of the two systems are perfectly correlated, $J_{i_1\cdots i_q}^{(L)}=J_{i_1\cdots i_q}^{(R)}$, this model is known to exhibit a phase transition at a finite temperature between the two-black hole phase at high-temperature and the traversable wormhole phase at low temperature. We find that, as the correlation $\langle J_{i_1\cdots i_q}^{(L)} J_{i_1\cdots i_q}^{(R)}\rangle$ is decreased, the critical temperature becomes lower. At the same time, the transmission between L-system and R-system in the low-temperature phase becomes more suppressed, while the chaos exponent of the whole system becomes larger. Interestingly we also observe that when the correlation is smaller than some q-dependent critical value the phase transition completely disappears in the entire parameter space. At zero temperature, the energy gap becomes larger as we decrease the correlation. We also use a generalized thermofield double state as a variational state. Interestingly, this state coincide with the ground state in the large q limit.
翻訳日:2023-01-21 18:52:17 公開日:2022-11-21
# 通信ファイバー光インフラにおけるエンタングルメント分布量子ネットワーク

Entanglement distribution quantum networking within deployed telecommunications fibre-optic infrastructure ( http://arxiv.org/abs/2211.09051v3 )

ライセンス: Link先を確認
Marcus J Clark, Obada Alia, Rui Wang, Sima Bahrani, Matej Peranic, Djeylan Aktas, George T Kanellos, Martin Loncaric, Zeljko Samec, Anton Radman, Mario Stipcevic, Reza Nejabati, Dimitra Simeonidou, John G Rarity, Siddarth K Joshi(参考訳) 量子ネットワークは、信頼されたノードのないフルメッシュトポロジとユーザを結びつけることが示されている。 我々は、簡単な量子鍵分布を超えてプロトコルを実行する能力を持つスケーラブルな分極エンタングルメントベースの量子ネットワークテストベッドの進歩を示す。 提案手法では,ユーザ毎のリソース要求を増大させることなく,新たなユーザをネットワークに接続しやすくするため,ローカル大都市圏の量子ネットワークに最適な波長多重化を実現する。 我々は,大都市圏のファイバーリンクを配置し,偏極安定性と10.8日間にわたる秘密鍵生成能力を示す10人のユーザと,ネットワークの平均有効秘密鍵レート3.38bpsを示す。

Quantum networks have been shown to connect users with full-mesh topologies without trusted nodes. We present advancements on our scalable polarisation entanglement-based quantum network testbed, which has the ability to perform protocols beyond simple quantum key distribution. Our approach utilises wavelength multiplexing, which is ideal for quantum networks across local metropolitan areas due to the ease of connecting additional users to the network without increasing the resource requirements per user. We show a 10 user fully connected quantum network with metropolitan scale deployed fibre links, demonstrating polarisation stability and the ability to generate secret keys over a period of 10.8 days with a network wide average-effective secret key rate of 3.38 bps.
翻訳日:2023-01-19 09:37:43 公開日:2022-11-21
# パウリ演算子の期待値に基づく量子エンタングルメント測定の導入

Introduction Of Quantum Entanglement Measure Based On The Expectation Values Of Pauli Operators ( http://arxiv.org/abs/2211.08981v2 )

ライセンス: Link先を確認
Mahmood Zeheiry(参考訳) 本稿では, 粒子の分離状態において, 1粒子の計測が第2粒子の測定に影響を与えないことを考えると, アリスとボブは粒子のスピンにおける測定結果が常に最大になる方向を見つけることができることを示す。 言い換えると、粒子の状態は、その方向に適用される作用素の固有状態であり、2つの粒子のスピンの和が最大値を持つことができる。 エンタングル状態において、粒子測定結果が互いに影響するため、アリスとボブは所望の作用素を見つけることができないと論じる。 したがって、測定では、粒子の総スピンは常に上記の最大値よりも小さいが、最も価値の高い方向に測定するように要求する。 この値は分離可能な状態に対して最大であり、完全絡み合い状態においては最小であり、他の州では2つの最大値と最小値の間の絡み合いの程度に比例するので、このパラメータを「分離可能性指数」と呼ぶように設定する。 そして、この指標に基づいて、絡み合いの尺度を導入し、より高い次元の状態に拡張した。 最後に, 量子状態の例, 量子状態の例, 量子状態の例, 量子状態の例を調査し, 測定の効率性を確認した。

In this paper, firstly considering that in separable states, the measurement on one particle has no effect on the measurement of the second particle, we show that Alice and Bob can find directions in which the result of their measurement on the spin of the particle is always maximized. In other word, the state of the particle is a eigenstate for the operator that is applied in that direction, so the sum of the spins of two particles can have a maximum value. We will argue that in entangled states, due to the effect of particle measurement results on each other, Alice and Bob cannot find the desired operators. Therefore, in the measurement, the total spin of the particles will always be less than the mentioned maximum But we ask them to try and measure in directions that will get the most value. Because this value is maximum for separable states and minimum for fully entangled states, and for the rest of the states, it will be proportional to the degree of entanglement between the two maximum and minimum values, we set this parameter as We called it "separability index". Then, based on this index, the measure of entanglement was introduced and extended to states with higher dimensions. In the end, examples of qubit states and di-qubit states and di-qubit states were investigated and the efficiency of the measure was confirmed by the results of the examples.
翻訳日:2023-01-18 06:43:36 公開日:2022-11-21
# 平衡を欠いた量子不純物問題の効率的な解法

An efficient method for quantum impurity problems out of equilibrium ( http://arxiv.org/abs/2211.10272v2 )

ライセンス: Link先を確認
Julian Thoenniss, Michael Sonner, Alessio Lerose, Dmitry A. Abanin(参考訳) 非相互作用型フェルミオン貯水池と結合した相互作用する量子不純物のダイナミクスをシミュレートする効率的な手法を提案する。 不純物をオープン量子系と見なすと、これらの貯水池はFeynman-Vernon influence functionals (IF) によって記述される。 IFは時間領域における行列生成状態として表され、任意の相互作用に対する動的の効率的な計算を可能にする。 本研究では,非平衡条件を含むアンダーソン不純物モデルにおける量子クエンチと輸送の研究に本手法を適用し,最先端法と比較して良好な性能を得る。 力学の正確な計算に必要な計算資源は、進化時間とともに多項式的にスケールし、広い種類の平衡外量子不純物問題が効率的に解けることを示す。 このアプローチは、メソスコピックデバイスと相関物質の動的特性に関する新たな知見を提供する。

We introduce an efficient method to simulate dynamics of an interacting quantum impurity coupled to non-interacting fermionic reservoirs. Viewing the impurity as an open quantum system, we describe the reservoirs by their Feynman-Vernon influence functionals (IF). The IF are represented as matrix-product states in the temporal domain, which enables an efficient computation of dynamics for arbitrary interactions. We apply our method to study quantum quenches and transport in an Anderson impurity model, including highly non-equilibrium setups, and find favorable performance compared to state-of-the-art methods. The computational resources required for an accurate computation of dynamics scale polynomially with evolution time, indicating that a broad class of out-of-equilibrium quantum impurity problems are efficiently solvable. This approach will provide new insights into dynamical properties of mesoscopic devices and correlated materials.
翻訳日:2023-01-18 04:23:36 公開日:2022-11-21
# 絡み合い力学と古典的複雑性

Entanglement dynamics and classical complexity ( http://arxiv.org/abs/2211.11213v1 )

ライセンス: Link先を確認
Jiaozi Wang, Barbara Dietz, Dario Rosa, Giuliano Benenti(参考訳) 分離可能なコヒーレント状態から始まる2体相互作用系における絡み合いの動的生成について検討する。 準古典的手法では、エンタングルメント成長速度は、基礎となる古典力学によって単純に計算できることを解析的に示す。 さらに、この速度は古典運動の動的複雑さを特徴づけるコルモゴロフ・シナイエントロピーによって与えられる。 その結果,結合回転子モデルを用いた数値シミュレーションにより,準古典的手法ではエンタングルメントの生成,純粋量子現象,古典的複雑性の相関が確立された。

We study the dynamical generation of entanglement for a two-body interacting system, starting from a separable coherent state. We show analytically that in the quasiclassical regime the entanglement growth rate can be simply computed by means of the underlying classical dynamics. Furthermore, this rate is given by the Kolmogorov-Sinai entropy, which characterizes dynamical complexity of classical motion. Our results, illustrated by numerical simulations on a model of coupled rotators, establish in the quasiclassical regime a link between the generation of entanglement, a purely quantum phenomenon, and classical complexity.
翻訳日:2023-01-17 23:43:37 公開日:2022-11-21
# ベル実験; 認識論的アプローチ

The Bell experiment; an epistemological approach ( http://arxiv.org/abs/2211.11330v1 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 2022年のノーベル物理学賞は、様々な洗練度でベル実験を行うために授与された。 この実験の解釈はベルの不等式、特にCHSHの不等式の背後にある単純な議論を最初に思い出すことによって議論される。 彼は実験をモデル化しようとするとき、関連するすべての変数を同時に心に留めることができない。 これは、非地方性が不可欠であるTim Maudlin氏の提案した解決策とは対照的だが、Maudlin氏はノーベル価格委員会を批判している。 最後に、量子力学の基礎に対する関連する新しいアプローチを簡潔にスケッチし、関連する文献を参照する。

The Nobel prize in physics for 2022 was given for performing Bell experiments with varying degree of sophistication. The interpretation of this experiment is discussed by first recalling Bell's simple argument behind his inequalities, in particular the CHSH inequality. It is argued that any independent observer must have a limitation: He is not able to keep all relevant variables in his mind at the same time when trying to model the experiment. This is contrasted to the solution proposed by Tim Maudlin, where nonlocality is crucial.Maudlin criticizes the Nobel price committee, but this critique is countered. Finally, a related new approach to the foundation of quantum mechanics is briefly sketched, giving references to the relevant literature.
翻訳日:2023-01-17 23:35:18 公開日:2022-11-21
# キャビティ導波路系における線幅抑制と光ビスタビリティによる光機械的非線形性の高感度化

Enhanced sensing of optomechanically induced nonlinearity by linewidth suppression and optical bistability in cavity-waveguide systems ( http://arxiv.org/abs/2211.11310v1 )

ライセンス: Link先を確認
Chun-Wang Liu, Ye Liu, Lei Du, Wan-Jun Su, Huaizhi Wu, and Yong Li(参考訳) 共振器導波路結合系における光機械的非線形性(omin)の高感度化について検討した。 系のハミルトニアンは反PT対称であり、2つの関連する空洞は導波路を介して散逸的に結合している。 弱い導波路を介するコヒーレントカップリングを導入すると、反PT対称性が崩壊する。 しかし, 真空誘起コヒーレンスによる直線幅抑制の恩恵を受け, 空洞共鳴近傍のOMINに対するキャビティ強度の強いバイスタブル応答が得られた。 光ビスタビリティと線幅抑制のジョイント効果は、散逸結合のみを含む反pt対称系では利用できない。 このため、感度は反PT対称モデルに比べて2桁の精度で大幅に向上する。 さらに, この感度は, 適度に大きなキャビティ崩壊に対する抵抗を示し, キャビティ導波路デチューニングにおける揺らぎに対するロバスト性を示す。 統合オプティメカルキャビティ-導波管系に基づいて、このスキームは単光子結合強度に関連する様々な物理量を検出するために使用することができ、カー型非線形性を含む物理系を用いた高精度測定に潜在的に応用できる。

We study enhanced sensing of optomechanically induced nonlinearity (OMIN) in a cavity-waveguide coupled system. The Hamiltonian of the system is anti-PT symmetric with the two involved cavities being dissipatively coupled via the waveguide. When a weak waveguide-mediated coherent coupling is introduced, the anti-PT symmetry may break down. However, we find a strong bistable response of the cavity intensity to the OMIN near the cavity resonance, benefiting from linewidth suppression caused by the vacuum induced coherence. The joint effect of optical bistability and the linewidth suppression is inaccessible by the anti-PT symmetric system involving only dissipative coupling. Due to that, the sensitivity is greatly enhanced by two orders of magnitude compared to that for the anti-PT symmetric model. Moreover, the sensitivity shows resistances to a reasonably large cavity decay and robustness to fluctuations in the cavity-waveguide detuning. Based on the integrated optomechanical cavity-waveguide systems, the scheme can be used for sensing different physical quantities related to the single-photon coupling strength, and has potential applications in high-precision measurements with physical systems involving Kerr-type nonlinearity.
翻訳日:2023-01-17 23:35:06 公開日:2022-11-21
# 3量子ビット量子誤り訂正符号による雑音二元量子情報プロトコルの絡み合い回復

Entanglement recovery in noisy binary quantum information protocols via three-qubit quantum error correction codes ( http://arxiv.org/abs/2211.11295v1 )

ライセンス: Link先を確認
Alessio Morea, Michele N. Notarnicola and Stefano Olivares(参考訳) ノイズに対する絡み合いを保存するという課題は、量子通信と量子情報伝達の両方において重要である。 この目的のために、量子誤差補正(qec)符号を用いて、少なくとも部分的には、ビットフリップまたは位相フリップエラーチャネルとしてモデル化できる環境ノイズによる障害を補償することができる。 本稿では,単純な3量子ビットのqec符号が2量子系における絡み合いと非局所性を復元する効果について検討し,スーパーデンス符号化と量子テレポーテーションの2つの実用的応用について検討する。 3ビットQEC符号は、非常に小さなノイズの存在下では完璧に機能することが知られているが、絡み合いの突然の死亡を回避でき、また、より大きな雑音振幅のために対処プロトコルの性能を向上させることができる。

The task of preserving entanglement against noises is of crucial importance for both quantum communication and quantum information transfer. To this aim, quantum error correction (QEC) codes may be employed to compensate, at least partially, the detriments induced by environmental noise that can be modelled as a bit-flip or a phase-flip error channel. In this paper we investigate the effects of the simple three-qubit QEC codes to restore entanglement and nonlocality in a two-qubit system and consider two practical applications: superdense coding and quantum teleportation. Though the considered three-qubit QEC codes are known to perfectly work in the presence of very small noise, we show that they can avoid the sudden death of entanglement and improve the performance of the addressed protocols also for larger noise amplitudes.
翻訳日:2023-01-17 23:34:48 公開日:2022-11-21
# 量子最適化のためのパリティ制約の低深さ回路実装

Low-depth Circuit Implementation of Parity Constraints for Quantum Optimization ( http://arxiv.org/abs/2211.11287v1 )

ライセンス: Link先を確認
Josua Unger, Anette Messinger, Benjamin E. Niehoff, Michael Fellner, Wolfgang Lechner(参考訳) パリティ写像を用いたQAOAにおいて,3体および4体のパウリ-Z積演算子をプラケット形状の制約の形で実装し,ゲート数と深さの低い回路の構成を提案する。 回路は、正方格子上に最も近接した接続を持つ任意の量子デバイスに実装でき、一度に1つのゲートタイプと2つのキュービットゲートの1つの方向だけを使用する。 システムサイズに依存しない回路深さの上限を求める。 この手順は、同時に実行されるゲート間の必要最小限の空間距離や、全てのキュービットのサブセット(例えば1行)内でのみ同時に実行可能であるゲートなど、ハードウェア固有の制約に対して容易に調整可能である。

We present a construction for circuits with low gate count and depth, implementing three- and four-body Pauli-Z product operators as they appear in the form of plaquette-shaped constraints in QAOA when using the parity mapping. The circuits can be implemented on any quantum device with nearest-neighbor connectivity on a square-lattice, using only one gate type and one orientation of two-qubit gates at a time. We find an upper bound for the circuit depth which is independent of the system size. The procedure is readily adjustable to hardware-specific restrictions, such as a minimum required spatial distance between simultaneously executed gates, or gates only being simultaneously executable within a subset of all the qubits, for example a single line.
翻訳日:2023-01-17 23:34:33 公開日:2022-11-21
# 多体浴中輸送におけるパラメトリック過敏性:量子ラビモデル

Parametric hypersensitivity in many-body bath-mediated transport: The quantum Rabi model ( http://arxiv.org/abs/2211.11285v1 )

ライセンス: Link先を確認
Chern Chuang, Arie Kapulkin, Arjendu K. Pattanayak, Paul Brumer(参考訳) 散逸型Rabiモデルの非平衡定常状態は,狭いパラメータ範囲を越える輸送速度の急激なスパイクを示すことを示した。 同様の結果はホルシュタインモデルやディックモデルにも見られる。 これは、対応する閉系におけるエネルギー準位交差の回避によるものであり、鍵固有状態の絡み合いエントロピーのスパイクと相関し、系の自由度間の強い混合と共鳴の兆候である。 さらに、RabiモデルとJaynes-Cummingsモデルとは対照的に、この挙動は量子可積分性と関連していることを示している。

We demonstrate that non-equilibrium steady states of the dissipative Rabi model show dramatic spikes in transport rates over narrow parameter ranges. Similar results are found for the Holstein and Dicke models. This is found to be due to avoided energy level crossings in the corresponding closed systems, and correlates with spikes in the entanglement entropy of key eigenstates, a signature of strong mixing and resonance among system degrees of freedom. Further, contrasting the Rabi model with the Jaynes-Cummings model reveals this behavior as being related to quantum integrability.
翻訳日:2023-01-17 23:34:18 公開日:2022-11-21
# 4ケルビン以下の分子陰イオンのレーザー誘起強制蒸発冷却

Laser-induced forced evaporative cooling of molecular anions below 4 Kelvin ( http://arxiv.org/abs/2211.11264v1 )

ライセンス: Link先を確認
Jonas Tauch, Saba Zia Hassan, Markus Noetzold, Eric S. Endres, Roland Wester, and Matthias Weidemueller(参考訳) 冷たく制御された分子イオンの研究は、現代物理学と化学の基礎研究の鍵となる。 特に冷却分子アニオンの研究は、冷たい反水素の生成、アニオン性クーロン結晶の生成と研究、および大気研究やアストロケミストリーにおいて重要な結果であることが証明されている。 バッファーガスとの衝突による一般的なアニオン冷却技術は、使用した低温冷却媒体の温度によって制限される。 ここでは,光子エネルギーが陰イオンの光脱離閾値よりはるかに高いレーザービームによる陰イオンの強制蒸発冷却を示す。 我々は初期温度370(12)kから2.2(8)kまでのアニオン性oh$^{-}$アンサンブルの蒸発冷却に到達した。 実験結果の定量的解析は, 固有衝突加熱の役割を含む全熱力学モデルを用いて行われ, 適合パラメータの無いアニオン冷却ダイナミクスを表わす。 この技術は、原則として、液体ヘリウム温度以下のアニオン種を冷却するために使用することができ、アニオン冷却のフロンティアを最先端の温度条件よりもはるかに低くする新しいツールを提供する。

The study of cold and controlled molecular ions is pivotal for fundamental research in modern physics and chemistry. Investigations into cooling molecular anions, in particular, have proven to be of key consequence for the production of cold antihydrogen, the creation, and study of anionic Coulomb crystals as well as in atmospheric research and astrochemistry. The commonly used anion cooling technique via collisions with a buffer gas is limited by the temperature of the used cryogenic cooling medium. Here, we demonstrate forced evaporative cooling of anions via a laser beam with photon energies far above the photodetachment threshold of the anion. We reach runaway evaporative cooling of an anionic OH$^{-}$ ensemble from an initial temperature of 370(12) K down to 2.2(8) K. This corresponds to three orders of magnitude increase in the ions' phase space density approaching the near-strong Coulomb coupling regime. A quantitative analysis of the experimental results, via a full thermodynamic model including the role of intrinsic collisional heating, represents the anion cooling dynamics without any fitting parameters. This technique can be used to cool, in principle, any anionic species below liquid helium temperature, providing a novel tool to push the frontiers of anion cooling to much lower than the state-of-the-art temperature regimes.
翻訳日:2023-01-17 23:34:09 公開日:2022-11-21
# 普遍近似のための重複フリー量子ニューラルネットワーク

A duplication-free quantum neural network for universal approximation ( http://arxiv.org/abs/2211.11228v1 )

ライセンス: Link先を確認
Xiaokai Hou, Guanyu Zhou, Qingyu Li, Shan Jin and Xiaoting Wang(参考訳) 量子ニューラルネットワークの普遍性は任意の関数を近似する能力であり、その有効性に対する理論的保証である。 非ユニバーサルニューラルネットワークは、機械学習タスクの完了に失敗する可能性がある。 普遍性の1つの提案は、量子データをテンソル積の同一のコピーにエンコードすることであるが、これによってシステムのサイズと回路の複雑さが大幅に増加する。 この問題に対処するために,汎用性を厳密に証明できる重複のない量子ニューラルネットワークの簡単な設計法を提案する。 他の確立された提案と比較して、我々のモデルはより少ないキュービットと浅い回路を必要とし、実装のリソースオーバーヘッドを著しく低減する。 また、ノイズに対してより堅牢で、短期的なデバイスで実装しやすい。 シミュレーションにより、我々のモデルは古典的および量子的学習の幅広い問題を解くことができ、その幅広い応用可能性を示す。

The universality of a quantum neural network refers to its ability to approximate arbitrary functions and is a theoretical guarantee for its effectiveness. A non-universal neural network could fail in completing the machine learning task. One proposal for universality is to encode the quantum data into identical copies of a tensor product, but this will substantially increase the system size and the circuit complexity. To address this problem, we propose a simple design of a duplication-free quantum neural network whose universality can be rigorously proved. Compared with other established proposals, our model requires significantly fewer qubits and a shallower circuit, substantially lowering the resource overhead for implementation. It is also more robust against noise and easier to implement on a near-term device. Simulations show that our model can solve a broad range of classical and quantum learning problems, demonstrating its broad application potential.
翻訳日:2023-01-17 23:33:48 公開日:2022-11-21
# 双曲型デシッター空間における対称性解消エンタングルメントエントロピー

Symmetry Resolved Entanglement Entropy in Hyperbolic de Sitter Space ( http://arxiv.org/abs/2211.11218v1 )

ライセンス: Link先を確認
Himanshu Gaur and Urjit A. Yajnik(参考訳) 本稿では,ド・ジッター空間上の絡み合いと大域的内部対称性の関係について検討する。 ド・ジッター空間上の双曲チャートにおける2つの対称因果非連結領域を考える。 絡み合い測度は相関を特徴づけるので、2つの因果非連結領域間の絡み合いの研究はデ・ジッター空間における長距離相関に関する情報を与える。 理論が付加的な大域的内部対称性を持つとき、固定された大域電荷を持つ状態の絡み合い測度は、どちらのサブシステムにおいても局所電荷セクタに分解され、より細かい絡み合いの解決を与えることができる。 ここでは、自由複素スカラー場とド・ジッター空間上の自由ディラック場という2つの理論を考える。 どちらの理論も大域的な$U(1)$対称性を持つ。 Bunch-Davies真空状態における両理論の対称性分解エントロピーについて検討する。 対称性が解決された絡み合いエントロピーは、大きな$v_{h_3}$の極限において$v_{h_3}^0$の項まで局所電荷セクタに等分され、ここで$v_{h_3}$はどちらの領域の体積である。 しかし、この同分は順序 $o(1/v_{h_3})$ によってのみ破られる。 したがって、無限体積の極限における対称性分解エンタングルメントエントロピーの等分が存在する。

In this paper, we study the relation between entanglement and global internal symmetries on de Sitter space. We consider two symmetric causally disconnected regions in the hyperbolic chart on de Sitter space. Since entanglement measures characterises correlations, the study of entanglement between the two causally disconnected regions gives information about the long range correlations in de Sitter space. When a theory possesses an additive global internal symmetry, the entanglement measures for a state with fixed global charge may be decomposed into local charge sectors in either subsystem and thus providing a finer resolution of entanglement. Here we will consider two theories: free complex scalar field, and free Dirac field on de Sitter space. Both theories possess global internal $U(1)$ symmetry. We study the symmetry resolved entanglement entropy for both theories in the Bunch-Davies vacuum state. We find that the symmetry resolved entanglement entropy has equipartition into local charge sectors upto the terms that scale as $V_{H_3}^0$ in the limit of large $V_{H_3}$, where $V_{H_3}$ is the volume of either region. This equipartition however is only broken by the terms of order $O(1/V_{H_3})$. Consequently, we have equipartition of symmetry resolved entanglement entropy in the limit of infinite volume.
翻訳日:2023-01-17 23:33:10 公開日:2022-11-21
# 高速統合QKDシステム

High-speed integrated QKD system ( http://arxiv.org/abs/2211.11560v1 )

ライセンス: Link先を確認
Rebecka Sax, Alberto Boaron, Gianluca Boso, Simone Atzeni, Andrea Crespi, Fadri Gr\"Unenfelder, Davide Rusca, Aws Al-Saadi, Danilo Bronzi, Sebastian Kupijai, Hanjo Rhee, Roberto Osellame, Hugo Zbinden(参考訳) 量子鍵分布(QKD)は、量子物理学の法則に依存し、計算複雑性に頼らず、情報理論の安全な方法で秘密鍵を生成する方法として確立された方法である。 QKDを工業化するには、低コスト、大量製造および実用的なQKDセットアップが必要である。 したがって、送信側と受信側の各コンポーネントのフォトニックおよび電子的統合が現在注目されている。 本稿では,高速変調と正確な状態調整が可能なシリコンフォトニクスの送信チップと,フェムト秒レーザーマイクロマシニング法により作製したアルミニウムホウケイ酸塩ガラスの偏光非依存低損失受信チップを特徴とする高速(2.5ghz)集積qkd構成を提案する。 本システムは, 離散成分に基づくより複雑な状態設定と等価な生ビット誤り率, 量子ビット誤り率, 秘密鍵レートを実現する。

Quantum key distribution (QKD) is nowadays a well established method for generating secret keys at a distance in an information-theoretic secure way, as the secrecy of QKD relies on the laws of quantum physics and not computational complexity. In order to industrialize QKD, low-cost, mass-manufactured and practical QKD setups are required. Hence, photonic and electronic integration of the sender's and receiver's respective components is currently in the spotlight. Here we present a high-speed (2.5 GHz) integrated QKD setup featuring a transmitter chip in silicon photonics allowing for high-speed modulation and accurate state preparation, as well as a polarization-independent low-loss receiver chip in aluminum borosilicate glass fabricated by the femtosecond laser micromachining technique. Our system achieves raw bit error rates, quantum bit error rates and secret key rates equivalent to a much more complex state-of-the-art setup based on discrete components.
翻訳日:2023-01-17 23:25:43 公開日:2022-11-21
# スペクトルエンタングル光子における非直交符号化

Nonorthogonal coding in spectrally-entangled photons ( http://arxiv.org/abs/2211.11539v1 )

ライセンス: Link先を確認
N.-Y Tsai and H. H. Jen(参考訳) 絡み合った光子の連続スペクトルモードの制御と工学は、セキュアな量子通信への有望なアプローチの1つである。 原子アンサンブル中のカスケード励起双光子から発生する通信帯域を利用することで、伝送損失が少ないため、繊維ベースの長距離量子通信が可能となる。 多重光子対を用いて、スペクトルモードに非直交符号化方式を実装し、符号ワードの高容量転送を可能にする多重チャネルのアーキテクチャを提案する。 2次相関と関連する可視性およびコントラストの測定値を用いて、提案した非直交符号化方式の性能をさらに定量化する。 本研究は,直交符号化方式を超えて量子情報をエンコード・デコードする能力を示す。 提案手法は大規模かつ多ユーザな量子通信に適用可能であり,効率的な量子情報処理への道を開くことができる。

Controlling and engineering continuous spectral modes of entangled photons represents one of the promising approaches toward secure quantum communications. By using the telecom bandwidth generated from a cascade-emitted biphoton in atomic ensembles, a fiber-based long-distance quantum communication can be feasible owing to its low transmission loss. With multiplexed photon pairs, we propose to implement a nonorthogonal coding scheme in their spectral modes and present an architecture of multiple channels enabling a high-capacity transfer of codewords. Using the measures of the second-order correlations and associated visibility and contrast, we further quantify the performance of the proposed nonorthogonal coding scheme. Our results demonstrate the capability to encode and decode quantum information beyond the orthogonal coding scheme. The proposed scheme here can be applicable to a large-scale and multiuser quantum communication and pave the way toward an efficient and functional quantum information processing.
翻訳日:2023-01-17 23:25:25 公開日:2022-11-21
# ケラー非線形性が物理的非凝固関数に及ぼす影響

Effects of Kerr nonlinearity in physical unclonable functions ( http://arxiv.org/abs/2211.11499v1 )

ライセンス: Link先を確認
Georgios M. Nikolopoulos(参考訳) 我々は,マルチ散乱光媒体におけるKerr非線形性の存在が,物理的非拘束機能の設計にどのような利点をもたらすかという問題に対処する。 その結果,ある条件下では,様々な暗号応用の文脈で活用されている線形関数と比較して,非線形な物理的非植民地関数は,媒体の潜在的クローニングに対してより強固であることが示唆された。

We address the question of whether the presence of Kerr nonlinearity in multiple-scattering optical media offers any advantage with respect to the design of physical unclonable functions. Our results suggest that under certain conditions, nonlinear physical unclonable functions can be more robust against the potential cloning of the medium, relative to their linear counterparts that have been exploited in the context of various cryptographic applications.
翻訳日:2023-01-17 23:25:10 公開日:2022-11-21
# 原子超格子における磁化モノポール誘起ポーラロン

Magnetic monopole induced polarons in atomic superlattices ( http://arxiv.org/abs/2211.11481v1 )

ライセンス: Link先を確認
Xiang Gao, Ya-Fen Cai, Shao-Jun Li, Shou-Long Chen, Xue-Ting Fang, Qian-Ru Zhu, Lushuai Cao, Peter Schmelcher and Zhong-Kun Hu(参考訳) 磁気モノポールは、凝縮物質と超低温原子プラットフォームの両方において創発性準粒子として実現され、モノポールと異なる磁性準粒子のカップリング効果への関心が高まっている。 本研究では, 原子間擬似スピン鎖に対するモノポールとマグノンの相互作用効果について検討した。 我々は、モノポールが常磁性鎖の仮想マグノン雲を励起し、それによって新しいタイプのポーラロン、モノポール被覆ポーラロン(McP)が生じることを明らかにした。 McPはモノポールを不純物核とし、仮想マグノン励起をドレッシング雲とする。 マグノンドレッシングはディラック弦の励起を促進し、モノポールホッピングに影響を及ぼす。 これは、一般的なポラロンの自己トラッピングとは対照的に、このドレッシングによってマクPの移動性が促進されるという事実に言及する、マクPの対トラッピング効果を誘導する。 さらに、北と南の単極の同時ドーピングの下に異質の双極子が存在することが示されている。 不均一双極子は2つの同一の不純物からなる内部自由度を持つ。 我々の調査は、不純物核とドレッシング雲の結合がポーラロンの性質をどのように設計できるかの理解に光を当てている

Magnetic monopoles have been realized as emergent quasiparticles in both condensed matter and ultracold atomic platforms, with growing interests in the coupling effects between the monopole and different magnetic quasiparticles. In this work, interaction effects between monopoles and magnons are investigated for an atomic pseudospin chain. We reveal that the monopole can excite a virtual magnon cloud in the paramagnetic chain, thereby giving rise to a new type of polaron, the monopole-cored polaron (McP). The McP is composed of the monopole as the impurity core and the virtual magnon excitation as the dressing cloud. The magnon dressing facilitates the Dirac string excitation and impacts the monopole hopping. This induces an anti-trapping effect of the McP, which refers to the fact that the dressing enhances the mobility of the McP, in contrast to the self-trapping of the common polarons. Moreover, heterogeneous bipolarons are shown to exist under the simultaneous doping of a north and a south monopole. The heterogeneous bipolaron possesses an inner degree of freedom composed of two identical impurities. Our investigation sheds light on the understanding of how the coupling between the impurity core and the dressing cloud can engineer the property of the polaron
翻訳日:2023-01-17 23:25:03 公開日:2022-11-21
# 乱れたシステムの時間進化における局所性追跡

Tracking locality in time evolution of disordered systems ( http://arxiv.org/abs/2211.11480v1 )

ライセンス: Link先を確認
Tomasz Szo{\l}dra, Piotr Sierant, Maciej Lewenstein, Jakub Zakrzewski(参考訳) 一次元スピン系の局所密度相関関数を用いて、所与のサイト上のフルシステムである$L$と$\ell<L$サイトとの相関関係を比較する相関関数差(CFD)を導入する。 本稿では, 量子多体系における情報伝達に関する有用な情報として, エルゴード系, アンダーソン系, および乱れたXXZスピン鎖における多体局所化機構の例を考察する。 エルゴード相では、CFDの伝播はスピン輸送よりも漸近的に速いが、リーブ・ロビンソン境界によって示唆される弾道伝播よりも遅い。 対照的に、局所化の場合、CFDの指数的に緩やかな緩和が生じる。 cfdと非局所相関を検知する他の観測器との接続について検討した。

Using local density correlation functions for a one-dimensional spin system, we introduce a correlation function difference (CFD) which compares correlations on a given site between a full system of size $L$ and its restriction to $\ell<L$ sites. We show that CFD provides useful information on transfer of information in quantum many-body systems by considering the examples of ergodic, Anderson, and many-body localized regimes in disordered XXZ spin chain. In the ergodic phase, we find that the propagation of CFD is asymptotically faster than the spin transport but slower than the ballistic propagation implied by the Lieb-Robinson bound. In contrast, in the localized cases, we unravel an exponentially slow relaxation of CFD. Connections between CFD and other observables detecting non-local correlations in the system are discussed.
翻訳日:2023-01-17 23:24:42 公開日:2022-11-21
# デコヒーレンス支援量子駆動

Decoherence-assisted quantum driving ( http://arxiv.org/abs/2211.11451v1 )

ライセンス: Link先を確認
Pavel Cejnar, Pavel Str\'ansk\'y, Jan St\v{r}ele\v{c}ek, Felipe Matus(参考訳) 本稿では,外部オブザーバシステムとの繰り返し計測のような相互作用を用いた,有界量子系のパラメータ空間における過渡的駆動プロトコルを提案する。 量子ゼノ効果の結果として、最終的な状態形成の忠実性は無限次相互作用の極限におけるユニティに等しい。 有限次相互作用では、最小幾何長の駆動軌道に対して最大忠実性が得られ、パラメータ空間のprovost-vallee計量に対して一定の速度を維持する。 我々は,対話型マルチキュービットシステムにおいてプロトコルを数値的にテストし,コヒーレント駆動法よりもその支配性を示す。

We propose a protocol for transitionless driving of a bound quantum system in its parameter space using repeated measurement-like interactions with an external spectator system. As a consequence of the quantum Zeno effect, the fidelity of the final state preparation is equal to unity in the limit of infinite-rate interactions. For finite-rate interactions, the maximal fidelity is achieved for the driving trajectory having a minimal geometric length and keeping a constant speed with respect to the Provost-Vallee metric in the parameter space. We numerically test the protocol in an interacting multiqubit system, demonstrating its dominance over the method of coherent driving.
翻訳日:2023-01-17 23:24:27 公開日:2022-11-21
# 実験的相関ブースト量子エンジン

Experimental Correlation-Boosted Quantum Engine ( http://arxiv.org/abs/2211.11449v1 )

ライセンス: Link先を確認
Marcela Herrera, John H. Reina, Irene D'Amico, Roberto M. Serra(参考訳) 本研究では,2量子相関型SWAPヒートエンジンの設計と実験により,通常のカルノット限界を超える効率を実現し,初期量子ビット相関が存在しない場合のエンジンサイクルに関して,より広い量子ビットエネルギーギャップ比窓において抽出可能な作業量を増やすことができる。 促進された効率は、エントロピー生成と全熱力学サイクル中の量子相関の消費の間のトレードオフから生じる。 一般化された第2法則の限界を導出し,IBM量子プロセッサを用いて実効エネルギーギャップと温度を調整し,エンジン効率の向上を実験的に実証する。

We design and experimentally implement a two-qubit quantum correlated SWAP heat engine that allows to achieve an efficiency above the standard Carnot limit, and to boost the amount of extractable work, in a wider qubit energy-gap ratio window, with respect to engine's cycle in the absence of initial qubit correlations. The boosted efficiency arises from a trade-off between the entropy production and the consumption of quantum correlations during the full thermodynamic cycle. We derive a generalized second-law limit and experimentally demonstrate the engine efficiency enhancement by tailoring the qubits effective energy gap and temperature, using an IBM quantum processor.
翻訳日:2023-01-17 23:24:16 公開日:2022-11-21
# 非エルミート二バンドBCSモデルにおけるゼロ例外点におけるマイスナー効果の破壊

Breakdown of the Meissner effect at the zero exceptional point in non-Hermitian two-band BCS model ( http://arxiv.org/abs/2211.11422v1 )

ライセンス: Link先を確認
Takanobu Taira(参考訳) 非エルミート多体ハミルトニアン(英: non-Hermitian many-body Hamiltonian、NHMBH)は、開系における超低温原子の有効理論である。 そのようなハミルトニアンの固有値は分岐切断構造を許容し、これは例外点と呼ばれる新しい位相遷移点をもたらす。 ここでは、ギャップパラメータが有限である間、NHMBHのマイスナー効果が例外点で崩壊することを示す。 平均場理論のパス積分形式と非エルミート版を用いて、外部浴に結合した二バンドBardeen-Cooper-Schrieffer Hamiltonianを解析する。 本結果は,非エルミート系に限った磁場の新たな挙動を示す。 これは非エルミート多体系における例外点を実験的に検出する方法を意味する。

A non-Hermitian many-body Hamiltonian (NHMBH) is an effective theory of an ultra-cold atom in an open system. Eigenvalues of such a Hamiltonian admit a branch-cut structure, which gives rise to a novel phase transition point called the exceptional point. Here we show that the Meissner effect of the NHMBH breaks down at the exceptional point while the gap parameters stay finite. We analyze the two-band Bardeen-Cooper-Schrieffer Hamiltonian coupled to the external bath, using the path-integral formalism and the non-Hermitian version of the mean-field theory. Our result shows the novel behavior of the magnetic field exclusive to the non-Hermitian system. It implies a possible way to experimentally detect the exceptional point in the non-Hermitian many-body system.
翻訳日:2023-01-17 23:24:05 公開日:2022-11-21
# 量子オイラー角とエージェンシー依存時空

Quantum Euler angles and agency-dependent spacetime ( http://arxiv.org/abs/2211.11347v1 )

ライセンス: Link先を確認
Giovanni Amelino-Camelia, Vittorio D'Esposito, Giuseppe Fabiano, Domenico Frattulillo, Philipp A. Hoehn, Flavio Mercati(参考訳) 量子重力は参照フレームの記述に量子的側面を導入することが期待されている。 ここでは、古典対称性の量子重力誘起変形が参照フレーム間の変換則を効果的に修正する方法について検討する。 量子群 $SU_q(2)$ を、2つの参照フレーム間の相対配向を記述するものとして、変形した空間回転と代数の表現の解釈状態の記述として呼び出す。 これはオイラー角の1つを量子化し、エージェンシー依存の新しいパラダイムへと導く:空間はファジィ点の集合として再構成され、各エージェントに排他的であり、参照フレームの選択に依存する。 各エージェントは、ポイントがシャープになる1つの方向のみを選択でき、他のすべての方向のポイントは、この選択に依存する方法でファジィになる。 異なる選択をする2つのエージェントは、同じポイントを異なる度合いで観察する。

Quantum gravity is expected to introduce quantum aspects into the description of reference frames. Here we set the stage for exploring how quantum gravity induced deformations of classical symmetries could modify the transformation laws among reference frames in an effective regime. We invoke the quantum group $SU_q(2)$ as a description of deformed spatial rotations and interpret states of a representation of its algebra as describing the relative orientation between two reference frames. This leads to a quantization of one of the Euler angles and to the new paradigm of agency-dependence: space is reconstructed as a collection of fuzzy points, exclusive to each agent, which depends on their choice of reference frame. Each agent can choose only one direction in which points can be sharp, while points in all other directions become fuzzy in a way that depends on this choice. Two agents making different choices will thus observe the same points with different degrees of fuzziness.
翻訳日:2023-01-17 23:23:48 公開日:2022-11-21
# 量子計測システム:ホログラフィック原理からの考察

Quantum measuring systems: considerations from the holographic principle ( http://arxiv.org/abs/2211.11345v1 )

ライセンス: Link先を確認
Eiji Konishi(参考訳) 観測可能な集合にいかなる超選択的規則も適用しない量子力学では、閉量子系は時間的に一元的に発展し、このローレンツ系はちょうどゼロのフォン・ノイマンエントロピーによって特徴づけられる。 In the holographic theory in the classicalized ground state, we argue that the unitary real-time evolution of a non-relativistic free particle with complex-valued quantum probability amplitude in this Lorentzian regime can be temporally analytically continued to an imaginary-time classical stochastic process with real-valued conditional probability density in the Euclidean regime, where the von Neumann entropy of the classicalized hologram and the information of a particle trajectory acquired by the classicalized hologram are positive valued. この議論はホログラフィック宇宙のユークリッド体制に光を当てることができた。

In quantum mechanics without application of any superselection rule to the set of the observables, a closed quantum system temporally evolves unitarily, and this Lorentzian regime is characterized by von Neumann entropy of exactly zero. In the holographic theory in the classicalized ground state, we argue that the unitary real-time evolution of a non-relativistic free particle with complex-valued quantum probability amplitude in this Lorentzian regime can be temporally analytically continued to an imaginary-time classical stochastic process with real-valued conditional probability density in the Euclidean regime, where the von Neumann entropy of the classicalized hologram and the information of a particle trajectory acquired by the classicalized hologram are positive valued. This argument could shed light on the Euclidean regime of the holographic Universe.
翻訳日:2023-01-17 23:23:33 公開日:2022-11-21
# マヨラナ表面符号の新しいツイスト:フォールトトレラント量子計算におけるボソニックおよびフェルミオン欠陥

A new twist on the Majorana surface code: Bosonic and fermionic defects for fault-tolerant quantum computation ( http://arxiv.org/abs/2211.11777v1 )

ライセンス: Link先を確認
Campbell McLauchlan and Benjamin B\'eri(参考訳) majorana zero modes (mzms) は、トポロジカル保護された量子コンピューティングハードウェアの候補として期待されているが、大規模な使用には量子エラー訂正が必要になる可能性が高い。 これを達成するために majorana surface codes (mscs) が提案されている。 しかし、多くのMSC特性は未解明のままである。 我々は,msc "twist defects" と "\unicode{x2013}$ anyon-like objects encoding quantum information" の統一フレームワークを提案する。 我々は,MSCのツイスト欠陥が,量子ビット符号や他のMSC符号化方式の2倍の位相的に保護された情報を符号化可能であることを示す。 これは、論理量子ビットと「論理的MZM」の両方をコードするツイストが原因であり、後者は保護顕微鏡のMZMが提供できるように拡張する。 論理量子ビットおよび論理MZMを用いて、他のMSC方式よりもはるかに少ないリソースを用いて、普遍計算を行う方法を説明する。 すべてのクリフォードゲートは、ツイスト欠陥をブレイディングすることで論理キュービット上で実装することができる。 我々は,論理的MZMと論理的量子ビットを用いた計測に基づく計算手法を導入し,クリフォードゲートの効果を時間オーバーヘッドゼロで実現した。 また,論理mzmは計算の全てのステップに対してコード距離に関して空間的オーバーヘッドのスケーリングを改善することを示した。 最後に,mzmの微視的ブレイディングによりコード化されたクリフォードゲートを小さなコードで実現するトランスバーサルゲートのmscアナログを提案する。 したがって、mscツイスト欠陥はフォールトトレラント量子計算への新たな道を開く。

Majorana zero modes (MZMs) are promising candidates for topologically-protected quantum computing hardware, however their large-scale use will likely require quantum error correction. Majorana surface codes (MSCs) have been proposed to achieve this. However, many MSC properties remain unexplored. We present a unified framework for MSC "twist defects" $\unicode{x2013}$ anyon-like objects encoding quantum information. We show that twist defects in MSCs can encode twice the amount of topologically protected information as in qubit-based codes or other MSC encoding schemes. This is due to twists encoding both logical qubits and "logical MZMs," with the latter enhancing the protection microscopic MZMs can offer. We explain how to perform universal computation with logical qubits and logical MZMs while using far fewer resources than in other MSC schemes. All Clifford gates can be implemented on logical qubits by braiding twist defects. We introduce measurement-based techniques for computing with logical MZMs and logical qubits, achieving the effect of Clifford gates with zero time overhead. We also show that logical MZMs result in an improved scaling of spatial overheads with respect to code distance for all steps of the computation. Finally, we introduce a novel MSC analogue of transversal gates that achieves encoded Clifford gates in small codes by braiding microscopic MZMs. MSC twist defects thus open new paths towards fault-tolerant quantum computation.
翻訳日:2023-01-17 23:17:40 公開日:2022-11-21
# 有限ゲージ理論における高群対称性と安定化符号

Higher-group symmetry in finite gauge theory and stabilizer codes ( http://arxiv.org/abs/2211.11764v1 )

ライセンス: Link先を確認
Maissam Barkeshli, Yu-An Chen, Po-Shen Hsin, Ryohei Kobayashi(参考訳) 物質のギャップ位相の大規模なクラスは、トポロジカル有限群ゲージ理論によって記述できる。 本稿では、d$-群大域対称性とその位相有限群ゲージ理論に対する「t hooft anomaly」を、非可換ゲージ群とダイクグラフ-ウィッテンツイストを含む(d+1)$時空次元で導出する。 低次元ゲージ対称性保護位相位相(spt)相で装飾された可逆的(可換)磁気欠陥と可逆的位相欠陥によって生成される高次対称性に注目した。 ウィッテン効果の一般化と電荷流束アタッチメントにより、磁気欠陥によって生じる1-形式対称性が、他の対称性とより高次に混合することを示す。 このような高群対称性を格子モデルの例で記述する。 一般フェルミオン対称性群 (3+1)d におけるフェルミオンspt相の分類を含むいくつかの応用について検討し、ここでは以前の研究よりもより簡単な $[o_5] \in h^5(bg, u(1))$ の式も導出する。 また,$d$-group対称性がフォールトトレラントな非ポーリ論理ゲートや安定化符号の洗練されたクリフォード階層と関連していることを示す。 3+1)D $\mathbb{Z}_2$ トーリック符号の制御-Zゲートのような$d$-群対称性を用いて安定化器符号に新たな論理ゲートを構築する。

A large class of gapped phases of matter can be described by topological finite group gauge theories. In this paper, we derive the $d$-group global symmetry and its 't Hooft anomaly for topological finite group gauge theories in $(d+1)$ space-time dimensions, including non-Abelian gauge groups and Dijkgraaf-Witten twists. We focus on the 1-form symmetry generated by invertible (Abelian) magnetic defects and the higher-form symmetries generated by invertible topological defects decorated with lower dimensional gauged symmetry-protected topological (SPT) phases. We show that due to a generalization of the Witten effect and charge-flux attachment, the 1-form symmetry generated by the magnetic defects mixes with other symmetries into a higher group. We describe such higher-group symmetry in various lattice model examples. We discuss several applications, including the classification of fermionic SPT phases in (3+1)D for general fermionic symmetry groups, where we also derive a simpler formula for the $[O_5] \in H^5(BG, U(1))$ obstruction than has appeared in previous work. We also show how the $d$-group symmetry is related to fault-tolerant non-Pauli logical gates and a refined Clifford hierarchy in stabilizer codes. We construct new logical gates in stabilizer codes using the $d$-group symmetry, such as the control-Z gate in (3+1)D $\mathbb{Z}_2$ toric code.
翻訳日:2023-01-17 23:17:15 公開日:2022-11-21
# 直交ユニタリ基底とサブファクター導出

Orthogonal Unitary Bases and a Subfactor Conjecture ( http://arxiv.org/abs/2211.11732v1 )

ライセンス: Link先を確認
Jason Crann, David W. Kribs and Rajesh Pereira(参考訳) 任意の有限次元フォン・ノイマン代数がその標準トレースに関して正則ユニタリ基底を持つことを示す。 また、m_n(\mathbb{c})$ の有限次元フォン・ノイマン部分環が正規化行列トレースの下で正規直交ユニタリ基底を持つことと、その正規化行列トレースとフォン・ノイマン部分環の標準トレースが一致することを言う。 応用として、最近のBakshi-Gupta予想を検証し、任意の有限インデックス正則包含$N\subseteq M$ of $II_1$-factors が正則ユニタリピムスナー・ポパ基底を持つことを示す。

We show that any finite dimensional von Neumann algebra admits an orthonormal unitary basis with respect to its standard trace. We also show that a finite dimensional von Neumann subalgebra of $M_n(\mathbb{C})$ admits an orthonormal unitary basis under normalized matrix trace if and only if the normalized matrix trace and standard trace of the von Neumann subalgebra coincide. As an application, we verify a recent conjecture of Bakshi-Gupta, showing that any finite-index regular inclusion $N\subseteq M$ of $II_1$-factors admits an orthonormal unitary Pimsner-Popa basis.
翻訳日:2023-01-17 23:16:44 公開日:2022-11-21
# 量子多数決

Quantum majority vote ( http://arxiv.org/abs/2211.11729v1 )

ライセンス: Link先を確認
Harry Buhrman and Noah Linden and Laura Man\v{c}inska and Ashley Montanaro and Maris Ozols(参考訳) 多数決は、コンピュータ科学などで広く使われている正しい結果を増幅するための基本的な方法である。 量子デバイスの正しさを古典的な出力で増幅することができるが、量子出力の類似の手順は知られていない。 積状態 $|\psi_1\rangle \otimes \dots \otimes |\psi_n\rangle$ が与えられたとき、各キュービットは2つの直交状態 $|\psi\rangle$ または $|\psi^\perp\rangle$ のどちらかに属する。 この問題の最適アルゴリズムは、1/2 + \theta(1/\sqrt{n})$ の最悪の場合の忠実性を達成する。 入力キュービットの少なくとも2/3ドルが多数にあるという約束のもと、その忠実度は1 - \Theta(1/n)$に増加し、n$が増加するにつれて1ドルに近づく。 また、対称で同変のブール関数 $f: \{0,1\}^n \to \{0,1\}$ を未知の量子基底で計算するより一般的な問題も検討し、この問題に対して我々の量子多数決アルゴリズムの一般化が最適であることを示す。 一般化アルゴリズムの最適パラメータとその最悪の場合の忠実性は、サイズ$o(n)$の単純な線形プログラムによって決定できる。 アルゴリズムの時間複雑性は$O(n^4 \log n)$であり、$n$は入力量子ビットの数である。

Majority vote is a basic method for amplifying correct outcomes that is widely used in computer science and beyond. While it can amplify the correctness of a quantum device with classical output, the analogous procedure for quantum output is not known. We introduce quantum majority vote as the following task: given a product state $|\psi_1\rangle \otimes \dots \otimes |\psi_n\rangle$ where each qubit is in one of two orthogonal states $|\psi\rangle$ or $|\psi^\perp\rangle$, output the majority state. We show that an optimal algorithm for this problem achieves worst-case fidelity of $1/2 + \Theta(1/\sqrt{n})$. Under the promise that at least $2/3$ of the input qubits are in the majority state, the fidelity increases to $1 - \Theta(1/n)$ and approaches $1$ as $n$ increases. We also consider the more general problem of computing any symmetric and equivariant Boolean function $f: \{0,1\}^n \to \{0,1\}$ in an unknown quantum basis, and show that a generalization of our quantum majority vote algorithm is optimal for this task. The optimal parameters for the generalized algorithm and its worst-case fidelity can be determined by a simple linear program of size $O(n)$. The time complexity of the algorithm is $O(n^4 \log n)$ where $n$ is the number of input qubits.
翻訳日:2023-01-17 23:16:27 公開日:2022-11-21
# 量子最適輸送コストの単調性について

On the monotonicity of a quantum optimal transport cost ( http://arxiv.org/abs/2211.11713v1 )

ライセンス: Link先を確認
Alexander M\"uller-Hermes(参考訳) チャクラバルティらによって提唱された$$$-wasserstein距離の量子汎化は、部分的トレースの下では単調ではない。 これは、Friedlandらによる最近の予想を否定する。 最後に,従来の定義の安定バージョンを提案し,一般量子チャネルの適用下では単調であることを示す。

We show that the quantum generalization of the $2$-Wasserstein distance proposed by Chakrabarti et al. is not monotone under partial traces. This disproves a recent conjecture by Friedland et al. Finally, we propose a stabilized version of the original definition, which we show to be monotone under the application of general quantum channels.
翻訳日:2023-01-17 23:15:53 公開日:2022-11-21
# 特化ニューラルネットワークによる簡易量子プロセス評価

Simplified Quantum Process Characterization by Specialised Neural Networks ( http://arxiv.org/abs/2211.11655v1 )

ライセンス: Link先を確認
Massimiliano Guarneri, Ilaria Gianani, Marco Barbieri and Andrea Chiuri(参考訳) 従来の知識に基づく量子オブジェクトのキャラクタリゼーションは、特に実際のコンポーネントのルーチン手順につながるため、貴重なアプローチである。 この目的のために、機械学習アルゴリズムはノイズの存在下でうまく動作することを示した。 しかし, 未知の寄生効果が, 我々が特徴づけを目論んでいるものと一致している例もある。 そこで本研究では,2段階ニューラルネットワークの正確な設計が,これらの乱れのクラスをも考慮し,複数の量子チャネルのキャラクタリゼーションに適用することを示す。 シミュレーションデータのみを用いてネットワークを訓練することにより,安定かつ信頼性の高いキャラクタリゼーションが実現可能であることを示す。 その結果、量子領域におけるnnsの雇用に対する全く新しいパラダイムに基づく効果的なツールとしての有効性が示された。

Characterization of quantum objects based on previous knowledge is a valuable approach, especially as it leads to routine procedures for real-life components. To this end, Machine Learning algorithms have demonstrated to successfully operate in presence of noise. However, there might be instances in which unknown parasitic effects occur in tandem with the sought one we aim at characterizing. Here we show that the accurate design of a two-stage neural network can account for these class of disturbances as well, applying our technique to the characterization of several quantum channels. We demonstrate that a stable and reliable characterization is achievable by training the network only with simulated data. The obtained results show the viability of this approach as an effective tool based on a completely new paradigm for the employment of NNs in the quantum domain.
翻訳日:2023-01-17 23:15:48 公開日:2022-11-21
# 大型非調和バイポーラロンの安定性条件

Stability conditions for a large anharmonic bipolaron ( http://arxiv.org/abs/2211.11632v1 )

ライセンス: Link先を確認
Matthew Houtput, Jacques Tempere(参考訳) 大きなポーラロン(英: large polaron)は、物質のフォノンと相互作用するほとんど自由な電子からなる準粒子であり、格子パラメータはポーラロンスケールよりもはるかに小さい。 電子-フォノン相互作用は電子間の魅力的な相互作用をもたらすため、2つのポラロンが対になってバイポーラロンを形成することができる。 強い1-電子-1-フォノンカップリングにより理論上は大きな双極子を形成することが示されているが、必要な電子-フォノン相互作用の臨界値が大きすぎるため実材料では見られない。 ここでは, 1-電子-2-フォノンカップリングが大型双極子問題に及ぼす影響について検討する。 標準1-電子-1-フォノン相互作用とアンハーモニック1-電子-2-フォノン相互作用の両方を含むFr\"ohlich Hamiltonianの一般化から始まり、経路積分法を用いてFr\"ohlich結合強度$\alpha$のすべての値で有効な双極子エネルギーの半解析上界を求める。 バイポーラロンエネルギーと2つの自由ポーラロンのエネルギーを比較することにより、バイポーラロン位相図とバイポーラロン安定性の条件を見いだす。 Fr\"ohlich結合強度$\alpha_{\text{crit}}$の臨界値は、1-電子2-フォノン相互作用の強度の関数として計算される。 この結果は、チタン酸ストロンチウムのような強い1-電子-2-フォノン相互作用と強い1-電子-1-フォノン相互作用を持つ物質では、大きなバイポーラロン形成がより起こりやすいことを示唆している。

A large polaron is a quasiparticle that consists of a nearly free electron interacting with the phonons of a material, whose lattice parameters are much smaller than the polaron scale. The electron-phonon interaction also leads to an attractive interaction between electrons, which can allow two polarons to pair up and form a bipolaron. It has been shown that large bipolarons can form in theory due to strong 1-electron-1-phonon coupling, but they have not been seen in real materials because the critical value of the required electron-phonon interaction is too large. Here, we investigate the effect of 1-electron-2-phonon coupling on the large bipolaron problem. Starting from a generalization of the Fr\"ohlich Hamiltonian that includes both the standard 1-electron-1-phonon interaction as well as an anharmonic 1-electron-2-phonon interaction, we use the path integral method to find a semi-analytical upper bound for the bipolaron energy that is valid at all values of the Fr\"ohlich coupling strength $\alpha$. We find the bipolaron phase diagram and conditions for the bipolaron stability by comparing the bipolaron energy to the energy of two free polarons. The critical value of the Fr\"ohlich coupling strength $\alpha_{\text{crit}}$ is calculated as a function of the strength of the 1-electron-2-phonon interaction. The results suggest that large bipolaron formation is more likely in materials with significant 1-electron-2-phonon interaction as well as strong 1-electron-1-phonon interaction, such as strontium titanate.
翻訳日:2023-01-17 23:15:38 公開日:2022-11-21
# 開量子系における非指数崩壊状態の探究

Probing the Non-exponential Decay Regime in Open Quantum Systems ( http://arxiv.org/abs/2211.11619v1 )

ライセンス: Link先を確認
S. M. Wang, W. Nazarewicz, A. Volya, Y. G. Ma(参考訳) 放射能の最も重要な法則は指数崩壊の法則である。 しかし、量子力学の領域では、指数減衰法則は厳密でも基礎的でもない。 指数的崩壊からの偏差は崩壊過程の初期段階で実験的に観測されているが、理論的に非常に長い時間にわたって予想される非指数的挙動の明確な証拠はない。 本報告では,閾値共鳴の減衰,3体崩壊における粒子相関,近距離共鳴の干渉など,指数崩壊後の状態の実験的研究に使用できる候補オブザーバブルを提案する。 基本量子理論に根ざした、議論された新しい現象は、オープン量子系の性質に関する洞察を与える。

The most important law of radioactivity is that of the exponential decay. In the realm of quantum mechanics, however, the exponential decay law is neither rigorous nor fundamental. The deviations from the exponential decay have been observed experimentally at the early stage of a decay process, but there is no firm evidence for non-exponential behavior expected theoretically at very long times. In this Letter, we propose some candidate observables that can be used for experimental investigations of the post-exponential decay regime, including the decay of threshold resonances, particle correlations in three-body decays, and interference between near-lying resonances. The novel phenomena discussed, rooted in fundamental quantum theory, offer insights into properties of open quantum systems.
翻訳日:2023-01-17 23:15:08 公開日:2022-11-21
# 量子コンピュータの振動構造のランタイム最適化:座標と計測スキーム

Runtime optimization for vibrational structure on quantum computers: coordinates and measurement schemes ( http://arxiv.org/abs/2211.11615v1 )

ライセンス: Link先を確認
Marco Majland, Rasmus Berg Jensen, Mads Greisen H{\o}jlund, Nikolaj Thomas Zinner, Ove Christiansen(参考訳) 短期デバイスにおける実用的な量子利点の実証を禁止する主な課題の1つは、基底状態エネルギーのような関連する物理量を計算するための過剰な測定オーバーヘッドである。 しかし、分子の電子構造と振動構造の大きな違いがあるため、非調和振動状態推定のための資源削減の研究は、電子構造と比べ、比較的未検討のままである。 重要なことに、ボソニック可換関係、区別可能なヒルベルト空間、振動座標は、計算資源の使用を最適化するために振動系の異なる操作を可能にする。 本研究では,種々の3モード(6モード)分子の無調波振動状態の推定における,異なる座標系と測定方式の影響について検討する。 最適座標変換を用いて,平均3倍(2倍)の最大7倍(5倍)のランタイム還元を実演する。 このような減少にもかかわらず、化学動機付けされたans{\"a}tzeと現実的なポテンシャルエネルギー表面のランタイムの粗い見積もりは非常に相当なものであり、実用的な量子効果を示すためにはさらなる改善が必要である。

One of the primary challenges prohibiting demonstrations of practical quantum advantages for near-term devices amounts to excessive measurement overheads for estimating relevant physical quantities such as ground state energies. However, with major differences between electronic and vibrational structure of molecules, the study of resource reductions for estimating anharmonic vibrational states remains relatively unexplored compared to its electronic counterpart. Importantly, bosonic commutation relations, distinguishable Hilbert spaces and vibrational coordinates allow different manipulations of the vibrational system in order to optimize the use of computational resources. In this work, we investigate the impact of different coordinate systems and measurement schemes on the runtime of estimating anharmonic vibrational states for a variety of three-mode (six-mode) molecules. We demonstrate an average of threefold (twofold), with up to sevenfold (fivefold), runtime reductions by employing appropriate coordinate transformations. Despite such reductions, crude estimates of runtimes for chemically motivated Ans{\"a}tze and realistic potential energy surfaces are very considerable and thus further improvements are necessary to demonstrate practical quantum advantages.
翻訳日:2023-01-17 23:14:56 公開日:2022-11-21
# 補チャネルと乗法ドメインによる絡み合いの分類

Entanglement Breaking Rank via Complementary Channels and Multiplicative Domains ( http://arxiv.org/abs/2211.11909v1 )

ライセンス: Link先を確認
David W. Kribs, Jeremy Levick, Rajesh Pereira and Mizanur Rahaman(参考訳) 量子絡み合いは完全正の写像の理論を通じて様々な方法で研究することができる、例えば、絡み合う量子チャネルを持つ分離可能な状態と絡み合う量子チャネルを持つ最適アンサンブル長を識別するChoi-Jamilkowski同型を用いる。 乗法領域は完全正の写像の理論において重要な作用素構造である。 本稿では,相補的量子チャネルによって決定される乗法領域の解析に基づいて,チャネルが絡み合い破壊であるか否かを判定し,絡み合い破壊ランクを評価する新しい手法を提案する。 我々は,射影をchoi行列として有する絡み目破断チャネルのクラスを詳細に記述し,これらのチャネルの絡み目破れとchoiランクが等しくなることを示す。

Quantum entanglement can be studied through the theory of completely positive maps in a number of ways, including by making use of the Choi-Jamilkowski isomorphism, which identifies separable states with entanglement breaking quantum channels, and optimal ensemble length with entanglement breaking rank. The multiplicative domain is an important operator structure in the theory of completely positive maps. We introduce a new technique to determine if a channel is entanglement breaking and to evaluate entanglement breaking rank, based on an analysis of multiplicative domains determined by complementary quantum channels. We give a full description of the class of entanglement breaking channels that have a projection as their Choi matrix, and we show the entanglement breaking and Choi ranks of such channels are equal.
翻訳日:2023-01-17 23:07:26 公開日:2022-11-21
# 累積展開法による原子配列の超ラジアントダイナミクスのキャラクタリゼーション

Characterizing superradiant dynamics in atomic arrays via a cumulant expansion approach ( http://arxiv.org/abs/2211.11895v1 )

ライセンス: Link先を確認
Oriol Rubies-Bigorda, Stefan Ostermann and Susanne F. Yelin(参考訳) サブ波長の格子間隔を持つ秩序原子配列は、集合的に光を発する。 完全に反転した原子配列の場合、これは初期の放射線のバーストと、初期の時点で原子間のコヒーレンスを高速に蓄積する。 運動方程式の累積展開に基づいて、放射特性の正確な解析式を導出し、全多体問題を数値解析し、最大数百個の原子からなる前例のないシステムサイズの集団崩壊過程を導出する。 我々は累積拡大アプローチをベンチマークし,超高次性をもたらす協調ダイナミクスを正しく捉えていることを示す。 完全逆配列に対しては、超放射能ピークのスケーリングを粒子数で抽出することができる。 原子間でコヒーレンスが共有されない部分励起配列に対しては、1次元および2次元の幾何学において超放射能の出現に必要な励起の臨界数も決定する。 また,非単位充填および位置障害における超放射能の堅牢性について検討した。

Ordered atomic arrays with subwavelength lattice spacing emit light collectively. For fully inverted atomic arrays, this results in an initial burst of radiation and a fast build up of coherences between the atoms at initial times. Based on a cumulant expansion of the equations of motion, we derive exact analytical expressions for the emission properties and numerically analyze the full many-body problem resulting in the collective decay process for unprecedented system sizes of up to a few hundred atoms. We benchmark the cumulant expansion approach and show that it correctly captures the cooperative dynamics resulting in superradiance. For fully inverted arrays, this allows us to extract the scaling of the superradiant peak with particle number. For partially excited arrays where no coherences are shared among atoms, we also determine the critical number of excitations required for the emergence of superradiance in one- and two-dimensional geometries. In addition, we study the robustness of superradiance in the case of non-unit filling and position disorder.
翻訳日:2023-01-17 23:07:10 公開日:2022-11-21
# マージナル独立と強い部分付加性への近似

Marginal independence and an approximation to strong subadditivity ( http://arxiv.org/abs/2211.11858v1 )

ライセンス: Link先を確認
Temple He, Veronika E. Hubeny, Massimiliano Rota(参考訳) 多元量子系が与えられたとき、いくつかの当事者間で相互独立性を課す方法と、それらの要求を満たす量子状態が存在するような相関が存在する方法とは何だろうか? この問題とその関連概念はarXiv:1912.01041で導入され、その後arXiv:2204.00075で議論され、ホログラフィックエントロピー円錐の導出に必要な情報を抽出した。 ここでは,arxiv:1912.01041で開始された一般解析を継続し,特に部分加法的飽和に必要な条件の影響に着目した。 この条件は、クラインの条件を疑うものであり、PMIに対する強い部分付加性への近似として解釈される。 任意の数のパーティに対して、この条件に適合するPMIの集合が格子を形成することを示し、その構造特性について検討する。 議論では、量子境界独立問題の解法において \textit{meet-rereducible element} が果たす役割とホログラフィーの文脈において \textit{coatoms} が果たす役割を強調した。 プレゼンテーションを自己完結させるため,格子理論の重要成分を必要に応じて検討する。

Given a multipartite quantum system, what are the possible ways to impose mutual independence among some of the parties, and the presence of correlations among others, such that there exists a quantum state which satisfies these demands? This question and the related notion of a \textit{pattern of marginal independence} (PMI) were introduced in arXiv:1912.01041, and then argued in arXiv:2204.00075 to distill the essential information for the derivation of the holographic entropy cone. Here we continue the general analysis initiated in arXiv:1912.01041, focusing in particular on the implications of the necessary condition for the saturation of subadditivity. This condition, which we dub Klein's condition, will be interpreted as an approximation to strong subadditivity for PMIs. We show that for an arbitrary number of parties, the set of PMIs compatible with this condition forms a lattice, and we investigate several of its structural properties. In the discussion we highlight the role played by the \textit{meet-irreducible elements} in the solution of the quantum marginal independence problem, and by the \textit{coatoms} in the holographic context. To make the presentation self-contained, we review the key ingredients from lattice theory as needed.
翻訳日:2023-01-17 23:06:54 公開日:2022-11-21
# ボゾンカリウムの時間依存性凝縮

Time-dependent condensation of bosonic potassium ( http://arxiv.org/abs/2211.11845v1 )

ライセンス: Link先を確認
Anton Kabelac and Georg Wolschin(参考訳) 従来から導出されていた非線形ボソン拡散方程式 (NBDE) に基づいて, カリウム蒸気中のボース-アインシュタイン凝縮体 (BEC) の時間依存性を計算した。 NBDEの閉形式解析解を用いて、初期温度$T_\mathrm{i}$から最終温度$T_\mathrm{f}$までの急激なエネルギー加熱後の熱化を臨界値以下の温度で行う。 時間依存凝縮分数は、様々な散乱長で利用可能な$^{39}$kデータと比較される。

We calculate the time-dependent formation of Bose--Einstein condensates (BECs) in potassium vapours based on a previously derived exactly solvable nonlinear boson diffusion equation (NBDE). Thermalization following a sudden energy quench from an initial temperature $T_\mathrm{i}$ to a final temperature $T_\mathrm{f}$ below the critical value and BEC formation are accounted for using closed-form analytical solutions of the NBDE. The time-dependent condensate fraction is compared with available $^{39}$K data for various scattering lengths.
翻訳日:2023-01-17 23:06:15 公開日:2022-11-21
# 量子センシングシステムの一般シミュレーション法

General simulation method for quantum-sensing systems ( http://arxiv.org/abs/2211.11844v1 )

ライセンス: Link先を確認
Felix Riexinger, Mirco Kutas, Bj\"orn Haase, Michael Bortz, and Georg von Freymann(参考訳) 量子センシングは、ノイズ低減イメージング、超高分解能顕微鏡、および挑戦的なスペクトル範囲の撮像と分光といった様々な応用で、非常に有望な技術を含んでいる。 これらの検出スキームは双光子相関を利用して古典的な限界を超えるか、異なるスペクトル範囲に情報を転送する。 理論解析は主に理想化された条件に限られる。 したがって、量子センシングシステムの性能に関する理論的予測と実験的結果はしばしば分岐する。 本稿では,理論と実験のギャップを埋める実験的不完全性を含む一般シミュレーション手法を提案する。 理論的なアプローチを開発し、整列および不整合量子イメージング実験のシミュレーションでその能力を実証する。 結果は実験データの特徴を再現する。 さらに,シミュレーション結果を用いて後処理における画像の改善を行う。 一般量子センシングシステムのためのシミュレーション手法として、この研究は、設計空間をインタラクティブに探索し、実験の特性を最適化するための強力なシミュレーションツールへの第一歩となる。

Quantum sensing encompasses highly promising techniques with diverse applications including noise-reduced imaging, super-resolution microscopy as well as imaging and spectroscopy in challenging spectral ranges. These detection schemes use biphoton correlations to surpass classical limits or transfer information to different spectral ranges. Theoretical analysis is mostly confined to idealized conditions. Therefore, theoretical predictions and experimental results for the performance of quantum-sensing systems often diverge. Here we present a general simulation method that includes experimental imperfections to bridge the gap between theory and experiment. We develop a theoretical approach and demonstrate the capabilities with the simulation of aligned and misaligned quantum-imaging experiments. The results recreate the characteristics of experimental data. We further use the simulation results to improve the obtained images in post-processing. As simulation method for general quantum-sensing systems, this work provides a first step towards powerful simulation tools for interactively exploring the design space and optimizing the experiment's characteristics.
翻訳日:2023-01-17 23:06:08 公開日:2022-11-21
# エンタングルメントウェッジからの非定型ブラックホールマイクロステートの数え上げ

Counting atypical black hole microstates from entanglement wedges ( http://arxiv.org/abs/2211.11787v1 )

ライセンス: Link先を確認
Zixia Wei, Yasushi Yoneta(参考訳) 遠方性ブラックホールマイクロステートは、重力双対が滑らかな地平線を持たないホログラフィック CFT において非定型状態である。 ベーケンシュタイン・ホーキングのエントロピー全体を説明するために十分に多くの非絡み合ったミクロ状態が存在するなら、ブラックホールのマイクロ状態は滑らかな地平線のない状態の重ね合わせとして記述することができる。 我々は、半古典的極限$G_N\rightarrow 0$において、大きなAdSブラックホールのベーケンシュタイン-ホーキングエントロピーのほぼ全てを考慮に入れた、十分に多くの不整合マイクロ状態が存在することを示した。 さらに、短距離相互作用を持つ一般量子多体系では、標準熱力学極限における熱力学的エントロピーのほぼ全てを考慮に入れられるような、マイクロカノニカル部分空間に十分多くの領域法則が存在することを論じる。 地域法状態は典型的には非典型的であり、典型的には体積法的絡み合いを含むべきである。 さらに,このような領域法状態の組を構築するための明示的な方法を示し,同じ構成を不連続状態の構築にも用いることができると論じる。

Disentangled black hole microstates are atypical states in holographic CFTs whose gravity duals do not have smooth horizons. If there exist sufficiently many disentangled microstates to account for the entire Bekenstein-Hawking entropy, then any black hole microstate can be written as a superposition of states without smooth horizons. We show that there exist sufficiently many disentangled microstates to account for almost the entire Bekenstein-Hawking entropy of a large AdS black hole at the semiclassical limit $G_N\rightarrow 0$. In addition, we also argue that in generic quantum many-body systems with short-ranged interactions, there exist sufficiently many area law states in the microcanonical subspace to account for almost the entire thermodynamic entropy in the standard thermodynamic limit. Area law states are atypical since a typical state should contain volume law entanglement. Furthermore, we also present an explicit way to construct such a set of area law states, and argue that the same construction may also be used to construct disentangled states.
翻訳日:2023-01-17 23:05:55 公開日:2022-11-21
# 要求ダイアログにおける誤り訂正と抽出

Error correction and extraction in request dialogs ( http://arxiv.org/abs/2004.04243v2 )

ライセンス: Link先を確認
Stefan Constantin and Alex Waibel(参考訳) ユーザの2つの最後の発話を受信し、最後の発話が2番目の最後の発話の誤り訂正であるかどうかを検出するダイアログシステムユーティリティコンポーネントを提案する。 そうであれば、最後の発声における誤り訂正に従って第2発声を補正する。 さらに、提案したコンポーネントは、抽出された再並列と修復エンティティのペアを出力する。 このコンポーネントは、新しいドメイン毎の修正の収集を避けるために修正の概念を学ぶことと、reparandumとre repair pairsを抽出することの2つの利点を提供する。 誤り訂正のために、1つのシーケンスラベリングと2つのシーケンス to シーケンスアプローチを示す。 誤り訂正検出には,これら3つの誤り訂正手法が利用可能であり,さらに,シーケンス分類手法を提案する。 1つのエラー訂正検出と1つのエラー補正アプローチをパイプラインと組み合わせたり、エラー修正アプローチをトレーニングしたり、エンドツーエンドで2つのコンポーネントを避けることができる。 我々はEPIC-KITCHENS-100データセットを修正し、要求ダイアログにおけるエンティティフレーズの修正手法を評価した。 誤り訂正検出と補正には,人工検証データでは97.54 %,実世界テストデータでは69.27 %の精度が得られた。

We propose a dialog system utility component that gets the two last utterances of a user and can detect whether the last utterance is an error correction of the second last utterance. If yes, it corrects the second last utterance according to the error correction in the last utterance. In addition, the proposed component outputs the extracted pairs of reparandum and repair entity. This component offers two advantages, learning the concept of corrections to avoid collecting corrections for every new domain and extracting reparandum and repair pairs, which offers the possibility to learn out of it. For the error correction one sequence labeling and two sequence to sequence approaches are presented. For the error correction detection these three error correction approaches can also be used and in addition, we present a sequence classification approach. One error correction detection and one error correction approach can be combined to a pipeline or the error correction approaches can be trained and used end-to-end to avoid two components. We modified the EPIC-KITCHENS-100 dataset to evaluate the approaches for correcting entity phrases in request dialogs. For error correction detection and correction, we got an accuracy of 97.54 % on synthetic validation data and an accuracy of 69.27 % on human-created real-world test data.
翻訳日:2022-12-15 08:53:41 公開日:2022-11-21
# 信号面協調正則化による非視線イメージング

Few-shot Non-line-of-sight Imaging with Signal-surface Collaborative Regularization ( http://arxiv.org/abs/2211.15367v1 )

ライセンス: Link先を確認
Xintong Liu, Jianyu Wang, Leping Xiao, Xing Fu, Lingyun Qiu, Zuoqiang Shi(参考訳) 非視線イメージング技術は、多重反射光からターゲットを再構成することを目的としている。 既存のほとんどの方法では、リレー面上の高密度点をラスタスキャンして高品質な再構成を行い、長い取得時間を要する。 本研究では,最小限の測定回数でノイズロバストを再現する信号表面協調正規化(SSCR)フレームワークを提案する。 ベイズ推定を用いて,推定信号のジョイント正規化,物体の3次元ボクセルに基づく表現,目標の2次元面に基づく記述を設計する。 私たちの知る限りでは、これは隠れたターゲットに対する混合次元の正則化を組み合わせる最初の仕事です。 共焦点および非共焦点条件下での合成および実験データセット実験により,提案手法の有効性とロバスト性を示した。 複素幾何学的構造を持つ隠れターゲットの復元について, 公的なデータセットから5ドル=5$の共焦点測定を行い, 従来の測定過程を10000倍加速させることを示す。 また,提案手法は少ない時間とメモリの複雑度とスパース測定を満足する。 我々のアプローチは、救助活動や自動運転といったリアルタイム非視線画像アプリケーションにおいて大きな可能性を秘めている。

The non-line-of-sight imaging technique aims to reconstruct targets from multiply reflected light. For most existing methods, dense points on the relay surface are raster scanned to obtain high-quality reconstructions, which requires a long acquisition time. In this work, we propose a signal-surface collaborative regularization (SSCR) framework that provides noise-robust reconstructions with a minimal number of measurements. Using Bayesian inference, we design joint regularizations of the estimated signal, the 3D voxel-based representation of the objects, and the 2D surface-based description of the targets. To our best knowledge, this is the first work that combines regularizations in mixed dimensions for hidden targets. Experiments on synthetic and experimental datasets illustrated the efficiency and robustness of the proposed method under both confocal and non-confocal settings. We report the reconstruction of the hidden targets with complex geometric structures with only $5 \times 5$ confocal measurements from public datasets, indicating an acceleration of the conventional measurement process by a factor of 10000. Besides, the proposed method enjoys low time and memory complexities with sparse measurements. Our approach has great potential in real-time non-line-of-sight imaging applications such as rescue operations and autonomous driving.
翻訳日:2022-12-04 14:08:24 公開日:2022-11-21
# 深層学習モデルと注意機構を用いたヒトサルポックス病の分類

Classification of Human Monkeypox Disease Using Deep Learning Models and Attention Mechanisms ( http://arxiv.org/abs/2211.15459v1 )

ライセンス: Link先を確認
Md. Enamul Haque, Md. Rayhan Ahmed, Razia Sultana Nila, Salekul Islam(参考訳) 世界は新型コロナウイルス(covid-19)の広がりによって引き起こされる破壊から再建を試みており、また、最近多くの国で発生したヒトサルポックス病の急増は、新たな世界的なパンデミックになることを脅かしている。 ヒトのサルポックス病症候群はチキンポックスと非常に似ており、麻疹の古典的な症状は皮膚のブリスターのような様々な形態で非常に複雑な差異がある。 様々なディープラーニング手法は、covid-19、腫瘍細胞、皮膚疾患分類タスクのイメージベース診断において有望な性能を示している。 本稿では,ヒトサルポックス病の画像分類を行うために,深層移動学習に基づく手法と,畳み込みブロックアテンションモジュール(CBAM)を統合して特徴マップの関連部分に焦点をあてる。 我々は,VGG19,Xception,DenseNet121,EfficientNetB3,MobileNetV2の5つのディープラーニングモデルと統合チャネルと空間的注意機構を実装し,その比較分析を行った。 Xception-CBAM-Dense層からなるアーキテクチャは、ヒトサルポックスや他の疾患を83.89%の精度で分類する他のモデルよりも優れた性能を示した。

As the world is still trying to rebuild from the destruction caused by the widespread reach of the COVID-19 virus, and the recent alarming surge of human monkeypox disease outbreaks in numerous countries threatens to become a new global pandemic too. Human monkeypox disease syndromes are quite similar to chickenpox, and measles classic symptoms, with very intricate differences such as skin blisters, which come in diverse forms. Various deep-learning methods have shown promising performances in the image-based diagnosis of COVID-19, tumor cell, and skin disease classification tasks. In this paper, we try to integrate deep transfer-learning-based methods, along with a convolutional block attention module (CBAM), to focus on the relevant portion of the feature maps to conduct an image-based classification of human monkeypox disease. We implement five deep-learning models, VGG19, Xception, DenseNet121, EfficientNetB3, and MobileNetV2, along with integrated channel and spatial attention mechanisms, and perform a comparative analysis among them. An architecture consisting of Xception-CBAM-Dense layers performed better than the other models at classifying human monkeypox and other diseases with a validation accuracy of 83.89%.
翻訳日:2022-12-04 14:07:23 公開日:2022-11-21
# AICOM-MP:資源制約環境のためのAIベースのモンキーポックス検出器

AICOM-MP: an AI-based Monkeypox Detector for Resource-Constrained Environments ( http://arxiv.org/abs/2211.14313v1 )

ライセンス: Link先を確認
Tim Tianyi Yang, Tom Tianze Yang, Andrew Liu, Jie Tang, Na An, Shaoshan Liu, Xue Liu(参考訳) 自律型モバイルクリニック(autonomous mobile clinics, amcs)のイニシアチブの下で、私たちは、少なくとも先進国(ldc)で医療アクセスを可能にする健康ai技術を開発、オープンソース化し、標準化しています。 AMCを次世代のヘルスケアデリバリープラットフォームとみなす一方、ヘルスAIエンジンは、さまざまなアプリケーションがスマートフォンの使用シナリオを拡張しているように、これらのプラットフォーム上のアプリケーションである。 近年のグローバルなサルポックスの発生に直面した今回の記事では,資源制約されたデバイスから撮影された画像を扱うことを目的とした,AIベースのサルポックス検出器であるAICOM-MPを紹介する。 既存のAIベースのサルポックス検出器と比較して、AICOM-MPは最先端(SOTA)のパフォーマンスを達成した。 我々は、サルポックススクリーニング技術へのユニバーサルアクセスを可能にするWebサービスとしてAICOM-MPをホストしています。 私たちはまた、aicom-mpのソースコードとデータセットの両方をオープンソース化し、ヘルスaiの専門家がaicom-mpをサービスに統合できるようにしました。 また,AICOM-MPプロジェクトを通じて,資源制約のある環境においても汎用的なアクセスを可能にする,AMCのための健康AI技術を開発する方法論を一般化した。

Under the Autonomous Mobile Clinics (AMCs) initiative, we are developing, open sourcing, and standardizing health AI technologies to enable healthcare access in least developed countries (LDCs). We deem AMCs as the next generation of health care delivery platforms, whereas health AI engines are applications on these platforms, similar to how various applications expand the usage scenarios of smart phones. Facing the recent global monkeypox outbreak, in this article, we introduce AICOM-MP, an AI-based monkeypox detector specially aiming for handling images taken from resource-constrained devices. Compared to existing AI-based monkeypox detectors, AICOM-MP has achieved state-of-the-art (SOTA) performance. We have hosted AICOM-MP as a web service to allow universal access to monkeypox screening technology. We have also open sourced both the source code and the dataset of AICOM-MP to allow health AI professionals to integrate AICOM-MP into their services. Also, through the AICOM-MP project, we have generalized a methodology of developing health AI technologies for AMCs to allow universal access even in resource-constrained environments.
翻訳日:2022-12-04 14:07:00 公開日:2022-11-21
# 深層学習を用いたスナップショットカメラ画像のハイパースペクトル復調

Hyperspectral Demosaicing of Snapshot Camera Images Using Deep Learning ( http://arxiv.org/abs/2211.15435v1 )

ライセンス: Link先を確認
Eric L. Wisotzky and Charul Daudkhane and Anna Hilsmann and Peter Eisert(参考訳) 分光イメージング技術はこの数十年間で急速に進化してきた。 近年のハイパースペクトラルイメージングのためのシングルカメラワンショット技術の開発により、複数のスペクトル帯を同時に捉えることができる(3x3、4x4、または5x5モザイク)。 例えば、術中イメージング、農業現場検査、食品品質評価などがある。 広帯域の画像、すなわち高スペクトル分解能を実現するために、センサー設計は空間分解能を犠牲にする。 モザイクのサイズが大きくなると、この効果はますます有害になる。 さらに、デモの実施も難しい。 補間中にエッジ, 形状, 対象情報を組み込まずに, 得られた画像に彩色人工物が現れる可能性が高い。 近年のアプローチでは、画像データから直接情報を取り出すことができるニューラルネットワークが採用されている。 しかし、これらのアプローチのトレーニングデータを取得することも課題となる。 本研究は, 4x4モザイクパターンのハイパースペクトルスナップショットカメラを用いて, 制御環境下で取得した新たな真実データセットに基づいて, 並列ニューラルネットワークに基づく復調手順を提案する。 データセットは、実際のキャプチャされたシーンと、4x4モザイクパターンに適合した公開データの画像の組み合わせである。 実世界の地表面データを得るために,データキューブ全体を構成するために1ピクセルシフトのカメラ撮影を行った。 実験の結果,提案したネットワークは最先端ネットワークよりも優れていた。

Spectral imaging technologies have rapidly evolved during the past decades. The recent development of single-camera-one-shot techniques for hyperspectral imaging allows multiple spectral bands to be captured simultaneously (3x3, 4x4 or 5x5 mosaic), opening up a wide range of applications. Examples include intraoperative imaging, agricultural field inspection and food quality assessment. To capture images across a wide spectrum range, i.e. to achieve high spectral resolution, the sensor design sacrifices spatial resolution. With increasing mosaic size, this effect becomes increasingly detrimental. Furthermore, demosaicing is challenging. Without incorporating edge, shape, and object information during interpolation, chromatic artifacts are likely to appear in the obtained images. Recent approaches use neural networks for demosaicing, enabling direct information extraction from image data. However, obtaining training data for these approaches poses a challenge as well. This work proposes a parallel neural network based demosaicing procedure trained on a new ground truth dataset captured in a controlled environment by a hyperspectral snapshot camera with a 4x4 mosaic pattern. The dataset is a combination of real captured scenes with images from publicly available data adapted to the 4x4 mosaic pattern. To obtain real world ground-truth data, we performed multiple camera captures with 1-pixel shifts in order to compose the entire data cube. Experiments show that the proposed network outperforms state-of-art networks.
翻訳日:2022-12-04 14:00:36 公開日:2022-11-21
# 複雑な軟骨組織の研究と模倣に対する経知覚的および深層学習的アプローチの適用性

The applicability of transperceptual and deep learning approaches to the study and mimicry of complex cartilaginous tissues ( http://arxiv.org/abs/2211.14314v1 )

ライセンス: Link先を確認
J. Waghorne, C. Howard, H. Hu, J. Pang, W.J. Peveler, L. Harris, O. Barrera(参考訳) 複雑な軟組織、例えば膝半月板は移動性や関節の健康に重要な役割を果たすが、損傷すると修復や置換が極めて困難である。 これは、その高度に階層的で多孔質な性質が、その独特の機械的性質をもたらすためである。 組織置換体を設計するためには、ネイティブ組織の内部構造を理解し、複製する必要がある。 ここでは、transperceptualと呼ばれるオーディオと視覚を組み合わせたアプローチを検討し、ネイティブアーキテクチャを模倣した人工アーキテクチャを生成する。 提案手法では,従来の画像と各画像から発生する音の両方を,サンプル内の孔径と孔径を高速に比較・比較する方法として用いた。 我々は2d画像スタック上でgan(generative adversarial network)を訓練しテストした。 人工データセットとオリジナルデータセットの類似性に及ぼす画像の訓練セットの影響を2つのサンプル分析により評価した。 画像が64$\times$64ピクセルにダウンサンプリングされた n=478 対のオーディオファイルと画像ファイルからなる第1号機は、全解像度 256$\times$256ピクセルが保持される n=7640 対のオーディオファイルと画像ファイルからなる第2号機は、GANが要求する64$\times$64ピクセルの限界を維持するために16平方秒に分割される。 人工的に生成されたデータセットの2dスタックを3dオブジェクトに再構成し、画像解析アルゴリズムを実行し、アーキテクチャパラメータ(細孔サイズ、tortuosity、細孔接続)を統計的に特徴付け、元のデータセットと比較する。 その結果、ダウンサンプリングを行う人工的なデータセットはパラメータマッチングの点で優れていることがわかった。 当社のオーディオビジュアルアプローチは,複数のサンプル間での類似性と差異を可聴的に認識する方法について検討するために,より大きなデータセットに拡張する可能性を秘めています。

Complex soft tissues, for example the knee meniscus, play a crucial role in mobility and joint health, but when damaged are incredibly difficult to repair and replace. This is due to their highly hierarchical and porous nature which in turn leads to their unique mechanical properties. In order to design tissue substitutes, the internal architecture of the native tissue needs to be understood and replicated. Here we explore a combined audio-visual approach - so called transperceptual - to generate artificial architectures mimicking the native ones. The proposed method uses both traditional imagery, and sound generated from each image as a method of rapidly comparing and contrasting the porosity and pore size within the samples. We have trained and tested a generative adversarial network (GAN) on the 2D image stacks. The impact of the training set of images on the similarity of the artificial to the original dataset was assessed by analyzing two samples. The first consisting of n=478 pairs of audio and image files for which the images were downsampled to 64 $\times$ 64 pixels, the second one consisting of n=7640 pairs of audio and image files for which the full resolution 256 $\times$ 256 pixels is retained but each image is divided into 16 squares to maintain the limit of 64 $\times$ 64 pixels required by the GAN. We reconstruct the 2D stacks of artificially generated datasets into 3D objects and run image analysis algorithms to characterize statistically the architectural parameters - pore size, tortuosity and pore connectivity - and compare them with the original dataset. Results show that the artificially generated dataset that undergoes downsampling performs better in terms of parameter matching. Our audiovisual approach has the potential to be extended to larger data sets to explore both how similarities and differences can be audibly recognized across multiple samples.
翻訳日:2022-12-04 13:59:52 公開日:2022-11-21
# インタラクションログにおける不確実なケース識別子の解決:ユーザスタディ

Resolving Uncertain Case Identifiers in Interaction Logs: A User Study ( http://arxiv.org/abs/2212.00009v1 )

ライセンス: Link先を確認
Marco Pegoraro, Merih Seran Uysal, Tom-Hendrik H\"ulsmann, Wil M. P. van der Aalst(参考訳) 現代のソフトウェアシステムは、後の分析のために保存された大量のユーザーアクションを記録できる。 このようなユーザインタラクションデータの主なタイプの1つは、クリックデータである。アプリケーションやWebサイト、ソフトウェアなどのグラフィカル要素を通じて、ユーザのアクションのデジタルトレースである。 簡単に利用できるが、クリックデータはしばしばケースの概念を欠いている: ユーザのインタラクションからソフトウェア内の特定のプロセスインスタンスにイベントをリンクする属性。 本稿では,クリックデータのケース概念をニューラルネットワークで決定する手法を提案し,ユーザインタラクションデータに対するプロセスマイニングや他のプロセス分析技術を実現する。 本稿では,本手法について述べるとともに,そのスケーラビリティを大規模データセットに示すとともに,移動共有企業のインタラクションデータから得られたセグメンテーションイベントログに基づいて,その有効性を検証する。 社内のドメインエキスパートとのインタビューは、この方法によって得られたケース概念が、実行可能なプロセス洞察に繋がることを示している。

Modern software systems are able to record vast amounts of user actions, stored for later analysis. One of the main types of such user interaction data is click data: the digital trace of the actions of a user through the graphical elements of an application, website or software. While readily available, click data is often missing a case notion: an attribute linking events from user interactions to a specific process instance in the software. In this paper, we propose a neural network-based technique to determine a case notion for click data, thus enabling process mining and other process analysis techniques on user interaction data. We describe our method, show its scalability to datasets of large dimensions, and we validate its efficacy through a user study based on the segmented event log resulting from interaction data of a mobility sharing company. Interviews with domain experts in the company demonstrate that the case notion obtained by our method can lead to actionable process insights.
翻訳日:2022-12-04 13:57:09 公開日:2022-11-21
# 拡散モデルにおけるプロンプト工学の研究

Investigating Prompt Engineering in Diffusion Models ( http://arxiv.org/abs/2211.15462v1 )

ライセンス: Link先を確認
Sam Witteveen and Martin Andrews(参考訳) DALL-E 2、Imagen、Mid Journey、Stable DiffusionといったText2Img拡散モデルの使用が広まるにつれ、アーティストが望む芸術的アウトプットを達成するための正しいプロンプトを選択することが課題となっている。 提案手法は,指示文中の特定の単語やフレーズが持つ効果を計測し,(アペンディックスにおいて)望ましい効果を生み出すための指示文の選択に関するガイダンスを示す。

With the spread of the use of Text2Img diffusion models such as DALL-E 2, Imagen, Mid Journey and Stable Diffusion, one challenge that artists face is selecting the right prompts to achieve the desired artistic output. We present techniques for measuring the effect that specific words and phrases in prompts have, and (in the Appendix) present guidance on the selection of prompts to produce desired effects.
翻訳日:2022-12-04 13:51:01 公開日:2022-11-21
# ReLMによる大規模言語モデルの検証

Validating Large Language Models with ReLM ( http://arxiv.org/abs/2211.15458v1 )

ライセンス: Link先を確認
Michael Kuchnik, Virginia Smith, George Amvrosiadis(参考訳) 大規模言語モデル(llm)は自然に発音されるテキストを生成する能力が評価されているが、データの記憶やバイアス、不適切な言語といったllmの悪影響に関する懸念が高まっている。 残念ながら、LSMの複雑さと生成能力は、そのような懸念を検証(修正)することを困難にしている。 本研究では,標準正規表現を用いたLLMの検証・クエリシステムであるReLMを紹介する。 ReLMは言語モデルの評価を多岐にわたって形式化し、複雑な評価ルールを単純な正規表現クエリに短縮する。 以上の結果から,ReLMのシステム効率は最大15倍に向上し,データ効率は2.5倍に向上し,最先端のアドホッククエリと比較して統計的,即時的なカバレッジが向上した。 ReLMはLLM検証の重要な問題に対して、競争力と一般的なベースラインを提供する。

Although large language models (LLMs) have been touted for their ability to generate natural-sounding text, there are growing concerns around possible negative effects of LLMs such as data memorization, bias, and inappropriate language. Unfortunately, the complexity and generation capacities of LLMs make validating (and correcting) such concerns difficult. In this work, we introduce ReLM, a system for validating and querying LLMs using standard regular expressions. ReLM formalizes and enables a broad range of language model evaluations, reducing complex evaluation rules to simple regular expression queries. Our results exploring queries surrounding memorization, gender bias, toxicity, and language understanding show that ReLM achieves up to 15x higher system efficiency, 2.5x data efficiency, and increased statistical and prompt-tuning coverage compared to state-of-the-art ad-hoc queries. ReLM offers a competitive and general baseline for the increasingly important problem of LLM validation.
翻訳日:2022-12-04 13:50:26 公開日:2022-11-21
# Hide and Seek:確率的手法による組合せ最適化のための機械学習のスケーリング

Hide and Seek: Scaling Machine Learning for Combinatorial Optimization via the Probabilistic Method ( http://arxiv.org/abs/2211.15368v1 )

ライセンス: Link先を確認
Dimitris Achlioptas, Amrit Daswaney, Periklis A. Papakonstantinou(参考訳) 複雑な組み合わせ問題の実例をディープラーニングで解決することは、大きな可能性を秘めている。 この方向の研究は、理論的な中心性と実践的重要性の両方から、ブール満足度(SAT)問題に焦点を当てている。 しかし、大きな障害の1つは、トレーニングセットが実用上の関心のある公式よりも数桁小さい大きさのランダムな公式に制限され、一般化に関する深刻な懸念が高まることである。 これは、増大する大きさのランダムな公式のラベル付けが急速に難解になるためである。 確率的手法を基本的手法で活用することにより、このブロックを完全に除去する: 根底にある決定問題を解くことなく、任意の大きさのランダムな公式を正しくラベル付けする方法を示す。 さらに, 単純なスカラーパラメータを変化させることで, 生成元が生成する公式の分類作業の難しさを調整できる。 これにより、Satifiability(満足度)に対処できる機械学習手法の、まったく新しいレベルの洗練がもたらされる。 生成器を使って既存の最先端モデルを訓練し、1万変数の式で満足度を予測する。 彼らはランダムな推測以上のことはしない。 新しいジェネレータによって何が達成できるかの最初の兆候として、多くの難易度において、同じデータセットで99%をランダムに推測するよりも大幅に優れた新しい分類器を提案する。 重要な点は、式を構文的に特徴付けして学習する過去のアプローチと異なり、我々の分類器は、解答者の計算の短い接頭辞でその学習を実行する。

Applying deep learning to solve real-life instances of hard combinatorial problems has tremendous potential. Research in this direction has focused on the Boolean satisfiability (SAT) problem, both because of its theoretical centrality and practical importance. A major roadblock faced, though, is that training sets are restricted to random formulas of size several orders of magnitude smaller than formulas of practical interest, raising serious concerns about generalization. This is because labeling random formulas of increasing size rapidly becomes intractable. By exploiting the probabilistic method in a fundamental way, we remove this roadblock entirely: we show how to generate correctly labeled random formulas of any desired size, without having to solve the underlying decision problem. Moreover, the difficulty of the classification task for the formulas produced by our generator is tunable by varying a simple scalar parameter. This opens up an entirely new level of sophistication for the machine learning methods that can be brought to bear on Satisfiability. Using our generator, we train existing state-of-the-art models for the task of predicting satisfiability on formulas with 10,000 variables. We find that they do no better than random guessing. As a first indication of what can be achieved with the new generator, we present a novel classifier that performs significantly better than random guessing 99% on the same datasets, for most difficulty levels. Crucially, unlike past approaches that learn based on syntactic features of a formula, our classifier performs its learning on a short prefix of a solver's computation, an approach that we expect to be of independent interest.
翻訳日:2022-12-04 13:50:09 公開日:2022-11-21
# EVNet:次元削減のための説明可能なディープネットワーク

EVNet: An Explainable Deep Network for Dimension Reduction ( http://arxiv.org/abs/2211.15478v1 )

ライセンス: Link先を確認
Zelin Zang, Shenghui Cheng, Linyan Lu, Hanchen Xia, Liangyu Li, Yaoting Sun, Yongjie Xu, Lei Shang, Baigui Sun, Stan Z. Li(参考訳) 次元減少(DR)は、固有構造を捕捉し、高次元データを低次元空間に変換しつつ、元のデータの有意義な特性を保持するために一般的に用いられる。 画像認識、単細胞シークエンシング解析、バイオマーカーの発見など様々な用途で使用されている。 しかしながら、現代のパラメトリックフリーおよびパラメトリックdr技術は、グローバルおよびローカルな特徴を保存できないことやプールの一般化性能など、いくつかの重大な欠点を抱えている。 一方,説明可能性については,各特徴が重要なコンポーネントを識別し,その埋め込みプロセスの診断にどのように影響するかを理解しながら,埋め込みプロセス,特に各部分の埋め込みプロセスへの寄与を理解することが重要である。 これらの問題に対処するため,我々はEVNetと呼ばれるディープニューラルネットワーク手法を開発した。 EVNetは、組み込み性能を改善するために、データ拡張と多様体ベースの損失関数から始まる。 この説明は、saliency mapsに基づいており、組み込みプロセス中のコンポーネントの訓練されたevnetパラメータと貢献を調べることを目的としている。 提案手法は視覚インタフェースと統合され,ユーザがEVNetを調整し,DR性能と説明可能性を向上させる。 インタラクティブなビジュアルインターフェースにより,データ特徴の説明や異なるDR技術の比較,DRの検証が容易になる。詳細な実験的比較では,EVNetがパフォーマンス測定と説明可能性の両方において,最先端の手法を一貫して上回っていることが示されている。

Dimension reduction (DR) is commonly utilized to capture the intrinsic structure and transform high-dimensional data into low-dimensional space while retaining meaningful properties of the original data. It is used in various applications, such as image recognition, single-cell sequencing analysis, and biomarker discovery. However, contemporary parametric-free and parametric DR techniques suffer from several significant shortcomings, such as the inability to preserve global and local features and the pool generalization performance. On the other hand, regarding explainability, it is crucial to comprehend the embedding process, especially the contribution of each part to the embedding process, while understanding how each feature affects the embedding results that identify critical components and help diagnose the embedding process. To address these problems, we have developed a deep neural network method called EVNet, which provides not only excellent performance in structural maintainability but also explainability to the DR therein. EVNet starts with data augmentation and a manifold-based loss function to improve embedding performance. The explanation is based on saliency maps and aims to examine the trained EVNet parameters and contributions of components during the embedding process. The proposed techniques are integrated with a visual interface to help the user to adjust EVNet to achieve better DR performance and explainability. The interactive visual interface makes it easier to illustrate the data features, compare different DR techniques, and investigate DR. An in-depth experimental comparison shows that EVNet consistently outperforms the state-of-the-art methods in both performance measures and explainability.
翻訳日:2022-12-04 13:49:44 公開日:2022-11-21
# 適応的・探索的枠組みを用いた産業用冷凍プロセスの安全最適化

Safe Optimization of an Industrial Refrigeration Process Using an Adaptive and Explorative Framework ( http://arxiv.org/abs/2211.13019v1 )

ライセンス: Link先を確認
Buse Sibel Korkmaz (1), Marta Zag\'orowska (2), Mehmet Mercang\"oz (1) ((1) Imperial College London, (2) ETH Z\"urich)(参考訳) 多くの産業アプリケーションは、重要な性能指標を改善するためにリアルタイム最適化に依存している。 未知のプロセス特性の場合、特に安全性制約の満足度において、リアルタイム最適化は困難になる。 本稿では,産業用冷蔵プロセスへの適応的かつ探索的リアルタイム最適化フレームワークの適用を実証し,プロセス制御目標の変化と安全性制約を満たすための探索を通じてプロセス特性を学習する。 ガウス法を用いて, 冷却プラントの未知圧縮機特性の不確かさを定量化し, この不確かさを実時間最適化問題の目的関数に重み付きコスト項として組み込む。 我々はこの用語の重みを適応的に制御して探検を進めます。 シミュレーション実験の結果, 提案手法は, コンプレッサの性能特性に関する完全な情報を有する溶液の性能を近似し, 冷蔵を考慮したエネルギー効率の向上に寄与することが示唆された。

Many industrial applications rely on real-time optimization to improve key performance indicators. In the case of unknown process characteristics, real-time optimization becomes challenging, particularly for the satisfaction of safety constraints. In this paper, we demonstrate the application of an adaptive and explorative real-time optimization framework to an industrial refrigeration process, where we learn the process characteristics through changes in process control targets and through exploration to satisfy safety constraints. We quantify the uncertainty in unknown compressor characteristics of the refrigeration plant by using Gaussian processes and incorporate this uncertainty into the objective function of the real-time optimization problem as a weighted cost term. We adaptively control the weight of this term to drive exploration. The results of our simulation experiments indicate the proposed approach can help to increase the energy efficiency of the considered refrigeration process, closely approximating the performance of a solution that has complete information about the compressor performance characteristics.
翻訳日:2022-11-24 14:56:17 公開日:2022-11-21
# 責任ある機械学習システムのためのAIガバナンスの概要

A Brief Overview of AI Governance for Responsible Machine Learning Systems ( http://arxiv.org/abs/2211.13130v1 )

ライセンス: Link先を確認
Navdeep Gill and Abhishek Mathur and Marcos V. Conde(参考訳) あらゆる規模の組織が、あらゆる産業やドメインにわたって、人工知能(AI)技術を活用して、運用や顧客エクスペリエンスに関する最大の課題を解決しています。 しかし、AIの確率的性質のため、それに関連するリスクは従来の技術よりもはるかに大きい。 調査によると、これらのリスクは規制、コンプライアンス、評判、ユーザー信頼から、金融や社会的なリスクまで、どこでも起こりうる。 組織の性質や規模によっては、AI技術は責任ある方法で使われていなくても、重大なリスクをもたらす可能性がある。 このポジションペーパーでは、リスクの予防と軽減を目標として、AIの責任ある使用を監督するためのフレームワークである、AIガバナンスの簡単な紹介を提案する。 このようなフレームワークを持つことは、リスクを管理するだけでなく、AIプロジェクトから最大限の価値を獲得し、組織全体のAI採用のための一貫性を開発することになる。

Organizations of all sizes, across all industries and domains are leveraging artificial intelligence (AI) technologies to solve some of their biggest challenges around operations, customer experience, and much more. However, due to the probabilistic nature of AI, the risks associated with it are far greater than traditional technologies. Research has shown that these risks can range anywhere from regulatory, compliance, reputational, and user trust, to financial and even societal risks. Depending on the nature and size of the organization, AI technologies can pose a significant risk, if not used in a responsible way. This position paper seeks to present a brief introduction to AI governance, which is a framework designed to oversee the responsible use of AI with the goal of preventing and mitigating risks. Having such a framework will not only manage risks but also gain maximum value out of AI projects and develop consistency for organization-wide adoption of AI.
翻訳日:2022-11-24 14:48:42 公開日:2022-11-21
# 機械学習を用いたブロックバスター映画におけるジェンダーバイアスの同定

Identifying gender bias in blockbuster movies through the lens of machine learning ( http://arxiv.org/abs/2211.12504v1 )

ライセンス: Link先を確認
Muhammad Junaid Haris, Aanchal Upreti, Melih Kurtaran, Filip Ginter, Sebastien Lafond, Sepinoud Azimi(参考訳) ジェンダーバイアスの問題は広く知られています。 本稿では,人々の信念や意見を形作る上で,社会に効果的に影響を与えるメディアである英語映画におけるジェンダー役割の描写について分析した。 まず、自然言語処理技術を用いて、異なるジャンルの映画の脚本を集め、感情や感情を抽出した。 その後、スクリプトを埋め込みに変換しました。つまり、テキストをベクトルの形で表現する方法です。 徹底的な調査により,社会的なステレオタイプに沿った映画において,男女の性格特性に特有のパターンが見つかった。 さらに, 数学や機械学習の手法を用いて, 男性の方が女性より支配的であり, 熱心であるのに対して, 女性は映画でより楽しい役割を担っているという偏見を見出した。 私たちの研究では、私たちの知識を最大限に活用し、plutchikの感情の輪と組み合わせて、対話を一連の感情に変換する新しいテクニックを紹介します。 本研究の目的は、フィルム領域における男女平等の反映を奨励し、他の研究者が手動で映画を自動的に分析することを促進することである。

The problem of gender bias is highly prevalent and well known. In this paper, we have analysed the portrayal of gender roles in English movies, a medium that effectively influences society in shaping people's beliefs and opinions. First, we gathered scripts of films from different genres and derived sentiments and emotions using natural language processing techniques. Afterwards, we converted the scripts into embeddings, i.e. a way of representing text in the form of vectors. With a thorough investigation, we found specific patterns in male and female characters' personality traits in movies that align with societal stereotypes. Furthermore, we used mathematical and machine learning techniques and found some biases wherein men are shown to be more dominant and envious than women, whereas women have more joyful roles in movies. In our work, we introduce, to the best of our knowledge, a novel technique to convert dialogues into an array of emotions by combining it with Plutchik's wheel of emotions. Our study aims to encourage reflections on gender equality in the domain of film and facilitate other researchers in analysing movies automatically instead of using manual approaches.
翻訳日:2022-11-24 13:45:22 公開日:2022-11-21
# Twin-S:スカルベース手術のためのデジタルツイン

Twin-S: A Digital Twin for Skull-base Surgery ( http://arxiv.org/abs/2211.11863v1 )

ライセンス: Link先を確認
Hongchao Shu, Ruixing Liang, Zhaoshuo Li, Anna Goodridge, Xiangyu Zhang, Hao Ding, Nimesh Nagururu, Manish Sahu, Francis X. Creighton, Russell H. Taylor, Adnan Munawar and Mathias Unberath(参考訳) 目的:デジタル双生児は現実世界の仮想インタラクティブモデルであり、同一の行動や特性を示す。 外科的応用では、例えば、デジタル双生児の計算分析を用いて状況認識を高めることができる。 方法:我々はtwin-sと呼ばれる頭蓋骨ベース手術のためのデジタル・ツイン・フレームワークを提案する。 Twin-Sは高精度光追跡とリアルタイムシミュレーションを組み合わせる。 我々は、デジタル双対表現が現実世界のすべてのプロセスを正確に模倣することを保証するために厳密な校正ルーチンに依存している。 twin-sは、手術用具、患者の解剖学、外科用カメラなど、頭蓋骨ベース手術の重要な要素をモデル化し追跡する。 興味深いことに、ツインsはフレームレートで解剖モデルの実世界のドリルングを更新、反映する。 結果: 掘削過程で平均1.39mmの誤差が得られるツインSの精度を広範囲に評価した。 さらに, 連続的に更新されたデジタル双生児由来のセグメンテーションマスクは, 複合現実環境下での手術用顕微鏡の視野を増強し, 骨のアブレーションを強調することにより, 外科医にさらなる状況認識を与える。 結語:Twin-Sは頭蓋底手術のためのデジタル双生児環境である。 Twin-Sは、最新のトラッキング技術からリアルタイムで仮想モデルを追跡、更新する。 高精度ビジョンベースアプローチによる光追跡の補完に関する今後の研究は、ツインsの精度をさらに高めるかもしれない。

Purpose: Digital twins are virtual interactive models of the real world, exhibiting identical behavior and properties. In surgical applications, computational analysis from digital twins can be used, for example, to enhance situational awareness. Methods: We present a digital twin framework for skull-base surgeries, named Twin-S, which can be integrated within various image-guided interventions seamlessly. Twin-S combines high-precision optical tracking and real-time simulation. We rely on rigorous calibration routines to ensure that the digital twin representation precisely mimics all real-world processes. Twin-S models and tracks the critical components of skull-base surgery, including the surgical tool, patient anatomy, and surgical camera. Significantly, Twin-S updates and reflects real-world drilling of the anatomical model in frame rate. Results: We extensively evaluate the accuracy of Twin-S, which achieves an average 1.39 mm error during the drilling process. We further illustrate how segmentation masks derived from the continuously updated digital twin can augment the surgical microscope view in a mixed reality setting, where bone requiring ablation is highlighted to provide surgeons additional situational awareness. Conclusion: We present Twin-S, a digital twin environment for skull-base surgery. Twin-S tracks and updates the virtual model in real-time given measurements from modern tracking technologies. Future research on complementing optical tracking with higher-precision vision-based approaches may further increase the accuracy of Twin-S.
翻訳日:2022-11-23 19:32:50 公開日:2022-11-21
# 純状態のサンプル最適古典影

Sample-optimal classical shadows for pure states ( http://arxiv.org/abs/2211.11810v1 )

ライセンス: Link先を確認
Daniel Grier, Hakop Pashayan, Luke Schaeffer(参考訳) 純状態に対する古典的なシャドウタスクを,ジョイントおよび独立な測定値の設定において考慮する。 このタスクは未知の純粋な状態のコピーを$\rho$で数回測定して古典的な記述を学習し、後に観測可能な値の期待値を推測するのに十分である。 具体的には、任意のエルミート可観測値$o$に対して$\mathrm{tr}(o \rho)$を加算誤差$\epsilon$で$\mathrm{tr}(o^2)\leq b$と$\lvert o \rvert = 1$で近似する。 我々の主な結果はジョイント測定設定に適用され、ここでは$\tilde{\theta}(\sqrt{b}\epsilon^{-1} + \epsilon^{-2})$のサンプルが必要であり、高い確率で成功するには十分である。 上界は、この問題で知られている以前の最良のサンプル複雑性に対する二次的改善である。 下限については、ボトルネックは状態の学習速度ではなく、観測可能な推定のために$\rho$の古典的な記述がどれだけ圧縮できるかが分かる。 独立な測定設定では、$\mathcal o(\sqrt{bd} \epsilon^{-1} + \epsilon^{-2})$サンプルが十分であることを示す。 特にこれは、混合状態に最適なサンプル最適化であるHuang, Kueng, Preskillのランダムなクリフォード測定アルゴリズムが純粋状態には最適でないことを意味する。 興味深いことに、我々の結果は同じランダムなクリフォード測定も使用していますが、異なる推定器を使用します。

We consider the classical shadows task for pure states in the setting of both joint and independent measurements. The task is to measure few copies of an unknown pure state $\rho$ in order to learn a classical description which suffices to later estimate expectation values of observables. Specifically, the goal is to approximate $\mathrm{Tr}(O \rho)$ for any Hermitian observable $O$ to within additive error $\epsilon$ provided $\mathrm{Tr}(O^2)\leq B$ and $\lVert O \rVert = 1$. Our main result applies to the joint measurement setting, where we show $\tilde{\Theta}(\sqrt{B}\epsilon^{-1} + \epsilon^{-2})$ samples of $\rho$ are necessary and sufficient to succeed with high probability. The upper bound is a quadratic improvement on the previous best sample complexity known for this problem. For the lower bound, we see that the bottleneck is not how fast we can learn the state but rather how much any classical description of $\rho$ can be compressed for observable estimation. In the independent measurement setting, we show that $\mathcal O(\sqrt{Bd} \epsilon^{-1} + \epsilon^{-2})$ samples suffice. Notably, this implies that the random Clifford measurements algorithm of Huang, Kueng, and Preskill, which is sample-optimal for mixed states, is not optimal for pure states. Interestingly, our result also uses the same random Clifford measurements but employs a different estimator.
翻訳日:2022-11-23 19:31:31 公開日:2022-11-21
# CONFIG:非モデル制約を用いた閉ループ制御系最適化のための制約付きグローバル最適化

CONFIG: Constrained Efficient Global Optimization for Closed-Loop Control System Optimization with Unmodeled Constraints ( http://arxiv.org/abs/2211.11822v1 )

ライセンス: Link先を確認
Wenjie Xu, Yuning Jiang, Bratislav Svetozarevic, Colin N. Jones(参考訳) 本稿では,unmodeled制約のある未知システムの閉ループ制御性能を最適化するために,単純かつ効率的な制約付きグローバル最適化アルゴリズムであるconfigアルゴリズムを適用した。 既存のガウス過程に基づく閉ループ最適化法は、局所収束(例えば、safeopt)のみを保証できるか、あるいは既知の最適性保証(例えば、制約付き期待改善)を全く持たないかのいずれかであるが、最近導入されたconfigアルゴリズムは理論的な大域的最適性保証を享受することが証明されている。 本研究では,アプリケーションにおけるCONFIGアルゴリズムの有効性を実証する。 このアルゴリズムは、最初に人工数値ベンチマーク問題に適用され、その効果を補う。 続いて、連続発振タンク反応器の古典的制約付き定常最適化問題に適用する。 シミュレーションの結果,本アルゴリズムは,既知の最適性保証を持たないcei(constrained expected improvement)アルゴリズムに匹敵する性能を実現することができた。 このように、CONFIGアルゴリズムは、ソフトな非モデル制約を持つシステムの閉ループ制御性能を最適化するために、証明可能なグローバル最適性保証と競合的な経験的性能の両方を備えた新しいツールを提供する。 最後に、オープンソースコードは将来のアプリケーションを容易にするpythonパッケージとして利用可能である。

In this paper, the CONFIG algorithm, a simple and provably efficient constrained global optimization algorithm, is applied to optimize the closed-loop control performance of an unknown system with unmodeled constraints. Existing Gaussian process based closed-loop optimization methods, either can only guarantee local convergence (e.g., SafeOPT), or have no known optimality guarantee (e.g., constrained expected improvement) at all, whereas the recently introduced CONFIG algorithm has been proven to enjoy a theoretical global optimality guarantee. In this study, we demonstrate the effectiveness of CONFIG algorithm in the applications. The algorithm is first applied to an artificial numerical benchmark problem to corroborate its effectiveness. It is then applied to a classical constrained steady-state optimization problem of a continuous stirred-tank reactor. Simulation results show that our CONFIG algorithm can achieve performance competitive with the popular CEI (Constrained Expected Improvement) algorithm, which has no known optimality guarantee. As such, the CONFIG algorithm offers a new tool, with both a provable global optimality guarantee and competitive empirical performance, to optimize the closed-loop control performance for a system with soft unmodeled constraints. Last, but not least, the open-source code is available as a python package to facilitate future applications.
翻訳日:2022-11-23 19:30:57 公開日:2022-11-21
# 対称2チームマルコフゲームにおける値ベースCTDE法:協力からチーム競争へ

Value-based CTDE Methods in Symmetric Two-team Markov Game: from Cooperation to Team Competition ( http://arxiv.org/abs/2211.11886v1 )

ライセンス: Link先を確認
Pascal Leroy and Jonathan Pisane and Damien Ernst(参考訳) 本稿では,エージェントのチームに対して,対戦するチームの複数の戦略に対抗するための最善の学習シナリオを特定する。 混合協調競争環境における協調的価値ベース手法の評価を行った。 我々は対称で部分的に観察可能な2チームマルコフゲームの場合に限定される。 我々は,集中型トレーニングと分散実行(CTDE)パラダイムに基づく3つのトレーニング手法を選択した。 それぞれの方法について,トレーニング中に遭遇したさまざまなチーム方針によって3つの学習シナリオを区別した。 実験では、StarCraft Multi-Agent Challenge環境を変更して、両チームが同時に学び、競争できる競争環境を作りました。 その結果、複数の進化戦略に対するトレーニングは、パフォーマンスをスコアする上で、チームがいくつかの戦略に直面した場合に、最高の結果が得られることが示唆された。

In this paper, we identify the best learning scenario to train a team of agents to compete against multiple possible strategies of opposing teams. We evaluate cooperative value-based methods in a mixed cooperative-competitive environment. We restrict ourselves to the case of a symmetric, partially observable, two-team Markov game. We selected three training methods based on the centralised training and decentralised execution (CTDE) paradigm: QMIX, MAVEN and QVMix. For each method, we considered three learning scenarios differentiated by the variety of team policies encountered during training. For our experiments, we modified the StarCraft Multi-Agent Challenge environment to create competitive environments where both teams could learn and compete simultaneously. Our results suggest that training against multiple evolving strategies achieves the best results when, for scoring their performances, teams are faced with several strategies.
翻訳日:2022-11-23 19:30:32 公開日:2022-11-21
# PiRL: 医療のための参加型不変表現学習

PiRL: Participant-Invariant Representation Learning for Healthcare ( http://arxiv.org/abs/2211.12422v1 )

ライセンス: Link先を確認
Zhaoyang Cao, Han Yu, Huiyuan Yang, Akane Sano(参考訳) 個々の不均一性のため、データ駆動型健康アプリケーションでは、ジェネリック(ワンサイズフィットオール)モデルとパーソナライズ固有のモデルの間でパフォーマンスギャップが観察される。 しかし、現実世界のアプリケーションでは、新しいユーザ適応問題やシステムの複雑さなどにより、ジェネリックモデルの方がより有利である。 汎用モデルの性能向上のために,PiRLと呼ばれる参加者不変表現を学習する表現学習フレームワークを提案する。 提案フレームワークでは,最大平均不一致(mmd)損失とドメイン敵訓練を用いて,モデルに参加者不変表現の学習を促す。 さらに、表現のクラス間アライメントのモデルを制限する三重項損失を利用して、下流の健康アプリケーションのための学習された表現を最適化する。 睡眠時無呼吸とストレスを検出するために,身体的および精神的な健康に関連する2つの公開データセットを用いたフレームワークを評価した。 予備実験の結果,提案手法はベースラインと比較して5%程度の精度向上を示した。

Due to individual heterogeneity, performance gaps are observed between generic (one-size-fits-all) models and person-specific models in data-driven health applications. However, in real-world applications, generic models are usually more favorable due to new-user-adaptation issues and system complexities, etc. To improve the performance of the generic model, we propose a representation learning framework that learns participant-invariant representations, named PiRL. The proposed framework utilizes maximum mean discrepancy (MMD) loss and domain-adversarial training to encourage the model to learn participant-invariant representations. Further, a triplet loss, which constrains the model for inter-class alignment of the representations, is utilized to optimize the learned representations for downstream health applications. We evaluated our frameworks on two public datasets related to physical and mental health, for detecting sleep apnea and stress, respectively. As preliminary results, we found the proposed approach shows around a 5% increase in accuracy compared to the baseline.
翻訳日:2022-11-23 19:22:03 公開日:2022-11-21
# 地球規模ストームリゾルションモデルによる機械学習型気候モデル補正

Machine-learned climate model corrections from a global storm-resolving model ( http://arxiv.org/abs/2211.11820v1 )

ライセンス: Link先を確認
Anna Kwa, Spencer K. Clark, Brian Henn, Noah D. Brenowitz, Jeremy McGibbon, W. Andre Perkins, Oliver Watt-Meyer, Lucas Harris, Christopher S. Bretherton(参考訳) 計算の制約により、地球規模の気候モデル(GCM)を長年実行するには、重要な物理過程を正確に解くのに最適な空間グリッド解像度({\gtrsim} 50$ km)が要求される。 このようなプロセスはサブグリッドパラメータ化によってGCMで近似され、GCM予測の不確実性に大きく寄与する。 粗いグリッドのグローバルな気候モデルの精度を改善する1つのアプローチは、各シミュレーションタイムステップにマシン学習された状態依存の補正を加えることである。 ニューラルネットワークを訓練して,200kmの粗い格子気候モデルから3kmの細格子gsrmを進化させるために必要な,状態に依存した温度,湿度,放射束補正を学習する。 これらの補正MLモデルが1年間の粗乾燥気候シミュレーションに結合されると、時間平均空間パターン誤差は陸面温度で6-25%、地表面降水で9-25%減少する。 ML補正シミュレーションは、気候や循環の他のバイアスを発生させるが、ベースラインシミュレーションと同等の振幅を持つ。

Due to computational constraints, running global climate models (GCMs) for many years requires a lower spatial grid resolution (${\gtrsim}50$ km) than is optimal for accurately resolving important physical processes. Such processes are approximated in GCMs via subgrid parameterizations, which contribute significantly to the uncertainty in GCM predictions. One approach to improving the accuracy of a coarse-grid global climate model is to add machine-learned state-dependent corrections at each simulation timestep, such that the climate model evolves more like a high-resolution global storm-resolving model (GSRM). We train neural networks to learn the state-dependent temperature, humidity, and radiative flux corrections needed to nudge a 200 km coarse-grid climate model to the evolution of a 3~km fine-grid GSRM. When these corrective ML models are coupled to a year-long coarse-grid climate simulation, the time-mean spatial pattern errors are reduced by 6-25% for land surface temperature and 9-25% for land surface precipitation with respect to a no-ML baseline simulation. The ML-corrected simulations develop other biases in climate and circulation that differ from, but have comparable amplitude to, the baseline simulation.
翻訳日:2022-11-23 19:12:20 公開日:2022-11-21
# DP-SGDを用いたプライベート広告モデリング

Private Ad Modeling with DP-SGD ( http://arxiv.org/abs/2211.11896v1 )

ライセンス: Link先を確認
Carson Denison, Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Krishna Giri Narra, Amer Sinha, Avinash Varadarajan, Chiyuan Zhang(参考訳) プライバシー保護MLにおけるよく知られたアルゴリズムは、個人確率勾配降下(DP-SGD)である。 このアルゴリズムはテキストデータや画像データで評価されているが、以前は広告データには適用されていない。 本研究では,DP-SGDをクリックスルー率,コンバージョン率,コンバージョンイベント数などの広告モデリングタスクに適用し,実際のデータセット上でのプライバシユーティリティトレードオフを評価する。 私たちの研究は、DP-SGDが広告モデリングタスクのプライバシーとユーティリティの両方を提供できることを実証的に実証した初めてのものです。

A well-known algorithm in privacy-preserving ML is differentially private stochastic gradient descent (DP-SGD). While this algorithm has been evaluated on text and image data, it has not been previously applied to ads data, which are notorious for their high class imbalance and sparse gradient updates. In this work we apply DP-SGD to several ad modeling tasks including predicting click-through rates, conversion rates, and number of conversion events, and evaluate their privacy-utility trade-off on real-world datasets. Our work is the first to empirically demonstrate that DP-SGD can provide both privacy and utility for ad modeling tasks.
翻訳日:2022-11-23 19:11:57 公開日:2022-11-21
# 後部サンプリングによる高知覚品質JPEGデコーディング

High-Perceptual Quality JPEG Decoding via Posterior Sampling ( http://arxiv.org/abs/2211.11827v1 )

ライセンス: Link先を確認
Sean Man, Guy Ohayon, Theo Adrai and Michael Elad(参考訳) JPEGはおそらく最も人気のある画像符号化フォーマットであり、視覚的アーティファクトの劣化を引き起こす可能性のある損失量子化によって高い圧縮比を達成する。 これらのアーティファクトを取り除こうとする多くの試みは長年にわたって着想され、ほとんどの例では、歪み測定(PSNR、SSIMなど)を最適化する決定論的後処理アルゴリズムが用いられている。 本稿では,JPEGアーティファクト修正のための異なるパラダイムを提案する。本手法は確率的であり,対象とする目的は高い知覚品質であり,圧縮された入力と整合しながら,鮮明で詳細かつ視覚的に再現された画像を得ることを目指している。 これらの目標は、確率的条件付き生成器(圧縮入力を条件とする)を訓練し、理論的によく確立された損失項を伴い、結果として後方分布からのサンプル作成器となる。 我々のソリューションは、完全な一貫性のある入力に対して、多種多様な可塑性かつ高速な再構成を提供する。 FFHQおよびImageNetデータセット上の様々な代替手法に対して,提案方式のユニークな特性とその優位性を実証する。

JPEG is arguably the most popular image coding format, achieving high compression ratios via lossy quantization that may create visual artifacts degradation. Numerous attempts to remove these artifacts were conceived over the years, and common to most of these is the use of deterministic post-processing algorithms that optimize some distortion measure (e.g., PSNR, SSIM). In this paper we propose a different paradigm for JPEG artifact correction: Our method is stochastic, and the objective we target is high perceptual quality -- striving to obtain sharp, detailed and visually pleasing reconstructed images, while being consistent with the compressed input. These goals are achieved by training a stochastic conditional generator (conditioned on the compressed input), accompanied by a theoretically well-founded loss term, resulting in a sampler from the posterior distribution. Our solution offers a diverse set of plausible and fast reconstructions for a given input with perfect consistency. We demonstrate our scheme's unique properties and its superiority to a variety of alternative methods on the FFHQ and ImageNet datasets.
翻訳日:2022-11-23 19:05:35 公開日:2022-11-21
# ウェアラブル映像からのライブ3D再構成に向けて:V-SLAM, NeRF, ビデオグラム計測技術の評価

Towards Live 3D Reconstruction from Wearable Video: An Evaluation of V-SLAM, NeRF, and Videogrammetry Techniques ( http://arxiv.org/abs/2211.11836v1 )

ライセンス: Link先を確認
David Ramirez, Suren Jayasuriya, Andreas Spanias(参考訳) MR(Mixed Reality)は、戦争の未来を変えることを約束する重要な技術である。 物理的な屋外環境と仮想軍事訓練のMRハイブリッドは、リアルとシミュレートの両方で長距離敵とのエンゲージメントを可能にする。 この技術を実現するためには,実動センサ観測に基づいて物理的環境の大規模3次元モデルを維持する必要がある。 3dリコンストラクションアルゴリズムは、オーバーヘッドと兵士レベルの両方の観点から、ビデオカメラセンサーの低コストと普及性を活用するべきである。 マッピング速度と3D品質のバランスをとることで、動的環境でのライブMRトレーニングを可能にする。 これらの要件を考慮し,軍事用大規模マッピングのための3次元再構成アルゴリズムについて検討した。 運動,視覚スラム,フォトグラメトリーの共通構造から3次元復元性能を測定した。 これには、Instant-NGPを使ったオープンソースのアルゴリズムCOLMAP、ORB-SLAM3、NeRFが含まれる。 我々は、ダッシュボードカメラビデオとライダーが生成した3D地上真実の両方を含む自律走行学習ベンチマークKITTIを利用する。 kittiデータを用いて,ライブビデオを考慮した3次元再構成計算速度の定量的評価を行った。

Mixed reality (MR) is a key technology which promises to change the future of warfare. An MR hybrid of physical outdoor environments and virtual military training will enable engagements with long distance enemies, both real and simulated. To enable this technology, a large-scale 3D model of a physical environment must be maintained based on live sensor observations. 3D reconstruction algorithms should utilize the low cost and pervasiveness of video camera sensors, from both overhead and soldier-level perspectives. Mapping speed and 3D quality can be balanced to enable live MR training in dynamic environments. Given these requirements, we survey several 3D reconstruction algorithms for large-scale mapping for military applications given only live video. We measure 3D reconstruction performance from common structure from motion, visual-SLAM, and photogrammetry techniques. This includes the open source algorithms COLMAP, ORB-SLAM3, and NeRF using Instant-NGP. We utilize the autonomous driving academic benchmark KITTI, which includes both dashboard camera video and lidar produced 3D ground truth. With the KITTI data, our primary contribution is a quantitative evaluation of 3D reconstruction computational speed when considering live video.
翻訳日:2022-11-23 19:05:17 公開日:2022-11-21
# FLEX:フルボディグラスなしフルボディグラス

FLEX: Full-Body Grasping Without Full-Body Grasps ( http://arxiv.org/abs/2211.11903v1 )

ライセンス: Link先を確認
Purva Tendulkar and D\'idac Sur\'is and Carl Vondrick(参考訳) シーンとリアルに対話する3dアバターの合成は、ar/vr、ビデオゲーム、ロボット工学のアプリケーションにとって重要な問題である。 この目標に向けて、私たちは仮想的な人間 -- 手と全身 -- が日常の物体をつかむタスクに対処します。 既存の手法では、オブジェクトと対話する人間の3Dデータセットを収集し、このデータをトレーニングすることでこの問題に対処する。 しかし、 1)これらの方法は,異なる対象の位置や方向,又は場面における家具の存在に一般化しない。 2) 生成する全身ポーズの多様性は極めて限定的である。 本研究は,3次元フルボディグリーティングデータを必要とせずに,現実的で多様なフルボディグリーティングを日常のシーンで生成する上での課題に対処する。 私たちの重要な洞察は、フルボディポーズとハンドグラブ前後の両方の存在を活用し、それらを3次元幾何学的制約を用いて構成し、フルボディグラブを得ることである。 我々は,これらの制約が,定量的にも定性的にも基準線よりも優れた,多種多様な人間の握力を生み出すことを実証的に検証した。 詳細は、私たちのWebページを参照してください。

Synthesizing 3D human avatars interacting realistically with a scene is an important problem with applications in AR/VR, video games and robotics. Towards this goal, we address the task of generating a virtual human -- hands and full body -- grasping everyday objects. Existing methods approach this problem by collecting a 3D dataset of humans interacting with objects and training on this data. However, 1) these methods do not generalize to different object positions and orientations, or to the presence of furniture in the scene, and 2) the diversity of their generated full-body poses is very limited. In this work, we address all the above challenges to generate realistic, diverse full-body grasps in everyday scenes without requiring any 3D full-body grasping data. Our key insight is to leverage the existence of both full-body pose and hand grasping priors, composing them using 3D geometrical constraints to obtain full-body grasps. We empirically validate that these constraints can generate a variety of feasible human grasps that are superior to baselines both quantitatively and qualitatively. See our webpage for more details: https://flex.cs.columbia.edu/.
翻訳日:2022-11-23 19:05:01 公開日:2022-11-21
# PreMa: 組み込みエッジレベルにおけるソレノイド弁のリアルタイム保守

PreMa: Predictive Maintenance of Solenoid Valve in Real-Time at Embedded Edge-Level ( http://arxiv.org/abs/2211.12326v1 )

ライセンス: Link先を確認
Prajwal BN, Harsha Yelchuri, Vishwanath Shastry and T. V. Prabhakar(参考訳) 産業プロセスの自動化において、センサ(圧力、温度等)、制御装置、アクチュエータ(ソレノイドバルブ、電気機械リレー、サーキットブレーカー、モーター等)は、予め定義された条件下で生産ラインが動作することを保証する。 これらのシステムが故障したり、時に完全に故障した場合、生産品質が損なわれるだけでなく、人や機器の安全性も保証されるように、リアルタイムで警告を生成する必要がある。 本研究では,ソレノイド弁(SV)の健康状態を監視するセンサであるPreMaという,スマートでリアルタイムなエッジベースの電子製品の構築について述べる。 PreMaはコンパクトで低消費電力で、インストールが容易で、費用対効果も高い。 データの忠実度と測定精度は、ハイエンド機器で捉えた信号に匹敵する。 スマートソレノイドセンサーは、TensorFlow(TFLite)機械学習フレームワークのコンパクトバージョンであるTinyMLを実行する。 故障検出推論はその場で行うが、モデルトレーニングは携帯電話を使用して「オンデバイス」トレーニングを行う。 製品評価の結果,センサは異なる種類の故障を区別できることがわかった。 これらの欠点には (a)スプール立ち往生 (b)春の失敗、及び (c)電圧下。 さらに、この製品は、メンテナンス担当者、SVの残りの有用寿命(RUL)を提供する。 RULはバルブ交換の有無を決定する支援を提供する。 システム全体(組込みプラットフォームとニューラルネットワークモデル)のパフォーマンスに関するメトリクスの最適化について、広範な評価を行う。 提案する実装は、svと同様の過渡応答を持つ電気機械アクチュエータが与えられた場合、システムは状態監視が可能であり、そのため、この種の汎用インフラストラクチャとしては最初のものとなる。

In industrial process automation, sensors (pressure, temperature, etc.), controllers, and actuators (solenoid valves, electro-mechanical relays, circuit breakers, motors, etc.) make sure that production lines are working under the pre-defined conditions. When these systems malfunction or sometimes completely fail, alerts have to be generated in real-time to make sure not only production quality is not compromised but also safety of humans and equipment is assured. In this work, we describe the construction of a smart and real-time edge-based electronic product called PreMa, which is basically a sensor for monitoring the health of a Solenoid Valve (SV). PreMa is compact, low power, easy to install, and cost effective. It has data fidelity and measurement accuracy comparable to signals captured using high end equipment. The smart solenoid sensor runs TinyML, a compact version of TensorFlow (a.k.a. TFLite) machine learning framework. While fault detection inferencing is in-situ, model training uses mobile phones to accomplish the `on-device' training. Our product evaluation shows that the sensor is able to differentiate between the distinct types of faults. These faults include: (a) Spool stuck (b) Spring failure and (c) Under voltage. Furthermore, the product provides maintenance personnel, the remaining useful life (RUL) of the SV. The RUL provides assistance to decide valve replacement or otherwise. We perform an extensive evaluation on optimizing metrics related to performance of the entire system (i.e. embedded platform and the neural network model). The proposed implementation is such that, given any electro-mechanical actuator with similar transient response to that of the SV, the system is capable of condition monitoring, hence presenting a first of its kind generic infrastructure.
翻訳日:2022-11-23 18:56:04 公開日:2022-11-21
# ノードインタラクションからホップインタラクションへ - 新しい効果的でスケーラブルなグラフ学習パラダイム

From Node Interaction to Hop Interaction: New Effective and Scalable Graph Learning Paradigm ( http://arxiv.org/abs/2211.11761v1 )

ライセンス: Link先を確認
Jie Chen, Zilong Li, Yin Zhu, Junping Zhang, Jian Pu(参考訳) 既存のグラフニューラルネットワーク(GNN)は、ノード間の情報インタラクションを反復的に行うメッセージパッシングメカニズムに従う。 かなりの進歩がなされているが、ノード間相互作用のパラダイムには以下の制限がある。 まず, 大規模産業環境でのGNNの広範な適用は, 急速に拡大する隣国間のノード間相互作用が, 高い計算とメモリコストを引き起こすため, スケーラビリティの制限によって妨げられる。 第二に、オーバースムーシング問題はノードの識別能力を制限し、つまり、異なるクラスのノード表現は、繰り返しノード間相互作用の後、識別不能に収束する。 本研究では,これらの制約に同時に対処する新しいホップ相互作用パラダイムを提案する。 hopインタラクションの基本的な考え方は、ノードからのメッセージパッシングのターゲットを、各ノード内のマルチホップ機能に変換することだ。 具体的には、トレーニングと推論の際の計算コストを削減するために、ノードのマルチホップ機能を最初にプリ計算する。 次に、ノードの識別を強化するために、マルチホップ特徴間の非線形相互作用を行う。 ホップインタラクションを実現するために既存のGNNを簡単に利用できる,シンプルで効果的なHopGNNフレームワークを設計する。 さらに,hopgnnを強化するために,自己教師付き学習目標を持つマルチタスク学習戦略を提案する。 グラフの幅広い領域、スケール、滑らかさにおいて、12のベンチマークデータセットに対して広範な実験を行う。 実験結果から,本手法は高いスケーラビリティと効率を保ちながら優れた性能を発揮することが示された。

Existing Graph Neural Networks (GNNs) follow the message-passing mechanism that conducts information interaction among nodes iteratively. While considerable progress has been made, such node interaction paradigms still have the following limitation. First, the scalability limitation precludes the wide application of GNNs in large-scale industrial settings since the node interaction among rapidly expanding neighbors incurs high computation and memory costs. Second, the over-smoothing problem restricts the discrimination ability of nodes, i.e., node representations of different classes will converge to indistinguishable after repeated node interactions. In this work, we propose a novel hop interaction paradigm to address these limitations simultaneously. The core idea of hop interaction is to convert the target of message-passing from nodes into multi-hop features inside each node. Specifically, it first pre-computed multi-hop features of nodes to reduce computation costs during training and inference. Then, it conducts a non-linear interaction among multi-hop features to enhance the discrimination of nodes. We design a simple yet effective HopGNN framework that can easily utilize existing GNNs to achieve hop interaction. Furthermore, we propose a multi-task learning strategy with a self-supervised learning objective to enhance HopGNN. We conduct extensive experiments on 12 benchmark datasets in a wide range of domains, scales, and smoothness of graphs. Experimental results show that our methods achieve superior performance while maintaining high scalability and efficiency.
翻訳日:2022-11-23 18:46:30 公開日:2022-11-21
# 学習可能なグラフ畳み込み注意ネットワーク

Learnable Graph Convolutional Attention Networks ( http://arxiv.org/abs/2211.11853v1 )

ライセンス: Link先を確認
Adri\'an Javaloy, Pablo Sanchez-Martin, Amit Levi and Isabel Valera(参考訳) 既存のグラフニューラルネットワーク(GNN)は、ノード間のメッセージ交換を、近隣のすべてのノードの特徴を均一に(関連する)集約するか、あるいは特徴に一様でないスコア(到達)を適用することによって計算する。 最近の研究は、それぞれGCNとGATのGNNアーキテクチャの長所と短所を示している。 本研究では,両アプローチの強みを最大限に活用することを目的とする。 この目的のために、まず、注目スコアを計算するために畳み込みに依存するグラフ畳み込み注意層(CAT)を導入する。 残念なことに、GCN や GAT の場合と同様に、それらの性能はデータの性質(すなわち、グラフと特徴)に直接依存するため、三つの間に明確な勝者は存在しない(理論上も実際も)。 学習可能なグラフ畳み込みアテンションネットワーク(L-CAT: learnable graph convolutional attention network)は、GCN, GAT, CATを2つのスカラーパラメータだけを加えることで、各レイヤで自動的に補間するGNNアーキテクチャである。 その結果、l-catはネットワーク上で異なるgnn層を効率的に結合でき、幅広いデータセットで競合するメソッドよりも優れており、結果としてクロスバリデーションの必要性を低減できるより堅牢なモデルが得られた。

Existing Graph Neural Networks (GNNs) compute the message exchange between nodes by either aggregating uniformly (convolving) the features of all the neighboring nodes, or by applying a non-uniform score (attending) to the features. Recent works have shown the strengths and weaknesses of the resulting GNN architectures, respectively, GCNs and GATs. In this work, we aim at exploiting the strengths of both approaches to their full extent. To this end, we first introduce the graph convolutional attention layer (CAT), which relies on convolutions to compute the attention scores. Unfortunately, as in the case of GCNs and GATs, we show that there exists no clear winner between the three (neither theoretically nor in practice) as their performance directly depends on the nature of the data (i.e., of the graph and features). This result brings us to the main contribution of our work, the learnable graph convolutional attention network (L-CAT): a GNN architecture that automatically interpolates between GCN, GAT and CAT in each layer, by adding only two scalar parameters. Our results demonstrate that L-CAT is able to efficiently combine different GNN layers along the network, outperforming competing methods in a wide range of datasets, and resulting in a more robust model that reduces the need of cross-validating.
翻訳日:2022-11-23 18:46:08 公開日:2022-11-21
# 意味的知識を持つニューラルネットワークにおける誤りの対処

Addressing Mistake Severity in Neural Networks with Semantic Knowledge ( http://arxiv.org/abs/2211.11880v1 )

ライセンス: Link先を確認
Natalie Abreu, Nathan Vaska, Victoria Helus(参考訳) ディープニューラルネットワークと機械学習アルゴリズム全般におけるロバスト性は、オープンリサーチの課題である。 特に、トレーニング時に予測できない配布外入力や異常なインスタンスに対して、アルゴリズムのパフォーマンスを確実に維持することは困難である。 エージェントはこれらの条件で展開され、誤った予測をする可能性が高い。 エージェントは、動的環境でパフォーマンスを維持できない限り、信頼できないと見なされる。 多くのロバストトレーニング手法は、摂動入力のモデル精度の向上を目的としており、その代替のロバストネスとして、ニューラルネットワークが挑戦的な状況で犯した誤りの深刻度を低減することを目的としている。 モデルの予測と誤分類されたインスタンスの真のラベル間の意味的類似性を高めるために、現在の敵意訓練手法を利用して、トレーニングプロセス中に標的となる敵意攻撃を生成する。 その結果,本手法は,標準モデルや逆トレーニングモデルと比較して,誤り重大性に対して優れた性能を示した。 セマンティクスの類似性に関して、非ロバスト機能が果たす興味深い役割も見つけました。

Robustness in deep neural networks and machine learning algorithms in general is an open research challenge. In particular, it is difficult to ensure algorithmic performance is maintained on out-of-distribution inputs or anomalous instances that cannot be anticipated at training time. Embodied agents will be deployed in these conditions, and are likely to make incorrect predictions. An agent will be viewed as untrustworthy unless it can maintain its performance in dynamic environments. Most robust training techniques aim to improve model accuracy on perturbed inputs; as an alternate form of robustness, we aim to reduce the severity of mistakes made by neural networks in challenging conditions. We leverage current adversarial training methods to generate targeted adversarial attacks during the training process in order to increase the semantic similarity between a model's predictions and true labels of misclassified instances. Results demonstrate that our approach performs better with respect to mistake severity compared to standard and adversarially trained models. We also find an intriguing role that non-robust features play with regards to semantic similarity.
翻訳日:2022-11-23 18:45:41 公開日:2022-11-21
# 超リーン複素値モデルを用いたマルチスペクトル画像分類

Multi-Spectral Image Classification with Ultra-Lean Complex-Valued Models ( http://arxiv.org/abs/2211.11797v1 )

ライセンス: Link先を確認
Utkarsh Singhal and Stella X. Yu and Zackery Steck and Scott Kangas and Aaron A. Reite(参考訳) マルチスペクトル画像は、グレースケールとRGBの画像でしばしば同一に見える材料によって示される異なるスペクトル信号により、リモートセンシングには有用である。 近代的な深層学習手法を取り入れたこのモダリティは、人道支援や災害復旧など、様々なリモートセンシングアプリケーションにおいて大きな可能性を持つ。 最先端のディープラーニング手法は、ImageNetのような大規模なアノテーションの恩恵を受けているが、既存のMSIイメージデータセットには同様の規模のアノテーションがない。 少ないアノテーションでデータ転送学習の代替として,実数値msi画像の分類に複素値共ドメイン対称モデルを適用した。 8バンドxViewデータを用いた実験により、データ拡張なしでxViewでトレーニングした超リーンモデルは、データ拡張とxViewでの変換学習でResNetより優れていることが示された。 我々の研究は、実数値MSIデータにおける複素数値深層学習の価値を初めて示すものである。

Multi-spectral imagery is invaluable for remote sensing due to different spectral signatures exhibited by materials that often appear identical in greyscale and RGB imagery. Paired with modern deep learning methods, this modality has great potential utility in a variety of remote sensing applications, such as humanitarian assistance and disaster recovery efforts. State-of-the-art deep learning methods have greatly benefited from large-scale annotations like in ImageNet, but existing MSI image datasets lack annotations at a similar scale. As an alternative to transfer learning on such data with few annotations, we apply complex-valued co-domain symmetric models to classify real-valued MSI images. Our experiments on 8-band xView data show that our ultra-lean model trained on xView from scratch without data augmentations can outperform ResNet with data augmentation and modified transfer learning on xView. Our work is the first to demonstrate the value of complex-valued deep learning on real-valued MSI data.
翻訳日:2022-11-23 17:45:36 公開日:2022-11-21
# 画像データを用いた3Dポイントクラウドネットワークの自己教師付き事前学習

Self-Supervised Pre-training of 3D Point Cloud Networks with Image Data ( http://arxiv.org/abs/2211.11801v1 )

ライセンス: Link先を確認
Andrej Janda, Brandon Wagstaff, Edwin G. Ng, Jonathan Kelly(参考訳) ラベルが不足しコストがかかる場合、教師付きトレーニングに必要なアノテーションの量を減らすことが不可欠です。 この削減は、3Dデータセットを含むセマンティックセグメンテーションタスクにおいて特に重要である。 大規模な非ラベルデータセットでの自己教師付き事前トレーニングは、手動アノテーションの量を減らす方法のひとつだ。 従来の作業では、ポイントクラウドデータのみを使用した事前トレーニングに重点を置いていた。 本研究では,まず自己教師付き画像特徴を学習し,その特徴を用いて3次元モデルを訓練することにより,画像とポイントクラウドのモダリティを組み合わせる。 多くの3dデータセットにしばしば含まれるイメージデータを組み込むことで、事前トレーニング方法はシーンの単一のスキャンのみを必要とする。 当社の事前トレーニングアプローチは、単一のスキャンを使用しても、他のマルチスキャン、ポイントクラウドのみの方法と同等のパフォーマンスを実現しています。

Reducing the quantity of annotations required for supervised training is vital when labels are scarce and costly. This reduction is especially important for semantic segmentation tasks involving 3D datasets that are often significantly smaller and more challenging to annotate than their image-based counterparts. Self-supervised pre-training on large unlabelled datasets is one way to reduce the amount of manual annotations needed. Previous work has focused on pre-training with point cloud data exclusively; this approach often requires two or more registered views. In the present work, we combine image and point cloud modalities, by first learning self-supervised image features and then using these features to train a 3D model. By incorporating image data, which is often included in many 3D datasets, our pre-training method only requires a single scan of a scene. We demonstrate that our pre-training approach, despite using single scans, achieves comparable performance to other multi-scan, point cloud-only methods.
翻訳日:2022-11-23 17:45:15 公開日:2022-11-21
# RIC-CNN:回転不変座標畳み込みニューラルネットワーク

RIC-CNN: Rotation-Invariant Coordinate Convolutional Neural Network ( http://arxiv.org/abs/2211.11812v1 )

ライセンス: Link先を確認
Hanlin Mo and Guoying Zhao(参考訳) 近年,多くの画像処理やコンピュータビジョンタスクにおいて,畳み込みニューラルネットワークの性能が向上している。 しかし、標準的なCNNモデルは画像回転に不変ではない。 実際、入力画像がわずかに回転しても、その性能は著しく低下する。 この欠点は、いくつかの現実的なシナリオにおいてCNNの使用を妨げる。 そこで本稿では,回転不変性に優れた畳み込み層の設計に着目する。 具体的には、単純な回転不変座標系に基づいて、回転不変座標変換(RIC-C)と呼ばれる新しい畳み込み演算を提案する。 追加のトレーニング可能なパラメータやデータ拡張がなければ、RIC-Cは入力中心周辺の任意の回転に自然に不変である。 さらに, RIC-C と変形可能な畳み込みの関連性を見出した上で, Pytorch を用いた RIC-C の実装方法を提案する。 CNNの標準畳み込み層を対応するRCC-Cに置き換えることで、RCC-CNNを導出することができる。 MNISTデータセットを用いて、まずRIC-CNNの回転不変性を評価し、既存の回転不変CNNモデルと比較する。 RIC-CNNはMNISTの回転試験データセット上で最先端の分類を実現することが観察できる。 次に、VGG、ResNet、DenseNetにRCC-Cをデプロイし、2つの実画像データセットの分類実験を行う。 また、画像パッチ記述子を抽出するために、浅いCNNと対応するRIC-CNNを訓練し、パッチ検証の性能を比較する。 これらの実験結果から、RCC-Cは標準畳み込みの代替として簡単に使用でき、異なるアプリケーション用に設計されたCNNモデルの回転不変性を大幅に向上することが示された。

In recent years, convolutional neural network has shown good performance in many image processing and computer vision tasks. However, a standard CNN model is not invariant to image rotations. In fact, even slight rotation of an input image will seriously degrade its performance. This shortcoming precludes the use of CNN in some practical scenarios. Thus, in this paper, we focus on designing convolutional layer with good rotation invariance. Specifically, based on a simple rotation-invariant coordinate system, we propose a new convolutional operation, called Rotation-Invariant Coordinate Convolution (RIC-C). Without additional trainable parameters and data augmentation, RIC-C is naturally invariant to arbitrary rotations around the input center. Furthermore, we find the connection between RIC-C and deformable convolution, and propose a simple but efficient approach to implement RIC-C using Pytorch. By replacing all standard convolutional layers in a CNN with the corresponding RIC-C, a RIC-CNN can be derived. Using MNIST dataset, we first evaluate the rotation invariance of RIC-CNN and compare its performance with most of existing rotation-invariant CNN models. It can be observed that RIC-CNN achieves the state-of-the-art classification on the rotated test dataset of MNIST. Then, we deploy RIC-C to VGG, ResNet and DenseNet, and conduct the classification experiments on two real image datasets. Also, a shallow CNN and the corresponding RIC-CNN are trained to extract image patch descriptors, and we compare their performance in patch verification. These experimental results again show that RIC-C can be easily used as drop in replacement for standard convolutions, and greatly enhances the rotation invariance of CNN models designed for different applications.
翻訳日:2022-11-23 17:44:45 公開日:2022-11-21
# OrthoGAN:多面的な顔編集のためのセマンティック

OrthoGAN: Multifaceted Semantics for Disentangled Face Editing ( http://arxiv.org/abs/2211.11825v1 )

ライセンス: Link先を確認
Chen Naveh and Yacov Hel-Or(参考訳) 本稿では,StyleGANの潜在空間における不整合意味方向を求める新しい手法について述べる。 OrthoGANは、人間の顔属性の編集を可能にする意味のある直交部分空間を特定し、他の属性の望ましくない変更を最小限にする。 我々のモデルは複数の方向に一つの属性を編集できる。 生成可能なさまざまなイメージが生成される。 提案手法を最先端の3つのモデルと比較し,顔の編集能力とアンタングル化能力で優れることを示す。 さらに, 属性分離・非絡合評価のための定量的尺度を提案し, それらの指標に対するモデルの優越性を示す。

This paper describes a new technique for finding disentangled semantic directions in the latent space of StyleGAN. OrthoGAN identifies meaningful orthogonal subspaces that allow editing of one human face attribute, while minimizing undesired changes in other attributes. Our model is capable of editing a single attribute in multiple directions. Resulting in a range of possible generated images. We compare our scheme with three state-of-the-art models and show that our method outperforms them in terms of face editing and disentanglement capabilities. Additionally, we suggest quantitative measures for evaluating attribute separation and disentanglement, and exhibit the superiority of our model with respect to those measures.
翻訳日:2022-11-23 17:44:19 公開日:2022-11-21
# 弱教師付き学習と変形型トランスを用いたポリプセグメンテーションの自動化

Towards Automated Polyp Segmentation Using Weakly- and Semi-Supervised Learning and Deformable Transformers ( http://arxiv.org/abs/2211.11847v1 )

ライセンス: Link先を確認
Guangyu Ren, Michalis Lazarou, Jing Yuan, Tania Stathaki(参考訳) ポリープセグメンテーションは大腸癌のコンピュータ診断への重要なステップである。 しかし、ほとんどのポリプセグメンテーション法はピクセル単位のアノテートデータセットを必要とする。 注釈付きデータセットは、特に患者に時間を捧げなければならない医師にとって、作成には退屈で時間を要する。 弱い注釈付き画像とラベルなし画像のみを用いてトレーニングできる新しいフレームワークを提案することでこの問題に対処する。 この目的のために、私たちはこの問題を解決するための3つのアイデアを提案します。 1)偽陽性を抑え、弱監督訓練を改善する新規な疎外的前景喪失。 2) 半教師付き学習中に異なる初期化を用いて訓練された同一ネットワークからの予測セグメンテーションマップを用いた一括重み付き一貫性損失 3) 変形可能な変圧器エンコーダネックで, レベルとフレキシブルな空間的位置の情報を融合して特徴強化を行う。 大規模な実験結果は、最先端の完全教師付きモデルよりも優れた5つの挑戦的データセットに対する私たちのアイデアのメリットを示しています。 また,本フレームワークは,天然画像セグメンテーションデータセットに基づいて訓練された微調整モデルに利用することができ,ポリプセグメンテーションの性能を大幅に向上させることができる。

Polyp segmentation is a crucial step towards computer-aided diagnosis of colorectal cancer. However, most of the polyp segmentation methods require pixel-wise annotated datasets. Annotated datasets are tedious and time-consuming to produce, especially for physicians who must dedicate their time to their patients. We tackle this issue by proposing a novel framework that can be trained using only weakly annotated images along with exploiting unlabeled images. To this end, we propose three ideas to address this problem, more specifically our contributions are: 1) a novel sparse foreground loss that suppresses false positives and improves weakly-supervised training, 2) a batch-wise weighted consistency loss utilizing predicted segmentation maps from identical networks trained using different initialization during semi-supervised training, 3) a deformable transformer encoder neck for feature enhancement by fusing information across levels and flexible spatial locations. Extensive experimental results demonstrate the merits of our ideas on five challenging datasets outperforming some state-of-the-art fully supervised models. Also, our framework can be utilized to fine-tune models trained on natural image segmentation datasets drastically improving their performance for polyp segmentation and impressively demonstrating superior performance to fully supervised fine-tuning.
翻訳日:2022-11-23 17:44:08 公開日:2022-11-21
# loopda: 夜間のセマンティクスセグメンテーションを適応させるための自己ループの構築

LoopDA: Constructing Self-loops to Adapt Nighttime Semantic Segmentation ( http://arxiv.org/abs/2211.11870v1 )

ライセンス: Link先を確認
Fengyi Shen, Zador Pataki, Akhil Gurram, Ziyuan Liu, He Wang, Alois Knoll(参考訳) トレーニングラベルの欠如とアノテートが難しいため、夜間などの運転条件の悪さに対処することは、自動運転車の認識システムにとって大きな課題となっている。 そのため、ラベル付き夜間ドメインからラベルなし夜間ドメインへの知識の適用が広く研究されている。 昼行データセットのラベル付けに加えて、既存の夜間データセットは、通常、近くの場所で撮影された昼行参照画像に対応する夜間画像を提供する。 主な課題は、2つのドメイン間のパフォーマンスギャップを最小限にすることである。 本稿では,ドメイン適応型夜間セマンティックセマンティックセグメンテーションのためのLoopDAを提案する。 予測したセマンティックマップを使って入力データを再構成し、エンコードされた特徴にレンダリングする自己ループで構成される。 ウォームアップトレーニング段階では、自己ループは内ループと外ループで構成され、それぞれドメイン内精製とドメイン間アライメントを担っている。 昼夜のポーズシフトの影響を軽減するため、後段の自己学習では、オフラインの擬似スーパービジョン信号とオンライン参照誘導信号「dna」(昼夜合意)を含む共同学習パイプラインを提案し、夜間のセグメンテーション強化に多大なメリットをもたらす。 提案モデルは,ダークチューリッヒと夜間運転データセットを用いたセマンティクスセグメンテーションの先行手法よりも優れている。 コードと事前訓練されたモデルはhttps://github.com/fy-vision/LoopDA.comで入手できる。

Due to the lack of training labels and the difficulty of annotating, dealing with adverse driving conditions such as nighttime has posed a huge challenge to the perception system of autonomous vehicles. Therefore, adapting knowledge from a labelled daytime domain to an unlabelled nighttime domain has been widely researched. In addition to labelled daytime datasets, existing nighttime datasets usually provide nighttime images with corresponding daytime reference images captured at nearby locations for reference. The key challenge is to minimize the performance gap between the two domains. In this paper, we propose LoopDA for domain adaptive nighttime semantic segmentation. It consists of self-loops that result in reconstructing the input data using predicted semantic maps, by rendering them into the encoded features. In a warm-up training stage, the self-loops comprise of an inner-loop and an outer-loop, which are responsible for intra-domain refinement and inter-domain alignment, respectively. To reduce the impact of day-night pose shifts, in the later self-training stage, we propose a co-teaching pipeline that involves an offline pseudo-supervision signal and an online reference-guided signal `DNA' (Day-Night Agreement), bringing substantial benefits to enhance nighttime segmentation. Our model outperforms prior methods on Dark Zurich and Nighttime Driving datasets for semantic segmentation. Code and pretrained models are available at https://github.com/fy-vision/LoopDA.
翻訳日:2022-11-23 17:43:48 公開日:2022-11-21
# BigTransfer (BiT) を用いたメラノサイトネバス画像の分類

Classification of Melanocytic Nevus Images using BigTransfer (BiT) ( http://arxiv.org/abs/2211.11872v1 )

ライセンス: Link先を確認
Sanya Sinha and Nilay Gupta(参考訳) 皮膚がんは致命的な疾患であり、毎年人命に多大な負担がかかる。 色付き皮膚画像はメラノーマやネバスなどの異なる皮膚病変と有意な類似性を示し,鑑別と診断が困難である。 メラノーマは成熟し、悪性黒色腫を引き起こす。 したがって、現在の管理プロトコルは、脅迫的に見えるneviを削除することを含む。 しかし、良性・悪性黒色腫の分類にはレジリエントな分類パラダイムが必要である。 早期診断は、診断を効率的かつタイムリーに、かつ成功させるために、メラノサイトーシス nevi分類の信頼できる自動化システムを必要としている。 与えられた研究において自動分類アルゴリズムを提案する。 この技術では、別の問題ステートメントに基づいて予めトレーニングされたニューラルネットワークを利用してメラノサイトネバス画像の分類を行う。 提案手法では,resnetを用いた転移学習手法であるbig transfer (bit) を用いてメラノサイトーネビを悪性または良性に分類する。 その結果,現在の手法と比較し,新しい手法の分類精度が既存の手法よりも優れていることが証明された。

Skin cancer is a fatal disease that takes a heavy toll over human lives annually. The colored skin images show a significant degree of resemblance between different skin lesions such as melanoma and nevus, making identification and diagnosis more challenging. Melanocytic nevi may mature to cause fatal melanoma. Therefore, the current management protocol involves the removal of those nevi that appear intimidating. However, this necessitates resilient classification paradigms for classifying benign and malignant melanocytic nevi. Early diagnosis necessitates a dependable automated system for melanocytic nevi classification to render diagnosis efficient, timely, and successful. An automated classification algorithm is proposed in the given research. A neural network previously-trained on a separate problem statement is leveraged in this technique for classifying melanocytic nevus images. The suggested method uses BigTransfer (BiT), a ResNet-based transfer learning approach for classifying melanocytic nevi as malignant or benign. The results obtained are compared to that of current techniques, and the new method's classification rate is proven to outperform that of existing methods.
翻訳日:2022-11-23 17:28:12 公開日:2022-11-21
# パーソナライゼーションタスクのための強化学習エージェントのポリシーエントロピーの検討

Examining Policy Entropy of Reinforcement Learning Agents for Personalization Tasks ( http://arxiv.org/abs/2211.11869v1 )

ライセンス: Link先を確認
Anton Dereventsov, Andrew Starnes, Clayton G. Webster(参考訳) 本研究は, パーソナライズ環境における強化学習システムの挙動を把握し, 利用した学習アルゴリズムの種類に関連する政策エントロピーの違いを詳述する。 ポリシー最適化エージェントはトレーニング中に低エントロピーポリシを持つことが多く,その結果としてエージェントは特定のアクションを優先し,他のアクションを避けることができる。 逆に,q-learningエージェントはそのような行動に対する感受性が低く,一般的にはトレーニングを通じて高いエントロピーポリシーが維持されていることも示している。 本研究では,これらのエントロピーの違いが採用される学習の種類に起因することを示すため,幅広い数値実験と理論的正当性を提供する。

This effort is focused on examining the behavior of reinforcement learning systems in personalization environments and detailing the differences in policy entropy associated with the type of learning algorithm utilized. We demonstrate that Policy Optimization agents often possess low-entropy policies during training, which in practice results in agents prioritizing certain actions and avoiding others. Conversely, we also show that Q-Learning agents are far less susceptible to such behavior and generally maintain high-entropy policies throughout training, which is often preferable in real-world applications. We provide a wide range of numerical experiments as well as theoretical justification to show that these differences in entropy are due to the type of learning being employed.
翻訳日:2022-11-23 17:26:44 公開日:2022-11-21
# The NCTE Transcripts: a dataset of elementary Math Classroom Transcripts

The NCTE Transcripts: A Dataset of Elementary Math Classroom Transcripts ( http://arxiv.org/abs/2211.11772v1 )

ライセンス: Link先を確認
Dorottya Demszky and Heather Hill(参考訳) 分析は、教育と学習の窓口を提供するだけでなく、教育を改善するための新しいツールの開発を促進することができる。 我々は、研究者が利用可能な数学教室の教科書の最大のデータセットを紹介し、このデータが教育改善にどのように役立つかを実証する。 このデータセットは、2010年から2013年にかけてNCTE(National Center for Teacher Effectiveness)が収集した1,660の45-60分の長さと5年生の初等数学の観測から成り立っている。 匿名化された書き起こしは4つの学区にまたがる317人の教師のデータを表している。 書き起こしには、対話的談話の動き、教室の観察スコア、人口統計情報、調査回答、学生テストスコアのターンレベルアノテーションなど、豊富なメタデータが含まれている。 我々の自然言語処理モデルはターンレベルのアノテーションに基づいて学習し、対話的談話の動きを識別できることを示し、これらの動きはより良い教室の観察スコアと学習結果と相関することを示した。 このデータセットは、研究者、教育者、政策立案者がK-12指導について学び、改善するいくつかの可能性を開く。 https://github.com/ddemszky/classroom-transcript- analysis データのアクセスと利用規約は以下のとおりである。

Classroom discourse is a core medium of instruction -- analyzing it can provide a window into teaching and learning as well as driving the development of new tools for improving instruction. We introduce the largest dataset of mathematics classroom transcripts available to researchers, and demonstrate how this data can help improve instruction. The dataset consists of 1,660 45-60 minute long 4th and 5th grade elementary mathematics observations collected by the National Center for Teacher Effectiveness (NCTE) between 2010-2013. The anonymized transcripts represent data from 317 teachers across 4 school districts that serve largely historically marginalized students. The transcripts come with rich metadata, including turn-level annotations for dialogic discourse moves, classroom observation scores, demographic information, survey responses and student test scores. We demonstrate that our natural language processing model, trained on our turn-level annotations, can learn to identify dialogic discourse moves and these moves are correlated with better classroom observation scores and learning outcomes. This dataset opens up several possibilities for researchers, educators and policymakers to learn about and improve K-12 instruction. The data and its terms of use can be accessed here: https://github.com/ddemszky/classroom-transcript-analysis
翻訳日:2022-11-23 17:25:44 公開日:2022-11-21
# 臨床ノートからのセグメントの無監督抽出・ラベリング・クラスタリング

Unsupervised extraction, labelling and clustering of segments from clinical notes ( http://arxiv.org/abs/2211.11799v1 )

ライセンス: Link先を確認
Petr Zelina, Jana Hal\'amkov\'a, V\'it Nov\'a\v{c}ek(参考訳) この研究は、チェコ語のような計算に乏しい言語における非構造化臨床ノートからの正確で教師なしの情報抽出のためのツールの不足に動機づけられている。 個別の患者記録の要約や統合、国立がん登録簿の報告のための構造化情報抽出、患者埋め込みを計算するための半構造化セマンティック患者表現の構築など、下流の幅広いタスクへのステップストーンを導入する。 より具体的には,Machryk Memorial Cancer Institute (チェコ最大の腫瘍専門病院) が提供したチェコの乳がん患者のデータセットを用いて,臨床ノートから意味論的にラップされたテキストセグメントを非教師的抽出する方法を提案する。 我々の目標は、特定の臨床特徴(例えば、家族の背景、共生性、毒性)に対応するフリーテキストノートの抽出、分類(ラベル)およびクラスタセグメントを作ることであった。 チェコの臨床ノートに展開されたより洗練された抽出パイプラインと分析パイプラインを構築するための提案手法の実践的妥当性を示す。

This work is motivated by the scarcity of tools for accurate, unsupervised information extraction from unstructured clinical notes in computationally underrepresented languages, such as Czech. We introduce a stepping stone to a broad array of downstream tasks such as summarisation or integration of individual patient records, extraction of structured information for national cancer registry reporting or building of semi-structured semantic patient representations for computing patient embeddings. More specifically, we present a method for unsupervised extraction of semantically-labelled textual segments from clinical notes and test it out on a dataset of Czech breast cancer patients, provided by Masaryk Memorial Cancer Institute (the largest Czech hospital specialising in oncology). Our goal was to extract, classify (i.e. label) and cluster segments of the free-text notes that correspond to specific clinical features (e.g., family background, comorbidities or toxicities). The presented results demonstrate the practical relevance of the proposed approach for building more sophisticated extraction and analytical pipelines deployed on Czech clinical notes.
翻訳日:2022-11-23 17:25:23 公開日:2022-11-21
# 質問の知識依存度の評価

Evaluating the Knowledge Dependency of Questions ( http://arxiv.org/abs/2211.11902v1 )

ライセンス: Link先を確認
Hyeongdon Moon, Yoonseok Yang, Jamin Shin, Hangyeol Yu, Seunghyun Lee, Myeongho Jeong, Juneyoung Park, Minsam Kim, Seungtaek Choi(参考訳) 多重選択質問の自動生成(mcq)は、教育者が学生評価に費やす時間を大幅に削減する可能性がある。 しかし、既存の評価指標であるBLEU、ROUGE、METEORは、生成されたMCQとデータセットの金試料とのn-gramに基づく類似性に注目し、その教育的価値を無視している。 彼らは、MCQが対象の事実に関する生徒の知識を評価する能力を評価するのに失敗する。 そこで本研究では,MCQが対象とする事実の知識を考慮に入れた応答可能性を測定する,知識依存解答性(KDA)という,新たな自動評価指標を提案する。 具体的には,まず,人間調査からの学生回答に基づいてkdaを測定する方法を示す。 そこで,本研究では,事前学習した言語モデルを用いて,学生の問題解決行動を模倣する2つの自動評価指標KDA_discとKDA_contを提案する。 我々は,KDA_disc と KDA_soft が,(1) KDA と (2) 実際の教室環境におけるユーザビリティに強い相関関係があることを明らかにする。 さらに,n-gramをベースとした類似度測定値と組み合わせると,KDA_discとKDA_contは,MCQの品質測定に強い予測力を有することが明らかとなった。

The automatic generation of Multiple Choice Questions (MCQ) has the potential to reduce the time educators spend on student assessment significantly. However, existing evaluation metrics for MCQ generation, such as BLEU, ROUGE, and METEOR, focus on the n-gram based similarity of the generated MCQ to the gold sample in the dataset and disregard their educational value. They fail to evaluate the MCQ's ability to assess the student's knowledge of the corresponding target fact. To tackle this issue, we propose a novel automatic evaluation metric, coined Knowledge Dependent Answerability (KDA), which measures the MCQ's answerability given knowledge of the target fact. Specifically, we first show how to measure KDA based on student responses from a human survey. Then, we propose two automatic evaluation metrics, KDA_disc and KDA_cont, that approximate KDA by leveraging pre-trained language models to imitate students' problem-solving behavior. Through our human studies, we show that KDA_disc and KDA_soft have strong correlations with both (1) KDA and (2) usability in an actual classroom setting, labeled by experts. Furthermore, when combined with n-gram based similarity metrics, KDA_disc and KDA_cont are shown to have a strong predictive power for various expert-labeled MCQ quality measures.
翻訳日:2022-11-23 17:25:06 公開日:2022-11-21
# 時間制約付きマルチエージェント強化学習によるクラウドの協調的オーバーサブスクライブ学習

Learning Cooperative Oversubscription for Cloud by Chance-Constrained Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2211.11759v1 )

ライセンス: Link先を確認
Junjie Sheng, Lu Wang, Fangkai Yang, Bo Qiao, Hang Dong, Xiangfeng Wang, Bo Jin, Jun Wang, Si Qin, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang(参考訳) oversubscriptionは、クラウドリソースの利用を改善するための一般的なプラクティスである。 クラウドサービスプロバイダは、すべてのユーザが同時にリソースをフル活用できるわけではないと仮定して、物理的な制限以上のリソースを販売できる。 しかし、いくつかの安全制約を満たしつつ利用率を向上させる過剰な加入ポリシーをどう設計するかは未解決の問題である。 既存の手法と産業プラクティスは過保守であり、多様な資源利用パターンと確率的制約の調整を無視している。 この2つの制約に対処するために,クラウドのオーバーサブスクライブをチャンス制約付き最適化問題として定式化し,この問題を解決するための効果的なC2MARL法を提案する。 具体的には、C2MARLは上限を考慮し制約数を減らし、マルチエージェント強化学習パラダイムを活用し、安全で最適な調整ポリシーを学ぶ。 我々は、C2MARLを、内部クラウドプラットフォームとパブリッククラウドデータセットで評価する。 実験の結果, C2MARLは, 安全性の制約によって, 既存の方法よりも高い利用率(20\%\sim 86\%$)を達成できた。

Oversubscription is a common practice for improving cloud resource utilization. It allows the cloud service provider to sell more resources than the physical limit, assuming not all users would fully utilize the resources simultaneously. However, how to design an oversubscription policy that improves utilization while satisfying the some safety constraints remains an open problem. Existing methods and industrial practices are over-conservative, ignoring the coordination of diverse resource usage patterns and probabilistic constraints. To address these two limitations, this paper formulates the oversubscription for cloud as a chance-constrained optimization problem and propose an effective Chance Constrained Multi-Agent Reinforcement Learning (C2MARL) method to solve this problem. Specifically, C2MARL reduces the number of constraints by considering their upper bounds and leverages a multi-agent reinforcement learning paradigm to learn a safe and optimal coordination policy. We evaluate our C2MARL on an internal cloud platform and public cloud datasets. Experiments show that our C2MARL outperforms existing methods in improving utilization ($20\%\sim 86\%$) under different levels of safety constraints.
翻訳日:2022-11-23 17:18:55 公開日:2022-11-21
# ds-gps : 深い統計グラフポアソン解法(cfdシミュレーションの高速化)

DS-GPS : A Deep Statistical Graph Poisson Solver (for faster CFD simulations) ( http://arxiv.org/abs/2211.11763v1 )

ライセンス: Link先を確認
Matthieu Nastorg (CNRS, Inria, LISN, IFPEN), Marc Schoenauer (CNRS, Inria, LISN), Guillaume Charpiat (CNRS, Inria, LISN), Thibault Faney (IFPEN), Jean-Marc Gratien (IFPEN), Michele-Alessandro Bucci (CNRS, Inria, LISN)(参考訳) 本稿では,混合境界条件を用いたポアソン問題を解くための新しい機械学習手法を提案する。 グラフニューラルネットワークを応用して,設計による境界条件の強制による非構造グリッドの処理が可能なモデルを開発する。 ポアソン方程式の残差を直接最小化することで、モデルは、利用可能な解との距離が最小化された以前のデータ駆動プロセスと対照的に、正確な解を必要とせずに問題の物理学を学ぼうとする。

This paper proposes a novel Machine Learning-based approach to solve a Poisson problem with mixed boundary conditions. Leveraging Graph Neural Networks, we develop a model able to process unstructured grids with the advantage of enforcing boundary conditions by design. By directly minimizing the residual of the Poisson equation, the model attempts to learn the physics of the problem without the need for exact solutions, in contrast to most previous data-driven processes where the distance with the available solutions is minimized.
翻訳日:2022-11-23 17:18:38 公開日:2022-11-21
# フェアネスは敵の脆弱性を増す

Fairness Increases Adversarial Vulnerability ( http://arxiv.org/abs/2211.11835v1 )

ライセンス: Link先を確認
Cuong Tran, Keyu Zhu, Ferdinando Fioretto, Pascal Van Henternyck(参考訳) ディープラーニングモデルの顕著なパフォーマンスとその連続したドメイン(例えば顔認識)への応用は、エクイティとセキュリティの交差において重要な課題をもたらす。 公平性と堅牢性は、学習モデルにおいてしばしば必要とされる2つの望ましい概念である。 公正さは、モデルを不均等に他のグループに害を与えない(または利益を与える)ことを保証する一方、ロバスト性は小さな入力摂動に対してモデルの弾力性を測定する。 本稿では,フェアネスとロバストネスの2分法が存在することを示し,フェアネスを達成すると,モデルのロバスト性が逆試料に低下することを示す。 報告された分析は、そのような対照的な行動を引き起こす要因に光を当て、この行動の鍵となる説明として、グループ間の決定境界までの距離が示唆されている。 非線形モデルと異なるアーキテクチャに関する広範な実験は、複数の視覚領域における理論的知見を検証する。 最後に,公平性とロバスト性の間の良好なトレードオフを実現するモデルを構築するための,単純かつ効果的なソリューションを提案する。

The remarkable performance of deep learning models and their applications in consequential domains (e.g., facial recognition) introduces important challenges at the intersection of equity and security. Fairness and robustness are two desired notions often required in learning models. Fairness ensures that models do not disproportionately harm (or benefit) some groups over others, while robustness measures the models' resilience against small input perturbations. This paper shows the existence of a dichotomy between fairness and robustness, and analyzes when achieving fairness decreases the model robustness to adversarial samples. The reported analysis sheds light on the factors causing such contrasting behavior, suggesting that distance to the decision boundary across groups as a key explainer for this behavior. Extensive experiments on non-linear models and different architectures validate the theoretical findings in multiple vision domains. Finally, the paper proposes a simple, yet effective, solution to construct models achieving good tradeoffs between fairness and robustness.
翻訳日:2022-11-23 17:18:28 公開日:2022-11-21
# アルゴリズムリコースによる努力の平等

Equality of Effort via Algorithmic Recourse ( http://arxiv.org/abs/2211.11892v1 )

ライセンス: Link先を確認
Francesca E. D. Raimondi, Andrew R. Lawrence, Hana Chockler(参考訳) 本稿では,最小限の介入によるアルゴリズム的帰納法を適用し,努力の平等を通して公平性を測定する手法を提案する。 努力の平等は、個人レベルとグループレベルの両方で定量化できる性質である。 保護された個人に対する最小のコスト、あるいは保護された個人の平均の最小のコストは、自動化されたシステムによって計算された結果を逆転させるのか? アルゴリズムリコースは、平等な努力の概念の柔軟性と適用性を高める: 複数の処理変数の調整、実現可能性と可能性制約の導入、介入の実際の相対コストの統合により、以前の制限を克服する。 既存の努力の平等性の定義を拡張し、アルゴリズム的リコースを通じてその評価のためのアルゴリズムを提案する。 我々は、合成データとドイツのクレジットデータセットの両方にアプローチを検証する。

This paper proposes a method for measuring fairness through equality of effort by applying algorithmic recourse through minimal interventions. Equality of effort is a property that can be quantified at both the individual and the group level. It answers the counterfactual question: what is the minimal cost for a protected individual or the average minimal cost for a protected group of individuals to reverse the outcome computed by an automated system? Algorithmic recourse increases the flexibility and applicability of the notion of equal effort: it overcomes its previous limitations by reconciling multiple treatment variables, introducing feasibility and plausibility constraints, and integrating the actual relative costs of interventions. We extend the existing definition of equality of effort and present an algorithm for its assessment via algorithmic recourse. We validate our approach both on synthetic data and on the German credit dataset.
翻訳日:2022-11-23 17:17:30 公開日:2022-11-21
# ガウス木モデルにおけるEMの収束性

EM's Convergence in Gaussian Latent Tree Models ( http://arxiv.org/abs/2211.11904v1 )

ライセンス: Link先を確認
Yuval Dagan, Constantinos Daskalakis, Anthimos Vardis Kandiros(参考訳) 葉ノードが観測可能で非リーフノードが観測不可能な木構造ガウス図形モデルにおいて、ログ様関数の最適化状況と、潜在ガウス木モデルにおける期待最大化(EM)アルゴリズムの収束について検討する。 集団ログに類似する一意な非自明な定常点がその大域的最大値であることを示し、期待最大化アルゴリズムが単一の潜在変数の場合に収束することが保証されることを示す。 一般的な潜在木モデルにおける対数様関数のランドスケープに対する我々の結果は、この設定における最大極大ベースメソッドの広範な活用を支援する。 EMアルゴリズムに対する我々の結果は、この有望なアルゴリズムのグローバル収束保証を得るための新たな作業線を延長する。 我々は,em更新から得られるある多項式方程式系が一意な非自明な解を持つと主張することにより,log-likelihood の非自明な定常点に対する結果を示す。 EMアルゴリズムのグローバル収束は、すべての自明な不動点が高次サドル点であると主張することで従う。

We study the optimization landscape of the log-likelihood function and the convergence of the Expectation-Maximization (EM) algorithm in latent Gaussian tree models, i.e.~tree-structured Gaussian graphical models whose leaf nodes are observable and non-leaf nodes are unobservable. We show that the unique non-trivial stationary point of the population log-likelihood is its global maximum, and establish that the expectation-maximization algorithm is guaranteed to converge to it in the single latent variable case. Our results for the landscape of the log-likelihood function in general latent tree models provide support for the extensive practical use of maximum likelihood based-methods in this setting. Our results for the EM algorithm extend an emerging line of work on obtaining global convergence guarantees for this celebrated algorithm. We show our results for the non-trivial stationary points of the log-likelihood by arguing that a certain system of polynomial equations obtained from the EM updates has a unique non-trivial solution. The global convergence of the EM algorithm follows by arguing that all trivial fixed points are higher-order saddle points.
翻訳日:2022-11-23 17:17:18 公開日:2022-11-21
# 大規模カテゴリの学習から生まれる神経依存

Neural Dependencies Emerging from Learning Massive Categories ( http://arxiv.org/abs/2211.12339v1 )

ライセンス: Link先を確認
Ruili Feng, Kecheng Zheng, Kai Zhu, Yujun Shen, Jian Zhao, Yukun Huang, Deli Zhao, Jingren Zhou, Michael Jordan, Zheng-Jun Zha(参考訳) 本研究は,大規模画像分類で学習したニューラルネットワークについて,驚くべき2つの知見を示す。 1) 十分に訓練されたモデルが与えられた場合、あるカテゴリに対して予測されたロジットは、他のいくつかのカテゴリの予測を線形に組み合わせることで直接得られる。 2) ニューラルネットワークの依存関係は,1つのモデルだけでなく,アーキテクチャに関わらず,2つの独立したモデルの間にも存在します。 このような現象の理論的解析に向けて,本論文で提案する共分散ラッソ(covlasso)回帰問題に対する神経依存性の同定が等価であることを示す。 問題解の特性を調べた結果,ニューラル依存は冗長なロジット共分散行列によって保証され,その条件は大規模カテゴリで容易に満たされ,ニューラル依存は極めて疎結合であり,一つのカテゴリが少数のカテゴリに相関していることが示唆された。 さらに,内部データ相関の理解,未認識のカテゴリへのモデル一般化,依存関係から派生した正規化器によるモデルのロバスト性向上における,ニューラルネットワーク依存の可能性を実証的に示す。 この作業のコードは公開される予定だ。

This work presents two astonishing findings on neural networks learned for large-scale image classification. 1) Given a well-trained model, the logits predicted for some category can be directly obtained by linearly combining the predictions of a few other categories, which we call \textbf{neural dependency}. 2) Neural dependencies exist not only within a single model, but even between two independently learned models, regardless of their architectures. Towards a theoretical analysis of such phenomena, we demonstrate that identifying neural dependencies is equivalent to solving the Covariance Lasso (CovLasso) regression problem proposed in this paper. Through investigating the properties of the problem solution, we confirm that neural dependency is guaranteed by a redundant logit covariance matrix, which condition is easily met given massive categories, and that neural dependency is highly sparse, implying that one category correlates to only a few others. We further empirically show the potential of neural dependencies in understanding internal data correlations, generalizing models to unseen categories, and improving model robustness with a dependency-derived regularizer. Code for this work will be made publicly available.
翻訳日:2022-11-23 17:09:19 公開日:2022-11-21
# ニューラルネットワークのためのベイズ学習:アルゴリズムによる調査

Bayesian Learning for Neural Networks: an algorithmic survey ( http://arxiv.org/abs/2211.11865v1 )

ライセンス: Link先を確認
Martin Magris, Alexandros Iosifidis(参考訳) 過去10年間、ベイズ学習への関心が高まった。 しかし、このトピックの技術的な性質とそれに関連する多くの要素は、理論を実践的な実装に変換する複雑さに加えて、ベイズ学習パラダイムの使用を制限することや、様々な分野や応用で広く採用されるのを妨げている。 この自己完結型調査は、ベイズ学習ニューラルネットワークの原理とアルゴリズムを読者に紹介する。 アクセス可能で実践的な視点からトピックを紹介します。 ベイズニューラルネットワークの一般導入について、変分推論と自然勾配の利用に依存する解に重点を置いて、ベイズ推論の標準的および最近のアプローチを論じ、提示する。 また,ベイズ学習の最先端手法としての多様体最適化についても論じる。 提案手法の特徴について検討し,その実装に擬似コードを提供し,勾配の計算などの実践的側面に注目した。

The last decade witnessed a growing interest in Bayesian learning. Yet, the technicality of the topic and the multitude of ingredients involved therein, besides the complexity of turning theory into practical implementations, limit the use of the Bayesian learning paradigm, preventing its widespread adoption across different fields and applications. This self-contained survey engages and introduces readers to the principles and algorithms of Bayesian Learning for Neural Networks. It provides an introduction to the topic from an accessible, practical-algorithmic perspective. Upon providing a general introduction to Bayesian Neural Networks, we discuss and present both standard and recent approaches for Bayesian inference, with an emphasis on solutions relying on Variational Inference and the use of Natural gradients. We also discuss the use of manifold optimization as a state-of-the-art approach to Bayesian learning. We examine the characteristic properties of all the discussed methods, and provide pseudo-codes for their implementation, paying attention to practical aspects, such as the computation of the gradients
翻訳日:2022-11-23 16:59:08 公開日:2022-11-21
# ワッサースタイン判別分析のための二レベル非線形固有ベクトルアルゴリズム

A Bi-level Nonlinear Eigenvector Algorithm for Wasserstein Discriminant Analysis ( http://arxiv.org/abs/2211.11891v1 )

ライセンス: Link先を確認
Dong Min Roh, Zhaojun Bai(参考訳) 古典的なフィッシャー線形判別分析と同様に、wasserstein discriminant analysis (wda) は教師付き線形次元減少法であり、異なるデータクラスの分散を最大化し、同じデータクラスの分散を最小化する投影行列を求める。 対照的に、WDAは正規化ワッサーシュタイン距離を用いてデータクラス間の大域的および局所的な相互接続を説明できる。 WDAは二レベル非線形トレース比最適化として定式化されている。 本稿では,二値非線形固有ベクトル(nepv)アルゴリズムwda-nepvを提案する。 正則化ワッサースタイン距離の最適輸送行列を計算するためのwda-nepvの内核をnepvとして定式化し、一方トレース比最適化のための外核を別のnepvとして定式化する。 したがって、両カーネルは自己整合フィールド反復と線形固有値問題に対する現代的な解法によって効率的に計算できる。 WDAの既存のアルゴリズムと比較して、WDA-nepvはデリバティブフリーで代理モデルフリーである。 WDA-nepvの分類精度の計算効率と応用は、合成および実生活データセットを用いて実証される。

Much like the classical Fisher linear discriminant analysis, Wasserstein discriminant analysis (WDA) is a supervised linear dimensionality reduction method that seeks a projection matrix to maximize the dispersion of different data classes and minimize the dispersion of same data classes. However, in contrast, WDA can account for both global and local inter-connections between data classes using a regularized Wasserstein distance. WDA is formulated as a bi-level nonlinear trace ratio optimization. In this paper, we present a bi-level nonlinear eigenvector (NEPv) algorithm, called WDA-nepv. The inner kernel of WDA-nepv for computing the optimal transport matrix of the regularized Wasserstein distance is formulated as an NEPv, and meanwhile the outer kernel for the trace ratio optimization is also formulated as another NEPv. Consequently, both kernels can be computed efficiently via self-consistent-field iterations and modern solvers for linear eigenvalue problems. Comparing with the existing algorithms for WDA, WDA-nepv is derivative-free and surrogate-model-free. The computational efficiency and applications in classification accuracy of WDA-nepv are demonstrated using synthetic and real-life datasets.
翻訳日:2022-11-23 16:58:52 公開日:2022-11-21
# adafocal:キャリブレーションアウェア適応焦点損失

AdaFocal: Calibration-aware Adaptive Focal Loss ( http://arxiv.org/abs/2211.11838v1 )

ライセンス: Link先を確認
Arindam Ghosh, Thomas Schaaf, Matt Gormley(参考訳) 最近の研究は、ニューラルネットワークの信頼性スコアが正しい確率、すなわち校正問題と一致することを確実にする問題に焦点が当てられている。 また, 焦点損失によるトレーニングにより, クロスエントロピーよりもキャリブレーションが向上し, 同様の精度が得られた。 この成功は、モデルの予測のエントロピー(パラメータ$\gamma$によって制御される)を正則化することで、モデルの過信を抑えることに起因する。 さらに、トレーニングサンプル毎に$\gamma$が独立して選択されることが期待される(FLSD-53 \cite{mukhoti2020})。 しかし、FLSD-53はヒューリスティックスに基づいており、よく一般化されていない。 本稿では,focal(および逆焦点)損失のキャリブレーション特性を利用し,前段からの$\gamma_{t-1}$と検証集合に対するモデルの非信頼度に関する知識に基づいて,異なるサンプル群に対して$\gamma_t$を適応的に修飾するadafocalと呼ばれるキャリブレーション・アウェア適応焦点損失を提案する。 様々な画像認識と1つのnlpタスクにおけるadafocalを評価し,様々なネットワークアーキテクチャをカバーし,類似の精度を保ちながらキャリブレーションの改善を確認した。 さらに,adafocalでトレーニングされたモデルが,分散検出の大幅な向上を実現することを示す。

Much recent work has been devoted to the problem of ensuring that a neural network's confidence scores match the true probability of being correct, i.e. the calibration problem. Of note, it was found that training with focal loss leads to better calibration than cross-entropy while achieving similar level of accuracy \cite{mukhoti2020}. This success stems from focal loss regularizing the entropy of the model's prediction (controlled by the parameter $\gamma$), thereby reining in the model's overconfidence. Further improvement is expected if $\gamma$ is selected independently for each training sample (Sample-Dependent Focal Loss (FLSD-53) \cite{mukhoti2020}). However, FLSD-53 is based on heuristics and does not generalize well. In this paper, we propose a calibration-aware adaptive focal loss called AdaFocal that utilizes the calibration properties of focal (and inverse-focal) loss and adaptively modifies $\gamma_t$ for different groups of samples based on $\gamma_{t-1}$ from the previous step and the knowledge of model's under/over-confidence on the validation set. We evaluate AdaFocal on various image recognition and one NLP task, covering a wide variety of network architectures, to confirm the improvement in calibration while achieving similar levels of accuracy. Additionally, we show that models trained with AdaFocal achieve a significant boost in out-of-distribution detection.
翻訳日:2022-11-23 16:58:14 公開日:2022-11-21
# イベント伝播系列のためのグラフ正規化点過程モデル

A Graph Regularized Point Process Model For Event Propagation Sequence ( http://arxiv.org/abs/2211.11758v1 )

ライセンス: Link先を確認
Siqiao Xue, Xiaoming Shi, Hongyan Hao, Lintao Ma, Shiyu Wang, Shijun Wang, James Zhang(参考訳) ポイントプロセスは不規則な間隔で発生するイベントシーケンスをモデル化する主要なパラダイムである。 本稿では,ノードがイベントマーク(例えばイベントタイプ)を表す有向重み付きグラフでイベントシーケンスが伝播するグラフにおけるイベント伝搬の潜在ダイナミクスをモデル化することを目的とする。 既存の作業の多くは、シーケンシャルなイベント履歴をイベント表現にエンコードすることのみを検討しており、潜在グラフ構造からの情報を無視している。 さらに、モデル説明可能性の低さ、すなわち、さまざまなノードにまたがる因果的影響の解明に失敗している。 これらの問題に対処するため,我々はグラフ正規化点処理 (grpp) を提案する。 1) 隣接ノード間のイベントインタラクションを特徴付け,ノード表現を誘導的に学習するグラフ伝搬モデル。 2)現在の事象における過去の事象の励起および時間減衰係数が、ノード埋め込みの文脈化によって構築される時間的注意強度モデル。 さらに、グラフ正規化法を適用することにより、GRPPはノード間の影響強度を明らかにすることによってモデル解釈性を提供する。 様々なデータセット上での数値実験により、grppは有意なマージンによる伝播時間とノード予測の両方において既存のモデルよりも優れていることが示された。

Point process is the dominant paradigm for modeling event sequences occurring at irregular intervals. In this paper we aim at modeling latent dynamics of event propagation in graph, where the event sequence propagates in a directed weighted graph whose nodes represent event marks (e.g., event types). Most existing works have only considered encoding sequential event history into event representation and ignored the information from the latent graph structure. Besides they also suffer from poor model explainability, i.e., failing to uncover causal influence across a wide variety of nodes. To address these problems, we propose a Graph Regularized Point Process (GRPP) that can be decomposed into: 1) a graph propagation model that characterizes the event interactions across nodes with neighbors and inductively learns node representations; 2) a temporal attentive intensity model, whose excitation and time decay factors of past events on the current event are constructed via the contextualization of the node embedding. Moreover, by applying a graph regularization method, GRPP provides model interpretability by uncovering influence strengths between nodes. Numerical experiments on various datasets show that GRPP outperforms existing models on both the propagation time and node prediction by notable margins.
翻訳日:2022-11-23 16:50:26 公開日:2022-11-21
# 混雑とETA予測のための階層グラフ構造

Hierarchical Graph Structures for Congestion and ETA Prediction ( http://arxiv.org/abs/2211.11762v1 )

ライセンス: Link先を確認
Florian Gr\"otschla and Jo\"el Mathys(参考訳) Traffic4castは、現実世界のデータに基づいて時空間トラフィックを予測するための年次コンペである。 本研究では,openstreetmapデータから抽出した道路グラフトポロジに直接動作するグラフニューラルネットワークを用いたアプローチを提案する。 我々のアーキテクチャは階層的なグラフ表現を組み込んで、グラフの鍵交点とそれらを接続する最短経路の間の情報の流れを改善することができる。 さらに,道路グラフをコンパクト化して情報の流れを容易にし,マルチタスクアプローチを用いて混雑クラスとETAを同時に予測する方法について検討した。 私たちのコードとモデルはここでリリースされます。 https://github.com/floriangroetschla/neurips2022-traffic4cast

Traffic4cast is an annual competition to predict spatio temporal traffic based on real world data. We propose an approach using Graph Neural Networks that directly works on the road graph topology which was extracted from OpenStreetMap data. Our architecture can incorporate a hierarchical graph representation to improve the information flow between key intersections of the graph and the shortest paths connecting them. Furthermore, we investigate how the road graph can be compacted to ease the flow of information and make use of a multi-task approach to predict congestion classes and ETA simultaneously. Our code and models are released here: https://github.com/floriangroetschla/NeurIPS2022-traffic4cast
翻訳日:2022-11-23 16:50:06 公開日:2022-11-21
# ドメイン外のデータを使ってラベルを下げられるか? ファウショットインストラクションによるアクティブ・アンド・トランスファー学習

Can You Label Less by Using Out-of-Domain Data? Active & Transfer Learning with Few-shot Instructions ( http://arxiv.org/abs/2211.11798v1 )

ライセンス: Link先を確認
Rafal Kocielnik, Sara Kangaslahti, Shrimai Prabhumoye, Meena Hari, R. Michael Alvarez, Anima Anandkumar(参考訳) 毒性と社会的偏見のカスタム次元に関するソーシャルメディアデータのラベル付けは困難であり、労働集約的である。 既存の転送とアクティブな学習アプローチは、アノテーションの労力を減らすために微調整が必要であり、ノイズへの過度な適合に悩まされ、小さなサンプルサイズでドメインシフトを引き起こす可能性がある。 本研究では, ファインチューニングを必要としない新しいアクティブトランスファーファウショットインストラクション(ATF)手法を提案する。 ATFは、事前訓練された言語モデル(PLM)の内部言語知識を活用し、既存の事前ラベル付きデータセット(ソースドメインタスク)からの情報を、未ラベルのターゲットデータ(ターゲットドメインタスク)に最小限のラベル付け作業で転送する。 当社の戦略では,22b パラメータ PLM の転送を全く行わず,平均 AUC ゲインを 10.5% とする正の転送が可能である。 さらに、アクティブラーニングによる少数のターゲットドメインサンプルのアノテーションは、移行に有用であるが、アノテーションの取り組みによって影響は減少する(100から2000の注釈付き例では26%の減少)。 最後に、全ての転送シナリオが正のゲインをもたらすわけではなく、ターゲットドメインタスクにおけるPLMの初期性能に関係していると考えられる。

Labeling social-media data for custom dimensions of toxicity and social bias is challenging and labor-intensive. Existing transfer and active learning approaches meant to reduce annotation effort require fine-tuning, which suffers from over-fitting to noise and can cause domain shift with small sample sizes. In this work, we propose a novel Active Transfer Few-shot Instructions (ATF) approach which requires no fine-tuning. ATF leverages the internal linguistic knowledge of pre-trained language models (PLMs) to facilitate the transfer of information from existing pre-labeled datasets (source-domain task) with minimum labeling effort on unlabeled target data (target-domain task). Our strategy can yield positive transfer achieving a mean AUC gain of 10.5% compared to no transfer with a large 22b parameter PLM. We further show that annotation of just a few target-domain samples via active learning can be beneficial for transfer, but the impact diminishes with more annotation effort (26% drop in gain between 100 and 2000 annotated examples). Finally, we find that not all transfer scenarios yield a positive gain, which seems related to the PLMs initial performance on the target-domain task.
翻訳日:2022-11-23 16:32:52 公開日:2022-11-21
# 自然言語推論による事前学習言語モデルの自己整合性と性能向上

Enhancing Self-Consistency and Performance of Pre-Trained Language Models through Natural Language Inference ( http://arxiv.org/abs/2211.11875v1 )

ライセンス: Link先を確認
Eric Mitchell, Joseph J. Noh, Siyan Li, William S. Armstrong, Ananth Agarwal, Patrick Liu, Chelsea Finn, Christopher D. Manning(参考訳) 大きな事前訓練された言語モデルは強力だが、その予測はテスト入力間の論理的一貫性を欠いていることが多い。 例えば、最先端の macaw question-answering (qa) モデルは、'yes' と 'is a sparrow a bird?' と 'does a bird have feet?' に答えるが、'no' と 'does a sparrow have feet? この障害モードに対処するために,事前学習された自然言語推論(nli)モデルを用いて,事前学習されたnlpモデルの一貫性と正確性を高めるために,関係検出による一貫性補正(concord)という枠組みを提案する。 テスト入力のバッチが与えられた後、ConCoRDは各入力に対するいくつかの候補出力をサンプリングし、各解選択の可能性に関するモデルの信念とペアワイズな解選択互換性に関するNLIモデルの信念の両方をインスタンス化する。 重み付きmaxsatソルバは,この因子グラフの下での質の高い回答選択を効率的に計算でき,生モデルの予測よりも改善できることを示す。 実験の結果,ConCoRDは市販NLIモデルを用いた市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上し,特にConVQA上でのLXMERTの精度を5%向上させることがわかった。 コードとデータについてはhttps://ericmitchell.ai/emnlp-2022-concord/を参照。

While large pre-trained language models are powerful, their predictions often lack logical consistency across test inputs. For example, a state-of-the-art Macaw question-answering (QA) model answers 'Yes' to 'Is a sparrow a bird?' and 'Does a bird have feet?' but answers 'No' to 'Does a sparrow have feet?'. To address this failure mode, we propose a framework, Consistency Correction through Relation Detection, or ConCoRD, for boosting the consistency and accuracy of pre-trained NLP models using pre-trained natural language inference (NLI) models without fine-tuning or re-training. Given a batch of test inputs, ConCoRD samples several candidate outputs for each input and instantiates a factor graph that accounts for both the model's belief about the likelihood of each answer choice in isolation and the NLI model's beliefs about pair-wise answer choice compatibility. We show that a weighted MaxSAT solver can efficiently compute high-quality answer choices under this factor graph, improving over the raw model's predictions. Our experiments demonstrate that ConCoRD consistently boosts accuracy and consistency of off-the-shelf closed-book QA and VQA models using off-the-shelf NLI models, notably increasing accuracy of LXMERT on ConVQA by 5% absolute. See https://ericmitchell.ai/emnlp-2022-concord/ for code and data.
翻訳日:2022-11-23 16:32:32 公開日:2022-11-21
# TEMPERA:強化学習によるテスト時間プロンプト

TEMPERA: Test-Time Prompting via Reinforcement Learning ( http://arxiv.org/abs/2211.11890v1 )

ライセンス: Link先を確認
Tianjun Zhang, Xuezhi Wang, Denny Zhou, Dale Schuurmans, Joseph E. Gonzalez(参考訳) 注意深いプロンプトデザインは、ゼロショットまたは少数ショット学習における大きな言語モデルの使用に不可欠である。 その結果、最適なプロンプトを設計する自動化手法への関心が高まっている。 本研究では,Reinforcement Learning (TEMPERA) を用いたテスト時間プロンプト編集を提案する。 従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用でき、異なるクエリに適応し、クエリ毎に解釈可能なプロンプトを提供する。 これを実現するために、命令、少数ショット例、動詞化子など、広く使われている幅広いコンポーネントをカバーする初期プロンプトを柔軟に編集できる新しいアクション空間を設計する。 提案手法は,感情分析,トピック分類,自然言語推論,読解理解など,様々なタスクにおいて,プロンプトチューニングやオートプロンプト,RLプロンプトといった最近のSoTA手法と比較して,顕著に向上する。 従来の微調整法と比較して試料効率が平均5.33倍向上した。

Careful prompt design is critical to the use of large language models in zero-shot or few-shot learning. As a consequence, there is a growing interest in automated methods to design optimal prompts. In this work, we propose Test-time Prompt Editing using Reinforcement learning (TEMPERA). In contrast to prior prompt generation methods, TEMPERA can efficiently leverage prior knowledge, is adaptive to different queries and provides an interpretable prompt for every query. To achieve this, we design a novel action space that allows flexible editing of the initial prompts covering a wide set of commonly-used components like instructions, few-shot exemplars, and verbalizers. The proposed method achieves significant gains compared with recent SoTA approaches like prompt tuning, AutoPrompt, and RLPrompt, across a variety of tasks including sentiment analysis, topic classification, natural language inference, and reading comprehension. Our method achieves 5.33x on average improvement in sample efficiency when compared to the traditional fine-tuning methods.
翻訳日:2022-11-23 16:32:04 公開日:2022-11-21
# 深層強化学習のための低レイテンシ適応型符号化スパイクフレームワーク

A Low Latency Adaptive Coding Spiking Framework for Deep Reinforcement Learning ( http://arxiv.org/abs/2211.11760v1 )

ライセンス: Link先を確認
Lang Qin, Rui Yan, Huajin Tang(参考訳) Deep Neural Networksの助けを借りて、Deep Reinforcement Learning (DRL)は、ここ数年で多くの複雑なタスクで大きな成功を収めた。 スパイキングニューラルネットワーク(SNN)は、専用ニューロモルフィックハードウェア上で超高効率なエネルギー効率を持つディープニューラルネットワークの実装に使われており、近年、SNNと強化学習を組み合わせることに注目が集まっている。 本研究では、SNNベースのDRLのための適応符号化スパイキングフレームワーク(ACSF)を提案し、低レイテンシと高エネルギー効率を実現する。 生体内での古典的条件付けに着想を得て, それぞれ, スパイクエンコーダ, SNN, スパイクデコーダを用いた受容体, 中枢ニューロン, エフェクターをシミュレートした。 我々は提案したACSFを用いて強化学習における価値関数を推定し、提案フレームワークの有効性を検証するために広範な実験を行う。

With the help of Deep Neural Networks, Deep Reinforcement Learning (DRL) has achieved great success on many complex tasks during the past few years. Spiking Neural Networks (SNNs) have been used for the implementation of Deep Neural Networks with superb energy efficiency on dedicated neuromorphic hardware, and recent years have witnessed increasing attention on combining SNNs with Reinforcement Learning, whereas most approaches still work with huge energy consumption and high latency. This work proposes the Adaptive Coding Spiking Framework (ACSF) for SNN-based DRL and achieves low latency and great energy efficiency at the same time. Inspired by classical conditioning in biology, we simulate receptors, central interneurons, and effectors with spike encoders, SNNs, and spike decoders, respectively. We use our proposed ACSF to estimate the value function in reinforcement learning and conduct extensive experiments to verify the effectiveness of our proposed framework.
翻訳日:2022-11-23 16:23:35 公開日:2022-11-21
# TD3-BCの改善:オフライン学習と安定オンラインファインチューニングのための緩和されたポリシー制約

Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and Stable Online Fine-Tuning ( http://arxiv.org/abs/2211.11802v1 )

ライセンス: Link先を確認
Alex Beeson and Giovanni Montana(参考訳) 固定データセットから最適な振る舞いを発見する能力は、データ収集が深刻な問題のある領域に強化学習(RL)の成功を移す可能性がある。 このオフライン環境では、重要な課題は、データに存在しないアクションに対する過大評価バイアスを克服することであり、環境との相互作用によって修正する能力がなければ、トレーニング中に伝播し、複合し、非常に準最適ポリシーにつながる。 このバイアスを減らすための単純な方法は、エージェントがソースデータに近いアクションを選択することを奨励する行動的クローニング(BC)を通じてポリシー制約を導入することである。 RLとBCの間の適切なバランスを見つけることで、そのようなアプローチは驚くほど効果的であり、基盤となるアルゴリズムに最小限の変更を必要とすることが示されている。 これまで、このバランスは一定に保たれてきたが、本研究では、最初のトレーニングの後、このバランスをRLに転換するというアイデアを探求する。 TD3-BCを使用することで、BCコンポーネントの影響を低減しつつ、ポリシーをオフラインでトレーニングし続けることで、オリジナルのベースラインを上回り、より複雑な代替手段のパフォーマンスに適合または超越した、洗練されたポリシーを作成できることを示す。 さらに、このようなアプローチを安定したオンライン微調整に使用することができ、デプロイ中にポリシーを安全に改善できることを示す。

The ability to discover optimal behaviour from fixed data sets has the potential to transfer the successes of reinforcement learning (RL) to domains where data collection is acutely problematic. In this offline setting, a key challenge is overcoming overestimation bias for actions not present in data which, without the ability to correct for via interaction with the environment, can propagate and compound during training, leading to highly sub-optimal policies. One simple method to reduce this bias is to introduce a policy constraint via behavioural cloning (BC), which encourages agents to pick actions closer to the source data. By finding the right balance between RL and BC such approaches have been shown to be surprisingly effective while requiring minimal changes to the underlying algorithms they are based on. To date this balance has been held constant, but in this work we explore the idea of tipping this balance towards RL following initial training. Using TD3-BC, we demonstrate that by continuing to train a policy offline while reducing the influence of the BC component we can produce refined policies that outperform the original baseline, as well as match or exceed the performance of more complex alternatives. Furthermore, we demonstrate such an approach can be used for stable online fine-tuning, allowing policies to be safely improved during deployment.
翻訳日:2022-11-23 16:22:29 公開日:2022-11-21
# 多分解能カーネル行列代数

Multiresolution kernel matrix algebra ( http://arxiv.org/abs/2211.11681v1 )

ライセンス: Link先を確認
H. Harbrecht, M. Multerer, O. Schenk, and Ch. Schwab(参考訳) 本稿では,効率的な分散データ解析を可能にするカーネル行列のスパース演算を提案する。 サンプルレットによるカーネル行列の圧縮は、これらの行列の組立、加算、乗算のようなスパース行列を本質的に線形コストで行うことができる。 カーネル行列の逆も圧縮可能であるので、正確なスパース選択逆変換手法を用いて、逆カーネル行列への高速アクセスも可能である。 その結果、データスパース形式、例えば$A^\alpha$ や $\exp(A)$ のようなより複雑な行列関数において、アクセスする直列展開や輪郭積分を高速に評価することができる。 行列演算を利用することで、空間統計学のための効率的なガウス過程学習アルゴリズムを実現することができる。 結果の定量化と質化のために数値的な結果が示されています。

We propose a sparse arithmetic for kernel matrices, enabling efficient scattered data analysis. The compression of kernel matrices by means of samplets yields sparse matrices such that assembly, addition, and multiplication of these matrices can be performed with essentially linear cost. Since the inverse of a kernel matrix is compressible, too, we have also fast access to the inverse kernel matrix by employing exact sparse selected inversion techniques. As a consequence, we can rapidly evaluate series expansions and contour integrals to access, numerically and approximately in a data-sparse format, more complicated matrix functions such as $A^\alpha$ and $\exp(A)$. By exploiting the matrix arithmetic, also efficient Gaussian process learning algorithms for spatial statistics can be realized. Numerical results are presented to quantify and quality our findings.
翻訳日:2022-11-22 23:47:28 公開日:2022-11-21
# パス依存アメリカのオプション価格決定のためのディープシグナチャアルゴリズム

Deep Signature Algorithm for Path-Dependent American option pricing ( http://arxiv.org/abs/2211.11691v1 )

ライセンス: Link先を確認
Erhan Bayraktar, Qi Feng, and Zhaoyu Zhang(参考訳) 本研究では,経路依存型FBSDEの深い署名アルゴリズムについて検討する。 我々は[Hur\e-Pham-Warin]の後方スキームに従う。 計算の数学 89, No. 324 (2020)] は、状態依存型 FBSDE にリフレクションを加え、それをシグネチャ層と組み合わせてアメリカのタイプのオプション価格問題を解決する一方で、ペイオフ関数は基礎となるフォワードストックプロセスの全パスに依存する。 数値アルゴリズムの収束解析を証明し、ブラック・スコールズモデルの下でのアメラシアンオプションの数値例を示す。

In this work, we study the deep signature algorithms for path-dependent FBSDEs with reflections. We follow the backward scheme in [Hur\'e-Pham-Warin. Mathematics of Computation 89, no. 324 (2020)] for state-dependent FBSDEs with reflections, and combine it with the signature layer to solve American type option pricing problems while the payoff function depends on the whole paths of the underlying forward stock process. We prove the convergence analysis of our numerical algorithm and provide numerical example for Amerasian option under the Black-Scholes model.
翻訳日:2022-11-22 23:47:15 公開日:2022-11-21
# TinyQMIX:マルチエージェント強化学習によるmMTCの分散アクセス制御

TinyQMIX: Distributed Access Control for mMTC via Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2211.11692v1 )

ライセンス: Link先を確認
Tien Thanh Le, Yusheng Ji, John C.S Lui(参考訳) 分散アクセス制御は、大規模機械型通信(mMTC)にとって重要なコンポーネントである。 この通信シナリオでは、リソース構成をベースステーションから大量のデバイスに頻繁に送信する必要があるため、集中型リソース割り当てはスケーラブルではない。 資源選択のための分散強化学習を集中制御に頼らずに検討する。 mMTCのもう1つの重要な特徴は、トラフィックの散発的および動的変化である。 既存の分散アクセス制御の研究は、トラフィックの負荷が静的であるか、動的トラフィックに徐々に適応できると仮定している。 我々は,軽量なマルチエージェント深層強化学習モデルであるTinyQMIXをトレーニングし,展開前の様々なトラフィックパターンの下で分散無線リソース選択ポリシーを学習することにより,適応期間を最小化する。 したがって、訓練されたエージェントは、動的トラフィックに迅速に適応でき、アクセス遅延を低減できる。 我々の主張を支持するために数値的な結果が提示される。

Distributed access control is a crucial component for massive machine type communication (mMTC). In this communication scenario, centralized resource allocation is not scalable because resource configurations have to be sent frequently from the base station to a massive number of devices. We investigate distributed reinforcement learning for resource selection without relying on centralized control. Another important feature of mMTC is the sporadic and dynamic change of traffic. Existing studies on distributed access control assume that traffic load is static or they are able to gradually adapt to the dynamic traffic. We minimize the adaptation period by training TinyQMIX, which is a lightweight multi-agent deep reinforcement learning model, to learn a distributed wireless resource selection policy under various traffic patterns before deployment. Therefore, the trained agents are able to quickly adapt to dynamic traffic and provide low access delay. Numerical results are presented to support our claims.
翻訳日:2022-11-22 23:47:05 公開日:2022-11-21
# CLAWSAT:ロバストと正確なコードモデルの両方を目指して

CLAWSAT: Towards Both Robust and Accurate Code Models ( http://arxiv.org/abs/2211.11711v1 )

ライセンス: Link先を確認
Jinghan Jia and Shashank Srikant and Tamara Mitrovska and Chuang Gan and Shiyu Chang and Sijia Liu and Una-May O'Reilly(参考訳) コントラスト学習(cl)と敵対学習を統合し,コードモデルのロバスト性と正確性を同時に最適化する。 既存の作業とは違って、標準的なコード変換操作であるコード難読化は、堅牢で正確なコードモデルの両方を達成することができるコードの補完的な‘ビュー’を生成する新しい手段を提供する。 私たちの知る限りでは、これはコードモデルにおける(マルチビュー)コードの難読化の堅牢性と正確性を調査し、活用する最初の体系的な研究です。 具体的には,まず,自己指導型事前学習段階におけるCLの頑健性向上の視点として,対向符号を採用する。 これにより、下流タスクの堅牢性と転送性が改善される。 次に, 教師付き微調整段階において, 適切な時間的重み付きスケジュール付き対人訓練により, 事前学習した符号モデルの堅牢性と精度をさらに向上させることができることを示す。 上記の2つのモジュールの上に構築されたCLAWSATは、コードのための新しい自己教師型学習(SSL)フレームワークで、$\underline{\textrm{CL}}$と$\underline{\textrm{a}}$dversarial vie$\underline{\textrm{w}}$s (CLAW)と$\underline{\textrm{s}}$taggered $\underline{\textrm{a}}$dversarial $\underline{\textrm{t}}$raining (SAT)を統合する。 pythonとjavaの3つのダウンストリームタスクの評価において、clawsatは一貫して最高の堅牢性と正確性をもたらすことが示されている(例えば、pythonのコード要約タスクでは11$\%$と6$$$$$$$である)。 さらに,学習前モデルの特徴と解釈可能性を分析し,CLAWにおける逆学習の有効性を実証した。

We integrate contrastive learning (CL) with adversarial learning to co-optimize the robustness and accuracy of code models. Different from existing works, we show that code obfuscation, a standard code transformation operation, provides novel means to generate complementary `views' of a code that enable us to achieve both robust and accurate code models. To the best of our knowledge, this is the first systematic study to explore and exploit the robustness and accuracy benefits of (multi-view) code obfuscations in code models. Specifically, we first adopt adversarial codes as robustness-promoting views in CL at the self-supervised pre-training phase. This yields improved robustness and transferability for downstream tasks. Next, at the supervised fine-tuning stage, we show that adversarial training with a proper temporally-staggered schedule of adversarial code generation can further improve robustness and accuracy of the pre-trained code model. Built on the above two modules, we develop CLAWSAT, a novel self-supervised learning (SSL) framework for code by integrating $\underline{\textrm{CL}}$ with $\underline{\textrm{a}}$dversarial vie$\underline{\textrm{w}}$s (CLAW) with $\underline{\textrm{s}}$taggered $\underline{\textrm{a}}$dversarial $\underline{\textrm{t}}$raining (SAT). On evaluating three downstream tasks across Python and Java, we show that CLAWSAT consistently yields the best robustness and accuracy ($\textit{e.g.}$ 11$\%$ in robustness and 6$\%$ in accuracy on the code summarization task in Python). We additionally demonstrate the effectiveness of adversarial learning in CLAW by analyzing the characteristics of the loss landscape and interpretability of the pre-trained models.
翻訳日:2022-11-22 23:46:51 公開日:2022-11-21
# TimbreCLIP: テキストと画像にTybreを接続する

TimbreCLIP: Connecting Timbre to Text and Images ( http://arxiv.org/abs/2211.11225v1 )

ライセンス: Link先を確認
Nicolas Jonason, Bob L.T. Sturm(参考訳) 我々は、単一音符で訓練された音声テキストのクロスモーダル埋め込みであるTimbreCLIPについて研究を進めている。 合成パッチのクロスモーダル検索タスクを用いてモデルの評価を行う。 最後に,TimbreCLIPをテキスト駆動型音声等化と画像生成のための音色変換という2つのタスクに適用した。

We present work in progress on TimbreCLIP, an audio-text cross modal embedding trained on single instrument notes. We evaluate the models with a cross-modal retrieval task on synth patches. Finally, we demonstrate the application of TimbreCLIP on two tasks: text-driven audio equalization and timbre to image generation.
翻訳日:2022-11-22 23:41:26 公開日:2022-11-21
# 従来のAdaptive Data CachingからAdaptive Context Cachingへ:調査

From Traditional Adaptive Data Caching to Adaptive Context Caching: A Survey ( http://arxiv.org/abs/2211.11259v1 )

ライセンス: Link先を確認
Shakthi Weerasinghe, Arkady Zaslavsky, Seng W. Loke, Alireza Hassani, Amin Abken, Alexey Medvedev(参考訳) コンテキストデータは、多くのコンテキスト対応モノのインターネットアプリケーションの開発が急速に増加していることで、これまで以上に需要が高まっている。 コンテキストとコンテキスト認識の研究は、多くの実践的、技術的課題に照らして適用性を広げるために実施されている。 課題のひとつは、大量のコンテキストクエリに対応する際のパフォーマンス向上だ。 アプリケーションにコンテキストを推論し、提供するコンテキスト管理プラットフォームは、Quality of Service(QoS)パラメータを使用してこの問題を測定します。 キャッシングはQoSを改善するための実証済みの方法であるが、コンテキストの透明性と可変性、コンテキストクエリの不均一性といった特徴は、さらなるリアルタイムコスト管理の問題を引き起こす。 本稿では,適応型データキャッシングにおける最先端技術に関する批判的調査を行い,コストと性能効率のよいキャッシュ戦略の知識体系を構築することを目的とする。 我々は,多数の研究論文を総合的に調査し,適応キャッシングにおける異なる手法,方針,アプローチ,スキームを評価し,比較し,対比する。 我々の批判的分析は、中核的な研究問題としてコンテキストを適応的にキャッシュすることに焦点を当てている。 適応型コンテキストキャッシュの形式的定義が提案され、その後、適切に設計された最適適応型コンテキストキャッシュ戦略の特徴と要件が特定される。

Context data is in demand more than ever with the rapid increase in the development of many context-aware Internet of Things applications. Research in context and context-awareness is being conducted to broaden its applicability in light of many practical and technical challenges. One of the challenges is improving performance when responding to large number of context queries. Context Management Platforms that infer and deliver context to applications measure this problem using Quality of Service (QoS) parameters. Although caching is a proven way to improve QoS, transiency of context and features such as variability, heterogeneity of context queries pose an additional real-time cost management problem. This paper presents a critical survey of state-of-the-art in adaptive data caching with the objective of developing a body of knowledge in cost- and performance-efficient adaptive caching strategies. We comprehensively survey a large number of research publications and evaluate, compare, and contrast different techniques, policies, approaches, and schemes in adaptive caching. Our critical analysis is motivated by the focus on adaptively caching context as a core research problem. A formal definition for adaptive context caching is then proposed, followed by identified features and requirements of a well-designed, objective optimal adaptive context caching strategy.
翻訳日:2022-11-22 23:41:20 公開日:2022-11-21
# SPIN:Federated Learning-based 6G Vehicular Networksのためのシミュレーションポジショニングとインバージョンネットワーク

SPIN: Simulated Poisoning and Inversion Network for Federated Learning-Based 6G Vehicular Networks ( http://arxiv.org/abs/2211.11321v1 )

ライセンス: Link先を確認
Sunder Ali Khowaja, Parus Khuwaja, Kapal Dev, Angelos Antonopoulos(参考訳) 車両ネットワークに関するアプリケーションは、超高密度ネットワークトポロジ、低レイテンシ、高データレートといった、5Gおよび6G技術以上のビジョンの恩恵を受ける。 車両ネットワークは常にデータのプライバシー保護の懸念に直面しており、フェデレーション学習のような分散学習技術の出現に繋がる。 フェデレーション学習はデータのプライバシ保護の問題をある程度解決しているが、このテクニックはモデルインバージョンやモデル中毒攻撃に対して非常に脆弱である。 防御機構と攻撃機構の設計は、同じコインの2つの側面であると仮定する。 脆弱性を減らす方法の設計には、実際の意味を効果的かつ困難にする必要がある。 本研究では,車載ノードで訓練された差分モデルからデータを再構成し,路側ユニット (rsu) に送信した場合にインターセプトする最適化手法を活用した,シミュレート中毒・インバージョンネットワーク (spin) を提案する。 次に、rsuからのパスラウンドとグローバル更新毎にデータの生成を改善するために、gan(generative adversarial network)をトレーニングします。 評価結果は,提案手法の質的,定量的な効果を示す。 SPINによって開始された攻撃は、単一の攻撃者を使用するだけで、公開データセットの最大22%の精度を低下させることができる。 このような攻撃のシミュレーションを明らかにすることは、防御機構を効果的に見つけるのに役立つと仮定する。

The applications concerning vehicular networks benefit from the vision of beyond 5G and 6G technologies such as ultra-dense network topologies, low latency, and high data rates. Vehicular networks have always faced data privacy preservation concerns, which lead to the advent of distributed learning techniques such as federated learning. Although federated learning has solved data privacy preservation issues to some extent, the technique is quite vulnerable to model inversion and model poisoning attacks. We assume that the design of defense mechanism and attacks are two sides of the same coin. Designing a method to reduce vulnerability requires the attack to be effective and challenging with real-world implications. In this work, we propose simulated poisoning and inversion network (SPIN) that leverages the optimization approach for reconstructing data from a differential model trained by a vehicular node and intercepted when transmitted to roadside unit (RSU). We then train a generative adversarial network (GAN) to improve the generation of data with each passing round and global update from the RSU, accordingly. Evaluation results show the qualitative and quantitative effectiveness of the proposed approach. The attack initiated by SPIN can reduce up to 22% accuracy on publicly available datasets while just using a single attacker. We assume that revealing the simulation of such attacks would help us find its defense mechanism in an effective manner.
翻訳日:2022-11-22 23:40:59 公開日:2022-11-21
# 畳み込みオートエンコーダ状態ネットワークを用いた時空間乱流のモデリング

Modelling spatiotemporal turbulent dynamics with the convolutional autoencoder echo state network ( http://arxiv.org/abs/2211.11379v1 )

ライセンス: Link先を確認
Alberto Racca and Nguyen Anh Khoa Doan and Luca Magri(参考訳) 乱流の時空間力学はカオス的で予測が難しい。 これにより、精度が高く安定した低次モデルの設計が困難になる。 本研究の目的は, 乱流状態の非線形分解を力学の低次表現のために提案することである。 乱流を時空間問題と時空間問題に分ける。 まず、乱流力学が生きている多様体である潜在空間を計算する(つまり、乱流引力の数値近似である)。 遅延空間は一連の非線形フィルタリング演算によって発見され、畳み込みオートエンコーダ(CAE)によって実行される。 CAEは空間の分解を提供する。 第二に、エコー状態ネットワーク(ESN)によって実行される潜在空間における乱流状態の時間的進化を予測する。 ESNは時間分解を提供する。 第3に、CAEとESNを組み立てることで、畳み込み自己符号化エコー状態ネットワーク(CAE-ESN)という自律力学系を得る。 これは乱流の還元次モデルである。 CAE-ESNを二次元流れで試験する。 訓練後、CAE-ESNは、 (i) 物理空間よりも自由度1%未満の乱流の潜在空間表現を見出す。 二 準周期的及び乱流的両方の流れを時間的かつ統計的に予測すること。 (iii)異なるフローレジーム(レイノルズ数)に対して堅牢であり、 (iv) 支配方程式を解くよりも乱流を予測するのに計算時間が1%未満である。 この研究は、非線形分解とデータからの乱流の低次モデリングの新しい可能性を開く。

The spatiotemporal dynamics of turbulent flows is chaotic and difficult to predict. This makes the design of accurate and stable reduced-order models challenging. The overarching objective of this paper is to propose a nonlinear decomposition of the turbulent state for a reduced-order representation of the dynamics. We divide the turbulent flow into a spatial problem and a temporal problem. First, we compute the latent space, which is the manifold onto which the turbulent dynamics live (i.e., it is a numerical approximation of the turbulent attractor). The latent space is found by a series of nonlinear filtering operations, which are performed by a convolutional autoencoder (CAE). The CAE provides the decomposition in space. Second, we predict the time evolution of the turbulent state in the latent space, which is performed by an echo state network (ESN). The ESN provides the decomposition in time. Third, by assembling the CAE and the ESN, we obtain an autonomous dynamical system: the convolutional autoncoder echo state network (CAE-ESN). This is the reduced-order model of the turbulent flow. We test the CAE-ESN on a two-dimensional flow. We show that, after training, the CAE-ESN (i) finds a latent-space representation of the turbulent flow that has less than 1% of the degrees of freedom than the physical space; (ii) time-accurately and statistically predicts the flow in both quasiperiodic and turbulent regimes; (iii) is robust for different flow regimes (Reynolds numbers); and (iv) takes less than 1% of computational time to predict the turbulent flow than solving the governing equations. This work opens up new possibilities for nonlinear decompositions and reduced-order modelling of turbulent flows from data.
翻訳日:2022-11-22 23:40:36 公開日:2022-11-21
# 時間反転同値ニューラルネットワークポテンシャルと磁性材料のハミルトニアン

Time-reversal equivariant neural network potential and Hamiltonian for magnetic materials ( http://arxiv.org/abs/2211.11403v1 )

ライセンス: Link先を確認
Hongyu Yu, Yang Zhong, Junyi Ji, Xingao Gong, Hongjun Xiang(参考訳) 本稿では,TENN(Time-reversal Equivariant Neural Network)フレームワークを提案する。 TENNでは、時間反転対称性は同変ニューラルネットワーク(ENN)において考慮され、ENNはスピンや原子の速度といった時間反転対称性に関連する物理量を考えるために一般化される。 TENN-e3は, 磁気材料の磁気モーメント状況において, スピン軌道効果を含むか否かを考慮して, 時間反転E(3)同変を維持するために開発された。 TENN-e3は、ab-initio計算からスピンニューラルネットワーク電位と磁気材料のハミルトニアンを構築することができる。 TENN-e3では、スピノルと幾何テンソルの相互作用のための時間反転E(3)-同変畳み込みが用いられる。 TENN-e3 は、一般的な ENN と比較して、複雑なスピン格子結合を高精度に記述し、既存の E(3)-同変モデルでは保存されない時間反転対称性を維持することができる。 また、時間反転対称性を持つ磁性体のハミルトニアンもtenn-e3で構築できる。 TENNは、長期にわたるスピン格子力学シミュレーションと大規模磁性材料の電子構造計算を行う新しい方法である。

This work presents Time-reversal Equivariant Neural Network (TENN) framework. With TENN, the time-reversal symmetry is considered in the equivariant neural network (ENN), which generalizes the ENN to consider physical quantities related to time-reversal symmetry such as spin and velocity of atoms. TENN-e3, as the time-reversal-extension of E(3) equivariant neural network, is developed to keep the Time-reversal E(3) equivariant with consideration of whether to include the spin-orbit effect for both collinear and non-collinear magnetic moments situations for magnetic material. TENN-e3 can construct spin neural network potential and the Hamiltonian of magnetic material from ab-initio calculations. Time-reversal-E(3)-equivariant convolutions for interactions of spinor and geometric tensors are employed in TENN-e3. Compared to the popular ENN, TENN-e3 can describe the complex spin-lattice coupling with high accuracy and keep time-reversal symmetry which is not preserved in the existing E(3)-equivariant model. Also, the Hamiltonian of magnetic material with time-reversal symmetry can be built with TENN-e3. TENN paves a new way to spin-lattice dynamics simulations over long-time scales and electronic structure calculations of large-scale magnetic materials.
翻訳日:2022-11-22 23:40:15 公開日:2022-11-21
# 連続クラスタリングと機械学習によるシンボル検出のための因子グラフの構造最適化

Structural Optimization of Factor Graphs for Symbol Detection via Continuous Clustering and Machine Learning ( http://arxiv.org/abs/2211.11406v1 )

ライセンス: Link先を確認
Lukas Rapp, Luca Schmid, Andrej Rode, Laurent Schmalen(参考訳) 本稿では,因子グラフの構造をグラフベース推論に最適化する新しい手法を提案する。 例として,線形シンボル間干渉チャネルにおけるシンボル検出について考察する。 因子グラフフレームワークは、低複雑さのシンボル検出器を生成する可能性がある。 しかし、循環係数グラフ上の和積アルゴリズムは最適以下であり、その性能は基礎となるグラフに非常に敏感である。 そこで,機械学習を用いて,基礎となる因子グラフの構造をエンドツーエンドに最適化する。 その目的のために,構造最適化を,既知のチャネルモデルを最適化に組み込んだ低次因子ノードのクラスタリング問題に変換する。 さらに,本手法とニューラル信念伝搬の組合せについて検討し,特定のチャネルに対する後部シンボル検出性能を最大に近いものにした。

We propose a novel method to optimize the structure of factor graphs for graph-based inference. As an example inference task, we consider symbol detection on linear inter-symbol interference channels. The factor graph framework has the potential to yield low-complexity symbol detectors. However, the sum-product algorithm on cyclic factor graphs is suboptimal and its performance is highly sensitive to the underlying graph. Therefore, we optimize the structure of the underlying factor graphs in an end-to-end manner using machine learning. For that purpose, we transform the structural optimization into a clustering problem of low-degree factor nodes that incorporates the known channel model into the optimization. Furthermore, we study the combination of this approach with neural belief propagation, yielding near-maximum a posteriori symbol detection performance for specific channels.
翻訳日:2022-11-22 23:39:56 公開日:2022-11-21
# Exhaustive Symbolic Regression

Exhaustive Symbolic Regression ( http://arxiv.org/abs/2211.11461v1 )

ライセンス: Link先を確認
Deaglan J. Bartlett, Harry Desmond and Pedro G. Ferreira(参考訳) シンボリック回帰(SR)アルゴリズムは、データに正確に適合する解析式を学習し、従来の機械学習手法とは異なり、高度に解釈可能である。 従来のSRは2つの根本的な問題に悩まされている。 第一に、可能な方程式の数は複雑さとともに指数関数的に増加するので、典型的なSR法は空間を確率的に探索するので、必ずしも最高の関数を見つけるとは限らない。 多くの場合、SRのターゲット問題は十分に単純であり、ブルートフォースアプローチは実現可能であるだけでなく望ましい。 第二に、正確さと単純さを最適にバランスさせる方程式を選択するための基準は可変であり、モチベーションが低かった。 これらの問題に対処するために、我々は、sr -- exhaustive symbolic regression (esr) -- の新たな方法を紹介します。 最小記述長原理を用いて,これらの選好を一つの目的統計に結合する原理的手法を提案する。 esrのパワーを説明するために、これを宇宙クロノメーターのカタログと超新星のパンテオン+サンプルに適用し、ハッブル速度を赤方偏移の関数として学習し、フリードマン方程式よりも経済的に適合する40ドルの関数(5.2百万ドルのうち)を見つける。 したがって、これらの低赤方偏移データは、必ずしも$\Lambda$CDMの展開履歴を好まず、もしそれが成功したとしても、Pareto-frontのみを返す従来のSRアルゴリズムは$\Lambda$CDMを見つけることができない。 コードと完全な方程式セットを一般公開します。

Symbolic Regression (SR) algorithms learn analytic expressions which both accurately fit data and, unlike traditional machine-learning approaches, are highly interpretable. Conventional SR suffers from two fundamental issues which we address in this work. First, since the number of possible equations grows exponentially with complexity, typical SR methods search the space stochastically and hence do not necessarily find the best function. In many cases, the target problems of SR are sufficiently simple that a brute-force approach is not only feasible, but desirable. Second, the criteria used to select the equation which optimally balances accuracy with simplicity have been variable and poorly motivated. To address these issues we introduce a new method for SR -- Exhaustive Symbolic Regression (ESR) -- which systematically and efficiently considers all possible equations and is therefore guaranteed to find not only the true optimum but also a complete function ranking. Utilising the minimum description length principle, we introduce a principled method for combining these preferences into a single objective statistic. To illustrate the power of ESR we apply it to a catalogue of cosmic chronometers and the Pantheon+ sample of supernovae to learn the Hubble rate as a function of redshift, finding $\sim$40 functions (out of 5.2 million considered) that fit the data more economically than the Friedmann equation. These low-redshift data therefore do not necessarily prefer a $\Lambda$CDM expansion history, and traditional SR algorithms that return only the Pareto-front, even if they found this successfully, would not locate $\Lambda$CDM. We make our code and full equation sets publicly available.
翻訳日:2022-11-22 23:39:45 公開日:2022-11-21
# ギリシャの伝統音楽と民俗音楽のデータセット:Lyra

A Dataset for Greek Traditional and Folk Music: Lyra ( http://arxiv.org/abs/2211.11479v1 )

ライセンス: Link先を確認
Charilaos Papaioannou, Ioannis Valiantzas, Theodoros Giannakopoulos, Maximos Kaliakatsos-Papakostas, Alexandros Potamianos(参考訳) MIRの範囲で表現されていない音楽の伝統を研究することは、新しい分析ツールを開発するだけでなく、世界音楽を研究する上で有用な音楽機能を公開するためにも重要である。 本稿では,80時間程度で要約した1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットを提案する。 データセットには、youtubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索、インスツルメンテーション、地理、ジャンルなどに関する豊富なメタデータ情報が含まれている。 この内容は、ギリシャのドキュメンタリーシリーズから収集され、研究者がギリシャの音楽の伝統をライブ音楽とダンスの演奏で紹介し、提示された音楽の社会的、文化的、音楽学的側面について議論する。 そのため、音楽のジャンル、起源の場所、楽器など、様々な側面に関する記述が豊富に行われている。 さらに、録音装置に関して厳格な生産レベルの仕様の下で録音が行われ、非常に清潔で均質なオーディオコンテンツに繋がった。 本研究は,データセットの詳細な提示とは別に,関連する音楽的属性を認識するためのベースライン深層学習分類手法を提案する。 データセット、ベースライン分類方法、およびモデルがパブリックリポジトリで提供される。 データセットをさらに洗練するための今後の方向性についても論じる。

Studying under-represented music traditions under the MIR scope is crucial, not only for developing novel analysis tools, but also for unveiling musical functions that might prove useful in studying world musics. This paper presents a dataset for Greek Traditional and Folk music that includes 1570 pieces, summing in around 80 hours of data. The dataset incorporates YouTube timestamped links for retrieving audio and video, along with rich metadata information with regards to instrumentation, geography and genre, among others. The content has been collected from a Greek documentary series that is available online, where academics present music traditions of Greece with live music and dance performance during the show, along with discussions about social, cultural and musicological aspects of the presented music. Therefore, this procedure has resulted in a significant wealth of descriptions regarding a variety of aspects, such as musical genre, places of origin and musical instruments. In addition, the audio recordings were performed under strict production-level specifications, in terms of recording equipment, leading to very clean and homogeneous audio content. In this work, apart from presenting the dataset in detail, we propose a baseline deep-learning classification approach to recognize the involved musicological attributes. The dataset, the baseline classification methods and the models are provided in public repositories. Future directions for further refining the dataset are also discussed.
翻訳日:2022-11-22 23:39:12 公開日:2022-11-21
# 人間フィードバックからの強化学習によるマルチモーダル対話エージェントの改善

Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2211.11602v1 )

ライセンス: Link先を確認
Josh Abramson, Arun Ahuja, Federico Carnevale, Petko Georgiev, Alex Goldin, Alden Hung, Jessica Landon, Jirka Lhotka, Timothy Lillicrap, Alistair Muldal, George Powell, Adam Santoro, Guy Scully, Sanjana Srivastava, Tamara von Glehn, Greg Wayne, Nathaniel Wong, Chen Yan, Rui Zhu(参考訳) 人工知能の重要な目標は、人間と自然に相互作用し、フィードバックから学ぶことができるエージェントを作ることである。 本稿では、人間フィードバック(rlhf)からの強化学習を用いて、模倣学習の基盤レベルに訓練されたエージェントをシミュレーションして改善する方法を示す。 まず、シミュレーションされた3D世界において、エージェントと対話する人間のデータを収集した。 そして、アノテーターに、エージェントが人間に指示された目標に向かって前進したか、後退したと信じる瞬間を記録するように頼みました。 このアノテーションデータを使用することで、人間の判断を捉える報酬モデルを構築するために、"Inter-temporal Bradley-Terry"(IBT)モデルと呼ばれる新しい手法を利用した。 IBT報酬モデルから得られる報酬を最適化するために訓練されたエージェントは、エージェントとのライブインタラクション中の人間の判断を含むすべての指標に関して改善した。 その結果、エージェントの振る舞いを改善するために人間の判断をうまく活用し、プログラム的な報酬関数を使わずに、複雑で具体化されたドメインでの強化学習を実現できることを示した。 エージェントの振る舞いのビデオはhttps://youtu.be/v_Z9F2_eKk4で見ることができる。

An important goal in artificial intelligence is to create agents that can both interact naturally with humans and learn from their feedback. Here we demonstrate how to use reinforcement learning from human feedback (RLHF) to improve upon simulated, embodied agents trained to a base level of competency with imitation learning. First, we collected data of humans interacting with agents in a simulated 3D world. We then asked annotators to record moments where they believed that agents either progressed toward or regressed from their human-instructed goal. Using this annotation data we leveraged a novel method - which we call "Inter-temporal Bradley-Terry" (IBT) modelling - to build a reward model that captures human judgments. Agents trained to optimise rewards delivered from IBT reward models improved with respect to all of our metrics, including subsequent human judgment during live interactions with agents. Altogether our results demonstrate how one can successfully leverage human judgments to improve agent behaviour, allowing us to use reinforcement learning in complex, embodied domains without programmatic reward functions. Videos of agent behaviour may be found at https://youtu.be/v_Z9F2_eKk4.
翻訳日:2022-11-22 23:38:50 公開日:2022-11-21
# ビデオ背景音楽生成:データセット、方法、および評価

Video Background Music Generation: Dataset, Method and Evaluation ( http://arxiv.org/abs/2211.11248v1 )

ライセンス: Link先を確認
Le Zhuo, Zhaokai Wang, Baisen Wang, Yue Liao, Stanley Peng, Chenxi Bao, Miao Lu, Xiaobo Li, Si Liu(参考訳) ビデオの編集には音楽が不可欠だが、手動で音楽を選ぶのは困難で時間がかかる。 そこで我々は,ビデオ入力によるバックグラウンド楽曲の自動生成を目指す。 ビデオや音楽のペアリングをたくさん必要としているので、これは難しい作業だ。 残念ながらそのようなデータセットは存在しない。 このギャップを埋めるために,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を提案する。 ビデオとシンボリックな音楽データセットであるSymMVと、コード、リズム、メロディ、伴奏アノテーションを紹介する。 我々の知る限りでは、高品質なシンボリック音楽と詳細なアノテーションを備えた初めてのビデオ音楽データセットである。 また,v-musprodというビデオ背景音楽生成フレームワークを提案する。これは和音,メロディ,伴奏の楽曲先行と,意味・色・動きの映像・音楽関係を利用する。 映像音楽対応のための客観的な指標の欠如を解決するため,強力な映像音楽表現学習モデルに基づく検索ベースVMCPを提案する。 実験の結果,V-MusProdは音楽の質とビデオとの対応性の両方において,最先端の手法よりも優れていた。 我々は,我々のデータセット,ベンチマークモデル,評価指標が,ビデオバックグラウンド音楽の生成を促進すると信じている。

Music is essential when editing videos, but selecting music manually is difficult and time-consuming. Thus, we seek to automatically generate background music tracks given video input. This is a challenging task since it requires plenty of paired videos and music to learn their correspondence. Unfortunately, there exist no such datasets. To close this gap, we introduce a dataset, benchmark model, and evaluation metric for video background music generation. We introduce SymMV, a video and symbolic music dataset, along with chord, rhythm, melody, and accompaniment annotations. To the best of our knowledge, it is the first video-music dataset with high-quality symbolic music and detailed annotations. We also propose a benchmark video background music generation framework named V-MusProd, which utilizes music priors of chords, melody, and accompaniment along with video-music relations of semantic, color, and motion features. To address the lack of objective metrics for video-music correspondence, we propose a retrieval-based metric VMCP built upon a powerful video-music representation learning model. Experiments show that with our dataset, V-MusProd outperforms the state-of-the-art method in both music quality and correspondence with videos. We believe our dataset, benchmark model, and evaluation metric will boost the development of video background music generation.
翻訳日:2022-11-22 23:23:40 公開日:2022-11-21
# ドメイン適応を伴う計算光学:セマンティックセグメンテーションを収差を超えて転送する

Computational Optics Meet Domain Adaptation: Transferring Semantic Segmentation Beyond Aberrations ( http://arxiv.org/abs/2211.11257v1 )

ライセンス: Link先を確認
Qi Jiang, Hao Shi, Shaohua Gao, Jiaming Zhang, Kailun Yang, Lei Sun, Kaiwei Wang(参考訳) モバイルおよびウェアラブルアプリケーションにおけるミニマリスト光学系(mos)を用いた意味的シーン理解は、光学収差による画像品質の低下による課題である。 しかし、従来の研究は、コンピュータ光学、すなわち計算イメージング(CI)技術による主観的画像品質の向上にのみ焦点を当てており、セマンティックセグメンテーションの可能性を無視している。 本稿では,MOSの光収差下でのセマンティックセグメンテーション(SSOA)について検討する。 ssoaをベンチマークするために,仮想プロトタイプレンズ (vpl) 群を光学シミュレーションにより構築し,異なる動作と収差レベルの下で都市景観-abおよびkitti-360-abデータセットを生成する。 実世界のシナリオにおいてラベル付き収差データの不足に対処するため、教師なしのドメイン適応の観点からSSOAを考察する。 さらに、SSOAにおける堅牢なパフォーマンスのために、CIの事前知識を活用するために、CIADA(Computational Imaging Assisted Domain Adaptation)を提案する。 ベンチマークに基づいて,最先端セグメンタの収差に対する堅牢性の実験を行った。 さらに、SSOAの可能なソリューションを広範囲に評価した結果、CIADAはすべての収差分布において優れたパフォーマンスを達成し、セマンティックシーン理解におけるMOSの活用の道を開いた。 コードとデータセットはhttps://github.com/zju-jiangqi/CIADAで公開されます。

Semantic scene understanding with Minimalist Optical Systems (MOS) in mobile and wearable applications remains a challenge due to the corrupted imaging quality induced by optical aberrations. However, previous works only focus on improving the subjective imaging quality through computational optics, i.e. Computational Imaging (CI) technique, ignoring the feasibility in semantic segmentation. In this paper, we pioneer to investigate Semantic Segmentation under Optical Aberrations (SSOA) of MOS. To benchmark SSOA, we construct Virtual Prototype Lens (VPL) groups through optical simulation, generating Cityscapes-ab and KITTI-360-ab datasets under different behaviors and levels of aberrations. We look into SSOA via an unsupervised domain adaptation perspective to address the scarcity of labeled aberration data in real-world scenarios. Further, we propose Computational Imaging Assisted Domain Adaptation (CIADA) to leverage prior knowledge of CI for robust performance in SSOA. Based on our benchmark, we conduct experiments on the robustness of state-of-the-art segmenters against aberrations. In addition, extensive evaluations of possible solutions to SSOA reveal that CIADA achieves superior performance under all aberration distributions, paving the way for the applications of MOS in semantic scene understanding. Code and dataset will be made publicly available at https://github.com/zju-jiangqi/CIADA.
翻訳日:2022-11-22 23:23:22 公開日:2022-11-21
# LISA:入射ニューラル表現による音声による局所画像スティル化

LISA: Localized Image Stylization with Audio via Implicit Neural Representation ( http://arxiv.org/abs/2211.11381v1 )

ライセンス: Link先を確認
Seung Hyun Lee, Chanyoung Kim, Wonmin Byeon, Sang Ho Yoon, Jinkyu Kim, Sangpil Kim(参考訳) 本稿では,LISA(Localized Image Stylization with Audio)という,音声駆動のローカライズ画像スタイリングを行う新しいフレームワークを提案する。 サウンドはしばしばシーンの特定のコンテキストに関する情報を提供し、シーンやオブジェクトの特定の部分と密接に関連している。 しかし、既存の画像スタイリング作業は、画像やテキスト入力を用いて全体像をスタイリングすることに集中している。 音声入力に基づいて画像の特定の部分をスタイリングするのは自然だが難しい。 本研究では、ユーザが入力画像中の音源をローカライズするための音声入力を提供するフレームワークと、対象物やシーンを局所的にスタイリングするフレームワークを提案する。 LISA はまず,CLIP 埋め込み空間を活用することで,音声-視覚的ローカライゼーションネットワークを用いた微妙なローカライゼーションマップを生成する。 次に、暗黙的ニューラル表現(INR)と予測位置マップを用いて、音情報に基づいて対象物やシーンをスタイリングする。 提案したINRは、提供された音声入力とセマンティックに一致するように、局所化画素値を操作できる。 一連の実験を通して,提案手法が他の音声誘導方式よりも優れていることを示す。 さらに、LISAは簡潔なローカライゼーションマップを構築し、所定の音声入力に応じて対象物やシーンを自然に操作する。

We present a novel framework, Localized Image Stylization with Audio (LISA) which performs audio-driven localized image stylization. Sound often provides information about the specific context of the scene and is closely related to a certain part of the scene or object. However, existing image stylization works have focused on stylizing the entire image using an image or text input. Stylizing a particular part of the image based on audio input is natural but challenging. In this work, we propose a framework that a user provides an audio input to localize the sound source in the input image and another for locally stylizing the target object or scene. LISA first produces a delicate localization map with an audio-visual localization network by leveraging CLIP embedding space. We then utilize implicit neural representation (INR) along with the predicted localization map to stylize the target object or scene based on sound information. The proposed INR can manipulate the localized pixel values to be semantically consistent with the provided audio input. Through a series of experiments, we show that the proposed framework outperforms the other audio-guided stylization methods. Moreover, LISA constructs concise localization maps and naturally manipulates the target object or scene in accordance with the given audio input.
翻訳日:2022-11-22 23:22:57 公開日:2022-11-21
# 形状比較のための変形可能なボクセルグリッド

Deformable Voxel Grids for Shape Comparisons ( http://arxiv.org/abs/2211.11609v1 )

ライセンス: Link先を確認
Rapha\"el Groscot (CEREMADE), Laurent D. Cohen (CEREMADE)(参考訳) 本稿では3次元形状比較処理のための変形可能なVoxel Grids(DVGs)を提案する。 エネルギー最小化により、形状のシルエットを近似するために変形するボクセル格子で構成されている。 DVGを局所座標系として解釈することにより、形状の幾何学に適応するため、通常のボクセル格子よりも優れた埋め込み空間を提供する。 また、自由形状変形と同様にdvgの制御点を移動させることで形状を変形させることができるが、制御点位置の解釈が容易である。 メッシュやポイントクラウドと互換性のあるエネルギーの計算スキームを提案した後、様々な応用におけるdvgの使用を実証する: キュービゼーション、スタイル転送、形状検索、pca変形による対応。 最初の2つは学習を必要とせず、最小限のハードウェアで数分でどんな形状でも簡単に実行できる。 最後の2つについては、まずDVGを一連の形状で最適化する必要がある。 次に、PCA座標を決定することは簡単で、形状を変形させるパラメータがいくつか来る。

We present Deformable Voxel Grids (DVGs) for 3D shapes comparison and processing. It consists of a voxel grid which is deformed to approximate the silhouette of a shape, via energy-minimization. By interpreting the DVG as a local coordinates system, it provides a better embedding space than a regular voxel grid, since it is adapted to the geometry of the shape. It also allows to deform the shape by moving the control points of the DVG, in a similar manner to the Free Form Deformation, but with easier interpretability of the control points positions. After proposing a computation scheme of the energies compatible with meshes and pointclouds, we demonstrate the use of DVGs in a variety of applications: correspondences via cubification, style transfer, shape retrieval and PCA deformations. The first two require no learning and can be readily run on any shapes in a matter of minutes on modest hardware. As for the last two, they require to first optimize DVGs on a collection of shapes, which amounts to a pre-processing step. Then, determining PCA coordinates is straightforward and brings a few parameters to deform a shape.
翻訳日:2022-11-22 23:22:36 公開日:2022-11-21
# 高速物体検出シングルショットマルチボックスディープラーニングモデルを用いたグラフバンチとトランク検出のためのエッジコンピューティングデバイスのベンチマーク

Benchmarking Edge Computing Devices for Grape Bunches and Trunks Detection using Accelerated Object Detection Single Shot MultiBox Deep Learning Models ( http://arxiv.org/abs/2211.11647v1 )

ライセンス: Link先を確認
Sandro Costa Magalh\~aes and Filipe Neves Santos and Pedro Machado and Ant\'onio Paulo Moreira and Jorge Dias(参考訳) 目的:視覚知覚によりロボットは環境を知覚することができる。 視覚データはコンピュータビジョンのアルゴリズムで処理されるが、それは通常、時間を要するもので、視覚データをリアルタイムに処理するために強力なデバイスを必要とする。 この研究は、オブジェクト検出のための異なる異種プラットフォームの性能をリアルタイムにベンチマークする。 組み込みGPU - グラフィカル処理ユニット(NVIDIA Jetson Nano 2 GB、4 GB、NVIDIA Jetson TX2)、TPU - テンソル処理ユニット(Coral Dev Board TPUなど)、DPU - ディープラーニングプロセッサユニット(AMD-Xilinx ZCU104 Development BoardやAMD-Xilinx Kria KV260 Starter Kitなど)の3つのアーキテクチャをベンチマークする。 方法:著者らは、自然なVineSetデータセットを使用して、RetinaNet ResNet-50を微調整した。 トレーニングされたモデルが変換され、ターゲット固有のハードウェアフォーマットにコンパイルされ、実行効率が向上した。 結論と結果: 評価指標と効率(推論時間)のパフォーマンスの観点から, プラットフォームの評価を行った。 グラフィック処理ユニット(GPU)は3 FPSから5 FPSで動作し、フィールドプログラマブルゲートアレイ(FPGA)は14 FPSから25 FPSで動作する最も遅いデバイスであった。 テンソルプロセッシングユニット(TPU)の効率は無関係であり、NVIDIA Jetson TX2と類似している。 TPUとGPUは電力効率が最も高く、約5Wを消費する。 評価指標では、デバイス間の性能差は無関係であり、F1は約70%、平均精度(mAP)は約60%である。

Purpose: Visual perception enables robots to perceive the environment. Visual data is processed using computer vision algorithms that are usually time-expensive and require powerful devices to process the visual data in real-time, which is unfeasible for open-field robots with limited energy. This work benchmarks the performance of different heterogeneous platforms for object detection in real-time. This research benchmarks three architectures: embedded GPU -- Graphical Processing Units (such as NVIDIA Jetson Nano 2 GB and 4 GB, and NVIDIA Jetson TX2), TPU -- Tensor Processing Unit (such as Coral Dev Board TPU), and DPU -- Deep Learning Processor Unit (such as in AMD-Xilinx ZCU104 Development Board, and AMD-Xilinx Kria KV260 Starter Kit). Method: The authors used the RetinaNet ResNet-50 fine-tuned using the natural VineSet dataset. After the trained model was converted and compiled for target-specific hardware formats to improve the execution efficiency. Conclusions and Results: The platforms were assessed in terms of performance of the evaluation metrics and efficiency (time of inference). Graphical Processing Units (GPUs) were the slowest devices, running at 3 FPS to 5 FPS, and Field Programmable Gate Arrays (FPGAs) were the fastest devices, running at 14 FPS to 25 FPS. The efficiency of the Tensor Processing Unit (TPU) is irrelevant and similar to NVIDIA Jetson TX2. TPU and GPU are the most power-efficient, consuming about 5W. The performance differences, in the evaluation metrics, across devices are irrelevant and have an F1 of about 70 % and mean Average Precision (mAP) of about 60 %.
翻訳日:2022-11-22 23:22:05 公開日:2022-11-21
# ビジネスITアライメントのためのエンタープライズモデルライブラリ

Enterprise Model Library for Business-IT-Alignment ( http://arxiv.org/abs/2211.11369v1 )

ライセンス: Link先を確認
Peter Hillmann, Diana Schnell, Harald Hagel, Andreas Karcher(参考訳) 世界の知識は図書館を通じて受け継がれている。 したがって、ドメインの専門知識と経験は、知識ベースによって企業内でも移されるべきです。 したがって、モデルは複雑なシステム、プロセス、相互接続のための良い実践を記述するための確立された媒体である。 しかし、エンタープライズモデルライブラリを設計するための構造化された詳細なアプローチは存在しない。 この作業の目的は、再利用機能を持つモデルのためのリポジトリの参照アーキテクチャである。 これには、ファイリング用のデータ構造の設計、管理のためのプロセス、使用可能性が含まれる。 我々のアプローチはメタデータ属性を使って要求をモデルに一貫したマッピングを可能にする。 さらに、特定のユースケースにおける参照アーキテクチャの適応と相互関係の調整が可能である。 業界におけるケーススタディは、すでに行われている作業の再利用の実践的なメリットを示している。 組織に、仕様、標準、ガイドラインへの体系的なアクセスを提供する。 これにより、さらなる開発が加速され、構造化された方法でサポートされ、複雑さは制御可能である。 提案されたアプローチは、さまざまなエンタープライズアーキテクチャフレームワークを強化します。 モデルに基づいた開発に利益をもたらす。

The knowledge of the world is passed on through libraries. Accordingly, domain expertise and experiences should also be transferred within an enterprise by a knowledge base. Therefore, models are an established medium to describe good practices for complex systems, processes, and interconnections. However, there is no structured and detailed approach for a design of an enterprise model library. The objective of this work is the reference architecture of a repository for models with function of reuse. It includes the design of the data structure for filing, the processes for administration and possibilities for usage. Our approach enables consistent mapping of requirements into models via meta-data attributes. Furthermore, the adaptation of reference architectures in specific use cases as well as a reconciliation of interrelationships is enabled. A case study with industry demonstrates the practical benefits of reusing work already done. It provides an organization with systematic access to specifications, standards and guidelines. Thus, further development is accelerated and supported in a structured manner, while complexity remains controllable. The presented approach enriches various enterprise architecture frameworks. It provides benefits for development based on models.
翻訳日:2022-11-22 23:20:59 公開日:2022-11-21
# システム工学における総合参照モデリングの方法論

Methodology for Holistic Reference Modeling in Systems Engineering ( http://arxiv.org/abs/2211.11453v1 )

ライセンス: Link先を確認
Dominik Ascher, Erik Heiland, Diana Schnell, Peter Hillmann, Andreas Karcher(参考訳) 複雑さの増加に直面したモデルは、新しいシステムとエンタープライズの開発をサポートする。 効率的な手順では、参照モデルは必要なすべての側面をカバーするlesオーバーヘッドのあるソリューションに到達するために適応されます。 ここで重要な課題は、そのような参照設計の記述に一貫した方法論を適用することである。 本稿では,様々な視点やレベルの参照モデルを記述するための全体論的アプローチを提案する。 モデリングは、そのサブディビジョンにおける要件や機能から、サービスやコンポーネントまで、プロセスやデータ構造の実現にまで及ぶ。 メリットには、参照設計の開始時点ですでに考慮されているパフォーマンスパラメータによる、機能カバレッジのエンドツーエンドトレーサビリティが含まれる。 これにより、設計上の制約や潜在的なボトルネックを考慮しながら、集中的な開発が可能になる。 本稿では,スマートロボットの開発事例について紹介する。 提案手法は,今後のシステム開発のための設計の移管可能性を強く支持する。

Models in face of increasing complexity support development of new systems and enterprises. For an efficient procedure, reference models are adapted in order to reach a solution with les overhead which covers all necessary aspects. Here, a key challenge is applying a consistent methodology for the descriptions of such reference designs. This paper presents a holistic approach to describe reference models across different views and levels. Modeling stretches from the requirements and capabilities over their subdivision to services and components up to the realization in processes and data structures. Benefits include an end-to-end traceability of the capability coverage with performance parameters considered already at the starting point of the reference design. This enables focused development while considering design constraints and potential bottlenecks. We demonstrate the approach on the example of the development of a smart robot. Here, our methodology highly supports transferability of designs for the development of further systems.
翻訳日:2022-11-22 23:20:48 公開日:2022-11-21
# dualapp: ニューラルネットワークのロバスト性検証のための厳密な近似

DualApp: Tight Over-Approximation for Neural Network Robustness Verification via Under-Approximation ( http://arxiv.org/abs/2211.11186v1 )

ライセンス: Link先を確認
Yiting Wu, Zhaodi Zhang, Zhiyi Xue, Si Liu, Min Zhang(参考訳) ニューラルネットワークの堅牢性は、ホスティングシステムの信頼性とセキュリティの基本である。 形式的検証は証明可能な堅牢性保証を提供する上で有効であることが証明されている。 検証のスケーラビリティを向上させるために、線形制約によるニューラルネットワークの非線形アクティベーション関数の過度な近似が広く採用され、検証問題を効率よく解ける線形プログラミング問題に変換する。 過剰近似が必然的に過大評価をもたらすため、最も厳密な近似の定義に多くの努力が注がれている。 しかし、最近の研究では、既存の最も密接な近似は互いに優れていることが示されている。 本稿では, 活性化関数の近似領域として, 密近似を定義する上で重要な因子を同定し, 報告する。 既存のアプローチは過大評価されたドメインにのみ依存するが、対応する厳密な近似は必ずしも実際のドメインに強く依存するとは限らない。 本稿では,2次近似と呼ばれる新しいアンダー近似手法を提案し,タイトなオーバー近似と,サンプリングと勾配勾配に基づく2つの補足アンダー近似アルゴリズムを提案する。 過大評価領域は音質を保証し、過小評価領域はタイネスを誘導する。 このアプローチをdualappというツールに実装し、異なるアーキテクチャを持つ84のニューラルネットワークの総合ベンチマークで広範囲に評価しました。 実験の結果、DualAppは最先端の近似ベースのアプローチよりも優れており、検証結果は最大71.22%改善されている。

The robustness of neural networks is fundamental to the hosting system's reliability and security. Formal verification has been proven to be effective in providing provable robustness guarantees. To improve the verification scalability, over-approximating the non-linear activation functions in neural networks by linear constraints is widely adopted, which transforms the verification problem into an efficiently solvable linear programming problem. As over-approximations inevitably introduce overestimation, many efforts have been dedicated to defining the tightest possible approximations. Recent studies have however showed that the existing so-called tightest approximations are superior to each other. In this paper we identify and report an crucial factor in defining tight approximations, namely the approximation domains of activation functions. We observe that existing approaches only rely on overestimated domains, while the corresponding tight approximation may not necessarily be tight on its actual domain. We propose a novel under-approximation-guided approach, called dual-approximation, to define tight over-approximations and two complementary under-approximation algorithms based on sampling and gradient descent. The overestimated domain guarantees the soundness while the underestimated one guides the tightness. We implement our approach into a tool called DualApp and extensively evaluate it on a comprehensive benchmark of 84 collected and trained neural networks with different architectures. The experimental results show that DualApp outperforms the state-of-the-art approximation-based approaches, with up to 71.22% improvement to the verification result.
翻訳日:2022-11-22 23:14:45 公開日:2022-11-21
# DiffBP:ターゲットタンパク質結合のための3次元分子の生成拡散

DiffBP: Generative Diffusion of 3D Molecules for Target Protein Binding ( http://arxiv.org/abs/2211.11214v1 )

ライセンス: Link先を確認
Haitao Lin, Yufei Huang, Meng Liu, Xuanjing Li, Shuiwang Ji, Stan Z. Li(参考訳) 特定のタンパク質に結合する分子の生成は、薬物発見において重要な課題である。 従来の研究は通常、原子の要素タイプと3次元座標を1つずつ生成する自己回帰的な方法で原子を生成する。 しかし、現実世界の分子系では、分子全体の原子間の相互作用が大域的であり、原子間のエネルギー関数が結合する。 このようなエネルギーに基づく考察により、確率のモデリングは逐次条件付きではなく、ジョイント分布に基づいているべきである。 したがって、不自然な連続的な分子生成の自己回帰モデリングは物理規則に違反する可能性があり、結果として生成する分子の性質が低下する。 本研究では,非自己回帰的な方法で全原子レベルで,対象タンパク質を文脈制約とした分子3次元構造生成拡散モデルを構築した。 指定された3Dタンパク質結合部位を与えられたモデルでは、分子全体の要素タイプと3D座標の両方を同変ネットワークで認知する生成過程を学習する。 実験により, タンパク質との親和性, 適切な分子サイズ, および生成する分子の薬物様性などの他の薬物特性の観点から, 従来の作品と比較して, 高い競合性を示す。

Generating molecules that bind to specific proteins is an important but challenging task in drug discovery. Previous works usually generate atoms in an auto-regressive way, where element types and 3D coordinates of atoms are generated one by one. However, in real-world molecular systems, the interactions among atoms in an entire molecule are global, leading to the energy function pair-coupled among atoms. With such energy-based consideration, the modeling of probability should be based on joint distributions, rather than sequentially conditional ones. Thus, the unnatural sequentially auto-regressive modeling of molecule generation is likely to violate the physical rules, thus resulting in poor properties of the generated molecules. In this work, a generative diffusion model for molecular 3D structures based on target proteins as contextual constraints is established, at a full-atom level in a non-autoregressive way. Given a designated 3D protein binding site, our model learns the generative process that denoises both element types and 3D coordinates of an entire molecule, with an equivariant network. Experimentally, the proposed method shows competitive performance compared with prevailing works in terms of high affinity with proteins and appropriate molecule sizes as well as other drug properties such as drug-likeness of the generated molecules.
翻訳日:2022-11-22 23:14:20 公開日:2022-11-21
# フェデレーション学習における個人化不変性の爆発的展開

Exploiting Personalized Invariance for Better Out-of-distribution Generalization in Federated Learning ( http://arxiv.org/abs/2211.11243v1 )

ライセンス: Link先を確認
Xueyang Tang, Song Guo, Jie Zhang(参考訳) 近年、ローカルクライアント上のトレーニングデータセット(すなわち、非iidデータ)間のデータの不均一性が、フェデレーション学習(fl)に強い関心を集め、それを扱うために多くのパーソナライズされたフェデレーション学習手法が提案されている。 しかし、トレーニングデータセットと各クライアントのテストデータセットの間の分散シフトは、現実のシナリオでは一般的であるにもかかわらず、flでは決して考慮されない。 非iidフェデレーション設定下での分布シフト(分散一般化)問題は,個人情報とスプリアス情報との絡み合いのため,かなり困難である。 上記の問題に取り組むため,本研究では,単一ベースライン(一般にグローバルモデル)によって正規化される個人化連体学習手法と比較し,個人化不分散を探索する一般的な二重正規化学習フレームワークを詳説する。 パーソナライズされた不変機能を利用することで、開発したパーソナライズモデルでは、最も関連する情報を効率的に活用でき、一方、スプリアスな情報を排除して、各クライアントの分散一般化性能を向上させることができる。 収束とood一般化性能に関する理論的解析と広範な実験の結果は,既存の連立学習法や不変学習法よりも,多種多様な分散データと非iidデータにおいて優れていることを示した。

Recently, data heterogeneity among the training datasets on the local clients (a.k.a., Non-IID data) has attracted intense interest in Federated Learning (FL), and many personalized federated learning methods have been proposed to handle it. However, the distribution shift between the training dataset and testing dataset on each client is never considered in FL, despite it being general in real-world scenarios. We notice that the distribution shift (a.k.a., out-of-distribution generalization) problem under Non-IID federated setting becomes rather challenging due to the entanglement between personalized and spurious information. To tackle the above problem, we elaborate a general dual-regularized learning framework to explore the personalized invariance, compared with the exsiting personalized federated learning methods which are regularized by a single baseline (usually the global model). Utilizing the personalized invariant features, the developed personalized models can efficiently exploit the most relevant information and meanwhile eliminate spurious information so as to enhance the out-of-distribution generalization performance for each client. Both the theoretical analysis on convergence and OOD generalization performance and the results of extensive experiments demonstrate the superiority of our method over the existing federated learning and invariant learning methods, in diverse out-of-distribution and Non-IID data cases.
翻訳日:2022-11-22 23:14:01 公開日:2022-11-21
# 物理インフォームドニューラルネットワークトレーニングにおける座標点の分配のためのカリキュラムベース戦略

A Curriculum-Training-Based Strategy for Distributing Collocation Points during Physics-Informed Neural Network Training ( http://arxiv.org/abs/2211.11396v1 )

ライセンス: Link先を確認
Marcus M\"unzer, Chris Bard(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、損失関数において、物理方程式や微分に基づく用語を持つことが多い。 これらの項を評価するために、出力解をコロケーション点の分布を用いてサンプリングする。 しかし、ドメイン上のコロケーションポイント数がトレーニング期間を通じて増加する密度ベースの戦略は、複数の空間次元に対してうまくスケールしない。 本稿では,ネットワークトレーニング中の軽量なコロケーション点分布のためのカリキュラム学習に基づく手法を提案する。 本手法を,ベースラインMHDシミュレーションから得られた部分試料から完全2次元磁気流体力学(MHD)溶液を回収するPINNに適用する。 カリキュラムのコロケーションポイント戦略は,トレーニング時間を大幅に短縮し,再構築されたソリューションの品質を同時に向上させる。

Physics-informed Neural Networks (PINNs) often have, in their loss functions, terms based on physical equations and derivatives. In order to evaluate these terms, the output solution is sampled using a distribution of collocation points. However, density-based strategies, in which the number of collocation points over the domain increases throughout the training period, do not scale well to multiple spatial dimensions. To remedy this issue, we present here a curriculum-training-based method for lightweight collocation point distributions during network training. We apply this method to a PINN which recovers a full two-dimensional magnetohydrodynamic (MHD) solution from a partial sample taken from a baseline MHD simulation. We find that the curriculum collocation point strategy leads to a significant decrease in training time and simultaneously enhances the quality of the reconstructed solution.
翻訳日:2022-11-22 23:13:35 公開日:2022-11-21
# 微分可能な物理に基づく温室効果シミュレーション

Differentiable Physics-based Greenhouse Simulation ( http://arxiv.org/abs/2211.11502v1 )

ライセンス: Link先を確認
Nhat M. Nguyen, Hieu T. Tran, Minh V. Duong, Hanh Bui, Kenneth Tran(参考訳) 本稿では,実データからパラメータを学習することで得られる物理プロセスに基づく微分可能温室シミュレーションモデルを提案する。 物理に基づくシミュレーションモデルは完全に解釈可能であり、温室における気候と作物の動態を非常に長い時間にわたって予測することができる。 このモデルは線形微分方程式の系を構築し、それらを解いて次の状態を得る。 本研究では,微分方程式の解法を提案し,データに観測不能な状態の問題を扱い,モデルを効率的に訓練する。 私たちの実験は手順が効果的であることを示している。 モデルはトレーニング後に大幅に改善され、キュウリを正確に成長させる温室をシミュレートすることができる。

We present a differentiable greenhouse simulation model based on physical processes whose parameters can be obtained by training from real data. The physics-based simulation model is fully interpretable and is able to do state prediction for both climate and crop dynamics in the greenhouse over very a long time horizon. The model works by constructing a system of linear differential equations and solving them to obtain the next state. We propose a procedure to solve the differential equations, handle the problem of missing unobservable states in the data, and train the model efficiently. Our experiment shows the procedure is effective. The model improves significantly after training and can simulate a greenhouse that grows cucumbers accurately.
翻訳日:2022-11-22 23:13:22 公開日:2022-11-21
# パッケージGeomstatsを用いたパラメトリック情報幾何学

Parametric information geometry with the package Geomstats ( http://arxiv.org/abs/2211.11643v1 )

ライセンス: Link先を確認
Alice Le Brigant, Jules Deschamps, Antoine Collas, Nina Miolane(参考訳) 我々はPythonパッケージGeomstatsの情報幾何学モジュールを紹介する。 この加群は最初に、正規、ガンマ、ベータ、ディリクレ分布など、広く使われる確率分布のパラメトリック族からなるフィッシャー・ラオリーマン多様体を実装している。 この加群はさらに、パラメータ化された確率密度関数を入力として与えられた任意の関心分布のパラメトリック族のフィッシャー・ラオ・リーマン幾何学を与える。 実装されたリーマン幾何学ツールは、ある家族内の分布の比較、平均、補間を可能にする。 重要なのは、確率分布に関する統計と機械学習の扉を開くことだ。 本稿では,このモジュールのオブジェクト指向実装と,その例を示し,パラメトリック確率分布の多様体上での学習をいかに行うかを示す。

We introduce the information geometry module of the Python package Geomstats. The module first implements Fisher-Rao Riemannian manifolds of widely used parametric families of probability distributions, such as normal, gamma, beta, Dirichlet distributions, and more. The module further gives the Fisher-Rao Riemannian geometry of any parametric family of distributions of interest, given a parameterized probability density function as input. The implemented Riemannian geometry tools allow users to compare, average, interpolate between distributions inside a given family. Importantly, such capabilities open the door to statistics and machine learning on probability distributions. We present the object-oriented implementation of the module along with illustrative examples and show how it can be used to perform learning on manifolds of parametric probability distributions.
翻訳日:2022-11-22 23:12:26 公開日:2022-11-21
# 確率的ニューラルネットワークに対する表現的異方性距離空間

Representational dissimilarity metric spaces for stochastic neural networks ( http://arxiv.org/abs/2211.11665v1 )

ライセンス: Link先を確認
Lyndon R. Duong, Jingyang Zhou, Josue Nassar, Jules Berman, Jeroen Olieslagers, Alex H. Williams(参考訳) 神経表現の類似性(例えば、隠れ層活性化ベクトル)の定量化は、深層学習と神経科学研究における長年の問題である。 既存の手法では、決定論的応答(例えば、確率的層を欠いた人工ネットワーク)や平均的応答(例えば、生物データにおける試行平均発火率)を比較する。 しかし、これらの決定論的表現的類似性の尺度はノイズのスケールや幾何学的構造を無視し、どちらも神経計算において重要な役割を果たす。 これを正すため、前述した形状メトリクス(williams et al. 2021)を一般化し、確率表現の違いを定量化する。 これらの新しい距離は三角不等式を満たすので、多くの教師付きおよび教師なし分析の厳密な基礎として使うことができる。 この枠組みを活用することで、指向性視覚格子の神経生物学的表現の確率的ジオメトリと自然主義的なシーンはそれぞれ、訓練されていない深層ネットワーク表現と訓練された深部ネットワーク表現に類似していることが分かる。 さらに,特定のネットワーク属性(ハイパーパラメータのトレーニングなど)を,確率的(非決定論的)形状空間におけるその位置からより正確に予測することができる。

Quantifying similarity between neural representations -- e.g. hidden layer activation vectors -- is a perennial problem in deep learning and neuroscience research. Existing methods compare deterministic responses (e.g. artificial networks that lack stochastic layers) or averaged responses (e.g., trial-averaged firing rates in biological data). However, these measures of deterministic representational similarity ignore the scale and geometric structure of noise, both of which play important roles in neural computation. To rectify this, we generalize previously proposed shape metrics (Williams et al. 2021) to quantify differences in stochastic representations. These new distances satisfy the triangle inequality, and thus can be used as a rigorous basis for many supervised and unsupervised analyses. Leveraging this novel framework, we find that the stochastic geometries of neurobiological representations of oriented visual gratings and naturalistic scenes respectively resemble untrained and trained deep network representations. Further, we are able to more accurately predict certain network attributes (e.g. training hyperparameters) from its position in stochastic (versus deterministic) shape space.
翻訳日:2022-11-22 23:12:12 公開日:2022-11-21
# 非凸複合物体の適応確率最適化

Adaptive Stochastic Optimisation of Nonconvex Composite Objectives ( http://arxiv.org/abs/2211.11710v1 )

ライセンス: Link先を確認
Weijia Shao, Fikret Sivrikaya, Sahin Albayrak(参考訳) 本稿では,一般化確率的複合ミラー降下アルゴリズムのファミリを提案し,解析する。 適応的なステップサイズで、提案アルゴリズムは問題の事前知識を必要とせずに収束する。 エントロピー的な更新生成関数と組み合わせて、これらのアルゴリズムは最大ノルムを備えた空間で勾配降下を行い、高次元問題に対して決定集合の低次元構造を利用することができる。 提案アルゴリズムは,Rademacher分布と分散低減法に基づくサンプリング手法とともに,ゼロ階最適化問題に対する次元性に依存する対数的複雑性を保証する。

In this paper, we propose and analyse a family of generalised stochastic composite mirror descent algorithms. With adaptive step sizes, the proposed algorithms converge without requiring prior knowledge of the problem. Combined with an entropy-like update-generating function, these algorithms perform gradient descent in the space equipped with the maximum norm, which allows us to exploit the low-dimensional structure of the decision sets for high-dimensional problems. Together with a sampling method based on the Rademacher distribution and variance reduction techniques, the proposed algorithms guarantee a logarithmic complexity dependence on dimensionality for zeroth-order optimisation problems.
翻訳日:2022-11-22 23:11:51 公開日:2022-11-21
# 知識蒸留によるCTR予測のための非巡回非巡回グラフ因子化装置

Directed Acyclic Graph Factorization Machines for CTR Prediction via Knowledge Distillation ( http://arxiv.org/abs/2211.11159v1 )

ライセンス: Link先を確認
Zhen Tian, Ting Bai, Zibin Zhang, Zhiyuan Xu, Kangyi Lin, Ji-Rong Wen and Wayne Xin Zhao(参考訳) ウェブスケールレコメンデータシステムにおける高次元スパースデータの増大に伴い、CTR予測タスクにおける高次特徴相互作用を学習するための計算コストが大きく増加し、実際の産業アプリケーションにおける高次相互作用モデルの使用が制限される。 最近の知識蒸留法では, 複雑な教員モデルから浅い生徒モデルへ知識を移し, オンラインモデル推論を促進させている。 しかし、彼らは知識蒸留過程におけるモデルの精度の低下に苦しむ。 浅い生徒モデルの効率性と有効性をバランスさせることは困難である。 この問題に対処するために,既存の複雑な相互作用モデルから知識蒸留によるCTR予測のための高次特徴相互作用を学習するための,方向付き非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。 提案した軽量学生モデルDAGFMは、教師ネットワークから任意の明示的な特徴相互作用を学習し、ほぼ損失のない性能を達成し、動的プログラミングアルゴリズムによって証明される。 さらに、改良された一般モデルKD-DAGFM+は、あらゆる複雑な教師モデルから明示的および暗黙的な特徴相互作用を蒸留するのに有効であることが示されている。 大規模な実験は、WeChatプラットフォームからの大規模産業データセットを含む4つの実世界のデータセットで実施されている。 KD-DAGFMは、オンラインとオフラインの両方の実験において21.5%のFLOPで最高の性能を達成し、CTR予測タスクにおける産業規模データを扱う上でのDAGFMの優位性を示している。 実装コードはhttps://github.com/rucaibox/dagfm.com/。

With the growth of high-dimensional sparse data in web-scale recommender systems, the computational cost to learn high-order feature interaction in CTR prediction task largely increases, which limits the use of high-order interaction models in real industrial applications. Some recent knowledge distillation based methods transfer knowledge from complex teacher models to shallow student models for accelerating the online model inference. However, they suffer from the degradation of model accuracy in knowledge distillation process. It is challenging to balance the efficiency and effectiveness of the shallow student models. To address this problem, we propose a Directed Acyclic Graph Factorization Machine (KD-DAGFM) to learn the high-order feature interactions from existing complex interaction models for CTR prediction via Knowledge Distillation. The proposed lightweight student model DAGFM can learn arbitrary explicit feature interactions from teacher networks, which achieves approximately lossless performance and is proved by a dynamic programming algorithm. Besides, an improved general model KD-DAGFM+ is shown to be effective in distilling both explicit and implicit feature interactions from any complex teacher model. Extensive experiments are conducted on four real-world datasets, including a large-scale industrial dataset from WeChat platform with billions of feature dimensions. KD-DAGFM achieves the best performance with less than 21.5% FLOPs of the state-of-the-art method on both online and offline experiments, showing the superiority of DAGFM to deal with the industrial scale data in CTR prediction task. Our implementation code is available at: https://github.com/RUCAIBox/DAGFM.
翻訳日:2022-11-22 23:03:40 公開日:2022-11-21
# HARL:階層型適応強化学習に基づくニューラルネットワークの自動スケジューリング

HARL: Hierarchical Adaptive Reinforcement Learning Based Auto Scheduler for Neural Networks ( http://arxiv.org/abs/2211.11172v1 )

ライセンス: Link先を確認
Zining Zhang, Bingsheng He, Zhenjie Zhang(参考訳) ニューラルネットワークによる推論を効率的に実行するには、運用環境にデプロイする前に、基礎となるテンソルプログラムに十分なチューニング作業が必要である。 通常、最高のパフォーマンスを持つプログラムを見つけるには、膨大なテンソルプログラム候補を十分に探す必要がある。 このことは、ニューラルネットワーク製品が自然言語処理や自動運転など、現実世界のアプリケーションの高要求を満たすために必要です。 人的介入を避けるために自動スケジュールが開発されている。 しかし、巨大な検索スペースとインテリジェントな検索ガイダンスが欠如しているため、現在のオートスケジューラは、ニューラルネットワーク全体の最高のパフォーマンスのテンソルプログラムを見つけるのに数時間から数日のチューニング時間を必要とする。 本稿では,効率的なテンソルプログラム探索を目的とした強化学習(RL)に基づく自動スケジューリングシステムであるHARLを提案する。 HARLは階層的なRLアーキテクチャを使用しており、学習に基づく決定はあらゆるレベルの検索粒度で行われる。 また、高速なパフォーマンス収束のために、リアルタイムで探索設定を自動的に調整する。 その結果、harlはテンソル演算子の性能を22%向上させ、検索速度は最先端のオートスケジューラと比較して4.3倍向上した。 エンドツーエンドのニューラルネットワークでは、推論性能と探索速度も大幅に向上する。

To efficiently perform inference with neural networks, the underlying tensor programs require sufficient tuning efforts before being deployed into production environments. Usually, enormous tensor program candidates need to be sufficiently explored to find the one with the best performance. This is necessary to make the neural network products meet the high demand of real-world applications such as natural language processing, auto-driving, etc. Auto-schedulers are being developed to avoid the need for human intervention. However, due to the gigantic search space and lack of intelligent search guidance, current auto-schedulers require hours to days of tuning time to find the best-performing tensor program for the entire neural network. In this paper, we propose HARL, a reinforcement learning (RL) based auto-scheduler specifically designed for efficient tensor program exploration. HARL uses a hierarchical RL architecture in which learning-based decisions are made at all different levels of search granularity. It also automatically adjusts exploration configurations in real-time for faster performance convergence. As a result, HARL improves the tensor operator performance by 22% and the search speed by 4.3x compared to the state-of-the-art auto-scheduler. Inference performance and search speed are also significantly improved on end-to-end neural networks.
翻訳日:2022-11-22 23:03:14 公開日:2022-11-21
# 分類なしオブジェクトの提案と付録を用いたインスタンスレベルのコントラスト学習を用いたオープンセットオブジェクト検出

Open-Set Object Detection Using Classification-free Object Proposal and Instance-level Contrastive Learning with Appendix ( http://arxiv.org/abs/2211.11530v1 )

ライセンス: Link先を確認
Zhongxiang Zhou, Yifei Yang, Yue Wang, Rong Xiong(参考訳) 既知のオブジェクトと未知のオブジェクトの両方を検出することは、非構造化環境でのロボット操作の基本的なスキルである。 オープンセットオブジェクト検出(OSOD)は、オブジェクトと背景分離、オープンセットオブジェクト分類という2つのサブタスクからなる問題を処理するための有望な方向である。 本稿では,OSODの課題に対処するため,Openset RCNNを提案する。 第1のサブタスクで未知のオブジェクトと背景を曖昧にするために,各領域の対象性スコアを,対象の位置と形状から純粋に推定し,トレーニングカテゴリへの過度な適合を防ぐ分類フリー領域提案ネットワーク(cf-rpn)を提案する。 第2のサブタスクで未知のオブジェクトを識別するために,プロトタイプ学習ネットワーク(PLN)により達成された潜在空間における既知のカテゴリの補完領域を用いて表現することを提案する。 PLNはインスタンスレベルのコントラスト学習を行い、提案を潜在空間にエンコードし、既知のカテゴリごとにプロトタイプを中心としたコンパクトな領域を構築する。 また、一般に使用されるオブジェクト検出データセットが完全にアノテートされていない状況では、未知のオブジェクトの検出性能を偏りなく評価できないことに注意する。 これにより、完全なアノテーションを備えたロボットグリップポーズ検出データセットであるGraspNet-1billionを再編成することで、新しいベンチマークが導入された。 広範な実験が我々の方法の利点を示している。 最終的に、私たちのOpenset RCNNは、散らかった環境でロボットの並べ替えタスクをサポートするオープンセットの知覚能力でロボットを支援できることを示した。 詳細はhttps://sites.google.com/view/openest-rcnn/にある。

Detecting both known and unknown objects is a fundamental skill for robot manipulation in unstructured environments. Open-set object detection (OSOD) is a promising direction to handle the problem consisting of two subtasks: objects and background separation, and open-set object classification. In this paper, we present Openset RCNN to address the challenging OSOD. To disambiguate unknown objects and background in the first subtask, we propose to use classification-free region proposal network (CF-RPN) which estimates the objectness score of each region purely using cues from object's location and shape preventing overfitting to the training categories. To identify unknown objects in the second subtask, we propose to represent them using the complementary region of known categories in a latent space which is accomplished by a prototype learning network (PLN). PLN performs instance-level contrastive learning to encode proposals to a latent space and builds a compact region centering with a prototype for each known category. Further, we note that the detection performance of unknown objects can not be unbiasedly evaluated on the situation that commonly used object detection datasets are not fully annotated. Thus, a new benchmark is introduced by reorganizing GraspNet-1billion, a robotic grasp pose detection dataset with complete annotation. Extensive experiments demonstrate the merits of our method. We finally show that our Openset RCNN can endow the robot with an open-set perception ability to support robotic rearrangement tasks in cluttered environments. More details can be found in https://sites.google.com/view/openest-rcnn/
翻訳日:2022-11-22 22:47:49 公開日:2022-11-21
# 効率的な2次平面調整

Efficient Second-Order Plane Adjustment ( http://arxiv.org/abs/2211.11542v1 )

ライセンス: Link先を確認
Lipu Zhou(参考訳) 飛行機は通常、rgb-dカメラやlidarなどの深度センサーの3d再構成に使用される。 本稿では,平面間距離を最小化するために最適平面とセンサのポーズを推定する問題に焦点をあてる。 結果として生じる最小二乗問題は、視覚的再構成におけるバンドル調整(BA)と相反する、文献における平面調整(PA)と呼ばれる。 これらの最小二乗問題を解くために反復的手法が採用されている。 一般的にニュートン法は、ヘッセン行列の計算量が多いため、大規模な最小二乗問題にはほとんど使われない。 代わりに、レンベルク・マルカルト法(英語版)(LM)のようなヘッセン行列の近似を用いた手法が一般的である。 本稿はこの難解な考えに挑戦する。 我々は、PA問題を効率的に解くためにニュートン法を採用する。 特に、ポーズが与えられたとき、最適平面は閉形式解を持つ。 したがって、コスト関数から平面を排除でき、変数の数を大幅に削減できる。 さらに、最適平面はポーズの関数であるので、この方法では、現在の推定ポーズの最適平面が各イテレーションで得られることを実際に保証し、収束の恩恵を受ける。 この困難さは、ヘッセン行列を効率的に計算する方法と、結果として生じるコストの勾配にある。 本論文は効率的な解法である。 経験的評価の結果,本アルゴリズムは広く用いられているlmアルゴリズムよりもかなり高速に収束することがわかった。

Planes are generally used in 3D reconstruction for depth sensors, such as RGB-D cameras and LiDARs. This paper focuses on the problem of estimating the optimal planes and sensor poses to minimize the point-to-plane distance. The resulting least-squares problem is referred to as plane adjustment (PA) in the literature, which is the counterpart of bundle adjustment (BA) in visual reconstruction. Iterative methods are adopted to solve these least-squares problems. Typically, Newton's method is rarely used for a large-scale least-squares problem, due to the high computational complexity of the Hessian matrix. Instead, methods using an approximation of the Hessian matrix, such as the Levenberg-Marquardt (LM) method, are generally adopted. This paper challenges this ingrained idea. We adopt the Newton's method to efficiently solve the PA problem. Specifically, given poses, the optimal planes have close-form solutions. Thus we can eliminate planes from the cost function, which significantly reduces the number of variables. Furthermore, as the optimal planes are functions of poses, this method actually ensures that the optimal planes for the current estimated poses can be obtained at each iteration, which benefits the convergence. The difficulty lies in how to efficiently compute the Hessian matrix and the gradient of the resulting cost. This paper provides an efficient solution. Empirical evaluation shows that our algorithm converges significantly faster than the widely used LM algorithm.
翻訳日:2022-11-22 22:47:19 公開日:2022-11-21
# タッチレス呼吸速度センシングの改善

Improved Touchless Respiratory Rate Sensing ( http://arxiv.org/abs/2211.11630v1 )

ライセンス: Link先を確認
Petro Franchuk and Tetiana Yezerska(参考訳) 近年, 遠隔呼吸速度測定技術が注目され, デバイスベースの古典的手法と手動計数法の限界を克服した。 可視光カメラの映像ストリームからのRR抽出には,画素強度変化法を含む多くの手法が提案されている。 本稿では,画素強度変化に基づく1次元プロファイル生成手法を提案する。 本研究で提示した新たな動作信号グループ化法により,さらなる精度向上が得られる。 我々は,リアルタイム連続rr監視とヒューマンコンピュータインタラクションシステムにおけるアプリケーションを可能にする標準パイプラインの変更をいくつか紹介する。 2つの内部データセットと1つの公開データセットの評価結果は、それぞれ0.7BPM、0.6BPM、1.4BPM MAEを示した。

Recently, remote respiratory rate measurement techniques gained much attention as they were developed to overcome the limitations of device-based classical methods and manual counting. Many approaches for RR extraction from the video stream of the visible light camera were proposed, including the pixel intensity changes method. In this paper, we propose a new method for 1D profile creation for pixel intensity changes-based method, which significantly increases the algorithm's performance. Additional accuracy gain is obtained via a new method of motion signals grouping presented in this work. We introduce several changes to the standard pipeline, which enables real-time continuous RR monitoring and allows applications in the human-computer interaction systems. Evaluation results on two internal and one public datasets showed 0.7 BPM, 0.6 BPM, and 1.4 BPM MAE, respectively.
翻訳日:2022-11-22 22:46:57 公開日:2022-11-21
# cegpy: Pythonでのチェーンイベントグラフのモデリング

cegpy: Modelling with Chain Event Graphs in Python ( http://arxiv.org/abs/2211.11366v1 )

ライセンス: Link先を確認
Gareth Walley, Aditi Shenvi, Peter Strong and Katarzyna Kobalczyk(参考訳) chain event graphs (cegs) は、最近人気の高いベイズネットワーク(bns)ファミリーを一般化した確率的グラフィカルモデルである。 重要なことに、BNとは異なり、CEGは、そのグラフとその統計モデルの中に、プロセスによって表される非対称性を埋め込むことができる。 これらの非対称性は条件付き独立関係やグラフとその基礎となる事象空間の構造にあるかもしれない。 構造的非対称性は多くの領域で一般的であり、自然発生(被告対検察の事件)や設計(公衆衛生介入など)によって起こりうる。 しかし、CEGモデルファミリーの理論的発展を、構造的対称性を持つプロセスのモデル化に活用できるソフトウェアは今のところ存在しない。 本稿では,CEGを用いた複雑なプロセスの学習と解析を行う最初のPythonパッケージであるcegpyを紹介する。 cegpyの重要な特徴は、対称構造と非対称構造を持つプロセスをモデル化できる、あらゆるプログラミング言語で最初のCEGパッケージであることである。 cegpyはcegsのベイズモデル選択と確率伝播アルゴリズムの実装を含んでいる。 構造的に非対称なデータセットを用いて,cegpyの機能を説明する。

Chain event graphs (CEGs) are a recent family of probabilistic graphical models that generalise the popular Bayesian networks (BNs) family. Crucially, unlike BNs, a CEG is able to embed, within its graph and its statistical model, asymmetries exhibited by a process. These asymmetries might be in the conditional independence relationships or in the structure of the graph and its underlying event space. Structural asymmetries are common in many domains, and can occur naturally (e.g. a defendant vs prosecutor's version of events) or by design (e.g. a public health intervention). However, there currently exists no software that allows a user to leverage the theoretical developments of the CEG model family in modelling processes with structural asymmetries. This paper introduces cegpy, the first Python package for learning and analysing complex processes using CEGs. The key feature of cegpy is that it is the first CEG package in any programming language that can model processes with symmetric as well as asymmetric structures. cegpy contains an implementation of Bayesian model selection and probability propagation algorithms for CEGs. We illustrate the functionality of cegpy using a structurally asymmetric dataset.
翻訳日:2022-11-22 22:46:33 公開日:2022-11-21
# 乱流速度統計を用いた1次元確率場のニューラルネットワークによる生成

Neural network based generation of 1-dimensional stochastic fields with turbulent velocity statistics ( http://arxiv.org/abs/2211.11580v1 )

ライセンス: Link先を確認
Carlos Granero-Belinchon (ODYSSEY, IMT Atlantique - MEE, Lab-STICC_OSE)(参考訳) 我々は,乱流速度統計量を持つ1次元場を生成する,完全畳み込みニューラルネットワーク確率モデルNN-Turbを定義し,研究する。 したがって、生成過程は2階構造関数に対するコルモゴロフ 2/3 則を満たす。 また、スケール(コルモゴロフ 4/5 法則)にまたがる負の傾きを示し、間欠性を示す。 さらに,モデルが乱流データと接触することはないため,学習のためのスケールにまたがる構造関数の所望の統計挙動のみが必要となる。

We define and study a fully-convolutional neural network stochastic model, NN-Turb, which generates 1-dimensional fields with turbulent velocity statistics. Thus, the generated process satisfies the Kolmogorov 2/3 law for second order structure function. It also presents negative skewness across scales (i.e. Kolmogorov 4/5 law) and exhibits intermittency. Furthermore, our model is never in contact with turbulent data and only needs the desired statistical behavior of the structure functions across scales for training.
翻訳日:2022-11-22 22:46:15 公開日:2022-11-21
# 粗超解像ネットワーク(CoSF-Net):同時運動推定と超解像を用いた4D-MRIのための統一エンドツーエンドニューラルネットワーク

Coarse-Super-Resolution-Fine Network (CoSF-Net): A Unified End-to-End Neural Network for 4D-MRI with Simultaneous Motion Estimation and Super-Resolution ( http://arxiv.org/abs/2211.11144v1 )

ライセンス: Link先を確認
Shaohua Zhi, Yinghui Wang, Haonan Xiao, Ti Bai, Hong Ge, Bing Li, Chenyang Liu, Wen Li, Tian Li, Jing Cai(参考訳) 4次元磁気共鳴イメージング(4D-MRI)は、画像誘導放射線治療(IGRT)における腫瘍運動管理の新しい技術である。 しかしながら、現在の4D-MRIは、長期の取得時間と患者の呼吸の変動により、空間分解能の低下と強い運動アーチファクトに悩まされており、これらの制限は、適切に管理されていない場合、IGRTにおける治療計画と納入に悪影響を及ぼす可能性がある。 そこで我々は,高分解能ネットワーク(CoSF-Net)と呼ばれる新しいディープラーニングフレームワークを開発し,統合モデルで同時動作推定と超解像を実現する。 我々は,限定的かつ不完全一致のトレーニングデータセットを考慮した4D-MRIの特性を十分に抽出し,CoSF-Netを設計した。 開発したネットワークの実現可能性とロバスト性を検証するため,複数の実患者データセットについて広範な実験を行った。 既存のネットワークと最先端の3つのアルゴリズムと比較して、CoSF-Netは4D-MRIの呼吸相間の変形可能なベクトル場を正確に推定するだけでなく、4D-MRIの空間分解能も向上し、時空間分解能の高い4D-MR画像が得られる。

Four-dimensional magnetic resonance imaging (4D-MRI) is an emerging technique for tumor motion management in image-guided radiation therapy (IGRT). However, current 4D-MRI suffers from low spatial resolution and strong motion artifacts owing to the long acquisition time and patients' respiratory variations; these limitations, if not managed properly, can adversely affect treatment planning and delivery in IGRT. Herein, we developed a novel deep learning framework called the coarse-super-resolution-fine network (CoSF-Net) to achieve simultaneous motion estimation and super-resolution in a unified model. We designed CoSF-Net by fully excavating the inherent properties of 4D-MRI, with consideration of limited and imperfectly matched training datasets. We conducted extensive experiments on multiple real patient datasets to verify the feasibility and robustness of the developed network. Compared with existing networks and three state-of-the-art conventional algorithms, CoSF-Net not only accurately estimated the deformable vector fields between the respiratory phases of 4D-MRI but also simultaneously improved the spatial resolution of 4D-MRI with enhanced anatomic features, yielding 4D-MR images with high spatiotemporal resolution.
翻訳日:2022-11-22 22:38:42 公開日:2022-11-21
# 3次元点群自己監督トラバーサビリティ推定の不確かさ低減

Uncertainty Reduction for 3D Point Cloud Self-Supervised Traversability Estimation ( http://arxiv.org/abs/2211.11201v1 )

ライセンス: Link先を確認
Jihwan Bae, Junwon Seo, Taekyung Kim, Hae-gon Jeon, Kiho Kwak and Inwook Shim(参考訳) オフロード環境におけるトラバーサビリティ推定にはロバストな知覚システムが必要である。 近年,過去の自動車体験を自己監督的に学習する手法は,人間のラベル付けコストを大幅に削減し,ラベル付け誤差を低減できる。 それにもかかわらず、自己教師付きトラバーサビリティ推定からの学習設定は、負の情報不足に応じて現れる先天的な不確実性に苦しむ。 負のデータは、データをロギングしながらシステムに深刻な損傷を与えるため、まれに回収される。 不確実性を軽減するため,不確実性を活用するためにラベルのないデータを組み込む手法を提案する。 まず、クエリを入力し、データをサポートする学習アーキテクチャを設計する。 第2に、距離空間の近接性に基づいてラベルなしデータを割り当てる。 第3に,不確実性尺度の新たな指標が導入された。 我々は、我々のアプローチを、さまざまな否定データからなる独自のデータセットである 'Dtrail' で評価した。

Traversability estimation in off-road environments requires a robust perception system. Recently, approaches to learning a traversability estimation from past vehicle experiences in a self-supervised manner are arising as they can greatly reduce human labeling costs and labeling errors. Nonetheless, the learning setting from self-supervised traversability estimation suffers from congenital uncertainties that appear according to the scarcity of negative information. Negative data are rarely harvested as the system can be severely damaged while logging the data. To mitigate the uncertainty, we introduce a method to incorporate unlabeled data in order to leverage the uncertainty. First, we design a learning architecture that inputs query and support data. Second, unlabeled data are assigned based on the proximity in the metric space. Third, a new metric for uncertainty measures is introduced. We evaluated our approach on our own dataset, `Dtrail', which is composed of a wide variety of negative data.
翻訳日:2022-11-22 22:38:17 公開日:2022-11-21
# FLNeRF:ニューラルラジアンスフィールドにおける3次元顔のランドマーク推定

FLNeRF: 3D Facial Landmarks Estimation in Neural Radiance Fields ( http://arxiv.org/abs/2211.11202v1 )

ライセンス: Link先を確認
Hao Zhang, Tianyuan Dai, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本稿では,2次元画像や深度マップ,点雲などの中間表現を使わずに,ニューラルレイディアンス場(NeRF)上の3次元顔のランドマークを直接予測する最初の重要な研究について述べる。 我々の3D粗い顔ランドマークNeRF(FLNeRF)モデルは、顔全体のNeRFから、正確なランドマークのための個々の顔の特徴を効率よくサンプリングする。 利用可能なデータにおける表情の限られた数を軽減するため、FLNeRFを訓練するための大げさな表情(例えば、頬吹き、広い開口口、目まきなど)を含む大きな感情範囲をシミュレートするために、局所的および非線形のNeRFワープを顔の特徴に微調整する。 このような表現拡張により,データに含まれる20個の離散表現に制限されない3次元ランドマークを予測できる。 頑丈な3D NeRF顔のランドマークは多くの下流タスクに寄与する。 例えば、MoFaNeRFを修正して、NeRF上の顔のランドマークを用いて高品質な顔編集と交換を可能にし、より直接的な制御とより広範な複雑な表現を可能にします。 実験により、ランドマークを用いた改良されたモデルがより良い結果に匹敵することを示した。 Githubのリンク:https://github.com/ZHANG1023/FLNeRF。

This paper presents the first significant work on directly predicting 3D face landmarks on neural radiance fields (NeRFs), without using intermediate representations such as 2D images, depth maps, or point clouds. Our 3D coarse-to-fine Face Landmarks NeRF (FLNeRF) model efficiently samples from the NeRF on the whole face with individual facial features for accurate landmarks. To mitigate the limited number of facial expressions in the available data, local and non-linear NeRF warp is applied at facial features in fine scale to simulate large emotions range, including exaggerated facial expressions (e.g., cheek blowing, wide opening mouth, eye blinking), for training FLNeRF. With such expression augmentation, our model can predict 3D landmarks not limited to the 20 discrete expressions given in the data. Robust 3D NeRF facial landmarks contribute to many downstream tasks. As an example, we modify MoFaNeRF to enable high-quality face editing and swapping using face landmarks on NeRF, allowing more direct control and wider range of complex expressions. Experiments show that the improved model using landmarks achieves comparable to better results. Github link: https://github.com/ZHANG1023/FLNeRF.
翻訳日:2022-11-22 22:38:04 公開日:2022-11-21
# グローバルモーメント初期化による敵攻撃の伝達性向上

Boosting the Transferability of Adversarial Attacks with Global Momentum Initialization ( http://arxiv.org/abs/2211.11236v1 )

ライセンス: Link先を確認
Jiafeng Wang, Zhaoyu Chen, Kaixun Jiang, Dingkang Yang, Lingyi Hong, Yan Wang, Wenqiang Zhang(参考訳) 深層ニューラルネットワークは、人間の目に見えない摂動を良心的な入力に結びつける敵の例に弱い。 同時に、敵対的な例は異なるモデルの下で転送可能性を示し、実用的なブラックボックス攻撃を可能にする。 しかし、既存の手法では所望の転送攻撃性能を達成できない。 本研究では,勾配最適化と一貫性の観点から,局所運動量最適ジレンマと同様に勾配除去現象を解析・発見する。 これらの問題に対処するため,我々は,勾配除去を抑制し,グローバル最適探索を支援するグローバルモーメント初期化 (gi) を提案する。 具体的には,攻撃前にグラデーションプリコンバージェンスを行い,プレコンバージェンス段階でグローバルサーチを行う。 本手法は, 既存手法のほぼすべてと容易に組み合わせることができ, 最新手法と比較して, 様々な防御機構下での移動攻撃の成功率を平均6.4%向上させる。 最終的に、攻撃成功率は95.4%に達し、既存の防御機構の安全性を十分に示している。

Deep neural networks are vulnerable to adversarial examples, which attach human invisible perturbations to benign inputs. Simultaneously, adversarial examples exhibit transferability under different models, which makes practical black-box attacks feasible. However, existing methods are still incapable of achieving desired transfer attack performance. In this work, from the perspective of gradient optimization and consistency, we analyze and discover the gradient elimination phenomenon as well as the local momentum optimum dilemma. To tackle these issues, we propose Global Momentum Initialization (GI) to suppress gradient elimination and help search for the global optimum. Specifically, we perform gradient pre-convergence before the attack and carry out a global search during the pre-convergence stage. Our method can be easily combined with almost all existing transfer methods, and we improve the success rate of transfer attacks significantly by an average of 6.4% under various advanced defense mechanisms compared to state-of-the-art methods. Eventually, we achieve an attack success rate of 95.4%, fully illustrating the insecurity of existing defense mechanisms.
翻訳日:2022-11-22 22:37:42 公開日:2022-11-21
# LHDR:軽量DNNを用いたレガシーコンテンツのためのHDR再構成

LHDR: HDR Reconstruction for Legacy Content using a Lightweight DNN ( http://arxiv.org/abs/2211.11270v1 )

ライセンス: Link先を確認
Cheng Guo and Xiuhua Jiang(参考訳) 高ダイナミックレンジ(HDR)画像は、リッチな情報を含むため、グラフィックや写真に広く使われている。 最近、コミュニティは、標準ダイナミックレンジ(SDR)画像をHDRに再構成するためにディープニューラルネットワーク(DNN)の使用を開始した。 現在のdnnベースの方法が優れているとはいえ、アプリケーションのシナリオは限られている。(1)重いモデルはリアルタイム処理を阻害し、(2)より分解型のあるレガシーなsdrコンテンツには適用できない。 そこで本稿では,従来のSDRに対処するための軽量DNN方式を提案する。 より良い設計のために、問題モデリングを改革し、劣化モデルを強調する。 実験により,本手法は他の手法と比較して計算コストが最小限に抑えられた。

High dynamic range (HDR) image is widely-used in graphics and photography due to the rich information it contains. Recently the community has started using deep neural network (DNN) to reconstruct standard dynamic range (SDR) images into HDR. Albeit the superiority of current DNN-based methods, their application scenario is still limited: (1) heavy model impedes real-time processing, and (2) inapplicable to legacy SDR content with more degradation types. Therefore, we propose a lightweight DNN-based method trained to tackle legacy SDR. For better design, we reform the problem modeling and emphasize degradation model. Experiments show that our method reached appealing performance with minimal computational cost compared with others.
翻訳日:2022-11-22 22:37:25 公開日:2022-11-21
# flowlens: flow-guided clip-recurrent transformerによるfovの向こう側を見る

FlowLens: Seeing Beyond the FoV via Flow-guided Clip-Recurrent Transformer ( http://arxiv.org/abs/2211.11293v1 )

ライセンス: Link先を確認
Hao Shi, Qi Jiang, Kailun Yang, Xiaoting Yin, Kaiwei Wang(参考訳) ハードウェアコストとシステムサイズによって制限されているが、カメラの視野(FoV)は常に満足できるとは限らない。 しかし、時空間的な視点では、カメラの物理的FoV以外の情報は棚から外れており、実際には過去から「無料で」得ることができる。 本稿では,過去の視覚手がかりとカメラの物理的フォブによる双方向的ブレークを活用すべく,beyond-fov推定という新しいタスクを提案する。 我々は,光流による特徴伝搬を明示的に達成してFoVを拡張するためのFlowLensアーキテクチャを提案し,二つの魅力的な特徴を持つ新しいクリップリカレントトランスによって暗黙的に実現した。 1) FlowLensは,時間次元に蓄積したグローバル情報を段階的に処理する3Dデカップリング・クロス・アテンション(DDCA)を備えた,新たに提案されたClip-Recurrent Hubから構成される。 2) 局所的特徴の空間的preciseフローを強化するために, マルチブランチ混合フィードフォワードネットワーク (mixf3n) が統合されている。 トレーニングと評価を促進するため,外部および内部FoV拡張のためのデータセットであるKITTI360-EXを構築した。 ビデオインペイントとFoV以上の推定タスクの広範な実験は、FlowLensが最先端のパフォーマンスを達成することを示している。 コードはhttps://github.com/MasterHow/FlowLens.comで公開される。

Limited by hardware cost and system size, camera's Field-of-View (FoV) is not always satisfactory. However, from a spatio-temporal perspective, information beyond the camera's physical FoV is off-the-shelf and can actually be obtained "for free" from the past. In this paper, we propose a novel task termed Beyond-FoV Estimation, aiming to exploit past visual cues and bidirectional break through the physical FoV of a camera. We put forward a FlowLens architecture to expand the FoV by achieving feature propagation explicitly by optical flow and implicitly by a novel clip-recurrent transformer, which has two appealing features: 1) FlowLens comprises a newly proposed Clip-Recurrent Hub with 3D-Decoupled Cross Attention (DDCA) to progressively process global information accumulated in the temporal dimension. 2) A multi-branch Mix Fusion Feed Forward Network (MixF3N) is integrated to enhance the spatially-precise flow of local features. To foster training and evaluation, we establish KITTI360-EX, a dataset for outer- and inner FoV expansion. Extensive experiments on both video inpainting and beyond-FoV estimation tasks show that FlowLens achieves state-of-the-art performance. Code will be made publicly available at https://github.com/MasterHow/FlowLens.
翻訳日:2022-11-22 22:37:14 公開日:2022-11-21
# 深部神経回路を用いた心臓MRIの向き認識と補正

Orientation recognition and correction of Cardiac MRI with deep neural network ( http://arxiv.org/abs/2211.11336v1 )

ライセンス: Link先を確認
Jiyao Liu(参考訳) 本稿では,心臓MRI画像の向き補正の問題について検討し,深部ニューラルネットワークによる向き認識の枠組みを提案する。 マルチモダリティMRIでは,提案したモデルを単一モダリティから多モダリティへ変換するトランスファー学習戦略を導入する。 提案するネットワークを2次元DICOMおよび3次元NIFTI画像に配向補正を実装可能な配向補正コマンドラインツールに組み込む。 私たちのソースコード、ネットワークモデル、ツールはhttps://github.com/Jy-stdio/MSCMR_orient/で利用可能です。

In this paper, the problem of orientation correction in cardiac MRI images is investigated and a framework for orientation recognition via deep neural networks is proposed. For multi-modality MRI, we introduce a transfer learning strategy to transfer our proposed model from single modality to multi-modality. We embed the proposed network into the orientation correction command-line tool, which can implement orientation correction on 2D DICOM and 3D NIFTI images. Our source code, network models and tools are available at https://github.com/Jy-stdio/MSCMR_orient/
翻訳日:2022-11-22 22:36:49 公開日:2022-11-21
# スマートエッジセンサネットワークを用いたオブジェクトレベル3次元意味マッピング

Object-level 3D Semantic Mapping using a Network of Smart Edge Sensors ( http://arxiv.org/abs/2211.11354v1 )

ライセンス: Link先を確認
Julian Hau, Simon Bultmann, Sven Behnke(参考訳) 環境と対話する自律ロボットは、詳細なセマンティックシーンモデルを必要とする。 そのため、ボリューム意味地図が頻繁に用いられる。 マップにオブジェクトレベルの情報を含めることで、シーン理解をさらに改善することができる。 本研究では,オブジェクトレベルの情報を含む分散スマートエッジセンサのネットワークからなるマルチビュー3次元意味マッピングシステムを拡張し,オブジェクトレベルの入力を必要とする下流タスクを実現する。 オブジェクトは3Dメッシュモデルまたはオブジェクト中心のボリュームサブマップとしてマップに表示され、詳細な3Dモデルが利用できない場合に任意のオブジェクト形状をモデル化できる。 本稿では,PnPを用いてオブジェクトのポーズを推定するキーポイントに基づくアプローチを提案し,観測点クラウドセグメントと3次元オブジェクトモデルのICPアライメントによる改善を提案する。 オブジェクトインスタンスは時間とともに観察を統合するために追跡され、一時的な閉塞に対して堅牢である。 提案手法は,数cm以内の姿勢推定精度を示すパブリック行動データセットと,複数の椅子とテーブルをオンライン上で高い咬合下でもリアルタイムに追跡する困難な実験室環境におけるセンサネットワークを用いた実世界実験で評価される。

Autonomous robots that interact with their environment require a detailed semantic scene model. For this, volumetric semantic maps are frequently used. The scene understanding can further be improved by including object-level information in the map. In this work, we extend a multi-view 3D semantic mapping system consisting of a network of distributed smart edge sensors with object-level information, to enable downstream tasks that need object-level input. Objects are represented in the map via their 3D mesh model or as an object-centric volumetric sub-map that can model arbitrary object geometry when no detailed 3D model is available. We propose a keypoint-based approach to estimate object poses via PnP and refinement via ICP alignment of the 3D object model with the observed point cloud segments. Object instances are tracked to integrate observations over time and to be robust against temporary occlusions. Our method is evaluated on the public Behave dataset where it shows pose estimation accuracy within a few centimeters and in real-world experiments with the sensor network in a challenging lab environment where multiple chairs and a table are tracked through the scene online, in real time even under high occlusions.
翻訳日:2022-11-22 22:36:38 公開日:2022-11-21
# ポーズラベルのないrgb画像からの対称方向推定のための暗黙確率分布関数の学習

Learning Implicit Probability Distribution Functions for Symmetric Orientation Estimation from RGB Images Without Pose Labels ( http://arxiv.org/abs/2211.11394v1 )

ライセンス: Link先を確認
Arul Selvam Periyasamy, Luis Denninger, and Sven Behnke(参考訳) 物体のポーズ推定は自律的なロボット操作に必要な前提条件であるが、対称性の存在はポーズ推定タスクの複雑さを増加させる。 既存のオブジェクトポーズ推定方法は、単一の6dポーズを出力する。 したがって、対称性を推論する能力が欠如している。 近年, ニューラルネットワークによるSO(3)多様体上の非パラメトリック確率分布としての物体配向のモデル化が注目されている。 しかし、ポーズ推定モデルのトレーニングのために大規模なデータセットを取得することはボトルネックである。 この制限に対処するために,自動ポーズラベリング方式を導入する。 オブジェクトポーズアノテーションや3dオブジェクトモデルを持たないrgb-dイメージが与えられると、ポイントクラウド登録とrender-and-compareバリデーションからなる2段階パイプラインを設計して、画像毎に複数の対称的な疑似接地-真実のポーズラベルを生成する。 生成されたポーズラベルを用いて、RGB画像の向き仮説の確率を推定するために、インプリシットPDFモデルを訓練する。 SO(3)多様体の効率的な階層的サンプリングは、複数の解像度で完備な対称性の集合を抽出可能な生成を可能にする。 推定中、ターゲットオブジェクトの最も可能性の高い向きは勾配上昇を用いて推定される。 本稿では,フォトリアリスティックデータセットとtレスデータセットを用いた自動ポーズラベリング方式と暗黙のpdfモデルを評価し,提案手法の利点を示す。

Object pose estimation is a necessary prerequisite for autonomous robotic manipulation, but the presence of symmetry increases the complexity of the pose estimation task. Existing methods for object pose estimation output a single 6D pose. Thus, they lack the ability to reason about symmetries. Lately, modeling object orientation as a non-parametric probability distribution on the SO(3) manifold by neural networks has shown impressive results. However, acquiring large-scale datasets to train pose estimation models remains a bottleneck. To address this limitation, we introduce an automatic pose labeling scheme. Given RGB-D images without object pose annotations and 3D object models, we design a two-stage pipeline consisting of point cloud registration and render-and-compare validation to generate multiple symmetrical pseudo-ground-truth pose labels for each image. Using the generated pose labels, we train an ImplicitPDF model to estimate the likelihood of an orientation hypothesis given an RGB image. An efficient hierarchical sampling of the SO(3) manifold enables tractable generation of the complete set of symmetries at multiple resolutions. During inference, the most likely orientation of the target object is estimated using gradient ascent. We evaluate the proposed automatic pose labeling scheme and the ImplicitPDF model on a photorealistic dataset and the T-Less dataset, demonstrating the advantages of the proposed method.
翻訳日:2022-11-22 22:36:20 公開日:2022-11-21
# 新しい言語を継続的に学ぶ

Continually learning new languages ( http://arxiv.org/abs/2211.11703v1 )

ライセンス: Link先を確認
Ngoc-Quan Pham, Jan Niehues, Alexander Waibel(参考訳) ニューラルネットワークを用いた多言語音声認識は、トレーニング前にすべての言語が利用できる場合、バッチ学習で実装されることが多い。 事前のトレーニングセッション後に新しい言語を追加することは経済的に有益であるが、大きな課題は破滅的な忘れである。 本研究では, 重み分解, 伝達学習, および弾性重み統合を組み合わせて, 破滅的な忘れ込みに対処し, 新たな言語を素早く学習できるようにする。 このような組み合わせによって、最初の10言語から学び、27言語を達成する実験において、すべての言語を同時に持つのに匹敵する新しい言語のパフォーマンスを保ちながら、破滅的な忘れをなくすことができたのです。

Multilingual speech recognition with neural networks is often implemented with batch-learning, when all of the languages are available before training. An ability to add new languages after the prior training sessions can be economically beneficial, but the main challenge is catastrophic forgetting. In this work, we combine the qualities of weight factorization, transfer learning and Elastic Weight Consolidation in order to counter catastrophic forgetting and facilitate learning new languages quickly. Such combination allowed us to eliminate catastrophic forgetting while still achieving performance for the new languages comparable with having all languages at once, in experiments of learning from an initial 10 languages to achieve 27 languages
翻訳日:2022-11-22 22:29:52 公開日:2022-11-21
# 音声ネットワーク:産業規模での弱監視・エンドツーエンド音声認識

SpeechNet: Weakly Supervised, End-to-End Speech Recognition at Industrial Scale ( http://arxiv.org/abs/2211.11740v1 )

ライセンス: Link先を確認
Raphael Tang, Karun Kumar, Gefei Yang, Akshat Pandey, Yajie Mao, Vladislav Belyaev, Madhuri Emmadi, Craig Murray, Ferhan Ture, Jimmy Lin(参考訳) エンドツーエンドの自動音声認識システムは技術の現状を表現しているが、トレーニングには何千時間も手動で注釈付けされた音声を、推論には重み付けの計算に頼っている。 もちろんこれは、多くの企業が膨大な人的資源と計算資源を欠いているため、商業化を妨げる。 本稿では,ラベルスカース,計算制限設定におけるASRシステムの訓練と展開について検討する。 人的労力を減らすために,暗黙のユーザフィードバックから派生したラベル付け機能を補う,弱い監督源としてサードパーティのasrシステムを用いる。 推定を高速化するため,提案手法では,入力長の異なるCUDAグラフのプールに実運用時クエリをルーティングし,その分布がトラフィックに最もよくマッチすることを示す。 サードパーティのASRと比較して、単語エラー率8%、スピードアップ600%の相対的な改善を実現しています。 現在私たちのシステムはSpeechNetと呼ばれ、音声対応スマートテレビで1日に1200万のクエリを処理しています。 私たちの知る限り、大規模なwav2vecベースのデプロイメントが学術文献に記述されたのはこれが初めてです。

End-to-end automatic speech recognition systems represent the state of the art, but they rely on thousands of hours of manually annotated speech for training, as well as heavyweight computation for inference. Of course, this impedes commercialization since most companies lack vast human and computational resources. In this paper, we explore training and deploying an ASR system in the label-scarce, compute-limited setting. To reduce human labor, we use a third-party ASR system as a weak supervision source, supplemented with labeling functions derived from implicit user feedback. To accelerate inference, we propose to route production-time queries across a pool of CUDA graphs of varying input lengths, the distribution of which best matches the traffic's. Compared to our third-party ASR, we achieve a relative improvement in word-error rate of 8% and a speedup of 600%. Our system, called SpeechNet, currently serves 12 million queries per day on our voice-enabled smart television. To our knowledge, this is the first time a large-scale, Wav2vec-based deployment has been described in the academic literature.
翻訳日:2022-11-22 22:29:39 公開日:2022-11-21
# ローカルバランシングによるマルチトライメトロポリスの改善

Improving multiple-try Metropolis with local balancing ( http://arxiv.org/abs/2211.11613v1 )

ライセンス: Link先を確認
Philippe Gagnon, Florian Maire, Giacomo Zanella(参考訳) マルチトライメトロポリス(multiple-try metropolis、mtm)はマルコフ連鎖モンテカルロ法であり、並列コンピューティングに適応できるという特徴を持つ。 各イテレーションで、マルコフ連鎖の次の状態の候補をサンプリングし、重み関数に基づいてそれらの1つをランダムに選択する。 正準重み関数は対象密度に比例する。 我々は, この重み関数が高次元, 特に収束相における病理学的挙動を誘導することを示す。 そこで本稿では,Zanella (2020) の局所平衡分布に類似した重み関数を用いることにより,これらの病態を示さないMDMアルゴリズムを提案する。 これらのアルゴリズムを理論的に解析するために、各イテレーションで無限個の候補をサンプリングするMTMアルゴリズムと、有限個の候補をサンプリングするMTMアルゴリズムとの相違を考慮に入れた理想スキームの高次元性能について検討する。 前者では局所的バランスが重要であり, 高速収束を実現する上で有効であるのに対し, 後者では標準的および新規な重み関数が同様の性能を発揮する。 数値実験には、計算に高価なフォワードモデルを含む精密医療の応用が含まれており、MTMイテレーションにおける並列コンピューティングの利用が有用である。

Multiple-try Metropolis (MTM) is a popular Markov chain Monte Carlo method with the appealing feature of being amenable to parallel computing. At each iteration, it samples several candidates for the next state of the Markov chain and randomly selects one of them based on a weight function. The canonical weight function is proportional to the target density. We show both theoretically and empirically that this weight function induces pathological behaviours in high dimensions, especially during the convergence phase. We propose to instead use weight functions akin to the locally-balanced proposal distributions of Zanella (2020), thus yielding MTM algorithms that do not exhibit those pathological behaviours. To theoretically analyse these algorithms, we study the high-dimensional performance of ideal schemes that can be think of as MTM algorithms which sample an infinite number of candidates at each iteration, as well as the discrepancy between such schemes and the MTM algorithms which sample a finite number of candidates. Our analysis unveils a strong distinction between the convergence and stationary phases: in the former, local balancing is crucial and effective to achieve fast convergence, while in the latter, the canonical and novel weight functions yield similar performance. Numerical experiments include an application in precision medicine involving a computationally expensive forward model, which makes the use of parallel computing within MTM iterations beneficial.
翻訳日:2022-11-22 22:20:23 公開日:2022-11-21
# ガウス過程モデルのための能動的識別学習

Active Discrimination Learning for Gaussian Process Models ( http://arxiv.org/abs/2211.11624v1 )

ライセンス: Link先を確認
Elham Yousefi, Luc Pronzato, Markus Hainy, Werner G. M\"uller, Henry P. Wynn(参考訳) この論文は、コンピュータ実験、クリギング、センサ位置、機械学習で広く使われている2つのガウス過程モデルを区別する実験の設計と分析を扱っている。 2つの枠組みが考えられる。 まず, 連続した設計点(観測点)を, 既存の設計への追加点として, あるいは観測開始点から選択するシーケンシャルな構成について検討する。 この選択は、2つのモデルに対する対称なkullback leibler divergencesの差の最大化に依存するが、これは観測値に依存するか、両方のモデルの平均二乗誤差に依存するが、そうではない。 次に、2つのモデルの共分散関数間の親しみやすい対数類似比やFr'echet距離などの静的な基準を考える。 その他の距離ベース基準も導入され、近似設計の枠組みを考えると、設計基準の最適性に必要な条件が提供される。 本論文は、異なる基準と数値図形との間の数学的関係についての研究を含む。

The paper covers the design and analysis of experiments to discriminate between two Gaussian process models, such as those widely used in computer experiments, kriging, sensor location and machine learning. Two frameworks are considered. First, we study sequential constructions, where successive design (observation) points are selected, either as additional points to an existing design or from the beginning of observation. The selection relies on the maximisation of the difference between the symmetric Kullback Leibler divergences for the two models, which depends on the observations, or on the mean squared error of both models, which does not. Then, we consider static criteria, such as the familiar log-likelihood ratios and the Fr\'echet distance between the covariance functions of the two models. Other distance-based criteria, simpler to compute than previous ones, are also introduced, for which, considering the framework of approximate design, a necessary condition for the optimality of a design measure is provided. The paper includes a study of the mathematical links between different criteria and numerical illustrations are provided.
翻訳日:2022-11-22 22:20:01 公開日:2022-11-21
# アドベクション拡散方程式に対するpinnの神経接核解析

Neural tangent kernel analysis of PINN for advection-diffusion equation ( http://arxiv.org/abs/2211.11716v1 )

ライセンス: Link先を確認
M. H. Saadat, B. Gjorgiev, L. Das and G. Sansavini(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、PDEの残余と初期/境界条件を損失関数に組み込むことにより、偏微分方程式(PDE)の解を数値的に近似する。 部分的な成功にもかかわらず、PINNは、クローズドフォーム分析ソリューションが利用できる単純なケースでも苦労することが知られている。 ピンの学習機構をよりよく理解するために,神経接核(ntk)理論を用いた線形移流拡散方程式(lad)に対するピンの系統的解析に焦点を当てた。 ntk解析により,ピンのトレーニングダイナミクスに及ぼすadvection speed/diffusionパラメータの影響を解明した。 PINNのトレーニングの難しさは、その結果であることを示す。 1)いわゆるスペクトルバイアスは,高周波動作の学習を困難にする。 2) 異なる損失成分間の収束率の差は, トレーニング失敗を生じさせる。 後者は、基礎となるPDEの解が高周波の挙動を示さない場合にも発生する。 さらに,この訓練難易度は,advection-dominated and diffusion-dominated regimesにおいて,ある程度異なる形で現れることを観察した。 これらの問題に対処するための戦略も議論されている。 特に,周期的活性化関数を用いてスペクトルバイアス問題を部分的に解決できることが示されている。

Physics-informed neural networks (PINNs) numerically approximate the solution of a partial differential equation (PDE) by incorporating the residual of the PDE along with its initial/boundary conditions into the loss function. In spite of their partial success, PINNs are known to struggle even in simple cases where the closed-form analytical solution is available. In order to better understand the learning mechanism of PINNs, this work focuses on a systematic analysis of PINNs for the linear advection-diffusion equation (LAD) using the Neural Tangent Kernel (NTK) theory. Thanks to the NTK analysis, the effects of the advection speed/diffusion parameter on the training dynamics of PINNs are studied and clarified. We show that the training difficulty of PINNs is a result of 1) the so-called spectral bias, which leads to difficulty in learning high-frequency behaviours; and 2) convergence rate disparity between different loss components that results in training failure. The latter occurs even in the cases where the solution of the underlying PDE does not exhibit high-frequency behaviour. Furthermore, we observe that this training difficulty manifests itself, to some extent, differently in advection-dominated and diffusion-dominated regimes. Different strategies to address these issues are also discussed. In particular, it is demonstrated that periodic activation functions can be used to partly resolve the spectral bias issue.
翻訳日:2022-11-22 22:19:43 公開日:2022-11-21
# テキスト・音楽生成タスクにおける事前学習チェックポイントの有効性の検討

Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task ( http://arxiv.org/abs/2211.11216v1 )

ライセンス: Link先を確認
Shangda Wu, Maosong Sun(参考訳) 大規模データセットと事前学習モデルに適合した生成モデルの分野は、最近大きな勢いを増している。 しかし、ほとんどのシンボリック音楽のデータセットは非常に小さいため、データ駆動マルチモーダルモデルのパフォーマンスが制限される可能性がある。 この問題に対する直感的な解決策は、他のモダリティ(自然言語など)から事前訓練されたモデルを利用して、シンボリック音楽関連のマルチモーダルタスクのパフォーマンスを改善することである。 本稿では,テキスト記述から完全かつ意味論的に一貫した記号的楽譜を生成するための最初の研究を行い,テキスト・音楽生成のタスクにおいて,自然言語処理のための公開チェックポイント(BERT, GPT-2, BART)の使用の有効性を検討する。 実験の結果,事前学習したチェックポイントの使用による改善は,bleuスコアと編集距離の類似性において統計的に有意であった。 我々は,言語・音楽モデルの可能性をより深く理解するために,モデルの能力と限界を分析する。

Benefiting from large-scale datasets and pre-trained models, the field of generative models has recently gained significant momentum. However, most datasets for symbolic music are very small, which potentially limits the performance of data-driven multimodal models. An intuitive solution to this problem is to leverage pre-trained models from other modalities (e.g., natural language) to improve the performance of symbolic music-related multimodal tasks. In this paper, we carry out the first study of generating complete and semantically consistent symbolic music scores from text descriptions, and explore the efficacy of using publicly available checkpoints (i.e., BERT, GPT-2, and BART) for natural language processing in the task of text-to-music generation. Our experimental results show that the improvement from using pre-trained checkpoints is statistically significant in terms of BLEU score and edit distance similarity. We analyse the capabilities and limitations of our model to better understand the potential of language-music models.
翻訳日:2022-11-22 22:19:04 公開日:2022-11-21
# 可微分メルケプストラム合成フィルタのニューラル音声合成システムへの埋め込み

Embedding a Differentiable Mel-cepstral Synthesis Filter to a Neural Speech Synthesis System ( http://arxiv.org/abs/2211.11222v1 )

ライセンス: Link先を確認
Takenori Yoshimura, Shinji Takaki, Kazuhiro Nakamura, Keiichiro Oura, Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda(参考訳) 本稿では,従来のメルケプストラム合成フィルタを現代のニューラル音声合成システムに統合し,エンドツーエンドの制御可能な音声合成を実現する。 メルケプストラム合成フィルタは,提案方式のニューラル波形モデルに明示的に埋め込まれているため,音声特性と合成音声のピッチは,それぞれ周波数ゆがみパラメータと基本周波数によって高度に制御される。 本稿では,メルケプストラー合成フィルタをGPU対応モジュールとして実装し,システム内の音響モデルと波形モデルをエンドツーエンドで同時最適化できるようにする。 実験により,制御性を維持するベースラインシステムから,提案システムによる音声品質の向上が示された。 この実験で使用されるコアPyTorchモジュールはGitHubで公開されている。

This paper integrates a classic mel-cepstral synthesis filter into a modern neural speech synthesis system towards end-to-end controllable speech synthesis. Since the mel-cepstral synthesis filter is explicitly embedded in neural waveform models in the proposed system, both voice characteristics and the pitch of synthesized speech are highly controlled via a frequency warping parameter and fundamental frequency, respectively. We implement the mel-cepstral synthesis filter as a differentiable and GPU-friendly module to enable the acoustic and waveform models in the proposed system to be simultaneously optimized in an end-to-end manner. Experiments show that the proposed system improves speech quality from a baseline system maintaining controllability. The core PyTorch modules used in the experiments will be publicly available on GitHub.
翻訳日:2022-11-22 22:18:46 公開日:2022-11-21
# チャンクコンフォーメータまたはストリーミングエンドツーエンドasrの逐次サンプリング

Sequentially Sampled Chunk Conformer or Streaming End-to-End ASR ( http://arxiv.org/abs/2211.11419v1 )

ライセンス: Link先を確認
Fangyuan Wang, Xiyuan Wang, Bo Xu(参考訳) 本稿では,End-to-End (E2E) ASR ストリーミングのための逐次サンプリング型チャンクコンバータ SSC-Conformer について詳細に検討する。 ssc-conformerは、並列エンコーダにおけるチャンクワイズマルチヘッドセルフアテンション(ssc-mhsa)の逐次サンプリングにより、線形複素性を維持しつつ効率的なクロスチャンク相互作用を実現することにより、大幅な性能向上を実現する。 さらに、チャンクド畳み込みを利用してチャンク回りの将来のコンテキストを利用し、畳み込み層のカジュアル畳み込みと統合することで、cerをさらに削減する。 提案するssc-conformerをaishell-1ベンチマークで検証し,実験結果から,ストリーミングe2e asrの最先端性能はlmリコーリングを伴わないcer 5.33%で達成できることを確認した。 また、線形複雑性のため、SC-Conformerは大きなバッチサイズでトレーニングでき、より効率的に推論できる。

This paper presents an in-depth study on a Sequentially Sampled Chunk Conformer, SSC-Conformer, for streaming End-to-End (E2E) ASR. The SSC-Conformer first demonstrates the significant performance gains from using the sequentially sampled chunk-wise multi-head self-attention (SSC-MHSA) in the Conformer encoder by allowing efficient cross-chunk interactions while keeping linear complexities. Furthermore, it explores taking advantage of chunked convolution to make use of the chunk-wise future context and integrates with casual convolution in the convolution layers to further reduce CER. We verify the proposed SSC-Conformer on the AISHELL-1 benchmark and experimental results show that a state-of-the-art performance for streaming E2E ASR is achieved with CER 5.33% without LM rescoring. And, owing to its linear complexity, the SSC-Conformer can train with large batch sizes and infer more efficiently.
翻訳日:2022-11-22 22:18:35 公開日:2022-11-21
# CoPEM:自動運転のための協調知覚誤差モデル

CoPEM: Cooperative Perception Error Models for Autonomous Driving ( http://arxiv.org/abs/2211.11175v1 )

ライセンス: Link先を確認
Andrea Piazzoni, Jim Cherian, Roshan Vijai, Lap-Pui Chau, Justin Dauwels(参考訳) 本稿では,仮想テスト環境におけるV2Xソリューションの効果的かつ効率的な統合を実現するための協調知覚誤りモデル(coPEM)の概念を紹介する。 我々は,(車載)自律車両知覚(av)におけるオクルージョン問題に焦点をあて,オクルード対象物に対する誤検出誤差を顕示する。 車両間コミュニケーション(V2X)に基づく協調認識(CP)ソリューションは,AVを取り巻く世界の新たな視点を活用することで,このような問題を回避することを目的としている。 このアプローチでは、主にカメラとLiDARを含む多くのセンサーを、道路インフラストラクチャーまたは他の交通車両の一部として環境に同時に配置する必要がある。 しかし、仮想シミュレーションパイプラインに多数のセンサーモデルを実装することは、しばしば計算コストを禁ずる。 そこで本稿では,知覚誤りモデル(PEM)を拡張して,そのような協調認識ソリューションを効率よく実装し,それらに関連する誤りや不確実性に対処する。 AVが達成可能な安全性を、衝突の主原因となる交通事故シナリオと比較することにより、そのアプローチを実証する。

In this paper, we introduce the notion of Cooperative Perception Error Models (coPEMs) towards achieving an effective and efficient integration of V2X solutions within a virtual test environment. We focus our analysis on the occlusion problem in the (onboard) perception of Autonomous Vehicles (AV), which can manifest as misdetection errors on the occluded objects. Cooperative perception (CP) solutions based on Vehicle-to-Everything (V2X) communications aim to avoid such issues by cooperatively leveraging additional points of view for the world around the AV. This approach usually requires many sensors, mainly cameras and LiDARs, to be deployed simultaneously in the environment either as part of the road infrastructure or on other traffic vehicles. However, implementing a large number of sensor models in a virtual simulation pipeline is often prohibitively computationally expensive. Therefore, in this paper, we rely on extending Perception Error Models (PEMs) to efficiently implement such cooperative perception solutions along with the errors and uncertainties associated with them. We demonstrate the approach by comparing the safety achievable by an AV challenged with a traffic scenario where occlusion is the primary cause of a potential collision.
翻訳日:2022-11-22 22:10:58 公開日:2022-11-21
# オプション:オントロジーをベンチマークするオプティマイズアルゴリズム

OPTION: OPTImization Algorithm Benchmarking ONtology ( http://arxiv.org/abs/2211.11332v1 )

ライセンス: Link先を確認
Ana Kostovska, Diederick Vermetten, Carola Doerr, Saso D\v{z}eroski, Pan\v{c}e Panov, Tome Eftimov(参考訳) 多くの最適化アルゴリズムベンチマークプラットフォームは、再現性と再利用可能な研究を促進するために実験データを共有できるようにする。 しかし、異なるプラットフォームは異なるデータモデルとフォーマットを使用し、関連するデータセットの識別、解釈、相互運用性を著しく複雑にします。 したがって、異なるプラットフォームで使用できる意味論的にリッチなオントロジーベースの機械可読データモデルは非常に望ましい。 本稿では,オプティマイズ(optimization algorithm benchmarking ontology,最適化アルゴリズムベンチマークオントロジー)と呼ばれるオントロジーの開発について報告する。 我々のオントロジーは、アルゴリズム、問題、評価尺度などのベンチマークプロセスに関与するコアエンティティのセマンティックアノテーションに必要な語彙を提供する。 また、自動データ統合、相互運用性の向上、強力なクエリ機能の提供により、ベンチマークデータの価値も向上する。 本稿では、cocoフレームワークのbbobコレクションと、nevergrad環境の黒ボックス最適化ベンチマーク(yabbob)ファミリからベンチマークパフォーマンスデータのコーパスをアノテーションしてクエリすることで、optionの有用性を実証する。 さらに,BBOB機能性能景観の特徴を,探索ランドスケープ分析を用いた公開データセットを用いてOPTION知識ベースに統合する。 最後に、オプションの知識ベースをiohprofiler環境に統合し、パフォーマンスデータのメタ分析を行う機能を提供する。

Many optimization algorithm benchmarking platforms allow users to share their experimental data to promote reproducible and reusable research. However, different platforms use different data models and formats, which drastically complicates the identification of relevant datasets, their interpretation, and their interoperability. Therefore, a semantically rich, ontology-based, machine-readable data model that can be used by different platforms is highly desirable. In this paper, we report on the development of such an ontology, which we call OPTION (OPTImization algorithm benchmarking ONtology). Our ontology provides the vocabulary needed for semantic annotation of the core entities involved in the benchmarking process, such as algorithms, problems, and evaluation measures. It also provides means for automatic data integration, improved interoperability, and powerful querying capabilities, thereby increasing the value of the benchmarking data. We demonstrate the utility of OPTION, by annotating and querying a corpus of benchmark performance data from the BBOB collection of the COCO framework and from the Yet Another Black-Box Optimization Benchmark (YABBOB) family of the Nevergrad environment. In addition, we integrate features of the BBOB functional performance landscape into the OPTION knowledge base using publicly available datasets with exploratory landscape analysis. Finally, we integrate the OPTION knowledge base into the IOHprofiler environment and provide users with the ability to perform meta-analysis of performance data.
翻訳日:2022-11-22 22:10:39 公開日:2022-11-21
# アンサンブルカリキュラム学習と協調学習を用いた運動画像復号

Motor Imagery Decoding Using Ensemble Curriculum Learning and Collaborative Training ( http://arxiv.org/abs/2211.11460v1 )

ライセンス: Link先を確認
Georgios Zoumpourlis, Ioannis Patras(参考訳) 目的:本研究では,電気的エンケファログラフィ(eeg)データからのクロスサブジェクトモータ画像(mi)デコードの問題について検討する。 マルチサブジェクト脳波データセットは、様々な個人差(脳解剖学、パーソナリティ、認知プロファイルなど)により、いくつかの種類の領域シフトを示す。 これらのドメインシフトは、複数オブジェクトのトレーニングを困難なタスクとし、堅牢なクロスオブジェクトの一般化を妨げる。 方法:我々は,複数の特徴抽出器(第1段階)と共有分類器(第2段階)を備えた2段階モデルアンサンブルアーキテクチャを提案する。 第1の損失はカリキュラム学習を適用し、各特徴抽出器を訓練対象のサブセットに特化させ、特徴の多様性を促進する。 第2の損失は、アンサンブルのモデル間の知識の協調的な交換を可能にする、センスブル蒸留の目的である。 結果:本手法をいくつかの最先端技術と比較し,2つのMIデータセット,すなわちPhyloonetとOpenBMIで対象に依存しない実験を行った。 提案アルゴリズムは, トレーニング可能なパラメータの数を大幅に減らして, 5 倍のクロスバリデーションと1 桁のオブジェクトアウト評価設定の両方において, 全ての手法より優れる。 結論:我々は,カリキュラム学習のパワーと協調トレーニングを組み合わせたモデルセンスリングアプローチが,高い学習能力と堅牢なパフォーマンスをもたらすことを実証する。 意義:我々の研究は、マルチオブジェクトEEGデータセットにおけるドメインシフトの問題に対処し、キャリブレーションのないBCIシステムへの道を開いた。

Objective: In this work, we study the problem of cross-subject motor imagery (MI) decoding from electroenchephalography (EEG) data. Multi-subject EEG datasets present several kinds of domain shifts due to various inter-individual differences (e.g. brain anatomy, personality and cognitive profile). These domain shifts render multi-subject training a challenging task and also impede robust cross-subject generalization. Method: We propose a two-stage model ensemble architecture, built with multiple feature extractors (first stage) and a shared classifier (second stage), which we train end-to-end with two loss terms. The first loss applies curriculum learning, forcing each feature extractor to specialize to a subset of the training subjects and promoting feature diversity. The second loss is an intra-ensemble distillation objective that allows collaborative exchange of knowledge between the models of the ensemble. Results: We compare our method against several state-of-the-art techniques, conducting subject-independent experiments on two large MI datasets, namely Physionet and OpenBMI. Our algorithm outperforms all of the methods in both 5-fold cross-validation and leave-one-subject-out evaluation settings, using a substantially lower number of trainable parameters. Conclusion: We demonstrate that our model ensembling approach combining the powers of curriculum learning and collaborative training, leads to high learning capacity and robust performance. Significance: Our work addresses the issue of domain shifts in multi-subject EEG datasets, paving the way for calibration-free BCI systems.
翻訳日:2022-11-22 22:09:56 公開日:2022-11-21
# ソフトウェア工学における統計的因果推論の応用

Applications of statistical causal inference in software engineering ( http://arxiv.org/abs/2211.11482v1 )

ライセンス: Link先を確認
Julien Siebert(参考訳) 本稿では,統計的因果推論手法を適用したソフトウェア工学における既存の研究を概観する。 これらの手法は観測データから因果効果を推定することを目的としている。 2010年から2022年にかけて32の論文が出版された。 その結果,統計的因果推論手法の適用は比較的最近であり,それに対応する研究コミュニティは比較的断片化されている。

This paper reviews existing work in software engineering that applies statistical causal inference methods. These methods aim at estimating causal effects from observational data. The review covers 32 papers published between 2010 and 2022. Our results show that the application of statistical causal inference methods is relatively recent and that the corresponding research community remains relatively fragmented.
翻訳日:2022-11-22 22:09:28 公開日:2022-11-21
# オンラインコントロールにおける両世界のベスト:競争比率と政策後悔

Best of Both Worlds in Online Control: Competitive Ratio and Policy Regret ( http://arxiv.org/abs/2211.11219v1 )

ライセンス: Link先を確認
Gautam Goel, Naman Agarwal, Karan Singh, Elad Hazan(参考訳) 後悔の最小化と競争分析という2つの視点から線形力学系のオンライン制御の基本問題を考える。 最適競争政策は、外乱行動制御(dac)ポリシーとして知られる凸パラメータ化政策クラスによって近似されていることが証明される。 この構造的結果を用いて,最近提案されているオンライン制御アルゴリズムが,後見性で選択された最良dacポリシーと最適競合比と,時間軸でsublinearに増大する付加的補正という,両世界のベストを実現したことを示す。 さらに、線形力学系が未知である場合や、力学系に対する安定化コントローラが事前利用できない場合においても、サブ線形後悔対最適競争政策が達成可能であると結論付けている。

We consider the fundamental problem of online control of a linear dynamical system from two different viewpoints: regret minimization and competitive analysis. We prove that the optimal competitive policy is well-approximated by a convex parameterized policy class, known as a disturbance-action control (DAC) policies. Using this structural result, we show that several recently proposed online control algorithms achieve the best of both worlds: sublinear regret vs. the best DAC policy selected in hindsight, and optimal competitive ratio, up to an additive correction which grows sublinearly in the time horizon. We further conclude that sublinear regret vs. the optimal competitive policy is attainable when the linear dynamical system is unknown, and even when a stabilizing controller for the dynamics is not available a priori.
翻訳日:2022-11-22 22:03:18 公開日:2022-11-21
# マルチラベル分類のための説明可能なモデル固有アルゴリズム選択

Explainable Model-specific Algorithm Selection for Multi-Label Classification ( http://arxiv.org/abs/2211.11227v1 )

ライセンス: Link先を確認
Ana Kostovska, Carola Doerr, Sa\v{s}o D\v{z}eroski, Dragi Kocev, Pan\v{c}e Panov, Tome Eftimov(参考訳) MLC(Multi-label classification)は、データインスタンスが同時に複数のクラスに属すことができる予測モデリングのMLタスクである。 MLCはテキストマイニング、コンピュータビジョン、バイオインフォマティクスといった様々な応用分野への関心が高まっている。 文献ではいくつかのMLCアルゴリズムが提案されており、その結果、ユーザが対処する必要があるメタ最適化問題が発生している。 このアルゴリズム選択問題に対処するため,本研究では,データセットの特徴を特徴とする自動アプローチと,与えられたタスクに適用するアルゴリズムを選択するための訓練されたアルゴリズムセレクタの品質について検討する。 経験的評価には、38のデータセットのポートフォリオを使用します。 6つの異なる性能指標を用いて評価する8つのmlcアルゴリズムについて検討した。 提案するアルゴリズムセレクタは,単一のmlcアルゴリズムのどれよりも優れていることを示す。 提案手法は,アルゴリズムセレクタが行う決定に対して,どのメタ機能が最も大きな影響を与えるかを調べる上で有効である。 最後に、様々なドメインにおける最も重要なメタ機能の重要性も定量化します。

Multi-label classification (MLC) is an ML task of predictive modeling in which a data instance can simultaneously belong to multiple classes. MLC is increasingly gaining interest in different application domains such as text mining, computer vision, and bioinformatics. Several MLC algorithms have been proposed in the literature, resulting in a meta-optimization problem that the user needs to address: which MLC approach to select for a given dataset? To address this algorithm selection problem, we investigate in this work the quality of an automated approach that uses characteristics of the datasets - so-called features - and a trained algorithm selector to choose which algorithm to apply for a given task. For our empirical evaluation, we use a portfolio of 38 datasets. We consider eight MLC algorithms, whose quality we evaluate using six different performance metrics. We show that our automated algorithm selector outperforms any of the single MLC algorithms, and this is for all evaluated performance measures. Our selection approach is explainable, a characteristic that we exploit to investigate which meta-features have the largest influence on the decisions made by the algorithm selector. Finally, we also quantify the importance of the most significant meta-features for various domains.
翻訳日:2022-11-22 22:03:04 公開日:2022-11-21
# 深層学習のための物理潜在空間の探索

Exploring Physical Latent Spaces for Deep Learning ( http://arxiv.org/abs/2211.11298v1 )

ライセンス: Link先を確認
Chloe Paliard, Nils Thuerey, Kiwon Um(参考訳) 我々は、ニューラルネットワークの潜在空間として、シミュレーションされた自由度を用いて、偏微分方程式(PDE)による物理シミュレーションと協調して深部ニューラルネットワークモデルを訓練する。 従来の研究とは対照的に、シミュレーション空間に制約を課すのではなく、ニューラルネットワークが使用するツールとして、その自由度を純粋に扱います。 還元表現を学習するためのこの概念を実証する。 通常、従来のシミュレーションでは、従来の縮小表現を持つ長い時間スパンで正しい解を忠実に保存することが極めて困難である。 この問題は、大規模な機能を持つソリューションでは特に顕著である。 ここでは、データ駆動手法は、基礎となるPDE問題の正確な解に必要な詳細を復元することを学ぶことができる。 我々は、この文脈における物理的で少ない潜在空間の使用を探求し、学習目標を最大限に満たすために必要な物理状態の内容を変更できるようにモデルを訓練する。 驚くべきことに、この自律性によってニューラルネットワークは、与えられたタスクのパフォーマンスを大幅に向上させる代替ダイナミクスを発見できる。 この概念を,navier-stokesに基づく乱流シミュレーションのための,様々な挑戦的なテストケースで実証する。

We explore training deep neural network models in conjunction with physical simulations via partial differential equations (PDEs), using the simulated degrees of freedom as latent space for the neural network. In contrast to previous work, we do not impose constraints on the simulated space, but rather treat its degrees of freedom purely as tools to be used by the neural network. We demonstrate this concept for learning reduced representations. It is typically extremely challenging for conventional simulations to faithfully preserve the correct solutions over long time-spans with traditional, reduced representations. This problem is particularly pronounced for solutions with large amounts of small scale features. Here, data-driven methods can learn to restore the details as required for accurate solutions of the underlying PDE problem. We explore the use of physical, reduced latent space within this context, and train models such that they can modify the content of physical states as much as needed to best satisfy the learning objective. Surprisingly, this autonomy allows the neural network to discover alternate dynamics that enable a significantly improved performance in the given tasks. We demonstrate this concept for a range of challenging test cases, among others, for Navier-Stokes based turbulence simulations.
翻訳日:2022-11-22 22:02:47 公開日:2022-11-21
# 勾配強化決定木の高次最適化

High-Order Optimization of Gradient Boosted Decision Trees ( http://arxiv.org/abs/2211.11367v1 )

ライセンス: Link先を確認
Jean Pachebat, Sergei Ivanov(参考訳) Gradient Boosted Decision Trees (GBDT) は、離散データや表形式のデータをモデリングするための機械学習アルゴリズムである。 数百万のトレーニング可能なパラメータを持つニューラルネットワークとは異なり、GBDTは損失関数を加算的に最適化し、葉ごとに単一のトレーニング可能なパラメータを持つ。 本稿では,与えられた損失関数の高階導関数に基づく木を構築できる数値最適化理論に基づいて,gbdtsの高階最適化を提案する。 実験では,高次最適化がイテレーション毎の収束を高速化し,実行時間を短縮できることを示す。 私たちのソリューションは簡単に並列化でき、コードのオーバーヘッドが少なくGPU上で実行できます。 最後に、任意の損失関数の自動微分やGBDTとニューラルネットワークの組み合わせなど、将来的な改善について論じる。

Gradient Boosted Decision Trees (GBDTs) are dominant machine learning algorithms for modeling discrete or tabular data. Unlike neural networks with millions of trainable parameters, GBDTs optimize loss function in an additive manner and have a single trainable parameter per leaf, which makes it easy to apply high-order optimization of the loss function. In this paper, we introduce high-order optimization for GBDTs based on numerical optimization theory which allows us to construct trees based on high-order derivatives of a given loss function. In the experiments, we show that high-order optimization has faster per-iteration convergence that leads to reduced running time. Our solution can be easily parallelized and run on GPUs with little overhead on the code. Finally, we discuss future potential improvements such as automatic differentiation of arbitrary loss function and combination of GBDTs with neural networks.
翻訳日:2022-11-22 22:02:28 公開日:2022-11-21
# 時空間グラフニューラルネットワークによる未観測ノード状態の予測

Forecasting Unobserved Node States with spatio-temporal Graph Neural Networks ( http://arxiv.org/abs/2211.11596v1 )

ライセンス: Link先を確認
Andreas Roth, Thomas Liebig(参考訳) センサーの将来の状態を予測することは、天気予報や経路計画など、センサーのネットワークを扱う多くの課題を解決する上で鍵となる。 しかし、センサーの完全な空間範囲は一般には利用不可能であり、展開やメンテナンスの際の予算やその他のリソースの制限のために事実上不可能である。 現在、機械学習を用いた既存のアプローチは、データが観測された空間的な場所に限定されており、下流タスクに制限が生じる。 近年の時空間データ処理のためのグラフニューラルネットワークの急増に触発されて,センサを使わずに位置を予測できるかどうか検討した。 この目的のために、時空間相関とグラフ帰納バイアスに基づいて、完全に観測されていない場所で状態を予測できるフレームワーク、Forecasting Unobserved Node States (FUNS) を開発した。 FUNSは観測データのみをモデルに最適化するための青写真として機能し、テスト段階では完全に観測されていない場所で状態を予測できる優れた一般化機能を示している。 本手法は,ネットワークのグラフ構造を用いて周辺観測位置との時空間相関を利用する時空間グラフニューラルネットワークと組み合わせることができる。 我々の採用モデルは、道路タイプなど、関心のある場所に関する事前知識を活用できるように、以前のモデルに基づいて構築されている。 シミュレーションと実世界の両方のデータセットに対する実証的な評価は、グラフニューラルネットワークがこのタスクに適していることを示している。

Forecasting future states of sensors is key to solving tasks like weather prediction, route planning, and many others when dealing with networks of sensors. But complete spatial coverage of sensors is generally unavailable and would practically be infeasible due to limitations in budget and other resources during deployment and maintenance. Currently existing approaches using machine learning are limited to the spatial locations where data was observed, causing limitations to downstream tasks. Inspired by the recent surge of Graph Neural Networks for spatio-temporal data processing, we investigate whether these can also forecast the state of locations with no sensors available. For this purpose, we develop a framework, named Forecasting Unobserved Node States (FUNS), that allows forecasting the state at entirely unobserved locations based on spatio-temporal correlations and the graph inductive bias. FUNS serves as a blueprint for optimizing models only on observed data and demonstrates good generalization capabilities for predicting the state at entirely unobserved locations during the testing stage. Our framework can be combined with any spatio-temporal Graph Neural Network, that exploits spatio-temporal correlations with surrounding observed locations by using the network's graph structure. Our employed model builds on a previous model by also allowing us to exploit prior knowledge about locations of interest, e.g. the road type. Our empirical evaluation of both simulated and real-world datasets demonstrates that Graph Neural Networks are well-suited for this task.
翻訳日:2022-11-22 22:02:16 公開日:2022-11-21
# 強化学習における持続性値の同時更新

Simultaneously Updating All Persistence Values in Reinforcement Learning ( http://arxiv.org/abs/2211.11620v1 )

ライセンス: Link先を確認
Luca Sabbioni, Luca Al Daire, Lorenzo Bisi, Alberto Maria Metelli and Marcello Restelli(参考訳) 強化学習においては,学習エージェントの性能は時間離散化の選択に非常に敏感である。 高頻度で行動するエージェントは、非効率な探索や行動上の利点の消滅など、いくつかの欠点と共に、最高の制御機会を持つ。 アクションの繰り返し、すなわちアクション持続性は、エージェントが状態空間の広い領域を訪れ、アクション効果の推定を改善するために助けとなる。 本研究では, 適切なブートストラップ手順の導入により, サブトランジションへの分解による低持続性経験と高持続性経験の両方を効果的に利用できる新規な全持続性ベルマン作用素を導出する。 このように、検討された永続化セットのアクション値を同時に更新するために、任意の時間スケールで収集された遷移を利用する。 我々は、全持続ベルマン作用素の収縮特性を証明し、それに基づいて古典的q-learningとdqnを拡張した。 永続性の影響についての研究を行った後、Atariゲームを含むテーブル型コンテキストとより困難なフレームワークの両方において、我々のアプローチを実験的に評価した。

In reinforcement learning, the performance of learning agents is highly sensitive to the choice of time discretization. Agents acting at high frequencies have the best control opportunities, along with some drawbacks, such as possible inefficient exploration and vanishing of the action advantages. The repetition of the actions, i.e., action persistence, comes into help, as it allows the agent to visit wider regions of the state space and improve the estimation of the action effects. In this work, we derive a novel All-Persistence Bellman Operator, which allows an effective use of both the low-persistence experience, by decomposition into sub-transition, and the high-persistence experience, thanks to the introduction of a suitable bootstrap procedure. In this way, we employ transitions collected at any time scale to update simultaneously the action values of the considered persistence set. We prove the contraction property of the All-Persistence Bellman Operator and, based on it, we extend classic Q-learning and DQN. After providing a study on the effects of persistence, we experimentally evaluate our approach in both tabular contexts and more challenging frameworks, including some Atari games.
翻訳日:2022-11-22 22:01:54 公開日:2022-11-21
# 逐次インフォームド・フェデレーション・アンラーニング:フェデレーション最適化における効率的かつ証明可能なクライアント・アンラーニング

Sequential Informed Federated Unlearning: Efficient and Provable Client Unlearning in Federated Optimization ( http://arxiv.org/abs/2211.11656v1 )

ライセンス: Link先を確認
Yann Fraboni, Richard Vidal, Laetitia Kameni, Marco Lorenzi(参考訳) 機械学習(mu)の目的は、訓練手順から与えられたデータポイントの寄与の排除に関する理論的保証を提供することである。 フェデレーテッド・アンラーニング(FU)は、フェデレーテッド・トレーニングルーチンから特定のクライアントの貢献を解放するためにMUを拡張することである。 現在のFUアプローチは一般に拡張性がなく、未学習の有効性の健全な理論的定量化を伴わない。 Informed Federated Unlearning (IFU)は、新しい効率で定量化可能なFUアプローチである。 与えられたクライアントからの未学習要求に対して、IFUは、FLを再起動しなければならない最適なFLイテレーションを特定し、ランダムな摂動機構を通じて未学習の保証を得る。 逐次学習要求を考慮し、ifuの理論も拡張されている。 タスクとデータセットの異なる実験結果から、IFUは基本的な再学習や最先端のFUアプローチと比較して、より効率的な未学習の手順をもたらすことが示された。

The aim of Machine Unlearning (MU) is to provide theoretical guarantees on the removal of the contribution of a given data point from a training procedure. Federated Unlearning (FU) consists in extending MU to unlearn a given client's contribution from a federated training routine. Current FU approaches are generally not scalable, and do not come with sound theoretical quantification of the effectiveness of unlearning. In this work we present Informed Federated Unlearning (IFU), a novel efficient and quantifiable FU approach. Upon unlearning request from a given client, IFU identifies the optimal FL iteration from which FL has to be reinitialized, with unlearning guarantees obtained through a randomized perturbation mechanism. The theory of IFU is also extended to account for sequential unlearning requests. Experimental results on different tasks and dataset show that IFU leads to more efficient unlearning procedures as compared to basic re-training and state-of-the-art FU approaches.
翻訳日:2022-11-22 22:01:36 公開日:2022-11-21
# 概念ボタネックモデル(Concept Bottleneck Models)の取得と,概念予測の棄却。

Learn to explain yourself, when you can: Equipping Concept Bottleneck Models with the ability to abstain on their concept predictions ( http://arxiv.org/abs/2211.11690v1 )

ライセンス: Link先を確認
Joshua Lockhart, Daniele Magazzeni, Manuela Veloso(参考訳) kohらの概念ボトルネックモデル(cbms)。 [2020]は、ニューラルネットワークに基づく分類器がその予測を人間の理解可能な概念のみに基づいて確実にする手段を提供する。 概念ラベル(concept labels)は、私たちが言及する概念ラベルであり、cbmの概念ラベルコンポーネントによって学習される。 別のコンポーネントは、これらの予測された概念ラベルからターゲット分類ラベルを予測することを学ぶ。 残念ながら、これらのモデルは各データポイントのコンセプトラベルに大きく依存しています。 これらのラベルが手軽に利用できない場合、CBMが堅牢に動作できるようにするため、概念ラベルコンポーネントが不確実な場合に、その概念を予測できないようにする。 言い換えれば、我々のモデルは、その予測に合理性を与えることを学習するが、その理性が正しいことは確実である。

The Concept Bottleneck Models (CBMs) of Koh et al. [2020] provide a means to ensure that a neural network based classifier bases its predictions solely on human understandable concepts. The concept labels, or rationales as we refer to them, are learned by the concept labeling component of the CBM. Another component learns to predict the target classification label from these predicted concept labels. Unfortunately, these models are heavily reliant on human provided concept labels for each datapoint. To enable CBMs to behave robustly when these labels are not readily available, we show how to equip them with the ability to abstain from predicting concepts when the concept labeling component is uncertain. In other words, our model learns to provide rationales for its predictions, but only whenever it is sure the rationale is correct.
翻訳日:2022-11-22 22:01:18 公開日:2022-11-21
# バイナリ線形符号の設計のための進化的戦略

Evolutionary Strategies for the Design of Binary Linear Codes ( http://arxiv.org/abs/2211.11551v1 )

ライセンス: Link先を確認
Claude Carlet, Luca Mariot, Luca Manzoni, Stjepan Picek(参考訳) バイナリエラー訂正符号の設計は、メタヒューリスティックな手法や進化的アルゴリズムで対処された通信とストレージのいくつかのアプリケーションにおいて、難しい最適化問題である。 それでもこれらの取り組みは、制限のないバイナリコードの最小距離、すなわち効率的な実装に望ましい性質である線形性に制約のない最適化に重点を置いている。 本稿では,ある長さと次元の線形符号の部分集合のみを探索する進化的戦略(ES)アルゴリズムを提案する。 そのために、候補解を二項行列として表現し、それらの階数を保存する変分作用素を考案する。 我々の実験は、長さ$n=14$まで、ESは常に完全な成功率を持つ最適解に収束し、進化したコードは、MAGMAから与えられるBest-Known Linear Code (BKLC)と等価でないことを示している。 一方、より大きな長さでは、ESの成功率と進化したコードの多様性の両方が低下し始め、極端な場合は16,8,5)$コードとなり、いずれもMAGMAのBKLCと同等であることが判明した。

The design of binary error-correcting codes is a challenging optimization problem with several applications in telecommunications and storage, which has also been addressed with metaheuristic techniques and evolutionary algorithms. Still, all these efforts focused on optimizing the minimum distance of unrestricted binary codes, i.e., with no constraints on their linearity, which is a desirable property for efficient implementations. In this paper, we present an Evolutionary Strategy (ES) algorithm that explores only the subset of linear codes of a fixed length and dimension. To that end, we represent the candidate solutions as binary matrices and devise variation operators that preserve their ranks. Our experiments show that up to length $n=14$, our ES always converges to an optimal solution with a full success rate, and the evolved codes are all inequivalent to the Best-Known Linear Code (BKLC) given by MAGMA. On the other hand, for larger lengths, both the success rate of the ES as well as the diversity of the evolved codes start to drop, with the extreme case of $(16,8,5)$ codes which all turn out to be equivalent to MAGMA's BKLC.
翻訳日:2022-11-22 22:01:00 公開日:2022-11-21
# ベイズ因果推論による臨床意思決定における公平性評価

A Bayesian Causal Inference Approach for Assessing Fairness in Clinical Decision-Making ( http://arxiv.org/abs/2211.11183v1 )

ライセンス: Link先を確認
Linying Zhang, Lauren R. Richter, Yixin Wang, Anna Ostropolets, Noemie Elhadad, David M. Blei, George Hripcsak(参考訳) 臨床意思決定の公平性は健康平等の重要な要素であるが、観察データから臨床判断の公平性を評価することは困難である。 近年、意思決定における公平性の定量化のために多くの公正概念が提案されており、因果性に基づく公平性の概念は、偏見の調整や偏見の推論の可能性から注目されている。 しかし、大規模医療データを用いた臨床意思決定の文脈では、因果的公平性の概念は未熟のままである。 本研究では,臨床現場における主フェアネスという因果フェアネス概念を評価するためのベイズ因果推論手法を提案する。 シミュレーションデータと電子健康記録(EHR)データの両方を用いたアプローチを実証する。

Fairness in clinical decision-making is a critical element of health equity, but assessing fairness of clinical decisions from observational data is challenging. Recently, many fairness notions have been proposed to quantify fairness in decision-making, among which causality-based fairness notions have gained increasing attention due to its potential in adjusting for confounding and reasoning about bias. However, causal fairness notions remain under-explored in the context of clinical decision-making with large-scale healthcare data. In this work, we propose a Bayesian causal inference approach for assessing a causal fairness notion called principal fairness in clinical settings. We demonstrate our approach using both simulated data and electronic health records (EHR) data.
翻訳日:2022-11-22 21:51:51 公開日:2022-11-21
# ESLAM:符号付き距離場のハイブリッド表現に基づく高効率高密度SLAMシステム

ESLAM: Efficient Dense SLAM System Based on Hybrid Representation of Signed Distance Fields ( http://arxiv.org/abs/2211.11704v1 )

ライセンス: Link先を確認
Mohammad Mahdi Johari, Camilla Carta, Fran\c{c}ois Fleuret(参考訳) 同時局所化マッピング(SLAM)のための効率的な暗黙的ニューラル表現法である ESLAM を提案する。 ESLAMは、未知のカメラポーズでRGB-Dフレームを読み出し、シーン内の現在のカメラ位置を推定しながらシーン表現を漸進的に再構築する。 ニューラルラジアンス場(NeRF)の最新の進歩をSLAMシステムに組み込んだ結果,高効率かつ高精度なビジュアルSLAM法が実現した。 シーン表現は、連続空間の各点に対して、補間された特徴をTrncated Signed Distance Field (TSDF) と RGB の値にデコードする多重スケールの軸整列垂直特徴平面と浅いデコーダから構成される。 2つの標準および最近のデータセットであるReplicaとScanNetに関する広範な実験により、ESLAMは最先端の高密度なビジュアルSLAMメソッドの3D再構成とカメラのローカライゼーションを50%以上改善する一方、最大$\times$10の速度で動作し、事前トレーニングを必要としないことが示されている。

We present ESLAM, an efficient implicit neural representation method for Simultaneous Localization and Mapping (SLAM). ESLAM reads RGB-D frames with unknown camera poses in a sequential manner and incrementally reconstructs the scene representation while estimating the current camera position in the scene. We incorporate the latest advances in Neural Radiance Fields (NeRF) into a SLAM system, resulting in an efficient and accurate dense visual SLAM method. Our scene representation consists of multi-scale axis-aligned perpendicular feature planes and shallow decoders that, for each point in the continuous space, decode the interpolated features into Truncated Signed Distance Field (TSDF) and RGB values. Our extensive experiments on two standard and recent datasets, Replica and ScanNet, show that ESLAM improves the accuracy of 3D reconstruction and camera localization of state-of-the-art dense visual SLAM methods by more than 50%, while it runs up to $\times$10 faster and does not require any pre-training.
翻訳日:2022-11-22 21:37:30 公開日:2022-11-21
# 視覚・言語モデルへの構造的視覚・言語概念の教育

Teaching Structured Vision&Language Concepts to Vision&Language Models ( http://arxiv.org/abs/2211.11733v1 )

ライセンス: Link先を確認
Sivan Doveh, Assaf Arbelle, Sivan Harary, Rameswar Panda, Roei Herzig, Eli Schwartz, Donghyun Kim, Raja Giryes, Rogerio Feris, Shimon Ullman, Leonid Karlinsky(参考訳) vision and language (vl) モデルは様々なタスクで顕著なゼロショット性能を示している。 しかし、複雑な言語理解のいくつかの側面は依然として課題である。 本稿では、テキスト中に存在し、画像で見えるオブジェクト属性、関係、状態を含む構造化視覚言語概念(svlc)の集団概念を紹介する。 近年の研究では、最高のVLモデルでさえSVLCと競合することが示されている。 この問題を解決する方法は、各svlcタイプを教える専用のデータセットを収集することですが、これは高価で時間がかかります。 代わりに、既存のVL事前学習データセットをより効果的に活用し、追加データを必要としないVLモデルのSVLC理解を強化するための、よりエレガントなデータ駆動アプローチを提案する。 画像構造の自動理解はいまだほとんど未解決であるが、言語構造はより良くモデル化され理解されており、VLモデルを効果的に活用することができる。 本稿では,市販VLデータセットのテキスト部分を操作可能な言語構造理解に基づく様々な手法を提案する。 更新されたデータでトレーニングされたVLモデルは、ゼロショット能力の軽微な低下と、事前訓練されたモデルの微調整の両方で、SVLC理解の最大15%の改善を示す。

Vision and Language (VL) models have demonstrated remarkable zero-shot performance in a variety of tasks. However, some aspects of complex language understanding still remain a challenge. We introduce the collective notion of Structured Vision&Language Concepts (SVLC) which includes object attributes, relations, and states which are present in the text and visible in the image. Recent studies have shown that even the best VL models struggle with SVLC. A possible way of fixing this issue is by collecting dedicated datasets for teaching each SVLC type, yet this might be expensive and time-consuming. Instead, we propose a more elegant data-driven approach for enhancing VL models' understanding of SVLCs that makes more effective use of existing VL pre-training datasets and does not require any additional data. While automatic understanding of image structure still remains largely unsolved, language structure is much better modeled and understood, allowing for its effective utilization in teaching VL models. In this paper, we propose various techniques based on language structure understanding that can be used to manipulate the textual part of off-the-shelf paired VL datasets. VL models trained with the updated data exhibit a significant improvement of up to 15% in their SVLC understanding with only a mild degradation in their zero-shot capabilities both when training from scratch or fine-tuning a pre-trained model.
翻訳日:2022-11-22 21:37:08 公開日:2022-11-21
# PLIKS:3次元人体推定のための擬似線形逆運動解法

PLIKS: A Pseudo-Linear Inverse Kinematic Solver for 3D Human Body Estimation ( http://arxiv.org/abs/2211.11734v1 )

ライセンス: Link先を確認
Karthik Shetty, Annette Birkhold, Srikrishna Jaganathan, Norbert Strobel, Markus Kowarschik, Andreas Maier, Bernhard Egger(参考訳) モデル・イン・ザ・ループ最適化問題として、1つの2次元画像から人体の3次元メッシュを再構築する問題を考察する。 既存のアプローチはしばしば、弱視カメラを想定したパラメトリック統計モデルの形状、ポーズ、翻訳パラメータを回帰する。 対照的に、まず画像空間における2次元画素整列頂点を推定し、線形最小二乗問題を最小化してモデルパラメータを回帰するPLIKS(Pseudo-Linear Inverse Kinematic Solver)を提案する。 PLIKSはパラメトリックSMPLモデルの線形化定式化であり、適切な初期化から最適なポーズと形状の解を提供する。 提案手法は,ネットワーク予測3次元メッシュからの初期ポーズ推定を解析的に算出し,PLIKSを用いて与えられた制約に対する最適解を求める。 我々のフレームワークは2次元ピクセルアライメントマップを使用しているため、本質的に部分閉塞に対して堅牢である。 提案手法の性能を実証するため,PLIKSが従来の3次元ポーズおよび形状ベンチマークと比較して10%以上の精度で再現可能であることを確認するとともに,新しいAGORAデータセットでは12.9mmの復元誤差改善が得られることを示す定量的評価を行った。

We consider the problem of reconstructing a 3D mesh of the human body from a single 2D image as a model-in-the-loop optimization problem. Existing approaches often regress the shape, pose, and translation parameters of a parametric statistical model assuming a weak-perspective camera. In contrast, we first estimate 2D pixel-aligned vertices in image space and propose PLIKS (Pseudo-Linear Inverse Kinematic Solver) to regress the model parameters by minimizing a linear least squares problem. PLIKS is a linearized formulation of the parametric SMPL model, which provides an optimal pose and shape solution from an adequate initialization. Our method is based on analytically calculating an initial pose estimate from the network predicted 3D mesh followed by PLIKS to obtain an optimal solution for the given constraints. As our framework makes use of 2D pixel-aligned maps, it is inherently robust to partial occlusion. To demonstrate the performance of the proposed approach, we present quantitative evaluations which confirm that PLIKS achieves more accurate reconstruction with greater than 10% improvement compared to other state-of-the-art methods with respect to the standard 3D human pose and shape benchmarks while also obtaining a reconstruction error improvement of 12.9 mm on the newer AGORA dataset.
翻訳日:2022-11-22 21:36:45 公開日:2022-11-21
# SPARF:スパースと雑音場からの神経放射場

SPARF: Neural Radiance Fields from Sparse and Noisy Poses ( http://arxiv.org/abs/2211.11738v1 )

ライセンス: Link先を確認
Prune Truong and Marie-Julie Rakotosaona and Fabian Manhardt and Federico Tombari(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は近年,フォトリアリスティック・ノベルビューを合成するための強力な表現として登場した。 印象的なパフォーマンスを示す一方で、高い精度のカメラポーズを備えた高密度のインプットビューの可用性に依存しているため、実際のシナリオでの応用は制限される。 本研究ではSPARF(Sparse Pose Adjusting Radiance Field)を導入し,ノイズの多いカメラポーズを付加した広帯域入力画像(以下3以下)の新規ビュー合成の課題に対処する。 本手法では,多視点幾何制約を生かしてnerfを学習し,カメラポーズを洗練する。 入力ビュー間で抽出された画素マッチングを頼りにすることで、多視点対応の目的は最適化シーンを強制し、カメラのポーズをグローバルかつ幾何学的に正確な解に収束させる。 私たちの奥行きの一貫性の喪失は、再構築されたシーンをあらゆる視点から一貫することをさらに促します。 われわれのアプローチは、複数の挑戦的なデータセットに基づいてスパースビュー体制における新しい技術状況を設定する。

Neural Radiance Field (NeRF) has recently emerged as a powerful representation to synthesize photorealistic novel views. While showing impressive performance, it relies on the availability of dense input views with highly accurate camera poses, thus limiting its application in real-world scenarios. In this work, we introduce Sparse Pose Adjusting Radiance Field (SPARF), to address the challenge of novel-view synthesis given only few wide-baseline input images (as low as 3) with noisy camera poses. Our approach exploits multi-view geometry constraints in order to jointly learn the NeRF and refine the camera poses. By relying on pixel matches extracted between the input views, our multi-view correspondence objective enforces the optimized scene and camera poses to converge to a global and geometrically accurate solution. Our depth consistency loss further encourages the reconstructed scene to be consistent from any viewpoint. Our approach sets a new state of the art in the sparse-view regime on multiple challenging datasets.
翻訳日:2022-11-22 21:36:20 公開日:2022-11-21
# SceneComposer: あらゆるレベルのセマンティック画像合成

SceneComposer: Any-Level Semantic Image Synthesis ( http://arxiv.org/abs/2211.11742v1 )

ライセンス: Link先を確認
Yu Zeng, Zhe Lin, Jianming Zhang, Qing Liu, John Collomosse, Jason Kuen, Vishal M. Patel(参考訳) 本稿では,任意の精度レベルのセマンティックレイアウトから,テキストから正確な形状の2次元セマンティックキャンバスまで,条件付き画像合成のための新しいフレームワークを提案する。 具体的には、入力レイアウトは、自由形式のテキスト記述と調整可能な精度レベルを備えた1つ以上のセマンティック領域で構成され、所望の制御性に基づいて設定できる。 このフレームワークは、自然に、形状情報なしで、最低レベルでtext-to-image(t2i)に縮小し、最高レベルでsegmentation-to-image(s2i)となる。 レベルを相互にサポートすることによって、当社のフレームワークは、さまざまな描画専門知識を持つユーザや、クリエイティブワークフローのさまざまな段階における支援に柔軟になります。 本稿では,この新設定の課題に対処するために,トレーニングデータの収集パイプライン,精度レベル,セマンティクス,コンポジション情報を共同でエンコードする精度エンコードされたマスクピラミッドとテキスト特徴マップ表現,画像合成のためのマルチスケール誘導拡散モデルなど,いくつかの新しい手法を紹介する。 提案手法を評価するために,様々なシーンとスタイルを持つユーザ描画レイアウトを含むテストデータセットを収集する。 実験の結果, 提案手法は, レイアウトに追従して高品質な画像を生成することができ, 既存の手法と好適に比較できることがわかった。 プロジェクトページ \url{https://zengxianyu.github.io/scenec/}

We propose a new framework for conditional image synthesis from semantic layouts of any precision levels, ranging from pure text to a 2D semantic canvas with precise shapes. More specifically, the input layout consists of one or more semantic regions with free-form text descriptions and adjustable precision levels, which can be set based on the desired controllability. The framework naturally reduces to text-to-image (T2I) at the lowest level with no shape information, and it becomes segmentation-to-image (S2I) at the highest level. By supporting the levels in-between, our framework is flexible in assisting users of different drawing expertise and at different stages of their creative workflow. We introduce several novel techniques to address the challenges coming with this new setup, including a pipeline for collecting training data; a precision-encoded mask pyramid and a text feature map representation to jointly encode precision level, semantics, and composition information; and a multi-scale guided diffusion model to synthesize images. To evaluate the proposed method, we collect a test dataset containing user-drawn layouts with diverse scenes and styles. Experimental results show that the proposed method can generate high-quality images following the layout at given precision, and compares favorably against existing methods. Project page \url{https://zengxianyu.github.io/scenec/}
翻訳日:2022-11-22 21:36:00 公開日:2022-11-21
# sllen: 意味認識による低光度画像強調ネットワーク

SLLEN: Semantic-aware Low-light Image Enhancement Network ( http://arxiv.org/abs/2211.11571v1 )

ライセンス: Link先を確認
Mingye Ju, Charles A. Guo, Chuheng Chen, Jinshan Pan, Jinhui Tang, and Dacheng Tao(参考訳) 低照度画像強調(LLE)には,意味的特徴を効果的に探索する方法が不可欠である。 既存の手法は通常、高レベルセマンティックセグメンテーションネットワーク(SSN)によって生成されたセマンティックマップからのみ引き出されるセマンティック機能を利用する。 しかし、セマンティックマップが正確に推定されていない場合、LLEに干渉するハイレベルセマンティック特徴抽出(HSF)に影響を与える。 本稿では, セマンティックセグメンテーションネットワークの中間層から抽出した情報を, HSFとともに, ランダムな中間埋め込み機能(IEF)を, より優れたLLEを実現するための統一フレームワークに統合する, シンプルかつ効果的な2分岐セマンティックアウェアLLEネットワーク(SLLEN)を開発した。 具体的には,HSFを低レベル機能に統合するための注意機構を利用する。 他方では,非線形変換手法を用いて低レベル特徴の調整を導くために ief を抽出する。 最後に、2つの枝から得られる意味認識機能を融合し、画像強調のためにデコードする。 IEFは、意味的特徴に類似しているにもかかわらず、HSFと比較してランダム性があるため、その導入により、2022年のノーベル物理学賞の「神がサイコロを巻く」という有名な言葉と同じように、低レベル特徴と意味的特徴の間の潜む関係を活用することで、ネットワークがより多くの可能性を学ぶことができる。 提案したSLLENと他の最先端技術との比較は、SLLENのLLE品質に対する優位性を示している。

How to effectively explore semantic feature is vital for low-light image enhancement (LLE). Existing methods usually utilize the semantic feature that is only drawn from the semantic map produced by high-level semantic segmentation network (SSN). However, if the semantic map is not accurately estimated, it would affect the high-level semantic feature (HSF) extraction, which accordingly interferes with LLE. In this paper, we develop a simple yet effective two-branch semantic-aware LLE network (SLLEN) that neatly integrates the random intermediate embedding feature (IEF) (i.e., the information extracted from the intermediate layer of semantic segmentation network) together with the HSF into a unified framework for better LLE. Specifically, for one branch, we utilize an attention mechanism to integrate HSF into low-level feature. For the other branch, we extract IEF to guide the adjustment of low-level feature using nonlinear transformation manner. Finally, semantic-aware features obtained from two branches are fused and decoded for image enhancement. It is worth mentioning that IEF has some randomness compared to HSF despite their similarity on semantic characteristics, thus its introduction can allow network to learn more possibilities by leveraging the latent relationships between the low-level feature and semantic feature, just like the famous saying "God rolls the dice" in Physics Nobel Prize 2022. Comparisons between the proposed SLLEN and other state-of-the-art techniques demonstrate the superiority of SLLEN with respect to LLE quality over all the comparable alternatives.
翻訳日:2022-11-22 21:28:10 公開日:2022-11-21
# グローバル最適2D-3次元形状マッチングのための共役製品グラフ

Conjugate Product Graphs for Globally Optimal 2D-3D Shape Matching ( http://arxiv.org/abs/2211.11589v1 )

ライセンス: Link先を確認
Paul Roetzer and Zorah L\"ahner and Florian Bernard(参考訳) 2次元輪郭と3次元メッシュの連続的および非厳密なマッチングを求める問題を考察する。 このような問題は、両方の形状の間の積グラフの最も短い経路を見つけることによって大域的最適性に解決できるが、既存の解は縮退した解を避けるために非現実的な事前仮定に強く依存している(例えば、2次元輪郭の各点が一致する3次元形状の領域の知識)。 そこで本稿では,2次元輪郭と3次元形状の共役積グラフに基づく新しい2d-3次元形状マッチング形式を提案する。 そうすることで、シングルエッジで定義されたコストとは対照的に、初めて高次のコスト、すなわちエッジチェーンで定義されるコストを考えることができます。 これによって柔軟性が大幅に向上し、先に局所的な剛性を取り込むことができます。 これにより, 1次元特徴記述子のみを用いても, 効率よく退化解を回避し, より滑らかで現実的なマッチングが得られる。 提案手法は, グローバルに最適かつ連続的な2D-3Dマッチングを行い, 従来の手法と同じ漸近的複雑性を持ち, 形状マッチングの最先端結果を生成し, 部分形状のマッチングも可能である。

We consider the problem of finding a continuous and non-rigid matching between a 2D contour and a 3D mesh. While such problems can be solved to global optimality by finding a shortest path in the product graph between both shapes, existing solutions heavily rely on unrealistic prior assumptions to avoid degenerate solutions (e.g. knowledge to which region of the 3D shape each point of the 2D contour is matched). To address this, we propose a novel 2D-3D shape matching formalism based on the conjugate product graph between the 2D contour and the 3D shape. Doing so allows us for the first time to consider higher-order costs, i.e. defined for edge chains, as opposed to costs defined for single edges. This offers substantially more flexibility, which we utilise to incorporate a local rigidity prior. By doing so, we effectively circumvent degenerate solutions and thereby obtain smoother and more realistic matchings, even when using only a one-dimensional feature descriptor. Overall, our method finds globally optimal and continuous 2D-3D matchings, has the same asymptotic complexity as previous solutions, produces state-of-the-art results for shape matching and is even capable of matching partial shapes.
翻訳日:2022-11-22 21:27:40 公開日:2022-11-21
# Tensor4D : 高忠実度動的再構成とレンダリングのための高効率ニューラルネットワーク4D分解

Tensor4D : Efficient Neural 4D Decomposition for High-fidelity Dynamic Reconstruction and Rendering ( http://arxiv.org/abs/2211.11610v1 )

ライセンス: Link先を確認
Ruizhi Shao, Zerong Zheng, Hanzhang Tu, Boning Liu, Hongwen Zhang, Yebin Liu(参考訳) 動的シーンモデリングの効率的かつ効果的なアプローチであるtensor4dを提案する。 提案手法の鍵は,動的シーンを4次元時空間テンソルとして直接表現できるように,効率的な4次元テンソル分解法である。 付随するメモリ問題に対処するため、4次元テンソルを階層的に分割し、まず3つの時間認識ボリュームと9つのコンパクト特徴面に投影する。 これにより、時空間情報をコンパクトかつメモリ効率のよい方法で同時にキャプチャすることができる。 動的シーン再構成とレンダリングにTensor4Dを適用する場合、構造運動と動的詳細変化が粗いものから細かいものへと学習できるという意味で、4Dフィールドを異なるスケールに分解する。 本手法の有効性は,合成シーンと実世界シーンの両方で検証できる。 広汎な実験により,スパースビューカメラリグや単眼カメラから高品質な動的再構成とレンダリングを実現することができた。 コードとデータセットはhttps://liuyebin.com/tensor4d/tensor4d.htmlでリリースされる。

We present Tensor4D, an efficient yet effective approach to dynamic scene modeling. The key of our solution is an efficient 4D tensor decomposition method so that the dynamic scene can be directly represented as a 4D spatio-temporal tensor. To tackle the accompanying memory issue, we decompose the 4D tensor hierarchically by projecting it first into three time-aware volumes and then nine compact feature planes. In this way, spatial information over time can be simultaneously captured in a compact and memory-efficient manner. When applying Tensor4D for dynamic scene reconstruction and rendering, we further factorize the 4D fields to different scales in the sense that structural motions and dynamic detailed changes can be learned from coarse to fine. The effectiveness of our method is validated on both synthetic and real-world scenes. Extensive experiments show that our method is able to achieve high-quality dynamic reconstruction and rendering from sparse-view camera rigs or even a monocular camera. The code and dataset will be released at https://liuyebin.com/tensor4d/tensor4d.html.
翻訳日:2022-11-22 21:27:14 公開日:2022-11-21
# PVT++: シンプルなエンドツーエンドのレイテンシ対応ビジュアルトラッキングフレームワーク

PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework ( http://arxiv.org/abs/2211.11629v1 )

ライセンス: Link先を確認
Bowen Li, Ziyuan Huang, Junjie Ye, Yiming Li, Sebastian Scherer, Hang Zhao, Changhong Fu(参考訳) 視覚物体追跡は知的ロボットにとって必須の機能である。 既存のほとんどのアプローチは、実際の処理中に重大なパフォーマンス劣化を引き起こすオンラインレイテンシを無視している。 特に、ロバストな追跡が難しく、計算が限られている無人航空機では、レイテンシーの問題が致命的な可能性がある。 本研究では、エンドツーエンドの遅延認識トラッキング(PVT++)のためのシンプルなフレームワークを提案する。 PVT++は、ほとんどの最先端トラッカーをオンライン予測器を追加して予測トラッカーに変換することができる。 モデルベースのアプローチを使用する既存のソリューションとは異なり、我々のフレームワークは学習可能であり、運動情報を入力として捉えるだけでなく、視覚的手がかりや組み合わせを活用できる。 さらに、PVT++はエンドツーエンドの最適化が可能であるため、共同トレーニングによる遅延認識トラッキングパフォーマンスをさらに向上させることができる。 さらに、オンライン環境での任意の速度トラッカーを評価するための遅延認識評価ベンチマークも拡張されている。 空から見たロボットプラットフォームにおける実証的な結果から、PVT++は様々なトラッカーで最大60%のパフォーマンス向上を実現でき、従来のモデルベースソリューションよりも堅牢性が高く、主に遅延による劣化を軽減できることが示された。 コードとモデルは公開されます。

Visual object tracking is an essential capability of intelligent robots. Most existing approaches have ignored the online latency that can cause severe performance degradation during real-world processing. Especially for unmanned aerial vehicle, where robust tracking is more challenging and onboard computation is limited, latency issue could be fatal. In this work, we present a simple framework for end-to-end latency-aware tracking, i.e., end-to-end predictive visual tracking (PVT++). PVT++ is capable of turning most leading-edge trackers into predictive trackers by appending an online predictor. Unlike existing solutions that use model-based approaches, our framework is learnable, such that it can take not only motion information as input but it can also take advantage of visual cues or a combination of both. Moreover, since PVT++ is end-to-end optimizable, it can further boost the latency-aware tracking performance by joint training. Additionally, this work presents an extended latency-aware evaluation benchmark for assessing an any-speed tracker in the online setting. Empirical results on robotic platform from aerial perspective show that PVT++ can achieve up to 60% performance gain on various trackers and exhibit better robustness than prior model-based solution, largely mitigating the degradation brought by latency. Code and models will be made public.
翻訳日:2022-11-22 21:26:57 公開日:2022-11-21
# ビジュアルプロンプティングの理解と改善 - ラベルマッピングの視点から

Understanding and Improving Visual Prompting: A Label-Mapping Perspective ( http://arxiv.org/abs/2211.11635v1 )

ライセンス: Link先を確認
Aochuan Chen, Yuguang Yao, Pin-Yu Chen, Yihua Zhang, Sijia Liu(参考訳) 我々は視覚タスクの入力プロンプト技術である視覚プロンプト(VP)を再検討し前進する。 VPは、(入力摂動パターンの観点で)普遍的なプロンプトを下流のデータポイントに組み込むことで、固定されたトレーニング済みのソースモデルをプログラムして、ターゲットドメインの下流タスクを達成できる。 しかし、なぜVPが、ソースクラスとターゲットクラスの間のルールレスラベルマッピング(LM)でさえ有効であるのかは、いまだ解明されていない。 LMはVPとどのように関連していますか? そして、そのような関係を利用してターゲットタスクの精度を向上する方法。 我々は、LMがVPに与える影響を考察し、LMのより良い「品質」(マッピング精度と説明による評価)がVPの有効性を一貫して改善できるという肯定的な回答を提供する。 これは、LMの要素が欠落していた以前の技術とは対照的である。 LMを最適化するために、新たなVPフレームワークであるILM-VP(iterative label mapping-based visual prompting)を提案し、ソースラベルをターゲットラベルに自動的に再マップし、VPの目標タスク精度を徐々に改善する。 さらに,コントラッシブ言語画像事前訓練(CLIP)モデルを用いて,CLIPのテキスト選択を支援するためのLMプロセスの統合と,目標タスクの精度の向上を提案する。 広範な実験により,提案手法が最先端vp法を大きく上回ることを示した。 以下に示すように、ImageNet-pretrained ResNet-18を13のターゲットタスクに再プログラミングする場合、我々の手法はベースラインをかなり上回り、例えば、ターゲットのFlowers102とCIFAR100データセットへの変換学習の精度が7.9%と6.7%向上している。 さらに、CLIPベースのVPに関する提案では、Flowers102とDTDの精度がそれぞれ13.7%と7.1%向上している。 私たちのコードはhttps://github.com/OPTML-Group/ILM-VPで利用可能です。

We revisit and advance visual prompting (VP), an input prompting technique for vision tasks. VP can reprogram a fixed, pre-trained source model to accomplish downstream tasks in the target domain by simply incorporating universal prompts (in terms of input perturbation patterns) into downstream data points. Yet, it remains elusive why VP stays effective even given a ruleless label mapping (LM) between the source classes and the target classes. Inspired by the above, we ask: How is LM interrelated with VP? And how to exploit such a relationship to improve its accuracy on target tasks? We peer into the influence of LM on VP and provide an affirmative answer that a better 'quality' of LM (assessed by mapping precision and explanation) can consistently improve the effectiveness of VP. This is in contrast to the prior art where the factor of LM was missing. To optimize LM, we propose a new VP framework, termed ILM-VP (iterative label mapping-based visual prompting), which automatically re-maps the source labels to the target labels and progressively improves the target task accuracy of VP. Further, when using a contrastive language-image pretrained (CLIP) model, we propose to integrate an LM process to assist the text prompt selection of CLIP and to improve the target task accuracy. Extensive experiments demonstrate that our proposal significantly outperforms state-of-the-art VP methods. As highlighted below, we show that when reprogramming an ImageNet-pretrained ResNet-18 to 13 target tasks, our method outperforms baselines by a substantial margin, e.g., 7.9% and 6.7% accuracy improvements in transfer learning to the target Flowers102 and CIFAR100 datasets. Besides, our proposal on CLIP-based VP provides 13.7% and 7.1% accuracy improvements on Flowers102 and DTD respectively. Our code is available at https://github.com/OPTML-Group/ILM-VP.
翻訳日:2022-11-22 21:26:35 公開日:2022-11-21
# NeRF-RPN:NeRFにおける物体検出のための一般的なフレームワーク

NeRF-RPN: A general framework for object detection in NeRFs ( http://arxiv.org/abs/2211.11646v1 )

ライセンス: Link先を確認
Benran Hu (1), Junkai Huang (1), Yichen Liu (1), Yu-Wing Tai (1 and 2), Chi-Keung Tang (1) ((1) The Hong Kong University of Science and Technology, (2) Kuaishou Technology)(参考訳) 本稿では,NeRF上で直接動作する最初の重要な物体検出フレームワークであるNeRF-RPNを提案する。 NeRF-RPNは、事前訓練されたNeRFモデルにより、シーン内のすべてのオブジェクトの境界ボックスを検出することを目的としている。 マルチスケールの3次元ニューラルボリューム特徴を組み込んだ新しいボクセル表現を利用することで,NeRF内の物体の3次元境界ボックスを任意の視点でレンダリングすることなく直接回帰できることを実証する。 NeRF-RPNは一般的なフレームワークであり、クラスラベルなしでオブジェクトを検出できる。 我々は、NeRF-RPNを様々なバックボーンアーキテクチャ、RPNヘッド設計、損失関数で実験した。 それらはすべて、エンドツーエンドでトレーニングでき、高品質な3dバウンディングボックスを推定できる。 NeRFのオブジェクト検出の今後の研究を容易にするため、我々は、注意深くラベル付けしてクリーンアップした合成データと実世界のデータの両方からなる新しいベンチマークデータセットを構築した。 NeRF-RPNによる3D領域の提案を視覚化するために、 \href{https://youtu.be/M8_4Ih1CJjE}{video}を見てください。 コードとデータセットが利用可能になる。

This paper presents the first significant object detection framework, NeRF-RPN, which directly operates on NeRF. Given a pre-trained NeRF model, NeRF-RPN aims to detect all bounding boxes of objects in a scene. By exploiting a novel voxel representation that incorporates multi-scale 3D neural volumetric features, we demonstrate it is possible to regress the 3D bounding boxes of objects in NeRF directly without rendering the NeRF at any viewpoint. NeRF-RPN is a general framework and can be applied to detect objects without class labels. We experimented the NeRF-RPN with various backbone architectures, RPN head designs and loss functions. All of them can be trained in an end-to-end manner to estimate high quality 3D bounding boxes. To facilitate future research in object detection for NeRF, we built a new benchmark dataset which consists of both synthetic and real-world data with careful labeling and clean up. Please watch the \href{https://youtu.be/M8_4Ih1CJjE}{video} for visualizing the 3D region proposals by our NeRF-RPN. Code and dataset will be made available.
翻訳日:2022-11-22 21:26:05 公開日:2022-11-21
# PointCLIP V2: 強力な3Dオープンワールド学習のためのCLIP適応

PointCLIP V2: Adapting CLIP for Powerful 3D Open-world Learning ( http://arxiv.org/abs/2211.11682v1 )

ライセンス: Link先を確認
Xiangyang Zhu, Renrui Zhang, Bowei He, Ziyao Zeng, Shanghang Zhang, Peng Gao(参考訳) 対照的な言語イメージプリトレーニング(clip)では、2dイメージタスクでのオープンワールドのパフォーマンスが期待できるが、3dポイントクラウド上の転送能力、すなわちpointclipは、まだ満足できるレベルには程遠い。 本研究では,3dクラウド上のクリップの可能性を完全に解き放つために,強力な3dオープンワールド学習ツールであるpointclip v2を提案する。 まず,CLIPのビジュアルエンコーダのよりリアルな深度マップを生成するために,現実的な形状投影モジュールを導入する。 第2に,CLIPのテキストエンコーダに対して,より記述性の高い3Dセマンティックプロンプトを設計するために,大規模言語モデルを活用する。 3dドメインにトレーニングを導入することなく、ゼロショット3d分類のための3つのデータセットでpointclipを+42.90%、+40.44%、+28.75%の精度で大幅に上回っている。 さらに、PointCLIP V2は、簡単な方法で、少数ショット分類、ゼロショット部分分割、ゼロショット3Dオブジェクト検出に拡張することができ、3次元オープンワールド学習における優れた一般化能力を示すことができる。 コードはhttps://github.com/yangyangyang127/PointCLIP_V2で入手できる。

Contrastive Language-Image Pre-training (CLIP) has shown promising open-world performance on 2D image tasks, while its transferred capacity on 3D point clouds, i.e., PointCLIP, is still far from satisfactory. In this work, we propose PointCLIP V2, a powerful 3D open-world learner, to fully unleash the potential of CLIP on 3D point cloud data. First, we introduce a realistic shape projection module to generate more realistic depth maps for CLIP's visual encoder, which is quite efficient and narrows the domain gap between projected point clouds with natural images. Second, we leverage large-scale language models to automatically design a more descriptive 3D-semantic prompt for CLIP's textual encoder, instead of the previous hand-crafted one. Without introducing any training in 3D domains, our approach significantly surpasses PointCLIP by +42.90%, +40.44%, and +28.75% accuracy on three datasets for zero-shot 3D classification. Furthermore, PointCLIP V2 can be extended to few-shot classification, zero-shot part segmentation, and zero-shot 3D object detection in a simple manner, demonstrating our superior generalization ability for 3D open-world learning. Code will be available at https://github.com/yangyangyang127/PointCLIP_V2.
翻訳日:2022-11-22 21:25:45 公開日:2022-11-21
# Patch-based MLPとTransformerによる心エコーの非教師的登録

Unsupervised Echocardiography Registration through Patch-based MLPs and Transformers ( http://arxiv.org/abs/2211.11687v1 )

ライセンス: Link先を確認
Zihao Wang, Yingyu Yang, Maxime Sermesant, Herve Delingette(参考訳) 画像登録は医用画像処理において必須であるが困難な課題であり、特に心エコー図では解剖学的構造が他の画像モードと比較して比較的ノイズが多い。 従来の(非学習)登録アプローチは、通常時間の複雑さにコストがかかる類似度メトリックの反復的最適化に依存している。 近年,畳み込みニューラルネットワーク(CNN)に基づく画像登録手法が有効であることが示された。 一方,近年の研究では,注意に基づくモデル(トランスフォーマーなど)がパターン認識タスクにおいて優れた性能をもたらすことが示されている。 対照的に、Transformerの優れた性能が長めのアーキテクチャによるものなのか、それとも入力を分割するためのパッチの使用によるものなのかはまだ不明である。 MLPとトランスフォーマーを使った3つのパッチベースの画像登録フレームワークを導入する。 2d-echocardiographyの登録実験を行い、前者の質問に部分的に回答し、ベンチマークソリューションを提供する。 本研究の結果は, パッチベースMLP/Transformerモデルを用いて, 心エコー図記録に有効であることを示すものである。 人気のあるcnn登録モデルと同等で、さらに優れた登録性能を示している。 特にパッチベースのモデルは、ジャコビアン行列式の観点から体積変化を保存し、従って非現実的な変形が少なくロバストな登録フィールドを生成する。 提案手法は,注意であろうとなかろうと,適切な時間と空間の複雑さを伴って,高性能な教師なし登録作業を行うことができることを示す。 私たちのコードはhttps://gitlab.inria.fr/epione/mlp\_transformer\_registrationで利用可能です。

Image registration is an essential but challenging task in medical image computing, especially for echocardiography, where the anatomical structures are relatively noisy compared to other imaging modalities. Traditional (non-learning) registration approaches rely on the iterative optimization of a similarity metric which is usually costly in time complexity. In recent years, convolutional neural network (CNN) based image registration methods have shown good effectiveness. In the meantime, recent studies show that the attention-based model (e.g., Transformer) can bring superior performance in pattern recognition tasks. In contrast, whether the superior performance of the Transformer comes from the long-winded architecture or is attributed to the use of patches for dividing the inputs is unclear yet. This work introduces three patch-based frameworks for image registration using MLPs and transformers. We provide experiments on 2D-echocardiography registration to answer the former question partially and provide a benchmark solution. Our results on a large public 2D echocardiography dataset show that the patch-based MLP/Transformer model can be effectively used for unsupervised echocardiography registration. They demonstrate comparable and even better registration performance than a popular CNN registration model. In particular, patch-based models better preserve volume changes in terms of Jacobian determinants, thus generating robust registration fields with less unrealistic deformation. Our results demonstrate that patch-based learning methods, whether with attention or not, can perform high-performance unsupervised registration tasks with adequate time and space complexity. Our codes are available https://gitlab.inria.fr/epione/mlp\_transformer\_registration
翻訳日:2022-11-22 21:25:18 公開日:2022-11-21
# 画像キャプションのための離散拡散モデルの探索

Exploring Discrete Diffusion Models for Image Captioning ( http://arxiv.org/abs/2211.11694v1 )

ライセンス: Link先を確認
Zixin Zhu, Yixuan Wei, Jianfeng Wang, Zhe Gan, Zheng Zhang, Le Wang, Gang Hua, Lijuan Wang, Zicheng Liu, Han Hu(参考訳) 画像キャプションタスクは通常、テキストトークンを1つずつデコードする自動回帰メソッドによって実現される。 我々は,ddcapと呼ばれる拡散型キャプションモデルを提案する。 出力が一定長さで連続かつ冗長である画像生成とは異なり、画像キャプションのテキストはカテゴリー的であり、長さの異なる短い。 したがって, 離散拡散モデルをテキストデコーディングに適用することは, 実験で示したようにうまく機能しない。 パフォーマンスのギャップに対処するために,ベストファースト推論,集中注意マスク,テキスト長予測,イメージフリートレーニングなど,いくつかの重要な手法を提案する。 追加のキャプションなしのCOCOでは、CIDErスコアは117.8であり、制御された設定で同じアーキテクチャを持つ自動回帰ベースラインよりも+5.0高い。 オートレグレッシブベースライン(230.3 v.s.203.5)よりもキャプションインフィルタスクで+26.8高いCIDErスコアを実行する。 4Mビジョン言語による事前学習画像とベースサイズのモデルにより、COCO上でのCIDErスコア125.1に達する。 コードはhttps://github.com/buxiangzhiren/DDCapで入手できる。

The image captioning task is typically realized by an auto-regressive method that decodes the text tokens one by one. We present a diffusion-based captioning model, dubbed the name DDCap, to allow more decoding flexibility. Unlike image generation, where the output is continuous and redundant with a fixed length, texts in image captions are categorical and short with varied lengths. Therefore, naively applying the discrete diffusion model to text decoding does not work well, as shown in our experiments. To address the performance gap, we propose several key techniques including best-first inference, concentrated attention mask, text length prediction, and image-free training. On COCO without additional caption pre-training, it achieves a CIDEr score of 117.8, which is +5.0 higher than the auto-regressive baseline with the same architecture in the controlled setting. It also performs +26.8 higher CIDEr score than the auto-regressive baseline (230.3 v.s.203.5) on a caption infilling task. With 4M vision-language pre-training images and the base-sized model, we reach a CIDEr score of 125.1 on COCO, which is competitive to the best well-developed auto-regressive frameworks. The code is available at https://github.com/buxiangzhiren/DDCap.
翻訳日:2022-11-22 21:24:53 公開日:2022-11-21
# コンパクト・ビデオ・言語表現のための期待最大化コントラスト学習

Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations ( http://arxiv.org/abs/2211.11427v1 )

ライセンス: Link先を確認
Peng Jin, Jinfa Huang, Fenglin Liu, Xian Wu, Shen Ge, Guoli Song, David A. Clifton, Jie Chen(参考訳) ほとんどのビデオと言語による表現学習のアプローチでは、ビデオとテキストの機能をテキストとビデオのペアの意味的類似性に応じて共通の潜在空間に投影するために、対照的な学習を用いる。 しかし、そのような学習された共有潜在空間は必ずしも最適ではなく、視覚的表現とテキスト的表現のモダリティギャップを完全に排除することはできない。 本稿では,コンパクトなビデオ・言語表現を学習するための予測最大化コントラスト学習(EMCL)を提案する。 具体的には、期待最大化アルゴリズムを用いて潜在空間のコンパクトな基底集合を見つけ、そこで特徴をこれらの基底の線型結合として簡潔に表現することができる。 このようなビデオと言語表現の分解は潜在空間のランクを減少させ、意味論の表現力を高める。 3つのベンチマークテキスト・ビデオ検索データセットに関する広範囲な実験により、我々のemclは、以前の方法よりも差別的なビデオ・アンド・言語表現を学習でき、すべてのメトリクスで以前の最先端のメソッドを著しく上回っています。 さらに,提案手法は,既存の手法に組み込むのが容易になるように,余分なトレーニングを伴わない共同トレーニング層やアウト・オブ・ザ・ボックス推論モジュールとして,既存の手法の性能を高めるために適用することができる。

Most video-and-language representation learning approaches employ contrastive learning, e.g., CLIP, to project the video and text features into a common latent space according to the semantic similarities of text-video pairs. However, such learned shared latent spaces are not often optimal, and the modality gap between visual and textual representation can not be fully eliminated. In this paper, we propose Expectation-Maximization Contrastive Learning (EMCL) to learn compact video-and-language representations. Specifically, we use the Expectation-Maximization algorithm to find a compact set of bases for the latent space, where the features could be concisely represented as the linear combinations of these bases. Such feature decomposition of video-and-language representations reduces the rank of the latent space, resulting in increased representing power for the semantics. Extensive experiments on three benchmark text-video retrieval datasets prove that our EMCL can learn more discriminative video-and-language representations than previous methods, and significantly outperform previous state-of-the-art methods across all metrics. More encouragingly, the proposed method can be applied to boost the performance of existing approaches either as a jointly training layer or an out-of-the-box inference module with no extra training, making it easy to be incorporated into any existing methods.
翻訳日:2022-11-22 21:19:51 公開日:2022-11-21
# MATE:masked Autoencodersはオンラインの3Dテストタイム学習者

MATE: Masked Autoencoders are Online 3D Test-Time Learners ( http://arxiv.org/abs/2211.11432v1 )

ライセンス: Link先を確認
M. Jehanzeb Mirza, Inkyu Shin, Wei Lin, Andreas Schriebl, Kunyang Sun, Jaesung Choe, Horst Possegger, Mateusz Kozinski, In So Kweon, Kun-Jin Yoon, Horst Bischof(参考訳) 本稿では,3次元データを対象とした最初のテスト時間訓練(TTT)手法であるMATEを提案する。 これは、テストデータで発生する分散シフトに対して、ポイントクラウド分類でトレーニングされたディープネットワークを堅牢にする。 テスト時の分散シフトの存在下で2D画像の分類に重点を置いている既存のTTT方式と同様に、MATEはテストデータも活用している。 各テストポイントクラウドは、ネットワークに供給される前に、そのポイントの大部分を取り除き、フルポイントクラウドの再構築を行う。 ネットワークが更新されると、ポイントクラウドの分類に使用される。 我々は、複数の3次元オブジェクト分類データセット上でMATEを検証し、深層ネットワークのロバスト性を大幅に向上し、3Dポイントクラウドで一般的に発生するいくつかの種類の汚職に寄与することを示す。 さらに、MATE は適応に必要な点の分数の観点から非常に効率的であることを示す。 各テストサンプルのトークンの5%を効率的に適用することで、メモリフットプリントを削減し、軽量化することができる。 また、MATEはテストデータに緩やかに適応することで競合性能を実現し、その計算オーバーヘッドをさらに減らし、リアルタイムアプリケーションに最適であることも強調する。

We propose MATE, the first Test-Time-Training (TTT) method designed for 3D data. It makes deep networks trained in point cloud classification robust to distribution shifts occurring in test data, which could not be anticipated during training. Like existing TTT methods, which focused on classifying 2D images in the presence of distribution shifts at test-time, MATE also leverages test data for adaptation. Its test-time objective is that of a Masked Autoencoder: Each test point cloud has a large portion of its points removed before it is fed to the network, tasked with reconstructing the full point cloud. Once the network is updated, it is used to classify the point cloud. We test MATE on several 3D object classification datasets and show that it significantly improves robustness of deep networks to several types of corruptions commonly occurring in 3D point clouds. Further, we show that MATE is very efficient in terms of the fraction of points it needs for the adaptation. It can effectively adapt given as few as 5% of tokens of each test sample, which reduces its memory footprint and makes it lightweight. We also highlight that MATE achieves competitive performance by adapting sparingly on the test data, which further reduces its computational overhead, making it ideal for real-time applications.
翻訳日:2022-11-22 21:19:29 公開日:2022-11-21
# 高速軽量画像超解像のためのスイム変圧器のN-Gram

N-Gram in Swin Transformers for Efficient Lightweight Image Super-Resolution ( http://arxiv.org/abs/2211.11436v1 )

ライセンス: Link先を確認
Haram Choi, Jeongmin Lee and Jihoon Yang(参考訳) ウィンドウ自己アテンション(WSA)を持つSwin Transformer(SwinT)が単一画像超解像(SR)に適していることを示す研究もあるが、SwinTはウィンドウとシフトサイズによる高解像度画像の再構成には広い領域を無視している。 さらに、多くのディープラーニングsr手法は集中的な計算に苦しむ。 これらの問題に対処するため,N-Gramコンテキストを画像領域に導入した。 我々はN-GramをSwinTの隣接するローカルウィンドウと定義し、N-Gramを連続した文字や単語とみなすテキスト解析とは異なる。 N-GramはスライドWSAによって相互作用し、劣化したピクセルを復元する領域を広げる。 N-Gramコンテキストを用いて、SCDPボトルネックを持つ効率的なSRネットワークであるNGswinを提案し、階層エンコーダの出力を全て取り込む。 実験結果から,NGswinは従来の先行手法と比較して,効率的な構造を維持しつつ,競争性能を達成することが示された。 さらに、N-Gramコンテキストで他のSwinTベースのSR手法を改善し、SwinIR-NGという拡張モデルを構築する。 改良されたSwinIR-NGは、現在の最高の軽量SRアプローチよりも優れ、最先端の結果を確立する。 コードはもうすぐ入手できる。

While some studies have proven that Swin Transformer (SwinT) with window self-attention (WSA) is suitable for single image super-resolution (SR), SwinT ignores the broad regions for reconstructing high-resolution images due to window and shift size. In addition, many deep learning SR methods suffer from intensive computations. To address these problems, we introduce the N-Gram context to the image domain for the first time in history. We define N-Gram as neighboring local windows in SwinT, which differs from text analysis that views N-Gram as consecutive characters or words. N-Grams interact with each other by sliding-WSA, expanding the regions seen to restore degraded pixels. Using the N-Gram context, we propose NGswin, an efficient SR network with SCDP bottleneck taking all outputs of the hierarchical encoder. Experimental results show that NGswin achieves competitive performance while keeping an efficient structure, compared with previous leading methods. Moreover, we also improve other SwinT-based SR methods with the N-Gram context, thereby building an enhanced model: SwinIR-NG. Our improved SwinIR-NG outperforms the current best lightweight SR approaches and establishes state-of-the-art results. Codes will be available soon.
翻訳日:2022-11-22 21:19:07 公開日:2022-11-21
# 斜め表現による排除と外観変化による位置認識

Place Recognition under Occlusion and Changing Appearance via Disentangled Representations ( http://arxiv.org/abs/2211.11439v1 )

ライセンス: Link先を確認
Yue Chen, Xingyu Chen(参考訳) 位置認識は、データベースからクエリ画像と同じ場所で撮影された画像を取得することを目的として、移動ロボットにとって重要かつ困難なタスクである。 既存の方法は、ロボットが自律的に閉塞状態(車、バス、トラックなど)で動き、外観の変化(照明の変化、季節変動など)で失敗する傾向がある。 画像はたった1つのコードにエンコードされるため、外観と咬合の特徴が絡み合っている。 この制限を克服するために,画像表現を3つのコードに分解するための教師なし手法であるprocaを提案する。画像検索のためのディスクリプタとして使用されるプレースコード,外観特性をキャプチャする外観コード,閉塞内容のエンコードを行うオクルージョンコードである。 我々のモデルは最先端の手法よりも優れています。 私たちのコードとデータはhttps://github.com/rover-xingyu/procaで入手できます。

Place recognition is a critical and challenging task for mobile robots, aiming to retrieve an image captured at the same place as a query image from a database. Existing methods tend to fail while robots move autonomously under occlusion (e.g., car, bus, truck) and changing appearance (e.g., illumination changes, seasonal variation). Because they encode the image into only one code, entangling place features with appearance and occlusion features. To overcome this limitation, we propose PROCA, an unsupervised approach to decompose the image representation into three codes: a place code used as a descriptor to retrieve images, an appearance code that captures appearance properties, and an occlusion code that encodes occlusion content. Extensive experiments show that our model outperforms the state-of-the-art methods. Our code and data are available at https://github.com/rover-xingyu/PROCA.
翻訳日:2022-11-22 21:18:39 公開日:2022-11-21
# 画像編集のためのDelving StyleGANインバージョン

Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space Viewpoint ( http://arxiv.org/abs/2211.11448v1 )

ライセンス: Link先を確認
Hongyu Liu and Yibing Song and Qifeng Chen(参考訳) GANの変換とStyleGANによる編集は、入力された画像を埋め込み空間($\mathcal{W}$, $\mathcal{W^+}$, $\mathcal{F}$)にマッピングし、画像の忠実さと意味のある操作を同時に維持する。 潜在空間 $\mathcal{W}$ から拡張潜在空間 $\mathcal{W^+}$ から特徴空間 $\mathcal{F}$ まで、GAN反転の編集性は、その再構成品質が増大するにつれて低下する。 最近の GAN のインバージョン手法では、編集性を維持しながら再現性を改善するために $\mathcal{W^+}$ と $\mathcal{F}$ を探索する。 基本的にstyleganの基礎的潜在空間である$\mathcal{w}$から$\mathcal{w^+}$と$\mathcal{f}$が導出されるので、これらのgan反転法は$\mathcal{w^+}$と$\mathcal{f}$空間にフォーカスし、$\mathcal{w}$に戻ることで改善することができる。 本研究では,まず基礎的潜在空間 $\mathcal{w}$ で正確な潜在コードを取得することを提案する。 我々は、$\mathcal{w}$ と正確な潜在コード発見のための画像空間を調整するために、対比学習を導入する。 % を得るプロセスは、比較学習を用いて$\mathcal{w}$ と画像空間を整合させることである。 次に、クロスアテンションエンコーダを利用して、得られた潜在コードを$\mathcal{w}$と$\mathcal{w^+}$と$\mathcal{f}$に変換する。 我々の実験では、基礎的潜在空間である $\mathcal{w}$ の探索により、$\mathcal{w^+}$ の潜在コードの表現能力が向上し、$\mathcal{f}$ の機能が向上し、標準ベンチマークで最先端の再現性と編集性が得られた。 プロジェクトページ: \url{https://github.com/KumapowerLIU/CLCAE}。

GAN inversion and editing via StyleGAN maps an input image into the embedding spaces ($\mathcal{W}$, $\mathcal{W^+}$, and $\mathcal{F}$) to simultaneously maintain image fidelity and meaningful manipulation. From latent space $\mathcal{W}$ to extended latent space $\mathcal{W^+}$ to feature space $\mathcal{F}$ in StyleGAN, the editability of GAN inversion decreases while its reconstruction quality increases. Recent GAN inversion methods typically explore $\mathcal{W^+}$ and $\mathcal{F}$ rather than $\mathcal{W}$ to improve reconstruction fidelity while maintaining editability. As $\mathcal{W^+}$ and $\mathcal{F}$ are derived from $\mathcal{W}$ that is essentially the foundation latent space of StyleGAN, these GAN inversion methods focusing on $\mathcal{W^+}$ and $\mathcal{F}$ spaces could be improved by stepping back to $\mathcal{W}$. In this work, we propose to first obtain the precise latent code in foundation latent space $\mathcal{W}$. We introduce contrastive learning to align $\mathcal{W}$ and the image space for precise latent code discovery. %The obtaining process is by using contrastive learning to align $\mathcal{W}$ and the image space. Then, we leverage a cross-attention encoder to transform the obtained latent code in $\mathcal{W}$ into $\mathcal{W^+}$ and $\mathcal{F}$, accordingly. Our experiments show that our exploration of the foundation latent space $\mathcal{W}$ improves the representation ability of latent codes in $\mathcal{W^+}$ and features in $\mathcal{F}$, which yields state-of-the-art reconstruction fidelity and editability results on the standard benchmarks. Project page: \url{https://github.com/KumapowerLIU/CLCAE}.
翻訳日:2022-11-22 21:18:23 公開日:2022-11-21
# ClipCrop:ビジョンランゲージモデルによる条件付きクロップ

ClipCrop: Conditioned Cropping Driven by Vision-Language Model ( http://arxiv.org/abs/2211.11492v1 )

ライセンス: Link先を確認
Zhihang Zhong, Mingxi Cheng, Zhirong Wu, Yuhui Yuan, Yinqiang Zheng, Ji Li, Han Hu, Stephen Lin, Yoichi Sato, Imari Sato(参考訳) 画像のトリッピングはデータ駆動パラダイムの下で著しく進歩した。 しかし、現在のアプローチではユーザの意図は考慮されていないため、特に入力画像の構成が複雑である場合には問題となる。 さらに、収穫データのラベル付けはコストがかかり、データ量も制限されるため、現在のアルゴリズムの一般化性能は低下する。 本研究では,ロバストかつユーザ意図的な収穫アルゴリズム構築の基盤として,視覚言語モデルを活用する。 事前学習したCLIPベースの検出モデルOWL-ViTにトランスフォーマーデコーダを適応させることで,ユーザの意図を反映したテキストや画像クエリによるトリミングを行う手法を開発した。 さらに当社のパイプライン設計では,数百万のテキストイメージペアから取得したオープンボキャブラリー機能を継承しながら,小さなクロッピングデータセットでテキストコンディショニングによる美的クロッピングを学習することが可能です。 我々は、既存のデータセットに関する広範な実験と、コンテンツあいまいさを特徴とする新たなクロップテストセットを通じて、モデルを検証する。

Image cropping has progressed tremendously under the data-driven paradigm. However, current approaches do not account for the intentions of the user, which is an issue especially when the composition of the input image is complex. Moreover, labeling of cropping data is costly and hence the amount of data is limited, leading to poor generalization performance of current algorithms in the wild. In this work, we take advantage of vision-language models as a foundation for creating robust and user-intentional cropping algorithms. By adapting a transformer decoder with a pre-trained CLIP-based detection model, OWL-ViT, we develop a method to perform cropping with a text or image query that reflects the user's intention as guidance. In addition, our pipeline design allows the model to learn text-conditioned aesthetic cropping with a small cropping dataset, while inheriting the open-vocabulary ability acquired from millions of text-image pairs. We validate our model through extensive experiments on existing datasets as well as a new cropping test set we compiled that is characterized by content ambiguity.
翻訳日:2022-11-22 21:17:32 公開日:2022-11-21
# 全球オブジェクト中心表現を用いた合成シーンモデリング

Compositional Scene Modeling with Global Object-Centric Representations ( http://arxiv.org/abs/2211.11500v1 )

ライセンス: Link先を確認
Tonglin Chen, Bin Li, Zhimeng Shen and Xiangyang Xue(参考訳) 同じオブジェクトの外観は、視点とオブジェクト間の閉塞により、異なるシーンイメージで変化する可能性がある。 人間は、メモリ内の標準画像に基づいて閉塞された部分を完成させることで、たとえ閉塞物が存在するとしても、同じ物体を容易に識別することができる。 この能力を達成することは、特に教師なしの学習環境下で、機械学習にとって依然として課題である。 このような人間の能力に触発された本研究では,オブジェクトの標準画像のグローバルな表現を,監督なしに推測する合成シーンモデリング手法を提案する。 各対象の表現は、世界的不変情報(例えば、対象の標準表現)を特徴付ける内在的な部分と、シーンに依存した情報(例えば、位置や大きさ)を特徴付ける外在的な部分とに分けられる。 各オブジェクトの固有表現を推定するために、潜在的な隠蔽対象の表現をオブジェクトの正準表現と整合させるパッチマッチング戦略を採用し、償却変分推論によって決定されるオブジェクトのカテゴリに基づいて最も確率の高い正準表現をサンプリングする。 4つのオブジェクト中心学習ベンチマークを用いて広範な実験を行い,提案手法がセグメンテーションや再構成の面での最先端技術を上回るだけでなく,優れたグローバルオブジェクト識別性能を実現することを実証した。

The appearance of the same object may vary in different scene images due to perspectives and occlusions between objects. Humans can easily identify the same object, even if occlusions exist, by completing the occluded parts based on its canonical image in the memory. Achieving this ability is still a challenge for machine learning, especially under the unsupervised learning setting. Inspired by such an ability of humans, this paper proposes a compositional scene modeling method to infer global representations of canonical images of objects without any supervision. The representation of each object is divided into an intrinsic part, which characterizes globally invariant information (i.e. canonical representation of an object), and an extrinsic part, which characterizes scene-dependent information (e.g., position and size). To infer the intrinsic representation of each object, we employ a patch-matching strategy to align the representation of a potentially occluded object with the canonical representations of objects, and sample the most probable canonical representation based on the category of object determined by amortized variational inference. Extensive experiments are conducted on four object-centric learning benchmarks, and experimental results demonstrate that the proposed method not only outperforms state-of-the-arts in terms of segmentation and reconstruction, but also achieves good global object identification performance.
翻訳日:2022-11-22 21:17:15 公開日:2022-11-21
# バンドル調整ニューラルラミアンスフィールドの局所からグローバルへの登録

Local-to-Global Registration for Bundle-Adjusting Neural Radiance Fields ( http://arxiv.org/abs/2211.11505v1 )

ライセンス: Link先を確認
Yue Chen, Xingyu Chen, Xuan Wang, Qi Zhang, Yu Guo, Ying Shan and Fei Wang(参考訳) neural radiance fields (nerf) はフォトリアリスティックなノベルビュー合成を達成したが、正確なカメラポーズの必要性はその応用を制限する。 ニューラル3D表現を共同学習し、カメラフレームを登録するための分析バイシンセシス拡張は存在するが、初期化が不十分な場合、準最適解に感受性がある。 まず, 画素方向のフレキシブルアライメントと, フレーム方向の制約付きパラメトリックアライメントを併用したl2g-nerfを提案する。 画素ワイドな局所アライメントは、光度再構成誤差を最適化するディープネットワークを介して教師なしの方法で学習される。 画素対応の微分可能パラメータ推定ソルバを用いてフレーム毎の大域的アライメントを行い、大域的変換を求める。 合成および実世界のデータを用いた実験により,本手法は,高忠実度再構成と大型カメラのポーズ不一致の解消において,現在の最先端技術に勝ることが示された。 私たちのモジュールは簡単に使えるプラグインで、NeRFの変種や他のニューラルネットワークアプリケーションに適用できます。 コードと追加資料はhttps://rover-xingyu.github.io/L2G-NeRF/で公開されている。

Neural Radiance Fields (NeRF) have achieved photorealistic novel views synthesis; however, the requirement of accurate camera poses limits its application. Despite analysis-by-synthesis extensions for jointly learning neural 3D representations and registering camera frames exist, they are susceptible to suboptimal solutions if poorly initialized. We propose L2G-NeRF, a Local-to-Global registration method for bundle-adjusting Neural Radiance Fields: first, a pixel-wise flexible alignment, followed by a frame-wise constrained parametric alignment. Pixel-wise local alignment is learned in an unsupervised way via a deep network which optimizes photometric reconstruction errors. Frame-wise global alignment is performed using differentiable parameter estimation solvers on the pixel-wise correspondences to find a global transformation. Experiments on synthetic and real-world data show that our method outperforms the current state-of-the-art in terms of high-fidelity reconstruction and resolving large camera pose misalignment. Our module is an easy-to-use plugin that can be applied to NeRF variants and other neural field applications. The Code and supplementary materials are available at https://rover-xingyu.github.io/L2G-NeRF/.
翻訳日:2022-11-22 21:16:51 公開日:2022-11-21
# ProSFDA: プロンプト学習に基づく医用画像分割のためのソースフリードメイン適応

ProSFDA: Prompt Learning based Source-free Domain Adaptation for Medical Image Segmentation ( http://arxiv.org/abs/2211.11514v1 )

ライセンス: Link先を確認
Shishuai Hu, Zehui Liao, Yong Xia(参考訳) 異なる状況下で取得された医用画像間のドメインの相違は、臨床用途のためにトレーニング済みの医用画像分割モデルをデプロイする上で大きなハードルとなる。 膨大なデータサイズとプライバシの懸念から、トレーニングデータを事前学習したモデルで配布することは不可能であるため、ソースフリーの非教師なしドメイン適応(sfda)は、最近、擬似ラベルまたは事前知識に基づいて研究されている。 しかし, 疑似ラベルに基づくSFDAが使用する画像の特徴や確率マップ, 一貫性のある事前仮定, 事前誘導型SFDAが使用する事前予測ネットワークは, ドメイン不一致が大きいと信頼性が低下する可能性がある。 本稿では,医用画像のセグメンテーションのための‘textbf{Pro}mpt Learning based \textbf{SFDA}(\textbf{ProSFDA})法を提案する。 具体的には,ターゲットドメイン画像にドメイン認識プロンプトを追加してソースドメイン画像を推定し,統計アライメント損失を最小化してプロンプトを最適化し,(変化した)ターゲットドメイン画像上で信頼できる予測を生成するように,ソースモデルに促す。 また,特徴アライメントの段階では,ターゲットドメイン画像とそのスタイルを付加した特徴を調整してソースモデルを最適化し,コンパクトな特徴を抽出するためにモデルをプッシュする。 ProSFDAを2つのマルチドメイン医療画像セグメンテーションベンチマークで評価した。 以上の結果から,提案したProSFDAは,他のSFDA法よりも優れており,UDA法と同等であることが明らかとなった。 コードは \url{https://github.com/ShishuaiHu/ProSFDA} で入手できる。

The domain discrepancy existed between medical images acquired in different situations renders a major hurdle in deploying pre-trained medical image segmentation models for clinical use. Since it is less possible to distribute training data with the pre-trained model due to the huge data size and privacy concern, source-free unsupervised domain adaptation (SFDA) has recently been increasingly studied based on either pseudo labels or prior knowledge. However, the image features and probability maps used by pseudo label-based SFDA and the consistent prior assumption and the prior prediction network used by prior-guided SFDA may become less reliable when the domain discrepancy is large. In this paper, we propose a \textbf{Pro}mpt learning based \textbf{SFDA} (\textbf{ProSFDA}) method for medical image segmentation, which aims to improve the quality of domain adaption by minimizing explicitly the domain discrepancy. Specifically, in the prompt learning stage, we estimate source-domain images via adding a domain-aware prompt to target-domain images, then optimize the prompt via minimizing the statistic alignment loss, and thereby prompt the source model to generate reliable predictions on (altered) target-domain images. In the feature alignment stage, we also align the features of target-domain images and their styles-augmented counterparts to optimize the source model, and hence push the model to extract compact features. We evaluate our ProSFDA on two multi-domain medical image segmentation benchmarks. Our results indicate that the proposed ProSFDA outperforms substantially other SFDA methods and is even comparable to UDA methods. Code will be available at \url{https://github.com/ShishuaiHu/ProSFDA}.
翻訳日:2022-11-22 21:16:25 公開日:2022-11-21
# partal: マルチタスク視覚設定における効率的な部分アクティブラーニング

PartAL: Efficient Partial Active Learning in Multi-Task Visual Settings ( http://arxiv.org/abs/2211.11546v1 )

ライセンス: Link先を確認
Nikita Durasov, Nik Dorndorf, Pascal Fua(参考訳) マルチタスク学習は多くの実世界のアプリケーションの中心です。 残念なことに、すべてのタスクにラベル付きデータを取得するのは、時間がかかり、難しく、費用がかかる。 アクティブラーニング(AL)は、この負担を軽減するために使用できる。 既存のテクニックは一般的に、アノテートされるイメージを選択し、すべてのタスクにアノテーションを提供する。 本稿では,アノテートすべき画像だけでなく,alイテレーション毎にアノテーションを提供するタスクのサブセットを選択する方がより効果的であることを示す。 さらに、提供されるアノテーションは、未注釈のままのタスクの擬似ラベルを推測するために使用することができる。 複数のマルチタスクデータセットに対するアプローチの有効性を示す。

Multi-task learning is central to many real-world applications. Unfortunately, obtaining labelled data for all tasks is time-consuming, challenging, and expensive. Active Learning (AL) can be used to reduce this burden. Existing techniques typically involve picking images to be annotated and providing annotations for all tasks. In this paper, we show that it is more effective to select not only the images to be annotated but also a subset of tasks for which to provide annotations at each AL iteration. Furthermore, the annotations that are provided can be used to guess pseudo-labels for the tasks that remain unannotated. We demonstrate the effectiveness of our approach on several popular multi-task datasets.
翻訳日:2022-11-22 21:15:53 公開日:2022-11-21
# すべての組み合わせは等しいか? テキストベースビデオ検索のためのテキスト特徴と視覚特徴と多重空間学習の組み合わせ

Are All Combinations Equal? Combining Textual and Visual Features with Multiple Space Learning for Text-Based Video Retrieval ( http://arxiv.org/abs/2211.11351v1 )

ライセンス: Link先を確認
Damianos Galanopoulos, Vasileios Mezaris(参考訳) 本稿では,クロスモーダルビデオ検索の問題に取り組み,より具体的にはテキストからビデオへの検索に焦点をあてる。 テキストとビデオのペアを同等の表現にエンコードする、複数の共同特徴空間を生成する特徴対に、複数の多様なテキストと視覚的特徴を最適に組み合わせる方法について検討する。 これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。 さらに,検索段階では,推定されたクエリ・ビデオ類似性を修正するためのソフトマックス演算も導入する。 3つの大規模データセット(iacc.3, v3c1, msr-vt)に基づくいくつかのセットアップでの広範囲な実験は、テキスト・ビジュアル機能を最もよく組み合わせ、提案するネットワークのパフォーマンスを文書化する方法について結論を出す。 ソースコードは、https://github.com/bmezaris/TextToVideoRetrieval-TtimesVで公開されている。

In this paper we tackle the cross-modal video retrieval problem and, more specifically, we focus on text-to-video retrieval. We investigate how to optimally combine multiple diverse textual and visual features into feature pairs that lead to generating multiple joint feature spaces, which encode text-video pairs into comparable representations. To learn these representations our proposed network architecture is trained by following a multiple space learning procedure. Moreover, at the retrieval stage, we introduce additional softmax operations for revising the inferred query-video similarities. Extensive experiments in several setups based on three large-scale datasets (IACC.3, V3C1, and MSR-VTT) lead to conclusions on how to best combine text-visual features and document the performance of the proposed network. Source code is made publicly available at: https://github.com/bmezaris/TextToVideoRetrieval-TtimesV
翻訳日:2022-11-22 21:10:22 公開日:2022-11-21
# ロバスト画像分類のためのブラインド知識蒸留

Blind Knowledge Distillation for Robust Image Classification ( http://arxiv.org/abs/2211.11355v1 )

ライセンス: Link先を確認
Timo Kaiser, Lukas Ehmann, Christoph Reinders and Bodo Rosenhahn(参考訳) ノイズラベルによるニューラルネットワークの最適化は、特にラベルセットが現実世界のノイズを含んでいる場合、難しい課題である。 ネットワークは、初期のトレーニング段階において合理的なパターンに一般化し、後者の場合のノイズサンプルの特定の詳細に過剰に適合する傾向がある。 そこで本研究では,教師の発声をマスキングし,潜在的に損なわれる可能性のある知識をフィルタリングし,一般化から過失化までのチップポイントを推定し,ノイズラベルを用いた新しい教師・教師の学習手法を提案する。 これにより,大津アルゴリズムを用いて学習データ中の雑音の推定を行うことができる。 この推定により,重み付きクロスエントロピー損失関数を改良してネットワークを訓練する。 我々は、Blind Knowledge Distillationがトレーニング中に効果的に過剰適合を検出し、最近発表されたCIFAR-Nデータセット上でクリーンでノイズの多いラベルの検出を改善することを示す。 コードはGitHubで入手できる。

Optimizing neural networks with noisy labels is a challenging task, especially if the label set contains real-world noise. Networks tend to generalize to reasonable patterns in the early training stages and overfit to specific details of noisy samples in the latter ones. We introduce Blind Knowledge Distillation - a novel teacher-student approach for learning with noisy labels by masking the ground truth related teacher output to filter out potentially corrupted knowledge and to estimate the tipping point from generalizing to overfitting. Based on this, we enable the estimation of noise in the training data with Otsus algorithm. With this estimation, we train the network with a modified weighted cross-entropy loss function. We show in our experiments that Blind Knowledge Distillation detects overfitting effectively during training and improves the detection of clean and noisy labels on the recently published CIFAR-N dataset. Code is available at GitHub.
翻訳日:2022-11-22 21:10:04 公開日:2022-11-21
# ツリーアーキテクチャの学習は、畳み込みフィードフォワードネットワークより優れている

Learning on tree architectures outperforms a convolutional feedforward network ( http://arxiv.org/abs/2211.11378v1 )

ライセンス: Link先を確認
Yuval Meir, Itamar Ben-Noam, Yarden Tzach, Shiri Hodassman and Ido Kanter(参考訳) 高度なディープラーニングアーキテクチャは、数百に拡張され、生物学的実現には程遠い、完全に接続された、畳み込み型の隠れた層を何万も含んでいる。 生物学的ダイナミクスは、出力ユニットと重量の間の経路の数が典型的には大きいため、非局所的な方法で重量を変更することに基づいている。 ここでは,3層木アーキテクチャを用いたオフラインおよびオンラインCIFAR-10データベース学習が,5層畳み込みLeNetの達成可能な成功率を上回っている。 単一の経路が出力単位と重みを接続する高い刈り込み木バックプロパゲーション手順は、効率的な樹状深層学習を表現している。

Advanced deep learning architectures consist of tens of fully connected and convolutional hidden layers, which are already extended to hundreds, and are far from their biological realization. Their implausible biological dynamics is based on changing a weight in a non-local manner, as the number of routes between an output unit and a weight is typically large, using the backpropagation technique. Here, offline and online CIFAR-10 database learning on 3-layer tree architectures, inspired by experimental-based dendritic tree adaptations, outperforms the achievable success rates of the 5-layer convolutional LeNet. Its highly pruning tree backpropagation procedure, where a single route connects an output unit and a weight, represents an efficient dendritic deep learning.
翻訳日:2022-11-22 21:09:47 公開日:2022-11-21
# PS変換器:自己認識機構を用いたスパース測光ステレオネットワークの学習

PS-Transformer: Learning Sparse Photometric Stereo Network using Self-Attention Mechanism ( http://arxiv.org/abs/2211.11386v1 )

ライセンス: Link先を確認
Satoshi Ikehata(参考訳) 既存のディープキャリブレーションフォトメトリックステレオネットワークは、線形投影やマックスプーリングのような事前定義された操作に基づいて、異なる光の下での観測を基本的に集約する。 密接な捕獲では有効であるが、単純な一階演算では、少数の異なる光の下で観測される高次の相互作用を捉えることができないことが多い。 この問題に対処するために, 学習可能な自己認識機構を利用して複雑な画像間相互作用を適切に捕捉する, 細粒度キャリブレーションされた測光ステレオネットワーク {\it PS-Transformer} を提案する。 ps-transformerはデュアルブランチ設計を基盤とし、ピクセルと画像の両方の特徴を探索し、個々の特徴は幾何学的実現可能性の最大化のために中間面正規監督によって訓練される。 CyclesPS+と呼ばれる新しい合成データセットも、光度ステレオネットワークのトレーニングを成功させるために包括的な分析を施した。 公開ベンチマークデータセットの広範な結果は、提案手法の表面正規予測精度が、同じ入力画像数で他の最先端アルゴリズムを著しく上回り、10$\times$より多くの画像を入力する高密度アルゴリズムに匹敵することを示している。

Existing deep calibrated photometric stereo networks basically aggregate observations under different lights based on the pre-defined operations such as linear projection and max pooling. While they are effective with the dense capture, simple first-order operations often fail to capture the high-order interactions among observations under small number of different lights. To tackle this issue, this paper presents a deep sparse calibrated photometric stereo network named {\it PS-Transformer} which leverages the learnable self-attention mechanism to properly capture the complex inter-image interactions. PS-Transformer builds upon the dual-branch design to explore both pixel-wise and image-wise features and individual feature is trained with the intermediate surface normal supervision to maximize geometric feasibility. A new synthetic dataset named CyclesPS+ is also presented with the comprehensive analysis to successfully train the photometric stereo networks. Extensive results on the publicly available benchmark datasets demonstrate that the surface normal prediction accuracy of the proposed method significantly outperforms other state-of-the-art algorithms with the same number of input images and is even comparable to that of dense algorithms which input 10$\times$ larger number of images.
翻訳日:2022-11-22 21:09:32 公開日:2022-11-21
# TFormer:マルチモーダル皮膚病変診断のための核融合トランス

TFormer: A throughout fusion transformer for multi-modal skin lesion diagnosis ( http://arxiv.org/abs/2211.11393v1 )

ライセンス: Link先を確認
Yilan Zhang, Fengying Xie, Jianqi Chen, Jie Liu(参考訳) マルチモーダル皮膚病変診断(msld)は、深い畳み込みに基づく現代のコンピュータ支援診断技術によって顕著な成功を収めている。 しかし,msldの非整合空間分解能 (dermoscopic image and clinical image) と異種データ (dermoscopic image and patient' meta-data) により,msldにおけるモダリティ間の情報集約は依然として困難である。 内在的な局所的な注意によって制限された最近のmsldパイプラインは、純粋な畳み込みを使用して、浅い層で代表的な特徴を捉えるのに苦労しているため、異なるモダリティの融合は通常、パイプラインの最後に、最終層でも行われ、情報集約が不十分になる。 この問題に対処するため,MSLDで十分な情報交換を行うために,純粋なトランスフォーマーベースの手法「Throughout Fusion Transformer (TFormer)」を導入する。 畳み込みによる既存のアプローチとは異なり、提案されているネットワークはtransformerを特徴抽出バックボーンとして活用し、より典型的な浅い特徴をもたらす。 そこで我々は,2分岐階層型マルチモーダルトランス (HMT) ブロックのスタックを慎重に設計し,段階的に異なる画像モダリティ間で情報を融合する。 画像モダリティの集約情報により、マルチモーダルトランスフォーマーポストフュージョン(MTP)ブロックは、画像データと非画像データの間で機能を統合するように設計されている。 画像モダリティの情報を最初に融合させる戦略は、不均一な手法によって、モダリティ間のダイナミクスを効果的にモデル化しながら、2つの大きな課題をよりよく分割し、克服することができる。 公開Derm7ptデータセットで行った実験は,提案手法の優位性を検証した。 我々のTFormerは、他の最先端メソッドよりも優れています。 アブレーション実験は我々の設計の有効性も示唆している。

Multi-modal skin lesion diagnosis (MSLD) has achieved remarkable success by modern computer-aided diagnosis technology based on deep convolutions. However, the information aggregation across modalities in MSLD remains challenging due to severity unaligned spatial resolution (dermoscopic image and clinical image) and heterogeneous data (dermoscopic image and patients' meta-data). Limited by the intrinsic local attention, most recent MSLD pipelines using pure convolutions struggle to capture representative features in shallow layers, thus the fusion across different modalities is usually done at the end of the pipelines, even at the last layer, leading to an insufficient information aggregation. To tackle the issue, we introduce a pure transformer-based method, which we refer to as ``Throughout Fusion Transformer (TFormer)", for sufficient information intergration in MSLD. Different from the existing approaches with convolutions, the proposed network leverages transformer as feature extraction backbone, bringing more representative shallow features. We then carefully design a stack of dual-branch hierarchical multi-modal transformer (HMT) blocks to fuse information across different image modalities in a stage-by-stage way. With the aggregated information of image modalities, a multi-modal transformer post-fusion (MTP) block is designed to integrate features across image and non-image data. Such a strategy that information of the image modalities is firstly fused then the heterogeneous ones enables us to better divide and conquer the two major challenges while ensuring inter-modality dynamics are effectively modeled. Experiments conducted on the public Derm7pt dataset validate the superiority of the proposed method. Our TFormer outperforms other state-of-the-art methods. Ablation experiments also suggest the effectiveness of our designs.
翻訳日:2022-11-22 21:09:11 公開日:2022-11-21
# モデル圧縮のための低ランク表現の学習

Learning Low-Rank Representations for Model Compression ( http://arxiv.org/abs/2211.11397v1 )

ライセンス: Link先を確認
Zezhou Zhu, Yucong Zhou, Zhao Zhong(参考訳) ベクトル量子化(VQ)は、精度の低い小さなモデルを得るための魅力的なモデル圧縮法である。 固定クラスタリング次元の下でより優れたコードブックとコードを得る方法が広く研究されているが、特にベクトル次元の減少により、クラスタリング性能を優先するベクトルの最適化は慎重に検討されていない。 本稿では, 次元圧縮とベクトル量子化の組み合わせに関する最近の進歩を報告し, 様々なタスクやアーキテクチャにおいて, 従来のvqアルゴリズムを上回る低ランク表現ベクトル量子化 (\text{lr}^2\text{vq}$) 法を提案する。 $\text{LR}^2\text{VQ}$は、サブベクタクラスタリングとローランク表現を結合して、タスク損失に対してエンドツーエンドのトレーニングを通じて直接最適化された新しいタイプのビルディングブロックを構築する。 提案した設計パターンでは,3つのハイパーパラメータ,クラスタ数$k$,サブベクタのサイズ$m$,クラスタリング次元$\tilde{d}$を導入している。 この方法では圧縮比を直接$m$で制御することができ、最終的な精度は$\tilde{d}$で決定される。 我々は、低ランク近似誤差とクラスタリング誤差のトレードオフとして$\tilde{d}$を認識し、微調整の前に適切な$\tilde{d}$を推定する理論解析と実験観察の両方を行う。 適切な$\tilde{d}$で、imagenet分類データセットで$\text{lr}^2\text{vq}$をresnet-18/resnet-50で評価し、現在のvqベースの圧縮アルゴリズムよりも2.8\%/1.0\%top-1精度が43$\times$/31$\times$圧縮係数で向上した。

Vector Quantization (VQ) is an appealing model compression method to obtain a tiny model with less accuracy loss. While methods to obtain better codebooks and codes under fixed clustering dimensionality have been extensively studied, optimizations of the vectors in favour of clustering performance are not carefully considered, especially via the reduction of vector dimensionality. This paper reports our recent progress on the combination of dimensionality compression and vector quantization, proposing a Low-Rank Representation Vector Quantization ($\text{LR}^2\text{VQ}$) method that outperforms previous VQ algorithms in various tasks and architectures. $\text{LR}^2\text{VQ}$ joins low-rank representation with subvector clustering to construct a new kind of building block that is directly optimized through end-to-end training over the task loss. Our proposed design pattern introduces three hyper-parameters, the number of clusters $k$, the size of subvectors $m$ and the clustering dimensionality $\tilde{d}$. In our method, the compression ratio could be directly controlled by $m$, and the final accuracy is solely determined by $\tilde{d}$. We recognize $\tilde{d}$ as a trade-off between low-rank approximation error and clustering error and carry out both theoretical analysis and experimental observations that empower the estimation of the proper $\tilde{d}$ before fine-tunning. With a proper $\tilde{d}$, we evaluate $\text{LR}^2\text{VQ}$ with ResNet-18/ResNet-50 on ImageNet classification datasets, achieving 2.8\%/1.0\% top-1 accuracy improvements over the current state-of-the-art VQ-based compression algorithms with 43$\times$/31$\times$ compression factor.
翻訳日:2022-11-22 21:08:37 公開日:2022-11-21
# 暗黙のパラメトリックモーファブル歯科模型

An Implicit Parametric Morphable Dental Model ( http://arxiv.org/abs/2211.11402v1 )

ライセンス: Link先を確認
Congyi Zhang, Mohamed Elgharib, Gereon Fox, Min Gu, Christian Theobalt, Wenping Wang(参考訳) 3D Morphable model of the human body capture variation among subjects, and useful for reconstruction and editing application。 現在の歯科モデルは明示的なメッシュシーンの表現を使用し、歯のみをモデル化し、歯茎を無視している。 そこで本研究では, 歯肉およびガムのパラメトリック3d morphable dental modelを提案する。 我々のモデルは暗黙のシーン表現を使い、厳密に整列したスキャンから学習する。 これは、各歯と歯茎のコンポーネントワイド表現と、これら各コンポーネントの学習可能な潜在コードに基づいている。 また、テンプレート形状を学習することで、セグメンテーション、補間、歯の交換など、いくつかのアプリケーションを可能にする。 我々の復元品質は、新しいアプリケーションを実現しつつ、最も先進的なグローバルな暗黙の表現と同等です。 プロジェクトページ:https://vcai.mpi-inf.mpg.de/projects/DMM/

3D Morphable models of the human body capture variations among subjects and are useful in reconstruction and editing applications. Current dental models use an explicit mesh scene representation and model only the teeth, ignoring the gum. In this work, we present the first parametric 3D morphable dental model for both teeth and gum. Our model uses an implicit scene representation and is learned from rigidly aligned scans. It is based on a component-wise representation for each tooth and the gum, together with a learnable latent code for each of such components. It also learns a template shape thus enabling several applications such as segmentation, interpolation, and tooth replacement. Our reconstruction quality is on par with the most advanced global implicit representations while enabling novel applications. Project page: https://vcai.mpi-inf.mpg.de/projects/DMM/
翻訳日:2022-11-22 21:07:59 公開日:2022-11-21
# ブラーからの実世界運動のためのブラー補間変圧器

Blur Interpolation Transformer for Real-World Motion from Blur ( http://arxiv.org/abs/2211.11423v1 )

ライセンス: Link先を確認
Zhihang Zhong, Mingdeng Cao, Xiang Ji, Yinqiang Zheng, Imari Sato(参考訳) 本稿では,関節脱毛,補間,あるいは時間的超解像と呼ばれるボケから運動を回復する難題について検討する。 残る課題は2つあります 1) 現在の手法では, 合成データセット上でも, 視覚品質の改善の余地が十分残されている。 2)実世界データへの貧弱な一般化。 そこで本稿では, ボケに符号化された時間相関を効果的に解き出すために, ボケ補間変換器(BiT)を提案する。 マルチスケールの残差スウィン変圧器ブロックに基づいて, 時間変動のレンダリングに効果的な特徴を生成するために, 二端の時間監督と時間対称のセンシング戦略を導入する。 さらに,1対1のぼやけたビデオペアの実際のデータセットを収集するハイブリッドカメラシステムを設計した。 実験の結果、BiTはパブリックデータセットAdobe240の最先端メソッドよりも大幅に向上していることがわかった。 さらに、提案した実世界のデータセットは、実際のぼやけたシナリオに対してモデルを効果的に一般化するのに役立つ。

This paper studies the challenging problem of recovering motion from blur, also known as joint deblurring and interpolation or blur temporal super-resolution. The remaining challenges are twofold: 1) the current methods still leave considerable room for improvement in terms of visual quality even on the synthetic dataset, and 2) poor generalization to real-world data. To this end, we propose a blur interpolation transformer (BiT) to effectively unravel the underlying temporal correlation encoded in blur. Based on multi-scale residual Swin transformer blocks, we introduce dual-end temporal supervision and temporally symmetric ensembling strategies to generate effective features for time-varying motion rendering. In addition, we design a hybrid camera system to collect the first real-world dataset of one-to-many blur-sharp video pairs. Experimental results show that BiT has a significant gain over the state-of-the-art methods on the public dataset Adobe240. Besides, the proposed real-world dataset effectively helps the model generalize well to real blurry scenarios.
翻訳日:2022-11-22 21:07:46 公開日:2022-11-21
# 階層的最適輸送による教師なしドメイン適応

Unsupervised Domain Adaptation via Deep Hierarchical Optimal Transport ( http://arxiv.org/abs/2211.11424v1 )

ライセンス: Link先を確認
Yingxue Xu, Guihua Wen, Yang Hu, Pei Yang(参考訳) 教師なしドメイン適応は、ソースラベル付きデータを利用してラベルなしターゲットドメインの転送可能なモデルを推定することを目的とした課題である。 近年,OT(Optimal Transport)ベースの手法は,その競争性能から,ドメイン適応に有望な方向であることが証明されている。 しかし、これらの手法の多くは大まかに整列されたソースとターゲットの分布であり、ドメイン不変表現を学習しながらカテゴリ識別情報が混在するオーバーアライメントの問題につながる。 本稿では、教師なしドメイン適応のためのDeep Hierarchical Optimal Transport(DeepHOT)を提案する。 主な考え方は、階層的最適輸送を用いて、ドメインデータ間の豊富な構造的相関をマイニングすることで、ドメイン不変量とカテゴリ識別表現の両方を学ぶことである。 DeepHOTフレームワークはドメインレベルのOTとイメージレベルのOTで構成され、後者は前者の地上距離メートル法として使用される。 画像レベルのotは画像分類に有用な局所的な画像領域の構造的関連をキャプチャし、ドメインレベルのotはドメインの基盤となる幾何学を利用してドメイン不変表現を学習する。 しかし、計算複雑性が高いため、最適輸送ベースモデルはいくつかのシナリオで制限されている。 そこで本研究では,画像レベルOTにおけるワッサースタイン距離をスライスしたオリジンOTを近似し,領域レベルのOTに対して最小バッチ不均衡な最適トランスポートを用いることにより,DeepHOTフレームワークの堅牢かつ効率的な実装を提案する。 大規模な実験により、DeepHOTは4つのベンチマークデータセットで最先端のメソッドを上回っていることがわかった。 コードはGitHubでリリースされる。

Unsupervised domain adaptation is a challenging task that aims to estimate a transferable model for unlabeled target domain by exploiting source labeled data. Optimal Transport (OT) based methods recently have been proven to be a promising direction for domain adaptation due to their competitive performance. However, most of these methods coarsely aligned source and target distributions, leading to the over-aligned problem where the category-discriminative information is mixed up although domain-invariant representations can be learned. In this paper, we propose a Deep Hierarchical Optimal Transport method (DeepHOT) for unsupervised domain adaptation. The main idea is to use hierarchical optimal transport to learn both domain-invariant and category-discriminative representations by mining the rich structural correlations among domain data. The DeepHOT framework consists of a domain-level OT and an image-level OT, where the latter is used as the ground distance metric for the former. The image-level OT captures structural associations of local image regions that are beneficial to image classification, while the domain-level OT learns domain-invariant representations by leveraging the underlying geometry of domains. However, due to the high computational complexity, the optimal transport based models are limited in some scenarios. To this end, we propose a robust and efficient implementation of the DeepHOT framework by approximating origin OT with sliced Wasserstein distance in image-level OT and using a mini-batch unbalanced optimal transport for domain-level OT. Extensive experiments show that DeepHOT surpasses the state-of-the-art methods in four benchmark datasets. Code will be released on GitHub.
翻訳日:2022-11-22 21:07:26 公開日:2022-11-21
# マイクロ表現解析におけるデータ漏洩と評価問題

Data Leakage and Evaluation Issues in Micro-Expression Analysis ( http://arxiv.org/abs/2211.11425v1 )

ライセンス: Link先を確認
Tuomas Varanka, Yante Li, Wei Peng and Guoying Zhao(参考訳) 近年,様々な応用の可能性から,マイクロ表現への関心が高まっている。 しかし、コンピュータビジョン、機械学習、感情科学の分野から多くの課題を取り入れているため、この課題は難しい。 マイクロ表現の自発的かつ微妙な特性のため、利用可能なトレーニングとテストデータは限定され、評価が複雑になる。 マイクロ圧縮の文献では,データ漏洩と断片化評価プロトコルが問題となっている。 データリークの修正は、モデルのパフォーマンスを劇的に低下させ、場合によってはモデルがランダムな分類器と同じように振る舞うことさえある。 この目的のために,我々は共通の落とし穴を乗り越え,2000以上のマイクロ表現サンプルを持つ顔動作ユニットを用いた新しい標準化評価プロトコルを提案し,評価プロトコルを標準化したオープンソースライブラリを提供する。 コードは \url{https://github.com/tvaranka/meb} で入手できる。

Micro-expressions have drawn increasing interest lately due to various potential applications. The task is, however, difficult as it incorporates many challenges from the fields of computer vision, machine learning and emotional sciences. Due to the spontaneous and subtle characteristics of micro-expressions, the available training and testing data are limited, which make evaluation complex. We show that data leakage and fragmented evaluation protocols are issues among the micro-expression literature. We find that fixing data leaks can drastically reduce model performance, in some cases even making the models perform similarly to a random classifier. To this end, we go through common pitfalls, propose a new standardized evaluation protocol using facial action units with over 2000 micro-expression samples, and provide an open source library that implements the evaluation protocols in a standardized manner. Code will be available in \url{https://github.com/tvaranka/meb}.
翻訳日:2022-11-22 21:07:00 公開日:2022-11-21
# SeeABLE:Deepfakesのソフトな差異と境界付きコントラスト学習

SeeABLE: Soft Discrepancies and Bounded Contrastive Learning for Exposing Deepfakes ( http://arxiv.org/abs/2211.11296v1 )

ライセンス: Link先を確認
Nicolas Larue, Ngoc-Son Vu, Vitomir Struc, Peter Peer, Vassilis Christophides(参考訳) 現代のディープフェイク検出器は、トレーニングとテスト画像が同じコレクションから引き出されるとき、奨励的な結果を得た。 しかし、未知の手法で操作された顔にこれらの検出器を適用すると、通常かなりの性能低下が観測される。 本研究では, (一級) 分散検出タスクとして検出問題を定式化し, 未知のディープフェイクを一般化する, シーアブルと呼ばれる新しいディープフェイク検出器を提案する。 具体的には、新しいデータ拡張戦略を使用して、きめ細かい局所的な画像異常(ソフトディプレパンシーと呼ばれる)を合成し、新しい回帰ベースの有界コントラスト損失を用いて、これらのプリスタン破壊顔を予め定義されたプロトタイプにプッシュする。 未知のディープフェイクタイプへの可視性の一般化性能を高めるために, ソフトな差異を豊富に生成し, 検出器を訓練する。 (i)顔のどの部分が変更されたかを局在化すること、及び (ii) 変更タイプを特定する。 広く使われているデータセットに関する広範な実験により、SeeABLEは既存の検出器をかなり上回り、より単純なモデルを用いて、SoTAメソッドに対する検出精度の点でDFDCプレビューデータセットで+10\%のゲインを得た。 コードは公開される予定だ。

Modern deepfake detectors have achieved encouraging results, when training and test images are drawn from the same collection. However, when applying these detectors to faces manipulated using an unknown technique, considerable performance drops are typically observed. In this work, we propose a novel deepfake detector, called SeeABLE, that formalizes the detection problem as a (one-class) out-of-distribution detection task and generalizes better to unseen deepfakes. Specifically, SeeABLE uses a novel data augmentation strategy to synthesize fine-grained local image anomalies (referred to as soft-discrepancies) and pushes those pristine disrupted faces towards predefined prototypes using a novel regression-based bounded contrastive loss. To strengthen the generalization performance of SeeABLE to unknown deepfake types, we generate a rich set of soft discrepancies and train the detector: (i) to localize, which part of the face was modified, and (ii) to identify the alteration type. Using extensive experiments on widely used datasets, SeeABLE considerably outperforms existing detectors, with gains of up to +10\% on the DFDC-preview dataset in term of detection accuracy over SoTA methods while using a simpler model. Code will be made publicly available.
翻訳日:2022-11-22 21:02:17 公開日:2022-11-21
# H-VFI:大きな動きを持つビデオの階層的フレーム補間

H-VFI: Hierarchical Frame Interpolation for Videos with Large Motions ( http://arxiv.org/abs/2211.11309v1 )

ライセンス: Link先を確認
Changlin Li, Guangyang Wu, Yanan Sun, Xin Tao, Chi-Keung Tang, Yu-Wing Tai(参考訳) ニューラルネットワークの急速な発展により、最近のビデオフレーム補間(VFI)法は目覚ましい改善を遂げた。 しかし、大きな動きを含む現実世界のビデオには依然として不足している。 大きな動きによる複雑な変形や閉塞は、ビデオフレーム補間において非常に難しい問題となる。 本稿では,ビデオフレーム補間における大きな動きに対処する,単純で効果的なH-VFIを提案する。 H-VFIは階層型ビデオ補間変換器(HVIT)に寄与し、複数のスケールで粗大な戦略で変形可能なカーネルを学習する。 次に、学習可能な変形可能なカーネルを用いて入力フレームを畳み込み、補間フレームを予測する。 最小のスケールから始めて、H-VFIは、以前の予測されたカーネル、中間補間結果、トランスフォーマーからの階層的特徴に基づいて、変形可能なカーネルを逐次更新する。 最終的な出力を洗練するためのバイアスとマスクは、補間結果に基づいてトランスフォーマーブロックによって予測される。 このような漸進近似の利点は、大きな動きフレーム補間問題はいくつかの比較的単純なサブタスクに分解できるため、最終的な結果において非常に正確な予測が可能になることである。 もう1つの注目すべき貢献は、大規模な高品質なデータセットであるyoutube200kで、高解像度で高いフレームレートでキャプチャされた、さまざまなシナリオを描写したビデオを含んでいる。 複数のフレーム補間ベンチマークに関する広範囲な実験は、h-vfiが既存の最先端の手法、特に大きな動きの動画よりも優れていることを検証している。

Capitalizing on the rapid development of neural networks, recent video frame interpolation (VFI) methods have achieved notable improvements. However, they still fall short for real-world videos containing large motions. Complex deformation and/or occlusion caused by large motions make it an extremely difficult problem in video frame interpolation. In this paper, we propose a simple yet effective solution, H-VFI, to deal with large motions in video frame interpolation. H-VFI contributes a hierarchical video interpolation transformer (HVIT) to learn a deformable kernel in a coarse-to-fine strategy in multiple scales. The learnt deformable kernel is then utilized in convolving the input frames for predicting the interpolated frame. Starting from the smallest scale, H-VFI updates the deformable kernel by a residual in succession based on former predicted kernels, intermediate interpolated results and hierarchical features from transformer. Bias and masks to refine the final outputs are then predicted by a transformer block based on interpolated results. The advantage of such a progressive approximation is that the large motion frame interpolation problem can be decomposed into several relatively simpler sub-tasks, which enables a very accurate prediction in the final results. Another noteworthy contribution of our paper consists of a large-scale high-quality dataset, YouTube200K, which contains videos depicting a great variety of scenarios captured at high resolution and high frame rate. Extensive experiments on multiple frame interpolation benchmarks validate that H-VFI outperforms existing state-of-the-art methods especially for videos with large motions.
翻訳日:2022-11-22 21:01:51 公開日:2022-11-21
# ブラックボックス攻撃による骨格型人間行動認識の脆弱性理解

Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack ( http://arxiv.org/abs/2211.11312v1 )

ライセンス: Link先を確認
Yunfeng Diao, He Wang, Tianjia Shao, Yong-Liang Yang, Kun Zhou, David Hogg(参考訳) ヒューマンアクティビティ認識(har:human activity recognition)は、安全と生活が危険にさらされている自動運転車など、幅広いアプリケーションで採用されている。 近年,スケルトンベースのhar法の頑健性が,敵の攻撃に対する脆弱性から疑問視されている。 しかし、提案された攻撃は攻撃された分類器の完全な知識を必要とする。 本稿では,攻撃者がモデルの入出力のみにアクセスできる場合でも,そのような脅威が存在することを示す。 そこで本研究では,スケルトンベースのharにおいて,バザールと呼ばれるブラックボックス攻撃手法を初めて提案する。 BASARは分類境界と自然運動多様体の間の相互作用を探索する。 我々の知る限り、時系列に対する逆攻撃でデータ多様体が導入されたのはこれが初めてである。 玄武岩を通して、オンマニフォールドの反対側のサンプルは極めて欺かれやすく、骨格運動において一般的であるのに対し、逆さまのサンプルはオフマニフォールドしかないという共通の信念とは対照的である。 徹底的な評価を通じて,バザーは分類器,データセット,アタックモードにまたがって攻撃を成功させることができることを示した。 攻撃によって、BASARはモデル脆弱性の潜在的な原因を特定し、改善の可能性についての洞察を提供する。 最後に, 新たに同定された脅威を軽減するため, 混合多様体型対角訓練(MMAT)と呼ばれる, オン・オフ・マニフォールド対向サンプルの高度分布を利用する新たな対向訓練手法を提案する。 MMATは、分類精度を損なうことなく、敵の攻撃を防げる。

Human Activity Recognition (HAR) has been employed in a wide range of applications, e.g. self-driving cars, where safety and lives are at stake. Recently, the robustness of existing skeleton-based HAR methods has been questioned due to their vulnerability to adversarial attacks, which causes concerns considering the scale of the implication. However, the proposed attacks require the full-knowledge of the attacked classifier, which is overly restrictive. In this paper, we show such threats indeed exist, even when the attacker only has access to the input/output of the model. To this end, we propose the very first black-box adversarial attack approach in skeleton-based HAR called BASAR. BASAR explores the interplay between the classification boundary and the natural motion manifold. To our best knowledge, this is the first time data manifold is introduced in adversarial attacks on time series. Via BASAR, we find on-manifold adversarial samples are extremely deceitful and rather common in skeletal motions, in contrast to the common belief that adversarial samples only exist off-manifold. Through exhaustive evaluation, we show that BASAR can deliver successful attacks across classifiers, datasets, and attack modes. By attack, BASAR helps identify the potential causes of the model vulnerability and provides insights on possible improvements. Finally, to mitigate the newly identified threat, we propose a new adversarial training approach by leveraging the sophisticated distributions of on/off-manifold adversarial samples, called mixed manifold-based adversarial training (MMAT). MMAT can successfully help defend against adversarial attacks without compromising classification accuracy.
翻訳日:2022-11-22 21:01:24 公開日:2022-11-21
# 注意トークンを超えて:効率的な視覚トランスフォーマーのためのトークンの重要性と多様性

Beyond Attentive Tokens: Incorporating Token Importance and Diversity for Efficient Vision Transformers ( http://arxiv.org/abs/2211.11315v1 )

ライセンス: Link先を確認
Sifan Long and Zhen Zhao and Jimin Pi and Shengsheng Wang and Jingdong Wang(参考訳) 視覚トランスフォーマーは様々な視覚タスクにおいて大幅に改善されているが、トークン間の二次相互作用は計算効率を大幅に低下させる。 近年、効率的な視覚変換器のための冗長トークンを除去する多くのプルーニング法が提案されている。 しかし、既存の研究は主に局所的注意トークンを保存することの重要性に重点を置いているが、グローバルトークンの多様性を完全に無視している。 本稿では,多種多様なグローバルセマンティクスの重要さを強調し,トークンプルーニングにおけるトークンの重要性と多様性を共同で考慮できる効率的なトークンデカップリングとマージ手法を提案する。 クラストークンの注意に従って、注意トークンと注意トークンを分離します。 最も差別的な局所トークンを保存することに加えて、同様の不注意トークンをマージし、均一な注意トークンとマッチングしてトークンの多様性を最大化する。 その単純さにもかかわらず、モデル複雑性と分類精度の間に有望なトレードオフが得られる。 DeiT-Sでは,0.2%の精度低下でFLOPを35%削減する。 特に,トークンの多様性を維持することで,FLOPを40%減らした後,DeiT-Tの精度を0.1%向上させることができる。

Vision transformers have achieved significant improvements on various vision tasks but their quadratic interactions between tokens significantly reduce computational efficiency. Many pruning methods have been proposed to remove redundant tokens for efficient vision transformers recently. However, existing studies mainly focus on the token importance to preserve local attentive tokens but completely ignore the global token diversity. In this paper, we emphasize the cruciality of diverse global semantics and propose an efficient token decoupling and merging method that can jointly consider the token importance and diversity for token pruning. According to the class token attention, we decouple the attentive and inattentive tokens. In addition to preserving the most discriminative local tokens, we merge similar inattentive tokens and match homogeneous attentive tokens to maximize the token diversity. Despite its simplicity, our method obtains a promising trade-off between model complexity and classification accuracy. On DeiT-S, our method reduces the FLOPs by 35% with only a 0.2% accuracy drop. Notably, benefiting from maintaining the token diversity, our method can even improve the accuracy of DeiT-T by 0.1% after reducing its FLOPs by 40%.
翻訳日:2022-11-22 21:00:39 公開日:2022-11-21
# elegantseg: 大規模画像セマンティクスセグメンテーションのためのエンドツーエンド総合学習

ElegantSeg: End-to-End Holistic Learning for Extra-Large Image Semantic Segmentation ( http://arxiv.org/abs/2211.11316v1 )

ライセンス: Link先を確認
Wei Chen, Yansheng Li, Bo Dang, Yongjun Zhang(参考訳) 本稿では,超大規模画像セマンティクスセグメンテーション(eliss)を包括的に処理可能な,超大規模画像セマンティクスセグメンテーションのための新しいパラダイムを提案する。 超大型画像(elis)の非常に大きなサイズは、gpuメモリの枯渇を引き起こす傾向がある。 この問題に取り組むためには、グローバル・ローカル・フュージョン・パイプラインに従うか、マルチステージ・リファインメントを行う。 これらの手法は一度に限られた情報のみを処理でき、ELIの豊富な情報を徹底的に活用することはできない。 従来の方法とは異なり、エレガントsegはテンソルストレージをgpuメモリからホストメモリに拡張することで、総合的なelisをエレガントに処理できる。 私たちの知る限りでは、ELISSをホリスティックに行うのは初めてです。 さらに、ElegantSegは、長距離依存性を開発するための複数の大きなカーネルモジュール、全体的コンテキスト関係を構築するための効率的なクラス関係モジュール、完全なオブジェクト境界を得るための境界認識拡張モジュールを含む、ELIの特性を利用するための3つのモジュールを特別に設計している。 ElegantSegは2つの典型的なELISSデータセットにおいて、これまでの最先端よりも優れている。 ElegantSegがELISSの新しい視点を開拓できることを願っています。 コードとモデルは公開される予定だ。

This paper presents a new paradigm for Extra-large image semantic Segmentation, called ElegantSeg, that capably processes holistic extra-large image semantic segmentation (ELISS). The extremely large sizes of extra-large images (ELIs) tend to cause GPU memory exhaustion. To tackle this issue, prevailing works either follow the global-local fusion pipeline or conduct the multi-stage refinement. These methods can only process limited information at one time, and they are not able to thoroughly exploit the abundant information in ELIs. Unlike previous methods, ElegantSeg can elegantly process holistic ELISS by extending the tensor storage from GPU memory to host memory. To the best of our knowledge, it is the first time that ELISS can be performed holistically. Besides, ElegantSeg is specifically designed with three modules to utilize the characteristics of ELIs, including the multiple large kernel module for developing long-range dependency, the efficient class relation module for building holistic contextual relationships, and the boundary-aware enhancement module for obtaining complete object boundaries. ElegantSeg outperforms previous state-of-the-art on two typical ELISS datasets. We hope that ElegantSeg can open a new perspective for ELISS. The code and models will be made publicly available.
翻訳日:2022-11-22 21:00:20 公開日:2022-11-21
# destseg: 異常検出のための分節化指導学生教師

DeSTSeg: Segmentation Guided Denoising Student-Teacher for Anomaly Detection ( http://arxiv.org/abs/2211.11317v1 )

ライセンス: Link先を確認
Xuan Zhang, Shiyu Li, Xi Li, Ping Huang, Jiulong Shan, Ting Chen(参考訳) コンピュータビジョンにおける重要な問題である視覚異常検出は、通常、一級分類とセグメンテーションタスクとして定式化される。 学生教育者(S-T)フレームワークは,この課題の解決に有効であることが証明されている。 しかし、S-Tに基づく以前の研究は、通常のデータと融合した多レベル情報に制限を経験的にのみ適用した。 本研究では,教師ネットワークの事前学習,学生エンコーダ復号化,セグメンテーションネットワークを1つのフレームワークに統合した,destsegと呼ばれる改良モデルを提案する。 まず,異常データに対する制約を強化するため,学生ネットワークがより強固な表現を学習できるようにする。 通常の画像から,生徒ネットワークを訓練し,同じ画像の教師ネットワーク機能に腐敗を伴わずに対応させる。 第2に,多レベルS-T機能を適応的に融合させるため,合成異常マスクを多用したセグメンテーションネットワークを訓練し,大幅な性能向上を実現した。 産業検査ベンチマークによる評価の結果,画像レベルのROCは98.6%,画素レベルの平均精度は75.8%,インスタンスレベルの平均精度は76.4%であった。

Visual anomaly detection, an important problem in computer vision, is usually formulated as a one-class classification and segmentation task. The student-teacher (S-T) framework has proved to be effective in solving this challenge. However, previous works based on S-T only empirically applied constraints on normal data and fused multi-level information. In this study, we propose an improved model called DeSTSeg, which integrates a pre-trained teacher network, a denoising student encoder-decoder, and a segmentation network into one framework. First, to strengthen the constraints on anomalous data, we introduce a denoising procedure that allows the student network to learn more robust representations. From synthetically corrupted normal images, we train the student network to match the teacher network feature of the same images without corruption. Second, to fuse the multi-level S-T features adaptively, we train a segmentation network with rich supervision from synthetic anomaly masks, achieving a substantial performance improvement. Experiments on the industrial inspection benchmark dataset demonstrate that our method achieves state-of-the-art performance, 98.6% on image-level ROC, 75.8% on pixel-level average precision, and 76.4% on instance-level average precision.
翻訳日:2022-11-22 20:59:56 公開日:2022-11-21
# 神経暗黙的表面再構成の細部回復

Recovering Fine Details for Neural Implicit Surface Reconstruction ( http://arxiv.org/abs/2211.11320v1 )

ライセンス: Link先を確認
Decai Chen, Peng Zhang, Ingo Feldmann, Oliver Schreer, Peter Eisert(参考訳) 暗黙の神経表現に関する最近の研究は大きな進歩を遂げている。 ボリュームレンダリングを用いた暗黙的なニューラルサーフェス学習は、3D監督なしで多視点再構成で人気を博している。 しかし,幾何学と外観表現の曖昧さが背景にあるため,細部を精密に復元することは依然として困難である。 本稿では,微細な幾何学的詳細を復元可能なボリュームレンダリングベースニューラルネットワークによる暗黙表面再構成手法であるD-NeuSについて述べる。 まず,SDFから密度への変換による幾何学的偏差を緩和し,α合成から符号付き距離値のゼロにすることを推奨する。 第2に,光線に沿ったサンプル点からsdf零交差を補間することにより,表面点に多視点特徴一貫性を課す。 広範囲にわたる定量的・定性的な結果から,本手法は高精度な表面を細部で再構成し,その性能を上回った。

Recent works on implicit neural representations have made significant strides. Learning implicit neural surfaces using volume rendering has gained popularity in multi-view reconstruction without 3D supervision. However, accurately recovering fine details is still challenging, due to the underlying ambiguity of geometry and appearance representation. In this paper, we present D-NeuS, a volume rendering-base neural implicit surface reconstruction method capable to recover fine geometry details, which extends NeuS by two additional loss functions targeting enhanced reconstruction quality. First, we encourage the rendered surface points from alpha compositing to have zero signed distance values, alleviating the geometry bias arising from transforming SDF to density for volume rendering. Second, we impose multi-view feature consistency on the surface points, derived by interpolating SDF zero-crossings from sampled points along rays. Extensive quantitative and qualitative results demonstrate that our method reconstructs high-accuracy surfaces with details, and outperforms the state of the art.
翻訳日:2022-11-22 20:59:33 公開日:2022-11-21
# slow motion matters: 弱教師付き時間行動定位のための低速動作強化ネットワーク

Slow Motion Matters: A Slow Motion Enhanced Network for Weakly Supervised Temporal Action Localization ( http://arxiv.org/abs/2211.11324v1 )

ライセンス: Link先を確認
Weiqi Sun, Rui Su, Qian Yu and Dong Xu(参考訳) weakly supervised temporal action localization (wtal) は、弱い監督情報(例えばビデオレベルラベル)しか持たない未トリミングビデオのアクションをローカライズすることを目的としている。 既存のモデルでは、すべての入力ビデオを一定時間スケールで処理する。 しかし、このようなモデルでは、動きのペースが「通常」の速度、特に「通常」の速度よりもはるかに遅い速度で動きを完了させるスローモーションのアクションインスタンスと異なるアクションに敏感ではない。ここでは、スローモーションのぼやけた問題が発生する:「通常」の速度でビデオから顕著なスローモーション情報を探索することは困難である。 本稿では,スローモーション・アクション・セグメントの感度を補償することにより,wtalネットワークの能力を向上させるための新しい枠組みであるスローモーション・エンハンスメント・ネットワーク(smen)を提案する。 提案するsmenはマイニングモジュールとローカライゼーションモジュールとからなる。 マイニングモジュールは、通常の動きとスローモーションの関係を利用して、スローモーション関連特徴をマイニングするマスクを生成するが、ローカライゼーションモジュールは、マイニングしたスローモーション特徴を補完情報として活用し、時間的動作ローカライゼーション結果を改善する。 提案するフレームワークは既存のWTALネットワークで容易に適用でき、スローモーション動作に対してより敏感になる。 3つのベンチマークに関する広範囲な実験を行い,提案フレームワークの性能を実証した。

Weakly supervised temporal action localization (WTAL) aims to localize actions in untrimmed videos with only weak supervision information (e.g. video-level labels). Most existing models handle all input videos with a fixed temporal scale. However, such models are not sensitive to actions whose pace of the movements is different from the ``normal" speed, especially slow-motion action instances, which complete the movements with a much slower speed than their counterparts with a normal speed. Here arises the slow-motion blurred issue: It is hard to explore salient slow-motion information from videos at ``normal" speed. In this paper, we propose a novel framework termed Slow Motion Enhanced Network (SMEN) to improve the ability of a WTAL network by compensating its sensitivity on slow-motion action segments. The proposed SMEN comprises a Mining module and a Localization module. The mining module generates mask to mine slow-motion-related features by utilizing the relationships between the normal motion and slow motion; while the localization module leverages the mined slow-motion features as complementary information to improve the temporal action localization results. Our proposed framework can be easily adapted by existing WTAL networks and enable them be more sensitive to slow-motion actions. Extensive experiments on three benchmarks are conducted, which demonstrate the high performance of our proposed framework.
翻訳日:2022-11-22 20:59:15 公開日:2022-11-21
# 半教師付き意味セグメンテーションのインスタンス固有およびモデル適応的監督

Instance-specific and Model-adaptive Supervision for Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2211.11335v1 )

ライセンス: Link先を確認
Zhen Zhao and Sifan Long and Jimin Pi and Jingdong Wang and Luping Zhou(参考訳) 近年,半教師付きセマンティックセグメンテーションは少数のラベル付きデータで有望な性能を実現している。 しかし、既存の研究の多くは、すべてのラベルのないデータを等しく扱い、ラベルのないインスタンスの違いやトレーニングの難しさをほとんど考慮していない。 ラベルなしインスタンスの差別化は、モデルの進化に動的に対応するためにインスタンス固有の監督を促進することができる。 本稿では, インスタンス差分の重要性を強調し, iMAS という半教師付きセマンティックセマンティックセグメンテーションのためのインスタンス固有かつモデル適応型の監視手法を提案する。 モデルの性能に基づいて、iMASはクラス重み付き対称交叉結合を用いて、各未ラベルデータの量的硬さを評価し、モデル適応的な方法で未ラベルデータのトレーニングを監督する。 具体的には、評価された硬度に基づいて対応する一貫性損失を重み付けて、ラベルのないインスタンスから段階的に学習する。 さらに、拡張インスタンスの歪み度がトレーニングコース全体のモデルの一般化能力に適合するように、各インスタンスの拡張度を動的に調整する。 iMASは、追加の損失とトレーニング手順を統合することなく、異なる半教師付きパーティションプロトコルの下でのセグメンテーションベンチマークにおける最先端のアプローチに対して、顕著なパフォーマンス向上を得ることができる。

Recently, semi-supervised semantic segmentation has achieved promising performance with a small fraction of labeled data. However, most existing studies treat all unlabeled data equally and barely consider the differences and training difficulties among unlabeled instances. Differentiating unlabeled instances can promote instance-specific supervision to adapt to the model's evolution dynamically. In this paper, we emphasize the cruciality of instance differences and propose an instance-specific and model-adaptive supervision for semi-supervised semantic segmentation, named iMAS. Relying on the model's performance, iMAS employs a class-weighted symmetric intersection-over-union to evaluate quantitative hardness of each unlabeled instance and supervises the training on unlabeled data in a model-adaptive manner. Specifically, iMAS learns from unlabeled instances progressively by weighing their corresponding consistency losses based on the evaluated hardness. Besides, iMAS dynamically adjusts the augmentation for each instance such that the distortion degree of augmented instances is adapted to the model's generalization capability across the training course. Not integrating additional losses and training procedures, iMAS can obtain remarkable performance gains against current state-of-the-art approaches on segmentation benchmarks under different semi-supervised partition protocols.
翻訳日:2022-11-22 20:58:49 公開日:2022-11-21
# room with text: テキスト検出をオーバーレイするためのデータセット

Rooms with Text: A Dataset for Overlaying Text Detection ( http://arxiv.org/abs/2211.11350v1 )

ライセンス: Link先を確認
Oleg Smirnov, Aditya Tewari(参考訳) 本稿では,25の製品カテゴリに4836の注釈付き画像を含む,オーバレイとシーンテキストを用いた室内画像の新しいデータセットを提案する。 データセットの収集とアノテーションのプロセスの詳細を提供し、統計を分析します。 さらに,文字領域認識型テキスト検出フレームワークを利用して分類モデルを導出する,重ね合わせテキスト検出のベースライン手法を提案する。 提案手法の妥当性を検証し,2値分類指標による効率性を示し,0.95 F1スコア,偽陰性率0.02,偽陰性率0.006に到達した。

In this paper, we introduce a new dataset of room interior pictures with overlaying and scene text, totalling to 4836 annotated images in 25 product categories. We provide details on the collection and annotation process of our dataset, and analyze its statistics. Furthermore, we propose a baseline method for overlaying text detection, that leverages the character region-aware text detection framework to guide the classification model. We validate our approach and show its efficiency in terms of binary classification metrics, reaching the final performance of 0.95 F1 score, with false positive and false negative rates of 0.02 and 0.06 correspondingly.
翻訳日:2022-11-22 20:58:13 公開日:2022-11-21
# 単眼視覚を用いた3次元モデル注入による複数物体同時検出とポーズ推定

Simultaneous Multiple Object Detection and Pose Estimation using 3D Model Infusion with Monocular Vision ( http://arxiv.org/abs/2211.11188v1 )

ライセンス: Link先を確認
Congliang Li, Shijie Sun, Xiangyu Song, Huansheng Song, Naveed Akhtar and Ajmal Saeed Mian(参考訳) 複数の物体検出とポーズ推定は重要なコンピュータビジョンタスクである。 後者は、ロボティクスや自動運転といったアプリケーションにおける下流の問題として、前者に関連している。 しかし、両方のタスクの複雑さが高いため、既存のメソッドは一般にそれらを独立して扱う。 本稿では,単眼視と3次元モデルを用いた同時ニューラルモデリングを提案する。 我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、効率的な下流ポーズ推定のためのアンカーフリー検出の利点を提供する複合損失を持つエンドツーエンドのトレーニング可能なマルチタスクネットワークである。 学習目的のトレーニングデータのアノテーションを可能にするために,双空間オブジェクトラベリング法を開発し,解析的および経験的にその正確性を示す。 ラベル付け手法を用いて、KITTI-6DoFデータセットに$\sim7.5$Kのアノテートフレームを提供する。 KITTI-6DoFとLineModデータセットの大規模な実験は、既存のポーズ推定法よりもSMOPE-Netで一貫したパフォーマンス向上を示している。 以下は、提案した \href{https://anonymous.4open.science/r/SMOPE-Net-D3DF}{SMOPE-Net}、 \href{https://anonymous.4open.science/r/LabelImg3D-6B16}{KITTI-6DoF dataset}、および \href{https://anonymous.4open.science/r/LabelImg3D-6B16}{LabelImg3Dラベルツールへのリンクである。

Multiple object detection and pose estimation are vital computer vision tasks. The latter relates to the former as a downstream problem in applications such as robotics and autonomous driving. However, due to the high complexity of both tasks, existing methods generally treat them independently, which is sub-optimal. We propose simultaneous neural modeling of both using monocular vision and 3D model infusion. Our Simultaneous Multiple Object detection and Pose Estimation network (SMOPE-Net) is an end-to-end trainable multitasking network with a composite loss that also provides the advantages of anchor-free detections for efficient downstream pose estimation. To enable the annotation of training data for our learning objective, we develop a Twin-Space object labeling method and demonstrate its correctness analytically and empirically. Using the labeling method, we provide the KITTI-6DoF dataset with $\sim7.5$K annotated frames. Extensive experiments on KITTI-6DoF and the popular LineMod datasets show a consistent performance gain with SMOPE-Net over existing pose estimation methods. Here are links to our proposed \href{https://anonymous.4open.science/r/SMOPE-Net-D3DF}{SMOPE-Net}, \href{https://anonymous.4open.science/r/LabelImg3D-6B16}{KITTI-6DoF dataset}, and \href{https://anonymous.4open.science/r/LabelImg3D-6B16}{LabelImg3D labeling tool}.
翻訳日:2022-11-22 20:53:05 公開日:2022-11-21
# VQAにおけるロバスト推論のためのクロスモーダルコントラスト学習

Cross-Modal Contrastive Learning for Robust Reasoning in VQA ( http://arxiv.org/abs/2211.11190v1 )

ライセンス: Link先を確認
Qi Zheng, Chaoyue Wang, Daqing Liu, Dadong Wang, Dacheng Tao(参考訳) 視覚的質問応答(VQA)におけるマルチモーダル推論は,近年急速に進展している。 しかし、ほとんどの推論モデルは、トレーニングデータから学んだショートカットに大きく依存しており、実世界のシナリオでの使用を妨げている。 本稿では,不均衡なアノテーションによるショートカット推論を排除し,全体的な性能を向上させるための,単純かつ効果的な相互比較学習戦略を提案する。 粗度(画像,質問,回答)の複雑な負のカテゴリを持つ既存のコントラスト学習とは違い,言語と画像モダリティの対応を利用して,よりきめ細かいクロスモーダルコントラスト学習を行う。 各質問応答(QA)ペアを全体として扱い、それに対応する画像とそれに対応する画像とを区別する。 バイアスをサンプリングする問題を緩和するため,画像間のコネクテッドグラフを更に構築する。 各正のペアに対して、異なるグラフからのイメージを負のサンプルとみなし、マルチ陽性コントラスト学習のバージョンを導出する。 我々の知る限り、繊細な手工規則のない一般的なコントラスト学習戦略が、堅牢なVQA推論に寄与することを示す最初の論文である。 いくつかの主流VQAデータセットの実験は、芸術の状況と比較して、私たちの優位性を示している。 コードは \url{https://github.com/qizhust/cmcl_vqa_pl} で入手できる。

Multi-modal reasoning in visual question answering (VQA) has witnessed rapid progress recently. However, most reasoning models heavily rely on shortcuts learned from training data, which prevents their usage in challenging real-world scenarios. In this paper, we propose a simple but effective cross-modal contrastive learning strategy to get rid of the shortcut reasoning caused by imbalanced annotations and improve the overall performance. Different from existing contrastive learning with complex negative categories on coarse (Image, Question, Answer) triplet level, we leverage the correspondences between the language and image modalities to perform finer-grained cross-modal contrastive learning. We treat each Question-Answer (QA) pair as a whole, and differentiate between images that conform with it and those against it. To alleviate the issue of sampling bias, we further build connected graphs among images. For each positive pair, we regard the images from different graphs as negative samples and deduct the version of multi-positive contrastive learning. To our best knowledge, it is the first paper that reveals a general contrastive learning strategy without delicate hand-craft rules can contribute to robust VQA reasoning. Experiments on several mainstream VQA datasets demonstrate our superiority compared to the state of the arts. Code is available at \url{https://github.com/qizhust/cmcl_vqa_pl}.
翻訳日:2022-11-22 20:52:40 公開日:2022-11-21
# next3d: 3dアウェアヘッドアバターのための生成的ニューラルネットワークテクスチャラスタイゼーション

Next3D: Generative Neural Texture Rasterization for 3D-Aware Head Avatars ( http://arxiv.org/abs/2211.11208v1 )

ライセンス: Link先を確認
Jingxiang Sun, Xuan Wang, Lizhen Wang, Xiaoyu Li, Yong Zhang, Hongwen Zhang, Yebin Liu(参考訳) 3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。 顔属性のきめ細かい制御に向けて,近年の取組みでは3d morphable face model (3dmm) を用いて,生成的放射フィールドの変形を明示的に,あるいは暗黙的に記述している。 明示的手法は細粒度表現制御を提供するが、毛髪やアクセサリーによる位相変化は扱えないが、暗黙的手法は様々なトポロジーをモデル化できるが、非拘束変形場による限定的な一般化を持つ。 本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。 変形精度と位相フレキシビリティを両立させるため,生成テクスチャラスタライズドトライプレーンと呼ばれる3次元表現を提案する。 提案する表現は、パラメトリックメッシュテンプレート上で生成的ニューラルネットワークテクスチャを学習し、ラスタライズを通じて3つの直交的特徴平面に投影し、ボリュームレンダリングのための三面的特徴表現を形成する。 このように,メッシュ誘導による明示的変形のきめ細かい表現制御と暗黙的な体積表現の柔軟性を組み合わせる。 さらに,3DMMでは考慮されない内装をモデル化するためのモジュールを提案する。 本手法は,最先端の3d合成品質とアニメーション能力を示す。 さらに, アニマタブルな3D表現により, ワンショット顔アバターや3D認識スタイリングなど, 複数の応用が促進される。

3D-aware generative adversarial networks (GANs) synthesize high-fidelity and multi-view-consistent facial images using only collections of single-view 2D imagery. Towards fine-grained control over facial attributes, recent efforts incorporate 3D Morphable Face Model (3DMM) to describe deformation in generative radiance fields either explicitly or implicitly. Explicit methods provide fine-grained expression control but cannot handle topological changes caused by hair and accessories, while implicit ones can model varied topologies but have limited generalization caused by the unconstrained deformation fields. We propose a novel 3D GAN framework for unsupervised learning of generative, high-quality and 3D-consistent facial avatars from unstructured 2D images. To achieve both deformation accuracy and topological flexibility, we propose a 3D representation called Generative Texture-Rasterized Tri-planes. The proposed representation learns Generative Neural Textures on top of parametric mesh templates and then projects them into three orthogonal-viewed feature planes through rasterization, forming a tri-plane feature representation for volume rendering. In this way, we combine both fine-grained expression control of mesh-guided explicit deformation and the flexibility of implicit volumetric representation. We further propose specific modules for modeling mouth interior which is not taken into account by 3DMM. Our method demonstrates state-of-the-art 3D-aware synthesis quality and animation ability through extensive experiments. Furthermore, serving as 3D prior, our animatable 3D representation boosts multiple applications including one-shot facial avatars and 3D-aware stylization.
翻訳日:2022-11-22 20:52:17 公開日:2022-11-21
# SegNeRF: ニューラルラジアンス場を用いた3次元部分分割

SegNeRF: 3D Part Segmentation with Neural Radiance Fields ( http://arxiv.org/abs/2211.11215v1 )

ライセンス: Link先を確認
Jesus Zarzar, Sara Rojas, Silvio Giancola, and Bernard Ghanem(参考訳) ニューラル・ラジアンス・フィールド(NeRF)の最近の進歩は、新規なビュー合成や3次元再構成などの生成タスクにおいて素晴らしいパフォーマンスを誇っている。 ニューラル・ラミアンス・フィールドに基づく手法では,ポーズ画像のみに依存することで,暗黙的に3d世界を表現できる。 しかし, 3次元部分分割のような識別的タスクでは, ほとんど研究されていない。本研究では, segnerf: 通常の放射場とともに意味場を統合するニューラルフィールド表現の提案により, そのギャップを橋渡ししようとする。 SegNeRFは、以前の作品から新しいビュー合成と3D再構成を行う能力を継承し、少数の画像から3D部分のセグメンテーションを可能にする。 partnet での広範な実験により,segnerf は被写体に対してさえ,ポーズ画像から幾何学的,外観的,意味的情報を同時予測できることがわかった。 予測セマンティックフィールドにより、SegNeRFは2Dノベルビューセグメンテーションに対して$\textbf{30.30%}$と$\textbf{37.46%}$の平均mIoUを達成でき、3D部分セグメンテーションのために$\textbf{37.46%}$を達成できる。 さらに、SegNeRFは、野生で撮影されたオブジェクトの1つのイメージから、対応する部分のセグメンテーションから明示的な3Dモデルを生成することができる。

Recent advances in Neural Radiance Fields (NeRF) boast impressive performances for generative tasks such as novel view synthesis and 3D reconstruction. Methods based on neural radiance fields are able to represent the 3D world implicitly by relying exclusively on posed images. Yet, they have seldom been explored in the realm of discriminative tasks such as 3D part segmentation.In this work, we attempt to bridge that gap by proposing SegNeRF: a neural field representation that integrates a semantic field along with the usual radiance field. SegNeRF inherits from previous works the ability to perform novel view synthesis and 3D reconstruction, and enables 3D part segmentation from a few images. Our extensive experiments on PartNet show that SegNeRF is capable of simultaneously predicting geometry, appearance, and semantic information from posed images, even for unseen objects. The predicted semantic fields allow SegNeRF to achieve an average mIoU of $\textbf{30.30%}$ for 2D novel view segmentation, and $\textbf{37.46%}$ for 3D part segmentation, boasting competitive performance against point-based methods by using only a few posed images. Additionally, SegNeRF is able to generate an explicit 3D model from a single image of an object taken in the wild, with its corresponding part segmentation.
翻訳日:2022-11-22 20:51:50 公開日:2022-11-21
# STGlow: 歩行者軌道予測のためのデュアルグラフマーを備えたフローベース生成フレームワーク

STGlow: A Flow-based Generative Framework with Dual Graphormer for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2211.11220v1 )

ライセンス: Link先を確認
Rongqin Liang, Yuanman Li, Jiantao Zhou, and Xia Li(参考訳) 歩行者追跡予測タスクはインテリジェントシステムの必須コンポーネントであり、その応用は自動運転、ロボットナビゲーション、監視システムの異常検出に限定されるが、それらに限定されない。 歩行者の行動行動の多様性と複雑な社会的相互作用のため、歩行者の将来の軌跡を正確に予測することは困難である。 既存のアプローチでは、様々な軌道を生成するためにGANまたはCVAEを採用するのが一般的である。 しかし、GANベースの手法は遅延空間におけるデータを直接モデル化しないため、基礎となるデータ分布に対する完全なサポートが得られず、CVAEベースの手法は、ログのような観測範囲の低い境界を最適化し、学習された分布を基礎となる分布から逸脱させる。 本稿では,歩行者軌跡予測(STGlow)のための二重グラフマーを用いた新たな生成フローベースフレームワークを提案する。 従来の手法と異なり,動作動作の正確なログ類似性を最適化することで,より正確なデータ分布をモデル化できる。 さらに,本手法は人間の動作行動の進化をシミュレートする物理的意味をもち,流れの進行過程が徐々に複雑な動作挙動を単純な動作に分解する一方,逆過程は複雑な動作行動への単純な動作の進化を表す。 さらに,時間依存性と相互空間相互作用をより適切にモデル化するために,グラフ構造と組み合わせた双対グラフマーを導入する。 いくつかのベンチマークによる実験結果から,本手法は従来の最先端手法に比べて性能が向上することが示された。

Pedestrian trajectory prediction task is an essential component of intelligent systems, and its applications include but are not limited to autonomous driving, robot navigation, and anomaly detection of monitoring systems. Due to the diversity of motion behaviors and the complex social interactions among pedestrians, accurately forecasting the future trajectory of pedestrians is challenging. Existing approaches commonly adopt GANs or CVAEs to generate diverse trajectories. However, GAN-based methods do not directly model data in a latent space, which makes them fail to have full support over the underlying data distribution; CVAE-based methods optimize a lower bound on the log-likelihood of observations, causing the learned distribution to deviate from the underlying distribution. The above limitations make existing approaches often generate highly biased or unnatural trajectories.In this paper, we propose a novel generative flow based framework with dual graphormer for pedestrian trajectory prediction (STGlow). Different from previous approaches, our method can more accurately model the underlying data distribution by optimizing the exact log-likelihood of motion behaviors. Besides, our method has clear physical meanings to simulate the evolution of human motion behaviors, where the forward process of the flow gradually degrades the complex motion behavior into a simple behavior, while its reverse process represents the evolution of a simple behavior to the complex motion behavior. Further, we introduce a dual graphormer combining with the graph structure to more adequately model the temporal dependencies and the mutual spatial interactions. Experimental results on several benchmarks demonstrate that our method achieves much better performance compared to previous state-of-the-art approaches.
翻訳日:2022-11-22 20:51:19 公開日:2022-11-21
# 実画像の局所的スタイル編集機構としてのマスクガイド型特徴変調の有効性の検討

Exploring the Effectiveness of Mask-Guided Feature Modulation as a Mechanism for Localized Style Editing of Real Images ( http://arxiv.org/abs/2211.11224v1 )

ライセンス: Link先を確認
Snehal Singh Tomar, Maitreya Suin, A.N. Rajagopalan(参考訳) 高分解能画像生成における深層生成モデルの成功は、実画像のスタイル編集に広く利用されている。 既存のほとんどの手法は、実際の画像を潜在空間に反転させ、制御可能な方向を決定する原理に基づいている。 実画像の反転と制御可能な潜在方向の決定はともに計算的に高価な演算である。 さらに、制御可能な潜伏方向の決定には、さらなる人的監督が必要である。 本研究の目的は,これらのボトルネックに対する解決策として,Deep Generative Modelの潜在空間におけるマスク誘導型特徴変調の有効性を検討することである。 この目的のために,セマンティック・スタイル・オートエンコーダ (SSAE) を提案する。セマンティック・スタイル・オートエンコーダ (SSAE) は,セマンティックマスクを用いた遅延空間操作を利用して,実画像の高度に局所化されたフォトリアリスティックなスタイルの編集を行う。 定性的かつ定量的な結果と解析結果について述べる。 この作業は,将来の作業のガイドプライマーとして機能する。

The success of Deep Generative Models at high-resolution image generation has led to their extensive utilization for style editing of real images. Most existing methods work on the principle of inverting real images onto their latent space, followed by determining controllable directions. Both inversion of real images and determination of controllable latent directions are computationally expensive operations. Moreover, the determination of controllable latent directions requires additional human supervision. This work aims to explore the efficacy of mask-guided feature modulation in the latent space of a Deep Generative Model as a solution to these bottlenecks. To this end, we present the SemanticStyle Autoencoder (SSAE), a deep Generative Autoencoder model that leverages semantic mask-guided latent space manipulation for highly localized photorealistic style editing of real images. We present qualitative and quantitative results for the same and their analysis. This work shall serve as a guiding primer for future work.
翻訳日:2022-11-22 20:50:52 公開日:2022-11-21
# RobustLoc:運転環境におけるロバストカメラポッドの回帰

RobustLoc: Robust Camera Pose Regression in Challenging Driving Environments ( http://arxiv.org/abs/2211.11238v1 )

ライセンス: Link先を確認
Sijie Wang, Qiyu Kang, Rui She, Wee Peng Tay, Andreas Hartmannsgruber, Diego Navarro Navarro(参考訳) カメラのリローカライゼーションは自動運転に様々な応用がある。 従来のカメラポーズ回帰モデルは、環境摂動がほとんどない理想的なシナリオのみを考える。 季節, 天気, 照明, 不安定な物体の存在に変化をもたらす可能性のある運転環境に対処するため, ニューラル微分方程式からの摂動に対する頑健さを導出するRobostLocを提案する。 本モデルでは,多視点画像から特徴地図を抽出する畳み込みニューラルネットワーク,インタラクティブに情報を拡散するロバストなニューラルネットワーク方程式拡散ブロックモジュール,多層トレーニングによる分岐ポーズデコーダを用いて車両のポーズ推定を行う。 実験により、ロバストロックは現在の最先端カメラの回帰モデルを超え、様々な環境で堅牢な性能を達成することが示された。 私たちのコードは、https://github.com/sijieaaa/RobustLocでリリースされています。

Camera relocalization has various applications in autonomous driving. Previous camera pose regression models consider only ideal scenarios where there is little environmental perturbation. To deal with challenging driving environments that may have changing seasons, weather, illumination, and the presence of unstable objects, we propose RobustLoc, which derives its robustness against perturbations from neural differential equations. Our model uses a convolutional neural network to extract feature maps from multi-view images, a robust neural differential equation diffusion block module to diffuse information interactively, and a branched pose decoder with multi-layer training to estimate the vehicle poses. Experiments demonstrate that RobustLoc surpasses current state-of-the-art camera pose regression models and achieves robust performance in various environments. Our code is released at: https://github.com/sijieaaa/RobustLoc
翻訳日:2022-11-22 20:50:35 公開日:2022-11-21
# ソフトコントラスト学習とオールインワン分類器を用いた新しいカテゴリー発見の促進

Boosting Novel Category Discovery Over Domains with Soft Contrastive Learning and All-in-One Classifier ( http://arxiv.org/abs/2211.11262v1 )

ライセンス: Link先を確認
Zelin Zang, Lei Shang, Senqiao Yang, Baigui Sun, Stan Z. Li(参考訳) 非教師なしドメイン適応(UDA)は、ラベルリッチソースドメインから取得した知識をラベルカースターゲットドメインに転送することに成功した。 open-set domain adaptation (oda) と universal domain adaptation (unda) は、対象領域に新たなカテゴリを追加する問題に対する解決策として提案されている。 既存のOdaとUNDAアプローチは、すべての新しいカテゴリを統一された未知のクラスとして扱い、トレーニングプロセス中にこの未知のクラスを検出しようとする。 ドメインの分散は教師なしデータ拡張においてより重要なビューノイズをもたらし、コントラスト学習(cl)のさらなる応用や、現在のクローズドセット分類器とオープンセット分類器に影響を与え、新しいクラス発見においてモデルが自信過剰になる。 上記の2つの課題に対処するため,織田・UNDAタスクのためのソフトコントラストオールインワンネットワーク~(SAN)を提案する。 SANには、表現能力を改善するために使用される新しいデータ拡張ベースのCL損失と、新しいクラス発見能力を改善するために使用されるより人間の直感的な分類器が含まれている。 ソフトコントラスト学習~(SCL)損失は、ドメイン転送において増幅されるデータ拡張ラベルノイズ問題の悪影響を弱めるために用いられる。 All-in-One~(AIO)分類器は、現在の主流閉集合分類器と開集合分類器の過信問題をより直感的に克服する。 可視化結果とアブレーション実験により,提案する2つのイノベーションの重要性が示された。 さらに,織田とUNDAの広範な実験結果から,SANは既存の最先端手法よりも有利であることが示された。

Unsupervised domain adaptation (UDA) has been highly successful in transferring knowledge acquired from a label-rich source domain to a label-scarce target domain. Open-set domain adaptation (ODA) and universal domain adaptation (UNDA) have been proposed as solutions to the problem concerning the presence of additional novel categories in the target domain. Existing ODA and UNDA approaches treat all novel categories as one unified unknown class and attempt to detect this unknown class during the training process. We find that domain variance leads to more significant view-noise in unsupervised data augmentation, affecting the further applications of contrastive learning~(CL), as well as the current closed-set classifier and open-set classifier causing the model to be overconfident in novel class discovery. To address the above two issues, we propose Soft-contrastive All-in-one Network~(SAN) for ODA and UNDA tasks. SAN includes a novel data-augmentation-based CL loss, which is used to improve the representational capability, and a more human-intuitive classifier, which is used to improve the new class discovery capability. The soft contrastive learning~(SCL) loss is used to weaken the adverse effects of the data-augmentation label noise problem, which is amplified in domain transfer. The All-in-One~(AIO) classifier overcomes the overconfidence problem of the current mainstream closed-set classifier and open-set classifier in a more human-intuitive way. The visualization results and ablation experiments demonstrate the importance of the two proposed innovations. Moreover, extensive experimental results on ODA and UNDA show that SAN has advantages over the existing state-of-the-art methods.
翻訳日:2022-11-22 20:50:19 公開日:2022-11-21
# DrapeNet: ガーメントの生成とセルフスーパービジョンによるドラッグ

DrapeNet: Generating Garments and Draping them with Self-Supervision ( http://arxiv.org/abs/2211.11277v1 )

ライセンス: Link先を確認
Luca De Luigi and Ren Li and Beno\^it Guillard and Mathieu Salzmann and Pascal Fua(参考訳) 任意の人体に素早く着る服をドレープする最近のアプローチは、大きなトレーニングセットの必要性をなくすために自己監督を利用する。 しかし,衣料品ごとに1つのネットワークを訓練し,その一般化能力を著しく制限するように設計されている。 私たちの研究では、複数の衣服をドレーピングするために単一のネットワークを訓練するために、自己スーパービジョンに頼っています。 これは、衣服を無符号距離場としてモデル化する生成ネットワークの潜在符号に基づく3次元変形場を予測することによって達成される。 我々のパイプラインは、あらゆるトポロジーの以前は見つからなかった衣服を生成・ドレープすることができ、その形状は潜在コードを操作することで編集できる。 完全に微分可能で,傾斜勾配による部分的観察(画像や3dスキャン)から服の正確な3dモデルを復元することができる。 私たちのコードは公開されます。

Recent approaches to drape garments quickly over arbitrary human bodies leverage self-supervision to eliminate the need for large training sets. However, they are designed to train one network per clothing item, which severely limits their generalization abilities. In our work, we rely on self-supervision to train a single network to drape multiple garments. This is achieved by predicting a 3D deformation field conditioned on the latent codes of a generative network, which models garments as unsigned distance fields. Our pipeline can generate and drape previously unseen garments of any topology, whose shape can be edited by manipulating their latent codes. Being fully differentiable, our formulation makes it possible to recover accurate 3D models of garments from partial observations -- images or 3D scans -- via gradient descent. Our code will be made publicly available.
翻訳日:2022-11-22 20:49:48 公開日:2022-11-21
# VIPriors Instance Segmentation Challengeのためのタスク特化データ拡張と推論処理

Task-Specific Data Augmentation and Inference Processing for VIPriors Instance Segmentation Challenge ( http://arxiv.org/abs/2211.11282v1 )

ライセンス: Link先を確認
Bo Yan, Xingran Zhao, Yadong Li, Hongbin Wang(参考訳) インスタンスセグメンテーションは、画像編集、画像解析、自律運転などに広く適用されている。 しかし、実際の応用では不十分なデータが一般的な問題である。 Visual Inductive Priors (VIPriors) Instance Segmentation Challengeはこの問題に焦点を当てている。 データ効率のよいコンピュータビジョンの課題には、データ不足の設定でモデルをスクラッチからトレーニングすることをライバルに求めているが、使用可能なビジュアルインダクティブな優先事項もある。 VIPriorsのインスタンスセグメンテーション問題に対処するために,タスク特化データ拡張(TS-DA)戦略と推論処理(TS-IP)戦略を設計した。 タスク固有のデータ拡張戦略の主な目的は、データ不足の問題に取り組むことである。 また,視覚的インダクティブを最大限に活用するために,タスク固有の推論処理戦略を設計した。 本稿では,VIPriors Instance Segmentation Challengeにおける提案手法の適用性を示す。 セグメント化モデルは、Swin-BaseベースのCBNetV2バックボーン上のハイブリッドタスクカスケードベースの検出器である。 実験結果から,提案手法は, 0.531 AP@0.50:0.95のVIPriors Instance Segmentation Challengeを2022 VIPriorsで実施した。

Instance segmentation is applied widely in image editing, image analysis and autonomous driving, etc. However, insufficient data is a common problem in practical applications. The Visual Inductive Priors(VIPriors) Instance Segmentation Challenge has focused on this problem. VIPriors for Data-Efficient Computer Vision Challenges ask competitors to train models from scratch in a data-deficient setting, but there are some visual inductive priors that can be used. In order to address the VIPriors instance segmentation problem, we designed a Task-Specific Data Augmentation(TS-DA) strategy and Inference Processing(TS-IP) strategy. The main purpose of task-specific data augmentation strategy is to tackle the data-deficient problem. And in order to make the most of visual inductive priors, we designed a task-specific inference processing strategy. We demonstrate the applicability of proposed method on VIPriors Instance Segmentation Challenge. The segmentation model applied is Hybrid Task Cascade based detector on the Swin-Base based CBNetV2 backbone. Experimental results demonstrate that proposed method can achieve a competitive result on the test set of 2022 VIPriors Instance Segmentation Challenge, with 0.531 AP@0.50:0.95.
翻訳日:2022-11-22 20:49:32 公開日:2022-11-21
# 操舵角予測のためのよりグリーンな解法に向けて

Towards Greener Solutions for Steering Angle Prediction ( http://arxiv.org/abs/2211.11133v1 )

ライセンス: Link先を確認
Jeremy C. Hagler, David J. Lamb, Qing Tian(参考訳) 本稿では,操舵角予測の自律運転タスクにおいて,ディープニューラルアーキテクチャ(resnetsとinception nets)の2つの最もポピュラーなファミリーについて検討する。 この研究は、インセプションアーキテクチャが、自動運転タスクの複雑さの少ないresnetアーキテクチャよりも性能が良い、あるいは優れているという予備的な証拠を提供する。 主な動機には、ステアリングアングル予測のような複雑なタスクを達成できるだけでなく、二酸化炭素排出量の削減や、より環境にやさしいニューラルネットワークの実現など、より小さく、より効率的なニューラルネットワークアーキテクチャに関するさらなる研究のサポートが含まれている。 結果を比較するために、resnetとinceptionnetモデルのさまざまなサイズを調べます。 我々の導出したモデルは、操舵角度MSEの観点で最先端の結果を得ることができる。

In this paper, we investigate the two most popular families of deep neural architectures (i.e., ResNets and Inception nets) for the autonomous driving task of steering angle prediction. This work provides preliminary evidence that Inception architectures can perform as well or better than ResNet architectures with less complexity for the autonomous driving task. Primary motivation includes support for further research in smaller, more efficient neural network architectures such that can not only accomplish complex tasks, such as steering angle predictions, but also produce less carbon emissions, or, more succinctly, neural networks that are more environmentally friendly. We look at various sizes of ResNet and InceptionNet models to compare results. Our derived models can achieve state-of-the-art results in terms of steering angle MSE.
翻訳日:2022-11-22 20:43:54 公開日:2022-11-21
# スライスドワッサースタイン損失を用いたニューラルテクスチャ合成のための長距離制約

Long Range Constraints for Neural Texture Synthesis Using Sliced Wasserstein Loss ( http://arxiv.org/abs/2211.11137v1 )

ライセンス: Link先を確認
Liping Yin and Albert Chua(参考訳) 過去10年間で、先進的なテクスチャ合成アルゴリズムは、深層畳み込みニューラルネットワークの統計と一致することで、パフォーマンスが大幅に向上した。 しかし、これらのアルゴリズムは、画像の長い範囲の制約を捉えるために、正規化項またはユーザー付加空間タグを必要とする。 すべての状況でユーザ追加の空間タグにアクセスすることは必ずしも不可能であり、正規化用語をチューニングすることは困難である。 上記の欠点を一切持たないアルゴリズムを作成するのが理想的でしょう。 そこで本研究では,スライスドワッサースタイン損失に基づくテクスチャ合成のための新しい統計値セットを提案し,ユーザ付加空間タグを使わずにテクスチャを合成するマルチスケールアルゴリズムを提案する。 最後に,提案アルゴリズムが画像の長距離制約をキャプチャし,他の例に基づくテクスチャ合成アルゴリズムと比較する能力について検討した。

In the past decade, exemplar-based texture synthesis algorithms have seen strong gains in performance by matching statistics of deep convolutional neural networks. However, these algorithms require regularization terms or user-added spatial tags to capture long range constraints in images. Having access to a user-added spatial tag for all situations is not always feasible, and regularization terms can be difficult to tune. It would be ideal to create an algorithm that does not have any of the aforementioned drawbacks. Thus, we propose a new set of statistics for exemplar based texture synthesis based on Sliced Wasserstein Loss and create a multi-scale algorithm to synthesize textures without a user-added spatial tag. Lastly, we study the ability of our proposed algorithm to capture long range constraints in images and compare our results to other exemplar-based neural texture synthesis algorithms.
翻訳日:2022-11-22 20:43:40 公開日:2022-11-21
# マスク付きコントラストプレトレーニングによる拡散型シーングラフから画像生成

Diffusion-Based Scene Graph to Image Generation with Masked Contrastive Pre-Training ( http://arxiv.org/abs/2211.11138v1 )

ライセンス: Link先を確認
Ling Yang, Zhilin Huang, Yang Song, Shenda Hong, Guohao Li, Wentao Zhang, Bin Cui, Bernard Ghanem, Ming-Hsuan Yang(参考訳) シーングラフなどのグラフ構造入力から画像を生成することは、グラフ内のノードとオブジェクトとの接続の調整が困難であり、画像内のそれらの関係が困難であるため、独特な課題である。 既存の手法の多くは、シーン画像の粗い構造をキャプチャするために設計されたシーングラフのイメージライクな表現であるシーンレイアウトを使用することで、この課題に対処している。 シーンレイアウトは手作業で作成されるため、画像とのアライメントが完全に最適化されない場合があるため、生成された画像と元のシーングラフの間に最適なコンプライアンスが生じる。 この問題に取り組むために,画像へのアライメントを直接最適化することで,シーングラフ埋め込みを学ぶことを提案する。 具体的には、エンコーダを事前学習し、対応する画像の予測であるシーングラフから、マスキングオートエンコーディング損失とコントラスト損失の2つの損失関数に依存するグローバルおよびローカル情報を抽出する。 前者はランダムにマスクされた画像領域を再構成して埋め込み、後者はシーングラフに従ってコンプライアンス画像と非コンプライアンス画像の区別を行う。 これらの埋め込みを考えると、シーングラフから画像を生成するために潜時拡散モデルを構築する。 SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。 Visual GenomeとCOCO-Stuffのデータセットでは、SGDiffがInception ScoreとFr\echet Inception Distance(FID)のメトリクスで測定されるように、最先端の手法よりも優れていることを示す。 ソースコードとトレーニングされたモデルをhttps://github.com/YangLing0818/SGDiff.comでリリースします。

Generating images from graph-structured inputs, such as scene graphs, is uniquely challenging due to the difficulty of aligning nodes and connections in graphs with objects and their relations in images. Most existing methods address this challenge by using scene layouts, which are image-like representations of scene graphs designed to capture the coarse structures of scene images. Because scene layouts are manually crafted, the alignment with images may not be fully optimized, causing suboptimal compliance between the generated images and the original scene graphs. To tackle this issue, we propose to learn scene graph embeddings by directly optimizing their alignment with images. Specifically, we pre-train an encoder to extract both global and local information from scene graphs that are predictive of the corresponding images, relying on two loss functions: masked autoencoding loss and contrastive loss. The former trains embeddings by reconstructing randomly masked image regions, while the latter trains embeddings to discriminate between compliant and non-compliant images according to the scene graph. Given these embeddings, we build a latent diffusion model to generate images from scene graphs. The resulting method, called SGDiff, allows for the semantic manipulation of generated images by modifying scene graph nodes and connections. On the Visual Genome and COCO-Stuff datasets, we demonstrate that SGDiff outperforms state-of-the-art methods, as measured by both the Inception Score and Fr\'echet Inception Distance (FID) metrics. We will release our source code and trained models at https://github.com/YangLing0818/SGDiff.
翻訳日:2022-11-22 20:43:25 公開日:2022-11-21
# 屋内から屋外へ:教師なしドメイン適応歩行認識

From Indoor To Outdoor: Unsupervised Domain Adaptive Gait Recognition ( http://arxiv.org/abs/2211.11155v1 )

ライセンス: Link先を確認
Likai Wang, Ruize Han, Wei Feng, Song Wang(参考訳) 歩行認識は重要なaiタスクであり、ディープラーニングの開発とともに急速に進歩している。 しかし、既存の学習に基づく歩行認識手法は、主に単一領域、特に制約された実験室環境に焦点を当てている。 本稿では,屋内シーン(ソースドメイン)から教師付きラベルを用いた歩行識別子を学習し,屋外ワイルドシーン(ターゲットドメイン)に適用するunsupervised domain adaptive gait recognition(uda-gr)の新たな問題について検討する。 この目的のために,不確実性推定と正規化に基づくUDA-GR法を開発した。 具体的には,屋内及び屋外のシーンにおける歩行の特徴を調査し,擬似ラベルのノイズを軽減するために,対象領域の教師なし微調整に使用される歩行サンプルの不確かさを推定する。 また,提案手法の有効性を示す実験結果として,提案問題のベンチマークを新たに確立した。 この作業でベンチマークとソースコードを一般公開します。

Gait recognition is an important AI task, which has been progressed rapidly with the development of deep learning. However, existing learning based gait recognition methods mainly focus on the single domain, especially the constrained laboratory environment. In this paper, we study a new problem of unsupervised domain adaptive gait recognition (UDA-GR), that learns a gait identifier with supervised labels from the indoor scenes (source domain), and is applied to the outdoor wild scenes (target domain). For this purpose, we develop an uncertainty estimation and regularization based UDA-GR method. Specifically, we investigate the characteristic of gaits in the indoor and outdoor scenes, for estimating the gait sample uncertainty, which is used in the unsupervised fine-tuning on the target domain to alleviate the noises of the pseudo labels. We also establish a new benchmark for the proposed problem, experimental results on which show the effectiveness of the proposed method. We will release the benchmark and source code in this work to the public.
翻訳日:2022-11-22 20:42:54 公開日:2022-11-21
# ビデオによる着替え者の再識別のベンチマーク

A Benchmark of Video-Based Clothes-Changing Person Re-Identification ( http://arxiv.org/abs/2211.11165v1 )

ライセンス: Link先を確認
Likai Wang, Xiangqun Zhang, Ruize Han, Jialin Yang, Xiaoyu Li, Wei Feng, Song Wang(参考訳) 人物再識別(Re-ID)は古典的なコンピュータビジョンタスクであり、これまで大きな進歩を遂げてきた。 近年,着替えの長期化が注目されている。 しかし、既存の手法では、よりリッチな時間情報が見過ごされる画像ベースの設定に重点を置いている。 本稿では,着替え型ビデオベース再識別(CCVReID)の比較的新しい課題について考察する。 本稿では,Re-ID問題の映像系列に含まれる衣服の不整合問題と時間的情報とを同時に考慮し,この問題を体系的に研究する。 そこで本研究では,CCVReID問題に対処するための2分岐信頼度対応フレームワークを開発した。 提案するフレームワークは,従来の外観特徴と布のない歩行特徴の両方を考慮した2つのブランチを統合する。 この方法は、さらなる研究の基準となる方法を提供する。 また,大規模な合成ビデオデータセットと実世界のデータセットを含むccvreid問題のための2つのベンチマークデータセットを構築した。 この作業でベンチマークとコードを一般公開する予定です。

Person re-identification (Re-ID) is a classical computer vision task and has achieved great progress so far. Recently, long-term Re-ID with clothes-changing has attracted increasing attention. However, existing methods mainly focus on image-based setting, where richer temporal information is overlooked. In this paper, we focus on the relatively new yet practical problem of clothes-changing video-based person re-identification (CCVReID), which is less studied. We systematically study this problem by simultaneously considering the challenge of the clothes inconsistency issue and the temporal information contained in the video sequence for the person Re-ID problem. Based on this, we develop a two-branch confidence-aware re-ranking framework for handling the CCVReID problem. The proposed framework integrates two branches that consider both the classical appearance features and cloth-free gait features through a confidence-guided re-ranking strategy. This method provides the baseline method for further studies. Also, we build two new benchmark datasets for CCVReID problem, including a large-scale synthetic video dataset and a real-world one, both containing human sequences with various clothing changes. We will release the benchmark and code in this work to the public.
翻訳日:2022-11-22 20:42:39 公開日:2022-11-21
# スーパートーケンサンプリングを用いた視覚変換器

Vision Transformer with Super Token Sampling ( http://arxiv.org/abs/2211.11167v1 )

ライセンス: Link先を確認
Huaibo Huang, Xiaoqiang Zhou, Jie Cao, Ran He, Tieniu Tan(参考訳) 視覚トランスフォーマーは多くの視覚タスクで素晴らしいパフォーマンスを達成しました。 しかし、浅い層で局所的な特徴を捉える場合、高い冗長性に苦しむ可能性がある。 これにより、局所的な自己注意または初期段階の畳み込みが利用され、長距離依存を捉える能力が犠牲になる。 ニューラルネットワークの初期段階において、効率的で効果的なグローバルコンテキストモデリングにアクセスできるか? この問題に対処するため,スーパーピクセルの設計からインスピレーションを得て,その後の処理における画像プリミティブの数を削減し,視覚変換器にスーパートークンを導入する。 スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとするため、自己注意のトークン数を減らし、グローバルなモデリングを保存する。 具体的には、まず、疎結合学習によって視覚トークンからスーパートークンをサンプリングし、次に、スーパートークンを自己アテンションし、最後に元のトークン空間にマップする、という3つのステップで、単純だが強力なスーパートークンアテンション(STA)機構を提案する。 STAは、バニラのグローバルな注意をスパースアソシエーションマップと低次元の注意の掛け算に分解し、グローバルな依存関係の取得に高い効率をもたらす。 STAに基づいて階層型視覚変換器を開発する。 広範囲にわたる実験は、様々な視覚タスクで強力な性能を示す。 特に、追加のトレーニングデータやラベルなしで、100M以下のパラメータを持つImageNet-1Kで86.4%のトップ1精度を達成する。 また、COCO検出タスクでは53.9ボックスAPと46.8マスクAP、ADE20Kセマンティックセグメンテーションタスクでは51.9mIOUを達成している。 コードはhttps://github.com/hhb072/svitでリリースされる。

Vision transformer has achieved impressive performance for many vision tasks. However, it may suffer from high redundancy in capturing local features for shallow layers. Local self-attention or early-stage convolutions are thus utilized, which sacrifice the capacity to capture long-range dependency. A challenge then arises: can we access efficient and effective global context modeling at the early stages of a neural network? To address this issue, we draw inspiration from the design of superpixels, which reduces the number of image primitives in subsequent processing, and introduce super tokens into vision transformer. Super tokens attempt to provide a semantically meaningful tessellation of visual content, thus reducing the token number in self-attention as well as preserving global modeling. Specifically, we propose a simple yet strong super token attention (STA) mechanism with three steps: the first samples super tokens from visual tokens via sparse association learning, the second performs self-attention on super tokens, and the last maps them back to the original token space. STA decomposes vanilla global attention into multiplications of a sparse association map and a low-dimensional attention, leading to high efficiency in capturing global dependencies. Based on STA, we develop a hierarchical vision transformer. Extensive experiments demonstrate its strong performance on various vision tasks. In particular, without any extra training data or label, it achieves 86.4% top-1 accuracy on ImageNet-1K with less than 100M parameters. It also achieves 53.9 box AP and 46.8 mask AP on the COCO detection task, and 51.9 mIOU on the ADE20K semantic segmentation task. Code will be released at https://github.com/hhb072/SViT.
翻訳日:2022-11-22 20:42:23 公開日:2022-11-21
# 形状感劣化型連続学習のロバスト性, 一般化, 予測について

On the Robustness, Generalization, and Forgetting of Shape-Texture Debiased Continual Learning ( http://arxiv.org/abs/2211.11174v1 )

ライセンス: Link先を確認
Zenglin Shi, Ying Sun, Joo Hwee Lim, Mengmi Zhang(参考訳) ニューラルネットワークの破滅的な忘れ問題に対処することによって、新しいタスクを学ぶ際に、古いタスクの優れたパフォーマンスを維持するための継続的な学習が進歩している。 本稿では,分布シフト(データ破損やドメインシフトなど)に対する継続的に訓練されたモデルの脆弱性に対応して,分布のロバスト性をさらに考慮し,連続学習を進化させる。 そこで,この目的のために,形文不偏連続学習を提案する。 鍵となるアイデアは、各タスクの一般化とロバストな表現を、シェイプテキストのデバイアストレーニングで学習することだ。 本研究では,標準連続学習を形状・テクスチュア・デバイアスド連続学習に変換するために,形状・テクスチュア・デバイアスドデータ生成とオンライン形状・テクスチュア・デバイアスド自己蒸留を提案する。 6つのデータセットの実験では、一般化とロバスト性の改善、および忘れの低減に対するアプローチの利点が示されている。 損失景観の平坦性に関する我々の分析は、その利点を説明する。 さらに,視覚トランスフォーマーなどの新たな高度なアーキテクチャと容易に組み合わせることができ,exemplar-free continual learningのようなより困難なシナリオにも適用できる。

Tremendous progress has been made in continual learning to maintain good performance on old tasks when learning new tasks by tackling the catastrophic forgetting problem of neural networks. This paper advances continual learning by further considering its out-of-distribution robustness, in response to the vulnerability of continually trained models to distribution shifts (e.g., due to data corruptions and domain shifts) in inference. To this end, we propose shape-texture debiased continual learning. The key idea is to learn generalizable and robust representations for each task with shape-texture debiased training. In order to transform standard continual learning to shape-texture debiased continual learning, we propose shape-texture debiased data generation and online shape-texture debiased self-distillation. Experiments on six datasets demonstrate the benefits of our approach in improving generalization and robustness, as well as reducing forgetting. Our analysis on the flatness of the loss landscape explains the advantages. Moreover, our approach can be easily combined with new advanced architectures such as vision transformer, and applied to more challenging scenarios such as exemplar-free continual learning.
翻訳日:2022-11-22 20:41:49 公開日:2022-11-21
# NeuMap: カメラローカライゼーションのためのオートトランスデコーダによるニューラル座標マッピング

NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera Localization ( http://arxiv.org/abs/2211.11177v1 )

ライセンス: Link先を確認
Shitao Tang, Sicong Tang, Andrea Tagliasacchi, Ping Tan and Yasutaka Furukawa(参考訳) 本稿では,全シーンを潜在コードのグリッドに符号化し,トランスフォーマベースのオートデコーダがクエリ画素の3d座標をレグレッシブする,カメラローカライズのためのエンドツーエンドのニューラルネットワークマッピング手法を提案する。 最先端のカメラローカライゼーション手法では、各シーンをポイント単位の機能を備えた3Dポイントクラウドとして保存する必要がある。 圧縮が可能であるが、高い圧縮速度で性能が著しく低下する。 NeuMapがパフォーマンス低下を最小限に抑えた超高速圧縮を実現 1)シーン情報を格納するための学習可能な潜在コード 2)クエリ画素の座標を推測するシーン非依存なトランスフォーマベースのオートデコーダ。 シーンに依存しないネットワーク設計は、大規模なデータでトレーニングすることで、堅牢な事前マッチングを学習し、ネットワークの重み付けを修正しながら、新しいシーンのためにコードを素早く最適化することができる。 5つのベンチマークによる広範な評価は、neumapが他の全ての座標回帰法を大幅に上回り、より小さなシーン表現サイズで特徴マッチング法と同等の性能に達することを示している。 例えば、neumapは6mbのデータしか持たないaachen nightベンチマークで39.1%の精度を達成している。 コードはhttps://github.com/Tangshitao/NeuMap.comで入手できる。

This paper presents an end-to-end neural mapping method for camera localization, encoding a whole scene into a grid of latent codes, with which a Transformer-based auto-decoder regresses 3D coordinates of query pixels. State-of-the-art camera localization methods require each scene to be stored as a 3D point cloud with per-point features, which takes several gigabytes of storage per scene. While compression is possible, the performance drops significantly at high compression rates. NeuMap achieves extremely high compression rates with minimal performance drop by using 1) learnable latent codes to store scene information and 2) a scene-agnostic Transformer-based auto-decoder to infer coordinates for a query pixel. The scene-agnostic network design also learns robust matching priors by training with large-scale data, and further allows us to just optimize the codes quickly for a new scene while fixing the network weights. Extensive evaluations with five benchmarks show that NeuMap outperforms all the other coordinate regression methods significantly and reaches similar performance as the feature matching methods while having a much smaller scene representation size. For example, NeuMap achieves 39.1% accuracy in Aachen night benchmark with only 6MB of data, while other compelling methods require 100MB or a few gigabytes and fail completely under high compression settings. The codes are available at https://github.com/Tangshitao/NeuMap.
翻訳日:2022-11-22 20:41:27 公開日:2022-11-21
# 地下鉱業における地質・地盤技術応用のためのレーザー走査法の検討

A review of laser scanning for geological and geotechnical applications in underground mining ( http://arxiv.org/abs/2211.11181v1 )

ライセンス: Link先を確認
Sarvesh Kumar Singh, Bikram Pratap Banerjee, Simit Raval(参考訳) レーザースキャンは、運用環境の問題点にもかかわらず、鉱山のタイムリーな評価を提供することができる。 レーザー走査に関する論文はいくつか出版されているが、地下鉱業の応用の文脈でレビューする必要がある。 この目的のために, 3次元走査装置の進歩, データキャプチャ・処理技術, 地中地雷の応用など, レーザー走査の全体像を概観する。 レーザー走査技術は移動性やマッピングの面で著しく進歩しているが, 特徴不足, ダイナミックス, 塵や水などの環境影響により, 一定の鉱山における一貫性のあるデータの収集には制約がある。 研究によると、レーザースキャンは長年にわたって変化検出、クリアランス測定、構造マッピング応用のために成熟してきた。 しかし、リソロジーの識別、表面パラメータの測定、ロジスティック追跡、自律ナビゲーションの改善のスコープがある。 レーザースキャンはリアルタイムなソリューションを提供する可能性を秘めているが、データ転送、測地ネットワーク、処理能力などの基盤の欠如は依然として制限要因である。 それにもかかわらず、レーザースキャナーは手頃な価格、正確さ、移動性のおかげで、マイニング自動化の不可欠な部分になりつつある。

Laser scanning can provide timely assessments of mine sites despite adverse challenges in the operational environment. Although there are several published articles on laser scanning, there is a need to review them in the context of underground mining applications. To this end, a holistic review of laser scanning is presented including progress in 3D scanning systems, data capture/processing techniques and primary applications in underground mines. Laser scanning technology has advanced significantly in terms of mobility and mapping, but there are constraints in coherent and consistent data collection at certain mines due to feature deficiency, dynamics, and environmental influences such as dust and water. Studies suggest that laser scanning has matured over the years for change detection, clearance measurements and structure mapping applications. However, there is scope for improvements in lithology identification, surface parameter measurements, logistic tracking and autonomous navigation. Laser scanning has the potential to provide real-time solutions but the lack of infrastructure in underground mines for data transfer, geodetic networking and processing capacity remain limiting factors. Nevertheless, laser scanners are becoming an integral part of mine automation thanks to their affordability, accuracy and mobility, which should support their widespread usage in years to come.
翻訳日:2022-11-22 20:41:04 公開日:2022-11-21
# 相対的監督による深部射影回転推定

Deep Projective Rotation Estimation through Relative Supervision ( http://arxiv.org/abs/2211.11182v1 )

ライセンス: Link先を確認
Brian Okorn, Chuer Pan, Martial Hebert, David Held(参考訳) オリエンテーション推定は、カメラやオブジェクトのポーズ推定のような様々なビジョンやロボティクスのタスクの中核である。 ディープラーニングは、画像ベースの向き推定器を開発する方法を提供しているが、そのような推定器は、収集に時間を要する大規模なラベル付きデータセットのトレーニングを必要とすることが多い。 本研究では,ラベルなしデータからの自己教師あり学習がこの問題を緩和できるかどうかを検討する。 具体的には,局所アライメント法によって得られる近傍ポーズ間の相対方向の推定値へのアクセスを想定する。 自己教師付き学習は, 翻訳対象のキーポイントに対して有効であるが, 本研究では, 回転群 $so(3)$ に対して相対的監督を適用する場合, 回転空間の非凸性のため, しばしば収束しないことを示す。 この課題に対処するために、修正ロドリゲスパラメータを用いて、$SO(3)$ の閉多様体を $\mathbb{R}^{3}$ の開多様体にステレオグラフィック的に投影し、その最適化をオープンユークリッド空間で行えるように、自己教師付き配向推定の新しいアルゴリズムを提案する。 本研究では,(1)回転パラメータの直接最適化,(2)画像から物体の向きを予測する畳み込みニューラルネットワークのパラメータの最適化という2つの設定において,提案アルゴリズムの有効性を実証的に検証する。 いずれの設定においても,提案アルゴリズムは,SO(3)$空間で純粋に動作するアルゴリズムよりもはるかに高速に,一貫した相対配向フレームに収束できることを示す。 詳細はhttps://sites.google.com/view/deep-projective-rotation/home.comで確認できる。

Orientation estimation is the core to a variety of vision and robotics tasks such as camera and object pose estimation. Deep learning has offered a way to develop image-based orientation estimators; however, such estimators often require training on a large labeled dataset, which can be time-intensive to collect. In this work, we explore whether self-supervised learning from unlabeled data can be used to alleviate this issue. Specifically, we assume access to estimates of the relative orientation between neighboring poses, such that can be obtained via a local alignment method. While self-supervised learning has been used successfully for translational object keypoints, in this work, we show that naively applying relative supervision to the rotational group $SO(3)$ will often fail to converge due to the non-convexity of the rotational space. To tackle this challenge, we propose a new algorithm for self-supervised orientation estimation which utilizes Modified Rodrigues Parameters to stereographically project the closed manifold of $SO(3)$ to the open manifold of $\mathbb{R}^{3}$, allowing the optimization to be done in an open Euclidean space. We empirically validate the benefits of the proposed algorithm for rotational averaging problem in two settings: (1) direct optimization on rotation parameters, and (2) optimization of parameters of a convolutional neural network that predicts object orientations from images. In both settings, we demonstrate that our proposed algorithm is able to converge to a consistent relative orientation frame much faster than algorithms that purely operate in the $SO(3)$ space. Additional information can be found at https://sites.google.com/view/deep-projective-rotation/home .
翻訳日:2022-11-22 20:40:42 公開日:2022-11-21
# 悪天候下での自律運転における両立するエンド・ツー・エンドセグメンテーション

Doubly Contrastive End-to-End Semantic Segmentation for Autonomous Driving under Adverse Weather ( http://arxiv.org/abs/2211.11131v1 )

ライセンス: Link先を確認
Jongoh Jeong and Jong-Hwan Kim(参考訳) 道路シーン理解タスクは、最近自動運転車にとって重要になっている。 特に、リアルタイムセマンティクスセグメンテーションは、インテリジェントな自動運転エージェントが運転領域の道端の物体を認識するために不可欠である。 従来の研究は主に計算量の多い操作でセグメンテーション性能を向上させることを目的としているため、トレーニングとデプロイメントの両方に非常に重要なハードウェアリソースが必要であり、そのためリアルタイムアプリケーションには適していない。 そこで本研究では,霧,夜間,雨,雪などの悪天候下で,より実用的な軽量な自動運転モデルの性能向上のための2つの対照的なアプローチを提案する。 提案手法は,グローバルな一貫性のためにメモリバンクを必要とせず,従来のコントラスト法で使用される事前学習ステップを必要とせず,画像レベルのコントラストと画素レベルのコントラストを利用する。 ACDCデータセット上でSwiftNetを用いた手法の有効性を検証する。単一のRTX 3080 Mobile GPU上で,mIoU(ResNet-18バックボーン)を66.7 FPS(2048x1024解像度)で最大1.34%改善する。 さらに,画像レベルの監視を自己スーパービジョンに置き換えることで,クリアな気象画像で事前学習した場合と同等の性能が得られることを示す。

Road scene understanding tasks have recently become crucial for self-driving vehicles. In particular, real-time semantic segmentation is indispensable for intelligent self-driving agents to recognize roadside objects in the driving area. As prior research works have primarily sought to improve the segmentation performance with computationally heavy operations, they require far significant hardware resources for both training and deployment, and thus are not suitable for real-time applications. As such, we propose a doubly contrastive approach to improve the performance of a more practical lightweight model for self-driving, specifically under adverse weather conditions such as fog, nighttime, rain and snow. Our proposed approach exploits both image- and pixel-level contrasts in an end-to-end supervised learning scheme without requiring a memory bank for global consistency or the pretraining step used in conventional contrastive methods. We validate the effectiveness of our method using SwiftNet on the ACDC dataset, where it achieves up to 1.34%p improvement in mIoU (ResNet-18 backbone) at 66.7 FPS (2048x1024 resolution) on a single RTX 3080 Mobile GPU at inference. Furthermore, we demonstrate that replacing image-level supervision with self-supervision achieves comparable performance when pre-trained with clear weather images.
翻訳日:2022-11-22 20:31:47 公開日:2022-11-21
# CGoDial:中国の目標指向ダイアログ評価のための大規模ベンチマーク

CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog Evaluation ( http://arxiv.org/abs/2211.11617v1 )

ライセンス: Link先を確認
Yinpei Dai, Wanwei He, Bowen Li, Yuchuan Wu, Zheng Cao, Zhongqi An, Jian Sun, Yongbin Li(参考訳) 実用的なダイアログシステムは、様々な知識ソース、騒がしいユーザ表現、注釈付きデータの不足に対処する必要がある。 そこで本研究では,マルチドメイン目標指向ダイアログ評価のためのcgodial,new challenge and comprehensive chinese benchmarkを提案する。 96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。 1)表形式の知識を持つslot-based dialog(sbd)データセット 2) フローベースダイアログ(fbd)データセットに木型知識,検索型ダイアログ(rbd)データセットに候補型知識を付与する。 学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。 提案された実験的な設定には、トレーニングセット全体または数発のトレーニングセットでのトレーニングの組み合わせ、標準テストセットまたはハードテストサブセットによるテストが含まれており、一般的な予測、迅速な適応性、信頼性の面でモデルの能力を評価することができる。

Practical dialog systems need to deal with various knowledge sources, noisy user expressions, and the shortage of annotated data. To better solve the above problems, we propose CGoDial, new challenging and comprehensive Chinese benchmark for multi-domain Goal-oriented Dialog evaluation. It contains 96,763 dialog sessions and 574,949 dialog turns totally, covering three datasets with different knowledge sources: 1) a slot-based dialog (SBD) dataset with table-formed knowledge, 2) a flow-based dialog (FBD) dataset with tree-formed knowledge, and a retrieval-based dialog (RBD) dataset with candidate-formed knowledge. To bridge the gap between academic benchmarks and spoken dialog scenarios, we either collect data from real conversations or add spoken features to existing datasets via crowd-sourcing. The proposed experimental settings include the combinations of training with either the entire training set or a few-shot training set, and testing with either the standard test set or a hard test subset, which can assess model capabilities in terms of general prediction, fast adaptability and reliable robustness.
翻訳日:2022-11-22 19:50:19 公開日:2022-11-21
# スカンジナビア言語モデルにおける有害表現の測定

Measuring Harmful Representations in Scandinavian Language Models ( http://arxiv.org/abs/2211.11678v1 )

ライセンス: Link先を確認
Samia Touileb and Debora Nozza(参考訳) スカンジナビア諸国は男女平等に関して役割モデルと見なされている。 事前学習言語モデルの出現とその普及に伴い,スカンジナビア語モデルにおいて,性別による有害・有害な内容がどの程度存在するかを検討した。 デンマーク語,スウェーデン語,ノルウェー語をカバーする9つのモデルについて,テンプレートベースの文を手作業で作成し,そのモデルを完成させる。 有害および有毒な完成度を測定するための2つの方法を用いて完成度を評価し,その結果を徹底的に分析する。 スカンジナビアの事前学習言語モデルには、すべての言語で同様の値を持つ有害かつ性別ベースのステレオタイプが含まれていることを示す。 この発見はスカンジナビア諸国の男女平等に関する一般的な期待に反し、現実の環境でそのようなモデルを使用することによる潜在的な問題の結果を示している。

Scandinavian countries are perceived as role-models when it comes to gender equality. With the advent of pre-trained language models and their widespread usage, we investigate to what extent gender-based harmful and toxic content exist in selected Scandinavian language models. We examine nine models, covering Danish, Swedish, and Norwegian, by manually creating template-based sentences and probing the models for completion. We evaluate the completions using two methods for measuring harmful and toxic completions and provide a thorough analysis of the results. We show that Scandinavian pre-trained language models contain harmful and gender-based stereotypes with similar values across all languages. This finding goes against the general expectations related to gender equality in Scandinavian countries and shows the possible problematic outcomes of using such models in real-world settings.
翻訳日:2022-11-22 19:49:58 公開日:2022-11-21
# SCOTUS言語の法的・政治的スタンス検出

Legal and Political Stance Detection of SCOTUS Language ( http://arxiv.org/abs/2211.11724v1 )

ライセンス: Link先を確認
Noah Bergam, Emily Allaway, and Kathleen McKeown(参考訳) 米国最高裁判所の公開文書を自動姿勢検出法を用いて分析する。 我々の研究の第1段階において、裁判所の公的な言語がどの程度政治的であるかを調査する。 SCOTUS正義の2つの異なるイデオロギー指標を口頭弁論書を用いて提案する。 次に、これらの言語に基づくメトリクスを、最高裁判所と一般のイデオロギーに関する既存の社会科学的尺度と比較する。 この学際的分析を通じて、世論に反応する裁判官は口頭弁論においてそのイデオロギーを表現する傾向にあることがわかった。 この観察は、最高裁判所判事の行動のその場変化仮説を支持する新しい種類の証拠を提供する。 この政治的スタンス検出の自然な拡張として,本稿では,意見書と法的質問とのマッチングを行う新たなデータセットsc-stanceを用いて,より専門的な法的スタンス検出タスクを提案する。 法的文書で訓練された言語アダプタを用いて,このデータセット上での競合性能を求める。

We analyze publicly available US Supreme Court documents using automated stance detection. In the first phase of our work, we investigate the extent to which the Court's public-facing language is political. We propose and calculate two distinct ideology metrics of SCOTUS justices using oral argument transcripts. We then compare these language-based metrics to existing social scientific measures of the ideology of the Supreme Court and the public. Through this cross-disciplinary analysis, we find that justices who are more responsive to public opinion tend to express their ideology during oral arguments. This observation provides a new kind of evidence in favor of the attitudinal change hypothesis of Supreme Court justice behavior. As a natural extension of this political stance detection, we propose the more specialized task of legal stance detection with our new dataset SC-stance, which matches written opinions to legal questions. We find competitive performance on this dataset using language adapters trained on legal documents.
翻訳日:2022-11-22 19:49:45 公開日:2022-11-21
# インテリジェントコンピューティング: 最新の進歩、挑戦、そして未来

Intelligent Computing: The Latest Advances, Challenges and Future ( http://arxiv.org/abs/2211.11281v1 )

ライセンス: Link先を確認
Shiqiang Zhu, Ting Yu, Tao Xu, Hongyang Chen, Schahram Dustdar, Sylvain Gigan, Deniz Gunduz, Ekram Hossain, Yaochu Jin, Feng Lin, Bo Liu, Zhiguo Wan, Ji Zhang, Zhifeng Zhao, Wentao Zhu, Zuoning Chen, Tariq Durrani, Huaimin Wang, Jiangxing Wu, Tongyi Zhang, Yunhe Pan(参考訳) コンピューティングは人類文明の発展において重要な原動力である。 近年、我々は、新しいコンピューティング理論、アーキテクチャ、方法、システム、アプリケーションによるビッグデータ、人工知能、モノのインターネットの時代において、従来のコンピューティングを変革し、デジタル革命を促進する新しいコンピューティングパラダイムであるインテリジェントコンピューティングの出現を目撃してきた。 インテリジェントコンピューティングは、データに関する従来のコンピューティングから、知覚知、認知知、自律知、人間とコンピュータの融合知といった、ますます多様なコンピューティングパラダイムへと、コンピューティングの範囲を大きく広げた。 インテリジェンスとコンピューティングは長い間、異なる進化と発展の道を歩んできたが、近年ではますます絡み合うようになっている。 このような交配はインテリジェントコンピューティングの出現と急速な進歩を引き起こしている。 intelligent computingはまだ初期段階にあり、intelligent computingの理論、システム、アプリケーションにおける多くのイノベーションが間もなく起こると期待されている。 本稿では,知的コンピューティングに関する文献を包括的に調査し,その理論の基本,知性とコンピューティングの技術的融合,重要な応用,課題,今後の展望について紹介する。 この調査は非常にタイムリーであり、学術や産業の研究者や実践者に対して、インテリジェントコンピューティングに関する貴重な洞察を総合的に提供し、提供したいと考えています。

Computing is a critical driving force in the development of human civilization. In recent years, we have witnessed the emergence of intelligent computing, a new computing paradigm that is reshaping traditional computing and promoting digital revolution in the era of big data, artificial intelligence and internet-of-things with new computing theories, architectures, methods, systems, and applications. Intelligent computing has greatly broadened the scope of computing, extending it from traditional computing on data to increasingly diverse computing paradigms such as perceptual intelligence, cognitive intelligence, autonomous intelligence, and human-computer fusion intelligence. Intelligence and computing have undergone paths of different evolution and development for a long time but have become increasingly intertwined in recent years: intelligent computing is not only intelligence-oriented but also intelligence-driven. Such cross-fertilization has prompted the emergence and rapid advancement of intelligent computing. Intelligent computing is still in its infancy and an abundance of innovations in the theories, systems, and applications of intelligent computing are expected to occur soon. We present the first comprehensive survey of literature on intelligent computing, covering its theory fundamentals, the technological fusion of intelligence and computing, important applications, challenges, and future perspectives. We believe that this survey is highly timely and will provide a comprehensive reference and cast valuable insights into intelligent computing for academic and industrial researchers and practitioners.
翻訳日:2022-11-22 19:49:16 公開日:2022-11-21
# 微分可能なメタ論理プログラミング

Differentiable Meta logical Programming ( http://arxiv.org/abs/2211.11650v1 )

ライセンス: Link先を確認
Zihan Ye, Hikaru Shindo, Devendra Singh Dhami, Kristian Kersting(参考訳) ディープラーニングは、計算量とデータを増やして、非常に具体的な問題を解決する。 対照的に、人間の心は一定量の計算と限られた経験を用いて幅広い問題を解決する。 この種の一般的な知性にとって不可欠と思われる能力の一つは、メタリゾナリング、すなわち推論を推論する能力である。 より少ない深層学習を実現するため,差別化可能な論理メタインタプリタ(DLMI)を提案する。 鍵となる考え方は、一階述語論理における微分可能前方鎖推論を用いたメタ解釈を実現することである。 これにより、DLMIは自身の操作を推論し、学習することが可能になる。 これは、何らかの方法でシステム外部のエンティティを参照する、オブジェクト指向の深い推論と学習の実行とは異なる。 対照的に、DLMIはメタ推論からオブジェクトレベルの推論へ、そしてその逆を反映または内観することができる。 その他の多くの実験的評価の中で、この振る舞いを「カンディンスキーパターンの再生」という新しいタスク、すなわち画像内のオブジェクトの編集方法を用いて説明し、与えられた論理概念に一致するようにする。

Deep learning uses an increasing amount of computation and data to solve very specific problems. By stark contrast, human minds solve a wide range of problems using a fixed amount of computation and limited experience. One ability that seems crucial to this kind of general intelligence is meta-reasoning, i.e., our ability to reason about reasoning. To make deep learning do more from less, we propose the differentiable logical meta interpreter (DLMI). The key idea is to realize a meta-interpreter using differentiable forward-chaining reasoning in first-order logic. This directly allows DLMI to reason and even learn about its own operations. This is different from performing object-level deep reasoning and learning, which refers in some way to entities external to the system. In contrast, DLMI is able to reflect or introspect, i.e., to shift from meta-reasoning to object-level reasoning and vice versa. Among many other experimental evaluations, we illustrate this behavior using the novel task of "repairing Kandinsky patterns," i.e., how to edit the objects in an image so that it agrees with a given logical concept.
翻訳日:2022-11-22 19:48:53 公開日:2022-11-21
# 正しいインスタンス化による教師なし説明生成

Unsupervised Explanation Generation via Correct Instantiations ( http://arxiv.org/abs/2211.11160v1 )

ライセンス: Link先を確認
Sijie Cheng, Zhiyong Wu, Jiangjie Chen, Zhixing Li, Yang Liu, Lingpeng Kong(参考訳) 大きな事前学習された言語モデル(plm)は、識別タスクの解決に優れたスキルを示しているが、説明関連のタスクで人間と比較した場合、大きなギャップは残る。 その中で、文が間違っている理由(例:常識に反する)を説明するのは非常に難しい。 最大の難点は、声明が現実の世界と矛盾する紛争点を見つけることだ。 本稿では,2フレーズの教師なし説明生成フレームワークNeonを提案する。 ネオンはまず文の修正されたインスタンス化(フェーズI)を生成し、それから大きなPLMに衝突点を見つけ、説明を完了させる(フェーズII)。 我々は,ComVE と e-SNLI の2つの標準説明ベンチマークについて広範な実験を行った。 自動評価と人的評価の両方で、Neonは人間に注釈を付けたインスタンス化であってもベースラインを上回っている。 負の予測を説明することに加えて、異なるシナリオに一般化してもネオンは有効であることを示す。

While large pre-trained language models (PLM) have shown their great skills at solving discriminative tasks, a significant gap remains when compared with humans for explanation-related tasks. Among them, explaining the reason why a statement is wrong (e.g., against commonsense) is incredibly challenging. The major difficulty is finding the conflict point, where the statement contradicts our real world. This paper proposes Neon, a two-phrase, unsupervised explanation generation framework. Neon first generates corrected instantiations of the statement (phase I), then uses them to prompt large PLMs to find the conflict point and complete the explanation (phase II). We conduct extensive experiments on two standard explanation benchmarks, i.e., ComVE and e-SNLI. According to both automatic and human evaluations, Neon outperforms baselines, even for those with human-annotated instantiations. In addition to explaining a negative prediction, we further demonstrate that Neon remains effective when generalizing to different scenarios.
翻訳日:2022-11-22 19:39:31 公開日:2022-11-21
# UniMSE: 統合マルチモーダル感情分析と感情認識を目指して

UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion Recognition ( http://arxiv.org/abs/2211.11256v1 )

ライセンス: Link先を確認
Guimin Hu, Ting-En Lin, Yi Zhao, Guangming Lu, Yuchuan Wu, Yongbin Li(参考訳) マルチモーダル感情分析(MSA)と会話における感情認識(ERC)は、コンピュータが人間の行動を理解する上で重要な研究課題である。 心理的には、感情は短期間の感情や感情の表現であり、感情はより長い期間形成され保持される。 しかし、既存の作品の多くは感情と感情を別々に研究しており、両者の背後にある相補的な知識を十分に活用していない。 本稿では,MSAとERCタスクを特徴,ラベル,モデルから統合するマルチモーダル感情知識共有フレームワーク(UniMSE)を提案する。 我々は,構文と意味のレベルでモーダリティ融合を行い,モーダリティとサンプルの対比学習を導入し,感情と感情の違いと一貫性をよりよく把握する。 4つの公開ベンチマークデータセット(MOSI, MOSEI, MELD, IEMOCAP)の実験により,提案手法の有効性が実証され,最先端手法と比較して一貫した改善が得られた。

Multimodal sentiment analysis (MSA) and emotion recognition in conversation (ERC) are key research topics for computers to understand human behaviors. From a psychological perspective, emotions are the expression of affect or feelings during a short period, while sentiments are formed and held for a longer period. However, most existing works study sentiment and emotion separately and do not fully exploit the complementary knowledge behind the two. In this paper, we propose a multimodal sentiment knowledge-sharing framework (UniMSE) that unifies MSA and ERC tasks from features, labels, and models. We perform modality fusion at the syntactic and semantic levels and introduce contrastive learning between modalities and samples to better capture the difference and consistency between sentiments and emotions. Experiments on four public benchmark datasets, MOSI, MOSEI, MELD, and IEMOCAP, demonstrate the effectiveness of the proposed method and achieve consistent improvements compared with state-of-the-art methods.
翻訳日:2022-11-22 19:39:16 公開日:2022-11-21
# 自然言語生成のためのシーケンス補完によるインサンプルカリキュラム学習

In-sample Curriculum Learning by Sequence Completion for Natural Language Generation ( http://arxiv.org/abs/2211.11297v1 )

ライセンス: Link先を確認
Qi Jia, Yizhu Liu, Haifeng Tang, Kenny Q. Zhu(参考訳) カリキュラム学習は、簡単なサンプルから難しいものまで機械学習モデルをトレーニングすることで、複数のドメインで有望な改善が示されている。 タスク固有の専門知識に非常に依存し、一般化できない難易度を評価するためのルールやトレーニングモデルを設計する以前の作品。 我々は,'easy-to-hard'の直観に触発されて,自然言語生成タスクにサンプル内カリキュラム学習を行うことを提案する。 私たちの学習戦略は、最後の数単語、すなわちシーケンス完了を生成するようにモデルをトレーニングし始め、徐々に拡大して出力シーケンス全体を生成します。 総合的な実験により、様々なタスクを一般化し、強いベースラインよりも大幅に改善されていることが示されている。

Curriculum learning has shown promising improvements in multiple domains by training machine learning models from easy samples to hard ones. Previous works which either design rules or train models for scoring the difficulty highly rely on task-specific expertise, and cannot generalize. Inspired by the ``easy-to-hard'' intuition, we propose to do in-sample curriculum learning for natural language generation tasks. Our learning strategy starts training the model to generate the last few words, i.e., do sequence completion, and gradually extends to generate the whole output sequence. Comprehensive experiments show that it generalizes well to different tasks and achieves significant improvements over strong baselines.
翻訳日:2022-11-22 19:39:01 公開日:2022-11-21
# テキスト内分布検出のための多レベル知識蒸留

Multi-Level Knowledge Distillation for Out-of-Distribution Detection in Text ( http://arxiv.org/abs/2211.11300v1 )

ライセンス: Link先を確認
Qianhui Wu, Huiqiang Jiang, Haonan Yin, Borje F. Karlsson, Chin-Yew Lin(参考訳) 自己教師型表現学習は,分布外(OoD)検出において,分布内(ID)例のテキストのみを用いた貴重な要素であることが証明された。 これらのアプローチは、言語モデルをスクラッチからトレーニングするか、ID例を使ってトレーニング済みの言語モデルを微調整するか、あるいはOoDスコアとして言語モデルによって出力されるパープレキシティ(perplexity)を取る。 本稿では,OoD検出手法の相補的特性を解析し,その限界を緩和しつつ,その強度を統合する多段階知識蒸留手法を提案する。 具体的には、教師として微調整モデルを用いて、IDの例についてランダムに初期化学生モデルを教える。 予測層蒸留に加えて, 類似性に基づく中間層蒸留法を提案し, 教師層内の情報の流れに対する学生の認識を促進する。 このようにして、派生した学生モデルは、事前学習によるIDデータ多様体に関する教師の豊富な知識を得ると同時に、パラメータ学習中にのみIDサンプルを見ることで、OoD検出のためのより区別可能な特徴を促進する。 本稿では,複数のベンチマークデータセット,すなわちclinc150,sst,20ニュースグループ,agニュースについて広範な実験を行い,提案手法が新たな最先端性能をもたらすことを示す。

Self-supervised representation learning has proved to be a valuable component for out-of-distribution (OoD) detection with only the texts of in-distribution (ID) examples. These approaches either train a language model from scratch or fine-tune a pre-trained language model using ID examples, and then take perplexity as output by the language model as OoD scores. In this paper, we analyse the complementary characteristics of both OoD detection methods and propose a multi-level knowledge distillation approach to integrate their strengths, while mitigating their limitations. Specifically, we use a fine-tuned model as the teacher to teach a randomly initialized student model on the ID examples. Besides the prediction layer distillation, we present a similarity-based intermediate layer distillation method to facilitate the student's awareness of the information flow inside the teacher's layers. In this way, the derived student model gains the teacher's rich knowledge about the ID data manifold due to pre-training, while benefiting from seeing only ID examples during parameter learning, which promotes more distinguishable features for OoD detection. We conduct extensive experiments over multiple benchmark datasets, i.e., CLINC150, SST, 20 NewsGroups, and AG News; showing that the proposed method yields new state-of-the-art performance.
翻訳日:2022-11-22 19:38:48 公開日:2022-11-21
# TCBERT:中国のトピック分類BERTの技術レポート

TCBERT: A Technical Report for Chinese Topic Classification BERT ( http://arxiv.org/abs/2211.11304v1 )

ライセンス: Link先を確認
Ting Han, Kunhao Pan, Xinyu Chen, Dingjie Song, Yuchen Fan, Xinyu Gao, Ruyi Gan, Jiaxing Zhang(参考訳) Transformers または BERT~\cite{devlin-etal-2019-bert} による双方向エンコーダ表現は、その顕著な性能のために、様々な NLP タスクのベースモデルの一つとなっている。 さまざまな言語やタスク用にカスタマイズされたバリエーションが提案され、パフォーマンスがさらに向上する。 本研究では,中国語話題分類タスクにおけるbertの継続前学習----cite{gururangan-etal-2020-dont}について検討する。 具体的には,素早い学習とコントラスト学習を事前学習に取り入れる。 中国におけるトピック分類の課題に適応するため、さまざまなトピックにまたがる約210万の中国語データを収集する。 パラメータサイズが異なる事前訓練された中国のトピック分類BERT (TCBERTs) は、 \url{https://huggingface.co/IDEA-CCNL} でオープンソース化されている。

Bidirectional Encoder Representations from Transformers or BERT~\cite{devlin-etal-2019-bert} has been one of the base models for various NLP tasks due to its remarkable performance. Variants customized for different languages and tasks are proposed to further improve the performance. In this work, we investigate supervised continued pre-training~\cite{gururangan-etal-2020-dont} on BERT for Chinese topic classification task. Specifically, we incorporate prompt-based learning and contrastive learning into the pre-training. To adapt to the task of Chinese topic classification, we collect around 2.1M Chinese data spanning various topics. The pre-trained Chinese Topic Classification BERTs (TCBERTs) with different parameter sizes are open-sourced at \url{https://huggingface.co/IDEA-CCNL}.
翻訳日:2022-11-22 19:38:26 公開日:2022-11-21
# エンティティマッシュ言語モデルとマルチタスク学習による危機関連ツイート分類の強化

Enhancing Crisis-Related Tweet Classification with Entity-Masked Language Modeling and Multi-Task Learning ( http://arxiv.org/abs/2211.11468v1 )

ライセンス: Link先を確認
Philipp Seeberger, Korbinian Riedhammer(参考訳) ソーシャルメディアは危機管理の重要な情報源となり、進行中の開発や重要な情報への迅速なアクセスを提供する。 しかし、分類モデルは事象に関連したバイアスと高度にバランスのとれたラベル分布に苦しむ。 これらの課題に対処するため,マルチタスク学習問題として,エンティティ・マインド言語モデリングと階層型マルチラベル分類の組み合わせを提案する。 TREC-ISデータセットからのつぶやきに対する評価を行い、動作可能な情報型に対して最大10%の性能向上を示す。 さらに,エンティティ・マスキングはドメイン内イベントへのオーバーフィッティングの効果を低減し,クロスイベント一般化の改善を可能にする。

Social media has become an important information source for crisis management and provides quick access to ongoing developments and critical information. However, classification models suffer from event-related biases and highly imbalanced label distributions which still poses a challenging task. To address these challenges, we propose a combination of entity-masked language modeling and hierarchical multi-label classification as a multi-task learning problem. We evaluate our method on tweets from the TREC-IS dataset and show an absolute performance gain w.r.t. F1-score of up to 10% for actionable information types. Moreover, we found that entity-masking reduces the effect of overfitting to in-domain events and enables improvements in cross-event generalization.
翻訳日:2022-11-22 19:38:14 公開日:2022-11-21
# 実例によるプログラミングと会話コード生成のためのテキスト間翻訳

Programming by Example and Text-to-Code Translation for Conversational Code Generation ( http://arxiv.org/abs/2211.11554v1 )

ライセンス: Link先を確認
Eli Whitehouse, William Gerard, Yauhen Klimovich, Marc Franco-Salvador(参考訳) 対話システムは自然言語処理のタスクとして人気が高まっている。 しかしながら、対話パスは決定論的であり、与えられた要求や入力テキストに関わらず、システムレールに制限される。 プログラム合成の最近の進歩は、例えば、例によるプログラミングのような非常に一般的な検索空間からプログラムを合成できるシステムや、テキストからコードへの翻訳のようなプログラムを書くための非常にアクセスしやすいインタフェースを持つシステムに繋がった。 本稿では,テキストガイド型階層合成(mpaths)のためのモジュール型プログラムと,汎用プログラムを合成するための自然言語インタフェースを提供するテキスト・ツー・コードシステムを提案する。 本稿では,タスク指向対話問題に適用可能なプログラム表現を提案する。 最後に,プログラム表現を用いてMPaTHSをデモする。

Dialogue systems is an increasingly popular task of natural language processing. However, the dialogue paths tend to be deterministic, restricted to the system rails, regardless of the given request or input text. Recent advances in program synthesis have led to systems which can synthesize programs from very general search spaces, e.g. Programming by Example, and to systems with very accessible interfaces for writing programs, e.g. text-to-code translation, but have not achieved both of these qualities in the same system. We propose Modular Programs for Text-guided Hierarchical Synthesis (MPaTHS), a method for integrating Programming by Example and text-to-code systems which offers an accessible natural language interface for synthesizing general programs. We present a program representation that allows our method to be applied to the problem of task-oriented dialogue. Finally, we demo MPaTHS using our program representation.
翻訳日:2022-11-22 19:38:01 公開日:2022-11-21
# 深層学習によるALMA音源の3次元検出とキャラクタリゼーション

3D Detection and Characterisation of ALMA Sources through Deep Learning ( http://arxiv.org/abs/2211.11462v1 )

ライセンス: Link先を確認
Michele Delli Veneri, Lukasz Tychoniec, Fabrizia Guglielmetti, Giuseppe Longo, Eric Villard(参考訳) 本稿では,Atacama Large Millimeter/submillimeter Array (ALMA) データキューブ内の天文学的情報源の検出と評価を目的として,Deep-Learning (DL)パイプラインを提案する。 パイプラインは、統合データキューブの空間領域内でのソース検出のための畳み込みオートエンコーダ、周波数領域内での遅延検出とピーク検出のためのリカレントニューラルネットワーク(RNN)、ソースキャラクタリゼーションのためのResidual Neural Networks(ResNets)の6つのDLモデルで構成されている。 空間情報と周波数情報の組み合わせは、スプリアス信号検出を減少させながら完全性を向上させる。 パイプラインの訓練と試験のために,空モデルと汚れた立方体の両方でリアルなALMA観測を生成できるシミュレーションアルゴリズムを開発した。 このアルゴリズムは立方体の内部に散らばっているかすかなものに囲まれた中央のソースを常にシミュレートする。 いくつかのソースはパイプラインの曲げ性能をテストするために空間的に重畳された。 パイプラインの検出性能は他の手法と比較され,性能が大幅に向上した。 ソース形態は、位置とフラックス推定でそれぞれ10^{-3}$ pixel (0.1$ mas) と10^{-1}$ mjy/beamの平均残差誤差を得るサブピクセルアキュラリティーによって検出される。 射影角とフラックス密度は、それぞれテストセットの全ソースの80 %$と7,3 %$の真の値の10 %$以内に回収される。 我々のパイプラインはALMAデータに対して微調整されているが、この技術はSKA、LOFAR、VLBI、VLTIなどの他の干渉観測所に適用できる。

We present a Deep-Learning (DL) pipeline developed for the detection and characterization of astronomical sources within simulated Atacama Large Millimeter/submillimeter Array (ALMA) data cubes. The pipeline is composed of six DL models: a Convolutional Autoencoder for source detection within the spatial domain of the integrated data cubes, a Recurrent Neural Network (RNN) for denoising and peak detection within the frequency domain, and four Residual Neural Networks (ResNets) for source characterization. The combination of spatial and frequency information improves completeness while decreasing spurious signal detection. To train and test the pipeline, we developed a simulation algorithm able to generate realistic ALMA observations, i.e. both sky model and dirty cubes. The algorithm simulates always a central source surrounded by fainter ones scattered within the cube. Some sources were spatially superimposed in order to test the pipeline deblending capabilities. The detection performances of the pipeline were compared to those of other methods and significant improvements in performances were achieved. Source morphologies are detected with subpixel accuracies obtaining mean residual errors of $10^{-3}$ pixel ($0.1$ mas) and $10^{-1}$ mJy/beam on positions and flux estimations, respectively. Projection angles and flux densities are also recovered within $10\%$ of the true values for $80\%$ and $73\%$ of all sources in the test set, respectively. While our pipeline is fine-tuned for ALMA data, the technique is applicable to other interferometric observatories, as SKA, LOFAR, VLBI, and VLTI.
翻訳日:2022-11-22 19:32:42 公開日:2022-11-21
# 糖尿病網膜症の診断におけるUW-OCTA画像の分離,分類,品質評価

Segmentation, Classification, and Quality Assessment of UW-OCTA Images for the Diagnosis of Diabetic Retinopathy ( http://arxiv.org/abs/2211.11509v1 )

ライセンス: Link先を確認
Yihao Li and Rachid Zeghlache and Ikram Brahim and Hui Xu and Yubo Tan and Pierre-Henri Conze and Mathieu Lamard and Gwenol\'e Quellec and Mostafa El Habib Daho(参考訳) 糖尿病網膜症(英: Diabetic Retinopathy、DR)は、糖尿病の重症合併症の一つ。 病気の進行を遅らせ、盲目を防ぐ効果的な治療法(特にレーザー)は存在するが、最良の治療法は眼科医による定期的な検診(少なくとも年に1回)による予防である。 オプティカルコヒーレンス・トモグラフィー(OCTA)は網膜血管の可視化と微小血管レベルでの脈絡膜の可視化を可能にする。 これにより、医師はより正確にDRを診断できる。 近年,ディープラーニングの開発とコンピュータハードウェアの改良に伴い,DR診断のためのアルゴリズムが登場している。 しかし、通常は網膜写真に焦点を合わせている。 UW-OCTA(Ultra-Wide OCTA)を用いてDRを自動的に解析できる現在の方法はない。 糖尿病網膜症解析チャレンジ2022(drac22)は、病変の分節化、品質評価、およびdr gradingの3つのタスクにおける様々なアルゴリズムの有効性を訓練し、テストするための標準化されたuw-octaデータセットを提供する。 本稿では,DRAC22チャレンジの3つの課題に対する解決策を提案する。 得られた結果は有望であり、セグメンテーションタスクのTOP5、品質評価タスクのTOP4、DRグレーディングタスクのTOP3に位置づけることができる。 コードは \url{https://github.com/mostafa-ehd/diabetic_retinopathy_octa} で入手できる。

Diabetic Retinopathy (DR) is a severe complication of diabetes that can cause blindness. Although effective treatments exist (notably laser) to slow the progression of the disease and prevent blindness, the best treatment remains prevention through regular check-ups (at least once a year) with an ophthalmologist. Optical Coherence Tomography Angiography (OCTA) allows for the visualization of the retinal vascularization, and the choroid at the microvascular level in great detail. This allows doctors to diagnose DR with more precision. In recent years, algorithms for DR diagnosis have emerged along with the development of deep learning and the improvement of computer hardware. However, these usually focus on retina photography. There are no current methods that can automatically analyze DR using Ultra-Wide OCTA (UW-OCTA). The Diabetic Retinopathy Analysis Challenge 2022 (DRAC22) provides a standardized UW-OCTA dataset to train and test the effectiveness of various algorithms on three tasks: lesions segmentation, quality assessment, and DR grading. In this paper, we will present our solutions for the three tasks of the DRAC22 challenge. The obtained results are promising and have allowed us to position ourselves in the TOP 5 of the segmentation task, the TOP 4 of the quality assessment task, and the TOP 3 of the DR grading task. The code is available at \url{https://github.com/Mostafa-EHD/Diabetic_Retinopathy_OCTA}.
翻訳日:2022-11-22 19:32:11 公開日:2022-11-21
# 統合失調症認知のための2+1D処理への3次元脳画像の分解

Decomposing 3D Neuroimaging into 2+1D Processing for Schizophrenia Recognition ( http://arxiv.org/abs/2211.11557v1 )

ライセンス: Link先を確認
Mengjiao Hu, Xudong Jiang, Kang Sim, Juan Helen Zhou, Cuntai Guan(参考訳) 深層学習は自然画像と医用画像の両方の認識に成功している。 しかし、特に統合失調症やうつ病などの精神疾患において、特定のスライスで目に見える変化が見られない3dニューロイメージングデータの認識にはギャップがある。 本研究では,2+1Dフレームワークを用いて3次元データを処理し,3次元ニューロイメージング認識のための巨大なImageNetデータセット上に事前トレーニングされた,強力な2次元畳み込みニューラルネットワーク(CNN)ネットワークを活用することを提案する。 具体的には、3次元磁気共鳴イメージング(MRI)の計測値(灰物質、白物質、髄液)を隣接するボクセル位置に応じて2次元スライスに分解し、ImageNetで事前訓練された2次元CNNモデルに入力し、3つのビュー(軸、コロナ、サジタル)から特徴マップを抽出する。 機能マップ上でアクティベーションパターンが分散しているため、グローバルプーリングは冗長な情報を削除するために適用される。 2次元cnnモデルで未処理の3次元の文脈情報を集約するために, チャネルワイズおよびスライスワイズ畳み込みを提案する。 最終予測のためにマルチメトリック情報とマルチビュー情報が融合される。 提案手法は,手作業による特徴ベース機械学習,サポートベクタマシン(SVM)分類器と3次元CNNモデルを用いたディープ・フィーチャー・アプローチを,ノースウェスタン大学統合失調症データセット上で,より優れたクロスバリデーション結果を用いて,スクラッチからトレーニングし,その結果を別の独立したデータセットで再現する。

Deep learning has been successfully applied to recognizing both natural images and medical images. However, there remains a gap in recognizing 3D neuroimaging data, especially for psychiatric diseases such as schizophrenia and depression that have no visible alteration in specific slices. In this study, we propose to process the 3D data by a 2+1D framework so that we can exploit the powerful deep 2D Convolutional Neural Network (CNN) networks pre-trained on the huge ImageNet dataset for 3D neuroimaging recognition. Specifically, 3D volumes of Magnetic Resonance Imaging (MRI) metrics (grey matter, white matter, and cerebrospinal fluid) are decomposed to 2D slices according to neighboring voxel positions and inputted to 2D CNN models pre-trained on the ImageNet to extract feature maps from three views (axial, coronal, and sagittal). Global pooling is applied to remove redundant information as the activation patterns are sparsely distributed over feature maps. Channel-wise and slice-wise convolutions are proposed to aggregate the contextual information in the third view dimension unprocessed by the 2D CNN model. Multi-metric and multi-view information are fused for final prediction. Our approach outperforms handcrafted feature-based machine learning, deep feature approach with a support vector machine (SVM) classifier and 3D CNN models trained from scratch with better cross-validation results on publicly available Northwestern University Schizophrenia Dataset and the results are replicated on another independent dataset.
翻訳日:2022-11-22 19:31:48 公開日:2022-11-21
# DPD-fVAE:差分復号器付きフェデレーション変分オートエンコーダを用いた合成データ生成

DPD-fVAE: Synthetic Data Generation Using Federated Variational Autoencoders With Differentially-Private Decoder ( http://arxiv.org/abs/2211.11591v1 )

ライセンス: Link先を確認
Bjarne Pfitzner and Bert Arnrich(参考訳) 集中学習(federated learning, fl)は、医療などのドメインに共通する、機密性の高い分散データセットを処理することに注目が集まっている。 これらのデータセットの分類モデルを直接訓練する代わりに、最近の研究は、プライバシー制限に保護されない新しいデータセットを合成できるデータジェネレータを訓練することを検討している。 このようにして、合成データを誰でも利用できるようになり、機械学習アーキテクチャのさらなる評価と、現場外のリサーチ質問が可能になる。 さらなるプライバシー保護のレイヤとして、トレーニングプロセスに差分プライバシーを導入することができる。 dpd-fvaeは差分プライベートデコーダを持つ共役変分オートエンコーダであり、後続の機械学習タスクのための新しいラベル付きデータセットを合成する。 FLとデコーダコンポーネントのみを同期させることで、エポックあたりのプライバシコストを削減し、より良いデータジェネレータを可能にします。 我々は、MNIST、Fashion-MNIST、CelebAの評価において、DPD-fVAEの利点を示し、Fr'echet Inception Distanceおよび合成データセットに基づいて訓練された分類器の精度の観点から、関連する作業に対する競合性能を報告する。

Federated learning (FL) is getting increased attention for processing sensitive, distributed datasets common to domains such as healthcare. Instead of directly training classification models on these datasets, recent works have considered training data generators capable of synthesising a new dataset which is not protected by any privacy restrictions. Thus, the synthetic data can be made available to anyone, which enables further evaluation of machine learning architectures and research questions off-site. As an additional layer of privacy-preservation, differential privacy can be introduced into the training process. We propose DPD-fVAE, a federated Variational Autoencoder with Differentially-Private Decoder, to synthesise a new, labelled dataset for subsequent machine learning tasks. By synchronising only the decoder component with FL, we can reduce the privacy cost per epoch and thus enable better data generators. In our evaluation on MNIST, Fashion-MNIST and CelebA, we show the benefits of DPD-fVAE and report competitive performance to related work in terms of Fr\'echet Inception Distance and accuracy of classifiers trained on the synthesised dataset.
翻訳日:2022-11-22 19:31:18 公開日:2022-11-21
# 混合一般化線形モデルにおけるスペクトル法の精密漸近

Precise Asymptotics for Spectral Methods in Mixed Generalized Linear Models ( http://arxiv.org/abs/2211.11368v1 )

ライセンス: Link先を確認
Yihan Zhang, Marco Mondelli, Ramji Venkataramanan(参考訳) 混合一般化線形モデルにおいて、目的はラベルなしの観測から複数の信号を学習することである: 各サンプルは正確に1つの信号から来るが、どれがどの信号であるかは分かっていない。 ガウス共変量を持つ混合一般化線形モデルにおける2つの統計的独立な信号を推定する原型的問題を考える。 スペクトル法は、適切なデータ依存行列のトップ2固有ベクトルを出力する一般的な推定器のクラスである。 しかし、幅広い適用性にもかかわらず、その設計はヒューリスティックな考慮によっても得られており、回復を保証するのに必要とされるサンプル数n$は信号次元$d$において超線形である。 本稿では,n,d$が大きく成長し,その比が有限定数に収束する挑戦的比例法において,スペクトル法に関する正確な漸近法を開発する。 これにより、スペクトル法の設計を最適化し、単純な線形推定器と組み合わせることで、推定誤差を最小限に抑えることができる。 本手法では,ランダム行列,自由確率,近似メッセージパッシングアルゴリズムの理論からツールを組み合わせて評価する。 線形回帰法と位相検索法を混合した数値シミュレーションは,既存のスペクトル法を解析することで得られる利点を示す。

In a mixed generalized linear model, the objective is to learn multiple signals from unlabeled observations: each sample comes from exactly one signal, but it is not known which one. We consider the prototypical problem of estimating two statistically independent signals in a mixed generalized linear model with Gaussian covariates. Spectral methods are a popular class of estimators which output the top two eigenvectors of a suitable data-dependent matrix. However, despite the wide applicability, their design is still obtained via heuristic considerations, and the number of samples $n$ needed to guarantee recovery is super-linear in the signal dimension $d$. In this paper, we develop exact asymptotics on spectral methods in the challenging proportional regime in which $n, d$ grow large and their ratio converges to a finite constant. By doing so, we are able to optimize the design of the spectral method, and combine it with a simple linear estimator, in order to minimize the estimation error. Our characterization exploits a mix of tools from random matrices, free probability and the theory of approximate message passing algorithms. Numerical simulations for mixed linear regression and phase retrieval display the advantage enabled by our analysis over existing designs of spectral methods.
翻訳日:2022-11-22 19:30:35 公開日:2022-11-21
# 任意混合データに対する高次元非指向グラフィカルモデル

High-Dimensional Undirected Graphical Models for Arbitrary Mixed Data ( http://arxiv.org/abs/2211.11700v1 )

ライセンス: Link先を確認
Konstantin G\"obler and Anne Miloschewski and Mathias Drton and Sach Mukherjee(参考訳) グラフィカルモデルは、複雑な多変量データの変数間の関係を探索する上で重要なツールである。 このようなグラフィカルモデルを学ぶ方法は、高次元を含む全ての変数が連続的または離散的である場合によく発達する。 しかし、多くのアプリケーションでは、データは異なるタイプの変数(例えば、連続、カウント、バイナリ、順序数など)にまたがる。 すべての変数が基礎となるガウス変数の変換としてモデル化される潜在ガウスコプラモデルは有用なアプローチである。 最近の進歩は、バイナリ連続ケースにどのように取り組めるかを示しているが、一般的な混合変数型構造は依然として困難である。 本研究では,ポリコリックおよびポリセリアル相関に関する古典的考えを,潜在ガウスコプラフレームワークで活用できるという,シンプルかつ有用な観察を行う。 この観察に基づいて,完全混合型の変数を持つデータに対して柔軟でスケーラブルな手法を提案する。 本研究は,英国のバイオバンクから得られたcovid-19リスク要因に関するデータに対して,広範囲なシミュレーションを行い,理論的および実証的手法の重要な特性について検討する。

Graphical models are an important tool in exploring relationships between variables in complex, multivariate data. Methods for learning such graphical models are well developed in the case where all variables are either continuous or discrete, including in high-dimensions. However, in many applications data span variables of different types (e.g. continuous, count, binary, ordinal, etc.), whose principled joint analysis is nontrivial. Latent Gaussian copula models, in which all variables are modeled as transformations of underlying jointly Gaussian variables, represent a useful approach. Recent advances have shown how the binary-continuous case can be tackled, but the general mixed variable type regime remains challenging. In this work, we make the simple yet useful observation that classical ideas concerning polychoric and polyserial correlations can be leveraged in a latent Gaussian copula framework. Building on this observation we propose flexible and scalable methodology for data with variables of entirely general mixed type. We study the key properties of the approaches theoretically and empirically, via extensive simulations as well an illustrative application to data from the UK Biobank concerning COVID-19 risk factors.
翻訳日:2022-11-22 19:24:11 公開日:2022-11-21
# siameseネットワークと合成データに基づく新しい転送学習方式

Novel transfer learning schemes based on Siamese networks and synthetic data ( http://arxiv.org/abs/2211.11308v1 )

ライセンス: Link先を確認
Dominik Stallmann and Philip Kenneweg and Barbara Hammer(参考訳) 巨大な画像コーパスでトレーニングされたディープネットワークに基づく転送学習スキームは、コンピュータビジョンにおける最先端の技術を提供する。 ここで、教師付きおよび半教師付きアプローチは、比較可能な小さなデータセットでうまく機能する効率的な技術を構成する。 しかし、これらのアプリケーションは現在、適切なディープネットワークモデルが利用できるアプリケーションドメインに限定されている。 本稿では,マイクロ流体単一細胞培養におけるCHO-K1サスペンション成長の自動解析によるバイオテクノロジー分野における重要な応用分野について述べる。 本稿では,最近導入されたツインベイアーキテクチャを,現実的な合成データに基づいて学習し,その専門的な学習手順をトランスファー学習領域に変更する,新しいトランスファー学習方式を提案する。 特定のドメインでは、ラベルがほとんど存在せず、アノテーションはコストがかかることが多い。 本研究では,不変共有表現と適切な目標変数を用いて自然データと合成データを同時にリトレーニングし,異なる顕微鏡技術ノロジーから未知のデータを扱うことを学ぶ新しいトランスファー学習戦略について検討する。 画像処理における最先端の伝達学習手法と従来の画像処理技術に比較して,我々のTwin-VAEアーキテクチャの多様性が優れていることを示す。 ソースコードはhttps://github.com/dstallmann/transfer_learning_twinvaeで公開されている。 データセットはhttps://pub.uni-bielefeld.de/record/2960030で利用可能です。

Transfer learning schemes based on deep networks which have been trained on huge image corpora offer state-of-the-art technologies in computer vision. Here, supervised and semi-supervised approaches constitute efficient technologies which work well with comparably small data sets. Yet, such applications are currently restricted to application domains where suitable deepnetwork models are readily available. In this contribution, we address an important application area in the domain of biotechnology, the automatic analysis of CHO-K1 suspension growth in microfluidic single-cell cultivation, where data characteristics are very dissimilar to existing domains and trained deep networks cannot easily be adapted by classical transfer learning. We propose a novel transfer learning scheme which expands a recently introduced Twin-VAE architecture, which is trained on realistic and synthetic data, and we modify its specialized training procedure to the transfer learning domain. In the specific domain, often only few to no labels exist and annotations are costly. We investigate a novel transfer learning strategy, which incorporates a simultaneous retraining on natural and synthetic data using an invariant shared representation as well as suitable target variables, while it learns to handle unseen data from a different microscopy tech nology. We show the superiority of the variation of our Twin-VAE architecture over the state-of-the-art transfer learning methodology in image processing as well as classical image processing technologies, which persists, even with strongly shortened training times and leads to satisfactory results in this domain. The source code is available at https://github.com/dstallmann/transfer_learning_twinvae, works cross-platform, is open-source and free (MIT licensed) software. We make the data sets available at https://pub.uni-bielefeld.de/record/2960030.
翻訳日:2022-11-22 19:21:04 公開日:2022-11-21
# DyNCA:ニューラルセルオートマタを用いたリアルタイム動的テクスチャ合成

DyNCA: Real-time Dynamic Texture Synthesis Using Neural Cellular Automata ( http://arxiv.org/abs/2211.11417v1 )

ライセンス: Link先を確認
Ehsan Pajouheshgar, Yitao Xu, Tong Zhang, Sabine S\"usstrunk(参考訳) 現在の動的テクスチャ合成(dyts)モデルは、リアルなビデオを合成することができる。 しかし、これらの手法では、単一の固定サイズショートビデオの合成に遅い反復的最適化プロセスが必要であり、合成プロセスに対する後処理制御は提供されない。 リアルタイムかつ制御可能な動的テクスチャ合成のためのフレームワークである動的ニューラルネットワークセルオートマタ(DyNCA)を提案する。 提案手法は,最近導入されたncaモデルに基づいて構築され,無限長かつ任意の大きさのテクスチャ映像をリアルタイムに合成する。 我々は,我々のモデルを定量的に質的に評価し,既存の結果よりもリアルに見えることを示す。 我々はSOTA DyTSの性能を$2\sim 4$で改善する。 さらに,動作速度,動作方向,編集用ブラシツールなど,リアルタイムかつインタラクティブな映像制御もいくつか提供している。

Current Dynamic Texture Synthesis (DyTS) models in the literature can synthesize realistic videos. However, these methods require a slow iterative optimization process to synthesize a single fixed-size short video, and they do not offer any post-training control over the synthesis process. We propose Dynamic Neural Cellular Automata (DyNCA), a framework for real-time and controllable dynamic texture synthesis. Our method is built upon the recently introduced NCA models, and can synthesize infinitely-long and arbitrary-size realistic texture videos in real-time. We quantitatively and qualitatively evaluate our model and show that our synthesized videos appear more realistic than the existing results. We improve the SOTA DyTS performance by $2\sim 4$ orders of magnitude. Moreover, our model offers several real-time and interactive video controls including motion speed, motion direction, and an editing brush tool.
翻訳日:2022-11-22 19:20:36 公開日:2022-11-21
# プライバシ・イン・プラクティス:X線画像におけるプライベート新型コロナウイルス検出

Privacy in Practice: Private COVID-19 Detection in X-Ray Images ( http://arxiv.org/abs/2211.11434v1 )

ライセンス: Link先を確認
Lucas Lange, Maja Schneider, Erhard Rahm(参考訳) 機械学習(ML)は、大量の胸部X線画像の迅速なスクリーニングを可能にすることで、新型コロナウイルスのパンデミックに対抗するのに役立つ。 患者プライバシを維持しながらこのようなデータ分析を行うため,差分プライバシー(DP)を満たすMLモデルを作成する。 プライベートcovid-19 mlモデルを探求する以前の研究は、部分的には小さなデータセットや歪んだデータセットに基づいており、プライバシの保証が不足しており、実用的なプライバシは調査していない。 そこで本研究では,これらのオープンギャップに対処するためのいくつかの改善を提案する。 我々は、データに固有のクラス不均衡を考慮し、ユーティリティとプライバシのトレードオフをより広範囲に評価し、以前の作業よりも厳格なプライバシー予算を評価します。 我々の評価は、実際の攻撃による実用的なプライバシー漏洩を実証的に推定することで支持される。 理論に基づき、導入されたDPは、ブラックボックスメンバーシップ推論攻撃(MIA)による情報漏洩の脅威を制限するのに役立つ。 当社のプライバシ分析は、この仮説を新型コロナウイルス検出タスクで最初にテストしたものです。 また,MNISTデータベース上での評価も再検討する。 以上の結果から,MIA によるタスク依存的脅威に基づき,DP は必ずしも実際のプライバシを改善するとは限らないことが示唆された。 以上の結果から, DP保証の増加に伴い, 経験的プライバシー漏洩が早期に発生し, DPがMIA防御に限られた影響を及ぼす可能性が示唆された。 そこで我々は,実証的な攻撃固有のプライバシ推定が,実用的なプライバシのチューニングにおいて重要な役割を果たすと考えている。

Machine learning (ML) can help fight the COVID-19 pandemic by enabling rapid screening of large volumes of chest X-ray images. To perform such data analysis while maintaining patient privacy, we create ML models that satisfy Differential Privacy (DP). Previous works exploring private COVID-19 ML models are in part based on small or skewed datasets, are lacking in their privacy guarantees, and do not investigate practical privacy. In this work, we therefore suggest several improvements to address these open gaps. We account for inherent class imbalances in the data and evaluate the utility-privacy trade-off more extensively and over stricter privacy budgets than in previous work. Our evaluation is supported by empirically estimating practical privacy leakage through actual attacks. Based on theory, the introduced DP should help limit and mitigate information leakage threats posed by black-box Membership Inference Attacks (MIAs). Our practical privacy analysis is the first to test this hypothesis on the COVID-19 detection task. In addition, we also re-examine the evaluation on the MNIST database. Our results indicate that based on the task-dependent threat from MIAs, DP does not always improve practical privacy, which we show on the COVID-19 task. The results further suggest that with increasing DP guarantees, empirical privacy leakage reaches an early plateau and DP therefore appears to have a limited impact on MIA defense. Our findings identify possibilities for better utility-privacy trade-offs, and we thus believe that empirical attack-specific privacy estimation can play a vital role in tuning for practical privacy.
翻訳日:2022-11-22 19:20:23 公開日:2022-11-21
# グラフニューラルネットワークと構造化状態空間モデルによる多変量信号の時空間モデリング

Spatiotemporal Modeling of Multivariate Signals With Graph Neural Networks and Structured State Space Models ( http://arxiv.org/abs/2211.11176v1 )

ライセンス: Link先を確認
Siyi Tang, Jared A. Dunnmon, Liangqiong Qu, Khaled K. Saab, Christopher Lee-Messer, Daniel L. Rubin(参考訳) 多変量信号は医療、輸送システム、宇宙科学など様々な領域で広く使われている。 多変量信号の時空間依存性のモデル化は,(1)長距離時間依存性と(2)センサ間の複雑な空間相関により困難である。 これらの課題に対処するために,多変量信号をグラフとして表現し,多変量信号の空間的および時間的依存性をキャプチャする汎用グラフニューラルネットワーク(gnn)アーキテクチャであるgraphs4merを提案する。 具体的には,(1)最先端シーケンスモデルである構造化状態空間モデル(s4)を用いて長期の時間依存性を捉え,(2)グラフ構造学習層をgraphs4merで提案し,データ内の動的に進化するグラフ構造を学習する。 We evaluate our proposed model on three distinct tasks and show that GraphS4mer consistently improves over existing models, including (1) seizure detection from electroencephalography signals, outperforming a previous GNN with self-supervised pretraining by 3.1 points in AUROC; (2) sleep staging from polysomnography signals, a 4.1 points improvement in macro-F1 score compared to existing sleep staging models; and (3) traffic forecasting, reducing MAE by 8.8% compared to existing GNNs and by 1.4% compared to Transformer-based models.

Multivariate signals are prevalent in various domains, such as healthcare, transportation systems, and space sciences. Modeling spatiotemporal dependencies in multivariate signals is challenging due to (1) long-range temporal dependencies and (2) complex spatial correlations between sensors. To address these challenges, we propose representing multivariate signals as graphs and introduce GraphS4mer, a general graph neural network (GNN) architecture that captures both spatial and temporal dependencies in multivariate signals. Specifically, (1) we leverage Structured State Spaces model (S4), a state-of-the-art sequence model, to capture long-term temporal dependencies and (2) we propose a graph structure learning layer in GraphS4mer to learn dynamically evolving graph structures in the data. We evaluate our proposed model on three distinct tasks and show that GraphS4mer consistently improves over existing models, including (1) seizure detection from electroencephalography signals, outperforming a previous GNN with self-supervised pretraining by 3.1 points in AUROC; (2) sleep staging from polysomnography signals, a 4.1 points improvement in macro-F1 score compared to existing sleep staging models; and (3) traffic forecasting, reducing MAE by 8.8% compared to existing GNNs and by 1.4% compared to Transformer-based models.
翻訳日:2022-11-22 19:13:58 公開日:2022-11-21
# バーデンバブルを燃やす? sharma et al.の反事実ベースフェアネス指標の評価

Bursting the Burden Bubble? An Assessment of Sharma et al.'s Counterfactual-based Fairness Metric ( http://arxiv.org/abs/2211.11512v1 )

ライセンス: Link先を確認
Yochem van Rosmalen, Florian van der Steen, Sebastiaan Jans, Daan van der Weijden(参考訳) 機械学習は、偏り、不公平、そして解釈不能なモデルのために、近年、ネガティブな宣伝が増加している。 機械学習モデルを女性や有色人種のような特権のないコミュニティにとって公平にすることへの関心が高まっている。 モデルの公平性を評価するにはメトリクスが必要である。 グループ間の公平性を評価するための新しい指標は、負の分類された個人の平均距離をモデルの決定境界に近似するために偽物を使用する負担である。 本研究の目的は,重荷と統計的パリティ,有名な公平度指標を比較し,重荷の長所と短所を発見することである。 2つの合成データセットは、2つのメトリクス間の差異を表示するために作成され、1つの実世界のデータセットが使用される。 統計的パリティが得られないような不公平さを示すことや、どの集団が不公平に扱われるかについて意見が一致しない場合もある。 バーデンは価値ある計量であるが、統計的なパリティに取って代わるものではないと結論付けている。

Machine learning has seen an increase in negative publicity in recent years, due to biased, unfair, and uninterpretable models. There is a rising interest in making machine learning models more fair for unprivileged communities, such as women or people of color. Metrics are needed to evaluate the fairness of a model. A novel metric for evaluating fairness between groups is Burden, which uses counterfactuals to approximate the average distance of negatively classified individuals in a group to the decision boundary of the model. The goal of this study is to compare Burden to statistical parity, a well-known fairness metric, and discover Burden's advantages and disadvantages. We do this by calculating the Burden and statistical parity of a sensitive attribute in three datasets: two synthetic datasets are created to display differences between the two metrics, and one real-world dataset is used. We show that Burden can show unfairness where statistical parity can not, and that the two metrics can even disagree on which group is treated unfairly. We conclude that Burden is a valuable metric, but does not replace statistical parity: it rather is valuable to use both.
翻訳日:2022-11-22 19:13:36 公開日:2022-11-21
# Bipolar Argumentation と Markov Networks を用いたランダム林の解説(技術報告)

Explaining Random Forests using Bipolar Argumentation and Markov Networks (Technical Report) ( http://arxiv.org/abs/2211.11699v1 )

ライセンス: Link先を確認
Nico Potyka, Xiang Yin, Francesca Toni(参考訳) ランダムフォレスト(random forests)は、さまざまな機械学習問題を解決するための決定木アンサンブルである。 しかし、樹木の数と個々のサイズは大きい可能性があるので、その意思決定プロセスは理解できないことが多い。 意思決定過程を判断するために,議論問題として表現することを提案する。 我々は,マルコフネットワークのエンコードを用いて,必要十分かつ必要な議論的説明を一般化し,これらの説明の関連性を議論し,文献からの帰納的説明の家族との関係を確立する。 説明問題の複雑さが高いため,確率近似アルゴリズムについて考察し,最初の実験結果を示す。

Random forests are decision tree ensembles that can be used to solve a variety of machine learning problems. However, as the number of trees and their individual size can be large, their decision making process is often incomprehensible. In order to reason about the decision process, we propose representing it as an argumentation problem. We generalize sufficient and necessary argumentative explanations using a Markov network encoding, discuss the relevance of these explanations and establish relationships to families of abductive explanations from the literature. As the complexity of the explanation problems is high, we discuss a probabilistic approximation algorithm and present first experimental results.
翻訳日:2022-11-22 19:13:00 公開日:2022-11-21
# 視覚言語モデルを用いた指導強化によるロボットスキル獲得

Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Models ( http://arxiv.org/abs/2211.11736v1 )

ライセンス: Link先を確認
Ted Xiao and Harris Chan and Pierre Sermanet and Ayzaan Wahid and Anthony Brohan and Karol Hausman and Sergey Levine and Jonathan Tompson(参考訳) 近年、自然言語の指示に従うロボット操作ポリシーの学習において、多くの進歩がなされている。 このような手法は通常、特定のタスクを念頭に置いて収集されたロボット言語データのコーパスから学習する。 近年,CLIP や ViLD のような大規模事前学習型視覚言語モデル (VLM) がロボット工学に応用されている。 これらの事前訓練されたモデルは、ロボットデータの自動ラベラーとして機能し、インターネット規模の知識を既存のデータセットに効果的にインポートして、基礎的真理のアノテーションに反映されていないタスクにも役立てることができるだろうか? そこで本稿では,CLIPのセマンティック理解を活用して知識を大規模データセット上に伝播させ,拡張されたデータセット上で言語条件のポリシーを訓練する半教師付き言語ラベルを用いて,言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)を提案する。 この方法では、高価なヒトラベルに比べて有用な言語記述を安価に取得でき、大規模データセットのラベルカバレッジをより効率的にすることができる。 実世界のロボット操作領域では8万のデモのうち96.5%がクラウドソースの言語アノテーションを含まない。 DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。

In recent years, much progress has been made in learning robotic manipulation policies that follow natural language instructions. Such methods typically learn from corpora of robot-language data that was either collected with specific tasks in mind or expensively re-labelled by humans with rich language descriptions in hindsight. Recently, large-scale pretrained vision-language models (VLMs) like CLIP or ViLD have been applied to robotics for learning representations and scene descriptors. Can these pretrained models serve as automatic labelers for robot data, effectively importing Internet-scale knowledge into existing datasets to make them useful even for tasks that are not reflected in their ground truth annotations? To accomplish this, we introduce Data-driven Instruction Augmentation for Language-conditioned control (DIAL): we utilize semi-supervised language labels leveraging the semantic understanding of CLIP to propagate knowledge onto large datasets of unlabelled demonstration data and then train language-conditioned policies on the augmented datasets. This method enables cheaper acquisition of useful language descriptions compared to expensive human labels, allowing for more efficient label coverage of large-scale datasets. We apply DIAL to a challenging real-world robotic manipulation domain where 96.5% of the 80,000 demonstrations do not contain crowd-sourced language annotations. DIAL enables imitation learning policies to acquire new capabilities and generalize to 60 novel instructions unseen in the original dataset.
翻訳日:2022-11-22 19:12:49 公開日:2022-11-21
# 高次元ガウス過程回帰における核の局所性の性質の喪失 : 分子ポテンシャルエネルギー面の嵌合の例

The loss of the property of locality of the kernel in high-dimensional Gaussian process regression on the example of the fitting of molecular potential energy surfaces ( http://arxiv.org/abs/2211.11170v1 )

ライセンス: Link先を確認
Sergei Manzhos and Manabu Ihara(参考訳) ガウス過程回帰(GPR)や一般カーネルリッジ回帰(KRR)を含むカーネルベースの手法は、ポテンシャルエネルギー面の嵌合や高次元特徴空間における密度汎関数など、計算化学での利用が増えている。 ガウス型カーネル (basis function) のようなマタン族のカーネルはよく用いられ、共分散関数の意味を与え、ガウス分布の平均の推定元としてGPRを定式化することができる。 この解釈にはカーネルの局所性の概念が不可欠である。 計算化学において広く用いられる多ゼータ型基底関数の定式化にも批判的であり、次元性の増大による分子ポテンシャルエネルギー曲面の適合例、高次元のガウス型核の局所性の性質の実用的消失について示す。 また,マルチゼータのカーネルへのアプローチを定式化し,低次元の回帰の質を著しく向上させるが,局所性の喪失に起因する高次元の利点を損なうことを示した。

Kernel based methods including Gaussian process regression (GPR) and generally kernel ridge regression (KRR) have been finding increasing use in computational chemistry, including the fitting of potential energy surfaces and density functionals in high-dimensional feature spaces. Kernels of the Matern family such as Gaussian-like kernels (basis functions) are often used, which allows imparting them the meaning of covariance functions and formulating GPR as an estimator of the mean of a Gaussian distribution. The notion of locality of the kernel is critical for this interpretation. It is also critical to the formulation of multi-zeta type basis functions widely used in computational chemistry We show, on the example of fitting of molecular potential energy surfaces of increasing dimensionality, the practical disappearance of the property of locality of a Gaussian-like kernel in high dimensionality. We also formulate a multi-zeta approach to the kernel and show that it significantly improves the quality of regression in low dimensionality but loses any advantage in high dimensionality, which is attributed to the loss of the property of locality.
翻訳日:2022-11-22 19:11:41 公開日:2022-11-21
# SGDを用いたニューラルネットワークによる複雑性増加の学習分布の学習

Neural networks trained with SGD learn distributions of increasing complexity ( http://arxiv.org/abs/2211.11567v1 )

ライセンス: Link先を確認
Maria Refinetti and Alessandro Ingrosso and Sebastian Goldt(参考訳) 深層ニューラルネットワークがトレーニングデータを補間してもうまく一般化する能力は、様々な「単純化バイアス」を用いて説明されている。 これらの理論は、ニューラルネットワークがより複雑な非線形関数を学ぶ前に、まず線形分類子のような単純な関数を学習することで過剰にフィットすることを避けると仮定している。 一方、データ構造は優れた一般化の鍵となる要素としても認識されているが、単純さバイアスにおけるその役割はまだ理解されていない。 ここでは,確率勾配勾配から学習したニューラルネットワークが,平均や共分散といった低次入力統計を用いて入力を分類し,訓練中にのみ高次統計を利用することを示す。 まず、この分布的単純性バイアス(DSB)を、合成データに基づいてトレーニングされたニューラルネットワークの可解モデルで示す。 我々は、CIFAR10で訓練された深層畳み込みネットワークとビジュアルトランスフォーマーでDSBを実証的に実証し、ImageNetで事前訓練されたネットワークにさえ保持されていることを示す。 DSBと他の単純バイアスとの関係を論じ,学習におけるガウス普遍性の原理にその意味を考察する。

The ability of deep neural networks to generalise well even when they interpolate their training data has been explained using various "simplicity biases". These theories postulate that neural networks avoid overfitting by first learning simple functions, say a linear classifier, before learning more complex, non-linear functions. Meanwhile, data structure is also recognised as a key ingredient for good generalisation, yet its role in simplicity biases is not yet understood. Here, we show that neural networks trained using stochastic gradient descent initially classify their inputs using lower-order input statistics, like mean and covariance, and exploit higher-order statistics only later during training. We first demonstrate this distributional simplicity bias (DSB) in a solvable model of a neural network trained on synthetic data. We empirically demonstrate DSB in a range of deep convolutional networks and visual transformers trained on CIFAR10, and show that it even holds in networks pre-trained on ImageNet. We discuss the relation of DSB to other simplicity biases and consider its implications for the principle of Gaussian universality in learning.
翻訳日:2022-11-22 19:11:21 公開日:2022-11-21
# ランダムウェイト摂動による効率的な一般化改善

Efficient Generalization Improvement Guided by Random Weight Perturbation ( http://arxiv.org/abs/2211.11489v1 )

ライセンス: Link先を確認
Tao Li, Weihao Yan, Zehao Lei, Yingwen Wu, Kun Fang, Ming Yang, Xiaolin Huang(参考訳) ディープニューラルネットワーク(DNN)の大きな可能性を明らかにするために、モデルの一般化能力を改善するために様々な学習アルゴリズムが開発された。 近年,シャープネス認識の最小化(SAM)は,小さな地区におけるシャープネス尺度を最小化し,最先端の性能を実現することにより,一般化改善のための汎用的なスキームを確立している。 しかし、samはmin-max問題を解決するために2つの連続した勾配評価を必要とし、必然的にトレーニング時間を2倍にする。 本稿では、SAMのネスト勾配を分離するために、フィルタワイズランダムウェイト摂動(RWP)を用いる。 samの小さな逆さまの摂動とは異なり、rwpはより柔らかく、摂動を大きくすることができる。 具体的には、ランダムな摂動と元の損失関数による損失関数を共同で最適化する: 前者はネットワークをより広い平坦な領域へ誘導し、後者は必要な局所情報を回復するのに役立つ。 この2つの損失項は互いに相補的であり、相互独立である。 これにより、対応する勾配を並列に効率的に計算でき、通常のトレーニングとほぼ同じトレーニング速度が得られる。 その結果、CIFARでの非常に競争力のあるパフォーマンスを実現し、ImageNet(例えば$\mathbf{ +1.1\%}$)ではSAMと比較して非常に優れたパフォーマンスを実現していますが、常にトレーニング時間の半分が必要です。 コードはhttps://github.com/nblt/rwpでリリースされる。

To fully uncover the great potential of deep neural networks (DNNs), various learning algorithms have been developed to improve the model's generalization ability. Recently, sharpness-aware minimization (SAM) establishes a generic scheme for generalization improvements by minimizing the sharpness measure within a small neighborhood and achieves state-of-the-art performance. However, SAM requires two consecutive gradient evaluations for solving the min-max problem and inevitably doubles the training time. In this paper, we resort to filter-wise random weight perturbations (RWP) to decouple the nested gradients in SAM. Different from the small adversarial perturbations in SAM, RWP is softer and allows a much larger magnitude of perturbations. Specifically, we jointly optimize the loss function with random perturbations and the original loss function: the former guides the network towards a wider flat region while the latter helps recover the necessary local information. These two loss terms are complementary to each other and mutually independent. Hence, the corresponding gradients can be efficiently computed in parallel, enabling nearly the same training speed as regular training. As a result, we achieve very competitive performance on CIFAR and remarkably better performance on ImageNet (e.g. $\mathbf{ +1.1\%}$) compared with SAM, but always require half of the training time. The code is released at https://github.com/nblt/RWP.
翻訳日:2022-11-22 18:56:41 公開日:2022-11-21
# フィールド露光後の皮膜の完全自動マクロファーリング解析のためのセマンティックセグメンテーション

Semantic Segmentation for Fully Automated Macrofouling Analysis on Coatings after Field Exposure ( http://arxiv.org/abs/2211.11607v1 )

ライセンス: Link先を確認
Lutz M. K. Krause, Emily Manderfeld, Patricia Gnutt, Louisa Vogler, Ann Wassick, Kailey Richard, Marco Rudolph, Kelli Z. Hunsucker, Geoffrey W. Swain, Bodo Rosenhahn, Axel Rosenhahn(参考訳) バイオファウリングは、持続可能な輸送、フィルター膜、熱交換器、医療機器にとって大きな課題である。 防汚コーティングの開発には, 有効性の評価が必要である。 このような評価は、通常、ターゲット媒体(例えば塩水)への露光時間が異なる後のファウリング進行の評価に基づいて行われる。 マクロファーリングの手動による評価では、表現型的外観のばらつきが高く、特定の種に対する単一画像サンプリングの不正確さがあり、空間情報に欠けているため、局所的なファーリングコミュニティに関する専門家の知識が必要である。 本稿では,画像に基づくマクロファウリングの自動解析手法を提案する。 フィールドパネル画像から高密度なラベルを合成したデータセットを作成し、異なるマクロファウリングクラスのセマンティックセグメンテーションのための畳み込みネットワーク(適応U-Net)を提案する。 マクロフォアリング局在の確立は、直接表面付着の決定と深いエピバイオティクス研究を可能にする後続モデルの生成を可能にする。

Biofouling is a major challenge for sustainable shipping, filter membranes, heat exchangers, and medical devices. The development of fouling-resistant coatings requires the evaluation of their effectiveness. Such an evaluation is usually based on the assessment of fouling progression after different exposure times to the target medium (e.g., salt water). The manual assessment of macrofouling requires expert knowledge about local fouling communities due to high variances in phenotypical appearance, has single-image sampling inaccuracies for certain species, and lacks spatial information. Here we present an approach for automatic image-based macrofouling analysis. We created a dataset with dense labels prepared from field panel images and propose a convolutional network (adapted U-Net) for the semantic segmentation of different macrofouling classes. The establishment of macrofouling localization allows for the generation of a successional model which enables the determination of direct surface attachment and in-depth epibiotic studies.
翻訳日:2022-11-22 18:56:15 公開日:2022-11-21
# 物体検出のためのプラグ・アンド・プレイ能動学習

Plug and Play Active Learning for Object Detection ( http://arxiv.org/abs/2211.11612v1 )

ライセンス: Link先を確認
Chenhongyi Yang, Lichao Huang, Elliot J. Crowley(参考訳) 教師付き学習のためのデータアノテーションは高価で退屈です。 与えられた“注釈予算”を最大限に活用するために、アノテーション用のデータセットでもっとも有用なサンプルを特定することを目的とした、アクティブラーニング(al)に目を向けることができます。 アクティブな学習アルゴリズムは通常不確実性に基づくか多様性に基づく。 どちらも画像分類に成功しているが、物体検出に関しては不十分である。 これは,(1)局所化と分類の両方からなる物体検出の不確かさの定量化が困難であり,あるクラスは局所化が困難であり,他のクラスは分類が困難である;(2)画像が異なる対象数を含む場合,多様性に基づくALの類似度を測定することは困難である。 本稿では,これらの課題を克服する2段階能動学習アルゴリズムPlug and Play Active Learning (PPAL)を提案する。 本手法は,(1)不確実性サンプリングのための再重み付きオブジェクトの不確実性を考慮した分類と局所化の両方を考慮したカテゴリー的難易度係数を用いた,(2)複数インスタンス画像の類似性を計算するためのカテゴリー的条件付きマッチング類似性からなる。 PPALは、モデルアーキテクチャや検出器トレーニングパイプラインの変更をしないため、非常に一般的なものである。 我々は,MS-COCOおよびPascal VOCデータセットのPPALを異なる検出器アーキテクチャを用いてベンチマークし,提案手法が先行技術よりも優れていることを示す。 コードはhttps://github.com/chenhongyiyang/ppalで入手できる。

Annotating data for supervised learning is expensive and tedious, and we want to do as little of it as possible. To make the most of a given "annotation budget" we can turn to active learning (AL) which aims to identify the most informative samples in a dataset for annotation. Active learning algorithms are typically uncertainty-based or diversity-based. Both have seen success in image classification, but fall short when it comes to object detection. We hypothesise that this is because: (1) it is difficult to quantify uncertainty for object detection as it consists of both localisation and classification, where some classes are harder to localise, and others are harder to classify; (2) it is difficult to measure similarities for diversity-based AL when images contain different numbers of objects. We propose a two-stage active learning algorithm Plug and Play Active Learning (PPAL) that overcomes these difficulties. It consists of (1) Difficulty Calibrated Uncertainty Sampling, in which we used a category-wise difficulty coefficient that takes both classification and localisation into account to re-weight object uncertainties for uncertainty-based sampling; (2) Category Conditioned Matching Similarity to compute the similarities of multi-instance images as ensembles of their instance similarities. PPAL is highly generalisable because it makes no change to model architectures or detector training pipelines. We benchmark PPAL on the MS-COCO and Pascal VOC datasets using different detector architectures and show that our method outperforms the prior state-of-the-art. Code is available at https://github.com/ChenhongyiYang/PPAL
翻訳日:2022-11-22 18:55:57 公開日:2022-11-21
# 一般化カテゴリー発見のための簡易パラメトリック分類基準

A Simple Parametric Classification Baseline for Generalized Category Discovery ( http://arxiv.org/abs/2211.11727v1 )

ライセンス: Link先を確認
Xin Wen, Bingchen Zhao, Xiaojuan Qi(参考訳) 一般化カテゴリ発見(GCD)は、ラベル付きサンプルの集合から学習した知識を用いて、ラベル付きデータセット内で新しいカテゴリを発見することを目的とする問題である。 gcdの最近の研究によると、半教師付き$k$-meansで形成された非パラメトリック分類器は、ラベル付き集合で見られるカテゴリへの過剰適合を緩和できるため、パラメトリック分類器を使用する強力なベースラインを上回ることができる。 本稿では,従来のパラメトリック分類器がGCDの新しいクラスを認識できない理由を再考する。 モデルアーキテクチャ,表現学習,分類器学習の観点から,パラメトリック分類器の設計選択を検討することにより,識別性の低い表現と信頼できない擬似ラベリング戦略が,非パラメトリック分類器に遅れを生じさせる重要な要因であると結論付ける。 本研究の動機として,複数のGCDベンチマークにおいて,従来のベストメソッドよりも高い性能を示す簡易かつ効果的なパラメトリック分類基準を提案する。 我々は、調査と単純なベースラインが将来の研究を促進するための基礎となることを望んでいる。 私たちのコードは、https://github.com/CVMI-Lab/SimGCDで利用可能です。

Generalized category discovery (GCD) is a problem setting where the goal is to discover novel categories within an unlabelled dataset using the knowledge learned from a set of labelled samples. Recent works in GCD argue that a non-parametric classifier formed using semi-supervised $k$-means can outperform strong baselines which use parametric classifiers as it can alleviate the over-fitting to seen categories in the labelled set. In this paper, we revisit the reason that makes previous parametric classifiers fail to recognise new classes for GCD. By investigating the design choices of parametric classifiers from the perspective of model architecture, representation learning, and classifier learning, we conclude that the less discriminative representations and unreliable pseudo-labelling strategy are key factors that make parametric classifiers lag behind non-parametric ones. Motivated by our investigation, we present a simple yet effective parametric classification baseline that outperforms the previous best methods by a large margin on multiple popular GCD benchmarks. We hope the investigations and the simple baseline can serve as a cornerstone to facilitate future studies. Our code is available at: https://github.com/CVMI-Lab/SimGCD.
翻訳日:2022-11-22 18:55:26 公開日:2022-11-21
# SinFusion: 単一画像やビデオによる拡散モデルのトレーニング

SinFusion: Training Diffusion Models on a Single Image or Video ( http://arxiv.org/abs/2211.11743v1 )

ライセンス: Link先を確認
Yaniv Nikankin, Niv Haim and Michal Irani(参考訳) 拡散モデルでは画像と映像の生成が著しく進歩し、品質と多様性においてgansを上回った。 しかし、それらは通常、非常に大きなデータセットで訓練され、所定の入力画像やビデオを操作するのに自然に適応していない。 本稿では,単一入力画像やビデオ上で拡散モデルをトレーニングすることで,この問題を解決する方法を示す。 画像/映像特異的拡散モデル(sinfusion)は,拡散モデルのコンディショニング機能を活用しつつ,単一の画像や映像の出現とダイナミクスを学習する。 様々な画像/ビデオ特有の操作タスクを解決できる。 特に,本モデルでは,単一の入力ビデオの動作とダイナミクスを少ないフレームから学習することができる。 そして、同じダイナミックシーンのさまざまな新しいビデオサンプルを生成し、短いビデオを長いもの(前方と後方の両方)に抽出し、ビデオのアップサンプリングを行う。 一つの画像に対してトレーニングを行うと、画像操作タスクにおける従来の単一画像モデルに匹敵する性能と能力を示す。

Diffusion models exhibited tremendous progress in image and video generation, exceeding GANs in quality and diversity. However, they are usually trained on very large datasets and are not naturally adapted to manipulate a given input image or video. In this paper we show how this can be resolved by training a diffusion model on a single input image or video. Our image/video-specific diffusion model (SinFusion) learns the appearance and dynamics of the single image or video, while utilizing the conditioning capabilities of diffusion models. It can solve a wide array of image/video-specific manipulation tasks. In particular, our model can learn from few frames the motion and dynamics of a single input video. It can then generate diverse new video samples of the same dynamic scene, extrapolate short videos into long ones (both forward and backward in time) and perform video upsampling. When trained on a single image, our model shows comparable performance and capabilities to previous single-image models in various image manipulation tasks.
翻訳日:2022-11-22 18:55:03 公開日:2022-11-21
# 自己監督型ビデオハッシュのためのコントラストマスクオートエンコーダ

Contrastive Masked Autoencoders for Self-Supervised Video Hashing ( http://arxiv.org/abs/2211.11210v1 )

ライセンス: Link先を確認
Yuting Wang, Jinpeng Wang, Bin Chen, Ziyun Zeng, Shutao Xia(参考訳) SSVH(Self-Supervised Video Hashing)モデルでは,映像の短いバイナリ表現を地道な監督なしに生成し,大規模ビデオ検索の効率化と研究の注目を集める。 SSVHの成功は、ビデオコンテンツを理解することと、ラベルのないビデオ間のセマンティックな関係を捉える能力にある。 通常、最先端のssvh法はこれら2つのポイントを2段階のトレーニングパイプラインで考慮し、まず、インスタンス毎にマスク・アンド・予測タスクで補助ネットワークを訓練し、次に、補助ネットワークから転送される疑似neighborhood構造を保存するためにハッシュモデルを訓練する。 この連続的なトレーニング戦略は柔軟性がなく、不要である。 本論文では,映像意味情報と映像類似性関係理解を1段階に組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。 ハッシュ学習を改善するためにビデオ意味情報をキャプチャするため,エンコーダ・デコーダ構造を採用し,時間マッシュフレームから映像を再構成する。 特に、より高いマスキング比はビデオの理解に役立ちます。 さらに、ビデオの2つの拡張ビュー間の合意を最大化することで、ビデオ間の類似性を十分に活用し、より識別的で堅牢なハッシュコードに寄与します。 大規模な3つのビデオデータセット(\ie、FCVID、ActivityNet、YFCC)に対する大規模な実験は、ConMHが最先端の結果を達成することを示している。 コードはhttps://github.com/huangmozhi9527/conmhで入手できる。

Self-Supervised Video Hashing (SSVH) models learn to generate short binary representations for videos without ground-truth supervision, facilitating large-scale video retrieval efficiency and attracting increasing research attention. The success of SSVH lies in the understanding of video content and the ability to capture the semantic relation among unlabeled videos. Typically, state-of-the-art SSVH methods consider these two points in a two-stage training pipeline, where they firstly train an auxiliary network by instance-wise mask-and-predict tasks and secondly train a hashing model to preserve the pseudo-neighborhood structure transferred from the auxiliary network. This consecutive training strategy is inflexible and also unnecessary. In this paper, we propose a simple yet effective one-stage SSVH method called ConMH, which incorporates video semantic information and video similarity relationship understanding in a single stage. To capture video semantic information for better hashing learning, we adopt an encoder-decoder structure to reconstruct the video from its temporal-masked frames. Particularly, we find that a higher masking ratio helps video understanding. Besides, we fully exploit the similarity relationship between videos by maximizing agreement between two augmented views of a video, which contributes to more discriminative and robust hash codes. Extensive experiments on three large-scale video datasets (\ie, FCVID, ActivityNet and YFCC) indicate that ConMH achieves state-of-the-art results. Code is available at https://github.com/huangmozhi9527/ConMH.
翻訳日:2022-11-22 18:54:26 公開日:2022-11-21
# ソーシャルメディアにおける感情分析の文脈におけるlstmモデル安定性

LSTM based models stability in the context of Sentiment Analysis for social media ( http://arxiv.org/abs/2211.11246v1 )

ライセンス: Link先を確認
Bousselham El Haddaoui, Raddouane Chiheb, Rdouan Faizi and Abdellatif El Afia(参考訳) 深層学習技術は感性分析(SA)関連課題に有効であることが証明されている。 リカレントニューラルネットワーク(RNN)、特にLong Short-Term Memory(LSTM)とBidirectional LSTMは、正確な予測モデルを構築するための基準となっている。 しかしながら、モデルの複雑さと構成するハイパーパラメータの数は、その安定性に関するいくつかの疑問を提起する。 本稿では,LSTMモデルとその鍵となるパラメータについて述べるとともに,これらのモデルの安定性を感性分析の文脈で検証する実験を行う。

Deep learning techniques have proven their effectiveness for Sentiment Analysis (SA) related tasks. Recurrent neural networks (RNN), especially Long Short-Term Memory (LSTM) and Bidirectional LSTM, have become a reference for building accurate predictive models. However, the models complexity and the number of hyperparameters to configure raises several questions related to their stability. In this paper, we present various LSTM models and their key parameters, and we perform experiments to test the stability of these models in the context of Sentiment Analysis.
翻訳日:2022-11-22 18:53:36 公開日:2022-11-21
# 非線形モデルの未知領域への外挿理解への第一歩

First Steps Toward Understanding the Extrapolation of Nonlinear Models to Unseen Domains ( http://arxiv.org/abs/2211.11719v1 )

ライセンス: Link先を確認
Kefan Dong, Tengyu Ma(参考訳) 現実世界の機械学習アプリケーションは、トレーニング時に見えないドメインにニューラルネットワークをデプロイすることが多い。 したがって、非線形モデルの外挿 -- 分布と関数クラスの条件の下では、モデルが新しいテスト分布に外挿することを保証できる -- を理解する必要がある。 なぜなら、2層ニューラルネットワークでさえ、ドメインシフトに関するさらなる仮定なしに、トレーニングディストリビューションのサポートの外で外挿することを保証できないからである。 本稿では,構造化領域シフトに対する非線形モデルの外挿解析のための初期ステップについて述べる。 主に、データの各座標(または座標のサブセット)の限界分布がトレーニングとテスト分布の間で大きくシフトしないような設定を検討するが、ジョイント分布ははるかに大きなシフトを持つ可能性がある。 f(x)=\sum f_i(x_i)$, ここで、$f_i$ は機能の部分集合上の任意の関数であり、特徴の共分散が良く条件付けされている場合、非知覚分布に外挿可能であることを証明する。 私たちの知る限りでは、分布シフトと関数クラスの仮定が定式化されているにもかかわらず、これは線形モデルと有界密度比の仮定を超えた最初の結果である。

Real-world machine learning applications often involve deploying neural networks to domains that are not seen in the training time. Hence, we need to understand the extrapolation of nonlinear models -- under what conditions on the distributions and function class, models can be guaranteed to extrapolate to new test distributions. The question is very challenging because even two-layer neural networks cannot be guaranteed to extrapolate outside the support of the training distribution without further assumptions on the domain shift. This paper makes some initial steps towards analyzing the extrapolation of nonlinear models for structured domain shift. We primarily consider settings where the marginal distribution of each coordinate of the data (or subset of coordinates) do not shift significantly across the training and test distributions, but the joint distribution may have a much bigger shift. We prove that the family of nonlinear models of the form $f(x)=\sum f_i(x_i)$, where $f_i$ is an arbitrary function on the subset of features $x_i$, can extrapolate to unseen distributions, if the covariance of the features is well-conditioned. To the best of our knowledge, this is the first result that goes beyond linear models and the bounded density ratio assumption, even though the assumptions on the distribution shift and function class are stylized.
翻訳日:2022-11-22 18:47:48 公開日:2022-11-21
# dreamartist: コントラスト的プロンプトチューニングによるワンショットテキスト対画像生成に向けて

DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via Contrastive Prompt-Tuning ( http://arxiv.org/abs/2211.11337v1 )

ライセンス: Link先を確認
Ziyi Dong, Pengxu Wei, Liang Lin(参考訳) 指数的進化を伴う大規模テキスト画像生成モデルは、現在テキストガイダンスに基づいて高解像度、高機能、高画質の画像を合成することができる。 しかし、新しい概念、スタイル、または常に現れるオブジェクトエンティティの言葉に圧倒されることが多い。 与えられた参照画像集合から新しい擬似語としてモデルに新しい概念を教えるために、微調整やプロンプトチューニングを用いた最近の試みがあるが、これらの手法は、歪曲やアーティファクトを伴わずに多様で高品質な画像を合成するのはまだ困難であるばかりでなく、制御性も低い。 これらの問題に対処するために,擬単語として正と負の埋め込みを導入し,それらを協調的に訓練する,コントラッシブ・プロンプトチューニングの学習戦略を用いたドリームアーティスト手法を提案する。 正の埋め込みは参照画像の特性を積極的に学習し、モデルを多様化させ、負の埋め込みは自己教師ありの方法で内省し、正の埋め込みから誤りや欠点を正す。 正しいことだけでなく、避けるべきことを学ぶ。 画像品質,多様性分析,可制御性解析,モデル学習分析,タスク拡張に関する大規模な実験により,我々のモデルは概念だけでなく,形態,内容,文脈も学習できることを示した。 ドリームアーティストの擬似語は、高品質な画像を生成する真の言葉と類似した性質を持つ。

Large-scale text-to-image generation models with an exponential evolution can currently synthesize high-resolution, feature-rich, high-quality images based on text guidance. However, they are often overwhelmed by words of new concepts, styles, or object entities that always emerge. Although there are some recent attempts to use fine-tuning or prompt-tuning methods to teach the model a new concept as a new pseudo-word from a given reference image set, these methods are not only still difficult to synthesize diverse and high-quality images without distortion and artifacts, but also suffer from low controllability. To address these problems, we propose a DreamArtist method that employs a learning strategy of contrastive prompt-tuning, which introduces both positive and negative embeddings as pseudo-words and trains them jointly. The positive embedding aggressively learns characteristics in the reference image to drive the model diversified generation, while the negative embedding introspects in a self-supervised manner to rectify the mistakes and inadequacies from positive embedding in reverse. It learns not only what is correct but also what should be avoided. Extensive experiments on image quality and diversity analysis, controllability analysis, model learning analysis and task expansion have demonstrated that our model learns not only concept but also form, content and context. Pseudo-words of DreamArtist have similar properties as true words to generate high-quality images.
翻訳日:2022-11-22 18:47:22 公開日:2022-11-21
# zigzag: 2段階推論によるユニバーサルサンプリングフリー不確実性推定

ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference ( http://arxiv.org/abs/2211.11435v1 )

ライセンス: Link先を確認
Nikita Durasov, Nik Dorndorf, Pascal Fua(参考訳) さまざまなデータに対して有用な予測を生成するディープネットワークの能力が実証されているが、これらの予測の信頼性を推定することは依然として困難である。 MC-DropoutやDeep Ensemblesのようなサンプリングアプローチがこの目的のために最も人気のあるアプローチとして登場した。 残念ながら、推論時に多くのフォワードパスが必要になるため、速度が低下する。 サンプリングフリーのアプローチは高速だが、不確実性推定の信頼性の低下、使用の難しさ、さまざまな種類のタスクやデータへの適用可能性の制限など、他の欠点もある。 本研究では,従来の手法と同等に信頼性の高い不確実性推定を計算コストを大幅に低減しつつ,汎用的で展開が容易なサンプリングフリーアプローチを提案する。 ネットワークをトレーニングして、そのアウトプットに関する追加情報なしで同じアウトプットを生成することを前提としている。 推論時には、事前情報が得られない場合、ネットワーク自身の予測を付加情報として使用する。 この2つの予測の違いが正確な不確実性推定であることを証明し、様々なタスクやアプリケーションに対する我々のアプローチを実証する。

Whereas the ability of deep networks to produce useful predictions on many kinds of data has been amply demonstrated, estimating the reliability of these predictions remains challenging. Sampling approaches such as MC-Dropout and Deep Ensembles have emerged as the most popular ones for this purpose. Unfortunately, they require many forward passes at inference time, which slows them down. Sampling-free approaches can be faster but suffer from other drawbacks, such as lower reliability of uncertainty estimates, difficulty of use, and limited applicability to different types of tasks and data. In this work, we introduce a sampling-free approach that is generic and easy to deploy, while producing reliable uncertainty estimates on par with state-of-the-art methods at a significantly lower computational cost. It is predicated on training the network to produce the same output with and without additional information about that output. At inference time, when no prior information is given, we use the network's own prediction as the additional information. We prove that the difference between the two predictions is an accurate uncertainty estimate and demonstrate our approach on various types of tasks and applications.
翻訳日:2022-11-22 18:44:26 公開日:2022-11-21
# 深い非定常核をもつ時空間過程

Spatio-temporal point processes with deep non-stationary kernels ( http://arxiv.org/abs/2211.11179v1 )

ライセンス: Link先を確認
Zheng Dong, Xiuyuan Cheng, Yao Xie(参考訳) ポイントプロセスのデータは、ソーシャルネットワーク、ヘルスケア、金融など、現代のアプリケーションで広く使われている。 ポイントプロセスデータに対する一般的なリカレントニューラルネットワーク(RNN)モデルの強力な表現性にもかかわらず、リカレント構造のため、データ内の洗練された非定常的依存関係を捕捉することはできなかった。 ポイントプロセスデータに対する他の一般的なディープモデルでは、ニューラルネットワークによる影響カーネル(強度関数ではなく)の表現に基づいている。 我々は後者のアプローチを採用し、非定常時空間過程をモデル化できる新しい深部非定常的影響カーネルを開発する。 主なアイデアは、インフルエンサーカーネルを新しい一般的な低ランク分解に近似し、ディープニューラルネットワークによる効率的な表現と計算効率とより良い性能を実現することである。 また,ログバリアペナルティを導入して条件強度の非負性制約を維持するための新たなアプローチも採っている。 本手法はシミュレーションおよび実データに対する最先端技術と比較し,優れた性能と計算効率を示す。

Point process data are becoming ubiquitous in modern applications, such as social networks, health care, and finance. Despite the powerful expressiveness of the popular recurrent neural network (RNN) models for point process data, they may not successfully capture sophisticated non-stationary dependencies in the data due to their recurrent structures. Another popular type of deep model for point process data is based on representing the influence kernel (rather than the intensity function) by neural networks. We take the latter approach and develop a new deep non-stationary influence kernel that can model non-stationary spatio-temporal point processes. The main idea is to approximate the influence kernel with a novel and general low-rank decomposition, enabling efficient representation through deep neural networks and computational efficiency and better performance. We also take a new approach to maintain the non-negativity constraint of the conditional intensity by introducing a log-barrier penalty. We demonstrate our proposed method's good performance and computational efficiency compared with the state-of-the-art on simulated and real data.
翻訳日:2022-11-22 18:37:27 公開日:2022-11-21
# 特徴部分空間を持つ拡張隣接規則に基づく分類のための最適k近傍アンサンブル

An Optimal k Nearest Neighbours Ensemble for Classification Based on Extended Neighbourhood Rule with Features subspace ( http://arxiv.org/abs/2211.11278v1 )

ライセンス: Link先を確認
Amjad Ali, Muhammad Hamraz, Dost Muhammad Khan, Saeed Aldahmani, Zardad Khan(参考訳) 外れ値の影響を最小限に抑えるため、kNNアンサンブルは、近隣のトレーニングインスタンスのラベルの多数投票を用いて、新しいサンプルポイントに最も近い観測セットを特定し、その未知のクラスを推定する。 通常のkNNベースのプロシージャは、距離公式を用いて、近隣地域の(球体で閉じた)最も近い訓練観察を決定づける。 k近傍の手順は、テストデータ中のサンプルポイントが、与えられた近傍の球体に含まれない特定の経路上にある最も近い観測パターンに従うような状況ではうまくいかない。 さらに、これらの手法は数百の基本kNN学習者を組み合わせており、多くは高い分類誤差があり、結果としてアンサンブルが低下する可能性がある。 これらの問題を克服するため、kステップで隣人が決定される最適拡張近傍規則に基づくアンサンブルが提案される。 一番近いサンプルポイントから目に見えない観察まで始まります。 第2の最も近いデータポイントは、予め選択されたデータポイントに最も近いものを特定する。 この過程は、必要な数 k の観測が得られるまで継続される。 アンサンブルの各ベースモデルは、ランダムな特徴のサブセットと共にブートストラップサンプル上に構築される。 十分な数のベースモデルを構築した後、out-of-bag(oob)データに基づいて最適なモデルを選択する。

To minimize the effect of outliers, kNN ensembles identify a set of closest observations to a new sample point to estimate its unknown class by using majority voting in the labels of the training instances in the neighbourhood. Ordinary kNN based procedures determine k closest training observations in the neighbourhood region (enclosed by a sphere) by using a distance formula. The k nearest neighbours procedure may not work in a situation where sample points in the test data follow the pattern of the nearest observations that lie on a certain path not contained in the given sphere of nearest neighbours. Furthermore, these methods combine hundreds of base kNN learners and many of them might have high classification errors thereby resulting in poor ensembles. To overcome these problems, an optimal extended neighbourhood rule based ensemble is proposed where the neighbours are determined in k steps. It starts from the first nearest sample point to the unseen observation. The second nearest data point is identified that is closest to the previously selected data point. This process is continued until the required number of the k observations are obtained. Each base model in the ensemble is constructed on a bootstrap sample in conjunction with a random subset of features. After building a sufficiently large number of base models, the optimal models are then selected based on their performance on out-of-bag (OOB) data.
翻訳日:2022-11-22 18:37:11 公開日:2022-11-21
# 多視点表現学習の拡張を用いた汎用固有ゲーム

A Generalized EigenGame with Extensions to Multiview Representation Learning ( http://arxiv.org/abs/2211.11323v1 )

ライセンス: Link先を確認
James Chapman, Ana Lawry Aguila, Lennie Wells(参考訳) 一般化固有値問題(GEPs)は、様々な興味深い次元減少法を含んでいる。 これらの問題に対する効率的な確率的アプローチの開発は、より大きなデータセットにスケールできるだろう。 標準相関解析(CCA)は次元減少のためのGEPの例の一つであり、データの2つ以上のビューの問題に広く利用されている。 CCAの深層学習拡張には、大きなミニバッチサイズが必要であり、そのため、性能向上のために確率的に大きなメモリ消費が必要である。 一般化ヘビアンアルゴリズムにインスパイアされた我々は、全ての制約がラグランジュ乗算器によってソフトに強制される確率的GEPの解法を開発する。 そして,このラグランジアン関数の積分,擬似効用,および近年の主成分分析と GEP を多目的効用を持つゲームとして定式化したことにより,GEP を解くためのゲーム理論的なアプローチを開発する。 提案手法は,線形ケースに対する従来のヘビアン理論とゲーム理論のアプローチの理論的根拠の多くを共有しているが,ニューラルネットワークのような一般関数近似器への拡張を許容し,CCAを含む次元還元を可能とし,深層多視点表現学習に利用できることを示す。 我々は,標準マルチビューデータセットを用いた確率的設定におけるGEPの解法の有効性を実証し,Deep CCAを最適化するための最先端性能を示す。

Generalized Eigenvalue Problems (GEPs) encompass a range of interesting dimensionality reduction methods. Development of efficient stochastic approaches to these problems would allow them to scale to larger datasets. Canonical Correlation Analysis (CCA) is one example of a GEP for dimensionality reduction which has found extensive use in problems with two or more views of the data. Deep learning extensions of CCA require large mini-batch sizes, and therefore large memory consumption, in the stochastic setting to achieve good performance and this has limited its application in practice. Inspired by the Generalized Hebbian Algorithm, we develop an approach to solving stochastic GEPs in which all constraints are softly enforced by Lagrange multipliers. Then by considering the integral of this Lagrangian function, its pseudo-utility, and inspired by recent formulations of Principal Components Analysis and GEPs as games with differentiable utilities, we develop a game-theory inspired approach to solving GEPs. We show that our approaches share much of the theoretical grounding of the previous Hebbian and game theoretic approaches for the linear case but our method permits extension to general function approximators like neural networks for certain GEPs for dimensionality reduction including CCA which means our method can be used for deep multiview representation learning. We demonstrate the effectiveness of our method for solving GEPs in the stochastic setting using canonical multiview datasets and demonstrate state-of-the-art performance for optimizing Deep CCA.
翻訳日:2022-11-22 18:36:51 公開日:2022-11-21
# オフライン強化学習のためのモデルベース軌道スティッチ

Model-based Trajectory Stitching for Improved Offline Reinforcement Learning ( http://arxiv.org/abs/2211.11603v1 )

ライセンス: Link先を確認
Charles A. Hepburn and Giovanni Montana(参考訳) 多くの現実世界のアプリケーションでは、大規模で高品質なデータセットを収集するにはコストがかかりすぎるか実用的でない。 オフライン強化学習(RL)は、一定のデータセットから最適な意思決定ポリシーを推論することを目的としている。 履歴データから最大の情報を取得することは、ポリシーがデプロイされた後、優れたパフォーマンスに不可欠である。 本稿では,モデルに基づくデータ拡張戦略であるts(trail stitching)を提案する。 状態到達可能性(state reachability)という確率論的概念を用いることで、歴史的なデモンストレーションの一部を効果的に統合して、新しい高品質な状態を生成する。 縫合イベントは、一対の観察された状態間の遷移からなり、合成的かつ高い確率で作用する。 新しいアクションは、推定された状態値関数に従って、有益であると期待される場合にのみ導入される。 我々は、このデータ拡張戦略と行動クローニング(BC)を併用することで、元のデータセットから行動閉ざされたポリシーを改善することを示す。 BCポリシーの改善は、計画とデモ誘導RLを通じてオンラインRLのローンチパッドとして使用できる。

In many real-world applications, collecting large and high-quality datasets may be too costly or impractical. Offline reinforcement learning (RL) aims to infer an optimal decision-making policy from a fixed set of data. Getting the most information from historical data is then vital for good performance once the policy is deployed. We propose a model-based data augmentation strategy, Trajectory Stitching (TS), to improve the quality of sub-optimal historical trajectories. TS introduces unseen actions joining previously disconnected states: using a probabilistic notion of state reachability, it effectively `stitches' together parts of the historical demonstrations to generate new, higher quality ones. A stitching event consists of a transition between a pair of observed states through a synthetic and highly probable action. New actions are introduced only when they are expected to be beneficial, according to an estimated state-value function. We show that using this data augmentation strategy jointly with behavioural cloning (BC) leads to improvements over the behaviour-cloned policy from the original dataset. Improving over the BC policy could then be used as a launchpad for online RL through planning and demonstration-guided RL.
翻訳日:2022-11-22 18:36:26 公開日:2022-11-21
# 非線形モデルに対する線形安定仮説とランク階層化

Linear Stability Hypothesis and Rank Stratification for Nonlinear Models ( http://arxiv.org/abs/2211.11623v1 )

ライセンス: Link先を確認
Yaoyu Zhang, Zhongwang Zhang, Leyang Zhang, Zhiwei Bai, Tao Luo, Zhi-Qin John Xu(参考訳) ディープニューラルネットワーク(DNN)のような非線形アーキテクチャ/パラメータ化モデルでは、オーバーパラメータ化時の謎めいた優れた一般化性能が知られている。 本研究では,トレーニングデータサイズの関数として,目標回復/フィッティング精度の遷移に着目した新しい視点から,この謎に挑戦する。 一般非線形モデルに対するランク階層化を提案し,対応するモデルの関数空間における各関数の「パラメータの有効サイズ」としてモデルランクを明らかにする。 さらに,トレーニングデータサイズがモデルランクに等しくなると,対象関数がほぼ確実に線形安定になることを示す線形安定理論を確立する。 本研究では,線形安定関数が非線形訓練により好まれる線形安定関数仮説を提案する。 これらの結果により、対象関数のモデルランクは、回復に成功するための最小のトレーニングデータサイズを予測する。 具体的には,完全連結型あるいは畳み込み型アーキテクチャの行列分解モデルとDNNについて,対象関数のモデルランクがモデルパラメータよりもはるかに低いことを示す。 この結果は, これらの非線形モデルの過度パラメータ化においても, 目標回復能力を定量的に予測する。 本研究は,一般非線形モデルに対するオーバーパラメータ化時の謎の目標回復挙動を理解するために,定量的な予測力を備えた統一的なフレームワークを提供する。

Models with nonlinear architectures/parameterizations such as deep neural networks (DNNs) are well known for their mysteriously good generalization performance at overparameterization. In this work, we tackle this mystery from a novel perspective focusing on the transition of the target recovery/fitting accuracy as a function of the training data size. We propose a rank stratification for general nonlinear models to uncover a model rank as an "effective size of parameters" for each function in the function space of the corresponding model. Moreover, we establish a linear stability theory proving that a target function almost surely becomes linearly stable when the training data size equals its model rank. Supported by our experiments, we propose a linear stability hypothesis that linearly stable functions are preferred by nonlinear training. By these results, model rank of a target function predicts a minimal training data size for its successful recovery. Specifically for the matrix factorization model and DNNs of fully-connected or convolutional architectures, our rank stratification shows that the model rank for specific target functions can be much lower than the size of model parameters. This result predicts the target recovery capability even at heavy overparameterization for these nonlinear models as demonstrated quantitatively by our experiments. Overall, our work provides a unified framework with quantitative prediction power to understand the mysterious target recovery behavior at overparameterization for general nonlinear models.
翻訳日:2022-11-22 18:36:05 公開日:2022-11-21
# 変分潜在表現を用いた正規化流れ

Normalizing Flow with Variational Latent Representation ( http://arxiv.org/abs/2211.11638v1 )

ライセンス: Link先を確認
Hanze Dong, Shizhe Diao, Weizhong Zhang, Tong Zhang(参考訳) 正規化フロー(NF)は、複雑なデータ分布をモデル化する強力な能力のため、従来の最大値に基づく手法よりも人気がある。 しかし、観測されたデータを正規分布にマッピングする標準的なアプローチは、複数の比較的孤立したモードでデータ分布を扱うのが困難である。 そこで本研究では,NFの実用性能を向上させるために,変分潜在表現に基づく新しいフレームワークを提案する。 この考え方は、標準正規潜在変数をより一般的な潜在変数に置き換えることであり、変分ベイズを通して共同で学習される。 例えば、潜在表現を離散列として取ることで、潜在列を生成するトランスフォーマーモデルと、その列に条件付けられた連続データ分布を生成するnfモデルを学ぶことができる。 得られた手法は,複数のモードでデータ分布を生成する標準的な正規化フローアプローチよりもはるかに強力である。 広汎な実験により、変分潜在表現を持つNFの利点が示された。

Normalizing flow (NF) has gained popularity over traditional maximum likelihood based methods due to its strong capability to model complex data distributions. However, the standard approach, which maps the observed data to a normal distribution, has difficulty in handling data distributions with multiple relatively isolated modes. To overcome this issue, we propose a new framework based on variational latent representation to improve the practical performance of NF. The idea is to replace the standard normal latent variable with a more general latent representation, jointly learned via Variational Bayes. For example, by taking the latent representation as a discrete sequence, our framework can learn a Transformer model that generates the latent sequence and an NF model that generates continuous data distribution conditioned on the sequence. The resulting method is significantly more powerful than the standard normalization flow approach for generating data distributions with multiple modes. Extensive experiments have shown the advantages of NF with variational latent representation.
翻訳日:2022-11-22 18:35:46 公開日:2022-11-21
# 科学のための効果的な機械学習モデルの構築:多分野的な視点

Constructing Effective Machine Learning Models for the Sciences: A Multidisciplinary Perspective ( http://arxiv.org/abs/2211.11680v1 )

ライセンス: Link先を確認
Alice E. A. Allen, Alexandre Tkatchenko(参考訳) データからの学習は、テキストやマルチメディア検索、音声認識、自動運転車のナビゲーションなど、数多くの分野において大きな進歩をもたらした。 機械学習は自然科学と社会科学で同様の飛躍を可能にするか? これは多くの科学分野で期待されていることであり、近年は幅広いデータセットに対する非線形モデルの適用が多々見られる。 しかし、フレキシブルな非線形解は、線形回帰モデルに変換と変数間の相互作用を手動で加えることで常に改善するとは限らない。 データ駆動モデルを構築する前にこれを認識する方法や、そのような分析が本質的に解釈可能な回帰モデルへの移行にどのように役立つかについて議論する。 さらに、自然科学や社会科学における様々な応用について、なぜより複雑な回帰モデルで改善が見られるのか、なぜそうでないのかを示す。

Learning from data has led to substantial advances in a multitude of disciplines, including text and multimedia search, speech recognition, and autonomous-vehicle navigation. Can machine learning enable similar leaps in the natural and social sciences? This is certainly the expectation in many scientific fields and recent years have seen a plethora of applications of non-linear models to a wide range of datasets. However, flexible non-linear solutions will not always improve upon manually adding transforms and interactions between variables to linear regression models. We discuss how to recognize this before constructing a data-driven model and how such analysis can help us move to intrinsically interpretable regression models. Furthermore, for a variety of applications in the natural and social sciences we demonstrate why improvements may be seen with more complex regression models and why they may not.
翻訳日:2022-11-22 18:35:34 公開日:2022-11-21
# BBReach: 深層強化学習システムの軽量でスケーラブルなブラックボックス到達可能性解析

BBReach: Tight and Scalable Black-Box Reachability Analysis of Deep Reinforcement Learning Systems ( http://arxiv.org/abs/2211.11127v1 )

ライセンス: Link先を確認
Jiaxu Tian and Dapeng Zhi and Si Liu and Peixin Wang and Guy Katz and Min Zhang(参考訳) 到達可能性分析(Reachability analysis)は、Deep Reinforcement Learning (DRL)を使用して開発されたAI搭載ソフトウェアシステムの信頼性と安全性を自動証明または反証する有望な手法である。 しかし既存のアプローチでは、複雑でほとんど説明できないシステムコンポーネント、すなわちディープニューラルネットワーク(dnn)を過剰に満たさなければならないため、スケーラビリティと大きな過大評価に苦しめられている。 本稿では,DRLシステムのための新しい,タイトでスケーラブルなリーチビリティ解析手法を提案する。 抽象状態のトレーニングにより,組込みDNNをブラックボックスとして扱い,到達可能な集合のニューラルネットワークの過度な近似を回避する。 抽象的アプローチに固有の状態爆発問題に取り組むために,抽象的状態の成長と抽象化による過大評価のバランスをとる新しい隣接区間集約アルゴリズムを考案する。 BBReachと呼ばれるツールを実装し、その厳密さ、スケーラビリティ、効率性を実証するために、制御システムの広範なベンチマークで評価する。

Reachability analysis is a promising technique to automatically prove or disprove the reliability and safety of AI-empowered software systems that are developed by using Deep Reinforcement Learning (DRL). Existing approaches suffer however from limited scalability and large overestimation as they must over-approximate the complex and almost inexplicable system components, namely deep neural networks (DNNs). In this paper we propose a novel, tight and scalable reachability analysis approach for DRL systems. By training on abstract states, our approach treats the embedded DNNs as black boxes to avoid the over-approximation for neural networks in computing reachable sets. To tackle the state explosion problem inherent to abstraction-based approaches, we devise a novel adjacent interval aggregation algorithm which balances the growth of abstract states and the overestimation caused by the abstraction. We implement a tool, called BBReach, and assess it on an extensive benchmark of control systems to demonstrate its tightness, scalability, and efficiency.
翻訳日:2022-11-22 18:29:11 公開日:2022-11-21
# 不変表現学習によるオフライン意思決定

Data-Driven Offline Decision-Making via Invariant Representation Learning ( http://arxiv.org/abs/2211.11349v1 )

ライセンス: Link先を確認
Han Qi, Yi Su, Aviral Kumar, Sergey Levine(参考訳) オフラインデータ駆動意思決定の目標は、事前にコンパイルされた静的データセットを使用してブラックボックスユーティリティ関数を最適化する決定を、アクティブなインタラクションなしで合成することだ。 これらの問題は、オフライン強化学習(RL)、長期報酬を最適化するアクション、ログデータからの盗聴、正しいアームを決定することを目的として、オフラインモデルベース最適化(MBO)問題、静的データセットにのみアクセス可能な最適な設計を見つける必要がある。 オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。 本稿では、ペシミズムや保守主義を利用してこの問題に取り組む従来のアプローチとは対照的に、オフラインのデータ駆動意思決定をドメイン適応として定式化し、データセット(ソースドメイン)上でのみトレーニングする場合に最適化された決定(ターゲットドメイン)の価値を正確に予測することを目的としている。 この視点は、トレーニングデータセットの学習された表現と最適化された決定の間の不変性を強制することで、分散シフトに対処するための不変客観モデル(IOM)につながる。 IOMでは、最適化された決定がトレーニングデータセットとあまりにも異なる場合、よい設計と悪い設計を区別する多くの情報を失うことを余儀なくされ、すべての選択は平凡に見えます。 重要なことは、オプティマイザがこの表現的トレードオフを認識している場合、トレーニング分布から遠く離れないことを選択し、分散シフトと学習性能の自然なトレードオフにつながる。

The goal in offline data-driven decision-making is synthesize decisions that optimize a black-box utility function, using a previously-collected static dataset, with no active interaction. These problems appear in many forms: offline reinforcement learning (RL), where we must produce actions that optimize the long-term reward, bandits from logged data, where the goal is to determine the correct arm, and offline model-based optimization (MBO) problems, where we must find the optimal design provided access to only a static dataset. A key challenge in all these settings is distributional shift: when we optimize with respect to the input into a model trained from offline data, it is easy to produce an out-of-distribution (OOD) input that appears erroneously good. In contrast to prior approaches that utilize pessimism or conservatism to tackle this problem, in this paper, we formulate offline data-driven decision-making as domain adaptation, where the goal is to make accurate predictions for the value of optimized decisions ("target domain"), when training only on the dataset ("source domain"). This perspective leads to invariant objective models (IOM), our approach for addressing distributional shift by enforcing invariance between the learned representations of the training dataset and optimized decisions. In IOM, if the optimized decisions are too different from the training dataset, the representation will be forced to lose much of the information that distinguishes good designs from bad ones, making all choices seem mediocre. Critically, when the optimizer is aware of this representational tradeoff, it should choose not to stray too far from the training distribution, leading to a natural trade-off between distributional shift and learning performance.
翻訳日:2022-11-22 18:28:53 公開日:2022-11-21
# 構造予測のためのエネルギーモデルのインシシトトレーニング

Implicit Training of Energy Model for Structure Prediction ( http://arxiv.org/abs/2211.11649v1 )

ライセンス: Link先を確認
Shiv Shankar, Vihari Piratla(参考訳) 多くのディープラーニング研究は、新しいモデルとトレーニング手順の開発に焦点を当てている。 一方、トレーニングの目的は通常、標準的損失の組み合わせに限定されている。 目的が評価基準に合致する場合、これは大きな問題ではありません。 しかし、複雑な構造化された出力を扱う場合、理想的な目的は最適化が困難であり、真の目的のプロキシとしての通常の目的の有効性は疑わしい。 本研究では、既存の推論ネットワークに基づく構造予測手法(TuとGimpel 2018; Tu, Pang, Gimpel 2020)がエネルギーモデルによってパラメータ化された動的損失目標を最適化するために間接的に学習されていることを論じる。 次に, 暗黙的勾配に基づく手法を用いて, 対応する動的目標を探索する。 実験の結果,動的損失景観を暗黙的に学習することは,構造予測におけるモデル性能向上に有効な方法であることがわかった。

Most deep learning research has focused on developing new model and training procedures. On the other hand the training objective has usually been restricted to combinations of standard losses. When the objective aligns well with the evaluation metric, this is not a major issue. However when dealing with complex structured outputs, the ideal objective can be hard to optimize and the efficacy of usual objectives as a proxy for the true objective can be questionable. In this work, we argue that the existing inference network based structure prediction methods ( Tu and Gimpel 2018; Tu, Pang, and Gimpel 2020) are indirectly learning to optimize a dynamic loss objective parameterized by the energy model. We then explore using implicit-gradient based technique to learn the corresponding dynamic objectives. Our experiments show that implicitly learning a dynamic loss landscape is an effective method for improving model performance in structure prediction.
翻訳日:2022-11-22 18:28:03 公開日:2022-11-21
# 絡み合った表現学習

Disentangled Representation Learning ( http://arxiv.org/abs/2211.11695v1 )

ライセンス: Link先を確認
Xin Wang, Hong Chen, Si'ao Tang, Zihao Wu, Wenwu Zhu(参考訳) Disentangled Representation Learning (DRL) は、観測可能なデータに隠された基礎的要因を表現形式で識別し、分離できるモデルを学習することを目的としている。 変化の根底にある要因を変数に分割するプロセスは、対象や関係を観察する際の人間の意味的な理解過程を模倣する、説明可能なデータ表現の学習において利益をもたらす。 一般的な学習戦略として、DRLは、コンピュータビジョン、自然言語処理、データマイニングなど、幅広いシナリオにおいて、モデル説明可能性、制御可能性、堅牢性、および一般化能力を改善する能力を示した。 本稿では,モチベーション,定義,方法論,評価,アプリケーション,モデル設計など,さまざまな側面からDRLを包括的にレビューする。 我々は、直観的定義とグループ理論定義という2つのよく認識された定義に基づいてDRLに関する研究について議論する。 我々はさらに,drlの方法論を,従来の統計手法,変分オートエンコーダに基づくアプローチ,生成的逆ネットワークに基づくアプローチ,階層的アプローチなど,4つのグループに分類する。 また、実用アプリケーションで異なるタスクに利益をもたらす可能性のある異なるDRLモデルを設計するための原則も分析する。 最後に,DRLの課題と今後の研究の方向性を指摘する。 我々は、この研究がコミュニティにおけるDRL研究を促進するための洞察を与えるかもしれないと考えている。

Disentangled Representation Learning (DRL) aims to learn a model capable of identifying and disentangling the underlying factors hidden in the observable data in representation form. The process of separating underlying factors of variation into variables with semantic meaning benefits in learning explainable representations of data, which imitates the meaningful understanding process of humans when observing an object or relation. As a general learning strategy, DRL has demonstrated its power in improving the model explainability, controlability, robustness, as well as generalization capacity in a wide range of scenarios such as computer vision, natural language processing, data mining etc. In this article, we comprehensively review DRL from various aspects including motivations, definitions, methodologies, evaluations, applications and model designs. We discuss works on DRL based on two well-recognized definitions, i.e., Intuitive Definition and Group Theory Definition. We further categorize the methodologies for DRL into four groups, i.e., Traditional Statistical Approaches, Variational Auto-encoder Based Approaches, Generative Adversarial Networks Based Approaches, Hierarchical Approaches and Other Approaches. We also analyze principles to design different DRL models that may benefit different tasks in practical applications. Finally, we point out challenges in DRL as well as potential research directions deserving future investigations. We believe this work may provide insights for promoting the DRL research in the community.
翻訳日:2022-11-22 18:27:48 公開日:2022-11-21
# インドにおける言語技術における公正研究の文化的再コンテキスト化

Cultural Re-contextualization of Fairness Research in Language Technologies in India ( http://arxiv.org/abs/2211.11206v1 )

ライセンス: Link先を確認
Shaily Bhatt, Sunipa Dev, Partha Talukdar, Shachi Dave, Vinodkumar Prabhakaran(参考訳) 最近の研究では、NLPデータとモデルに望ましくないバイアスが明らかになった。 しかし、これらの取り組みは西洋の社会的格差に主に焦点を合わせており、他の地文化的文脈に直接適用できない。 本稿では,インドにおけるNLPフェアネス研究の再コンテキスト化,インド社会の文脈の説明,能力と資源の技術的ギャップの埋め合わせ,インド文化の価値観への適応について概説する。 また、インドに関する様々な格差軸に沿った様々な社会的偏見に関する実証的研究の結果を要約し、コーパスやモデルにおけるそれらの有病率を示す。

Recent research has revealed undesirable biases in NLP data and models. However, these efforts largely focus on social disparities in the West, and are not directly portable to other geo-cultural contexts. In this position paper, we outline a holistic research agenda to re-contextualize NLP fairness research for the Indian context, accounting for Indian societal context, bridging technological gaps in capability and resources, and adapting to Indian cultural values. We also summarize findings from an empirical study on various social biases along different axes of disparities relevant to India, demonstrating their prevalence in corpora and models.
翻訳日:2022-11-22 18:10:50 公開日:2022-11-21
# クラウドセンシングによる道路被害検出チャレンジ(CRDDC-2022)

Crowdsensing-based Road Damage Detection Challenge (CRDDC-2022) ( http://arxiv.org/abs/2211.11362v1 )

ライセンス: Link先を確認
Deeksha Arya (1), Hiroya Maeda (2), Sanjay Kumar Ghosh (3), Durga Toshniwal (3), Hiroshi Omata (1), Takehiro Kashiyama (4), Yoshihide Sekimoto (1) ((1) The University of Tokyo, Japan, (2) UrbanX Technologies, Inc., Tokyo, Japan (3) Indian Institute of Technology Roorkee, India, (4) Osaka University of Economics, Japan)(参考訳) 本稿では,ieee international conference on big data'2022の一環として開催された,クラウドセンシングに基づく道路損傷検出チャレンジ(crddc)をまとめる。 ビッグデータカップの課題には、リリースデータセットと、明確な評価指標を備えた明確に定義された問題が含まれる。 課題は参加者のためのリアルタイムオンライン評価システムを維持するデータコンペティションプラットフォーム上で実行される。 本報告では,インド,日本,チェコ,ノルウェー,アメリカ合衆国,中国から収集した47,420枚の道路画像から,これらの国の道路被害を自動的に検出する方法を提案する。 この大会には19カ国から60チームが参加している。 提案手法は,上記6カ国の未確認テスト画像のパフォーマンスに基づいて,5つのリーダボードを用いて評価した。 この論文は、これらのチームによって提案されたトップ11ソリューションをカプセル化する。 ベストパフォーマンスモデルは、yoloとfaster-rcnnのシリーズモデルに基づくアンサンブル学習を使用して、6カ国のテストデータから76%のf1スコアを得る。 本稿は、現在の課題と過去の課題を比較し、未来への方向性を提供する。

This paper summarizes the Crowdsensing-based Road Damage Detection Challenge (CRDDC), a Big Data Cup organized as a part of the IEEE International Conference on Big Data'2022. The Big Data Cup challenges involve a released dataset and a well-defined problem with clear evaluation metrics. The challenges run on a data competition platform that maintains a real-time online evaluation system for the participants. In the presented case, the data constitute 47,420 road images collected from India, Japan, the Czech Republic, Norway, the United States, and China to propose methods for automatically detecting road damages in these countries. More than 60 teams from 19 countries registered for this competition. The submitted solutions were evaluated using five leaderboards based on performance for unseen test images from the aforementioned six countries. This paper encapsulates the top 11 solutions proposed by these teams. The best-performing model utilizes ensemble learning based on YOLO and Faster-RCNN series models to yield an F1 score of 76% for test data combined from all 6 countries. The paper concludes with a comparison of current and past challenges and provides direction for the future.
翻訳日:2022-11-22 18:03:01 公開日:2022-11-21
# 放射線レポート生成のための自己適応型グローバルローカル機能強化

Self adaptive global-local feature enhancement for radiology report generation ( http://arxiv.org/abs/2211.11380v1 )

ライセンス: Link先を確認
Yuhao Wang, Kai Wang, Xiaohong Liu, Tianrun Gao, Jingyue Zhang, Guangyu Wang(参考訳) 自動放射線学レポート生成は, 医療画像の詳細な記述を自動的に生成することを目的としており, 放射線技師の作業負荷を大幅に軽減し, 遠隔地への医療サービスの改善を図っている。 既存の作品の多くは医学的イメージの全体的印象に注意を払っており、重要な解剖学的情報を活用できていない。 しかし、実際の臨床実践では、放射線科医は通常重要な解剖学的構造を見つけ、特定の構造に異常の兆候を見出し、根本疾患の原因となる。 本稿では,グローバルおよび解剖学的領域の特徴を動的に融合させ,多粒性放射線学レポートを生成する新しいフレームワーク AGFNet を提案する。 まず,入力胸部X線(CXR)の解剖学的特徴と大域的特徴を抽出する。 そして, 地域特徴とグローバル特徴を入力として, 提案する自己適応型フュージョンゲートモジュールは, マルチグラニュラ情報を動的に融合することができる。 最後に、キャプション生成装置は、マルチグラニュラリティ特徴により、放射線レポートを生成する。 実験結果から,IU X線とMIMIC-CXRを含む2つのベンチマークデータセットの最先端性能が得られた。 また,さらなる分析により,放射線画像やテキストから得られる複数の粒度情報を活用することで,より正確な報告を作成できることが証明された。

Automated radiology report generation aims at automatically generating a detailed description of medical images, which can greatly alleviate the workload of radiologists and provide better medical services to remote areas. Most existing works pay attention to the holistic impression of medical images, failing to utilize important anatomy information. However, in actual clinical practice, radiologists usually locate important anatomical structures, and then look for signs of abnormalities in certain structures and reason the underlying disease. In this paper, we propose a novel framework AGFNet to dynamically fuse the global and anatomy region feature to generate multi-grained radiology report. Firstly, we extract important anatomy region features and global features of input Chest X-ray (CXR). Then, with the region features and the global features as input, our proposed self-adaptive fusion gate module could dynamically fuse multi-granularity information. Finally, the captioning generator generates the radiology reports through multi-granularity features. Experiment results illustrate that our model achieved the state-of-the-art performance on two benchmark datasets including the IU X-Ray and MIMIC-CXR. Further analyses also prove that our model is able to leverage the multi-grained information from radiology images and texts so as to help generate more accurate reports.
翻訳日:2022-11-22 18:02:41 公開日:2022-11-21
# 暗黙的な変更検出のためのバックグラウンドミキシング拡張

Background-Mixed Augmentation for Weakly Supervised Change Detection ( http://arxiv.org/abs/2211.11478v1 )

ライセンス: Link先を確認
Rui Huang, Ruofei Wang, Qing Guo, Jieda Wei, Yuxiang Zhang, Wei Fan, Yang Liu(参考訳) 変化検出(CD)とは、災害管理、都市開発などにおいて重要な応用を提示し、長期間にわたって同じシーンで撮影された2つの画像において、背景の変化(環境の変化など)から物体の変化(オブジェクトの欠落や出現)を分離することである。 特に、背景変化の無限のパターンは、検出者が目に見えない環境変動に対して高い一般化を行う必要があるため、この課題は極めて困難である。 近年の深層学習に基づく手法は, 一般化問題を明示的に扱わず, 膨大な手動ピクセルレベルのアノテーション処理を必要とする, ペアリング学習例による新しいネットワークアーキテクチャや最適化戦略を開発する。 本研究では,CDコミュニティにおける最初の試みとして,データ拡張の観点からCDの一般化問題を考察し,画像レベルのラベルのみを必要とする,弱教師付きトレーニングアルゴリズムを開発した。 分類のための一般的な拡張手法とは違って,背景変化画像のセットのガイダンスに基づいてサンプルを増強し,様々な環境変動を深層CDモデルに示すことで,変化検出のために特別に設計された背景混合拡張を提案する。 さらに,一般化を著しく促進する拡張的および実データ整合性損失を提案する。 汎用フレームワークとしての手法は,既存の深層学習型検出器を広範囲に拡張することができる。 2つの公開データセットで広範な実験を行い,その利点を実証する4つの最先端手法の強化を行った。

Change detection (CD) is to decouple object changes (i.e., object missing or appearing) from background changes (i.e., environment variations) like light and season variations in two images captured in the same scene over a long time span, presenting critical applications in disaster management, urban development, etc. In particular, the endless patterns of background changes require detectors to have a high generalization against unseen environment variations, making this task significantly challenging. Recent deep learning-based methods develop novel network architectures or optimization strategies with paired-training examples, which do not handle the generalization issue explicitly and require huge manual pixel-level annotation efforts. In this work, for the first attempt in the CD community, we study the generalization issue of CD from the perspective of data augmentation and develop a novel weakly supervised training algorithm that only needs image-level labels. Different from general augmentation techniques for classification, we propose the background-mixed augmentation that is specifically designed for change detection by augmenting examples under the guidance of a set of background changing images and letting deep CD models see diverse environment variations. Moreover, we propose the augmented & real data consistency loss that encourages the generalization increase significantly. Our method as a general framework can enhance a wide range of existing deep learning-based detectors. We conduct extensive experiments in two public datasets and enhance four state-of-the-art methods, demonstrating the advantages of
翻訳日:2022-11-22 18:02:22 公開日:2022-11-21
# 深部異方性拡散による奥行き超解像

Guided Depth Super-Resolution by Deep Anisotropic Diffusion ( http://arxiv.org/abs/2211.11592v1 )

ライセンス: Link先を確認
Nando Metzger, Rodrigo Caye Daudt, Konrad Schindler(参考訳) RGB画像からのガイダンスを用いた深度画像の超解像化は、ロボット工学、医用画像、リモートセンシングなど、いくつかの分野に関わる問題である。 ディープラーニングの手法はこの問題で良い結果を得たが、最近の研究は、モダンなメソッドとより正式なフレームワークを組み合わせることの価値を強調した。 本研究では, 誘導異方性拡散と深部畳み込みネットワークを組み合わせた新しい手法を提案し, 誘導深度超解像技術の現状を推し進める。 拡散のエッジ転送/エンハンシング特性は、現代のネットワークの文脈推論能力によって強化され、厳格な調整ステップにより、ソースイメージへの完全準拠が保証される。 誘導深度超解像のための3つの一般的なベンチマークで前例のない結果を得た。 他の方法と比較してパフォーマンスの向上は、x32スケーリングなど、より大きなスケールで最大である。 提案手法のコードは,結果の再現性を促進するために利用可能である。

Performing super-resolution of a depth image using the guidance from an RGB image is a problem that concerns several fields, such as robotics, medical imaging, and remote sensing. While deep learning methods have achieved good results in this problem, recent work highlighted the value of combining modern methods with more formal frameworks. In this work, we propose a novel approach which combines guided anisotropic diffusion with a deep convolutional network and advances the state of the art for guided depth super-resolution. The edge transferring/enhancing properties of the diffusion are boosted by the contextual reasoning capabilities of modern networks, and a strict adjustment step guarantees perfect adherence to the source image. We achieve unprecedented results in three commonly used benchmarks for guided depth super-resolution. The performance gain compared to other methods is the largest at larger scales, such as x32 scaling. Code for the proposed method will be made available to promote reproducibility of our results.
翻訳日:2022-11-22 18:01:57 公開日:2022-11-21
# L3Cube-MahaSBERT と HindSBERT:Hindi と Marathi のための文 BERT モデルとベンチマーク BERT 文表現

L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking BERT Sentence Representations for Hindi and Marathi ( http://arxiv.org/abs/2211.11187v1 )

ライセンス: Link先を確認
Ananya Joshi, Aditi Kajale, Janhavi Gadre, Samruddhi Deode, Raviraj Joshi(参考訳) バニラBERTモデルからの文表現は文類似性タスクではうまく機能しない。 STSまたはNLIデータセットで特別にトレーニングされた文-BERTモデルは、最先端のパフォーマンスを提供する。 しかし、これらの特殊なデータセットがないため、低リソース言語向けにこれらのモデルを構築するのは簡単ではない。 この研究はヒンディー語とマラティ語という2つの低資源インド語に焦点をあてている。 機械翻訳を用いて合成nliとstsデータセットを用いてこれらの言語の文型モデルを訓練する。 nli事前学習とstsb微調整の戦略は,ヒンディー語とマラティ語の高性能文相似性モデルの生成に有効であることを示した。 この単純な戦略を用いて訓練されたバニラBERTモデルは、複雑な訓練戦略を用いて訓練された多言語LaBSEよりも優れていた。 これらのモデルは、下流のテキスト分類と類似性タスクで評価される。 これらのモデルを実テキスト分類データセット上で評価することにより、合成データトレーニングから得られた埋め込みが実際のデータセットに一般化可能であることを示し、低リソース言語に対する効果的なトレーニング戦略を示す。 また、高速テキストモデル、多言語BERTモデル(mBERT, IndicBERT, xlm-RoBERTa, MuRIL)、多言語文埋め込みモデル(LASER, LaBSE)、L3Cube-MahaBERTとHindBERTに基づく単言語BERTモデルの比較分析を行った。 本稿では,Marathi と Hindi の最先端文-BERT モデルである L3Cube-MahaSBERT と HindSBERT をそれぞれリリースする。 私たちの作品は、低リソースの文埋め込みモデルを構築するためのガイドとしても役立ちます。

Sentence representation from vanilla BERT models does not work well on sentence similarity tasks. Sentence-BERT models specifically trained on STS or NLI datasets are shown to provide state-of-the-art performance. However, building these models for low-resource languages is not straightforward due to the lack of these specialized datasets. This work focuses on two low-resource Indian languages, Hindi and Marathi. We train sentence-BERT models for these languages using synthetic NLI and STS datasets prepared using machine translation. We show that the strategy of NLI pre-training followed by STSb fine-tuning is effective in generating high-performance sentence-similarity models for Hindi and Marathi. The vanilla BERT models trained using this simple strategy outperform the multilingual LaBSE trained using a complex training strategy. These models are evaluated on downstream text classification and similarity tasks. We evaluate these models on real text classification datasets to show embeddings obtained from synthetic data training are generalizable to real datasets as well and thus represent an effective training strategy for low-resource languages. We also provide a comparative analysis of sentence embeddings from fast text models, multilingual BERT models (mBERT, IndicBERT, xlm-RoBERTa, MuRIL), multilingual sentence embedding models (LASER, LaBSE), and monolingual BERT models based on L3Cube-MahaBERT and HindBERT. We release L3Cube-MahaSBERT and HindSBERT, the state-of-the-art sentence-BERT models for Marathi and Hindi respectively. Our work also serves as a guide to building low-resource sentence embedding models.
翻訳日:2022-11-22 18:00:30 公開日:2022-11-21
# CBEAF適応:中国の生物医学言語モデル構築のための継続的な事前訓練

CBEAF-Adapting: Enhanced Continual Pretraining for Building Chinese Biomedical Language Model ( http://arxiv.org/abs/2211.11363v1 )

ライセンス: Link先を確認
Yongyu Yan, Kui Xue, Qi Ye, Tong Ruan(参考訳) 連続事前訓練は、汎用ドメイン言語モデルからドメイン固有の事前訓練言語モデルを構築する標準的な方法である。 しかし、シーケンシャルなタスクトレーニングは、ダウンストリームタスクのモデルパフォーマンスに影響を与える破滅的な忘れる可能性がある。 本稿では, CBEAF-Adapting (China Biomedical Enhanced Attention-FFN Adapting) という名前のBERTモデルに対する継続事前学習手法を提案する。 その主なアイデアは、各セルフアテンション層とフィードフォワードネットワークの中に、少数の注意ヘッドと隠れユニットを導入することである。 中国のバイオメディカルドメインを実例として使用し、cbeaf-robertaというドメイン固有言語モデルをトレーニングしました。 下流タスクにモデルを適用して実験を行う。 その結果,学習したモデルパラメータの約3%で,ベースラインにおける最高の性能モデルと,ドメイン固有モデルであるPCL-MedBERTと比較して約0.5%,2%の性能向上が達成できた。 また、異なる事前学習方法の忘れ問題についても検討する。 本手法は,微調整と比較して約13%緩和する。

Continual pretraining is a standard way of building a domain-specific pretrained language model from a general-domain language model. However, sequential task training may cause catastrophic forgetting, which affects the model performance in downstream tasks. In this paper, we propose a continual pretraining method for the BERT-based model, named CBEAF-Adapting (Chinese Biomedical Enhanced Attention-FFN Adapting). Its main idea is to introduce a small number of attention heads and hidden units inside each self-attention layer and feed-forward network. Using the Chinese biomedical domain as a running example, we trained a domain-specific language model named CBEAF-RoBERTa. We conduct experiments by applying models to downstream tasks. The results demonstrate that with only about 3% of model parameters trained, our method could achieve about 0.5%, 2% average performance gain compared to the best performing model in baseline and the domain-specific model, PCL-MedBERT, respectively. We also examine the forgetting problem of different pretraining methods. Our method alleviates the problem by about 13% compared to fine-tuning.
翻訳日:2022-11-22 18:00:00 公開日:2022-11-21
# L3Cube-HindBERTとDevBERT:Devanagariに基づくヒンディー語とマラティー語のための事前学習BERTトランスフォーマモデル

L3Cube-HindBERT and DevBERT: Pre-Trained BERT Transformer models for Devanagari based Hindi and Marathi Languages ( http://arxiv.org/abs/2211.11418v1 )

ライセンス: Link先を確認
Raviraj Joshi(参考訳) 現在モデルハブで利用可能なモノリンガルHindi BERTモデルは、下流タスクのマルチリンガルモデルよりもパフォーマンスが良くない。 ヒンディー語単言語コーパスで事前学習したヒンディー語 BERT モデル L3Cube-HindBERT を提案する。 さらに、ヒンディー語、マラティ語がデヴァナガリー文字を共有しているため、両方の言語に対して単一のモデルを訓練する。 私たちは、MarathiとHindiのモノリンガルデータセットに基づいてトレーニングされたDevanagari BERTモデルであるDevBERTをリリースします。 これらのモデルをヒンディー語下流とマラティ語のテキスト分類と名前付きエンティティ認識タスクで評価した。 HindBERTとDevBERTベースのモデルは、多言語モデルに比べて優れた性能を示している。 これらのモデルはhttps://huggingface.co/l3cube-puneで共有される。

The monolingual Hindi BERT models currently available on the model hub do not perform better than the multi-lingual models on downstream tasks. We present L3Cube-HindBERT, a Hindi BERT model pre-trained on Hindi monolingual corpus. Further, since Indic languages, Hindi and Marathi share the Devanagari script, we train a single model for both languages. We release DevBERT, a Devanagari BERT model trained on both Marathi and Hindi monolingual datasets. We evaluate these models on downstream Hindi and Marathi text classification and named entity recognition tasks. The HindBERT and DevBERT-based models show superior performance compared to their multi-lingual counterparts. These models are shared at https://huggingface.co/l3cube-pune .
翻訳日:2022-11-22 17:59:40 公開日:2022-11-21
# label mask autoencoder(l-mae): 意味セグメンテーションデータセットを補完する純粋トランスフォーマー

Label Mask AutoEncoder(L-MAE): A Pure Transformer Method to Augment Semantic Segmentation Datasets ( http://arxiv.org/abs/2211.11242v1 )

ライセンス: Link先を確認
Jiaru Jia, Mingzhe Liu, Jiake Xie, Xin Chen, Aiqing Yang, Xin Jiang, Hong Zhang, Yong Tang(参考訳) 従来のニューラルネットワークに基づくセマンティクスセグメンテーションモデルは、トレーニングモデルプロセスにおいてデータセットが不可欠であるのに対して、そのようなタスクにおいて顕著なパフォーマンスを達成することができる。 近年,半教師付きセマンティクスセグメンテーションにおいて,データセットの拡張が著しく進展している。 しかし,ラベルの欠落による画素レベル情報の完成は依然として困難である。 Mask AutoEncoderに触発されて、ラベル内の既存の情報を完全に利用して結果を予測する、単純で効果的なPixel-Level補完手法であるLabel Mask AutoEncoder(L-MAE)を提案する。 提案モデルでは,ラベルと対応するイメージ,すなわちFuse Mapを積み重ねる融合戦略を採用している。 さらに、Fuse Mapをマスキングする際に画像情報の一部が失われるため、直接復元は性能が低下する可能性がある。 提案する画像パッチサプリメントアルゴリズムは欠落した情報を補うことができ、実験によれば平均4.1%のmiouが改善できる。 比較実験ではPascal VOC2012データセット(224の作物サイズ、20のクラス)とCityscapeデータセット(448の作物サイズ、19のクラス)が使用される。 Mask Ratioの設定を50%とし、予測領域の観点から、提案モデルはPascal VOC 2012とCityscapeのmIoUの91.0%と86.4%を達成し、他の教師付きセマンティックセマンティックセグメンテーションモデルより優れている。 私たちのコードとモデルはhttps://github.com/jjrccop/label-mask-auto-encoderで利用可能です。

Semantic segmentation models based on the conventional neural network can achieve remarkable performance in such tasks, while the dataset is crucial to the training model process. Significant progress in expanding datasets has been made in semi-supervised semantic segmentation recently. However, completing the pixel-level information remains challenging due to possible missing in a label. Inspired by Mask AutoEncoder, we present a simple yet effective Pixel-Level completion method, Label Mask AutoEncoder(L-MAE), that fully uses the existing information in the label to predict results. The proposed model adopts the fusion strategy that stacks the label and the corresponding image, namely Fuse Map. Moreover, since some of the image information is lost when masking the Fuse Map, direct reconstruction may lead to poor performance. Our proposed Image Patch Supplement algorithm can supplement the missing information, as the experiment shows, an average of 4.1% mIoU can be improved. The Pascal VOC2012 dataset (224 crop size, 20 classes) and the Cityscape dataset (448 crop size, 19 classes) are used in the comparative experiments. With the Mask Ratio setting to 50%, in terms of the prediction region, the proposed model achieves 91.0% and 86.4% of mIoU on Pascal VOC 2012 and Cityscape, respectively, outperforming other current supervised semantic segmentation models. Our code and models are available at https://github.com/jjrccop/Label-Mask-Auto-Encoder.
翻訳日:2022-11-22 17:50:59 公開日:2022-11-21
# 昨日から学ぶ: スーパービジョン限定のテキスト-SQLタスクストリームのための半教師付き連続学習法

Learn from Yesterday: A Semi-Supervised Continual Learning Method for Supervision-Limited Text-to-SQL Task Streams ( http://arxiv.org/abs/2211.11226v1 )

ライセンス: Link先を確認
Yongrui Chen, Xinnan Guo, Tongtong Wu, Guilin Qi, Yang Li, Yang Dong(参考訳) 従来のテキストからSQLまでの研究は、固定サイズのトレーニングとテストセットを備えた単一のタスクに限られている。 現実世界のアプリケーションで共通するタスクの流れに直面すると、既存のメソッドは教師なしデータの不足と高いリトレーニングコストの問題に苦しむ。 前者は新しいタスクのために目に見えないデータベースに過度に適合する傾向があり、後者は過去のタスクのインスタンスをモデルに非現実的にレビューし、学習済みのSQL構造とデータベーススキーマを忘れてしまう。 そこで本研究では,テキスト対SQLタスクのストリームに半教師付き学習(SSL)と連続学習(CL)を統合することを提案する。 最初のソリューションは、教師付きトレーニングデータを、現在のタスクの疑似ラベル付きインスタンスで拡張し、全ボリュームリトレーニングをエピソディックメモリリプレイに置き換え、トレーニング効率と以前のタスクのパフォーマンスをバランスさせる、セルフトレーニングを行うことである。 改善されたソリューションであるSFNetは、CLとSSLの固有の接続を利用する。 現在のSSLを支援するためにインメモリの過去の情報を使用し、メモリに高品質な擬似インスタンスを追加して将来のリプレイを改善する。 2つのデータセットの実験は、SFNetが広く使用されているSSLのみとCLのみのベースラインを、複数のメトリクスで上回っていることを示している。

Conventional text-to-SQL studies are limited to a single task with a fixed-size training and test set. When confronted with a stream of tasks common in real-world applications, existing methods struggle with the problems of insufficient supervised data and high retraining costs. The former tends to cause overfitting on unseen databases for the new task, while the latter makes a full review of instances from past tasks impractical for the model, resulting in forgetting of learned SQL structures and database schemas. To address the problems, this paper proposes integrating semi-supervised learning (SSL) and continual learning (CL) in a stream of text-to-SQL tasks and offers two promising solutions in turn. The first solution Vanilla is to perform self-training, augmenting the supervised training data with predicted pseudo-labeled instances of the current task, while replacing the full volume retraining with episodic memory replay to balance the training efficiency with the performance of previous tasks. The improved solution SFNet takes advantage of the intrinsic connection between CL and SSL. It uses in-memory past information to help current SSL, while adding high-quality pseudo instances in memory to improve future replay. The experiments on two datasets shows that SFNet outperforms the widely-used SSL-only and CL-only baselines on multiple metrics.
翻訳日:2022-11-22 17:44:07 公開日:2022-11-21
# RAILD:知識グラフにおける帰納的リンク予測の活用に向けて

RAILD: Towards Leveraging Relation Features for Inductive Link Prediction In Knowledge Graphs ( http://arxiv.org/abs/2211.11407v1 )

ライセンス: Link先を確認
Genet Asefa Gesese, Harald Sack, Mehwish Alam(参考訳) オープンワールドの仮定のため、知識グラフ(KG)は決して完成しない。 この問題に対処するため,これまでに様々なリンク予測手法が提案されている。 これらの手法のいくつかは、訓練中に見えないエンティティの表現を学習できるインダクティブLPモデルである。 しかしながら、私たちの知る限りでは、既存の帰納的lpモデルはいずれも、目に見えない関係の学習表現に焦点を当てていない。 本研究は, 未知の実体と未知の関係の表現を学習するKG完全化のために, RAILD(Relation Aware Inductive Link preDiction)を提案する。 RAILDは、言語モデルを用いてエンティティとリレーションの両方に関連するテキストリテラルを活用することに加えて、リレーションのための特徴を生成する新しいグラフベースのアプローチも導入している。 実験は、既存のデータと新しく作成された挑戦的なベンチマークデータセットを用いて行われ、結果から、レイティングは最先端モデルよりもパフォーマンスが向上することを示している。 さらに,未知関係の表現を学習するインダクティブlpモデルが存在しないため,我々は独自のベースラインを作成し, raild による結果もこれらのベースラインを上回っている。

Due to the open world assumption, Knowledge Graphs (KGs) are never complete. In order to address this issue, various Link Prediction (LP) methods are proposed so far. Some of these methods are inductive LP models which are capable of learning representations for entities not seen during training. However, to the best of our knowledge, none of the existing inductive LP models focus on learning representations for unseen relations. In this work, a novel Relation Aware Inductive Link preDiction (RAILD) is proposed for KG completion which learns representations for both unseen entities and unseen relations. In addition to leveraging textual literals associated with both entities and relations by employing language models, RAILD also introduces a novel graph-based approach to generate features for relations. Experiments are conducted with different existing and newly created challenging benchmark datasets and the results indicate that RAILD leads to performance improvement over the state-of-the-art models. Moreover, since there are no existing inductive LP models which learn representations for unseen relations, we have created our own baselines and the results obtained with RAILD also outperform these baselines.
翻訳日:2022-11-22 17:43:43 公開日:2022-11-21
# deanthropomorphising nlp: 言語モデルは意識できるのか?

Deanthropomorphising NLP: Can a Language Model Be Conscious? ( http://arxiv.org/abs/2211.11483v1 )

ライセンス: Link先を確認
Matthew Shardlow and Piotr Przyby{\l}a(参考訳) この作業は、Transformerモデルアーキテクチャに基づいた事前訓練された言語モデルであるLaMDAがセンシティブである、という最近の主張に関する議論の中で、声高に意図されている。 この主張が確認できれば、同様のモデルが広く使われているため、自然言語処理(nlp)コミュニティに深刻な影響が及ぶだろう。 しかし、ここでは、このような言語モデルは、感性や意識に欠けるものではなく、特にlamdaは、それを許容する他の類似のモデルに対して進歩を示さないという立場を取る。 統合情報理論を用いてトランスフォーマーアーキテクチャを分析することでこれを正当化する。 われわれは意識の主張を,NLP報告において人為的言語を使用する傾向の広さの一部として捉えている。 主張の妥当性にかかわらず、私たちはこの瞬間を言語モデリングの進歩を積み重ね、そのタスクの倫理的意味を考察する機会と捉えています。 この作業をNLPコミュニティ以外の読者にとって役立つものにするため、言語モデリングにおける必要な背景も提示する。

This work is intended as a voice in the discussion over the recent claims that LaMDA, a pretrained language model based on the Transformer model architecture, is sentient. This claim, if confirmed, would have serious ramifications in the Natural Language Processing (NLP) community due to wide-spread use of similar models. However, here we take the position that such a language model cannot be sentient, or conscious, and that LaMDA in particular exhibits no advances over other similar models that would qualify it. We justify this by analysing the Transformer architecture through Integrated Information Theory. We see the claims of consciousness as part of a wider tendency to use anthropomorphic language in NLP reporting. Regardless of the veracity of the claims, we consider this an opportune moment to take stock of progress in language modelling and consider the ethical implications of the task. In order to make this work helpful for readers outside the NLP community, we also present the necessary background in language modelling.
翻訳日:2022-11-22 17:43:24 公開日:2022-11-21
# ボトル内の言語:解釈可能な画像分類のための言語モデルガイド型概念ボトルネック

Language in a Bottle: Language Model Guided Concept Bottlenecks for Interpretable Image Classification ( http://arxiv.org/abs/2211.11158v1 )

ライセンス: Link先を確認
Yue Yang, Artemis Panagopoulou, Shenghao Zhou, Daniel Jin, Chris Callison-Burch, Mark Yatskar(参考訳) 概念ボトルネックモデル(cbm)は本質的に解釈可能なモデルであり、モデル決定を人間の可読概念に分解する。 これにより、モデルが失敗した理由を簡単に理解できるようになる。 CBMは手動で指定した概念を必要とし、しばしばブラックボックスの能力に劣る。 まず,ブラックボックスモデルと同様の精度を手作業で指定することなく,高性能なcbmを構築する方法を示す。 当社のアプローチであるlanguage guided bottlenecks(labo)は、言語モデルgpt-3を活用して、可能なボトルネックの大きな空間を定義します。 問題領域が与えられた場合、LaBoはGPT-3を使用してカテゴリに関する事実文を生成し、候補概念を形成する。 laboは、識別的かつ多様な情報の選択を促進する新しいサブモジュラーユーティリティを通じて、可能なボトルネックを効率的に検索する。 最終的に、GPT-3の知覚概念は、CLIPを使用して画像に整列してボトルネック層を形成することができる。 実験により、LaBoは視覚認識にとって重要な概念の非常に効果的な事前であることが示された。 11の多様なデータセットによる評価では、LaBoボトルネックは数ショットの分類で優れており、1ショットでのブラックボックス線形プローブよりも11.7%正確で、より多くのデータに匹敵する。 全体として、LaBoはブラックボックスアプローチよりも、本質的に解釈可能なモデルが、同じような、あるいはより良いパフォーマンスで広く適用可能であることを示した。

Concept Bottleneck Models (CBM) are inherently interpretable models that factor model decisions into human-readable concepts. They allow people to easily understand why a model is failing, a critical feature for high-stakes applications. CBMs require manually specified concepts and often under-perform their black box counterparts, preventing their broad adoption. We address these shortcomings and are first to show how to construct high-performance CBMs without manual specification of similar accuracy to black box models. Our approach, Language Guided Bottlenecks (LaBo), leverages a language model, GPT-3, to define a large space of possible bottlenecks. Given a problem domain, LaBo uses GPT-3 to produce factual sentences about categories to form candidate concepts. LaBo efficiently searches possible bottlenecks through a novel submodular utility that promotes the selection of discriminative and diverse information. Ultimately, GPT-3's sentential concepts can be aligned to images using CLIP, to form a bottleneck layer. Experiments demonstrate that LaBo is a highly effective prior for concepts important to visual recognition. In the evaluation with 11 diverse datasets, LaBo bottlenecks excel at few-shot classification: they are 11.7% more accurate than black box linear probes at 1 shot and comparable with more data. Overall, LaBo demonstrates that inherently interpretable models can be widely applied at similar, or better, performance than black box approaches.
翻訳日:2022-11-22 17:42:45 公開日:2022-11-21
# マルチタスク視覚言語プロンプトチューニング

Multitask Vision-Language Prompt Tuning ( http://arxiv.org/abs/2211.11720v1 )

ライセンス: Link先を確認
Sheng Shen, Shijia Yang, Tianjun Zhang, Bohan Zhai, Joseph E. Gonzalez, Kurt Keutzer, Trevor Darrell(参考訳) タスク固有の学習プロンプトベクトルの条件付けであるPrompt Tuningは、大規模な事前学習された視覚言語モデルを複数の下流タスクに適用するためのデータ効率とパラメータ効率の手法として登場した。 しかし、既存のアプローチでは、スクラッチとは独立して各タスクのプロンプトベクトルを学習することを検討しており、異なるビジョン言語タスク間で共有可能な豊富な知識を活用できていない。 本稿では,視覚言語モデルのプロンプトチューニングにクロスタスク知識を組み込んだマルチタスク視覚言語プロンプトチューニング(mvlpt)を提案する。 具体的には (i)複数のソースタスクから単一の転送可能なプロンプトを学習し、対象タスクごとにプロンプトを初期化する効果を示す。 (ii)プロンプトベクトルを共有することで,複数の対象タスクが相互に利益を享受し,マルチタスクプロンプトチューニングによって協調的に学習できることを示す。 提案するMVLPTを,テキストプロンプトチューニング,視覚プロンプトチューニング,統合視覚言語プロンプトチューニングという3つの代表的プロンプトチューニング手法を用いてベンチマークする。 20のビジョンタスクの結果、提案手法は全単一タスクベースラインのプロンプトチューニング手法より優れており、数ショットのELEVATERベンチマークとクロスタスクの一般化ベンチマークで新しい最先端の設定を行う。 クロスタスクの知識が最も効果的である場所を理解するため、プロンプトチューニング法ごとに20個のビジョンタスクを400個の組み合わせて、タスク転送可能性に関する大規模研究を行う。 その結果,各プロンプトチューニング手法において最も優れたMVLPTは異なるタスクの組み合わせを好んでおり,視覚的類似性やラベルの類似性によって多くのタスクが互いに有利であることがわかった。 コードはhttps://github.com/sIncerass/MVLPTで入手できる。

Prompt Tuning, conditioning on task-specific learned prompt vectors, has emerged as a data-efficient and parameter-efficient method for adapting large pretrained vision-language models to multiple downstream tasks. However, existing approaches usually consider learning prompt vectors for each task independently from scratch, thereby failing to exploit the rich shareable knowledge across different vision-language tasks. In this paper, we propose multitask vision-language prompt tuning (MVLPT), which incorporates cross-task knowledge into prompt tuning for vision-language models. Specifically, (i) we demonstrate the effectiveness of learning a single transferable prompt from multiple source tasks to initialize the prompt for each target task; (ii) we show many target tasks can benefit each other from sharing prompt vectors and thus can be jointly learned via multitask prompt tuning. We benchmark the proposed MVLPT using three representative prompt tuning methods, namely text prompt tuning, visual prompt tuning, and the unified vision-language prompt tuning. Results in 20 vision tasks demonstrate that the proposed approach outperforms all single-task baseline prompt tuning methods, setting the new state-of-the-art on the few-shot ELEVATER benchmarks and cross-task generalization benchmarks. To understand where the cross-task knowledge is most effective, we also conduct a large-scale study on task transferability with 20 vision tasks in 400 combinations for each prompt tuning method. It shows that the most performant MVLPT for each prompt tuning method prefers different task combinations and many tasks can benefit each other, depending on their visual similarity and label similarity. Code is available at https://github.com/sIncerass/MVLPT.
翻訳日:2022-11-22 17:42:20 公開日:2022-11-21
# 未知のオブジェクトインスタンスセグメンテーションのための平均シフトマスク変換器

Mean Shift Mask Transformer for Unseen Object Instance Segmentation ( http://arxiv.org/abs/2211.11679v1 )

ライセンス: Link先を確認
Yangxiao Lu, Yuqiao Chen, Nicholas Ruozzi, Yu Xiang(参考訳) 見えないオブジェクトのセグメンテーションは多くの異なるドメインにおいて重要なタスクである。 例えば、ロボットは見えないオブジェクトをつかむ必要があるかもしれない。つまり、このオブジェクトを背景や他のオブジェクトから視覚的に分離する必要がある。 平均シフトクラスタリングは、オブジェクトセグメンテーションタスクにおいて一般的な方法である。 しかし、従来の平均シフトクラスタリングアルゴリズムは、エンドツーエンドのニューラルネットワークトレーニングパイプラインに簡単には統合されない。 本研究では,von mises-fisher (vmf)平均シフトクラスタリングアルゴリズムをシミュレートし,特徴抽出器とクラスタリングの合同トレーニングと推論を可能にする,新しいトランスフォーマティブアーキテクチャであるmean shift mask transformer (msmformer)を提案する。 その中心的なコンポーネントは、ハイパースフィア上のオブジェクトクエリを更新するハイパースフィアのアテンションメカニズムである。 本手法の有効性を説明するために,MSMFormer を Unseen Object Instance Segmentation に適用し,実世界のオブジェクトClutter Indoor Dataset (OCID) に 87.3 境界 F-meansure を新たに生成する。 コードはhttps://github.com/YoungSean/UnseenObjectsWithMeanShiftで入手できる。

Segmenting unseen objects is a critical task in many different domains. For example, a robot may need to grasp an unseen object, which means it needs to visually separate this object from the background and/or other objects. Mean shift clustering is a common method in object segmentation tasks. However, the traditional mean shift clustering algorithm is not easily integrated into an end-to-end neural network training pipeline. In this work, we propose the Mean Shift Mask Transformer (MSMFormer), a new transformer architecture that simulates the von Mises-Fisher (vMF) mean shift clustering algorithm, allowing for the joint training and inference of both the feature extractor and the clustering. Its central component is a hypersphere attention mechanism, which updates object queries on a hypersphere. To illustrate the effectiveness of our method, we apply MSMFormer to Unseen Object Instance Segmentation, which yields a new state-of-the-art of 87.3 Boundary F-meansure on the real-world Object Clutter Indoor Dataset (OCID). Code is available at https://github.com/YoungSean/UnseenObjectsWithMeanShift
翻訳日:2022-11-22 17:35:52 公開日:2022-11-21
# ラストマイル・エボダイド視覚ナビゲーション

Last-Mile Embodied Visual Navigation ( http://arxiv.org/abs/2211.11746v1 )

ライセンス: Link先を確認
Justin Wasserman, Karmesh Yadav, Girish Chowdhary, Abhinav Gupta, Unnat Jain(参考訳) 画像ナビゲーションのような現実的なロングホライゾンタスクには、探索的および搾取的フェーズが含まれる。 目標の画像が割り当てられると、具体化されたエージェントは、学習済みの事前情報を使って効率的に目標を発見するために探索しなければならない。 目標が見つかると、エージェントは目標までのラストマイルを正確に調整しなければならない。 堅牢なシステムと同様に、探索目標発見と悪用的なラストマイルナビゲーションの切り替えにより、エラーからの回復が向上する。 これらの直感的なガイドレールに従って,既存の画像ナビゲーションシステムの性能を向上させるためのslingを提案する。 従来の手法を完全に補完し,ラストマイルナビゲーションに焦点をあて,神経記述子を用いた問題の幾何学的構造を活用する。 シンプルだが効果的なスイッチで、Slingをヒューリスティック、強化学習、ニューラルモジュラポリシーと簡単に接続できます。 標準化された画像ゴールナビゲーションベンチマーク(Hahn et al. 2021)では、ポリシー、シーン、エピソードの複雑さにまたがるパフォーマンスを改善し、最先端の45%から55%に向上した。 光リアリスティックシミュレーション以外にも、3つの物理的シーンで実ロボット実験を行い、実際の環境にうまく移行するための改善を見出した。

Realistic long-horizon tasks like image-goal navigation involve exploratory and exploitative phases. Assigned with an image of the goal, an embodied agent must explore to discover the goal, i.e., search efficiently using learned priors. Once the goal is discovered, the agent must accurately calibrate the last-mile of navigation to the goal. As with any robust system, switches between exploratory goal discovery and exploitative last-mile navigation enable better recovery from errors. Following these intuitive guide rails, we propose SLING to improve the performance of existing image-goal navigation systems. Entirely complementing prior methods, we focus on last-mile navigation and leverage the underlying geometric structure of the problem with neural descriptors. With simple but effective switches, we can easily connect SLING with heuristic, reinforcement learning, and neural modular policies. On a standardized image-goal navigation benchmark (Hahn et al. 2021), we improve performance across policies, scenes, and episode complexity, raising the state-of-the-art from 45% to 55% success rate. Beyond photorealistic simulation, we conduct real-robot experiments in three physical scenes and find these improvements to transfer well to real environments.
翻訳日:2022-11-22 17:35:30 公開日:2022-11-21
# メタブラックボックス最適化による進化戦略の発見

Discovering Evolution Strategies via Meta-Black-Box Optimization ( http://arxiv.org/abs/2211.11260v1 )

ライセンス: Link先を確認
Robert Tjarko Lange, Tom Schaul, Yutian Chen, Tom Zahavy, Valenti Dallibard, Chris Lu, Satinder Singh, Sebastian Flennerhag(参考訳) 勾配にアクセスせずに関数を最適化することは、進化戦略のようなブラックボックスメソッドの送金である。 非常に一般的にはありますが、彼らの学習ダイナミクスは、しばしばヒューリスティックで柔軟性のないものです。 そこで,メタラーニングによる進化戦略の効果的な更新ルールの発見を提案する。 具体的には,提案手法では,自己アテンションに基づくアーキテクチャによってパラメータ化された探索戦略を採用し,更新ルールが候補解の順序に不変であることを保証する。 本稿では, このシステムを低次元解析最適化問題の一群にメタ進化させることで, 未確認の最適化問題, 人口規模, 最適化の地平線を一般化できる新たな進化戦略を見出すのに十分であることを示す。 さらに、同じ学習された進化戦略は、教師付きおよび継続的な制御タスクにおいて確立された神経進化のベースラインを上回ることができる。 新たなコントリビューションとして、私たちのメソッドの個々のニューラルネットワークコンポーネントを廃止し、学習した戦略を非常に競争力のある明確なヒューリスティックな形式にリバースエンジニアリングし、外部メタラーニングループの駆動に使用する学習更新ルールを用いて、進化戦略をゼロから自己参照的にトレーニングすることが可能であることを示します。

Optimizing functions without access to gradients is the remit of black-box methods such as evolution strategies. While highly general, their learning dynamics are often times heuristic and inflexible - exactly the limitations that meta-learning can address. Hence, we propose to discover effective update rules for evolution strategies via meta-learning. Concretely, our approach employs a search strategy parametrized by a self-attention-based architecture, which guarantees the update rule is invariant to the ordering of the candidate solutions. We show that meta-evolving this system on a small set of representative low-dimensional analytic optimization problems is sufficient to discover new evolution strategies capable of generalizing to unseen optimization problems, population sizes and optimization horizons. Furthermore, the same learned evolution strategy can outperform established neuroevolution baselines on supervised and continuous control tasks. As additional contributions, we ablate the individual neural network components of our method; reverse engineer the learned strategy into an explicit heuristic form, which remains highly competitive; and show that it is possible to self-referentially train an evolution strategy from scratch, with the learned update rule used to drive the outer meta-learning loop.
翻訳日:2022-11-22 17:34:19 公開日:2022-11-21
# 視覚的デキスタリティ:奥行きによる手動デキスタラスマニピュレーション

Visual Dexterity: In-hand Dexterous Manipulation from Depth ( http://arxiv.org/abs/2211.11744v1 )

ライセンス: Link先を確認
Tao Chen, Megha Tippur, Siyang Wu, Vikash Kumar, Edward Adelson, Pulkit Agrawal(参考訳) ロボットの到達範囲を超えている非構造化環境でのツール使用など、多くのデクスターな操作を行うには、手作業でのオブジェクトのリオリエンテーションが必要となる。 単純な形状、限られた範囲のリオリエンテーション、遅いまたは準静的な操作、特殊でコストのかかるセンサースイートの必要性、シミュレーションのみの結果、そして実際のデプロイでは実現不可能な制約など、特定のオブジェクトのみのリオリエンテーションシステムを構築した。 これらの制約を克服し,実世界において強化学習を用いて学習し評価する汎用オブジェクトリオリエンテーション制御器を提案する。 本システムでは,単一商品の奥行きカメラからの読み出しを用いて,リアルタイムに複雑な物体を動的にリオリエントする。 コントローラはトレーニング中に使用されない新しいオブジェクトに一般化する。 これは最も難しいテストで成功し、空中の物体を下向きの手で保持する能力は、再配向中に重力に逆らわなければならない。 その結果,シミュレーションから実世界への政策伝達は,動的かつ接触に富むタスクにおいても達成可能であることが示された。 最後に、私たちのハードウェアは500ドル未満のオープンソースコンポーネントのみを使用します。 このような構成により、作品を複製し、デクスタース操作における将来の研究を民主化することができる。 ビデオは、https://taochenshh.github.io/projects/visual-dexterity.comで公開されている。

In-hand object reorientation is necessary for performing many dexterous manipulation tasks, such as tool use in unstructured environments that remain beyond the reach of current robots. Prior works built reorientation systems that assume one or many of the following specific circumstances: reorienting only specific objects with simple shapes, limited range of reorientation, slow or quasistatic manipulation, the need for specialized and costly sensor suites, simulation-only results, and other constraints which make the system infeasible for real-world deployment. We overcome these limitations and present a general object reorientation controller that is trained using reinforcement learning in simulation and evaluated in the real world. Our system uses readings from a single commodity depth camera to dynamically reorient complex objects by any amount in real time. The controller generalizes to novel objects not used during training. It is successful in the most challenging test: the ability to reorient objects in the air held by a downward-facing hand that must counteract gravity during reorientation. The results demonstrate that the policy transfer from simulation to the real world can be accomplished even for dynamic and contact-rich tasks. Lastly, our hardware only uses open-source components that cost less than five thousand dollars. Such construction makes it possible to replicate the work and democratize future research in dexterous manipulation. Videos are available at: https://taochenshh.github.io/projects/visual-dexterity.
翻訳日:2022-11-22 17:33:41 公開日:2022-11-21
# VectorFusion: ピクセルベース拡散モデルを抽象化したテキストからSVG

VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models ( http://arxiv.org/abs/2211.11319v1 )

ライセンス: Link先を確認
Ajay Jain and Amber Xie and Pieter Abbeel(参考訳) 拡散モデルはテキストと画像の合成において顕著な結果を示した。 キャプション付き画像の膨大なデータセットを使用して、拡散モデルは高度に多様なオブジェクトやシーンのラスター画像を生成する。 しかしデザイナは、デジタルアイコンやアートのために、SVG(Scalable Vector Graphics)のようなイメージのベクトル表現を使うことが多い。 ベクトルグラフィックスは任意のサイズにスケールでき、コンパクトである。 画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。 字幕付きsvgの大規模なデータセットにアクセスできない。 微分可能なベクトルグラフィックスラスタライザを最適化することにより、VectorFusionは、事前訓練された拡散モデルから抽象意味知識を抽出する。 最近のテキストから3dへの取り組みに触発されて、スコア蒸留サンプリングを用いてキャプションと一貫性のあるsvgを学習する。 生成を加速し、忠実度を向上させるために、ベクターフュージョンは画像サンプルから初期化する。 実験では、以前の作品よりも品質が高く、ピクセルアートやスケッチを含む様々なスタイルが示されている。 プロジェクトのWebページはhttps://ajayj.com/vectorfusion を参照してください。

Diffusion models have shown impressive results in text-to-image synthesis. Using massive datasets of captioned images, diffusion models learn to generate raster images of highly diverse objects and scenes. However, designers frequently use vector representations of images like Scalable Vector Graphics (SVGs) for digital icons or art. Vector graphics can be scaled to any size, and are compact. We show that a text-conditioned diffusion model trained on pixel representations of images can be used to generate SVG-exportable vector graphics. We do so without access to large datasets of captioned SVGs. By optimizing a differentiable vector graphics rasterizer, our method, VectorFusion, distills abstract semantic knowledge out of a pretrained diffusion model. Inspired by recent text-to-3D work, we learn an SVG consistent with a caption using Score Distillation Sampling. To accelerate generation and improve fidelity, VectorFusion also initializes from an image sample. Experiments show greater quality than prior work, and demonstrate a range of styles including pixel art and sketches. See our project webpage at https://ajayj.com/vectorfusion .
翻訳日:2022-11-22 17:24:47 公開日:2022-11-21
# 概念特異的説明によるセグメンテーションと物体検出における隠れコンテキストバイアスの探索

Revealing Hidden Context Bias in Segmentation and Object Detection through Concept-specific Explanations ( http://arxiv.org/abs/2211.11426v1 )

ライセンス: Link先を確認
Maximilian Dreyer, Reduan Achtibat, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin(参考訳) セグメンテーションやオブジェクト検出予測に従来のポストホック帰属法を適用すると、入力レベルの特徴帰属マップはモデルが予測したセグメンテーションマスクやバウンディングボックスに似ているため、限られた洞察しか得られない。 本研究では, モデルが推論時に学習し, 認識し, 使用した関連概念を自動的に識別し, 正確に入力空間に配置する, ポストホックなeXplainable Artificial Intelligence法L-CRPを提案することにより, これらの予測器のより情報的な説明の必要性に対処する。 したがって,本手法は特異な入力レベルの属性マップに留まらず,最近発表された概念関連伝播手法に基づくアプローチとして,DeepLabV3+やYOLOv6などのセグメント化やオブジェクト検出における最先端のブラックボックスアーキテクチャに適用できる。 提案手法の信頼性を,異なる概念帰属法を定量的に比較して検証し,CityScapes, Pascal VOC, MS COCO 2017などの一般的なデータセットに対する説明複雑性への影響について検討する。 コンセプトを正確に見つけて伝達する能力は、背景機能の使用を明確化し、検証するために使用され、それによってモデルのバイアスが強調される。

Applying traditional post-hoc attribution methods to segmentation or object detection predictors offers only limited insights, as the obtained feature attribution maps at input level typically resemble the models' predicted segmentation mask or bounding box. In this work, we address the need for more informative explanations for these predictors by proposing the post-hoc eXplainable Artificial Intelligence method L-CRP to generate explanations that automatically identify and visualize relevant concepts learned, recognized and used by the model during inference as well as precisely locate them in input space. Our method therefore goes beyond singular input-level attribution maps and, as an approach based on the recently published Concept Relevance Propagation technique, is efficiently applicable to state-of-the-art black-box architectures in segmentation and object detection, such as DeepLabV3+ and YOLOv6, among others. We verify the faithfulness of our proposed technique by quantitatively comparing different concept attribution methods, and discuss the effect on explanation complexity on popular datasets such as CityScapes, Pascal VOC and MS COCO 2017. The ability to precisely locate and communicate concepts is used to reveal and verify the use of background features, thereby highlighting possible biases of the model.
翻訳日:2022-11-22 17:24:33 公開日:2022-11-21
# ブートストラップ型放射場インバージョンによる単一画像からの形状, 姿勢, 出現

Shape, Pose, and Appearance from a Single Image via Bootstrapped Radiance Field Inversion ( http://arxiv.org/abs/2211.11674v1 )

ライセンス: Link先を確認
Dario Pavllo, David Joseph Tan, Marie-Julie Rakotosaona, Federico Tombari(参考訳) ニューラル・ラジアンス・フィールド(NeRF)とGANを結合させることは、任意のトポロジを効率的にモデル化する能力のため、単一の視点から3次元再構成の領域において有望な方向を示す。 しかし、この領域での最近の研究は、主に正確な接地姿勢が分かっている合成データセットに焦点を当てており、拡張現実(ar)やロボティクスのような下流アプリケーションで重要なポーズ推定を見逃している。 提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入する。 本手法は,SDFによる3次元形状,ポーズ,外観を,トレーニング中に複数のビューを活用せずに再現する。 より具体的には、条件のない3d-aware generatorを利用して、モデルが解の最初の推測を生成し、最適化によって洗練するハイブリッドインバージョンスキームを適用する。 私たちのフレームワークは、画像を10ステップでデレンダリングでき、実用的なシナリオで使用できます。 様々な実および合成ベンチマークで最先端の結果を示す。

Neural Radiance Fields (NeRF) coupled with GANs represent a promising direction in the area of 3D reconstruction from a single view, owing to their ability to efficiently model arbitrary topologies. Recent work in this area, however, has mostly focused on synthetic datasets where exact ground-truth poses are known, and has overlooked pose estimation, which is important for certain downstream applications such as augmented reality (AR) and robotics. We introduce a principled end-to-end reconstruction framework for natural images, where accurate ground-truth poses are not available. Our approach recovers an SDF-parameterized 3D shape, pose, and appearance from a single image of an object, without exploiting multiple views during training. More specifically, we leverage an unconditional 3D-aware generator, to which we apply a hybrid inversion scheme where a model produces a first guess of the solution which is then refined via optimization. Our framework can de-render an image in as few as 10 steps, enabling its use in practical scenarios. We demonstrate state-of-the-art results on a variety of real and synthetic benchmarks.
翻訳日:2022-11-22 17:24:06 公開日:2022-11-21
# テキストからの社会・政治事象の自動抽出(CASE 2022)の課題と応用 : ワークショップと共有課題報告

Challenges and Applications of Automated Extraction of Socio-political Events from Text (CASE 2022): Workshop and Shared Task Report ( http://arxiv.org/abs/2211.11359v1 )

ライセンス: Link先を確認
Ali H\"urriyeto\u{g}lu, Hristo Tanev, Vanni Zavarella, Reyyan Yeniterzi, Osman Mutlu, Erdem Y\"or\"uk(参考訳) EMNLP 2022の範囲で開催されているCASEワークショップ第5版の概要について述べる。 ワークショップは定期的な論文、2つの基調講演、共有タスク参加者の作業論文、タスク概要論文で構成されている。 このワークショップは、技術および社会科学分野にわたるイベント情報収集のあらゆる側面をまとめている。 深層化の進展に加え、マルチモーダルアプローチの提出と受理は、この学際的な研究テーマの拡大を示している。

We provide a summary of the fifth edition of the CASE workshop that is held in the scope of EMNLP 2022. The workshop consists of regular papers, two keynotes, working papers of shared task participants, and task overview papers. This workshop has been bringing together all aspects of event information collection across technical and social science fields. In addition to the progress in depth, the submission and acceptance of multimodal approaches show the widening of this interdisciplinary research topic.
翻訳日:2022-11-22 17:18:06 公開日:2022-11-21
# 拡張多言語テストニュース検出-第1タスク共有 2021年と2022年

Extended Multilingual Protest News Detection -- Shared Task 1, CASE 2021 and 2022 ( http://arxiv.org/abs/2211.11360v1 )

ライセンス: Link先を確認
Ali H\"urriyeto\u{g}lu, Osman Mutlu, F{\i}rat Duru\c{s}an, Onur Uca, Alaeddin Sel\c{c}uk G\"urel, Benjamin Radford, Yaoyao Dai, Hansi Hettiarachchi, Niklas Stoehr, Tadashi Nomoto, Milena Slavcheva, Francielle Vargas, Aaqib Javid, Fatih Beyhan, Erdem Y\"or\"uk(参考訳) マルチリンガル・プロテストイベント検出におけるCASE 2022共有タスク1の結果を報告する。 この課題は、4つのサブタスクからなるケース2021の継続である。 i) 文書分類 ii) 文分類 三 事件文共参照識別、及び iv) イベント抽出。 case 2022拡張は、テストデータを以前の利用可能な言語(英語、ヒンディー語、ポルトガル語、スペイン語)で拡張し、サブタスク1の文書分類のためにmandarin、トルコ語、urduで新しいテストデータを追加することで構成されている。 2021年症例の英語、ポルトガル語、スペイン語での訓練データを利用した。 したがって、ヒンディー語、マンダリン語、トルコ語、ウルドゥー語の文書ラベルの予測はゼロショット設定で行われる。 ケース2022ワークショップは、ケース2021のテストデータを予測するために開発されたシステムに関するレポートも受け入れる。 症例2022の参加者が提出した最良のシステムは,新しい言語をゼロショット設定で79.71から84.06F1-macroに到達している。 勝利したアプローチは、主に複数の言語でデータを統合するモデルとマージである。 case 2021のベスト2の投稿は、すべての言語で去年のsubtask 1とsubtask 2の投稿よりも優れています。 以下のシナリオは、2021年のケースで新たに提出された"Subtask 3 Portuguese \& Subtask 4 English"に勝るものではなかった。

We report results of the CASE 2022 Shared Task 1 on Multilingual Protest Event Detection. This task is a continuation of CASE 2021 that consists of four subtasks that are i) document classification, ii) sentence classification, iii) event sentence coreference identification, and iv) event extraction. The CASE 2022 extension consists of expanding the test data with more data in previously available languages, namely, English, Hindi, Portuguese, and Spanish, and adding new test data in Mandarin, Turkish, and Urdu for Sub-task 1, document classification. The training data from CASE 2021 in English, Portuguese and Spanish were utilized. Therefore, predicting document labels in Hindi, Mandarin, Turkish, and Urdu occurs in a zero-shot setting. The CASE 2022 workshop accepts reports on systems developed for predicting test data of CASE 2021 as well. We observe that the best systems submitted by CASE 2022 participants achieve between 79.71 and 84.06 F1-macro for new languages in a zero-shot setting. The winning approaches are mainly ensembling models and merging data in multiple languages. The best two submissions on CASE 2021 data outperform submissions from last year for Subtask 1 and Subtask 2 in all languages. Only the following scenarios were not outperformed by new submissions on CASE 2021: Subtask 3 Portuguese \& Subtask 4 English.
翻訳日:2022-11-22 17:17:58 公開日:2022-11-21
# 複数のイグジットが必要:Unified Vision Language Modelの高速化のための動的早期イグジット

You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language Model ( http://arxiv.org/abs/2211.11152v1 )

ライセンス: Link先を確認
Shengkun Tang, Yaqing Wang, Zhenglun Kong, Tianchi Zhang, Yao Li, Caiwen Ding, Yanzhi Wang, Yi Liang, Dongkuan Xu(参考訳) 大規模なトランスフォーマーモデルは、統一アーキテクチャによるダウンストリームビジョン言語タスクに大幅な改善をもたらす。 性能改善はモデルサイズが向上し、推論速度が遅くなり、厳格化のコストが増大する。 ある種の予測は大規模モデルの完全な複雑さから恩恵を受けるが、全ての入力が実行するのに同じ量の計算を必要とするわけではない。 この課題に対処するために、入力複雑性の観点から計算パワーを適応的に割り当て、推論効率を向上させる早期退避を提案する。 既存のアーリーエグジット戦略は、通常、中間層に基づく出力信頼度を入力複雑性のプロキシとして採用し、次の層をスキップするという決定を導き出す。 しかし、エンコーダの出力信頼度推定が困難であるため、エンコーダとデコーダの両方で広く使われている統一アーキテクチャでは、このような戦略は適用できない。 エンコーダコンポーネントの早期終了を無視する計算能力を省くという点では最適ではない。 この課題に対処するために,エンコーダとデコーダの層を動的にスキップし,複数回の早期退避時間,すなわちtextbf{MuE} の入力層ワイド類似性を同時に行う,統一視覚言語モデルのための新しい早期退避戦略を提案する。 エンコーダのイメージとテキストのモダリティを分解することで、muleは柔軟性があり、モダリティの観点から異なるレイヤをスキップでき、性能低下を最小限に抑えながら推論効率を向上できる。 SNLI-VEとMS COCOデータセットを用いた実験では,提案手法により予測推論時間を最大50\%,40\%まで短縮でき,それぞれ99\%,96\%の性能を維持した。

Large-scale Transformer models bring significant improvements for various downstream vision language tasks with a unified architecture. The performance improvements come with increasing model size, resulting in slow inference speed and increased cost for severing. While some certain predictions benefit from the full complexity of the large-scale model, not all of inputs need the same amount of computation to conduct, potentially leading to computation resource waste. To handle this challenge, early exiting is proposed to adaptively allocate computational power in term of input complexity to improve inference efficiency. The existing early exiting strategies usually adopt output confidence based on intermediate layers as a proxy of input complexity to incur the decision of skipping following layers. However, such strategies cannot apply to encoder in the widely-used unified architecture with both encoder and decoder due to difficulty of output confidence estimation in the encoder. It is suboptimal in term of saving computation power to ignore the early exiting in encoder component. To handle this challenge, we propose a novel early exiting strategy for unified visual language models, which allows dynamically skip the layers in encoder and decoder simultaneously in term of input layer-wise similarities with multiple times of early exiting, namely \textbf{MuE}. By decomposing the image and text modalities in the encoder, MuE is flexible and can skip different layers in term of modalities, advancing the inference efficiency while minimizing performance drop. Experiments on the SNLI-VE and MS COCO datasets show that the proposed approach MuE can reduce expected inference time by up to 50\% and 40\% while maintaining 99\% and 96\% performance respectively.
翻訳日:2022-11-22 17:16:34 公開日:2022-11-21
# シングルタワートランスフォーマによる視覚言語表現空間の統一化

Unifying Vision-Language Representation Space with Single-tower Transformer ( http://arxiv.org/abs/2211.11153v1 )

ライセンス: Link先を確認
Jiho Jang, Chaerin Kong, Donghyeon Jeon, Seonhoon Kim, Nojun Kwak(参考訳) コントラスト学習(Contrastive Learning)とは、2つの関連する表現から不変の特徴を学習することを目的とした距離学習の一種である。 本稿では,画像とキャプションを2つの異なる相互情報のビューとみなすことができるという大胆な仮説を探求し,両モダリティを同時にモダリティに依存しない方法で符号化する統一視覚言語表現空間を学習するためのモデルを訓練する。 まず,視覚言語前訓練(vlp)のための汎用的1towerモデル学習の難しさを特定し,onerを目標の単純かつ効果的なフレームワークとして提案する。 我々は、ゼロショットオブジェクトのローカライゼーション、テキスト誘導視覚推論、マルチモーダル検索などのモダリティ固有の表現空間を学習する以前の作品と、OneRを区別する興味深い特性を発見し、この新しい形式のマルチモーダル表現学習に関する洞察を提供する。 より詳細な評価は、統一モダリティに依存しないVLPフレームワークの可能性を示している。

Contrastive learning is a form of distance learning that aims to learn invariant features from two related representations. In this paper, we explore the bold hypothesis that an image and its caption can be simply regarded as two different views of the underlying mutual information, and train a model to learn a unified vision-language representation space that encodes both modalities at once in a modality-agnostic manner. We first identify difficulties in learning a generic one-tower model for vision-language pretraining (VLP), and propose OneR as a simple yet effective framework for our goal. We discover intriguing properties that distinguish OneR from the previous works that learn modality-specific representation spaces such as zero-shot object localization, text-guided visual reasoning and multi-modal retrieval, and present analyses to provide insights into this new form of multi-modal representation learning. Thorough evaluations demonstrate the potential of a unified modality-agnostic VLP framework.
翻訳日:2022-11-22 17:16:04 公開日:2022-11-21
# vatlm:音声表現学習のための統一マスク予測を用いた視覚音声テキスト事前学習

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning ( http://arxiv.org/abs/2211.11275v1 )

ライセンス: Link先を確認
Qiushi Zhu, Long Zhou, Ziqiang Zhang, Shujie Liu, Binxing Jiao, Jie Zhang, Lirong Dai, Daxin Jiang, Jinyu Li, Furu Wei(参考訳) 音声は、人間が外界とコミュニケーションをとるためのシンプルで効果的な方法であるが、より現実的な音声対話には、例えば視覚、テキストといったマルチモーダル情報が含まれる。 異なるモーダル情報を統合し、異なるリソース(例えば、視覚-聴覚ペア、音声-テキストペア、ラベルなし音声、ラベルなしテキスト)を活用して、音声表現学習を容易にする統一フレームワークを設計する方法は、十分に検討されなかった。 本稿では,統合型クロスモーダル表現学習フレームワークvatlm(visual-audio-text language model)を提案する。 提案するvatlmは、モダリティ非依存情報をモデル化するために統一バックボーンネットワークを使用し、視覚、音声、テキスト入力の前処理に3つの単純なモダリティ依存モジュールを使用する。 これら3つのモダリティを1つの共有意味空間に統合するために、VATLMは、提案した統一トークン化器によって与えられるマスク付き予測タスクで最適化される。 本稿では,音声-視覚的音声認識(AVSR),視覚的音声認識(VSR)タスクなど,音声-視覚関連下流タスクに対する事前学習VATLMの評価を行った。 以上の結果から,VATLMはAV-HuBERTモデルのような従来の最先端モデルよりも優れており,VATLMが異なるモダリティを同一空間に整列できることが示唆された。 将来の研究を容易にするため、コードと事前訓練済みのモデルをhttps://aka.ms/vatlm.comでリリースします。

Although speech is a simple and effective way for humans to communicate with the outside world, a more realistic speech interaction contains multimodal information, e.g., vision, text. How to design a unified framework to integrate different modal information and leverage different resources (e.g., visual-audio pairs, audio-text pairs, unlabeled speech, and unlabeled text) to facilitate speech representation learning was not well explored. In this paper, we propose a unified cross-modal representation learning framework VATLM (Visual-Audio-Text Language Model). The proposed VATLM employs a unified backbone network to model the modality-independent information and utilizes three simple modality-dependent modules to preprocess visual, speech, and text inputs. In order to integrate these three modalities into one shared semantic space, VATLM is optimized with a masked prediction task of unified tokens, given by our proposed unified tokenizer. We evaluate the pre-trained VATLM on audio-visual related downstream tasks, including audio-visual speech recognition (AVSR), visual speech recognition (VSR) tasks. Results show that the proposed VATLM outperforms previous the state-of-the-art models, such as audio-visual pre-trained AV-HuBERT model, and analysis also demonstrates that VATLM is capable of aligning different modalities into the same space. To facilitate future research, we release the code and pre-trained models at https://aka.ms/vatlm.
翻訳日:2022-11-22 17:15:19 公開日:2022-11-21
# 分布外検出におけるパーセプトロンバイアスの拡散分解過程

Diffusion Denoising Process for Perceptron Bias in Out-of-distribution Detection ( http://arxiv.org/abs/2211.11255v1 )

ライセンス: Link先を確認
Luping Liu and Yi Ren and Xize Cheng and Zhou Zhao(参考訳) out-of-distribution (ood)検出は、ディープラーニングの信頼性と安全性を保証する上で重要なタスクであり、識別モデルが現在他よりも優れている。 しかし、識別モデルの特徴抽出はデータを圧縮し、特定の情報を失う必要があり、悪いケースや悪意のある攻撃の余地を残している。 本稿では,入力空間のいくつかの部分領域に対して識別器モデルがより敏感であり,そのようなパーセプトロンバイアスが悪症例や過信頼領域を引き起こすという新たな仮定を提案する。 本研究では,新しい検出手法と指標スコアを設計する。 検出法として,ood検出に拡散モデル(dms)を導入する。 また,dmsの拡散分極過程(ddp)は非対称補間の新たな形態としても機能し,入力の増大と過信頼領域の低減に好適であることがわかった。 指標スコアでは,OOD入力の判別器モデルの特徴がDDPの下で急激な変化を生じ,この動的変化の規範を指標スコアとして用いた。 そこで我々は, 識別器と生成モデルを組み合わせた新たなフレームワークを開発し, 新たな仮定のもとood検出を行う。 判別器モデルは適切な検出空間を提供し、生成モデルは過剰信頼問題を低減させる。 CIFAR10とCIFAR100の実験結果によると,本手法は最先端の手法と競合する結果が得られる。 私たちの実装はhttps://github.com/luping-liu/diffoodで利用可能です。

Out-of-distribution (OOD) detection is an important task to ensure the reliability and safety of deep learning and the discriminator models outperform others for now. However, the feature extraction of the discriminator models must compress the data and lose certain information, leaving room for bad cases and malicious attacks. In this paper, we provide a new assumption that the discriminator models are more sensitive to some subareas of the input space and such perceptron bias causes bad cases and overconfidence areas. Under this assumption, we design new detection methods and indicator scores. For detection methods, we introduce diffusion models (DMs) into OOD detection. We find that the diffusion denoising process (DDP) of DMs also functions as a novel form of asymmetric interpolation, which is suitable to enhance the input and reduce the overconfidence areas. For indicator scores, we find that the features of the discriminator models of OOD inputs occur sharp changes under DDP and use the norm of this dynamic change as our indicator scores. Therefore, we develop a new framework to combine the discriminator and generation models to do OOD detection under our new assumption. The discriminator models provide proper detection spaces and the generation models reduce the overconfidence problem. According to our experiments on CIFAR10 and CIFAR100, our methods get competitive results with state-of-the-art methods. Our implementation is available at https://github.com/luping-liu/DiffOOD.
翻訳日:2022-11-22 17:09:38 公開日:2022-11-21
# 自己適応型,動的,統合型統計情報理論学習

Self-Adaptive, Dynamic, Integrated Statistical and Information Theory Learning ( http://arxiv.org/abs/2211.11491v1 )

ライセンス: Link先を確認
Zsolt J\'anos Viharos and \'Agnes Sz\H{u}cs(参考訳) 本論文は,ニューラルネットワークトレーニングに応用された様々な誤差尺度の位置づけを解析し,学習状況の違いによる優位性の変化はあるものの,ベストな測定方法がないことを識別する。 Silvaと彼の研究パートナーが発表した、E_{Exp}$という素晴らしい指標は、より多くの指標と学習中の重み付けをうまく組み合わせる研究の方向性を表している。 この論文の主なアイデアは、この相対的な重要性を、$E_{ExpAbs}$と呼ばれる新しいエラー尺度によって実現されたニューラルネットワークトレーニングアルゴリズムに統合することである。 このアプローチはlevenberg-marquardtトレーニングアルゴリズムに含まれているので、新しいバージョンのitも導入され、自己適応型動的学習アルゴリズムとなる。 このダイナミズムは、結果モデルの精度だけでなく、トレーニングプロセス自体にもポジティブな影響を与えます。 得られた包括的アルゴリズムテストにより,提案された新しいアルゴリズムは,論文の重要な新奇性である統計学と情報理論の2つの大世界を動的に統合することを示した。

The paper analyses and serves with a positioning of various error measures applied in neural network training and identifies that there is no best of measure, although there is a set of measures with changing superiorities in different learning situations. An outstanding, remarkable measure called $E_{Exp}$ published by Silva and his research partners represents a research direction to combine more measures successfully with fixed importance weighting during learning. The main idea of the paper is to go far beyond and to integrate this relative importance into the neural network training algorithm(s) realized through a novel error measure called $E_{ExpAbs}$. This approach is included into the Levenberg-Marquardt training algorithm, so, a novel version of it is also introduced, resulting a self-adaptive, dynamic learning algorithm. This dynamism does not has positive effects on the resulted model accuracy only, but also on the training process itself. The described comprehensive algorithm tests proved that the proposed, novel algorithm integrates dynamically the two big worlds of statistics and information theory that is the key novelty of the paper.
翻訳日:2022-11-22 17:09:14 公開日:2022-11-21
# SMAUG: 効率的なビデオランゲージ事前学習のためのスパースマスクオートエンコーダ

SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training ( http://arxiv.org/abs/2211.11446v1 )

ライセンス: Link先を確認
Yuanze Lin, Chen Wei, Huiyu Wang, Alan Yuille, Cihang Xie(参考訳) 強力なマルチモーダル表現を学ぶには,ビデオ言語事前学習が不可欠である。 しかし、通常は大量の計算を必要とする。 本稿では,ビデオ言語モデルのための効率的な事前学習フレームワークであるSMAUGを開発する。 SMAUGの基盤コンポーネントはマスク付きオートエンコーダである。 テキスト入力のみをマスクする先行作品とは異なり、マスキング戦略は視覚とテキストのモダリティを考慮し、より優れたクロスモーダルアライメントを提供し、事前トレーニングコストを節約する。 さらに,事前学習のための"重要"空間領域と時間枠のみを選択するために,コンテキスト情報を活用する時空トークンスパーシフィケーションモジュールを導入する。 これらすべての設計を結合することで,テキスト対ビデオ検索とビデオ質問応答タスクの競合性能を享受できると同時に,事前トレーニングコストを1.9倍以上削減できる。 例えば、私たちのSMAUGは、この2つのビデオ言語タスクで6つの人気のあるベンチマークで競合するパフォーマンスを達成するために、事前トレーニングに約50 NVIDIA A6000 GPU時間しか必要としません。

Video-language pre-training is crucial for learning powerful multi-modal representation. However, it typically requires a massive amount of computation. In this paper, we develop SMAUG, an efficient pre-training framework for video-language models. The foundation component in SMAUG is masked autoencoders. Different from prior works which only mask textual inputs, our masking strategy considers both visual and textual modalities, providing a better cross-modal alignment and saving more pre-training costs. On top of that, we introduce a space-time token sparsification module, which leverages context information to further select only "important" spatial regions and temporal frames for pre-training. Coupling all these designs allows our method to enjoy both competitive performances on text-to-video retrieval and video question answering tasks, and much less pre-training costs by 1.9X or more. For example, our SMAUG only needs about 50 NVIDIA A6000 GPU hours for pre-training to attain competitive performances on these two video-language tasks across six popular benchmarks.
翻訳日:2022-11-22 17:07:50 公開日:2022-11-21
# Perceiver-VL:反復潜在注意を用いた効率的な視覚・言語モデリング

Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent Attention ( http://arxiv.org/abs/2211.11701v1 )

ライセンス: Link先を確認
Zineng Tang, Jaemin Cho, Jie Lei, Mohit Bansal(参考訳) 本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。 Perceiverの反復的潜在的クロスアテンションによって、我々のフレームワークは、多くの最先端トランスフォーマーベースモデルで使用される自己アテンションの二次的複雑さとは対照的に、線形複雑度でスケールする。 また,本フレームワークの効率をさらに向上するため,レイヤDropをクロスアテンション層に適用し,クロスモーダル検索のための混合ストリームアーキテクチャを提案する。 我々はPerceiver-VLを様々なビデオテキストと画像テキストのベンチマークで評価し、Pceiver-VLは競争性能を維持しながら最低のGFLOPとレイテンシを達成できることを示した。 さらに,データの事前トレーニング,潜在サイズと入力サイズの拡張性,遅延低減のための推論時のクロスアテンションレイヤのドロップ,モダリティアグリゲーション戦略,位置エンコーディング,重み初期化戦略など,フレームワークのさまざまな側面の包括的な分析も行っています。 私たちのコードとチェックポイントは以下の通りです。

We present Perceiver-VL, a vision-and-language framework that efficiently handles high-dimensional multimodal inputs such as long videos and text. Powered by the iterative latent cross-attention of Perceiver, our framework scales with linear complexity, in contrast to the quadratic complexity of self-attention used in many state-of-the-art transformer-based models. To further improve the efficiency of our framework, we also study applying LayerDrop on cross-attention layers and introduce a mixed-stream architecture for cross-modal retrieval. We evaluate Perceiver-VL on diverse video-text and image-text benchmarks, where Perceiver-VL achieves the lowest GFLOPs and latency while maintaining competitive performance. In addition, we also provide comprehensive analyses of various aspects of our framework, including pretraining data, scalability of latent size and input size, dropping cross-attention layers at inference to reduce latency, modality aggregation strategy, positional encoding, and weight initialization strategy. Our code and checkpoints are available at: https://github.com/zinengtang/Perceiver_VL
翻訳日:2022-11-22 17:07:13 公開日:2022-11-21
# DETRDistill: DETRファミリーのためのユニバーサル知識蒸留フレームワーク

DETRDistill: A Universal Knowledge Distillation Framework for DETR-families ( http://arxiv.org/abs/2211.10156v2 )

ライセンス: Link先を確認
Jiahao Chang, Shuo Wang, Guangkai Xu, Zehui Chen, Chenhongyi Yang, Feng Zhao(参考訳) トランスフォーマーベースの検出器 (DETR) は, 未成熟なトレーニングパラダイムと後処理操作の除去により注目されているが, 計算に時間がかかり, 実際のアプリケーションに展開することが困難である。 この問題に取り組むために,普遍的な教師・学生学習フレームワークを構築し,巨大なモデルを圧縮するために知識蒸留(kd)が用いられる。 従来のCNN検出器とは異なり、蒸留対象を特徴マップを通して自然に整列させることができるため、DETRはオブジェクト検出をセット予測問題とみなし、蒸留中に教師と学生の間に不明瞭な関係が生じる。 本稿では,DETR家族を対象とした新しい知識蒸留であるDETRDistillを提案する。 まず,段階単位の段階的蒸留によるスパースマッチングのパラダイムを探求する。 異なるdetrで採用されている多種多様な注意機構を考慮し,従来の特徴模倣の非効率を克服するために注意非依存な特徴蒸留モジュールを提案する。 最後に,教師からの中間製品を完全に活用するために,教師のオブジェクトクエリと追加指導を行うグループに対する割当て結果を用いた,教師支援型割当て蒸留を導入する。 実験により, 蒸留法は, 推算段階での余分な消費を伴わずとも, 様々な競争力のあるDETRアプローチにおいて顕著な改善を達成できることを示した。 我々の知る限り、これはDETR型検出器の一般的な蒸留法を探求する最初の体系的な研究である。

Transformer-based detectors (DETRs) have attracted great attention due to their sparse training paradigm and the removal of post-processing operations, but the huge model can be computationally time-consuming and difficult to be deployed in real-world applications. To tackle this problem, knowledge distillation (KD) can be employed to compress the huge model by constructing a universal teacher-student learning framework. Different from the traditional CNN detectors, where the distillation targets can be naturally aligned through the feature map, DETR regards object detection as a set prediction problem, leading to an unclear relationship between teacher and student during distillation. In this paper, we propose DETRDistill, a novel knowledge distillation dedicated to DETR-families. We first explore a sparse matching paradigm with progressive stage-by-stage instance distillation. Considering the diverse attention mechanisms adopted in different DETRs, we propose attention-agnostic feature distillation module to overcome the ineffectiveness of conventional feature imitation. Finally, to fully leverage the intermediate products from the teacher, we introduce teacher-assisted assignment distillation, which uses the teacher's object queries and assignment results for a group with additional guidance. Extensive experiments demonstrate that our distillation method achieves significant improvement on various competitive DETR approaches, without introducing extra consumption in the inference phase. To the best of our knowledge, this is the first systematic study to explore a general distillation method for DETR-style detectors.
翻訳日:2022-11-22 14:56:19 公開日:2022-11-21
# ディープラーニングによるビデオ教師なしドメイン適応:包括的調査

Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey ( http://arxiv.org/abs/2211.10412v2 )

ライセンス: Link先を確認
Yuecong Xu, Haozhi Cao, Zhenghua Chen, Xiaoli Li, Lihua Xie, Jianfei Yang(参考訳) 大規模データセットとディープラーニングに基づく表現の導入により、アクション認識などのビデオ分析タスクは、スマートヘルスケアなどの分野のアプリケーションの成長において、研究の関心が高まっている。 しかし、既存のデータセットでトレーニングされたビデオモデルは、公開ビデオデータセット(ソースビデオドメイン)と実際のビデオ(ターゲットビデオドメイン)の間のドメインシフトのため、実世界のアプリケーションに直接デプロイした場合、パフォーマンスが著しく低下する。 さらに,ビデオアノテーションのコストが高いため,未収録映像をトレーニングに使用する方が実用的である。 ビデオアノテーションコストの均一化を図るため、ラベル付きソースドメインからラベル付きターゲットドメインへのビデオモデルを適応させるために、ビデオドメインシフトを緩和し、ビデオモデルの一般化性とポータビリティを向上させるために、ビデオアン教師付きドメイン適応(VUDA)を導入している。 本稿では,深層学習によるVUDAの最近の進歩について調査する。 VUDAのモチベーションはVUDAの定義に続き、VUDAとVUDAの両方を異なるシナリオで扱う手法の最近の進歩と、VUDA研究のための現在のベンチマークデータセットから始まる。 最終的には、さらなるVUDA研究を促進するための今後の方向性が提供される。

Video analysis tasks such as action recognition have received increasing research interest with growing applications in fields such as smart healthcare, thanks to the introduction of large-scale datasets and deep learning-based representations. However, video models trained on existing datasets suffer from significant performance degradation when deployed directly to real-world applications due to domain shifts between the training public video datasets (source video domains) and real-world videos (target video domains). Further, with the high cost of video annotation, it is more practical to use unlabeled videos for training. To tackle performance degradation and address concerns in high video annotation cost uniformly, the video unsupervised domain adaptation (VUDA) is introduced to adapt video models from the labeled source domain to the unlabeled target domain by alleviating video domain shift, improving the generalizability and portability of video models. This paper surveys recent progress in VUDA with deep learning. We begin with the motivation of VUDA, followed by its definition, and recent progress of methods for both closed-set VUDA and VUDA under different scenarios, and current benchmark datasets for VUDA research. Eventually, future directions are provided to promote further VUDA research.
翻訳日:2022-11-22 14:55:53 公開日:2022-11-21
# 時相正規性と旅行意味論を用いた自己教師付き軌道表現学習

Self-supervised Trajectory Representation Learning with Temporal Regularities and Travel Semantics ( http://arxiv.org/abs/2211.09510v2 )

ライセンス: Link先を確認
Jiawei Jiang, Dayan Pan, Houxing Ren, Xiaohan Jiang, Chao Li, Jingyuan Wang(参考訳) Trajectory Representation Learning (TRL) は空間時間データ分析と管理のための強力なツールである。 TRLは、複雑な生の軌跡を低次元の表現ベクトルに変換し、軌道分類、クラスタリング、類似性計算などの様々な下流タスクに適用することを目的としている。 既存のTRL作業は通常、トラジェクトリを通常のシーケンスデータとして扱うが、時間的規則性や旅行意味論といった重要な時空間特性は、完全には利用されない。 このギャップを埋めるために,TemporAl規則と旅行意味論,すなわちSTARTを用いた自己教師付き軌道表現学習フレームワークを提案する。 提案手法は2段階からなる。 最初の段階はTPE-GAT(Trajectory Pattern-Enhanced Graph Attention Network)であり、道路網の特徴と走行意味を道路セグメントの表現ベクトルに変換する。 第2段階は、時間認識軌道エンコーダ(TAT-Enc)であり、軌跡表現ベクトルと同じ軌跡内の道路セグメントの表現ベクトルを符号化し、同時に軌道表現に時間正規性を組み込む。 さらに,トラジェクタの空間的-時間的特性をスタートフレームワークのトレーニングプロセスに導入するために,スパンマッシュ軌道リカバリと軌道コントラスト学習という2つの自己教師付きタスクも設計した。 提案手法の有効性は,3つのダウンストリームタスクに対する2つの大規模実世界データセットの広範な実験により検証された。 また, 異種軌跡データセットを適応させるために, 異種都市間を移動可能であることを示した。

Trajectory Representation Learning (TRL) is a powerful tool for spatial-temporal data analysis and management. TRL aims to convert complicated raw trajectories into low-dimensional representation vectors, which can be applied to various downstream tasks, such as trajectory classification, clustering, and similarity computation. Existing TRL works usually treat trajectories as ordinary sequence data, while some important spatial-temporal characteristics, such as temporal regularities and travel semantics, are not fully exploited. To fill this gap, we propose a novel Self-supervised trajectory representation learning framework with TemporAl Regularities and Travel semantics, namely START. The proposed method consists of two stages. The first stage is a Trajectory Pattern-Enhanced Graph Attention Network (TPE-GAT), which converts the road network features and travel semantics into representation vectors of road segments. The second stage is a Time-Aware Trajectory Encoder (TAT-Enc), which encodes representation vectors of road segments in the same trajectory as a trajectory representation vector, meanwhile incorporating temporal regularities with the trajectory representation. Moreover, we also design two self-supervised tasks, i.e., span-masked trajectory recovery and trajectory contrastive learning, to introduce spatial-temporal characteristics of trajectories into the training process of our START framework. The effectiveness of the proposed method is verified by extensive experiments on two large-scale real-world datasets for three downstream tasks. The experiments also demonstrate that our method can be transferred across different cities to adapt heterogeneous trajectory datasets.
翻訳日:2022-11-22 14:55:31 公開日:2022-11-21
# 構造化プルーニングアダプタ

Structured Pruning Adapters ( http://arxiv.org/abs/2211.10155v2 )

ライセンス: Link先を確認
Lukas Hedegaard, Aman Alok, Juby Jose, Alexandros Iosifidis(参考訳) 本稿では,小パラメータ集合を用いたネットワークの高速化と特化を行う圧縮タスクスイッチングネットワークアダプタ群であるStructured Pruning Adapters (SPAs)を提案する。 具体的には,チャネルベースおよびブロックベースのspaを提案し,コンピュータビジョンと自然言語処理ベンチマークの両方において,一連のプルーニング手法を用いて評価する。 微調整を施した通常の構造的刈り取りに比べて,各パラメータの半分を90%の刈り取り重みで使用しながら,平均で6.9%の精度向上を実現している。 あるいは、1.6%の精度で、70%のプルーニングで17倍のパラメータで適応を学習できる。 同様に、ブロックSPAは微調整でプルーニングするよりもはるかに少ないパラメータを必要とする。 実験コードとPythonライブラリはgithub.com/lukashedegaard/structured-pruning-adaptersで利用可能です。

We propose Structured Pruning Adapters (SPAs), a family of compressing, task-switching network adapters, that accelerate and specialize networks using tiny parameter sets. Specifically, we propose a channel- and a block-based SPA and evaluate them with a suite of pruning methods on both computer vision and natural language processing benchmarks. Compared to regular structured pruning with fine-tuning, our channel-SPA improves accuracy by 6.9% on average while using half the parameters at 90% pruned weights. Alternatively, it can learn adaptations with 17x fewer parameters at 70% pruning with 1.6% lower accuracy. Similarly, our block-SPA requires far fewer parameters than pruning with fine-tuning. Our experimental code and Python library of adapters are available at github.com/lukashedegaard/structured-pruning-adapters.
翻訳日:2022-11-22 14:51:47 公開日:2022-11-21
# UniSumm: マルチタスク事前トレーニングとプレフィックスチューニングによる一括一括一括要約

UniSumm: Unified Few-shot Summarization with Multi-Task Pre-Training and Prefix-Tuning ( http://arxiv.org/abs/2211.09783v2 )

ライセンス: Link先を確認
Yulong Chen, Yang Liu, Ruochen Xu, Ziyi Yang, Chenguang Zhu, Michael Zeng, Yue Zhang(参考訳) 様々な要約タスクの多様な要求と高いアノテーションコストが、数ショットの要約の必要性を喚起している。 しかし、多くの要約タスクやデータセットの出現にもかかわらず、現在の数ショットの要約システムの訓練パラダイムは、異種データセットにおける潜在的共有可能な知識を無視している。 この目的のために、複数の要約タスクで事前訓練された統合された複数ショット要約モデルである \textsc{UniSumm} を提案する。 一方,多様性とロバスト性の原則に基づき,少数の要約システムを評価するため,新しいベンチマークであるtextsc{SummZoo} を作成した。 8ドルの多様な要約タスクと、各タスクの複数セットの少数のサンプルで構成され、モノローグと対話ドメインの両方をカバーする。 実験結果とアブレーション研究により, \textsc{UniSumm} は, 自動評価と人的評価の両面において, すべてのタスクにおいて, 強いベースラインシステムよりも優れた性能を示した。 コードとベンチマークは \url{https://github.com/microsoft/UniSumm} で公開しています。

The diverse demands of different summarization tasks and their high annotation costs are driving a need for few-shot summarization. However, despite the emergence of many summarization tasks and datasets, the current training paradigm for few-shot summarization systems ignores potentially shareable knowledge in heterogeneous datasets. To this end, we propose \textsc{UniSumm}, a unified few-shot summarization model pre-trained with multiple summarization tasks and can be prefix-tuned to excel at any few-shot summarization datasets. Meanwhile, to better evaluate few-shot summarization systems, under the principles of diversity and robustness, we assemble and publicize a new benchmark \textsc{SummZoo}. It consists of $8$ diverse summarization tasks with multiple sets of few-shot samples for each task, covering both monologue and dialogue domains. Experimental results and ablation studies show that \textsc{UniSumm} outperforms strong baseline systems by a large margin across all tasks in \textsc{SummZoo} under both automatic and human evaluations. We release our code and benchmark at \url{https://github.com/microsoft/UniSumm}.
翻訳日:2022-11-22 14:51:35 公開日:2022-11-21
# 非定常時系列からの特異因果ネットワークの同定

Identifying Unique Causal Network from Nonstationary Time Series ( http://arxiv.org/abs/2211.10085v2 )

ライセンス: Link先を確認
Mingyu Kang and Duxin Chen and Ning Meng and Gang Yan and Wenwu Yu(参考訳) 因果関係の特定は多くのデータ集約シナリオにおいて難しい課題である。 この重要な課題に対して多くのアルゴリズムが提案されている。 しかし、そのほとんどは、ベイズネットワーク(BN)の有向非巡回グラフ(DAG)の学習アルゴリズムを考察している。 これらのBNベースのモデルはマルコフ同値クラスの問題のため、因果説明可能性に制限があるだけである。 さらに、それらは定常性の仮定に依存するが、複素系からの多くのサンプリング時系列は非定常である。 非定常時系列はデータセットシフトの問題をもたらし、これらのアルゴリズムの不満足なパフォーマンスをもたらす。 これらのギャップを埋めるために,Unique Causal Network (UCN) という新しい因果関係モデルを提案する。 従来のBNモデルとは異なり、UCNは時間遅延の影響を考慮し、マルコフ同値クラスの問題に対処する得られたネットワーク構造の特異性を証明する。 さらに、UCNの分解性特性に基づいて、高次因果エントロピー(HCE)アルゴリズムは、UCNの構造を分散的に識別するように設計されている。 hceアルゴリズムは、非定常時系列でうまく機能するneighbors entropy estimatorを用いて因果性の強さを測定する。 最後に、HCEアルゴリズムは、他のベースラインアルゴリズムと比較して、時系列が非定常である場合の最先端の精度を実現する。

Identifying causality is a challenging task in many data-intensive scenarios. Many algorithms have been proposed for this critical task. However, most of them consider the learning algorithms for directed acyclic graph (DAG) of Bayesian network (BN). These BN-based models only have limited causal explainability because of the issue of Markov equivalence class. Moreover, they are dependent on the assumption of stationarity, whereas many sampling time series from complex system are nonstationary. The nonstationary time series bring dataset shift problem, which leads to the unsatisfactory performances of these algorithms. To fill these gaps, a novel causation model named Unique Causal Network (UCN) is proposed in this paper. Different from the previous BN-based models, UCN considers the influence of time delay, and proves the uniqueness of obtained network structure, which addresses the issue of Markov equivalence class. Furthermore, based on the decomposability property of UCN, a higher-order causal entropy (HCE) algorithm is designed to identify the structure of UCN in a distributed way. HCE algorithm measures the strength of causality by using nearest-neighbors entropy estimator, which works well on nonstationary time series. Finally, lots of experiments validate that HCE algorithm achieves state-of-the-art accuracy when time series are nonstationary, compared to the other baseline algorithms.
翻訳日:2022-11-22 14:51:15 公開日:2022-11-21
# マルチモーダル相互情報最大化によるオールインワン事前学習に向けて

Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information ( http://arxiv.org/abs/2211.09807v2 )

ライセンス: Link先を確認
Weijie Su, Xizhou Zhu, Chenxin Tao, Lewei Lu, Bin Li, Gao Huang, Yu Qiao, Xiaogang Wang, Jie Zhou, Jifeng Dai(参考訳) 大規模モデルの可能性を効果的に活用するために、教師付き事前訓練、弱教師付き事前訓練、自己教師付き事前訓練など、様々な情報源からの大量のデータによって支援される様々な事前訓練戦略を提案する。 複数の事前トレーニング戦略とさまざまなモダリティ/ソースからのデータを組み合わせることで、大規模モデルのトレーニングが大幅に向上することが証明されている。 しかし、現在の作業では、複雑なパイプラインによって事前訓練の不確実性と不安定性が増大する多段階事前訓練システムを採用している。 したがって、これらの戦略を単一段階の方法で統合することが望ましい。 本稿では,まず,統一最適化目標として汎用マルチモーダル相互情報公式を提案し,既存の手法はすべてフレームワークの特別な場合であることを実証する。 この統一的な視点の下で,マルチモーダル相互情報事前学習(m3i pre-training)の最大化という,オールインワンの単段事前学習手法を提案する。 提案手法は,イメージネット分類,COCOオブジェクト検出,LVISロングテールオブジェクト検出,ADE20kセマンティックセマンティックセマンティックセグメンテーションなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。 特に,10億レベルのパラメータ画像バックボーンの事前トレーニングに成功し,様々なベンチマークで最先端のパフォーマンスを実現した。 コードはhttps://github.com/opengvlab/m3i-pretrainingでリリースする。

To effectively exploit the potential of large-scale models, various pre-training strategies supported by massive data from different sources are proposed, including supervised pre-training, weakly-supervised pre-training, and self-supervised pre-training. It has been proved that combining multiple pre-training strategies and data from various modalities/sources can greatly boost the training of large-scale models. However, current works adopt a multi-stage pre-training system, where the complex pipeline may increase the uncertainty and instability of the pre-training. It is thus desirable that these strategies can be integrated in a single-stage manner. In this paper, we first propose a general multi-modal mutual information formula as a unified optimization target and demonstrate that all existing approaches are special cases of our framework. Under this unified perspective, we propose an all-in-one single-stage pre-training approach, named Maximizing Multi-modal Mutual Information Pre-training (M3I Pre-training). Our approach achieves better performance than previous pre-training methods on various vision benchmarks, including ImageNet classification, COCO object detection, LVIS long-tailed object detection, and ADE20k semantic segmentation. Notably, we successfully pre-train a billion-level parameter image backbone and achieve state-of-the-art performance on various benchmarks. Code shall be released at https://github.com/OpenGVLab/M3I-Pretraining.
翻訳日:2022-11-22 14:50:54 公開日:2022-11-21
# 残像を用いた自己監督型視覚表現学習

Self-Supervised Visual Representation Learning via Residual Momentum ( http://arxiv.org/abs/2211.09861v2 )

ライセンス: Link先を確認
Trung X. Pham, Axi Niu, Zhang Kang, Sultan Rizky Madjid, Ji Woo Hong, Daehyeok Kim, Joshua Tian Jin Tee, Chang D. Yoo(参考訳) 自己教師付き学習(SSL)アプローチは、ラベルのないデータから表現を学ぶ上で有望な能力を示している。 その中でも運動量に基づくフレームワークが注目されている。 大きな成功にもかかわらず、これらのモメンタベースのSSLフレームワークは、オンラインエンコーダ(学生)とモメンタエンコーダ(教師)の間の大きなギャップに悩まされており、下流タスクのパフォーマンスを妨げている。 この論文は、既存のSSLフレームワークで見過ごされているボトルネックとして、この目に見えないギャップを調査し、特定した最初のものである。 この問題を解決するため,教師とのパフォーマンスギャップを狭くし,既存のSSLを大幅に改善するため,このギャップを直接減らし,教師に近い表現をできる限り学習するよう学生に促す「残留運動量」を提案する。 私たちのメソッドは単純で実装が容易で、他のSSLフレームワークに簡単にプラグインできます。 多数のベンチマークデータセットと多様なネットワークアーキテクチャに関する大規模な実験結果から,最先端のコントラスト学習ベースラインに対する本手法の有効性が示された。

Self-supervised learning (SSL) approaches have shown promising capabilities in learning the representation from unlabeled data. Amongst them, momentum-based frameworks have attracted significant attention. Despite being a great success, these momentum-based SSL frameworks suffer from a large gap in representation between the online encoder (student) and the momentum encoder (teacher), which hinders performance on downstream tasks. This paper is the first to investigate and identify this invisible gap as a bottleneck that has been overlooked in the existing SSL frameworks, potentially preventing the models from learning good representation. To solve this problem, we propose "residual momentum" to directly reduce this gap to encourage the student to learn the representation as close to that of the teacher as possible, narrow the performance gap with the teacher, and significantly improve the existing SSL. Our method is straightforward, easy to implement, and can be easily plugged into other SSL frameworks. Extensive experimental results on numerous benchmark datasets and diverse network architectures have demonstrated the effectiveness of our method over the state-of-the-art contrastive learning baselines.
翻訳日:2022-11-22 14:50:29 公開日:2022-11-21