このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221130となっている論文です。

PDF登録状況(公開日: 20221130)

TitleAuthorsAbstract論文公表日・翻訳日
# 目的的崩壊方程式は、新しい定数なしで保存法を維持できる

Objective Collapse Equation Maintains Conservation Laws With No New Constants ( http://arxiv.org/abs/2209.01015v3 )

ライセンス: Link先を確認
Edward J. Gillis(参考訳) Schr\"{o}dinger 方程式の修正版は、測定過程の記述を量子論の数学的構造に組み込むために提案されている。 通常、これらの提案は新しい物理定数を導入し、運動量とエネルギー保存の小さな違反を示唆している。 これらの問題は、波動関数の崩壊がシステム間の相関を確立する個々の相互作用によって引き起こされると仮定することで排除することができる。 波動関数の相互作用枝と非相互作用枝の間の振幅の十分な数の小さなランダムなシフトは、我々のマクロ的経験と一致するスケールで崩壊をもたらす可能性がある。 2粒子相互作用ポテンシャルエネルギーは、Schr\"{o}dinger方程式に付加される崩壊項の基底として用いられる。 相互作用の範囲は崩壊効果の距離スケールを設定し、ポテンシャルエネルギーと粒子の全相対論的エネルギーの比は振幅シフトの大きさを決定し、相互作用が進行する速度はタイミングパラメータを固定する。 個々の実験における保存法則との整合性は、崩壊作用素が、以前に相互作用中に保存量の交換を行った測定系とシステムとの間の小さな残留絡み合いを自動的に考慮し、維持される。 保存は運動量と軌道角運動量に対して正確であり、非相対論的理論で記述可能な限られたエネルギー形態によって許容される精度内でエネルギーを保持する。

Modified versions of the Schr\"{o}dinger equation have been proposed in order to incorporate the description of measurement processes into the mathematical structure of quantum theory. Typically, these proposals introduce new physical constants, and imply small violations of momentum and energy conservation. These problematic features can be eliminated by assuming that wave function collapse is induced by the individual interactions that establish correlations between systems. The generation of a sufficient number of small, random shifts of amplitude between interacting and noninteracting branches of the wave function can bring about collapse on a scale consistent with our macroscopic experience. Two-particle interaction potential energies can be used as the basis for a collapse term added to the Schr\"{o}dinger equation. The range of the interactions sets the distance scale of the collapse effects; the ratio of potential energies to the total relativistic energies of the particles determines the magnitude of the amplitude shifts, and the rate at which the interactions proceed fixes the timing parameters. Consistency with conservation laws in individual experiments is maintained because the collapse operator automatically takes into account the small, residual entanglement between the measured system and systems with which it has previously exchanged conserved quantities during interactions. Conservation is exact for momentum and orbital angular momentum, and it holds for energy within the accuracy allowed by the limited forms of energy describable in nonrelativistic theory.
翻訳日:2023-01-28 06:22:12 公開日:2022-11-30
# 最適化テレクロニング回路:9NISQクローンの理論と実践

Optimized Telecloning Circuits: Theory and Practice of Nine NISQ Clones ( http://arxiv.org/abs/2210.10164v2 )

ライセンス: Link先を確認
Elijah Pelofske, Andreas B\"artschi, Stephan Eidenbenz(参考訳) 未知の量子状態の完全コピーは不可能であるが、近似クローニングは量子力学において可能である。 量子テレポーテーション(quantum teleportation)は、量子状態の物理的に分離されたクローンを作成するために古典的な通信を使用することを可能にする量子テレポーテーションである。 我々は,クラウドアクセス型量子コンピュータ(量子H1-1デバイス)上で,汎用的,対称的,最適な量子テレクロニング実装を1ドルで提供する。 H1-1装置は、ベル測定のミッドサーキット測定結果に条件づけられた、リアルタイムの古典的なifステートメントによるテレクロニングプロトコルの直接作成を可能にする。 この実装では、量子テレクローニングの回路モデル記述に対する従来の作業よりも改善を行い、全対全接続に必要なゲート深さとゲート数を削減した。 量子プロセッサ上で9ドルの近似クローンを作成するデモは、生成されたクローン、テレクローニング、その他のクローンの最大数である。

Although perfect copying of an unknown quantum state is not possible, approximate cloning is possible in quantum mechanics. Quantum telecloning is a variant of approximate quantum cloning which uses quantum teleportation to allow for the use of classical communication to create physically separate clones of a quantum state. We present results of a of $1 \rightarrow 9$ universal, symmetric, optimal quantum telecloning implementation on a cloud accessible quantum computer - the Quantinuum H1-1 device. The H1-1 device allows direct creation of the telecloning protocol due to real time classical if-statements that are conditional on the mid-circuit measurement outcome of a Bell measurement. In this implementation, we also provide an improvement over previous work for the circuit model description of quantum telecloning, which reduces the required gate depth and gate count for an all-to-all connectivity. The demonstration of creating $9$ approximate clones on a quantum processor is the largest number of clones that has been generated, telecloning or otherwise.
翻訳日:2023-01-22 04:09:30 公開日:2022-11-30
# U(1)対称性多体系における電荷輸送、情報スクランブル、量子作用素コヒーレンス

Charge transport, information scrambling and quantum operator-coherence in a many-body system with U(1) symmetry ( http://arxiv.org/abs/2210.14828v3 )

ライセンス: Link先を確認
Lakshya Agarwal, Subhayan Sahu, Shenglong Xu(参考訳) 本研究は, u(1)対称性を持つ量子多体系における結合, 電荷, 演算子ダイナミクスの正確な流体力学的記述を導出する。 電荷保存を伴う複素ブラウンシックモデルにおける創発的対称性を用いて、モデル内の作用素ダイナミクスをsu(4)スピンチェーンの虚時ダイナミクスに写像する。 創発的なSU(4)記述を用いて、U(1)対称性が障害回避後の量子コヒーレンスを持続させることを示す。 この性質に従って、時間外順序相関器(OTOC)に対する「制限付き」フォッカー・プランク方程式を大容量N$制限で書き、大域作用素空間の不整合セクターにおいて古典的確率記述を厳密に許す。 この特徴を利用して、演算子と電荷を結合し、全ての時間スケールおよび任意の電荷密度プロファイルに対して有効であるフィッシャー・コルモゴロフ・ペトロフスキー・ピスキン方程式(FKPP)を用いてOTOCを記述する。 得られた結合方程式は、拡散媒質に埋め込まれた細菌の集団動態を記述するためにも用いられるモデルのクラスに属する。 非一様電荷配置の背景にある作用素力学をシミュレートし、電荷輸送が電荷と重なりのない作用素を含む作用素の力学に強い影響を与えることを明らかにした。

In this work, we derive an exact hydrodynamical description for the coupled, charge and operator dynamics, in a quantum many-body system with U(1) symmetry. Using an emergent symmetry in the complex Brownian SYK model with charge conservation, we map the operator dynamics in the model to the imaginary-time dynamics of an SU(4) spin-chain. We utilize the emergent SU(4) description to demonstrate that the U(1) symmetry causes quantum-coherence to persist even after disorder-averaging, in sharp contrast to models without symmetries. In line with this property, we write down a 'restricted' Fokker-Planck equation for the out-of-time ordered correlator (OTOC) in the large-$N$ limit, which permits a classical probability description strictly in the incoherent sector of the global operator-space. We then exploit this feature to describe the OTOC in terms of a Fisher-Kolmogorov-Petrovsky-Piskun (FKPP)-equation which couples the operator with the charge and is valid at all time-scales and for arbitrary charge-density profiles. The coupled equations obtained belong to a class of models also used to describe the population dynamics of bacteria embedded in a diffusive media. We simulate them to explore operator-dynamics in a background of non-uniform charge configuration, which reveals that the charge transport can strongly affect dynamics of operators, including those that have no overlap with the charge.
翻訳日:2023-01-21 13:13:28 公開日:2022-11-30
# 開系ダイナミクス下におけるスピン-ボソンモデルのディジタル量子シミュレーション

Digital Quantum Simulation of the Spin-Boson Model under Open System Dynamics ( http://arxiv.org/abs/2210.15922v2 )

ライセンス: Link先を確認
Andreas Burger and Leong Chuan Kwek and Dario Poletti(参考訳) デジタル量子コンピュータは複雑な量子システムをシミュレートする可能性がある。 スピンボーソンモデルはそのような系の1つであり、異なる物理領域で用いられる。 重要なことは、いくつかの設定においてスピンボソンモデルが開であり、例えばスピン状態の崩壊を引き起こすことができる外部環境とシステムが接触していることである。 本稿では,ibmのハードウェアを用いたデジタル量子コンピュータにおいて,そのようなオープン量子力学をシミュレートする方法について検討する。 特に,ハードウェアのノイズレベルとオープンダイナミクスのパラメータの関数として,進化の異なる実装がどの程度正確かを検討する。 研究したレジームでは、ダイナミクスのユニタリな部分をシミュレートし、散逸的な部分はよりノイズに耐性のあるシミュレーションに導くことが鍵となる。 振動子に結合した1つのスピンと振動子に結合した2つのスピンを考える。 後者の場合、振動子を介してスピン間の相関の出現をシミュレートできることが示される。

Digital quantum computers have the potential to simulate complex quantum systems. The spin-boson model is one of such systems, used in disparate physical domains. Importantly, in a number of setups, the spin-boson model is open, i.e. the system is in contact with an external environment which can, for instance, cause the decay of the spin state. Here we study how to simulate such open quantum dynamics in a digital quantum computer, for which we use one of IBM's hardware. We consider in particular how accurate different implementations of the evolution result as a function of the level of noise in the hardware and of the parameters of the open dynamics. For the regimes studied, we show that the key aspect is to simulate the unitary portion of the dynamics, while the dissipative part can lead to a more noise-resistant simulation. We consider both a single spin coupled to a harmonic oscillator, and also two spins coupled to the oscillator. In the latter case, we show that it is possible to simulate the emergence of correlations between the spins via the oscillator.
翻訳日:2023-01-21 05:35:39 公開日:2022-11-30
# フィードバックをもつ適応回路におけるエンタングルメントステアリング

Entanglement Steering in Adaptive Circuits with Feedback ( http://arxiv.org/abs/2211.05162v3 )

ライセンス: Link先を確認
Vikram Ravindranath, Yiqiu Han, Zhi-Cheng Yang, Xiao Chen(参考訳) 強く研究された測定誘起絡み合い相転移は、非単位量子多体ダイナミクスの目印となっている。 通常、そのような遷移は個々の量子軌道のレベルでのみ現れ、測定結果よりも平均化された密度行列には存在しない。 本研究では,両設定で遷移を示すフィードバックを含む適応型ランダム回路モデルについて紹介する。 各測定後、測定結果に応じてユニタリ演算が適用され、平均密度行列を一定の測定しきい値以上の一意な状態に制御する。 興味深いことに、個々の量子軌道における密度行列の遷移と絡み合い遷移は、一般に \textit{different} 臨界測定速度で起こる。 前者の遷移は、古典分岐消滅ランダムウォークプロセスへの明示的なマッピングによりパリティ保存普遍性クラスに属することを実証する。

The intensely studied measurement-induced entanglement phase transition has become a hallmark of non-unitary quantum many-body dynamics. Usually, such a transition only shows up at the level of each individual quantum trajectory, and is absent for the density matrix averaged over measurement outcomes. In this work, we introduce a class of adaptive random circuit models with feedback that exhibit transitions in both settings. After each measurement, a unitary operation is either applied or not depending on the measurement outcome, which steers the averaged density matrix towards a unique state above a certain measurement threshold. Interestingly, the transition for the density matrix and the entanglement transition in the individual quantum trajectory in general happen at \textit{different} critical measurement rates. We demonstrate that the former transition belongs to the parity-conserving universality class by an explicit mapping to a classical branching-annihilating random walk process.
翻訳日:2023-01-19 20:31:45 公開日:2022-11-30
# メタアトムを用いた浮揚光メカニクス

Levitated Optomechanics with Meta-Atoms ( http://arxiv.org/abs/2211.08235v3 )

ライセンス: Link先を確認
Sergei Lepeshov, Nadine Meyer, Patrick Maurer, Oriol Romero-Isart and Romain Quidant(参考訳) そこで本研究では, 三重共鳴を支える準波長および高誘電率誘電体粒子をトラップすることで, 浮遊光学のさらなる制御を導入することを提案する。 特に, 真空中におけるシリコンナノ粒子の光学浮揚と地中冷却は実験的に実現可能であるだけでなく, トラップ周波数とトラップ深さの両面から広く用いられているシリカ粒子よりも高い性能を示す。 また, 粒子共鳴に対するトラップレーザーの減衰を調整することにより, 偏光性の符号が負となり, 定在波のノードなど, レーザ強度の最小値の浮揚が可能となることを示した。 後者は、フォトニックナノ構造と近距離力センシングに強い結合をもたらす2レベル原子に類似した、赤と青の調整された周波数を組み合わせた光学的近接場におけるナノ粒子のトラップの扉を開く。

We propose to introduce additional control in levitated optomechanics by trapping a meta-atom, i.e. a subwavelength and high-permittivity dielectric particle supporting Mie resonances. In particular, we theoretically demonstrate that optical levitation and center-of-mass ground-state cooling of silicon nanoparticles in vacuum is not only experimentally feasible but it offers enhanced performance over widely used silica particles, in terms of both trap frequency and trap depth. Moreover, we show that, by adjusting the detuning of the trapping laser with respect to the particle's resonance, the sign of the polarizability becomes negative, enabling levitation in the minimum of laser intensity e.g. at the nodes of a standing wave. The latter opens the door to trapping nanoparticles in the optical near-field combining red and blue-detuned frequencies, in analogy to two-level atoms, which is of interest for generating strong coupling to photonic nanostructures and short-distance force sensing.
翻訳日:2023-01-19 12:41:17 公開日:2022-11-30
# 量子ステアリングとウィグナーネガティビティについて

On Quantum Steering and Wigner Negativity ( http://arxiv.org/abs/2211.14102v2 )

ライセンス: Link先を確認
Mattia Walschaers(参考訳) 量子相関とウィグナー負性は連続変数量子系における非古典性の2つの重要な符号である。 本研究では,Wigner Negativityの条件生成の文脈において,両者がどのように絡み合うかを検討する。 以前にも、アリスとボブがガウス状態を共有すると、ボブは、アリスからボブにガウス状態のステアリングがある場合と場合に限り、彼のシステムで幾らかの計測を行い、アリス側でウィグナー・ネガティビティを生成できることが示されている。 本研究では,alice と bob が非ガウシアン状態を共有するようなシナリオに対して,これらの知見を一般化しようと試みる。 Alice が最初に Wigner 陽性測定で Bob のシステムを操れるなら、Bob は Alice のサブシステムで Wigner Negativity を遠隔で作成できる。 これは量子ステアリングが十分であることを示しているが、量子相関は一般にウィグナーの負の条件生成には必要ないことを示している。

Quantum correlations and Wigner negativity are two important signatures of nonclassicality in continuous-variable quantum systems. In this work, we investigate how both are intertwined in the context of the conditional generation of Wigner negativity. It was previously shown that when Alice and Bob share a Gaussian state, Bob can perform some measurement on his system to create Wigner negativity on Alice's side if and only if there is Gaussian steering from Alice to Bob. In this work, we attempt to generalise these findings to to a much braoder class of scenarios on which Alice and Bob share a non-Gaussian state. We show that if Alice can initially steer Bob's system with Wigner-positive measurements, Bob can remotely create Wigner negativity in Alice's subsystem. Even though this shows that quantum steering is sufficient, we also show that quantum correlations are in general not necessary for the conditional generation of Wigner negativity.
翻訳日:2023-01-17 20:51:02 公開日:2022-11-30
# STE-QUEST: Space Time ExplorerとQUantum Equivalence principle Space Test

STE-QUEST: Space Time Explorer and QUantum Equivalence principle Space Test ( http://arxiv.org/abs/2211.15412v3 )

ライセンス: Link先を確認
Holger Ahlers, Leonardo Badurina, Angelo Bassi, Baptiste Battelier, Quentin Beaufils, Kai Bongs, Philippe Bouyer, Claus Braxmaier, Oliver Buchmueller, Matteo Carlesso, Eric Charron, Maria Luisa Chiofalo, Robin Corgier, Sandro Donadi, Fabien Droz, Robert Ecoffet, John Ellis, Fr\'ed\'eric Est\`eve, Naceur Gaaloul, Domenico Gerardi, Enno Giese, Jens Grosse, Aur\'elien Hees, Thomas Hensel, Waldemar Herr, Philippe Jetzer, Gina Kleinsteinberg, Carsten Klempt, Steve Lecomte, Louise Lopes, Sina Loriani, Gilles M\'etris, Thierry Martin, Victor Mart\'in, Gabriel M\"uller, Miquel Nofrarias, Franck Pereira Dos Santos, Ernst M. Rasel, Alain Robert, Noah Saks, Mike Salter, Dennis Schlippert, Christian Schubert, Thilo Schuldt, Carlos F. Sopuerta, Christian Struckmann, Guglielmo M. Tino, Tristan Valenzuela, Wolf von Klitzing, Lisa W\"orner, Peter Wolf, Nan Yu, Martin Zelan(参考訳) 2021年のesaの科学プログラムにおいて、等価原理とローレンツ不変性のテスト、超軽量暗黒物質探索、量子力学の探索など、基礎物理学における幅広い目的を持ったm級ミッションの提案が行われた。

An M-class mission proposal in response to the 2021 call in ESA's science programme with a broad range of objectives in fundamental physics, which include testing the Equivalence Principle and Lorentz Invariance, searching for Ultralight Dark Matter and probing Quantum Mechanics.
翻訳日:2023-01-17 14:59:09 公開日:2022-11-30
# 量子資源の可逆性に関する機能解析的洞察

Functional analytic insights into irreversibility of quantum resources ( http://arxiv.org/abs/2211.15678v2 )

ライセンス: Link先を確認
Bartosz Regula and Ludovico Lami(参考訳) 本稿では,特定の状態集合を保持する量子チャネルが,それらの集合によって誘導される基底ノルムに対して収縮的であるという基本的な観測に基づく量子資源操作の研究手法を提案する。 我々は、量子力学の通常の物理的仮定を許す:完全な肯定性、トレース保存、あるいは資源理論的考察を強制する代わりに、ノルム収縮写像として変換プロトコルを研究する。 これにより, 従来の手法を統一し, 蒸留可能な資源と資源コストの新たなファミリーを導入し, 単発・漸近の両面から技術的ツールセットをこの問題に適用することができる。 私たちの式は、自然にシングルレター形式に当てはまるので、実際に計算することがしばしばあり、そうすることで、エンタングルメントコストのような量に対して最もよく知られた境界が得られることを例で示します。 応用として, [arxiv:2111.02438] の最近の結果の代替導出を与えるだけでなく, 連接理論が漸近的に可逆的であることを示すだけでなく, 連接蒸留の文脈において, 新たに一般化した仮説検定相対エントロピーを通じて明示的な操作的意味を持つ量を与える。 魔法状態量子計算のリソース理論における状態変換のバウンダリの改善により、安定化器プロトコルの下では可逆的に相互変換できないクォート魔法状態が存在することが示される。

We propose an approach to the study of quantum resource manipulation based on the basic observation that quantum channels which preserve certain sets of states are contractive with respect to the base norms induced by those sets. We forgo the usual physical assumptions on quantum dynamics: instead of enforcing complete positivity, trace preservation, or resource-theoretic considerations, we study transformation protocols as norm-contractive maps. This allows us to apply to this problem a technical toolset from functional analysis, unifying previous approaches and introducing new families of bounds for the distillable resources and the resource cost, both one-shot and asymptotic. Since our expressions lend themselves naturally to single-letter forms, they can often be calculated in practice; by doing so, we demonstrate with examples that they can yield the best known bounds on quantities such as the entanglement cost. As applications, we not only give an alternative derivation of the recent result of [arXiv:2111.02438] which showed that entanglement theory is asymptotically irreversible, but also provide the quantities introduced in that work with explicit operational meaning in the context of entanglement distillation through a novel generalised form of hypothesis testing relative entropy. Besides entanglement, we reveal a new irreversible quantum resource: through improved bounds for state transformations in the resource theory of magic-state quantum computation, we show that there exist qutrit magic states that cannot be reversibly interconverted under stabiliser protocols.
翻訳日:2023-01-17 14:50:30 公開日:2022-11-30
# 画像変換が人間と機械に異なる影響

Extreme Image Transformations Affect Humans and Machines Differently ( http://arxiv.org/abs/2212.13967v1 )

ライセンス: Link先を確認
Girik Malik and Dakarai Crowder and Ennio Mingolla(参考訳) 最近の人工ニューラルネットワーク(ANN)では、霊長類ニューラルネットと人間のパフォーマンスデータの重要な側面をモデル化していると主張している。 オブジェクト認識のパフォーマンスの実証は、まだ人間がしない方法でビジュアルタスクを解決するために低レベルの機能を活用することにかかっている。 ANNにとって、アウト・オブ・ディストリビューションや敵対的な入力は困難である。 人間は抽象的なパターンを学習し、ほとんどは極端な画像歪みの影響を受けない。 神経生理学的発見に触発された新しい画像変換のセットを導入し,物体認識タスクにおける人間とネットワークの評価を行った。 機械は、特定の変換に対して人間よりも優れた性能を示し、人間にとって容易な他の変換において、人間と同等の性能を発揮する。 我々は、人間と機械の精度の違いを定量化し、人間のデータを通して変換のランキングを求める。 また,人間の視覚処理の特徴が,難易度変換のためのANNの性能向上にどのように適応できるかを示唆する。

Some recent artificial neural networks (ANNs) have claimed to model important aspects of primate neural and human performance data. Their demonstrated performance in object recognition is still dependent on exploiting low-level features for solving visual tasks in a way that humans do not. Out-of-distribution or adversarial input is challenging for ANNs. Humans instead learn abstract patterns and are mostly unaffected by certain extreme image distortions. We introduce a set of novel image transforms inspired by neurophysiological findings and evaluate humans and networks on an object recognition task. We show that machines perform better than humans for certain transforms and struggle to perform at par with humans on other transforms that are easy for humans. We quantify the differences in accuracy for humans and machines and find a ranking for our transforms through human data. We also suggest how certain characteristics of human visual processing can be adapted to improve the performance of ANNs for our difficult-for-machines transforms.
翻訳日:2023-01-01 14:28:32 公開日:2022-11-30
# 音声書き起こしにおけるコード切り換えモチベーションの自動同定

Automatic Identification of Motivation for Code-Switching in Speech Transcripts ( http://arxiv.org/abs/2212.08565v1 )

ライセンス: Link先を確認
Ritu Belani and Jeffrey Flanigan(参考訳) コード交換、あるいは言語間の切り替えは、多くの理由から発生し、重要な言語的、社会学的、文化的意味合いを持っている。 多言語話者は、感情の表現、用語の借用、冗談の作り方、新しい話題の導入など、さまざまな目的でコードスイッチを行う。 コード切り換えの理由は分析に非常に有用かもしれないが、すぐには明らかではない。 この状況を改善するために、スペイン語でコードスイッチングを行うための新たなモチベーションデータセットを注釈付けします。 我々は、話し手が日常の音声でコード交換する幅広い動機を自動で識別する(我々の知識のために)最初のシステムを構築し、すべての動機に対して75%の正確さを達成します。 さらに、新しい言語対に適応し、新しい言語対(ヒンディー語-英語)に対して66%の精度を達成し、我々のアノテーションスキームの言語間適用性を示す。

Code-switching, or switching between languages, occurs for many reasons and has important linguistic, sociological, and cultural implications. Multilingual speakers code-switch for a variety of purposes, such as expressing emotions, borrowing terms, making jokes, introducing a new topic, etc. The reason for code-switching may be quite useful for analysis, but is not readily apparent. To remedy this situation, we annotate a new dataset of motivations for code-switching in Spanish-English. We build the first system (to our knowledge) to automatically identify a wide range of motivations that speakers code-switch in everyday speech, achieving an accuracy of 75% across all motivations. Additionally, we show that the system can be adapted to new language pairs, achieving 66% accuracy on a new language pair (Hindi-English), demonstrating the cross-lingual applicability of our annotation scheme
翻訳日:2022-12-25 03:21:30 公開日:2022-11-30
# ミネスウィーパー用ニューラルネットワーク学習装置

Neural Network Learner for Minesweeper ( http://arxiv.org/abs/2212.10446v1 )

ライセンス: Link先を確認
M Hamza Sajjad(参考訳) Minesweeperは、論理、記憶、推測に基づく興味深いシングルプレイヤーゲームである。 minesweeperの解決はnp-hardタスクであることが示されている。 決定論的解法は、マインズウィーパーを解く最もよく知られた方法である。 このプロジェクトは、マインズウィーパーを解くニューラルネットワークベースの学習者を提案する。 最良の学習者を選ぶために、ニューラルネットワークの異なるアーキテクチャと構成が数十万のゲームで訓練された。 驚くべきことに、ニューラルネットワークベースの学習者は、Minesweeperを解くのに非常に良い近似関数であることが示されている。 ニューラルネットワーク学習者は、特にゲームの初心者および中間モードにおいて、cspソルバとよく競合する。 また、高い成功率にもかかわらず、最良のニューラルラーナーは最良の決定論的解法よりもかなり遅いことが観察された。 このレポートでは、minesweeperのために非常に成功したニューラルネットワークを作成する際に直面するオーバーヘッドと制限についても論じている。

Minesweeper is an interesting single player game based on logic, memory and guessing. Solving Minesweeper has been shown to be an NP-hard task. Deterministic solvers are the best known approach for solving Minesweeper. This project proposes a neural network based learner for solving Minesweeper. To choose the best learner, different architectures and configurations of neural networks were trained on hundreds of thousands of games. Surprisingly, the proposed neural network based learner has shown to be a very good approximation function for solving Minesweeper. The neural network learner competes well with the CSP solvers, especially in Beginner and Intermediate modes of the game. It was also observed that despite having high success rates, the best neural learner was considerably slower than the best deterministic solver. This report also discusses the overheads and limitations faced while creating highly successful neural networks for Minesweeper.
翻訳日:2022-12-25 03:21:13 公開日:2022-11-30
# CatlNet: CaTL+仕様からコミュニケーションとコーディネートポリシを学ぶ

CatlNet: Learning Communication and Coordination Policies from CaTL+ Specifications ( http://arxiv.org/abs/2212.11792v1 )

ライセンス: Link先を確認
Wenliang Liu, Kevin Leahy, Zachary Serlin, Calin Belta(参考訳) 本稿では,多元多エージェントシステム(MAS)の通信と分散制御ポリシを,能力時相論理+CaTL+仕様から複雑なミッション条件下で同時に学習する学習ベースのフレームワークを提案する。 どちらのポリシーもトレーニングされ、実装され、CataNetと呼ばれる新しいニューラルネットワークモデルを使用してデプロイされる。 CaTL+の堅牢性を活用して、ネットワークパラメータがすべてのエージェント間で共有される場所を最大化するために、CataNetを集中的にトレーニングします。 CatlNetは分散してデプロイできる。 CatlNetのトレーニングをガイドし、トレーニング効率と全体的なパフォーマンスを改善するために、計画修復アルゴリズムも導入された。 CatlNetのアプローチはシミュレーションでテストされ、その結果、トレーニング後、CalNetは分散MASシステムをオンラインで操り、CaTL+仕様を高い成功率で満たせることを示した。

In this paper, we propose a learning-based framework to simultaneously learn the communication and distributed control policies for a heterogeneous multi-agent system (MAS) under complex mission requirements from Capability Temporal Logic plus (CaTL+) specifications. Both policies are trained, implemented, and deployed using a novel neural network model called CatlNet. Taking advantage of the robustness measure of CaTL+, we train CatlNet centrally to maximize it where network parameters are shared among all agents, allowing CatlNet to scale to large teams easily. CatlNet can then be deployed distributedly. A plan repair algorithm is also introduced to guide CatlNet's training and improve both training efficiency and the overall performance of CatlNet. The CatlNet approach is tested in simulation and results show that, after training, CatlNet can steer the decentralized MAS system online to satisfy a CaTL+ specification with a high success rate.
翻訳日:2022-12-25 03:20:09 公開日:2022-11-30
# テキストビデオ検索のための正規化コントラスト学習

Normalized Contrastive Learning for Text-Video Retrieval ( http://arxiv.org/abs/2212.11790v1 )

ライセンス: Link先を確認
Yookoon Park, Mahmoud Azab, Bo Xiong, Seungwhan Moon, Florian Metze, Gourab Kundu, Kirmani Ahmed(参考訳) クロスモーダルコントラスト学習は,最近のマルチモーダル検索の進歩を,その単純さと有効性で導いてきた。 しかし,本研究では,クロスモーダルコントラスト学習は,各テキストやビデオインスタンスの和検索確率の正規化に苦しむことが明らかになった。 具体的には,多くのテストインスタンスが検索中に過剰あるいは過剰に表現され,検索性能を著しく損なうことを示す。 この問題に対処するため,Sinkhorn-Knoppアルゴリズムを用いた正規化コントラスト学習(NCL)を提案する。 実証研究によれば、nclは、さまざまなモデルアーキテクチャにおけるテキスト・ビデオの検索に一貫性があり、また、アーキテクチャ工学なしでactivitynet、msvd、msr-vttデータセットに最先端のマルチモーダル検索メトリクスをもたらす。

Cross-modal contrastive learning has led the recent advances in multimodal retrieval with its simplicity and effectiveness. In this work, however, we reveal that cross-modal contrastive learning suffers from incorrect normalization of the sum retrieval probabilities of each text or video instance. Specifically, we show that many test instances are either over- or under-represented during retrieval, significantly hurting the retrieval performance. To address this problem, we propose Normalized Contrastive Learning (NCL) which utilizes the Sinkhorn-Knopp algorithm to compute the instance-wise biases that properly normalize the sum retrieval probabilities of each instance so that every text and video instance is fairly represented during cross-modal retrieval. Empirical study shows that NCL brings consistent and significant gains in text-video retrieval on different model architectures, with new state-of-the-art multimodal retrieval metrics on the ActivityNet, MSVD, and MSR-VTT datasets without any architecture engineering.
翻訳日:2022-12-25 03:10:04 公開日:2022-11-30
# リッチ流れの計量解の物理学的不定形探索とその埋め込みと可視化

A physics-informed search for metric solutions to Ricci flow, their embeddings, and visualisation ( http://arxiv.org/abs/2212.05892v1 )

ライセンス: Link先を確認
Aarjav Jain, Challenger Mishra, Pietro Li\`o(参考訳) PDEを損失関数(物理インフォームドニューラルネットワーク)に埋め込んだニューラルネットワークは、リーマン計量のリッチフロー(曲率に基づく進化)の解を求める関数近似器として用いられる。 一般的な方法が開発され、実際のトーラスに適用される。 解の妥当性は、スカラー曲率の時間的発展と標準PDEソルバを用いて得られた時間的発展を比較して検証し、多様体全体の定数0まで減少する。 また, 2次元のリッチフロー方程式に対するある種のソリトニック解を考える。 我々は$\mathbb{R}^3$への埋め込みを利用してフローの可視化を作成する。 トロイダル計量の時間的高精度な数値進化のスナップショットが報告されている。 複素幾何学における長期問題である弦理論の文脈におけるリッチ平坦カラビ-ヤウ計量を決定する問題へのこの方法論の適用に関するガイドラインを提供する。

Neural networks with PDEs embedded in their loss functions (physics-informed neural networks) are employed as a function approximators to find solutions to the Ricci flow (a curvature based evolution) of Riemannian metrics. A general method is developed and applied to the real torus. The validity of the solution is verified by comparing the time evolution of scalar curvature with that found using a standard PDE solver, which decreases to a constant value of 0 on the whole manifold. We also consider certain solitonic solutions to the Ricci flow equation in two real dimensions. We create visualisations of the flow by utilising an embedding into $\mathbb{R}^3$. Snapshots of highly accurate numerical evolution of the toroidal metric over time are reported. We provide guidelines on applications of this methodology to the problem of determining Ricci flat Calabi--Yau metrics in the context of String theory, a long standing problem in complex geometry.
翻訳日:2022-12-18 19:00:24 公開日:2022-11-30
# 機械学習からみたインド語話者認識の概観

An Overview of Indian Spoken Language Recognition from Machine Learning Perspective ( http://arxiv.org/abs/2212.03812v1 )

ライセンス: Link先を確認
Spandan Dey, Md Sahidullah, Goutam Saha(参考訳) 自動音声言語識別(LID)は、多言語音声コマンドベースヒューマンコンピュータインタラクション(HCI)の時代において、非常に重要な研究分野である。 フロントエンドのLIDモジュールは、多言語シナリオにおける多くの音声ベースのアプリケーションの性能向上に役立つ。 インドは多様な文化と言語を持つ人口の多い国である。 インディアンの大多数は、それぞれの母国語を機械との言語的相互作用に利用する必要がある。 したがって、効率的なインド音声認識システムの開発は、インド社会のあらゆる分野におけるスマートテクノロジーの適応に有用である。 インドのLIDの分野は、主にインドの言語のための標準多言語音声コーパスの開発により、過去20年間に勢いを増し始めている。 この分野ではすでに大きな研究が進められているが、私たちの知る限りでは、それらを分析的にレビューする試みはそれほど多くない。 本研究では,インド語話者認識研究分野の包括的レビューを提示する最初の試みの1つを行った。 インドにおけるLIDシステム開発における低リソース・相互影響の独特な課題を強調するために詳細な分析が提案されている。 インドにおけるLID研究のいくつかの重要な側面として、利用可能な音声コーパスの詳細な説明、様々なニューラルネットワークアーキテクチャに基づく最近のアプローチへの統計的モデリングに基づく以前の試み、今後の研究動向などが挙げられる。 このレビューは、活動的な研究者や関連分野の研究愛好家による現在のインドのLID研究の状況を評価するのに役立つだろう。

Automatic spoken language identification (LID) is a very important research field in the era of multilingual voice-command-based human-computer interaction (HCI). A front-end LID module helps to improve the performance of many speech-based applications in the multilingual scenario. India is a populous country with diverse cultures and languages. The majority of the Indian population needs to use their respective native languages for verbal interaction with machines. Therefore, the development of efficient Indian spoken language recognition systems is useful for adapting smart technologies in every section of Indian society. The field of Indian LID has started gaining momentum in the last two decades, mainly due to the development of several standard multilingual speech corpora for the Indian languages. Even though significant research progress has already been made in this field, to the best of our knowledge, there are not many attempts to analytically review them collectively. In this work, we have conducted one of the very first attempts to present a comprehensive review of the Indian spoken language recognition research field. In-depth analysis has been presented to emphasize the unique challenges of low-resource and mutual influences for developing LID systems in the Indian contexts. Several essential aspects of the Indian LID research, such as the detailed description of the available speech corpora, the major research contributions, including the earlier attempts based on statistical modeling to the recent approaches based on different neural network architectures, and the future research trends are discussed. This review work will help assess the state of the present Indian LID research by any active researcher or any research enthusiasts from related fields.
翻訳日:2022-12-18 19:00:08 公開日:2022-11-30
# バイオメディカル知識グラフによる医薬品リサイクル候補の予測とそのメカニズム

Predicting Drug Repurposing Candidates and Their Mechanisms from A Biomedical Knowledge Graph ( http://arxiv.org/abs/2212.01384v1 )

ライセンス: Link先を確認
Chunyu Ma, Zhihan Zhou, Han Liu, David Koslicki(参考訳) 計算薬の再利用は、承認または実験薬/化合物の新しい表示を特定するためのコストと時間効率のよい方法である。 従来の湿式薬物発見法と比較して、投資が安く、研究サイクルが短いため、特に発病や孤児病にとって重要である。 しかし、使用済み薬物とその標的疾患の間の基本的なメカニズムはほとんど不明であり、既存の代替法では未解決の問題となっている。 このように、計算薬の再利用は臨床ではあまり広く採用されていない。 本研究は, バイオメディカル知識グラフに基づいて, 薬物と疾患の間の治療確率を予測できるだけでなく, バイオメディカルな説明として, 経路ベース, テスト可能な行動機構(MOA)を予測できる計算薬物再資源化フレームワークを提案する。 具体的には,グラフセージモデルを用いて各団体の周辺情報を統合し,ランダムフォレストモデルを用いて薬剤と疾患の治療法の確率を予測する。 さらに, 対向的アクタ-クリティック強化学習モデルを訓練し, 薬物汚染を説明するためのmoaの可能性を予測する。 モデルが生物学的に合理的な経路を見つけるのを奨励するために,薬物の硬化した分子相互作用とPubMed-Pubation-based concept distanceを用いて知識グラフから潜在的薬物MOA経路を抽出し,パスフィニングの過程でモデルを導く。 包括的実験およびケーススタディにより,提案フレームワークは,ヒト培養D薬MechDB系パスの再カプセル化の予測性能と説明性能の両方において,最先端のベースラインを上回っていることが示された。

Computational drug repurposing is a cost- and time-efficient method to identify new indications of approved or experimental drugs/compounds. It is especially critical for emerging and/or orphan diseases due to its cheaper investment and shorter research cycle compared with traditional wet-lab drug discovery approaches. However, the underlying mechanisms of action between repurposed drugs and their target diseases remain largely unknown, which is still an unsolved issue in existing repurposing methods. As such, computational drug repurposing has not been widely adopted in clinical settings. In this work, based on a massive biomedical knowledge graph, we propose a computational drug repurposing framework that not only predicts the treatment probabilities between drugs and diseases but also predicts the path-based, testable mechanisms of action (MOAs) as their biomedical explanations. Specifically, we utilize the GraphSAGE model in an unsupervised manner to integrate each entity's neighborhood information and employ a Random Forest model to predict the treatment probabilities between pairs of drugs and diseases. Moreover, we train an adversarial actor-critic reinforcement learning model to predict the potential MOA for explaining drug purposing. To encourage the model to find biologically reasonable paths, we utilize the curated molecular interactions of drugs and a PubMed-publication-based concept distance to extract potential drug MOA paths from the knowledge graph as "demonstration paths" to guide the model during the process of path-finding. Comprehensive experiments and case studies show that the proposed framework outperforms state-of-the-art baselines in both predictive performance of drug repurposing and explanatory performance of recapitulating human-curated DrugMechDB-based paths.
翻訳日:2022-12-18 18:59:46 公開日:2022-11-30
# ニューラルネットワークの解釈は普遍的対向摂動に影響される

Interpretation of Neural Networks is Susceptible to Universal Adversarial Perturbations ( http://arxiv.org/abs/2212.03095v1 )

ライセンス: Link先を確認
Haniyeh Ehsani Oskouie, Farzan Farnia(参考訳) 勾配に基づく塩分マップを用いたニューラルネットワーク分類器の解釈は深層学習文献で広く研究されている。 既存のアルゴリズムは、標準画像認識データセットへの適用において満足な性能を実現しているが、最近の研究は、各入力サンプルに対して逆向きに設計されたノルム境界摂動に対する広く使われている勾配に基づく解釈スキームの脆弱性を実証している。 しかし、このような逆転摂動は一般に入力サンプルの知識を用いて設計されており、未知または常に変化するデータポイントへの準最適適用を行う。 本稿では、ニューラルネットワークの勾配に基づく特徴マップをテストサンプルのかなりの割合で変更できる標準画像データセットのための万能摂動(upi)の存在を示す。 このようなUPIを設計するために、ニューラルネットワークの勾配に基づく解釈を異なるサンプルで効果的に変更できる主成分分析(PCA)ベースのアプローチと同様に、勾配に基づく最適化手法を提案する。 提案手法は, 標準画像データセットへの適用を成功させたいくつかの数値結果を示すことで, upi の手法を支持する。

Interpreting neural network classifiers using gradient-based saliency maps has been extensively studied in the deep learning literature. While the existing algorithms manage to achieve satisfactory performance in application to standard image recognition datasets, recent works demonstrate the vulnerability of widely-used gradient-based interpretation schemes to norm-bounded perturbations adversarially designed for every individual input sample. However, such adversarial perturbations are commonly designed using the knowledge of an input sample, and hence perform sub-optimally in application to an unknown or constantly changing data point. In this paper, we show the existence of a Universal Perturbation for Interpretation (UPI) for standard image datasets, which can alter a gradient-based feature map of neural networks over a significant fraction of test samples. To design such a UPI, we propose a gradient-based optimization method as well as a principal component analysis (PCA)-based approach to compute a UPI which can effectively alter a neural network's gradient-based interpretation on different samples. We support the proposed UPI approaches by presenting several numerical results of their successful applications to standard image datasets.
翻訳日:2022-12-11 12:53:17 公開日:2022-11-30
# 投影的クラスタリングと段階的ハイブリッドサンプリングに基づく重複指向不均衡アンサンブル学習法

Overlapping oriented imbalanced ensemble learning method based on projective clustering and stagewise hybrid sampling ( http://arxiv.org/abs/2212.03182v1 )

ライセンス: Link先を確認
Fan Li, Bo Wang, Pin Wang, Yongming Li(参考訳) 不均衡学習の課題は、クラス不均衡問題だけでなく、複雑なクラス重複問題にも関係している。 しかし、既存のアルゴリズムのほとんどは、主に前者に焦点を当てている。 この制限は既存のメソッドが破られるのを防ぐ。 本稿では,この制限に対処するために,二重クラスタリングとステージワイドハイブリッドサンプリング(DCSHS)に基づくアンサンブル学習アルゴリズムを提案する。 DCSHSには3つの部分がある。 まず,Davies-Bouldinクラスタリング効率指数(DBI)によって導かれるプロジェクションクラスタリング結合フレームワーク(PCC)を設計し,高品質なクラスタを取得し,それらを組み合わせて,バランスの取れたクラスと低いオーバーラップを持つクロスコンプリートサブセット(CCS)の集合を得る。 第二に、部分集合クラスの特性に基づき、部分集合の重複解消とバランス化を実現するために、ステージワイズハイブリッドサンプリングアルゴリズムが設計されている。 最後に、転送学習によってすべての処理されたサブセットに対して、投影型クラスタリング転送マッピング機構(ctm)を構築し、クラスの重複を減らし、サンプルの構造情報を探索する。 提案アルゴリズムの主な利点は,CCSの交差性を利用して重複する多数サンプルのソフトな除去を実現し,重複するサンプルの情報をできるだけ多く学習し,クラスバランス中に重複するクラスを増大させることである。 実験セクションでは、30以上の公開データセットと10以上の代表アルゴリズムが検証のために選択される。 実験結果から,DCSHSは各種評価基準において有意に優れていた。

The challenge of imbalanced learning lies not only in class imbalance problem, but also in the class overlapping problem which is complex. However, most of the existing algorithms mainly focus on the former. The limitation prevents the existing methods from breaking through. To address this limitation, this paper proposes an ensemble learning algorithm based on dual clustering and stage-wise hybrid sampling (DCSHS). The DCSHS has three parts. Firstly, we design a projection clustering combination framework (PCC) guided by Davies-Bouldin clustering effectiveness index (DBI), which is used to obtain high-quality clusters and combine them to obtain a set of cross-complete subsets (CCS) with balanced class and low overlapping. Secondly, according to the characteristics of subset classes, a stage-wise hybrid sampling algorithm is designed to realize the de-overlapping and balancing of subsets. Finally, a projective clustering transfer mapping mechanism (CTM) is constructed for all processed subsets by means of transfer learning, thereby reducing class overlapping and explore structure information of samples. The major advantage of our algorithm is that it can exploit the intersectionality of the CCS to realize the soft elimination of overlapping majority samples, and learn as much information of overlapping samples as possible, thereby enhancing the class overlapping while class balancing. In the experimental section, more than 30 public datasets and over ten representative algorithms are chosen for verification. The experimental results show that the DCSHS is significantly best in terms of various evaluation criteria.
翻訳日:2022-12-11 12:52:57 公開日:2022-11-30
# 画像分類におけるdeep active learningの有効性に関する実証的研究

An Empirical Study on the Efficacy of Deep Active Learning for Image Classification ( http://arxiv.org/abs/2212.03088v1 )

ライセンス: Link先を確認
Yu Li, Muxi Chen, Yannan Liu, Daojing He, and Qiang Xu(参考訳) 教師付き学習におけるラベリングコストを削減する方法として,deep active learning(dal)が提唱されている。 しかし、既存のDAL手法の評価は異なる設定に基づいており、その結果は議論の余地がある。 本論では, 従来型の完全線量{s}upervised \underline{a}ctive \underline{l}earning (SAL) 戦略や, 新興線量{s}emi-\underline{s}upervised \underline{a}ctive \underline{l}earning (SSAL) 技術を含む, 統一された環境での19の既存DAL手法を総合的に評価する。 いくつかの非自明な発見がある。 第一に、ほとんどのSAL法はランダム選択よりも高い精度を達成できない。 第2に、半教師付きトレーニングは純粋なSALメソッドに比べて大幅なパフォーマンス向上をもたらす。 第3に、ssal設定でデータ選択を行うことは、特に豊富なラベルなしデータにおいて、重要かつ一貫したパフォーマンス改善を達成できる。 我々の知見は, 実践者に対して以下のガイダンスをもたらす。 (i)早期にSSALを適用する (ii) 可能な限りラベルのないデータを収集し、モデルのパフォーマンスを向上する。

Deep Active Learning (DAL) has been advocated as a promising method to reduce labeling costs in supervised learning. However, existing evaluations of DAL methods are based on different settings, and their results are controversial. To tackle this issue, this paper comprehensively evaluates 19 existing DAL methods in a uniform setting, including traditional fully-\underline{s}upervised \underline{a}ctive \underline{l}earning (SAL) strategies and emerging \underline{s}emi-\underline{s}upervised \underline{a}ctive \underline{l}earning (SSAL) techniques. We have several non-trivial findings. First, most SAL methods cannot achieve higher accuracy than random selection. Second, semi-supervised training brings significant performance improvement compared to pure SAL methods. Third, performing data selection in the SSAL setting can achieve a significant and consistent performance improvement, especially with abundant unlabeled data. Our findings produce the following guidance for practitioners: one should (i) apply SSAL early and (ii) collect more unlabeled data whenever possible, for better model performance.
翻訳日:2022-12-11 12:52:28 公開日:2022-11-30
# 多目的強化学習における福祉と公正

Welfare and Fairness in Multi-objective Reinforcement Learning ( http://arxiv.org/abs/2212.01382v1 )

ライセンス: Link先を確認
Zimeng Fan, Nianli Peng, Muhang Tian, and Brandon Fain(参考訳) エージェントがベクトル値の報酬の多次元における高い報酬を同時に達成するポリシーを学習しなければならない、公平な多目的強化学習について検討する。 公平な資源配分の文献に動機づけられ, 長期累積報酬ベクトルの非線形公正福祉関数に対して, 期待される福祉最大化問題としてモデル化した。 そのような機能の典型例の1つはナッシュ社会福祉(英語版)(幾何学的平均)であり、その対数変換は比例フェアネス目的(英語版)(Proportional Fairness objective)とも呼ばれる。 その結果,ナッシュ社会福祉の最適最適化は,表例においても計算上難解であることがわかった。 それにもかかわらず,非線形スカラー化学習更新と非定常行動選択を組み合わせた,非線形福祉機能の最適化のための効果的な方針を学習するための新しいq-learning適応を提案する。 提案手法は, 線形スカラー化, 最適線形スカラー化の混合, ナッシュ社会福祉目的のための定常的行動選択に基づく手法よりも優れていることを示す。

We study fair multi-objective reinforcement learning in which an agent must learn a policy that simultaneously achieves high reward on multiple dimensions of a vector-valued reward. Motivated by the fair resource allocation literature, we model this as an expected welfare maximization problem, for some non-linear fair welfare function of the vector of long-term cumulative rewards. One canonical example of such a function is the Nash Social Welfare, or geometric mean, the log transform of which is also known as the Proportional Fairness objective. We show that even approximately optimal optimization of the expected Nash Social Welfare is computationally intractable even in the tabular case. Nevertheless, we provide a novel adaptation of Q-learning that combines non-linear scalarized learning updates and non-stationary action selection to learn effective policies for optimizing nonlinear welfare functions. We show that our algorithm is provably convergent, and we demonstrate experimentally that our approach outperforms techniques based on linear scalarization, mixtures of optimal linear scalarizations, or stationary action selection for the Nash Social Welfare Objective.
翻訳日:2022-12-11 12:51:50 公開日:2022-11-30
# ディスプレイ広告におけるリアルタイム入札戦略:実証分析

Real-time Bidding Strategy in Display Advertising: An Empirical Analysis ( http://arxiv.org/abs/2212.02222v1 )

ライセンス: Link先を確認
Mengjuan Liu, Zhengning Hu, Zhi Lai, Daiwei Zheng, Xuyun Nie(参考訳) 広告主が入札価格を決定するのに役立つ入札戦略は、リアルタイム入札システムを通じて広告インプレッションが販売されるようになり、注目を集めている。 本稿では、まず、リアルタイム入札ディスプレイ広告において、個々の広告主の入札戦略を最適化する問題と課題について述べる。 次に,いくつかの代表的な入札戦略,特に強化学習に基づく入札戦略の研究の進展と課題を紹介する。 さらに,ipinyouデータセットにおける代表入札戦略の性能を定量的に評価した。 具体的には,強化学習に基づく入札戦略の性能に及ぼす状態,行動,報酬機能の影響について検討する。 最後に,強化学習アルゴリズムを用いた入札戦略の最適化に関する一般的な手順を要約し,提案する。

Bidding strategies that help advertisers determine bidding prices are receiving increasing attention as more and more ad impressions are sold through real-time bidding systems. This paper first describes the problem and challenges of optimizing bidding strategies for individual advertisers in real-time bidding display advertising. Then, several representative bidding strategies are introduced, especially the research advances and challenges of reinforcement learning-based bidding strategies. Further, we quantitatively evaluate the performance of several representative bidding strategies on the iPinYou dataset. Specifically, we examine the effects of state, action, and reward function on the performance of reinforcement learning-based bidding strategies. Finally, we summarize the general steps for optimizing bidding strategies using reinforcement learning algorithms and present our suggestions.
翻訳日:2022-12-11 12:51:31 公開日:2022-11-30
# ファンネルに基づく信号時間論理の強化学習

Reinforcement Learning for Signal Temporal Logic using Funnel-Based Approach ( http://arxiv.org/abs/2212.03181v1 )

ライセンス: Link先を確認
Naman Saxena, Gorantla Sandeep, Pushpak Jagtap(参考訳) Signal Temporal Logic (STL) は力学系の複雑な時間的・論理的な振る舞いを記述するための強力なフレームワークである。 いくつかの研究は強化学習を用いてstl仕様を満たすための制御器を見つける方法を提案しているが、連続状態空間におけるロバスト満足度の問題やアプローチの扱いやすさの確保には至っていない。 本稿では, ファンネル関数の概念を活かし, 連続状態空間におけるstl仕様の頑健な満足のための時間依存ポリシーを学習するための拡張学習アルゴリズムを提案する。 振り子と移動ロボットの例を用いて,いくつかのタスクにおけるアプローチの有用性を実証する。

Signal Temporal Logic (STL) is a powerful framework for describing the complex temporal and logical behaviour of the dynamical system. Several works propose a method to find a controller for the satisfaction of STL specification using reinforcement learning but fail to address either the issue of robust satisfaction in continuous state space or ensure the tractability of the approach. In this paper, leveraging the concept of funnel functions, we propose a tractable reinforcement learning algorithm to learn a time-dependent policy for robust satisfaction of STL specification in continuous state space. We demonstrate the utility of our approach on several tasks using a pendulum and mobile robot examples.
翻訳日:2022-12-11 12:51:21 公開日:2022-11-30
# 深層および浅層ニューラルネットワークによる近似の限界

Limitations on approximation by deep and shallow neural networks ( http://arxiv.org/abs/2212.02223v1 )

ライセンス: Link先を確認
Guergana Petrova and Przemys{\l}aw Wojtaszczyk(参考訳) 深部および浅部ニューラルネットワークによるコンパクト集合Kの近似誤差に対するカールの型不等式を証明する。 これにより、近似がそのようなネットワークの出力から来ることを要求するとき、K 内の函数がどれだけうまく近似できるかの低い境界が与えられる。 その結果,最近導入されたリプシッツ幅の研究の副産物として得られた。

We prove Carl's type inequalities for the error of approximation of compact sets K by deep and shallow neural networks. This in turn gives lower bounds on how well we can approximate the functions in K when requiring the approximants to come from outputs of such networks. Our results are obtained as a byproduct of the study of the recently introduced Lipschitz widths.
翻訳日:2022-12-11 12:51:08 公開日:2022-11-30
# ASRのためのSSCF誘導極座標に関する予備的検討

Preliminary Study on SSCF-derived Polar Coordinate for ASR ( http://arxiv.org/abs/2212.01245v1 )

ライセンス: Link先を確認
Sotheara Leang (CADT, M-PSI), Eric Castelli (M-PSI), Dominique Vaufreydaz (M-PSI), Sethserey Sam (CADT)(参考訳) 遷移角はスペクトルサブバンド・ケントロイドの音響空間における母音と母音の遷移を記述するために定義され, 話者と発話速度に類似していることが示唆された。 本稿では,その音響的軌跡を特徴付け,それを音声認識に用いることで,音声信号を記述するための角度を選好する極座標の利用について検討する。 BRAF100データセットで評価した実験結果によると、これらの極座標は混合およびクロスジェンダー音声認識の角度よりも有意に精度が高く、これらの表現が音声信号の音響的軌跡を定義するのに優れていることを示した。 さらに,第1次および第2次誘導体($\Delta$,$\Delta$$\Delta$)を用いて,特に交叉性認知において精度が有意に向上した。 しかし,従来のメル周波数ケプストラム係数(mfccs)に比べ,男女非依存であった。

The transition angles are defined to describe the vowel-to-vowel transitions in the acoustic space of the Spectral Subband Centroids, and the findings show that they are similar among speakers and speaking rates. In this paper, we propose to investigate the usage of polar coordinates in favor of angles to describe a speech signal by characterizing its acoustic trajectory and using them in Automatic Speech Recognition. According to the experimental results evaluated on the BRAF100 dataset, the polar coordinates achieved significantly higher accuracy than the angles in the mixed and cross-gender speech recognitions, demonstrating that these representations are superior at defining the acoustic trajectory of the speech signal. Furthermore, the accuracy was significantly improved when they were utilized with their first and second-order derivatives ($\Delta$, $\Delta$$\Delta$), especially in cross-female recognition. However, the results showed they were not much more gender-independent than the conventional Mel-frequency Cepstral Coefficients (MFCCs).
翻訳日:2022-12-05 16:31:15 公開日:2022-11-30
# cryptocoinsトレンド相関の理解

Understanding Cryptocoins Trends Correlations ( http://arxiv.org/abs/2212.01267v1 )

ライセンス: Link先を確認
Pasquale De Rosa and Valerio Schiavoni(参考訳) crypto-coins(暗号通貨とも呼ばれる)は取引可能なデジタル資産である。 有名な例としては、Bitcoin、Ether、Litecoinがある。 cryptocoinの所有権は分散台帳(ブロックチェーン)に登録される。 セキュアな暗号化技術は、台帳に登録されたトランザクション(所有者間のコインの転送)のセキュリティを保証する。 cryptocoinは特定の取引価格と交換される。 歴史的には、あらゆる異なる暗号資産の取引価格の極端なボラティリティを示しているが、異なる暗号通貨の取引価格の間に何と密接な関係があるのかは不明だ。 主要な通貨取引所(すなわちコインベース)はコイン所有者に傾向相関指標を提供し、買収や販売の可能性を示している。 しかし、これらの相関はほとんど無効である。 本稿では,コイン-価格相関の傾向を2年間にわたって調査することにより,さまざまな暗号通貨間のトレンド相関について光を当てた。 実験結果から,メインコイン(ethereum, bitcoin)とalt-coinsの間に強い相関パターンが示唆された。 我々は,暗号コインの文脈で時系列モデリングの予測技術を支援することができると考えている。 我々はデータセットとコードを公開し、研究コミュニティに分析を再現します。

Crypto-coins (also known as cryptocurrencies) are tradable digital assets. Notable examples include Bitcoin, Ether and Litecoin. Ownerships of cryptocoins are registered on distributed ledgers (i.e., blockchains). Secure encryption techniques guarantee the security of the transactions (transfers of coins across owners), registered into the ledger. Cryptocoins are exchanged for specific trading prices. While history has shown the extreme volatility of such trading prices across all different sets of crypto-assets, it remains unclear what and if there are tight relations between the trading prices of different cryptocoins. Major coin exchanges (i.e., Coinbase) provide trend correlation indicators to coin owners, suggesting possible acquisitions or sells. However, these correlations remain largely unvalidated. In this paper, we shed lights on the trend correlations across a large variety of cryptocoins, by investigating their coin-price correlation trends over a period of two years. Our experimental results suggest strong correlation patterns between main coins (Ethereum, Bitcoin) and alt-coins. We believe our study can support forecasting techniques for time-series modeling in the context of crypto-coins. We release our dataset and code to reproduce our analysis to the research community.
翻訳日:2022-12-05 16:21:46 公開日:2022-11-30
# デノジング深部生成モデル

Denoising Deep Generative Models ( http://arxiv.org/abs/2212.01265v1 )

ライセンス: Link先を確認
Gabriel Loaiza-Ganem, Brendan Leigh Ross, Luhuan Wu, John P. Cunningham, Jesse C. Cresswell, Anthony L. Caterini(参考訳) 類似性に基づく深層生成モデルは最近、低次元構造を持つモデルデータに高次元密度を用いた結果、多様体仮説の下での病理学的挙動を示すことが示されている。 本稿では,この問題に対処するための2つの手法を提案する。 どちらも、トレーニング中に次元ミスマッチを取り除くためにデータにガウスノイズを追加することに基づいており、どちらも、データにノイズが加えられていないかのようにモデルからサンプリングすることを目的としている。 第1のアプローチはツイーディの公式に基づいており、第2のアプローチは付加雑音の分散を条件入力とするモデルである。 これらの手法は, ノイズを伴わないことよりも, 散発的に性能を向上させるだけであり, 次元ミスマッチに対処する他の方法の方が経験的に適切であることを示す。

Likelihood-based deep generative models have recently been shown to exhibit pathological behaviour under the manifold hypothesis as a consequence of using high-dimensional densities to model data with low-dimensional structure. In this paper we propose two methodologies aimed at addressing this problem. Both are based on adding Gaussian noise to the data to remove the dimensionality mismatch during training, and both provide a denoising mechanism whose goal is to sample from the model as though no noise had been added to the data. Our first approach is based on Tweedie's formula, and the second on models which take the variance of added noise as a conditional input. We show that surprisingly, while well motivated, these approaches only sporadically improve performance over not adding noise, and that other methods of addressing the dimensionality mismatch are more empirically adequate.
翻訳日:2022-12-05 16:03:06 公開日:2022-11-30
# 染色体核型画像からの深部収差自動検出

Automated Deep Aberration Detection from Chromosome Karyotype Images ( http://arxiv.org/abs/2211.14312v2 )

ライセンス: Link先を確認
Zahra Shamsi, Drew Bryant, Jacob Wilson, Xiaoyu Qu, Avinava Dubey, Konik Kothari, Mostafa Dehghani, Mariya Chavarha, Valerii Likhosherstov, Brian Williams, Michael Frumkin, Fred Appelbaum, Krzysztof Choromanski, Ali Bashir, Min Fang(参考訳) 染色体解析は遺伝疾患の診断に不可欠である。 造血器腫瘍については, 核型分析による体性クローン異常の同定が基本である。 しかし、大半が手作業であり、収差の特定や注釈に要する専門知識のため、加量タイピングは高価で時間を要する。 核型分析を今日まで自動化する試みは、収差検出に不足していた。 フレッド・ハッチンソン癌センターから5年以上経過した約10k検体と約50k検体を用いて,各染色体のラベル付き画像群を作成した。 これらの染色体は、24個のヒト染色体の分類と染色体異常の同定のための深層学習モデルの訓練と評価に使用された。 最近導入されたトポロジカルビジョントランスフォーマ(topvits)と2レベルブロックトエプリッツマスキング(toeplitz masking)を用いたtop-accuracyモデルは、構造的インダクティブバイアスを取り入れている。 TopViTはCNN(インセプション)モデルで99.3%の精度で染色体同定を行い、ほとんどの収差における収差検出の精度は99%であった。 特に、"ファウショット"学習シナリオでも、高品質のパフォーマンスを示すことができました。 クローン性の定義を取り入れることで、精度とリコール(感度)を大きく改善した。 ゼロショット」のシナリオに適用すると、モデルはトレーニングなしで、50%以上のリコールで完全な精度で収差を捉えた。 これらの結果から,最新の深層学習モデルが染色体収差検出のエキスパートレベルの性能にアプローチできることが示唆された。 われわれの知る限り、TopViTの下流効果を示す最初の研究である。 これらの結果は、患者結果の迅速化だけでなく、低吸収染色体病変の早期スクリーニングのためのスケーラブルな技術を提供するエキサイティングな機会を開く。

Chromosome analysis is essential for diagnosing genetic disorders. For hematologic malignancies, identification of somatic clonal aberrations by karyotype analysis remains the standard of care. However, karyotyping is costly and time-consuming because of the largely manual process and the expertise required in identifying and annotating aberrations. Efforts to automate karyotype analysis to date fell short in aberration detection. Using a training set of ~10k patient specimens and ~50k karyograms from over 5 years from the Fred Hutchinson Cancer Center, we created a labeled set of images representing individual chromosomes. These individual chromosomes were used to train and assess deep learning models for classifying the 24 human chromosomes and identifying chromosomal aberrations. The top-accuracy models utilized the recently introduced Topological Vision Transformers (TopViTs) with 2-level-block-Toeplitz masking, to incorporate structural inductive bias. TopViT outperformed CNN (Inception) models with >99.3% accuracy for chromosome identification, and exhibited accuracies >99% for aberration detection in most aberrations. Notably, we were able to show high-quality performance even in "few shot" learning scenarios. Incorporating the definition of clonality substantially improved both precision and recall (sensitivity). When applied to "zero shot" scenarios, the model captured aberrations without training, with perfect precision at >50% recall. Together these results show that modern deep learning models can approach expert-level performance for chromosome aberration detection. To our knowledge, this is the first study demonstrating the downstream effectiveness of TopViTs. These results open up exciting opportunities for not only expediting patient results but providing a scalable technology for early screening of low-abundance chromosomal lesions.
翻訳日:2022-12-04 14:35:27 公開日:2022-11-30
# 共通メカニズムを用いたプライベートリニアクエリの応答

Answering Private Linear Queries Adaptively using the Common Mechanism ( http://arxiv.org/abs/2212.00135v1 )

ライセンス: Link先を確認
Yingtai Xiao, Guanhong Wang, Danfeng Zhang, Daniel Kifer(参考訳) プライバシフィルタを通じて機密データを分析する場合、データサイエンティストは、意図した分析に最も適したクエリを決定する必要がある。 例えば、アナリストはメカニズムm1によって生成されたデータセットでノイズの多い双方向のマージンを研究したいかもしれない。 しかし、データが比較的疎い場合、アナリストは、M2メカニズムによって生成されるノイズの多い片方向の限界を検査する。 M1 と M2 のどちらを使うかはデータに依存しているため、典型的な微分プライベートワークフローは、まずプライバシ損失予算 rho を rho1 と rho2 に分割し、次に最初の部分 rho1 を使ってどのメカニズムを使うかを決定する。 ある意味で、最初のステップは、クエリの回答をより正確にするために使われた可能性のあるプライバシー損失予算の一部を取り除いたため、無駄に思える。 本稿では,M1 と M2 の選択を,プライバシー損失の予算を無駄にすることなく行うことができるかどうかを考察する。 線形クエリでは,(1)共有情報をキャプチャするメカニズムM*,(2)M1に固有の情報をキャプチャするメカニズムM1,(3)M2に固有の情報をキャプチャするメカニズムM2,の3つに分割する手法を提案する。 m* と m1' を一緒に実行することは、m1 の実行と完全に等価である(クエリ応答精度と総プライバシーコストrhoの両方の観点から)。 同様に、M* と M2' は M2 と完全に等価である。 M*は、何があっても使用されるので、アナリストは、その出力を使用して、その後のM1'(M1がサポートする分析を再生する)かM2'(M2がサポートする分析を再生する)を、プライバシーの損失予算を無駄にすることなく、実行することができる。

When analyzing confidential data through a privacy filter, a data scientist often needs to decide which queries will best support their intended analysis. For example, an analyst may wish to study noisy two-way marginals in a dataset produced by a mechanism M1. But, if the data are relatively sparse, the analyst may choose to examine noisy one-way marginals, produced by a mechanism M2 instead. Since the choice of whether to use M1 or M2 is data-dependent, a typical differentially private workflow is to first split the privacy loss budget rho into two parts: rho1 and rho2, then use the first part rho1 to determine which mechanism to use, and the remainder rho2 to obtain noisy answers from the chosen mechanism. In a sense, the first step seems wasteful because it takes away part of the privacy loss budget that could have been used to make the query answers more accurate. In this paper, we consider the question of whether the choice between M1 and M2 can be performed without wasting any privacy loss budget. For linear queries, we propose a method for decomposing M1 and M2 into three parts: (1) a mechanism M* that captures their shared information, (2) a mechanism M1' that captures information that is specific to M1, (3) a mechanism M2' that captures information that is specific to M2. Running M* and M1' together is completely equivalent to running M1 (both in terms of query answer accuracy and total privacy cost rho). Similarly, running M* and M2' together is completely equivalent to running M2. Since M* will be used no matter what, the analyst can use its output to decide whether to subsequently run M1'(thus recreating the analysis supported by M1) or M2'(recreating the analysis supported by M2), without wasting privacy loss budget.
翻訳日:2022-12-02 17:57:05 公開日:2022-11-30
# レーザープラズマ物理におけるデータ駆動科学と機械学習

Data-driven Science and Machine Learning Methods in Laser-Plasma Physics ( http://arxiv.org/abs/2212.00026v1 )

ライセンス: Link先を確認
Andreas D\"opp, Christoph Eberle, Sunny Howard, Faran Irshad, Jinpu Lin and Matthew Streeter(参考訳) レーザープラズマ物理学は過去数十年で急速に発展し、レーザーはより強力で広く利用可能になった。 この分野における初期の実験および数値的研究は、パラメータ探索が制限された単発実験が中心であった。 しかし、最近の技術的改善により、実験とシミュレーションの両方で数百から数千の異なる設定のデータを集めることが可能になった。 これは、ビッグデータを扱うために数学、統計学、計算機科学の高度な技術を使うことに関心を引いた。 同時に、高度なモデリング技術は、研究者がまだスパースデータしか利用できない状況に効果的に対処する新しい方法を提供する。 本稿では,レーザープラズマ物理への適用性に着目した機械学習手法の概要と,レーザープラズマ加速と慣性閉じ込め融合の重要なサブフィールドについて述べる。

Laser-plasma physics has developed rapidly over the past few decades as lasers have become both more powerful and more widely available. Early experimental and numerical research in this field was dominated by single-shot experiments with limited parameter exploration. However, recent technological improvements make it possible to gather data for hundreds or thousands of different settings in both experiments and simulations. This has sparked interest in using advanced techniques from mathematics, statistics and computer science to deal with, and benefit from, big data. At the same time, sophisticated modeling techniques also provide new ways for researchers to deal effectively with situation where still only sparse data are available. This paper aims to present an overview of relevant machine learning methods with focus on applicability to laser-plasma physics and its important sub-fields of laser-plasma acceleration and inertial confinement fusion.
翻訳日:2022-12-02 17:51:27 公開日:2022-11-30
# 距離相関を考慮した特徴選択

Feature Selection with Distance Correlation ( http://arxiv.org/abs/2212.00046v1 )

ライセンス: Link先を確認
Ranit Das, Gregor Kasieczka and David Shih(参考訳) 特徴選択と呼ばれる多変量決定アルゴリズムの入力として使用するデータのプロパティを選択することは、機械学習で問題を解決するための重要なステップである。 比較的未処理な入力(いわゆる自動特徴工学)で高度なディープ・ネットワークを訓練する傾向は明らかであるが、物理学の多くのタスクでは、理論上はよく動機付けられ、よく理解された特徴がすでに存在している。 このような機能の開発には、解釈性の向上、トレーニングと実行時間の削減、安定性と堅牢性の向上など、多くのメリットがある。 本研究では,距離相関(disco)に基づく新しい特徴選択法を開発し,その効果をトップタグとw$タグで示す。 7,000以上のエネルギーフロー多項式の組から特徴を選択する手法を用いて,10個の特徴と2つの桁のモデルパラメータを用いることで,より深いアーキテクチャの性能に適合することを示す。

Choosing which properties of the data to use as input to multivariate decision algorithms -- a.k.a. feature selection -- is an important step in solving any problem with machine learning. While there is a clear trend towards training sophisticated deep networks on large numbers of relatively unprocessed inputs (so-called automated feature engineering), for many tasks in physics, sets of theoretically well-motivated and well-understood features already exist. Working with such features can bring many benefits, including greater interpretability, reduced training and run time, and enhanced stability and robustness. We develop a new feature selection method based on Distance Correlation (DisCo), and demonstrate its effectiveness on the tasks of boosted top- and $W$-tagging. Using our method to select features from a set of over 7,000 energy flow polynomials, we show that we can match the performance of much deeper architectures, by using only ten features and two orders-of-magnitude fewer model parameters.
翻訳日:2022-12-02 17:51:14 公開日:2022-11-30
# 都市・高速道路シナリオにおける環境適応クルーズ制御のための深層学習に基づく車両速度予測

Deep Learning-Based Vehicle Speed Prediction for Ecological Adaptive Cruise Control in Urban and Highway Scenarios ( http://arxiv.org/abs/2212.00149v1 )

ライセンス: Link先を確認
Sai Krishna Chada, Daniel G\"orges, Achim Ebert, Roman Teutsch(参考訳) 典型的な車追従シナリオでは、目標車両の速度変動がホスト車両の外部障害となり、そのエネルギー消費に影響を及ぼす。 モデル予測制御(MPC)を用いてホスト車両をエネルギー効率よく制御し、さらに、環境適応型クルーズ制御(EACC)戦略の性能を高め、対象車両の将来速度を予測することが不可欠である。 本研究は,長寿命メモリ(LSTM)とゲートリカレントユニット(GRU)を用いたディープリカレントニューラルネットワークに基づく車両速度予測について検討した。 これらに加えて、物理に基づく定速度(CV)と定加速度(CA)モデルについて議論した。 微視的交通シミュレータSUMOで作成した都市・高速道路ネットワークから、トレーニング用時系列データ(例えば、車両間通信(V2V)、道路速度制限、車両間通信(V2I)を用いて収集された目標及び先行車両の速度軌跡)を収集する。 提案する速度予測モデルは、目標車両の将来速度の長期予測(最大10秒)のために評価される。 さらに,lstmをベースとする速度予測器は他のモデルよりも精度のよいテストデータセット上での予測精度が向上し,一般化能力も向上した。 さらに、予測速度に対するeacc搭載ホストカーの性能を評価し、その省エネ効果を予測の地平線で示した。

In a typical car-following scenario, target vehicle speed fluctuations act as an external disturbance to the host vehicle and in turn affect its energy consumption. To control a host vehicle in an energy-efficient manner using model predictive control (MPC), and moreover, enhance the performance of an ecological adaptive cruise control (EACC) strategy, forecasting the future velocities of a target vehicle is essential. For this purpose, a deep recurrent neural network-based vehicle speed prediction using long-short term memory (LSTM) and gated recurrent units (GRU) is studied in this work. Besides these, the physics-based constant velocity (CV) and constant acceleration (CA) models are discussed. The sequential time series data for training (e.g. speed trajectories of the target and its preceding vehicles obtained through vehicle-to-vehicle (V2V) communication, road speed limits, traffic light current and future phases collected using vehicle-to-infrastructure (V2I) communication) is gathered from both urban and highway networks created in the microscopic traffic simulator SUMO. The proposed speed prediction models are evaluated for long-term predictions (up to 10 s) of target vehicle future velocities. Moreover, the results revealed that the LSTM-based speed predictor outperformed other models in terms of achieving better prediction accuracy on unseen test datasets, and thereby showcasing better generalization ability. Furthermore, the performance of EACC-equipped host car on the predicted velocities is evaluated, and its energy-saving benefits for different prediction horizons are presented.
翻訳日:2022-12-02 17:50:58 公開日:2022-11-30
# サプライチェーンロジスティクス応用のための量子ニューラルネットワーク

Quantum Neural Networks for a Supply Chain Logistics Application ( http://arxiv.org/abs/2212.00576v1 )

ライセンス: Link先を確認
Randall Correll (1), Sean J. Weinberg (1), Fabio Sanches (1), Takanori Ide (2) and Takafumi Suzuki (3) ((1) QC Ware Corp Palo Alto, (2) AISIN CORPORATION Tokyo, (3) Aisin Technical Research Center, Tokyo)(参考訳) 実用用途に適したサイズの問題インスタンスは、(ほぼ)純粋量子アルゴリズムを用いて、ノイズの多い中間スケール量子(NISQ)期間に対処することができない。 しかし、ハイブリッド古典量子アルゴリズムは、はるかに大きな問題インスタンスで優れたパフォーマンスを達成する可能性がある。 複数のトラックと複雑な需要構造を備えたサプライチェーンロジスティクスのための車両ルーティングという,重要な問題に関する1つのハイブリッドアルゴリズムについて検討する。 量子回路を組み込んだニューラルネットワークによる強化学習を用いる。 このようなニューラルネットワークでは、NISQハードウェアの量子ビット数を制限するために、高次元特徴ベクトルをより小さなベクトルに投影する必要がある。 しかし,従来の機械学習においても,このようなプロジェクションは自然で望ましいというマルチヘッドアテンション機構を用いている。 我々は、自動車部門における企業のトラック運行のロジスティクスからのデータを検討し、トラックの小さなチームに分解して方法論を適用し、人間のトラック配置に匹敵する結果を得る。

Problem instances of a size suitable for practical applications are not likely to be addressed during the noisy intermediate-scale quantum (NISQ) period with (almost) pure quantum algorithms. Hybrid classical-quantum algorithms have potential, however, to achieve good performance on much larger problem instances. We investigate one such hybrid algorithm on a problem of substantial importance: vehicle routing for supply chain logistics with multiple trucks and complex demand structure. We use reinforcement learning with neural networks with embedded quantum circuits. In such neural networks, projecting high-dimensional feature vectors down to smaller vectors is necessary to accommodate restrictions on the number of qubits of NISQ hardware. However, we use a multi-head attention mechanism where, even in classical machine learning, such projections are natural and desirable. We consider data from the truck routing logistics of a company in the automotive sector, and apply our methodology by decomposing into small teams of trucks, and we find results comparable to human truck assignment.
翻訳日:2022-12-02 17:32:59 公開日:2022-11-30
# ディープラーニングを用いた次世代DNAシークエンシングからのスケーラブルな病原体検出

Scalable Pathogen Detection from Next Generation DNA Sequencing with Deep Learning ( http://arxiv.org/abs/2212.00015v1 )

ライセンス: Link先を確認
Sai Narayanan and Sathyanarayanan N. Aakur and Priyadharsini Ramamurthy and Arunkumar Bagavathi and Vishalini Ramnath and Akhilesh Ramachandran(参考訳) 次世代シークエンシング技術は、異種ソースから収集されたゲノムデータの豊富さを削減して、パーソナライズドメディカルな医療のためのゲノム学を含むように、IoT(Internet-of-Things)の範囲を拡大した。 収集されたデータの規模と種間で非常に類似したゲノム構造が存在することによる重要な課題を考えると、動物病原体の存在のような実行可能な知識を抽出する堅牢でスケーラブルな分析プラットフォームが必要である。 1918年のインフルエンザウイルス(英語版)や2019年のSARS-CoV-2(英語版)のような新規の病原体からの動物性疾患の出現は、種の障壁を跳躍し、パンデミックを引き起こす可能性がある。 本研究では,トランスフォーマーネットワークをバックボーンとして使用するディープラーニングベースのソリューションMG2Vecを提案し,ターゲットや汎用病原体検出などの下流バイオメディカルタスクのための生メタジェノム配列からロバストな特徴を学習する。 より困難で現実的な4つの診断設定に関する大規模な実験は、提案手法が、ラベルの形で人間の監督を最小限に抑えながら、未治療の現実世界の臨床サンプルから病原体を検出するのに役立つことを示している。 さらに, 大規模メタジェノム解析のために, 学習された表現が病原体や種間で全く無関係な病原体に一般化できることを実証した。 深層学習を用いたメタゲノメベースの疾患診断のための新しい表現学習フレームワークの包括的評価と、低コストな次世代シークエンシングからロバストなベクトル表現を抽出・利用し、汎用的な診断ツールを開発するための方法を提供する。

Next-generation sequencing technologies have enhanced the scope of Internet-of-Things (IoT) to include genomics for personalized medicine through the increased availability of an abundance of genome data collected from heterogeneous sources at a reduced cost. Given the sheer magnitude of the collected data and the significant challenges offered by the presence of highly similar genomic structure across species, there is a need for robust, scalable analysis platforms to extract actionable knowledge such as the presence of potentially zoonotic pathogens. The emergence of zoonotic diseases from novel pathogens, such as the influenza virus in 1918 and SARS-CoV-2 in 2019 that can jump species barriers and lead to pandemic underscores the need for scalable metagenome analysis. In this work, we propose MG2Vec, a deep learning-based solution that uses the transformer network as its backbone, to learn robust features from raw metagenome sequences for downstream biomedical tasks such as targeted and generalized pathogen detection. Extensive experiments on four increasingly challenging, yet realistic diagnostic settings, show that the proposed approach can help detect pathogens from uncurated, real-world clinical samples with minimal human supervision in the form of labels. Further, we demonstrate that the learned representations can generalize to completely unrelated pathogens across diseases and species for large-scale metagenome analysis. We provide a comprehensive evaluation of a novel representation learning framework for metagenome-based disease diagnostics with deep learning and provide a way forward for extracting and using robust vector representations from low-cost next generation sequencing to develop generalizable diagnostic tools.
翻訳日:2022-12-02 17:26:35 公開日:2022-11-30
# 多波長回折深層ニューラルネットワークを用いた光マルチタスク学習

Optical multi-task learning using multi-wavelength diffractive deep neural networks ( http://arxiv.org/abs/2212.00022v1 )

ライセンス: Link先を確認
Zhengyang Duan, Hang Chen, Xing Lin(参考訳) フォトニックニューラルネットワーク(英: Photonic Neural Network)は、人工知能(AI)タスクを実行するために電子の代わりに光子を用いて脳にインスパイアされた情報処理技術である。 しかしながら、既存のアーキテクチャは単一のタスク用に設計されているが、モデルパフォーマンスを低下させるタスク競合のため、単一のモノリシックシステム内で異なるタスクを並列に多重化できない。 本稿では,多波長回折深層ニューラルネットワーク(d2nns)を共同で設計し,新しい光マルチタスク学習システムを提案する。 マルチタスク入力をマルチ波長チャネルにエンコードすることで、計算スループットを高め、高い精度で複数のタスクを並行して実行する競合を著しく軽減することができる。 我々は、MNIST、FMNIST、KMNIST、EMNISTデータベースから異なる入力を分類するために、2つのスペクトルチャネルを持つ2タスクD2NNと4タスクD2NNをそれぞれ設計する。 数値評価の結果,mul-ti 波長 d2nn は単波長 d2nn よりも,マルチタスク学習の分類精度が有意に高いことがわかった。 さらに、ネットワークサイズを増加させることで、複数のタスクを同時に実行するマルチ波長d2nnは、複数のシングル波長d2nnの個別トレーニングに対して同等の分類精度を達成し、タスクを別々に実行する。 我々の研究は、高スループットニューロモルフィックフォトニックコンピューティングとより一般的なAIシステムを実現するために、波長分割多重化技術を開発するための道を開いた。

Photonic neural networks are brain-inspired information processing technology using photons instead of electrons to perform artificial intelligence (AI) tasks. However, existing architectures are designed for a single task but fail to multiplex different tasks in parallel within a single monolithic system due to the task competition that deteriorates the model performance. This paper proposes a novel optical multi-task learning system by designing multi-wavelength diffractive deep neural networks (D2NNs) with the joint optimization method. By encoding multi-task inputs into multi-wavelength channels, the system can increase the computing throughput and significantly alle-viate the competition to perform multiple tasks in parallel with high accuracy. We design the two-task and four-task D2NNs with two and four spectral channels, respectively, for classifying different inputs from MNIST, FMNIST, KMNIST, and EMNIST databases. The numerical evaluations demonstrate that, under the same network size, mul-ti-wavelength D2NNs achieve significantly higher classification accuracies for multi-task learning than single-wavelength D2NNs. Furthermore, by increasing the network size, the multi-wavelength D2NNs for simultaneously performing multiple tasks achieve comparable classification accuracies with respect to the individual training of multiple single-wavelength D2NNs to perform tasks separately. Our work paves the way for developing the wave-length-division multiplexing technology to achieve high-throughput neuromorphic photonic computing and more general AI systems to perform multiple tasks in parallel.
翻訳日:2022-12-02 17:26:05 公開日:2022-11-30
# 微生物ペプチド-ミメティック共重合体の精密発見を指向したランダムコポリマー逆設計系

Random Copolymer inverse design system orienting on Accurate discovering of Antimicrobial peptide-mimetic copolymers ( http://arxiv.org/abs/2212.00023v1 )

ライセンス: Link先を確認
Tianyu Wu, Yang Tang(参考訳) 抗微生物抵抗性は、特にCOVID-19パンデミックの現在の期間における最大の健康問題の一つである。 特異的な膜分解殺菌機構により, 抗菌性ペプチド-ミメティック共重合体はより注目され, 広スペクトル抗菌効果と低毒性の候補がより多く見出されることが急務である。 人工知能は、小さな分子やバイオテクノロジーの薬物に対して顕著な性能を示したが、高分子空間の高次元化と実験データの制限により、コポリマー設計への既存の手法の適用が制限された。 本稿では,多モデル共重合体表現学習,知識蒸留,強化学習による汎用ランダム共重合逆設計システムを開発した。 マルチモーダル共重合体表現から各種化学情報を抽出することにより, 微量データを用いて高精度な抗菌活性予測を実現する。 知識蒸留による足場-デコレータ生成モデルの事前学習により、共重合体空間は探索のための既存のデータの近接空間に大きく収縮する。 したがって、強化学習アルゴリズムは、特定の足場とプロパティや構造に関する要件に基づいてカスタマイズされた生成に適応することができる。 得られた抗菌ペプチド-ミメティック共重合体データに本システムを適用し, 所望の特性を有する候補共重合体を発見した。

Antimicrobial resistance is one of the biggest health problem, especially in the current period of COVID-19 pandemic. Due to the unique membrane-destruction bactericidal mechanism, antimicrobial peptide-mimetic copolymers are paid more attention and it is urgent to find more potential candidates with broad-spectrum antibacterial efficacy and low toxicity. Artificial intelligence has shown significant performance on small molecule or biotech drugs, however, the higher-dimension of polymer space and the limited experimental data restrict the application of existing methods on copolymer design. Herein, we develop a universal random copolymer inverse design system via multi-model copolymer representation learning, knowledge distillation and reinforcement learning. Our system realize a high-precision antimicrobial activity prediction with few-shot data by extracting various chemical information from multi-modal copolymer representations. By pre-training a scaffold-decorator generative model via knowledge distillation, copolymer space are greatly contracted to the near space of existing data for exploration. Thus, our reinforcement learning algorithm can be adaptive for customized generation on specific scaffolds and requirements on property or structures. We apply our system on collected antimicrobial peptide-mimetic copolymers data, and we discover candidate copolymers with desired properties.
翻訳日:2022-12-02 17:25:38 公開日:2022-11-30
# マルチエージェントシステムにおける真の無損失スパース通信を目指して

Towards True Lossless Sparse Communication in Multi-Agent Systems ( http://arxiv.org/abs/2212.00115v1 )

ライセンス: Link先を確認
Seth Karten, Mycal Tucker, Siva Kailas, Katia Sycara(参考訳) コミュニケーションは、エージェントが目標を達成するために協力することを可能にする。 コミュニケーションのタイミング、すなわち(時間内に)スパースなコミュニケーションを学ぶことは、帯域幅が制限されたときに特に重要である。 しかし、近年のスパース個別化コミュニケーションの学習作業は、特に協調作業において、コミュニケーションの減少が報酬の減少の犠牲となる訓練中に高いばらつきに悩まされている。 本研究では,情報ボトルネックを表現学習問題として再編成し,従来の技術よりも低予算で損失のない疎間通信を可能にすることを示す。 本稿では,IMGS-MAC (Information Maximizing Gated Sparse Multi-Agent Communication) を用いた通信における真のロスレス空間化手法を提案する。 我々のモデルは情報最大化オートエンコーダとスパース通信損失の2つの個別化正規化目標を用いて情報通信とスパース通信を作成する。 非スパースランにおけるメッセージの直接因果分析によって学習した「言語」を評価し、ゼロショットスパースを許容するロスレススパース予算の範囲と、最小ショットスパースで学習ゲーティング関数によって最小化された報酬損失を問うスパース予算の範囲を決定する。 この結果の有効性を示すために,コミュニケーションが成功に不可欠である協調マルチエージェントタスクを実験した。 連続メッセージと離散メッセージの両方でモデルを評価する。 我々は,その特性を含むメッセージ表現の効果と,モデルの性能を損なうことなく示すために,さまざまなアブリケーションに着目した分析を行った。

Communication enables agents to cooperate to achieve their goals. Learning when to communicate, i.e., sparse (in time) communication, and whom to message is particularly important when bandwidth is limited. Recent work in learning sparse individualized communication, however, suffers from high variance during training, where decreasing communication comes at the cost of decreased reward, particularly in cooperative tasks. We use the information bottleneck to reframe sparsity as a representation learning problem, which we show naturally enables lossless sparse communication at lower budgets than prior art. In this paper, we propose a method for true lossless sparsity in communication via Information Maximizing Gated Sparse Multi-Agent Communication (IMGS-MAC). Our model uses two individualized regularization objectives, an information maximization autoencoder and sparse communication loss, to create informative and sparse communication. We evaluate the learned communication `language' through direct causal analysis of messages in non-sparse runs to determine the range of lossless sparse budgets, which allow zero-shot sparsity, and the range of sparse budgets that will inquire a reward loss, which is minimized by our learned gating function with few-shot sparsity. To demonstrate the efficacy of our results, we experiment in cooperative multi-agent tasks where communication is essential for success. We evaluate our model with both continuous and discrete messages. We focus our analysis on a variety of ablations to show the effect of message representations, including their properties, and lossless performance of our model.
翻訳日:2022-12-02 17:25:17 公開日:2022-11-30
# DEL-Dock:DNAエンコードライブラリーの分子ドッキング-許容モデリング

DEL-Dock: Molecular Docking-Enabled Modeling of DNA-Encoded Libraries ( http://arxiv.org/abs/2212.00136v1 )

ライセンス: Link先を確認
Kirill Shmilovich, Benson Chen, Theofanis Karaletos, Mohammad M. Sultan(参考訳) dnaエンコードライブラリ(del)技術は,コンビネータが生成する分子ライブラリの効率的なテストを可能にすることにより,ヒット識別の大幅な進歩を実現している。 DELスクリーンはタンパク質の結合親和性を測定するが、特定のDNAバーコードでタグ付けされた分子をシークエンシングする。 逐次カウントデータと相関する潜伏結合親和性を学ぶために計算モデルが展開されているが、この相関は複雑なデータ生成プロセスで導入された様々なノイズ源によって隠蔽されることが多い。 優れた結合親和性を持つ分子のDELカウントデータとスクリーンを識別するために、計算モデルは、データの背後にある正しい信号を取得するために、モデリング構造における正しい仮定を必要とする。 DELモデルの最近の進歩は、カウントデータの確率的定式化に焦点が当てられているが、既存のアプローチは2次元分子レベルの表現のみを利用することに限られている。 我々は、リガンドベースの記述子とドッキングされたタンパク質-リガンド複合体の3次元空間情報を組み合わせた新しいパラダイムDEL-Dockを導入する。 3次元空間情報により、リガンドの構造化情報のみを用いることよりも、実際の結合モードを学習することができる。 本モデルでは,DELカウントデータを効果的にデノベートして,実験結合親和性測定と従来よりも相関のよい分子富化スコアを予測できることが示されている。 さらにドッキングされたポーズの集合を学習することで、我々のモデルはDELデータのみに基づいて訓練され、高価なタンパク質結晶構造からの外部の監督を必要とせず、暗黙的にドッキングポーズの選択を行う。

DNA-Encoded Library (DEL) technology has enabled significant advances in hit identification by enabling efficient testing of combinatorially-generated molecular libraries. DEL screens measure protein binding affinity though sequencing reads of molecules tagged with unique DNA-barcodes that survive a series of selection experiments. Computational models have been deployed to learn the latent binding affinities that are correlated to the sequenced count data; however, this correlation is often obfuscated by various sources of noise introduced in its complicated data-generation process. In order to denoise DEL count data and screen for molecules with good binding affinity, computational models require the correct assumptions in their modeling structure to capture the correct signals underlying the data. Recent advances in DEL models have focused on probabilistic formulations of count data, but existing approaches have thus far been limited to only utilizing 2-D molecule-level representations. We introduce a new paradigm, DEL-Dock, that combines ligand-based descriptors with 3-D spatial information from docked protein-ligand complexes. 3-D spatial information allows our model to learn over the actual binding modality rather than using only structured-based information of the ligand. We show that our model is capable of effectively denoising DEL count data to predict molecule enrichment scores that are better correlated with experimental binding affinity measurements compared to prior works. Moreover, by learning over a collection of docked poses we demonstrate that our model, trained only on DEL data, implicitly learns to perform good docking pose selection without requiring external supervision from expensive-to-source protein crystal structures.
翻訳日:2022-12-02 17:24:49 公開日:2022-11-30
# 高周波株式取引データのための新規モデリング戦略

Novel Modelling Strategies for High-frequency Stock Trading Data ( http://arxiv.org/abs/2212.00148v1 )

ライセンス: Link先を確認
Xuekui Zhang, Yuying Huang, Ke Xu and Li Xing(参考訳) 証券取引所における完全電子的自動化が最近普及し、高周波の日内データを生成し、ほぼリアルタイムな価格予測手法の開発を動機付けている。 機械学習アルゴリズムは価格の中間株価予測に広く適用されている。 予測モデル(例えば、データ薄型化や特徴工学)の入力として生データを処理することは、主に予測手法の性能に影響する。 しかし、研究者はこの話題についてはほとんど議論しない。 これは生データ処理のための3つの新しいモデリング戦略を提案する動機となった。 提案手法は,ダウ・ジョーンズ30成分株の高周波データを分析し,予測性能を向上させるものである。 これらの実験において、我々の戦略は予測の統計的に顕著な改善をもたらすことが多い。 3つの戦略はSVMモデルのF1スコアをそれぞれ0.056、0.087、0.016で改善する。

Full electronic automation in stock exchanges has recently become popular, generating high-frequency intraday data and motivating the development of near real-time price forecasting methods. Machine learning algorithms are widely applied to mid-price stock predictions. Processing raw data as inputs for prediction models (e.g., data thinning and feature engineering) can primarily affect the performance of the prediction methods. However, researchers rarely discuss this topic. This motivated us to propose three novel modelling strategies for processing raw data. We illustrate how our novel modelling strategies improve forecasting performance by analyzing high-frequency data of the Dow Jones 30 component stocks. In these experiments, our strategies often lead to statistically significant improvement in predictions. The three strategies improve the F1 scores of the SVM models by 0.056, 0.087, and 0.016, respectively.
翻訳日:2022-12-02 17:24:21 公開日:2022-11-30
# 視覚的クラスタランク付けによる時間効率逆学習

Time-Efficient Reward Learning via Visually Assisted Cluster Ranking ( http://arxiv.org/abs/2212.00169v1 )

ライセンス: Link先を確認
David Zhang, Micah Carroll, Andreea Bobu, Anca Dragan(参考訳) 報酬学習の最も成功したパラダイムの1つは、比較の形で人間のフィードバックを使用する。 これらの手法は有望であるが、人間の比較ラベル付けは高価で時間がかかるため、幅広い適用可能性において大きなボトルネックとなる。 我々の洞察は、それぞれの比較を個別にラベル付けるのではなく、比較をバッチ化することで、これらのアプローチで人間の時間がどのように効果的に使用されるかを大幅に改善できるということです。 そこで我々は,データ次元推論と可視化技術を利用して,ユーザが状態空間のサブポートをラベル付けできる状態空間を表示する対話型guiを提供する。 いくつかの単純なmujocoタスクをまたいで、このハイレベルなアプローチが約束を守っており、同じ量の人間のラベル付け時間を提供しながら、結果のエージェントのパフォーマンスを大幅に向上できることを示した。

One of the most successful paradigms for reward learning uses human feedback in the form of comparisons. Although these methods hold promise, human comparison labeling is expensive and time consuming, constituting a major bottleneck to their broader applicability. Our insight is that we can greatly improve how effectively human time is used in these approaches by batching comparisons together, rather than having the human label each comparison individually. To do so, we leverage data dimensionality-reduction and visualization techniques to provide the human with a interactive GUI displaying the state space, in which the user can label subportions of the state space. Across some simple Mujoco tasks, we show that this high-level approach holds promise and is able to greatly increase the performance of the resulting agents, provided the same amount of human labeling time.
翻訳日:2022-12-02 17:24:10 公開日:2022-11-30
# OpenApePose:ポーズ推定のための注釈付き猿の写真データベース

OpenApePose: a database of annotated ape photographs for pose estimation ( http://arxiv.org/abs/2212.00741v1 )

ライセンス: Link先を確認
Nisarg Desai, Praneet Bala, Rebecca Richardson, Jessica Raper, Jan Zimmermann, Benjamin Hayden(参考訳) 人間との密接な関係から、非ヒト類人猿(チンパンジー、ボノボ、ゴリラ、オランウータン、シャムアンを含むギボン)は非常に科学的に興味深い。 複雑な行動を理解するという目標は、ビデオベースのポーズ追跡を行う能力によって大きく進歩する。 しかし、追跡には高品質な猿写真の注釈付きデータセットが必要である。 ここでは,自然主義的な文脈で6種の類人猿の標本を16の目印で注釈した,71,868枚の写真からなる新しい公開データセットであるopenapeposeについて紹介する。 我々は、猿(特にOpenMonkeyPoseデータセット)や人間(COCO)で訓練されたネットワークよりも、猿の写真で訓練された標準的なディープネット(HRNet-W48)が、確実にサンプル外の猿の写真を追跡することができることを示した。 この訓練されたネットワークは猿を追跡できるだけでなく、他のネットワークがそれぞれの分類を追跡できる。 最終的に,動物追跡システムにおける大規模専門データベースの重要性を強調し,新たな猿データベースの有用性を確認した。

Because of their close relationship with humans, non-human apes (chimpanzees, bonobos, gorillas, orangutans, and gibbons, including siamangs) are of great scientific interest. The goal of understanding their complex behavior would be greatly advanced by the ability to perform video-based pose tracking. Tracking, however, requires high-quality annotated datasets of ape photographs. Here we present OpenApePose, a new public dataset of 71,868 photographs, annotated with 16 body landmarks, of six ape species in naturalistic contexts. We show that a standard deep net (HRNet-W48) trained on ape photos can reliably track out-of-sample ape photos better than networks trained on monkeys (specifically, the OpenMonkeyPose dataset) and on humans (COCO) can. This trained network can track apes almost as well as the other networks can track their respective taxa, and models trained without one of the six ape species can track the held out species better than the monkey and human models can. Ultimately, the results of our analyses highlight the importance of large specialized databases for animal tracking systems and confirm the utility of our new ape database.
翻訳日:2022-12-02 17:16:18 公開日:2022-11-30
# 数値病理学における健康デジタル双生児の利用の展望

A perspective on the use of health digital twins in computational pathology ( http://arxiv.org/abs/2212.00573v1 )

ライセンス: Link先を確認
Manuel Cossio(参考訳) デジタル健康双生児は、この特定の場合、患者において、物理的な人の仮想モデルとして定義することができる。 この仮想モデルは、臨床、分子、治療パラメータからセンサーデータや生活条件まで、多次元のデータによって構成される。 計算病理学においては、画像提供者から情報を得て計算モデルを作成することが重要であることから、この分野におけるデジタルツインの統合は重要である。 しかし、これらの仮想エンティティは物理的な人々から機密データを収集するため、プライバシ保護も考慮し実装する必要がある。 これらのデータ保護が実現すれば、医療用デジタル双生児はデジタル臨床試験を統合することができ、両方の分野を積極的に変える現実世界の証拠の生成に必要となる。

A digital health twin can be defined as a virtual model of a physical person, in this specific case, a patient. This virtual model is constituted by multidimensional data that can host from clinical, molecular and therapeutic parameters to sensor data and living conditions. Given that in computational pathology, it is very important to have the information from image donors to create computational models, the integration of digital twins in this field could be crucial. However, since these virtual entities collect sensitive data from physical people, privacy safeguards must also be considered and implemented. With these data safeguards in place, health digital twins could integrate digital clinical trials and be necessary participants in the generation of real-world evidence, which could positively change both fields.
翻訳日:2022-12-02 17:14:52 公開日:2022-11-30
# 再構成可能な製造システムのための知識発見を用いたシミュレーションに基づく多目的最適化手法

An enhanced simulation-based multi-objective optimization approach with knowledge discovery for reconfigurable manufacturing systems ( http://arxiv.org/abs/2212.00581v1 )

ライセンス: Link先を確認
Carlos Alberto Barrera-Diaz, Amir Nourmohammdi, Henrik Smedberg, Tehseen Aslam, Amos H.C. Ng(参考訳) 現在の不確実で競争の激しい市場では、企業は製品ライフサイクルの短縮と頻繁なボリューム変化に苦しめられ、再構成可能な製造システム(RMS)アプリケーションは製造業の成功に重要な役割を果たす。 rmsが提供する利点にもかかわらず、高い効率度を達成することは、これらの複雑なシステム固有のトレードオフ決定に直面したとき、ステークホルダーや意思決定者にとって困難なタスクとなる。 本研究では、ワークステーションへのワークタスクとリソース割り当てと、RMSのバッファ容量割り当てについて述べる。 本研究の目的は,システムの確率的挙動を考慮しつつ,生産量と容量変化の変動に伴うスループットの最大化とバッファ容量の最小化を同時に行うことである。 シミュレーションと最適化コンポーネントをカスタマイズしたsmo(enhanced simulation-based multi-objective optimization)アプローチを提案する。 ボリュームとキャパシティの変化に係わる最適解を提示することとは別に,提案手法では,rms設計をより深く理解するための発見知識を持つ意思決定者を支援する。 特に,問題固有のSMOと,RMSの最適化と最適後の分析を行うための新しいフレキシブルパターンマイニング手法を組み合わせる。 本研究では, RMSの迅速な意思決定支援と生産計画にSMOと知識発見手法を適用することのメリットを実証する。

In today's uncertain and competitive market, where enterprises are subjected to increasingly shortened product life-cycles and frequent volume changes, reconfigurable manufacturing systems (RMS) applications play a significant role in the manufacturing industry's success. Despite the advantages offered by RMS, achieving a high-efficiency degree constitutes a challenging task for stakeholders and decision-makers when they face the trade-off decisions inherent in these complex systems. This study addresses work tasks and resource allocations to workstations together with buffer capacity allocation in RMS. The aim is to simultaneously maximize throughput and minimize total buffer capacity under fluctuating production volumes and capacity changes while considering the stochastic behavior of the system. An enhanced simulation-based multi-objective optimization (SMO) approach with customized simulation and optimization components is proposed to address the abovementioned challenges. Apart from presenting the optimal solutions subject to volume and capacity changes, the proposed approach support decision-makers with discovered knowledge to further understand the RMS design. In particular, this study presents a problem-specific customized SMO combined with a novel flexible pattern mining method for optimizing RMS and conducting post-optimal analyzes. To this extent, this study demonstrates the benefits of applying SMO and knowledge discovery methods for fast decision-support and production planning of RMS.
翻訳日:2022-12-02 16:59:16 公開日:2022-11-30
# xTrimoABFold:多重配列アライメントのない抗体構造予測の改善

xTrimoABFold: Improving Antibody Structure Prediction without Multiple Sequence Alignments ( http://arxiv.org/abs/2212.00735v1 )

ライセンス: Link先を確認
Yining Wang, Xumeng Gong, Shaochuan Li, Bing Yang, YiWu Sun, Chuan Shi, Hui Li, Yangang Wang, Cheng Yang, Le Song(参考訳) 抗体工学の分野では、パラトープが正しいエピトープを持つ特定の抗原に結合する新しい抗体を設計することが重要な課題である。 抗体構造とそのパラトープを理解することは、その機能の機械的理解を促進する。 したがって、その配列だけでの抗体構造予測は、デノボ抗体の設計において非常に重要な問題である。 AlphaFold2は構造生物学の分野におけるブレークスルーであり、タンパク質配列と計算に高価な共進化的多重配列アライメント(MSA)に基づいてタンパク質構造を予測するソリューションを提供する。 しかしながら、特に抗体の相補性決定領域(cdrs)における抗体の計算効率と望ましくない予測精度は、工業的に高スループットな薬物設計におけるそれらの応用を制限する。 抗体のインフォメーション表現を学ぶために,我々は,観察された抗体空間データベースからトランスフォーマモデルを介してキュレートされた配列に対して,ディープ抗体言語モデル(alm)を用いた。 我々はまた,事前訓練されたALMと効率的なエボフォーマおよび構造モジュールに基づいて,抗体配列から抗体構造を予測する新しいモデルxTrimoABFoldを開発した。 CDRにおけるドメイン特異的焦点損失のアンサンブル損失とフレーム整合点損失を最小化し,PDBの抗体構造をエンドツーエンドに学習した。 xtrimoabfold は alphafold2 や他のタンパク質言語モデルベースの sota、例えば omegafold, helixfold-single, igfold よりも大きなマージン(rmsd では 30+\% 改善)を持ち、alphafold2 よりも 151 倍高速である。 我々の知る限りでは、xTrimoABFoldは最先端の抗体構造予測を達成した。 精度と効率の両面での改善により、デノボ抗体の設計に有用なツールとなり、免疫理論のさらなる改善が期待できる。

In the field of antibody engineering, an essential task is to design a novel antibody whose paratopes bind to a specific antigen with correct epitopes. Understanding antibody structure and its paratope can facilitate a mechanistic understanding of its function. Therefore, antibody structure prediction from its sequence alone has always been a highly valuable problem for de novo antibody design. AlphaFold2, a breakthrough in the field of structural biology, provides a solution to predict protein structure based on protein sequences and computationally expensive coevolutionary multiple sequence alignments (MSAs). However, the computational efficiency and undesirable prediction accuracy of antibodies, especially on the complementarity-determining regions (CDRs) of antibodies limit their applications in the industrially high-throughput drug design. To learn an informative representation of antibodies, we employed a deep antibody language model (ALM) on curated sequences from the observed antibody space database via a transformer model. We also developed a novel model named xTrimoABFold to predict antibody structure from antibody sequence based on the pretrained ALM as well as efficient evoformers and structural modules. The model was trained end-to-end on the antibody structures in PDB by minimizing the ensemble loss of domain-specific focal loss on CDR and the frame-aligned point loss. xTrimoABFold outperforms AlphaFold2 and other protein language model based SOTAs, e.g., OmegaFold, HelixFold-Single, and IgFold with a large significant margin (30+\% improvement on RMSD) while performing 151 times faster than AlphaFold2. To the best of our knowledge, xTrimoABFold achieved state-of-the-art antibody structure prediction. Its improvement in both accuracy and efficiency makes it a valuable tool for de novo antibody design and could make further improvements in immuno-theory.
翻訳日:2022-12-02 16:58:54 公開日:2022-11-30
# 米国における責任ある人工知能の優先政策

Prioritizing Policies for Furthering Responsible Artificial Intelligence in the United States ( http://arxiv.org/abs/2212.00740v1 )

ライセンス: Link先を確認
Emily Hadley(参考訳) 人工知能(AI)のさらなる開発と展開のために、いくつかの政策オプションが存在するか、提案されている。 アメリカ合衆国政府機関、州、職業社会、民間および公共事業を含む機関は、これらの政策を実施するのに適している。 しかし、リソースが限られているため、すべてのポリシーが平等に優先順位を付けることはできない。 我々は、責任あるAIを強化するための9つの提案されたポリシーを定義し、レビューし、潜在的な使用と影響について各ポリシーをランク付けし、各機関タイプに対する優先順位付けを推奨する。 デプロイ前の監査や評価、デプロイ後の説明責任は、最も影響が大きいが、採用の障壁も高いことが分かっています。 我々は、米国の政府機関や企業は、デプロイ前の監査や評価の開発を高度に優先し、米国議会はデプロイ後の説明責任を高度に優先すべきだと推奨する。 我々は、米国の政府機関や専門家団体が、責任あるAI研究を支援する政策を高度に優先順位付けし、国家が責任あるAI教育のサポートを高度に優先順位付けすべきだと提案する。 我々は,開発作業におけるコミュニティ利害関係者の関与や,AI開発における多様性を高い優先度で支援することを提案する。 我々は、AI倫理ステートメントやAI技術やインシデントに関するデータベースの機関間での優先順位付けのレベルを低くすることを推奨する。 我々は、ひとつの政策がAIの責任を負うことはなく、代わりに機関間の戦略的政策実装を提唱する。

Several policy options exist, or have been proposed, to further responsible artificial intelligence (AI) development and deployment. Institutions, including U.S. government agencies, states, professional societies, and private and public sector businesses, are well positioned to implement these policies. However, given limited resources, not all policies can or should be equally prioritized. We define and review nine suggested policies for furthering responsible AI, rank each policy on potential use and impact, and recommend prioritization relative to each institution type. We find that pre-deployment audits and assessments and post-deployment accountability are likely to have the highest impact but also the highest barriers to adoption. We recommend that U.S. government agencies and companies highly prioritize development of pre-deployment audits and assessments, while the U.S. national legislature should highly prioritize post-deployment accountability. We suggest that U.S. government agencies and professional societies should highly prioritize policies that support responsible AI research and that states should highly prioritize support of responsible AI education. We propose that companies can highly prioritize involving community stakeholders in development efforts and supporting diversity in AI development. We advise lower levels of prioritization across institutions for AI ethics statements and databases of AI technologies or incidents. We recognize that no one policy will lead to responsible AI and instead advocate for strategic policy implementation across institutions.
翻訳日:2022-12-02 16:58:21 公開日:2022-11-30
# 時間制約による因果性駆動型ロボットツールセグメンテーションの再考

Rethinking Causality-driven Robot Tool Segmentation with Temporal Constraints ( http://arxiv.org/abs/2212.00072v1 )

ライセンス: Link先を確認
Hao Ding, Jie Ying Wu, Zhaoshuo Li, Mathias Unberath(参考訳) 目的: 手術ロボットや下流作業において視覚に基づくロボットのセグメンテーションが重要な役割を果たす。 CaRTSは相補的な因果モデルに基づいて, 煙や血液などの存在下で, 目に見えない対物手術環境において, 有望な性能を示した。 しかし、CaRTSは可観測性に制限があるため、1つのイメージに収束するために30回以上の最適化が必要である。 方法: 上記の制約に対処するため, 時間的関係を考慮し, ビデオシーケンスに基づくロボットツールセグメンテーションのための時間的因果モデルを提案する。 我々はTemporally Constrained CaRTS (TC-CaRTS) というアーキテクチャを設計する。 tc-cartsには、時間最適化パイプライン、キネマティック補正ネットワーク、時空間正規化の3つの新しいモジュールがある。 結果: 実験結果から,TC-CaRTS は CaRTS と同じあるいはより良い性能を達成するために,はるかに少ないイテレーションを必要とすることがわかった。 TC- CaRTSは、CaRTSと比較して、異なるドメインで同じまたはより良いパフォーマンスを持つ。 3つのモジュールはいずれも有効であることが証明されている。 結論: 追加観測可能性として時間制約を利用するTC-CaRTSを提案する。 tc-cartsは,異なる領域のテストデータセットの収束速度が向上し,ロボットツールセグメンテーションタスクにおける先行作業よりも優れていることを示す。

Purpose: Vision-based robot tool segmentation plays a fundamental role in surgical robots and downstream tasks. CaRTS, based on a complementary causal model, has shown promising performance in unseen counterfactual surgical environments in the presence of smoke, blood, etc. However, CaRTS requires over 30 iterations of optimization to converge for a single image due to limited observability. Method: To address the above limitations, we take temporal relation into consideration and propose a temporal causal model for robot tool segmentation on video sequences. We design an architecture named Temporally Constrained CaRTS (TC-CaRTS). TC-CaRTS has three novel modules to complement CaRTS - temporal optimization pipeline, kinematics correction network, and spatial-temporal regularization. Results: Experiment results show that TC-CaRTS requires much fewer iterations to achieve the same or better performance as CaRTS. TC- CaRTS also has the same or better performance in different domains compared to CaRTS. All three modules are proven to be effective. Conclusion: We propose TC-CaRTS, which takes advantage of temporal constraints as additional observability. We show that TC-CaRTS outperforms prior work in the robot tool segmentation task with improved convergence speed on test datasets from different domains.
翻訳日:2022-12-02 16:57:03 公開日:2022-11-30
# 長期視定位のための自己教師付き特徴学習

Self-Supervised Feature Learning for Long-Term Metric Visual Localization ( http://arxiv.org/abs/2212.00122v1 )

ライセンス: Link先を確認
Yuxuan Chen, Timothy D. Barfoot(参考訳) 視覚的ローカライゼーションは、既知のシーンでカメラのポーズを推定するタスクであり、ロボット工学やコンピュータビジョンにおいて重要な問題である。 しかし、照明や季節による環境変化のため、長期的な視覚的位置決めは依然として課題である。 ニューラルネットワークを用いた外観変化に対処する技術はあるが、これらの手法は訓練中に正確な画像対応を生成するために地上の真実のポーズ情報を必要とする。 本稿では,メトリック・ビジュアル・ローカライゼーションのための自己教師付き特徴学習フレームワークを提案する。 異なる画像列(すなわち経験)にまたがるシーケンスベースの画像マッチングアルゴリズムを用いて、接地ラベルを使わずに画像対応を生成する。 次に、画像ペアをサンプリングして、深層ニューラルネットワークをトレーニングし、関連する記述子とスコアのスパースな特徴を学習する。 学習した特徴は、視覚ステレオローカライゼーションのための古典的なポーズ推定器と併用することができる。 既存のVisual Teach & Repeatパイプラインと統合して,照明条件の異なる閉ループ局所化実験を合計22.4kmで行うことにより,学習機能を検証する。

Visual localization is the task of estimating camera pose in a known scene, which is an essential problem in robotics and computer vision. However, long-term visual localization is still a challenge due to the environmental appearance changes caused by lighting and seasons. While techniques exist to address appearance changes using neural networks, these methods typically require ground-truth pose information to generate accurate image correspondences or act as a supervisory signal during training. In this paper, we present a novel self-supervised feature learning framework for metric visual localization. We use a sequence-based image matching algorithm across different sequences of images (i.e., experiences) to generate image correspondences without ground-truth labels. We can then sample image pairs to train a deep neural network that learns sparse features with associated descriptors and scores without ground-truth pose supervision. The learned features can be used together with a classical pose estimator for visual stereo localization. We validate the learned features by integrating with an existing Visual Teach & Repeat pipeline to perform closed-loop localization experiments under different lighting conditions for a total of 22.4 km.
翻訳日:2022-12-02 16:56:42 公開日:2022-11-30
# 最適なコントロールからアジャイルパスを学ぶ

Learning Agile Paths from Optimal Control ( http://arxiv.org/abs/2212.00184v1 )

ライセンス: Link先を確認
Alex Beaudin and Hsiu-Chin Lin(参考訳) ロボットを現実世界に展開する上で、効率的な動き計画アルゴリズムが重要である。 残念ながら、これらのアルゴリズムはしばしば実現可能性のために問題の次元を劇的に減らし、最適解を先導する。 この制限は、ソリューションスペースが複数の追加次元を持つことができるアジャイルロボットにおいて、最も容易に観察できる。 最適制御アプローチは、環境の複雑さを犠牲にすることなく最適な解を見つけることで、この問題を部分的に解決するが、現実のアプリケーションの効率性は満たさない。 本研究は、最適制御手法の出力に基づいて機械学習モデルを訓練することにより、これらの問題を同時に解決するアプローチを提案する。

Efficient motion planning algorithms are of central importance for deploying robots in the real world. Unfortunately, these algorithms often drastically reduce the dimensionality of the problem for the sake of feasibility, thereby foregoing optimal solutions. This limitation is most readily observed in agile robots, where the solution space can have multiple additional dimensions. Optimal control approaches partially solve this problem by finding optimal solutions without sacrificing the complexity of the environment, but do not meet the efficiency demands of real-world applications. This work proposes an approach to resolve these issues simultaneously by training a machine learning model on the outputs of an optimal control approach.
翻訳日:2022-12-02 16:47:40 公開日:2022-11-30
# uefa euro 2020, 2022におけるプレーヤの位置分析 : 確率推定による防衛評価の一般化

Location analysis of players in UEFA EURO 2020 and 2022 using generalized valuation of defense by estimating probabilities ( http://arxiv.org/abs/2212.00021v1 )

ライセンス: Link先を確認
Rikuhei Umemoto, Kazushi Tsutsui, Keisuke Fujii(参考訳) チームスポーツにおける防御の分析は、イベントデータが少ないため、一般的に難しい。 研究者は以前、ボールゲインの事象を予測し、すべての選手とボールの位置を使って攻撃されることによってフットボールチームの防御を評価する方法を提案した。 しかし、彼らはイベントの重要性を考慮せず、22人の選手全員の完全な観察を前提とし、多様性(国籍や性など)の影響を十分に調査しなかった。 本稿では,イベントの予測確率をスコアスキャニングすることで,防衛チームの総合評価手法を提案する。 男子Euro 2020と女子Euro 2022のフットボールゲームにおける放送ビデオフレーム中の選手のオープンソース位置情報を用いて,選手数の予測への影響を調査し,ゲーム分析によるアプローチの検証を行った。 その結果, 攻撃, 得点, 譲歩の予測にはすべての選手の情報が必要ではなく, ボールゲインには3~4人の攻撃的, 防御的選手の情報が必要であることがわかった。 ゲーム分析では、ユーロ2020におけるファイナリストチームの防御能力について説明した。 我々のアプローチはフットボールの試合の放送ビデオフレームからの位置データに適用できるかもしれない。

Analyzing defenses in team sports is generally challenging because of the limited event data. Researchers have previously proposed methods to evaluate football team defense by predicting the events of ball gain and being attacked using locations of all players and the ball. However, they did not consider the importance of the events, assumed the perfect observation of all 22 players, and did not fully investigated the influence of the diversity (e.g., nationality and sex). Here, we propose a generalized valuation method of defensive teams by score-scaling the predicted probabilities of the events. Using the open-source location data of all players in broadcast video frames in football games of men's Euro 2020 and women's Euro 2022, we investigated the effect of the number of players on the prediction and validated our approach by analyzing the games. Results show that for the predictions of being attacked, scoring, and conceding, all players' information was not necessary, while that of ball gain required information on three to four offensive and defensive players. With game analyses we explained the excellence in defense of finalist teams in Euro 2020. Our approach might be applicable to location data from broadcast video frames in football games.
翻訳日:2022-12-02 16:39:40 公開日:2022-11-30
# すべてを支配するリスク:モデルベースオフライン強化学習におけるリスクに敏感な視点

One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based Offline Reinforcement Learning ( http://arxiv.org/abs/2212.00124v1 )

ライセンス: Link先を確認
Marc Rigter, Bruno Lacerda, Nick Hawes(参考訳) オフライン強化学習(rl)は、オンライン探索がコストや危険すぎる、安全クリティカルなドメインに適している。 安全クリティカルな設定では、決定は破滅的な結果のリスクを考慮するべきである。 言い換えれば、意思決定はリスクに敏感であるべきです。 オフラインRLのリスクに関する以前の研究は、分散シフトを避けるためにオフラインRL技術とリスク感受性のRLアルゴリズムを組み合わせている。 本研究では,これら2つの問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。 我々のモデルに基づくアプローチは、てんかんとてんかんの不確実性の両方に対してリスク逆である。 エピステマ性不確実性へのリスク回避は、データセットがカバーしていない領域がエピステマ性不確実性が高いため、分布シフトを妨げる。 相対的不確実性へのリスク回避は、環境確率性による悪い結果をもたらす可能性のある行動を妨げる。 実験により,本アルゴリズムは決定論的ベンチマークにおいて競争性能を達成し,確率的領域におけるリスクに敏感な目標に対する既存のアプローチを上回った。

Offline reinforcement learning (RL) is suitable for safety-critical domains where online exploration is too costly or dangerous. In safety-critical settings, decision-making should take into consideration the risk of catastrophic outcomes. In other words, decision-making should be risk-sensitive. Previous works on risk in offline RL combine together offline RL techniques, to avoid distributional shift, with risk-sensitive RL algorithms, to achieve risk-sensitivity. In this work, we propose risk-sensitivity as a mechanism to jointly address both of these issues. Our model-based approach is risk-averse to both epistemic and aleatoric uncertainty. Risk-aversion to epistemic uncertainty prevents distributional shift, as areas not covered by the dataset have high epistemic uncertainty. Risk-aversion to aleatoric uncertainty discourages actions that may result in poor outcomes due to environment stochasticity. Our experiments show that our algorithm achieves competitive performance on deterministic benchmarks, and outperforms existing approaches for risk-sensitive objectives in stochastic domains.
翻訳日:2022-12-02 16:39:21 公開日:2022-11-30
# SPADE: 分散ミスマッチによる半教師付き異常検出

SPADE: Semi-supervised Anomaly Detection under Distribution Mismatch ( http://arxiv.org/abs/2212.00173v1 )

ライセンス: Link先を確認
Jinsung Yoon, Kihyuk Sohn, Chun-Liang Li, Sercan O. Arik, Tomas Pfister(参考訳) 半教師付き異常検出は一般的な問題であり、異常を含むデータセットは部分的にラベル付けされることが多い。 半教師付き擬似ラベル異常検出 (semi-supervised pseudo-labeler anomaly detection with ensembling (spade)) はラベル付きとラベルなしのデータは同じ分布から来るという仮定によって制限されない。 例えば、ラベル付きデータはラベル付きデータとは異なる異常のみを含むか、ラベル付きデータには異なる種類の異常が含まれているか、ラベル付きデータには「簡単にラベル付き」なサンプルしか含まれない。 spadeは1つのクラス分類器のアンサンブルを擬似ラベルとして使用し、分布ミスマッチを伴う擬似ラベルのロバスト性を改善する。 検証データなしで擬似ラベル付けのための重要なハイパーパラメータを自動的に選択するために,部分マッチングを提案する。 SPADEは、表領域と画像領域の両方で分布ミスマッチを伴う幅広いシナリオで、最先端の半教師付き異常検出性能を示す。 新しいタイプのラベルのない異常に直面したモデルなど、いくつかの一般的な現実世界設定では、SPADEは最先端の代替品を平均5%の性能で上回っている。

Semi-supervised anomaly detection is a common problem, as often the datasets containing anomalies are partially labeled. We propose a canonical framework: Semi-supervised Pseudo-labeler Anomaly Detection with Ensembling (SPADE) that isn't limited by the assumption that labeled and unlabeled data come from the same distribution. Indeed, the assumption is often violated in many applications - for example, the labeled data may contain only anomalies unlike unlabeled data, or unlabeled data may contain different types of anomalies, or labeled data may contain only 'easy-to-label' samples. SPADE utilizes an ensemble of one class classifiers as the pseudo-labeler to improve the robustness of pseudo-labeling with distribution mismatch. Partial matching is proposed to automatically select the critical hyper-parameters for pseudo-labeling without validation data, which is crucial with limited labeled data. SPADE shows state-of-the-art semi-supervised anomaly detection performance across a wide range of scenarios with distribution mismatch in both tabular and image domains. In some common real-world settings such as model facing new types of unlabeled anomalies, SPADE outperforms the state-of-the-art alternatives by 5% AUC in average.
翻訳日:2022-12-02 16:39:04 公開日:2022-11-30
# FuRPE: パートエキスパートからフルボディ再構築を学ぶ

FuRPE: Learning Full-body Reconstruction from Part Experts ( http://arxiv.org/abs/2212.00731v1 )

ライセンス: Link先を確認
Zhaoxin Fan, Yuqing Pan, Hao Xu, Zhenbo Song, Zhicheng Wang, Kejian Wu, Hongyan Liu and Jun He(参考訳) 全身再建は基本的な作業だが難しい作業である。 注釈付きデータがないため、既存のメソッドのパフォーマンスはほとんど制限されている。 本稿では,この課題に対処するために,Flull-body Reconstruction from Part Experts〜(FuRPE)という新しい手法を提案する。 FuRPEでは、ネットワークは、パートエキスパートから生成された擬似ラベルと特徴を使って訓練される。 高品質の疑似ラベルを抽出するために, 単純かつ効果的な疑似接地選択スキームを提案する。 このように、既存の人体再構築データセットを大規模に活用し、モデルトレーニングに貢献することができる。 さらに,ネットワークを自己教師型にトレーニングするために,指数的な移動平均トレーニング戦略を導入し,モデルの性能をさらに向上させる。 広範に使用されるデータセットに関する広範囲な実験により,本手法の有効性が実証された。 本手法は最先端の性能を実現する。 コードは、さらなる研究のために公開されます。

Full-body reconstruction is a fundamental but challenging task. Owing to the lack of annotated data, the performances of existing methods are largely limited. In this paper, we propose a novel method named Full-body Reconstruction from Part Experts~(FuRPE) to tackle this issue. In FuRPE, the network is trained using pseudo labels and features generated from part-experts. An simple yet effective pseudo ground-truth selection scheme is proposed to extract high-quality pseudo labels. In this way, a large-scale of existing human body reconstruction datasets can be leveraged and contribute to the model training. In addition, an exponential moving average training strategy is introduced to train the network in a self-supervised manner, further boosting the performance of the model. Extensive experiments on several widely used datasets demonstrate the effectiveness of our method over the baseline. Our method achieves the state-of-the-art performance. Code will be publicly available for further research.
翻訳日:2022-12-02 16:32:49 公開日:2022-11-30
# ドメイン適応とセルフトレーニングを用いたsingle slice thigh ct muscle group segmentation

Single Slice Thigh CT Muscle Group Segmentation with Domain Adaptation and Self-Training ( http://arxiv.org/abs/2212.00059v1 )

ライセンス: Link先を確認
Qi Yang, Xin Yu, Ho Hin Lee, Leon Y. Cai, Kaiwen Xu, Shunxing Bao, Yuankai Huo, Ann Zenobia Moore, Sokratis Makrogiannis, Luigi Ferrucci, Bennett A. Landman(参考訳) 目的: 大腿筋群分節は, 筋解剖学, 代謝疾患, 加齢評価に重要である。 個々の筋肉の手動アノテーションを含む磁気共鳴(MR)画像を用いて筋肉組織の定量化に多くの取り組みがなされている。 しかし, MR画像におけるアノテーションの利用により, 単一スライスCT画像における筋群分割を実現することは困難である。 方法: 3次元MRから1枚のCTスライスへラベルを転送する自己学習型ドメイン適応パイプラインを提案する。 まず,CycleGAN を用いて画像の外観を MR から CT に変換し,合成したCT 画像をセグメンタに同時に供給する。 単一のCTスライスを、セグメントによって推測される擬似ラベルのエントロピーに基づいて、硬く容易にコホートに分割する。 解剖学的仮定に基づく簡単なコホート擬似ラベルを精錬した後、容易かつハードスプリットによる自己訓練を行い、セグメンタの微調整を行う。 結果: 単一ct大腿像152例において, 提案パイプラインは, サルトリアス, ハムストリングス, 大腿四頭筋, グラシリスを含む全筋群平均0.888(0.041) を達成した。 筋電図 最善の知識として、これはmrからctへの大腿部イメージング領域適応を達成する最初のパイプラインである。 提案されたパイプラインは、2d single slice ct thighイメージで筋肉群を抽出するのに効果的で堅牢である。このコンテナはhttps://github.com/masilab/da_ct_muscle_segで公開されている。

Objective: Thigh muscle group segmentation is important for assessment of muscle anatomy, metabolic disease and aging. Many efforts have been put into quantifying muscle tissues with magnetic resonance (MR) imaging including manual annotation of individual muscles. However, leveraging publicly available annotations in MR images to achieve muscle group segmentation on single slice computed tomography (CT) thigh images is challenging. Method: We propose an unsupervised domain adaptation pipeline with self-training to transfer labels from 3D MR to single CT slice. First, we transform the image appearance from MR to CT with CycleGAN and feed the synthesized CT images to a segmenter simultaneously. Single CT slices are divided into hard and easy cohorts based on the entropy of pseudo labels inferenced by the segmenter. After refining easy cohort pseudo labels based on anatomical assumption, self-training with easy and hard splits is applied to fine tune the segmenter. Results: On 152 withheld single CT thigh images, the proposed pipeline achieved a mean Dice of 0.888(0.041) across all muscle groups including sartorius, hamstrings, quadriceps femoris and gracilis. muscles Conclusion: To our best knowledge, this is the first pipeline to achieve thigh imaging domain adaptation from MR to CT. The proposed pipeline is effective and robust in extracting muscle groups on 2D single slice CT thigh images.The container is available for public use at https://github.com/MASILab/DA_CT_muscle_seg
翻訳日:2022-12-02 16:04:04 公開日:2022-11-30
# 人工知能へのステップとしての補助学習

Auxiliary Learning as a step towards Artificial General Intelligence ( http://arxiv.org/abs/2212.00061v1 )

ライセンス: Link先を確認
Christeen T. Jose(参考訳) 補助学習は、学習対象のいずれにも属さない物体の存在をモデルが認識する機械学習アプローチであり、補助学習の名称は補助クラスの導入によって選択された。 本稿は、既存の狭義ニューラルネットワークの汎用性の向上と、未知のオブジェクトを扱う必要性を強調している。 Cat & Dogのバイナリ分類器は、全紙で例にとられている。

Auxiliary Learning is a machine learning approach in which the model acknowledges the existence of objects that do not come under any of its learned categories.The name Auxiliary learning was chosen due to the introduction of an auxiliary class. The paper focuses on increasing the generality of existing narrow purpose neural networks and also highlights the need to handle unknown objects. The Cat & Dog binary classifier is taken as an example throughout the paper.
翻訳日:2022-12-02 15:54:54 公開日:2022-11-30
# fiesta: オートエンコーダを用いたトラクトグラフィにおけるファイバ生成とバンドルセグメンテーション

FIESTA: FIber gEneration and bundle Segmentation in Tractography using Autoencoders ( http://arxiv.org/abs/2212.00143v1 )

ライセンス: Link先を確認
F\'elix Dumais, Jon Haitz Legarreta, Carl Lemaire, Philippe Poulin, Fran\c{c}ois Rheault, Laurent Petit, Maxime Descoteaux, Pierre-Marc Jodoin(参考訳) ホワイトマター束のセグメンテーションは、神経疾患、神経外科、老化といった領域における脳の構造的結合を研究する現代の道筋学の基盤である。 本研究では,wmバンドルの分離と完全投入が可能な深層オートエンコーダに基づく,信頼性が高く,堅牢で,完全自動化され,容易に半自動調整されたパイプラインであるfiesta (fiber generation and bundle segmentation in tractography using autoencoder)を提案する。 我々のフレームワークは、ある解剖学的バンドル定義から別の解剖学的バンドル定義への移行を可能にする。 このパイプラインは、FINTA、CINTA、GESTAメソッドに基づいて構築されており、オートエンコーダが、トラクトグラフィーにおけるストレートラインフィルタリング、バンドル、およびストリームライン生成にどのようにうまく使用できるかを実証している。 提案手法は, 被検体バンドルとアトラスバンドルの潜時空間播種による生成サンプリングにより, ハード・ツー・トラックバンドルを回収し, バンドリング範囲を改善する。 オートエンコーダベースのモデリングとコントラスト学習を組み合わせて、流線形の潜在空間を学習する。 提案手法は,標準空間(MNI)におけるバンドルのアトラスを用いて,各トラクトグラムストリームラインのオートエンコーダ遅延距離と,バンドルのアトラスに近接するバンドル間の距離を用いて,新しいトラクトグラムを分割する。 自動エンコーダを使用して、解剖学的に意味のあるまま、各バンドルの空間カバレッジを増加させる新しいストリームラインを生成することで、サブジェクト内のバンドルの信頼性が向上する。 提案手法はRecoBundles, RecoBundlesX, TractSeg, White Matter Analysis, XTRACTなどの最先端の仮想解剖法よりも信頼性が高いことを示す。 これらの結果から,本フレームワークは現状の組立フレームワークの実用性とユーザビリティの向上を図っている。

White matter bundle segmentation is a cornerstone of modern tractography to study the brain's structural connectivity in domains such as neurological disorders, neurosurgery, and aging. In this study, we present FIESTA (FIber gEneration and bundle Segmentation in Tractography using Autoencoders), a reliable and robust, fully automated, and easily semi-automatically calibrated pipeline based on deep autoencoders that can dissect and fully populate WM bundles. Our framework allows the transition from one anatomical bundle definition to another with marginal calibrating time. This pipeline is built upon FINTA, CINTA, and GESTA methods that demonstrated how autoencoders can be used successfully for streamline filtering, bundling, and streamline generation in tractography. Our proposed method improves bundling coverage by recovering hard-to-track bundles with generative sampling through the latent space seeding of the subject bundle and the atlas bundle. A latent space of streamlines is learned using autoencoder-based modeling combined with contrastive learning. Using an atlas of bundles in standard space (MNI), our proposed method segments new tractograms using the autoencoder latent distance between each tractogram streamline and its closest neighbor bundle in the atlas of bundles. Intra-subject bundle reliability is improved by recovering hard-to-track streamlines, using the autoencoder to generate new streamlines that increase each bundle's spatial coverage while remaining anatomically meaningful. Results show that our method is more reliable than state-of-the-art automated virtual dissection methods such as RecoBundles, RecoBundlesX, TractSeg, White Matter Analysis and XTRACT. Overall, these results show that our framework improves the practicality and usability of current state-of-the-art bundling framework
翻訳日:2022-12-02 15:48:05 公開日:2022-11-30
# アンテホック記述可能なテキスト分類のためのタスク特化埋め込み

Task-Specific Embeddings for Ante-Hoc Explainable Text Classification ( http://arxiv.org/abs/2212.00086v1 )

ライセンス: Link先を確認
Kishaloy Halder, Josip Krapac, Alan Akbik, Anthony Brew, Matti Lyra(参考訳) テキスト分類における現在の最先端のアプローチは、通常、ターゲットタスクのクラスラベルを予測するために、ソフトマックス分類器を備えたBERTスタイルのトランスフォーマーモデルを利用する。 本稿では,テキストのタスク固有の埋め込みを学習する代替的な学習目標を提案する。提案する目的は,同じターゲットクラスラベルを共有するすべてのテキストが,埋め込み空間内で密接になるように埋め込みを学習し,他のすべてのテキストは遠く離れるべきである。 これにより、softmax分類器をより解釈可能なk-nearest-neighbor分類アプローチに置き換えることができます。 1) 埋め込み空間における距離によって引き起こされる結果の順序は, 分類決定を直接的に説明するために用いられる。 2) これはトレーニングデータの質的検査を容易にし,問題空間の理解を深め,ラベル付け品質の問題を特定するのに役立つ。 (3) 学習距離をある程度一般化することで、モデルを再トレーニングすることなく、新たなクラスを段階的に追加することができる。 本研究は, 総合的な分類精度において, アンテホックな説明可能性と漸進的な学習の利点が無コストで得られることを示す広範な実験である。

Current state-of-the-art approaches to text classification typically leverage BERT-style Transformer models with a softmax classifier, jointly fine-tuned to predict class labels of a target task. In this paper, we instead propose an alternative training objective in which we learn task-specific embeddings of text: our proposed objective learns embeddings such that all texts that share the same target class label should be close together in the embedding space, while all others should be far apart. This allows us to replace the softmax classifier with a more interpretable k-nearest-neighbor classification approach. In a series of experiments, we show that this yields a number of interesting benefits: (1) The resulting order induced by distances in the embedding space can be used to directly explain classification decisions. (2) This facilitates qualitative inspection of the training data, helping us to better understand the problem space and identify labelling quality issues. (3) The learned distances to some degree generalize to unseen classes, allowing us to incrementally add new classes without retraining the model. We present extensive experiments which show that the benefits of ante-hoc explainability and incremental learning come at no cost in overall classification accuracy, thus pointing to practical applicability of our proposed approach.
翻訳日:2022-12-02 15:47:29 公開日:2022-11-30
# ディープラーニング時代の単語アライメント:チュートリアル

Word Alignment in the Era of Deep Learning: A Tutorial ( http://arxiv.org/abs/2212.00138v1 )

ライセンス: Link先を確認
Bryan Li(参考訳) 統計機械翻訳(statistical machine translation, smt)の時代に流行した単語アライメントタスクは、今日ではニッチで未開拓である。 この2部構成のチュートリアルでは、単語アライメントの継続性について議論する。 最初の部分は、伝統的なsmtパイプラインのコアコンポーネントとして、単語アライメントの歴史的背景を提供する。 GIZA++は教師なしの統計的単語整合器で、驚くほど長寿命です。 ニューラルマシン翻訳(NMT)の時代に向かって、単語アライメントからの洞察が、現在のNMTに基本的な注意機構にどのように影響したかを示す。 第2部は調査アプローチに移行します。 ニューラルワードコーディネータを網羅し、GIZA++のパフォーマンスを上回る、遅いが着実に進歩していることを示す。 最後に、単語アライメントの現在の応用について、言語間のアノテーションの投影から翻訳の改善まで紹介する。

The word alignment task, despite its prominence in the era of statistical machine translation (SMT), is niche and under-explored today. In this two-part tutorial, we argue for the continued relevance for word alignment. The first part provides a historical background to word alignment as a core component of the traditional SMT pipeline. We zero-in on GIZA++, an unsupervised, statistical word aligner with surprising longevity. Jumping forward to the era of neural machine translation (NMT), we show how insights from word alignment inspired the attention mechanism fundamental to present-day NMT. The second part shifts to a survey approach. We cover neural word aligners, showing the slow but steady progress towards surpassing GIZA++ performance. Finally, we cover the present-day applications of word alignment, from cross-lingual annotation projection, to improving translation.
翻訳日:2022-12-02 15:47:06 公開日:2022-11-30
# 型抽象化によるオープンリレーションとイベントタイプ発見

Open Relation and Event Type Discovery with Type Abstraction ( http://arxiv.org/abs/2212.00178v1 )

ライセンス: Link先を確認
Sha Li, Heng Ji, Jiawei Han(参考訳) 従来のクローズドワールド情報抽出(ie)アプローチは、抽出のスコープを定義するために人間のオントロジーに依存する。 その結果、新しいドメインに適用するとそのようなアプローチは短くなる。 これは、私たちが型発見と呼ぶタスクである所定のコーパスから、自動的に新しい型を推測できるシステムを呼び出す。 この問題に対処するために、モデルを一般化し、型を命名するよう促される型抽象の概念を導入する。 次に、推測された名前の類似性を利用してクラスタを誘導する。 この抽象化ベースの表現がentity/triggerトークン表現と相補的であることを観察し、これら2つの表現を2つのビューとして設定し、協調学習フレームワークとしてモデルを設計する。 複数の関係抽出とイベント抽出データセットに関する実験は、型抽象化アプローチの利点を一貫して示している。 コードはhttps://github.com/raspberryice/type-discovery-absで入手できる。

Conventional closed-world information extraction (IE) approaches rely on human ontologies to define the scope for extraction. As a result, such approaches fall short when applied to new domains. This calls for systems that can automatically infer new types from given corpora, a task which we refer to as type discovery. To tackle this problem, we introduce the idea of type abstraction, where the model is prompted to generalize and name the type. Then we use the similarity between inferred names to induce clusters. Observing that this abstraction-based representation is often complementary to the entity/trigger token representation, we set up these two representations as two views and design our model as a co-training framework. Our experiments on multiple relation extraction and event extraction datasets consistently show the advantage of our type abstraction approach. Code available at https://github.com/raspberryice/type-discovery-abs.
翻訳日:2022-12-02 15:46:50 公開日:2022-11-30
# MSSARP: SAR画像の超高解像度化に先立つ階層的な深部生成

MrSARP: A Hierarchical Deep Generative Prior for SAR Image Super-resolution ( http://arxiv.org/abs/2212.00069v1 )

ライセンス: Link先を確認
Tushar Agarwal, Nithin Sugavanam, and Emre Ertin(参考訳) 深層学習法を用いて学習した生成モデルは、スパースな測定セットからのイメージングを含む逆決定された逆問題の前駆体として使用できる。 本稿では,SAR画像のための新しい階層的深部生成モデルMrSARPについて述べる。 MrSARPは、異なる解像度でターゲットの現実的なイメージであるかどうかを判断するために、複数の解像度の画像を共同でスコアする批評家と共同で訓練されている。 我々は,この深部生成モデルを用いて,同じターゲットの低解像度画像から高解像度画像を取得する方法を示す。 ジェネレータのコスト関数は、所定の解像度画像の入力パラメータを取得する能力を改善するために修正される。 シミュレーションデータ上での超解像性能の評価に使用される3つの標準誤差指標を用いてモデルの性能を評価し,それをアップサンプリングおよびスパーシティに基づく画像シャープニング手法と比較した。

Generative models learned from training using deep learning methods can be used as priors in inverse under-determined inverse problems, including imaging from sparse set of measurements. In this paper, we present a novel hierarchical deep-generative model MrSARP for SAR imagery that can synthesize SAR images of a target at different resolutions jointly. MrSARP is trained in conjunction with a critic that scores multi resolution images jointly to decide if they are realistic images of a target at different resolutions. We show how this deep generative model can be used to retrieve the high spatial resolution image from low resolution images of the same target. The cost function of the generator is modified to improve its capability to retrieve the input parameters for a given set of resolution images. We evaluate the model's performance using the three standard error metrics used for evaluating super-resolution performance on simulated data and compare it to upsampling and sparsity based image sharpening approaches.
翻訳日:2022-12-02 15:38:54 公開日:2022-11-30
# シンクホーンアルゴリズム初期化の生成的逆学習

Generative Adversarial Learning of Sinkhorn Algorithm Initializations ( http://arxiv.org/abs/2212.00133v1 )

ライセンス: Link先を確認
Jonathan Geuter, Vaios Laschos(参考訳) シンクホーンアルゴリズム (arXiv:1306.0895) は離散確率分布間の最適な輸送距離の近似を計算し、エントロピカルに正規化された問題の定式化を利用する。 このアルゴリズムは初期化にかかわらず収束することが保証されている。 このことは初期化にはほとんど注意を払わず、n次元の1ベクトルのような単純な開始ベクトルは一般的な選択である。 アルゴリズムの初期化を計算するためにニューラルネットワークを訓練する。 ネットワークは、第2の生成ネットワークを用いて敵対的な方法でトレーニングを行う最適輸送双対問題の可能性を予測する。 ネットワークは、固定次元の任意の一対の分布に一般化できるという意味で普遍的である。 さらに,特定のアプリケーションではネットワークを独立して使用できることを示す。

The Sinkhorn algorithm (arXiv:1306.0895) is the state-of-the-art to compute approximations of optimal transport distances between discrete probability distributions, making use of an entropically regularized formulation of the problem. The algorithm is guaranteed to converge, no matter its initialization. This lead to little attention being paid to initializing it, and simple starting vectors like the n-dimensional one-vector are common choices. We train a neural network to compute initializations for the algorithm, which significantly outperform standard initializations. The network predicts a potential of the optimal transport dual problem, where training is conducted in an adversarial fashion using a second, generating network. The network is universal in the sense that it is able to generalize to any pair of distributions of fixed dimension. Furthermore, we show that for certain applications the network can be used independently.
翻訳日:2022-12-02 15:28:47 公開日:2022-11-30
# 立証条件付き神経過程

Evidential Conditional Neural Processes ( http://arxiv.org/abs/2212.00131v1 )

ライセンス: Link先を確認
Deep Shankar Pandey and Qi Yu(参考訳) Conditional Neural Process (CNP) モデルファミリは、より良いスケーラビリティと競争力のある予測性能を達成することで、数ショットの問題に対処するための有望な方向を提供する。 しかし、現在のCNPモデルでは、ターゲットデータポイントでの予測に対する全体的な不確実性のみを捉えている。 モデルトレーニングや意思決定において必要となる不確実性の異なる源について、システム的な詳細な定量化が欠如している。 我々は,CNPが使用する標準ガウス分布を,明らかな学習を通じてよりリッチな階層的ベイズ構造に置き換えて,てんかん・アラート的不確実性分解を実現するための証拠条件ニューラルネットワーク(ECNP)を提案する。 明らかな階層構造は、雑音の多い訓練タスクに対して理論的に正当化された堅牢性をもたらす。 提案したECNPに関する理論的分析は、CNPとの関係を確立し、明らかなパラメータの役割についてより深い洞察を提供する。 合成データと実世界データの両方で行った広範囲な実験により,提案モデルの有効性が実証された。

The Conditional Neural Process (CNP) family of models offer a promising direction to tackle few-shot problems by achieving better scalability and competitive predictive performance. However, the current CNP models only capture the overall uncertainty for the prediction made on a target data point. They lack a systematic fine-grained quantification on the distinct sources of uncertainty that are essential for model training and decision-making under the few-shot setting. We propose Evidential Conditional Neural Processes (ECNP), which replace the standard Gaussian distribution used by CNP with a much richer hierarchical Bayesian structure through evidential learning to achieve epistemic-aleatoric uncertainty decomposition. The evidential hierarchical structure also leads to a theoretically justified robustness over noisy training tasks. Theoretical analysis on the proposed ECNP establishes the relationship with CNP while offering deeper insights on the roles of the evidential parameters. Extensive experiments conducted on both synthetic and real-world data demonstrate the effectiveness of our proposed model in various few-shot settings.
翻訳日:2022-12-02 15:13:07 公開日:2022-11-30
# 視覚トランスフォーマーを用いた部分ベース顔認識

Part-based Face Recognition with Vision Transformers ( http://arxiv.org/abs/2212.00057v1 )

ライセンス: Link先を確認
Zhonglin Sun, Georgios Tzimiropoulos(参考訳) cnnとマージンベースの損失を用いた総合的な手法は、顔認識の研究を独占している。 この作業では、この設定から2つの方法で出発します。 (a)顔認識の非常に強力なベースライン(単にfvitと呼ばれる)をトレーニングするためのアーキテクチャとしてvision transformerを採用しています。 b) 第二に,トランスフォーマー固有の特性を利用して不規則な格子から抽出した情報(視覚トークン)を処理し,部分ベースの顔認識手法を思い起こさせる顔認識のためのパイプラインを考案する。 われわれのパイプラインはfViTと呼ばれ、単に軽量なネットワークで顔のランドマークの座標を予測し、続いてVision Transformerが予測されたランドマークから抽出されたパッチを操作する。 識別パッチの抽出を学習することにより,複数の顔認証ベンチマークにおいて,視覚トランスフォーマのベースラインの精度をさらに向上させる。

Holistic methods using CNNs and margin-based losses have dominated research on face recognition. In this work, we depart from this setting in two ways: (a) we employ the Vision Transformer as an architecture for training a very strong baseline for face recognition, simply called fViT, which already surpasses most state-of-the-art face recognition methods. (b) Secondly, we capitalize on the Transformer's inherent property to process information (visual tokens) extracted from irregular grids to devise a pipeline for face recognition which is reminiscent of part-based face recognition methods. Our pipeline, called part fViT, simply comprises a lightweight network to predict the coordinates of facial landmarks followed by the Vision Transformer operating on patches extracted from the predicted landmarks, and it is trained end-to-end with no landmark supervision. By learning to extract discriminative patches, our part-based Transformer further boosts the accuracy of our Vision Transformer baseline achieving state-of-the-art accuracy on several face recognition benchmarks.
翻訳日:2022-12-02 15:04:19 公開日:2022-11-30
# 知識提供型ディープラーニングとその応用に関する調査

Knowledge-augmented Deep Learning and Its Applications: A Survey ( http://arxiv.org/abs/2212.00017v1 )

ライセンス: Link先を確認
Zijun Cui, Tian Gao, Kartik Talamadupula, and Qiang Ji(参考訳) ディープラーニングモデルは、過去数年間に多くの分野で大きな成功を収めてきたが、通常、データ空腹であり、目に見えないサンプルでうまく機能せず、解釈不可能である。 さまざまな事前知識が対象領域にしばしば存在し、その使用はディープラーニングによる欠陥を軽減することができる。 人間の脳の振る舞いをよりよく模倣するために、ドメイン知識を識別し、それをデータ効率、一般化可能、解釈可能な深層学習のための深部モデルに統合する様々な高度な手法が提案されている。 本稿では,kadlの概念を定義し,その3つの主要なタスク,すなわち知識識別,知識表現,知識統合について紹介する。 特定のタイプの知識に焦点を当てた既存の調査とは異なり、ドメイン知識とその表現の広範な完全な分類を提供する。 本研究は,我々の分類学に基づいて,知識の分類に非依存な統合アプローチを調査する既存の研究とは異なる,既存の手法の体系的なレビューを行う。 本調査は,既存の研究成果を活用し,知識提供深層学習の一般分野における研究の鳥眼的視点を提供する。 多くの論文の徹底的で批判的なレビューは、現在の進歩を理解するだけでなく、知識を付加した深層学習研究の今後の方向性を特定する助けとなる。

Deep learning models, though having achieved great success in many different fields over the past years, are usually data hungry, fail to perform well on unseen samples, and lack of interpretability. Various prior knowledge often exists in the target domain and their use can alleviate the deficiencies with deep learning. To better mimic the behavior of human brains, different advanced methods have been proposed to identify domain knowledge and integrate it into deep models for data-efficient, generalizable, and interpretable deep learning, which we refer to as knowledge-augmented deep learning (KADL). In this survey, we define the concept of KADL, and introduce its three major tasks, i.e., knowledge identification, knowledge representation, and knowledge integration. Different from existing surveys that are focused on a specific type of knowledge, we provide a broad and complete taxonomy of domain knowledge and its representations. Based on our taxonomy, we provide a systematic review of existing techniques, different from existing works that survey integration approaches agnostic to taxonomy of knowledge. This survey subsumes existing works and offers a bird's-eye view of research in the general area of knowledge-augmented deep learning. The thorough and critical reviews of numerous papers help not only understand current progresses but also identify future directions for the research on knowledge-augmented deep learning.
翻訳日:2022-12-02 15:01:52 公開日:2022-11-30
# 多レベルデータ拡張による半教師付き不均一グラフ学習

Semi-Supervised Heterogeneous Graph Learning with Multi-level Data Augmentation ( http://arxiv.org/abs/2212.00024v1 )

ライセンス: Link先を確認
Ying Chen, Siwei Qiang, Mingming Ha, Xiaolei Liu, Shaoshuai Li, Lingfeng Yuan, Xiaobo Guo, and Zhenfeng Zhu(参考訳) 近年,データ拡張(DA)を用いた半教師付きグラフ学習は,サンプル数が少ないスパースシナリオにおいて,モデルロバスト性を向上するための最も一般的な手法である。 異種グラフにおけるdaは、異種グラフと異なり、大きな課題を持っている: 情報の多様性は、異種関係を効果的に扱うためにda戦略を必要とする。 さらに, 複素グラフにおける非一様分布と強いクラスタリングによって形成された負の曲率によって情報の過大な探索が行われる。 本稿では,マルチレベルデータ拡張(hg-mda)を用いた半教師付き不均質グラフ学習という新しい手法を提案する。 DAにおける情報の不均一性の問題に対して、不均一グラフの特性に対してノードおよびトポロジ拡張戦略を提案する。 そして、拡張ノードとエッジを選択するインデックスの1つとしてメタリレーションに基づく注意が適用される。 情報の過剰な探索の問題に対して、三角形に基づくエッジの追加と削除は、負の曲率を緩和し、トポロジーの利得をもたらすように設計されている。 最後に、損失関数はラベル付きデータのクロスエントロピー損失とラベルなしデータの一貫性正規化からなる。 様々なda戦略の予測結果を効果的に融合させるために、シャープニングを用いる。 公開データセット(ACM、DBLP、OGB、業界データセットMB)の既存の実験は、HG-MDAが現在のSOTAモデルより優れていることを示している。 さらに、HG-MDAはインターネットファイナンスシナリオのユーザ識別に適用され、30%のキーユーザーを追加し、ローンと残高を3.6%、11.1%、9.8%増加させる。

In recent years, semi-supervised graph learning with data augmentation (DA) is currently the most commonly used and best-performing method to enhance model robustness in sparse scenarios with few labeled samples. Differing from homogeneous graph, DA in heterogeneous graph has greater challenges: heterogeneity of information requires DA strategies to effectively handle heterogeneous relations, which considers the information contribution of different types of neighbors and edges to the target nodes. Furthermore, over-squashing of information is caused by the negative curvature that formed by the non-uniformity distribution and strong clustering in complex graph. To address these challenges, this paper presents a novel method named Semi-Supervised Heterogeneous Graph Learning with Multi-level Data Augmentation (HG-MDA). For the problem of heterogeneity of information in DA, node and topology augmentation strategies are proposed for the characteristics of heterogeneous graph. And meta-relation-based attention is applied as one of the indexes for selecting augmented nodes and edges. For the problem of over-squashing of information, triangle based edge adding and removing are designed to alleviate the negative curvature and bring the gain of topology. Finally, the loss function consists of the cross-entropy loss for labeled data and the consistency regularization for unlabeled data. In order to effectively fuse the prediction results of various DA strategies, the sharpening is used. Existing experiments on public datasets, i.e., ACM, DBLP, OGB, and industry dataset MB show that HG-MDA outperforms current SOTA models. Additionly, HG-MDA is applied to user identification in internet finance scenarios, helping the business to add 30% key users, and increase loans and balances by 3.6%, 11.1%, and 9.8%.
翻訳日:2022-12-02 15:01:31 公開日:2022-11-30
# サンプリングsat溶液の消音拡散

Denoising Diffusion for Sampling SAT Solutions ( http://arxiv.org/abs/2212.00121v1 )

ライセンス: Link先を確認
Karlis Freivalds, Sergejs Kozlovics(参考訳) Boolean Satisfiability Problem (SAT) に対する多様なソリューションの生成は、ソフトウェアとハードウェアの設計の試験と機能検証の実践的な応用において難しい計算問題である。 Denoising Diffusion と Graph Neural Network を併用してデノナイジング関数を実装することで,このようなソリューションを生成する方法について検討する。 得られた精度は,標準解法から非ランダム解を訓練した場合でも,現在最も優れた純粋ニューラルネットワーク法に類似しており,sat解は非常に多様であることがわかった。

Generating diverse solutions to the Boolean Satisfiability Problem (SAT) is a hard computational problem with practical applications for testing and functional verification of software and hardware designs. We explore the way to generate such solutions using Denoising Diffusion coupled with a Graph Neural Network to implement the denoising function. We find that the obtained accuracy is similar to the currently best purely neural method and the produced SAT solutions are highly diverse, even if the system is trained with non-random solutions from a standard solver.
翻訳日:2022-12-02 15:00:59 公開日:2022-11-30
# 身体的参照表現接地のためのレイアウト対応ドリーム

Layout-aware Dreamer for Embodied Referring Expression Grounding ( http://arxiv.org/abs/2212.00171v1 )

ライセンス: Link先を確認
Mingxiao Li, Zehao Wang, Tinne Tuytelaars, Marie-Francine Moens(参考訳) 本研究では,エージェントが未確認環境をナビゲートし,簡潔な高レベル自然言語命令によって記述されたリモートオブジェクトをローカライズする必要があるという,身体的参照表現接地の問題について検討する。 このような状況に直面すると、人間は目的地がどのようなものであるかを想像し、キッチンよりも寝室の近くで浴室が見つかる可能性が高いなど、環境レイアウトに関する事前の知識に基づいて環境を探索する傾向がある。 layout-aware dreamer (lad) と呼ばれる自律エージェントを設計し、この認知的意思決定プロセスを模倣する2つの新しいモジュール、つまりlayout learnerとgoal dreamerを設計した。 レイアウト学習者は、粗いレイアウト推定のための経路に沿って隣り合う未探索領域の部屋カテゴリ分布を推定し、エージェントへの部屋間遷移のレイアウト共通感覚を効果的に導入する。 効果的な環境探索を学ぶために、目標夢想家(goal dreamer)は、事前に目的地を想像する。 我々のエージェントは、REVERIEデータセットの公開リーダボード上で、ナビゲーション成功(SR)を4.02%改善し、リモートグラウンド成功(RGS)を3.43%改善した未確認テスト環境に挑戦する上で、新しい最先端のパフォーマンスを達成する。 コードはhttps://github.com/zehao-wang/LADで公開されている。

In this work, we study the problem of Embodied Referring Expression Grounding, where an agent needs to navigate in a previously unseen environment and localize a remote object described by a concise high-level natural language instruction. When facing such a situation, a human tends to imagine what the destination may look like and to explore the environment based on prior knowledge of the environmental layout, such as the fact that a bathroom is more likely to be found near a bedroom than a kitchen. We have designed an autonomous agent called Layout-aware Dreamer (LAD), including two novel modules, that is, the Layout Learner and the Goal Dreamer to mimic this cognitive decision process. The Layout Learner learns to infer the room category distribution of neighboring unexplored areas along the path for coarse layout estimation, which effectively introduces layout common sense of room-to-room transitions to our agent. To learn an effective exploration of the environment, the Goal Dreamer imagines the destination beforehand. Our agent achieves new state-of-the-art performance on the public leaderboard of the REVERIE dataset in challenging unseen test environments with improvement in navigation success (SR) by 4.02% and remote grounding success (RGS) by 3.43% compared to the previous state-of-the-art. The code is released at https://github.com/zehao-wang/LAD
翻訳日:2022-12-02 14:45:22 公開日:2022-11-30
# CRO-SLに基づく新しい確率論的動的多手法アンサンブル

New Probabilistic-Dynamic Multi-Method Ensembles for Optimization based on the CRO-SL ( http://arxiv.org/abs/2212.00742v1 )

ライセンス: Link先を確認
Jorge P\'erez-Aracil and Carlos Camacho-G\'omez and Eugenio Lorente-Ramos and Cosmin M. Marina and Sancho Salcedo-Sanz(参考訳) 本稿では,基盤層(cro-sl)アルゴリズムを用いたサンゴ礁最適化に基づくマルチメソッドアンサンブルを作成するための新しい確率的動的(適応的)戦略を提案する。 CRO-SLは進化に基づくアンサンブルアプローチであり、単一の集団内で異なる探索手順を組み合わせることができる。 本稿では,アルゴリズム改善のための2つの確率的戦略について考察する。 まず, CRO-SL (PCRO-SL) を各個体に関連付けることで, CRO-SL 集団の基質を置換する確率的 CRO-SL (PCRO-SL) を定義した。 各タグは、再生フェーズで個人を変更する異なる演算子を表す。 アルゴリズムの各世代において、タグは、同じ確率で個人にランダムに割り当てられ、この方法で、元のCRO-SLよりも特定の個人への異なる演算子の適用に、より強い変化を伴うアンサンブルを得る。 本論文で議論されている2つ目の戦略は動的確率的 cro-sl (dpcro-sl) であり,各基板で生成する解の質に応じてタグ割り当ての確率を変化させる手法である。 したがって、探索過程における最善の基板は、探索中に性能を低下させた基板よりも高い確率で割り当てられる。 ベンチマーク関数や風車レイアウト最適化の実際の応用など,様々な最適化問題において提案する確率的および動的アンサンブルの性能を,既存のアルゴリズムとの比較により検証した。

In this paper we propose new probabilistic and dynamic (adaptive) strategies to create multi-method ensembles based on the Coral Reefs Optimization with Substrate Layers (CRO-SL) algorithm. The CRO-SL is an evolutionary-based ensemble approach, able to combine different search procedures within a single population. In this work we discuss two different probabilistic strategies to improve the algorithm. First, we defined the Probabilistic CRO-SL (PCRO-SL), which substitutes the substrates in the CRO-SL population by {\em tags} associated with each individual. Each tag represents a different operator which will modify the individual in the reproduction phase. In each generation of the algorithm, the tags are randomly assigned to the individuals with a similar probability, obtaining this way an ensemble with a more intense change in the application of different operators to a given individual than the original CRO-SL. The second strategy discussed in this paper is the Dynamical Probabilistic CRO-SL (DPCRO-SL), in which the probability of tag assignment is modified during the evolution of the algorithm, depending on the quality of the solutions generated in each substrate. Thus, the best substrates in the search process will be assigned with a higher probability that those which showed a worse performance during the search. We test the performance of the proposed probabilistic and dynamic ensembles in different optimization problems, including benchmark functions and a real application of wind turbines layout optimization, comparing the results obtained with that of existing algorithms in the literature.
翻訳日:2022-12-02 14:44:24 公開日:2022-11-30
# インクリメンタルフーリエニューラルオペレータ

Incremental Fourier Neural Operator ( http://arxiv.org/abs/2211.15188v2 )

ライセンス: Link先を確認
Jiawei Zhao, Robert Joseph George, Yifei Zhang, Zongyi Li, Anima Anandkumar(参考訳) 近年、ニューラルネットワークは偏微分方程式(pdes)を解く能力が証明されている。 中でもフーリエニューラル演算子(FNO)は乱流などの非線形問題に対する学習ソリューション演算子として成功している。 FNOは離散化不変であり、低解像度のデータをトレーニングし、高解像度の問題を一般化することができる。 この特性は、情報伝達のために限られた周波数モードのみを選択するFNOの低域フィルタと関連している。 しかし、異なるPDEに対して適切な回数の周波数モードとトレーニング解像度を選択することは依然として課題である。 周波数モードと低解像度データが多すぎると一般化を損なうが、多くの周波数モードと高解像度データは計算に高価であり、過度に適合する。 そこで本研究では,訓練中の周波数モードとデータ解像度を漸進的に拡張するインクリメンタルフーリエニューラル演算子(ifno)を提案する。 IFNOは,標準FNOに比べて計算コストを35%削減しつつ,より優れた一般化(L2損失テストの15%削減)を実現する。 さらに,IFNOはFNOにおける暗黙の正則化の挙動に従い,その優れた一般化能力を説明する。

Recently, neural networks have proven their impressive ability to solve partial differential equations (PDEs). Among them, Fourier neural operator (FNO) has shown success in learning solution operators for highly non-linear problems such as turbulence flow. FNO is discretization-invariant, where it can be trained on low-resolution data and generalizes to problems with high-resolution. This property is related to the low-pass filters in FNO, where only a limited number of frequency modes are selected to propagate information. However, it is still a challenge to select an appropriate number of frequency modes and training resolution for different PDEs. Too few frequency modes and low-resolution data hurt generalization, while too many frequency modes and high-resolution data are computationally expensive and lead to over-fitting. To this end, we propose Incremental Fourier Neural Operator (IFNO), which augments both the frequency modes and data resolution incrementally during training. We show that IFNO achieves better generalization (around 15% reduction on testing L2 loss) while reducing the computational cost by 35%, compared to the standard FNO. In addition, we observe that IFNO follows the behavior of implicit regularization in FNO, which explains its excellent generalization ability.
翻訳日:2022-12-02 14:17:30 公開日:2022-11-30
# ロボットシステムの学習と制御のためのリー群強制変分積分器ネットワーク

Lie Group Forced Variational Integrator Networks for Learning and Control of Robot Systems ( http://arxiv.org/abs/2211.16006v2 )

ライセンス: Link先を確認
Valentin Duruisseaux, Thai Duong, Melvin Leok, Nikolay Atanasov(参考訳) 物理法則の事前知識と力学系の構造特性をディープラーニングアーキテクチャの設計に組み込むことは、計算効率と一般化能力を向上させるための強力な技術であることが証明されている。 ロボットダイナミクスの正確なモデルを学ぶことは、安全で安定した制御に不可欠である。 車輪、空中、水中の車両を含む自律移動ロボットは、行列リー群上で進化するラグランジアンまたはハミルトン剛体系としてモデル化することができる。 本稿では,新しい構造保存型ディープラーニングアーキテクチャであるlie群強制変分積分器ネットワーク(liefvin)について紹介する。 設計上、リーフヴィンは力学が発展するリー群構造とハミルトンやラグランジアン系の基礎となるシンプレクティック構造の両方を保存している。 提案アーキテクチャでは,ベクトル場に必要な数値積分器,ニューラル-ODE,随伴手法を使わずに高精度かつ高速な予測が可能な離散時間フローマップの代理学習を行う。 さらに、学習した離散時間ダイナミクスは、計算にスケーラブルな離散時間(最適)制御戦略で利用することができる。

Incorporating prior knowledge of physics laws and structural properties of dynamical systems into the design of deep learning architectures has proven to be a powerful technique for improving their computational efficiency and generalization capacity. Learning accurate models of robot dynamics is critical for safe and stable control. Autonomous mobile robots, including wheeled, aerial, and underwater vehicles, can be modeled as controlled Lagrangian or Hamiltonian rigid-body systems evolving on matrix Lie groups. In this paper, we introduce a new structure-preserving deep learning architecture, the Lie group Forced Variational Integrator Network (LieFVIN), capable of learning controlled Lagrangian or Hamiltonian dynamics on Lie groups, either from position-velocity or position-only data. By design, LieFVINs preserve both the Lie group structure on which the dynamics evolve and the symplectic structure underlying the Hamiltonian or Lagrangian systems of interest. The proposed architecture learns surrogate discrete-time flow maps allowing accurate and fast prediction without numerical-integrator, neural-ODE, or adjoint techniques, which are needed for vector fields. Furthermore, the learnt discrete-time dynamics can be utilized with computationally scalable discrete-time (optimal) control strategies.
翻訳日:2022-12-02 14:17:10 公開日:2022-11-30
# 低ランク表現による情報のロバストかつ高速測定

Robust and Fast Measure of Information via Low-rank Representation ( http://arxiv.org/abs/2211.16784v1 )

ライセンス: Link先を確認
Yuxin Dong and Tieliang Gong and Shujian Yu and Hong Chen and Chen Li(参考訳) 行列に基づく r\'enyi のエントロピーは、基礎となる確率分布を明示的に見積もることなく、与えられたデータから情報測度を直接定量化することができる。 この興味深い性質は、統計推論や機械学習タスクに広く応用される。 しかし、この情報理論量はデータのノイズに対して堅牢ではなく、大規模アプリケーションでは計算が禁じられている。 これらの問題に対処するために、無限可除なカーネル行列の低ランク表現に基づいて、低ランク行列に基づくR\'enyiのエントロピーと呼ばれる新しい情報尺度を提案する。 提案するエントロピー関数は、データから情報を直接定量化するために元の定義の特殊性を継承するが、頑健性や効果的な計算などの利点を享受する。 特に,低ランクの変種は,騒音による非定型的な変質に敏感である一方で,下位分布の変化による情報的摂動に敏感である。 さらに、ローランク R\'enyi のエントロピーはランダム射影法やランツォス反復法によって効率的に近似することができ、全体的な複雑さを $\mathcal{O}(n^3)$ から $\mathcal{O}(n^2 s)$ あるいは $\mathcal{O}(ns^2)$ に還元することができる。 我々は,この新たな情報尺度の有効性を評価するために大規模な実験を行い,行列ベースのR'enyiエントロピーと比較して,性能と計算効率の両面で優れた結果を示す。

The matrix-based R\'enyi's entropy allows us to directly quantify information measures from given data, without explicit estimation of the underlying probability distribution. This intriguing property makes it widely applied in statistical inference and machine learning tasks. However, this information theoretical quantity is not robust against noise in the data, and is computationally prohibitive in large-scale applications. To address these issues, we propose a novel measure of information, termed low-rank matrix-based R\'enyi's entropy, based on low-rank representations of infinitely divisible kernel matrices. The proposed entropy functional inherits the specialty of of the original definition to directly quantify information from data, but enjoys additional advantages including robustness and effective calculation. Specifically, our low-rank variant is more sensitive to informative perturbations induced by changes in underlying distributions, while being insensitive to uninformative ones caused by noises. Moreover, low-rank R\'enyi's entropy can be efficiently approximated by random projection and Lanczos iteration techniques, reducing the overall complexity from $\mathcal{O}(n^3)$ to $\mathcal{O}(n^2 s)$ or even $\mathcal{O}(ns^2)$, where $n$ is the number of data samples and $s \ll n$. We conduct large-scale experiments to evaluate the effectiveness of this new information measure, demonstrating superior results compared to matrix-based R\'enyi's entropy in terms of both performance and computational efficiency.
翻訳日:2022-12-01 18:26:33 公開日:2022-11-30
# 2光子顕微鏡における光整形および適応光学のためのdebye-wolf積分の微分可能最適化

Differentiable optimization of the Debye-Wolf integral for light shaping and adaptive optics in two-photon microscopy ( http://arxiv.org/abs/2211.16930v1 )

ライセンス: Link先を確認
Ivan Vishniakou, Johannes D. Seelig(参考訳) 光学、適応光学、レーザー加工などの応用において、高い開口率を持つ顕微鏡の目的による光制御は一般的な要件である。 偏光効果を含む光伝搬は、デバイ・ウルフ回折積分を用いてこれらの条件下で記述することができる。 そこで本研究では,Debye-Wolf積分を効率よく最適化するために,微分可能最適化と機械学習を利用する。 光整形には、この最適化手法が2光子顕微鏡における任意の3次元点展開関数に適していることを示す。 微分型モデルに基づく適応光学 (dao) では, 誘導星を必要とせず, 遺伝的にコード化されたカルシウムインジケータをラベルづけしたニューロンなど, 内在的な画像特徴を持つ収差補正を探索できる。 計算モデルを用いて、この手法で補正できる空間周波数と収差の大きさの範囲をさらに議論する。

Control of light through a microscope objective with a high numerical aperture is a common requirement in applications such as optogenetics, adaptive optics, or laser processing. Light propagation, including polarization effects, can be described under these conditions using the Debye-Wolf diffraction integral. Here, we take advantage of differentiable optimization and machine learning for efficiently optimizing the Debye-Wolf integral for such applications. For light shaping we show that this optimization approach is suitable for engineering arbitrary three-dimensional point spread functions in a two-photon microscope. For differentiable model-based adaptive optics (DAO), the developed method can find aberration corrections with intrinsic image features, for example neurons labeled with genetically encoded calcium indicators, without requiring guide stars. Using computational modeling we further discuss the range of spatial frequencies and magnitudes of aberrations which can be corrected with this approach.
翻訳日:2022-12-01 18:25:57 公開日:2022-11-30
# ALARM:Rowhammerのリチベーションのアクティブルアーニング

ALARM: Active LeArning of Rowhammer Mitigations ( http://arxiv.org/abs/2211.16942v1 )

ライセンス: Link先を確認
Amir Naseredini, Martin Berger, Matteo Sammartino, Shale Xiong(参考訳) Rowhammerは、現在の動的ランダムアクセスメモリ(DRAM)の深刻なセキュリティ問題であり、ビットの読み書きは他のビットを反転させることができる。 DRAM製造業者は軽減策を加えているが、詳細は明らかにしないため、顧客が有効性を評価することは困難である。 本稿では,現代のDRAMの合成モデルに対して,Rowhammer緩和パラメータを自動的に推論する能動的学習に基づくツールを提案する。

Rowhammer is a serious security problem of contemporary dynamic random-access memory (DRAM) where reads or writes of bits can flip other bits. DRAM manufacturers add mitigations, but don't disclose details, making it difficult for customers to evaluate their efficacy. We present a tool, based on active learning, that automatically infers parameter of Rowhammer mitigations against synthetic models of modern DRAM.
翻訳日:2022-12-01 18:25:42 公開日:2022-11-30
# 健康モニタリングのためのコミュニケーション効率の高い連合学習の設計について

On the Design of Communication-Efficient Federated Learning for Health Monitoring ( http://arxiv.org/abs/2211.16952v1 )

ライセンス: Link先を確認
Dong Chu, Wael Jaafar, and Halim Yanikomeroglu(参考訳) モノのインターネット(Internet of Things)の普及に伴い、健康モニタリングアプリケーションは徐々に成長してきた。 最近の新型コロナウイルス(COVID-19)パンデミックの中で、接触を減らし、限られた医療資源を維持することを目的とした、恒久的な遠隔医療監視ソリューションへの関心が高まっている。 効率的なリモートヘルスモニタリングを実現する技術手法として、フェデレーション・ラーニング(fl)が特に注目されているのは、データのプライバシの保護が堅牢であることである。 しかし、FLサーバとクライアントの間で頻繁に通信を行うため、FLは通信コストが高い。 この問題に対処するため,本稿では,クライアントのクラスタリングと転送学習を含むコミュニケーション効率の高い連合学習(cefl)フレームワークを提案する。 まず,ニューラルネットワークの特性に基づいて類似度係数の計算を行い,クライアントをグループ化する。 そして、各クラスタの代表的なクライアントが選択され、クラスタのリーダとなる。 従来のFLとは違って,本手法はクラスタリーダ間でのみFLトレーニングを行う。 その後、転送学習がリーダによって採用され、トレーニングされたFLモデルでクラスタメンバを更新する。 最後に、各メンバーは受信したモデルを独自のデータで微調整する。 通信コストをさらに削減するために,部分層FLアグリゲーションアプローチを選択する。 この方法は、完全にではなく、部分的にニューラルネットワークモデルを更新することを示唆している。 実験の結果,CEFLは通信コストの最大98.45%を節約できる一方で,従来のFLに比べて3%未満の精度の損失を許容できることがわかった。 最後に、CEFLは、小さくまたはアンバランスなデータセットを持つクライアントに対して高い精度を示す。

With the booming deployment of Internet of Things, health monitoring applications have gradually prospered. Within the recent COVID-19 pandemic situation, interest in permanent remote health monitoring solutions has raised, targeting to reduce contact and preserve the limited medical resources. Among the technological methods to realize efficient remote health monitoring, federated learning (FL) has drawn particular attention due to its robustness in preserving data privacy. However, FL can yield to high communication costs, due to frequent transmissions between the FL server and clients. To tackle this problem, we propose in this paper a communication-efficient federated learning (CEFL) framework that involves clients clustering and transfer learning. First, we propose to group clients through the calculation of similarity factors, based on the neural networks characteristics. Then, a representative client in each cluster is selected to be the leader of the cluster. Differently from the conventional FL, our method performs FL training only among the cluster leaders. Subsequently, transfer learning is adopted by the leader to update its cluster members with the trained FL model. Finally, each member fine-tunes the received model with its own data. To further reduce the communication costs, we opt for a partial-layer FL aggregation approach. This method suggests partially updating the neural network model rather than fully. Through experiments, we show that CEFL can save up to to 98.45% in communication costs while conceding less than 3% in accuracy loss, when compared to the conventional FL. Finally, CEFL demonstrates a high accuracy for clients with small or unbalanced datasets.
翻訳日:2022-12-01 18:25:34 公開日:2022-11-30
# 時間積分器のニューラルネットワーク表現

Neural Network Representation of Time Integrators ( http://arxiv.org/abs/2211.17039v1 )

ライセンス: Link先を確認
Rainald L\"ohner and Harbir Antil(参考訳) Deep Neural Network (DNN) アーキテクチャは、数値時間積分のための明示的なRunge-Kuttaスキームと同等のものである。 ネットワークの重みとバイアス、すなわちトレーニングは不要である。 このように、物理ベースの積分器に残された唯一のタスクは、右辺のDNN近似である。 これにより、右側のエラーと時間統合エラーの近似推定を明確化できます。 単純な質量減衰剛性ケースの統合に必要なアーキテクチャを例として挙げる。

Deep neural network (DNN) architectures are constructed that are the exact equivalent of explicit Runge-Kutta schemes for numerical time integration. The network weights and biases are given, i.e., no training is needed. In this way, the only task left for physics-based integrators is the DNN approximation of the right-hand side. This allows to clearly delineate the approximation estimates for right-hand side errors and time integration errors. The architecture required for the integration of a simple mass-damper-stiffness case is included as an example.
翻訳日:2022-12-01 18:25:14 公開日:2022-11-30
# 軌道生成による効率的強化学習

Efficient Reinforcement Learning Through Trajectory Generation ( http://arxiv.org/abs/2211.17249v1 )

ライセンス: Link先を確認
Wenqi Cui, Linbin Huang, Weiwei Yang, Baosen Zhang(参考訳) 多くの実世界のアプリケーションで強化学習(RL)を使用するための鍵となる障壁は、優れた制御ポリシーを学ぶために多数のシステムインタラクションが必要であることである。 歴史的データから制御ポリシを学習することにより,物理環境との相互作用を減らすために,オフ・ポリティクスとオフラインRL法が提案されている。 しかし、彼らのパフォーマンスは探索の欠如と、コントローラが更新されると軌道上の分布シフトに苦しむ。 さらに、ほとんどのRL法では、全ての状態が直接観察されることが要求されるが、多くの設定で達成することは困難である。 これらの課題を克服するため,我々は,システムが更新された制御ポリシーの下で運用されているかのように適応的に新しい軌道を生成する軌道生成アルゴリズムを提案する。 線形系の基本補題に動機付けられ、十分な励起を仮定して、歴史的軌跡の線形結合から軌道を生成する。 線形フィードバック制御では,更新された制御ポリシーを用いて実システムからサンプリングされたかのように,正確な分布を持つ軌道を生成する。 特に、このアルゴリズムは状態が直接観測されないシステムにまで拡張される。 実験の結果,提案手法はRLアルゴリズムに必要なサンプルデータの数を著しく削減することがわかった。

A key barrier to using reinforcement learning (RL) in many real-world applications is the requirement of a large number of system interactions to learn a good control policy. Off-policy and Offline RL methods have been proposed to reduce the number of interactions with the physical environment by learning control policies from historical data. However, their performances suffer from the lack of exploration and the distributional shifts in trajectories once controllers are updated. Moreover, most RL methods require that all states are directly observed, which is difficult to be attained in many settings. To overcome these challenges, we propose a trajectory generation algorithm, which adaptively generates new trajectories as if the system is being operated and explored under the updated control policies. Motivated by the fundamental lemma for linear systems, assuming sufficient excitation, we generate trajectories from linear combinations of historical trajectories. For linear feedback control, we prove that the algorithm generates trajectories with the exact distribution as if they are sampled from the real system using the updated control policy. In particular, the algorithm extends to systems where the states are not directly observed. Experiments show that the proposed method significantly reduces the number of sampled data needed for RL algorithms.
翻訳日:2022-12-01 18:24:52 公開日:2022-11-30
# 外乱オブザーバに基づく制御障壁関数を用いた安全モデルフリー強化学習

Safe Model-Free Reinforcement Learning using Disturbance-Observer-Based Control Barrier Functions ( http://arxiv.org/abs/2211.17250v1 )

ライセンス: Link先を確認
Yikun Cheng, Pan Zhao and Naira Hovakimyan(参考訳) トレーニング中の厳しい状態制約を確実に満足させる安全な強化学習(RL)が近年注目されている。 例えば、制御障壁関数(CBF)に基づく安全フィルタは、RLエージェントの安全でない動作をオンザフライで変更することで、安全RLのための有望な方法を提供する。 既存の安全フィルタベースのアプローチでは、不確実なダイナミクスの学習と学習モデルエラーの定量化が一般的であり、大量のデータが収集される前に保守的なフィルタを発生させ、優れたモデルを学ぶ。 本稿では,外乱オブザーバ(DOB)と制御バリア関数(CBF)を用いた安全かつ効率的なモデルフリーRLを提案する。 ハードステート制約に対処する既存の安全RL手法とは異なり、我々の手法はモデル学習を伴わず、DOBを用いて不確実性のポイントワイド値を正確に推定し、安全行動を生成するために頑健なCBF条件に組み込む。 DOBベースのCBFは、学習プロセス全体を通して安全を確保するために必要なRLエージェントの動作を最小限に変更することにより、モデルフリーなRLアルゴリズムによる安全フィルタとして使用できる。 一輪車と2次元四輪車のシミュレーション結果から,CBFとガウス過程に基づくモデル学習を用いた最先端の安全RLアルゴリズムを,安全性違反率,サンプルおよび計算効率の観点から比較した。

Safe reinforcement learning (RL) with assured satisfaction of hard state constraints during training has recently received a lot of attention. Safety filters, e.g., based on control barrier functions (CBFs), provide a promising way for safe RL via modifying the unsafe actions of an RL agent on the fly. Existing safety filter-based approaches typically involve learning of uncertain dynamics and quantifying the learned model error, which leads to conservative filters before a large amount of data is collected to learn a good model, thereby preventing efficient exploration. This paper presents a method for safe and efficient model-free RL using disturbance observers (DOBs) and control barrier functions (CBFs). Unlike most existing safe RL methods that deal with hard state constraints, our method does not involve model learning, and leverages DOBs to accurately estimate the pointwise value of the uncertainty, which is then incorporated into a robust CBF condition to generate safe actions. The DOB-based CBF can be used as a safety filter with any model-free RL algorithms by minimally modifying the actions of an RL agent whenever necessary to ensure safety throughout the learning process. Simulation results on a unicycle and a 2D quadrotor demonstrate that the proposed method outperforms a state-of-the-art safe RL algorithm using CBFs and Gaussian processes-based model learning, in terms of safety violation rate, and sample and computational efficiency.
翻訳日:2022-12-01 18:24:35 公開日:2022-11-30
# ニューラルネットパッチングによる効率よい逆入力生成

Efficient Adversarial Input Generation via Neural Net Patching ( http://arxiv.org/abs/2211.16808v1 )

ライセンス: Link先を確認
Tooba Khan, Kumar Madhukar, Subodh Vishnu Sharma(参考訳) 深層ニューラルネットワークのロバスト性と信頼性を確立する上では,特に自律走行車や精密医療などの安全クリティカルな応用領域で使用される場合,逆入力生成の問題が中心となっている。 これはまた、大規模ネットワークによる一般的な問題であり、生成した逆入力は自然性や出力不均一性といった重要な性質を欠くことが多い。 この問題はニューラルネットをパッチするタスク、すなわちネットワーク$'$s重みの一部に小さな変更を加えることで、修正されたネットが与えられた特性を満たすように関連付ける。 直感的には、重みを変更する効果は代わりに入力を変更することでもたらされるので、逆入力を生成するためにパッチを使用することができる。 本研究は、ニューラルネットワークにパッチを当てる新しい手法と、それを用いて元のネットに逆らう入力の摂動を生成する革新的なアプローチを提案する。 提案手法は,従来の最先端技術よりもはるかに効果的である。

The adversarial input generation problem has become central in establishing the robustness and trustworthiness of deep neural nets, especially when they are used in safety-critical application domains such as autonomous vehicles and precision medicine. This is also practically challenging for multiple reasons-scalability is a common issue owing to large-sized networks, and the generated adversarial inputs often lack important qualities such as naturalness and output-impartiality. We relate this problem to the task of patching neural nets, i.e. applying small changes in some of the network$'$s weights so that the modified net satisfies a given property. Intuitively, a patch can be used to produce an adversarial input because the effect of changing the weights can also be brought about by changing the inputs instead. This work presents a novel technique to patch neural networks and an innovative approach of using it to produce perturbations of inputs which are adversarial for the original net. We note that the proposed solution is significantly more effective than the prior state-of-the-art techniques.
翻訳日:2022-12-01 18:19:14 公開日:2022-11-30
# 条件付き生成モデルによる量子系の予測特性

Predicting Properties of Quantum Systems with Conditional Generative Models ( http://arxiv.org/abs/2211.16943v1 )

ライセンス: Link先を確認
Haoxiang Wang, Maurice Weber, Josh Izaac, Cedric Yen-Yu Lin(参考訳) 機械学習は、量子多体システムの特性を予測する強力なツールとして最近登場した。 ガッピングハミルトニアンの多くの基底状態について、生成モデルは単一の量子状態の測定から学び、局所観測可能性を予測するのに十分な正確な状態を再構築することができる。 あるいは、カーネルメソッドは、異なるが関連する状態の測定から学習することで、ローカルオブザーバブルを予測できる。 本研究では,両手法の利点を組み合わせることで,異なる量子状態の共有構造を測定から学習することにより,状態の族を同時に表現するための条件付き生成モデルの利用を提案する。 トレーニングされたモデルでは、トレーニングデータに存在しない状態であっても、新しい観測対象のさらなる訓練を必要とせず、任意の基底状態の局所特性を予測できる。 我々は、2つの量子多体問題、2次元ランダムハイゼンベルクモデルとライドバーグ原子系に対するアプローチ(最大45キュービットのシミュレーション)を数値的に検証する。

Machine learning has emerged recently as a powerful tool for predicting properties of quantum many-body systems. For many ground states of gapped Hamiltonians, generative models can learn from measurements of a single quantum state to reconstruct the state accurately enough to predict local observables. Alternatively, kernel methods can predict local observables by learning from measurements on different but related states. In this work, we combine the benefits of both approaches and propose the use of conditional generative models to simultaneously represent a family of states, by learning shared structures of different quantum states from measurements. The trained model allows us to predict arbitrary local properties of ground states, even for states not present in the training data, and without necessitating further training for new observables. We numerically validate our approach (with simulations of up to 45 qubits) for two quantum many-body problems, 2D random Heisenberg models and Rydberg atom systems.
翻訳日:2022-12-01 18:18:55 公開日:2022-11-30
# 連続法 : 適応的侵入的縮小順序モデル閉鎖

Continuous Methods : Adaptively intrusive reduced order model closure ( http://arxiv.org/abs/2211.16999v1 )

ライセンス: Link先を確認
Emmanuel Menier (LISN, TAU), Michele Alessandro Bucci (TAU), Mouadh Yagoubi, Lionel Mathelin (LISN), Thibault Dairay, Raphael Meunier, Marc Schoenauer (TAU)(参考訳) 工業アプリケーションにおけるシミュレーションコストの削減手段として,低次モデリング手法がよく用いられる。 計算の利点にもかかわらず、還元順序モデル(rom)はしばしば実生活で見られる複雑なダイナミクスを正確に再現することができない。 この課題に対処するため,我々はNeuralODEsを活用し,時間連続メモリの定式化に基づく新しいROM補正手法を提案する。 最後に,実験結果から,提案手法は低計算コストを抑えながら高い精度が得られることを示した。

Reduced order modeling methods are often used as a mean to reduce simulation costs in industrial applications. Despite their computational advantages, reduced order models (ROMs) often fail to accurately reproduce complex dynamics encountered in real life applications. To address this challenge, we leverage NeuralODEs to propose a novel ROM correction approach based on a time-continuous memory formulation. Finally, experimental results show that our proposed method provides a high level of accuracy while retaining the low computational costs inherent to reduced models.
翻訳日:2022-12-01 18:18:39 公開日:2022-11-30
# 擬似非負の四元行列分解と色認識への応用

Quasi Non-Negative Quaternion Matrix Factorization with Application to Color Face Recognition ( http://arxiv.org/abs/2211.16739v1 )

ライセンス: Link先を確認
Yifen Ke, Changfeng Ma, Zhigang Jia, Yajun Xie, Riwei Liao(参考訳) 四元数モデルの非負性低下問題に対処するため、カラー画像処理のための新しい準非負性四元数行列分解(QNQMF)モデルを提案する。 QNQMFを実装するために、QNQMFを非凸制約四元数最適化問題として定式化することにより、乗算器の四元数射影勾配アルゴリズムと四元数交互方向法を提案する。 提案アルゴリズムのいくつかの特性について検討した。 カラー画像再構成に関する数値実験により、四元数で符号化されたこれらのアルゴリズムは、赤、緑、青のチャンネルで符号化されたアルゴリズムよりも優れた性能を示した。 さらに,提案アルゴリズムをカラー顔認証に適用する。 以上の結果から,カラー画像の赤,緑,青の各チャネルと,顔の表情や撮影角度の変化が大きい場合の同一データに対するグレーレベル画像の単一チャネルよりも,四元モデルでの顔認識精度が優れることが示唆された。

To address the non-negativity dropout problem of quaternion models, a novel quasi non-negative quaternion matrix factorization (QNQMF) model is presented for color image processing. To implement QNQMF, the quaternion projected gradient algorithm and the quaternion alternating direction method of multipliers are proposed via formulating QNQMF as the non-convex constraint quaternion optimization problems. Some properties of the proposed algorithms are studied. The numerical experiments on the color image reconstruction show that these algorithms encoded on the quaternion perform better than these algorithms encoded on the red, green and blue channels. Furthermore, we apply the proposed algorithms to the color face recognition. Numerical results indicate that the accuracy rate of face recognition on the quaternion model is better than on the red, green and blue channels of color image as well as single channel of gray level images for the same data, when large facial expressions and shooting angle variations are presented.
翻訳日:2022-12-01 18:18:00 公開日:2022-11-30
# FedGPO: 効率的フェデレート学習のための不均一性を考慮したグローバルパラメータ最適化

FedGPO: Heterogeneity-Aware Global Parameter Optimization for Efficient Federated Learning ( http://arxiv.org/abs/2211.16669v1 )

ライセンス: Link先を確認
Young Geun Kim and Carole-Jean Wu(参考訳) federated learning(fl)は、マシンラーニングトレーニングにおけるプライバシリークのリスクに対処するソリューションとして登場した。 このアプローチにより、さまざまなモバイルデバイスが、デバイス上で生のトレーニングデータをクラウドと共有することなく、機械学習モデルを協調的にトレーニングすることができる。 しかし、システム/データの不均一性と実行時の分散のため、FLの効率的なエッジ配置は困難である。 本稿では、上記の課題を考慮し、モデル収束を保証しながらFLユースケースのエネルギー効率を最適化する。 本稿では,各FLアグリゲーションラウンドに対して,システム/データの不均一性と確率的ランタイム分散に適応して最適なグローバルパラメータ(B, E, K)を同定する方法を学習する強化学習に基づくFedGPOを提案する。 実験では、FedGPOはモデル収束時間を2.4倍改善し、ベースライン設定の3.6倍のエネルギー効率を達成する。

Federated learning (FL) has emerged as a solution to deal with the risk of privacy leaks in machine learning training. This approach allows a variety of mobile devices to collaboratively train a machine learning model without sharing the raw on-device training data with the cloud. However, efficient edge deployment of FL is challenging because of the system/data heterogeneity and runtime variance. This paper optimizes the energy-efficiency of FL use cases while guaranteeing model convergence, by accounting for the aforementioned challenges. We propose FedGPO based on a reinforcement learning, which learns how to identify optimal global parameters (B, E, K) for each FL aggregation round adapting to the system/data heterogeneity and stochastic runtime variance. In our experiments, FedGPO improves the model convergence time by 2.4 times, and achieves 3.6 times higher energy efficiency over the baseline settings, respectively.
翻訳日:2022-12-01 18:17:42 公開日:2022-11-30
# 相互空間ニューラルネットワークによる長距離相互作用のキャプチャ

Capturing long-range interaction with reciprocal space neural network ( http://arxiv.org/abs/2211.16684v1 )

ライセンス: Link先を確認
Hongyu Yu, Liangliang Hong, Shiyou Chen, Xingao Gong, Hongjun Xiang(参考訳) 機械学習(ML)原子間モデルとポテンシャルは、材料のシミュレーションに広く用いられている。 長距離相互作用は、ダイナミクスの挙動が著しく影響するいくつかのイオン系でしばしば支配される。 しかし、クーロンやファン・デル・ウェールズポテンシャルのような長距離効果は、ほとんどのml原子間ポテンシャルでは考慮されない。 この問題に対処するために、相互空間ニューラルネットワークを用いたほとんどのML局所原子間モデルを考慮した長距離効果を考慮した手法を提案する。 実空間の構造情報は、まず相反空間に変換され、次に完全な原子相互作用を持つ相反空間ポテンシャルまたは大域ディスクリプタに符号化される。 相互空間ポテンシャルとディスクリプタは、ユークリッド対称性と細胞の選択の完全な不変性を維持する。 相互空間情報から、ml原子間モデルを拡張して、クーロンだけでなく、その他の長距離相互作用を含む長距離ポテンシャルを記述することができる。 クーロン相互作用を考慮したモデルNaCl系と欠陥のあるGaxNy系を適用し,本手法の利点を示す。 同時に,このアプローチは,局所原子環境を超えた完全な原子間相互作用が重要な役割を果たすバンドギャップなどのグローバル特性の予測精度を向上させるのに役立つ。 まとめると、我々の研究は、長距離効果を扱う際の現在のml原子間モデルとポテンシャルの能力を拡大し、グローバル特性の正確な予測と欠陥のあるシステムの大規模動的シミュレーションのための新しい方法を生み出した。

Machine Learning (ML) interatomic models and potentials have been widely employed in simulations of materials. Long-range interactions often dominate in some ionic systems whose dynamics behavior is significantly influenced. However, the long-range effect such as Coulomb and Van der Wales potential is not considered in most ML interatomic potentials. To address this issue, we put forward a method that can take long-range effects into account for most ML local interatomic models with the reciprocal space neural network. The structure information in real space is firstly transformed into reciprocal space and then encoded into a reciprocal space potential or a global descriptor with full atomic interactions. The reciprocal space potential and descriptor keep full invariance of Euclidean symmetry and choice of the cell. Benefiting from the reciprocal-space information, ML interatomic models can be extended to describe the long-range potential including not only Coulomb but any other long-range interaction. A model NaCl system considering Coulomb interaction and the GaxNy system with defects are applied to illustrate the advantage of our approach. At the same time, our approach helps to improve the prediction accuracy of some global properties such as the band gap where the full atomic interaction beyond local atomic environments plays a very important role. In summary, our work has expanded the ability of current ML interatomic models and potentials when dealing with the long-range effect, hence paving a new way for accurate prediction of global properties and large-scale dynamic simulations of systems with defects.
翻訳日:2022-12-01 18:17:26 公開日:2022-11-30
# 統計的アルゴリズムと機械学習アルゴリズムの比較による等価文脈における乗り継ぎの理解

Understanding transit ridership in an equity context through a comparison of statistical and machine learning algorithms ( http://arxiv.org/abs/2211.16736v1 )

ライセンス: Link先を確認
Elnaz Yousefzadeh Barri, Steven Farber, Hadi Jahanshahi, Eda Beyazit(参考訳) 個人の特徴と構築された環境特性に基づく正確な旅行行動モデルの構築は、政策作成と交通計画において重要である。 より優れた旅行行動分析のためのビッグデータと機械学習(ML)アルゴリズムによる最近の実験は、主に社会的に不利なグループを見落としている。 そこで本研究では,カナダ・トロント大都市圏とハミルトン地区における低所得者の旅行行動反応について,統計モデルとMLモデルを用いて検討した。 まず, モデル選択が低所得層による交通利用予測に与える影響について検討した。 このステップは、従来のアルゴリズムとmlアルゴリズムの予測性能を比較し、アクセシビリティ向上後の脆弱な家庭が生成する移動行動と空間分布を対比して、移動投資政策を評価することを含む。 また,各アルゴリズムが提案する交通投資を実証的に検討し,ブランプトンの将来の交通計画と比較した。 当然のことながら、MLアルゴリズムは古典的なモデルよりも優れているが、解釈可能性に関する懸念から、それを使用することには疑問がある。 したがって,最近の局所的およびグローバル的モデル非依存的解釈ツールを用いて,モデルが予測にどのように到達するかを解釈する。 本研究は,低所得層に対するMLアルゴリズムによる旅行行動予測の可能性を明らかにするものである。

Building an accurate model of travel behaviour based on individuals' characteristics and built environment attributes is of importance for policy-making and transportation planning. Recent experiments with big data and Machine Learning (ML) algorithms toward a better travel behaviour analysis have mainly overlooked socially disadvantaged groups. Accordingly, in this study, we explore the travel behaviour responses of low-income individuals to transit investments in the Greater Toronto and Hamilton Area, Canada, using statistical and ML models. We first investigate how the model choice affects the prediction of transit use by the low-income group. This step includes comparing the predictive performance of traditional and ML algorithms and then evaluating a transit investment policy by contrasting the predicted activities and the spatial distribution of transit trips generated by vulnerable households after improving accessibility. We also empirically investigate the proposed transit investment by each algorithm and compare it with the city of Brampton's future transportation plan. While, unsurprisingly, the ML algorithms outperform classical models, there are still doubts about using them due to interpretability concerns. Hence, we adopt recent local and global model-agnostic interpretation tools to interpret how the model arrives at its predictions. Our findings reveal the great potential of ML algorithms for enhanced travel behaviour predictions for low-income strata without considerably sacrificing interpretability.
翻訳日:2022-12-01 18:17:04 公開日:2022-11-30
# VI-PINNs:偏微分方程式の高速かつ正確な予測のための可変物理インフォームドニューラルネットワーク

VI-PINNs: Variance-involved Physics-informed Neural Networks for Fast and Accurate Prediction of Partial Differential Equations ( http://arxiv.org/abs/2211.16753v1 )

ライセンス: Link先を確認
Bin Shan, Ye Li and Shengjun Huang(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、近年多くの実アプリケーションで多くの進歩を遂げているが、より正確な結果の達成、トレーニング時間の短縮、予測結果の不確かさの定量化など、さらなる研究が必要である。 PINNの最近の進歩は、多くの面でPINNの性能を著しく向上させてきたが、トレーニング過程におけるばらつきの影響を考慮に入れているものはほとんどない。 本研究では, 分散の影響を考慮し, より良い予測を行うためのVI-PINNを提案する。 予測平均と分散を表すためにネットワークの最終層に2つの値を出力し、後者は出力の不確実性を表すために使用される。 高速かつ正確なトレーニングのために、修正された負の対数損失と補助タスクを導入する。 我々は、アプローチの利点を強調するために、幅広い異なる問題についていくつかの実験を行った。 その結果,本手法はより正確な予測を与えるだけでなく,より高速に収束することがわかった。

Although physics-informed neural networks(PINNs) have progressed a lot in many real applications recently, there remains problems to be further studied, such as achieving more accurate results, taking less training time, and quantifying the uncertainty of the predicted results. Recent advances in PINNs have indeed significantly improved the performance of PINNs in many aspects, but few have considered the effect of variance in the training process. In this work, we take into consideration the effect of variance and propose our VI-PINNs to give better predictions. We output two values in the final layer of the network to represent the predicted mean and variance respectively, and the latter is used to represent the uncertainty of the output. A modified negative log-likelihood loss and an auxiliary task are introduced for fast and accurate training. We perform several experiments on a wide range of different problems to highlight the advantages of our approach. The results convey that our method not only gives more accurate predictions but also converges faster.
翻訳日:2022-12-01 18:16:43 公開日:2022-11-30
# 学習コスト:6g学習におけるrrmの有効性と効率性

The Cost of Learning: Efficiency vs. Efficacy of Learning-Based RRM for 6G ( http://arxiv.org/abs/2211.16915v1 )

ライセンス: Link先を確認
Seyyidahmed Lahmer, Federico Chiariotti, Andrea Zanella(参考訳) 近年, 深層強化学習(DRL)は, 複雑なネットワークにおける効率的な資源管理戦略を自動学習する上で, 有用なソリューションとなっている。 多くのシナリオでは、クラウドで学習タスクが実行され、経験サンプルはエッジノードやユーザによって直接生成される。 したがって、学習タスクは何らかのデータ交換を伴い、システムから一定の量の送信リソースを減算する。 これは、学習サンプルを送信するためのリソースの割り当てを必要とする効果的な戦略への収束をスピードアップする必要性と、データプレーン通信に使用されるリソースの最大化、学習プロセスの効率性、すなわちオーバーヘッドを最小限にすることを必要とするユーザのQuality of Service(QoS)の最大化との摩擦を生み出す。 本稿では,このトレードオフを考察し,学習エージェントがQoSへの影響を最小限に抑えつつ,効率的な資源配分戦略に迅速に収束することのできる,学習とデータプレーン間の動的バランス戦略を提案する。 シミュレーションの結果,提案手法が静的割当法を上回っており,学習面の最大有効性や最小オーバーヘッドといった最適方針に収束していることがわかった。

In the past few years, Deep Reinforcement Learning (DRL) has become a valuable solution to automatically learn efficient resource management strategies in complex networks. In many scenarios, the learning task is performed in the Cloud, while experience samples are generated directly by edge nodes or users. Therefore, the learning task involves some data exchange which, in turn, subtracts a certain amount of transmission resources from the system. This creates a friction between the need to speed up convergence towards an effective strategy, which requires the allocation of resources to transmit learning samples, and the need to maximize the amount of resources used for data plane communication, maximizing users' Quality of Service (QoS), which requires the learning process to be efficient, i.e., minimize its overhead. In this paper, we investigate this trade-off and propose a dynamic balancing strategy between the learning and data planes, which allows the centralized learning agent to quickly converge to an efficient resource allocation strategy while minimizing the impact on QoS. Simulation results show that the proposed method outperforms static allocation methods, converging to the optimal policy (i.e., maximum efficacy and minimum overhead of the learning plane) in the long run.
翻訳日:2022-12-01 18:11:02 公開日:2022-11-30
# 生成逆ネットワークを用いたカラム物理の確率的パラメータ化

Stochastic Parameterization of Column Physics using Generative Adversarial Networks ( http://arxiv.org/abs/2211.16654v1 )

ライセンス: Link先を確認
B.T. Nadiga and X. Sun and C. Nash(参考訳) 本研究では,確率的機械学習手法を用いて,大気コラム物理学の確率的パラメータ化を展開する。 nasaの最新の研究・応用のための振り返り分析、merra2(英語版)データを用いて、merra2の高周波・高波数成分の鉛直速度の推定を最小化した後、温度と湿度の垂直プロファイルに基づく断熱源の垂直プロファイルの確率分布を生成型逆ネットワークを用いて学習した。 これは、人間の設計した物理パラメータ化の欠点と、気候モデルにおける「物理」ステップの計算需要の両方を緩和しようとする、以前の類似しているが決定論的アプローチに対する改善と見なすことができる。

We demonstrate the use of a probabilistic machine learning technique to develop stochastic parameterizations of atmospheric column-physics. After suitable preprocessing of NASA's Modern-Era Retrospective analysis for Research and Applications, version 2 (MERRA2) data to minimize the effects of high-frequency, high-wavenumber component of MERRA2 estimate of vertical velocity, we use generative adversarial networks to learn the probability distribution of vertical profiles of diabatic sources conditioned on vertical profiles of temperature and humidity. This may be viewed as an improvement over previous similar but deterministic approaches that seek to alleviate both, shortcomings of human-designed physics parameterizations, and the computational demand of the "physics" step in climate models.
翻訳日:2022-12-01 18:08:51 公開日:2022-11-30
# 非方向重み付きグラフへの精密表現のためのノード協調型グラフ畳み込みネットワーク

A Node-collaboration-informed Graph Convolutional Network for Precise Representation to Undirected Weighted Graphs ( http://arxiv.org/abs/2211.16689v1 )

ライセンス: Link先を確認
Ying Wang, Ye Yuan, Xin Luo(参考訳) 非指向重み付きグラフ(UWG)は、ソーシャルネットワークサービスシステムからのユーザ接触頻度など、実際のアプリケーションからのノードの単独セット間の相互作用を記述するために頻繁に採用される。 グラフ畳み込みネットワーク(GCN)は、クラスタリングや欠落データ推定のようなその後のパターン解析タスクのためにUWGに表現学習を行うために広く採用されている。 しかし、既存のGCNは、接続されたノードペアに隠された潜在的な協調情報をほとんど無視している。 この問題に対処するため,本研究では,対称な潜在因子分析モデルを用いてノード協調をモデル化し,gcnにおける協調損失を補うノード協調モジュールとして検討する。 このアイデアに基づいて、ノード協調型グラフ畳み込みネットワーク(NGCN)が提案されている。 a) ノード対の相互作用からノード協調モジュールを介して潜在協調情報を学習すること。 ロ 高い表現能力を得るために残留接続及び重み付き表現の伝播を構築すること。 c) 対象UWGの正確な表現を実現するために、エンドツーエンドでモデル最適化を実装すること。 実応用から生じるUWGの実証研究は、ノード協調の効率的な取り込みにより、提案されたNGCNは、重量推定の欠如という課題に対処する上で、最先端のGCNよりも著しく優れていることを示した。 一方、優れたスケーラビリティにより、より高度なGCN拡張との互換性が保証され、今後の研究でさらに検討される予定である。

An undirected weighted graph (UWG) is frequently adopted to describe the interactions among a solo set of nodes from real applications, such as the user contact frequency from a social network services system. A graph convolutional network (GCN) is widely adopted to perform representation learning to a UWG for subsequent pattern analysis tasks such as clustering or missing data estimation. However, existing GCNs mostly neglects the latent collaborative information hidden in its connected node pairs. To address this issue, this study proposes to model the node collaborations via a symmetric latent factor analysis model, and then regards it as a node-collaboration module for supplementing the collaboration loss in a GCN. Based on this idea, a Node-collaboration-informed Graph Convolutional Network (NGCN) is proposed with three-fold ideas: a) Learning latent collaborative information from the interaction of node pairs via a node-collaboration module; b) Building the residual connection and weighted representation propagation to obtain high representation capacity; and c) Implementing the model optimization in an end-to-end fashion to achieve precise representation to the target UWG. Empirical studies on UWGs emerging from real applications demonstrate that owing to its efficient incorporation of node-collaborations, the proposed NGCN significantly outperforms state-of-the-art GCNs in addressing the task of missing weight estimation. Meanwhile, its good scalability ensures its compatibility with more advanced GCN extensions, which will be further investigated in our future studies.
翻訳日:2022-12-01 18:08:35 公開日:2022-11-30
# 分子特性予測のためのクロスモーダル蒸留のコーディネート

Coordinating Cross-modal Distillation for Molecular Property Prediction ( http://arxiv.org/abs/2211.16712v1 )

ライセンス: Link先を確認
Hao Zhang, Nan Zhang, Ruixin Zhang, Lei Shen, Yingyi Zhang, and Meng Liu(参考訳) 近年,分子グラフ表現学習 (GRL) が分子特性予測 (MPP) 問題において注目されている。 既存のグラフ手法では、3次元幾何情報がmppの性能向上に重要であることが示されている。 しかし、正確な3D構造は高コストで入手に時間がかかることが多く、GRLの大規模適用が制限される。 これは、3dから2dの知識蒸留で訓練し、2d入力だけで予測する直感的な解決策である。 しかし、3Dから2Dへの蒸留には難しい問題がある。 1つは3次元ビューが2次元ビューとは全く異なることであり、もう1つは、蒸留中の原子の勾配の等級が、分子の大きさの変動により分散し不安定であることである。 これらの課題に対処するため,グローバルな分子蒸留と局所的な原子蒸留を含む蒸留フレームワークを提案する。 また、原子情報蒸留における可変分子サイズの欠点に対処するため、原子と分子情報のコーディネート方法を正当化する理論的な洞察を与える。 2つのポピュラーな分子データセットにおける実験結果から,提案手法は他の手法よりも優れた性能が得られた。 具体的には、最も大きなMPPデータセットであるPCQM4Mv2は、グラフMLの分野で"ImageNet Large Scale Visual Recognition Challenge"として機能し、提案手法はベストワークに比べて6.9%改善された。 また,OGB-LSC 2022 Graph Regression TaskにおけるテストチェレンジセットのMAEは0.0734で4位となった。 私たちはすぐにコードをリリースします。

In recent years, molecular graph representation learning (GRL) has drawn much more attention in molecular property prediction (MPP) problems. The existing graph methods have demonstrated that 3D geometric information is significant for better performance in MPP. However, accurate 3D structures are often costly and time-consuming to obtain, limiting the large-scale application of GRL. It is an intuitive solution to train with 3D to 2D knowledge distillation and predict with only 2D inputs. But some challenging problems remain open for 3D to 2D distillation. One is that the 3D view is quite distinct from the 2D view, and the other is that the gradient magnitudes of atoms in distillation are discrepant and unstable due to the variable molecular size. To address these challenging problems, we exclusively propose a distillation framework that contains global molecular distillation and local atom distillation. We also provide a theoretical insight to justify how to coordinate atom and molecular information, which tackles the drawback of variable molecular size for atom information distillation. Experimental results on two popular molecular datasets demonstrate that our proposed model achieves superior performance over other methods. Specifically, on the largest MPP dataset PCQM4Mv2 served as an "ImageNet Large Scale Visual Recognition Challenge" in the field of graph ML, the proposed method achieved a 6.9% improvement compared with the best works. And we obtained fourth place with the MAE of 0.0734 on the test-challenge set for OGB-LSC 2022 Graph Regression Task. We will release the code soon.
翻訳日:2022-12-01 18:08:09 公開日:2022-11-30
# JKOスキームを用いた連続正規化流れのハイパーパラメータチューニング

Taming Hyperparameter Tuning in Continuous Normalizing Flows Using the JKO Scheme ( http://arxiv.org/abs/2211.16757v1 )

ライセンス: Link先を確認
Alexander Vidal, Samy Wu Fung, Luis Tenorio, Stanley Osher, Levon Nurbekyan(参考訳) 正規化フロー (NF) は、選択された確率分布を正規分布に変換する写像である。 このようなフローは、機械学習やデータサイエンスにおけるデータ生成や密度推定に使われる一般的なテクニックである。 NFで得られた密度推定には、NF変換のヤコビ行列式の計算を含む変数公式の変更が必要である。 連続正規化フロー(CNF)は、この決定式を的確に計算するために、ニューラルODEを用いてマッピングとそのヤコビ行列式を推定する。 最適輸送(ot)理論は、標準正規分布を目標測度として強制するためのソフトペナルティでot問題として定式化することで、cnfを見つけるのに有効である。 OTベースのCNFの欠点は、ソフトペナルティの強度を制御し、かなりのチューニングを必要とするハイパーパラメータ$\alpha$の追加である。 OTベースのCNFを$\alpha$をチューニングすることなく解くアルゴリズムであるJKO-Flowを提案する。 これは、OT CNFフレームワークを、JKOスキームとしても知られるワッサーシュタイン勾配流フレームワークに統合することで達成される。 我々は$\alpha$をチューニングする代わりに、固定された$\alpha$の最適化問題を繰り返し解決し、時間ステップ$\alpha$でJKO更新を効果的に実行する。 したがって、大きな$\alpha$で潜在的に難しい問題を解くのではなく、より単純な問題を繰り返すことで「分割と征服」のアルゴリズムを得る。

A normalizing flow (NF) is a mapping that transforms a chosen probability distribution to a normal distribution. Such flows are a common technique used for data generation and density estimation in machine learning and data science. The density estimate obtained with a NF requires a change of variables formula that involves the computation of the Jacobian determinant of the NF transformation. In order to tractably compute this determinant, continuous normalizing flows (CNF) estimate the mapping and its Jacobian determinant using a neural ODE. Optimal transport (OT) theory has been successfully used to assist in finding CNFs by formulating them as OT problems with a soft penalty for enforcing the standard normal distribution as a target measure. A drawback of OT-based CNFs is the addition of a hyperparameter, $\alpha$, that controls the strength of the soft penalty and requires significant tuning. We present JKO-Flow, an algorithm to solve OT-based CNF without the need of tuning $\alpha$. This is achieved by integrating the OT CNF framework into a Wasserstein gradient flow framework, also known as the JKO scheme. Instead of tuning $\alpha$, we repeatedly solve the optimization problem for a fixed $\alpha$ effectively performing a JKO update with a time-step $\alpha$. Hence we obtain a "divide and conquer" algorithm by repeatedly solving simpler problems instead of solving a potentially harder problem with large $\alpha$.
翻訳日:2022-12-01 18:07:43 公開日:2022-11-30
# MVRackLay: 倉庫ラックと棚の単眼マルチビューレイアウト推定

MVRackLay: Monocular Multi-View Layout Estimation for Warehouse Racks and Shelves ( http://arxiv.org/abs/2211.16882v1 )

ライセンス: Link先を確認
Pranjali Pathre, Anurag Sahu, Ashwin Rao, Avinash Prabhu, Meher Shashwat Nigam, Tanvi Karandikar, Harit Pandya, and K. Madhava Krishna(参考訳) 本稿では,倉庫ラックと棚の単眼的多面的レイアウト推定を初めて提案し,実演する。 典型的なレイアウト推定方法とは異なり、MVRackLayはラック内の棚のレイアウトに対応する多層レイアウトを推定する。 倉庫のシーンの一連の画像が与えられた場合、デュアルヘッドのConvolutional-LSTMアーキテクチャはラック内の各棚のセグメント化されたラック、フロントおよびトップビューレイアウトを出力する。 最小限の努力で、そのような出力は棚の上のラック、棚、オブジェクトの3Dレンダリングに変換され、ラック、棚、そして各棚のオブジェクトの数の観点から、倉庫全体の正確な3D描写が提供される。 MVRackLayは、各棚にさまざまな数のオブジェクト、棚の数、背景に他のラックがある様々な倉庫シーンに一般化する。 さらに、MVRackLayは、平均IoUとmAPのメトリクスで定量化され、レイアウト精度において、単一ビューのRackLayよりも優れたパフォーマンスを示している。 また,スラムパイプラインからのシーンのレンダリングに類似したグローバル参照フレームに関して,倉庫シーンを表現できるような3dレイアウトのマルチビュースタイピングも紹介する。 私たちの知る限りでは、これは倉庫のシーンの3dレンダリングを、単一の単眼カメラから、その意味的なコンポーネント(ラック、棚、オブジェクト)で表現した最初の作品です。

In this paper, we propose and showcase, for the first time, monocular multi-view layout estimation for warehouse racks and shelves. Unlike typical layout estimation methods, MVRackLay estimates multi-layered layouts, wherein each layer corresponds to the layout of a shelf within a rack. Given a sequence of images of a warehouse scene, a dual-headed Convolutional-LSTM architecture outputs segmented racks, the front and the top view layout of each shelf within a rack. With minimal effort, such an output is transformed into a 3D rendering of all racks, shelves and objects on the shelves, giving an accurate 3D depiction of the entire warehouse scene in terms of racks, shelves and the number of objects on each shelf. MVRackLay generalizes to a diverse set of warehouse scenes with varying number of objects on each shelf, number of shelves and in the presence of other such racks in the background. Further, MVRackLay shows superior performance vis-a-vis its single view counterpart, RackLay, in layout accuracy, quantized in terms of the mean IoU and mAP metrics. We also showcase a multi-view stitching of the 3D layouts resulting in a representation of the warehouse scene with respect to a global reference frame akin to a rendering of the scene from a SLAM pipeline. To the best of our knowledge, this is the first such work to portray a 3D rendering of a warehouse scene in terms of its semantic components - Racks, Shelves and Objects - all from a single monocular camera.
翻訳日:2022-12-01 18:02:03 公開日:2022-11-30
# ブラインド超解法の知識蒸留による劣化推定

Knowledge Distillation based Degradation Estimation for Blind Super-Resolution ( http://arxiv.org/abs/2211.16928v1 )

ライセンス: Link先を確認
Bin Xia, Yulun Zhang, Yitong Wang, Yapeng Tian, Wenming Yang, Radu Timofte, and Luc Van Gool(参考訳) Blind画像超解像(Blind-SR)は、対応する低解像度(LR)入力画像から高解像度(HR)画像を未知の劣化で復元することを目的としている。 既存の作業の多くは、SRをガイドする各分解のための明示的な劣化推定器を設計している。 しかし、複数の劣化の組み合わせ(\eg, blur, noise, jpeg compression)の具体的なラベルを提供して、劣化推定トレーニングを監督することは不可能である。 さらに、特定の劣化のための特別な設計、例えばぼかしは、異なる劣化を扱うためにモデルを一般化することを妨げている。 この目的のために,すべての劣化に対する識別的劣化表現を,劣化地盤の監督に頼らずに抽出できる暗黙的劣化推定器を設計する必要がある。 本稿では,知識蒸留に基づくBlind-SRネットワーク(KDSR)を提案する。 知識蒸留に基づく暗黙劣化推定ネットワーク(KD-IDE)と効率的なSRネットワークから構成される。 KDSRモデルを学習するために、まず教師ネットワーク(KD-IDE$_{T}$)をトレーニングする。 HRとLRのパッチを入力として取り、SRネットワークと共同で最適化されている。 さらに、学生ネットワークKD-IDE$_{S}$をトレーニングし、LR画像のみを入力とし、KD-IDE$_{T}$と同じ暗黙劣化表現(IDR)を抽出する。 さらに,抽出したIDRを完全に活用するために,SRネットワークを構築するためのシンプルで強力で効率的なIDRベースの動的畳み込み残差ブロック(IDR-DCRB)を設計する。 古典的および実世界の劣化条件下で広範囲にわたる実験を行う。 その結果、KDSRはSOTA性能を達成し、様々な劣化過程に一般化できることがわかった。 ソースコードと事前訓練されたモデルがリリースされる。

Blind image super-resolution (Blind-SR) aims to recover a high-resolution (HR) image from its corresponding low-resolution (LR) input image with unknown degradations. Most of the existing works design an explicit degradation estimator for each degradation to guide SR. However, it is infeasible to provide concrete labels of multiple degradation combinations (\eg, blur, noise, jpeg compression) to supervise the degradation estimator training. In addition, these special designs for certain degradation, such as blur, impedes the models from being generalized to handle different degradations. To this end, it is necessary to design an implicit degradation estimator that can extract discriminative degradation representation for all degradations without relying on the supervision of degradation ground-truth. In this paper, we propose a Knowledge Distillation based Blind-SR network (KDSR). It consists of a knowledge distillation based implicit degradation estimator network (KD-IDE) and an efficient SR network. To learn the KDSR model, we first train a teacher network: KD-IDE$_{T}$. It takes paired HR and LR patches as inputs and is optimized with the SR network jointly. Then, we further train a student network KD-IDE$_{S}$, which only takes LR images as input and learns to extract the same implicit degradation representation (IDR) as KD-IDE$_{T}$. In addition, to fully use extracted IDR, we design a simple, strong, and efficient IDR based dynamic convolution residual block (IDR-DCRB) to build an SR network. We conduct extensive experiments under classic and real-world degradation settings. The results show that KDSR achieves SOTA performance and can generalize to various degradation processes. The source codes and pre-trained models will be released.
翻訳日:2022-12-01 18:01:36 公開日:2022-11-30
# dsnet : 二重ストリームによる病変分割のための簡易かつ効率的なネットワーク

DSNet: a simple yet efficient network with dual-stream attention for lesion segmentation ( http://arxiv.org/abs/2211.16950v1 )

ライセンス: Link先を確認
Yunxiao Liu(参考訳) 病変分割は速度と精度の両方を必要とする。 本稿では,Transformerに基づくエンコーダと3つのデュアルストリームアテンション(DSA)モジュールを含む畳み込みニューラルネットワーク(CNN)に基づく独自のピラミッドデコーダからなる,シンプルで効率的なネットワークDSNetを提案する。 具体的には、DSAモジュールは、偽正ストリームアテンション(FPSA)ブランチと偽負ストリームアテンション(FNSA)ブランチを介して、隣接する2つのレベルから特徴を融合させ、異なる文脈情報を持つ特徴を得る。 我々は, CVC-ClinicDB, Kvasir-SEG, ISIC-2018 Task 1 などの公開データセットと比較した。 実験結果から,本手法はモデル複雑性とメモリ消費の低い平均Dice係数 (mDice) と平均MIoU (mIoU) でSOTA性能を実現することが示された。

Lesion segmentation requires both speed and accuracy. In this paper, we propose a simple yet efficient network DSNet, which consists of a encoder based on Transformer and a convolutional neural network(CNN)-based distinct pyramid decoder containing three dual-stream attention (DSA) modules. Specifically, the DSA module fuses features from two adjacent levels through the false positive stream attention (FPSA) branch and the false negative stream attention (FNSA) branch to obtain features with diversified contextual information. We compare our method with various state-of-the-art (SOTA) lesion segmentation methods with several public datasets, including CVC-ClinicDB, Kvasir-SEG, and ISIC-2018 Task 1. The experimental results show that our method achieves SOTA performance in terms of mean Dice coefficient (mDice) and mean Intersection over Union (mIoU) with low model complexity and memory consumption.
翻訳日:2022-12-01 18:01:09 公開日:2022-11-30
# 等方的再投影に基づく魚眼映像列のハイブリッド動作推定手法

A hybrid motion estimation technique for fisheye video sequences based on equisolid re-projection ( http://arxiv.org/abs/2211.16995v1 )

ライセンス: Link先を確認
Andrea Eichenseer and Michel B\"atz and J\"urgen Seiler and Andr\'e Kaup(参考訳) 1台のカメラで大きな視野を捉えることは、監視や自動車応用において重要な側面であるが、広角魚眼画像は、動き推定のような典型的な画像や映像処理方法にはあまり適さない、非常に特殊な特徴を示す。 本稿では,魚眼映像の典型的ラジアル特性に適応する動き推定法について紹介する。 この手法と従来の翻訳運動推定と補償を組み合わせることで、合成魚眼シーケンスでは1.14dB、実世界のデータでは0.96dBの輝度PSNRの平均ゲインが得られる。 選択されたフレーム対の最大ゲインはそれぞれ、合成データと実世界のデータに対して2.40dBと1.39dBとなる。

Capturing large fields of view with only one camera is an important aspect in surveillance and automotive applications, but the wide-angle fisheye imagery thus obtained exhibits very special characteristics that may not be very well suited for typical image and video processing methods such as motion estimation. This paper introduces a motion estimation method that adapts to the typical radial characteristics of fisheye video sequences by making use of an equisolid re-projection after moving part of the motion vector search into the perspective domain via a corresponding back-projection. By combining this approach with conventional translational motion estimation and compensation, average gains in luminance PSNR of up to 1.14 dB are achieved for synthetic fish-eye sequences and up to 0.96 dB for real-world data. Maximum gains for selected frame pairs amount to 2.40 dB and 1.39 dB for synthetic and real-world data, respectively.
翻訳日:2022-12-01 18:00:18 公開日:2022-11-30
# 合成および実世界の魚眼映像シーケンスを提供するデータセット

A data set providing synthetic and real-world fisheye video sequences ( http://arxiv.org/abs/2211.17030v1 )

ライセンス: Link先を確認
Andrea Eichenseer and Andr\'e Kaup(参考訳) ビデオ監視や自動車の応用では、いわゆる魚眼カメラが、非常に広い視野を捉えていることが多い。 このようなカメラは、古典的な視点投影とは全く異なる投影に依存するため、得られた魚眼画像と映像データは、非線形な画像特性を示す。 しかし、一般的な画像および映像処理アルゴリズムは、これらの魚眼特性のために設計されていない。 そこで本論文では,魚眼画像や映像に適応したアルゴリズムを開発・評価するために,対応するテストデータセットを導入する。 最初のシーケンスは、魚眼ビデオの動作推定に関する著者自身の研究中に生成され、より広範なコレクションを作成するために、徐々に追加されている。 データセットは、単純なパターンからより複雑なシーンまで、合成生成された魚眼シーケンスと、実際の魚眼カメラでキャプチャされた魚眼ビデオシーケンスで構成されている。 合成シーケンスでは、採用したレンズの正確な情報が得られるため、任意の適応アルゴリズムの検証と評価が容易になる。 実世界のシーケンスに対しては、キャリブレーションデータと、取得時に使用する設定を提供する。 シーケンスはwww.lms.lnt.de/fisheyedataset/で自由に利用できる。

In video surveillance as well as automotive applications, so-called fisheye cameras are often employed to capture a very wide angle of view. As such cameras depend on projections quite different from the classical perspective projection, the resulting fisheye image and video data correspondingly exhibits non-rectilinear image characteristics. Typical image and video processing algorithms, however, are not designed for these fisheye characteristics. To be able to develop and evaluate algorithms specifically adapted to fisheye images and videos, a corresponding test data set is therefore introduced in this paper. The first of those sequences were generated during the authors' own work on motion estimation for fish-eye videos and further sequences have gradually been added to create a more extensive collection. The data set now comprises synthetically generated fisheye sequences, ranging from simple patterns to more complex scenes, as well as fisheye video sequences captured with an actual fisheye camera. For the synthetic sequences, exact information on the lens employed is available, thus facilitating both verification and evaluation of any adapted algorithms. For the real-world sequences, we provide calibration data as well as the settings used during acquisition. The sequences are freely available via www.lms.lnt.de/fisheyedataset/.
翻訳日:2022-12-01 18:00:03 公開日:2022-11-30
# SNAF: 神経減衰場を用いたスパースビューCBCT再構成

SNAF: Sparse-view CBCT Reconstruction with Neural Attenuation Fields ( http://arxiv.org/abs/2211.17048v1 )

ライセンス: Link先を確認
Yu Fang, Lanzhuju Mei, Changjian Li, Yuan Liu, Wenping Wang, Zhiming Cui, Dinggang Shen(参考訳) コーンビームCT (CBCT) は臨床, 特に歯科診療において広く用いられているが, 撮影時のX線照射量はCBCT画像で長く懸念されてきた。 スパースビュー2Dプロジェクションから高画質CBCTイメージを再構成する研究がいくつか提案されているが、現在の最先端技術はアーティファクトと詳細の欠如に悩まされている。 本稿では,スパークス・インプット・ビューからの不十分なデータによる課題を克服するために,スパークス・ビューCBCT再構成のためのSNAFを提案する。 提案手法は,20個の入力ビュー(臨床コレクションの25倍)しか持たない高い再現性(30以上のPSNR)で優れた性能を実現し,最先端技術よりも優れている。 さらに,本手法の有効性を検証するため,包括的実験とアブレーション解析を行った。

Cone beam computed tomography (CBCT) has been widely used in clinical practice, especially in dental clinics, while the radiation dose of X-rays when capturing has been a long concern in CBCT imaging. Several research works have been proposed to reconstruct high-quality CBCT images from sparse-view 2D projections, but the current state-of-the-arts suffer from artifacts and the lack of fine details. In this paper, we propose SNAF for sparse-view CBCT reconstruction by learning the neural attenuation fields, where we have invented a novel view augmentation strategy to overcome the challenges introduced by insufficient data from sparse input views. Our approach achieves superior performance in terms of high reconstruction quality (30+ PSNR) with only 20 input views (25 times fewer than clinical collections), which outperforms the state-of-the-arts. We have further conducted comprehensive experiments and ablation analysis to validate the effectiveness of our approach.
翻訳日:2022-12-01 17:59:45 公開日:2022-11-30
# CLIPascene: 抽象化のタイプとレベルが異なるScene Sketching

CLIPascene: Scene Sketching with Different Types and Levels of Abstraction ( http://arxiv.org/abs/2211.17256v1 )

ライセンス: Link先を確認
Yael Vinker, Yuval Alaluf, Daniel Cohen-Or, Ariel Shamir(参考訳) 本稿では,与えられたシーン画像を異なるタイプと複数の抽象レベルを用いてスケッチに変換する手法を提案する。 我々は2種類の抽象概念を区別する。 1つ目はスケッチの忠実さを考慮し、入力のより正確な描写からよりゆるやかな描写へと表現を変化させる。 2つ目はスケッチの視覚的単純さによって定義され、詳細な描写からまばらなスケッチへと移行している。 2つの抽象軸 - と1つの複数のレベル - に明示的な分離を使用することで、ユーザは自身の目標と好みに基づいて、希望するスケッチを選択することができる。 与えられた忠実度と単純化のレベルでスケッチを形成するために、2つのMLPネットワークを訓練する。 第1のネットワークは、所望のストロークの位置を学習し、第2のネットワークは、認識性や意味論を損なうことなく、スケッチから徐々にストロークを取り除くことを学習する。 私たちのアプローチは、複雑な背景(自然環境や都市環境など)や主題(動物や人間など)を含む複雑なシーンのスケッチを生成し、忠実さやシンプルさの観点から入力シーンの段階的な抽象化を描きます。

In this paper, we present a method for converting a given scene image into a sketch using different types and multiple levels of abstraction. We distinguish between two types of abstraction. The first considers the fidelity of the sketch, varying its representation from a more precise portrayal of the input to a looser depiction. The second is defined by the visual simplicity of the sketch, moving from a detailed depiction to a sparse sketch. Using an explicit disentanglement into two abstraction axes -- and multiple levels for each one -- provides users additional control over selecting the desired sketch based on their personal goals and preferences. To form a sketch at a given level of fidelity and simplification, we train two MLP networks. The first network learns the desired placement of strokes, while the second network learns to gradually remove strokes from the sketch without harming its recognizability and semantics. Our approach is able to generate sketches of complex scenes including those with complex backgrounds (e.g., natural and urban settings) and subjects (e.g., animals and people) while depicting gradual abstractions of the input scene in terms of fidelity and simplicity.
翻訳日:2022-12-01 17:59:02 公開日:2022-11-30
# プラトーフリー微分可能経路追跡

Plateau-free Differentiable Path Tracing ( http://arxiv.org/abs/2211.17263v1 )

ライセンス: Link先を確認
Michael Fischer, Tobias Ritschel(参考訳) 現在の微分可能なレンダラーは任意のシーンパラメータに対して光輸送勾配を提供する。 しかし、これらの勾配の存在は最適化において有用な更新ステップを保証するものではない。 代わりに、逆レンダリングは、目的関数内の固有の高原、すなわちゼロ勾配の領域のために収束しないかもしれない。 そこで本稿では,シーンパラメータを画像にマッピングする高次元レンダリング関数と,パラメータ空間を曖昧にする追加のカーネルを組み合わせることで,この軽減を図る。 そこで,2つのモンテカルロ推定器を用いて,低分散の平坦な勾配を効率的に計算し,最適化誤差と実行時性能においてネットゲインに変換することを示す。 我々のアプローチは、ブラックボックスと微分可能レンダラの両方への直接的な拡張であり、コースティックスやグローバル照明のような複雑な光移動に関する問題を最適化することができ、既存の微分可能レンダラが収束しない。

Current differentiable renderers provide light transport gradients with respect to arbitrary scene parameters. However, the mere existence of these gradients does not guarantee useful update steps in an optimization. Instead, inverse rendering might not converge due to inherent plateaus, i.e., regions of zero gradient, in the objective function. We propose to alleviate this by convolving the high-dimensional rendering function that maps scene parameters to images with an additional kernel that blurs the parameter space. We describe two Monte Carlo estimators to compute plateau-free gradients efficiently, i.e., with low variance, and show that these translate into net-gains in optimization error and runtime performance. Our approach is a straightforward extension to both black-box and differentiable renderers and enables optimization of problems with intricate light transport, such as caustics or global illumination, that existing differentiable renderers do not converge on.
翻訳日:2022-12-01 17:58:40 公開日:2022-11-30
# EURO: ESPnet による教師なし ASR オープンソースツールキット

EURO: ESPnet Unsupervised ASR Open-source Toolkit ( http://arxiv.org/abs/2211.17196v1 )

ライセンス: Link先を確認
Dongji Gao and Jiatong Shi and Shun-Po Chuang and Leibny Paola Garcia and Hung-yi Lee and Shinji Watanabe and Sanjeev Khudanpur(参考訳) 本稿では、教師なし自動音声認識(UASR)のためのエンドツーエンドオープンソースツールキットであるESPnet Unsupervised ASR Open-source Toolkit(EURO)について述べる。 EUROは、Wav2vec-Uによって導入された最先端のUASR学習手法を採用しており、当初はFAIRSEQで実装されていた。 wav2vec2に加えて、EUROは機能を拡張し、S3PRLとk2を統合することでUASRタスクの再現性を促進する。 EUROはESPnetで実装され、統一パイプラインに従ってUASRレシピを完全なセットアップで提供する。 これによりパイプラインの効率が向上し、espnetの既存のデータセットにユーロを簡単に適用できるようになる。 3つの主流な自己教師型モデルに対する大規模な実験は、TIMITおよびLibriSpeechデータセット上でツールキットの有効性を示し、最先端のUASR性能を実現する。 EUROはhttps://github.com/espnet/espnetで公開され、オープンソース活動を通じてUASRに基づくこのエキサイティングで新興の研究領域を促進することを目的としている。

This paper describes the ESPnet Unsupervised ASR Open-source Toolkit (EURO), an end-to-end open-source toolkit for unsupervised automatic speech recognition (UASR). EURO adopts the state-of-the-art UASR learning method introduced by the Wav2vec-U, originally implemented at FAIRSEQ, which leverages self-supervised speech representations and adversarial training. In addition to wav2vec2, EURO extends the functionality and promotes reproducibility for UASR tasks by integrating S3PRL and k2, resulting in flexible frontends from 27 self-supervised models and various graph-based decoding strategies. EURO is implemented in ESPnet and follows its unified pipeline to provide UASR recipes with a complete setup. This improves the pipeline's efficiency and allows EURO to be easily applied to existing datasets in ESPnet. Extensive experiments on three mainstream self-supervised models demonstrate the toolkit's effectiveness and achieve state-of-the-art UASR performance on TIMIT and LibriSpeech datasets. EURO will be publicly available at https://github.com/espnet/espnet, aiming to promote this exciting and emerging research area based on UASR through open-source activity.
翻訳日:2022-12-01 17:52:29 公開日:2022-11-30
# 点雲の知覚的品質評価のための人間の視覚知覚機構に基づく進歩的知識伝達

Progressive Knowledge Transfer Based on Human Visual Perception Mechanism for Perceptual Quality Assessment of Point Clouds ( http://arxiv.org/abs/2211.16646v1 )

ライセンス: Link先を確認
Qi Liu, Yiyun Liu, Honglei Su, Hui Yuan, and Raouf Hamzaoui(参考訳) 多くの分野におけるカラーポイントクラウドの幅広い応用により、ポイントクラウド知覚的品質評価は、様々な段階に導入される品質劣化の存在により、視覚通信システムにおいて重要な役割を果たす。 しかし,既存のクラウド品質評価では,人間の視覚システム(HVS)のメカニズムが無視され,知覚的品質評価の精度に重要な影響を与えている。 本稿では,PKT-PCQA(PKT-PCQA)の知覚的品質評価のための,人間の視覚知覚機構に基づく進化的知識伝達を提案する。 PKT-PCQAは、近隣地域の局所的な特徴と、グラフスペクトルから抽出されたグローバルな特徴をマージする。 HVSの特性を考慮すると、空間的およびチャネル的注意機構はPKT-PCQAでも考慮されている。 さらに、PKT-PCQAは、人間の脳の階層的知覚システムにインスパイアされ、粗い品質分類知識をきめ細かな品質予測タスクに変換するために、進歩的な知識伝達を採用する。 3つの大規模および独立点クラウドアセスメントデータセットの実験により、提案された参照PKT-PCQAネットワークは、最先端の完全な参照品質アセスメント手法と比較して同等のパフォーマンスを達成でき、既存の参照品質アセスメントネットワークよりも優れていることが示された。

With the wide applications of colored point cloud in many fields, point cloud perceptual quality assessment plays a vital role in the visual communication systems owing to the existence of quality degradations introduced in various stages. However, the existing point cloud quality assessments ignore the mechanism of human visual system (HVS) which has an important impact on the accuracy of the perceptual quality assessment. In this paper, a progressive knowledge transfer based on human visual perception mechanism for perceptual quality assessment of point clouds (PKT-PCQA) is proposed. The PKT-PCQA merges local features from neighboring regions and global features extracted from graph spectrum. Taking into account the HVS properties, the spatial and channel attention mechanism is also considered in PKT-PCQA. Besides, inspired by the hierarchical perception system of human brains, PKT-PCQA adopts a progressive knowledge transfer to convert the coarse-grained quality classification knowledge to the fine-grained quality prediction task. Experiments on three large and independent point cloud assessment datasets show that the proposed no reference PKT-PCQA network achieves better of equivalent performance comparing with the state-of-the-art full reference quality assessment methods, outperforming the existed no reference quality assessment network.
翻訳日:2022-12-01 17:51:26 公開日:2022-11-30
# FREDSR: 単一画像超解像のためのフーリエ残差分差分GAN

FREDSR: Fourier Residual Efficient Diffusive GAN for Single Image Super Resolution ( http://arxiv.org/abs/2211.16678v1 )

ライセンス: Link先を確認
Kyoungwan Woo, Achyuta Rajaram(参考訳) FREDSRは、シングルイメージスーパーレゾリューションのような特定のタスクにおいて、データセットごとの一般化コストで極端なパラメータ効率で従来のGANモデルを上回ることを目的としている。 FREDSRは高速フーリエ変換、残留予測、拡散判別器等を統合し、37000のパラメータしか持たないシングルイメージ3xスーパーレゾリューションのためのUHDSR4Kデータセットの他のモデルと比較して強い性能を達成する。 このモデルは、与えられたデータセットの特性に従い、一般化性は低下するが、リアルタイムのスケールアップのようなタスクでの性能は向上する。

FREDSR is a GAN variant that aims to outperform traditional GAN models in specific tasks such as Single Image Super Resolution with extreme parameter efficiency at the cost of per-dataset generalizeability. FREDSR integrates fast Fourier transformation, residual prediction, diffusive discriminators, etc to achieve strong performance in comparisons to other models on the UHDSR4K dataset for Single Image 3x Super Resolution from 360p and 720p with only 37000 parameters. The model follows the characteristics of the given dataset, resulting in lower generalizeability but higher performance on tasks such as real time up-scaling.
翻訳日:2022-12-01 17:51:01 公開日:2022-11-30
# SGDraw:オブジェクト指向表現を用いたシーングラフ描画インタフェース

SGDraw: Scene Graph Drawing Interface Using Object-Oriented Representation ( http://arxiv.org/abs/2211.16697v1 )

ライセンス: Link先を確認
Tianyu Zhang, Xusheng Du, Chia-Ming Chang, Xi Yang, Haoran Xie(参考訳) シーン理解はコンピュータビジョンにおいて必要不可欠な課題である。 画像の視覚的な基本的なグラフィカルな構造を提供するため、シーングラフはその強力な意味表現により注目を集めている。 しかし、画像検索、画像生成、マルチモーダルアプリケーションのための適切なシーングラフを描くことは困難である。 従来のシーングラフアノテーションインターフェースは画像アノテーションでは使いやすく、ディープニューラルネットワークを用いたシーングラフの自動生成アプローチは詳細を無視して冗長なコンテンツを生成する傾向がある。 本研究では,オブジェクト指向のシーングラフ表現を用いたシーングラフ描画インタフェースであるSGDrawを提案する。 提案するオブジェクト指向表現では、オブジェクトのオブジェクト、属性、および関係を構造単位として考える。 SGDrawは、シーン理解アプリケーションのためのWebベースのシーングラフアノテーションと生成ツールを提供する。 提案するインタフェースの有効性を検証するために,従来のツールとの比較とユーザエクスペリエンス調査を行った。 その結果,SGDrawはより詳細なシーングラフを生成するのに役立ち,従来の境界ボックスアノテーションよりも正確に画像を記述することができることがわかった。 提案したSGDrawは,画像検索や生成など,様々な視覚タスクに有用であると考えられる。

Scene understanding is an essential and challenging task in computer vision. To provide the visually fundamental graphical structure of an image, the scene graph has received increased attention due to its powerful semantic representation. However, it is difficult to draw a proper scene graph for image retrieval, image generation, and multi-modal applications. The conventional scene graph annotation interface is not easy to use in image annotations, and the automatic scene graph generation approaches using deep neural networks are prone to generate redundant content while disregarding details. In this work, we propose SGDraw, a scene graph drawing interface using object-oriented scene graph representation to help users draw and edit scene graphs interactively. For the proposed object-oriented representation, we consider the objects, attributes, and relationships of objects as a structural unit. SGDraw provides a web-based scene graph annotation and generation tool for scene understanding applications. To verify the effectiveness of the proposed interface, we conducted a comparison study with the conventional tool and the user experience study. The results show that SGDraw can help generate scene graphs with richer details and describe the images more accurately than traditional bounding box annotations. We believe the proposed SGDraw can be useful in various vision tasks, such as image retrieval and generation.
翻訳日:2022-12-01 17:50:48 公開日:2022-11-30
# 勾配領域重み付きガイド画像フィルタリング

Gradient Domain Weighted Guided Image Filtering ( http://arxiv.org/abs/2211.16796v1 )

ライセンス: Link先を確認
Bo Wang(参考訳) 局所フィルタとしては、誘導画像フィルタはhaloアーティファクトの対象となる。 本稿では,勾配情報を用いて画像のエッジを正確に判断し,重み付け情報を用いて画像の平坦領域とエッジ領域の識別を行う。 その結果、画像のエッジが鋭くなり、平坦な領域におけるぼやけのレベルが小さくなり、エッジ近傍の過度なぼやけによるハロアーティファクトを回避することができる。 実験により,提案アルゴリズムはエッジのハロアーティファクトをより抑制できることが示された。 提案アルゴリズムは,画像復号化と画像詳細化の両面で優れた性能を有する。

As an excellent local filter, guided image filters are subject to halo artifacts. In this paper, the algorithm uses gradient information to accurately determine the edge of the image, and uses the weighted information to further accurately distinguish the flat area and edge area of the image. As a result, the edges of the image are sharper and the level of blur in flat areas is reduced, avoiding halo artifacts caused by excessive blurring near edges. Experiments show that the proposed algorithm can better suppress halo artifacts at the edges. The proposed algorithm has good performance in both image denoising and image detail enhancement.
翻訳日:2022-12-01 17:50:31 公開日:2022-11-30
# 有糸分裂検出アルゴリズム:グローバルラベルはセントロイド局在を許容する

Challenging mitosis detection algorithms: Global labels allow centroid localization ( http://arxiv.org/abs/2211.16852v1 )

ライセンス: Link先を確認
Claudio Fernandez-Mart\'in, Umay Kiraz, Julio Silva-Rodr\'iguez, Sandra Morales, Emiel Janssen, Valery Naranjo(参考訳) ミトコンドリア活性は、様々な種類のがんの診断と予後にとって重要な増殖バイオマーカーである。 それでも、有糸分裂は病理学者にとって厄介なプロセスであり、拡張生検スライドの大きさ、有糸分裂細胞の密度の低さ、パターンの不均一性のために再現性が低い傾向にある。 再現性を改善するため,近年,畳み込みニューラルネットワークを用いたディープラーニング手法が提案されている。 しかし、これらの手法はデータラベリングのプロセスによって妨げられ、通常はミトーシスセントロイドのみから構成される。 したがって、現在の文献では、複数の段階からなる複雑なアルゴリズムを提案し、画素レベルでラベルを洗練させ、偽陽性の数を減らす。 本研究では,複雑なシナリオを避けることを提案し,パッチのイメージレベルラベルのみを用いて,ローカライズタスクを弱教師付きで実行する。 TUPAC16データセットで得られた結果は、ひとつのトレーニングフェーズのみを使用して、最先端の手法と競合する。 提案手法は0.729のf1スコアを達成し,複数の段階と強い分裂位置情報を必要とする従来手法の効率に挑戦する。

Mitotic activity is a crucial proliferation biomarker for the diagnosis and prognosis of different types of cancers. Nevertheless, mitosis counting is a cumbersome process for pathologists, prone to low reproducibility, due to the large size of augmented biopsy slides, the low density of mitotic cells, and pattern heterogeneity. To improve reproducibility, deep learning methods have been proposed in the last years using convolutional neural networks. However, these methods have been hindered by the process of data labelling, which usually solely consist of the mitosis centroids. Therefore, current literature proposes complex algorithms with multiple stages to refine the labels at pixel level, and to reduce the number of false positives. In this work, we propose to avoid complex scenarios, and we perform the localization task in a weakly supervised manner, using only image-level labels on patches. The results obtained on the publicly available TUPAC16 dataset are competitive with state-of-the-art methods, using only one training phase. Our method achieves an F1-score of 0.729 and challenges the efficiency of previous methods, which required multiple stages and strong mitosis location information.
翻訳日:2022-12-01 17:50:20 公開日:2022-11-30
# ATASI-Net:適応閾値を用いた断層撮影のための効率的なスパース再構成ネットワーク

ATASI-Net: An Efficient Sparse Reconstruction Network for Tomographic SAR Imaging with Adaptive Threshold ( http://arxiv.org/abs/2211.16855v1 )

ライセンス: Link先を確認
Muhan Wang, Zhe Zhang, Xiaolan Qiu, Silin Gao, Yue Wang(参考訳) トモグラフィーSAR技術は、異なるトラック角度から収集されたSAR画像のスタックを介して、標高方向に沿って3次元分解する能力に顕著な関心を集めている。 emerged compression sensing (cs)ベースのアルゴリズムは、限られたサンプルによる超解像能力を考慮してtomosarに導入されている。 しかし,従来のcs法では,ノイズ抵抗の弱さ,計算複雑性の高まり,複雑なパラメータの微調整など,いくつかの欠点がある。 本稿では, 適応閾値を持つ解析的反復収縮しきい値アルゴリズム (ALISTA) に基づく, アダプティブスレッショルド ALISTA ベースのスパースイメージングネットワーク (ATASI-Net) に基づく, 効率的なスパース展開ネットワークを提案する。 ATASI-Netの各層における重み行列はオフライン最適化問題の解法として事前計算され、データから学習すべきスカラーパラメータは2つしか残らず、トレーニング段階を著しく単純化する。 さらに、各方位範囲画素に対して適応しきい値を導入し、閾値縮小を層変動だけでなく要素分割も可能とした。 さらに、最終的な学習閾値を可視化し、相互フィードバックのためのSARイメージセマンティクスと組み合わせることができる。 最後に、シミュレーションおよび実データに関する広範な実験を行い、提案手法の有効性と効率を実証した。

Tomographic SAR technique has attracted remarkable interest for its ability of three-dimensional resolving along the elevation direction via a stack of SAR images collected from different cross-track angles. The emerged compressed sensing (CS)-based algorithms have been introduced into TomoSAR considering its super-resolution ability with limited samples. However, the conventional CS-based methods suffer from several drawbacks, including weak noise resistance, high computational complexity, and complex parameter fine-tuning. Aiming at efficient TomoSAR imaging, this paper proposes a novel efficient sparse unfolding network based on the analytic learned iterative shrinkage thresholding algorithm (ALISTA) architecture with adaptive threshold, named Adaptive Threshold ALISTA-based Sparse Imaging Network (ATASI-Net). The weight matrix in each layer of ATASI-Net is pre-computed as the solution of an off-line optimization problem, leaving only two scalar parameters to be learned from data, which significantly simplifies the training stage. In addition, adaptive threshold is introduced for each azimuth-range pixel, enabling the threshold shrinkage to be not only layer-varied but also element-wise. Moreover, the final learned thresholds can be visualized and combined with the SAR image semantics for mutual feedback. Finally, extensive experiments on simulated and real data are carried out to demonstrate the effectiveness and efficiency of the proposed method.
翻訳日:2022-12-01 17:49:59 公開日:2022-11-30
# MR画像再構成のための一般化深層学習による近位勾配線

Generalized Deep Learning-based Proximal Gradient Descent for MR Reconstruction ( http://arxiv.org/abs/2211.16881v1 )

ライセンス: Link先を確認
Guanxiong Luo, Mengmeng Kuang, Peng Cao(参考訳) 物理フォワードモデルのデータの一貫性は逆問題、特にMR画像再構成において重要である。 標準的な方法は、反復アルゴリズムをフォワードモデルを埋め込んだニューラルネットワークに展開することです。 フォワードモデルは臨床実践において常に変化するため、学習成分とフォワードモデルとの絡み合いは再構築を一般化しにくくする。 提案手法は,前方モデルと深層学習要素を分離することにより,mr取得設定の異なる場合により一般化できる。 深層学習に基づく近位勾配降下法は,前方モデルに依存しない学習正規化項を作成するために提案された。 提案手法の検証のために,1回トレーニングした正規化項を異なるMR取得設定に適用し,一般的な$\ell_1$正規化法と比較した。 従来の$\ell_1$正規化再構成に比べてピーク信号と雑音比が約3db改善した。 異なるアンダーサンプリングパターンを選択する際の提案手法の柔軟性を実証した。 また,深層学習の規則化に対するパラメータチューニングの効果も評価した。

The data consistency for the physical forward model is crucial in inverse problems, especially in MR imaging reconstruction. The standard way is to unroll an iterative algorithm into a neural network with a forward model embedded. The forward model always changes in clinical practice, so the learning component's entanglement with the forward model makes the reconstruction hard to generalize. The proposed method is more generalizable for different MR acquisition settings by separating the forward model from the deep learning component. The deep learning-based proximal gradient descent was proposed to create a learned regularization term independent of the forward model. We applied the one-time trained regularization term to different MR acquisition settings to validate the proposed method and compared the reconstruction with the commonly used $\ell_1$ regularization. We showed ~3 dB improvement in the peak signal to noise ratio, compared with conventional $\ell_1$ regularized reconstruction. We demonstrated the flexibility of the proposed method in choosing different undersampling patterns. We also evaluated the effect of parameter tuning for the deep learning regularization.
翻訳日:2022-12-01 17:49:37 公開日:2022-11-30
# 特徴情報の制約による完全複雑性の解釈可能性

Interpretability with full complexity by constraining feature information ( http://arxiv.org/abs/2211.17264v1 )

ライセンス: Link先を確認
Kieran A. Murphy, Dani S. Bassett(参考訳) 解釈性は機械学習にとって差し迫った問題である。 解釈可能な機械学習への一般的なアプローチは、入力の特徴間の相互作用を制約し、それらの特徴がモデルの出力に反映されるが、モデルの複雑さを犠牲にしている。 我々は新しい角度から解釈可能性にアプローチする:モデルの複雑さを制限することなく、特徴に関する情報を制約する。 情報理論を借用し、分散情報ボトルネックを用いて、出力に関する情報を最大に保存する各機能の最適な圧縮を見つける。 学習された情報アロケーションは、特に多くの機能や複雑な機能相互作用の問題において、特徴と特徴値によって、解釈の豊富な機会を提供する。 分析の中心的な対象は、単一の訓練されたモデルではなく、入力に関する可変量の情報を活用する近似として機能するモデルのスペクトルである。 情報は、その出力との関連によって特徴に割り当てられ、特徴包含から排他への学習された連続体を構築して特徴選択の問題を解決する。 近似のどの段階でも、各機能の最適な圧縮は、予測に最も影響を及ぼす特徴値の区別をきめ細やかな検査を可能にします。 本研究では,近似モデルのスペクトルから洞察を抽出するフレームワークを開発し,その有効性を示す。

Interpretability is a pressing issue for machine learning. Common approaches to interpretable machine learning constrain interactions between features of the input, rendering the effects of those features on a model's output comprehensible but at the expense of model complexity. We approach interpretability from a new angle: constrain the information about the features without restricting the complexity of the model. Borrowing from information theory, we use the Distributed Information Bottleneck to find optimal compressions of each feature that maximally preserve information about the output. The learned information allocation, by feature and by feature value, provides rich opportunities for interpretation, particularly in problems with many features and complex feature interactions. The central object of analysis is not a single trained model, but rather a spectrum of models serving as approximations that leverage variable amounts of information about the inputs. Information is allocated to features by their relevance to the output, thereby solving the problem of feature selection by constructing a learned continuum of feature inclusion-to-exclusion. The optimal compression of each feature -- at every stage of approximation -- allows fine-grained inspection of the distinctions among feature values that are most impactful for prediction. We develop a framework for extracting insight from the spectrum of approximate models and demonstrate its utility on a range of tabular datasets.
翻訳日:2022-12-01 17:43:43 公開日:2022-11-30
# 変分ラプラスオートエンコーダ

Variational Laplace Autoencoders ( http://arxiv.org/abs/2211.17267v1 )

ライセンス: Link先を確認
Yookoon Park, Chris Dongjoo Kim, Gunhee Kim(参考訳) 変分オートエンコーダは、潜在変数の後方を近似するために償却推論モデルを用いる。 しかし、そのような不定形変分推論は、(1)完全因子化ガウス仮定の限定的な後方表現性、(2)推論モデルの不定形化誤差の2つの課題に直面している。 どちらの課題にも対処できる新しいアプローチを提案する。 まず,ガウス出力を持つreluネットワークに着目し,確率的pcaとの関連性を説明する。 この観測に基づいて,後部モードを検出し,そのモードを中心とした全共分散ガウス近似を適用した反復アルゴリズムを導出する。 次に、深部生成モデルのトレーニングのための変分ラプラスオートエンコーダ(VLAE)という一般的なフレームワークを提案する。 潜伏変数後部のラプラス近似に基づいて、VLAEは、償却誤差を低減しつつ、後部の表現性を向上する。 MNIST, Omniglot, Fashion-MNIST, SVHN, CIFAR10における実験結果から, 提案手法はReLUネットワーク上での最近の償却法や反復法よりも有意に優れていることが示された。

Variational autoencoders employ an amortized inference model to approximate the posterior of latent variables. However, such amortized variational inference faces two challenges: (1) the limited posterior expressiveness of fully-factorized Gaussian assumption and (2) the amortization error of the inference model. We present a novel approach that addresses both challenges. First, we focus on ReLU networks with Gaussian output and illustrate their connection to probabilistic PCA. Building on this observation, we derive an iterative algorithm that finds the mode of the posterior and apply full-covariance Gaussian posterior approximation centered on the mode. Subsequently, we present a general framework named Variational Laplace Autoencoders (VLAEs) for training deep generative models. Based on the Laplace approximation of the latent variable posterior, VLAEs enhance the expressiveness of the posterior while reducing the amortization error. Empirical results on MNIST, Omniglot, Fashion-MNIST, SVHN and CIFAR10 show that the proposed approach significantly outperforms other recent amortized or iterative methods on the ReLU networks.
翻訳日:2022-12-01 17:43:21 公開日:2022-11-30
# 複雑な背景を持つ透明物体グラフプのための視覚触覚融合

Visual-tactile Fusion for Transparent Object Grasping in Complex Backgrounds ( http://arxiv.org/abs/2211.16693v1 )

ライセンス: Link先を確認
Shoujie Li, Haixin Yu, Wenbo Ding, Houde Liu, Linqi Ye, Chongkun Xia, Xueqian Wang, Xiao-Ping Zhang(参考訳) 透明物体の正確な検出と把握は難しいが、ロボットにとって重要である。 本稿では, 複雑な背景条件, 変光条件下での透明物体把握のための視覚触覚融合フレームワークについて, 把持位置検出, 触覚校正, 視覚触覚融合に基づく分類などを提案する。 まず,ガウス分布に基づくデータアノテーションを用いた多場面合成把持データセット生成法を提案する。 また, tgcnnと呼ばれる新しい把持ネットワークを提案し, 合成シーンと実シーンの両方において良好な結果を示した。 人間のつかみにインスパイアされた触覚キャリブレーションにおいて、完全な畳み込みネットワークに基づく触覚特徴抽出法と中央位置に基づく適応的把握戦略を設計し、直接つかみよりも成功率を36.7%向上させる。 さらに, 透明物体分類のための視覚触覚融合法を提案し, 分類精度を34%向上させた。 提案フレームワークは視覚と触覚の利点を相乗化し,透明物体の把握効率を大幅に向上させる。

The accurate detection and grasping of transparent objects are challenging but of significance to robots. Here, a visual-tactile fusion framework for transparent object grasping under complex backgrounds and variant light conditions is proposed, including the grasping position detection, tactile calibration, and visual-tactile fusion based classification. First, a multi-scene synthetic grasping dataset generation method with a Gaussian distribution based data annotation is proposed. Besides, a novel grasping network named TGCNN is proposed for grasping position detection, showing good results in both synthetic and real scenes. In tactile calibration, inspired by human grasping, a fully convolutional network based tactile feature extraction method and a central location based adaptive grasping strategy are designed, improving the success rate by 36.7% compared to direct grasping. Furthermore, a visual-tactile fusion method is proposed for transparent objects classification, which improves the classification accuracy by 34%. The proposed framework synergizes the advantages of vision and touch, and greatly improves the grasping efficiency of transparent objects.
翻訳日:2022-12-01 17:42:44 公開日:2022-11-30
# エッジとクラウド協調学習のための効率的な分割微調整フレームワーク

An Efficient Split Fine-tuning Framework for Edge and Cloud Collaborative Learning ( http://arxiv.org/abs/2211.16703v1 )

ライセンス: Link先を確認
Shaohuai Shi, Qing Yang, Yang Xiang, Shuhan Qi, Xuan Wang(参考訳) クラウドとデータを共有することなく、事前学習したモデルをエッジデバイス上のローカルデータで微調整できるように、エッジおよびクラウド協調学習のための効率的な分割微調整(SFT)フレームワークを設計する。 本稿では,3つの新しい手法を提案する。 まず,ニューラルネットワークの中間出力を圧縮し,エッジデバイスとクラウドサーバ間の通信量を削減するマトリックス分解に基づく手法を提案する。 第二に、微調整における収束性能に影響を与えることなく、モデル内の特定のリンクを除去する。 第3に,既存のトレーニングスクリプトを簡単に拡張して,効率的なエッジとクラウド協調学習を楽しめるように,PyTorch上にシステムを実装する。 9つのNLPデータセットによる実験結果から,我々のフレームワークは,モデル精度にほとんど影響を与えず,96倍の通信トラフィックを削減できることがわかった。

To enable the pre-trained models to be fine-tuned with local data on edge devices without sharing data with the cloud, we design an efficient split fine-tuning (SFT) framework for edge and cloud collaborative learning. We propose three novel techniques in this framework. First, we propose a matrix decomposition-based method to compress the intermediate output of a neural network to reduce the communication volume between the edge device and the cloud server. Second, we eliminate particular links in the model without affecting the convergence performance in fine-tuning. Third, we implement our system atop PyTorch to allow users to easily extend their existing training scripts to enjoy the efficient edge and cloud collaborative learning. Experiments results on 9 NLP datasets show that our framework can reduce the communication traffic by 96 times with little impact on the model accuracy.
翻訳日:2022-12-01 17:42:26 公開日:2022-11-30
# 複素状態依存雑音による局所誤差最小化のための最適オブザーバ状態の動的探索

Dynamically Finding Optimal Observer States to Minimize Localization Error with Complex State-Dependent Noise ( http://arxiv.org/abs/2211.16721v1 )

ライセンス: Link先を確認
Troi Williams, Po-Lun Chen, Sparsh Bhogavilli, Vaibhav Sanjay, Pratap Tokekar(参考訳) 障害や閉塞を回避しつつ、局所化誤差を最小限に抑えるため、動的に最適状態を検出する能動的知覚法DyFOSを提案する。 本研究では,外感センサのない地上目標が,障害物に満たされた経路に沿って位置決めするために,姿勢推定や不確実性推定に航空オブザーバーに頼らなければならないシナリオを考察する。 オブザーバは下向きのカメラを使用して、ターゲットのポーズと不確かさを推定する。 しかし、ポーズの不確実性は観測者、目標、および周囲の環境の状態の関数である。 ターゲットのローカライゼーションの不確実性を最小化する最適な状態を見つけるために、DyFOSは最適化探索にローカライズエラー予測パイプラインを使用する。 上記の状態を考えると、パイプラインは訓練された複雑な状態に依存したセンサ計測モデル(この場合は確率的ニューラルネットワーク)の助けを借りて、ターゲットの局在の不確実性を予測する。 我々のパイプラインは目標の閉塞や障害物衝突を予測し、望ましくないオブザーバー状態を取り除く。 最適化探索の出力は、咬合や衝突を避けつつ目標の局在の不確かさを最小限に抑える最適な観察状態である。 数値シミュレーション(Gazebo)実験を用いて提案手法の評価を行った。 以上の結果から,DyFOSはブルート力の約100倍高速であることがわかった。 さらに、DyFOSはランダム検索やヒューリスティック検索よりもローカライゼーション誤差が低い。

We present DyFOS, an active perception method that Dynamically Finds Optimal States to minimize localization error while avoiding obstacles and occlusions. We consider the scenario where a ground target without any exteroceptive sensors must rely on an aerial observer for pose and uncertainty estimates to localize itself along an obstacle-filled path. The observer uses a downward-facing camera to estimate the target's pose and uncertainty. However, the pose uncertainty is a function of the states of the observer, target, and surrounding environment. To find an optimal state that minimizes the target's localization uncertainty, DyFOS uses a localization error prediction pipeline in an optimization search. Given the states mentioned above, the pipeline predicts the target's localization uncertainty with the help of a trained, complex state-dependent sensor measurement model (which is a probabilistic neural network in our case). Our pipeline also predicts target occlusion and obstacle collision to remove undesirable observer states. The output of the optimization search is an optimal observer state that minimizes target localization uncertainty while avoiding occlusion and collision. We evaluate the proposed method using numerical and simulated (Gazebo) experiments. Our results show that DyFOS is almost 100x faster than yet as good as brute force. Furthermore, DyFOS yielded lower localization errors than random and heuristic searches.
翻訳日:2022-12-01 17:42:12 公開日:2022-11-30
# 気候適応財務債権報告システムにおける過剰レポート推定のためのベイズ補正を用いたテキスト分類

Using Text Classification with a Bayesian Correction for Estimating Overreporting in the Creditor Reporting System on Climate Adaptation Finance ( http://arxiv.org/abs/2211.16947v1 )

ライセンス: Link先を確認
Janos Borst, Thomas Wencker, Andreas Niekler(参考訳) 開発資金は気候変動の適応に欠かせないものであり、国際気候政策の重要な部分である。 % しかし, 共通報告慣行が欠如しているため, 当該資金の額や分布を評価することは困難である。 調査は報告された数字の信頼性を疑問視しており、適応融資が公表された数字より実際に低いことを示している。 気候変動への適応が目標よりも大きいと主張するプロジェクトは「過剰報告」と呼ばれる。 大規模データセットにおけるオーバレポーティングのリアルタイム性を評価するために,最先端テキスト分類に基づくアプローチを提案する。 これまで、信頼性の評価は小さく手作業で評価されたサンプルに依存している。 このようなサンプルデータセットを用いて,89.81\% \pm 0.83\%$(10倍のクロスバリデーション)の精度で分類器を訓練し,オーバーレポートを特定するためにより大きなデータセットに外挿する。 さらに,ベイズの定理を用いて,より小さく高品質なデータの証拠を組み込んで予測率を補正する手法を提案する。 これにより、異なるアノテーションスキームの比較により、気候変動適応における過剰レポートの程度を推定することができる。 以上の結果から,$[19.81\%;48.34\%]$の信頼できる間隔で,$32.03\%$の広範な過剰報告が得られた。

Development funds are essential to finance climate change adaptation and are thus an important part of international climate policy. % However, the absence of a common reporting practice makes it difficult to assess the amount and distribution of such funds. Research has questioned the credibility of reported figures, indicating that adaptation financing is in fact lower than published figures suggest. Projects claiming a greater relevance to climate change adaptation than they target are referred to as "overreported". To estimate realistic rates of overreporting in large data sets over times, we propose an approach based on state-of-the-art text classification. To date, assessments of credibility have relied on small, manually evaluated samples. We use such a sample data set to train a classifier with an accuracy of $89.81\% \pm 0.83\%$ (tenfold cross-validation) and extrapolate to larger data sets to identify overreporting. Additionally, we propose a method that incorporates evidence of smaller, higher-quality data to correct predicted rates using Bayes' theorem. This enables a comparison of different annotation schemes to estimate the degree of overreporting in climate change adaptation. Our results support findings that indicate extensive overreporting of $32.03\%$ with a credible interval of $[19.81\%;48.34\%]$.
翻訳日:2022-12-01 17:41:50 公開日:2022-11-30
# オンラインメディアにおける語数成長のためのロジスティック方程式の小さな拡張:社会における成長現象の多様性のパラメトリック記述

A minor extension of the logistic equation for growth of word counts on online media: Parametric description of diversity of growth phenomena in society ( http://arxiv.org/abs/2211.16733v1 )

ライセンス: Link先を確認
Hayafumi Watanabe(参考訳) 2007年から2019年にかけての約10億の日本語ブログ記事から抽出した月次単語数時系列を,全国のオンラインソーシャルメディア上での新たな語彙の増大現象を解析した。 特に、拡張ロジスティック方程式を元の方程式に1つのパラメータを加えることで導入し、ロジスティック関数、線形成長、有限時間発散といった実際の成長曲線の様々なパターンを一貫して再現できることを示した。 第二に、モデルパラメータの解析により、典型的な成長パターンは、様々な複雑なシステムにしばしば現れるロジスティック関数であるだけでなく、指数関数から始まる非自明な成長曲線であり、定常状態のないパワー関数に漸近的に近づくことを発見した。 さらに,機能的成長形態とピークアウトとの関係も観察した。 最後に,提案したモデルと統計特性は,検索クエリの全国的普及の時系列であるGoogle Trendsデータ(英語,フランス語,スペイン語,日本語)にも有効であることを示した。

To understand the growing phenomena of new vocabulary on nationwide online social media, we analyzed monthly word count time series extracted from approximately 1 billion Japanese blog articles from 2007 to 2019. In particular, we first introduced the extended logistic equation by adding one parameter to the original equation and showed that the model can consistently reproduce various patterns of actual growth curves, such as the logistic function, linear growth, and finite-time divergence. Second, by analyzing the model parameters, we found that the typical growth pattern is not only a logistic function, which often appears in various complex systems, but also a nontrivial growth curve that starts with an exponential function and asymptotically approaches a power function without a steady state. Furthermore, we observed a connection between the functional form of growth and the peak-out. Finally, we showed that the proposed model and statistical properties are also valid for Google Trends data (English, French, Spanish, and Japanese), which is a time series of the nationwide popularity of search queries.
翻訳日:2022-12-01 17:41:06 公開日:2022-11-30
# 最大エントロピー正規化グラフオートエンコーダによる欠落データ処理

Handling Missing Data via Max-Entropy Regularized Graph Autoencoder ( http://arxiv.org/abs/2211.16771v1 )

ライセンス: Link先を確認
Ziqi Gao, Yifan Niu, Jiashun Cheng, Jianheng Tang, Tingyang Xu, Peilin Zhao, Lanqing Li, Fugee Tsung, Jia Li(参考訳) グラフニューラルネットワーク(GNN)は、関係データをモデル化するための一般的な武器である。 既存のGNNは属性不完全グラフには指定されていない。 最近まで、多くの研究はgnnがスペクトル濃度と結合していることに気づいており、これはgnnによって得られたスペクトルがスペクトル領域の局所部分に集中することを意味する。 その結果、グラフスペクトル濃度が低い計算精度をもたらす傾向にあるため、GNNはグラフ属性の再構成に深刻な欠陥がある可能性がある。 本稿では, グラフスペクトルエントロピーの最大化によるスペクトル集中問題の緩和を目的とした, MEGAE というグラフ属性計算のための正規化グラフオートエンコーダを提案する。 特に,まず,ラプラシアン行列の固有分解を伴わずにグラフスペクトルエントロピーを推定する方法を提案し,理論上誤差境界を与える。 最大エントロピー正規化は潜在空間で作用し、グラフのスペクトルエントロピーを直接増加させる。 広範な実験により、megaeはさまざまなベンチマークデータセットで、他の最先端のインプテーションメソッドよりも優れています。

Graph neural networks (GNNs) are popular weapons for modeling relational data. Existing GNNs are not specified for attribute-incomplete graphs, making missing attribute imputation a burning issue. Until recently, many works notice that GNNs are coupled with spectral concentration, which means the spectrum obtained by GNNs concentrates on a local part in spectral domain, e.g., low-frequency due to oversmoothing issue. As a consequence, GNNs may be seriously flawed for reconstructing graph attributes as graph spectral concentration tends to cause a low imputation precision. In this work, we present a regularized graph autoencoder for graph attribute imputation, named MEGAE, which aims at mitigating spectral concentration problem by maximizing the graph spectral entropy. Notably, we first present the method for estimating graph spectral entropy without the eigen-decomposition of Laplacian matrix and provide the theoretical upper error bound. A maximum entropy regularization then acts in the latent space, which directly increases the graph spectral entropy. Extensive experiments show that MEGAE outperforms all the other state-of-the-art imputation methods on a variety of benchmark datasets.
翻訳日:2022-12-01 17:35:37 公開日:2022-11-30
# 時系列の文脈認識型アンサンブル学習

Context-Aware Ensemble Learning for Time Series ( http://arxiv.org/abs/2211.16884v1 )

ライセンス: Link先を確認
Arda Fazla, Mustafa Enes Aydin, Orhun Tamyigit, Suleyman Serdar Kozat(参考訳) オンライン環境での予測のためのアンサンブル手法について検討する。 すべてのensemblingの文献とは異なり、我々は初めて、ベースモデルの予測を、予測自身ではなく、ベースモデルの特徴ベクトルの結合である特徴のスーパーセットを用いて効果的に結合するメタ学習器を用いた新しいアプローチを導入する。 ここでは,ベースモデルの予測を機械学習アルゴリズムの入力として使用せず,問題の状態に基づいて各時間ステップで最良の組み合わせを選択する。 基本学習者のアンサンブルを線形に結合する3つの異なる制約空間を探索する。これは、アンサンブルベクトルの成分がすべて非負で和が1となる凸結合であり、重みベクトル成分が1にまとめる必要のあるアフィン結合と、その成分が任意の実値を取る自由な非制約結合である。 制約は、既知の統計の下で理論的に解析され、自動的な最適化の一部としてメタ学習者の学習手順に統合される。 提案手法の実用性を示すため,メタ学習者として,勾配ブースト決定木と多層パーセプトロンを別々に用いた。 私たちのフレームワークは汎用的であるため、最小化のためにカスタマイズ可能な損失を許容できる限り、他の機械学習アーキテクチャをアンサンブラとして使用できる。 本稿では,合成データに対するアルゴリズムの学習挙動と,よく知られたデータコンペで広く利用されている様々な実生活データセットに対する従来の手法よりも優れた性能を示す。 さらに,提案手法のソースコードをオープンに公開し,さらなる研究と比較を容易にする。

We investigate ensemble methods for prediction in an online setting. Unlike all the literature in ensembling, for the first time, we introduce a new approach using a meta learner that effectively combines the base model predictions via using a superset of the features that is the union of the base models' feature vectors instead of the predictions themselves. Here, our model does not use the predictions of the base models as inputs to a machine learning algorithm, but choose the best possible combination at each time step based on the state of the problem. We explore three different constraint spaces for the ensembling of the base learners that linearly combines the base predictions, which are convex combinations where the components of the ensembling vector are all nonnegative and sum up to 1; affine combinations where the weight vector components are required to sum up to 1; and the unconstrained combinations where the components are free to take any real value. The constraints are both theoretically analyzed under known statistics and integrated into the learning procedure of the meta learner as a part of the optimization in an automated manner. To show the practical efficiency of the proposed method, we employ a gradient-boosted decision tree and a multi-layer perceptron separately as the meta learners. Our framework is generic so that one can use other machine learning architectures as the ensembler as long as they allow for a custom differentiable loss for minimization. We demonstrate the learning behavior of our algorithm on synthetic data and the significant performance improvements over the conventional methods over various real life datasets, extensively used in the well-known data competitions. Furthermore, we openly share the source code of the proposed method to facilitate further research and comparison.
翻訳日:2022-12-01 17:35:19 公開日:2022-11-30
# 校正からの距離の統一理論

A Unifying Theory of Distance from Calibration ( http://arxiv.org/abs/2211.16886v1 )

ライセンス: Link先を確認
Jaros{\l}aw B{\l}asiok, Parikshit Gopalan, Lunjia Hu, Preetum Nakkiran(参考訳) 確率予測器のキャリブレーションからの距離をどのように定義・測定するかという基本的な問題について検討する。 完全校正の概念はよく理解されているが、完全校正からの距離を定量化する方法についてのコンセンサスはない。 文献では多くの校正策が提案されているが、それらがどう比較されているかは定かではなく、期待校正誤差(ECE)など多くの一般的な対策は連続性のような基本的な性質を満足できない。 資産試験に関する文献から着想を得た校正対策分析のための厳密な枠組みを提案する。 キャリブレーションからの距離について,最寄りの完全キャリブレーション予測器までの距離が$\ell_1$であることを示す。 我々は、一貫した校正測度を、この距離に対する多項式係数近似として定義する。 本フレームワークの適用により,スムーズキャリブレーション,インターバルキャリブレーション,ラプラスカーネルキャリブレーションという,一貫性のある3つのキャリブレーションを効率的に推定できる。 前者2つは基底真理距離に二次近似を与え、情報理論上最適であることを示した。 そこで本研究は, キャリブレーションまでの距離測定に関する基礎的下限と上限を定め, 実際に特定の測定値(例えばLaplaceカーネルキャリブレーション)を優先する理論的正当性を提供する。

We study the fundamental question of how to define and measure the distance from calibration for probabilistic predictors. While the notion of perfect calibration is well-understood, there is no consensus on how to quantify the distance from perfect calibration. Numerous calibration measures have been proposed in the literature, but it is unclear how they compare to each other, and many popular measures such as Expected Calibration Error (ECE) fail to satisfy basic properties like continuity. We present a rigorous framework for analyzing calibration measures, inspired by the literature on property testing. We propose a ground-truth notion of distance from calibration: the $\ell_1$ distance to the nearest perfectly calibrated predictor. We define a consistent calibration measure as one that is a polynomial factor approximation to the this distance. Applying our framework, we identify three calibration measures that are consistent and can be estimated efficiently: smooth calibration, interval calibration, and Laplace kernel calibration. The former two give quadratic approximations to the ground truth distance, which we show is information-theoretically optimal. Our work thus establishes fundamental lower and upper bounds on measuring distance to calibration, and also provides theoretical justification for preferring certain metrics (like Laplace kernel calibration) in practice.
翻訳日:2022-12-01 17:34:51 公開日:2022-11-30
# T2G-Former:不均一な特徴相互作用を促進する関係グラフへの語彙特徴の整理

T2G-Former: Organizing Tabular Features into Relation Graphs Promotes Heterogeneous Feature Interaction ( http://arxiv.org/abs/2211.16887v1 )

ライセンス: Link先を確認
Jiahuan Yan, Jintai Chen, Yixuan Wu, Danny Z. Chen, Jian Wu(参考訳) 表型学習のためのディープニューラルネットワーク(DNN)の最近の開発は、自動機能インタラクションのためのDNNの能力の大きな恩恵を受けている。 しかし、表的特徴の多様性が相対的に独立しており、表的特徴の相互作用を促進する効果的な方法の開発はいまだに未解決の問題である。 本稿では,グラフ特徴間の関係を自動的に推定し,関連する特徴間のエッジを割り当てることでグラフを構築するグラフ推定器を提案する。 このような関係グラフは独立した表型特徴をグラフデータの一種に整理し、ノード間の相互作用(表型特徴)を秩序よく行うことができる。 提案するグラフ推定器に基づいて,t2g-former と呼ばれる表型学習用に調整された,表型特徴対話を関係グラフで導出することにより表型データの処理を行う別個のトランスフォーマネットワークを提案する。 特定のクロスレベル読み出しは、異なるレベルにわたるt2gフォーマの層によって予測される突出した特徴を収集し、最終的な予測のためにグローバルセマンティクスを達成する。 包括的実験により,t2g-formerはdnnにおいて優れた性能を達成でき,非深勾配強調決定木モデルと競合することが示された。

Recent development of deep neural networks (DNNs) for tabular learning has largely benefited from the capability of DNNs for automatic feature interaction. However, the heterogeneity nature of tabular features makes such features relatively independent, and developing effective methods to promote tabular feature interaction still remains an open problem. In this paper, we propose a novel Graph Estimator, which automatically estimates the relations among tabular features and builds graphs by assigning edges between related features. Such relation graphs organize independent tabular features into a kind of graph data such that interaction of nodes (tabular features) can be conducted in an orderly fashion. Based on our proposed Graph Estimator, we present a bespoke Transformer network tailored for tabular learning, called T2G-Former, which processes tabular data by performing tabular feature interaction guided by the relation graphs. A specific Cross-level Readout collects salient features predicted by the layers in T2G-Former across different levels, and attains global semantics for final prediction. Comprehensive experiments show that our T2G-Former achieves superior performance among DNNs and is competitive with non-deep Gradient Boosted Decision Tree models.
翻訳日:2022-12-01 17:34:26 公開日:2022-11-30
# quadapter: gpt-2量子化用アダプタ

Quadapter: Adapter for GPT-2 Quantization ( http://arxiv.org/abs/2211.16912v1 )

ライセンス: Link先を確認
Minseop Park, Jaeseong You, Markus Nagel, Simyung Chang(参考訳) GPT-2のようなトランスフォーマー言語モデルは、アクティベーションの外れ値が大きな量子化誤差につながるため、定量化が難しい。 エラーに対応するためには、データセットに基づく微調整プロセスと、元のモデルと同一のトレーニングパイプラインを含む量子化アウェアトレーニングを使用する必要がある。 しかしながら、事前トレーニングされた言語モデルは、多くの場合、データセットやトレーニングパイプラインへのアクセスを許可しません。 その場合、量子化を意識したトレーニングは、微調整データにモデルをオーバーフィットする。 過度に適合しない量子化には、チャネルワイズでアクティベーションを量子化しやすいものにするために学習した小さなパラメータセットである量子化アダプタ(Quadapter)を導入する。 モデルパラメータは変更されない。 本手法をGPT-2の量子化課題に適用することにより,過剰適合を効果的に防止し,量子化性能を向上させることを示す。

Transformer language models such as GPT-2 are difficult to quantize because of outliers in activations leading to a large quantization error. To adapt to the error, one must use quantization-aware training, which entails a fine-tuning process based on the dataset and the training pipeline identical to those for the original model. Pretrained language models, however, often do not grant access to their datasets and training pipelines, forcing us to rely on arbitrary ones for fine-tuning. In that case, it is observed that quantization-aware training overfits the model to the fine-tuning data. For quantization without overfitting, we introduce a quantization adapter (Quadapter), a small set of parameters that are learned to make activations quantization-friendly by scaling them channel-wise. It keeps the model parameters unchanged. By applying our method to the challenging task of quantizing GPT-2, we demonstrate that it effectively prevents the overfitting and improves the quantization performance.
翻訳日:2022-12-01 17:34:05 公開日:2022-11-30
# GANに基づくデータ合成による深層クラスタリング

Federated deep clustering with GAN-based data synthesis ( http://arxiv.org/abs/2211.16965v1 )

ライセンス: Link先を確認
Jie Yan, Jing Liu, Ji Qi and Zhong-Yuan Zhang(参考訳) クラスタリングは集中的な設定で広く研究されてきたが、フェデレーションでは、データが複数のクライアントに分散され、クライアントでのみローカルに保持できる、という比較的未調査のものだ。 フェデレーションクラスタリングの改善により多くのリソースを投資する必要性は2つある。 1)教師付き連合学習モデルの性能はクラスタリングの恩恵を受ける。 2) 集中型クラスタタスクを実行するために集中型クラスタを拡張するのは自明ではない。 集中型環境では、次元の縮小とクラスタリングを共同で行う様々なディープクラスタリング手法が大きな成功を収めている。 高品質なクラスタ情報を得るには、これらの方法をフェデレーション設定に拡張するのは自然なことです。 そこで本研究では,単純だが効果的に連携した深層クラスタリング手法を提案する。 中央サーバとクライアント間の通信ラウンドは1つだけで、非同期に実行でき、デバイス障害を処理できる。 また,非独立かつ同一分散(非iid)データの悪影響については,多くの研究で指摘されているが,提案手法が有益であることが示唆された。

Clustering has been extensively studied in centralized settings, but relatively unexplored in federated ones that data are distributed among multiple clients and can only be kept local at the clients. The necessity to invest more resources in improving federated clustering methods is twofold: 1) The performance of supervised federated learning models can benefit from clustering. 2) It is non-trivial to extend centralized ones to perform federated clustering tasks. In centralized settings, various deep clustering methods that perform dimensionality reduction and clustering jointly have achieved great success. To obtain high-quality cluster information, it is natural but non-trivial to extend these methods to federated settings. For this purpose, we propose a simple but effective federated deep clustering method. It requires only one communication round between the central server and clients, can run asynchronously, and can handle device failures. Moreover, although most studies have highlighted adverse effects of the non-independent and identically distributed (non-IID) data across clients, experimental results indicate that the proposed method can significantly benefit from this scenario.
翻訳日:2022-12-01 17:33:48 公開日:2022-11-30
# 適応リーマン空間における自己教師付き連続グラフ学習

Self-Supervised Continual Graph Learning in Adaptive Riemannian Spaces ( http://arxiv.org/abs/2211.17068v1 )

ライセンス: Link先を確認
Li Sun, Junda Ye, Hao Peng, Feiyang Wang, Philip S. Yu(参考訳) 連続グラフ学習は、異なるタスクを持つグラフデータが順次やってくる様々な現実のアプリケーションにおいて、日常的にその役割を見出す。 先行作品の成功にもかかわらず、依然として大きな課題に直面している。 一方、既存の手法はゼロ曲率ユークリッド空間で作用し、今後のグラフ列で曲率が変化するという事実をほとんど無視する。 一方、文学における連続的な学習者は豊富なラベルに依存しているが、実際にはラベル付けグラフが特に困難である。 上記の課題に対処するために,適応リーマン空間における自己教師付き連続グラフ学習という,挑戦的で実用的な問題を検討することを提案する。 本稿では,新しい自己教師付きリーマングラフ連続学習者(riegrace)を提案する。 リーマン空間を各グラフに適応した学習曲率によって形作るために,まず適応リーマンGCN (Adaptive Riemannian GCN) とニューラル曲率アダプタを結合した統一GCNを設計する。 次に,ラベルのないローレンツ蒸留法を提案し,グラフシーケンスのための教師学習用AdaRGCNを作成する。 生徒は自らからの蒸留と教師からの蒸留を連続して行い、破滅的な忘れることなく知識を固める。 特に、リーマン空間におけるコントラスト蒸留に対する理論的に接地された一般化ローレンツ射影を提案する。 ベンチマークデータセットの大規模な実験は、RieGraceの優位性を示し、さらにグラフ列上での曲率の変化について検討する。

Continual graph learning routinely finds its role in a variety of real-world applications where the graph data with different tasks come sequentially. Despite the success of prior works, it still faces great challenges. On the one hand, existing methods work with the zero-curvature Euclidean space, and largely ignore the fact that curvature varies over the coming graph sequence. On the other hand, continual learners in the literature rely on abundant labels, but labeling graph in practice is particularly hard especially for the continuously emerging graphs on-the-fly. To address the aforementioned challenges, we propose to explore a challenging yet practical problem, the self-supervised continual graph learning in adaptive Riemannian spaces. In this paper, we propose a novel self-supervised Riemannian Graph Continual Learner (RieGrace). In RieGrace, we first design an Adaptive Riemannian GCN (AdaRGCN), a unified GCN coupled with a neural curvature adapter, so that Riemannian space is shaped by the learnt curvature adaptive to each graph. Then, we present a Label-free Lorentz Distillation approach, in which we create teacher-student AdaRGCN for the graph sequence. The student successively performs intra-distillation from itself and inter-distillation from the teacher so as to consolidate knowledge without catastrophic forgetting. In particular, we propose a theoretically grounded Generalized Lorentz Projection for the contrastive distillation in Riemannian space. Extensive experiments on the benchmark datasets show the superiority of RieGrace, and additionally, we investigate on how curvature changes over the graph sequence.
翻訳日:2022-12-01 17:33:29 公開日:2022-11-30
# ディープラーニングを用いたセンサアレイを用いた高精度・高精度診断のための多次元解析

Multidimensional analysis using sensor arrays with deep learning for high-precision and high-accuracy diagnosis ( http://arxiv.org/abs/2211.17139v1 )

ライセンス: Link先を確認
Julie Payette, Sylvain G.Cloutier and Fabrice Vaussenat(参考訳) 今後数年間で、人工知能(ai)はその専門分野の大半において、医療の実践を変えることになる。 ディープラーニングは、診断のエラーを減らしながら、より良く、より早く問題を検出するのに役立つ。 低コストで高精度なセンサアレイから得られるデータにディープニューラルネットワーク(DNN)を供給することにより、測定精度と精度を大幅に向上させることができることを示す。 データ収集は、16のアナログと16のデジタルセンサーを含む32の温度センサーからなるアレイで行われる。 すべてのセンサーは0.5-2.0$^\circ$Cの精度を持つ。 800個のベクトルが抽出され、30から45$^\circ$Cの範囲をカバーする。 温度の読みを改善するために,dnnによる線形回帰分析を行うために機械学習を用いた。 モデルの複雑さを最小化し、最終的に推論をローカルに実行しようとする試みにおいて、最良の結果を持つネットワークは、双曲的タンジェント活性化関数とAdam Stochastic Gradient Descent (SGD)オプティマイザを使用する3つの層のみを含む。 このモデルは640ベクター(データの80%)を使用したランダムに選択されたデータセットでトレーニングされ、160ベクター(20%)でテストされる。 データとモデルの予測の間の損失関数として平均二乗誤差を用いると、トレーニングセットではわずか 1.47x10$^{-4}$、テストセットで 1.22x10$^{-4}$となる。 このように、この魅力的なアプローチは、容易に利用可能な超低コストセンサーを使用して、データセットを大幅に改善するための新しい経路を提供すると信じています。

In the upcoming years, artificial intelligence (AI) is going to transform the practice of medicine in most of its specialties. Deep learning can help achieve better and earlier problem detection, while reducing errors on diagnosis. By feeding a deep neural network (DNN) with the data from a low-cost and low-accuracy sensor array, we demonstrate that it becomes possible to significantly improve the measurements' precision and accuracy. The data collection is done with an array composed of 32 temperature sensors, including 16 analog and 16 digital sensors. All sensors have accuracies between 0.5-2.0$^\circ$C. 800 vectors are extracted, covering a range from to 30 to 45$^\circ$C. In order to improve the temperature readings, we use machine learning to perform a linear regression analysis through a DNN. In an attempt to minimize the model's complexity in order to eventually run inferences locally, the network with the best results involves only three layers using the hyperbolic tangent activation function and the Adam Stochastic Gradient Descent (SGD) optimizer. The model is trained with a randomly-selected dataset using 640 vectors (80% of the data) and tested with 160 vectors (20%). Using the mean squared error as a loss function between the data and the model's prediction, we achieve a loss of only 1.47x10$^{-4}$ on the training set and 1.22x10$^{-4}$ on the test set. As such, we believe this appealing approach offers a new pathway towards significantly better datasets using readily-available ultra low-cost sensors.
翻訳日:2022-12-01 17:33:03 公開日:2022-11-30
# ベイズ逆問題に対する近位残留流

Proximal Residual Flows for Bayesian Inverse Problems ( http://arxiv.org/abs/2211.17158v1 )

ライセンス: Link先を確認
Johannes Hertrich(参考訳) 正規化フローはベイズ逆問題における生成モデリング、密度推定、後部再構成のための強力なツールである。 本稿では,流れを正規化する新しい構造である近位残留流について述べる。 近位ニューラルネットワークが定義上平均演算子であるという事実に基づいて、ある種の残差ブロックの可逆性を保証する。 さらに,ベイズ逆問題における後方再建のための条件付き近位残留流に拡張した。 数値的な例において, 近位残留流の性能を実証する。

Normalizing flows are a powerful tool for generative modelling, density estimation and posterior reconstruction in Bayesian inverse problems. In this paper, we introduce proximal residual flows, a new architecture of normalizing flows. Based on the fact, that proximal neural networks are by definition averaged operators, we ensure invertibility of certain residual blocks. Moreover, we extend the architecture to conditional proximal residual flows for posterior reconstruction within Bayesian inverse problems. We demonstrate the performance of proximal residual flows on numerical examples.
翻訳日:2022-12-01 17:32:35 公開日:2022-11-30
# Pex: 部分実行によるメモリ効率のよいマイクロコントローラディープラーニング

Pex: Memory-efficient Microcontroller Deep Learning through Partial Execution ( http://arxiv.org/abs/2211.17246v1 )

ライセンス: Link先を確認
Edgar Liberis, Nicholas D. Lane(参考訳) 組み込みデバイスとIoTデバイスは、主にマイクロコントローラユニット(MCU)を使用しており、デバイス上でのディープラーニングを活用することで、よりインテリジェントにすることができる。 MCU上でのニューラルネットワーク推論の主な課題の1つは、極めて限られた読み取り-書き込みオンチップメモリ(SRAM, < 512 kB)である。 sramはニューラルネットワーク層(オペレータ)の入出力バッファによって消費され、従来はオペレータが実行するメモリ(具体化)でなければならない。 本稿では,メモリ内のフルバッファの実現を回避し,計算オーバーヘッドを伴わずにsram使用量を劇的に削減する,ニューラルネットワークの実行を修飾する,マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。 これは、一度に入力/出力のほんの一部を消費/生産できる演算子の特性を利用することによって実現される。 機能(チャネル)次元に沿って実行を分割できる演算子のサブグラフを識別することで、メモリ効率の良い実行スケジュールを自動的に生成する部分実行コンパイラであるPexについて説明する。 メモリ使用量はさらに削減され、構造化プルーニングによるメモリボトルネックをターゲットとし、ネットワークアーキテクチャと実行スケジュールの共同設計に繋がる。 画像と音声の分類モデルの評価 a) 最大2.9%の精度で考慮すべきタスクに対する低SRAM使用率における最先端性能を確立すること。 b) コンパイラ・プルーニング・コデザインを使用する場合において,事前の作業と比較して分類精度を維持しつつ,部分的な実行のみを10.5倍まで適用することにより,4倍のメモリ削減が可能となること。 (c) 取得したSRAMを使用して高い解像度の入力を処理し、Visual Wake Wordsでは最大で3.9%の精度で処理できる。

Embedded and IoT devices, largely powered by microcontroller units (MCUs), could be made more intelligent by leveraging on-device deep learning. One of the main challenges of neural network inference on an MCU is the extremely limited amount of read-write on-chip memory (SRAM, < 512 kB). SRAM is consumed by the neural network layer (operator) input and output buffers, which, traditionally, must be in memory (materialised) for an operator to execute. We discuss a novel execution paradigm for microcontroller deep learning, which modifies the execution of neural networks to avoid materialising full buffers in memory, drastically reducing SRAM usage with no computation overhead. This is achieved by exploiting the properties of operators, which can consume/produce a fraction of their input/output at a time. We describe a partial execution compiler, Pex, which produces memory-efficient execution schedules automatically by identifying subgraphs of operators whose execution can be split along the feature ("channel") dimension. Memory usage is reduced further by targeting memory bottlenecks with structured pruning, leading to the co-design of the network architecture and its execution schedule. Our evaluation of image and audio classification models: (a) establishes state-of-the-art performance in low SRAM usage regimes for considered tasks with up to +2.9% accuracy increase; (b) finds that a 4x memory reduction is possible by applying partial execution alone, or up to 10.5x when using the compiler-pruning co-design, while maintaining the classification accuracy compared to prior work; (c) uses the recovered SRAM to process higher resolution inputs instead, increasing accuracy by up to +3.9% on Visual Wake Words.
翻訳日:2022-12-01 17:32:29 公開日:2022-11-30
# ビデオ表現学習のための時空間クロップ集約

Spatio-Temporal Crop Aggregation for Video Representation Learning ( http://arxiv.org/abs/2211.17042v1 )

ライセンス: Link先を確認
Sepehr Sameni, Simon Jenni, Paolo Favaro(参考訳) トレーニング時間と推論時間の両方で高いスケーラビリティを享受する新しい手法であるビデオ表現学習のための時空間クロップアグリゲーション(SCALE)を提案する。 本モデルは,事前学習したバックボーンで抽出したビデオクリップレベルの特徴セットから学習することで,長距離ビデオ機能を構築する。 モデルを訓練するために,マスク付きクリップ特徴予測による自己教師対象を提案する。 我々は、ランダムなビデオクリップの集合を抽出し、スパース入力を再構成するだけで損失関数を抽出することにより、両方の入力に空間性を適用する。 さらに,事前学習されたバックボーンの潜在空間を単一ビデオクリップに適用することにより,次元の低減を図る。 そして、別個のビデオクリップの埋め込みの結合を、ビデオクリップセット要約トークンでアンサンブルすることにより、ビデオ表現を得る。 これらの手法は, 学習に極めて効率的であるだけでなく, 転校学習にも有効である。 我々は,映像表現が共通行動分類データセットに対して,線形,非線形,および$k$-nnプロビングにより最先端のパフォーマンスをもたらすことを実証する。

We propose Spatio-temporal Crop Aggregation for video representation LEarning (SCALE), a novel method that enjoys high scalability at both training and inference time. Our model builds long-range video features by learning from sets of video clip-level features extracted with a pre-trained backbone. To train the model, we propose a self-supervised objective consisting of masked clip feature prediction. We apply sparsity to both the input, by extracting a random set of video clips, and to the loss function, by only reconstructing the sparse inputs. Moreover, we use dimensionality reduction by working in the latent space of a pre-trained backbone applied to single video clips. The video representation is then obtained by taking the ensemble of the concatenation of embeddings of separate video clips with a video clip set summarization token. These techniques make our method not only extremely efficient to train, but also highly effective in transfer learning. We demonstrate that our video representation yields state-of-the-art performance with linear, non-linear, and $k$-NN probing on common action classification datasets.
翻訳日:2022-12-01 17:26:33 公開日:2022-11-30
# 連続手話認識のための自己実現ネットワーク

Self-Emphasizing Network for Continuous Sign Language Recognition ( http://arxiv.org/abs/2211.17081v1 )

ライセンス: Link先を確認
Lianyu Hu, Liqing Gao, Zekang liu, Wei Feng(参考訳) 手と顔は手話を表現する上で重要な役割を果たす。 彼らの機能は通常、システムパフォーマンスを改善するために特に活用される。 しかし、視覚的表現を効果的に抽出し、手と顔の軌跡を捕捉するために、従来の手法は常に訓練の複雑さを増して高い計算を行う。 彼らは通常、人間の身体のキーポイントを見つけるために追加の重いポーズ推定ネットワークを使用するか、監視のために追加の抽出されたヒートマップに依存する。 この問題を解消するため、我々は、余分な計算をほとんど必要とせず、さらに高価な監視を行うことなく、情報空間領域を自己動機的に強調する自己強調ネットワーク(SEN)を提案する。 具体的には、SENはまず、局所的な時空間特徴を組み込んだ軽量サブネットワークを使用して情報領域を特定し、アテンションマップを介して元の特徴を動的に拡張する。 また、すべてのフレームが認識に等しく寄与するわけではない。 本稿では,これらの識別フレームを適応的に強調し,冗長なフレームを抑制するための時間的自己強調モジュールを提案する。 手と顔の特徴を備えた従来の方法との包括的比較は、常に巨大な計算が必要であり、高価な余分な監督に依存するにもかかわらず、この手法の優越性を示している。 注目すべきなのは、余分な計算がほとんどないSENは、4つの大規模データセット(PHOENIX14、PHOENIX14-T、CSL-Daily、CSL)で新しい最先端の精度を実現することだ。 可視化は、情報的空間的特徴と時間的特徴を強調するSENの効果を検証する。 コードはhttps://github.com/hulianyuyy/SEN_CSLRで入手できる。

Hand and face play an important role in expressing sign language. Their features are usually especially leveraged to improve system performance. However, to effectively extract visual representations and capture trajectories for hands and face, previous methods always come at high computations with increased training complexity. They usually employ extra heavy pose-estimation networks to locate human body keypoints or rely on additional pre-extracted heatmaps for supervision. To relieve this problem, we propose a self-emphasizing network (SEN) to emphasize informative spatial regions in a self-motivated way, with few extra computations and without additional expensive supervision. Specifically, SEN first employs a lightweight subnetwork to incorporate local spatial-temporal features to identify informative regions, and then dynamically augment original features via attention maps. It's also observed that not all frames contribute equally to recognition. We present a temporal self-emphasizing module to adaptively emphasize those discriminative frames and suppress redundant ones. A comprehensive comparison with previous methods equipped with hand and face features demonstrates the superiority of our method, even though they always require huge computations and rely on expensive extra supervision. Remarkably, with few extra computations, SEN achieves new state-of-the-art accuracy on four large-scale datasets, PHOENIX14, PHOENIX14-T, CSL-Daily, and CSL. Visualizations verify the effects of SEN on emphasizing informative spatial and temporal features. Code is available at https://github.com/hulianyuyy/SEN_CSLR
翻訳日:2022-12-01 17:26:10 公開日:2022-11-30
# BEVPoolv2: デプロイに向けたBEVDetの最先端実装

BEVPoolv2: A Cutting-edge Implementation of BEVDet Toward Deployment ( http://arxiv.org/abs/2211.17111v1 )

ライセンス: Link先を確認
Junjie Huang and Guan Huang(参考訳) 私たちは、branch dev2.0と呼ばれるbevdetの新しいコードベースバージョンをリリースします。 dev2.0では、エンジニアリング最適化の観点からビュー変換プロセスをBEVPoolv2にアップグレードし、計算とストレージの両面で大きな負担から解放する。 これは大きなフラスタム特徴の計算と前処理を省略することで実現される。 その結果、以前の最速実装の15.1倍の640x1600の大規模な入力解像度でも0.82ミリ秒以内で処理できる。 さらに、大きなフラスタム機能を格納する必要がなくなったため、以前の実装と比較してキャッシュ消費も少なくなっている。 最後に重要なのは、他のバックエンドへのデプロイも便利だ。 我々は、ブランチdev2.0のTensorRTバックエンドへのデプロイの例を示し、BEVDetパラダイムの処理速度を示す。 bevpoolv2以外にも,昨年提案されていた重要な進歩をいくつか選択して統合しています。 例として、BEVDet4D-R50-Depth-CBGSはNuScenes検証セットで52.3 NDSを記録し、PyTorchバックエンドで16.4 FPSで処理できる。 コードはhttps://github.com/huangjunjie2017/bevdet/tree/dev2.0の研究を容易にするためにリリースされた。

We release a new codebase version of the BEVDet, dubbed branch dev2.0. With dev2.0, we propose BEVPoolv2 upgrade the view transformation process from the perspective of engineering optimization, making it free from a huge burden in both calculation and storage aspects. It achieves this by omitting the calculation and preprocessing of the large frustum feature. As a result, it can be processed within 0.82 ms even with a large input resolution of 640x1600, which is 15.1 times the previous fastest implementation. Besides, it is also less cache consumptive when compared with the previous implementation, naturally as it no longer needs to store the large frustum feature. Last but not least, this also makes the deployment to the other backend handy. We offer an example of deployment to the TensorRT backend in branch dev2.0 and show how fast the BEVDet paradigm can be processed on it. Other than BEVPoolv2, we also select and integrate some substantial progress that was proposed in the past year. As an example configuration, BEVDet4D-R50-Depth-CBGS scores 52.3 NDS on the NuScenes validation set and can be processed at a speed of 16.4 FPS with the PyTorch backend. The code has been released to facilitate the study on https://github.com/HuangJunJie2017/BEVDet/tree/dev2.0.
翻訳日:2022-12-01 17:25:41 公開日:2022-11-30
# マルチビュー3次元物体検出における教師なし領域適応のためのマルチレイテンシ空間アライメント

Multi-latent Space Alignments for Unsupervised Domain Adaptation in Multi-view 3D Object Detection ( http://arxiv.org/abs/2211.17126v1 )

ライセンス: Link先を確認
Jiaming Liu, Rongyu Zhang, Xiaowei Chi, Xiaoqi Li, Ming Lu, Yandong Guo, Shanghang Zhang(参考訳) 視覚中心鳥眼視(bev)の認識は有望な可能性を示しており、自動運転において注目を集めている。 最近の研究は主に効率や精度の向上に焦点を絞っているが、ドメインシフト問題は無視され、転送性能が著しく低下している。 広範にわたる観察により,現場,天気,日中の変化シナリオに存在する重要な領域ギャップを把握し,多視点3次元物体検出のための領域適応問題の解法を最初に試みる。 BEV知覚アプローチは通常複雑であり、いくつかの成分を含んでいるため、多遅延空間上でのドメインシフトの蓄積は、BEV領域適応を困難にしている。 本稿では,DAT(Depth-Aware Teacher)とMFA(Multi-space Feature Aligned)の学生モデルからなる,ドメインシフトの蓄積を容易にするための,新しいマルチレベルマルチスペースアライメント教師(M^{2}ATS$)フレームワークを提案する。 具体的には、DATモデルが不確実性ガイダンスを採用して、対象領域の信頼性深度情報をサンプリングする。 ドメイン不変なBEV知覚を構築した後、ピクセルとインスタンスレベルの知識を学生モデルに転送する。 グローバルレベルでのドメインシフトを緩和するために、MFA学生モデルを導入し、2つのドメインのタスク関連マルチスペース機能を調整する。 M^{2}ATS$の有効性を検証するために、BEV 3Dオブジェクト検出実験を4つのクロスドメインシナリオで実施し、最先端のパフォーマンスを達成する(例:+12.6% NDSと+9.1% mAP on Day-Night)。 コードとデータセットがリリースされる。

Vision-Centric Bird-Eye-View (BEV) perception has shown promising potential and attracted increasing attention in autonomous driving. Recent works mainly focus on improving efficiency or accuracy but neglect the domain shift problem, resulting in severe degradation of transfer performance. With extensive observations, we figure out the significant domain gaps existing in the scene, weather, and day-night changing scenarios and make the first attempt to solve the domain adaption problem for multi-view 3D object detection. Since BEV perception approaches are usually complicated and contain several components, the domain shift accumulation on multi-latent spaces makes BEV domain adaptation challenging. In this paper, we propose a novel Multi-level Multi-space Alignment Teacher-Student ($M^{2}ATS$) framework to ease the domain shift accumulation, which consists of a Depth-Aware Teacher (DAT) and a Multi-space Feature Aligned (MFA) student model. Specifically, DAT model adopts uncertainty guidance to sample reliable depth information in target domain. After constructing domain-invariant BEV perception, it then transfers pixel and instance-level knowledge to student model. To further alleviate the domain shift at the global level, MFA student model is introduced to align task-relevant multi-space features of two domains. To verify the effectiveness of $M^{2}ATS$, we conduct BEV 3D object detection experiments on four cross domain scenarios and achieve state-of-the-art performance (e.g., +12.6% NDS and +9.1% mAP on Day-Night). Code and dataset will be released.
翻訳日:2022-12-01 17:25:19 公開日:2022-11-30
# ファイングラインドフルショット画像分類のための双方向特徴再構成ネットワーク

Bi-directional Feature Reconstruction Network for Fine-Grained Few-Shot Image Classification ( http://arxiv.org/abs/2211.17161v1 )

ライセンス: Link先を確認
Jijie Wu, Dongliang Chang, Aneeshan Sain, Xiaoxu Li, Zhanyu Ma, Jie Cao, Jun Guo, Yi-Zhe Song(参考訳) 微粒な小ショット画像分類の最大の課題は、少数のラベル付きサンプルを用いて、クラス間およびクラス内変化の低い特徴表現を学習することである。 しかし、従来の数発の学習方法は、このきめ細かい設定には自然に適用できない -- 素早いパイロットスタディでは、実際には反対(クラス間の変動が低く、クラス内の変化も高い)を推し進めていることが明らかになっている。 この問題を軽減するため、先行研究では、クエリイメージの再構築にサポートセットを優先的に使用し、その後、メトリック学習を使用してカテゴリを決定する。 注意深い検査を行った結果,この一方向再構成手法はクラス間変異の増加にのみ有効であり,クラス内変異に取り組むには有効ではないことが明らかとなった。 本稿では,クラス間およびクラス内変動を同時に許容するbi-restruction機構を初めて紹介する。 クラス間変動の増加のためにクエリセットを再構築するサポートセットに加えて、クエリセットを使用してクラス内変動を減らすためのサポートセットを再構築する。 この設計は、モデルが目の前のきめ細かい問題の鍵となる、より微妙で識別的な特徴を調べるのに効果的です。 さらに,双方向モジュールと並行して機能をさらに識別するための自己再構築モジュールも構築した。 広範に使用される3つの細粒画像分類データセットの実験結果は、他の方法と比較して一貫して大幅に改善されている。 コードはhttps://github.com/PRIS-CV/Bi-FRN.comで入手できる。

The main challenge for fine-grained few-shot image classification is to learn feature representations with higher inter-class and lower intra-class variations, with a mere few labelled samples. Conventional few-shot learning methods however cannot be naively adopted for this fine-grained setting -- a quick pilot study reveals that they in fact push for the opposite (i.e., lower inter-class variations and higher intra-class variations). To alleviate this problem, prior works predominately use a support set to reconstruct the query image and then utilize metric learning to determine its category. Upon careful inspection, we further reveal that such unidirectional reconstruction methods only help to increase inter-class variations and are not effective in tackling intra-class variations. In this paper, we for the first time introduce a bi-reconstruction mechanism that can simultaneously accommodate for inter-class and intra-class variations. In addition to using the support set to reconstruct the query set for increasing inter-class variations, we further use the query set to reconstruct the support set for reducing intra-class variations. This design effectively helps the model to explore more subtle and discriminative features which is key for the fine-grained problem in hand. Furthermore, we also construct a self-reconstruction module to work alongside the bi-directional module to make the features even more discriminative. Experimental results on three widely used fine-grained image classification datasets consistently show considerable improvements compared with other methods. Codes are available at: https://github.com/PRIS-CV/Bi-FRN.
翻訳日:2022-12-01 17:24:48 公開日:2022-11-30
# データセット上で正確かつ効率的なオブジェクト検出モデルをトレーニングする方法

How to Train an Accurate and Efficient Object Detection Model on Any Dataset ( http://arxiv.org/abs/2211.17170v1 )

ライセンス: Link先を確認
Galina Zalesskaya, Bogna Bylicka, Eugene Liu(参考訳) 急速に発展する業界は、微調整に必要な時間と計算コストのかかる実験を必要とせずに、モデルの精度を要求している。 さらに、特定のデータセットに慎重に最適化されたモデルとトレーニングパイプラインは、異なるデータセットでのトレーニングにうまく一般化することは滅多にありません。 これにより、ユースケースごとに慎重に微調整されたモデルを持つことは非現実的になる。 この問題を解決するために、我々はIntel Getiプラットフォームのバックボーンを形成する別のアプローチを提案する。オブジェクト検出トレーニングのためのデータセットに依存しないテンプレートで、慎重に選択され、事前訓練されたモデルと、さらなるトレーニングのための堅牢なトレーニングパイプラインで構成される。 当社のソリューションは最初から動作し、幅広いデータセットに対して強力なベースラインを提供します。 それ自体、あるいは必要に応じて特定のユースケースを微調整するための出発点として使用できる。 データセットのコーパス上で並列トレーニングを行い、コーパス全体の平均結果に対してアーキテクチャの選択とトレーニングトリックを最適化することで、データセットに依存しないテンプレートを得た。 性能と妥当性のトレードオフを考慮して,いくつかのアーキテクチャを調査した。 そこで我々は,openvino toolkitを用いてcpu上にデプロイ可能なvfnet,atss,ssdの3つのファイナリストを提案する。 ソースコードは OpenVINO Training Extensions (https://github.com/openvinotoolkit/training_extensions} の一部として公開されている。

The rapidly evolving industry demands high accuracy of the models without the need for time-consuming and computationally expensive experiments required for fine-tuning. Moreover, a model and training pipeline, which was once carefully optimized for a specific dataset, rarely generalizes well to training on a different dataset. This makes it unrealistic to have carefully fine-tuned models for each use case. To solve this, we propose an alternative approach that also forms a backbone of Intel Geti platform: a dataset-agnostic template for object detection trainings, consisting of carefully chosen and pre-trained models together with a robust training pipeline for further training. Our solution works out-of-the-box and provides a strong baseline on a wide range of datasets. It can be used on its own or as a starting point for further fine-tuning for specific use cases when needed. We obtained dataset-agnostic templates by performing parallel training on a corpus of datasets and optimizing the choice of architectures and training tricks with respect to the average results on the whole corpora. We examined a number of architectures, taking into account the performance-accuracy trade-off. Consequently, we propose 3 finalists, VFNet, ATSS, and SSD, that can be deployed on CPU using the OpenVINO toolkit. The source code is available as a part of the OpenVINO Training Extensions (https://github.com/openvinotoolkit/training_extensions}
翻訳日:2022-12-01 17:24:22 公開日:2022-11-30
# NeRFインバータ:シングルショット実像アニメーションのための高忠実度NeRF-GANインバージョン

NeRFInvertor: High Fidelity NeRF-GAN Inversion for Single-shot Real Image Animation ( http://arxiv.org/abs/2211.17235v1 )

ライセンス: Link先を確認
Yu Yin, Kamran Ghasedi, HsiangTao Wu, Jiaolong Yang, Xin Tong, Yun Fu(参考訳) Nerfベースの生成モデルは、一貫した3次元幾何で高品質な画像を生成する能力を示している。 潜在空間からランダムにサンプリングされた偽のアイデンティティ画像の合成に成功したにもかかわらず、実際の被験者の顔画像を生成するためにこれらのモデルを採用することは、いわゆる反転問題のために依然として難しい課題である。 本論文では,このNeRF-GANモデルを外科的に微調整し,単一の画像のみを用いて実物体の高忠実度アニメーションを実現する方法を提案する。 ドメイン外の実画像に対して最適化された潜時符号を考慮し、レンダリング画像に2次元損失関数を用いて識別ギャップを低減する。 さらに,最適化された潜伏符号の周辺領域のサンプルを用いて,幾何学的および視覚的アーティファクトの除去を行う。 実験により,複数のNeRF-GANモデル上での現実的,高忠実,3次元一貫した実顔アニメーションにおける本手法の有効性を確認した。

Nerf-based Generative models have shown impressive capacity in generating high-quality images with consistent 3D geometry. Despite successful synthesis of fake identity images randomly sampled from latent space, adopting these models for generating face images of real subjects is still a challenging task due to its so-called inversion issue. In this paper, we propose a universal method to surgically fine-tune these NeRF-GAN models in order to achieve high-fidelity animation of real subjects only by a single image. Given the optimized latent code for an out-of-domain real image, we employ 2D loss functions on the rendered image to reduce the identity gap. Furthermore, our method leverages explicit and implicit 3D regularizations using the in-domain neighborhood samples around the optimized latent code to remove geometrical and visual artifacts. Our experiments confirm the effectiveness of our method in realistic, high-fidelity, and 3D consistent animation of real faces on multiple NeRF-GAN models across different datasets.
翻訳日:2022-12-01 17:24:03 公開日:2022-11-30
# raft: 限定的な乱用言語検出のための合理化アダプタ

RAFT: Rationale adaptor for few-shot abusive language detection ( http://arxiv.org/abs/2211.17046v1 )

ライセンス: Link先を確認
Punyajoy Saha, Divyanshu Sheth, Kushal Kedia, Binny Mathew, Animesh Mukherjee(参考訳) 乱用言語は、オンラインソーシャルメディアにおける問題である。 乱用言語の検出に関する過去の研究は、様々なプラットフォーム、言語、写真などをカバーする。 しかし、これらのデータセットを使ってトレーニングされたモデルは、ドメイン間の評価設定ではうまく機能しない。 これを克服するための一般的な戦略は、ターゲットドメインからいくつかのサンプルを使用してモデルをトレーニングし、そのドメインのパフォーマンスを改善することだ(クロスドメインの少数ショットトレーニング)。 しかし、これはモデルがそれらのサンプルのアーティファクトを過剰に適合させる可能性がある。 魅力的な解決策は、モデルの合理的性、すなわちテキストのラベルを正当化するテキストを導くことである。 この手法は様々なNLPタスクのドメイン内設定におけるモデル性能を改善する。 本稿では、乱用言語検出のためのRAFT(Rationale Adaptor for Few-shoT Classification)を提案する。 まず,合理性,目標,ラベルを共同で学習するマルチタスク学習セットアップを構築し,合理性検出タスクにおける6%マクロf1の有意な改善を見出した。 2つの有理積分BERTベースのアーキテクチャ(RAFTモデル)を導入し、5つの異なる乱用言語データセットに対してシステム評価を行い、RAFTベースのモデルでは、マクロF1スコアの約7%をベースラインモデルで上回り、他のソースドメインで微調整されたモデルと競合する結果を得た。 さらに、RAFTベースのモデルは、信頼性の観点からLIME/SHAPベースのアプローチよりも優れており、忠実性の観点からは性能が近い。

Abusive language is a concerning problem in online social media. Past research on detecting abusive language covers different platforms, languages, demographies, etc. However, models trained using these datasets do not perform well in cross-domain evaluation settings. To overcome this, a common strategy is to use a few samples from the target domain to train models to get better performance in that domain (cross-domain few-shot training). However, this might cause the models to overfit the artefacts of those samples. A compelling solution could be to guide the models toward rationales, i.e., spans of text that justify the text's label. This method has been found to improve model performance in the in-domain setting across various NLP tasks. In this paper, we propose RAFT (Rationale Adaptor for Few-shoT classification) for abusive language detection. We first build a multitask learning setup to jointly learn rationales, targets, and labels, and find a significant improvement of 6% macro F1 on the rationale detection task over training solely rationale classifiers. We introduce two rationale-integrated BERT-based architectures (the RAFT models) and evaluate our systems over five different abusive language datasets, finding that in the few-shot classification setting, RAFT-based models outperform baseline models by about 7% in macro F1 scores and perform competitively to models finetuned on other source domains. Furthermore, RAFT-based models outperform LIME/SHAP-based approaches in terms of plausibility and are close in performance in terms of faithfulness.
翻訳日:2022-12-01 17:23:43 公開日:2022-11-30
# スコアベース連続離散拡散モデル

Score-based Continuous-time Discrete Diffusion Models ( http://arxiv.org/abs/2211.16750v1 )

ライセンス: Link先を確認
Haoran Sun, Lijun Yu, Bo Dai, Dale Schuurmans, Hanjun Dai(参考訳) 確率微分方程式(SDE)によるスコアベースモデリングは拡散モデルに新たな視点を与え、連続データ上での優れた性能を示した。 しかし、log-likelihood関数(すなわちスコア関数)の勾配は離散空間に対して適切に定義されていない。 これにより、分類データに \textcolor{\cdiff}{the score-based modeling} を適用することは非自明である。 本稿では,連続時間マルコフ連鎖を介して逆過程をデノネーズする確率ジャンププロセスを導入することにより,拡散モデルを離散変数に拡張する。 この定式化は後方サンプリング時の解析シミュレーションを許容する。 逆過程を学習するために、スコアマッチングを一般的な分類データに拡張し、条件付き辺縁分布の単純なマッチングにより、偏りのない推定値が得られることを示す。 本研究では,合成および実世界音楽および画像ベンチマークのセットにおける提案手法の有効性を実証する。

Score-based modeling through stochastic differential equations (SDEs) has provided a new perspective on diffusion models, and demonstrated superior performance on continuous data. However, the gradient of the log-likelihood function, i.e., the score function, is not properly defined for discrete spaces. This makes it non-trivial to adapt \textcolor{\cdiff}{the score-based modeling} to categorical data. In this paper, we extend diffusion models to discrete variables by introducing a stochastic jump process where the reverse process denoises via a continuous-time Markov chain. This formulation admits an analytical simulation during backward sampling. To learn the reverse process, we extend score matching to general categorical data and show that an unbiased estimator can be obtained via simple matching of the conditional marginal distributions. We demonstrate the effectiveness of the proposed method on a set of synthetic and real-world music and image benchmarks.
翻訳日:2022-12-01 17:23:15 公開日:2022-11-30
# DimenFix: 特徴保存のための新しいメタ次元化法

DimenFix: A novel meta-dimensionality reduction method for feature preservation ( http://arxiv.org/abs/2211.16752v1 )

ライセンス: Link先を確認
Qiaodan Luo, Leonardo Christino, Fernando V Paulovich and Evangelos Milios(参考訳) 近年,高次元データセットの解釈に対する需要が急増しているため,次元の低減が重要な研究トピックとなっている。 低次元空間にマッピングする場合、データポイント間の全体的関係を維持する上で、優れた性能を持つ次元削減手法が数多く存在する。 しかし、これらの既存手法は特徴間の重要性の違いを組み込むことができない。 この問題に対処するために,グラデーションdescent様のプロセスを含む任意の基本次元低減法で操作可能な新しいメタメソッドであるdimenfixを提案する。 次元の縮小で考慮される異なる特徴の重要性をユーザが定義できるようにすることで、dimenfixは与えられたデータセットを視覚化し理解するための新たな可能性を生み出します。 一方、dimenfixは、使用する基本次元の削減に対して、時間コストを増加させるか、または次元の削減の質を低下させることはない。

Dimensionality reduction has become an important research topic as demand for interpreting high-dimensional datasets has been increasing rapidly in recent years. There have been many dimensionality reduction methods with good performance in preserving the overall relationship among data points when mapping them to a lower-dimensional space. However, these existing methods fail to incorporate the difference in importance among features. To address this problem, we propose a novel meta-method, DimenFix, which can be operated upon any base dimensionality reduction method that involves a gradient-descent-like process. By allowing users to define the importance of different features, which is considered in dimensionality reduction, DimenFix creates new possibilities to visualize and understand a given dataset. Meanwhile, DimenFix does not increase the time cost or reduce the quality of dimensionality reduction with respect to the base dimensionality reduction used.
翻訳日:2022-12-01 17:23:02 公開日:2022-11-30
# NeAF: 点正規化のためのニューラルアングル場学習

NeAF: Learning Neural Angle Fields for Point Normal Estimation ( http://arxiv.org/abs/2211.16869v1 )

ライセンス: Link先を確認
Shujuan Li, Junsheng Zhou, Baorui Ma, Yu-Shen Liu, Zhizhong Han(参考訳) 非構造化点雲の正規推定は、3次元コンピュータビジョンにおいて重要なタスクである。 現在の手法では、局所パッチを通常のベクトルにマッピングしたり、ニューラルネットワークを用いて局所表面フィッティングを学習することで、奨励的な結果が得られる。 しかし、これらの方法は見当たらないシナリオではうまく一般化されておらず、パラメータの設定に敏感である。 これらの問題を解決するために,球面座標系における各点の正規点周囲の角度場を学習する暗黙の関数を提案し,これをニューラルアングル場(NeAF)と呼ぶ。 入力点の正規を直接予測する代わりに、基底真理正規とランダムにサンプリングされたクエリ正規との間の角度オフセットを予測する。 この戦略により、ネットワークはより多様なサンプルを観測し、より堅牢な方法で高い予測精度をもたらす。 予測時における学習角度場から正規度を予測するため,単位球面空間の問合せベクトルをランダムにサンプリングし,最小角値のベクトルを予測正規度とする。 NeAFによる先行学習をさらに活用するために,角度オフセットの最小化による予測正規ベクトルの洗練を提案する。 合成データと実スキャンによる実験結果は、広く使われているベンチマークよりも大幅に改善されている。

Normal estimation for unstructured point clouds is an important task in 3D computer vision. Current methods achieve encouraging results by mapping local patches to normal vectors or learning local surface fitting using neural networks. However, these methods are not generalized well to unseen scenarios and are sensitive to parameter settings. To resolve these issues, we propose an implicit function to learn an angle field around the normal of each point in the spherical coordinate system, which is dubbed as Neural Angle Fields (NeAF). Instead of directly predicting the normal of an input point, we predict the angle offset between the ground truth normal and a randomly sampled query normal. This strategy pushes the network to observe more diverse samples, which leads to higher prediction accuracy in a more robust manner. To predict normals from the learned angle fields at inference time, we randomly sample query vectors in a unit spherical space and take the vectors with minimal angle values as the predicted normals. To further leverage the prior learned by NeAF, we propose to refine the predicted normal vectors by minimizing the angle offsets. The experimental results with synthetic data and real scans show significant improvements over the state-of-the-art under widely used benchmarks.
翻訳日:2022-12-01 17:17:26 公開日:2022-11-30
# 差を再考する:差に基づく深度範囲自由マルチビューステレオ

Rethinking Disparity: A Depth Range Free Multi-View Stereo Based on Disparity ( http://arxiv.org/abs/2211.16905v1 )

ライセンス: Link先を確認
Qingsong Yan, Qiang Wang, Kaiyong Zhao, Bo Li, Xiaowen Chu, Fei Deng(参考訳) 既存の学習ベースのマルチビューステレオ(mvs)メソッドは、3dコストボリュームを構築するために深さ範囲に依存しており、範囲が大きすぎると失敗する可能性がある。 この問題に対処するために,2つのビュー間の画素移動から深度情報を推定するDipMVSと呼ばれるエピポーラ不均質フロー(E-flow)に基づく不均質MVS手法を提案する。 DispMVSのコアは、画像平面上の2Dコストボリュームを、各対(参照画像と複数のソース画像の間)のエピポーラ線に沿って構成し、複数のビューの整合性を確保するために、各対から三角測量された画素マッチングと無算深度を融合することである。 強固にするために、DispMVSはランダムに初期化された深度マップから始まり、粗大な戦略の助けを借りて深度マップを反復的に洗練する。 DTUMVS と Tanks\&Temple データセットの実験では、DispMVS は深さ範囲に敏感ではなく、GPUメモリを低くすることで最先端の結果が得られる。

Existing learning-based multi-view stereo (MVS) methods rely on the depth range to build the 3D cost volume and may fail when the range is too large or unreliable. To address this problem, we propose a disparity-based MVS method based on the epipolar disparity flow (E-flow), called DispMVS, which infers the depth information from the pixel movement between two views. The core of DispMVS is to construct a 2D cost volume on the image plane along the epipolar line between each pair (between the reference image and several source images) for pixel matching and fuse uncountable depths triangulated from each pair by multi-view geometry to ensure multi-view consistency. To be robust, DispMVS starts from a randomly initialized depth map and iteratively refines the depth map with the help of the coarse-to-fine strategy. Experiments on DTUMVS and Tanks\&Temple datasets show that DispMVS is not sensitive to the depth range and achieves state-of-the-art results with lower GPU memory.
翻訳日:2022-12-01 17:17:03 公開日:2022-11-30
# 任意解像度映像による運動ロバストリモートフォトプレチモグラフィの学習

Learning Motion-Robust Remote Photoplethysmography through Arbitrary Resolution Videos ( http://arxiv.org/abs/2211.16922v1 )

ライセンス: Link先を確認
Jianwei Li, Zitong Yu, Jingang Shi(参考訳) 遠隔プラチスモグラフィー(rPPG)は,非接触型心拍数(HR)を顔画像から推定できる。 実世界の長期健康モニタリングのシナリオでは、参加者と頭部の運動距離は通常時間によって異なり、顔の解像度や複雑な運動人工物による不正確なrPPG測定が行われる。 本稿では,カメラと参加者の一定距離を想定した従来のrppgモデルと異なる2つのプラグ・アンド・プレイブロック(つまり,生理的信号特徴抽出ブロック(pfe)と時間的顔アライメントブロック(tfa))を提案する。 一方、代表領域情報で案内されたPFEは、任意の解像度の顔フレームを固定解像度の顔構造特徴に適応的に符号化する。 一方、推定光流を利用して、TFAは頭部の動きによって引き起こされるrPPG信号の混乱を防止できるので、動きを損なうrPPG信号の回復に役立てることができる。 さらに,2ストリームのデュアルレゾリューションフレームワークを使用して,クロスレゾリューション制約でモデルをトレーニングすることで,pfeによるレゾリューションロバスト顔rppg機能の学習をさらに支援する。 3つのベンチマークデータセット(UBFC-rPPG, COHFACE, PURE)の大規模な実験により,提案手法の優れた性能が示された。 PFEとTFAでは、オフザシェルフ時空間rPPGモデルにより、顔の解像度と重度の頭部運動のシナリオの両方において、より堅牢なrPPG信号を予測できる。 コードはhttps://github.com/LJW-GIT/Arbitrary_Resolution_rPPGで公開されている。

Remote photoplethysmography (rPPG) enables non-contact heart rate (HR) estimation from facial videos which gives significant convenience compared with traditional contact-based measurements. In the real-world long-term health monitoring scenario, the distance of the participants and their head movements usually vary by time, resulting in the inaccurate rPPG measurement due to the varying face resolution and complex motion artifacts. Different from the previous rPPG models designed for a constant distance between camera and participants, in this paper, we propose two plug-and-play blocks (i.e., physiological signal feature extraction block (PFE) and temporal face alignment block (TFA)) to alleviate the degradation of changing distance and head motion. On one side, guided with representative-area information, PFE adaptively encodes the arbitrary resolution facial frames to the fixed-resolution facial structure features. On the other side, leveraging the estimated optical flow, TFA is able to counteract the rPPG signal confusion caused by the head movement thus benefit the motion-robust rPPG signal recovery. Besides, we also train the model with a cross-resolution constraint using a two-stream dual-resolution framework, which further helps PFE learn resolution-robust facial rPPG features. Extensive experiments on three benchmark datasets (UBFC-rPPG, COHFACE and PURE) demonstrate the superior performance of the proposed method. One highlight is that with PFE and TFA, the off-the-shelf spatio-temporal rPPG models can predict more robust rPPG signals under both varying face resolution and severe head movement scenarios. The codes are available at https://github.com/LJW-GIT/Arbitrary_Resolution_rPPG.
翻訳日:2022-12-01 17:16:38 公開日:2022-11-30
# 顔面対称性を先行した3次元GANインバージョン

3D GAN Inversion with Facial Symmetry Prior ( http://arxiv.org/abs/2211.16927v1 )

ライセンス: Link先を確認
Fei Yin, Yong Zhang, Xuan Wang, Tengfei Wang, Xiaoyu Li, Yuan Gong, Yanbo Fan, Xiaodong Cun, Ying Shan, Cengiz Oztireli, Yujiu Yang(参考訳) 近年,ニューラルレンダリングの再生能力を活用した高品質な3D認識型GANが提案されている。 3D GANをGANインバージョン法と結びつけて、実際の画像をジェネレータの潜在空間に投影し、自由視点で一貫した合成と編集を可能にするのが自然である。 顔は事前に訓練済みの3D GANで保存されているが、1枚の単眼画像のみで3D像を再構成することは、いまだ不適切な問題である。 2D GANインバージョン法の簡単な応用は、3次元形状の正しさを無視しながらテクスチャ類似性のみに焦点を当てる。 特に極端な姿勢で側面を再構築する際には、幾何学的崩壊効果を引き起こす可能性がある。 また、新奇な見方の合成結果は曖昧になりがちである。 本研究では,3D GANのインバージョンを促進するために,前もって顔の対称性を導入する手法を提案する。 画像フリップによって得られる擬似補助ビューを十分に活用するためにパイプラインと制約を設計し,反転過程におけるロバストで合理的な形状の獲得を支援する。 未観測視点におけるテクスチャの忠実性を高めるため、奥行き誘導3Dワープからの擬似ラベルは、余分な監督を提供することができる。 非対称な状況下での最適化のための競合領域のフィルタリングを目的とした制約を設計する。 画像再構成と編集に関する包括的定量的・質的評価は,本手法が優れていることを示す。

Recently, a surge of high-quality 3D-aware GANs have been proposed, which leverage the generative power of neural rendering. It is natural to associate 3D GANs with GAN inversion methods to project a real image into the generator's latent space, allowing free-view consistent synthesis and editing, referred as 3D GAN inversion. Although with the facial prior preserved in pre-trained 3D GANs, reconstructing a 3D portrait with only one monocular image is still an ill-pose problem. The straightforward application of 2D GAN inversion methods focuses on texture similarity only while ignoring the correctness of 3D geometry shapes. It may raise geometry collapse effects, especially when reconstructing a side face under an extreme pose. Besides, the synthetic results in novel views are prone to be blurry. In this work, we propose a novel method to promote 3D GAN inversion by introducing facial symmetry prior. We design a pipeline and constraints to make full use of the pseudo auxiliary view obtained via image flipping, which helps obtain a robust and reasonable geometry shape during the inversion process. To enhance texture fidelity in unobserved viewpoints, pseudo labels from depth-guided 3D warping can provide extra supervision. We design constraints aimed at filtering out conflict areas for optimization in asymmetric situations. Comprehensive quantitative and qualitative evaluations on image reconstruction and editing demonstrate the superiority of our method.
翻訳日:2022-12-01 17:16:09 公開日:2022-11-30
# DiffPose: より信頼性の高い3D Pose推定を目指して

DiffPose: Toward More Reliable 3D Pose Estimation ( http://arxiv.org/abs/2211.16940v1 )

ライセンス: Link先を確認
Jia Gong, Lin Geng Foo, Zhipeng Fan, Qiuhong Ke, Hossein Rahmani, Jun Liu(参考訳) 単眼の3次元ポーズ推定は、固有の曖昧さと閉塞性のため、しばしば高い不確実性と不確定性をもたらすため、非常に難しい。 一方,拡散モデルは最近,ノイズから高品質な画像を生成する有効なツールとして登場した。 その能力に触発されて、3次元ポーズ推定を逆拡散過程として定式化する新しいポーズ推定フレームワーク(DiffPose)を探索する。 本研究では, 3次元ポーズ推定のための拡散過程を容易にする新しい設計法, ポーズ不確かさ分布のポーズ特異的初期化, ガウス混合モデルに基づく前方拡散過程, 文脈条件付き逆拡散過程を組み込んだ。 提案手法は,ヒューマン3.6mおよびmpi-inf-3dhpのポーズ推定ベンチマークにおいて,従来の手法を大きく上回っている。

Monocular 3D human pose estimation is quite challenging due to the inherent ambiguity and occlusion, which often lead to high uncertainty and indeterminacy. On the other hand, diffusion models have recently emerged as an effective tool for generating high-quality images from noise. Inspired by their capability, we explore a novel pose estimation framework (DiffPose) that formulates 3D pose estimation as a reverse diffusion process. We incorporate novel designs into our DiffPose that facilitate the diffusion process for 3D pose estimation: a pose-specific initialization of pose uncertainty distributions, a Gaussian Mixture Model-based forward diffusion process, and a context-conditioned reverse diffusion process. Our proposed DiffPose significantly outperforms existing methods on the widely used pose estimation benchmarks Human3.6M and MPI-INF-3DHP.
翻訳日:2022-12-01 17:15:44 公開日:2022-11-30
# モノクロカメラと単一LiDARによる大規模シーンの3次元多人数姿勢推定

Weakly Supervised 3D Multi-person Pose Estimation for Large-scale Scenes based on Monocular Camera and Single LiDAR ( http://arxiv.org/abs/2211.16951v1 )

ライセンス: Link先を確認
Peishan Cong, Yiteng Xu, Yiming Ren, Juze Zhang, Lan Xu, Jingya Wang, Jingyi Yu, Yuexin Ma(参考訳) 深度推定は通常不適切であり、単眼カメラを用いた3次元多人数ポーズ推定では曖昧である。 LiDARは、長距離シーンにおける正確な深度情報をキャプチャできるため、個人のグローバルな位置決めと、リッチな幾何学的特徴を提供することによる3Dポーズ推定の両方の利点がある。 そこで本研究では,大規模シーンにおける3次元多人数ポーズ推定のためのモノクロカメラとLiDARを用いた単一手法を提案する。 具体的には,画像やポイントクラウドを含むマルチモーダル入力データを活用するための効果的な融合戦略をデザインし,時間的情報を最大限に活用し,ネットワークを誘導し,自然かつコヒーレントな人間の動きを学習する。 任意の3次元ポーズアノテーションを使わずに,自己スーパービジョンのためのポイントクラウドの固有の幾何学的制約を活用し,画像上の2次元キーポイントを弱い監督のために利用する。 公開データセットと新たに収集したデータセットに関する大規模な実験により,提案手法の優位性と一般化能力を示す。

Depth estimation is usually ill-posed and ambiguous for monocular camera-based 3D multi-person pose estimation. Since LiDAR can capture accurate depth information in long-range scenes, it can benefit both the global localization of individuals and the 3D pose estimation by providing rich geometry features. Motivated by this, we propose a monocular camera and single LiDAR-based method for 3D multi-person pose estimation in large-scale scenes, which is easy to deploy and insensitive to light. Specifically, we design an effective fusion strategy to take advantage of multi-modal input data, including images and point cloud, and make full use of temporal information to guide the network to learn natural and coherent human motions. Without relying on any 3D pose annotations, our method exploits the inherent geometry constraints of point cloud for self-supervision and utilizes 2D keypoints on images for weak supervision. Extensive experiments on public datasets and our newly collected dataset demonstrate the superiority and generalization capability of our proposed method.
翻訳日:2022-12-01 17:15:31 公開日:2022-11-30
# 時間内ランデブー:外科的三重項認識のための注意に基づく時間的融合アプローチ

Rendezvous in Time: An Attention-based Temporal Fusion approach for Surgical Triplet Recognition ( http://arxiv.org/abs/2211.16963v1 )

ライセンス: Link先を確認
Saurav Sharma, Chinedu Innocent Nwoye, Didier Mutter, Nicolas Padoy(参考訳) 外科的AIの最近の進歩の1つは、外科的活動が三肢(インスルーメント、動詞、ターゲット)として認識されていることである。 コンピュータ支援介入のための詳細な情報を提供するが、現在の三重項認識アプローチは単一のフレームのみに依存している。 初期のフレームからの時間的手がかりを活用すれば、ビデオからの手術的アクショントリプレットの認識が向上する。 本稿では,Rendezvous in Time(RiT)を提案する。これは最先端のモデルであるRendezvousを時間モデルで拡張したディープラーニングモデルである。 動詞にもっと焦点をあて、現在および過去のフレームの接続性を探求し、時間的注意に基づく特徴を学習し、三重項認識を強化した。 難易度の高い手術用三重項データセット cholect45 の提案を検証し,動詞と三重項の認識の改善と,動詞 (動詞, 動詞) との相互作用について検証した。 定性的な結果は、RiTが最先端の3重項インスタンスよりもスムーズな予測を生成することを示している。 本稿では,ビデオフレームの時間的融合を利用して外科的動作の進化をモデル化し,その利点を手術的三重項認識に活かす新しいアプローチを提案する。

One of the recent advances in surgical AI is the recognition of surgical activities as triplets of (instrument, verb, target). Albeit providing detailed information for computer-assisted intervention, current triplet recognition approaches rely only on single frame features. Exploiting the temporal cues from earlier frames would improve the recognition of surgical action triplets from videos. In this paper, we propose Rendezvous in Time (RiT) - a deep learning model that extends the state-of-the-art model, Rendezvous, with temporal modeling. Focusing more on the verbs, our RiT explores the connectedness of current and past frames to learn temporal attention-based features for enhanced triplet recognition. We validate our proposal on the challenging surgical triplet dataset, CholecT45, demonstrating an improved recognition of the verb and triplet along with other interactions involving the verb such as (instrument, verb). Qualitative results show that the RiT produces smoother predictions for most triplet instances than the state-of-the-arts. We present a novel attention-based approach that leverages the temporal fusion of video frames to model the evolution of surgical actions and exploit their benefits for surgical triplet recognition.
翻訳日:2022-12-01 17:15:12 公開日:2022-11-30
# 多様な組込みを用いたクロスモーダル検索の改善

Improving Cross-Modal Retrieval with Set of Diverse Embeddings ( http://arxiv.org/abs/2211.16761v1 )

ライセンス: Link先を確認
Dongwon Kim, Namyup Kim, Suha Kwak(参考訳) 画像とテキストのモダリティをまたいだクロスモーダル検索は、その固有のあいまいさのために難しい課題である: 画像はしばしば様々な状況を示し、キャプションは多様な画像と結合することができる。 集合ベースの埋め込みはこの問題の解決策として研究されている。 サンプルの異なるセマンティクスをキャプチャする埋め込みベクトルの集合に、サンプルをエンコードすることを目指している。 本稿では,前作とは2つの点で異なる,新しい集合ベース埋め込み手法を提案する。 まず,smooth-chamfer similarityと呼ばれる新しい類似度関数を提案する。 次に,スロットアテンション機構によって入力の多様なセマンティクスを効果的にキャプチャする組込みベクトルを生成するための新しいセット予測モジュールを提案する。 提案手法は,COCO と Flickr30K のデータセットを異なる視覚的バックボーンに分散して評価し,推論時の計算量を大幅に増大させる手法を含む既存手法よりも優れていた。

Cross-modal retrieval across image and text modalities is a challenging task due to its inherent ambiguity: An image often exhibits various situations, and a caption can be coupled with diverse images. Set-based embedding has been studied as a solution to this problem. It seeks to encode a sample into a set of different embedding vectors that capture different semantics of the sample. In this paper, we present a novel set-based embedding method, which is distinct from previous work in two aspects. First, we present a new similarity function called smooth-Chamfer similarity, which is designed to alleviate the side effects of existing similarity functions for set-based embedding. Second, we propose a novel set prediction module to produce a set of embedding vectors that effectively captures diverse semantics of input by the slot attention mechanism. Our method is evaluated on the COCO and Flickr30K datasets across different visual backbones, where it outperforms existing methods including ones that demand substantially larger computation at inference.
翻訳日:2022-12-01 17:08:57 公開日:2022-11-30
# GeoUDF:幾何学誘導距離表現による3次元点雲の表面再構成

GeoUDF: Surface Reconstruction from 3D Point Clouds via Geometry-guided Distance Representation ( http://arxiv.org/abs/2211.16762v1 )

ライセンス: Link先を確認
Siyu Ren, Junhui Hou, Xiaodong Chen, Ying He, Wenping Wang(参考訳) 最近のニューラル暗黙の表現に基づく手法は、スパースポイントの雲から離散的な表面を再構成する長期的かつ困難な問題を解くための技術の現状を大幅に進歩させた。 これらの手法は一般に二項占有または符号付き/符号なし距離場(SDF/UDF)を表面表現として学習する。 しかしながら、既存のSDF/UDFベースの手法はすべて、ニューラルネットワークを使用して純粋にデータ駆動方式で距離を暗黙的に回帰し、精度と一般化性をある程度制限している。 そこで,本研究では,クエリ点の無符号距離を学習可能なアフィン平均値として,隣接点の接面への距離を明示的に定式化する,udfの幾何誘導法と勾配推定法を提案する。 さらに,各点に対する二次多項式を明示的に学習することにより,入力点雲の局所幾何構造をモデル化する。 これは入力スパース点雲のアップサンプリングを容易にするだけでなく、自然に非正規化を誘導し、UDF推定をさらに増大させる。 最後に,予測したudfから三角形メッシュを抽出するために,エッジベースマーチングキューブモジュールを提案する。 本手法は, 再構成精度, 効率, 一般化性の観点から, 最先端法よりも優れた性能を示すため, 広範囲にわたる実験およびアブレーション実験を行った。 ソースコードはhttps://github.com/rsy6318/GeoUDFで公開されている。

The recent neural implicit representation-based methods have greatly advanced the state of the art for solving the long-standing and challenging problem of reconstructing a discrete surface from a sparse point cloud. These methods generally learn either a binary occupancy or signed/unsigned distance field (SDF/UDF) as surface representation. However, all the existing SDF/UDF-based methods use neural networks to implicitly regress the distance in a purely data-driven manner, thus limiting the accuracy and generalizability to some extent. In contrast, we propose the first geometry-guided method for UDF and its gradient estimation that explicitly formulates the unsigned distance of a query point as the learnable affine averaging of its distances to the tangent planes of neighbouring points. Besides, we model the local geometric structure of the input point clouds by explicitly learning a quadratic polynomial for each point. This not only facilitates upsampling the input sparse point cloud but also naturally induces unoriented normal, which further augments UDF estimation. Finally, to extract triangle meshes from the predicted UDF we propose a customized edge-based marching cube module. We conduct extensive experiments and ablation studies to demonstrate the significant advantages of our method over state-of-the-art methods in terms of reconstruction accuracy, efficiency, and generalizability. The source code is publicly available at https://github.com/rsy6318/GeoUDF.
翻訳日:2022-12-01 17:08:41 公開日:2022-11-30
# 不確実性認識画像キャプション

Uncertainty-Aware Image Captioning ( http://arxiv.org/abs/2211.16769v1 )

ライセンス: Link先を確認
Zhengcong Fei, Mingyuan Fan, Li Zhu, Junshi Huang, Xiaoming Wei, Xiaolin Wei(参考訳) キャプションの語中の不確実性が高ければ高いほど、それを決定するには関連性のある文脈情報が必要であるとよく信じられている。 しかし、現在の画像キャプション手法では、文中のすべての単語を逐次かつ等しく生成することが一般的である。 本稿では,既存の単語間の不連続候補単語の挿入を,易易度から難易度まで並列かつ反復的に行う不確実性対応画像キャプションフレームワークを提案する。 適切な判断を行うには、文中の不確定な単語がより事前情報を必要とすると仮定し、後段で生成すべきである。 結果として生じる非自己回帰階層は、キャプション生成を説明可能かつ直感的にする。 具体的には、画像条件付きバッグ・オブ・ワードモデルを用いて単語の不確実性を測定し、動的プログラミングアルゴリズムを用いてトレーニングペアを構築する。 推論中、実験的な対数時間複雑性をもたらす不確実性適応並列ビーム探索手法を考案した。 MS COCOベンチマークの大規模な実験により,提案手法はキャプション品質とデコード速度の両方において,強いベースラインと関連する手法よりも優れていることがわかった。

It is well believed that the higher uncertainty in a word of the caption, the more inter-correlated context information is required to determine it. However, current image captioning methods usually consider the generation of all words in a sentence sequentially and equally. In this paper, we propose an uncertainty-aware image captioning framework, which parallelly and iteratively operates insertion of discontinuous candidate words between existing words from easy to difficult until converged. We hypothesize that high-uncertainty words in a sentence need more prior information to make a correct decision and should be produced at a later stage. The resulting non-autoregressive hierarchy makes the caption generation explainable and intuitive. Specifically, we utilize an image-conditioned bag-of-word model to measure the word uncertainty and apply a dynamic programming algorithm to construct the training pairs. During inference, we devise an uncertainty-adaptive parallel beam search technique that yields an empirically logarithmic time complexity. Extensive experiments on the MS COCO benchmark reveal that our approach outperforms the strong baseline and related methods on both captioning quality as well as decoding speed.
翻訳日:2022-12-01 17:08:08 公開日:2022-11-30
# 粗いものから細かいものへ:軽量画像超解像のための階層型ピクセル統合

From Coarse to Fine: Hierarchical Pixel Integration for Lightweight Image Super-Resolution ( http://arxiv.org/abs/2211.16776v1 )

ライセンス: Link先を確認
Jie Liu, Chao Chen, Jie Tang, Gangshan Wu(参考訳) 画像超解像(SR)はマルチメディアデータの処理と伝送の基本的なツールである。 近年,Transformerベースのモデルでは画像SRの競争性能が向上している。 イメージを固定サイズのパッチに分割し、これらのパッチに自己アテンションを適用してピクセル間の長距離依存性をモデル化する。 しかし、このアーキテクチャ設計はSR知識からの設計ガイドラインを欠く高レベルの視覚タスクに起源がある。 本稿では,SRネットワークのためのローカル属性マップ(LAM)の解釈から洞察を得た新しいアテンションブロックを設計することを目的とする。 具体的には、最重要画素をパッチの細かい領域に配置し、重要でない画素を画像全体の粗い領域に展開する階層的重要度マップを示す。 非常に大きなパッチサイズではなく、粗い領域のピクセルにアクセスするために、画像の最も類似したパッチと相互アテンションを適用する軽量なGPA(Global Pixel Access)モジュールを提案する。 細部では、パッチ内自己保持(IPSA)モジュールを使用して、局所パッチ内の長距離画素依存性をモデル化し、次いで、最も詳細な処理に$3\times3$の畳み込みを適用します。 さらに,回復画像の知覚的品質を高めるために,カスケードパッチディビジョン(CPD)戦略を提案する。 大規模な実験により,本手法は最先端の軽量SR法よりも高い性能を示した。 コードはhttps://github.com/passererer/HPINetで入手できる。

Image super-resolution (SR) serves as a fundamental tool for the processing and transmission of multimedia data. Recently, Transformer-based models have achieved competitive performances in image SR. They divide images into fixed-size patches and apply self-attention on these patches to model long-range dependencies among pixels. However, this architecture design is originated for high-level vision tasks, which lacks design guideline from SR knowledge. In this paper, we aim to design a new attention block whose insights are from the interpretation of Local Attribution Map (LAM) for SR networks. Specifically, LAM presents a hierarchical importance map where the most important pixels are located in a fine area of a patch and some less important pixels are spread in a coarse area of the whole image. To access pixels in the coarse area, instead of using a very large patch size, we propose a lightweight Global Pixel Access (GPA) module that applies cross-attention with the most similar patch in an image. In the fine area, we use an Intra-Patch Self-Attention (IPSA) module to model long-range pixel dependencies in a local patch, and then a $3\times3$ convolution is applied to process the finest details. In addition, a Cascaded Patch Division (CPD) strategy is proposed to enhance perceptual quality of recovered images. Extensive experiments suggest that our method outperforms state-of-the-art lightweight SR methods by a large margin. Code is available at https://github.com/passerer/HPINet.
翻訳日:2022-12-01 17:07:36 公開日:2022-11-30
# 人間中心の視点から分布外検出を再考する

Rethinking Out-of-Distribution Detection From a Human-Centric Perspective ( http://arxiv.org/abs/2211.16778v1 )

ライセンス: Link先を確認
Yao Zhu, Yuefeng Chen, Xiaodan Li, Rong Zhang, Hui Xue, Xiang Tian, Rongxin Jiang, Bolun Zheng, Yaowu Chen(参考訳) Out-Of-Distribution(OOD)検出は、誤った予測を拒否することで、現実世界のシナリオにおけるディープニューラルネットワーク(DNN)の信頼性と安全性を保証することを目的として、長年にわたって広く注目を集めてきた。 しかし,従来の評価とOOD検出の本質的目的との相違が指摘されている。 一方,従来の評価では,ラベル空間分布シフトによるリスクを排他的に考慮し,入力空間分布シフトによるリスクを無視する。 一方、従来の評価報酬検出手法では、検証データセット内の誤分類画像を拒否しない。 しかし、誤分類された画像はリスクを引き起こし、拒否されるべきである。 我々は,人間中心の視点からood検出を再考し,深層モデルの予測が人間の期待と一致しない場合を適切な検出法で拒否し,深層モデルの予測が人間の期待を満たしている場合を採用することを提案する。 本稿では,人間中心の評価を行い,45の分類器と8つのテストデータセットについて広範な実験を行う。 近年のOOD検出手法は,従来のOOD検出手法と同等,さらに優れた性能を達成でき,近年のOOD検出手法の開発が過大評価されている可能性がある。 さらに,本実験は,OOD検出においてモデル選択が非自明であることを示し,提案手法の積分として考慮すべきであることを示す。

Out-Of-Distribution (OOD) detection has received broad attention over the years, aiming to ensure the reliability and safety of deep neural networks (DNNs) in real-world scenarios by rejecting incorrect predictions. However, we notice a discrepancy between the conventional evaluation vs. the essential purpose of OOD detection. On the one hand, the conventional evaluation exclusively considers risks caused by label-space distribution shifts while ignoring the risks from input-space distribution shifts. On the other hand, the conventional evaluation reward detection methods for not rejecting the misclassified image in the validation dataset. However, the misclassified image can also cause risks and should be rejected. We appeal to rethink OOD detection from a human-centric perspective, that a proper detection method should reject the case that the deep model's prediction mismatches the human expectations and adopt the case that the deep model's prediction meets the human expectations. We propose a human-centric evaluation and conduct extensive experiments on 45 classifiers and 8 test datasets. We find that the simple baseline OOD detection method can achieve comparable and even better performance than the recently proposed methods, which means that the development in OOD detection in the past years may be overestimated. Additionally, our experiments demonstrate that model selection is non-trivial for OOD detection and should be considered as an integral of the proposed method, which differs from the claim in existing works that proposed methods are universal across different models.
翻訳日:2022-12-01 17:07:10 公開日:2022-11-30
# モノクロ3次元物体検出のための3次元位置認識符号化による注意型深度蒸留

Attention-based Depth Distillation with 3D-Aware Positional Encoding for Monocular 3D Object Detection ( http://arxiv.org/abs/2211.16779v1 )

ライセンス: Link先を確認
Zizhang Wu, Yunzhe Wu, Jian Pu, Xianzhi Li and Xiaoquan Wang(参考訳) モノクロ3Dオブジェクト検出は、単一の画像入力からのみ正確な3Dローカライゼーションを生成する必要があるため、低コストで難しい作業である。 近年の奥行き支援手法では,単眼深度推定ネットワークによる事前計算や3次元物体検出による共同評価の中間的特徴として,明示的な奥行きマップを用いた有望な結果が得られる。 しかし、推定された深度事前からの避けられない誤りは、誤ったセマンティック情報と3Dの局所化をもたらし、特徴のスミアリングと準最適予測をもたらす可能性がある。 この問題を軽減するために,3次元位置対応符号化を用いた注意型深度知識蒸留フレームワークであるADDを提案する。 ステレオのLiDARベースの教師を取り入れた従来の知識蒸留フレームワークとは異なり、私たちは学生と同じアーキテクチャで教師を構築できる。 教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。 具体的には,中間的特徴と応答を知識蒸留に活用する。 長距離3D依存を考慮し,学生適応のための「emph{3D-aware self-attention」および「emph{target-aware cross-attention」モジュールを提案する。 KITTI 3Dオブジェクト検出ベンチマークにおけるフレームワークの有効性を検証するため,大規模な実験を行った。 提案手法は,3種類のモノクロ検出器に実装し,ベースラインモデルに対する計算コストを加算することなく,最先端の性能を実現する。 私たちのコードはhttps://github.com/rockywind/addで利用可能です。

Monocular 3D object detection is a low-cost but challenging task, as it requires generating accurate 3D localization solely from a single image input. Recent developed depth-assisted methods show promising results by using explicit depth maps as intermediate features, which are either precomputed by monocular depth estimation networks or jointly evaluated with 3D object detection. However, inevitable errors from estimated depth priors may lead to misaligned semantic information and 3D localization, hence resulting in feature smearing and suboptimal predictions. To mitigate this issue, we propose ADD, an Attention-based Depth knowledge Distillation framework with 3D-aware positional encoding. Unlike previous knowledge distillation frameworks that adopt stereo- or LiDAR-based teachers, we build up our teacher with identical architecture as the student but with extra ground-truth depth as input. Credit to our teacher design, our framework is seamless, domain-gap free, easily implementable, and is compatible with object-wise ground-truth depth. Specifically, we leverage intermediate features and responses for knowledge distillation. Considering long-range 3D dependencies, we propose \emph{3D-aware self-attention} and \emph{target-aware cross-attention} modules for student adaptation. Extensive experiments are performed to verify the effectiveness of our framework on the challenging KITTI 3D object detection benchmark. We implement our framework on three representative monocular detectors, and we achieve state-of-the-art performance with no additional inference computational cost relative to baseline models. Our code is available at https://github.com/rockywind/ADD.
翻訳日:2022-12-01 17:06:46 公開日:2022-11-30
# SafeSpace MFNet: 高精度かつ効率的な多機能ドローン検出ネットワーク

SafeSpace MFNet: Precise and Efficient MultiFeature Drone Detection Network ( http://arxiv.org/abs/2211.16785v1 )

ライセンス: Link先を確認
Mahnoor Dil, Misha Urooj Khan, Muhammad Zeshan Alam, Farooq Alam Orakazi, Zeeshan Kaleem, Chau Yuen(参考訳) 無人航空機(UAV)の人気が高まっており、交通監視、緊急通信、配達、監視などのサービスを可能にしている。 しかし、uav(ドローン)の無許可使用は、セキュリティに敏感な国家および国際機関のセキュリティおよびプライバシープロトコルに違反する可能性がある。 提示された課題は、厳しい気象条件、異なる物体の存在、SafeSpaceを有効にするための大きさに関わらず、高速で効率的で正確なUAVの検出を必要とする。 近年,最新のディープラーニングモデルの利用が著しく進歩しているが,計算複雑性,精度,非スケーリング性の面では欠点がある。 これらの制限を克服するために,SafeSpace 用の高精度かつ効率的なマルチスケール多機能 UAV 検出ネットワーク,すなわち YOLOv5s の改良版である \textit{MultiFeatureNet} (\textit{MFNet}) を提案する。 textit{mfnet}では、yolov5sネットワークのバックボーンとネックに複数の変更を加え、正確かつ高速なuav検出に必要な、小さく無視されたさまざまな機能に焦点を当てます。 特定の状況とマルチスケールのUAVの精度をさらに向上させるため、アーキテクチャの背骨と首部に存在する畳み込み層とボトルネックCSP層の様々な大きさのフィルタの組み合わせである、小(S), 中(M),大(L)に分類する。 この分類は、すべての特徴ではなく、特定の特徴マップ上でモデルをトレーニングすることで、計算コストを克服するのに役立つ。 データセットとコードは、github.com/ZeeshanKaleem/MultiFeatureNetというオープンソースとして提供されている。

Unmanned air vehicles (UAVs) popularity is on the rise as it enables the services like traffic monitoring, emergency communications, deliveries, and surveillance. However, the unauthorized usage of UAVs (a.k.a drone) may violate security and privacy protocols for security-sensitive national and international institutions. The presented challenges require fast, efficient, and precise detection of UAVs irrespective of harsh weather conditions, the presence of different objects, and their size to enable SafeSpace. Recently, there has been significant progress in using the latest deep learning models, but those models have shortcomings in terms of computational complexity, precision, and non-scalability. To overcome these limitations, we propose a precise and efficient multiscale and multifeature UAV detection network for SafeSpace, i.e., \textit{MultiFeatureNet} (\textit{MFNet}), an improved version of the popular object detection algorithm YOLOv5s. In \textit{MFNet}, we perform multiple changes in the backbone and neck of the YOLOv5s network to focus on the various small and ignored features required for accurate and fast UAV detection. To further improve the accuracy and focus on the specific situation and multiscale UAVs, we classify the \textit{MFNet} into small (S), medium (M), and large (L): these are the combinations of various size filters in the convolution and the bottleneckCSP layers, reside in the backbone and neck of the architecture. This classification helps to overcome the computational cost by training the model on a specific feature map rather than all the features. The dataset and code are available as an open source: github.com/ZeeshanKaleem/MultiFeatureNet.
翻訳日:2022-12-01 17:06:16 公開日:2022-11-30
# NOPE-SAC:スパークビュー平面3次元再構成のためのニューラルワンプレーンRANSAC

NOPE-SAC: Neural One-Plane RANSAC for Sparse-View Planar 3D Reconstruction ( http://arxiv.org/abs/2211.16799v1 )

ライセンス: Link先を確認
Bin Tan, Nan Xue, Tianfu Wu, Gui-Song Xia(参考訳) 本稿では,カメラポーズ推定のための入力画像対の対応が不十分な厳密なスパースビュー構成の2次元再構成について検討する。 本稿では、3次元平面対応から1面のポーズ仮説を学習する能力に優れたニューラルワンプレーンRANSACフレームワーク(略してNOPE-SAC)を提案する。 シアム面検出ネットワーク上に構築されたNOPE-SACは,まず,粗い初期ポーズを伴って配置面対応を生成する。 そして、学習した3次元対応パラメーターを共有mlpに供給して、1面カメラのポーズを推定し、最終的にカメラのポーズを得るためにランサック方式で緩和する。 ニューラルワンプレーンポーズは、適応的なポーズ仮説生成のための平面対応の数を最小化するため、スパースビュー入力のための少数の平面対応において安定したポーズ投票と信頼性の高いポーズ改善を可能にする。 実験の結果,NOPE-SACは2視点入力のカメラポーズ推定を大幅に改善し,2つの挑戦的ベンチマーク(MatterPort3DとScanNet)に新たな最先端性能を設定した。 ソースコードは再現可能な研究のためにhttps://github.com/IceTTTb/NopeSACで公開されている。

This paper studies the challenging two-view 3D reconstruction in a rigorous sparse-view configuration, which is suffering from insufficient correspondences in the input image pairs for camera pose estimation. We present a novel Neural One-PlanE RANSAC framework (termed NOPE-SAC in short) that exerts excellent capability to learn one-plane pose hypotheses from 3D plane correspondences. Building on the top of a siamese plane detection network, our NOPE-SAC first generates putative plane correspondences with a coarse initial pose. It then feeds the learned 3D plane parameters of correspondences into shared MLPs to estimate the one-plane camera pose hypotheses, which are subsequently reweighed in a RANSAC manner to obtain the final camera pose. Because the neural one-plane pose minimizes the number of plane correspondences for adaptive pose hypotheses generation, it enables stable pose voting and reliable pose refinement in a few plane correspondences for the sparse-view inputs. In the experiments, we demonstrate that our NOPE-SAC significantly improves the camera pose estimation for the two-view inputs with severe viewpoint changes, setting several new state-of-the-art performances on two challenging benchmarks, i.e., MatterPort3D and ScanNet, for sparse-view 3D reconstruction. The source code is released at https://github.com/IceTTTb/NopeSAC for reproducible research.
翻訳日:2022-12-01 17:05:48 公開日:2022-11-30
# 単眼映像からのハンドヘルド物体の再構成

Reconstructing Hand-Held Objects from Monocular Video ( http://arxiv.org/abs/2211.16835v1 )

ライセンス: Link先を確認
Di Huang, Xiaopeng Ji, Xingyi He, Jiaming Sun, Tong He, Qing Shuai, Wanli Ouyang, Xiaowei Zhou(参考訳) 本稿では,モノクロ映像から手持ち物体を再構成する手法を提案する。 トレーニングされたネットワークによってオブジェクトの形状を直接予測する最近の多くの手法とは対照的に、提案手法ではオブジェクトについて学習した事前の知識は必要とせず、より正確で詳細なオブジェクトの形状を復元することができる。 キーとなるアイデアは、手の動きは自然にオブジェクトの複数のビューを提供し、その動きはハンドポーズトラッカーによって確実に推定できるということである。 そして、多視点再構成問題を解くことにより、オブジェクト形状を復元することができる。 そこで我々は,再建問題の解決と,不正確な手ポーズ推定,相対的手対象運動,小物体の幾何最適化の課題に対処する暗黙的表現に基づく手法を考案した。 また,提案手法の有効性を検証するために,新たに収集した3次元基底真理データも提供する。

This paper presents an approach that reconstructs a hand-held object from a monocular video. In contrast to many recent methods that directly predict object geometry by a trained network, the proposed approach does not require any learned prior about the object and is able to recover more accurate and detailed object geometry. The key idea is that the hand motion naturally provides multiple views of the object and the motion can be reliably estimated by a hand pose tracker. Then, the object geometry can be recovered by solving a multi-view reconstruction problem. We devise an implicit neural representation-based method to solve the reconstruction problem and address the issues of imprecise hand pose estimation, relative hand-object motion, and insufficient geometry optimization for small objects. We also provide a newly collected dataset with 3D ground truth to validate the proposed approach.
翻訳日:2022-12-01 17:05:24 公開日:2022-11-30
# 非監督的人物再同定のための近隣の一貫性誘導擬似ラベル留置法

Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2211.16847v1 )

ライセンス: Link先を確認
De Cheng, Haichun Tai, Nannan Wang, Zhen Wang, Xinbo Gao(参考訳) unsupervised person re-identification (reid) は、アノテーションなしで個人検索のための識別的アイデンティティ機能を学ぶことを目的としている。 近年の進歩はクラスタリングに基づく擬似ラベルを活用することで達成されているが、これらの擬似ラベルは必然的にノイズがあり、モデル性能が低下している。 本稿では,各例の予測は隣接近傍の予測と類似するべきという仮定の下で,ラベル伝播の変換形式と見なすことができる,近傍一貫性を導いた擬似ラベル改良(ncplr)フレームワークを提案する。 具体的には、各トレーニングインスタンスの洗練されたラベルは、元のクラスタリング結果と隣人の予測の重み付けアンサンブルによって得られ、特徴空間の類似性に応じて重み付けが決定される。 さらに,クラスタリングに基づく教師なしreidをラベル・ノイズ学習問題として捉えた。 そこで我々は,トレーニング安定性を改善しつつ,過度適合に対するモデル感受性を低減するために,明示的な近接整合正則化を提案した。 NCPLR法は単純だが有効であり、既存のクラスタリングベースの教師なしアルゴリズムにシームレスに統合できる。 5つのReIDデータセットの大規模な実験結果は,提案手法の有効性を示し,最先端手法よりも高い性能を示す。

Unsupervised person re-identification (ReID) aims at learning discriminative identity features for person retrieval without any annotations. Recent advances accomplish this task by leveraging clustering-based pseudo labels, but these pseudo labels are inevitably noisy which deteriorate model performance. In this paper, we propose a Neighbour Consistency guided Pseudo Label Refinement (NCPLR) framework, which can be regarded as a transductive form of label propagation under the assumption that the prediction of each example should be similar to its nearest neighbours'. Specifically, the refined label for each training instance can be obtained by the original clustering result and a weighted ensemble of its neighbours' predictions, with weights determined according to their similarities in the feature space. In addition, we consider the clustering-based unsupervised person ReID as a label-noise learning problem. Then, we proposed an explicit neighbour consistency regularization to reduce model susceptibility to over-fitting while improving the training stability. The NCPLR method is simple yet effective, and can be seamlessly integrated into existing clustering-based unsupervised algorithms. Extensive experimental results on five ReID datasets demonstrate the effectiveness of the proposed method, and showing superior performance to state-of-the-art methods by a large margin.
翻訳日:2022-12-01 17:05:09 公開日:2022-11-30
# 多元マッチングによる資源共有

Resource Sharing Through Multi-Round Matchings ( http://arxiv.org/abs/2211.17199v1 )

ライセンス: Link先を確認
Yohai Trabelsi, Abhijin Adiga, Sarit Kraus, S.S. Ravi, Daniel J. Rosenkrantz(参考訳) ワークウィークでオフィススペースを共有する従業員のようなアプリケーションは、エージェントが複数のラウンドでリソースにマッチする問題としてモデル化できる。 エージェントの要件は、互換性のあるリソースのセットと、それらがマッチしたいラウンドを制限する。 このようなアプリケーションをエージェントとリソースの2部間互換性グラフ上でマルチラウンドマッチング問題と見なすと、解(つまり、ラウンド毎に1つのマッチングを持つマッチングの集合)が存在すれば効率的に見つかることが分かる。 解が存在しない状況に対処するため、2つの拡張を考える。 最初の拡張では、各エージェントに対して利益関数を定義し、目的は全利益を最大化するマルチラウンドマッチングを見つけることである。 特定の性質を満たす一般の利得関数(リターンの減少を含む)に対して、このマルチラウンドマッチング問題は効率的に解けることを示す。 このクラスには功利主義とラウルシズムの福祉機能が含まれる。 別の利益関数に対して、最大化問題はNPハードであることを示す。 第2の拡張では、各エージェント(つまり、緩和すべき要件のサブセット)に対して、エージェントが一致できるように予算制約の対象となるアドバイスを生成することが目的である。 この予算制約付きアドバイス生成問題はnp困難であることを示す。 そこで本研究では,局所探索に基づくヒューリスティックだけでなく,整数線形プログラミングの定式化も行う。 合成ネットワーク上のアルゴリズムを実験的に評価し,共有オフィス空間とマッチングコースの2つの実環境に適用した。

Applications such as employees sharing office spaces over a workweek can be modeled as problems where agents are matched to resources over multiple rounds. Agents' requirements limit the set of compatible resources and the rounds in which they want to be matched. Viewing such an application as a multi-round matching problem on a bipartite compatibility graph between agents and resources, we show that a solution (i.e., a set of matchings, with one matching per round) can be found efficiently if one exists. To cope with situations where a solution does not exist, we consider two extensions. In the first extension, a benefit function is defined for each agent and the objective is to find a multi-round matching to maximize the total benefit. For a general class of benefit functions satisfying certain properties (including diminishing returns), we show that this multi-round matching problem is efficiently solvable. This class includes utilitarian and Rawlsian welfare functions. For another benefit function, we show that the maximization problem is NP-hard. In the second extension, the objective is to generate advice to each agent (i.e., a subset of requirements to be relaxed) subject to a budget constraint so that the agent can be matched. We show that this budget-constrained advice generation problem is NP-hard. For this problem, we develop an integer linear programming formulation as well as a heuristic based on local search. We experimentally evaluate our algorithms on synthetic networks and apply them to two real-world situations: shared office spaces and matching courses to classrooms.
翻訳日:2022-12-01 16:58:49 公開日:2022-11-30
# 非決定論的近似固定点理論とその分離論理プログラミングへの応用

Non-Deterministic Approximation Fixpoint Theory and Its Application in Disjunctive Logic Programming ( http://arxiv.org/abs/2211.17262v1 )

ライセンス: Link先を確認
Jesse Heyninck and Ofer Arieli and Bart Bogaerts(参考訳) 近似不動点理論(英: Approximation Fixpoint theory、AFT)は、非単調論理のセマンティクスを研究するための抽象的で一般的な代数的フレームワークである。 これは論理プログラミング、デフォルト論理、自己認識論理のような非単調推論のための異なる形式主義の意味論を統一的に研究する。 本稿では,不確定な情報を扱うことを可能にする非決定論的構成物を扱うためにftを拡張した。 これは AFT の主構成とそれに対応する結果を、単元ではなく要素の集合である非決定論的作用素に一般化することで達成される。 この一般化の適用性と有用性は、分離論理プログラミングの文脈で示される。

Approximation fixpoint theory (AFT) is an abstract and general algebraic framework for studying the semantics of nonmonotonic logics. It provides a unifying study of the semantics of different formalisms for nonmonotonic reasoning, such as logic programming, default logic and autoepistemic logic. In this paper, we extend AFT to dealing with non-deterministic constructs that allow to handle indefinite information, represented e.g. by disjunctive formulas. This is done by generalizing the main constructions and corresponding results of AFT to non-deterministic operators, whose ranges are sets of elements rather than single elements. The applicability and usefulness of this generalization is illustrated in the context of disjunctive logic programming.
翻訳日:2022-12-01 16:58:29 公開日:2022-11-30
# 生成変換器を用いた反復シーングラフ生成

Iterative Scene Graph Generation with Generative Transformers ( http://arxiv.org/abs/2211.16636v1 )

ライセンス: Link先を確認
Sanjoy Kundu and Sathyanarayanan N. Aakur(参考訳) シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。 この表現は質問応答、キャプション、さらにはオブジェクト検出などいくつかのタスクで有用であることが証明されている。 現在のアプローチでは、シーン内のオブジェクト間のすべてのエッジをラベル付けすることで、シーングラフが生成される世代毎のアプローチを採用している。 本稿では,リンク予測を超えたシーングラフ生成のための生成的トランスフォーマティブ手法を提案する。 まず, 検出した物体と視覚的特徴から, 可能なシーングラフ構造をサンプリングする。 次に、サンプルエッジ上で述語分類を行い、最終シーングラフを生成する。 このアプローチにより、最小の推論オーバーヘッドで画像からシーングラフを効率的に生成できる。 視覚ゲノムデータセットに関する広範な実験により,提案手法の有効性が示された。 平均20.7%の平均リコール(mR@100)は,シーングラフ生成(SGG)や最先端のSGGアプローチよりも優れ,バイアスのないSGGアプローチに対して競争性能を提供する。

Scene graphs provide a rich, structured representation of a scene by encoding the entities (objects) and their spatial relationships in a graphical format. This representation has proven useful in several tasks, such as question answering, captioning, and even object detection, to name a few. Current approaches take a generation-by-classification approach where the scene graph is generated through labeling of all possible edges between objects in a scene, which adds computational overhead to the approach. This work introduces a generative transformer-based approach to generating scene graphs beyond link prediction. Using two transformer-based components, we first sample a possible scene graph structure from detected objects and their visual features. We then perform predicate classification on the sampled edges to generate the final scene graph. This approach allows us to efficiently generate scene graphs from images with minimal inference overhead. Extensive experiments on the Visual Genome dataset demonstrate the efficiency of the proposed approach. Without bells and whistles, we obtain, on average, 20.7% mean recall (mR@100) across different settings for scene graph generation (SGG), outperforming state-of-the-art SGG approaches while offering competitive performance to unbiased SGG approaches.
翻訳日:2022-12-01 16:57:39 公開日:2022-11-30
# Geoclidean:ユークリッド幾何学におけるFew-Shot Generalization

Geoclidean: Few-Shot Generalization in Euclidean Geometry ( http://arxiv.org/abs/2211.16663v1 )

ライセンス: Link先を確認
Joy Hsu, Jiajun Wu, Noah D. Goodman(参考訳) ユークリッド幾何学は数学的思考の最も初期の形態の一つである。 完全な線や円のような構造の基礎となる幾何学的原始は、自然界ではしばしば起こらないが、人間が知覚と推論に苦しむことは滅多にない。 自然画像で訓練されたコンピュータビジョンモデルはユークリッド幾何学に同じ感度を示すだろうか? ここでは、ユークリッド幾何構成の宇宙における数ショットの一般化を研究することでこれらの問題を探求する。 ユークリッド幾何学のためのドメイン固有言語であるGeoclideanを導入し、人間と機械の一般化判断をベンチマークするための幾何学的概念学習タスクの2つのデータセットを生成する。 人間はユークリッド幾何学に敏感であり、幾何概念の視覚的な例から強く一般化している。 対照的に、自然画像に事前訓練された標準コンピュータビジョンモデルからの低レベルかつ高レベルな視覚特徴は、正しい一般化をサポートしない。 このように、Geoclideanは幾何学的概念学習のための新しい数ショットの一般化ベンチマークであり、人間とAIモデルのパフォーマンスが多様化している。 Geoclideanフレームワークとデータセットは、ダウンロード可能である。

Euclidean geometry is among the earliest forms of mathematical thinking. While the geometric primitives underlying its constructions, such as perfect lines and circles, do not often occur in the natural world, humans rarely struggle to perceive and reason with them. Will computer vision models trained on natural images show the same sensitivity to Euclidean geometry? Here we explore these questions by studying few-shot generalization in the universe of Euclidean geometry constructions. We introduce Geoclidean, a domain-specific language for Euclidean geometry, and use it to generate two datasets of geometric concept learning tasks for benchmarking generalization judgements of humans and machines. We find that humans are indeed sensitive to Euclidean geometry and generalize strongly from a few visual examples of a geometric concept. In contrast, low-level and high-level visual features from standard computer vision models pretrained on natural images do not support correct generalization. Thus Geoclidean represents a novel few-shot generalization benchmark for geometric concept learning, where the performance of humans and of AI models diverge. The Geoclidean framework and dataset are publicly available for download.
翻訳日:2022-12-01 16:57:17 公開日:2022-11-30
# ShaDocNet: ドキュメントシャドウ除去のためのトランスフォーマーにおける空間認識トークンの学習

ShaDocNet: Learning Spatial-Aware Tokens in Transformer for Document Shadow Removal ( http://arxiv.org/abs/2211.16675v1 )

ライセンス: Link先を確認
Xuhang Chen, Xiaodong Cun, Chi-Man Pun, Shuqiang Wang(参考訳) シャドウ除去は、文書のデジタルコピーの視覚的品質と可視性を改善する。 しかし、文書シャドーの削除は未解決のままである。 伝統的な手法は状況によって異なるヒューリスティックに依存する。 現在の公開データセットの品質と量を考えると、ほとんどのニューラルネットワークモデルは、このタスクに不適当である。 本稿では,シャドウ領域とシャドウ領域の両方でシャドウコンテキストエンコーディングとデコードを利用する,ドキュメントシャドウ除去のためのトランスフォーマモデルを提案する。 さらに、粗大なプロセス全体に含まれる影検出と画素レベルの強調も含んでいる。 包括的なベンチマーク評価に基づいて、最先端の手法と競合する。

Shadow removal improves the visual quality and legibility of digital copies of documents. However, document shadow removal remains an unresolved subject. Traditional techniques rely on heuristics that vary from situation to situation. Given the quality and quantity of current public datasets, the majority of neural network models are ill-equipped for this task. In this paper, we propose a Transformer-based model for document shadow removal that utilizes shadow context encoding and decoding in both shadow and shadow-free regions. Additionally, shadow detection and pixel-level enhancement are included in the whole coarse-to-fine process. On the basis of comprehensive benchmark evaluations, it is competitive with state-of-the-art methods.
翻訳日:2022-12-01 16:56:59 公開日:2022-11-30
# 半教師付き意味セグメンテーションのための保守的プログレッシブ協調学習

Conservative-Progressive Collaborative Learning for Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2211.16701v1 )

ライセンス: Link先を確認
Siqi Fan, Fenghua Zhu, Zunlei Feng, Yisheng Lv, Mingli Song, Fei-Yue Wang(参考訳) 疑似監督は意味セグメンテーションのための半教師付き学習の核となる概念と考えられており、高品質の疑似ラベルのみを活用することと、すべての疑似ラベルを活用するというトレードオフは常に存在する。 そこで本研究では,2つの予測ネットワークを並列に学習し,この2つの予測の一致と不一致の両方に基づいて疑似監督を行う,保守的プログレッシブ協調学習(cpcl)と呼ばれる新しい学習手法を提案する。 1つのネットワークは交差点の監督を通じて共通の基盤を求め、より信頼できる監督を確保するために高品質のラベルによって監督され、もう1つのネットワークは組合の監督によって違いを保ち、好奇心を持って探索を続けるために全ての疑似ラベルによって監督される。 したがって、保守的進化と進歩的探索の協力は達成できる。 疑わしい疑似ラベルの影響を低減するため、予測信頼度に応じて損失を動的に再重み付けする。 CPCLは半教師付きセマンティックセグメンテーションの最先端性能を実現する。

Pseudo supervision is regarded as the core idea in semi-supervised learning for semantic segmentation, and there is always a tradeoff between utilizing only the high-quality pseudo labels and leveraging all the pseudo labels. Addressing that, we propose a novel learning approach, called Conservative-Progressive Collaborative Learning (CPCL), among which two predictive networks are trained in parallel, and the pseudo supervision is implemented based on both the agreement and disagreement of the two predictions. One network seeks common ground via intersection supervision and is supervised by the high-quality labels to ensure a more reliable supervision, while the other network reserves differences via union supervision and is supervised by all the pseudo labels to keep exploring with curiosity. Thus, the collaboration of conservative evolution and progressive exploration can be achieved. To reduce the influences of the suspicious pseudo labels, the loss is dynamic re-weighted according to the prediction confidence. Extensive experiments demonstrate that CPCL achieves state-of-the-art performance for semi-supervised semantic segmentation.
翻訳日:2022-12-01 16:56:52 公開日:2022-11-30
# Claret - 光コヒーレンストモグラフィーのためのCNNアーキテクチャ

ClaRet -- A CNN Architecture for Optical Coherence Tomography ( http://arxiv.org/abs/2211.16746v1 )

ライセンス: Link先を確認
Adit Magotra, Aagat Gedam, Tanush Savadi, Emily Li(参考訳) 光コヒーレンス断層撮影(optical coherence tomography)は、眼の網膜をスキャンして涙を確認する技術である。 本稿では,octスキャン分類のための畳み込みニューラルネットワークアーキテクチャを開発した。 このモデルは、octスキャンから網膜の涙を検出し、涙の種類を分類するように訓練されている。 特徴抽出のためのカスタマイズされたレイヤをブロックに書き込むことによる転送学習を用いて,事前学習されたvgg-19に付随するブロックベースアプローチを考案した。 このアプローチは、最初に始めたベースラインよりもはるかに優れた結果を得たのです。

Optical Coherence Tomography is a technique used to scan the Retina of the eye and check for tears. In this paper, we develop a Convolutional Neural Network Architecture for OCT scan classification. The model is trained to detect Retinal tears from an OCT scan and classify the type of tear. We designed a block-based approach to accompany a pre-trained VGG-19 using Transfer Learning by writing customised layers in blocks for better feature extraction. The approach achieved substantially better results than the baseline we initially started out with.
翻訳日:2022-12-01 16:56:32 公開日:2022-11-30
# Split-PU: ポジティブな学習のためのハーネスアウェアトレーニング戦略

Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled Learning ( http://arxiv.org/abs/2211.16756v1 )

ライセンス: Link先を確認
Chengming Xu, Chen Liu, Siqian Yang, Yabiao Wang, Shijie Zhang, Lijie Jia, Yanwei Fu(参考訳) Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。 古典的なバイナリ分類と比較すると、不完全なデータインスタンスが多く存在するため、pu学習のタスクはずっと難しい。 最も確実な正のサンプルの一部のみが利用可能であり、残りのサンプルを分類するには証拠が不十分であるため、これらのラベルのないデータも正のサンプルである可能性がある。 このトピックの研究は特に有用であり、非常に高価なラベリングコストを必要とする現実世界の多くのタスクに不可欠である。 例えば、疾患診断、レコメンデーションシステム、衛星画像認識における認識タスクは、専門家が注釈を付けることができるポジティブなサンプルしか持たない。 これらの方法では, 未ラベルデータの本質的な硬さを省略し, ノイズの多いデータに適合し, ハードデータを十分に利用しないため, 最適以下の性能が得られる。 本稿では,新しいトレーニングパイプラインを用いて,広く使用されているnnpuの改善に着目する。 我々は,データセット中のサンプルの硬さの本質的な違いと,容易で硬いデータに対する適切な学習戦略を強調した。 この事実を考慮して,まずラベルなしデータセットを早期停止戦略で分割する。 仮モデルと基本モデルの間に矛盾した予測を持つサンプルは、硬いサンプルと見なされる。 次に, ノイズ耐性のJensen-Shannon分散損失と, 低レベル特徴に対する学生モデルとベースモデルとの相互整合性, 高レベル特徴と予測のための自己整合性を含むハードデータの二重ソース整合正規化を利用する。

Positive-Unlabeled (PU) learning aims to learn a model with rare positive samples and abundant unlabeled samples. Compared with classical binary classification, the task of PU learning is much more challenging due to the existence of many incompletely-annotated data instances. Since only part of the most confident positive samples are available and evidence is not enough to categorize the rest samples, many of these unlabeled data may also be the positive samples. Research on this topic is particularly useful and essential to many real-world tasks which demand very expensive labelling cost. For example, the recognition tasks in disease diagnosis, recommendation system and satellite image recognition may only have few positive samples that can be annotated by the experts. These methods mainly omit the intrinsic hardness of some unlabeled data, which can result in sub-optimal performance as a consequence of fitting the easy noisy data and not sufficiently utilizing the hard data. In this paper, we focus on improving the commonly-used nnPU with a novel training pipeline. We highlight the intrinsic difference of hardness of samples in the dataset and the proper learning strategies for easy and hard data. By considering this fact, we propose first splitting the unlabeled dataset with an early-stop strategy. The samples that have inconsistent predictions between the temporary and base model are considered as hard samples. Then the model utilizes a noise-tolerant Jensen-Shannon divergence loss for easy data; and a dual-source consistency regularization for hard data which includes a cross-consistency between student and base model for low-level features and self-consistency for high-level features and predictions, respectively.
翻訳日:2022-12-01 16:56:22 公開日:2022-11-30
# Camelira: アラビア語の多次元形態的曖昧さ

Camelira: An Arabic Multi-Dialect Morphological Disambiguator ( http://arxiv.org/abs/2211.16807v1 )

ライセンス: Link先を確認
Ossama Obeid, Go Inoue, Nizar Habash(参考訳) 現代標準アラビア語、エジプト語、メキシコ湾、レバンティンの4つの主要な変種をカバーする、webベースのアラビア語のマルチダイアレクト形態素曖昧化ツールであるcamliraについて紹介する。 Cameliraは、研究者や言語学習者が音声の一部、形態的特徴、レムマなど様々な言語情報を探索できる、ユーザフレンドリーなWebインターフェースを提供する。 本システムでは,方言識別成分の予測に基づいて,適切な方言固有の曖昧さを自動選択するオプションも提供する。 Cameliraはhttp://camelira.camel-lab.comで公開されている。

We present Camelira, a web-based Arabic multi-dialect morphological disambiguation tool that covers four major variants of Arabic: Modern Standard Arabic, Egyptian, Gulf, and Levantine. Camelira offers a user-friendly web interface that allows researchers and language learners to explore various linguistic information, such as part-of-speech, morphological features, and lemmas. Our system also provides an option to automatically choose an appropriate dialect-specific disambiguator based on the prediction of a dialect identification component. Camelira is publicly accessible at http://camelira.camel-lab.com.
翻訳日:2022-12-01 16:50:51 公開日:2022-11-30
# 確率論的論理に基づく多元的推論と変数同型推論のためのコモンセンス表現フレームワーク

A Probabilistic-Logic based Commonsense Representation Framework for Modelling Inferences with Multiple Antecedents and Varying Likelihoods ( http://arxiv.org/abs/2211.16822v1 )

ライセンス: Link先を確認
Shantanu Jaiswal, Liu Yan, Dongkyu Choi, Kenneth Kwok(参考訳) コモンセンス・ナレッジグラフ(英: Commonsense knowledge-graphs、CKG)は、テキストや環境の入力に基づいて推論を行う機械を構築するための重要なリソースである。 現在のCKGは世界知識を多数の概念にエンコードし、ニューラルモデルにコモンセンスを組み込むために効果的に活用されているが、主に宣言的または単一条件推論の知識をエンコードし、すべての概念的信念が同じ可能性を持つと仮定している。 さらに、これらのCKGは概念間で共有される限定的な関係を利用し、一貫性のある知識構造が欠如し、冗長性やより大きな知識グラフ間の疎性をもたらす。 したがって、今日のCKGは第一段階の推論に有用であるが、よりニュアンスが高く、複数の状況要因や状況要因の影響を受けやすい、より深い人間レベルのコモンセンス推論を適切に捉えていない。 そこで本研究では,常識知識を--で表現する方法について検討する。 (i)確率論的論理表現スキームを利用して複合的推論知識をモデル化し、様々な可能性で概念的信念を表現する。 二 階層的な概念オントロジーを取り入れて、健全な概念関連関係を特定し、異なる概念レベルで信念を組織化する。 得られた知識表現フレームワークは、幅広い世界知識をエンコードし、基礎概念や自由文句を用いて柔軟に信念を表現することができる。 結果として、このフレームワークは、従来のフリーテキストの知識グラフと、神経シンボリックなアプリケーションに適した基底論理に基づく推論システムの両方として利用できる。 我々は、クラウドソーシングとエキスパートアノテーションを通じて、PrimeNetの知識ベースを我々のフレームワークにどのように拡張するかを説明し、より解釈可能なパスベースの意味解析と質問応答への応用を実証する。

Commonsense knowledge-graphs (CKGs) are important resources towards building machines that can 'reason' on text or environmental inputs and make inferences beyond perception. While current CKGs encode world knowledge for a large number of concepts and have been effectively utilized for incorporating commonsense in neural models, they primarily encode declarative or single-condition inferential knowledge and assume all conceptual beliefs to have the same likelihood. Further, these CKGs utilize a limited set of relations shared across concepts and lack a coherent knowledge organization structure resulting in redundancies as well as sparsity across the larger knowledge graph. Consequently, today's CKGs, while useful for a first level of reasoning, do not adequately capture deeper human-level commonsense inferences which can be more nuanced and influenced by multiple contextual or situational factors. Accordingly, in this work, we study how commonsense knowledge can be better represented by -- (i) utilizing a probabilistic logic representation scheme to model composite inferential knowledge and represent conceptual beliefs with varying likelihoods, and (ii) incorporating a hierarchical conceptual ontology to identify salient concept-relevant relations and organize beliefs at different conceptual levels. Our resulting knowledge representation framework can encode a wider variety of world knowledge and represent beliefs flexibly using grounded concepts as well as free-text phrases. As a result, the framework can be utilized as both a traditional free-text knowledge graph and a grounded logic-based inference system more suitable for neuro-symbolic applications. We describe how we extend the PrimeNet knowledge base with our framework through crowd-sourcing and expert-annotation, and demonstrate its application for more interpretable passage-based semantic parsing and question answering.
翻訳日:2022-12-01 16:50:38 公開日:2022-11-30
# NLIに基づく要約の事実性スコアリングのためのテキスト分解法の再検討

Revisiting text decomposition methods for NLI-based factuality scoring of summaries ( http://arxiv.org/abs/2211.16853v1 )

ライセンス: Link先を確認
John Glover, Federico Fancellu, Vasudevan Jagannathan, Matthew R. Gormley, Thomas Schaaf(参考訳) 生成された要約の事実性を表わすには、入力文書を支援として使用する事実情報を含む対象テキストの程度を測定する。 問題定式化の類似性から、従来の研究は、自然言語推論モデルがこのタスクを実行するために効果的に再利用できることを示してきた。 これらのモデルが文レベルで含意をスコア付けするように訓練されているため、最近のいくつかの研究で、入力文書または要約を文に分解することが事実性スコア付けに役立つことが示されている。 しかし、きめ細かい分解は常に勝利戦略なのか? 本稿では,文書からサブ文レベルまで,分解の粒度を体系的に比較し,その答えがNoであることを示す。 以上の結果から,追加コンテキストを組み込むことで改善が期待できるが,すべてのデータセットに適用できるとは限らない。 また,提案手法の細かな変更により性能が向上し,下流タスクのモデル選択や方法論選択への注意が必要であることも示している。

Scoring the factuality of a generated summary involves measuring the degree to which a target text contains factual information using the input document as support. Given the similarities in the problem formulation, previous work has shown that Natural Language Inference models can be effectively repurposed to perform this task. As these models are trained to score entailment at a sentence level, several recent studies have shown that decomposing either the input document or the summary into sentences helps with factuality scoring. But is fine-grained decomposition always a winning strategy? In this paper we systematically compare different granularities of decomposition -- from document to sub-sentence level, and we show that the answer is no. Our results show that incorporating additional context can yield improvement, but that this does not necessarily apply to all datasets. We also show that small changes to previously proposed entailment-based scoring methods can result in better performance, highlighting the need for caution in model and methodology selection for downstream tasks.
翻訳日:2022-12-01 16:50:04 公開日:2022-11-30
# NLP研究の大きな障害: タイムアロケーションについて話そう!

A Major Obstacle for NLP Research: Let's Talk about Time Allocation! ( http://arxiv.org/abs/2211.16858v1 )

ライセンス: Link先を確認
Katharina Kann, Shiran Dudy, Arya D. McCarthy(参考訳) 自然言語処理(NLP)の分野はここ数年で成長し、カンファレンスはますます大きくなり、大量の論文が出版され、最先端の研究がさまざまな顧客向け製品に実装されている。 しかし,本論文では,我々は以前よりも成功せず,そのポテンシャルを最大限に活用できない場所や方法について考察した。 具体的には,近年,NLP研究において時間割当が大きな障害となっていることを示す。 我々は,その否定的な結果とともに,複数の具体的な問題を概説し,その現状を改善するための対策を提案する。 我々は,この論文が,共通プラクティスがNLP研究にとって有益である(あるいはそうでない)議論の出発点になることを期待している。

The field of natural language processing (NLP) has grown over the last few years: conferences have become larger, we have published an incredible amount of papers, and state-of-the-art research has been implemented in a large variety of customer-facing products. However, this paper argues that we have been less successful than we should have been and reflects on where and how the field fails to tap its full potential. Specifically, we demonstrate that, in recent years, subpar time allocation has been a major obstacle for NLP research. We outline multiple concrete problems together with their negative consequences and, importantly, suggest remedies to improve the status quo. We hope that this paper will be a starting point for discussions around which common practices are -- or are not -- beneficial for NLP research.
翻訳日:2022-12-01 16:49:46 公開日:2022-11-30
# 非自己回帰機械翻訳における参照の再現

Rephrasing the Reference for Non-Autoregressive Machine Translation ( http://arxiv.org/abs/2211.16863v1 )

ライセンス: Link先を確認
Chenze Shao, Jinchao Zhang, Jie Zhou, Yang Feng(参考訳) 非自己回帰型ニューラルマシン翻訳(NAT)モデルは、ソース文の複数の翻訳が可能な多モード問題に悩まされるため、NAT出力が他の翻訳に近づくと、基準文がトレーニングに不適切になる可能性がある。 この問題に対して,NAT出力に従って参照文をリフレッシュすることで,NATのためのより良いトレーニングターゲットを提供するリフレッサーを導入する。 参照文ではなく、リフレサ出力に基づいてNATを訓練するので、リフレサ出力はNAT出力とうまく適合し、基準からあまり離れておらず、報酬関数として定量化でき、強化学習によって最適化される。 主要なWMTベンチマークとNATベースラインの実験は、我々のアプローチがNATの翻訳品質を継続的に改善していることを示している。 具体的には、我々の最良の変種は、推論において14.7倍の効率で自動回帰変換器に匹敵する性能を達成する。

Non-autoregressive neural machine translation (NAT) models suffer from the multi-modality problem that there may exist multiple possible translations of a source sentence, so the reference sentence may be inappropriate for the training when the NAT output is closer to other translations. In response to this problem, we introduce a rephraser to provide a better training target for NAT by rephrasing the reference sentence according to the NAT output. As we train NAT based on the rephraser output rather than the reference sentence, the rephraser output should fit well with the NAT output and not deviate too far from the reference, which can be quantified as reward functions and optimized by reinforcement learning. Experiments on major WMT benchmarks and NAT baselines show that our approach consistently improves the translation quality of NAT. Specifically, our best variant achieves comparable performance to the autoregressive Transformer, while being 14.7 times more efficient in inference.
翻訳日:2022-12-01 16:49:31 公開日:2022-11-30
# トランスフォーマーは短文分類器である:ベンチマークと実世界のデータセットにおける帰納的短文分類器の研究

Transformers are Short Text Classifiers: A Study of Inductive Short Text Classifiers on Benchmarks and Real-world Datasets ( http://arxiv.org/abs/2211.16878v1 )

ライセンス: Link先を確認
Fabian Karl and Ansgar Scherp(参考訳) 短いテキスト分類は自然言語処理において重要かつ困難な側面である。 このため、高度に専門化された短文分類器が多数存在する。 しかし、近年のショートテキスト研究では、伝統的なテキスト分類、特にトランスフォーマーの純粋使用のための最先端技術(sota)手法が未解明となっている。 本研究では,様々な短文分類器の性能と,従来のテキスト分類器の最高性能について検討する。 さらに、限られた特徴を持つベンチマークデータセットに過度に依存する問題に対処するために、2つの新しい実世界の短文データセットの効果について検討する。 本実験は,短いテキスト分類タスクにおいてトランスフォーマーがsoma精度を達成することをあいまいに証明し,特殊な短いテキスト技術が必要かどうかという疑問を提起する。

Short text classification is a crucial and challenging aspect of Natural Language Processing. For this reason, there are numerous highly specialized short text classifiers. However, in recent short text research, State of the Art (SOTA) methods for traditional text classification, particularly the pure use of Transformers, have been unexploited. In this work, we examine the performance of a variety of short text classifiers as well as the top performing traditional text classifier. We further investigate the effects on two new real-world short text datasets in an effort to address the issue of becoming overly dependent on benchmark datasets with a limited number of characteristics. Our experiments unambiguously demonstrate that Transformers achieve SOTA accuracy on short text classification tasks, raising the question of whether specialized short text techniques are necessary.
翻訳日:2022-12-01 16:49:14 公開日:2022-11-30
# X-PuDu at SemEval-2022 Task 6: Multilingual Learning for English and Arabic Sarcasm Detection

X-PuDu at SemEval-2022 Task 6: Multilingual Learning for English and Arabic Sarcasm Detection ( http://arxiv.org/abs/2211.16883v1 )

ライセンス: Link先を確認
Yaqian Han, Yekun Chai, Shuohuan Wang, Yu Sun, Hongyi Huang, Guanghao Chen, Yitong Xu, Yang Yang(参考訳) 人々の主観的発言から皮肉や言葉の皮肉を検出することは、社会的シナリオにおける彼らの意図した意味や実際の感情、立場を理解する上で重要である。 本稿では,SemEval-2022 Task 6, iSarcasmEval - Intended Sarcasm Detection in English and Arabicについて述べる。 ERNIE-M や DeBERTa のような事前訓練済みの言語モデルに対して,アラビア語 や 英語 のテキストから皮肉を認識するための多言語設定を施した。 本システムでは,第43タスク中2位,第32タスク中9位,第22タスク中5位,第22タスク中5位,第16タスク中1位,第13タスク中5位,第Cタスク中9位,英語とアラビア語で文対検出を行った。

Detecting sarcasm and verbal irony from people's subjective statements is crucial to understanding their intended meanings and real sentiments and positions in social scenarios. This paper describes the X-PuDu system that participated in SemEval-2022 Task 6, iSarcasmEval - Intended Sarcasm Detection in English and Arabic, which aims at detecting intended sarcasm in various settings of natural language understanding. Our solution finetunes pre-trained language models, such as ERNIE-M and DeBERTa, under the multilingual settings to recognize the irony from Arabic and English texts. Our system ranked second out of 43, and ninth out of 32 in Task A: one-sentence detection in English and Arabic; fifth out of 22 in Task B: binary multi-label classification in English; first out of 16, and fifth out of 13 in Task C: sentence-pair detection in English and Arabic.
翻訳日:2022-12-01 16:48:59 公開日:2022-11-30
# ロバスト診断に向けて : 新型コロナウイルス感染予防のための輪郭注意保護

Toward Robust Diagnosis: A Contour Attention Preserving Adversarial Defense for COVID-19 Detection ( http://arxiv.org/abs/2211.16806v1 )

ライセンス: Link先を確認
Kun Xiang, Xing Zhang, Jinwen She, Jinpeng Liu, Haohan Wang, Shiqi Deng, Shancheng Jiang(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中の医療システムに圧力をかける中、コンピュータ断層画像に基づくAI診断システムは早期診断のための持続可能なソリューションとなっている。 しかし、敵の摂動下でのモデルワイド脆弱性は、実際の状況においてその展開を妨げる。 複雑な医用テクスチャの特徴を生かした医用画像領域に、既存の対人訓練戦略を一般化することは困難である。 この課題を克服するため,肺腔エッジ抽出に基づく Contour Attention Preserving (CAP) 法を提案する。 輪郭先行特性をパラメータ正規化により注意層に注入し, ハイブリッド距離測定によるロバストな経験的リスクを最適化する。 次に,分布シフト下での対向ロバストネスの一般化能力を評価するために,新しいクロスネーションCTスキャンデータセットを導入する。 実験結果から,複数の対角防御および一般化タスクにおいて,提案手法が最先端の性能を達成することを示す。 コードとデータセットはhttps://github.com/quinn777/capで入手できる。

As the COVID-19 pandemic puts pressure on healthcare systems worldwide, the computed tomography image based AI diagnostic system has become a sustainable solution for early diagnosis. However, the model-wise vulnerability under adversarial perturbation hinders its deployment in practical situation. The existing adversarial training strategies are difficult to generalized into medical imaging field challenged by complex medical texture features. To overcome this challenge, we propose a Contour Attention Preserving (CAP) method based on lung cavity edge extraction. The contour prior features are injected to attention layer via a parameter regularization and we optimize the robust empirical risk with hybrid distance metric. We then introduce a new cross-nation CT scan dataset to evaluate the generalization capability of the adversarial robustness under distribution shift. Experimental results indicate that the proposed method achieves state-of-the-art performance in multiple adversarial defense and generalization tasks. The code and dataset are available at https://github.com/Quinn777/CAP.
翻訳日:2022-12-01 16:41:03 公開日:2022-11-30
# HECKTOR 2022におけるMLC: 機械学習を用いた頭頸部腫瘍解析におけるトレーニングデータの有効性と意義

MLC at HECKTOR 2022: The Effect and Importance of Training Data when Analyzing Cases of Head and Neck Tumors using Machine Learning ( http://arxiv.org/abs/2211.16834v1 )

ライセンス: Link先を確認
Vajira Thambawita, Andrea M. Stor{\aa}s, Steven A. Hicks, P{\aa}l Halvorsen, Michael A. Riegler(参考訳) 頭頸部癌は世界で5番目に多いがんであり,近年,予後の診断にポジトロン・エミッション・トモグラフィー(PET)とCT(CT)の画像解析が提案されている。 結果は有望に見えるが、結果のさらなる検証と改善にはさらなる研究が必要である。 本稿では,MICCAI 2022で行われたHECKTOR大挑戦の2022年版に対するチームLCによる取り組みについて述べる。 タスク1では,3次元セグメンテーションを用いた従来のソリューションとは対照的に,各スライスをスタンドアローン画像として解析して2次元モデルを用いて可能な限りシンプルに保つことが目的であった。 さらに、異なるモダリティが結果にどのように影響するかを理解することにも興味がありました。 1つはCTスキャンのみを用いて予測を行い、もう1つはCTスキャンとPETスキャンの組み合わせを用いて予測を行った。 第2タスクでは,再発のない生存を予測し,まず患者データのみを使用する方法と,画像モデルからのセグメンテーションとを組み合わせた方法の2つを提案した。 最初の2つのアプローチの予測には、ランダムフォレストを使った。 第3のアプローチでは,XGBoostを用いて患者データと画像データを組み合わせた。 低腎機能は癌の予後を悪化させる可能性がある。 そこで本研究では,患者の腎機能について検討し,その特徴を考察した。 全体としては、私たちの単純な手法は上位の提案と競合することができなかったが、それでも十分良いスコアを得た。 また、異なるモダリティの組み合わせがセグメンテーションや予測にどのように影響するか、興味深い洞察を得た。

Head and neck cancers are the fifth most common cancer worldwide, and recently, analysis of Positron Emission Tomography (PET) and Computed Tomography (CT) images has been proposed to identify patients with a prognosis. Even though the results look promising, more research is needed to further validate and improve the results. This paper presents the work done by team MLC for the 2022 version of the HECKTOR grand challenge held at MICCAI 2022. For Task 1, the automatic segmentation task, our approach was, in contrast to earlier solutions using 3D segmentation, to keep it as simple as possible using a 2D model, analyzing every slice as a standalone image. In addition, we were interested in understanding how different modalities influence the results. We proposed two approaches; one using only the CT scans to make predictions and another using a combination of the CT and PET scans. For Task 2, the prediction of recurrence-free survival, we first proposed two approaches, one where we only use patient data and one where we combined the patient data with segmentations from the image model. For the prediction of the first two approaches, we used Random Forest. In our third approach, we combined patient data and image data using XGBoost. Low kidney function might worsen cancer prognosis. In this approach, we therefore estimated the kidney function of the patients and included it as a feature. Overall, we conclude that our simple methods were not able to compete with the highest-ranking submissions, but we still obtained reasonably good scores. We also got interesting insights into how the combination of different modalities can influence the segmentation and predictions.
翻訳日:2022-12-01 16:40:47 公開日:2022-11-30
# BASiS: バッチアライメントされたスペクトル埋め込みスペース

BASiS: Batch Aligned Spectral Embedding Space ( http://arxiv.org/abs/2211.16960v1 )

ライセンス: Link先を確認
Or Streicher, Ido Cohen, Guy Gilboa(参考訳) グラフは非常に汎用的で多様な表現であり、ほぼあらゆるデータ処理問題に適している。 スペクトルグラフ理論は、ソリッド線形代数理論に支えられた強力なアルゴリズムを提供することが示されている。 したがって、スペクトルグラフ特性を持つディープネットワークビルディングブロックを設計するのに極めて有用である。 例えば、そのようなネットワークは特定のタスクに対して最適なグラフを設計したり、データの標準直交低次元埋め込みを得ることを可能にする。 この問題を解決する最近の試みはレイリー商型損失の最小化に基づいている。 固有値を直接学習する別のアプローチを提案する。 バッチ学習に適用される直接的なアプローチの深刻な問題は、異なるバッチ内の固有空間座標への特徴の一貫性のないマッピングである。 本稿では,このタスクをバッチを用いて学習する自由度を分析し,バッチ変化とグラフメトリック変化の両方で動作する安定したアライメント機構を提案する。 我々は,SOTAと比較して,NMI,ACC,グラスマン距離,直交性,分類精度の点で,学習したスペクトル埋め込みの方が優れていることを示す。 さらに、学習はより安定している。

Graph is a highly generic and diverse representation, suitable for almost any data processing problem. Spectral graph theory has been shown to provide powerful algorithms, backed by solid linear algebra theory. It thus can be extremely instrumental to design deep network building blocks with spectral graph characteristics. For instance, such a network allows the design of optimal graphs for certain tasks or obtaining a canonical orthogonal low-dimensional embedding of the data. Recent attempts to solve this problem were based on minimizing Rayleigh-quotient type losses. We propose a different approach of directly learning the eigensapce. A severe problem of the direct approach, applied in batch-learning, is the inconsistent mapping of features to eigenspace coordinates in different batches. We analyze the degrees of freedom of learning this task using batches and propose a stable alignment mechanism that can work both with batch changes and with graph-metric changes. We show that our learnt spectral embedding is better in terms of NMI, ACC, Grassman distance, orthogonality and classification accuracy, compared to SOTA. In addition, the learning is more stable.
翻訳日:2022-12-01 16:40:20 公開日:2022-11-30
# 騒音保護属性による公正ランク付け

Fair Ranking with Noisy Protected Attributes ( http://arxiv.org/abs/2211.17067v1 )

ライセンス: Link先を確認
Anay Mehrotra, Nisheeth K. Vishnoi(参考訳) グループフェアネス制約の対象を最大化するために与えられた項目群をランク付けすることを求める公正問題は、フェアネス、情報検索、機械学習文学において注目されている。 しかし、近年の研究では、アイテムの社会的に安定な(保護された)属性のエラーが、既存の公正なアルゴリズムの公正性保証を著しく損なう可能性があり、そのようなエラーの影響を緩和する問題を提起している。 商品の社会的特質がランダムかつ独立に摂動するモデルの下で、公平な問題を考察する。 本稿では,集団的公平性要件と社会的特性の摂動に関する確率的情報を組み合わせた公正な枠組みを提案する。 我々は,我々の枠組みで達成可能な公平性と実用性に関する証明可能な保証を提供し,これらの保証を著しく上回ることは情報理論上不可能であることを示す。 我々のフレームワークは、複数の非解離属性と、比例表現と等式を含む不等式制約の一般クラスに作用する。 経験的に、ベースラインと比較して、我々のアルゴリズムはより高い公正度でランクを出力し、ベースラインと比較して同等またはより良いフェアネスユーティリティトレードオフを持つ。

The fair-ranking problem, which asks to rank a given set of items to maximize utility subject to group fairness constraints, has received attention in the fairness, information retrieval, and machine learning literature. Recent works, however, observe that errors in socially-salient (including protected) attributes of items can significantly undermine fairness guarantees of existing fair-ranking algorithms and raise the problem of mitigating the effect of such errors. We study the fair-ranking problem under a model where socially-salient attributes of items are randomly and independently perturbed. We present a fair-ranking framework that incorporates group fairness requirements along with probabilistic information about perturbations in socially-salient attributes. We provide provable guarantees on the fairness and utility attainable by our framework and show that it is information-theoretically impossible to significantly beat these guarantees. Our framework works for multiple non-disjoint attributes and a general class of fairness constraints that includes proportional and equal representation. Empirically, we observe that, compared to baselines, our algorithm outputs rankings with higher fairness, and has a similar or better fairness-utility trade-off compared to baselines.
翻訳日:2022-12-01 16:40:04 公開日:2022-11-30
# 後悔・最適協調的非stastic multi-armed banditsについて

On Regret-optimal Cooperative Nonstochastic Multi-armed Bandits ( http://arxiv.org/abs/2211.17154v1 )

ライセンス: Link先を確認
Jialin Yi and Milan Vojnovic(参考訳) 我々は,遅延を伴う通信ネットワークを介して協調するエージェントによる,非確率的マルチエージェントマルチアームバンディット問題を考える。 すべてのエージェントに対する個人の後悔に対する限界は低い。 適切な正規化器と通信プロトコルを用いて、協調的マルチエージェント \emph{follow-the-regularized-leader} (FTRL) アルゴリズムは、通信グラフ内のエージェントの次数に対して腕の数が十分大きい場合に、下限の値に一致する個々の後悔上限を持つことを示す。 また、エッジ遅延パラメータによるスケーリングに関して、適切な正規化器を持つFTRLアルゴリズムが最適であることを示す。 提案手法が提案するアルゴリズムを上回った場合を数値実験で検証し,実例を示す。

We consider the nonstochastic multi-agent multi-armed bandit problem with agents collaborating via a communication network with delays. We show a lower bound for individual regret of all agents. We show that with suitable regularizers and communication protocols, a collaborative multi-agent \emph{follow-the-regularized-leader} (FTRL) algorithm has an individual regret upper bound that matches the lower bound up to a constant factor when the number of arms is large enough relative to degrees of agents in the communication graph. We also show that an FTRL algorithm with a suitable regularizer is regret optimal with respect to the scaling with the edge-delay parameter. We present numerical experiments validating our theoretical results and demonstrate cases when our algorithms outperform previously proposed algorithms.
翻訳日:2022-12-01 16:39:42 公開日:2022-11-30
# ドメインミスマッチは、言語間転送学習を妨げるとは限らない

Domain Mismatch Doesn't Always Prevent Cross-Lingual Transfer Learning ( http://arxiv.org/abs/2211.16671v1 )

ライセンス: Link先を確認
Daniel Edmiston, Phillip Keung, Noah A. Smith(参考訳) ラベル付き対象言語データや並列テキストのない言語間転送学習は、ゼロショットの言語間分類、質問応答、教師なし機械翻訳などにおいて驚くほど効果的である。 しかし、いくつかの最近の出版物はドメインミスマッチが言語間移動を妨げていると主張しており、その結果は、基礎となるモノリンガルコーパスが異なるドメイン(例えばウィキペディアのフランス語のテキストや国連の手続きからの英語のテキストなど)から来ている場合、unsupervised bilingual lexicon induction (UBLI) とunsupervised neural machine translation (UNMT) がうまく機能しないことを示している。 本研究では,単純な初期化法が言語間伝達におけるドメインミスマッチの影響の多くを克服できることを示す。 MUSE UBLI, UN Parallel UNMT, SemEval 2017 の言語間単語類似性タスクの3つのタスクに対して, 単語と文脈の埋め込みを事前訓練し, 初期化に使用する。 いずれの場合も、適切な初期化がドメインミスマッチによる損失の大部分を回復できることを示し、先行研究の結論に異議を唱える。

Cross-lingual transfer learning without labeled target language data or parallel text has been surprisingly effective in zero-shot cross-lingual classification, question answering, unsupervised machine translation, etc. However, some recent publications have claimed that domain mismatch prevents cross-lingual transfer, and their results show that unsupervised bilingual lexicon induction (UBLI) and unsupervised neural machine translation (UNMT) do not work well when the underlying monolingual corpora come from different domains (e.g., French text from Wikipedia but English text from UN proceedings). In this work, we show that a simple initialization regimen can overcome much of the effect of domain mismatch in cross-lingual transfer. We pre-train word and contextual embeddings on the concatenated domain-mismatched corpora, and use these as initializations for three tasks: MUSE UBLI, UN Parallel UNMT, and the SemEval 2017 cross-lingual word similarity task. In all cases, our results challenge the conclusions of prior work by showing that proper initialization can recover a large portion of the losses incurred by domain mismatch.
翻訳日:2022-12-01 16:39:27 公開日:2022-11-30
# WMT2022の翻訳提案における共有タスクの発見

Findings of the WMT 2022 Shared Task on Translation Suggestion ( http://arxiv.org/abs/2211.16717v1 )

ライセンス: Link先を確認
Zhen Yang, Fandong Meng, Yingxue Zhang, Ernan Li and Jie Zhou(参考訳) 本稿では,wmt共有タスク(ts)の第1版の結果について報告する。 このタスクは、機械翻訳(MT)によって生成された文書全体に対して、特定の単語やフレーズの代替手段を提供することを目的としている。 これは2つのサブタスク、すなわち、ナイーブな翻訳提案とヒント付き翻訳提案からなる。 主な違いは、いくつかのヒントがサブタスク2で提供されるため、モデルがより正確な提案を生成するのが容易である。 サブタスクでは、英語-ドイツ語と英語-中国語のペアのコーパスを提供する。 サブタスク2には、英語と中国語のコーパスのみが提供される。 サブタスク1の参加者5チームから92の申し込みと、サブタスク2の6つの申し込みを受け取りました。 各サブミッションのパフォーマンスを評価するために、自動メトリックbleuを使用しました。

We report the result of the first edition of the WMT shared task on Translation Suggestion (TS). The task aims to provide alternatives for specific words or phrases given the entire documents generated by machine translation (MT). It consists two sub-tasks, namely, the naive translation suggestion and translation suggestion with hints. The main difference is that some hints are provided in sub-task two, therefore, it is easier for the model to generate more accurate suggestions. For sub-task one, we provide the corpus for the language pairs English-German and English-Chinese. And only English-Chinese corpus is provided for the sub-task two. We received 92 submissions from 5 participating teams in sub-task one and 6 submissions for the sub-task 2, most of them covering all of the translation directions. We used the automatic metric BLEU for evaluating the performance of each submission.
翻訳日:2022-12-01 16:39:01 公開日:2022-11-30
# 弱教師付きコード生成のための明示的知識伝達

Explicit Knowledge Transfer for Weakly-Supervised Code Generation ( http://arxiv.org/abs/2211.16740v1 )

ライセンス: Link先を確認
Zhangir Azerbayev, Ansong Ni, Hailey Schoelkopf, Dragomir Radev(参考訳) 大規模言語モデル(LLM)は、数ショットの学習によって強力なコード生成能力を得ることができる。 対照的に、より小さなモデルで優れた性能を達成するためには、教師付き微調整が必要である。 このような微調整には多数のタスク固有のnlコードペアが必要である。 本稿では,弱教師付きデータを用いてllmのコード生成能力をより小さなモデルに転送することを試みる。 より具体的には、教師のLLMの少数ショット機能を用いてNL符号ペアを作成し、正しさと微調整を行う明示的知識伝達(EKT)を提案する。 gsm8kデータセットから数学用語問題に対するコードソリューションを生成するタスクについてektを評価した。 EKTは、専門家の反復による訓練よりも優れた性能を得るだけでなく、知識伝達の別の形態である知識蒸留よりも優れることがわかった。 GPT-Neo 1.3Bモデルでは、EKTをGPT-Jの教師でトレーニングし、GSM8kで12.4%のパス@100を達成する一方、知識蒸留でトレーニングした同じ学生と教師は3.7%のパス@100しか得られない。 また,EKTを用いた教師よりも生徒モデルの方が優れていることを示す。

Large language models (LLMs) can acquire strong code-generation capabilities through few-shot learning. In contrast, supervised fine-tuning is still needed for smaller models to achieve good performance. Such fine-tuning demands a large number of task-specific NL-code pairs, which are expensive to obtain. In this paper, we attempt to transfer the code generation ability of an LLM to a smaller model with the aid of weakly-supervised data. More specifically, we propose explicit knowledge transfer (EKT), which uses the few-shot capabilities of a teacher LLM to create NL-code pairs that we then filter for correctness and fine-tune the student on. We evaluate EKT on the task of generating code solutions to math word problems from the GSM8k dataset. We find that EKT not only yields better performance than training with expert iteration, but also outperforms knowledge distillation, another form of knowledge transfer. A GPT-Neo 1.3B model trained using EKT with a GPT-J teacher achieves a 12.4% pass@100 on GSM8k, while the same student and teacher trained with knowledge distillation yield only a 3.7% pass@100. We also show that it is possible for a student model to outperform the teacher using EKT.
翻訳日:2022-12-01 16:38:50 公開日:2022-11-30
# タスク指向対話のための強化言語モデリング

Reinforced Language Modeling for End-to-End Task Oriented Dialog ( http://arxiv.org/abs/2211.16773v1 )

ライセンス: Link先を確認
Xiao Yu, Qingyang Wu, Kun Qian, Zhou Yu(参考訳) multiwoz (budzianowski et al., 2018) のようなタスク指向のダイアログでは、システム応答にはホテルの電話番号などの必要なキー情報を含める必要がある。 したがって、モデルがダイアログの重要量の学習にもっと集中するのを助けることによって、モデルがより有益で有用な応答を生成できると仮定する。 本稿では,より詳細な報酬関数と強化学習を用いて,テスト時間中に重要な量を生成することに集中することを目的とした,新たな学習アルゴリズムであるReinforced Language Modeling (RLM)を提案する。 実験の結果,提案したRLMは,MultiWoZにおける情報伝達率,成功率,組み合わせスコアに対して,最先端の性能を達成できた。

In task-oriented dialogs such as MultiWoZ (Budzianowski et al., 2018), an informative and/or successful system response needs to include necessary key information such as the phone number of a hotel. Therefore, we hypothesize that by helping the model to focus more on learning key quantities in the dialog, the model can generative more informative and helpful responses. In this paper, we propose a new training algorithm, Reinforced Language Modeling (RLM), that aims to use a fine-grained reward function and reinforcement learning to help the model focus more on generating key quantities correctly during test time. Empirical results show our proposed RLM achieves state-of-the-art performance on the inform rate, success rate, and combined score in MultiWoZ.
翻訳日:2022-12-01 16:38:27 公開日:2022-11-30
# 一般化球面テキスト埋め込み

Generalised Spherical Text Embedding ( http://arxiv.org/abs/2211.16801v1 )

ライセンス: Link先を確認
Souvik Banerjee, Bamdev Mishra, Pratik Jawanpuria, Manish Shrivastava(参考訳) 本稿では,テキスト埋め込みのより柔軟な表現を可能にする,教師なしモデリング手法を提案する。 単語と段落を任意の列次元の個々の行列として単位フロベニウスノルムと共同で符号化する。 この表現は、新しい類似度指標の導入によって言語的にも動機付けられている。 提案したモデリングと新しい類似度尺度は埋め込みの行列構造を利用する。 次に、同じ行列を単位ノルムのベクトルに再構成し、我々の問題を球面多様体上の最適化問題に変換できることを示した。 行列埋め込みを効率的に学習するために多様体最適化を利用する。 また、文書分類、文書クラスタリング、意味的テキスト類似性ベンチマークテストにおける改善された結果を示すことによって、テキスト埋め込みの品質を定量的に検証する。

This paper aims to provide an unsupervised modelling approach that allows for a more flexible representation of text embeddings. It jointly encodes the words and the paragraphs as individual matrices of arbitrary column dimension with unit Frobenius norm. The representation is also linguistically motivated with the introduction of a novel similarity metric. The proposed modelling and the novel similarity metric exploits the matrix structure of embeddings. We then go on to show that the same matrices can be reshaped into vectors of unit norm and transform our problem into an optimization problem over the spherical manifold. We exploit manifold optimization to efficiently train the matrix embeddings. We also quantitatively verify the quality of our text embeddings by showing that they demonstrate improved results in document classification, document clustering, and semantic textual similarity benchmark tests.
翻訳日:2022-12-01 16:38:12 公開日:2022-11-30
# クラスタリング,分類,ガウス過程モデリングを用いた非定常および不連続関数の学習

Learning non-stationary and discontinuous functions using clustering, classification and Gaussian process modelling ( http://arxiv.org/abs/2211.16909v1 )

ライセンス: Link先を確認
M. Moustapha and B. Sudret(参考訳) サーロゲートモデルは、高価な計算モデルの繰り返し評価を必要とするエンジニアリング問題を解決する上で、非常に効率的な助けとなることが示されている。 コストのかかるオリジナルモデルをわずかに評価することで構築され、他の難解な問題を解決する手段を提供してきた。 代理モデリングにおける重要な側面は、近似するモデルの滑らかさと規則性の仮定である。 しかし、この仮定は現実には満たされない。 例えば、土木工学や機械工学では、座屈やスナップスルーのような不安定なパターンの場合など、不連続性や非滑らか性を示すモデルもある。 基本的な異なる行動や不連続を考慮できる単一の代理モデルを構築することは簡単な作業ではありません。 本稿では,クラスタリング,分類,回帰を組み合わせた非スムース関数近似のための3段階アプローチを提案する。 そのアイデアは、システムの局所化された振る舞いやレジームに従って空間を分割し、最終的に組み立てられるローカルなサロゲートを構築することである。 ディリクレプロセス混合モデル(DPMM)、ベクトルマシンのサポート、ガウスプロセスモデリング。 このアプローチは2つの解析関数と引張膜構造の有限要素モデルに基づいて検証され検証される。

Surrogate models have shown to be an extremely efficient aid in solving engineering problems that require repeated evaluations of an expensive computational model. They are built by sparsely evaluating the costly original model and have provided a way to solve otherwise intractable problems. A crucial aspect in surrogate modelling is the assumption of smoothness and regularity of the model to approximate. This assumption is however not always met in reality. For instance in civil or mechanical engineering, some models may present discontinuities or non-smoothness, e.g., in case of instability patterns such as buckling or snap-through. Building a single surrogate model capable of accounting for these fundamentally different behaviors or discontinuities is not an easy task. In this paper, we propose a three-stage approach for the approximation of non-smooth functions which combines clustering, classification and regression. The idea is to split the space following the localized behaviors or regimes of the system and build local surrogates that are eventually assembled. A sequence of well-known machine learning techniques are used: Dirichlet process mixtures models (DPMM), support vector machines and Gaussian process modelling. The approach is tested and validated on two analytical functions and a finite element model of a tensile membrane structure.
翻訳日:2022-12-01 16:32:03 公開日:2022-11-30
# 分散最適化による継続的学習:COCOAは忘れているか?

Continual Learning with Distributed Optimization: Does COCOA Forget? ( http://arxiv.org/abs/2211.16994v1 )

ライセンス: Link先を確認
Martin Hellkvist and Ay\c{c}a \"Oz\c{c}elikkale and Anders Ahl\'en(参考訳) タスクが順次到着し,前回見たタスクのパフォーマンス低下を伴わずに新たに到着したタスクをうまく実行することを目的とした,連続学習問題に焦点を当てた。 中央集権的設定に着目した連続学習文学とは対照的に,分散推定フレームワークについて検討する。 確立された分散学習アルゴリズム \cocoa{} を考える。 過パラメータ化の場合の反復に対する閉形式式を導出する。 本稿では,問題のオーバー/アンダーパラメトリゼーションに基づくアルゴリズムの収束と誤差性能について述べる。 以上の結果から, 問題次元やデータ生成の仮定に応じて, 一連のタスクに対して連続的な学習を行うことが可能であること,すなわち, 一度に1つのタスクにのみアクセスすることで, 学習したタスクを忘れることなく, 新たなタスクを学習できることが示唆された。

We focus on the continual learning problem where the tasks arrive sequentially and the aim is to perform well on the newly arrived task without performance degradation on the previously seen tasks. In contrast to the continual learning literature focusing on the centralized setting, we investigate the distributed estimation framework. We consider the well-established distributed learning algorithm \cocoa{}. We derive closed form expressions for the iterations for the overparametrized case. We illustrate the convergence and the error performance of the algorithm based on the over/under-parametrization of the problem. Our results show that depending on the problem dimensions and data generation assumptions, \cocoa{} can perform continual learning over a sequence of tasks, i.e., it can learn a new task without forgetting previously learned tasks, with access only to one task at a time.
翻訳日:2022-12-01 16:31:32 公開日:2022-11-30
# 非凸低ランク半有限緩和によるニューラルネットワーク検証のための凸緩和障壁の克服

Overcoming the Convex Relaxation Barrier for Neural Network Verification via Nonconvex Low-Rank Semidefinite Relaxations ( http://arxiv.org/abs/2211.17244v1 )

ライセンス: Link先を確認
Hong-Ming Chiu and Richard Y. Zhang(参考訳) 敵の摂動に対するニューラルネットワークの堅牢性を厳格に証明するために、ほとんどの最先端技術は、ReLUアクティベーションの三角形型線形プログラミング(LP)緩和に依存している。 LP緩和は単一ニューロンに対して正確であるが、近年の結果は、追加の活性化が加えられ、攻撃予算が増加するにつれて、それが固有の「凸緩和障壁」に直面していることを示唆している。 本稿では,半定値プログラミング(SDP)緩和の低ランク制約に基づき,ReLU緩和のための非凸緩和を提案する。 非凸緩和はLP緩和と類似した複雑さを持つが,より高価なSDP緩和に匹敵する厳密性の改善が期待できる。 非凸性にもかかわらず、検証問題は制約条件を満たすことを証明し、リーマンの階段アプローチは多項式時間でほぼグローバルに最適な解を計算することが保証される。 実験により,非凸緩和がlp緩和に直面する「凸緩和障壁」をほぼ完全に克服する証拠が得られた。

To rigorously certify the robustness of neural networks to adversarial perturbations, most state-of-the-art techniques rely on a triangle-shaped linear programming (LP) relaxation of the ReLU activation. While the LP relaxation is exact for a single neuron, recent results suggest that it faces an inherent "convex relaxation barrier" as additional activations are added, and as the attack budget is increased. In this paper, we propose a nonconvex relaxation for the ReLU relaxation, based on a low-rank restriction of a semidefinite programming (SDP) relaxation. We show that the nonconvex relaxation has a similar complexity to the LP relaxation, but enjoys improved tightness that is comparable to the much more expensive SDP relaxation. Despite nonconvexity, we prove that the verification problem satisfies constraint qualification, and therefore a Riemannian staircase approach is guaranteed to compute a near-globally optimal solution in polynomial time. Our experiments provide evidence that our nonconvex relaxation almost completely overcome the "convex relaxation barrier" faced by the LP relaxation.
翻訳日:2022-12-01 16:31:17 公開日:2022-11-30
# 音声処理のためのトポロジカルデータ解析

Topological Data Analysis for Speech Processing ( http://arxiv.org/abs/2211.17223v1 )

ライセンス: Link先を確認
Eduard Tulchinskii, Kristian Kuznetsov, Laida Kushnareva, Daniil Cherniavskii, Serguei Barannikov, Irina Piontkovskaya, Sergey Nikolenko, Evgeny Burnaev(参考訳) 音声分類問題と事前訓練された音声モデル HuBERT のイントロスペクションにトポロジカルデータ解析(TDA)を適用した。 この目的のために,トランスフォーマーアテンションマップと埋め込みから派生した位相的および代数的特徴をいくつか紹介する。 このような特徴の上に構築された単純な線形分類器が,微調整された分類ヘッドよりも優れていることを示す。 特に、私たちは4つの一般的なデータセットで約9\%$精度と$5\%$ errの改善を達成しました。 また,音声トランスフォーマーヘッドの機能的役割をトポロジカルな特徴から明らかにできることを示す。例えば,下流の微調整をすることなく,サンプルソース(自然/合成)と音声のペアを区別できるヘッドを見出した。 以上の結果から,TDAは音声解析,特に構造予測を必要とするタスクにおいて,有望な新しいアプローチであることが示された。

We apply topological data analysis (TDA) to speech classification problems and to the introspection of a pretrained speech model, HuBERT. To this end, we introduce a number of topological and algebraic features derived from Transformer attention maps and embeddings. We show that a simple linear classifier built on top of such features outperforms a fine-tuned classification head. In particular, we achieve an improvement of about $9\%$ accuracy and $5\%$ ERR on four common datasets; on CREMA-D, the proposed feature set reaches a new state of the art performance with accuracy $80.155$. We also show that topological features are able to reveal functional roles of speech Transformer heads; e.g., we find the heads capable to distinguish between pairs of sample sources (natural/synthetic) or voices without any downstream fine-tuning. Our results demonstrate that TDA is a promising new approach for speech analysis, especially for tasks that require structural prediction.
翻訳日:2022-12-01 16:30:58 公開日:2022-11-30
# 変形性膝関節症のMRI画像における骨・軟骨の3次元自動計測

Automated anomaly-aware 3D segmentation of bones and cartilages in knee MR images from the Osteoarthritis Initiative ( http://arxiv.org/abs/2211.16696v1 )

ライセンス: Link先を確認
Boyeong Woo, Craig Engstrom, William Baresic, Jurgen Fripp, Stuart Crozier, Shekhar S. Chandra(参考訳) 医用画像解析では、しばしば潜在的な異常や病理のスペクトルを持つ多成分解剖構造の自動分割は難しい課題である。 本研究では, 変形性膝関節症患者の3次元磁気共鳴(MR)画像から, 遠位部, 近位部, 近位部, 膝蓋骨の異常(骨髄病変, 骨嚢胞)を早期に検出するために, U-Net-based Neural Network を用いた多段階的アプローチを開発した。 その後、抽出したデータは、個々の骨と軟骨体積のセグメンテーションと骨異常を含む下流タスクに使用される。 anomaly detectionのために、u-netベースのモデルが開発され、画像中の大腿骨と骨の骨プロファイルを塗り替えることにより、異常な骨領域を正常な外観に置き換えることができた。 再建誤差は骨異常の検出に用いられた。 anomaly-na\"ive segmentation networkと比較した第2のanomaly-aware networkは、骨異常のスペクトルを含む膝関節mr画像からの大腿骨、骨、膝蓋骨および軟骨の最終的な自動セグメント化を提供するために使用された。 Anomaly-aware segmentation(英語版)アプローチは、Anomaly-na\ive segmentation Network(英語版)の結果と比較して、Hausdorff 距離を最大58%削減した。 さらに,mr画像中の骨病変を,感度と特異性(受信者動作特性曲線[auc]下の領域が0.896まで)で検出できた。

In medical image analysis, automated segmentation of multi-component anatomical structures, which often have a spectrum of potential anomalies and pathologies, is a challenging task. In this work, we develop a multi-step approach using U-Net-based neural networks to initially detect anomalies (bone marrow lesions, bone cysts) in the distal femur, proximal tibia and patella from 3D magnetic resonance (MR) images of the knee in individuals with varying grades of osteoarthritis. Subsequently, the extracted data are used for downstream tasks involving semantic segmentation of individual bone and cartilage volumes as well as bone anomalies. For anomaly detection, the U-Net-based models were developed to reconstruct the bone profiles of the femur and tibia in images via inpainting so anomalous bone regions could be replaced with close to normal appearances. The reconstruction error was used to detect bone anomalies. A second anomaly-aware network, which was compared to anomaly-na\"ive segmentation networks, was used to provide a final automated segmentation of the femoral, tibial and patellar bones and cartilages from the knee MR images containing a spectrum of bone anomalies. The anomaly-aware segmentation approach provided up to 58% reduction in Hausdorff distances for bone segmentations compared to the results from the anomaly-na\"ive segmentation networks. In addition, the anomaly-aware networks were able to detect bone lesions in the MR images with greater sensitivity and specificity (area under the receiver operating characteristic curve [AUC] up to 0.896) compared to the anomaly-na\"ive segmentation networks (AUC up to 0.874).
翻訳日:2022-12-01 16:30:00 公開日:2022-11-30
# 一般化境界理論に基づく多スケールgan改善のための適応逆訓練法

Adaptive adversarial training method for improving multi-scale GAN based on generalization bound theory ( http://arxiv.org/abs/2211.16791v1 )

ライセンス: Link先を確認
Jing Tang, Bo Tao, Zeyu Gong, Zhouping Yin(参考訳) 近年,単一サンプルに基づく一般化画像処理モデルを構築するために,GAN(Multi-scale Generative Adversarial Network)が提案されている。 サンプルサイズに制約を加えると、マルチスケールのGANはグローバルな最適度に収束し、最終的にはその能力に制限をもたらす。 本稿では, PAC-Bayes 一般化境界理論の導入を, 異なる対角的学習手法による特定モデルの訓練解析に適用し, 特定マルチスケール GAN 構造に対する一般化誤差の非空上界が得られるようにした。 異なる敵攻撃と異なる訓練条件下での一般化誤差の劇的な変化に基づいて、我々は、マルチスケールGANの画像操作能力を大幅に向上させる適応的訓練法を提案した。 本論文における適応学習手法は,複数の画像操作タスクにおいて,マルチスケールのGANが生成する画像の品質向上に大きく貢献していることを示す。 特に, 画像超解像復元作業において, 提案手法により訓練されたマルチスケールGANモデルは, 自然画像品質評価器(NIQE)の100%削減, 根平均二乗誤差(RMSE)の60%削減を実現している。

In recent years, multi-scale generative adversarial networks (GANs) have been proposed to build generalized image processing models based on single sample. Constraining on the sample size, multi-scale GANs have much difficulty converging to the global optimum, which ultimately leads to limitations in their capabilities. In this paper, we pioneered the introduction of PAC-Bayes generalized bound theory into the training analysis of specific models under different adversarial training methods, which can obtain a non-vacuous upper bound on the generalization error for the specified multi-scale GAN structure. Based on the drastic changes we found of the generalization error bound under different adversarial attacks and different training states, we proposed an adaptive training method which can greatly improve the image manipulation ability of multi-scale GANs. The final experimental results show that our adaptive training method in this paper has greatly contributed to the improvement of the quality of the images generated by multi-scale GANs on several image manipulation tasks. In particular, for the image super-resolution restoration task, the multi-scale GAN model trained by the proposed method achieves a 100% reduction in natural image quality evaluator (NIQE) and a 60% reduction in root mean squared error (RMSE), which is better than many models trained on large-scale datasets.
翻訳日:2022-12-01 16:29:33 公開日:2022-11-30
# COMET:分散ディープラーニング学習のための総合的クラスタ設計手法

COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training ( http://arxiv.org/abs/2211.16648v1 )

ライセンス: Link先を確認
Divya Kiran Kadiyala, Saeed Rashidi, Taekyung Heo, Abhimanyu Rajeshkumar Bambhaniya, Tushar Krishna, and Alexandros Daglis(参考訳) 現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。 高いコストを償却するためにパフォーマンスと利用の両方を最大化するためにクラスタを設計することは、計算、メモリ、ネットワークリソースの注意深くバランスをとる必要がある課題である。 さらに、各モデルのチューニングノブの多さはパフォーマンスに大きく影響し、最適な値は、複雑なクラスタ-ワークロード共設計プロセスを必要とする基礎となるクラスタの特性に依存することが多い。 このような大規模なdlトレーニングクラスタの設計空間の探索を容易にするために、並列化戦略と主要なクラスタリソースプロビジョニングが分散dlトレーニングのパフォーマンスに与える影響を共同研究するために、comet a holistic cluster design methodologyとworkflowを紹介する。 再利用可能な柔軟な方法論を確立するためのステップバイステッププロセスを開発し,可変計算,メモリ,ネットワークリソースのクラスタ上でtransformer-1tモデルをトレーニングするケーススタディを用いて,その応用例を示す。 ケーススタディでは、COMETが有望なアーキテクチャ最適化の方向性を特定し、キーモデルとクラスタパラメータの設定においてシステム設計者を導くのに有用であることを示す。

Modern Deep Learning (DL) models have grown to sizes requiring massive clusters of specialized, high-end nodes to train. Designing such clusters to maximize both performance and utilization to amortize their steep cost is a challenging task requiring careful balance of compute, memory, and network resources. Moreover, a plethora of each model's tuning knobs drastically affect the performance, with optimal values often depending on the underlying cluster's characteristics, which necessitates a complex cluster-workload co-design process. To facilitate the design space exploration of such massive DL training clusters, we introduce COMET a holistic cluster design methodology and workflow to jointly study the impact of parallelization strategies and key cluster resource provisioning on the performance of distributed DL training. We develop a step-by-step process to establish a reusable and flexible methodology, and demonstrate its application with a case study of training a Transformer-1T model on a cluster of variable compute, memory, and network resources. Our case study demonstrates COMET's utility in identifying promising architectural optimization directions and guiding system designers in configuring key model and cluster parameters.
翻訳日:2022-12-01 16:23:45 公開日:2022-11-30
# cru: 時系列データの予測性能を改善するための新しいニューラルネットワーク

CRU: A Novel Neural Architecture for Improving the Predictive Performance of Time-Series Data ( http://arxiv.org/abs/2211.16653v1 )

ライセンス: Link先を確認
Sunghyun Sim, Dohee Kim, Hyerim Bae(参考訳) 時系列予測(TSF)問題は、人工知能分野における伝統的な問題である。 Recurrent Neural Network(RNN)、Long Short Term Memory(LSTM)、GRU(Gate Recurrent Units)といったモデルは、TSFの予測精度の向上に寄与している。 さらに,loess (stl) を用いた季節分解や予測精度の向上など,時系列分解法を組み合わせたモデル構造が提案されている。 しかしながら、このアプローチは各コンポーネントの独立したモデルで学習されるため、時系列コンポーネント間の関係を学べない。 本研究では、ニューラルネットワーク内で時系列分解を行い、各分解成分間の相関(自己相関と相関)を学習できる相関再帰ユニット(cru)と呼ばれる新しいニューラルアーキテクチャを提案する。 提案するニューラルアーキテクチャは,5つの不定時系列データセットと4つの多変量時系列データを用いて,従来の研究との比較実験により評価した。 その結果,長期および短期の予測性能は10%以上向上した。 実験の結果,提案したCRUは,他のニューラルネットワークと比較して,TSF問題に優れた手法であることがわかった。

The time-series forecasting (TSF) problem is a traditional problem in the field of artificial intelligence. Models such as Recurrent Neural Network (RNN), Long Short Term Memory (LSTM), and GRU (Gate Recurrent Units) have contributed to improving the predictive accuracy of TSF. Furthermore, model structures have been proposed to combine time-series decomposition methods, such as seasonal-trend decomposition using Loess (STL) to ensure improved predictive accuracy. However, because this approach is learned in an independent model for each component, it cannot learn the relationships between time-series components. In this study, we propose a new neural architecture called a correlation recurrent unit (CRU) that can perform time series decomposition within a neural cell and learn correlations (autocorrelation and correlation) between each decomposition component. The proposed neural architecture was evaluated through comparative experiments with previous studies using five univariate time-series datasets and four multivariate time-series data. The results showed that long- and short-term predictive performance was improved by more than 10%. The experimental results show that the proposed CRU is an excellent method for TSF problems compared to other neural architectures.
翻訳日:2022-12-01 16:23:25 公開日:2022-11-30
# 一般状態と行動空間に対する政策最適化

Policy Optimization over General State and Action Spaces ( http://arxiv.org/abs/2211.16715v1 )

ライセンス: Link先を確認
Guanghui Lan(参考訳) 一般的な状態や行動空間に対する強化学習(RL)問題は非常に難しい。 テーブルーの設定とは対照的に、全ての状態を列挙して、各状態のポリシーを反復的に更新することはできない。 これにより、よく研究されたRL法、特に証明可能な収束保証法の適用が防止される。 本稿では,最近開発された一般状態と行動空間を扱うための方針ミラー降下法について,本手法の実質的な一般化について述べる。 我々は,この手法に関数近似を組み込む新しい手法を導入することにより,明示的なポリシーパラメータ化をまったく必要としない。 さらに,より単純な関数近似手法を適用可能な,新しいポリシー二重平均化手法を提案する。 我々は, 厳密な政策評価の下でRL問題の異なるクラスを解くために適用されたこれらの手法に対して, 大域的最適性に対する線形収束率や定常性に対する線形収束率を確立する。 次に、政策評価のための近似誤差の適切な概念を定義し、これらの手法が有限作用空間あるいは連続作用空間を持つ一般状態RL問題に適用された収束に与える影響を考察する。 我々の知る限り、これらのアルゴリズムフレームワークの開発と収束分析は、文献の中で新しいものと思われる。

Reinforcement learning (RL) problems over general state and action spaces are notoriously challenging. In contrast to the tableau setting, one can not enumerate all the states and then iteratively update the policies for each state. This prevents the application of many well-studied RL methods especially those with provable convergence guarantees. In this paper, we first present a substantial generalization of the recently developed policy mirror descent method to deal with general state and action spaces. We introduce new approaches to incorporate function approximation into this method, so that we do not need to use explicit policy parameterization at all. Moreover, we present a novel policy dual averaging method for which possibly simpler function approximation techniques can be applied. We establish linear convergence rate to global optimality or sublinear convergence to stationarity for these methods applied to solve different classes of RL problems under exact policy evaluation. We then define proper notions of the approximation errors for policy evaluation and investigate their impact on the convergence of these methods applied to general-state RL problems with either finite-action or continuous-action spaces. To the best of our knowledge, the development of these algorithmic frameworks as well as their convergence analysis appear to be new in the literature.
翻訳日:2022-12-01 16:23:05 公開日:2022-11-30
# タンパク質言語モデルと構造予測:接続と進展

Protein Language Models and Structure Prediction: Connection and Progression ( http://arxiv.org/abs/2211.16742v1 )

ライセンス: Link先を確認
Bozhen Hu, Jun Xia, Jiangbin Zheng, Cheng Tan, Yufei Huang, Yongjie Xu, Stan Z. Li(参考訳) 配列からのタンパク質構造の予測は、機能予測、薬物設計、および関連する生物学的プロセス理解の重要なタスクである。 近年の進歩は、タンパク質配列データベースの処理における言語モデル(LM)のパワーを証明し、注目ネットワークの利点を継承し、タンパク質の学習表現において有用な情報を取得する。 過去2年間、進化型および単一配列型PSPを含む第3次タンパク質構造予測(PSP)が顕著に成功した。 エネルギーベースモデルとサンプリングプロシージャの代わりに、タンパク質言語モデル(pLM)ベースのパイプラインがPSPの主流パラダイムとして現れているようだ。 実りある進歩にもかかわらず、PSPコミュニティは、自然言語処理(NLP)とPSPドメインにおけるLM間のギャップを埋め、それらの方法論、進歩、実践的応用を導入するために、体系的で最新の調査が必要である。 そこで本論文ではまず,PLMに拡張可能なタンパク質言語とヒト言語との類似性について紹介し,タンパク質データベースに適用する。 そして,ネットワークアーキテクチャ,事前学習戦略,応用,一般的に使用されているタンパク質データベースの観点から,最近のLMやpLMの進歩を体系的にレビューする。 次に、タンパク質の折り畳み過程において、特にplmベースのアーキテクチャがどのように機能するかについて論じる。 最後に、PSPコミュニティが直面する課題を特定し、PLMの進歩とともに、将来的な研究方向性を予見する。 本調査は, PSP法を理解し, pLMを開発し, 本分野の課題に取り組むための実践的なガイドとなることを目的とする。

The prediction of protein structures from sequences is an important task for function prediction, drug design, and related biological processes understanding. Recent advances have proved the power of language models (LMs) in processing the protein sequence databases, which inherit the advantages of attention networks and capture useful information in learning representations for proteins. The past two years have witnessed remarkable success in tertiary protein structure prediction (PSP), including evolution-based and single-sequence-based PSP. It seems that instead of using energy-based models and sampling procedures, protein language model (pLM)-based pipelines have emerged as mainstream paradigms in PSP. Despite the fruitful progress, the PSP community needs a systematic and up-to-date survey to help bridge the gap between LMs in the natural language processing (NLP) and PSP domains and introduce their methodologies, advancements and practical applications. To this end, in this paper, we first introduce the similarities between protein and human languages that allow LMs extended to pLMs, and applied to protein databases. Then, we systematically review recent advances in LMs and pLMs from the perspectives of network architectures, pre-training strategies, applications, and commonly-used protein databases. Next, different types of methods for PSP are discussed, particularly how the pLM-based architectures function in the process of protein folding. Finally, we identify challenges faced by the PSP community and foresee promising research directions along with the advances of pLMs. This survey aims to be a hands-on guide for researchers to understand PSP methods, develop pLMs and tackle challenging problems in this field for practical purposes.
翻訳日:2022-12-01 16:22:47 公開日:2022-11-30
# ハードウェア効率の良い自動テンソル分解による変圧器圧縮

HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression ( http://arxiv.org/abs/2211.16749v1 )

ライセンス: Link先を確認
Jiaqi Gu, Ben Keller, Jean Kossaifi, Anima Anandkumar, Brucek Khailany, David Z. Pan(参考訳) トランスフォーマーは自然言語処理とコンピュータビジョンにおいて優れたパフォーマンスを達成した。 自己保持層とフィードフォワード層は過パラメータ化され、推論速度とエネルギー効率が制限される。 テンソル分解は、テンソル代数特性を利用してパラメータを分解形式で表現することでパラメータ冗長性を減少させる有望な手法である。 以前の取り組みでは、ハードウェアを意識せずに手動またはヒューリスティックな分解設定を使用していたため、ハードウェア効率が悪く、性能が大幅に低下した。 本研究では,ハードウェア対応テンソル分解フレームワーク HEAT を提案し,分解可能な指数空間を効率的に探索し,ハードウェア対応の共同最適化によるテンソル化形状と分解ランクの選択を自動化する。 理論上の利点と実際のハードウェアの効率改善とのギャップを埋めるために,テンソル収縮経路最適化と融合einsumマッピング戦略を共同で検討した。 2段階の知識蒸留フローはトレーサビリティのボトルネックを解消し,因子化変圧器の最終精度を大幅に向上させる。 ハードウェア対応のBERT変異体は,1.1%未満の精度でエネルギー遅延を5.7倍に低減し,手作業やヒューリスティックベースラインよりも効率のよいパレートフロンティアを実現する。

Transformers have attained superior performance in natural language processing and computer vision. Their self-attention and feedforward layers are overparameterized, limiting inference speed and energy efficiency. Tensor decomposition is a promising technique to reduce parameter redundancy by leveraging tensor algebraic properties to express the parameters in a factorized form. Prior efforts used manual or heuristic factorization settings without hardware-aware customization, resulting in poor hardware efficiencies and large performance degradation. In this work, we propose a hardware-aware tensor decomposition framework, dubbed HEAT, that enables efficient exploration of the exponential space of possible decompositions and automates the choice of tensorization shape and decomposition rank with hardware-aware co-optimization. We jointly investigate tensor contraction path optimizations and a fused Einsum mapping strategy to bridge the gap between theoretical benefits and real hardware efficiency improvement. Our two-stage knowledge distillation flow resolves the trainability bottleneck and thus significantly boosts the final accuracy of factorized Transformers. Overall, we experimentally show that our hardware-aware factorized BERT variants reduce the energy-delay product by 5.7x with less than 1.1% accuracy loss and achieve a better efficiency-accuracy Pareto frontier than hand-tuned and heuristic baselines.
翻訳日:2022-12-01 16:22:17 公開日:2022-11-30
# マルチトラック車両ルーティング問題に対する強化学習

Reinforcement Learning for Multi-Truck Vehicle Routing Problems ( http://arxiv.org/abs/2211.17078v1 )

ライセンス: Link先を確認
Randall Correll (1), Sean J. Weinberg (1), Fabio Sanches (1), Takanori Ide (2), Takafumi Suzuki (3) ((1) QC Ware Corp Palo Alto, (2) AISIN CORPORATION Tokyo, (3) Aisin Technical Center of America San Jose)(参考訳) 車両ルーティング問題や他の組合せ最適化問題は、注意機構を持つエンコーダ・デコーダモデルに基づくポリシー付き強化学習エージェントによって概ね解決されている。 これらの技術はかなりの関心があるが、多くのトラックと複雑な要求を持つ現実的な環境で発生する複雑なルーティング問題をまだ解決できない。 強化学習をサプライチェーン最適化の実行可能な技術にすることを目的として,今日の古典計算と将来量子コンピューティングを用いた複雑なサプライチェーンを可能にする車両ルーティングのためのエンコーダ・デコーダモデルの拡張を新たに開発した。 2つの主要な一般化を行う。 まず,本モデルでは,複数トラックの経路問題を可能にする。 第二に、トラックがノードから1つの特別なデポノードにアイテムを配送するという単純な要件から脱却し、代わりに複雑なテンソル需要構造を許容する。 私たちのモデルは、たとえ少数のトラックでのみ訓練されたとしても、大規模なサプライチェーンに組み込んで、実行可能なソリューションを実現できるかを示します。

Vehicle routing problems and other combinatorial optimization problems have been approximately solved by reinforcement learning agents with policies based on encoder-decoder models with attention mechanisms. These techniques are of substantial interest but still cannot solve the complex routing problems that arise in a realistic setting which can have many trucks and complex requirements. With the aim of making reinforcement learning a viable technique for supply chain optimization, we develop new extensions to encoder-decoder models for vehicle routing that allow for complex supply chains using classical computing today and quantum computing in the future. We make two major generalizations. First, our model allows for routing problems with multiple trucks. Second, we move away from the simple requirement of having a truck deliver items from nodes to one special depot node, and instead allow for a complex tensor demand structure. We show how our model, even if trained only for a small number of trucks, can be embedded into a large supply chain to yield viable solutions.
翻訳日:2022-12-01 16:21:52 公開日:2022-11-30
# ネットワーク型マルチエージェント強化学習における局所的政策反復のグローバル収束

Global Convergence of Localized Policy Iteration in Networked Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2211.17116v1 )

ライセンス: Link先を確認
Yizhou Zhang, Guannan Qu, Pan Xu, Yiheng Lin, Zaiwei Chen, Adam Wierman(参考訳) エージェントが与えられたネットワーク上で相互作用するマルチエージェント強化学習(MARL)問題について検討する。 エージェントの目標は、エントロピー規則化された長期報酬の平均を協調的に最大化することである。 次元の呪いを克服し,コミュニケーションを減らすために,ローカル情報のみを用いて,ほぼグローバルに近い最適政策を確実に学習するローカルポリシー反復(LPI)アルゴリズムを提案する。 特に、各エージェントの注意をその$\kappa$-hop近傍のみに制限しているにもかかわらず、エージェントは$\kappa$で多項式的に崩壊する最適性ギャップを持つポリシーを学ぶことができる。 さらに, LPI を大域的最適ポリシに有限サンプル収束させることで, 最適性と計算複雑性のトレードオフを明示的に捉えて$\kappa$を選択する。 数値シミュレーションはLPIの有効性を示す。

We study a multi-agent reinforcement learning (MARL) problem where the agents interact over a given network. The goal of the agents is to cooperatively maximize the average of their entropy-regularized long-term rewards. To overcome the curse of dimensionality and to reduce communication, we propose a Localized Policy Iteration (LPI) algorithm that provably learns a near-globally-optimal policy using only local information. In particular, we show that, despite restricting each agent's attention to only its $\kappa$-hop neighborhood, the agents are able to learn a policy with an optimality gap that decays polynomially in $\kappa$. In addition, we show the finite-sample convergence of LPI to the global optimal policy, which explicitly captures the trade-off between optimality and computational complexity in choosing $\kappa$. Numerical simulations demonstrate the effectiveness of LPI.
翻訳日:2022-12-01 16:21:36 公開日:2022-11-30
# 地表面風の畳み込みニューラルネットワーク超解像のサブグリッドスケール変動量化のための統計的治療

Statistical treatment of convolutional neural network super-resolution of inland surface wind for subgrid-scale variability quantification ( http://arxiv.org/abs/2211.16708v1 )

ライセンス: Link先を確認
Daniel Getter and Julie Bessac and Johann Rudi and Yan Feng(参考訳) 機械学習モデルは、純粋に物理学のない、または気候データのハイブリッドなダウンスケーリングを実行するために頻繁に使用される。 しかし、これらの実装の大部分は、比較的小さなスケールダウンファクターである4--6xで動作している。 本研究では,3種類の粗い解像度(25km,48km,100kmの側方格子セル)から3kmまでの表面風速データをダウンスケールできる畳み込みニューラルネットワーク(CNN)の能力について検討し,また,サブグリッドスケールの変動を回復する能力に焦点を当てた。 各ダウンスケーリング係数,すなわち8x,16x,32xでは,微風速予測を,粗風場のみ,粗風と微風地形,粗風,地形,時空間情報をタイムスタンプの形で,異なる入力特徴の関数として考える。 さらに,25kmから3kmの解像度で,試料風速を発生可能な確率密度関数パラメータを細部出力とするモデルを訓練した。 全てのCNN予測は、古典的補間よりも優れている。 粗い風と細かな地形を持つモデルは、同じダウンスケーリング係数で動く他のモデルと比較して最高の性能を示す。 我々のタイムスタンプ符号化は、他の入力構成と比較してサンプル外一般化性が低い。 全体として、スケールダウン要因はモデルパフォーマンスにおいて最大の役割を果たす。

Machine learning models are frequently employed to perform either purely physics-free or hybrid downscaling of climate data. However, the majority of these implementations operate over relatively small downscaling factors of about 4--6x. This study examines the ability of convolutional neural networks (CNN) to downscale surface wind speed data from three different coarse resolutions (25km, 48km, and 100km side-length grid cells) to 3km and additionally focuses on the ability to recover subgrid-scale variability. Within each downscaling factor, namely 8x, 16x, and 32x, we consider models that produce fine-scale wind speed predictions as functions of different input features: coarse wind fields only; coarse wind and fine-scale topography; and coarse wind, topography, and temporal information in the form of a timestamp. Furthermore, we train one model at 25km to 3km resolution whose fine-scale outputs are probability density function parameters through which sample wind speeds can be generated. All CNN predictions performed on one out-of-sample data outperform classical interpolation. Models with coarse wind and fine topography are shown to exhibit the best performance compared to other models operating across the same downscaling factor. Our timestamp encoding results in lower out-of-sample generalizability compared to other input configurations. Overall, the downscaling factor plays the largest role in model performance.
翻訳日:2022-12-01 16:20:43 公開日:2022-11-30
# ヒント動的知識蒸留

Hint-dynamic Knowledge Distillation ( http://arxiv.org/abs/2211.17059v1 )

ライセンス: Link先を確認
Yiyang Liu, Chenxin Li, Xiaotong Tu, Xinghao Ding, Yue Huang(参考訳) 知識蒸留(KD)は、高能力の教師モデルから知識を伝達し、より小さな学生モデルを促進する。 既存の取り組みは、それらの予測ロジットや特徴埋め込みなどと一致させることで蒸留を導くと同時に、接合部での効率よく利用する方法も検討されていない。 本稿では,hkdと呼ばれる動的スキームにおける教師のsヒントから知識を抽出したヒント動的知識蒸留法を提案する。 知識ヒントからのガイダンス効果は、通常、異なるインスタンスと学習段階で異なり、各インスタンスに対して特定のヒント学習方法を適応的にカスタマイズする動機付けとなります。 具体的には,生徒モデルの動的学習進行の知覚において,知識ヒントに関するインスタンス毎の重み係数を生成するために,メタ重み付きネットワークを導入する。 さらに,過去の静的情報を利用して係数推定の潜在的なバイアスをなくすための重みセンシング戦略を提案する。 CIFAR-100とTiny-ImageNetの標準ベンチマークの実験では、提案したHKDが知識蒸留タスクの効果を高めることが示されている。

Knowledge Distillation (KD) transfers the knowledge from a high-capacity teacher model to promote a smaller student model. Existing efforts guide the distillation by matching their prediction logits, feature embedding, etc., while leaving how to efficiently utilize them in junction less explored. In this paper, we propose Hint-dynamic Knowledge Distillation, dubbed HKD, which excavates the knowledge from the teacher' s hints in a dynamic scheme. The guidance effect from the knowledge hints usually varies in different instances and learning stages, which motivates us to customize a specific hint-learning manner for each instance adaptively. Specifically, a meta-weight network is introduced to generate the instance-wise weight coefficients about knowledge hints in the perception of the dynamical learning progress of the student model. We further present a weight ensembling strategy to eliminate the potential bias of coefficient estimation by exploiting the historical statics. Experiments on standard benchmarks of CIFAR-100 and Tiny-ImageNet manifest that the proposed HKD well boost the effect of knowledge distillation tasks.
翻訳日:2022-12-01 16:14:43 公開日:2022-11-30
# カスタマイズ・普遍的摂動によるマルチインスタンス学習の脆弱性の解釈に向けて

Towards Interpreting Vulnerability of Multi-Instance Learning via Customized and Universal Adversarial Perturbations ( http://arxiv.org/abs/2211.17071v1 )

ライセンス: Link先を確認
Yu-Xuan Zhang and Hua Meng and Xuemei Cao and Zhengchun Zhou and Mei Yang(参考訳) MIL(Multi-Instance Learning)は、複雑なデータを扱うための優れたパラダイムであり、画像分類、ビデオ異常検出など、多くの分野で大きな成果を上げている。 各データサンプルは、複数のラベルのないインスタンスを含むバッグとして参照され、監督された情報は、バッグレベルでのみ提供される。 しかし、ミル学習者の安全性は、いくつかの敵の摂動を導入することで彼らを大いに騙すことができるため、関係している。 これは、ユーザーが所望の画像にアクセスできず、犯罪者が監視カメラを騙そうとしている場合に致命的な可能性がある。 本稿では,MIL手法の脆弱性を解釈するための2つの逆摂動を設計する。 最初の方法は、バッグ固有の摂動(カスタマイズと呼ばれる)を、元の分類領域から外す目的で効率的に生成することができる。 第2の方法は、与えられたデータセット内のすべてのバッグに影響を与えることを目的としたイメージ非依存の摂動(ユニバーサルと呼ばれる)を調査し、いくつかの一般化性を得ることで、第1の方法に基づいている。 この2つの摂動の性能を検証するために様々な実験を行い,ミル学習者を効果的に騙すことができることを示した。 さらに, 逆摂動の影響を少なくするための簡易な戦略を提案する。 ソースコードはhttps://github.com/InkiInki/MI-UAPで入手できる。

Multi-instance learning (MIL) is a great paradigm for dealing with complex data and has achieved impressive achievements in a number of fields, including image classification, video anomaly detection, and far more. Each data sample is referred to as a bag containing several unlabeled instances, and the supervised information is only provided at the bag-level. The safety of MIL learners is concerning, though, as we can greatly fool them by introducing a few adversarial perturbations. This can be fatal in some cases, such as when users are unable to access desired images and criminals are attempting to trick surveillance cameras. In this paper, we design two adversarial perturbations to interpret the vulnerability of MIL methods. The first method can efficiently generate the bag-specific perturbation (called customized) with the aim of outsiding it from its original classification region. The second method builds on the first one by investigating the image-agnostic perturbation (called universal) that aims to affect all bags in a given data set and obtains some generalizability. We conduct various experiments to verify the performance of these two perturbations, and the results show that both of them can effectively fool MIL learners. We additionally propose a simple strategy to lessen the effects of adversarial perturbations. Source codes are available at https://github.com/InkiInki/MI-UAP.
翻訳日:2022-12-01 16:14:26 公開日:2022-11-30
# 平均経路長:驚くほど狭いネットワークを作る非線形性の分散

Average Path Length: Sparsification of Nonlinearties Creates Surprisingly Shallow Networks ( http://arxiv.org/abs/2211.17180v1 )

ライセンス: Link先を確認
Christian H.X. Ali Mehmeti-G\"opel, Jan Disselhoff(参考訳) 本研究では、ネットワーク内の非線形ユニットの総数に先立って、一部の特徴チャネルにおいて、活性化関数が完全に線形になるようにプッシュする際のディープネットワークの挙動に関する実証的研究を行う。 得られた部分線形化ネットワークの深さを測定するために,ネットワークグラフの経路に沿って遭遇するアクティブ非線形性の平均値を算出する。 典型的な画像分類タスクにPRELUを分散させたCNNの実験では, 余剰の非線形ユニットを異なる構造に整理し, ほぼ一定の有効深さと幅のコアネットワークを形成し, タスクの難易度に依存する。 精度の急激な崩壊の開始まで,性能の緩やかな低下を常に観察し,同じ深さのベースラインネットワークよりも高い精度で驚くほど浅さのネットワークが,同じ数のパラメータに幅を拡大した後でも達成できることを示した。 トレーニングの分野では, トレーニング後の非線形性を低下させることは, 以前の線形化トレーニングの結果と一致して, 従来よりも優れた性能をもたらすが, 課題の難易度によっては差がある。

We perform an empirical study of the behaviour of deep networks when pushing its activation functions to become fully linear in some of its feature channels through a sparsity prior on the overall number of nonlinear units in the network. To measure the depth of the resulting partially linearized network, we compute the average number of active nonlinearities encountered along a path in the network graph. In experiments on CNNs with sparsified PReLUs on typical image classification tasks, we make several observations: Under sparsity pressure, the remaining nonlinear units organize into distinct structures, forming core-networks of near constant effective depth and width, which in turn depend on task difficulty. We consistently observe a slow decay of performance with depth until the onset of a rapid collapse in accuracy, allowing for surprisingly shallow networks at moderate losses in accuracy that outperform base-line networks of similar depth, even after increasing width to a comparable number of parameters. In terms of training, we observe a nonlinear advantage: Reducing nonlinearity after training leads to a better performance than before, in line with previous findings in linearized training, but with a gap depending on task difficulty that vanishes for easy problems.
翻訳日:2022-12-01 16:14:03 公開日:2022-11-30
# GENNAPE: 汎用ニューラルアーキテクチャ性能推定器を目指して

GENNAPE: Towards Generalized Neural Architecture Performance Estimators ( http://arxiv.org/abs/2211.17226v1 )

ライセンス: Link先を確認
Keith G. Mills, Fred X. Han, Jialin Zhang, Fabian Chudak, Ali Safari Mamaghani, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu(参考訳) ニューラルアーキテクチャのパフォーマンスを予測することは難しい課題であり、ニューラルアーキテクチャの設計と探索に不可欠である。 既存のアプローチは、特定の演算子と接続ルールを含む事前定義された設計空間におけるアーキテクチャのモデリングに限られるニューラルパフォーマンス予測器に依存しており、目に見えないアーキテクチャに一般化できないか、常に正確ではないゼロコストプロキシに頼っている。 本稿では,ネットワーク表現,コントラスト事前学習,ファジィクラスタリングに基づく予測器アンサンブルの複合的なイノベーションを通じて,完全に未知のアーキテクチャに一般化することを目的として,open neural architecture benchmarksで事前学習された汎用的なニューラルネットワーク性能推定器gennapeを提案する。 特に、gennapeは任意のアーキテクチャをモデル化できる原子操作の計算グラフ(cg)として与えられたニューラルネットワークを表現する。 まず、Contrastive Learningを通じてグラフエンコーダを学び、トポロジカルな特徴によるネットワーク分離を促進し、その後、ニューラルネットワークのファジィメンバシップに応じてソフトアグリゲーションされた複数の予測ヘッドをトレーニングする。 実験により、NAS-Bench-101で事前訓練されたGENNAPEは、NAS-Bench-201、NAS-Bench-301、MobileNet、ResNetファミリーを含む5つの公開ニューラルネットワークベンチマークへの、最小あるいは最小限の微調整で、優れた転送性を実現することが示されている。 さらに、狭い精度範囲に集中できるHiAML、Inception、Two-Pathという、新たにラベル付けされたニューラルネットワークベンチマークを3つ導入する。 大規模な実験により、GENNAPEはこれらのファミリーの高性能アーキテクチャを正しく識別できることが示されている。 最後に、検索アルゴリズムと組み合わせると、GENNAPEは3つのファミリーのFLOPを削減しながら精度を向上させるアーキテクチャを見つけることができる。

Predicting neural architecture performance is a challenging task and is crucial to neural architecture design and search. Existing approaches either rely on neural performance predictors which are limited to modeling architectures in a predefined design space involving specific sets of operators and connection rules, and cannot generalize to unseen architectures, or resort to zero-cost proxies which are not always accurate. In this paper, we propose GENNAPE, a Generalized Neural Architecture Performance Estimator, which is pretrained on open neural architecture benchmarks, and aims to generalize to completely unseen architectures through combined innovations in network representation, contrastive pretraining, and fuzzy clustering-based predictor ensemble. Specifically, GENNAPE represents a given neural network as a Computation Graph (CG) of atomic operations which can model an arbitrary architecture. It first learns a graph encoder via Contrastive Learning to encourage network separation by topological features, and then trains multiple predictor heads, which are soft-aggregated according to the fuzzy membership of a neural network. Experiments show that GENNAPE pretrained on NAS-Bench-101 can achieve superior transferability to 5 different public neural network benchmarks, including NAS-Bench-201, NAS-Bench-301, MobileNet and ResNet families under no or minimum fine-tuning. We further introduce 3 challenging newly labelled neural network benchmarks: HiAML, Inception and Two-Path, which can concentrate in narrow accuracy ranges. Extensive experiments show that GENNAPE can correctly discern high-performance architectures in these families. Finally, when paired with a search algorithm, GENNAPE can find architectures that improve accuracy while reducing FLOPs on three families.
翻訳日:2022-12-01 16:13:43 公開日:2022-11-30
# AIO-P: 画像分類を超えてニューラルネットワークのパフォーマンス予測を拡張

AIO-P: Expanding Neural Performance Predictors Beyond Image Classification ( http://arxiv.org/abs/2211.17228v1 )

ライセンス: Link先を確認
Keith G. Mills, Di Niu, Mohammad Salameh, Weichen Qiu, Fred X. Han, Puyuan Liu, Jialin Zhang, Wei Lu, Shangling Jui(参考訳) ニューラルネットワークの性能評価は、ディープニューラルネットワークの設計には不可欠であるが、コストのかかる手順である。 ニューラルネットワーク予測器は、アーキテクチャをサンプルとして扱い、与えられたタスクでパフォーマンスを見積もるために学習することで、効率的なソリューションを提供する。 しかし、既存の予測子はタスク依存であり、主に画像分類ベンチマークでニューラルネットワークのパフォーマンスを推定する。 それぞれの予測子は、事前に定義されたトポロジと操作セットを持つ特定のアーキテクチャ検索空間の予測を行うように設計されている。 本稿では,複数のコンピュータビジョン(CV)タスクドメインと複数のアーキテクチャ空間からニューラルネットワーク予測器を事前学習し,未知の下流CVタスクやニューラルアーキテクチャに移行することを目的とした,新しいAll-in-One Predictor(AIO-P)を提案する。 本稿では,汎用グラフ表現,効率的な予測事前学習,知識注入技術,下流タスク/スペースへの転送手法について述べる。 AIO-Pが平均絶対誤差 (MAE) とスピアマンランク相関 (SRCC) をそれぞれ1%以下, 0.5以上で達成できることを示す実験結果が得られた。 さらに、AIO-Pはトレーニング中に見えない新しいアーキテクチャへ直接移行でき、FLOPを減らしながら性能を維持するために設計されたアルゴリズムと組み合わせることで、それらを正確にランク付けし、効果的な性能推定器として機能する。

Evaluating neural network performance is critical to deep neural network design but a costly procedure. Neural predictors provide an efficient solution by treating architectures as samples and learning to estimate their performance on a given task. However, existing predictors are task-dependent, predominantly estimating neural network performance on image classification benchmarks. They are also search-space dependent; each predictor is designed to make predictions for a specific architecture search space with predefined topologies and set of operations. In this paper, we propose a novel All-in-One Predictor (AIO-P), which aims to pretrain neural predictors on architecture examples from multiple, separate computer vision (CV) task domains and multiple architecture spaces, and then transfer to unseen downstream CV tasks or neural architectures. We describe our proposed techniques for general graph representation, efficient predictor pretraining and knowledge infusion techniques, as well as methods to transfer to downstream tasks/spaces. Extensive experimental results show that AIO-P can achieve Mean Absolute Error (MAE) and Spearman's Rank Correlation (SRCC) below 1% and above 0.5, respectively, on a breadth of target downstream CV tasks with or without fine-tuning, outperforming a number of baselines. Moreover, AIO-P can directly transfer to new architectures not seen during training, accurately rank them and serve as an effective performance estimator when paired with an algorithm designed to preserve performance while reducing FLOPs.
翻訳日:2022-12-01 16:13:12 公開日:2022-11-30
# ObjCAViT:自然言語モデルと画像オブジェクトのクロスアテンションを用いた単眼深度推定の改善

ObjCAViT: Improving Monocular Depth Estimation Using Natural Language Models And Image-Object Cross-Attention ( http://arxiv.org/abs/2211.17232v1 )

ライセンス: Link先を確認
Dylan Auty and Krystian Mikolajczyk(参考訳) 単眼深度推定(MDE)はコンピュータビジョンにおいて重要な問題であるが、3次元シーンを2次元に圧縮することで生じる曖昧さのため困難である。 現場では、シーンのセマンティクスやその中のオブジェクトを考慮せずに、単純な画像から画像への翻訳として扱うのが一般的である。 対照的に、人間と動物は、MDEの解決に高レベルな情報を使うことが示されている: シーン内の物体の性質、それらの位置と、それと相対的な構成に関する以前の知識、そしてその見かけの大きさは、この曖昧さを解決するのに役立っている。 本稿では,シーン内のオブジェクトの意味やオブジェクト間の関係に関する既知の情報の利用を促すことで,MDE性能を向上させる新しい手法を提案する。 本稿のObjCAViTモジュールは,言語モデルからワールド知識を抽出し,変圧器の注意を生かしてMDE問題の文脈におけるオブジェクト間関係を学習する。 提案手法は高精度な深度マップを作成し,NYUv2およびKITTIデータセット上での競合結果を得た。 アブレーション実験の結果,objcavitモジュール内の言語とクロスアテンションの使用により性能が向上した。 コードはhttps://github.com/dylanauty/objcavitでリリースされる。

While monocular depth estimation (MDE) is an important problem in computer vision, it is difficult due to the ambiguity that results from the compression of a 3D scene into only 2 dimensions. It is common practice in the field to treat it as simple image-to-image translation, without consideration for the semantics of the scene and the objects within it. In contrast, humans and animals have been shown to use higher-level information to solve MDE: prior knowledge of the nature of the objects in the scene, their positions and likely configurations relative to one another, and their apparent sizes have all been shown to help resolve this ambiguity. In this paper, we present a novel method to enhance MDE performance by encouraging use of known-useful information about the semantics of objects and inter-object relationships within a scene. Our novel ObjCAViT module sources world-knowledge from language models and learns inter-object relationships in the context of the MDE problem using transformer attention, incorporating apparent size information. Our method produces highly accurate depth maps, and we obtain competitive results on the NYUv2 and KITTI datasets. Our ablation experiments show that the use of language and cross-attention within the ObjCAViT module increases performance. Code is released at https://github.com/DylanAuty/ObjCAViT.
翻訳日:2022-12-01 16:12:44 公開日:2022-11-30
# sEHR-CE: 効率的で一般化可能な患者コホート拡大のための構造化EHRデータの言語モデリング

sEHR-CE: Language modelling of structured EHR data for efficient and generalizable patient cohort expansion ( http://arxiv.org/abs/2211.17121v1 )

ライセンス: Link先を確認
Anna Munoz-Farre, Harry Rose, Sera Aylin Cakiroglu(参考訳) 電子健康記録(EHR)は、詳細な臨床表現と臨床結果の予測のための前例のない機会を提供する。 複数のデータソースを組み合わせることは、病気の発生率、発生率、および軌跡の全体像を生成するのに不可欠である。 臨床データを結合する標準的なアプローチは、キュレートされた地図を使用して異なる用語体系をまたいで臨床用語を照合することであり、これはしばしば不正確で不完全である。 本稿では,トランスフォーマーをベースとした新しいフレームワークであるsEHR-CEを提案する。 概念のテキスト記述子を用いて臨床用語を統一し,個人のehrをテキストのセクションとして表現する。 次に, 言語モデルを用いて, 非テキストや単一用語のアプローチよりも, 病気の表現型を正確に予測する。 大規模研究である英国バイオバンクのプライマリケアデータとセカンダリケアデータを用いて,我々のアプローチを検証する。 最後に, 2型糖尿病の症例において, sehr-ceが診断を受けず, 患者と臨床特徴を共有できる個人を識別する方法を示す。

Electronic health records (EHR) offer unprecedented opportunities for in-depth clinical phenotyping and prediction of clinical outcomes. Combining multiple data sources is crucial to generate a complete picture of disease prevalence, incidence and trajectories. The standard approach to combining clinical data involves collating clinical terms across different terminology systems using curated maps, which are often inaccurate and/or incomplete. Here, we propose sEHR-CE, a novel framework based on transformers to enable integrated phenotyping and analyses of heterogeneous clinical datasets without relying on these mappings. We unify clinical terminologies using textual descriptors of concepts, and represent individuals' EHR as sections of text. We then fine-tune pre-trained language models to predict disease phenotypes more accurately than non-text and single terminology approaches. We validate our approach using primary and secondary care data from the UK Biobank, a large-scale research study. Finally, we illustrate in a type 2 diabetes use case how sEHR-CE identifies individuals without diagnosis that share clinical characteristics with patients.
翻訳日:2022-12-01 16:12:19 公開日:2022-11-30
# ExtremeBERT: カスタマイズしたBERTの事前トレーニングを加速するためのツールキット

ExtremeBERT: A Toolkit for Accelerating Pretraining of Customized BERT ( http://arxiv.org/abs/2211.17201v1 )

ライセンス: Link先を確認
Rui Pan, Shizhe Diao, Jianlin Chen, Tong Zhang(参考訳) 本稿では,BERT事前学習の高速化とカスタマイズのためのツールキットExtremeBERTを提案する。 我々のゴールは、研究コミュニティと産業にとって使いやすいBERT事前学習ツールキットを提供することです。 したがって、カスタマイズされたデータセット上で人気のある言語モデルの事前トレーニングは、限られたリソースで安価である。 実験によると、同じ、あるいはより優れた結合スコアを達成するために、bertベースではツールキットの時間コストが$6\times$倍以下、bert largeでは$9\times$倍以下になる。 ドキュメントとコードはApache-2.0ライセンスの下でhttps://github.com/extreme-bert/extreme-bertで公開されている。

In this paper, we present ExtremeBERT, a toolkit for accelerating and customizing BERT pretraining. Our goal is to provide an easy-to-use BERT pretraining toolkit for the research community and industry. Thus, the pretraining of popular language models on customized datasets is affordable with limited resources. Experiments show that, to achieve the same or better GLUE scores, the time cost of our toolkit is over $6\times$ times less for BERT Base and $9\times$ times less for BERT Large when compared with the original BERT paper. The documentation and code are released at https://github.com/extreme-bert/extreme-bert under the Apache-2.0 license.
翻訳日:2022-12-01 16:12:00 公開日:2022-11-30
# 三面拡散を用いた3次元ニューラルフィールド生成

3D Neural Field Generation using Triplane Diffusion ( http://arxiv.org/abs/2211.16677v1 )

ライセンス: Link先を確認
J. Ryan Shue, Eric Ryan Chan, Ryan Po, Zachary Ankner, Jiajun Wu and Gordon Wetzstein(参考訳) 拡散モデルが画像生成の最先端技術として登場してきた。 本稿では,ニューラルネットワークの3次元認識のための拡散モデルを提案する。 提案手法は,ShapeNetメッシュなどのトレーニングデータを,連続的な占有領域に変換して,軸方向の3平面特徴表現に分解することで,事前処理する。 したがって、我々の3dトレーニングシーンはすべて2d特徴平面で表現され、既存の2d拡散モデルをこれらの表現で直接トレーニングすることで、高品質で多様性のある3dニューラルネットワークを生成し、3d認識生成の代替アプローチよりも優れています。 提案手法では,既存の三面体分解パイプラインに必須な修正を加え,拡散モデルの学習を容易にする。 shapenet のいくつかのオブジェクトクラスで 3d 生成に関する最新の結果を示す。

Diffusion models have emerged as the state-of-the-art for image generation, among other tasks. Here, we present an efficient diffusion-based model for 3D-aware generation of neural fields. Our approach pre-processes training data, such as ShapeNet meshes, by converting them to continuous occupancy fields and factoring them into a set of axis-aligned triplane feature representations. Thus, our 3D training scenes are all represented by 2D feature planes, and we can directly train existing 2D diffusion models on these representations to generate 3D neural fields with high quality and diversity, outperforming alternative approaches to 3D-aware generation. Our approach requires essential modifications to existing triplane factorization pipelines to make the resulting features easy to learn for the diffusion model. We demonstrate state-of-the-art results on 3D generation on several object classes from ShapeNet.
翻訳日:2022-12-01 16:11:49 公開日:2022-11-30
# 局所スコーリングを用いた遺伝的プログラミング

Genetic Programming with Local Scoring ( http://arxiv.org/abs/2211.17234v1 )

ライセンス: Link先を確認
Max Vistrup(参考訳) 変異のシーケンスを経たコード進化のための新しい手法をいくつか提示する。 このうち,(1)プログラムの各表現にスコアを割り当てる局所的なスコア付け手法により,より正確にバギーコードを特定することができ,(2)if条件を進化させる中間ステップとして機能する仮定表現,(3)プログラムの拡張と縮小の段階を通じてプログラムを進化させる循環的進化,などがある。 そのメリットを実証するために,我々は,整数やリストを操作する複数の関数に対して,既存の遺伝的プログラミング手法では役に立たないような正しいコードを進化させる基本的な概念実証実装を提案する。

We present several new techniques for evolving code through sequences of mutations. Among these are (1) a method of local scoring assigning a score to each expression in a program, allowing us to more precisely identify buggy code, (2) suppose-expressions which act as an intermediate step to evolving if-conditionals, and (3) cyclic evolution in which we evolve programs through phases of expansion and reduction. To demonstrate their merits, we provide a basic proof-of-concept implementation which we show evolves correct code for several functions manipulating integers and lists, including some that are intractable by means of existing Genetic Programming techniques.
翻訳日:2022-12-01 16:11:35 公開日:2022-11-30
# ブースト動的ニューラルネットワーク

Boosted Dynamic Neural Networks ( http://arxiv.org/abs/2211.16726v1 )

ライセンス: Link先を確認
Haichao Yu, Haoxiang Li, Gang Hua, Gao Huang, Humphrey Shi(参考訳) 動的ニューラルネットワークの1つのタイプであるEarly-Exiting Dynamic Neural Network (EDNN)は近年広く研究されている。 典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。 推論中は、予測信頼度が予め定義された閾値よりも高い最後の予測ヘッドまたは中間予測ヘッドのいずれかでモデルが終了する。 モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。 これにより、すべての予測ヘッドがトレーニングフェーズですべての種類のデータに最適化され、さらに深いヘッドはテストフェーズで難しい入力しか表示されないという、トレインテストミスマッチ問題が発生する。 トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。 この問題を緩和するために,勾配向上にインスパイアされた付加モデルとしてEDNNを定式化し,モデルを効果的に最適化するための複数のトレーニング手法を提案する。 私たちはboostnetメソッドを名付けます。 実験の結果,CIFAR100とImageNetのデータセットのリアルタイムおよび予算付きバッチ予測モードにおける最先端性能が得られた。 私たちのコードはhttps://github.com/SHI-Labs/Boosted-Dynamic-Networks.orgで公開されています。

Early-exiting dynamic neural networks (EDNN), as one type of dynamic neural networks, has been widely studied recently. A typical EDNN has multiple prediction heads at different layers of the network backbone. During inference, the model will exit at either the last prediction head or an intermediate prediction head where the prediction confidence is higher than a predefined threshold. To optimize the model, these prediction heads together with the network backbone are trained on every batch of training data. This brings a train-test mismatch problem that all the prediction heads are optimized on all types of data in training phase while the deeper heads will only see difficult inputs in testing phase. Treating training and testing inputs differently at the two phases will cause the mismatch between training and testing data distributions. To mitigate this problem, we formulate an EDNN as an additive model inspired by gradient boosting, and propose multiple training techniques to optimize the model effectively. We name our method BoostNet. Our experiments show it achieves the state-of-the-art performance on CIFAR100 and ImageNet datasets in both anytime and budgeted-batch prediction modes. Our code is released at https://github.com/SHI-Labs/Boosted-Dynamic-Networks.
翻訳日:2022-12-01 16:03:38 公開日:2022-11-30
# 最適輸送に基づく混合モデルによる連続学習

Continual Learning with Optimal Transport based Mixture Model ( http://arxiv.org/abs/2211.16780v1 )

ライセンス: Link先を確認
Quyen Tran, Hoang Phan, Khoat Than, Dinh Phung, Trung Le(参考訳) オンラインクラスインクリメンタル学習(cil: online class incremental learning)は、新しいタスクのデータが入ってくるストリームに到着し、オンライン学習モデルが入ってくるデータストリームを、以前のものを再検討することなく処理する必要がある、継続学習(continual learning:cl)において、難しい設定である。 既存の作業では、クラスを特徴付けるために、入ってくるデータストリームに適応した単一のcentroidを使用していた。 このアプローチは、クラスの入力データストリームが自然にマルチモーダルである場合に制限を公開する可能性がある。 そこで本研究では,成熟度最適輸送理論(OT-MM)の優れた性質に基づくオンライン混合モデル学習手法を提案する。 特に、混合モデルのセントロイドと共分散行列は、入力データストリームに応じて漸進的に適応される。 利点は2つある。 (i)より正確に複雑なデータストリームを特徴付けることができる (ii) ot-mm が生成する各クラスに対してcentroids を用いることにより、推論を行う際に、各クラスに対する見当たらない例の類似性をより合理的に推定することができる。 さらに,CILシナリオにおける破滅的な忘れと戦うために,動的保存を提案する。 特に、データストリーム間で動的保存技術を実行すると、古いタスクや新しいタスクにおけるクラスの潜在表現がより凝縮され、互いに分離するようになる。 収縮特徴抽出器とともに、この技術は破滅的忘れを緩和するモデルを促進する。 実世界のデータセットを用いた実験結果から,提案手法は現在の最先端のベースラインを大きく上回ることを示す。

Online Class Incremental learning (CIL) is a challenging setting in Continual Learning (CL), wherein data of new tasks arrive in incoming streams and online learning models need to handle incoming data streams without revisiting previous ones. Existing works used a single centroid adapted with incoming data streams to characterize a class. This approach possibly exposes limitations when the incoming data stream of a class is naturally multimodal. To address this issue, in this work, we first propose an online mixture model learning approach based on nice properties of the mature optimal transport theory (OT-MM). Specifically, the centroids and covariance matrices of the mixture model are adapted incrementally according to incoming data streams. The advantages are two-fold: (i) we can characterize more accurately complex data streams and (ii) by using centroids for each class produced by OT-MM, we can estimate the similarity of an unseen example to each class more reasonably when doing inference. Moreover, to combat the catastrophic forgetting in the CIL scenario, we further propose Dynamic Preservation. Particularly, after performing the dynamic preservation technique across data streams, the latent representations of the classes in the old and new tasks become more condensed themselves and more separate from each other. Together with a contraction feature extractor, this technique facilitates the model in mitigating the catastrophic forgetting. The experimental results on real-world datasets show that our proposed method can significantly outperform the current state-of-the-art baselines.
翻訳日:2022-12-01 16:03:18 公開日:2022-11-30
# dr.3d: 3d ganを芸術的図面に適応させる

Dr.3D: Adapting 3D GANs to Artistic Drawings ( http://arxiv.org/abs/2211.16798v1 )

ライセンス: Link先を確認
Wonjoon Jin, Nuri Ryu, Geonung Kim, Seung-Hwan Baek, Sunghyun Cho(参考訳) 3D GANは、最近、マルチビュー一貫性のある画像と3D形状の高品質な合成を実証した。 本論文は、3D GANを異なるが有意義な視覚形式に拡張することを目的としている。 しかし、既存の3D GANを図面に拡張することは、図面に現れる必然的な幾何学的曖昧さのために困難である。 そこで我々は,既存の3D GANを芸術的図面に適応させる新しい適応手法Dr.3Dを提案する。 Dr.3Dは、幾何学的曖昧性を扱うための3つの新しいコンポーネントを備えている: 変形対応の3D合成ネットワーク、ポーズ推定と画像合成の交互適応、および幾何学的先行である。 実験により,本手法は図面に3D GANを適応させ,図面の多視点一貫した意味的編集を可能にする。

While 3D GANs have recently demonstrated the high-quality synthesis of multi-view consistent images and 3D shapes, they are mainly restricted to photo-realistic human portraits. This paper aims to extend 3D GANs to a different, but meaningful visual form: artistic portrait drawings. However, extending existing 3D GANs to drawings is challenging due to the inevitable geometric ambiguity present in drawings. To tackle this, we present Dr.3D, a novel adaptation approach that adapts an existing 3D GAN to artistic drawings. Dr.3D is equipped with three novel components to handle the geometric ambiguity: a deformation-aware 3D synthesis network, an alternating adaptation of pose estimation and image synthesis, and geometric priors. Experiments show that our approach can successfully adapt 3D GANs to drawings and enable multi-view consistent semantic editing of drawings.
翻訳日:2022-12-01 16:02:50 公開日:2022-11-30
# WeatherFusionNet:衛星データによる降水予測

WeatherFusionNet: Predicting Precipitation from Satellite Data ( http://arxiv.org/abs/2211.16824v1 )

ライセンス: Link先を確認
Ji\v{r}\'i Pihrt, Rudolf Raevskiy, Petr \v{S}im\'anek, Matej Choma(参考訳) 降水の短期予測は生命の多くの領域で重要である。 近年,レーダー反射率画像の予測に多くの研究が費やされている。 レーダー画像は、地上の気象レーダーのある地域でのみ利用可能である。 そこで我々は,低解像度衛星放射画像から高分解能降水を予測することを目的とした。 weatherfusionnetと呼ばれるニューラルネットワークを使用して、8時間前の激しい雨を予測する。 WeatherFusionNetは3つの異なる方法で衛星データを処理し、将来の衛星フレームを予測し、現在のフレームから雨情報を抽出し、入力シーケンスを直接使用するU-Netアーキテクチャである。 提案手法を用いて,NeurIPS 2022 Weather4Cast Core チャレンジで1位を獲得した。 コードとトレーニングされたパラメータは、 \url{https://github.com/Datalab-FIT-CTU/weather4cast-2022} で入手できる。

The short-term prediction of precipitation is critical in many areas of life. Recently, a large body of work was devoted to forecasting radar reflectivity images. The radar images are available only in areas with ground weather radars. Thus, we aim to predict high-resolution precipitation from lower-resolution satellite radiance images. A neural network called WeatherFusionNet is employed to predict severe rain up to eight hours in advance. WeatherFusionNet is a U-Net architecture that fuses three different ways to process the satellite data; predicting future satellite frames, extracting rain information from the current frames, and using the input sequence directly. Using the presented method, we achieved 1st place in the NeurIPS 2022 Weather4Cast Core challenge. The code and trained parameters are available at \url{https://github.com/Datalab-FIT-CTU/weather4cast-2022}.
翻訳日:2022-12-01 16:02:35 公開日:2022-11-30
# ドーナツ核を用いたパターン注目トランス

Pattern Attention Transformer with Doughnut Kernel ( http://arxiv.org/abs/2211.16961v1 )

ライセンス: Link先を確認
WenYuan Sheng(参考訳) 本稿では,新しいドーナツカーネルからなる新しいアーキテクチャであるPattern Attention Transformer(PAT)を提案する。 NLPフィールドのトークンと比較すると、コンピュータビジョンのトランスフォーマーは画像中のピクセルの高解像度処理に問題がある。 ViTとその後継からパッチ/ウィンドウのアイデアを継承し、ドーナツカーネルはパッチの設計を強化する。 ラインカットの境界を、センサーと更新という2つのタイプの領域に置き換える。 ドーナツカーネルはまた、カーネルの形状に関する新しいトピックももたらしている。 画像分類の性能を検証するため、PATは通常の八角形ドーナツカーネルのトランスフォーマーブロックを用いて設計されている。 imagenet 1kの性能はスウィントランス (+0.7 acc1) を上回っている。

We present in this paper a new architecture, the Pattern Attention Transformer (PAT), that is composed of the new doughnut kernel. Compared with tokens in the NLP field, Transformer in computer vision has the problem of handling the high resolution of pixels in images. Inheriting the patch/window idea from ViT and its follow-ups, the doughnut kernel enhances the design of patches. It replaces the line-cut boundaries with two types of areas: sensor and updating, which is based on the comprehension of self-attention (named QKVA grid). The doughnut kernel also brings a new topic about the shape of kernels. To verify its performance on image classification, PAT is designed with Transformer blocks of regular octagon shape doughnut kernels. Its performance on ImageNet 1K surpasses the Swin Transformer (+0.7 acc1).
翻訳日:2022-12-01 16:02:22 公開日:2022-11-30
# 一般政策マッピング:昆虫脳に触発されたオンライン連続的強化学習

General policy mapping: online continual reinforcement learning inspired on the insect brain ( http://arxiv.org/abs/2211.16759v1 )

ライセンス: Link先を確認
Angel Yanguas-Gil, Sandeep Madireddy(参考訳) 我々は,昆虫脳にインスパイアされたオンライン連続的あるいは生涯強化学習(rl)モデルを開発した。 提案モデルは,オンライン環境におけるRLアルゴリズムの収束を可能にするために,特徴抽出と共通ポリシーレイヤのオフライントレーニングを利用する。 タスク間で共通ポリシー層を共有することは、エージェントが同じ基本方針を共有する古いタスクにおいて継続的に改善する、ポジティブな下位転送につながる。 エージェントのネットワークに対する生物学的にインスパイアされた制限は、RLアルゴリズムの収束の鍵となる。 これにより、リソース制約のあるシナリオにおける効率的なオンラインRLへの経路を提供する。

We have developed a model for online continual or lifelong reinforcement learning (RL) inspired on the insect brain. Our model leverages the offline training of a feature extraction and a common general policy layer to enable the convergence of RL algorithms in online settings. Sharing a common policy layer across tasks leads to positive backward transfer, where the agent continuously improved in older tasks sharing the same underlying general policy. Biologically inspired restrictions to the agent's network are key for the convergence of RL algorithms. This provides a pathway towards efficient online RL in resource-constrained scenarios.
翻訳日:2022-12-01 15:56:11 公開日:2022-11-30
# 固有モチベーションを用いた自己刺激学習の探索改善に向けて

Towards Improving Exploration in Self-Imitation Learning using Intrinsic Motivation ( http://arxiv.org/abs/2211.16838v1 )

ライセンス: Link先を確認
Alain Andres, Esther Villar-Rodriguez and Javier Del Ser(参考訳) 強化学習は最適化タスクを効率的に解くための強力な代替手段として登場した。 これらのアルゴリズムの使用は、学習したエージェントが行う決定がどれほど良い(または悪い)かを知らせる環境の提供するフィードバック信号に大きく依存する。 残念なことに、幅広い問題において、良い報酬関数の設計は自明ではないので、そのような場合、少ない報酬信号が採用される。 厳密な報酬関数の欠如は、探索に関係した新しい課題を引き起こす。 模倣学習は、専門家によるデモンストレーションを活用することで、これらの問題に対処している。 専門家(とそのその後のデモンストレーション)がいない場合、エージェントが収集した適切な探索体験を優先して、優れた探索行動で学習プロセスをブートストラップするオプションがある。 しかしながら、この解は、学習プロセスの初期段階でそのような軌道を発見するエージェントの能力に大きく依存する。 この問題に対処するために,本研究では,模擬学習と本質的な動機付けを組み合わせることを提案する。 この研究では、本質的な動機付けは、エージェントが好奇心に基づいて環境を探索することを奨励するのに対して、模倣学習は学習プロセスを加速するために最も有望な経験を繰り返すことができる。 この組み合わせは、手順的に生成された環境におけるパフォーマンスの向上と一般化をもたらし、以前報告された自己模倣学習法を上回り、孤立における本質的動機付けに関して同等またはより良いサンプル効率を達成することが示されている。

Reinforcement Learning has emerged as a strong alternative to solve optimization tasks efficiently. The use of these algorithms highly depends on the feedback signals provided by the environment in charge of informing about how good (or bad) the decisions made by the learned agent are. Unfortunately, in a broad range of problems the design of a good reward function is not trivial, so in such cases sparse reward signals are instead adopted. The lack of a dense reward function poses new challenges, mostly related to exploration. Imitation Learning has addressed those problems by leveraging demonstrations from experts. In the absence of an expert (and its subsequent demonstrations), an option is to prioritize well-suited exploration experiences collected by the agent in order to bootstrap its learning process with good exploration behaviors. However, this solution highly depends on the ability of the agent to discover such trajectories in the early stages of its learning process. To tackle this issue, we propose to combine imitation learning with intrinsic motivation, two of the most widely adopted techniques to address problems with sparse reward. In this work intrinsic motivation is used to encourage the agent to explore the environment based on its curiosity, whereas imitation learning allows repeating the most promising experiences to accelerate the learning process. This combination is shown to yield an improved performance and better generalization in procedurally-generated environments, outperforming previously reported self-imitation learning methods and achieving equal or better sample efficiency with respect to intrinsic motivation in isolation.
翻訳日:2022-12-01 15:55:56 公開日:2022-11-30
# グラフ変分オートエンコーダによるリアルな合成関係データの生成

Generating Realistic Synthetic Relational Data through Graph Variational Autoencoders ( http://arxiv.org/abs/2211.16889v1 )

ライセンス: Link先を確認
Ciro Antonio Mami, Andrea Coser, Eric Medvet, Alexander T.P. Boudewijn, Marco Volpe, Michael Whitworth, Borut Svara, Gabriele Sgroi, Daniele Panfilo, Sebastiano Saccani(参考訳) 合成データ生成は最近、従来のデータ匿名化よりも信頼性の高い代替手段として広く注目を集めている。 この手法はもともと画像合成のために開発された。 したがって、医療、金融、その他の産業の典型的な表型および関係性データセットへの彼らの応用は自明ではない。 現実的な表型データセットの生成にかなりの研究が費やされているが、合成関係データベースの研究はまだ初期段階にある。 本稿では,変分オートエンコーダフレームワークをグラフニューラルネットワークと組み合わせて,リアルな合成関係データベースを生成する。 得られた手法を2つの公開データベースに適用して計算実験を行う。 その結果、実際のデータベースの構造は、高度なデータ型を持つ大規模なデータセットであっても、結果の合成データセットに正確に保存されていることがわかった。

Synthetic data generation has recently gained widespread attention as a more reliable alternative to traditional data anonymization. The involved methods are originally developed for image synthesis. Hence, their application to the typically tabular and relational datasets from healthcare, finance and other industries is non-trivial. While substantial research has been devoted to the generation of realistic tabular datasets, the study of synthetic relational databases is still in its infancy. In this paper, we combine the variational autoencoder framework with graph neural networks to generate realistic synthetic relational databases. We then apply the obtained method to two publicly available databases in computational experiments. The results indicate that real databases' structures are accurately preserved in the resulting synthetic datasets, even for large datasets with advanced data types.
翻訳日:2022-12-01 15:55:28 公開日:2022-11-30
# 因果推論によるデジタル農業勧告の評価

Evaluating Digital Agriculture Recommendations with Causal Inference ( http://arxiv.org/abs/2211.16938v1 )

ライセンス: Link先を確認
Ilias Tsoumas, Georgios Giannarakis, Vasileios Sitokonstantinou, Alkiviadis Koukos, Dimitra Loka, Nikolaos Bartsotas, Charalampos Kontoes, Ioannis Athanasiadis(参考訳) いくつかの産業の急速なデジタル化とは対照的に、農業はスマート農業ツールの採用が低い。 ai駆動のデジタル農業ツールは高いパフォーマンスの予測機能を提供できるが、農家の利益に関する具体的な定量的な証拠が欠けている。 フィールド実験はそのような証拠を導き出すことができるが、しばしばコストがかかり、時間がかかり、適用範囲や規模が制限される。 そこで本研究では,デジタルツールが農作物のパフォーマンス指標(例えば,この場合の収量)に与える影響を実証的に評価するための観察因果推論フレームワークを提案する。 このように、デジタル農業市場の透明性を高め、農家所得の回復力とグローバル農業の持続可能性を確保する技術の導入を促進することで、農家の信頼を高めることができる。 本研究では,2021年の成長期に農民協同組合が行った数値気象予測に基づいて,綿花の最適播種時期の推薦システムを設計・実装した。 次に、農業知識、収量データ、環境情報を活用して、農業システムの因果グラフを作成する。 バックドア基準を用いて, 播種勧告が収量に与える影響を同定し, 線形回帰, マッチング, 逆確率スコア重み付け, メタラーナーを用いて推定した。 以上の結果から, 提案手法により, 畑の播種が統計的に有意な収率増加を示し, 方法によっては12%から17%に変化した。 効果評価は, 評価方法の一致と4回の反論試験が成功したことから, 頑健であった。 このアプローチは他の分野の意思決定支援システムにも適用でき、内部機能の性能評価を超えて評価を拡大できると論じる。

In contrast to the rapid digitalization of several industries, agriculture suffers from low adoption of smart farming tools. While AI-driven digital agriculture tools can offer high-performing predictive functionalities, they lack tangible quantitative evidence on their benefits to the farmers. Field experiments can derive such evidence, but are often costly, time consuming and hence limited in scope and scale of application. To this end, we propose an observational causal inference framework for the empirical evaluation of the impact of digital tools on target farm performance indicators (e.g., yield in this case). This way, we can increase farmers' trust via enhancing the transparency of the digital agriculture market and accelerate the adoption of technologies that aim to secure farmer income resilience and global agricultural sustainability. As a case study, we designed and implemented a recommendation system for the optimal sowing time of cotton based on numerical weather predictions, which was used by a farmers' cooperative during the growing season of 2021. We then leverage agricultural knowledge, collected yield data, and environmental information to develop a causal graph of the farm system. Using the back-door criterion, we identify the impact of sowing recommendations on the yield and subsequently estimate it using linear regression, matching, inverse propensity score weighting and meta-learners. The results reveal that a field sown according to our recommendations exhibited a statistically significant yield increase that ranged from 12% to 17%, depending on the method. The effect estimates were robust, as indicated by the agreement among the estimation methods and four successful refutation tests. We argue that this approach can be implemented for decision support systems of other fields, extending their evaluation beyond a performance assessment of internal functionalities.
翻訳日:2022-12-01 15:55:18 公開日:2022-11-30
# 動的グラフからの直進非巡回グラフ構造学習

Directed Acyclic Graph Structure Learning from Dynamic Graphs ( http://arxiv.org/abs/2211.17029v1 )

ライセンス: Link先を確認
Shaohua Fan, Shuyang Zhang, Xiao Wang, Chuan Shi(参考訳) 特徴(変数)の有向非巡回グラフ(DAG)の構造を推定することは、潜在データ生成プロセスを明らかにし、様々なアプリケーションに因果的な洞察を提供する上で重要な役割を果たす。 様々な種類のデータを用いた構造学習に関する研究が数多く行われているが、動的グラフの構造学習はまだ検討されておらず、ユビキタスな動的グラフデータにおけるノード特徴生成機構の学習問題の研究を行っている。 動的グラフでは,ノード特徴間の同時関係と時間差関係を同時に推定する。 これらの2種類の関係はDAGを形成し、簡潔な方法で特徴生成プロセスを効果的に特徴付けることができる。 このようなDAGを学習するために、学習問題を連続的なスコアベース最適化問題として、学習されたDAGの妥当性を測定するための微分可能なスコア関数と、学習したDAGの非周期性を確保するための滑らかな非循環性制約とからなる。 これらの2つの成分は、成熟した連続最適化手法によって最小化できる、制約のない拡張ラグランジアン目的に変換される。 GraphNOTEARSというアルゴリズムは、現実世界のアプリケーションで発生する可能性のある幅広い設定でシミュレーションされたデータに基づいて、ベースラインを上回ります。 また,実世界のyelpデータセットから構築した2つの動的グラフに対して提案手法を適用し,ドメイン知識に準拠したノード機能間の接続を学習できることを実証した。

Estimating the structure of directed acyclic graphs (DAGs) of features (variables) plays a vital role in revealing the latent data generation process and providing causal insights in various applications. Although there have been many studies on structure learning with various types of data, the structure learning on the dynamic graph has not been explored yet, and thus we study the learning problem of node feature generation mechanism on such ubiquitous dynamic graph data. In a dynamic graph, we propose to simultaneously estimate contemporaneous relationships and time-lagged interaction relationships between the node features. These two kinds of relationships form a DAG, which could effectively characterize the feature generation process in a concise way. To learn such a DAG, we cast the learning problem as a continuous score-based optimization problem, which consists of a differentiable score function to measure the validity of the learned DAGs and a smooth acyclicity constraint to ensure the acyclicity of the learned DAGs. These two components are translated into an unconstraint augmented Lagrangian objective which could be minimized by mature continuous optimization techniques. The resulting algorithm, named GraphNOTEARS, outperforms baselines on simulated data across a wide range of settings that may encounter in real-world applications. We also apply the proposed approach on two dynamic graphs constructed from the real-world Yelp dataset, demonstrating our method could learn the connections between node features, which conforms with the domain knowledge.
翻訳日:2022-12-01 15:54:31 公開日:2022-11-30
# 野生動物におけるテキスト分類のための学習ラベルモジュールプロンプト

Learning Label Modular Prompts for Text Classification in the Wild ( http://arxiv.org/abs/2211.17142v1 )

ライセンス: Link先を確認
Hailin Chen, Amrita Saha, Shafiq Joty, Steven C.H. Hoi(参考訳) 機械学習モデルは通常、トレーニングとテストの間、i.i.dデータを仮定するが、現実世界のデータとタスクは時間とともに変化する。 実世界の過渡的な性質をエミュレートするために,本研究では,非定常学習/テスト段階の異なるテキスト分類方式を提案する。 複雑なタスクをモジュールコンポーネントに分解することで、このような非定常環境下で堅牢な一般化が可能になる。 しかし、NLPにおける現在のモジュラーアプローチは、事前訓練された言語モデルのパラメータ効率的なチューニングの最近の進歩を生かしていない。 このギャップを埋めるために,テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。 MODcularPROMPTでは、入力プロンプトはソフトラベルプロンプトのシーケンスで構成され、それぞれが対応するクラスラベルに関するモジュラー知識を符号化する。 最も恐ろしい2つの設定において、MODcularPROMPTは、強い一般化能力を示す大きなマージンで関連するベースラインを上回っている。 また、学習したプロンプトがモジュラー表現の性質を満たすかどうかを総合解析して検証する。

Machine learning models usually assume i.i.d data during training and testing, but data and tasks in real world often change over time. To emulate the transient nature of real world, we propose a challenging but practical task: text classification in-the-wild, which introduces different non-stationary training/testing stages. Decomposing a complex task into modular components can enable robust generalisation under such non-stationary environment. However, current modular approaches in NLP do not take advantage of recent advances in parameter efficient tuning of pretrained language models. To close this gap, we propose MODULARPROMPT, a label-modular prompt tuning framework for text classification tasks. In MODULARPROMPT, the input prompt consists of a sequence of soft label prompts, each encoding modular knowledge related to the corresponding class label. In two of most formidable settings, MODULARPROMPT outperforms relevant baselines by a large margin demonstrating strong generalisation ability. We also conduct comprehensive analysis to validate whether the learned prompts satisfy properties of a modular representation.
翻訳日:2022-12-01 15:54:07 公開日:2022-11-30
# 高次元ワイドギャップ$k$-means対クラスタリング公理

High-Dimensional Wide Gap $k$-Means Versus Clustering Axioms ( http://arxiv.org/abs/2211.17036v1 )

ライセンス: Link先を確認
Mieczys{\l}aw A. K{\l}opotek(参考訳) 距離に基づくクラスタリングに対するクラインバーグの公理は矛盾することが判明した。 この問題を解決するために様々な努力がなされている。 ここでは,高次元空間に埋め込み,クラスタ間の広いギャップを付与することでこの問題に対処しようとする。

Kleinberg's axioms for distance based clustering proved to be contradictory. Various efforts have been made to overcome this problem. Here we make an attempt to handle the issue by embedding in high-dimensional space and granting wide gaps between clusters.
翻訳日:2022-12-01 15:53:26 公開日:2022-11-30
# 投機復号による変圧器からの高速推論

Fast Inference from Transformers via Speculative Decoding ( http://arxiv.org/abs/2211.17192v1 )

ライセンス: Link先を確認
Yaniv Leviathan, Matan Kalman, Yossi Matias(参考訳) トランスフォーマーのような大規模な自己回帰モデルからの推論は、kトークンのスローデコードである。 本研究では,複数のトークンを並列に計算することで,自動回帰モデルから高速にサンプリングするアルゴリズムである投機的復号化を導入する。 提案手法の核心にあるのは,(1)ハード言語モデリングタスクには,より効率的なモデルによって適切に近似できる簡単なサブタスクが含まれていること,(2)投機的実行と新しいサンプリング手法を用いることで,近似モデルの出力に対して並列に実行し,複数のトークンを同時に生成し,分散を変更することなく,大規模モデルからの正確な復号を高速に行えることにある。 提案手法は,既存の既成モデルに対して,再訓練やアーキテクチャの変更を伴わずにサポートしている。 我々は、T5-XXL上でこれを実証し、2X-3Xの加速度を標準のT5X実装と比較した。

Inference from large autoregressive models like Transformers is slow - decoding K tokens takes K serial runs of the model. In this work we introduce speculative decoding - an algorithm to sample from autoregressive models faster without any changes to the outputs, by computing several tokens in parallel. At the heart of our approach lie the observations that (1) hard language-modeling tasks often include easier subtasks that can be approximated well by more efficient models, and (2) using speculative execution and a novel sampling method, we can make exact decoding from the large models faster, by running them in parallel on the outputs of the approximation models, potentially generating several tokens concurrently, and without changing the distribution. Our method supports existing off-the-shelf models without retraining or architecture changes. We demonstrate it on T5-XXL and show a 2X-3X acceleration compared to the standard T5X implementation, with identical outputs.
翻訳日:2022-12-01 15:47:06 公開日:2022-11-30
# 葉のインスタンスマスクの成長

Growing Instance Mask on Leaf ( http://arxiv.org/abs/2211.16738v1 )

ライセンス: Link先を確認
Chuang Yang, Haozhao Ma, and Qi Wang(参考訳) 輪郭ベースのインスタンスセグメンテーション手法には、一段階と多段階のスキームが含まれる。 これらのアプローチは素晴らしいパフォーマンスを達成する。 しかし、彼らは精密なマスクをセグメントするために多くのポイントを定義しなければならない。 我々はこの問題に追従し、低設計の複雑さで競合性能を達成するための単発法である \textbf{veinmask} を提案する。 具体的には、葉は大きな静脈を介して粗い縁の位置にあり、小さな静脈を成長させてねじれ部を洗練させ、あらゆる物体を正確に覆うことができる。 一方、メジャーとマイナーの静脈は同じ成長モードを共有しており、個別にモデリングすることを避け、モデルの単純さを保証する。 上述の優位性を考慮すると、静脈成長過程のシミュレーションとしてインスタンスセグメンテーション問題を定式化し、極座標における大静脈および小静脈を予測するためにVeinMaskを提案する。 さらに、セグメンテーションタスクのセグメンテーションでは、低品質のインスタンスを抑制するためにcentroidnessが導入されている。 さらに、各画素の周囲を利用して特徴表現を強化するために、周辺相互相関感度(SCCS)モジュールを設計する。 さらに、残留IoU損失(R-IoU)を定式化し、大静脈および小静脈の回帰タスクを効果的に監視する。 実験により、VeinMaskは設計の複雑さが低い他の輪郭ベースの方法よりもはるかに優れた性能を示している。 特に,提案手法はCOCOデータセット上の既存の1段階の輪郭法よりも設計の複雑さが半々である。

Contour-based instance segmentation methods include one-stage and multi-stage schemes. These approaches achieve remarkable performance. However, they have to define plenty of points to segment precise masks, which leads to high complexity. We follow this issue and present a single-shot method, called \textbf{VeinMask}, for achieving competitive performance in low design complexity. Concretely, we observe that the leaf locates coarse margins via major veins and grows minor veins to refine twisty parts, which makes it possible to cover any objects accurately. Meanwhile, major and minor veins share the same growth mode, which avoids modeling them separately and ensures model simplicity. Considering the superiorities above, we propose VeinMask to formulate the instance segmentation problem as the simulation of the vein growth process and to predict the major and minor veins in polar coordinates. Besides, centroidness is introduced for instance segmentation tasks to help suppress low-quality instances. Furthermore, a surroundings cross-correlation sensitive (SCCS) module is designed to enhance the feature expression by utilizing the surroundings of each pixel. Additionally, a Residual IoU (R-IoU) loss is formulated to supervise the regression tasks of major and minor veins effectively. Experiments demonstrate that VeinMask performs much better than other contour-based methods in low design complexity. Particularly, our method outperforms existing one-stage contour-based methods on the COCO dataset with almost half the design complexity.
翻訳日:2022-12-01 15:46:48 公開日:2022-11-30
# 汎用文書再キャプチャアタック検出のための2分岐多スケール深層ニューラルネットワーク

Two-branch Multi-scale Deep Neural Network for Generalized Document Recapture Attack Detection ( http://arxiv.org/abs/2211.16786v1 )

ライセンス: Link先を確認
Jiaxing Li, Chenqi Kong, Shiqi Wang, and Haoliang Li(参考訳) 画像再キャプチャー攻撃は、ある法医学的痕跡を消去するための効果的な画像操作方法であり、個人文書イメージをターゲットとすると、電子商取引やその他のウェブアプリケーションのセキュリティに大きな脅威をもたらす。 本稿では,既存の学習手法が重大オーバーフィッティング問題に悩まされていることを考慮し,周波数フィルタバンクとマルチスケールクロスアテンション融合モジュールを設計した,より汎用化された再キャプチャアーティファクトをマイニングすることで,新しい2分岐ディープニューラルネットワークを提案する。 本手法は,様々なシナリオにおける最先端技術と比較して,より優れた一般化を実現することができることを示す。

The image recapture attack is an effective image manipulation method to erase certain forensic traces, and when targeting on personal document images, it poses a great threat to the security of e-commerce and other web applications. Considering the current learning-based methods suffer from serious overfitting problem, in this paper, we propose a novel two-branch deep neural network by mining better generalized recapture artifacts with a designed frequency filter bank and multi-scale cross-attention fusion module. In the extensive experiment, we show that our method can achieve better generalization capability compared with state-of-the-art techniques on different scenarios.
翻訳日:2022-12-01 15:46:24 公開日:2022-11-30
# グラフィックスケッチ表現のための同義語近接学習によるスケッチパッチのリンク

Linking Sketch Patches by Learning Synonymous Proximity for Graphic Sketch Representation ( http://arxiv.org/abs/2211.16841v1 )

ライセンス: Link先を確認
Sicong Zang, Shikui Tu, Lei Xu(参考訳) グラフィックスケッチ表現はスケッチを表現するのに効果的である。 既存の方法はスケッチから採ったパッチをグラフノードとして取り出し、スケッチの描画順序やキャンバス上のユークリッド距離に基づいてエッジを構築する。 しかし、スケッチの描画順序は一意ではなく、スケッチの意味的に関連した部分からのパッチはキャンバス上で互いに遠く離れているかもしれない。 本稿では,図形スケッチ表現のための順序不変な意味認識手法を提案する。 切り抜かれたスケッチパッチは、捕獲されたパッチ埋め込み間のコサイン類似性を計算することにより、彼らのグローバルセマンティクスまたは局所幾何学的形状、すなわち同義語近接に従ってリンクされる。 このような構築されたエッジはスケッチ描画のバリエーションに合わせて学習可能であり、同義のパッチ間のメッセージパッシングを可能にする。 グラフ畳み込みネットワークによる同義パッチからのメッセージの集約は、堅牢なパッチ埋め込みと正確なスケッチ表現を生成するのに有用である。 さらに,ネットワーク学習と協調して組込みに対してクラスタリング制約を課す。 同義のパッチはコンパクトクラスタとして自己組織化され、それらの埋め込みは割り当てられたクラスタセントロイドへ移動するように誘導される。 これは計算された同義語近接の精度を高める。 実験結果から,本手法は,制御可能なスケッチ合成とスケッチヒーリングの両方の性能を著しく向上することが示された。

Graphic sketch representations are effective for representing sketches. Existing methods take the patches cropped from sketches as the graph nodes, and construct the edges based on sketch's drawing order or Euclidean distances on the canvas. However, the drawing order of a sketch may not be unique, while the patches from semantically related parts of a sketch may be far away from each other on the canvas. In this paper, we propose an order-invariant, semantics-aware method for graphic sketch representations. The cropped sketch patches are linked according to their global semantics or local geometric shapes, namely the synonymous proximity, by computing the cosine similarity between the captured patch embeddings. Such constructed edges are learnable to adapt to the variation of sketch drawings, which enable the message passing among synonymous patches. Aggregating the messages from synonymous patches by graph convolutional networks plays a role of denoising, which is beneficial to produce robust patch embeddings and accurate sketch representations. Furthermore, we enforce a clustering constraint over the embeddings jointly with the network learning. The synonymous patches are self-organized as compact clusters, and their embeddings are guided to move towards their assigned cluster centroids. It raises the accuracy of the computed synonymous proximity. Experimental results show that our method significantly improves the performance on both controllable sketch synthesis and sketch healing.
翻訳日:2022-12-01 15:46:12 公開日:2022-11-30
# 行動からイベントへ:改良された深い信念ネットワークを用いた伝達学習アプローチ

From Actions to Events: A Transfer Learning Approach Using Improved Deep Belief Networks ( http://arxiv.org/abs/2211.17045v1 )

ライセンス: Link先を確認
Mateus Roder, Jurandy Almeida, Gustavo H. de Rosa, Leandro A. Passos, Andr\'e L. D. Rossi, Jo\~ao P. Papa(参考訳) 過去10年間、指数関数的データ成長は機械学習ベースのアルゴリズムの能力を提供し、日々のアクティビティでの使用を可能にした。 さらに、このような改善は、より複雑なモデルで終わる単純なアーキテクチャのスタックのようなディープラーニング技術の出現によって部分的に説明される。 どちらの要因も優れた結果を生み出すが、大規模データセット上の複雑なモデルのトレーニングは高価で時間がかかるため、学習プロセスに関する欠点もある。 このような問題は、ビデオ分析を扱う場合にさらに顕著である。 移行学習やドメイン適応、すなわちあるドメインから別のドメインへ知識をマッピングし、トレーニングの負担を軽減するアプローチを考える研究もあるが、そのほとんどは個々のあるいは小さなフレームで運用されている。 本稿では,行動認識から事象認識への知識を,スペクトル深層信念ネットワークと呼ばれるエネルギーベースモデルを用いてマッピングする新しい手法を提案する。 このようなモデルはすべてのフレームを同時に処理し、学習プロセスを通じて空間的および時間的情報を運ぶことができる。 2つの公開ビデオデータセットであるHMDB-51とUCF-101で実施された実験結果は、制限ボルツマンマシンやディープリーフネットワークのような従来のエネルギーベースモデルと比較して、提案モデルの有効性と計算負荷の低減を描いている。

In the last decade, exponential data growth supplied machine learning-based algorithms' capacity and enabled their usage in daily-life activities. Additionally, such an improvement is partially explained due to the advent of deep learning techniques, i.e., stacks of simple architectures that end up in more complex models. Although both factors produce outstanding results, they also pose drawbacks regarding the learning process as training complex models over large datasets are expensive and time-consuming. Such a problem is even more evident when dealing with video analysis. Some works have considered transfer learning or domain adaptation, i.e., approaches that map the knowledge from one domain to another, to ease the training burden, yet most of them operate over individual or small blocks of frames. This paper proposes a novel approach to map the knowledge from action recognition to event recognition using an energy-based model, denoted as Spectral Deep Belief Network. Such a model can process all frames simultaneously, carrying spatial and temporal information through the learning process. The experimental results conducted over two public video dataset, the HMDB-51 and the UCF-101, depict the effectiveness of the proposed model and its reduced computational burden when compared to traditional energy-based models, such as Restricted Boltzmann Machines and Deep Belief Networks.
翻訳日:2022-12-01 15:45:49 公開日:2022-11-30
# 強化学習を用いたマルチパースペクティブプロセスモデルの自動発見

Automatic Discovery of Multi-perspective Process Model using Reinforcement Learning ( http://arxiv.org/abs/2211.16687v1 )

ライセンス: Link先を確認
Sunghyun Sim, Ling Liu, Hyerim Bae(参考訳) プロセスマイニングは、イベントログに基づいたプロセスモデルの導出と分析のための方法論である。 ビジネスプロセス分析にプロセスマイニングを用いる場合には、プロセス発見ステップ、適合確認ステップ、拡張ステップを繰り返す。 ユーザが複数の視点(アクティビティの視点、発信者の視点、時間的な視点など)からプロセスを解析したい場合、上記の手順は不都合に何度も繰り返す必要があります。 プロセスマイニングに関する過去の研究は、詳細なステップワイズ手法を適用してきたが、マルチパースペクティブなプロセスマイニング手順を取り入れて最適化する試みは行われていない。 本稿では,この問題に対する解決策の開発に寄与する。 まず,深層Q-Learningに基づく多視点プロセスモデルの自動発見フレームワークを提案する。 我々のDual Experience Replay with Experience Distribution(DERED)アプローチは、プロセスモデル発見ステップ、適合チェックステップ、拡張ステップを自動的に実行できます。 第2に,深層q学習の重要なアルゴリズムの一つであるexperience replay(er)法をさらに最適化し,強化学習エージェントの学習性能を向上させる新しい手法を提案する。 最後に、ポートロジスティクス、鉄鋼製造、金融、IT、政府管理で収集された6つの実世界のイベントデータセットを用いて、我々のアプローチを検証する。 我々は,マルチパースペクティブなプロセスマイニングをより便利に使用できるマルチパースペクティブで高品質なプロセスモデルを提供できることを示す。

Process mining is a methodology for the derivation and analysis of process models based on the event log. When process mining is employed to analyze business processes, the process discovery step, the conformance checking step, and the enhancements step are repeated. If a user wants to analyze a process from multiple perspectives (such as activity perspectives, originator perspectives, and time perspectives), the above procedure, inconveniently, has to be repeated over and over again. Although past studies involving process mining have applied detailed stepwise methodologies, no attempt has been made to incorporate and optimize multi-perspective process mining procedures. This paper contributes to developing a solution approach to this problem. First, we propose an automatic discovery framework of a multi-perspective process model based on deep Q-Learning. Our Dual Experience Replay with Experience Distribution (DERED) approach can automatically perform process model discovery steps, conformance check steps, and enhancements steps. Second, we propose a new method that further optimizes the experience replay (ER) method, one of the key algorithms of deep Q-learning, to improve the learning performance of reinforcement learning agents. Finally, we validate our approach using six real-world event datasets collected in port logistics, steel manufacturing, finance, IT, and government administration. We show that our DERED approach can provide users with multi-perspective, high-quality process models that can be employed more conveniently for multi-perspective process mining.
翻訳日:2022-12-01 15:45:27 公開日:2022-11-30
# 効率的な強化学習(ERL) : 行動飽和による探索を目標に

Efficient Reinforcement Learning (ERL): Targeted Exploration Through Action Saturation ( http://arxiv.org/abs/2211.16691v1 )

ライセンス: Link先を確認
Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin N. Jones(参考訳) 強化学習(Reinforcement Learning, RL)は一般的にサンプルの複雑さに悩まされる。 一方で、制御するシステムの専門家の知識によって、良いポリシーが常に従うことを期待するシンプルなルールを設計することがしばしば可能になると仮定します。 そこで本研究では,このような知識を学習方針に組み込んで,興味のある状態空間の領域に限定し,それらの収束を著しく促進する,連続的アクタクリティカルなRLフレームワークの簡易かつ効果的な修正を提案する。 具体的には、エージェントが私たちの直感に従わなければ、エージェントが選択したアクションを飽和させ、批判的に、学習プロセスが飽和ステップに支障を来さないようにポリシーの勾配更新ステップを変更します。 室内温度制御シミュレーションケーススタディでは、これらの変更により、エージェントは優れた最終性能を維持しながら、古典的なRLエージェントよりも1桁早く、優れた性能のポリシーに収束することができる。

Reinforcement Learning (RL) generally suffers from poor sample complexity, mostly due to the need to exhaustively explore the state space to find good policies. On the other hand, we postulate that expert knowledge of the system to control often allows us to design simple rules we expect good policies to follow at all times. In this work, we hence propose a simple yet effective modification of continuous actor-critic RL frameworks to incorporate such prior knowledge in the learned policies and constrain them to regions of the state space that are deemed interesting, thereby significantly accelerating their convergence. Concretely, we saturate the actions chosen by the agent if they do not comply with our intuition and, critically, modify the gradient update step of the policy to ensure the learning process does not suffer from the saturation step. On a room temperature control simulation case study, these modifications allow agents to converge to well-performing policies up to one order of magnitude faster than classical RL agents while retaining good final performance.
翻訳日:2022-12-01 15:45:00 公開日:2022-11-30
# 食品加工・農業・健康分野における機械学習の解釈可能性とアクセシビリティ

Interpretability and accessibility of machine learning in selected food processing, agriculture and health applications ( http://arxiv.org/abs/2211.16699v1 )

ライセンス: Link先を確認
N. Ranasinghe, A. Ramanan, S. Fernando, P. N. Hameed, D. Herath, T. Malepathirana, P. Suganthan, M. Niranjan and S. Halgamuge(参考訳) 人工知能(AI)とその機械学習(ML)のデータ中心のブランチは、ここ数十年で大きく進化してきた。 しかし、現実のユースケースではAIがますます使われるようになっているため、AIシステムの解釈可能性やアクセシビリティの重要性が研究分野となっている。 MLベースのシステムの解釈可能性の欠如は、これらの強力なアルゴリズムの普及の大きな障害となっている。 これは、倫理的および規制上の懸念を含む多くの理由によるものであり、いくつかの分野でMLの採用が低下した。 最近は解釈可能なMLの研究が急増している。 一般的に、MLシステムを設計するには、専門家の知識と組み合わせた優れたドメイン理解が必要です。 自動モデル設計によってMLアクセシビリティを改善する新しい技術が登場している。 本稿では,グローバルな問題における機械学習の解釈可能性とアクセシビリティ向上に向けた取り組みについて,発展途上国にも関連性がありながら概説する。 本稿では, 科学的・数学的解釈, 統計的解釈, 部分的意味解釈を含む多段階の解釈可能性について検討する。 このレビューには、食品加工、農業、健康の3分野の応用が含まれている。

Artificial Intelligence (AI) and its data-centric branch of machine learning (ML) have greatly evolved over the last few decades. However, as AI is used increasingly in real world use cases, the importance of the interpretability of and accessibility to AI systems have become major research areas. The lack of interpretability of ML based systems is a major hindrance to widespread adoption of these powerful algorithms. This is due to many reasons including ethical and regulatory concerns, which have resulted in poorer adoption of ML in some areas. The recent past has seen a surge in research on interpretable ML. Generally, designing a ML system requires good domain understanding combined with expert knowledge. New techniques are emerging to improve ML accessibility through automated model design. This paper provides a review of the work done to improve interpretability and accessibility of machine learning in the context of global problems while also being relevant to developing countries. We review work under multiple levels of interpretability including scientific and mathematical interpretation, statistical interpretation and partial semantic interpretation. This review includes applications in three areas, namely food processing, agriculture and health.
翻訳日:2022-12-01 15:44:42 公開日:2022-11-30
# 説明指向メッセージパッシングを用いたGNNの訓練に向けて

Towards Training GNNs using Explanation Directed Message Passing ( http://arxiv.org/abs/2211.16731v1 )

ライセンス: Link先を確認
Valentina Giunchiglia, Chirag Varun Shukla, Guadalupe Gonzalez, Chirag Agarwal(参考訳) 重要な現実世界の応用においてグラフニューラルネットワーク(GNN)の利用が増加しているため、予測を理解するためにいくつかのポストホックな説明法が提案されている。 しかしながら、モデルトレーニング中にフライの説明を生成し、それを利用して基礎となるgnnモデルの表現力を向上させる作業は行われていない。 本稿では,gnn説明手法で重要と認識されるノードとエッジからのみ埋め込みを集約した,gnnのための説明指向型ニューラルメッセージパッシングフレームワークexpass(説明可能なメッセージパッシング)を提案する。 EXPASSは既存のGNNアーキテクチャやサブグラフ最適化の説明器を使って正確なグラフ埋め込みを学習することができる。 理論上,EXPASSはディリクレエネルギーの層状損失を遅くすることで,GNNの過度なスムース化問題を緩和し,各モデル重みの差により,バニラメッセージパッシングとEXPASSフレームワークの埋め込み差を上限にすることができることを示す。 実験の結果、EXPASSを用いて学習したグラフ埋め込みは予測性能を改善し、GNNの過度な問題を軽減し、グラフ機械学習の新しいフロンティアを開放し、説明に基づくトレーニングフレームワークを開発した。

With the increasing use of Graph Neural Networks (GNNs) in critical real-world applications, several post hoc explanation methods have been proposed to understand their predictions. However, there has been no work in generating explanations on the fly during model training and utilizing them to improve the expressive power of the underlying GNN models. In this work, we introduce a novel explanation-directed neural message passing framework for GNNs, EXPASS (EXplainable message PASSing), which aggregates only embeddings from nodes and edges identified as important by a GNN explanation method. EXPASS can be used with any existing GNN architecture and subgraph-optimizing explainer to learn accurate graph embeddings. We theoretically show that EXPASS alleviates the oversmoothing problem in GNNs by slowing the layer wise loss of Dirichlet energy and that the embedding difference between the vanilla message passing and EXPASS framework can be upper bounded by the difference of their respective model weights. Our empirical results show that graph embeddings learned using EXPASS improve the predictive performance and alleviate the oversmoothing problems of GNNs, opening up new frontiers in graph machine learning to develop explanation-based training frameworks.
翻訳日:2022-12-01 15:44:29 公開日:2022-11-30
# VideoDubber:ビデオダビングのための音声認識長制御による機械翻訳

VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing ( http://arxiv.org/abs/2211.16934v1 )

ライセンス: Link先を確認
Yihan Wu, Junliang Guo, Xu Tan, Chen Zhang, Bohan Li, Ruihua Song, Lei He, Sheng Zhao, Arul Menezes, Jiang Bian(参考訳) ビデオダビングは、映画やテレビ番組の原音声をターゲット言語で音声に変換することを目的としており、音声認識、機械翻訳、音声合成からなるカスケードシステムによって実現されている。 翻訳音声が対応するビデオと適切に一致するようにするためには、翻訳音声の長さ/順は、厳密な長さ制御を必要とする元の音声にできるだけ近いべきである。 それまでの著作では、機械翻訳モデルが生成した語数や文字は、異なる言語の単語/文字の発話時間が異なるため、発話の等時性を考慮せずに、原文と類似している。 本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。このシステムでは,翻訳中の各トークンの発話時間を直接考慮し,ソースとターゲットの音声の長さを一致させる。 具体的には、各単語の予測を持続時間情報とともに導くことにより、生成した文の音声長を制御し、残りの単語にどれだけの期間が残されているかを制御する。 提案手法は, 4つの言語方向(ドイツ語->英語,スペイン語->英語,中国語->英語)で実験を行い, 提案手法がベースライン法よりも, 生成した音声の長手制御能力を向上させることを示す。 実世界のデータセットの欠如を補うために,映画から収集した実世界のテストセットを構築し,映像ダビングタスクの包括的評価を行う。

Video dubbing aims to translate the original speech in a film or television program into the speech in a target language, which can be achieved with a cascaded system consisting of speech recognition, machine translation and speech synthesis. To ensure the translated speech to be well aligned with the corresponding video, the length/duration of the translated speech should be as close as possible to that of the original speech, which requires strict length control. Previous works usually control the number of words or characters generated by the machine translation model to be similar to the source sentence, without considering the isochronicity of speech as the speech duration of words/characters in different languages varies. In this paper, we propose a machine translation system tailored for the task of video dubbing, which directly considers the speech duration of each token in translation, to match the length of source and target speech. Specifically, we control the speech length of generated sentence by guiding the prediction of each word with the duration information, including the speech duration of itself as well as how much duration is left for the remaining words. We design experiments on four language directions (German -> English, Spanish -> English, Chinese <-> English), and the results show that the proposed method achieves better length control ability on the generated speech than baseline methods. To make up the lack of real-world datasets, we also construct a real-world test set collected from films to provide comprehensive evaluations on the video dubbing task.
翻訳日:2022-12-01 15:38:18 公開日:2022-11-30
# stackelbergのセキュリティゲームを解くための強化学習のターゲット

Targets in Reinforcement Learning to solve Stackelberg Security Games ( http://arxiv.org/abs/2211.17132v1 )

ライセンス: Link先を確認
Saptarashmi Bandyopadhyay, Chenqi Zhu, Philip Daniel, Joshua Morrison, Ethan Shay, John Dickerson(参考訳) 強化学習(RL)アルゴリズムは、違法密輸、密猟、森林伐採、気候変動、空港のセキュリティなど、現実世界の状況にうまく適用されている。 これらのシナリオは、ディフェンダーとアタッカーがターゲットリソースを制御するために競うStackelbergセキュリティゲーム(SSG)としてフレーム化することができる。 アルゴリズムの能力は、どのエージェントがターゲットを制御するかによって評価される。 本稿では,RLアルゴリズムにおけるターゲット表現の改善に焦点をあて,RLにおけるSSGのモデル化について検討する。

Reinforcement Learning (RL) algorithms have been successfully applied to real world situations like illegal smuggling, poaching, deforestation, climate change, airport security, etc. These scenarios can be framed as Stackelberg security games (SSGs) where defenders and attackers compete to control target resources. The algorithm's competency is assessed by which agent is controlling the targets. This review investigates modeling of SSGs in RL with a focus on possible improvements of target representations in RL algorithms.
翻訳日:2022-12-01 15:37:35 公開日:2022-11-30
# 論理とコモンセンスによる時間知識グラフの完成

Logic and Commonsense-Guided Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2211.16865v1 )

ライセンス: Link先を確認
Guanglin Niu, Bo Li(参考訳) 時間的知識グラフ(TKG)は、時間を含むデータに由来する事象を記憶する。 イベントの時間に敏感な性質のため、予測イベントは非常に難しい。 さらに、以前のTKG補完(TKGC)アプローチは、イベントの時系列と因果性の両方を同時に表現することはできない。 そこで本稿では,イベントの時系列表現と因果関係を,コモンセンスの観点から時間に依存しない表現と共同で学習する論理およびコモンセンス誘導埋め込みモデル(lcge)を提案する。 具体的には,事象間の因果関係を学習するための規則付き述語埋め込み正規化戦略を構築するために,時間規則学習アルゴリズムを設計する。 さらに, 補助コモンセンス知識を用いて, 事象の再現性を正確に評価した。 TKGCタスクの実験結果から,既存手法と比較して,モデルの性能が大幅に向上したことを示す。 さらに興味深いことに、我々のモデルは因果推論の観点から予測結果の説明可能性を提供することができる。 本論文のソースコードとデータセットはhttps://github.com/ngl567/LCGE.comで公開されている。

A temporal knowledge graph (TKG) stores the events derived from the data involving time. Predicting events is extremely challenging due to the time-sensitive property of events. Besides, the previous TKG completion (TKGC) approaches cannot represent both the timeliness and the causality properties of events, simultaneously. To address these challenges, we propose a Logic and Commonsense-Guided Embedding model (LCGE) to jointly learn the time-sensitive representation involving timeliness and causality of events, together with the time-independent representation of events from the perspective of commonsense. Specifically, we design a temporal rule learning algorithm to construct a rule-guided predicate embedding regularization strategy for learning the causality among events. Furthermore, we could accurately evaluate the plausibility of events via auxiliary commonsense knowledge. The experimental results of TKGC task illustrate the significant performance improvements of our model compared with the existing approaches. More interestingly, our model is able to provide the explainability of the predicted results in the view of causal inference. The source code and datasets of this paper are available at https://github.com/ngl567/LCGE.
翻訳日:2022-12-01 15:37:28 公開日:2022-11-30
# aioner: ディープラーニングを用いた生体医学的エンティティ認識

AIONER: All-in-one scheme-based biomedical named entity recognition using deep learning ( http://arxiv.org/abs/2211.16944v1 )

ライセンス: Link先を確認
Ling Luo, Chih-Hsuan Wei, Po-Ting Lai, Robert Leaman, Qingyu Chen and Zhiyong Lu(参考訳) バイオメディカル名付きエンティティ認識(BioNER)は、自然言語テキストにおけるバイオメディカルエンティティを自動的に認識し、下流のテキストマイニングタスクや情報抽出や質問応答などのアプリケーションに必要な基盤となる。 BioNERタスクのトレーニングデータを手動でラベル付けするのはコストがかかるが、正確なアノテーションに必要なドメインの専門知識があるためである。 結果として得られたデータ不足により、現在のBioNERアプローチは過度に適合し、限定的な一般化性に悩まされ、一度に一つのエンティティタイプ(遺伝子や病気など)に対処する傾向にある。 そこで我々は,既存のアノテートリソースの外部データを用いて一般化を改善する新しいオールインワン(AIO)方式を提案する。 さらに,最先端のディープラーニングとAIOスキーマに基づく汎用BioNERツールであるAIONERを紹介する。 AIONERを14のBioNERベンチマークタスクで評価し、AIONERが効果的で堅牢であることを示し、マルチタスク学習などの他の最先端手法と比較した。 さらに,既存のバイオメディカルテキストを大規模に処理する手法(PubMedデータ全体)に対して,AIONERの優位性に加えて,トレーニングデータにこれまで見られないエンティティタイプを認識するための3つの独立したタスクにおけるAIONERの実用性を示す。

Biomedical named entity recognition (BioNER) seeks to automatically recognize biomedical entities in natural language text, serving as a necessary foundation for downstream text mining tasks and applications such as information extraction and question answering. Manually labeling training data for the BioNER task is costly, however, due to the significant domain expertise required for accurate annotation. The resulting data scarcity causes current BioNER approaches to be prone to overfitting, to suffer from limited generalizability, and to address a single entity type at a time (e.g., gene or disease). We therefore propose a novel all-in-one (AIO) scheme that uses external data from existing annotated resources to improve generalization. We further present AIONER, a general-purpose BioNER tool based on cutting-edge deep learning and our AIO schema. We evaluate AIONER on 14 BioNER benchmark tasks and show that AIONER is effective, robust, and compares favorably to other state-of-the-art approaches such as multi-task learning. We further demonstrate the practical utility of AIONER in three independent tasks to recognize entity types not previously seen in training data, as well as the advantages of AIONER over existing methods for processing biomedical text at a large scale (e.g., the entire PubMed data).
翻訳日:2022-12-01 15:37:11 公開日:2022-11-30
# ConvLab-3: 統一データフォーマットに基づくフレキシブルな対話システムツールキット

ConvLab-3: A Flexible Dialogue System Toolkit Based on a Unified Data Format ( http://arxiv.org/abs/2211.17148v1 )

ライセンス: Link先を確認
Qi Zhu, Christian Geishauser, Hsien-chin Lin, Carel van Niekerk, Baolin Peng, Zheng Zhang, Michael Heck, Nurul Lubis, Dazhen Wan, Xiaochen Zhu, Jianfeng Gao, Milica Ga\v{s}i\'c, Minlie Huang(参考訳) タスク指向対話(TOD)データセットのさまざまなデータ形式とオントロジーは、多くのデータセットでよく機能する一般的な対話モデルの開発や、データセット間の知識伝達の研究を妨げる。 本稿では,TODデータフォーマットを統一したフレキシブルな対話システムツールキットであるConvLab-3を提案する。 ConvLab-3では、異なるデータセットが1つの統一フォーマットに変換され、モデルによって同じようにロードされる。 その結果、新しいモデルやデータセットを適用するコストは大幅に削減される。 convlab(lee et al., 2019b; zhu et al., 2020b)の以前のリリースと比較して、convlab-3は、より多くのデータセットを持つ対話システムの開発を可能にし、対話ポリシーのための強化学習(rl)ツールキットの有用性を高める。 ConvLab-3の使用を実演し、今後の作業を促すために、さまざまな設定で包括的な研究を紹介する。 数ショットの微調整とRLのための他のデータセットに対する事前学習の利点を示し、多様なユーザシミュレータによるポリシー評価を奨励する。

Diverse data formats and ontologies of task-oriented dialogue (TOD) datasets hinder us from developing general dialogue models that perform well on many datasets and studying knowledge transfer between datasets. To address this issue, we present ConvLab-3, a flexible dialogue system toolkit based on a unified TOD data format. In ConvLab-3, different datasets are transformed into one unified format and loaded by models in the same way. As a result, the cost of adapting a new model or dataset is significantly reduced. Compared to the previous releases of ConvLab (Lee et al., 2019b; Zhu et al., 2020b), ConvLab-3 allows developing dialogue systems with much more datasets and enhances the utility of the reinforcement learning (RL) toolkit for dialogue policies. To showcase the use of ConvLab-3 and inspire future work, we present a comprehensive study with various settings. We show the benefit of pre-training on other datasets for few-shot fine-tuning and RL, and encourage evaluating policy with diverse user simulators.
翻訳日:2022-12-01 15:36:44 公開日:2022-11-30
# ドイツの新聞フォーラムコメントのミソジニー分類

Misogyny classification of German newspaper forum comments ( http://arxiv.org/abs/2211.17163v1 )

ライセンス: Link先を確認
Johann Petrak, Brigitte Krenn(参考訳) 本稿では,オーストリアの大手ドイツ語新聞のコメント欄における誤読の検出について述べる。 6600件のコメントを5レベルの誤字でアノテートしたコーパスの作成について述べる。 フォーラムのモデレーターは、注釈ガイドラインの作成とコメントの注釈の作成に専門家として関与した。 また、このコーパスのバイナライズおよびオリジナルラベル分類のためのトランスフォーマーベース分類モデルのトレーニング結果についても述べる。

This paper presents work on detecting misogyny in the comments of a large Austrian German language newspaper forum. We describe the creation of a corpus of 6600 comments which were annotated with 5 levels of misogyny. The forum moderators were involved as experts in the creation of the annotation guidelines and the annotation of the comments. We also describe the results of training transformer-based classification models for both binarized and original label classification of that corpus.
翻訳日:2022-12-01 15:36:23 公開日:2022-11-30
# CREPE: 偽の前提で回答するオープンドメイン

CREPE: Open-Domain Question Answering with False Presuppositions ( http://arxiv.org/abs/2211.17257v1 )

ライセンス: Link先を確認
Xinyan Velocity Yu, Sewon Min, Luke Zettlemoyer and Hannaneh Hajishirzi(参考訳) ユーザを求める情報は、特に不慣れな話題について質問する際に、誤った前提で質問をすることが多い。 一方、既存の質問応答(qa)データセットの多くは、すべての質問によく定義された回答があると仮定している。 オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。 25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。 大規模なベースライン実験により、既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労することを示した。 これは、大きなテキストコーパスから関連する証拠を回収することの難しさによるところが大きい。 CREPEは、荒野での質問応答を研究するためのベンチマークを提供し、我々の分析は、よりよいモデリングとタスクのさらなる研究における将来の研究の道筋を提供する。

Information seeking users often pose questions with false presuppositions, especially when asking about unfamiliar topics. Most existing question answering (QA) datasets, in contrast, assume all questions have well defined answers. We introduce CREPE, a QA dataset containing a natural distribution of presupposition failures from online information-seeking forums. We find that 25% of questions contain false presuppositions, and provide annotations for these presuppositions and their corrections. Through extensive baseline experiments, we show that adaptations of existing open-domain QA models can find presuppositions moderately well, but struggle when predicting whether a presupposition is factually correct. This is in large part due to difficulty in retrieving relevant evidence passages from a large text corpus. CREPE provides a benchmark to study question answering in the wild, and our analyses provide avenues for future work in better modeling and further studying the task.
翻訳日:2022-12-01 15:36:18 公開日:2022-11-30
# エコー状態ネットワークにおける適切な直交分解の検討

Investigation of Proper Orthogonal Decomposition for Echo State Networks ( http://arxiv.org/abs/2211.17179v1 )

ライセンス: Link先を確認
Jean Panaioti Jordanou, Eric Aislan Antonelo, Eduardo Camponogara, Eduardo Gildin(参考訳) エコー状態ネットワーク(英: echo state networks、esn)は、時系列および非線形力学系を表現する有望な結果をもたらす再帰ニューラルネットワークの一種である。 非常に効率的なトレーニング手順を備えているが、ESNのようなReservoir Computingの戦略では、高階ネットワーク、すなわち多数の層を使用する必要がある。 これは時間の計算をよりコストのかかるものにするだけでなく、モデル予測制御(MPC)や他の最適制御問題にESNを適用する際の堅牢性の問題を引き起こす可能性がある。 このような回避策の1つは、適切な直交分解(POD)とその変種(POD-DEIM)のようなモデル次数削減戦略により、既に訓練された高次元ESNと等価な下位次数表現を見つけることである。 本研究の目的は,Echo State NetworksにおけるPOD手法の性能を調査・解析し,その有効性を評価することである。 そこで我々は,POD-Reduced Networkのメモリ容量(MC)を,元の(全順序)ENSと比較して評価した。 また,narma10差分式と2つの井戸と1つのライザーを含む油プラットフォームという2つの異なる数値実験を行った。 その結果,オリジナルのESNとPODを再現したESNとの比較では性能がほとんど損なわれず,PODを再現したESNの性能は同一サイズの通常のESNよりも優れていた。 また、元のESNと比較して約80\%のスピードアップを実現しました。

Echo State Networks (ESN) are a type of Recurrent Neural Networks that yields promising results in representing time series and nonlinear dynamic systems. Although they are equipped with a very efficient training procedure, Reservoir Computing strategies, such as the ESN, require the use of high order networks, i.e. large number of layers, resulting in number of states that is magnitudes higher than the number of model inputs and outputs. This not only makes the computation of a time step more costly, but also may pose robustness issues when applying ESNs to problems such as Model Predictive Control (MPC) and other optimal control problems. One such way to circumvent this is through Model Order Reduction strategies such as the Proper Orthogonal Decomposition (POD) and its variants (POD-DEIM), whereby we find an equivalent lower order representation to an already trained high dimension ESN. The objective of this work is to investigate and analyze the performance of POD methods in Echo State Networks, evaluating their effectiveness. To this end, we evaluate the Memory Capacity (MC) of the POD-reduced network in comparison to the original (full order) ENS. We also perform experiments on two different numerical case studies: a NARMA10 difference equation and an oil platform containing two wells and one riser. The results show that there is little loss of performance comparing the original ESN to a POD-reduced counterpart, and also that the performance of a POD-reduced ESN tend to be superior to a normal ESN of the same size. Also we attain speedups of around $80\%$ in comparison to the original ESN.
翻訳日:2022-12-01 15:36:02 公開日:2022-11-30
# 実世界質問応答のための合成データの生成,注釈,活用のためのパイプライン

A Pipeline for Generating, Annotating and Employing Synthetic Data for Real World Question Answering ( http://arxiv.org/abs/2211.16971v1 )

ライセンス: Link先を確認
Matthew Maufe, James Ravenscroft, Rob Procter, Maria Liakata(参考訳) 質問応答(英語: question answering、qa)は、文書から情報を抽出するのにしばしば用いられる研究分野である。 最先端のQAモデルは、通常ウィキペディアのようなドメイン一般コーパスで事前訓練されているため、微調整なしでドメイン外文書に苦労する傾向がある。 合成ドメイン固有データセットは、ドメイン一般モデルを用いて容易に生成できるが、QA性能は大幅に改善されている。 このタスクには、合成QAデータの検証と下流モデルのトレーニングのための柔軟なパイプラインと、生成されたデータの人間のアノテーションを容易にするオンラインインターフェースの2つの新しいツールが提供される。 このインタフェースを用いて、クラウドワーカーは1117組の合成QAペアをラベル付けし、ダウンストリームモデルを微調整し、ドメイン固有のQA性能を8.75F1で改善した。

Question Answering (QA) is a growing area of research, often used to facilitate the extraction of information from within documents. State-of-the-art QA models are usually pre-trained on domain-general corpora like Wikipedia and thus tend to struggle on out-of-domain documents without fine-tuning. We demonstrate that synthetic domain-specific datasets can be generated easily using domain-general models, while still providing significant improvements to QA performance. We present two new tools for this task: A flexible pipeline for validating the synthetic QA data and training downstream models on it, and an online interface to facilitate human annotation of this generated data. Using this interface, crowdworkers labelled 1117 synthetic QA pairs, which we then used to fine-tune downstream models and improve domain-specific QA performance by 8.75 F1.
翻訳日:2022-12-01 15:35:35 公開日:2022-11-30
# BudgetLongformer: ScratchからSotA法定言語モデルを事前トレーニングすることは可能か?

BudgetLongformer: Can we Cheaply Pretrain a SotA Legal Language Model From Scratch? ( http://arxiv.org/abs/2211.17135v1 )

ライセンス: Link先を確認
Joel Niklaus, Daniele Giofr\'e(参考訳) 事前訓練されたトランスフォーマーモデルは、最近多くのタスクやベンチマークで最先端の結果を得た。 しかし、多くの最先端言語モデル(LM)は、512の入力トークンのしきい値を超えていない。 しかし、専門分野(法律、科学、生物医学など)では、モデルは非常に長いテキスト(時には10000以上のトークン)を処理する必要がある。 多くの効率的なトランスフォーマー(Longformer、BigBird、FNetなど)が提案されているが、特定のドメインでそのような効率的なモデルが利用できるのはごくわずかである。 加えて、プリトレーニングプロセスは一般的に非常にコストがかかるが、シーケンス長が増加するにつれてさらにコストがかかるため、大規模な研究所にしか手が届かないことが多い。 事前トレーニングを安くする1つの方法は、トレーニング中により多くの信号を提供することで、すべてのトークンで損失を計算できる、置換トークン検出(RTD)タスクである。 本研究では,法データの効率的なrtdタスクを用いてロングフォーマーモデルを訓練し,より少ない計算量で効率的なlmsの事前訓練が可能であることを示す。 我々は,モデルが下流タスクでどの程度の性能を達成できるかを示すために,長いテキストを要約する必要がある課題を要約して,訓練したモデルを評価する。 それぞれのパラメータ範囲において、小モデルとベースモデルの両方が、ドメイン内BillSumとドメイン外PubMedタスクのベースラインを上回っていることが分かりました。 私たちは研究目的でコードとモデルを公開します。

Pretrained transformer models have achieved state-of-the-art results in many tasks and benchmarks recently. Many state-of-the-art Language Models (LMs), however, do not scale well above the threshold of 512 input tokens. In specialized domains though (such as legal, scientific or biomedical), models often need to process very long text (sometimes well above 10000 tokens). Even though many efficient transformers have been proposed (such as Longformer, BigBird or FNet), so far, only very few such efficient models are available for specialized domains. Additionally, since the pretraining process is extremely costly in general - but even more so as the sequence length increases - it is often only in reach of large research labs. One way of making pretraining cheaper is the Replaced Token Detection (RTD) task, by providing more signal during training, since the loss can be computed over all tokens. In this work, we train Longformer models with the efficient RTD task on legal data to showcase that pretraining efficient LMs is possible using much less compute. We evaluate the trained models on challenging summarization tasks requiring the model to summarize long texts to show to what extent the models can achieve good performance on downstream tasks. We find that both the small and base models outperform their baselines on the in-domain BillSum and out-of-domain PubMed tasks in their respective parameter range. We publish our code and models for research purposes.
翻訳日:2022-12-01 15:29:00 公開日:2022-11-30
# Universal Feature Selection Tool (UniFeat): 次元削減のためのオープンソースツール

Universal Feature Selection Tool (UniFeat): An Open-Source Tool for Dimensionality Reduction ( http://arxiv.org/abs/2211.16846v1 )

ライセンス: Link先を確認
Sina Tabakhi, Parham Moradi(参考訳) Universal Feature Selection Tool (UniFeat)は、Javaで開発されたオープンソースツールで、様々な研究領域で機能選択プロセスを実行する。 重要な補助ツールの中で、よく知られた高度な機能選択方法を提供する。 これにより、ユーザーは特徴選択方法のパフォーマンスを比較することができる。 さらに、unifeatのオープンソース性により、研究者は研究でそれを使用・修正することができ、新しい特徴選択アルゴリズムの迅速な開発が促進される。

The Universal Feature Selection Tool (UniFeat) is an open-source tool developed entirely in Java for performing feature selection processes in various research areas. It provides a set of well-known and advanced feature selection methods within its significant auxiliary tools. This allows users to compare the performance of feature selection methods. Moreover, due to the open-source nature of UniFeat, researchers can use and modify it in their research, which facilitates the rapid development of new feature selection algorithms.
翻訳日:2022-12-01 15:28:36 公開日:2022-11-30
# 分子グラフにおける薬物副作用予測への深層学習アプローチ

A Deep Learning Approach to the Prediction of Drug Side-Effects on Molecular Graphs ( http://arxiv.org/abs/2211.16871v1 )

ライセンス: Link先を確認
Pietro Bongini, Elisa Messori, Niccol\`o Pancino, Monica Bianchini(参考訳) 薬物関連入院の頻度を低く保ち、薬物発見プロセスを改善する上で、薬物副作用の予測は重要な課題である。 副作用の自動予測装置は通常、薬物の構造を処理できないため、情報が失われる。 グラフニューラルネットワークは、グラフ構造とラベルによって伝達される情報を活用する能力のおかげで、近年大きな成功を収めている。 これらのモデルは様々な生物学的応用に用いられており、その中に大きな知識グラフ上の薬物副作用の予測がある。 薬物の構造をコードする分子グラフのエクスプロイトは、この問題を多クラス多ラベルグラフ中心の分類として定式化する新しいアプローチである。 我々は,リカレントグラフニューラルネットワークを用いて,自由にアクセス可能かつ確立されたデータソースからデータセットを構築する手法を開発した。 以上の結果から,従来の予測器と比較して,多くのパラメータと指標で分類能力が向上した。

Predicting drug side-effects before they occur is a key task in keeping the number of drug-related hospitalizations low and to improve drug discovery processes. Automatic predictors of side-effects generally are not able to process the structure of the drug, resulting in a loss of information. Graph neural networks have seen great success in recent years, thanks to their ability of exploiting the information conveyed by the graph structure and labels. These models have been used in a wide variety of biological applications, among which the prediction of drug side-effects on a large knowledge graph. Exploiting the molecular graph encoding the structure of the drug represents a novel approach, in which the problem is formulated as a multi-class multi-label graph-focused classification. We developed a methodology to carry out this task, using recurrent Graph Neural Networks, and building a dataset from freely accessible and well established data sources. The results show that our method has an improved classification capability, under many parameters and metrics, with respect to previously available predictors.
翻訳日:2022-12-01 15:28:29 公開日:2022-11-30
# 探索・探索トレードオフのバランスによる動的スパーストレーニング

Dynamic Sparse Training via Balancing the Exploration-Exploitation Trade-off ( http://arxiv.org/abs/2211.16667v1 )

ライセンス: Link先を確認
Shaoyi Huang, Bowen Lei, Dongkuan Xu, Hongwu Peng, Yue Sun, Mimi Xie, Caiwen Ding(参考訳) ディープニューラルネットワーク(DNN)のオーバーパラメータ化は、多くのアプリケーションに対して高い予測精度を示している。 有効ではあるが、多くのパラメータはリソース制限されたデバイスでの人気を阻害し、環境への影響を大きくする。 スパーストレーニング(各イテレーションで一定数の非ゼロ重みを使用する)は、モデルサイズを小さくすることでトレーニングコストを大幅に削減することができる。 しかし、既存のスパーストレーニング手法は主にランダムベースまたはグリーディベースのドロップ・アンド・グロウ戦略を使用しており、局所的な最小化と精度の低下をもたらした。 本研究では,説明可能なスパーストレーニングを支援するために,動的スパーストレーニング(dst-ee)を特徴付ける重要な重み付け活用とカバレッジ探索を提案し,これら2つの指標の定量的解析を行う。 さらに, 獲得関数を設計し, 提案手法の理論的保証を提供し, その収束性を明らかにする。 実験の結果,提案手法により得られたスパースモデル(最大98.%のスパース)は,多種多様な深層学習課題において,SOTAスパース訓練法より優れていることがわかった。 VGG-19/CIFAR-100,ResNet-50/CIFAR-10,ResNet-50/CIFAR-100では,高密度モデルよりも精度が高い。 ResNet-50 / ImageNetでは,SOTAスパース訓練法と比較して最大8.2\%の精度向上を実現している。

Over-parameterization of deep neural networks (DNNs) has shown high prediction accuracy for many applications. Although effective, the large number of parameters hinders its popularity on resource-limited devices and has an outsize environmental impact. Sparse training (using a fixed number of nonzero weights in each iteration) could significantly mitigate the training costs by reducing the model size. However, existing sparse training methods mainly use either random-based or greedy-based drop-and-grow strategies, resulting in local minimal and low accuracy. In this work, to assist explainable sparse training, we propose important weights Exploitation and coverage Exploration to characterize Dynamic Sparse Training (DST-EE), and provide quantitative analysis of these two metrics. We further design an acquisition function and provide the theoretical guarantees for the proposed method and clarify its convergence property. Experimental results show that sparse models (up to 98\% sparsity) obtained by our proposed method outperform the SOTA sparse training methods on a wide variety of deep learning tasks. On VGG-19 / CIFAR-100, ResNet-50 / CIFAR-10, ResNet-50 / CIFAR-100, our method has even higher accuracy than dense models. On ResNet-50 / ImageNet, the proposed method has up to 8.2\% accuracy improvement compared to SOTA sparse training methods.
翻訳日:2022-12-01 15:28:12 公開日:2022-11-30
# 教師なし学習によるGANからの意味的知識抽出

Extracting Semantic Knowledge from GANs with Unsupervised Learning ( http://arxiv.org/abs/2211.16710v1 )

ライセンス: Link先を確認
Jianjin Xu, Zhaoxiang Zhang, Xiaolin Hu(参考訳) 近年,教師なし学習は様々なタスクにおいて顕著な進歩を遂げている。 識別モデルの支配にもかかわらず、生成モデル、特にGAN(Generative Adversarial Networks)によって学習された表現に注目が集まる。 GANの解釈に関する以前の研究は、GANが特徴写像のセマンティクスを線形分離可能な形でエンコードしていることを示している。 本研究では, GAN の特徴を線形分離可能性仮定で適切にクラスタ化できることを示す。 本稿では,線形分離性を利用してGANの特徴をクラスタリングする新しいクラスタリングアルゴリズムKLiSHを提案する。 KLiSHは、車、肖像画、動物など、さまざまなオブジェクトのデータセットに基づいて訓練されたGANのきめ細かいセマンティクスを抽出することに成功した。 klishでは、ganからの画像をセグメンテーションマスクとともにサンプリングし、ペアイメージセグメンテーションデータセットを合成することができる。 合成データセットを用いて、下流の2つのアプリケーションを可能にする。 まず,これらのデータセット上でセマンティックセグメンテーションネットワークをトレーニングし,実画像上でセマンティックセグメンテーションを実現する。 次に,合成データセット上で画像から画像への翻訳ネットワークを訓練し,人間のアノテーションを使わずに意味的条件付き画像合成を実現する。

Recently, unsupervised learning has made impressive progress on various tasks. Despite the dominance of discriminative models, increasing attention is drawn to representations learned by generative models and in particular, Generative Adversarial Networks (GANs). Previous works on the interpretation of GANs reveal that GANs encode semantics in feature maps in a linearly separable form. In this work, we further find that GAN's features can be well clustered with the linear separability assumption. We propose a novel clustering algorithm, named KLiSH, which leverages the linear separability to cluster GAN's features. KLiSH succeeds in extracting fine-grained semantics of GANs trained on datasets of various objects, e.g., car, portrait, animals, and so on. With KLiSH, we can sample images from GANs along with their segmentation masks and synthesize paired image-segmentation datasets. Using the synthesized datasets, we enable two downstream applications. First, we train semantic segmentation networks on these datasets and test them on real images, realizing unsupervised semantic segmentation. Second, we train image-to-image translation networks on the synthesized datasets, enabling semantic-conditional image synthesis without human annotations.
翻訳日:2022-12-01 15:27:50 公開日:2022-11-30
# 多分解能テキストインバージョン

Multiresolution Textual Inversion ( http://arxiv.org/abs/2211.17115v1 )

ライセンス: Link先を確認
Giannis Daras and Alexandros G. Dimakis(参考訳) テキスト変換を拡張して、異なる解像度で概念を表す擬似単語を学習する。 これにより、異なるレベルの詳細でこの概念を使用するイメージを生成することができ、また言語を使用して異なる解像度を操作することができる。 s^*(0)$" の写真は正確なオブジェクトを生成し、"$s^*(0.8)$ の写真" は粗い輪郭と色にしか一致しない。 我々のフレームワークは、画像の解像度が異なる画像(詳細、テクスチャ、スタイルなど)を、様々な方法で構成できる独立した擬似単語として生成することができる。 https://github.com/giannisdaras/multires_textual_inversion

We extend Textual Inversion to learn pseudo-words that represent a concept at different resolutions. This allows us to generate images that use the concept with different levels of detail and also to manipulate different resolutions using language. Once learned, the user can generate images at different levels of agreement to the original concept; "A photo of $S^*(0)$" produces the exact object while the prompt "A photo of $S^*(0.8)$" only matches the rough outlines and colors. Our framework allows us to generate images that use different resolutions of an image (e.g. details, textures, styles) as separate pseudo-words that can be composed in various ways. We open-soure our code in the following URL: https://github.com/giannisdaras/multires_textual_inversion
翻訳日:2022-12-01 15:27:16 公開日:2022-11-30
# ネットワークカノン化とハイパーパラメータ探索による説明の最適化

Optimizing Explanations by Network Canonization and Hyperparameter Search ( http://arxiv.org/abs/2211.17174v1 )

ライセンス: Link先を確認
Frederik Pahde, Galip \"Umit Yolcu, Alexander Binder, Wojciech Samek, Sebastian Lapuschkin(参考訳) 説明可能なAI(XAI)は、多くのAIアプリケーションにとって、徐々に重要なコンポーネントになりつつある。 しかし、ルールベースで修正されたバックプロパゲーションXAIアプローチは、2つの理由から生じる革新的なレイヤビルディングブロックを含むモダンなモデルアーキテクチャに適用される場合、しばしば課題に直面します。 第一に、ルールベースのXAI手法の柔軟性は、多くの潜在的なパラメータ化をもたらす。 第二に、多くのXAIメソッドは、BatchNormレイヤのような特定のモデルコンポーネントと競合するため、実装と不変の公理を破る。 モデルキャノン化(モデルキャノン化)は、基礎となる関数を変更することなく問題のあるコンポーネントを無視してモデルを再構成するプロセスである。 モデルカノン化は単純なアーキテクチャ(VGG、ResNetなど)では単純だが、より複雑で高度に相互接続されたモデル(DenseNetなど)では困難である。 さらに、モデルカノン化がXAIにとって有益であるという定量的な証拠は少ない。 本研究では,vgg,resnet, efficientnet, densenetsなど,一般的なディープニューラルネットワークアーキテクチャに適用可能な,現在関連するモデルブロックの正準化手法を提案する。 さらに,Pascal-VOC および ILSVRC2017 データセット上の画像分類タスクや,CLEVR-XAI を用いた視覚的質問応答に対して,様々な XAI 手法に対するソフモデルカノン化の効果を定量化し比較する XAI 評価フレームワークを提案する。 さらに,先述した課題に対して,xai法のハイパーパラメータ探索を行い,説明の質を最適化するために評価フレームワークを適用できることを実証する。

Explainable AI (XAI) is slowly becoming a key component for many AI applications. Rule-based and modified backpropagation XAI approaches however often face challenges when being applied to modern model architectures including innovative layer building blocks, which is caused by two reasons. Firstly, the high flexibility of rule-based XAI methods leads to numerous potential parameterizations. Secondly, many XAI methods break the implementation-invariance axiom because they struggle with certain model components, e.g., BatchNorm layers. The latter can be addressed with model canonization, which is the process of re-structuring the model to disregard problematic components without changing the underlying function. While model canonization is straightforward for simple architectures (e.g., VGG, ResNet), it can be challenging for more complex and highly interconnected models (e.g., DenseNet). Moreover, there is only little quantifiable evidence that model canonization is beneficial for XAI. In this work, we propose canonizations for currently relevant model blocks applicable to popular deep neural network architectures,including VGG, ResNet, EfficientNet, DenseNets, as well as Relation Networks. We further suggest a XAI evaluation framework with which we quantify and compare the effect sof model canonization for various XAI methods in image classification tasks on the Pascal-VOC and ILSVRC2017 datasets, as well as for Visual Question Answering using CLEVR-XAI. Moreover, addressing the former issue outlined above, we demonstrate how our evaluation framework can be applied to perform hyperparameter search for XAI methods to optimize the quality of explanations.
翻訳日:2022-12-01 15:27:01 公開日:2022-11-30
# SinGRAF: ワンシーンで3D生成放射場を学ぶ

SinGRAF: Learning a 3D Generative Radiance Field for a Single Scene ( http://arxiv.org/abs/2211.17260v1 )

ライセンス: Link先を確認
Minjung Son, Jeong Joon Park, Leonidas Guibas, Gordon Wetzstein(参考訳) 生成モデルは、フォトリアリスティックな3Dオブジェクトを合成するのに非常に有望であるが、大量のトレーニングデータが必要である。 SinGRAF(SinGRAF)は、1つのシーンの入力画像で訓練された3D認識生成モデルである。 トレーニングが完了すると、SinGRAFはこの3Dシーンの異なる実現法を生成し、入力の外観を異なるシーンレイアウトで保持する。 本研究の目的は,最近の3D GANアーキテクチャの進歩を基盤として,トレーニング中に新しいプログレッシブスケールのパッチ識別アプローチを導入することである。 いくつかの実験により、SinGRAFが生み出した結果は、品質と多様性の両方において、大きなマージンで、最も近い関連研究を上回ります。

Generative models have shown great promise in synthesizing photorealistic 3D objects, but they require large amounts of training data. We introduce SinGRAF, a 3D-aware generative model that is trained with a few input images of a single scene. Once trained, SinGRAF generates different realizations of this 3D scene that preserve the appearance of the input while varying scene layout. For this purpose, we build on recent progress in 3D GAN architectures and introduce a novel progressive-scale patch discrimination approach during training. With several experiments, we demonstrate that the results produced by SinGRAF outperform the closest related works in both quality and diversity by a large margin.
翻訳日:2022-12-01 15:26:30 公開日:2022-11-30
# マルチオミックデータを用いたベイズ同時因子分解と予測

Bayesian Simultaneous Factorization and Prediction Using Multi-Omic Data ( http://arxiv.org/abs/2211.16403v2 )

ライセンス: Link先を確認
Sarah Samorodnitsky, Chris H. Wendt, Eric F. Lock(参考訳) 閉塞性肺疾患(OLD)の病態の理解は、多系統分子現象と臨床結果との関係を調べるために利用可能な方法によって制限されている。 マルチオミックデータの積分分解法は、重要な生物学的信号を記述する変異の潜在パターンを明らかにすることができる。 しかし、ほとんどの方法は推定された因子分解の推論の枠組みを提供しておらず、同時に重要な疾患の表現型や臨床結果を予測することも、複数のインプテーションを許容することもない。 これらのギャップに対処するため,ベイズ同時因子化(BSF)を提案する。 共役正規前置法を用い、このモデルの後方モードは、ランク選択を達成し、ハイパーパラメータの選択を動機づける構造化核ノルムペナライズ目標を解決することによって推定できることを示した。 次に、BSFを拡張して連続的または二分的応答を同時に予測し、ベイズ同時因子化予測(BSFP)と呼ぶ。 BSFPとBSFPは、"ブロックワイド"の欠如を含む、欠落データに対する同時計算と完全な後部推論を許容し、BSFPは未観測結果の予測を提供する。 我々は,BSFPが潜在変動構造を回復する上での競争力を示すとともに,推定因子化から予測への不確実性の伝播の重要性を示す。 また,非ランダムおよび非ランダム仮定下でのシミュレーションによるbsfのインプテーション性能についても検討した。 最後に,BSFPを用いて気管支肺胞洗浄メタボロームとプロテオームに基づいて肺機能を予測する。 メタボロミクスおよびプロテオミクス発現パターンの共有による高齢患者群と,肺機能低下に関連する複数のオミズムパターンについて検討した。 ソフトウェアはhttps://github.com/sarahsamorodnitsky/BSFPで無料で入手できる。

Understanding of the pathophysiology of obstructive lung disease (OLD) is limited by available methods to examine the relationship between multi-omic molecular phenomena and clinical outcomes. Integrative factorization methods for multi-omic data can reveal latent patterns of variation describing important biological signal. However, most methods do not provide a framework for inference on the estimated factorization, simultaneously predict important disease phenotypes or clinical outcomes, nor accommodate multiple imputation. To address these gaps, we propose Bayesian Simultaneous Factorization (BSF). We use conjugate normal priors and show that the posterior mode of this model can be estimated by solving a structured nuclear norm-penalized objective that also achieves rank selection and motivates the choice of hyperparameters. We then extend BSF to simultaneously predict a continuous or binary response, termed Bayesian Simultaneous Factorization and Prediction (BSFP). BSF and BSFP accommodate concurrent imputation and full posterior inference for missing data, including "blockwise" missingness, and BSFP offers prediction of unobserved outcomes. We show via simulation that BSFP is competitive in recovering latent variation structure, as well as the importance of propagating uncertainty from the estimated factorization to prediction. We also study the imputation performance of BSF via simulation under missing-at-random and missing-not-at-random assumptions. Lastly, we use BSFP to predict lung function based on the bronchoalveolar lavage metabolome and proteome from a study of HIV-associated OLD. Our analysis reveals a distinct cluster of patients with OLD driven by shared metabolomic and proteomic expression patterns, as well as multi-omic patterns related to lung function decline. Software is freely available at https://github.com/sarahsamorodnitsky/BSFP .
翻訳日:2022-12-01 15:20:29 公開日:2022-11-30
# より賢く、難しくない: 不足データから深部腹部ctの登録を学ぶ

Train smarter, not harder: learning deep abdominal CT registration on scarce data ( http://arxiv.org/abs/2211.15717v2 )

ライセンス: Link先を確認
Javier P\'erez de Frutos, Andr\'e Pedersen, Egidijus Pelanis, David Bouget, Shanmugapriya Survarachakan, Thomas Lang{\o}, Ole-Jakob Elle, Frank Lindseth(参考訳) 目的:本研究の目的は,腹部画像の畳み込みニューラルネットワークに基づく画像から画像への登録を改善するための訓練戦略を検討することである。 方法: 異なる訓練戦略, 損失関数, 転校学習スキームを検討した。 さらに, 動的損失重み付けが可能な損失層に加えて, 実機で人工訓練画像対を生成する拡張層も提案した。 結果: 訓練段階におけるセグメンテーションを用いた登録指導は, 深層学習に基づく画像登録に有用であることが判明した。 脳MRIデータセットから腹部CTデータセットに事前トレーニングされたモデルを微調整することで、後者のアプリケーションのパフォーマンスがさらに向上した。 動的損失重み付けは、推論ランタイムに影響を与えることなく、パフォーマンスをわずかに改善した。 結論: 単純な概念を用いて, 一般的に使用される深層画像登録アーキテクチャvoxelmorphの性能を改善した。 今後の作業では、DDMRというフレームワークをさまざまなデータセットで検証して、その価値をさらに評価する必要があります。

Purpose: This study aims to explore training strategies to improve convolutional neural network-based image-to-image registration for abdominal imaging. Methods: Different training strategies, loss functions, and transfer learning schemes were considered. Furthermore, an augmentation layer which generates artificial training image pairs on-the-fly was proposed, in addition to a loss layer that enables dynamic loss weighting. Results: Guiding registration using segmentations in the training step proved beneficial for deep-learning-based image registration. Finetuning the pretrained model from the brain MRI dataset to the abdominal CT dataset further improved performance on the latter application, removing the need for a large dataset to yield satisfactory performance. Dynamic loss weighting also marginally improved performance, all without impacting inference runtime. Conclusion: Using simple concepts, we improved the performance of a commonly used deep image registration architecture, VoxelMorph. In future work, our framework, DDMR, should be validated on different datasets to further assess its value.
翻訳日:2022-12-01 15:19:58 公開日:2022-11-30
# beyond cage: 学習された自律ネットワーク防衛政策の一般化を調査

Beyond CAGE: Investigating Generalization of Learned Autonomous Network Defense Policies ( http://arxiv.org/abs/2211.15557v2 )

ライセンス: Link先を確認
Melody Wolk, Andy Applebaum, Camron Dennler, Patrick Dwyer, Marina Moskowitz, Harold Nguyen, Nicole Nichols, Nicole Park, Paul Rachwalski, Frank Rau, Adrian Webster(参考訳) 強化学習(RL)の進歩は、ネットワーク防御のインテリジェントな自動化に新たな方向性をもたらした。 しかし、これらの進歩の多くは、自分たちのアプリケーションをネットワークセキュリティに上回っているか、現実の世界でそれを実装する際の課題を考慮していない。 これらの問題を理解するために,本研究では,高忠実度ネットワークシミュレータを用いた自律型ネットワークディフェンサエージェント構築のための公開競争であるCAGE Challengeの第2版で実施されたいくつかのRLアプローチを評価する。 我々のアプローチはすべて、アルゴリズムのPPO(Proximal Policy Optimization)ファミリに基づいており、階層的RL、アクションマスキング、カスタムトレーニング、アンサンブルRLを含んでいる。 アンサンブルRL技術は,我々の他のモデルより優れ,競争において第2位である。 実環境への適用性を理解するため,未知のネットワークや未知の攻撃戦略に対して,各手法の一般化能力を評価する。 目に見えない環境では, 環境変化のタイプによって劣化が変化するなど, 全てのアプローチが悪化する。 未知の攻撃戦略に対して、新しい戦略はトレーニングしたモデルよりも効率的ではありませんでしたが、我々のモデルは全体的なパフォーマンスを低下させました。 これらの結果は、現実世界における自律的ネットワーク防衛のための有望な研究方向を強調する。

Advancements in reinforcement learning (RL) have inspired new directions in intelligent automation of network defense. However, many of these advancements have either outpaced their application to network security or have not considered the challenges associated with implementing them in the real-world. To understand these problems, this work evaluates several RL approaches implemented in the second edition of the CAGE Challenge, a public competition to build an autonomous network defender agent in a high-fidelity network simulator. Our approaches all build on the Proximal Policy Optimization (PPO) family of algorithms, and include hierarchical RL, action masking, custom training, and ensemble RL. We find that the ensemble RL technique performs strongest, outperforming our other models and taking second place in the competition. To understand applicability to real environments we evaluate each method's ability to generalize to unseen networks and against an unknown attack strategy. In unseen environments, all of our approaches perform worse, with degradation varied based on the type of environmental change. Against an unknown attacker strategy, we found that our models had reduced overall performance even though the new strategy was less efficient than the ones our models trained on. Together, these results highlight promising research directions for autonomous network defense in the real world.
翻訳日:2022-12-01 15:19:44 公開日:2022-11-30
# 極端な暑さ予測のための地球規模の気候モデルアンサンブルの最適化

Optimisation of a global climate model ensemble for prediction of extreme heat days ( http://arxiv.org/abs/2211.16367v2 )

ライセンス: Link先を確認
Mala Virdee, Markus Kaiser, Emily Shuckburgh, Carl Henrik Ek, Ieva Kazlauskaite(参考訳) 気候変動の適応関連予測は、しばしばマルチモデルアンサンブルに気候モデルを組み合わせることによって導かれる。 性能に基づくアンサンブル重み付け方式で用いられるモデル評価手法は、高インパクト極端事象の文脈において制限がある。 極度のシミュレーションを評価することに焦点を当てた局所時間不変モデル評価手法を提案する。 ナイロビの極端な暑さ予測における提案手法の挙動について検討する。

Adaptation-relevant predictions of climate change are often derived by combining climate models in a multi-model ensemble. Model evaluation methods used in performance-based ensemble weighting schemes have limitations in the context of high-impact extreme events. We introduce a locally time-invariant model evaluation method with focus on assessing the simulation of extremes. We explore the behaviour of the proposed method in predicting extreme heat days in Nairobi.
翻訳日:2022-12-01 15:19:23 公開日:2022-11-30
# 時間反転による自己監督型精神障害分類器

Self-Supervised Mental Disorder Classifiers via Time Reversal ( http://arxiv.org/abs/2211.16398v2 )

ライセンス: Link先を確認
Zafar Iqbal, Usman Mahmood, Zening Fu, Sergey Plis(参考訳) データ不足は、特に医療分野において、患者データ法によって顕著な問題である。 したがって、効率的な事前訓練技術は、この問題に対処するのに役立つ。 本稿では,機能的神経画像データの時間方向を訓練したモデルが,fmriデータにおける健全な制御から疾患を分類するなどの下流課題に有用であることを示す。 我々は、独立成分分析(ICA)技術を用いて、fMRIデータから派生した独立成分のディープニューラルネットワークを訓練する。 ICAベースのデータで時間方向を学習する。 この事前訓練されたモデルは、異なるデータセットで脳障害を分類するためにさらに訓練される。 様々な実験を通して,fMRIデータにおける因果関係の学習を支援する学習時間方向が,より高速な収束に役立つことを示し,その結果,少ないデータ記録でも下流分類タスクにおいてよく一般化されることを示した。

Data scarcity is a notable problem, especially in the medical domain, due to patient data laws. Therefore, efficient Pre-Training techniques could help in combating this problem. In this paper, we demonstrate that a model trained on the time direction of functional neuro-imaging data could help in any downstream task, for example, classifying diseases from healthy controls in fMRI data. We train a Deep Neural Network on Independent components derived from fMRI data using the Independent component analysis (ICA) technique. It learns time direction in the ICA-based data. This pre-trained model is further trained to classify brain disorders in different datasets. Through various experiments, we have shown that learning time direction helps a model learn some causal relation in fMRI data that helps in faster convergence, and consequently, the model generalizes well in downstream classification tasks even with fewer data records.
翻訳日:2022-12-01 15:19:17 公開日:2022-11-30
# Action-GPT: 改良および一般化されたゼロショットアクション生成のための大規模言語モデルを活用する

Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Zero Shot Action Generation ( http://arxiv.org/abs/2211.15603v2 )

ライセンス: Link先を確認
Sai Shashank Kalakonda, Shubh Maheshwari, Ravi Kiran Sarvadevabhatla(参考訳) 本稿では,大規模言語モデル(LLM)をテキストベースのアクション生成モデルに組み込むためのプラグインおよびプレイフレームワークであるAction-GPTを紹介する。 現在のモーションキャプチャデータセットにおけるアクションフレーズは、最小限の情報とポイント情報を含む。 LLMのプロンプトを慎重に作成することにより、アクションのよりリッチできめ細かい記述を生成する。 動作句の代わりにこれらの詳細記述を利用することで,テキストと動き空間のアライメントが向上することを示す。 本実験は,最近のテキスト・ツー・モーションモデルによる合成運動の質の質的,定量的な改善を示す。 コード、事前トレーニングされたモデル、サンプルビデオはhttps://actiongpt.github.ioで入手できる。

We introduce Action-GPT, a plug and play framework for incorporating Large Language Models (LLMs) into text-based action generation models. Action phrases in current motion capture datasets contain minimal and to-the-point information. By carefully crafting prompts for LLMs, we generate richer and fine-grained descriptions of the action. We show that utilizing these detailed descriptions instead of the original action phrases leads to better alignment of text and motion spaces. Our experiments show qualitative and quantitative improvement in the quality of synthesized motions produced by recent text-to-motion models. Code, pretrained models and sample videos will be made available at https://actiongpt.github.io
翻訳日:2022-12-01 15:19:00 公開日:2022-11-30
# 遅延拡散モデルを用いた高忠実誘導画像合成

High-Fidelity Guided Image Synthesis with Latent Diffusion Models ( http://arxiv.org/abs/2211.17084v1 )

ライセンス: Link先を確認
Jaskirat Singh, Stephen Gould, Liang Zheng(参考訳) 近年,テキスト条件付潜時拡散モデルが出現し,ユーザスクリブルによる制御可能な画像合成が注目されている。 ユーザはカラーコンポジションをスクリブルし、テキストプロンプトは画像全体のセマンティクスを制御する。 しかし、この方向の先行作業は、生成されたアウトプットがしばしば詳細を欠き、ターゲットドメインの単純表現に類似する、固有のドメインシフト問題に苦しむことに注意する。 本稿では,制約付き最適化問題の解として出力画像のモデル化を行い,この問題に対処する新しい誘導型画像合成フレームワークを提案する。 最適化に対する厳密な解の計算は不可能であるが、逆拡散過程の単一パスを必要とするだけで同じ近似を実現できることを示す。 さらに,入力テキストトークンとユーザストロークペインティングの相互アテンションに基づく対応を単純に定義することで,ユーザーは条件付きトレーニングや微調整を必要とせずに,異なる塗装領域のセマンティクスを制御できることを示す。 人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアよりも85.32%以上向上していることが示された。 私たちの論文のプロジェクトページはhttps://1jsingh.github.io/gradop.orgで閲覧できます。

Controllable image synthesis with user scribbles has gained huge public interest with the recent advent of text-conditioned latent diffusion models. The user scribbles control the color composition while the text prompt provides control over the overall image semantics. However, we note that prior works in this direction suffer from an intrinsic domain shift problem, wherein the generated outputs often lack details and resemble simplistic representations of the target domain. In this paper, we propose a novel guided image synthesis framework, which addresses this problem by modeling the output image as the solution of a constrained optimization problem. We show that while computing an exact solution to the optimization is infeasible, an approximation of the same can be achieved while just requiring a single pass of the reverse diffusion process. Additionally, we show that by simply defining a cross-attention based correspondence between the input text tokens and the user stroke-painting, the user is also able to control the semantics of different painted regions without requiring any conditional training or finetuning. Human user study results show that the proposed approach outperforms the previous state-of-the-art by over 85.32% on the overall user satisfaction scores. Project page for our paper is available at https://1jsingh.github.io/gradop.
翻訳日:2022-12-01 15:18:51 公開日:2022-11-30
# WeisfeilerとLeman Goの関係性

Weisfeiler and Leman Go Relational ( http://arxiv.org/abs/2211.17113v1 )

ライセンス: Link先を確認
Pablo Barcelo, Mikhail Galkin, Christopher Morris, Miguel Romero Orth(参考訳) 知識グラフ、マルチリレーショナルデータをモデル化し、質問応答やグラフ論理推論などの多くのアプリケーションを改善する。 このようなデータのための多くのグラフニューラルネットワークが最近登場し、しばしば浅いアーキテクチャを上回っている。 しかし、このようなマルチリレーショナルグラフニューラルネットワークの設計はアドホックであり、主に直観と経験的洞察によって駆動される。 今のところ、彼らの表現力、互いの関係、そして彼らの(実践的な)学習パフォーマンスは理解されていない。 本稿では,マルチリレーショナルグラフニューラルネットワークのより原理的な理解を導出する研究を開始する。 すなわち、よく知られたリレーショナルGCNとコンポジションGCNアーキテクチャの表現力の限界について検討し、その実践的学習性能に光を当てた。 両アーキテクチャをWeisfeiler-Lemanテストの適切なバージョンに整合させることにより、両モデルが非同型(多重関係)グラフや異なる構造的役割を持つ頂点を区別する同じ表現力を持つ条件を確立する。 さらに、表現型グラフニューラルネットワークの設計の最近の進歩を利用して、上記の2つのアーキテクチャの表現性制限を確実に克服する$k$-rnアーキテクチャを導入する。 実験により,小型および大規模マルチリレーショナルグラフ上での頂点分類における理論的知見を確認した。

Knowledge graphs, modeling multi-relational data, improve numerous applications such as question answering or graph logical reasoning. Many graph neural networks for such data emerged recently, often outperforming shallow architectures. However, the design of such multi-relational graph neural networks is ad-hoc, driven mainly by intuition and empirical insights. Up to now, their expressivity, their relation to each other, and their (practical) learning performance is poorly understood. Here, we initiate the study of deriving a more principled understanding of multi-relational graph neural networks. Namely, we investigate the limitations in the expressive power of the well-known Relational GCN and Compositional GCN architectures and shed some light on their practical learning performance. By aligning both architectures with a suitable version of the Weisfeiler-Leman test, we establish under which conditions both models have the same expressive power in distinguishing non-isomorphic (multi-relational) graphs or vertices with different structural roles. Further, by leveraging recent progress in designing expressive graph neural networks, we introduce the $k$-RN architecture that provably overcomes the expressiveness limitations of the above two architectures. Empirically, we confirm our theoretical findings in a vertex classification setting over small and large multi-relational graphs.
翻訳日:2022-12-01 15:18:12 公開日:2022-11-30
# CLIP-Nav: ゼロショットビジョンとランゲージナビゲーションにCLIPを使用する

CLIP-Nav: Using CLIP for Zero-Shot Vision-and-Language Navigation ( http://arxiv.org/abs/2211.16649v1 )

ライセンス: Link先を確認
Vishnu Sashank Dorbala, Gunnar Sigurdsson, Robinson Piramuthu, Jesse Thomason, Gaurav S. Sukhatme(参考訳) 家庭環境は視覚的に多様である。 野生でVLN(Vision-and-Language Navigation)を実行するエージェントは、任意の言語命令に従いながら、この多様性を処理できなければならない。 近年、CLIPのようなビジョンランゲージモデルは、ゼロショットオブジェクト認識のタスクにおいて優れたパフォーマンスを示している。 本研究では、これらのモデルがゼロショット言語グラウンドディングも可能かどうかを問う。 特に,CLIPを用いて対象オブジェクトを記述する自然言語参照式を用いたゼロショットVLNの新たな問題に対処する。 我々は,データセット固有の微調整を行わずに逐次的ナビゲーション決定を行うクリップの能力を調べ,エージェントが取る経路にどのように影響するかを検討する。 以上の結果から,CLIPの航法能力は,成功率 (SR) と経路長 (SPL) の重み付けによる成功率 (SPL) の両面で,教師付きベースラインを上回った。 さらに重要なことは、我々のCLIPベースのゼロショットアプローチが、SOTAと比較して環境間の一貫したパフォーマンスを示すのに優れていることを定量的に示すことである。

Household environments are visually diverse. Embodied agents performing Vision-and-Language Navigation (VLN) in the wild must be able to handle this diversity, while also following arbitrary language instructions. Recently, Vision-Language models like CLIP have shown great performance on the task of zero-shot object recognition. In this work, we ask if these models are also capable of zero-shot language grounding. In particular, we utilize CLIP to tackle the novel problem of zero-shot VLN using natural language referring expressions that describe target objects, in contrast to past work that used simple language templates describing object classes. We examine CLIP's capability in making sequential navigational decisions without any dataset-specific finetuning, and study how it influences the path that an agent takes. Our results on the coarse-grained instruction following task of REVERIE demonstrate the navigational capability of CLIP, surpassing the supervised baseline in terms of both success rate (SR) and success weighted by path length (SPL). More importantly, we quantitatively show that our CLIP-based zero-shot approach generalizes better to show consistent performance across environments when compared to SOTA, fully supervised learning approaches when evaluated via Relative Change in Success (RCS).
翻訳日:2022-12-01 15:17:50 公開日:2022-11-30
# ロボット支援給餌におけるビジュオ・ハプティック・スキューイングの学習

Learning Visuo-Haptic Skewering Strategies for Robot-Assisted Feeding ( http://arxiv.org/abs/2211.14648v2 )

ライセンス: Link先を確認
Priya Sundaresan, Suneel Belkhale, Dorsa Sadigh(参考訳) フォークで食品を入手することは、食品群全体に存在する幅広い材料特性と視覚的外観のため、ロボットによる給餌システムにとって大きな課題となる。 変形可能な食品は、固い食品と異なる焼成戦略を必要とするが、これまで見られなかったいくつかの食材についてそのような特性を推測することは、未だに容易ではない。 我々の重要な洞察は、アイテムと相互作用する際の視覚的および触覚的な観察を活用して、スキューワー運動を迅速かつ反応性に計画することである。 本研究は,食品の汎用的マルチモーダル表現を,最適なスキューリング戦略を知らせる生の感覚入力から学習する。 この表現を前提として,これまで見つからなかった項目の視覚触覚特性を知覚し,それに対して反応的に歪むゼロショットフレームワークを提案する。 視覚とテクスチャの多様性の異なる食品を用いた実ロボット実験は、我々のマルチモーダルポリシーが視覚と触覚の両方を活用せず、反応的に計画もしないベースラインを上回っていることを示している。 6枚の異なる食品のプレートにまたがって,提案手法は計69回以上で71%の成功を収めた。 追加資料、データセット、コード、ビデオは、私たちのWebサイトで入手可能です。

Acquiring food items with a fork poses an immense challenge to a robot-assisted feeding system, due to the wide range of material properties and visual appearances present across food groups. Deformable foods necessitate different skewering strategies than firm ones, but inferring such characteristics for several previously unseen items on a plate remains nontrivial. Our key insight is to leverage visual and haptic observations during interaction with an item to rapidly and reactively plan skewering motions. We learn a generalizable, multimodal representation for a food item from raw sensory inputs which informs the optimal skewering strategy. Given this representation, we propose a zero-shot framework to sense visuo-haptic properties of a previously unseen item and reactively skewer it, all within a single interaction. Real-robot experiments with foods of varying levels of visual and textural diversity demonstrate that our multimodal policy outperforms baselines which do not exploit both visual and haptic cues or do not reactively plan. Across 6 plates of different food items, our proposed framework achieves 71% success over 69 skewering attempts total. Supplementary material, datasets, code, and videos are available on our website: https://sites.google.com/view/hapticvisualnet-corl22/home
翻訳日:2022-12-01 15:12:33 公開日:2022-11-30
# DiffusionBERT: 拡散モデルによる生成的マスク言語モデルの改善

DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models ( http://arxiv.org/abs/2211.15029v2 )

ライセンス: Link先を確認
Zhengfu He, Tianxiang Sun, Kuanning Wang, Xuanjing Huang, Xipeng Qiu(参考訳) 離散拡散モデルに基づく新しい生成マスク付き言語モデルであるDiffusionBERTを提案する。 拡散モデルと多くの事前訓練された言語モデルは共通の訓練目標、すなわち2つの強力なモデルを組み合わせ、両方の世界の最高のものを楽しむことができる。 一方、拡散モデルは、生成品質を改善するための有望なトレーニング戦略を提供する。 一方、事前訓練された言語モデル(例えばBERT)は収束を加速する優れた初期化として使用できる。 我々は,離散拡散過程の逆過程を吸収状態で学習し,それを改善するためにいくつかの設計を解明するためにBERTを訓練する。 まず,各ステップに付加される雑音の度合いを,各トークンの情報に基づいて制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。 次に,時間ステップをBERTに組み込む設計について検討する。 非条件テキスト生成の実験では、DiffusionBERTはテキストの既存の拡散モデル(例えば、D3PMとDiffusion-LM)や、パープレキシティとBLEUスコアの点で、以前の生成的マスキング言語モデルよりも大幅に改善されている。

We present DiffusionBERT, a new generative masked language model based on discrete diffusion models. Diffusion models and many pre-trained language models have a shared training objective, i.e., denoising, making it possible to combine the two powerful models and enjoy the best of both worlds. On the one hand, diffusion models offer a promising training strategy that helps improve the generation quality. On the other hand, pre-trained denoising language models (e.g., BERT) can be used as a good initialization that accelerates convergence. We explore training BERT to learn the reverse process of a discrete diffusion process with an absorbing state and elucidate several designs to improve it. First, we propose a new noise schedule for the forward diffusion process that controls the degree of noise added at each step based on the information of each token. Second, we investigate several designs of incorporating the time step into BERT. Experiments on unconditional text generation demonstrate that DiffusionBERT achieves significant improvement over existing diffusion models for text (e.g., D3PM and Diffusion-LM) and previous generative masked language models in terms of perplexity and BLEU score.
翻訳日:2022-12-01 15:12:11 公開日:2022-11-30
# botsim:商用タスク指向対話システムのためのエンドツーエンドボットシミュレーションツールキット

BotSIM: An End-to-End Bot Simulation Toolkit for Commercial Task-Oriented Dialog Systems ( http://arxiv.org/abs/2211.15916v2 )

ライセンス: Link先を確認
Guangsen Wang and Shafiq Joty and Junnan Li and Steven Hoi(参考訳) 本稿では,ダイアログ生成,ユーザシミュレーション,会話分析機能を備えたモジュール型オープンソースのBot SIMulation環境であるBotSIMを紹介する。 BotSIMは、商用タスク指向対話(TOD)システムの大規模データ効率評価、診断、修復のためのワンストップソリューションとして機能し、商用ボットの開発と評価を著しく加速し、コスト削減と市場投入までの時間を短縮することを目的としている。 BotSIMはインフラストラクチャ層、アダプタ層、アプリケーション層で構成される層設計を採用する。 インフラストラクチャ層は、BotSIMの主要な機能をサポートするための重要なモデルとコンポーネントを、合理化された"ジェネレーション・シミュレーション・リメディエーション"パイプラインを通じてホストする。 アダプタ層は、新しいボットプラットフォームに対応するためにBotSIMを拡張するために使用される。 アプリケーション層は一連のコマンドラインツールとWebアプリケーションを提供し、ボット管理者や実践者のようなBotSIMユーザのエントリ障壁を著しく低くする。 本報告では,各種システムコンポーネントの技術設計について述べる。 Einstein BotBuilderを用いた詳細なケーススタディも紹介され、ボットの評価と修復にBotSIMパイプラインを適用する方法が示されている。 詳細なシステム説明は,システムデモ論文で確認することができる。 ツールキットは、https://github.com/salesforce/BotSIM で入手できる。

We introduce BotSIM, a modular, open-source Bot SIMulation environment with dialog generation, user simulation and conversation analytics capabilities. BotSIM aims to serve as a one-stop solution for large-scale data-efficient end-to-end evaluation, diagnosis and remediation of commercial task-oriented dialog (TOD) systems to significantly accelerate commercial bot development and evaluation, reduce cost and time-to-market. BotSIM adopts a layered design comprising the infrastructure layer, the adaptor layer and the application layer. The infrastructure layer hosts key models and components to support BotSIM's major functionalities via a streamlined "generation-simulation-remediation" pipeline. The adaptor layer is used to extend BotSIM to accommodate new bot platforms. The application layer provides a suite of command line tools and a Web App to significantly lower the entry barrier for BotSIM users such as bot admins or practitioners. In this report, we focus on the technical designs of various system components. A detailed case study using Einstein BotBuilder is also presented to show how to apply BotSIM pipeline for bot evaluation and remediation. The detailed system descriptions can be found in our system demo paper. The toolkit is available at: https://github.com/salesforce/BotSIM .
翻訳日:2022-12-01 15:11:52 公開日:2022-11-30
# 画像整合型変換による脳組織のロバストワンショットセグメンテーション

Robust One-shot Segmentation of Brain Tissues via Image-aligned Style Transformation ( http://arxiv.org/abs/2211.14521v3 )

ライセンス: Link先を確認
Jinxin Lv, Xiaoyu Zeng, Sheng Wang, Ran Duan, Zhiwei Wang, and Qiang Li(参考訳) 登録モデル(reg-model)は、慎重にラベル付けされたアトラスを未ラベルの画像にワープして、セグメンテーションモデル(seg-model)をトレーニングするための擬似マスクを初期化する。 しかし、このような二重モデル反復において重要な弱点は、レグモデルによって必然的に引き起こされる空間的ミスアライメントがセグモデルを誤る可能性があることである。 本稿では,脳組織の高機能なワンショットセグメンテーションのための2モデル反復学習を強化するために,新しい画像整列型変換を提案する。 具体的には,まずreg-modelを用いてアラスを非ラベル画像にワープし,次にフーリエ型振幅交換器を用いて非ラベル画像のスタイルをアラスに移植する。 これにより、後続のsegモデルはラベル付き画像ではなくアトラスのアライメントおよびスタイル変換されたコピーで学習することができ、ラベル付き画像が持つ強度パターンの多様性を犠牲にすることなく、画像マスクトレーニングペアの正しい空間対応を自然に保証する。 さらに,画像レベルの類似性に加えて,機能対応型コンテンツ一貫性を導入し,最初のイテレーションで画像整合型変換の崩壊を回避し,期待できる初期化のためにregモデルを制約する。 2つの公開データセットの実験結果 1)本手法の完全教師あり方式と比較した競合セグメンテーション性能、及び 2) 平均diceが最大4.67%増加する他の最先端技術よりも優れた性能を示す。 ソースコードは、https://github.com/JinxLv/One-shot-segmentation-via-IST.comで入手できる。

One-shot segmentation of brain tissues is typically a dual-model iterative learning: a registration model (reg-model) warps a carefully-labeled atlas onto unlabeled images to initialize their pseudo masks for training a segmentation model (seg-model); the seg-model revises the pseudo masks to enhance the reg-model for a better warping in the next iteration. However, there is a key weakness in such dual-model iteration that the spatial misalignment inevitably caused by the reg-model could misguide the seg-model, which makes it converge on an inferior segmentation performance eventually. In this paper, we propose a novel image-aligned style transformation to reinforce the dual-model iterative learning for robust one-shot segmentation of brain tissues. Specifically, we first utilize the reg-model to warp the atlas onto an unlabeled image, and then employ the Fourier-based amplitude exchange with perturbation to transplant the style of the unlabeled image into the aligned atlas. This allows the subsequent seg-model to learn on the aligned and style-transferred copies of the atlas instead of unlabeled images, which naturally guarantees the correct spatial correspondence of an image-mask training pair, without sacrificing the diversity of intensity patterns carried by the unlabeled images. Furthermore, we introduce a feature-aware content consistency in addition to the image-level similarity to constrain the reg-model for a promising initialization, which avoids the collapse of image-aligned style transformation in the first iteration. Experimental results on two public datasets demonstrate 1) a competitive segmentation performance of our method compared to the fully-supervised method, and 2) a superior performance over other state-of-the-art with an increase of average Dice by up to 4.67%. The source code is available at: https://github.com/JinxLv/One-shot-segmentation-via-IST.
翻訳日:2022-12-01 15:11:32 公開日:2022-11-30
# DQ-DETR: フレーズ抽出とグラウンド化のためのデュアルクエリ検出変換器

DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding ( http://arxiv.org/abs/2211.15516v2 )

ライセンス: Link先を確認
Shilong Liu, Yaoyuan Liang, Feng Li, Shijia Huang, Hao Zhang, Hang Su, Jun Zhu, Lei Zhang(参考訳) 本稿では,句抽出と接地(PEG)の両方を考慮した視覚的接地の問題について検討する。 以前のフレーズ-既知の設定とは対照的に、PEGはテキストからフレーズを抽出し、画像からオブジェクトを同時に見つけ出すモデルを必要とする。 句抽出を1Dテキストセグメンテーション問題と見なすことができるため、PEGを二重検出問題として定式化し、オブジェクト予測とフレーズマスク予測のための画像とテキストの異なる特徴を探索するDQ-DETRモデルを提案する。 各2つのクエリは、異なるコンテンツ部分ではなく、共有位置部分を持つように設計されている。 このような設計は(単一のクエリ設計とは対照的に)画像とテキスト間のモダリティアライメントの難しさを効果的に軽減し、トランスフォーマーデコーダにフレーズマスクによる注意を活用させ、パフォーマンスを向上させる。 PEGの性能を評価するため,物体検出におけるAP測定値に類似した新しい測定基準CMAP(クロスモーダル平均精度)を提案する。 新しいメトリックは、フレーズグラウンドで多ボックスから一フレーズのケースでRecall@1の曖昧さを克服する。 その結果、PEGが事前訓練したDQ-DETRは、ResNet-101バックボーンを持つ全てのビジュアルグラウンドベンチマークに対して、新しい最先端の結果を確立する。 例えば、RefCOCO testAとtestBのリコールレートで91.04\%$と83.51\%$をResNet-101バックボーンで達成している。 コードは \url{https://github.com/IDEA-Research/DQ-DETR} で利用可能になる。

In this paper, we study the problem of visual grounding by considering both phrase extraction and grounding (PEG). In contrast to the previous phrase-known-at-test setting, PEG requires a model to extract phrases from text and locate objects from images simultaneously, which is a more practical setting in real applications. As phrase extraction can be regarded as a $1$D text segmentation problem, we formulate PEG as a dual detection problem and propose a novel DQ-DETR model, which introduces dual queries to probe different features from image and text for object prediction and phrase mask prediction. Each pair of dual queries is designed to have shared positional parts but different content parts. Such a design effectively alleviates the difficulty of modality alignment between image and text (in contrast to a single query design) and empowers Transformer decoder to leverage phrase mask-guided attention to improve performance. To evaluate the performance of PEG, we also propose a new metric CMAP (cross-modal average precision), analogous to the AP metric in object detection. The new metric overcomes the ambiguity of Recall@1 in many-box-to-one-phrase cases in phrase grounding. As a result, our PEG pre-trained DQ-DETR establishes new state-of-the-art results on all visual grounding benchmarks with a ResNet-101 backbone. For example, it achieves $91.04\%$ and $83.51\%$ in terms of recall rate on RefCOCO testA and testB with a ResNet-101 backbone. Code will be availabl at \url{https://github.com/IDEA-Research/DQ-DETR}.
翻訳日:2022-12-01 15:10:58 公開日:2022-11-30
# ひとつは、プログレッシブボリューム蒸留によるニューラルラジアンスフィールドアーキテクチャ間のギャップを埋めること

One is All: Bridging the Gap Between Neural Radiance Fields Architectures with Progressive Volume Distillation ( http://arxiv.org/abs/2211.15977v2 )

ライセンス: Link先を確認
Shuangkang Fang, Weixin Xu, Heng Wang, Yi Yang, Yufeng Wang, Shuchang Zhou(参考訳) neural radiance fields(nerf)メソッドは、3dシーンのコンパクトで高品質で多用途な表現として有効であり、編集、検索、ナビゲーションなどの下流タスクを可能にする。 様々なニューラルアーキテクチャがnerfのコア構造を競い合っており、プレーンマルチ層パーセプトロン(mlp)、スパーステンソル、低ランクテンソル、ハッシュテーブル、それらの構成がある。 これらの表現は、それぞれが特定のトレードオフを持つ。 例えば、ハッシュテーブルベースの表現は、より高速なトレーニングとレンダリングを許容するが、その明確な幾何学的意味の欠如は、空間関係認識編集のような下流のタスクを妨げている。 本稿では, MLP, スパーステンソル, 低ランクテンソル, ハッシュテーブルおよびそれらの構成を含む, 異なるアーキテクチャ間の任意の変換を可能にする, 系統的蒸留法であるプログレッシブボリューム蒸留(PVD)を提案する。 PVDは、ダウンストリームアプリケーションに対して、手元にあるタスクのニューラル表現をポストホック方式で最適に適応させる権限を与える。 蒸留は、浅いものから深いものまで、様々なレベルの体積表現で徐々に行われるため、変換は高速である。 また,その特異な数値不安定問題に対処するために,密度の特殊処理も行う。 NeRF合成, LLFF, TanksAndTemplesデータセット上で, 実験手法の実証実験を行った。 例えば、pvdでは、mlpベースのnerfモデルをハッシュテーブルベースのinstant-ngpモデルから、元のnerfをスクラッチからトレーニングするよりも10倍から20倍の速度で蒸留することができる。 コードはhttps://github.com/megvii-research/aaai2023-pvdで入手できる。

Neural Radiance Fields (NeRF) methods have proved effective as compact, high-quality and versatile representations for 3D scenes, and enable downstream tasks such as editing, retrieval, navigation, etc. Various neural architectures are vying for the core structure of NeRF, including the plain Multi-Layer Perceptron (MLP), sparse tensors, low-rank tensors, hashtables and their compositions. Each of these representations has its particular set of trade-offs. For example, the hashtable-based representations admit faster training and rendering but their lack of clear geometric meaning hampers downstream tasks like spatial-relation-aware editing. In this paper, we propose Progressive Volume Distillation (PVD), a systematic distillation method that allows any-to-any conversions between different architectures, including MLP, sparse or low-rank tensors, hashtables and their compositions. PVD consequently empowers downstream applications to optimally adapt the neural representations for the task at hand in a post hoc fashion. The conversions are fast, as distillation is progressively performed on different levels of volume representations, from shallower to deeper. We also employ special treatment of density to deal with its specific numerical instability problem. Empirical evidence is presented to validate our method on the NeRF-Synthetic, LLFF and TanksAndTemples datasets. For example, with PVD, an MLP-based NeRF model can be distilled from a hashtable-based Instant-NGP model at a 10X~20X faster speed than being trained the original NeRF from scratch, while achieving a superior level of synthesis quality. Code is available at https://github.com/megvii-research/AAAI2023-PVD.
翻訳日:2022-12-01 15:10:30 公開日:2022-11-30
# adaenlight: モバイルデバイス上での省エネ型低光度ビデオストリームエンハンスメント

AdaEnlight: Energy-aware Low-light Video Stream Enhancement on Mobile Devices ( http://arxiv.org/abs/2211.16135v2 )

ライセンス: Link先を確認
Sicong Liu, Xiaochen Li, Zimu Zhou, Bin Guo, Meng Zhang, Haochen Shen and Zhiwen Yu(参考訳) カメラ埋め込みデバイスの普及とディープラーニングの進歩は、さまざまなインテリジェントなモバイルビデオ応用を刺激している。 これらのアプリケーションは、しばしば、プライバシーと堅牢性に関する懸念に対して、リアルタイムで高品質なサービスを提供するために、ビデオストリームのオンデバイス処理を要求する。 しかし、これらのアプリケーションの性能は生のビデオストリームによって制約されるため、薄暗い場所でユビキタスなモバイルプラットフォームの小型カメラで撮影される傾向にある。 幅広い低照度ビデオエンハンスメントソリューションにもかかわらず、複雑なモデルとエネルギー予算のようなシステムダイナミクスの無知のため、モバイルデバイスへのデプロイには適していない。 本稿では,モバイル端末上での省エネ型低照度映像ストリームエンハンスメントシステムであるAdaEnlightを提案する。 リアルタイムのビデオエンハンスメントと競合する視覚品質を実現し、実行時の動作をプラットフォームが要求する動的エネルギー予算に適応させる。 多様なデータセット、シナリオ、プラットフォームに関する広範な実験を報告し、最先端の低照度画像やビデオエンハンスメントソリューションと比較してAdaEnlightの優位性を実証する。

The ubiquity of camera-embedded devices and the advances in deep learning have stimulated various intelligent mobile video applications. These applications often demand on-device processing of video streams to deliver real-time, high-quality services for privacy and robustness concerns. However, the performance of these applications is constrained by the raw video streams, which tend to be taken with small-aperture cameras of ubiquitous mobile platforms in dim light. Despite extensive low-light video enhancement solutions, they are unfit for deployment to mobile devices due to their complex models and and ignorance of system dynamics like energy budgets. In this paper, we propose AdaEnlight, an energy-aware low-light video stream enhancement system on mobile devices. It achieves real-time video enhancement with competitive visual quality while allowing runtime behavior adaptation to the platform-imposed dynamic energy budgets. We report extensive experiments on diverse datasets, scenarios, and platforms and demonstrate the superiority of AdaEnlight compared with state-of-the-art low-light image and video enhancement solutions.
翻訳日:2022-12-01 15:09:53 公開日:2022-11-30
# 主勾配期待値に基づく伝達可能性推定

Transferability Estimation Based On Principal Gradient Expectation ( http://arxiv.org/abs/2211.16299v2 )

ライセンス: Link先を確認
Huiyan Qi, Lechao Cheng, Jingjing Chen, Yue Yu, Zunlei Feng, Yu-Gang Jiang(参考訳) 近年,知識伝達には深層伝達学習が広く用いられている。 事前学習とその後の微調整の標準的なアプローチは、多くの下流タスクで有効であることが示されている。 自己一貫性を維持しながら、転送結果と互換性のあるクロスタスク転送可能性をどのように定量化するか? 既存の転送可能性メトリクスは、ソースとターゲットタスクを会話することで、特定のモデルに基づいて推定される。 新たな未知のターゲットタスクに遭遇するたびに、既存のすべてのソースタスクで再計算しなければなりません。 本研究は,これらの特性を考慮し,既存の指標を満足させ,評価するものである。 そこで本研究では,タスク間の伝達可能性を評価するための簡易かつ効果的な手法である主勾配期待(pge)を提案する。 具体的には、各重みユニット上の各バッチ勾配を1回以上計算するために再起動スキームを使用し、期待値を得るためにすべての勾配の平均を取ります。 したがって、正規化主勾配距離を計算することにより、ソースとターゲットタスク間の転送可能性の推定を行う。 実験の結果,SOTA法よりも安定で信頼性が高く,効率がよいことがわかった。

Deep transfer learning has been widely used for knowledge transmission in recent years. The standard approach of pre-training and subsequently fine-tuning, or linear probing, has shown itself to be effective in many down-stream tasks. Therefore, a challenging and ongoing question arises: how to quantify cross-task transferability that is compatible with transferred results while keeping self-consistency? Existing transferability metrics are estimated on the particular model by conversing source and target tasks. They must be recalculated with all existing source tasks whenever a novel unknown target task is encountered, which is extremely computationally expensive. In this work, we highlight what properties should be satisfied and evaluate existing metrics in light of these characteristics. Building upon this, we propose Principal Gradient Expectation (PGE), a simple yet effective method for assessing transferability across tasks. Specifically, we use a restart scheme to calculate every batch gradient over each weight unit more than once, and then we take the average of all the gradients to get the expectation. Thus, the transferability between the source and target task is estimated by computing the distance of normalized principal gradients. Extensive experiments show that the proposed transferability metric is more stable, reliable and efficient than SOTA methods.
翻訳日:2022-12-01 15:09:35 公開日:2022-11-30
# 深部強化学習を用いた実環境における離散制御

Discrete Control in Real-World Driving Environments using Deep Reinforcement Learning ( http://arxiv.org/abs/2211.15920v2 )

ライセンス: Link先を確認
Avinash Amballa, Advaith P., Pradip Sasmal, and Sumohana Channappayya(参考訳) 自動運転車の訓練は、複数の実世界のコンテキストにおいて大量のラベル付きデータを必要とするため、しばしば困難である。 研究者はしばしばシミュレーターを駆動してエージェントを訓練し、知識を現実世界の環境に移す。 シミュレータには現実的な振る舞いがないため、これらの手法は非常に非効率である。 この問題に対処するため,実世界の環境をゲーム環境に移行させるフレームワーク(知覚,計画,制御)を導入し,信頼性の高いマルコフ決定プロセス(MDP)を構築した。 実環境における離散制御を学習し,実行するために,既存の強化学習(RL)アルゴリズムを多エージェント設定で提案する。 実験の結果、マルチエージェント設定はすべてのシナリオでシングルエージェント設定よりも優れていた。 また,エージェントが最小限の入力ビデオデータと最小限のトレーニングで実環境を学習・一般化することのできる,信頼性の高い初期化,データ拡張,トレーニング技術を提案する。 さらに,提案アルゴリズムの有効性を示すため,仮想運転環境 TORCS に本手法をデプロイする。

Training self-driving cars is often challenging since they require a vast amount of labeled data in multiple real-world contexts, which is computationally and memory intensive. Researchers often resort to driving simulators to train the agent and transfer the knowledge to a real-world setting. Since simulators lack realistic behavior, these methods are quite inefficient. To address this issue, we introduce a framework (perception, planning, and control) in a real-world driving environment that transfers the real-world environments into gaming environments by setting up a reliable Markov Decision Process (MDP). We propose variations of existing Reinforcement Learning (RL) algorithms in a multi-agent setting to learn and execute the discrete control in real-world environments. Experiments show that the multi-agent setting outperforms the single-agent setting in all the scenarios. We also propose reliable initialization, data augmentation, and training techniques that enable the agents to learn and generalize to navigate in a real-world environment with minimal input video data, and with minimal training. Additionally, to show the efficacy of our proposed algorithm, we deploy our method in the virtual driving environment TORCS.
翻訳日:2022-12-01 15:08:58 公開日:2022-11-30
# ベースデータなしでもより汎用的な少数ショット学習

Better Generalized Few-Shot Learning Even Without Base Data ( http://arxiv.org/abs/2211.16095v2 )

ライセンス: Link先を確認
Seong-Woong Kim and Dong-Wan Choi(参考訳) 本稿では,ゼロベース一般化されたゼロショット学習 (zero-base gfsl) について紹介・検討する。 プライバシーや倫理上の問題からベースデータが入手できない場合の動機として、ゼロベースGFSLの目的は、新しいクラスのサンプルのほとんどをベースクラスのサンプルなしで事前訓練されたモデルに組み込むことである。 分析の結果,新規クラスの重み分布の平均と分散が,基礎クラスの重み分布と比較して適切に確立されていないことが明らかとなった。 既存のgfsl法は重み規範のバランスを保とうとしているが、これは分散部分のみに寄与するが、特に新しいクラスでは重みの平均の重要性は捨て、ベースデータにおいてもgfsl問題の性能が限られている。 本稿では,新規クラスの重み分布の平均と分散をベースサンプルを用いずに効果的に制御できる簡易かつ効果的な正規化手法を提案することで,この限界を克服し,新規クラスとベースクラスの双方で満足できる性能を実現する。 実験結果から,提案したゼロベースGFSL法は,ベースデータを最大限に活用する既存のGFSL法よりも優れていることがわかった。 私たちの実装は、https://github.com/bigdata-inha/Zero-Base-GFSL.comで利用可能です。

This paper introduces and studies zero-base generalized few-shot learning (zero-base GFSL), which is an extreme yet practical version of few-shot learning problem. Motivated by the cases where base data is not available due to privacy or ethical issues, the goal of zero-base GFSL is to newly incorporate the knowledge of few samples of novel classes into a pretrained model without any samples of base classes. According to our analysis, we discover the fact that both mean and variance of the weight distribution of novel classes are not properly established, compared to those of base classes. The existing GFSL methods attempt to make the weight norms balanced, which we find helps only the variance part, but discard the importance of mean of weights particularly for novel classes, leading to the limited performance in the GFSL problem even with base data. In this paper, we overcome this limitation by proposing a simple yet effective normalization method that can effectively control both mean and variance of the weight distribution of novel classes without using any base samples and thereby achieve a satisfactory performance on both novel and base classes. Our experimental results somewhat surprisingly show that the proposed zero-base GFSL method that does not utilize any base samples even outperforms the existing GFSL methods that make the best use of base data. Our implementation is available at: https://github.com/bigdata-inha/Zero-Base-GFSL.
翻訳日:2022-12-01 15:01:37 公開日:2022-11-30
# スパイクニューラルネットワークにおける時間情報ダイナミクスの探索

Exploring Temporal Information Dynamics in Spiking Neural Networks ( http://arxiv.org/abs/2211.14406v2 )

ライセンス: Link先を確認
Youngeun Kim, Yuhang Li, Hyoungseob Park, Yeshwanth Venkatesha, Anna Hambitzer, Priyadarshini Panda(参考訳) 現存するほとんどのスパイキングニューラルネットワーク(SNN)は、SNNがスパイクの時間的情報ダイナミクスを利用する可能性があると述べている。 しかし、時間的情報ダイナミクスの明示的な分析はまだ欠落している。 本稿では、SNNの基本的な理解を提供するために、いくつかの重要な質問を行う: SNNの内部の時間的情報力学とは何か? 時間情報のダイナミクスをどのように測定するか? 時間的情報ダイナミクスは学習全体のパフォーマンスにどのように影響するか? これらの疑問に答えるために,重みのフィッシャー情報を推定し,訓練中の時間情報の分布を実証的に測定する。 驚くべきことに、訓練が進むにつれて、フィッシャーの情報は早期の段階に集中し始める。 トレーニング後,情報収集の時間的集中度は,時間的情報集中度という現象に大きく依存することが明らかとなった。 時間的情報集中現象は,アーキテクチャ,データセット,最適化戦略,時間定数,時間ステップなどの様々な構成について広範な実験を行い,snsの一般的な学習特徴である。 さらに、時間情報集中がSNNの性能に与える影響を明らかにするために、時間情報の動向を変えるための損失関数を設計する。 SNNの構築には時間的情報集中が不可欠であるが,分類精度にはほとんど影響しない。 最後に,時間的情報集中の観測に基づく効率的な反復的刈り取り手法を提案する。 コードはhttps://github.com/Intelligent-Computing-Lab-Yale/Exploring-Temporal-Information-Dynamics-in-Spiking -Neural-Networksで公開されている。

Most existing Spiking Neural Network (SNN) works state that SNNs may utilize temporal information dynamics of spikes. However, an explicit analysis of temporal information dynamics is still missing. In this paper, we ask several important questions for providing a fundamental understanding of SNNs: What are temporal information dynamics inside SNNs? How can we measure the temporal information dynamics? How do the temporal information dynamics affect the overall learning performance? To answer these questions, we estimate the Fisher Information of the weights to measure the distribution of temporal information during training in an empirical manner. Surprisingly, as training goes on, Fisher information starts to concentrate in the early timesteps. After training, we observe that information becomes highly concentrated in earlier few timesteps, a phenomenon we refer to as temporal information concentration. We observe that the temporal information concentration phenomenon is a common learning feature of SNNs by conducting extensive experiments on various configurations such as architecture, dataset, optimization strategy, time constant, and timesteps. Furthermore, to reveal how temporal information concentration affects the performance of SNNs, we design a loss function to change the trend of temporal information. We find that temporal information concentration is crucial to building a robust SNN but has little effect on classification accuracy. Finally, we propose an efficient iterative pruning method based on our observation on temporal information concentration. Code is available at https://github.com/Intelligent-Computing-Lab-Yale/Exploring-Temporal-Information-Dynamics-in-Spiking -Neural-Networks.
翻訳日:2022-12-01 15:01:13 公開日:2022-11-30
# 異なるタイプのディープニューラルネットワークアーキテクチャ構築のための自己適応型神経進化アプローチ

A Self-adaptive Neuroevolution Approach to Constructing Deep Neural Network Architectures Across Different Types ( http://arxiv.org/abs/2211.14753v2 )

ライセンス: Link先を確認
Zhenhao Shuai, Hongbo Liu, Zhaolin Wan, Wei-Jie Yu, Jun Zhang(参考訳) Neuroevolutionは、Deep Neural Network(DNN)アーキテクチャ設計とその応用を大いに推進し、スケールとパフォーマンスの両方に関して、さまざまなDNNタイプにまたがるメソッドが不足している。 本研究では,多種多様なタスクのための軽量DNNアーキテクチャを自動構築する自己適応型神経進化(SANE)手法を提案する。 SANEの重要な設定の1つは、異なるDNNタイプに適応した細胞と臓器によって定義された検索空間である。 この探索空間に基づいて、均一な進化設定と操作を備えた構成的進化戦略は、徐々にDNNアーキテクチャを成長させるように設計されている。 SANEは、進化探索とエクスプロイトを自己適応的に調整し、探索効率を向上させる。 また,種間の選抜競争を制限し,早期収束から進化を守るための種分化スキームを開発した。 SANEを評価するために、畳み込みニューラルネットワーク、生成対向ネットワーク、長期記憶を含む異なるDNNアーキテクチャを生成するために神経進化実験を行った。 得られたDNNアーキテクチャは,既存のDNNアーキテクチャと同等の性能でスケールが小さくなる可能性が示唆された。 提案するSANEは,異なるタイプのDNNアーキテクチャを自己適応的に検索する効率的な手法を提供する。

Neuroevolution has greatly promoted Deep Neural Network (DNN) architecture design and its applications, while there is a lack of methods available across different DNN types concerning both their scale and performance. In this study, we propose a self-adaptive neuroevolution (SANE) approach to automatically construct various lightweight DNN architectures for different tasks. One of the key settings in SANE is the search space defined by cells and organs self-adapted to different DNN types. Based on this search space, a constructive evolution strategy with uniform evolution settings and operations is designed to grow DNN architectures gradually. SANE is able to self-adaptively adjust evolution exploration and exploitation to improve search efficiency. Moreover, a speciation scheme is developed to protect evolution from early convergence by restricting selection competition within species. To evaluate SANE, we carry out neuroevolution experiments to generate different DNN architectures including convolutional neural network, generative adversarial network and long short-term memory. The results illustrate that the obtained DNN architectures could have smaller scale with similar performance compared to existing DNN architectures. Our proposed SANE provides an efficient approach to self-adaptively search DNN architectures across different types.
翻訳日:2022-12-01 15:00:51 公開日:2022-11-30
# PiggyBack: 深層学習専門職を支援するための事前学習型視覚質問応答環境

PiggyBack: Pretrained Visual Question Answering Environment for Backing up Non-deep Learning Professionals ( http://arxiv.org/abs/2211.15940v2 )

ライセンス: Link先を確認
Zhihao Zhang, Siwen Luo, Junyi Chen, Sijia Lai, Siqu Long, Hyunsuk Chung, Soyeon Caren Han(参考訳) 我々は,最先端のビジュアル言語事前学習モデルを容易に適用できるビジュアル質問応答プラットフォーム piggyback を提案する。 PiggyBackは、視覚的な質問応答タスクのフルスタック、特にデータ処理、モデル微調整、結果の可視化をサポートする。 ディープラーニング技術のオープンソースAPIプラットフォームであるHuggingFaceによって事前訓練された視覚言語モデルを統合していますが、プログラミングスキルやディープラーニングの理解なしには実行できません。 したがって、私たちのpiggybackは、一般ユーザやドメインの専門家のために、いくつかのディープラーニングビジュアル言語を事前学習したモデルを備えた、使いやすいブラウザベースのユーザインターフェースをサポートします。 このPiggyBackには,次のようなメリットがある。MITライセンス下での無償提供,Webベースによる移植性,ほぼすべてのプラットフォームで動作すること,包括的なデータ生成と処理技術,ディープラーニングベースのビジュアル言語事前トレーニングモデルでの使いやすさ。 デモビデオはYouTubeで公開されており、https://youtu.be/iz44RZ1lF4sで見ることができる。

We propose a PiggyBack, a Visual Question Answering platform that allows users to apply the state-of-the-art visual-language pretrained models easily. The PiggyBack supports the full stack of visual question answering tasks, specifically data processing, model fine-tuning, and result visualisation. We integrate visual-language models, pretrained by HuggingFace, an open-source API platform of deep learning technologies; however, it cannot be runnable without programming skills or deep learning understanding. Hence, our PiggyBack supports an easy-to-use browser-based user interface with several deep learning visual language pretrained models for general users and domain experts. The PiggyBack includes the following benefits: Free availability under the MIT License, Portability due to web-based and thus runs on almost any platform, A comprehensive data creation and processing technique, and ease of use on deep learning-based visual language pretrained models. The demo video is available on YouTube and can be found at https://youtu.be/iz44RZ1lF4s.
翻訳日:2022-12-01 15:00:33 公開日:2022-11-30
# マーケティングにおける資源配分問題に対する直接的不均一因果学習

Direct Heterogeneous Causal Learning for Resource Allocation Problems in Marketing ( http://arxiv.org/abs/2211.15728v2 )

ライセンス: Link先を確認
Hao Zhou, Shaoming Li, Guibin Jiang, Jiaqi Zheng and Dong Wang(参考訳) マーケティングは、ユーザのエンゲージメントを高め、プラットフォーム収益を改善するための重要なメカニズムであり、不均一な因果学習は、より効果的な戦略の開発に役立つ。 マーケティングにおける意思決定問題は資源配分問題として定式化され、数十年にわたって研究されてきた。 既存の作業は通常、解法を2つの完全に分離された段階、すなわち機械学習(ML)とオペレーションリサーチ(OR)に分割する。 しかし、MLにおける予測パラメータの誤差は尊重されず、ORにおける一連の複雑な数学的操作は累積誤差の増加につながる。 本質的に、予測パラメータの精度向上は、デカップリング設計による副作用のため、最終解に正の相関を持たない可能性がある。 本稿では,資源割当問題を解決し,副作用を緩和するための新しい手法を提案する。 我々の重要な直感は、MLとOR間のブリッジを確立するための決定因子を導入し、決定因子のソートや比較操作のみを実行することで、OR内で直接解を得ることができることです。 さらに,決定要因に対して直接的不均質因果学習を行うようにカスタマイズした損失関数を設計し,損失が収束した場合の偏りのない推定を行う。 ケーススタディでは,2次処理代入問題と複数処理による予算配分問題という,マーケティングにおける重要な2つの問題にアプローチを適用した。 大規模シミュレーションとオンラインa/bテストの両方で,我々のアプローチが最先端の手法に比べて大幅に改善できることが示されている。

Marketing is an important mechanism to increase user engagement and improve platform revenue, and heterogeneous causal learning can help develop more effective strategies. Most decision-making problems in marketing can be formulated as resource allocation problems and have been studied for decades. Existing works usually divide the solution procedure into two fully decoupled stages, i.e., machine learning (ML) and operation research (OR) -- the first stage predicts the model parameters and they are fed to the optimization in the second stage. However, the error of the predicted parameters in ML cannot be respected and a series of complex mathematical operations in OR lead to the increased accumulative errors. Essentially, the improved precision on the prediction parameters may not have a positive correlation on the final solution due to the side-effect from the decoupled design. In this paper, we propose a novel approach for solving resource allocation problems to mitigate the side-effects. Our key intuition is that we introduce the decision factor to establish a bridge between ML and OR such that the solution can be directly obtained in OR by only performing the sorting or comparison operations on the decision factor. Furthermore, we design a customized loss function that can conduct direct heterogeneous causal learning on the decision factor, an unbiased estimation of which can be guaranteed when the loss converges. As a case study, we apply our approach to two crucial problems in marketing: the binary treatment assignment problem and the budget allocation problem with multiple treatments. Both large-scale simulations and online A/B Tests demonstrate that our approach achieves significant improvement compared with state-of-the-art.
翻訳日:2022-12-01 15:00:16 公開日:2022-11-30
# Landsat-8画像の深部セグメンテーションモデルの性能評価

Performance evaluation of deep segmentation models on Landsat-8 imagery ( http://arxiv.org/abs/2211.14851v3 )

ライセンス: Link先を確認
Akshat Bhandari and Sriya Rallabandi and Sanchit Singhal and Aditya Kasliwal and Pratinav Seth(参考訳) コントラル(Contrail)は、冷たく湿った空気を飛ぶ際に航空機のエンジンの排気によって生じる線状の氷雲である。 放射される長波の約33%を地球に吸収または誘導することで温室効果を発生させる。 それらは航空活動による気候変動の半分以上を占める。 コントラルの回避と飛行経路の調整は、その影響を減らすための安価で効果的な方法である可能性がある。 違反回避戦略の開発と評価には,正確で自動化された信頼性の高い検出アルゴリズムが必要である。 コントラル検出の進歩は、いくつかの要因により、主に品質ラベル付きデータの欠如により、著しく制限されている。 近年,大型のLandsat-8コントラルデータセットが提案されている。 各コントラルには、ランドサット8衛星画像の様々な場面で様々な入力が慎重にラベル付けされている。 本研究では,様々な損失関数とエンコーダのバックボーンを組み合わせたセグメンテーションモデルをベンチマークする。 この研究は、低軌道衛星画像の反則を検出するために最先端のセグメンテーション技術を適用した最初のものである。 私たちの作品は、反則セグメンテーションのオープンベンチマークとしても使用でき、公開されています。

Contrails, short for condensation trails, are line-shaped ice clouds produced by aircraft engine exhaust when they fly through cold and humid air. They generate a greenhouse effect by absorbing or directing back to Earth approximately 33% of emitted outgoing longwave radiation. They account for over half of the climate change resulting from aviation activities. Avoiding contrails and adjusting flight routes could be an inexpensive and effective way to reduce their impact. An accurate, automated, and reliable detection algorithm is required to develop and evaluate contrail avoidance strategies. Advancement in contrail detection has been severely limited due to several factors, primarily due to a lack of quality-labeled data. Recently, proposed a large human-labeled Landsat-8 contrails dataset. Each contrail is carefully labeled with various inputs in various scenes of Landsat-8 satellite imagery. In this work, we benchmark several popular segmentation models with combinations of different loss functions and encoder backbones. This work is the first to apply state-of-the-art segmentation techniques to detect contrails in low-orbit satellite imagery. Our work can also be used as an open benchmark for contrail segmentation and is publicly available.
翻訳日:2022-12-01 14:59:50 公開日:2022-11-30