このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221126となっている論文です。

PDF登録状況(公開日: 20221126)

TitleAuthorsAbstract論文公表日・翻訳日
# 最適振幅増幅のための脱分極ノイズ認識トランスパイラ

A Depolarizing Noise-aware Transpiler for Optimal Amplitude Amplification ( http://arxiv.org/abs/2210.14335v4 )

ライセンス: Link先を確認
Debashis Ganguly and Wonsun Ahn(参考訳) 振幅増幅は、その環境から完全に分離された量子マシン上で実行される量子アルゴリズムの配列に対して二次的なスピードアップを提供する。 しかし、NISQ時代の量子マシンは誤り訂正に必要な多くの量子ビットを欠いているため、利点は著しく低下する。 演算におけるノイズは、振幅増幅の繰り返しで回路内のゲート数が増えるにつれて増大する。 一定数の増幅後、ゲートノイズによる精度の損失は増幅によって精度の利得を過大にし始め、反射点を形成する。 この点を超えると、機械が最大混合状態に達するまで精度は低下し続け、結果は一様ランダムである。 したがって、量子トランスパイラは、基礎となる量子マシンのノイズパラメータを考慮に入れ、回路を最適化することで、そのマシンで可能な最大精度を達成することができる。 本研究では,純粋ベイズ解析を個々のゲートノイズ率に適用することにより,高忠実度で増幅する毎に結果の精度を予測するトランスパイラの拡張を提案する。 この情報を用いて、反転点を見つけ、その点で増幅を停止することで回路を最適化する。 予測は、量子シミュレーターまたは実際の量子マシン上で回路を実行することなく行われる。

Amplitude amplification provides a quadratic speed-up for an array of quantum algorithms when run on a quantum machine perfectly isolated from its environment. However, the advantage is substantially diminished as the NISQ-era quantum machines lack the large number of qubits necessary to provide error correction. Noise in the computation grows with the number of gate counts in the circuit with each iteration of amplitude amplification. After a certain number of amplifications, the loss in accuracy from the gate noise starts to overshadow the gain in accuracy due to amplification, forming an inflection point. Beyond this point, accuracy continues to deteriorate until the machine reaches a maximally mixed state where the result is uniformly random. Hence, quantum transpilers should take the noise parameters of the underlying quantum machine into consideration such that the circuit can be optimized to attain the maximal accuracy possible for that machine. In this work, we propose an extension to the transpiler that predicts the accuracy of the result at every amplification with high fidelity by applying pure Bayesian analysis to individual gate noise rates. Using this information, it finds the inflection point and optimizes the circuit by halting amplification at that point. The prediction is made without needing to execute the circuit either on a quantum simulator or an actual quantum machine.
翻訳日:2023-01-21 15:47:19 公開日:2022-11-26
# 高密度超低温分子の磁気トラップ

Magnetic trapping of ultracold molecules at high density ( http://arxiv.org/abs/2211.11120v2 )

ライセンス: Link先を確認
Juliana J. Park, Yu-Kun Lu, Alan O. Jamison and Wolfgang Ketterle(参考訳) 極低温分子を保存トラップにトラップすることは、量子状態制御化学、量子シミュレーション、量子情報処理などの応用に不可欠である。 これらの応用には高い密度または位相空間密度が必要である。 高密度(\approx 10^{11} \; \rm{cm}^{-3}$)および超低温(\approx 1\;{\rm \mu K}$)におけるNaLi分子の磁気的トラップについて報告する。 これらの密度での磁気トラップは、トラップ光のない超低温状態における原子-分子と分子-分子の衝突の研究を可能にする。 単一スピン試料およびフェミオンNaLiのスピン混合およびスピン延伸NaLi$+$Na混合物の非弾性損失率を測定した。 本研究では, 磁気トラップ中でのNaLi分子の共振冷却をコトラップしたNa原子の高周波蒸発により実証し, 分子の位相空間密度の増大を$\approx 16$で観測した。

Trapping ultracold molecules in conservative traps is essential for applications -- such as quantum state-controlled chemistry, quantum simulations, and quantum information processing. These applications require high densities or phase-space densities. We report magnetic trapping of NaLi molecules in the triplet ground state at high density ($\approx 10^{11} \; \rm{cm}^{-3}$) and ultralow temperature ($\approx 1\;{\rm \mu K}$). Magnetic trapping at these densities allows studies on both atom-molecule and molecule-molecule collisions in the ultracold regime in the absence of trapping light, which has often lead to undesired photo-chemistry. We measure the inelastic loss rates in a single spin sample and spin-mixtures of fermionic NaLi as well as spin-stretched NaLi$+$Na mixtures. We demonstrate sympathetic cooling of NaLi molecules in the magnetic trap by radio frequency evaporation of co-trapped Na atoms and observe an increase in the molecules' phase-space density by a factor of $\approx 16$.
翻訳日:2023-01-17 23:43:13 公開日:2022-11-26
# ハイブリッド光共振キャビティシステムにおけるマルチチャネル量子ノイズ抑制と位相感応変調

Multi-channel quantum noise suppression and phase-sensitive modulation in a hybrid optical resonant cavity system ( http://arxiv.org/abs/2211.14623v1 )

ライセンス: Link先を確認
Ke Di, Shuai Tan, Liyong Wang, Anyu Cheng, Xi Wang, Yuming Sun, Junqi Guo, Yu Liu and Jiajia Du(参考訳) ハイブリッド共振器空洞系における真空・圧縮場における連続変動の量子雑音抑制と位相感度変調について理論的に検討した。 電磁誘導透過(eit)に似た複数の暗窓が量子ノイズゆらぎ曲線で観測される。 量子ノイズの抑制と暗窓幅の制御の両方に対する励起光の効果を慎重に解析し、非線形結晶変換のための励起光の飽和点を求める。 ノイズ抑制効果は励起光パワーに強く敏感であることがわかった。 汲み上げライトパワーが6.5 Beta_thの場合には、ノイズ抑制の度合いを最大13.9 dBにすることができる。 さらに, 圧縮磁場の二次振幅において, 多チャンネル量子雑音抑圧が実現し難いギャップを十分に埋める位相感度変調方式を実証した。 我々の結果は、精密測定物理学、量子情報処理、およびシステムオンチップの量子通信における様々な応用に有意義である。

Quantum noise suppression and phase-sensitive modulation of continuously variable in vacuum and squeezed fields in a hybrid resonant cavity system are investigated theoretically. Multiple dark windows similar to electromagnetic induction transparency (EIT) are observed in quantum noise fluctuation curve. The effects of pumping light on both suppression of quantum noise and control the widths of dark windows are carefully analyzed, and the saturation point of pumping light for nonlinear crystal conversion is obtained. We find that the noise suppression effect is strongly sensitive to the pumping light power. The degree of noise suppression can be up to 13.9 dB when the pumping light power is 6.5 Beta_th. Moreover, a phase-sensitive modulation scheme is demonstrated, which well fills the gap that multi-channel quantum noise suppression is difficult to realize at the quadrature amplitude of squeezed field. Our result is meaningful for various applications in precise measurement physics, quantum information processing and quantum communications of system-on-a-chip.
翻訳日:2023-01-17 18:21:06 公開日:2022-11-26
# 多状態ランダウ・ツェナー模型における過渡力学の量子エミュレーション

Quantum emulation of the transient dynamics in the multistate Landau-Zener model ( http://arxiv.org/abs/2211.14586v1 )

ライセンス: Link先を確認
Alexander Stehli, Jan David Brehm, Tim Wolz, Andre Schneider, Hannes Rotzinger, Martin Weides, and Alexey V. Ustinov(参考訳) 量子シミュレーションは、量子コンピューティングの近い将来の最も有望な応用の1つである。 特に、ヒルベルト空間が広いシステムは古典的コンピュータでは解決が難しいため、量子ハードウェアを用いたシミュレーションの理想的なターゲットとなる。 本研究では,ランドウ・ツェナー速度の関数として,多状態ランドウ・ツェナー模型の過渡ダイナミクスを実験的に検討する。 基礎となるハミルトニアンは超伝導量子回路によってエミュレートされ、波長可変トランスモン量子ビットは4つの集中型マイクロ波共振器からなるボソニックモードアンサンブルに結合される。 回路設計のため、我々は単に量子ビットをエキサイティングするだけでなく、専用のドライブラインを介してハーモニックモードを励起することもできます。 ここでは、過渡ダイナミクスの性質は励起共振器の平均光子数に依存する。 量子ビット状態と高フォック状態の間のより効果的な結合強度は、余分な損失チャネルを導入することなくコヒーレント量子振動が抑制される準断熱遷移をもたらす。 我々の実験は、量子ビットと工学的ボソニックモードスペクトルを結合したより複雑なシミュレーションへの道を開いた。

Quantum simulation is one of the most promising near term applications of quantum computing. Especially, systems with a large Hilbert space are hard to solve for classical computers and thus ideal targets for a simulation with quantum hardware. In this work, we study experimentally the transient dynamics in the multistate Landau-Zener model as a function of the Landau-Zener velocity. The underlying Hamiltonian is emulated by superconducting quantum circuit, where a tunable transmon qubit is coupled to a bosonic mode ensemble comprising four lumped element microwave resonators. We investigate the model for different initial states: Due to our circuit design, we are not limited to merely exciting the qubit, but can also pump the harmonic modes via a dedicated drive line. Here, the nature of the transient dynamics depends on the average photon number in the excited resonator. The greater effective coupling strength between qubit and higher Fock states results in a quasi-adiabatic transition, where coherent quantum oscillations are suppressed without the introduction of additional loss channels. Our experiments pave the way for more complex simulations with qubits coupled to an engineered bosonic mode spectrum.
翻訳日:2023-01-17 18:20:50 公開日:2022-11-26
# 密接な不確実性関係からの量子速度限界

Quantum Speed Limit From Tighter Uncertainty Relation ( http://arxiv.org/abs/2211.14561v1 )

ライセンス: Link先を確認
Shrobona Bagchi, Abhay Srivastav, Arun Kumar Pati(参考訳) 量子速度制限は、量子系がどんな物理的操作の下で初期状態と最終状態の間にどれだけの速さで進化できるかの基本的境界を与える。 mandelstam-Tamm(MT)境界は、ユニタリ時間進化中の様々な量子系に対して広く研究されている。 ここでは、任意のユニタリ進化を行う純粋量子系に対するより厳密な不確実性関係を用いて、新しい量子速度限界を証明する。 また、混合量子状態に対するより厳密な不確実性関係を導出し、そこから混合量子状態に対する新しい量子速度制限を導出し、より厳密な不確実性関係から導出される純粋量子状態に還元する。 MT境界は、ここで導かれるより厳密な量子速度制限の特別な場合であることを示す。 また、多くの基底ベクトルの集合に対して最適化すると、この境界は改善できることを示す。 ランダムハミルトニアンの例を用いて、純粋な状態に対するより厳密な速度制限を示し、新しい量子速度制限がmt境界を超えることを示す。

The quantum speed limit provides a fundamental bound on how fast a quantum system can evolve between the initial and the final states under any physical operation. The celebrated Mandelstam-Tamm (MT) bound has been widely studied for various quantum systems undergoing unitary time evolution. Here, we prove a new quantum speed limit using the tighter uncertainty relations for pure quantum systems undergoing arbitrary unitary evolution. We also derive a tighter uncertainty relation for mixed quantum states and then derive a new quantum speed limit for mixed quantum states from it such that it reduces to that of the pure quantum states derived from tighter uncertainty relations. We show that the MT bound is a special case of the tighter quantum speed limit derived here. We also show that this bound can be improved when optimized over many different sets of basis vectors. We illustrate the tighter speed limit for pure states with examples using random Hamiltonians and show that the new quantum speed limit outperforms the MT bound.
翻訳日:2023-01-17 18:20:31 公開日:2022-11-26
# 量子コンピュータ上の格子qcdから核物理学へ

Toward nuclear physics from lattice QCD on quantum computers ( http://arxiv.org/abs/2211.14550v1 )

ライセンス: Link先を確認
Arata Yamamoto and Takumi Doi(参考訳) 格子QCDの究極のミッションの1つは、強い相互作用の最初の原理から原子核をシミュレートすることである。 これは現在の計算技術にとって非常に難しい作業だが、今後の量子コンピューティング時代には到達できるかもしれない。 本稿では,格子QCDの古典的および量子シミュレーションの計算複雑性について論じる。 量子シミュレーションは核子数の関数としてより良くスケールできることが示され、これにより大きな核に対して性能が向上する。

One of the ultimate missions of lattice QCD is to simulate atomic nuclei from the first principle of the strong interaction. This is an extremely hard task for the current computational technology, but might be reachable in coming quantum computing era. In this paper, we discuss the computational complexities of classical and quantum simulations of lattice QCD. It is shown that the quantum simulation scales better as a function of a nucleon number and thus will outperform for large nuclei.
翻訳日:2023-01-17 18:20:14 公開日:2022-11-26
# 量子ノイズ低減資源の複合化 : 実践的アプローチ

Combining quantum noise reduction resources: a practical approach ( http://arxiv.org/abs/2211.14460v1 )

ライセンス: Link先を確認
Sohitri Ghosh, Matthew A. Feldman, Seongjin Hong, Claire Marvinney, Raphael Pooser, and Jacob M. Taylor(参考訳) 光学センサーは外部の摂動を可解光信号に伝達することができる。 特定の利害関係は、短時間でシステムへインパルスが伝達される高帯域幅力検出である。 過度に感度の高いインパルス検出は、現在のセンサーよりも高い感度を必要とする暗黒物質と長距離相互作用する信号のような非常に弱い信号を観測するために提案されている。 これらのセンサーのノイズの標準量子限界を超える量子資源には、信号の伝達に使用される光のスクイーズ、最適二次度の測定によるバックアクション回避、直接バックアクションを減少させる量子非破壊(QND)測定が含まれる。 しかし、これら全ての量子リソースがノイズ低減に寄与し、1つの量子リソースのみを使用することの利点を超えるスキームを決定することは極めて困難である。 これらの光機械センサに対して、スクイージングやqnd測定などの量子的な読み出し技術を組み合わせて、ノイズ低減の理論的限界を提供する。 我々は,QND技術によるバックアクション回避が,ブロードバンド力検出にシャープ光を用いる場合の技術的課題を劇的に低減し,インパルスメトロジーの文脈における感度を高めるために複数の量子ノイズ低減技術を組み合わせる方法を示す。

Optomechanical sensors are capable of transducing external perturbations to resolvable optical signals. A particular regime of interest is that of high-bandwidth force detection, where an impulse is delivered to the system over a short period of time. Exceedingly sensitive impulse detection has been proposed to observe very weak signals like those for long range interactions with dark matter requiring much higher sensitivities than current sensors can provide. Quantum resources to go beyond the standard quantum limit of noise in these sensors include squeezing of the light used to transduce the signal, backaction evasion by measuring the optimum quadrature, and quantum nondemolition (QND) measurements which reduce backaction directly. However, it has been extremely difficult to determine a scheme where all these quantum resources contribute to noise reduction thereby exceeding the benefit of using only one quantum resource alone. We provide the theoretical limits to noise reduction while combining quantum enhanced readout techniques such as squeezing and QND measurements for these optomechanical sensors. We demonstrate that backaction evasion through QND techniques dramatically reduces the technical challenges presented when using squeezed light for broadband force detection, paving the way for combining multiple quantum noise reduction techniques for enhanced sensitivity in the context of impulse metrology.
翻訳日:2023-01-17 18:20:05 公開日:2022-11-26
# テキストに基づく人物探索のための非対称クロススケールアライメント

Asymmetric Cross-Scale Alignment for Text-Based Person Search ( http://arxiv.org/abs/2212.11958v1 )

ライセンス: Link先を確認
Zhong Ji, Junhua Hu, Deyin Liu, Lin Yuanbo Wu, Ye zhao(参考訳) テキストに基づく人物探索 (TBPS) は知的監視において重要な意味を持つ歩行者画像の検索を目的としている。 この検索タスクは、モーダル不均一性ときめ細かいマッチングの両方で特徴付けられる。 このタスクを実装するには、画像ドメインとテキストドメインの両方からマルチスケール機能を抽出し、クロスモーダルアライメントを実行する必要がある。 しかし、既存のアプローチのほとんどは個々のスケールに制限されたアライメントのみを考慮に入れている。 このような戦略は特徴抽出における推定可能なアライメントを採用し、画像フレーズのような大規模アライメントを見渡す。 本稿では,マルチスケール表現を抽出し,非対称クロススケールアライメント(acsa)を行い,この2つのモダリティを正確に整列するトランスフォーマティブモデルを提案する。 特に、ACSAはグローバルレベルのアライメントモジュールと非対称なクロスアテンションモジュールから構成されており、前者はグローバルスケールで画像とテキストをアライメントし、後者はクロスアテンション機構を適用して、クロスアテンションエンティティを領域/イメージ・フレーズスケールで動的にアライメントする。 2つのベンチマークデータセット CUHK-PEDES と RSTPReid の大規模な実験により,提案手法の有効性が示された。 コードは \href{url}{https://github.com/mul-hjh/acsa} で入手できる。

Text-based person search (TBPS) is of significant importance in intelligent surveillance, which aims to retrieve pedestrian images with high semantic relevance to a given text description. This retrieval task is characterized with both modal heterogeneity and fine-grained matching. To implement this task, one needs to extract multi-scale features from both image and text domains, and then perform the cross-modal alignment. However, most existing approaches only consider the alignment confined at their individual scales, e.g., an image-sentence or a region-phrase scale. Such a strategy adopts the presumable alignment in feature extraction, while overlooking the cross-scale alignment, e.g., image-phrase. In this paper, we present a transformer-based model to extract multi-scale representations, and perform Asymmetric Cross-Scale Alignment (ACSA) to precisely align the two modalities. Specifically, ACSA consists of a global-level alignment module and an asymmetric cross-attention module, where the former aligns an image and texts on a global scale, and the latter applies the cross-attention mechanism to dynamically align the cross-modal entities in region/image-phrase scales. Extensive experiments on two benchmark datasets CUHK-PEDES and RSTPReid demonstrate the effectiveness of our approach. Codes are available at \href{url}{https://github.com/mul-hjh/ACSA}.
翻訳日:2022-12-25 03:19:01 公開日:2022-11-26
# ニューラルネットワークとグラディエントフリートレーニングに関するチュートリアル

A Tutorial on Neural Networks and Gradient-free Training ( http://arxiv.org/abs/2211.17217v1 )

ライセンス: Link先を確認
Turibius Rozario, Arjun Trivedi, Ankit Goel(参考訳) 本稿では,ニューラルネットワークのコンパクトな行列ベース表現を自己完結型チュートリアル方式で提示する。 具体的には,ベクトル値関数の合成としてニューラルネットワークを開発する。 ニューラルネットワークは相互接続ニューロンの観点でよく理解されているが、ニューラルネットワークは数個のベクトル値関数を構成する数学的非線形関数である。 線形代数の基本的な結果を用いて、ニューラルネットワークを線形写像とスカラー非線形関数の交互列として表現する。 ニューラルネットワークのトレーニングにはコスト関数の最小化が必要であり、勾配の計算が必要となる。 基本多変数計算結果を用いることで、コスト勾配は線形写像の列と非線形関数からなる関数であることが示される。 解析的勾配計算に加えて,2つの勾配なし学習法を検討し,収束率と予測精度の観点から3つの訓練法を比較した。

This paper presents a compact, matrix-based representation of neural networks in a self-contained tutorial fashion. Specifically, we develop neural networks as a composition of several vector-valued functions. Although neural networks are well-understood pictorially in terms of interconnected neurons, neural networks are mathematical nonlinear functions constructed by composing several vector-valued functions. Using basic results from linear algebra, we represent a neural network as an alternating sequence of linear maps and scalar nonlinear functions, also known as activation functions. The training of neural networks requires the minimization of a cost function, which in turn requires the computation of a gradient. Using basic multivariable calculus results, the cost gradient is also shown to be a function composed of a sequence of linear maps and nonlinear functions. In addition to the analytical gradient computation, we consider two gradient-free training methods and compare the three training methods in terms of convergence rate and prediction accuracy.
翻訳日:2022-12-01 18:25:07 公開日:2022-11-26
# 逆学習によるドメイン適応型偽ニュース検出への感情誘導的アプローチ

An Emotion-guided Approach to Domain Adaptive Fake News Detection using Adversarial Learning ( http://arxiv.org/abs/2211.17108v1 )

ライセンス: Link先を確認
Arkajyoti Chakraborty, Inder Khatri, Arjun Choudhry, Pankaj Gupta, Dinesh Kumar Vishwakarma, Mukesh Prasad(参考訳) 偽ニュース検出に関する最近の研究は、感情をパフォーマンスを改善する機能として使用することの有効性を示している。 しかし、偽ニュース検出のための感情誘導機能によるクロスドメインな影響はいまだに未解決の問題である。 本研究では、クロスドメインなフェイクニュース検出のための感情誘導型ドメイン適応型マルチタスクアプローチを提案し、様々なデータセットに対するクロスドメイン設定における感情誘導型モデルの有効性を実証する。

Recent works on fake news detection have shown the efficacy of using emotions as a feature for improved performance. However, the cross-domain impact of emotion-guided features for fake news detection still remains an open problem. In this work, we propose an emotion-guided, domain-adaptive, multi-task approach for cross-domain fake news detection, proving the efficacy of emotion-guided models in cross-domain settings for various datasets.
翻訳日:2022-12-01 16:48:06 公開日:2022-11-26
# カナダの世界銀行データセットにおける炭素排出量予測

Carbon Emission Prediction on the World Bank Dataset for Canada ( http://arxiv.org/abs/2211.17010v1 )

ライセンス: Link先を確認
Aman Desai, Shyamal Gandhi, Sachin Gupta, Manan Shah and Samir Patel(参考訳) 環境へのCO2排出の継続的な増加は、世界が直面する最も重要な問題の一つだ。 多くの国は、壊滅的な結果から逃れるために炭素排出量をコントロールする決定を下している。 今後、二酸化炭素排出量を予測するための研究が数多く行われており、それに対処するための革新的な技術を開発するのに役立ちます。 機械学習は、現在のデータからの二酸化炭素排出量を予測する最も先進的で効率的な技術の1つである。 本稿では,今後数年間の二酸化炭素排出量(CO2排出量)の予測方法について述べる。 この予測は過去50年間のデータに基づいている。 予測に使用されるデータセットは、World Bankデータセットから収集される。 このデータセットには1960年から2018年までの全国のCO2排出量(一人当たりメートル)が含まれている。 本手法は,今後10年間にどのような二酸化炭素排出量対策を行うのかを機械学習で把握し,世界銀行のデータレポジトリから取得したデータセットに投影する手法である。 本研究の目的は、同じデータセット上で異なる機械学習モデル(決定木、線形回帰、ランダムフォレスト、サポートベクトルマシン)がどのように機能するかを比較し、予測の違いを測定することである。

The continuous rise in CO2 emission into the environment is one of the most crucial issues facing the whole world. Many countries are making crucial decisions to control their carbon footprints to escape some of their catastrophic outcomes. There has been a lot of research going on to project the amount of carbon emissions in the future, which can help us to develop innovative techniques to deal with it in advance. Machine learning is one of the most advanced and efficient techniques for predicting the amount of carbon emissions from current data. This paper provides the methods for predicting carbon emissions (CO2 emissions) for the next few years. The predictions are based on data from the past 50 years. The dataset, which is used for making the prediction, is collected from World Bank datasets. This dataset contains CO2 emissions (metric tons per capita) of all the countries from 1960 to 2018. Our method consists of using machine learning techniques to take the idea of what carbon emission measures will look like in the next ten years and project them onto the dataset taken from the World Bank's data repository. The purpose of this research is to compare how different machine learning models (Decision Tree, Linear Regression, Random Forest, and Support Vector Machine) perform on a similar dataset and measure the difference between their predictions.
翻訳日:2022-12-01 15:54:49 公開日:2022-11-26
# 極端な暑さ予測のための地球規模の気候モデルアンサンブルの最適化

Optimisation of a global climate model ensemble for prediction of extreme heat days ( http://arxiv.org/abs/2211.16367v1 )

ライセンス: Link先を確認
Mala Virdee, Emily Shuckburgh, Carl Henrik Ek, Ieva Kazlauskaite, Markus Kaiser(参考訳) 気候変動の適応関連予測は、しばしばマルチモデルアンサンブルに気候モデルを組み合わせることによって導かれる。 性能に基づくアンサンブル重み付け方式で用いられるモデル評価手法は、高インパクト極端事象の文脈において制限がある。 極度のシミュレーションを評価することに焦点を当てた局所時間不変モデル評価手法を提案する。 ナイロビの極端な暑さ予測における提案手法の挙動について検討する。

Adaptation-relevant predictions of climate change are often derived by combining climate models in a multi-model ensemble. Model evaluation methods used in performance-based ensemble weighting schemes have limitations in the context of high-impact extreme events. We introduce a locally time-invariant model evaluation method with focus on assessing the simulation of extremes. We explore the behaviour of the proposed method in predicting extreme heat days in Nairobi.
翻訳日:2022-11-30 18:00:24 公開日:2022-11-26
# 製品マニフォールドを用いた潜在グラフ推論

Latent Graph Inference using Product Manifolds ( http://arxiv.org/abs/2211.16199v1 )

ライセンス: Link先を確認
Haitz S\'aez de Oc\'ariz Borde, Anees Kazi, Federico Barbero, Pietro Li\`o(参考訳) グラフニューラルネットワークは通常、グラフトポロジがネットワークで利用可能であり、下流タスクに最適であるという仮定に依存する。 潜在グラフ推論は、モデルがデータの接続パターンが直接アクセスできない問題の固有グラフ構造を動的に学習することを可能にする。 本研究では,潜在グラフ学習のための離散微分可能グラフモジュール(ddgm)を一般化する。 元々のdDGMアーキテクチャはユークリッド平面を用いて、潜在グラフが生成される潜在特徴を符号化した。 リーマン幾何学をモデルに組み込んでより複雑な埋め込み空間を生成することにより、潜在グラフ推論システムの性能を向上させることができる。 特に,様々な構造の潜在特徴をエンコードできる定数曲率モデル空間の積多様体を生成できる計算可能な手法を提案する。 推定積多様体に写像された潜在表現は、最適化された潜在グラフを得るために、潜在グラフ学習モデルによって活用されるよりリッチな類似度測度を計算するために用いられる。 さらに、積多様体の曲率は、トレーニング中に他のネットワークパラメータと共に学習され、静的な埋め込み空間ではなく、下流のタスクに基づいて学習される。 我々の新しいアプローチは幅広いデータセットでテストされ、オリジナルのdDGMモデルよりも優れています。

Graph Neural Networks usually rely on the assumption that the graph topology is available to the network as well as optimal for the downstream task. Latent graph inference allows models to dynamically learn the intrinsic graph structure of problems where the connectivity patterns of data may not be directly accessible. In this work, we generalize the discrete Differentiable Graph Module (dDGM) for latent graph learning. The original dDGM architecture used the Euclidean plane to encode latent features based on which the latent graphs were generated. By incorporating Riemannian geometry into the model and generating more complex embedding spaces, we can improve the performance of the latent graph inference system. In particular, we propose a computationally tractable approach to produce product manifolds of constant curvature model spaces that can encode latent features of varying structure. The latent representations mapped onto the inferred product manifold are used to compute richer similarity measures that are leveraged by the latent graph learning model to obtain optimized latent graphs. Moreover, the curvature of the product manifold is learned during training alongside the rest of the network parameters and based on the downstream task, rather than it being a static embedding space. Our novel approach is tested on a wide range of datasets, and outperforms the original dDGM model.
翻訳日:2022-11-30 16:57:06 公開日:2022-11-26
# resnerf: 室内シーン新規視点合成のための幾何誘導残留神経放射場

ResNeRF: Geometry-Guided Residual Neural Radiance Field for Indoor Scene Novel View Synthesis ( http://arxiv.org/abs/2211.16211v1 )

ライセンス: Link先を確認
Yuting Xiao, Yiqun Zhao, Yanyu Xu, Shenghua Gao(参考訳) ResNeRFは,屋内シーンの新規ビュー合成のための幾何学誘導型2段階フレームワークである。 良質な幾何学が新規な視点合成の性能を著しく高めることに留意し,幾何学的曖昧さの問題を回避すべく,シーンの密度分布を,シーン形状から推定されたベース密度と、この幾何学でパラメータ化された残留密度に基づいて特徴付けることを提案する。 第1段階では, sdf表現に基づく幾何学的再構成に焦点をあて, シーンの良好な幾何学的表面と鋭い密度をもたらす。 第2段階では、残差密度は第1段階で学んだSDFに基づいて学習し、外観の詳細を符号化する。 このように,3次元構造を維持しつつ,高忠実度な新規ビュー合成に先立って,幾何の密度分布をよりよく学習することができる。 観察が困難でテクスチャのない領域が多い大規模室内シーンにおける実験により,良好な3次元表面において,新しい視点合成のための最先端の性能が得られることを示した。

We represent the ResNeRF, a novel geometry-guided two-stage framework for indoor scene novel view synthesis. Be aware of that a good geometry would greatly boost the performance of novel view synthesis, and to avoid the geometry ambiguity issue, we propose to characterize the density distribution of the scene based on a base density estimated from scene geometry and a residual density parameterized by the geometry. In the first stage, we focus on geometry reconstruction based on SDF representation, which would lead to a good geometry surface of the scene and also a sharp density. In the second stage, the residual density is learned based on the SDF learned in the first stage for encoding more details about the appearance. In this way, our method can better learn the density distribution with the geometry prior for high-fidelity novel view synthesis while preserving the 3D structures. Experiments on large-scale indoor scenes with many less-observed and textureless areas show that with the good 3D surface, our method achieves state-of-the-art performance for novel view synthesis.
翻訳日:2022-11-30 16:39:55 公開日:2022-11-26
# フォークからスクラップへ:手術器具のインスタンスセグメンテーションのための新しいフレームワーク

From Forks to Forceps: A New Framework for Instance Segmentation of Surgical Instruments ( http://arxiv.org/abs/2211.16200v1 )

ライセンス: Link先を確認
Britty Baby, Daksh Thapar, Mustafa Chasmai, Tamajit Banerjee, Kunal Dargan, Ashish Suri, Subhashis Banerjee, Chetan Arora(参考訳) 最小侵襲手術と関連する応用は、インスタンスレベルでの外科的ツール分類とセグメンテーションを要求する。 手術器具は外観が似ており、長く、薄く、角度で処理される。 楽器セグメンテーションのための自然な画像に基づいて訓練されたSOTAインスタンスセグメンテーションモデルの微調整は、楽器のクラスを識別することが困難である。 本研究は,境界ボックスとセグメンテーションマスクはしばしば正確であるが,分類ヘッドは手術器具のクラスラベルを誤分類することを示している。 我々は、既存のインスタンスセグメンテーションモデルに分類モジュールを新しいステージとして追加する新しいニューラルネットワークフレームワークを提案する。 本モジュールは、既存のモデルによって生成された計装マスクの分類を改善することに特化したモジュールである。 モジュールは、楽器領域に随伴し、気を散らす背景特徴をマスクするマルチスケールマスクアテンションを含む。 手術器具の低クラス間分散を扱うために,アークロスを用いた計量学習を用いた分類器モジュールの訓練を提案する。 ベンチマークデータセットのEndoVis2017とEndoVis2018で徹底的な実験を行う。 提案手法は,EndoVis2017ベンチマークチャレンジにおいて,全(18以上)SOTA手法より優れ,少なくとも12ポイント(20%)のSOTA性能向上を実現し,データセット全体にわたって効果的に一般化することを示した。

Minimally invasive surgeries and related applications demand surgical tool classification and segmentation at the instance level. Surgical tools are similar in appearance and are long, thin, and handled at an angle. The fine-tuning of state-of-the-art (SOTA) instance segmentation models trained on natural images for instrument segmentation has difficulty discriminating instrument classes. Our research demonstrates that while the bounding box and segmentation mask are often accurate, the classification head mis-classifies the class label of the surgical instrument. We present a new neural network framework that adds a classification module as a new stage to existing instance segmentation models. This module specializes in improving the classification of instrument masks generated by the existing model. The module comprises multi-scale mask attention, which attends to the instrument region and masks the distracting background features. We propose training our classifier module using metric learning with arc loss to handle low inter-class variance of surgical instruments. We conduct exhaustive experiments on the benchmark datasets EndoVis2017 and EndoVis2018. We demonstrate that our method outperforms all (more than 18) SOTA methods compared with, and improves the SOTA performance by at least 12 points (20%) on the EndoVis2017 benchmark challenge and generalizes effectively across the datasets.
翻訳日:2022-11-30 14:50:57 公開日:2022-11-26
# DNNによる時系列の分布推定と変化点検出

Distribution estimation and change-point detection for time series via DNN-based GANs ( http://arxiv.org/abs/2211.14577v1 )

ライセンス: Link先を確認
Jianya Lu, Yingjun Mo, Zhijie Xiao, Lihu Xu, Qiuran Yao(参考訳) 近年,GAN(Generative Adversarial Network)が独立分布および同一分布データの分布推定に応用され,優れた性能を示した。 本稿では,定常時系列の分布を推定するためのGANの有効性を示すためにブロッキング手法を用いる。 理論的には、時系列の定常分布に対するディープニューラルネットワーク(DNN)に基づくGANs推定のための非漸近誤差を求める。 理論的解析に基づき,時系列における変化点を検出するアルゴリズムを考案した。 GAN推定器をテストするための多変量自己回帰モデルによる定常時系列の最初の実験において、第2の実験では、提案アルゴリズムを用いて時系列列の変化点を検出する。 どちらも非常によく機能する。 第3の実験は、実金融時系列データの分布を学習するために、我々のGAN推定器を使用することであり、これは定常的ではなく、実験結果から、我々の推定器は時系列の分布とよく一致しないが、適切な変化傾向をもたらすことが分かる。

The generative adversarial networks (GANs) have recently been applied to estimating the distribution of independent and identically distributed data, and got excellent performances. In this paper, we use the blocking technique to demonstrate the effectiveness of GANs for estimating the distribution of stationary time series. Theoretically, we obtain a non-asymptotic error bound for the Deep Neural Network (DNN)-based GANs estimator for the stationary distribution of the time series. Based on our theoretical analysis, we put forward an algorithm for detecting the change-point in time series. We simulate in our first experiment a stationary time series by the multivariate autoregressive model to test our GAN estimator, while the second experiment is to use our proposed algorithm to detect the change-point in a time series sequence. Both perform very well. The third experiment is to use our GAN estimator to learn the distribution of a real financial time series data, which is not stationary, we can see from the experiment results that our estimator cannot match the distribution of the time series very well but give the right changing tendency.
翻訳日:2022-11-29 20:43:23 公開日:2022-11-26
# 交通信号制御の批判的レビューと適応的交通信号制御のための強化学習とモデル予測制御アプローチの統一的展望

A Critical Review of Traffic Signal Control and A Novel Unified View of Reinforcement Learning and Model Predictive Control Approaches for Adaptive Traffic Signal Control ( http://arxiv.org/abs/2211.14426v1 )

ライセンス: Link先を確認
Xiaoyu Wang (1), Scott Sanner (2), Baher Abdulhai (1) ((1) Department of Civil Engineering, University of Toronto, (2) Department of Mechanical and Industrial Engineering, University of Toronto)(参考訳) 近年,特に人工知能に基づく最適化と強化学習などの制御アルゴリズムを活用する分野や,従来のモデル予測制御などにおいて,交通ネットワーク効率を向上させるための適応的交通信号制御(ATSC)手法が著しく成長している。 しかし,ATSC研究におけるクロスドメイン解析の欠如と適用方法の有効性の比較は,既存の課題や研究方向性の理解を制限している。 本章では、異種交配の促進と最先端化を目標として、共通基盤と既存の方法論の違いと欠点を識別する、近代ATSCの統一的視点を提案する。 統一ビューはマルコフ決定プロセスの数学的言語を適用し、世界(問題)とソリューションモデリングの両方の観点からコントローラ設計のプロセスを記述する。 統一的見解はまた、既存の研究で一般的に無視されている体系的な問題を分析し、これらの問題を解決する今後の方向性を示唆する。

Recent years have witnessed substantial growth in adaptive traffic signal control (ATSC) methodologies that improve transportation network efficiency, especially in branches leveraging artificial intelligence based optimization and control algorithms such as reinforcement learning as well as conventional model predictive control. However, lack of cross-domain analysis and comparison of the effectiveness of applied methods in ATSC research limits our understanding of existing challenges and research directions. This chapter proposes a novel unified view of modern ATSCs to identify common ground as well as differences and shortcomings of existing methodologies with the ultimate goal to facilitate cross-fertilization and advance the state-of-the-art. The unified view applies the mathematical language of the Markov decision process, describes the process of controller design from both the world (problem) and solution modeling perspectives. The unified view also analyses systematic issues commonly ignored in existing studies and suggests future potential directions to resolve these issues.
翻訳日:2022-11-29 20:27:57 公開日:2022-11-26
# 公共交通機関におけるエクイティプロモーション

Equity Promotion in Public Transportation ( http://arxiv.org/abs/2211.14531v1 )

ライセンス: Link先を確認
Anik Pramanik, Pan Xu and Yifan Xu(参考訳) 公共交通機関へのアクセスにおいて貧困に苦しむ家庭に直面する障害を報告するニュース記事が多数ある。 これらの障壁は、これらの貧しい家族にとって多くの不便をもたらし、さらに重要なことに、彼らは多くの社会的不平等に寄与する。 この問題に対処する典型的なアプローチは、公共交通機関へのアクセス機会を増やすためにより多くの交通インフラを構築することである。 例えば、困窮した住民と鉄道網を結ぶバス路線を追加し、既存のバス路線を社会経済的地位の低い地域に拡張するなどである。 近年,不利な家庭と最寄りの公共交通機関をつなぐために,ユビキタス配車サービスを活用する新たな戦略が提案されている。 以前のインフラストラクチャベースのソリューションと比較して、ライドシェアリングベースの戦略は、より高い効率性と柔軟性などの排他的なメリットを享受しています。 本稿では,この2つのアプローチを統合する方法を検討するための最適化モデルを提案する。 具体的には、所定の限られた予算を異なる候補プログラムに割り当てる戦略を設計することを目的としており、これは、あらかじめ規定されたすべての世帯の保護グループ(人種、収入等)の中で、最小のカバー比率として定義される。 我々は線形プログラミング(LP)に基づくラウンドリングアルゴリズムを設計し、最適近似比が1-1/eであることを証明する。 さらに,シカゴ市で収集した複数の公開データセットをアウトソーシングして,実データ上のいくつかのベースラインに対してアルゴリズムをテストした。 実験結果は理論的な予測を検証し,特に予算不足時の社会的公平化促進におけるlp戦略の有効性を実証した。

There are many news articles reporting the obstacles confronting poverty-stricken households in access to public transits. These barriers create a great deal of inconveniences for these impoverished families and more importantly, they contribute a lot of social inequalities. A typical approach addressing the issue is to build more transport infrastructure to offer more opportunities to access the public transits especially for those deprived communities. Examples include adding more bus lines connecting needy residents to railways systems and extending existing bus lines to areas with low socioeconomic status. Recently, a new strategy is proposed, which is to harness the ubiquitous ride-hailing services to connect disadvantaged households with the nearest public transportations. Compared with the former infrastructure-based solution, the ride-hailing-based strategy enjoys a few exclusive benefits such as higher effectiveness and more flexibility. In this paper, we propose an optimization model to study how to integrate the two approaches together for equity-promotion purposes. Specifically, we aim to design a strategy of allocating a given limited budget to different candidate programs such that the overall social equity is maximized, which is defined as the minimum covering ratio among all pre-specified protected groups of households (based on race, income, etc.). We have designed a linear-programming (LP) based rounding algorithm, which proves to achieve an optimal approximation ratio of 1-1/e. Additionally, we test our algorithm against a few baselines on real data assembled by outsourcing multiple public datasets collected in the city of Chicago. Experimental results confirm our theoretical predictions and demonstrate the effectiveness of our LP-based strategy in promoting social equity, especially when the budget is insufficient.
翻訳日:2022-11-29 20:27:40 公開日:2022-11-26
# 粒子ベーススパースガウス過程最適化器

A Particle-based Sparse Gaussian Process Optimizer ( http://arxiv.org/abs/2211.14517v1 )

ライセンス: Link先を確認
Chandrajit Bajaj, Omatharv Bharat Vaidya, Yi Wang(参考訳) ニューラルネットワークにおけるタスク学習は通常、損失関数の目的に対してグローバルに最適な最小化器を見つける必要がある。 従来のswarmベースの最適化手法の設計は、おそらく勾配降下に基づく最適化のための適応ステップサイズを伴う固定更新規則を適用している。 これらの手法は異なる最適化問題の解法において大きな成功を収めるが、これらのスキームが非効率であるか局所最小値に悩まされている場合もある。 本稿では,ガウス過程回帰を利用した粒子スワームに基づく新しいフレームワークを提案する。 このアプローチの最大の利点は、降下方向を決定する前に現在の状態を探索することである。 実験により,非凸最適化問題の解法において,局所最小値から回避できることを示す。 また,この手法を高次元パラメータ空間の場合,すなわち画像分類タスクでテストした。

Task learning in neural networks typically requires finding a globally optimal minimizer to a loss function objective. Conventional designs of swarm based optimization methods apply a fixed update rule, with possibly an adaptive step-size for gradient descent based optimization. While these methods gain huge success in solving different optimization problems, there are some cases where these schemes are either inefficient or suffering from local-minimum. We present a new particle-swarm-based framework utilizing Gaussian Process Regression to learn the underlying dynamical process of descent. The biggest advantage of this approach is greater exploration around the current state before deciding a descent direction. Empirical results show our approach can escape from the local minima compare with the widely-used state-of-the-art optimizers when solving non-convex optimization problems. We also test our approach under high-dimensional parameter space case, namely, image classification task.
翻訳日:2022-11-29 20:26:00 公開日:2022-11-26
# 加速されたリーマン最適化:幾何学的罰則の接点付き制約を扱う

Accelerated Riemannian Optimization: Handling Constraints with a Prox to Bound Geometric Penalties ( http://arxiv.org/abs/2211.14645v1 )

ライセンス: Link先を確認
David Mart\'inez-Rubio and Sebastian Pokutta(参考訳) 本稿では,多種多様なアダマール多様体における滑らかかつ(強,非)測地凸関数の最適化のための大域的加速一階法を提案する。 我々は,乗算幾何学的ペナルティと対数係数まで,ネステロフの加速度勾配降下と同じ収束率を達成する。 重要なことに、私たちはメソッドを私たちが定義するコンパクトな集合内に留まるように強制することができる。 事前の完全に加速されたワーク \textit{resort to assuming} は、アルゴリズムのイテレートがいくつかの事前指定されたコンパクト集合にとどまっていることを仮定する。 我々の多様体に対して、これは [KY22] における大域的一般加速度を得るための開問題である。

We propose a globally-accelerated, first-order method for the optimization of smooth and (strongly or not) geodesically-convex functions in a wide class of Hadamard manifolds. We achieve the same convergence rates as Nesterov's accelerated gradient descent, up to a multiplicative geometric penalty and log factors. Crucially, we can enforce our method to stay within a compact set we define. Prior fully accelerated works \textit{resort to assuming} that the iterates of their algorithms stay in some pre-specified compact set, except for two previous methods of limited applicability. For our manifolds, this solves the open question in [KY22] about obtaining global general acceleration without iterates assumptively staying in the feasible set.
翻訳日:2022-11-29 20:25:47 公開日:2022-11-26
# 意思決定トランスフォーマーにおけるトランスフォーマーの重要性

How Crucial is Transformer in Decision Transformer? ( http://arxiv.org/abs/2211.14655v1 )

ライセンス: Link先を確認
Max Siebenborn, Boris Belousov, Junning Huang, Jan Peters(参考訳) decision transformer(dt)は、最近提案された強化学習のためのアーキテクチャで、意思決定プロセスを自己回帰シーケンスモデリング問題として構成し、transformerモデルを使用して、状態、アクション、報酬のシーケンスにおける次のアクションを予測する。 本稿では,連続制御タスクにおける完全なDTアーキテクチャにおいて,Transformerモデルがいかに重要かを分析する。 すなわち、トランスフォーマーをLSTMモデルに置き換え、他のパーツをそのまま保持して、決定LSTMモデルと呼ぶものを得る。 シミュレーションや物理ハードウェアにおいて、振り子揺らぎや安定化を含む連続制御タスクのDTと比較する。 実験の結果,dtは倒立振子や古田振子安定化などの連続制御問題に苦しむことがわかった。 一方,提案するDecision LSTMは,実システム上でのスイングアップコントローラの学習に加えて,これらのタスクにおけるエキスパートレベルのパフォーマンスを実現することができる。 これらの結果から, 連続制御タスクにおける決定変換器の強みは, 全体的な逐次モデリングアーキテクチャに起因している可能性が示唆された。

Decision Transformer (DT) is a recently proposed architecture for Reinforcement Learning that frames the decision-making process as an auto-regressive sequence modeling problem and uses a Transformer model to predict the next action in a sequence of states, actions, and rewards. In this paper, we analyze how crucial the Transformer model is in the complete DT architecture on continuous control tasks. Namely, we replace the Transformer by an LSTM model while keeping the other parts unchanged to obtain what we call a Decision LSTM model. We compare it to DT on continuous control tasks, including pendulum swing-up and stabilization, in simulation and on physical hardware. Our experiments show that DT struggles with continuous control problems, such as inverted pendulum and Furuta pendulum stabilization. On the other hand, the proposed Decision LSTM is able to achieve expert-level performance on these tasks, in addition to learning a swing-up controller on the real system. These results suggest that the strength of the Decision Transformer for continuous control tasks may lie in the overall sequential modeling architecture and not in the Transformer per se.
翻訳日:2022-11-29 20:25:31 公開日:2022-11-26
# 有効非剛性形状マッチングのための変形場の縮小表現

Reduced Representation of Deformation Fields for Effective Non-rigid Shape Matching ( http://arxiv.org/abs/2211.14604v1 )

ライセンス: Link先を確認
Ramana Sundararaman, Riccardo Marin, Emanuele Rodola, Maks Ovsjanikov(参考訳) 本稿では,変形場の少ない表現を活用し,非剛性物体間の対応を計算する新しい手法を提案する。 汎用ニューラルネットワークのトレーニングによる変形場を表現する既存の研究とは違って,メッシュフリー手法に基づく近似を提唱する。 ネットワークは空間(ノード)における粗い位置の変形パラメータを学習させることにより、滑らかさを保証した閉形式の連続変形場を再構築する。 このような自由度の減少により、データ効率の面で大きな改善が見られ、監督が制限される。 さらに, 本近似は変形場の一階微分への直接アクセスを提供し, 望ましい正則化を効果的に実施する。 得られたモデルは高い表現力を持ち,複雑な変形を捉えることができる。 複数の変形可能な形状マッチングベンチマークにまたがって,その有効性を示す。 私たちのコードとデータは、https://github.com/sentient07/deformationbasisで公開されています。

In this work we present a novel approach for computing correspondences between non-rigid objects, by exploiting a reduced representation of deformation fields. Different from existing works that represent deformation fields by training a general-purpose neural network, we advocate for an approximation based on mesh-free methods. By letting the network learn deformation parameters at a sparse set of positions in space (nodes), we reconstruct the continuous deformation field in a closed-form with guaranteed smoothness. With this reduction in degrees of freedom, we show significant improvement in terms of data-efficiency thus enabling limited supervision. Furthermore, our approximation provides direct access to first-order derivatives of deformation fields, which facilitates enforcing desirable regularization effectively. Our resulting model has high expressive power and is able to capture complex deformations. We illustrate its effectiveness through state-of-the-art results across multiple deformable shape matching benchmarks. Our code and data are publicly available at: https://github.com/Sentient07/DeformationBasis.
翻訳日:2022-11-29 20:10:58 公開日:2022-11-26
# 単一カメラ画像からの自己監視型手術器具3次元再構成

Self-Supervised Surgical Instrument 3D Reconstruction from a Single Camera Image ( http://arxiv.org/abs/2211.14467v1 )

ライセンス: Link先を確認
Ange Lou, Xing Yao, Ziteng Liu, Jintong Han and Jack Noble(参考訳) 手術器具の追跡は、外科医が解剖学に関するツールの場所についてフィードバックを得られる活発な研究領域である。 最近の追跡法は主にセグメンテーションとオブジェクト検出の2つの部分に分けられる。 しかし、どちらも2D情報しか予測できないため、現実の手術への応用には限界がある。 正確な3次元手術器具モデルは、装置の姿勢と深さを正確に予測するための前提条件である。 近年のsingle-view 3d reconstruction法は自然オブジェクトの再構築にのみ用いられており、3d属性レベルでの監督なしには再構成精度を満足できない。 また、細長い形状のため、手術器具には適さない。 本稿では,まず,エンドツーエンドの手術器具再構築システム-自己監督型手術器具再構築システム(SSIR)を提案する。 SSIRを用いて,スリムな楽器からテクスチャ情報を捕捉する上で,2値の楽器ラベルマップのみを必要とするマルチサイクル整合性戦略を提案する。 実験により,本手法は他の自己監督法と比較して手術器具の再構成品質が向上し,有望な結果が得られることを示した。

Surgical instrument tracking is an active research area that can provide surgeons feedback about the location of their tools relative to anatomy. Recent tracking methods are mainly divided into two parts: segmentation and object detection. However, both can only predict 2D information, which is limiting for application to real-world surgery. An accurate 3D surgical instrument model is a prerequisite for precise predictions of the pose and depth of the instrument. Recent single-view 3D reconstruction methods are only used in natural object reconstruction and do not achieve satisfying reconstruction accuracy without 3D attribute-level supervision. Further, those methods are not suitable for the surgical instruments because of their elongated shapes. In this paper, we firstly propose an end-to-end surgical instrument reconstruction system -- Self-supervised Surgical Instrument Reconstruction (SSIR). With SSIR, we propose a multi-cycle-consistency strategy to help capture the texture information from a slim instrument while only requiring a binary instrument label map. Experiments demonstrate that our approach improves the reconstruction quality of surgical instruments compared to other self-supervised methods and achieves promising results.
翻訳日:2022-11-29 20:00:41 公開日:2022-11-26
# 貨物列車におけるマルチスケールキーコンポーネントの視覚的故障検出

Visual Fault Detection of Multi-scale Key Components in Freight Trains ( http://arxiv.org/abs/2211.14522v1 )

ライセンス: Link先を確認
Yang Zhang, Yang Zhou, Huilin Pan, Bo Wu, and Guodong Sun(参考訳) 貨物列車の制動システムにおける主要部品の故障検出は、鉄道交通の安全確保に不可欠である。 ディープラーニングに基づく手法が頻繁に使用されているにも関わらず、これらのフォールト検出器はハードウェアリソースに依存しており、実装が複雑である。 さらに、列車故障検出装置は、断層部のスケール変動による精度低下を考慮していない。 本稿では,上記の問題を解決する軽量アンカーフリーフレームワークを提案する。 具体的には,計算量とモデルサイズを減らすために,軽量なバックボーンを導入し,ローカライゼーションと回帰のためのアンカーフリーな手法を採用する。 マルチスケール部品の検知精度を向上させるために,異なる大きさの長方形層を生成する特徴ピラミッドネットワークを設計し,類似のアスペクト比で部品をマップする。 4つの断層データセットの実験により、我々のフレームワークは98.44%の精度で、モデルのサイズは22.5MBに過ぎず、最先端の検出器よりも優れていた。

Fault detection for key components in the braking system of freight trains is critical for ensuring railway transportation safety. Despite the frequently employed methods based on deep learning, these fault detectors are highly reliant on hardware resources and are complex to implement. In addition, no train fault detectors consider the drop in accuracy induced by scale variation of fault parts. This paper proposes a lightweight anchor-free framework to solve the above problems. Specifically, to reduce the amount of computation and model size, we introduce a lightweight backbone and adopt an anchor-free method for localization and regression. To improve detection accuracy for multi-scale parts, we design a feature pyramid network to generate rectangular layers of different sizes to map parts with similar aspect ratios. Experiments on four fault datasets show that our framework achieves 98.44% accuracy while the model size is only 22.5 MB, outperforming state-of-the-art detectors.
翻訳日:2022-11-29 20:00:24 公開日:2022-11-26
# 視覚位置認識

Visual Place Recognition ( http://arxiv.org/abs/2211.14533v1 )

ライセンス: Link先を確認
Bailu Guo, Boyu Zhao, Zishun Zhou(参考訳) 視覚位置認識は自動走行の安全性と精度に影響する。 位置を正確に同定するために,HMMフィルタとHMMスムーズなHMMに基づく視覚的位置認識アルゴリズムを提案する。 まず、私たちはキャンベラ市に交通状況を構築しました。 そしてHMMフィルタの数学的モデルとHMMスムーズ化を行った。 最後に、アルゴリズムに基づいて車両の位置を予測した。 実験の結果,HMMのスムーズさは予測精度の点でHMMフィルタより優れていることがわかった。

Visual position recognition affects the safety and accuracy of automatic driving. To accurately identify the location, this paper studies a visual place recognition algorithm based on HMM filter and HMM smoother. Firstly, we constructed the traffic situations in Canberra city. Then the mathematical models of the HMM filter and HMM smoother were performed. Finally, the vehicle position was predicted based on the algorithms. Experiment results show that HMM smoother is better than HMM filter in terms of prediction accuracy.
翻訳日:2022-11-29 20:00:07 公開日:2022-11-26
# CMC v2: 差別ビデオでより正確なCOVID-19検出を目指す

CMC v2: Towards More Accurate COVID-19 Detection with Discriminative Video Priors ( http://arxiv.org/abs/2211.14557v1 )

ライセンス: Link先を確認
Junlin Hou, Jilan Xu, Nan Zhang, Yi Wang, Yuejie Zhang, Xiaobo Zhang, and Rui Feng(参考訳) 本稿では,欧州コンピュータビジョン会議(ECCV 2022)におけるAIIAワークショップの枠組みの中で発生した第2回COVID-19コンペティションの解決策について述べる。 提案手法では,コントラスト表現学習とミックスアップ分類からなるベースライン手法として,強固な3次元コントラストミックスアップクラスifcation network (cmc v1) を用いた。 本稿では、新型コロナウイルスの診断に先立って、自然ビデオを導入したCMC v2を提案する。 スペック的には、プリトレーニングされた(ビデオデータセット上の)ビデオトランスフォーマーバックボーンを、covid-19検出に適応させます。 さらに,ハイブリッドミックスアップやカットミックス,スライスレベル拡張,小さな解像度トレーニングといった高度なトレーニング戦略も活用し,モデルの堅牢性と一般化能力を高める。 14チーム中、CMC v2は第2回COVID-19コンクールで1位となり、マクロF1スコアは89.11%だった。

This paper presents our solution for the 2nd COVID-19 Competition, occurring in the framework of the AIMIA Workshop at the European Conference on Computer Vision (ECCV 2022). In our approach, we employ the winning solution last year which uses a strong 3D Contrastive Mixup Classifcation network (CMC v1) as the baseline method, composed of contrastive representation learning and mixup classification. In this paper, we propose CMC v2 by introducing natural video priors to COVID-19 diagnosis. Specifcally, we adapt a pre-trained (on video dataset) video transformer backbone to COVID-19 detection. Moreover, advanced training strategies, including hybrid mixup and cutmix, slicelevel augmentation, and small resolution training are also utilized to boost the robustness and the generalization ability of the model. Among 14 participating teams, CMC v2 ranked 1st in the 2nd COVID-19 Competition with an average Macro F1 Score of 89.11%.
翻訳日:2022-11-29 19:59:59 公開日:2022-11-26
# 感染症対応コントラスト混合分類による重症度検出の強化

Boosting COVID-19 Severity Detection with Infection-aware Contrastive Mixup Classifcation ( http://arxiv.org/abs/2211.14559v1 )

ライセンス: Link先を確認
Junlin Hou, Jilan Xu, Nan Zhang, Yuejie Zhang, Xiaobo Zhang, and Rui Feng(参考訳) 本稿では,第2回COVID-19重症度検出コンペティションのソリューションを提案する。 この課題は、新型コロナウイルス(COVID-19)の胸部CT画像のマイルド、モデレート、重症度、臨界度を区別することを目的としている。 本手法では,重度評価のための新しい感染症対応3dコントラスト・ミックスアップ分類ネットワークを考案する。 病理組織学的には, 2つの分節化ネットワークを訓練し, 肺領域と内病変領域をfrstで抽出した。 病変分割マスクは、元のCTスライスを補完する情報として機能する。 不均衡なデータ分散の問題を解消するため、重み付きクロスエントロピー損失による高度なコントラスト混合分類網をさらに改善する。 新型コロナウイルスの重症度検出リーダーボードでは,f1マクロスコア51.76%でfrstを制した。 これはベースラインメソッドを11.46%以上も上回っている。

This paper presents our solution for the 2nd COVID-19 Severity Detection Competition. This task aims to distinguish the Mild, Moderate, Severe, and Critical grades in COVID-19 chest CT images. In our approach, we devise a novel infection-aware 3D Contrastive Mixup Classifcation network for severity grading. Specifcally, we train two segmentation networks to frst extract the lung region and then the inner lesion region. The lesion segmentation mask serves as complementary information for the original CT slices. To relieve the issue of imbalanced data distribution, we further improve the advanced Contrastive Mixup Classifcation network by weighted cross-entropy loss. On the COVID-19 severity detection leaderboard, our approach won the frst place with a Macro F1 Score of 51.76%. It signifcantly outperforms the baseline method by over 11.46%.
翻訳日:2022-11-29 19:59:45 公開日:2022-11-26
# Pairwise Scale-Channel Attentionを用いた視覚ベースUAMのためのシームズ物体追跡

Siamese Object Tracking for Vision-Based UAM Approaching with Pairwise Scale-Channel Attention ( http://arxiv.org/abs/2211.14564v1 )

ライセンス: Link先を確認
Guangze Zheng, Changhong Fu, Junjie Ye, Bowen Li, Geng Lu, Jia Pan(参考訳) 無人航空機マニピュレータ(UAM)の操作は広く研究されているが、その後の操作に不可欠な視覚ベースのUAMアプローチは、一般的には効果的な設計を欠いている。 視覚的 UAM のアプローチの鍵はオブジェクト追跡にあるが、現在の UAM のトラッキングは通常、コストのかかるモデルベースの手法に依存している。 加えて、UAMアプローチはより厳しいオブジェクトスケール変動問題に直面し、オブジェクトトラッキングフィールドから最先端のモデルフリーなSiameseベースのメソッドを直接使用するのは不適切である。 上記の問題に対処するために、視覚に基づくUAMアプローチのためのペアワイズスケールチャネルアテンション(SiamSA)を備えた新しいSiameseネットワークを提案する。 具体的には、SamSAは、ペアワイズスケールチャネルアテンションネットワーク(PSAN)とスケールアウェアアンカー提案ネットワーク(SA-APN)から構成される。 PSANは、機能処理に有用なスケール情報を取得し、SA-APNは、主にスケール認識をアンカープロポーシングにアタッチする。 さらに、UAMアプローチのための新しいトラッキングベンチマーク、すなわちUAMT100は、飛行中のUAMプラットフォーム上で35Kフレームで記録され、評価される。 ベンチマークと実世界のテストでの試験実験は、有望な速度でSiamSAの効率性と実用性を検証する。 コードとUAMT100ベンチマークはhttps://github.com/vision4robotics/SiamSAで公開されている。

Although the manipulating of the unmanned aerial manipulator (UAM) has been widely studied, vision-based UAM approaching, which is crucial to the subsequent manipulating, generally lacks effective design. The key to the visual UAM approaching lies in object tracking, while current UAM tracking typically relies on costly model-based methods. Besides, UAM approaching often confronts more severe object scale variation issues, which makes it inappropriate to directly employ state-of-the-art model-free Siamese-based methods from the object tracking field. To address the above problems, this work proposes a novel Siamese network with pairwise scale-channel attention (SiamSA) for vision-based UAM approaching. Specifically, SiamSA consists of a pairwise scale-channel attention network (PSAN) and a scale-aware anchor proposal network (SA-APN). PSAN acquires valuable scale information for feature processing, while SA-APN mainly attaches scale awareness to anchor proposing. Moreover, a new tracking benchmark for UAM approaching, namely UAMT100, is recorded with 35K frames on a flying UAM platform for evaluation. Exhaustive experiments on the benchmarks and real-world tests validate the efficiency and practicality of SiamSA with a promising speed. Both the code and UAMT100 benchmark are now available at https://github.com/vision4robotics/SiamSA.
翻訳日:2022-11-29 19:59:33 公開日:2022-11-26
# CFNet:実画像復調のための動的雑音推定を用いた条件付きフィルタ学習

CFNet: Conditional Filter Learning with Dynamic Noise Estimation for Real Image Denoising ( http://arxiv.org/abs/2211.14576v1 )

ライセンス: Link先を確認
Yifan Zuo, Jiacheng Xie, Yuming Fang, Yan Huang, Wenhui Jiang(参考訳) 実像復調のための畳み込みニューラルネットワーク(CNN)に基づく芸術(SOTA)の主流型には、ノイズ推定と非盲検という2つのサブプロブレムが含まれる。 本稿では,カメラ内信号処理パイプラインを用いたヘテロシデスティックガウス分布とポアソンガウス分布によって近似される実雑音について考察する。 関連した作品は、常にチャネル毎の連結により予測されるノイズを活用し、その後に空間的に共有されるカーネルを持つ畳み込み層を用いる。 ノイズ強度の変動モードと全ての特徴位置の周波数詳細のため、この設計は対応するデノナイジングパターンを適応的に調整することはできない。 この問題に対処するために,画像とノイズマップの局所的特徴により,異なる特徴位置の最適なカーネルを適応的に推定できる条件付きフィルタを提案する。 また、cnn構造にノイズ推定と非blind雑音化を交互に実施し、反復的な特徴雑音化を導く前にノイズを継続的に更新する。 さらに, ヘテロシドスティックなガウス分布の特性に基づき, 定常雑音成分と信号依存雑音成分を予測する新しいアフィン変換ブロックを考案した。 SOTAと比較して、提案するCFNetの改良を示す5つの合成データセットと3つの実データセットに対して広範な実験を行う。

A mainstream type of the state of the arts (SOTAs) based on convolutional neural network (CNN) for real image denoising contains two sub-problems, i.e., noise estimation and non-blind denoising. This paper considers real noise approximated by heteroscedastic Gaussian/Poisson Gaussian distributions with in-camera signal processing pipelines. The related works always exploit the estimated noise prior via channel-wise concatenation followed by a convolutional layer with spatially sharing kernels. Due to the variable modes of noise strength and frequency details of all feature positions, this design cannot adaptively tune the corresponding denoising patterns. To address this problem, we propose a novel conditional filter in which the optimal kernels for different feature positions can be adaptively inferred by local features from the image and the noise map. Also, we bring the thought that alternatively performs noise estimation and non-blind denoising into CNN structure, which continuously updates noise prior to guide the iterative feature denoising. In addition, according to the property of heteroscedastic Gaussian distribution, a novel affine transform block is designed to predict the stationary noise component and the signal-dependent noise component. Compared with SOTAs, extensive experiments are conducted on five synthetic datasets and three real datasets, which shows the improvement of the proposed CFNet.
翻訳日:2022-11-29 19:59:07 公開日:2022-11-26
# ディープフェイク検出・抑止・応答 : 課題と機会

Deep Fake Detection, Deterrence and Response: Challenges and Opportunities ( http://arxiv.org/abs/2211.14667v1 )

ライセンス: Link先を確認
Amin Azmoodeh and Ali Dehghantanha(参考訳) 2020年のサイバー脅威防衛レポートによると、カナダの組織の78%が2020年に少なくとも1回のサイバー攻撃を経験している。 このような攻撃の結果は、プライバシの妥協から個人、企業、国の損害コストの没入まで様々である。 専門家は、サイバー犯罪による世界的な損失が2025年までに年間105兆ドルに達すると予想している。 このような恐ろしい統計を踏まえると、サイバー攻撃を予防して予測する必要性はこれまで以上に高い。 機械学習(ML)ベースのシステムへの依存度の増加は、これらのシステムのセキュリティと安全性に対する深刻な懸念を引き起こします。 特に、人間を欺く可能性の高い偽の視覚、テキスト、オーディオコンテンツを生成する強力なML技術の出現は、深刻な倫理的懸念を引き起こした。 動画、画像、音声、テキストを人工的に制作したDeepfakesは、フェイクニュース、偽ニュース、リベンジポルノ、金融詐欺の可能性を秘めている。 多様性とディープフェイクの普及により、タイムリーな検出が大きな課題となった。 本稿では,まず背景情報を提供し,ディープフェイクの検出・抑止に関する先行研究のレビューを行う。 その後、私たちは可能なソリューションを提供します。 1)開発・展開段階のディープフェイクに対してAIシステムを堅牢にする。 2) 映像,画像,音声,テキストによるディープフェイクの検出 3) 検出をバイパスするディープフェイクの同定(ディープフェイクハンティング) 4)国家支援のハッキングチームによるディープフェイクキャンペーンのタイムリーな識別に利用可能なインテリジェンスを活用すること。 5)特定ディープフェイクペイロードの詳細な法医学的分析を行う。 我々のソリューションは、カナダ国家サイバーセキュリティ対策計画(2019-2024)の重要な要素に対処し、重要なサービスの信頼性を高めます。

According to the 2020 cyber threat defence report, 78% of Canadian organizations experienced at least one successful cyberattack in 2020. The consequences of such attacks vary from privacy compromises to immersing damage costs for individuals, companies, and countries. Specialists predict that the global loss from cybercrime will reach 10.5 trillion US dollars annually by 2025. Given such alarming statistics, the need to prevent and predict cyberattacks is as high as ever. Our increasing reliance on Machine Learning(ML)-based systems raises serious concerns about the security and safety of these systems. Especially the emergence of powerful ML techniques to generate fake visual, textual, or audio content with a high potential to deceive humans raised serious ethical concerns. These artificially crafted deceiving videos, images, audio, or texts are known as Deepfakes garnered attention for their potential use in creating fake news, hoaxes, revenge porn, and financial fraud. Diversity and the widespread of deepfakes made their timely detection a significant challenge. In this paper, we first offer background information and a review of previous works on the detection and deterrence of deepfakes. Afterward, we offer a solution that is capable of 1) making our AI systems robust against deepfakes during development and deployment phases; 2) detecting video, image, audio, and textual deepfakes; 3) identifying deepfakes that bypass detection (deepfake hunting); 4) leveraging available intelligence for timely identification of deepfake campaigns launched by state-sponsored hacking teams; 5) conducting in-depth forensic analysis of identified deepfake payloads. Our solution would address important elements of the Canada National Cyber Security Action Plan(2019-2024) in increasing the trustworthiness of our critical services.
翻訳日:2022-11-29 19:50:57 公開日:2022-11-26
# 解釈可能な機械学習のための混合決定木

Mixture of Decision Trees for Interpretable Machine Learning ( http://arxiv.org/abs/2211.14617v1 )

ライセンス: Link先を確認
Simeon Br\"uggenj\"urgen, Nina Schaaf, Pascal Kerschke, Marco F. Huber(参考訳) この研究は、Mixture of Decision Trees (MoDT)と呼ばれる新しい解釈可能な機械学習手法を導入する。 これは、線形モデルをゲーティング関数として、決定木をエキスパートとして利用するMixture of Expertsアンサンブルアーキテクチャの特別なケースを構成する。 提案手法は,1つの決定木で十分学べない問題に最適であるが,代わりにサブプロブレムに分割することができる。 各サブプロブレムは、単一の決定木からうまく学習することができる。 したがって、MoDTは、各決定を人間に理解し、追跡可能にすることによって、解釈可能性を維持しつつ、性能を向上させる方法とみなすことができる。 我々の研究には,解釈可能なゲーティング関数,高速学習アルゴリズム,微調整可能な可視化手法のための直接インターフェースを用いたPython実装が伴っている。 実験により,本手法の有効性を確認し,さらに重要な点として,単一決定木や類似する複雑度を有するランダム林と比較して,我々のアプローチが優れていることを示す。

This work introduces a novel interpretable machine learning method called Mixture of Decision Trees (MoDT). It constitutes a special case of the Mixture of Experts ensemble architecture, which utilizes a linear model as gating function and decision trees as experts. Our proposed method is ideally suited for problems that cannot be satisfactorily learned by a single decision tree, but which can alternatively be divided into subproblems. Each subproblem can then be learned well from a single decision tree. Therefore, MoDT can be considered as a method that improves performance while maintaining interpretability by making each of its decisions understandable and traceable to humans. Our work is accompanied by a Python implementation, which uses an interpretable gating function, a fast learning algorithm, and a direct interface to fine-tuned interpretable visualization methods. The experiments confirm that the implementation works and, more importantly, show the superiority of our approach compared to single decision trees and random forests of similar complexity.
翻訳日:2022-11-29 19:25:45 公開日:2022-11-26
# 都市村検出のための都市域グラフのコンテキストマスタースレーブフレームワーク

A Contextual Master-Slave Framework on Urban Region Graph for Urban Village Detection ( http://arxiv.org/abs/2211.14633v1 )

ライセンス: Link先を確認
Congxi Xiao, Jingbo Zhou, Jizhou Huang, Hengshu Zhu, Tong Xu, Dejing Dou, Hui Xiong(参考訳) 都市村 (UV) は、都市の急速な都市化の背後にある未発達の非公式の集落を指す。 これらのUVには高いレベルの社会的不平等と社会的リスクがあるため、市マネジャーは適切な改修政策を行うためにすべてのUVを見つけることが重要である。 既存のUV検出アプローチは、労働集約的であるか、ラベル付きUVの不足や異なる地域の多様な都市パターンなど、UV検出におけるユニークな課題に完全に対処していない。 この目的のために,まず都市域グラフ(urg)を構築し,階層構造的に都市域をモデル化する。 そこで我々は,都市部をURGから効果的に検出する新しいコンテキスト・マスタ・スレーブ・フレームワークを設計した。 このようなフレームワークの中核となる考え方は、まずURG上でベース(またはマスタ)モデルを事前訓練し、その後、異なる領域のベースモデルから特定の(またはスレーブ)モデルを適応的に導出することである。 提案手法は,都市部における紫外線検出の一般性と特異性のバランスをとることができる。 最後に,3都市で広範な実験を行い,その効果を実証した。

Urban villages (UVs) refer to the underdeveloped informal settlement falling behind the rapid urbanization in a city. Since there are high levels of social inequality and social risks in these UVs, it is critical for city managers to discover all UVs for making appropriate renovation policies. Existing approaches to detecting UVs are labor-intensive or have not fully addressed the unique challenges in UV detection such as the scarcity of labeled UVs and the diverse urban patterns in different regions. To this end, we first build an urban region graph (URG) to model the urban area in a hierarchically structured way. Then, we design a novel contextual master-slave framework to effectively detect the urban village from the URG. The core idea of such a framework is to firstly pre-train a basis (or master) model over the URG, and then to adaptively derive specific (or slave) models from the basis model for different regions. The proposed framework can learn to balance the generality and specificity for UV detection in an urban area. Finally, we conduct extensive experiments in three cities to demonstrate the effectiveness of our approach.
翻訳日:2022-11-29 19:25:28 公開日:2022-11-26
# 高忠実な流れ場再構成のための物理インフォームド拡散モデル

A Physics-informed Diffusion Model for High-fidelity Flow Field Reconstruction ( http://arxiv.org/abs/2211.14680v1 )

ライセンス: Link先を確認
Dule Shu, Zijie Li, Amir Barati Farimani(参考訳) 機械学習モデルは、高忠実度計算流体力学データの生産を加速する可能性から、流体力学の領域で人気が高まっている。 しかし、最近提案された高忠実度データ再構成のための機械学習モデルの多くは、モデルトレーニングに低忠実度データを必要とする。 このような要求は、モデルテストで使用される低忠実度入力データがトレーニングデータから大きくずれている場合、データ復元精度が著しく低下するため、これらのモデルのアプリケーション性能を阻害する。 この制約を克服するために,トレーニング時に高忠実度データのみを使用する拡散モデルを提案する。 構成の異なるモデルでは、正規の低忠実度サンプルまたはスパース測定サンプルから高忠実度データを再構成することができ、また、それが利用可能である場合に、既知の偏微分方程式からの物理インフォームド条件情報を用いて精度を高めることができる。 実験の結果, 異なる入力源に基づく2次元乱流を再訓練することなく, 正確な再構成結果が得られることがわかった。

Machine learning models are gaining increasing popularity in the domain of fluid dynamics for their potential to accelerate the production of high-fidelity computational fluid dynamics data. However, many recently proposed machine learning models for high-fidelity data reconstruction require low-fidelity data for model training. Such requirement restrains the application performance of these models, since their data reconstruction accuracy would drop significantly if the low-fidelity input data used in model test has a large deviation from the training data. To overcome this restraint, we propose a diffusion model which only uses high-fidelity data at training. With different configurations, our model is able to reconstruct high-fidelity data from either a regular low-fidelity sample or a sparsely measured sample, and is also able to gain an accuracy increase by using physics-informed conditioning information from a known partial differential equation when that is available. Experimental results demonstrate that our model can produce accurate reconstruction results for 2d turbulent flows based on different input sources without retraining.
翻訳日:2022-11-29 19:25:07 公開日:2022-11-26
# EasyMLServe: REST機械学習サービスのデプロイを容易にする

EasyMLServe: Easy Deployment of REST Machine Learning Services ( http://arxiv.org/abs/2211.14417v1 )

ライセンス: Link先を確認
Oliver Neumann, Marcel Schilling, Markus Reischl, Ralf Mikut(参考訳) さまざまな研究領域では、データから学習することで複雑なタスクを解決できるため、機械学習のアプローチを採用している。 しかし、機械学習モデルのデプロイは簡単ではなく、開発者はローカルにインストールされgui(graphical user interface)を含む完全なソリューションを実装する必要がある。 様々なユーザーへのソフトウェア配布にはいくつかの問題がある。 そこで我々は,ソフトウェアをクラウドに展開する概念を提案する。 クラウドベースの機械学習サービスを実装するために使用できる、representational state transfer(rest)に基づいたいくつかのフレームワークがある。 しかしながら、科学的ユーザのための機械学習サービスには、最先端のRESTフレームワークが完全にカバーしていないという特別な要件があります。 私たちは、RESTインターフェースと一般的なローカルまたはWebベースのGUIを使用して、クラウドに機械学習サービスをデプロイするためのEasyMLServeソフトウェアフレームワークにコントリビュートします。 さらに, 実世界の2つのアプリケーション, \ie, energy time-series forecasting, cell instance segmentation に適用した。 EasyMLServeフレームワークとユースケースはGitHubで公開されている。

Various research domains use machine learning approaches because they can solve complex tasks by learning from data. Deploying machine learning models, however, is not trivial and developers have to implement complete solutions which are often installed locally and include Graphical User Interfaces (GUIs). Distributing software to various users on-site has several problems. Therefore, we propose a concept to deploy software in the cloud. There are several frameworks available based on Representational State Transfer (REST) which can be used to implement cloud-based machine learning services. However, machine learning services for scientific users have special requirements that state-of-the-art REST frameworks do not cover completely. We contribute an EasyMLServe software framework to deploy machine learning services in the cloud using REST interfaces and generic local or web-based GUIs. Furthermore, we apply our framework on two real-world applications, \ie, energy time-series forecasting and cell instance segmentation. The EasyMLServe framework and the use cases are available on GitHub.
翻訳日:2022-11-29 19:14:43 公開日:2022-11-26
# カーネル帯域による正弦波ネットワークの簡易初期化とパラメトリゼーション

Simple initialization and parametrization of sinusoidal networks via their kernel bandwidth ( http://arxiv.org/abs/2211.14503v1 )

ライセンス: Link先を確認
Filipe de Avila Belbute-Peres, J. Zico Kolter(参考訳) 正弦波アクティベーションを持つニューラルネットワークは、従来のアクティベーション関数を持つネットワークの代替として提案されている。 特に暗黙のモデルを学ぶという約束にもかかわらず、彼らのトレーニング行動はまだ完全には理解されておらず、多くの経験的設計選択が正当化されていない。 そこで本研究では,本論文で提案する正弦波ニューラルネットワークの簡易版を提案する。 次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。 最後に,これらの知見を用いて正弦波ネットワークの初期化を報知し,暗黙のモデル学習や微分方程式の解法など,一連のタスクでの性能を最適化する。

Neural networks with sinusoidal activations have been proposed as an alternative to networks with traditional activation functions. Despite their promise, particularly for learning implicit models, their training behavior is not yet fully understood, leading to a number of empirical design choices that are not well justified. In this work, we first propose a simplified version of such sinusoidal neural networks, which allows both for easier practical implementation and simpler theoretical analysis. We then analyze the behavior of these networks from the neural tangent kernel perspective and demonstrate that their kernel approximates a low-pass filter with an adjustable bandwidth. Finally, we utilize these insights to inform the sinusoidal network initialization, optimizing their performance for each of a series of tasks, including learning implicit models and solving differential equations.
翻訳日:2022-11-29 19:14:27 公開日:2022-11-26
# Ensemble Multi-Quantile:不確実性量子化のための適応フレキシブル分布予測

Ensemble Multi-Quantile: Adaptively Flexible Distribution Prediction for Uncertainty Quantification ( http://arxiv.org/abs/2211.14545v1 )

ライセンス: Link先を確認
Xing Yan, Yonghua Su, Wenxuan Ma(参考訳) 本稿では,機械学習における不確実性を定量化する新しい,簡潔かつ効果的な手法を提案する。 これは回帰タスクに$\mathbb{p}(\mathbf{y}|\mathbf{x}=x)$の適応的柔軟な分布予測を組み込む。 この条件分布を予測するために、この間隔を$(0,1)$に広げる確率レベルの量子は、直観と解釈可能性を持つ設計の加法モデルによって促進される。 構造整合性と$\mathbb{P}(\mathbf{y}|\mathbf{X}=x)$の柔軟性の間の適応的バランスを求めるが、ガウスの仮定は実データに対する柔軟性の欠如と高度に柔軟なアプローチ(例えば、分布構造なしでは分位子を別々に推定するなど)が必然的に欠点を持ち、良い一般化には至らない。 EMQと呼ばれるこのアンサンブル方式は完全にデータ駆動であり、ガウスから徐々に離れ、ブーピングにおける最適条件分布を発見することができる。 UCIデータセットからの広範囲な回帰タスクにおいて、EMQは、キャリブレーション、シャープネス、テールサイドキャリブレーションの指標の下で、ガウス的仮定ベース、ベイズ的手法、量子回帰ベース、伝統的なツリーモデルを含む最近の不確実な定量化手法と比較して、最先端のパフォーマンスを達成することを示す。 可視化の結果、実際のデータから実際に何を学び、どのようにしてそのようなアンサンブルモデルの必要性とメリットを示すかが示される。

We propose a novel, succinct, and effective approach to quantify uncertainty in machine learning. It incorporates adaptively flexible distribution prediction for $\mathbb{P}(\mathbf{y}|\mathbf{X}=x)$ in regression tasks. For predicting this conditional distribution, its quantiles of probability levels spreading the interval $(0,1)$ are boosted by additive models which are designed by us with intuitions and interpretability. We seek an adaptive balance between the structural integrity and the flexibility for $\mathbb{P}(\mathbf{y}|\mathbf{X}=x)$, while Gaussian assumption results in a lack of flexibility for real data and highly flexible approaches (e.g., estimating the quantiles separately without a distribution structure) inevitably have drawbacks and may not lead to good generalization. This ensemble multi-quantiles approach called EMQ proposed by us is totally data-driven, and can gradually depart from Gaussian and discover the optimal conditional distribution in the boosting. On extensive regression tasks from UCI datasets, we show that EMQ achieves state-of-the-art performance comparing to many recent uncertainty quantification methods including Gaussian assumption-based, Bayesian methods, quantile regression-based, and traditional tree models, under the metrics of calibration, sharpness, and tail-side calibration. Visualization results show what we actually learn from the real data and how, illustrating the necessity and the merits of such an ensemble model.
翻訳日:2022-11-29 19:14:14 公開日:2022-11-26
# 凝縮勾配昇圧

Condensed Gradient Boosting ( http://arxiv.org/abs/2211.14599v1 )

ライセンス: Link先を確認
Seyedsaman Emami and Gonzalo Mart\'inez-Mu\~noz(参考訳) 本稿では,多クラス分類と多出力回帰タスクにおける勾配ブースティングの計算効率の向上について述べる。 標準勾配強化は2つ以上のクラスを持つタスクの分類に1-vs-all戦略を使用する。 この戦略は、クラスごとに1つのツリーを解釈し、イテレーションをトレーニングする必要があります。 本研究では,マルチクラス問題を単一タスクとして扱うためのベースモデルとしてマルチ出力回帰器を提案する。 さらに、提案した修正により、モデルがマルチ出力回帰問題を学習できるようになる。 一般化と計算効率の観点から,他のマルチオプタットに基づく勾配向上手法との比較を行った。 提案手法は、一般化能力とトレーニングと予測速度の最良のトレードオフを示す。

This paper presents a computationally efficient variant of gradient boosting for multi-class classification and multi-output regression tasks. Standard gradient boosting uses a 1-vs-all strategy for classifications tasks with more than two classes. This strategy translates in that one tree per class and iteration has to be trained. In this work, we propose the use of multi-output regressors as base models to handle the multi-class problem as a single task. In addition, the proposed modification allows the model to learn multi-output regression problems. An extensive comparison with other multi-ouptut based gradient boosting methods is carried out in terms of generalization and computational efficiency. The proposed method showed the best trade-off between generalization ability and training and predictions speeds.
翻訳日:2022-11-29 19:13:44 公開日:2022-11-26
# 画像整合型変換による脳組織のロバストワンショットセグメンテーション

Robust One-shot Segmentation of Brain Tissues via Image-aligned Style Transformation ( http://arxiv.org/abs/2211.14521v1 )

ライセンス: Link先を確認
Jinxin Lv, Xiaoyu Zeng, Sheng Wang, Ran Duan, Zhiwei Wang, and Qiang Li(参考訳) 登録モデル(reg-model)は、慎重にラベル付けされたアトラスを未ラベルの画像にワープして、セグメンテーションモデル(seg-model)をトレーニングするための擬似マスクを初期化する。 しかし、このような二重モデル反復において重要な弱点は、レグモデルによって必然的に引き起こされる空間的ミスアライメントがセグモデルを誤る可能性があることである。 本稿では,脳組織の高機能なワンショットセグメンテーションのための2モデル反復学習を強化するために,新しい画像整列型変換を提案する。 具体的には,まずreg-modelを用いてアラスを非ラベル画像にワープし,次にフーリエ型振幅交換器を用いて非ラベル画像のスタイルをアラスに移植する。 これにより、後続のsegモデルはラベル付き画像ではなくアトラスのアライメントおよびスタイル変換されたコピーで学習することができ、ラベル付き画像が持つ強度パターンの多様性を犠牲にすることなく、画像マスクトレーニングペアの正しい空間対応を自然に保証する。 さらに,画像レベルの類似性に加えて,機能対応型コンテンツ一貫性を導入し,最初のイテレーションで画像整合型変換の崩壊を回避し,期待できる初期化のためにregモデルを制約する。 2つの公開データセットの実験結果 1)本手法の完全教師あり方式と比較した競合セグメンテーション性能、及び 2) 平均diceが最大4.67%増加する他の最先端技術よりも優れた性能を示す。 ソースコードは利用可能である。

One-shot segmentation of brain tissues is typically a dual-model iterative learning: a registration model (reg-model) warps a carefully-labeled atlas onto unlabeled images to initialize their pseudo masks for training a segmentation model (seg-model); the seg-model revises the pseudo masks to enhance the reg-model for a better warping in the next iteration. However, there is a key weakness in such dual-model iteration that the spatial misalignment inevitably caused by the reg-model could misguide the seg-model, which makes it converge on an inferior segmentation performance eventually. In this paper, we propose a novel image-aligned style transformation to reinforce the dual-model iterative learning for robust one-shot segmentation of brain tissues. Specifically, we first utilize the reg-model to warp the atlas onto an unlabeled image, and then employ the Fourier-based amplitude exchange with perturbation to transplant the style of the unlabeled image into the aligned atlas. This allows the subsequent seg-model to learn on the aligned and style-transferred copies of the atlas instead of unlabeled images, which naturally guarantees the correct spatial correspondence of an image-mask training pair, without sacrificing the diversity of intensity patterns carried by the unlabeled images. Furthermore, we introduce a feature-aware content consistency in addition to the image-level similarity to constrain the reg-model for a promising initialization, which avoids the collapse of image-aligned style transformation in the first iteration. Experimental results on two public datasets demonstrate 1) a competitive segmentation performance of our method compared to the fully-supervised method, and 2) a superior performance over other state-of-the-arts with an increase of average Dice by up to 4.67%. The source code is available.
翻訳日:2022-11-29 18:16:14 公開日:2022-11-26
# Two-feld Fundus 画像を用いた糖尿病網膜症用クロスフィールドトランス

Cross-Field Transformer for Diabetic Retinopathy Grading on Two-feld Fundus Images ( http://arxiv.org/abs/2211.14552v1 )

ライセンス: Link先を確認
Junlin Hou, Jilan Xu, Fan Xiao, Rui-Wei Zhao, Yuejie Zhang, Haidong Zou, Lina Lu, Wenwen Xue, Rui Feng(参考訳) 基礎写真に基づく自動糖尿病網膜症 (DR) グレーディングは, 定期スクリーニングと早期治療のために広く研究されている。 既存の研究は、眼科検査の視野が限られている単眼眼底像に焦点を当てている。 臨床応用において、眼科医は二つの眼底撮影を支配ツールとして採用し、各眼窩からの情報(macula-centric and optic disc-centric)は高い相関性と相補的であり、総合的な決定の恩恵を受ける。 しかし、公開データセットと効果的な融合戦略が欠如しているため、2フェルド写真に基づく自動drグレーティングは依然として困難な課題である。 本研究では,まず,3,100枚の2フェルド眼底画像からなるdrグレーディングのための新しいベンチマークデータセット(drtid)を構築した。 我々の知る限りでは、多彩で高品質な2フェルト画像を持つ、最大のパブリックDRデータセットである。 そこで我々は,2つのフェルト間の対応と,各フェルト内の長距離空間相関を捉えるために,クロスフィールド変換器(CrossFiT)という新しいDRグレーディング手法を提案する。 内在する2次元の幾何学的制約を考えると、特に基底における相対的一貫した位置を保つために整列位置埋め込みを定義する。 また,相互作用の際,フィールド間のノイズ関係を弱めるために,マスク付きクロスフィールドアテンションを行う。 DRTiDデータセットとパブリックなDeepDRiDデータセットに関する大規模な実験は、私たちのCrossFiTネットワークの有効性を示しています。 新しいデータセットとCrossFiTのソースコードはhttps://github.com/FDU-VTS/DRTiDで公開される。

Automatic diabetic retinopathy (DR) grading based on fundus photography has been widely explored to benefit the routine screening and early treatment. Existing researches generally focus on single-feld fundus images, which have limited field of view for precise eye examinations. In clinical applications, ophthalmologists adopt two-feld fundus photography as the dominating tool, where the information from each feld (i.e.,macula-centric and optic disc-centric) is highly correlated and complementary, and benefits comprehensive decisions. However, automatic DR grading based on two-feld fundus photography remains a challenging task due to the lack of publicly available datasets and effective fusion strategies. In this work, we first construct a new benchmark dataset (DRTiD) for DR grading, consisting of 3,100 two-feld fundus images. To the best of our knowledge, it is the largest public DR dataset with diverse and high-quality two-feld images. Then, we propose a novel DR grading approach, namely Cross-Field Transformer (CrossFiT), to capture the correspondence between two felds as well as the long-range spatial correlations within each feld. Considering the inherent two-feld geometric constraints, we particularly define aligned position embeddings to preserve relative consistent position in fundus. Besides, we perform masked cross-field attention during interaction to flter the noisy relations between fields. Extensive experiments on our DRTiD dataset and a public DeepDRiD dataset demonstrate the effectiveness of our CrossFiT network. The new dataset and the source code of CrossFiT will be publicly available at https://github.com/FDU-VTS/DRTiD.
翻訳日:2022-11-29 18:15:41 公開日:2022-11-26
# DynaGAN: 複数のドメインに対するGANの動的Few-shot適応

DynaGAN: Dynamic Few-shot Adaptation of GANs to Multiple Domains ( http://arxiv.org/abs/2211.14554v1 )

ライセンス: Link先を確認
Seongtae Kim, Kyoungkook Kang, Geonung Kim, Seung-Hwan Baek, Sunghyun Cho(参考訳) 複数のドメインへのドメイン適応は、いくつかのトレーニングイメージから複数のドメインにまたがる複雑なイメージ分布を学習することを目的としている。 ここでのna\\iveソリューションは、少数ショットのドメイン適応メソッドを使用して、各ドメインに対して別々のモデルをトレーニングすることです。 残念なことに、このアプローチはメモリと計算時間の両方で線形スケールの計算資源を割り当てており、さらに重要なことに、そのような分離されたモデルは対象ドメイン間の共有知識を活用できない。 本稿では,複数の対象領域に対する新規な少数ショットドメイン適応法であるdynaganを提案する。 DynaGANには適応モジュールがあり、これはハイパーネットワークであり、トレーニング済みのGANモデルを複数のターゲットドメインに動的に適応させる。 したがって、対象ドメイン間の共有知識を完全に活用し、線形スケールの計算要求を回避することができる。 大規模ganモデルへの適応は依然として計算上困難であるため,rank-1テンソル分解を用いた適応モジュール軽量化の設計を行う。 最後に,複数領域の少数ショット適応に適したコントラスト適応損失を提案する。 本手法の有効性は,広範囲な質的,定量的な評価によって検証する。

Few-shot domain adaptation to multiple domains aims to learn a complex image distribution across multiple domains from a few training images. A na\"ive solution here is to train a separate model for each domain using few-shot domain adaptation methods. Unfortunately, this approach mandates linearly-scaled computational resources both in memory and computation time and, more importantly, such separate models cannot exploit the shared knowledge between target domains. In this paper, we propose DynaGAN, a novel few-shot domain-adaptation method for multiple target domains. DynaGAN has an adaptation module, which is a hyper-network that dynamically adapts a pretrained GAN model into the multiple target domains. Hence, we can fully exploit the shared knowledge across target domains and avoid the linearly-scaled computational requirements. As it is still computationally challenging to adapt a large-size GAN model, we design our adaptation module light-weight using the rank-1 tensor decomposition. Lastly, we propose a contrastive-adaptation loss suitable for multi-domain few-shot adaptation. We validate the effectiveness of our method through extensive qualitative and quantitative evaluations.
翻訳日:2022-11-29 18:15:10 公開日:2022-11-26
# ビデオ予測のためのランダム化条件付きフローマッチング

Randomized Conditional Flow Matching for Video Prediction ( http://arxiv.org/abs/2211.14575v1 )

ライセンス: Link先を確認
Aram Davtyan, Sepehr Sameni, Paolo Favaro(参考訳) 本稿では,拡散モデルに対する効率的な代替手段である潜時流マッチングに基づく映像予測のための新しい生成モデルを提案する。 繰り返しニューラルネットワークのように記憶状態を通じて過去をモデリングし、あるいは過去のフレームの事前定義されたウィンドウにのみ条件付けすることで計算負荷を制限することにより、トレーニングコストを高くする以前の作業とは対照的に、学習フローの各統合ステップにおいて、過去のフレームの小さなランダムなセットにのみ推論時間に条件付けすることで、効率的に効果的に過去を考慮に入れます。 さらに,高精細度ビデオの生成とトレーニングの高速化のために,事前訓練されたVQGANの潜在空間で作業する。 さらに,フローODEの初期状態と,それ以前のノイズフレームを近似する手法を提案する。 これにより、統合ステップの数を削減し、推論時にサンプリングを高速化できる。 我々は、VidEo pRedictionのためのRandomフレーム条件フロー統合、あるいは略してRIVERと呼ぶ。 RIVERは,従来のビデオ予測ベンチマークよりも優れた性能を示すことを示す。

We introduce a novel generative model for video prediction based on latent flow matching, an efficient alternative to diffusion-based models. In contrast to prior work that either incurs a high training cost by modeling the past through a memory state, as in recurrent neural networks, or limits the computational load by conditioning only on a predefined window of past frames, we efficiently and effectively take the past into account by conditioning at inference time only on a small random set of past frames at each integration step of the learned flow. Moreover, to enable the generation of high-resolution videos and speed up the training, we work in the latent space of a pretrained VQGAN. Furthermore, we propose to approximate the initial condition of the flow ODE with the previous noisy frame. This allows to reduce the number of integration steps and hence, speed up the sampling at inference time. We call our model Random frame conditional flow Integration for VidEo pRediction, or, in short, RIVER. We show that RIVER achieves superior or on par performance compared to prior work on common video prediction benchmarks.
翻訳日:2022-11-29 18:14:51 公開日:2022-11-26
# AvatarGen: アニマタブルな人間のアバターのための3次元生成モデル

AvatarGen: A 3D Generative Model for Animatable Human Avatars ( http://arxiv.org/abs/2211.14589v1 )

ライセンス: Link先を確認
Jianfeng Zhang and Zihang Jiang and Dingdong Yang and Hongyi Xu and Yichun Shi and Guoxian Song and Zhongcong Xu and Xinchao Wang and Jiashi Feng(参考訳) 仮想アバターや他のAR/VRアプリケーションを作成する上では,様々な外観と制御可能なジオメトリーを持つ3D認識型衣服の無監督生成が重要である。 既存の手法は厳格なオブジェクトモデリングに制限されているか、生成的ではないため、高品質な仮想人間を生成してアニメーション化できない。 そこで本研究では,2次元画像のみをトレーニングに使用しながら,高忠実な外観を持つ図形認識型衣服合成を可能にする最初の手法であるアバターゲンを提案する。 具体的には、3次元パラメトリックな人体モデルSMPLのガイダンスを用いて、生成した3次元人間の合成を、予め定義された人間のポーズと形状によるポーズ誘導マッピングと標準表現に分解し、その標準表現を異なるポーズと形状に明示的に駆動することができる。 アバターゲンはさらに変形ネットワークを導入し、細かい幾何学的詳細とポーズ依存ダイナミクスをモデル化する非剛性変形を学習する。 生成したヒトアバターの幾何学的品質を改善するために、符号付き距離場を幾何学的プロキシとして利用し、SMPLの3次元幾何学的先行からより直接的な正規化を可能にする。 これらの設計の利点を活かし、従来の3d ganを著しく上回る高品質な外観と形状モデリングを備えた3dアバターを生成することができる。 さらに、シングルビュー再構成、再アニメーション、テキスト誘導合成/編集など、多くのアプリケーションに向いている。 コードと事前トレーニングされたモデルはhttp://jeff95.me/projects/avatargen.htmlで利用可能になる。

Unsupervised generation of 3D-aware clothed humans with various appearances and controllable geometries is important for creating virtual human avatars and other AR/VR applications. Existing methods are either limited to rigid object modeling, or not generative and thus unable to generate high-quality virtual humans and animate them. In this work, we propose AvatarGen, the first method that enables not only geometry-aware clothed human synthesis with high-fidelity appearances but also disentangled human animation controllability, while only requiring 2D images for training. Specifically, we decompose the generative 3D human synthesis into pose-guided mapping and canonical representation with predefined human pose and shape, such that the canonical representation can be explicitly driven to different poses and shapes with the guidance of a 3D parametric human model SMPL. AvatarGen further introduces a deformation network to learn non-rigid deformations for modeling fine-grained geometric details and pose-dependent dynamics. To improve the geometry quality of the generated human avatars, it leverages the signed distance field as geometric proxy, which allows more direct regularization from the 3D geometric priors of SMPL. Benefiting from these designs, our method can generate animatable 3D human avatars with high-quality appearance and geometry modeling, significantly outperforming previous 3D GANs. Furthermore, it is competent for many applications, e.g., single-view reconstruction, re-animation, and text-guided synthesis/editing. Code and pre-trained model will be available at http://jeff95.me/projects/avatargen.html.
翻訳日:2022-11-29 18:14:29 公開日:2022-11-26
# 遠方移動学習によるクロスドメイン顕微鏡細胞計数

Cross-domain Microscopy Cell Counting by Disentangled Transfer Learning ( http://arxiv.org/abs/2211.14638v1 )

ライセンス: Link先を確認
Zuhui Wang, Zhaozheng Yin(参考訳) 異なる組織/組織/イメージング条件における生物実験の顕微鏡細胞画像は、通常、異なる画像背景に様々な形状と外観を持つ細胞を含み、ソース領域で訓練された細胞計数モデルが、新しいターゲット領域に移行しにくくなる。 したがって、さまざまなドメインにわたるディープラーニングベースのセルカウントモデルのトレーニングには、高価な手動アノテーションが必要である。 代わりに、人間のアノテーションを少しだけ用いたクロスドメイン細胞カウント手法を提案する。 まず,各セル画像におけるドメイン固有の知識とドメインに依存しない知識を,それぞれドメインスタイル画像とセル密度マップの生成に関連付けることができるセルカウントネットワークを設計する。 次に,いくつかの注釈付き画像に基づいて多数の画像を合成できる画像合成手法を提案する。 最後に,我々の細胞カウントネットワークをトレーニングするために,ソースドメインとして一切アノテーションのコストがかからない人工細胞の公開データセットを用いて,トレーニングされたモデルにおけるドメインに依存しない知識のみを,合成されたターゲットドメイン画像といくつかの注釈付き画像を用いて、訓練されたモデルを段階的に微調整することによって,実際のセルイメージの新しいターゲットドメインに転送する。 実際の細胞画像の2つのパブリックターゲットデータセットに基づいて評価し、新しいターゲット領域内の少数の画像に対してのみアノテーションを必要とするクロスドメインセルカウントアプローチは、ターゲット領域で完全に注釈付けされたトレーニング画像に依存する最先端の手法と比較して、優れたパフォーマンスを達成する。

Microscopy cell images of biological experiments on different tissues/organs/imaging conditions usually contain cells with various shapes and appearances on different image backgrounds, making a cell counting model trained in a source domain hard to be transferred to a new target domain. Thus, costly manual annotation is required to train deep learning-based cell counting models across different domains. Instead, we propose a cross-domain cell counting approach with only a little human annotation effort. First, we design a cell counting network that can disentangle domain-specific knowledge and domain-agnostic knowledge in cell images, which are related to the generation of domain style images and cell density maps, respectively. Secondly, we propose an image synthesis method capable of synthesizing a large number of images based on a few annotated ones. Finally, we use a public dataset of synthetic cells, which has no annotation cost at all as the source domain to train our cell counting network; then, only the domain-agnostic knowledge in the trained model is transferred to a new target domain of real cell images, by progressively fine-tuning the trained model using synthesized target-domain images and a few annotated ones. Evaluated on two public target datasets of real cell images, our cross-domain cell counting approach that only needs annotation on a few images in a new target domain achieves good performance, compared to state-of-the-art methods that rely on fully annotated training images in the target domain.
翻訳日:2022-11-29 18:13:48 公開日:2022-11-26
# slicematch:クロスビューポーズ推定のための幾何誘導アグリゲーション

SliceMatch: Geometry-guided Aggregation for Cross-View Pose Estimation ( http://arxiv.org/abs/2211.14651v1 )

ライセンス: Link先を確認
Ted de Vries Lentsch, Zimin Xia, Holger Caesar, Julian F. P. Kooij(参考訳) 本研究は、地上レベルの画像の3DFカメラのポーズ、すなわち局所領域の空中画像を決定するクロスビューカメラのポーズ推定に対処する。 本研究では,地上および空中の特徴抽出器,特徴集約器,ポーズ予測器からなるSliceMatchを提案する。 特徴抽出器は、地上および空中画像から密集した特徴を抽出する。 候補となるカメラのポーズのセットが与えられたとき、特徴アグリゲータは単一のグラウンドディスクリプタと回転同変のポーズ依存空中ディスクリプタのセットを構成する。 特に,新しい空中機能アグリゲータは,地上視点誘導空中特徴選択のためのクロスビューアテンションモジュールを備え,地上画像における地上カメラの視聴フラスタムの幾何学的投影を利用して特徴をプールする。 予め計算したマスクを用いて、回転したポーズのための空中ディスクリプタを再組み立てすることにより、効率的な空中ディスクリプタの構築を実現する。 SliceMatchは対照的な学習を用いて訓練され、地上記述子と空中記述子との類似性比較としてポーズ推定が定式化される。 slicematch は vigor と kitti データセットの中央値のローカライズエラーを 19% と 62% で上回り、3倍の fps が最速のベースラインである。

This work addresses cross-view camera pose estimation, i.e., determining the 3-DoF camera pose of a given ground-level image w.r.t. an aerial image of the local area. We propose SliceMatch, which consists of ground and aerial feature extractors, feature aggregators, and a pose predictor. The feature extractors extract dense features from the ground and aerial images. Given a set of candidate camera poses, the feature aggregators construct a single ground descriptor and a set of rotational equivariant pose-dependent aerial descriptors. Notably, our novel aerial feature aggregator has a cross-view attention module for ground-view guided aerial feature selection, and utilizes the geometric projection of the ground camera's viewing frustum on the aerial image to pool features. The efficient construction of aerial descriptors is achieved by using precomputed masks and by re-assembling the aerial descriptors for rotated poses. SliceMatch is trained using contrastive learning and pose estimation is formulated as a similarity comparison between the ground descriptor and the aerial descriptors. SliceMatch outperforms the state-of-the-art by 19% and 62% in median localization error on the VIGOR and KITTI datasets, with 3x FPS of the fastest baseline.
翻訳日:2022-11-29 18:13:20 公開日:2022-11-26
# ambisonic audio guidanceを用いたパノラマビデオサリエント物体検出

Panoramic Video Salient Object Detection with Ambisonic Audio Guidance ( http://arxiv.org/abs/2211.14419v1 )

ライセンス: Link先を確認
Xiang Li, Haoyuan Cao, Shijie Zhao, Junlin Li, Li Zhang, Bhiksha Raj(参考訳) video salient object detection (vsod)はコンピュータビジョンの基本的な問題であり、過去10年間に広く議論されてきた。 しかし、既存の作業はすべて、2DシナリオにおけるVSOD問題への対処に焦点を当てている。 VR機器の急速な開発により、パノラマビデオは現実世界の没入感を提供する2Dビデオの代替として有望な存在となった。 本稿では,パノラマビデオにおける映像の有意な物体検出問題に,対応するアンビソニックオーディオを用いて取り組むことを目的とする。 2つの疑似シアム音声-視覚コンテキスト融合(acf)ブロックを備えたマルチモーダル融合モジュールを提案する。 球面位置符号化を備えたACFブロックは、3次元コンテキストでの融合により、等方形フレームとアンビソニックオーディオから画素と音源の空間的対応を捉えることができる。 実験により提案手法の有効性を検証し,ASOD60Kデータセット上での最先端性能を実証した。

Video salient object detection (VSOD), as a fundamental computer vision problem, has been extensively discussed in the last decade. However, all existing works focus on addressing the VSOD problem in 2D scenarios. With the rapid development of VR devices, panoramic videos have been a promising alternative to 2D videos to provide immersive feelings of the real world. In this paper, we aim to tackle the video salient object detection problem for panoramic videos, with their corresponding ambisonic audios. A multimodal fusion module equipped with two pseudo-siamese audio-visual context fusion (ACF) blocks is proposed to effectively conduct audio-visual interaction. The ACF block equipped with spherical positional encoding enables the fusion in the 3D context to capture the spatial correspondence between pixels and sound sources from the equirectangular frames and ambisonic audios. Experimental results verify the effectiveness of our proposed components and demonstrate that our method achieves state-of-the-art performance on the ASOD60K dataset.
翻訳日:2022-11-29 18:06:16 公開日:2022-11-26
# TetraSphere: O(3)-不変点雲分類のためのニューラルネットワーク記述子

TetraSphere: A Neural Descriptor for O(3)-Invariant Point Cloud Classification ( http://arxiv.org/abs/2211.14456v1 )

ライセンス: Link先を確認
Pavlo Melnyk, Andreas Robinson, M{\aa}rten Wadenb\"ack, Michael Felsberg(参考訳) 回転不変性は3次元点雲の解析において重要な要件である。 本稿では,最近導入された3次元球状ニューロンとベクトルニューロンに基づく回転・反射不変3次元点雲分類のための学習可能な記述子TetraSphereと,Gram行列法を提案する。 3Dポイントを入力として、TetraSphereはTetraTransform -- 3D入力を4Dにリフトし、回転同値な特徴を抽出し、その後、これらの特徴のペアワイズO(3)不変な内部積を計算する。 注目すべきは、TetraSphereを共通のクラウド処理モデルに組み込むことができることだ。 DGCNNとVN-DGCNNに統合し、任意の回転するModelNet40形状の分類を行うことにより、その有効性と汎用性を実証する。 提案手法では,TetraSphereの使用により性能が向上し,各ベースライン手法の約10%の計算複雑性が低下することを示す。

Rotation invariance is an important requirement for the analysis of 3D point clouds. In this paper, we present TetraSphere -- a learnable descriptor for rotation- and reflection-invariant 3D point cloud classification based on recently introduced steerable 3D spherical neurons and vector neurons, as well as the Gram matrix method. Taking 3D points as input, TetraSphere performs TetraTransform -- lifts the 3D input to 4D -- and extracts rotation-equivariant features, subsequently computing pair-wise O(3)-invariant inner products of these features. Remarkably, TetraSphere can be embedded into common point cloud processing models. We demonstrate its effectiveness and versatility by integrating it into DGCNN and VN-DGCNN, performing the classification of arbitrarily rotated ModelNet40 shapes. We show that using TetraSphere improves the performance and reduces the computational complexity by about 10% of the respective baseline methods.
翻訳日:2022-11-29 18:06:01 公開日:2022-11-26
# CDDFuse:多モード画像融合のための相関駆動デュアルブランチ特徴分解

CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion ( http://arxiv.org/abs/2211.14461v1 )

ライセンス: Link先を確認
Zixiang Zhao, Haowen Bai, Jiangshe Zhang, Yulun Zhang, Shuang Xu, Zudi Lin, Radu Timofte, Luc Van Gool(参考訳) マルチモダリティ(mm)イメージ融合は、機能的なハイライトや詳細なテクスチャなど、異なるモダリティのメリットを保った融合画像をレンダリングすることを目的としている。 クロスモダリティ特徴のモデル化や所望のモダリティ特異的特徴とモダリティ共有特徴の分解の課題に取り組むため,エンド・ツー・エンドmm特徴分解と画像融合のための新しい相関駆動特徴分解融合(cddfuse)ネットワークを提案する。 2段階アーキテクチャの最初の段階では、CDDFuseはRestormerブロックを使用して、モダリティ間の浅い特徴を抽出する。 次に、Lite Transformer(LT)ブロックを用いた2分岐変換器-CNN特徴抽出器を導入し、低周波グローバル特徴の処理に長距離の注意を生かした。 埋め込みセマンティック情報では、低周波の特徴は相関するが、高周波の特徴は相関しないべきである。 そこで本研究では,より優れた特徴分解のための相関型損失を提案する。 第2段階では、LTベースのグローバル核融合とNNベースのローカル核融合層が融合画像を出力する。 広汎な実験により, 近赤外可視画像融合や医用画像融合を含む複数の核融合タスクにおいて, CDDFuseは有望な結果をもたらすことが示された。 また,cddfuseは下流の赤外線可視意味セグメンテーションとオブジェクト検出の性能を統一ベンチマークで向上させることができることを示した。

Multi-modality (MM) image fusion aims to render fused images that maintain the merits of different modalities, e.g., functional highlight and detailed textures. To tackle the challenge in modeling cross-modality features and decomposing desirable modality-specific and modality-shared features, we propose a novel Correlation-Driven feature Decomposition Fusion (CDDFuse) network for end-to-end MM feature decomposition and image fusion. In the first stage of the two-stage architectures, CDDFuse uses Restormer blocks to extract cross-modality shallow features. We then introduce a dual-branch Transformer-CNN feature extractor with Lite Transformer (LT) blocks leveraging long-range attention to handle low-frequency global features and Invertible Neural Networks (INN) blocks focusing on extracting high-frequency local information. Upon the embedded semantic information, the low-frequency features should be correlated while the high-frequency features should be uncorrelated. Thus, we propose a correlation-driven loss for better feature decomposition. In the second stage, the LT-based global fusion and INN-based local fusion layers output the fused image. Extensive experiments demonstrate that our CDDFuse achieves promising results in multiple fusion tasks, including infrared-visible image fusion and medical image fusion. We also show that CDDFuse can boost the performance in downstream infrared-visible semantic segmentation and object detection in a unified benchmark.
翻訳日:2022-11-29 18:05:44 公開日:2022-11-26
# ポイントクラウド分析のためのメタアーカイトキュア

Meta Architecure for Point Cloud Analysis ( http://arxiv.org/abs/2211.14462v1 )

ライセンス: Link先を確認
Haojia Lin, Xiawu Zheng, Lijiang Li, Fei Chao, Shanshan Wang, Yan Wang, Yonghong Tian, Rongrong Ji(参考訳) 3Dポイントクラウド分析の最近の進歩は、この分野に様々なネットワークアーキテクチャをもたらす。 しかし、これらのネットワークを解釈するための統一フレームワークの欠如は、体系的な比較、対比、分析を困難にし、フィールドの健全な発展を実質的に制限している。 本稿では,人気の3dポイントクラウド分析アプローチが適合する,pointmetaと呼ばれる統一フレームワークを探求し,提案する。 これは3つの利点をもたらす。 まず、異なるアプローチを公平に比較し、迅速な実験を使って、比較から要約された経験的な観察や仮定を検証することができます。 第2に、PointMetaがもたらす全体像は、さまざまなコンポーネントについて考え、一般的な信念と一般的なアプローチによる重要な設計決定を再考することを可能にする。 第3に、以前の2つの分析から学んだことに基づいて、既存のアプローチを簡単に微調整することで、PointMetaBaseと呼ばれる基本的なビルディングブロックを導き出すことができます。 これは、挑戦的なベンチマークに関する広範な実験を通じて、効率と有効性において非常に高いパフォーマンスを示し、PointMetaのような高レベルの解釈、コントラスト、比較の必要性とメリットを検証する。 特に、PointMetaBaseは従来の最先端手法を0.7%/1.4/%2.1% mIoUで上回り、S3DISデータセットの計算コストのわずか2%/11%/13%である。

Recent advances in 3D point cloud analysis bring a diverse set of network architectures to the field. However, the lack of a unified framework to interpret those networks makes any systematic comparison, contrast, or analysis challenging, and practically limits healthy development of the field. In this paper, we take the initiative to explore and propose a unified framework called PointMeta, to which the popular 3D point cloud analysis approaches could fit. This brings three benefits. First, it allows us to compare different approaches in a fair manner, and use quick experiments to verify any empirical observations or assumptions summarized from the comparison. Second, the big picture brought by PointMeta enables us to think across different components, and revisit common beliefs and key design decisions made by the popular approaches. Third, based on the learnings from the previous two analyses, by doing simple tweaks on the existing approaches, we are able to derive a basic building block, termed PointMetaBase. It shows very strong performance in efficiency and effectiveness through extensive experiments on challenging benchmarks, and thus verifies the necessity and benefits of high-level interpretation, contrast, and comparison like PointMeta. In particular, PointMetaBase surpasses the previous state-of-the-art method by 0.7%/1.4/%2.1% mIoU with only 2%/11%/13% of the computation cost on the S3DIS datasets.
翻訳日:2022-11-29 18:05:14 公開日:2022-11-26
# パッチシェーディング:パッチウォーピングとシェーディングによる高品質ヒト再建

PatchShading: High-Quality Human Reconstruction by Patch Warping and Shading Refinement ( http://arxiv.org/abs/2211.14485v1 )

ライセンス: Link先を確認
Lixiang Lin, Songyou Peng, Qijun Gan, Jianke Zhu(参考訳) マルチビュー画像からのヒューマンリコンストラクションは、多くのアプリケーションにおいて重要な役割を果たす。 ニューラルレンダリング法は現実的な画像の合成において有望な結果を得たが、レンダリングロスのみを用いて幾何学と外観のあいまいさを扱うことは依然として困難である。 さらに、各ピクセルが前方ネットワーク推論を必要とするため、全体像のレンダリングは非常に計算集約的である。 これらの課題に取り組むために,多視点画像から人体の高品質メッシュを再構築する新しい手法である \emph{patchshading}を提案する。 まず,マルチビューフォトメトリックの一貫性を明示的に制約するパッチワーピング戦略を提案する。 第2に,球面高調波(sh)の照明とシェーディング像からの形状を採用し,幾何学的詳細をさらに洗練する。 配向点雲の形状表現とSHシェーディングを利用して,提案手法は暗黙の手法と比較して最適化とレンダリング時間を著しく短縮する。 合成データセットと実世界のデータセットの両方において,提案手法の有効性を示す。

Human reconstruction from multi-view images plays an important role in many applications. Although neural rendering methods have achieved promising results on synthesising realistic images, it is still difficult to handle the ambiguity between the geometry and appearance using only rendering loss. Moreover, it is very computationally intensive to render a whole image as each pixel requires a forward network inference. To tackle these challenges, we propose a novel approach called \emph{PatchShading} to reconstruct high-quality mesh of human body from multi-view posed images. We first present a patch warping strategy to constrain multi-view photometric consistency explicitly. Second, we adopt sphere harmonics (SH) illumination and shape from shading image formation to further refine the geometric details. By taking advantage of the oriented point clouds shape representation and SH shading, our proposed method significantly reduce the optimization and rendering time compared to those implicit methods. The encouraging results on both synthetic and real-world datasets demonstrate the efficacy of our proposed approach.
翻訳日:2022-11-29 18:04:51 公開日:2022-11-26
# ラベル効率のよい組織像分割のための人機械対話型組織プロトタイプ学習

Human-machine Interactive Tissue Prototype Learning for Label-efficient Histopathology Image Segmentation ( http://arxiv.org/abs/2211.14491v1 )

ライセンス: Link先を確認
Wentao Pan, Jiangpeng Yan, Hanbo Chen, Jiawei Yang, Zhe Xu, Xiu Li, Jianhua Yao(参考訳) 近年,深層ニューラルネットワークは病理組織像の分節化に大きく進歩しているが,通常は豊富な注釈データを必要とする。 しかし,スライド画像全体のギガピクセルスケールや病理医の重度作業負荷のため,臨床実習における教師あり学習のためのピクセルレベルラベルの取得は不可能であることが多い。 あるいは、弱い教師付きセグメンテーション手法は、少ない画像レベルのラベルで検討されてきたが、密接な監督の欠如により、その性能は満足できない。 近年の自己教師付き学習手法の成功に触発されて,ラベル効率の高い組織プロトタイプ辞書作成パイプラインを提示し,得られたプロトタイプを用いて病理組織像のセグメンテーションを導くことを提案する。 特に、自己教師付きコントラスト学習を利用して、エンコーダは、ラベルのない病理組織像パッチを識別可能な埋め込み空間に投影し、それらのパッチをクラスタ化し、効率的な病理学者の視覚検査により組織プロトタイプを識別するように訓練される。 次に、エンコーダを用いて、画像を埋め込み空間にマッピングし、組織プロトタイプ辞書に問い合わせてピクセルレベルの擬似組織マスクを生成する。 最後に、擬似マスクを使用して、より優れたパフォーマンスのために密集した監視を行うセグメンテーションネットワークをトレーニングする。 2つの公開データセットの実験により、人間の機械的対話型組織プロトタイプ学習法は、アノテーション負担の少ない完全教師付きベースラインとして同等のセグメンテーション性能を達成でき、他の弱教師付きメソッドよりも優れていることが示された。 コードは出版時に入手できる。

Recently, deep neural networks have greatly advanced histopathology image segmentation but usually require abundant annotated data. However, due to the gigapixel scale of whole slide images and pathologists' heavy daily workload, obtaining pixel-level labels for supervised learning in clinical practice is often infeasible. Alternatively, weakly-supervised segmentation methods have been explored with less laborious image-level labels, but their performance is unsatisfactory due to the lack of dense supervision. Inspired by the recent success of self-supervised learning methods, we present a label-efficient tissue prototype dictionary building pipeline and propose to use the obtained prototypes to guide histopathology image segmentation. Particularly, taking advantage of self-supervised contrastive learning, an encoder is trained to project the unlabeled histopathology image patches into a discriminative embedding space where these patches are clustered to identify the tissue prototypes by efficient pathologists' visual examination. Then, the encoder is used to map the images into the embedding space and generate pixel-level pseudo tissue masks by querying the tissue prototype dictionary. Finally, the pseudo masks are used to train a segmentation network with dense supervision for better performance. Experiments on two public datasets demonstrate that our human-machine interactive tissue prototype learning method can achieve comparable segmentation performance as the fully-supervised baselines with less annotation burden and outperform other weakly-supervised methods. Codes will be available upon publication.
翻訳日:2022-11-29 18:04:33 公開日:2022-11-26
# 不整合トレーニングペアを用いた単一画像デフォーカスデブラリングの学習

Learning Single Image Defocus Deblurring with Misaligned Training Pairs ( http://arxiv.org/abs/2211.14502v1 )

ライセンス: Link先を確認
Yu Li, Dongwei Ren, Xinya Shu, Wangmeng Zuo(参考訳) 一般的なピクセル単位の損失を採用することで、デフォーカスデブロリングの既存の方法は、整列したトレーニングイメージペアに大きく依存する。 DPDDデータセットのような地上の真実とぼやけたイメージのトレーニングペアは慎重に収集されるが、トレーニングペア間のミスアライメントは避けられないため、既存の手法は変形アーチファクトに悩まされる可能性がある。 本稿では,不整合トレーニングペアを用いた単一画像デフォーカスデブロリングのためのJDRL(Joint Deblurring and Reblurring Learning)フレームワークを提案する。 一般にjdrlは、デブラリングモジュールと空間不変リブラリングモジュールからなり、デブラリング結果は地中画像により適応的に教師付けされ、ぼやけた画像との空間的一貫性を維持しながらシャープなテクスチャを回復できる。 まず、デブラリングモジュールにおいて、デブラリング画像と地中画像との空間的不一致を許容する双方向光フローベース変形を導入する。 第2に、リブラリングモジュールでは、一連の等方的ボケカーネルと重み付けマップを予測することにより、デブラリング結果がボケ画像と空間的に整合するようにリブラリングされる。 さらに,sdd(single image defocus deblurling)データセットを新たに確立し,jdrlをさらに検証し,今後の研究に資する。 我々のJDRLは、DPDD、RealDOF、およびSDDデータセットにおける定量的メトリクスと視覚的品質の両方の観点から、デフォーカスデブロリングネットワークを向上するために適用することができる。

By adopting popular pixel-wise loss, existing methods for defocus deblurring heavily rely on well aligned training image pairs. Although training pairs of ground-truth and blurry images are carefully collected, e.g., DPDD dataset, misalignment is inevitable between training pairs, making existing methods possibly suffer from deformation artifacts. In this paper, we propose a joint deblurring and reblurring learning (JDRL) framework for single image defocus deblurring with misaligned training pairs. Generally, JDRL consists of a deblurring module and a spatially invariant reblurring module, by which deblurred result can be adaptively supervised by ground-truth image to recover sharp textures while maintaining spatial consistency with the blurry image. First, in the deblurring module, a bi-directional optical flow-based deformation is introduced to tolerate spatial misalignment between deblurred and ground-truth images. Second, in the reblurring module, deblurred result is reblurred to be spatially aligned with blurry image, by predicting a set of isotropic blur kernels and weighting maps. Moreover, we establish a new single image defocus deblurring (SDD) dataset, further validating our JDRL and also benefiting future research. Our JDRL can be applied to boost defocus deblurring networks in terms of both quantitative metrics and visual quality on DPDD, RealDOF and our SDD datasets.
翻訳日:2022-11-29 18:04:04 公開日:2022-11-26
# 微粒化制御型トーキングヘッド合成のためのプログレッシブディスタングル表現学習

Progressive Disentangled Representation Learning for Fine-Grained Controllable Talking Head Synthesis ( http://arxiv.org/abs/2211.14506v1 )

ライセンス: Link先を確認
Duomin Wang, Yu Deng, Zixin Yin, Heung-Yeung Shum, Baoyuan Wang(参考訳) 本稿では, 唇の動き, 視線・瞬き, 頭部ポーズ, 情緒的表情のゆがみ, きめ細かな制御を実現する, ワンショット音声頭部合成法を提案する。 我々は、不整合潜在表現を介して異なる動きを表現し、画像生成器を活用して音声ヘッドを合成する。 そこで我々は,各運動因子を効果的に切り離すために,各運動因子を粗い方法で分離し,まず駆動信号から統一運動特徴を抽出し,さらに各微細な動きを統一特徴から分離し,プログレッシブな不整合表現学習戦略を提案する。 本研究では、非感情的な動きに対する運動特異的なコントラスト学習と回帰、感情表現に対する特徴レベルのデコリレーションと自己再構成を導入し、非構造的ビデオデータにおける各モーションファクタの性質をフル活用して、ゆがみを実現する。 実験の結果,従来の手法では達成できない複数の顔の動きの高精度な制御とともに,高品質な音声とリップモーションの同期を実現することができた。

We present a novel one-shot talking head synthesis method that achieves disentangled and fine-grained control over lip motion, eye gaze&blink, head pose, and emotional expression. We represent different motions via disentangled latent representations and leverage an image generator to synthesize talking heads from them. To effectively disentangle each motion factor, we propose a progressive disentangled representation learning strategy by separating the factors in a coarse-to-fine manner, where we first extract unified motion feature from the driving signal, and then isolate each fine-grained motion from the unified feature. We introduce motion-specific contrastive learning and regressing for non-emotional motions, and feature-level decorrelation and self-reconstruction for emotional expression, to fully utilize the inherent properties of each motion factor in unstructured video data to achieve disentanglement. Experiments show that our method provides high quality speech&lip-motion synchronization along with precise and disentangled control over multiple extra facial motions, which can hardly be achieved by previous methods.
翻訳日:2022-11-29 18:03:39 公開日:2022-11-26
# セマンティックセグメンテーションにおける画素単位の分布検出のための残差パターン学習

Residual Pattern Learning for Pixel-wise Out-of-Distribution Detection in Semantic Segmentation ( http://arxiv.org/abs/2211.14512v1 )

ライセンス: Link先を確認
Yuyuan Liu, Choubo Ding, Yu Tian, Guansong Pang, Vasileios Belagiannis, Ian Reid and Gustavo Carneiro(参考訳) セマンティックセグメンテーションモデルは、ピクセルを既知の(`in-distribution'')視覚クラスに分類する。 オープンな世界に展開する場合、これらのモデルの信頼性は、分布内画素を分類するだけでなく、分布外画素(OoD)を検出する能力にも依存する。 歴史的に、これらのモデルのood検出性能の低さは、oodビジュアルオブジェクトを含む合成トレーニングイメージを用いたモデル再トレーニングに基づくメソッドの設計を動機付けた。 成功したとはいえ、これらの再訓練手法には2つの問題がある。 1)再訓練中に分配分節精度が低下し得る。 2) そのood検出精度は, 訓練施設外の新たな状況(例えば, 都市環境)にはあまり一般化しない。 本稿では,これらの問題を次のように緩和する。 (i)不規則なセグメンテーション性能に影響を与えることなく、セグメンテーションモデルによるood画素の検出を支援する新しい残差パターン学習(rpl)モジュール (ii)rplが様々な文脈でood画素を頑健に検出することを強制する新しいコンテキストロバストコントラスト学習(corocl)。 本手法は,魚類景観,セグメンテーション・ミー・イ・ユー・カン,ロードアノマリーデータセットにおいて,これまでの最先端技術であるfprと7-% auprcを約10-%改善する。 私たちのコードは、https://github.com/yyliu01/rplで利用可能です。

Semantic segmentation models classify pixels into a set of known (``in-distribution'') visual classes. When deployed in an open world, the reliability of these models depends on their ability not only to classify in-distribution pixels but also to detect out-of-distribution (OoD) pixels. Historically, the poor OoD detection performance of these models has motivated the design of methods based on model re-training using synthetic training images that include OoD visual objects. Although successful, these re-trained methods have two issues: 1) their in-distribution segmentation accuracy may drop during re-training, and 2) their OoD detection accuracy does not generalise well to new contexts (e.g., country surroundings) outside the training set (e.g., city surroundings). In this paper, we mitigate these issues with: (i) a new residual pattern learning (RPL) module that assists the segmentation model to detect OoD pixels without affecting the inlier segmentation performance; and (ii) a novel context-robust contrastive learning (CoroCL) that enforces RPL to robustly detect OoD pixels among various contexts. Our approach improves by around 10\% FPR and 7\% AuPRC the previous state-of-the-art in Fishyscapes, Segment-Me-If-You-Can, and RoadAnomaly datasets. Our code is available at: https://github.com/yyliu01/RPL.
翻訳日:2022-11-29 18:03:16 公開日:2022-11-26
# 親和性マトリックスの観点からのコントラスト学習のための統一フレームワーク

A Unified Framework for Contrastive Learning from a Perspective of Affinity Matrix ( http://arxiv.org/abs/2211.14516v1 )

ライセンス: Link先を確認
Wenbin Li, Meihao Kong, Xuesong Yang, Lei Wang, Jing Huo, Yang Gao, Jiebo Luo(参考訳) 近年,非教師なしの視覚表現学習法が設計され,多くの視覚課題において大きな成功を収めている。 一般に、これらの手法は、(1)MoCoやSimCLRのようなInfoNCEに似た損失を伴う標準的なコントラスト的手法、(2)BYOLやSimSiamのような正のペアのみを持つ非コントラスト的手法、(3)W-MSEやVICRegのようなホワイトニング正規化に基づく方法、(4)CO2のような一貫性正規化に基づく方法の4つに分類される。 本研究では, 基本親和性行列の新たな視点から, 上記の4種類の手法に適合する新しい統合コントラスト学習表現フレームワーク(UniCLR)を提案する。 さらに、uniclrに基づいて、simaffinity、simwhitening、simtraceの3つの変種が提示される。 さらに、この枠組みに基づいて、新しい整合正則化項として単純な対称損失が提案される。 アフィニティ行列を対称性化することにより、トレーニングプロセスの収束を効果的に加速することができる。 その結果,(1) 提案した UniCLR フレームワークは,技術水準と同等に優れた結果が得られること,(2) 提案した対称損失はモデルの収束を著しく促進できること,(3) SimTrace は非対称性設計や停止勾配に依存することなく,白色アフィニティ行列のトレースを最大化することでモード崩壊問題を回避することができることを示した。

In recent years, a variety of contrastive learning based unsupervised visual representation learning methods have been designed and achieved great success in many visual tasks. Generally, these methods can be roughly classified into four categories: (1) standard contrastive methods with an InfoNCE like loss, such as MoCo and SimCLR; (2) non-contrastive methods with only positive pairs, such as BYOL and SimSiam; (3) whitening regularization based methods, such as W-MSE and VICReg; and (4) consistency regularization based methods, such as CO2. In this study, we present a new unified contrastive learning representation framework (named UniCLR) suitable for all the above four kinds of methods from a novel perspective of basic affinity matrix. Moreover, three variants, i.e., SimAffinity, SimWhitening and SimTrace, are presented based on UniCLR. In addition, a simple symmetric loss, as a new consistency regularization term, is proposed based on this framework. By symmetrizing the affinity matrix, we can effectively accelerate the convergence of the training process. Extensive experiments have been conducted to show that (1) the proposed UniCLR framework can achieve superior results on par with and even be better than the state of the art, (2) the proposed symmetric loss can significantly accelerate the convergence of models, and (3) SimTrace can avoid the mode collapse problem by maximizing the trace of a whitened affinity matrix without relying on asymmetry designs or stop-gradients.
翻訳日:2022-11-29 18:02:52 公開日:2022-11-26
# タスクパフォーマンス以上の評価: HexにおけるAlphaZeroの概念の分析

Evaluation Beyond Task Performance: Analyzing Concepts in AlphaZero in Hex ( http://arxiv.org/abs/2211.14673v1 )

ライセンス: Link先を確認
Charles Lovering, Jessica Zosa Forde, George Konidaris, Ellie Pavlick, Michael L. Littman(参考訳) AlphaZeroは、ニューラルネットワークとモンテカルロ木探索(MCTS)を結合した強化学習のアプローチであり、チェス、囲碁、ショギ、ヘックスといった伝統的なボードゲームのための最先端の戦略を生み出している。 研究者やゲームコメンテーターは、AlphaZeroは人間が重要と考える概念を使っていると示唆しているが、これらの概念がネットワーク内でどのように捉えられているかは定かではない。 我々は,HexゲームにおけるAlphaZeroの内部表現について,自然言語処理(NLP)による2つの評価手法を用いて検討する。 そこで我々は,RLコミュニティに新たな評価ツールを導入し,モデルの強みと弱みをより完全に表現するために,タスクパフォーマンス以外の評価をどのように利用できるかを説明する。 hexゲームにおける我々の分析は興味深いパターンを示し、そのようなモデルが一般的にどのように学習するかに関するテスト可能な仮説を生み出している。 例えば、ニューラルネットワークがそれらをエンコードすることを学ぶ前に、MCTSは概念を発見する。 また、短期的なエンドゲーム計画に関する概念はモデルの最終層に最もよくエンコードされているのに対し、長期計画に関する概念はモデルの中間層にエンコードされている。

AlphaZero, an approach to reinforcement learning that couples neural networks and Monte Carlo tree search (MCTS), has produced state-of-the-art strategies for traditional board games like chess, Go, shogi, and Hex. While researchers and game commentators have suggested that AlphaZero uses concepts that humans consider important, it is unclear how these concepts are captured in the network. We investigate AlphaZero's internal representations in the game of Hex using two evaluation techniques from natural language processing (NLP): model probing and behavioral tests. In doing so, we introduce new evaluation tools to the RL community and illustrate how evaluations other than task performance can be used to provide a more complete picture of a model's strengths and weaknesses. Our analyses in the game of Hex reveal interesting patterns and generate some testable hypotheses about how such models learn in general. For example, we find that MCTS discovers concepts before the neural network learns to encode them. We also find that concepts related to short-term end-game planning are best encoded in the final layers of the model, whereas concepts related to long-term planning are encoded in the middle layers of the model.
翻訳日:2022-11-29 17:56:32 公開日:2022-11-26
# グラフニューラルネットワークからの学習分岐ヒューリスティック

Learning Branching Heuristics from Graph Neural Networks ( http://arxiv.org/abs/2211.14405v1 )

ライセンス: Link先を確認
Congsong Zhang and Yong Gao and James Nastos(参考訳) バックトラックは、制約満足度問題や組合せ最適化問題を含む人工知能(AI)の問題を解決するために広く用いられている。 よい分岐ヒューリスティックスは、探索空間を創り出し、最も有望な方向に導くことで、バックトラックの性能を効率よく向上させることができる。 本稿では,確率論的手法を用いて設計された新しいグラフニューラルネットワーク(GNN)モデルを提案する。 gnnモデルを用いて,組合せ最適化問題に対して分岐ヒューリスティックを学ぶ手法を提案する。 特に,gnnモデルでは,分岐ヒューリスティックを抽出してバックトラック探索に用いるグラフにおいて,頂点上の適切な確率分布を学習する。 最小のドミネーション・クライク問題に対する実験の結果から,この学習された分岐ヒューリスティックは,探索木全体の分岐数において,最小保存値ヒューリスティックよりも優れた性能を示すことがわかった。 我々のアプローチは、AIで使用される古典的なバックトラッキングアルゴリズムの強化にGNNを適用する新しい方法を導入する。

Backtracking has been widely used for solving problems in artificial intelligence (AI), including constraint satisfaction problems and combinatorial optimization problems. Good branching heuristics can efficiently improve the performance of backtracking by helping prune the search space and leading the search to the most promising direction. In this paper, we first propose a new graph neural network (GNN) model designed using the probabilistic method. From the GNN model, we introduce an approach to learn a branching heuristic for combinatorial optimization problems. In particular, our GNN model learns appropriate probability distributions on vertices in given graphs from which the branching heuristic is extracted and used in a backtracking search. Our experimental results for the (minimum) dominating-clique problem show that this learned branching heuristic performs better than the minimum-remaining-values heuristic in terms of the number of branches of the whole search tree. Our approach introduces a new way of applying GNNs towards enhancing the classical backtracking algorithm used in AI.
翻訳日:2022-11-29 17:45:58 公開日:2022-11-26
# ドメインに依存しない動的プログラミング: 組合せ最適化のためのジェネリック状態空間探索

Domain-Independent Dynamic Programming: Generic State Space Search for Combinatorial Optimization ( http://arxiv.org/abs/2211.14409v1 )

ライセンス: Link先を確認
Ryo Kuroiwa and J. Christopher Beck(参考訳) 組合せ最適化問題では、混合整数プログラミング (MIP) や制約プログラミング (CP) といったモデルベースのアプローチがモデリングと問題解決を分離することを目的としている。 本稿では、動的プログラミング(DP)に基づく新しいモデルベースパラダイムであるドメイン独立動的プログラミング(DIDP)を提案する。 DPは新しいものではないが、通常は問題固有の方法として実装されている。 我々はDPモデルを定義するための形式である動的プログラミング記述言語(DyPDL)を提案し、状態空間探索を用いたDyPDLの汎用解法であるDyPDL用コスト代数型A*ソルバー(CAASDy)を開発した。 我々はDyPDLのDPモデルとして既存の問題固有DPと状態空間探索法を定式化した。 CAASDy と商用 MIP と CP の解法を用いて,DP モデルと既存の MIP と CP モデルとを実験的に比較した結果,CAASDy は初期の性質にもかかわらず,多くの共通問題クラスにおいて MIP と CP よりも優れていることがわかった。

For combinatorial optimization problems, model-based approaches such as mixed-integer programming (MIP) and constraint programming (CP) aim to decouple modeling and solving a problem: the 'holy grail' of declarative problem solving. We propose domain-independent dynamic programming (DIDP), a new model-based paradigm based on dynamic programming (DP). While DP is not new, it has typically been implemented as a problem-specific method. We propose Dynamic Programming Description Language (DyPDL), a formalism to define DP models, and develop Cost-Algebraic A* Solver for DyPDL (CAASDy), a generic solver for DyPDL using state space search. We formalize existing problem-specific DP and state space search methods for combinatorial optimization problems as DP models in DyPDL. Using CAASDy and commercial MIP and CP solvers, we experimentally compare the DP models with existing MIP and CP models, showing that, despite its nascent nature, CAASDy outperforms MIP and CP on a number of common problem classes.
翻訳日:2022-11-29 17:45:44 公開日:2022-11-26
# 進化的ニューラルネットワークに基づく電力情報ネットワークのセキュリティ状態の定量的評価法

Quantitative Method for Security Situation of the Power Information Network Based on the Evolutionary Neural Network ( http://arxiv.org/abs/2211.14422v1 )

ライセンス: Link先を確認
Quande Yuan, Yuzhen Pi, Lei Kou, Fangfang Zhang, Bo Ye(参考訳) サイバーセキュリティは、電力グリッドのデジタルトランスフォーメーションと新しい電力システムの構築のセキュリティ基盤である。 従来のネットワークセキュリティ状況定量化手法は,ネットワーク性能の観点からのみ解析し,各種電力アプリケーションサービスのセキュリティ状況への影響を無視しているため,その定量化結果が電力情報ネットワークのリスク状態を十分に反映できない。 本研究では,進化的ニューラルネットワークに基づく電力情報ネットワークのセキュリティ状況の定量化手法を提案する。 まず,電力情報ネットワークアプリケーションのビジネス特性を分析することにより,セキュリティ姿勢システムアーキテクチャを設計する。 第2に、電力アプリケーションビジネスの重要性を組み合わせることで、ネットワーク信頼性、脅威、脆弱性の3次元から相互接続の空間要素インデックスシステムを確立する。 そして、遺伝的進化アルゴリズムにより最適化されたbpニューラルネットワークを要素指数算出プロセスに組み込んで、進化的ニューラルネットワークに基づく電力情報ネットワークのセキュリティ姿勢の定量的モデルを構築する。 最後に,電力セクタネットワークトポロジに従ってシミュレーション実験環境を構築し,本研究で提案する手法の有効性と頑健性を検証する。

Cybersecurity is the security cornerstone of digital transformation of the power grid and construction of new power systems. The traditional network security situation quantification method only analyzes from the perspective of network performance, ignoring the impact of various power application services on the security situation, so the quantification results cannot fully reflect the power information network risk state. This study proposes a method for quantifying security situation of the power information network based on the evolutionary neural network. First, the security posture system architecture is designed by analyzing the business characteristics of power information network applications. Second, combining the importance of power application business, the spatial element index system of coupled interconnection is established from three dimensions of network reliability, threat, and vulnerability. Then, the BP neural network optimized by the genetic evolutionary algorithm is incorporated into the element index calculation process, and the quantitative model of security posture of the power information network based on the evolutionary neural network is constructed. Finally, a simulation experiment environment is built according to a power sector network topology, and the effectiveness and robustness of the method proposed in the study are verified.
翻訳日:2022-11-29 17:45:25 公開日:2022-11-26
# ジョブショップスケジューリングのための教師付き学習による制約プログラミングの強化

Enhancing Constraint Programming via Supervised Learning for Job Shop Scheduling ( http://arxiv.org/abs/2211.14492v1 )

ライセンス: Link先を確認
Yuan Sun, Su Nguyen, Dhananjay Thiruvady, Xiaodong Li, Andreas T. Ernst and Uwe Aickelin(参考訳) 制約プログラミング(CP)は制約満足度と最適化問題を解決する効果的な手法である。 CPソルバは通常、変数順序付け戦略を使用して、解法プロセスにおいてどの変数を最初に探索するかを選択するが、これは解法の有効性に大きな影響を及ぼす。 本稿では,ジョブショップスケジューリング問題を解決するために,教師付き学習に基づく新しい可変順序付け戦略を提案する。 我々は,問題インスタンスの最適解を予測するための分類モデルと回帰モデルを開発し,予測された解を用いてCPソルバの変数を順序付けする。 機械学習モデルのトレーニングは非常に効率的であり,精度が高いことを示す。 実験により,学習した変数順序付け手法は,既存の4つの手法と競合することを示した。 最後に,機械学習に基づく変数順序付け手法を従来のドメインベース手法と併用することが有用であることを示す。

Constraint programming (CP) is an effective technique for solving constraint satisfaction and optimization problems. CP solvers typically use a variable ordering strategy to select which variable to explore first in the solving process, which has a large impact on the efficacy of the solvers. In this paper, we propose a novel variable ordering strategy based on supervised learning to solve job shop scheduling problems. We develop a classification model and a regression model to predict the optimal solution of a problem instance, and use the predicted solution to order variables for CP solvers. We show that training machine learning models is very efficient and can achieve a high accuracy. Our extensive experiments demonstrate that the learned variable ordering methods perform competitively compared to four existing methods. Finally, we show that hybridising the machine learning-based variable ordering methods with traditional domain-based methods is beneficial.
翻訳日:2022-11-29 17:45:06 公開日:2022-11-26
# 腹腔鏡下手術におけるRL-based Guidanceの検討

RL-Based Guidance in Outpatient Hysteroscopy Training: A Feasibility Study ( http://arxiv.org/abs/2211.14541v1 )

ライセンス: Link先を確認
Vladimir Poliakov and Kenan Niu and Emmanuel Vander Poorten and Dzmitry Tsetserukou(参考訳) 本研究は, 外来内視鏡トレーニングのためのRLベースの薬剤である。 子宮鏡は子宮腔検査のための婦人科的手技である。 近年の進歩により,麻酔を伴わない外来での介入が可能となった。 患者にとって有益である一方で、このアプローチは患者の快適さの水準を維持し、組織損傷を予防するための追加措置を講じるべき臨床医に新たな課題をもたらす。 これまでの研究は,頸管通過に焦点をあてたヒステロスコープトレーニングのプラットフォームを提示した。 本研究は,頸管通過の作業を自律的に実行するサブシステムを設計することで,プラットフォームの機能を拡張することを目的としている。 この機能は後に仮想インストラクターとして使用して、研修生に教育的ヒントを提供し、パフォーマンスを評価することができる。 開発したアルゴリズムは、エージェントの学習曲線を滑らかにし、ワークスペースの均一な探索を確実にするためのsoft actor criticアプローチに基づいている。 設計したアルゴリズムは、5人の臨床医のパフォーマンスに対してテストされた。 全体として、アルゴリズムは高い効率と信頼性を示し、98%の試験に成功し、4つの測定基準のうち3つで専門家グループを上回った。

This work presents an RL-based agent for outpatient hysteroscopy training. Hysteroscopy is a gynecological procedure for examination of the uterine cavity. Recent advancements enabled performing this type of intervention in the outpatient setup without anaesthesia. While being beneficial to the patient, this approach introduces new challenges for clinicians, who should take additional measures to maintain the level of patient comfort and prevent tissue damage. Our prior work has presented a platform for hysteroscopic training with the focus on the passage of the cervical canal. With this work, we aim to extend the functionality of the platform by designing a subsystem that autonomously performs the task of the passage of the cervical canal. This feature can later be used as a virtual instructor to provide educational cues for trainees and assess their performance. The developed algorithm is based on the soft actor critic approach to smooth the learning curve of the agent and ensure uniform exploration of the workspace. The designed algorithm was tested against the performance of five clinicians. Overall, the algorithm demonstrated high efficiency and reliability, succeeding in 98% of trials and outperforming the expert group in three out of four measured metrics.
翻訳日:2022-11-29 17:44:53 公開日:2022-11-26
# SKDBERT:確率的知識蒸留によるBERT圧縮

SKDBERT: Compressing BERT via Stochastic Knowledge Distillation ( http://arxiv.org/abs/2211.14466v1 )

ライセンス: Link先を確認
Zixiang Ding, Guoqing Jiang, Shuai Zhang, Lin Guo, Wei Lin(参考訳) 本稿では、SKDBERTと呼ばれるコンパクトなBERTスタイル言語モデルを得るための確率的知識蒸留(SKD)を提案する。 各イテレーションにおいて、SKDは、複数の教師モデルと複数レベルの能力からなる教師アンサンブルから教師モデルをサンプリングし、1対1で生徒モデルに知識を伝達する。 サンプリング分布はSKDにおいて重要な役割を果たす。 我々は,多段階教師モデルに適切な確率を割り当てるための3種類のサンプリング分布をヒューリスティックに提示する。 SKDには2つの利点がある。 1)複数レベルの教師モデルの多様性を各イテレーションで確率的にサンプリングすることで保存し、 2) 教員モデルと生徒モデルとの間に大きなキャパシティギャップが存在する場合, 多段階教員モデルによる知識蒸留の有効性も向上できる。 GLUEベンチマークの実験結果によると、SKDBERT は BERT$_{\rm BASE}$ モデルのサイズを 40% 削減し、言語理解の99.5% のパフォーマンスを維持し、100%高速である。

In this paper, we propose Stochastic Knowledge Distillation (SKD) to obtain compact BERT-style language model dubbed SKDBERT. In each iteration, SKD samples a teacher model from a pre-defined teacher ensemble, which consists of multiple teacher models with multi-level capacities, to transfer knowledge into student model in an one-to-one manner. Sampling distribution plays an important role in SKD. We heuristically present three types of sampling distributions to assign appropriate probabilities for multi-level teacher models. SKD has two advantages: 1) it can preserve the diversities of multi-level teacher models via stochastically sampling single teacher model in each iteration, and 2) it can also improve the efficacy of knowledge distillation via multi-level teacher models when large capacity gap exists between the teacher model and the student model. Experimental results on GLUE benchmark show that SKDBERT reduces the size of a BERT$_{\rm BASE}$ model by 40% while retaining 99.5% performances of language understanding and being 100% faster.
翻訳日:2022-11-29 17:28:30 公開日:2022-11-26
# 反復推論による文書レベルの関係抽出

Towards Better Document-level Relation Extraction via Iterative Inference ( http://arxiv.org/abs/2211.14470v1 )

ライセンス: Link先を確認
Liang Zhang, Jinsong Su, Yidong Chen, Zhongjian Miao, Zijun Min, Qingguo Hu, Xiaodong Shi(参考訳) 文書レベルの関係抽出(RE)は、通常、関係が関係推論によってのみ予測できる多くの困難なエンティティペアを含む入力文書からエンティティ間の関係を抽出することを目的としている。 既存の手法は通常、入力文書の全てのエンティティ対の関係をワンパスで直接予測し、あるエンティティ対の予測が他のエンティティ対の予測結果に大きく依存しているという事実を無視している。 この問題に対処するため,本稿では,反復推論を用いた新しい文書レベルのリモデルを提案する。 私たちのモデルはおもに2つのモジュールで構成されています。 1) 実体対に関する予備的関係予測を提供する予定の基モジュール 2) 予測の難しいエンティティペアを他のペアに依存して反復的に扱うことにより,これらの予備予測を洗練するために導入された推論モジュール。 エンティティペアの特徴情報のみを考える従来の方法とは異なり、我々の推論モジュールは2つの拡張クロスアテンションユニットを備えており、リレーショナル推論中にエンティティペアの特徴情報と以前の予測の両方を活用できる。 さらに、モデルをトレーニングするための2段階の戦略を採用しています。 最初の段階では、ベースモジュールのみをトレーニングします。 第2段階では、推論モジュールのトレーニングを強化するために、コントラスト学習が導入されるモデル全体をトレーニングします。 3つの一般的なデータセットでの実験結果は、我々のモデルは一貫して他の競合ベースラインを上回ることを示している。

Document-level relation extraction (RE) aims to extract the relations between entities from the input document that usually containing many difficultly-predicted entity pairs whose relations can only be predicted through relational inference. Existing methods usually directly predict the relations of all entity pairs of input document in a one-pass manner, ignoring the fact that predictions of some entity pairs heavily depend on the predicted results of other pairs. To deal with this issue, in this paper, we propose a novel document-level RE model with iterative inference. Our model is mainly composed of two modules: 1) a base module expected to provide preliminary relation predictions on entity pairs; 2) an inference module introduced to refine these preliminary predictions by iteratively dealing with difficultly-predicted entity pairs depending on other pairs in an easy-to-hard manner. Unlike previous methods which only consider feature information of entity pairs, our inference module is equipped with two Extended Cross Attention units, allowing it to exploit both feature information and previous predictions of entity pairs during relational inference. Furthermore, we adopt a two-stage strategy to train our model. At the first stage, we only train our base module. During the second stage, we train the whole model, where contrastive learning is introduced to enhance the training of inference module. Experimental results on three commonly-used datasets show that our model consistently outperforms other competitive baselines.
翻訳日:2022-11-29 17:28:10 公開日:2022-11-26
# 弱スーパービジョンと伝達学習を用いたSOAP自動分類システム

An Automatic SOAP Classification System Using Weakly Supervision And Transfer Learning ( http://arxiv.org/abs/2211.14539v1 )

ライセンス: Link先を確認
Sunjae Kwon, Zhichao Yang, Hong Yu(参考訳) 本稿では,手作業によるSOAPアノテーションによるトレーニングデータや,手作業によるSOAPアノテーションによるトレーニングデータを必要としない,機械学習ベースのSOAP分類システムを開発するための包括的なフレームワークを提案する。 この制度は以下の2つの部分から構成される。 1)データ構築 2)ニューラルネットワークベースのsoap分類器、および 3)トランスファー学習フレームワーク。 データ構築において,大規模トレーニングデータセットの手動構成は高価であるため,ehrノートの構造情報を利用したルールベース弱ラベリング手法を提案する。 次に,条件付きランダムフィールド(Bi-LSTM-CRF)を用いた,事前学習言語モデルと双方向長短項メモリからなるSOAP分類器を提案する。 最後に、他の病院から収集したデータセットに対して、弱いラベル付きデータセットで訓練されたSOAP分類器の訓練済みパラメータを再利用する転送学習フレームワークを提案する。 提案した弱いラベルに基づく学習モデルは、対象病院から収集したノートにSOAP分類(89.99 F1スコア)を成功させた。 そうでなければ、他の病院や部門から集められたメモでは、パフォーマンスが劇的に低下した。 一方,トランスファー・ラーニング・フレームワークは,各ケースにおけるモデルの性能向上を図り,病院間適応に有利であることを検証した。 特に手動でアノテートしたデータサイズが小さくなると、転送学習のアプローチはより効率的になった。 私たちは、我々の弱いラベル付けアルゴリズムで訓練されたSOAP分類モデルが、同じ病院のEHRノートに手動で注釈付けされたデータなしでSOAP分類を行うことができることを示した。 移行学習フレームワークは、手動で注釈付けされたデータセットの最小サイズでSOAP分類モデルのホスピタル間移行を支援する。

In this paper, we introduce a comprehensive framework for developing a machine learning-based SOAP (Subjective, Objective, Assessment, and Plan) classification system without manually SOAP annotated training data or with less manually SOAP annotated training data. The system is composed of the following two parts: 1) Data construction, 2) A neural network-based SOAP classifier, and 3) Transfer learning framework. In data construction, since a manual construction of a large size training dataset is expensive, we propose a rule-based weak labeling method utilizing the structured information of an EHR note. Then, we present a SOAP classifier composed of a pre-trained language model and bi-directional long-short term memory with conditional random field (Bi-LSTM-CRF). Finally, we propose a transfer learning framework that re-uses the trained parameters of the SOAP classifier trained with the weakly labeled dataset for datasets collected from another hospital. The proposed weakly label-based learning model successfully performed SOAP classification (89.99 F1-score) on the notes collected from the target hospital. Otherwise, in the notes collected from other hospitals and departments, the performance dramatically decreased. Meanwhile, we verified that the transfer learning framework is advantageous for inter-hospital adaptation of the model increasing the models' performance in every cases. In particular, the transfer learning approach was more efficient when the manually annotated data size was smaller. We showed that SOAP classification models trained with our weakly labeling algorithm can perform SOAP classification without manually annotated data on the EHR notes from the same hospital. The transfer learning framework helps SOAP classification model's inter-hospital migration with a minimal size of the manually annotated dataset.
翻訳日:2022-11-29 17:27:50 公開日:2022-11-26
# 語彙複雑性制御文生成

Lexical Complexity Controlled Sentence Generation ( http://arxiv.org/abs/2211.14540v1 )

ライセンス: Link先を確認
Jinran Nie, Liner Yang, Yun Chen, Cunliang Kong, Junhui Zhu, Erhong Yang(参考訳) テキスト生成は語彙複雑性の制御をほとんど考慮しないため、より包括的な実用的応用が制限される。 本稿では,語彙複雑性制御文生成の新たな課題について紹介する。 学級の読み書き、言語教育、取得などの分野では大きな可能性を秘めている。 このタスクの課題は、与えられた複雑性レベルの単語のみを使用して、フルーエントな文を生成することである。 本稿では,複雑性の埋め込みに基づく,単純かつ効果的な手法を提案する。 潜在的なソリューションと比較して、我々のアプローチは語彙の複雑さをよりよく制御するために、単語の複雑さレベルをモデルに融合します。 また,学習モデルのスクラッチ化と事前学習モデルの微調整を両立させる手法の可能性を示した。 研究を容易にするために,英語と中国語の2つのデータセットを開発し,広範な実験を行った。 提案手法は語彙の複雑さを制御し,ベースライン法よりも高品質な文を生成する。

Text generation rarely considers the control of lexical complexity, which limits its more comprehensive practical application. We introduce a novel task of lexical complexity controlled sentence generation, which aims at keywords to sentence generation with desired complexity levels. It has enormous potential in domains such as grade reading, language teaching and acquisition. The challenge of this task is to generate fluent sentences only using the words of given complexity levels. We propose a simple but effective approach for this task based on complexity embedding. Compared with potential solutions, our approach fuses the representations of the word complexity levels into the model to get better control of lexical complexity. And we demonstrate the feasibility of the approach for both training models from scratch and fine-tuning the pre-trained models. To facilitate the research, we develop two datasets in English and Chinese respectively, on which extensive experiments are conducted. Results show that our approach better controls lexical complexity and generates higher quality sentences than baseline methods.
翻訳日:2022-11-29 17:27:27 公開日:2022-11-26
# 構文的依存距離の分布

The distribution of syntactic dependency distances ( http://arxiv.org/abs/2211.14620v1 )

ライセンス: Link先を確認
Sonia Petrini and Ramon Ferrer-i-Cancho(参考訳) 文の構文構造は、頂点が単語であり、辺がそれらの間の構文的依存関係を示すグラフとして表すことができる。 この設定では、2つの構文的にリンクされた単語間の距離をそれらの位置の差として定義することができる。 ここでは,構文依存距離の実際の分布のキャラクタリゼーションに寄与し,短期記憶量制限との関係を明らかにする。 本稿では,分岐点の後に確率の減衰を許容する新しい二重指数モデルを提案する。 この遷移は、単語チャンクの処理から上位構造への遷移を反映する可能性がある。 第1の体制が指数的あるいは強大な崩壊をたどる2段階のモデルが、文の長さとアノテーションのスタイルとは無関係に、私たちが考慮した20の言語の中で最も重要なモデルであることがわかった。 さらに、ブレークポイントは言語間でかなり安定しており、平均値は4-5語であり、特定の言語から高い程度に同時処理できる単語の量を示している。 最後に,最近導入された最適度スコアで測定した最適な推定モデルと構文依存の密接性との関係について考察する。

The syntactic structure of a sentence can be represented as a graph where vertices are words and edges indicate syntactic dependencies between them. In this setting, the distance between two syntactically linked words can be defined as the difference between their positions. Here we want to contribute to the characterization of the actual distribution of syntactic dependency distances, and unveil its relationship with short-term memory limitations. We propose a new double-exponential model in which decay in probability is allowed to change after a break-point. This transition could mirror the transition from the processing of words chunks to higher-level structures. We find that a two-regime model -- where the first regime follows either an exponential or a power-law decay -- is the most likely one in all 20 languages we considered, independently of sentence length and annotation style. Moreover, the break-point is fairly stable across languages and averages values of 4-5 words, suggesting that the amount of words that can be simultaneously processed abstracts from the specific language to a high degree. Finally, we give an account of the relation between the best estimated model and the closeness of syntactic dependencies, as measured by a recently introduced optimality score.
翻訳日:2022-11-29 17:27:13 公開日:2022-11-26
# 仮面言語モデルの事前学習段階における性別バイアスの変動

Gender Biases Unexpectedly Fluctuate in the Pre-training Stage of Masked Language Models ( http://arxiv.org/abs/2211.14639v1 )

ライセンス: Link先を確認
Kenan Tang, Hanchun Jiang(参考訳) 仮面言語モデルは、事前トレーニング中に性別バイアスを拾う。 このようなバイアスは通常、あるモデルアーキテクチャとその事前学習コーパスに起因しており、ランダムシードの選択や停止点などの事前学習プロセスにおける他のバリエーションが測定されたバイアスに影響を与えないという暗黙の仮定がある。 しかし,個々のテンプレートの基本的なレベルでは大きなゆらぎが存在し,仮定を無効にすることを示した。 さらに、人間が偏見を得る方法の直観に対して、これらの変動は事前学習コーパスにおける予測代名詞の確実性や職業頻度と相関しない。 将来の研究に役立つコードとデータをリリースします。

Masked language models pick up gender biases during pre-training. Such biases are usually attributed to a certain model architecture and its pre-training corpora, with the implicit assumption that other variations in the pre-training process, such as the choices of the random seed or the stopping point, have no effect on the biases measured. However, we show that severe fluctuations exist at the fundamental level of individual templates, invalidating the assumption. Further against the intuition of how humans acquire biases, these fluctuations are not correlated with the certainty of the predicted pronouns or the profession frequencies in pre-training corpora. We release our code and data to benefit future research.
翻訳日:2022-11-29 17:26:55 公開日:2022-11-26
# 高次元分位レグレッションを用いた転送学習

Transfer learning with high-dimensional quantile regression ( http://arxiv.org/abs/2211.14578v1 )

ライセンス: Link先を確認
Jiayu Huang, Mingqiu Wang, Yuanshan Wu(参考訳) 転送学習は、ソースドメインからの情報を活用して、ターゲットタスクの性能を高めるための重要な技術となっている。 高次元データの頻度にもかかわらず、ヘテロジニティやヘヴィテールは、現在の転写学習アプローチで割引される傾向にあり、その結果のパフォーマンスを損なう可能性がある。 本研究では,高次元分位回帰モデルの枠組みにおいて,ソース領域とターゲット領域の重みと不均一性に対応するための伝達学習手順を提案する。 そこで,提案手法では,より繊細に選択されたトランスファー可能なソースドメインに基づいて,トランスファー学習推定器の誤差境界を定め,決定基準を低くし,ソースタスクのサンプルサイズを増加させることが可能であることを示す。 さらに、伝達学習推定器の1ステップの偏差推定器を提唱することにより、量子回帰係数の個々の成分に対する有効信頼区間と仮説テスト手順を提案し、その一貫した分散推定を再度転移学習の手法を用いて提案する。 シミュレーションの結果,提案手法は良好な性能を示した。

Transfer learning has become an essential technique to exploit information from the source domain to boost performance of the target task. Despite the prevalence in high-dimensional data, heterogeneity and/or heavy tails tend to be discounted in current transfer learning approaches and thus may undermine the resulting performance. We propose a transfer learning procedure in the framework of high-dimensional quantile regression models to accommodate the heterogeneity and heavy tails in the source and target domains. We establish error bounds of the transfer learning estimator based on delicately selected transferable source domains, showing that lower error bounds can be achieved for critical selection criterion and larger sample size of source tasks. We further propose valid confidence interval and hypothesis test procedures for individual component of quantile regression coefficients by advocating a one-step debiased estimator of transfer learning estimator wherein the consistent variance estimation is proposed via the technique of transfer learning again. Simulation results demonstrate that the proposed method exhibits some favorable performances.
翻訳日:2022-11-29 17:19:01 公開日:2022-11-26
# スペクトルモデリングが畳み込みネットワークを満たすとき:マルチバンドイメージングデータにおける再イオン化時代のレンズクエーサーの発見法

When Spectral Modeling Meets Convolutional Networks: A Method for Discovering Reionization-era Lensed Quasars in Multi-band Imaging Data ( http://arxiv.org/abs/2211.14543v1 )

ライセンス: Link先を確認
Irham Taufik Andika, Knud Jahnke, Arjen van der Wel, Eduardo Ba\~nados, Sarah E. I. Bosman, Frederick B. Davies, Anna-Christina Eilers, Anton Timur Jaelani, Chiara Mazzucchelli, Masafusa Onoue, and Jan-Torge Schindler(参考訳) 過去20年間に約300個のクエーサーがz\gtrsim6$で発見されているが、強い重力レンズを持つものは1つだけである。 画像に基づく深層学習によって実現された新しい空間幾何学的ベト基準を導入しながら、許容パラメータ空間を拡大する新しいアプローチを提案する。 このアプローチは、暗エネルギーサーベイ、天文半球サーベイ用可視赤外サーベイ望遠鏡、広視野赤外線サーベイエクスプローラーのデータを用いて、再イオン化時代のレンズクエーサーの系統的探索に初めて応用した。 検索方法は2つの主な部分からなる。 一 カタログレベルの光度計及び光度計を用いたスペクトルエネルギー分布(SED)に基づく候補の事前選定 (II)畳み込みニューラルネットワーク(CNN)分類を用いたレンズ又は一部の汚染物質の相対確率計算 トレーニングデータセットは、偏向した点光源を実際の銀河画像上に描画して現実的な銀河-クエーサーレンズモデルを生成し、小さな画像分離システム、すなわち$\theta_\mathrm{e} \leq 1$ arcsecのeinstein radiiを見つけるために最適化された。 その後、CNNスコアが$P_\mathrm{lens} > 0.1$のソースに対して視覚検査を行い、新たに選択された36個のレンズ候補を得ることができた。 これらの結果から,SED自動モデリングと深層学習パイプラインは,主にドロップアウトに基づくSED選択アプローチの拒否的限界を克服できるような,大規模カタログから強力なレンズを検出するための有望な経路であることが示唆された。

Over the last two decades, around three hundred quasars have been discovered at $z\gtrsim6$, yet only one was identified as being strong-gravitationally lensed. We explore a new approach, enlarging the permitted spectral parameter space while introducing a new spatial geometry veto criterion, implemented via image-based deep learning. We made the first application of this approach in a systematic search for reionization-era lensed quasars, using data from the Dark Energy Survey, the Visible and Infrared Survey Telescope for Astronomy Hemisphere Survey, and the Wide-field Infrared Survey Explorer. Our search method consists of two main parts: (i) pre-selection of the candidates based on their spectral energy distributions (SEDs) using catalog-level photometry and (ii) relative probabilities calculation of being a lens or some contaminant utilizing a convolutional neural network (CNN) classification. The training datasets are constructed by painting deflected point-source lights over actual galaxy images to generate realistic galaxy-quasar lens models, optimized to find systems with small image separations, i.e., Einstein radii of $\theta_\mathrm{E} \leq 1$ arcsec. Visual inspection is then performed for sources with CNN scores of $P_\mathrm{lens} > 0.1$, which led us to obtain 36 newly-selected lens candidates, waiting for spectroscopic confirmation. These findings show that automated SED modeling and deep learning pipelines, supported by modest human input, are a promising route for detecting strong lenses from large catalogs that can overcome the veto limitations of primarily dropout-based SED selection approaches.
翻訳日:2022-11-29 17:18:25 公開日:2022-11-26
# 合成多視点AFM画像を用いたタンパク質複合体構造の3次元再構成

3D Reconstruction of Protein Complex Structures Using Synthesized Multi-View AFM Images ( http://arxiv.org/abs/2211.14662v1 )

ライセンス: Link先を確認
Jaydeep Rade, Soumik Sarkar, Anwesha Sarkar, Adarsh Krishnamurthy(参考訳) 近年の深層学習法の発展により,タンパク質配列,Cryo-Electron microscopy (Cryo-EM)画像などの入力を用いて3次元タンパク質構造を予測できる可能性が示された。 しかし、これらの手法は複数のタンパク質を持つタンパク質複合体(PC)の予測に苦慮している。 本研究では, 原子間力顕微鏡(AFM)を用いた深層学習によるPCの3次元構造予測手法を提案する。 AFMが生成した画像は、タンパク質の構造を異なるランダムな向きで捉えている。 これらのマルチビュー画像は、タンパク質複合体の3D構造を予測するニューラルネットワークのトレーニングに役立つ。 しかし、実際のAFM画像のデータセットを取得するのに時間がかかり、実用的な作業ではない。 ボリュームレンダリング技術を用いて,PDBタンパク質ファイルを取り込み,マルチビュー2D仮想AFM画像を生成する仮想AFM画像パイプラインを提案する。 これにより、約8Kタンパク質のデータセットを作成しました。 合成多視点AFM画像データセットを用いて、Pix2Vox++と呼ばれる3次元再構成のためのニューラルネットワークをトレーニングする。 我々は、異なるビューを用いて得られた予測構造を比較し、トレーニングデータセットで0.92、検証データセットで0.52の結合(IoU)値を得る。 このアプローチはタンパク質複合体の構造のより良い予測につながると信じている。

Recent developments in deep learning-based methods demonstrated its potential to predict the 3D protein structures using inputs such as protein sequences, Cryo-Electron microscopy (Cryo-EM) images of proteins, etc. However, these methods struggle to predict the protein complexes (PC), structures with more than one protein. In this work, we explore the atomic force microscope (AFM) assisted deep learning-based methods to predict the 3D structure of PCs. The images produced by AFM capture the protein structure in different and random orientations. These multi-view images can help train the neural network to predict the 3D structure of protein complexes. However, obtaining the dataset of actual AFM images is time-consuming and not a pragmatic task. We propose a virtual AFM imaging pipeline that takes a 'PDB' protein file and generates multi-view 2D virtual AFM images using volume rendering techniques. With this, we created a dataset of around 8K proteins. We train a neural network for 3D reconstruction called Pix2Vox++ using the synthesized multi-view 2D AFM images dataset. We compare the predicted structure obtained using a different number of views and get the intersection over union (IoU) value of 0.92 on the training dataset and 0.52 on the validation dataset. We believe this approach will lead to better prediction of the structure of protein complexes.
翻訳日:2022-11-29 17:09:22 公開日:2022-11-26
# 周波数領域における効率的な演算子学習

Transform Once: Efficient Operator Learning in Frequency Domain ( http://arxiv.org/abs/2211.14453v1 )

ライセンス: Link先を確認
Michael Poli, Stefano Massaroli, Federico Berto, Jinykoo Park, Tri Dao, Christopher R\'e, Stefano Ermon(参考訳) スペクトル解析は情報保存次元減少のための最も効果的なパラダイムの1つであり、自然発生する信号の単純な記述は周期基底関数の数項でしばしば得られる。 本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習する深層ニューラルネットワーク(FDM)について検討する。 既存のFDMは複素数値変換、すなわちフーリエ変換(FT)とスペクトルと入力データを別々に計算する層に基づいている。 この設計は、各層に対してフォワードと逆FTという、かなりの計算オーバーヘッドをもたらす。 代わりに、この研究は単一の変換(transform once (T1))を通して周波数領域を学習するための青写真を導入している。 周波数領域での効率よく直接学習を実現するために、分散保存重み初期化スキームを導出し、低次FDMにおける周波数選択方法を検討する。 その結果,fdmの設計プロセスの合理化,冗長変換の削減,データ解像度とモデルサイズの増加による3倍から10倍の高速化が実現できた。 非圧縮性ナビエストーク, 翼まわりの乱流流, 煙の高分解能映像など, 時空間力学の解演算子の学習に関する広範な実験を行った。 t1モデルでは、fdmのテスト性能が向上し、計算量が大幅に削減され(大規模実験では32時間ではなく5時間)、タスク全体の平均予測エラーが20%以上削減された。

Spectral analysis provides one of the most effective paradigms for information-preserving dimensionality reduction, as simple descriptions of naturally occurring signals are often obtained via few terms of periodic basis functions. In this work, we study deep neural networks designed to harness the structure in frequency domain for efficient learning of long-range correlations in space or time: frequency-domain models (FDMs). Existing FDMs are based on complex-valued transforms i.e. Fourier Transforms (FT), and layers that perform computation on the spectrum and input data separately. This design introduces considerable computational overhead: for each layer, a forward and inverse FT. Instead, this work introduces a blueprint for frequency domain learning through a single transform: transform once (T1). To enable efficient, direct learning in the frequency domain we derive a variance-preserving weight initialization scheme and investigate methods for frequency selection in reduced-order FDMs. Our results noticeably streamline the design process of FDMs, pruning redundant transforms, and leading to speedups of 3x to 10x that increase with data resolution and model size. We perform extensive experiments on learning the solution operator of spatio-temporal dynamics, including incompressible Navier-Stokes, turbulent flows around airfoils and high-resolution video of smoke. T1 models improve on the test performance of FDMs while requiring significantly less computation (5 hours instead of 32 for our large-scale experiment), with over 20% reduction in average predictive error across tasks.
翻訳日:2022-11-29 16:54:07 公開日:2022-11-26
# 類似性に基づく協調

Similarity-based Cooperation ( http://arxiv.org/abs/2211.14468v1 )

ライセンス: Link先を確認
Caspar Oesterheld, Johannes Treutlein, Roger Grosse, Vincent Conitzer, Jakob Foerster(参考訳) 機械学習エージェントが世界でより自律的に振る舞うようになると、互いに対話し合うようになる。 残念なことに、一発の囚人のジレンマのような多くの社会的ジレンマでは、標準的なゲーム理論はMLエージェントが互いに協力することができないと予測している。 以前の研究は、一発の囚人のジレンマにおける協調的な結果を可能にする方法の一つとして、エージェント同士が相互に透過的にアクセスできるようにすること(Rubinstein 1998, Tennenholtz 2004)、あるいはMLエージェントの場合の重みが示されている。 しかし、完全な透明性はしばしば非現実的であるが、部分的な透明性は一般的である。 さらに、エージェントが完全な透明性設定で協力する方法を学ぶことは困難である。 本稿では,エージェントが互いにどのように類似しているかを示す1つの数字のみを観察する,より現実的な設定を提案する。 これにより、完全な透明性設定と同じ協調的な結果が得られることを証明します。 また,簡単なml手法で協調を学習できることを実験的に示す。

As machine learning agents act more autonomously in the world, they will increasingly interact with each other. Unfortunately, in many social dilemmas like the one-shot Prisoner's Dilemma, standard game theory predicts that ML agents will fail to cooperate with each other. Prior work has shown that one way to enable cooperative outcomes in the one-shot Prisoner's Dilemma is to make the agents mutually transparent to each other, i.e., to allow them to access one another's source code (Rubinstein 1998, Tennenholtz 2004) -- or weights in the case of ML agents. However, full transparency is often unrealistic, whereas partial transparency is commonplace. Moreover, it is challenging for agents to learn their way to cooperation in the full transparency setting. In this paper, we introduce a more realistic setting in which agents only observe a single number indicating how similar they are to each other. We prove that this allows for the same set of cooperative outcomes as the full transparency setting. We also demonstrate experimentally that cooperation can be learned using simple ML methods.
翻訳日:2022-11-29 16:53:42 公開日:2022-11-26
# 知識グラフにおける関係バイアスの緩和

Mitigating Relational Bias on Knowledge Graphs ( http://arxiv.org/abs/2211.14489v1 )

ライセンス: Link先を確認
Yu-Neng Chuang, Kwei-Herng Lai, Ruixiang Tang, Mengnan Du, Chia-Yuan Chang, Na Zou and Xia Hu(参考訳) 知識グラフデータは実世界のアプリケーションで広く利用されており、知識グラフ表現学習には知識グラフニューラルネットワーク(KGNN)が不可欠である。 KGNNは知識グラフの構造情報を効果的にモデル化するが、これらのフレームワークは特定のグループや個人に対する差別につながる基礎となるデータバイアスを増幅する。 さらに、既存の偏見のアプローチは、主にエンティティの偏見に焦点を当てているため、知識グラフに広く存在しているマルチホップ関係バイアスを排除することは、未解決の問題である。 しかし、知識グラフのバイアスと非線形近接構造を生成する経路のスパース性のため、関係バイアスを排除することは極めて困難である。 この課題に対処するため,知識グラフにおけるエンティティ・ツー・リレーションの近接情報を保持するKGNNフレームワークであるFair-KGNNを提案する。 提案するフレームワークは、KGNNのあらゆるタイプの関係バイアスを軽減するために一般化可能である。 ジェンダー占有とナショナリティ・サリーバイアスを軽減するために,2つの最先端KGNNモデル(RCCNとCompGCN)を組み込んだFair-KGNNの2例を開発した。 3つのベンチマークナレッジグラフデータセットで行った実験は、fair-kgnnが表現学習中の不公平な状況を効果的に軽減し、kgnnモデルの予測性能を維持していることを示している。

Knowledge graph data are prevalent in real-world applications, and knowledge graph neural networks (KGNNs) are essential techniques for knowledge graph representation learning. Although KGNN effectively models the structural information from knowledge graphs, these frameworks amplify the underlying data bias that leads to discrimination towards certain groups or individuals in resulting applications. Additionally, as existing debiasing approaches mainly focus on the entity-wise bias, eliminating the multi-hop relational bias that pervasively exists in knowledge graphs remains an open question. However, it is very challenging to eliminate relational bias due to the sparsity of the paths that generate the bias and the non-linear proximity structure of knowledge graphs. To tackle the challenges, we propose Fair-KGNN, a KGNN framework that simultaneously alleviates multi-hop bias and preserves the proximity information of entity-to-relation in knowledge graphs. The proposed framework is generalizable to mitigate the relational bias for all types of KGNN. We develop two instances of Fair-KGNN incorporating with two state-of-the-art KGNN models, RGCN and CompGCN, to mitigate gender-occupation and nationality-salary bias. The experiments carried out on three benchmark knowledge graph datasets demonstrate that the Fair-KGNN can effectively mitigate unfair situations during representation learning while preserving the predictive performance of KGNN models.
翻訳日:2022-11-29 16:53:24 公開日:2022-11-26
# グラフニューラルネットワークによるBitcoinアドレスの振舞いの軽減

Demystifying Bitcoin Address Behavior via Graph Neural Networks ( http://arxiv.org/abs/2211.14582v1 )

ライセンス: Link先を確認
Zhengjie Huang, Yunyang Huang, Peng Qian, Jianhai Chen, Qinming He(参考訳) bitcoinは、ピアツーピアブロックチェーンネットワークによる分散暗号通貨の1つだ。 bitcoinネットワークで取引を行う当事者は、個人情報を開示する必要はない。 しかし、そのような匿名性は、潜在的に悪意のある取引をある程度引き起こす。 実際、マネーロンダリング、ダークネットワーク取引、bitcoinネットワークでのギャンブルなど、さまざまな違法行為は、今、新しいものではない。 悪意のあるビットコイン取引を識別する作業が急増しているが、行動分析とbitcoinアドレスの分類は、既存のツールによってほとんど見過ごされている。 本稿では,その振る舞いに基づいて自動的にビットコインアドレスを分類するツールであるBAClassifierを提案する。 技術的には、以下の3つの重要な設計を思いついた。 まず、ビットコインアドレスのトランザクションをアドレスグラフ構造にキャストし、グラフノード圧縮技術とグラフ構造拡張手法を導入し、統一グラフ表現を特徴付ける。 さらに,グラフ特徴ネットワークを利用して各アドレスのグラフ表現を学習し,グラフ埋め込みを生成する。 最後に、アドレスのすべてのグラフ埋め込みをアドレスレベルの表現に集約し、アドレス振舞いの分類を行うための分類モデルに係わる。 副次的な貢献として、200万人以上の現実世界のbitcoinアドレスと4種類のアドレスの振る舞いに関する、大規模な注釈付きデータセットを構築し、リリースします。 実験結果から,提案手法は最先端のbitcoinアドレス分類器と既存の分類モデルより優れており,精度は96%,F1スコアは95%であった。 私たちの実装とデータセットはリリースされ、他の人に刺激を与えたいと思っています。

Bitcoin is one of the decentralized cryptocurrencies powered by a peer-to-peer blockchain network. Parties who trade in the bitcoin network are not required to disclose any personal information. Such property of anonymity, however, precipitates potential malicious transactions to a certain extent. Indeed, various illegal activities such as money laundering, dark network trading, and gambling in the bitcoin network are nothing new now. While a proliferation of work has been developed to identify malicious bitcoin transactions, the behavior analysis and classification of bitcoin addresses are largely overlooked by existing tools. In this paper, we propose BAClassifier, a tool that can automatically classify bitcoin addresses based on their behaviors. Technically, we come up with the following three key designs. First, we consider casting the transactions of the bitcoin address into an address graph structure, of which we introduce a graph node compression technique and a graph structure augmentation method to characterize a unified graph representation. Furthermore, we leverage a graph feature network to learn the graph representations of each address and generate the graph embeddings. Finally, we aggregate all graph embeddings of an address into the address-level representation, and engage in a classification model to give the address behavior classification. As a side contribution, we construct and release a large-scale annotated dataset that consists of over 2 million real-world bitcoin addresses and concerns 4 types of address behaviors. Experimental results demonstrate that our proposed framework outperforms state-of-the-art bitcoin address classifiers and existing classification models, where the precision and F1-score are 96% and 95%, respectively. Our implementation and dataset are released, hoping to inspire others.
翻訳日:2022-11-29 16:52:59 公開日:2022-11-26
# データ中心型AI(DCAI)の原理

The Principles of Data-Centric AI (DCAI) ( http://arxiv.org/abs/2211.14611v1 )

ライセンス: Link先を確認
Mohammad Hossein Jarrahi, Ali Memariani, Shion Guha(参考訳) 人工知能(AI)システムが学習する上で、データは重要な基盤である。 しかしながら、これらのシステムは、主にモデル中心であり、データ品質を犠牲にして、モデルにプレミアムを課している。 データ品質の問題は、特に下流のデプロイメントや現実世界のアプリケーションにおいて、AIシステムのパフォーマンスを低下させる。 新たな概念としてのデータ中心型AI(DCAI)は、反復的かつ体系的なアプローチを通じて、AIシステムを考慮したデータ、その品質、ダイナミズムを最前線にもたらす。 最初の概要の1つとして、本記事ではデータ中心の視点と概念をまとめて、DCAIの基礎を概説する。 具体的には、研究者と実践者のための6つの指針原則を定式化し、DCAIの今後の進歩の方向性を示す。

Data is a crucial infrastructure to how artificial intelligence (AI) systems learn. However, these systems to date have been largely model-centric, putting a premium on the model at the expense of the data quality. Data quality issues beset the performance of AI systems, particularly in downstream deployments and in real-world applications. Data-centric AI (DCAI) as an emerging concept brings data, its quality and its dynamism to the forefront in considerations of AI systems through an iterative and systematic approach. As one of the first overviews, this article brings together data-centric perspectives and concepts to outline the foundations of DCAI. It specifically formulates six guiding principles for researchers and practitioners and gives direction for future advancement of DCAI.
翻訳日:2022-11-29 16:52:35 公開日:2022-11-26
# ロボット支援給餌におけるビジュオ・ハプティック・スキューイングの学習

Learning Visuo-Haptic Skewering Strategies for Robot-Assisted Feeding ( http://arxiv.org/abs/2211.14648v1 )

ライセンス: Link先を確認
Priya Sundaresan, Suneel Belkhale, Dorsa Sadigh(参考訳) フォークで食品を入手することは、食品群全体に存在する幅広い材料特性と視覚的外観のため、ロボットによる給餌システムにとって大きな課題となる。 変形可能な食品は、固い食品と異なる焼成戦略を必要とするが、これまで見られなかったいくつかの食材についてそのような特性を推測することは、未だに容易ではない。 我々の重要な洞察は、アイテムと相互作用する際の視覚的および触覚的な観察を活用して、スキューワー運動を迅速かつ反応性に計画することである。 本研究は,食品の汎用的マルチモーダル表現を,最適なスキューリング戦略を知らせる生の感覚入力から学習する。 この表現を前提として,これまで見つからなかった項目の視覚触覚特性を知覚し,それに対して反応的に歪むゼロショットフレームワークを提案する。 視覚とテクスチャの多様性の異なる食品を用いた実ロボット実験は、我々のマルチモーダルポリシーが視覚と触覚の両方を活用せず、反応的に計画もしないベースラインを上回っていることを示している。 6枚の異なる食材を網羅し,69回以上の刺し込み試験で71 %の成功を収めた。 追加の資料、データセット、コード、ビデオは、$\href{https://sites.google.com/view/hapticvisualnet-corl22/home}{website}$で見ることができる。

Acquiring food items with a fork poses an immense challenge to a robot-assisted feeding system, due to the wide range of material properties and visual appearances present across food groups. Deformable foods necessitate different skewering strategies than firm ones, but inferring such characteristics for several previously unseen items on a plate remains nontrivial. Our key insight is to leverage visual and haptic observations during interaction with an item to rapidly and reactively plan skewering motions. We learn a generalizable, multimodal representation for a food item from raw sensory inputs which informs the optimal skewering strategy. Given this representation, we propose a zero-shot framework to sense visuo-haptic properties of a previously unseen item and reactively skewer it, all within a single interaction. Real-robot experiments with foods of varying levels of visual and textural diversity demonstrate that our multimodal policy outperforms baselines which do not exploit both visual and haptic cues or do not reactively plan. Across 6 plates of different food items, our proposed framework achieves 71\% success over 69 skewering attempts total. Supplementary material, datasets, code, and videos can be found on our $\href{https://sites.google.com/view/hapticvisualnet-corl22/home}{website}$.
翻訳日:2022-11-29 16:52:24 公開日:2022-11-26
# 食品購入のための二元的スクープ政策の学習

Learning Bimanual Scooping Policies for Food Acquisition ( http://arxiv.org/abs/2211.14652v1 )

ライセンス: Link先を確認
Jennifer Grannen, Yilin Wu, Suneel Belkhale, Dorsa Sadigh(参考訳) ロボット給餌システムは、さまざまな食品を入手できなければならない。 前回の噛み取り作業では、複雑なジオメトリーと変形性を持つ食品に一般化しない単一アームのスプーンスクーピングやフォークスキューイングが検討されている。 例えば、エンドウ豆の群れを取得すると、スケワーリングは、バリアなしでスクーピングしながらエンドウ豆をスムースにし、皿の上でエンドウ豆を追いかける。 このような多様な特性を持つ食品を得るために, 平らな面でスプーンに押し付けて分散を防止するなど, 第2のアームを用いたスクープ時の食品の安定化を提案する。 安定化アームの追加は、新たな課題につながる可能性がある。 この腕は、入手動作に干渉することなく、食品シーンを安定させる必要があり、特に豆腐のような危険度の高い食品を壊すことは困難である。 これらの高リスク食品は、スクーピング中に押し機とスプーンの間に破れ、スプーンから食品廃棄物が落ちてしまう。 本稿では,多種多様な食品ジオメトリと物理特性の獲得を成功させる汎用的な2次元スクーピングプリミティブと適応安定化戦略を提案する。 当社のアプローチであるCARBS:Coordinated Acquisition with Reactive Bimanual Scoopingは、リスクの高い食品を識別し、クローズドループ視覚フィードバックを用いて頑健にスクープすることで、タスク進捗を妨げることなく安定化を学習する。 また,CARBSは食品の形状,大きさ,変形性を一般化し,同時に複数の食品を操作できることがわかった。 CARBSは硬質食品のスクーピングで87.0%成功し、これはシングルアームベースラインよりも25.8%成功し、分析ベースラインと比較して食品の破損を16.2%減少させる。 ビデオはhttps://sites.google.com/view/bimanualscoop-corl22/homeで見ることができる。

A robotic feeding system must be able to acquire a variety of foods. Prior bite acquisition works consider single-arm spoon scooping or fork skewering, which do not generalize to foods with complex geometries and deformabilities. For example, when acquiring a group of peas, skewering could smoosh the peas while scooping without a barrier could result in chasing the peas on the plate. In order to acquire foods with such diverse properties, we propose stabilizing food items during scooping using a second arm, for example, by pushing peas against the spoon with a flat surface to prevent dispersion. The added stabilizing arm can lead to new challenges. Critically, this arm should stabilize the food scene without interfering with the acquisition motion, which is especially difficult for easily breakable high-risk food items like tofu. These high-risk foods can break between the pusher and spoon during scooping, which can lead to food waste falling out of the spoon. We propose a general bimanual scooping primitive and an adaptive stabilization strategy that enables successful acquisition of a diverse set of food geometries and physical properties. Our approach, CARBS: Coordinated Acquisition with Reactive Bimanual Scooping, learns to stabilize without impeding task progress by identifying high-risk foods and robustly scooping them using closed-loop visual feedback. We find that CARBS is able to generalize across food shape, size, and deformability and is additionally able to manipulate multiple food items simultaneously. CARBS achieves 87.0% success on scooping rigid foods, which is 25.8% more successful than a single-arm baseline, and reduces food breakage by 16.2% compared to an analytical baseline. Videos can be found at https://sites.google.com/view/bimanualscoop-corl22/home .
翻訳日:2022-11-29 16:52:00 公開日:2022-11-26
# コンビネータ型機械学習のためのゲーム理論的混合エキスパート

Game Theoretic Mixed Experts for Combinational Adversarial Machine Learning ( http://arxiv.org/abs/2211.14669v1 )

ライセンス: Link先を確認
Ethan Rathbun, Kaleel Mahmood, Sohaib Ahmad, Caiwen Ding, Marten van Dijk(参考訳) 敵の機械学習の最近の進歩は、堅牢であると考えられる防御は、その弱点を狙うように特別に調整された敵の攻撃の影響を受けやすいことを示している。 これらの防衛には、BaRT(Barrage of Random Transforms)、FAT(Friendly Adversarial Training)、Trash is Treasure(TiT)、ViT(Vision Transformers)、Big Transfer(Big Transfer)モデル、SNN(Spike Neural Networks)で構成されるアンサンブルモデルが含まれる。 そのような攻撃を阻止するために、どうやって敵の防御の組み合わせを最大限に活用できるのか? 本稿では,この疑問に答える敵攻撃と防衛をアンサンブルするためのゲーム理論フレームワークを提案する。 我々のフレームワークに加えて、我々は、多様な防衛アーキテクチャを利用する組み合わせ防衛の必要性をさらに高めるために、最初の敵対的防衛伝達可能性研究を作成しました。 我々のフレームワークはゲーム理論混合エキスパート (GaME) と呼ばれ、構成的敵攻撃による攻撃に直面するとき、ディフェンダーの混合ナッシュ戦略を見つけるように設計されている。 この枠組みは, 統一確率分布と組み合わせた防御に加えて, 複数の最先端の単一モデル防御よりも頑健な防御の集合を生成する。 全体として、我々のフレームワークと分析は、構成的攻撃と防御の定式化に新たな洞察を与えることで、敵対的機械学習の分野を前進させます。

Recent advances in adversarial machine learning have shown that defenses considered to be robust are actually susceptible to adversarial attacks which are specifically tailored to target their weaknesses. These defenses include Barrage of Random Transforms (BaRT), Friendly Adversarial Training (FAT), Trash is Treasure (TiT) and ensemble models made up of Vision Transformers (ViTs), Big Transfer models and Spiking Neural Networks (SNNs). A natural question arises: how can one best leverage a combination of adversarial defenses to thwart such attacks? In this paper, we provide a game-theoretic framework for ensemble adversarial attacks and defenses which answers this question. In addition to our framework we produce the first adversarial defense transferability study to further motivate a need for combinational defenses utilizing a diverse set of defense architectures. Our framework is called Game theoretic Mixed Experts (GaME) and is designed to find the Mixed-Nash strategy for a defender when facing an attacker employing compositional adversarial attacks. We show that this framework creates an ensemble of defenses with greater robustness than multiple state-of-the-art, single-model defenses in addition to combinational defenses with uniform probability distributions. Overall, our framework and analyses advance the field of adversarial machine learning by yielding new insights into compositional attack and defense formulations.
翻訳日:2022-11-29 16:51:26 公開日:2022-11-26
# 文脈表現型テキスト対音声

Contextual Expressive Text-to-Speech ( http://arxiv.org/abs/2211.14548v1 )

ライセンス: Link先を確認
Jianhong Tu, Zeyu Cui, Xiaohuan Zhou, Siqi Zheng, Kai Hu, Ju Fan, Chang Zhou(参考訳) 表現的テキスト音声(TTS)の目標は、所望の内容、韻律、感情、音色を高い表現性で合成することである。 過去の研究の多くは、スタイルと感情のラベルから音声を生成しようとしており、それは、スタイルと感情を一定の数の事前定義されたカテゴリに分類することで問題を単純化している。 本稿では,新しいタスク設定であるContextual TTS(CTTS)を紹介する。 CTTSの主な考え方は、人がどのように話すかは、通常、コンテキストをテキストとして表現できる特定のコンテキストに依存する、というものである。 そこで,CTTSタスクでは,スタイルや感情の明示的なラベルに頼るのではなく,このようなコンテキストを用いて音声合成プロセスのガイドを行うことを提案する。 この課題を達成するために,我々は合成データセットを構築し,効果的なフレームワークを開発する。 実験の結果,合成データセットと実世界シナリオの両方において,与えられた文脈に基づいて高品質な表現型音声を生成することができた。

The goal of expressive Text-to-speech (TTS) is to synthesize natural speech with desired content, prosody, emotion, or timbre, in high expressiveness. Most of previous studies attempt to generate speech from given labels of styles and emotions, which over-simplifies the problem by classifying styles and emotions into a fixed number of pre-defined categories. In this paper, we introduce a new task setting, Contextual TTS (CTTS). The main idea of CTTS is that how a person speaks depends on the particular context she is in, where the context can typically be represented as text. Thus, in the CTTS task, we propose to utilize such context to guide the speech synthesis process instead of relying on explicit labels of styles and emotions. To achieve this task, we construct a synthetic dataset and develop an effective framework. Experiments show that our framework can generate high-quality expressive speech based on the given context both in synthetic datasets and real-world scenarios.
翻訳日:2022-11-29 16:43:55 公開日:2022-11-26
# patchgt: グラフ表現学習のための非学習型クラスタ上のトランスフォーマー

PatchGT: Transformer over Non-trainable Clusters for Learning Graph Representations ( http://arxiv.org/abs/2211.14425v1 )

ライセンス: Link先を確認
Han Gao, Xu Han, Jiaoyang Huang, Jian-Xun Wang, Li-Ping Liu(参考訳) 近年、トランスフォーマー構造はグラフ学習タスクにおいて優れた性能を示している。 しかし、これらのTransformerモデルはグラフノード上で直接動作するため、高いレベルの情報を学ぶのが困難である。 画像パッチに適用可能な視覚トランスフォーマーに着想を得て,新しいトランスフォーマーベースのグラフニューラルネットワークであるpatch graph transformer (patchgt)を提案する。 グラフ表現を学習する従来のトランスフォーマーベースモデルとは異なり、PatchGTはノードから直接ではなく、トレーニング不可能なグラフパッチから学習する。 計算を省き、モデルのパフォーマンスを向上させるのに役立つ。 重要なアイデアは、トレーニング可能なパラメータを使わずに、グラフをスペクトルクラスタリングに基づいてパッチに分割することであり、モデルが最初にgnnレイヤを使用してパッチレベルの表現を学習し、次にtransformerを使用してグラフレベルの表現を得る。 このアーキテクチャはグラフのスペクトル情報を活用し、GNNとTransformerの強度を組み合わせる。 さらに,従来の階層的トレーニング可能なクラスタの制限を理論的および経験的に示す。 また,提案手法が置換不変であり,グラフの情報ボトルネックに対処するのに役立つことを証明した。 PatchGTは1-WL型GNNよりも高い表現性を実現しており、PatchGTはベンチマークデータセット上での競合性能を達成し、その予測に解釈可能性を提供する。 私たちのアルゴリズムの実装は、Githubリポジトリで公開されています。

Recently the Transformer structure has shown good performances in graph learning tasks. However, these Transformer models directly work on graph nodes and may have difficulties learning high-level information. Inspired by the vision transformer, which applies to image patches, we propose a new Transformer-based graph neural network: Patch Graph Transformer (PatchGT). Unlike previous transformer-based models for learning graph representations, PatchGT learns from non-trainable graph patches, not from nodes directly. It can help save computation and improve the model performance. The key idea is to segment a graph into patches based on spectral clustering without any trainable parameters, with which the model can first use GNN layers to learn patch-level representations and then use Transformer to obtain graph-level representations. The architecture leverages the spectral information of graphs and combines the strengths of GNNs and Transformers. Further, we show the limitations of previous hierarchical trainable clusters theoretically and empirically. We also prove the proposed non-trainable spectral clustering method is permutation invariant and can help address the information bottlenecks in the graph. PatchGT achieves higher expressiveness than 1-WL-type GNNs, and the empirical study shows that PatchGT achieves competitive performances on benchmark datasets and provides interpretability to its predictions. The implementation of our algorithm is released at our Github repo: https://github.com/tufts-ml/PatchGT.
翻訳日:2022-11-29 16:41:57 公開日:2022-11-26
# 訓練データにおける顔面分布が顔認識バイアスに及ぼす影響:より近視的

The Impact of Racial Distribution in Training Data on Face Recognition Bias: A Closer Look ( http://arxiv.org/abs/2211.14498v1 )

ライセンス: Link先を確認
Manideep Kolla, Aravinth Savadamuthu(参考訳) 顔認識アルゴリズムは、現実世界で使われる場合、非常に有用であるが、特定の人口層に偏った場合にも危険である。 したがって、これらのアルゴリズムがどのように訓練され、より良いアルゴリズムを構築するための正確さと公平性に影響する要因を理解することが不可欠である。 本研究では,学習データにおける人種分布が顔認識モデルの性能に与える影響について光を当てた。 トレーニングデータにおける顔の人種分布の異なる16種類の実験を行った。 精度メトリクス、クラスタリングメトリクス、UMAPプロジェクション、顔の品質、決定しきい値を用いて、これらのトレーニングされたモデルを解析する。 トレーニングデータセットだけでのレースの均一な分布は、バイアスのない顔認識アルゴリズムを保証せず、顔画像の品質などの要因が重要な役割を果たすことを示す。 また、クラスタリングメトリクスとバイアスの相関について検討し、クラスタリングがバイアスのよい指標であるかどうかを理解する。 最後に、顔の特徴における人種間相関と人種内相関について検討し、それらが顔認識モデルの学習能力に与える影響について考察する。 本研究では,顔認識トレーニングの重要な要素であるデータに対する理解を深めようとしている。 トレーニングデータが顔認識アルゴリズムのバイアスに与える影響をよりよく理解することで、より優れたデータセットの作成と、さらに優れた顔認識システムの開発に役立ちます。

Face recognition algorithms, when used in the real world, can be very useful, but they can also be dangerous when biased toward certain demographics. So, it is essential to understand how these algorithms are trained and what factors affect their accuracy and fairness to build better ones. In this study, we shed some light on the effect of racial distribution in the training data on the performance of face recognition models. We conduct 16 different experiments with varying racial distributions of faces in the training data. We analyze these trained models using accuracy metrics, clustering metrics, UMAP projections, face quality, and decision thresholds. We show that a uniform distribution of races in the training datasets alone does not guarantee bias-free face recognition algorithms and how factors like face image quality play a crucial role. We also study the correlation between the clustering metrics and bias to understand whether clustering is a good indicator of bias. Finally, we introduce a metric called racial gradation to study the inter and intra race correlation in facial features and how they affect the learning ability of the face recognition models. With this study, we try to bring more understanding to an essential element of face recognition training, the data. A better understanding of the impact of training data on the bias of face recognition algorithms will aid in creating better datasets and, in turn, better face recognition systems.
翻訳日:2022-11-29 16:27:12 公開日:2022-11-26
# 有限ラベルスケッチ・ツー・フォト検索のためのインスタンスレベルの不均一ドメイン適応

Instance-level Heterogeneous Domain Adaptation for Limited-labeled Sketch-to-Photo Retrieval ( http://arxiv.org/abs/2211.14515v1 )

ライセンス: Link先を確認
Fan Yang, Yang Wu, Zheng Wang, Xiang Li, Sakriani Sakti, Satoshi Nakamura(参考訳) スケッチから写真への検索は幅広い用途があるが、ペアとリッチラベルの真実を得るにはコストがかかる。 写真検索データの取得も容易である。 そのため、先行研究はリッチラベル付き写真検索データ(ソースドメイン)でモデルを事前訓練し、限定ラベル付きスケッチ・ツー・フォト検索データ(ターゲットドメイン)で微調整する。 しかし、ソースとターゲットデータの共同トレーニングがなければ、ソースドメインの知識は微調整のプロセス中に忘れられ、同時にトレーニングすることでドメイン間のギャップによって負の転送を引き起こす可能性がある。 さらに、ソースデータとターゲットデータのIDラベル空間は概して不一致であり、従来のカテゴリレベルドメイン適応(DA)は直接適用されない。 これらの問題に対処するために、インスタンスレベルの不均一ドメイン適応(IHDA)フレームワークを提案する。 インスタンスレベルの知識をインダクティブな転送方法で転送することを目的として,アイデンティティラベル学習に微調整戦略を適用する。 一方、ソースデータからラベル付き属性を選択して、ソースおよびターゲットドメインの共有ラベル空間を形成する。 共有属性によって導かれるdaは、トランスダクティブな転送方法でインスタンスレベルの知識を転送するクロスデータセットドメインギャップとヘテロジニアスドメインギャップを橋渡しするために利用される。 実験により,本手法は3つのスケッチ・ツー・フォト画像検索ベンチマークにおいて,追加のアノテーションを使わずに新たな技術を確立したことを示す。 関連するコードは \url{https://github.com/fandulu/ihda で入手できる。

Although sketch-to-photo retrieval has a wide range of applications, it is costly to obtain paired and rich-labeled ground truth. Differently, photo retrieval data is easier to acquire. Therefore, previous works pre-train their models on rich-labeled photo retrieval data (i.e., source domain) and then fine-tune them on the limited-labeled sketch-to-photo retrieval data (i.e., target domain). However, without co-training source and target data, source domain knowledge might be forgotten during the fine-tuning process, while simply co-training them may cause negative transfer due to domain gaps. Moreover, identity label spaces of source data and target data are generally disjoint and therefore conventional category-level Domain Adaptation (DA) is not directly applicable. To address these issues, we propose an Instance-level Heterogeneous Domain Adaptation (IHDA) framework. We apply the fine-tuning strategy for identity label learning, aiming to transfer the instance-level knowledge in an inductive transfer manner. Meanwhile, labeled attributes from the source data are selected to form a shared label space for source and target domains. Guided by shared attributes, DA is utilized to bridge cross-dataset domain gaps and heterogeneous domain gaps, which transfers instance-level knowledge in a transductive transfer manner. Experiments show that our method has set a new state of the art on three sketch-to-photo image retrieval benchmarks without extra annotations, which opens the door to train more effective models on limited-labeled heterogeneous image retrieval tasks. Related codes are available at \url{https://github.com/fandulu/IHDA.
翻訳日:2022-11-29 16:26:51 公開日:2022-11-26
# Deep Curvilinear Editing:Pretrained Deep Generative Modelのための圧縮および非線形画像操作

Deep Curvilinear Editing: Commutative and Nonlinear Image Manipulation for Pretrained Deep Generative Model ( http://arxiv.org/abs/2211.14573v1 )

ライセンス: Link先を確認
Takehiro Aoshima, Takashi Matsubara(参考訳) 画像のセマンティック編集はコンピュータビジョンの基本的な目標である。 generative adversarial network(gans)のようなディープラーニング手法は高品質な画像を生成することができるが、生成した画像をセマンティックに編集する固有の方法を持たないことが多い。 近年の研究では、生成する画像を決定するために潜在変数を操作する方法が研究されている。 しかし、線形意味算術を仮定する手法は画像編集の品質に関して一定の制限があるが、非線形意味論経路を探索する手法は非可換な編集を提供するが、異なる順序で適用すると矛盾する。 本研究では,DeCurvEd(Deep curvilinear editing)と呼ばれる新しい手法を提案し,潜在空間上の意味交換ベクトル場を決定する。 理論的には、可換性のため、複数の属性の編集は量にのみ依存し、順序には依存しない。 さらに,従来の手法と比較して,DeCurvEdの非線形および可換性は画像属性の歪みを緩和し,高品質な編集を可能にすることを示した。

Semantic editing of images is the fundamental goal of computer vision. Although deep learning methods, such as generative adversarial networks (GANs), are capable of producing high-quality images, they often do not have an inherent way of editing generated images semantically. Recent studies have investigated a way of manipulating the latent variable to determine the images to be generated. However, methods that assume linear semantic arithmetic have certain limitations in terms of the quality of image editing, whereas methods that discover nonlinear semantic pathways provide non-commutative editing, which is inconsistent when applied in different orders. This study proposes a novel method called deep curvilinear editing (DeCurvEd) to determine semantic commuting vector fields on the latent space. We theoretically demonstrate that owing to commutativity, the editing of multiple attributes depends only on the quantities and not on the order. Furthermore, we experimentally demonstrate that compared to previous methods, the nonlinear and commutative nature of DeCurvEd facilitates the disentanglement of image attributes and provides higher-quality editing.
翻訳日:2022-11-29 16:26:21 公開日:2022-11-26
# 特徴選択のためのスパーストレーニングにおける報酬の注意

Where to Pay Attention in Sparse Training for Feature Selection? ( http://arxiv.org/abs/2211.14627v1 )

ライセンス: Link先を確認
Ghada Sokar, Zahra Atashgahi, Mykola Pechenizkiy, Decebal Constantin Mocanu(参考訳) ニューラルネットワークに基づく機能選択に関する新たな研究が最近登場している。 古典的手法よりも優れているにもかかわらず、情報的特徴を収束し検出するために多くの訓練の繰り返しが必要となる。 大量のサンプルや非常に高次元の特徴空間を持つデータセットの場合、計算時間は明らかに長くなる。 本稿では,スパースオートエンコーダに基づく特徴選択のための効率的非教師なし手法を提案する。 特に,学習中にモデルのスパーストポロジを最適化し,情報的特徴に素早く注意を向ける新しいスパーストレーニングアルゴリズムを提案する。 注意に基づくスパーストポロジーの適応により、数回のトレーニングを繰り返した後、情報的特徴を素早く検出できる。 画像, 音声, テキスト, 人工, 生物など, 10種類のデータセットに対して広範囲に実験を行った。 それらは、低次元や高次元の特徴空間や、少数のトレーニングサンプルなど、幅広い特性をカバーしている。 提案手法は, 学習イテレーションと計算コストを大幅に削減しつつ, 情報的特徴の選択という観点で, 最先端手法よりも優れている。 さらに, 実験により, 非常に騒音の多い環境での手法の堅牢性を示した。

A new line of research for feature selection based on neural networks has recently emerged. Despite its superiority to classical methods, it requires many training iterations to converge and detect informative features. The computational time becomes prohibitively long for datasets with a large number of samples or a very high dimensional feature space. In this paper, we present a new efficient unsupervised method for feature selection based on sparse autoencoders. In particular, we propose a new sparse training algorithm that optimizes a model's sparse topology during training to pay attention to informative features quickly. The attention-based adaptation of the sparse topology enables fast detection of informative features after a few training iterations. We performed extensive experiments on 10 datasets of different types, including image, speech, text, artificial, and biological. They cover a wide range of characteristics, such as low and high-dimensional feature spaces, and few and large training samples. Our proposed approach outperforms the state-of-the-art methods in terms of selecting informative features while reducing training iterations and computational costs substantially. Moreover, the experiments show the robustness of our method in extremely noisy environments.
翻訳日:2022-11-29 16:26:00 公開日:2022-11-26
# コントラスト学習に基づく教師なしワイルドファイア変化検出

Unsupervised Wildfire Change Detection based on Contrastive Learning ( http://arxiv.org/abs/2211.14654v1 )

ライセンス: Link先を確認
Beichen Zhang, Huiqi Wang, Amani Alabri, Karol Bot, Cole McCall, Dale Hamilton, V\'it R\r{u}\v{z}i\v{c}ka(参考訳) 森林火災の重大さの正確な特徴付けは,火災発生地域における燃料状況の把握に大きく寄与し,災害対応に有用な情報を提供する。 本研究の目的は、高解像度マルチスペクトル衛星画像上に構築された自律システムを開発することである。 本研究は,ワイルドファイアシナリオにおける特徴抽出のための教師なしモデルを用いた初期探索を提案する。 画像の増大の間の余剰距離を最小限に抑えるために訓練された,対照的な学習手法であるSimCLRに基づいている。 符号化画像間の距離は、変更検出にも使用できる。 本稿では,非教師なしの燃え尽き領域検出や下流タスクの追従に使用する方法の変更を提案する。 提案手法は, 試験されたベースライン手法よりも優れた性能を示す。

The accurate characterization of the severity of the wildfire event strongly contributes to the characterization of the fuel conditions in fire-prone areas, and provides valuable information for disaster response. The aim of this study is to develop an autonomous system built on top of high-resolution multispectral satellite imagery, with an advanced deep learning method for detecting burned area change. This work proposes an initial exploration of using an unsupervised model for feature extraction in wildfire scenarios. It is based on the contrastive learning technique SimCLR, which is trained to minimize the cosine distance between augmentations of images. The distance between encoded images can also be used for change detection. We propose changes to this method that allows it to be used for unsupervised burned area detection and following downstream tasks. We show that our proposed method outperforms the tested baseline approaches.
翻訳日:2022-11-29 16:25:43 公開日:2022-11-26
# 不均衡なFew-Shot学習課題に対する最大ログライクレーション法

A Maximum Log-Likelihood Method for Imbalanced Few-Shot Learning Tasks ( http://arxiv.org/abs/2211.14668v1 )

ライセンス: Link先を確認
Samuel Hess and Gregory Ditzler(参考訳) Few-shot Learningは、ラベルなしデータを1つまたは"数"のラベル付きサンプルで分類することを目的として、機械学習における急速に発展している研究分野である。 ニューラルネットワークは通常、ラベル付きサンプルとクエリセットの間の距離メトリックを最小化するために訓練される。 初期の少数ショットアプローチでは、エピソディックトレーニングプロセスを使用して、トレーニングデータを少数ショットバッチにサブサンプルする。 このトレーニングプロセスは、評価に関するサブサンプリングと一致します。 近年,コサイン距離と組み合わされた従来の教師付きトレーニングは,数発で優れた性能を達成している。 過去10年間のアプローチの多様性にもかかわらず、ほとんどの手法は訓練されたネットワークの潜在的特徴の間のコサイン層やユークリッド距離層に依存している。 本研究では,訓練された少数ショット特徴量の分布について検討し,指数分布として近似できることを示す。 この指数分布の仮定の下で、数ショットアーキテクチャのための新しい最大ログ様計量を提案する。 提案手法は従来の類似度指標(cosine, euclideanなど)において優れた性能向上を達成し,最先端のインダクティブな少数ショット性能を実現する。 さらに、複数のメトリクスを慎重に組み合わせることで、さらなるゲインを達成することができ、どちらの手法も多くのアルゴリズムに共通するポストプロセッシング機能変換を必要としない。 最後に,評価データが不均衡な場合に,最先端のトランスダクティブな少数ショット性能を実現するための,我々の最大ログライクなアプローチに基づいて設計された新しい反復アルゴリズムを示す。 私たちはコードをhttps://github.com/samuelhess/MLL_FSL/で公開しました。

Few-shot learning is a rapidly evolving area of research in machine learning where the goal is to classify unlabeled data with only one or "a few" labeled exemplary samples. Neural networks are typically trained to minimize a distance metric between labeled exemplary samples and a query set. Early few-shot approaches use an episodic training process to sub-sample the training data into few-shot batches. This training process matches the sub-sampling done on evaluation. Recently, conventional supervised training coupled with a cosine distance has achieved superior performance for few-shot. Despite the diversity of few-shot approaches over the past decade, most methods still rely on the cosine or Euclidean distance layer between the latent features of the trained network. In this work, we investigate the distributions of trained few-shot features and demonstrate that they can be roughly approximated as exponential distributions. Under this assumption of an exponential distribution, we propose a new maximum log-likelihood metric for few-shot architectures. We demonstrate that the proposed metric achieves superior performance accuracy w.r.t. conventional similarity metrics (e.g., cosine, Euclidean, etc.), and achieve state-of-the-art inductive few-shot performance. Further, additional gains can be achieved by carefully combining multiple metrics and neither of our methods require post-processing feature transformations, which are common to many algorithms. Finally, we demonstrate a novel iterative algorithm designed around our maximum log-likelihood approach that achieves state-of-the-art transductive few-shot performance when the evaluation data is imbalanced. We have made our code publicly available at https://github.com/samuelhess/MLL_FSL/.
翻訳日:2022-11-29 16:25:30 公開日:2022-11-26
# ノード分類のための分布自由予測セット

Distribution Free Prediction Sets for Node Classification ( http://arxiv.org/abs/2211.14555v1 )

ライセンス: Link先を確認
Jase Clarkson(参考訳) グラフニューラルネットワーク(gnns)は多くの大規模な実世界のデータセットで高い分類精度を達成できるが、予測の不確実性という厳密な概念は提供しない。 共形予測の最近の進歩を利用して、帰納学習シナリオにおけるノード分類のための予測セットを構築し、一般的なGNNモデルを用いて標準ベンチマークデータセットにおけるアプローチの有効性を検証する。 コードは \href{https://github.com/jase-clarkson/graph_cp}{this link} で入手できる。

Graph Neural Networks (GNNs) are able to achieve high classification accuracy on many large real world datasets, but provide no rigorous notion of predictive uncertainty. We leverage recent advances in conformal prediction to construct prediction sets for node classification in inductive learning scenarios, and verify the efficacy of our approach across standard benchmark datasets using popular GNN models. The code is available at \href{https://github.com/jase-clarkson/graph_cp}{this link}.
翻訳日:2022-11-29 16:17:31 公開日:2022-11-26
# 乱れとスパーシティの相乗効果--マルチタスク学習の視点から

Synergies Between Disentanglement and Sparsity: a Multi-Task Learning Perspective ( http://arxiv.org/abs/2211.14666v1 )

ライセンス: Link先を確認
S\'ebastien Lachapelle, Tristan Deleu, Divyat Mahajan, Ioannis Mitliagkas, Yoshua Bengio, Simon Lacoste-Julien, Quentin Bertrand(参考訳) 不連続表現はしばしば下流タスクに有益とされるが、現在の経験的および理論的理解は限られている。 本研究では,不整合表現と疎基底予測器を組み合わせることで一般化が向上することを示す。 マルチタスク学習の文脈において,最大スパース基底予測器が不整合表現をもたらす条件を提供する新たな識別可能性結果が証明される。 この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。 最後に、このアルゴリズムのメタラーニング版をグループlasso multiclass svmベース予測器に基づいて検討し、扱いやすい双対定式化を導出する。 各タスクは学習した表現のほんの一部しか使用していないが、標準の少数ショット分類ベンチマークで競合結果を得る。

Although disentangled representations are often said to be beneficial for downstream tasks, current empirical and theoretical understanding is limited. In this work, we provide evidence that disentangled representations coupled with sparse base-predictors improve generalization. In the context of multi-task learning, we prove a new identifiability result that provides conditions under which maximally sparse base-predictors yield disentangled representations. Motivated by this theoretical result, we propose a practical approach to learn disentangled representations based on a sparsity-promoting bi-level optimization problem. Finally, we explore a meta-learning version of this algorithm based on group Lasso multiclass SVM base-predictors, for which we derive a tractable dual formulation. It obtains competitive results on standard few-shot classification benchmarks, while each task is using only a fraction of the learned representations.
翻訳日:2022-11-29 16:17:22 公開日:2022-11-26
# BeGin: 大規模なベンチマークシナリオとグラフ連続学習のための使いやすいフレームワーク

BeGin: Extensive Benchmark Scenarios and An Easy-to-use Framework for Graph Continual Learning ( http://arxiv.org/abs/2211.14568v1 )

ライセンス: Link先を確認
Jihoon Ko, Shinhwan Kang, and Kijung Shin(参考訳) 連続学習(continual learning、cl)は、タスクのシーケンスを無停止に学習するプロセスである。 ほとんどの既存のCLメソッドは独立したデータ(画像やテキストなど)を扱うが、標準の実験環境下で多くのベンチマークフレームワークや結果が利用可能である。 しかしグラフデータのclメソッドは、驚くほど過小評価されている。 (a) 標準の実験的な設定の欠如、特にインスタンス間の依存関係の扱い方について。 b) ベンチマークデータセットとシナリオの欠如 (c)依存性による実装と評価の複雑さが高い。 本稿では, (a) グラフデータのための4つの標準的なインクリメンタル設定(タスク、クラス、ドメイン、タイムインクリメンタル設定)を定義し、多くのノード、リンク、グラフレベルの問題に対して自然に適用する。 周辺 (b)実世界の14のグラフに基づく23のベンチマークシナリオを提供する。 周辺 (c) グラフCLのための容易かつ愚かなフレームワークであるBeGinを開発した。 BeGinはデータ処理、アルゴリズム設計、評価のための再利用可能なモジュールでモジュール化されているため、容易に拡張できる。 特に評価モジュールはユーザコードから完全に切り離され、評価の潜在的な誤りが排除される。 以上を用いて,7つのグラフCL手法のベンチマーク結果について報告する。 BeGinを使ったグラフCLの最新のベンチマークと比較すると、インクリメンタルな設定と問題のレベルが3倍になる。

Continual Learning (CL) is the process of learning ceaselessly a sequence of tasks. Most existing CL methods deal with independent data (e.g., images and text) for which many benchmark frameworks and results under standard experimental settings are available. CL methods for graph data, however, are surprisingly underexplored because of (a) the lack of standard experimental settings, especially regarding how to deal with the dependency between instances, (b) the lack of benchmark datasets and scenarios, and (c) high complexity in implementation and evaluation due to the dependency. In this paper, regarding (a), we define four standard incremental settings (task-, class-, domain-, and time-incremental settings) for graph data, which are naturally applied to many node-, link-, and graph-level problems. Regarding (b), we provide 23 benchmark scenarios based on 14 real-world graphs. Regarding (c), we develop BeGin, an easy and fool-proof framework for graph CL. BeGin is easily extended since it is modularized with reusable modules for data processing, algorithm design, and evaluation. Especially, the evaluation module is completely separated from user code to eliminate potential mistakes in evaluation. Using all above, we report extensive benchmark results of seven graph CL methods. Compared to the latest benchmark for graph CL, using BeGin, we cover three times more combinations of incremental settings and levels of problems.
翻訳日:2022-11-29 15:49:15 公開日:2022-11-26
# ドメイン一般化のための直接効果リスク最小化

Direct-Effect Risk Minimization for Domain Generalization ( http://arxiv.org/abs/2211.14594v1 )

ライセンス: Link先を確認
Yuhui Li, Zejia Wu, Chao Zhang, Hongyang Zhang(参考訳) 属性の散発的相関がトレーニングドメインとテストドメインによって異なる分散(o.o.d.)一般化の問題について検討する。 これは相関シフトの問題として知られ、機械学習の信頼性に懸念をもたらしている。 本研究では,因果推論による直接的および間接的効果の概念を領域一般化問題に導入する。 直接効果を学習するモデルは、相関シフトしたドメイン間で最悪のケースリスクを最小限に抑えている。 間接効果を排除するため,本アルゴリズムは2段階からなる。第1段階では,表現とクラスラベルを用いて,ドメインラベルの予測誤差を最小限に抑えて間接効果表現を学習し,第2段階では,各データを類似した間接効果表現の他のデータとマッチングすることで,第1段階において得られた間接効果を除去する。 また, 相関シフトデータセット上の既存モデルの一般化性能を向上させるために, 検証セットを同じように一致させることで, 新たなモデル選択手法を提案する。 5つの相関シフトデータセットとDomainBedベンチマークの実験により、我々のアプローチの有効性が検証された。

We study the problem of out-of-distribution (o.o.d.) generalization where spurious correlations of attributes vary across training and test domains. This is known as the problem of correlation shift and has posed concerns on the reliability of machine learning. In this work, we introduce the concepts of direct and indirect effects from causal inference to the domain generalization problem. We argue that models that learn direct effects minimize the worst-case risk across correlation-shifted domains. To eliminate the indirect effects, our algorithm consists of two stages: in the first stage, we learn an indirect-effect representation by minimizing the prediction error of domain labels using the representation and the class label; in the second stage, we remove the indirect effects learned in the first stage by matching each data with another data of similar indirect-effect representation but of different class label. We also propose a new model selection method by matching the validation set in the same way, which is shown to improve the generalization performance of existing models on correlation-shifted datasets. Experiments on 5 correlation-shifted datasets and the DomainBed benchmark verify the effectiveness of our approach.
翻訳日:2022-11-29 15:48:55 公開日:2022-11-26
# c-TPE:連続的・カテゴリー的ハイパーパラメータ最適化のための不等式制約付き木構造パーゼン推定器の一般化

c-TPE: Generalizing Tree-structured Parzen Estimator with Inequality Constraints for Continuous and Categorical Hyperparameter Optimization ( http://arxiv.org/abs/2211.14411v1 )

ライセンス: Link先を確認
Shuhei Watanabe, Frank Hutter(参考訳) ハイパーパラメータ最適化(HPO)はディープラーニングアルゴリズムの性能向上に不可欠である。 広く使われている汎用HPO法は、木構造パーゼン推定器(TPE)と呼ばれるベイズ最適化の変種であり、データを良いグループと悪いグループに分割し、それらのグループの密度比を取得関数(AF)として利用する。 しかし、現実のアプリケーションは、メモリ要件やレイテンシなど、いくつかの制約があることが多い。 本稿では,制約付き最適化(c-TPE)へのTPEの拡張について,AFの簡単な分解による提案を行う。 実験は,c-TPEが様々な制約レベルに対して堅牢であることを示し,81設定のカテゴリーパラメータを持つ探索空間において,統計的に有意な既存の手法の中で,最高の平均ランク性能を示す。

Hyperparameter optimization (HPO) is crucial for strong performance of deep learning algorithms. A widely-used versatile HPO method is a variant of Bayesian optimization called tree-structured Parzen estimator (TPE), which splits data into good and bad groups and uses the density ratio of those groups as an acquisition function (AF). However, real-world applications often have some constraints, such as memory requirements, or latency. In this paper, we present an extension of TPE to constrained optimization (c-TPE) via simple factorization of AFs. The experiments demonstrate c-TPE is robust to various constraint levels and exhibits the best average rank performance among existing methods with statistical significance on search spaces with categorical parameters on 81 settings.
翻訳日:2022-11-29 15:38:42 公開日:2022-11-26
# 改良されたコントラスト型学習:拡張自由ロバストニューラルネットワーク

Supervised Contrastive Prototype Learning: Augmentation Free Robust Neural Network ( http://arxiv.org/abs/2211.14424v1 )

ライセンス: Link先を確認
Iordanis Fostiropoulos, Laurent Itti(参考訳) ディープニューラルネットワーク(DNN)の入力空間における変換は、特徴空間の意図しない変化をもたらす。 ほぼ知覚的に同一な入力、例えば対数例は、かなり離れた特徴表現を持つ。 逆に、Out-of-Distribution(OOD)サンプルは、トレーニングセットサンプルと非常によく似た特徴表現を持つことができる。 分類的分類ヘッドで訓練されたdnnの理論的解析は、分類問題サイズによって制限される柔軟性のないロジット空間が$\textit{robustness}$の欠如の原因の1つであることを示唆している。 2つ目の観察では、DNNはトレーニング強化技術に過度に適合し、$\textit{nuance invariant}$表現を学習しない。 近年,ロバスト性向上と学習ニュアンス不変表現の両面において,プロトタイプおよびコントラッシブ学習フレームワークの成功に触発されて,学習フレームワークとして$\textbf{Supervised Contrastive Prototype Learning}$ (SCPL)を提案する。 同じクラスと反対クラスのプロトタイプでNペアの対照的な損失を使用し、分類ヘッドを$\textbf{Prototype Classification Head}$ (PCH)で置き換える。 我々のアプローチは$\textit{sample efficient}$であり、$\textit{sample mining}$を必要としない。 実験により,本手法の分散的および逆的サンプルに対するロバスト性を評価する。 我々のフレームワークは、$\textit{robustness}$で、他の最先端のコントラストとプロトタイプの学習アプローチより優れています。

Transformations in the input space of Deep Neural Networks (DNN) lead to unintended changes in the feature space. Almost perceptually identical inputs, such as adversarial examples, can have significantly distant feature representations. On the contrary, Out-of-Distribution (OOD) samples can have highly similar feature representations to training set samples. Our theoretical analysis for DNNs trained with a categorical classification head suggests that the inflexible logit space restricted by the classification problem size is one of the root causes for the lack of $\textit{robustness}$. Our second observation is that DNNs over-fit to the training augmentation technique and do not learn $\textit{nuance invariant}$ representations. Inspired by the recent success of prototypical and contrastive learning frameworks for both improving robustness and learning nuance invariant representations, we propose a training framework, $\textbf{Supervised Contrastive Prototype Learning}$ (SCPL). We use N-pair contrastive loss with prototypes of the same and opposite classes and replace a categorical classification head with a $\textbf{Prototype Classification Head}$ (PCH). Our approach is $\textit{sample efficient}$, does not require $\textit{sample mining}$, can be implemented on any existing DNN without modification to their architecture, and combined with other training augmentation techniques. We empirically evaluate the $\textbf{clean}$ robustness of our method on out-of-distribution and adversarial samples. Our framework outperforms other state-of-the-art contrastive and prototype learning approaches in $\textit{robustness}$.
翻訳日:2022-11-29 15:38:27 公開日:2022-11-26
# Undo Maps形式によるRLの転送

Transfer RL via the Undo Maps Formalism ( http://arxiv.org/abs/2211.14469v1 )

ライセンス: Link先を確認
Abhi Gupta, Ted Moskovitz, David Alvarez-Melis, Aldo Pacchiano(参考訳) ドメイン間で知識を伝達することは機械学習の最も基本的な問題であるが、強化学習の文脈で効果的に行うことは、主にオープンな問題である。 現在の手法では、タスクの具体性に強い仮定をしており、しばしば原則的な目的を欠いており、重要な点として、状態空間のドリフトによってドメインが異なる場合、すなわち、環境に固有のものであり、それと相互作用するすべてのエージェントに影響するような、個々のポリシーを変更する。 これらの欠点に対処するため,対話型ドメイン間で知識を伝達するフレームワークである分散マッチングを用いたTvDを提案する。 データ中心の観点からこの問題にアプローチし、状態空間間の(潜在的に複雑な)変換によって環境の不一致を特徴付け、この変換を解き放つための学習としての伝達の問題を提起する。 そこで本研究では,トラジェクタ上の2つの分布間の最適な移動距離 - ソース領域で既に学習済みのポリシーと対象領域で学習可能なプッシュフォワードポリシー - に基づく新しい最適化目標を提案する。 この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。 簡単なグリッドワールドにおける実験により、この手法は幅広い環境変換における伝達学習を成功させることを示した。

Transferring knowledge across domains is one of the most fundamental problems in machine learning, but doing so effectively in the context of reinforcement learning remains largely an open problem. Current methods make strong assumptions on the specifics of the task, often lack principled objectives, and -- crucially -- modify individual policies, which might be sub-optimal when the domains differ due to a drift in the state space, i.e., it is intrinsic to the environment and therefore affects every agent interacting with it. To address these drawbacks, we propose TvD: transfer via distribution matching, a framework to transfer knowledge across interactive domains. We approach the problem from a data-centric perspective, characterizing the discrepancy in environments by means of (potentially complex) transformation between their state spaces, and thus posing the problem of transfer as learning to undo this transformation. To accomplish this, we introduce a novel optimization objective based on an optimal transport distance between two distributions over trajectories -- those generated by an already-learned policy in the source domain and a learnable pushforward policy in the target domain. We show this objective leads to a policy update scheme reminiscent of imitation learning, and derive an efficient algorithm to implement it. Our experiments in simple gridworlds show that this method yields successful transfer learning across a wide range of environment transformations.
翻訳日:2022-11-29 15:38:01 公開日:2022-11-26
# 微小データを用いたバイオマニュファクチャリングプロセスモデリングのための多要素ガウス過程

Multi-fidelity Gaussian Process for Biomanufacturing Process Modeling with Small Data ( http://arxiv.org/abs/2211.14493v1 )

ライセンス: Link先を確認
Yuan Sun, Winton Nathan-Roberts, Tien Dung Pham, Ellen Otte, Uwe Aickelin(参考訳) バイオマニュファクチャリングでは、バイオプロセスの複雑な力学をシミュレートする正確なモデルを開発することが重要な課題である。 これは、バイオプロセスに関連する不確実性、高いデータ取得コスト、バイオプロセスにおける複雑な関係を学ぶためのデータ可用性の欠如による部分がある。 これらの課題に対処するため, バイオマニュファクチャリングにおけるプロセスモデリングに, 統計的機械学習アプローチ, 多要素ガウスプロセスを提案する。 ガウス過程回帰は、ガウス雑音によるデータセットの不確かさを自然に考慮できる確率理論に基づく確立された手法であり、多忠実性技術は複数の情報ソースを異なるレベルの忠実度で利用でき、小さなデータを用いたバイオプロセスモデリングに適している。 生物生産,バイオリアクターのスケールアップ,細胞間知識伝達における2つの重要な課題を解決するために,多要素ガウス法を適用し,実世界のデータセット上での有効性を示す。

In biomanufacturing, developing an accurate model to simulate the complex dynamics of bioprocesses is an important yet challenging task. This is partially due to the uncertainty associated with bioprocesses, high data acquisition cost, and lack of data availability to learn complex relations in bioprocesses. To deal with these challenges, we propose to use a statistical machine learning approach, multi-fidelity Gaussian process, for process modelling in biomanufacturing. Gaussian process regression is a well-established technique based on probability theory which can naturally consider uncertainty in a dataset via Gaussian noise, and multi-fidelity techniques can make use of multiple sources of information with different levels of fidelity, thus suitable for bioprocess modeling with small data. We apply the multi-fidelity Gaussian process to solve two significant problems in biomanufacturing, bioreactor scale-up and knowledge transfer across cell lines, and demonstrate its efficacy on real-world datasets.
翻訳日:2022-11-29 15:37:36 公開日:2022-11-26
# 教師なし画像セマンティックセグメンテーションにおけるアライメントと均一性の再考

Rethinking Alignment and Uniformity in Unsupervised Image Semantic Segmentation ( http://arxiv.org/abs/2211.14513v1 )

ライセンス: Link先を確認
Daoan Zhang, Chenming Li, Haoquan Li, Wenjian Huang, Lingyun Huang, Jianguo Zhang(参考訳) 教師なし画像セマンティクスセグメンテーション(uiss)は、外部の監督なしに低レベルの視覚特徴と意味レベルの表現をマッチングすることを目的としている。 本稿では,UISSモデルにおける特徴アライメントと特徴均一性の観点から,重要な特性について述べる。 また,UISSと画像表現学習の比較を行った。 本分析に基づき, 既存のMI法は表現崩壊に悩まされていると論じる。 そこで,本稿では,意味的注意(semantic attention network,san)と呼ばれるロバストなネットワークを提案し,新たなモジュールである意味的注意(semantic attention,seat)を提案し,ピクセル毎および意味的特徴を動的に生成する。 複数のセマンティクスセグメンテーションベンチマークの実験結果は、教師なしセグメンテーションフレームワークがセマンティクス表現のキャッチを専門としていることを示している。

Unsupervised image semantic segmentation(UISS) aims to match low-level visual features with semantic-level representations without outer supervision. In this paper, we address the critical properties from the view of feature alignments and feature uniformity for UISS models. We also make a comparison between UISS and image-wise representation learning. Based on the analysis, we argue that the existing MI-based methods in UISS suffer from representation collapse. By this, we proposed a robust network called Semantic Attention Network(SAN), in which a new module Semantic Attention(SEAT) is proposed to generate pixel-wise and semantic features dynamically. Experimental results on multiple semantic segmentation benchmarks show that our unsupervised segmentation framework specializes in catching semantic representations, which outperforms all the unpretrained and even several pretrained methods.
翻訳日:2022-11-29 15:31:52 公開日:2022-11-26
# NeurIPS 2022における第1位ソリューション - Visual Domain Adaptationの課題

1st Place Solution to NeurIPS 2022 Challenge on Visual Domain Adaptation ( http://arxiv.org/abs/2211.14596v1 )

ライセンス: Link先を確認
Daehan Kim, Minseok Seo, YoungJin Jeon, Dong-Geol Choi(参考訳) visual domain adaptation (visda) 2022 challengeは、産業廃棄物のソートにおける意味セグメンテーションタスクにおける教師なしドメイン適応モデルを要求する。 本稿では,ドメイン適応モデルにいくつかの手法を組み込んだSIA_Adapt法を提案する。 大規模事前学習からの転送可能表現における本手法の核心である。 このプロセスでは、ドメイン適応の最先端と異なるネットワークアーキテクチャを選択する。 その後、擬似ラベルを用いた自己学習は、初期適応モデルをターゲットドメインに適応させるのに役立つ。 最後に, モデルスープ方式により, 対象領域の一般化性能が向上した。 SIA_Adapt は VisDA2022 チャレンジで1位を獲得した。 コードはhttps: //github.com/DaehanKim-Korea/VisDA2022_Winner_Solutionで入手できる。

The Visual Domain Adaptation(VisDA) 2022 Challenge calls for an unsupervised domain adaptive model in semantic segmentation tasks for industrial waste sorting. In this paper, we introduce the SIA_Adapt method, which incorporates several methods for domain adaptive models. The core of our method in the transferable representation from large-scale pre-training. In this process, we choose a network architecture that differs from the state-of-the-art for domain adaptation. After that, self-training using pseudo-labels helps to make the initial adaptation model more adaptable to the target domain. Finally, the model soup scheme helped to improve the generalization performance in the target domain. Our method SIA_Adapt achieves 1st place in the VisDA2022 challenge. The code is available on https: //github.com/DaehanKim-Korea/VisDA2022_Winner_Solution.
翻訳日:2022-11-29 15:31:33 公開日:2022-11-26
# 畳み込みニューラルネットワークの入力マスキング改善に向けて

Towards Better Input Masking for Convolutional Neural Networks ( http://arxiv.org/abs/2211.14646v1 )

ライセンス: Link先を確認
Sriram Balasubramanian and Soheil Feizi(参考訳) 機械学習モデルの入力から特徴を取り除く能力は、モデル予測を理解し解釈することが非常に重要である。 しかし、入力画像の一部をマスキングし、黒や灰色のようなベースライン色に置き換えることにより、視覚モデルにとってこれは非自明なことである。 マスキングは、画像の未加工部分ではなく、その予測のためのマスキングパターンにフォーカスするかもしれない。 近年の研究では、マスクされた画像部分に対応するトークンをドロップするだけで、視覚トランスフォーマーの影響を受けにくいことが示されている。 したがって、入力摂動に依存するLIMEのような手法により、より容易に解釈できる。 同じ直感を用いて,CNNを非マスク入力のみで動作させるレイヤマスキング(Layer masking)と呼ばれるCNNのマスキング手法を考案した。 私たちの方法は (i)モデルの出力とその中間活性化に対してはるかに破壊的ではなく、 (II) LIMEのような入力摂動に基づく解釈可能性技術において, 一般的なマスキング手法よりもはるかに優れている。 したがって、層マスキングはCNNとトランスフォーマーの間の解釈可能性ギャップを埋めることができ、多くの場合CNNをより解釈しやすくする。

The ability to remove features from the input of machine learning models is very important to understand and interpret model predictions. However, this is non-trivial for vision models since masking out parts of the input image and replacing them with a baseline color like black or grey typically causes large distribution shifts. Masking may even make the model focus on the masking patterns for its prediction rather than the unmasked portions of the image. In recent work, it has been shown that vision transformers are less affected by such issues as one can simply drop the tokens corresponding to the masked image portions. They are thus more easily interpretable using techniques like LIME which rely on input perturbation. Using the same intuition, we devise a masking technique for CNNs called layer masking, which simulates running the CNN on only the unmasked input. We find that our method is (i) much less disruptive to the model's output and its intermediate activations, and (ii) much better than commonly used masking techniques for input perturbation based interpretability techniques like LIME. Thus, layer masking is able to close the interpretability gap between CNNs and transformers, and even make CNNs more interpretable in many cases.
翻訳日:2022-11-29 15:31:21 公開日:2022-11-26
# 偽ニュースの予測的言語的手がかり:社会的人工知能問題

Predictive linguistic cues for fake news: a societal artificial intelligence problem ( http://arxiv.org/abs/2211.14505v1 )

ライセンス: Link先を確認
Sandhya Aneja and Nagender Aneja and Ponnurangam Kumaraguru(参考訳) メディアニュースは世論の大部分を占めており、だから偽物であってはならない。 ウェブサイト、ブログ、ソーシャルメディアに関するニュースは、公開前に分析されなければならない。 本稿では,機械学習アルゴリズムを用いて,偽ニュースと実ニュースを区別するメディアニュースの言語特性について述べる。 ニューラルフェイクニュース生成、マシンが生成する見出し、テキストのセマンティックな矛盾、マシンが生成する画像キャプションなどは、他の種類のフェイクニュース問題である。 これらの問題は、証拠ではなく分布的特徴を主に制御するニューラルネットワークを使用する。 本稿では,特徴セットとクラス間の相関を応用し,特徴間の相関関係を用いて相関属性評価指標と共分散メトリクスを算出し,ニュース項目に対する属性の分散を計算する。 測定値に高い値を持つ特徴, 負, 正, 基数は, 曲線 (AUC) とF1スコアの下で高い面積を提供するために観測される。

Media news are making a large part of public opinion and, therefore, must not be fake. News on web sites, blogs, and social media must be analyzed before being published. In this paper, we present linguistic characteristics of media news items to differentiate between fake news and real news using machine learning algorithms. Neural fake news generation, headlines created by machines, semantic incongruities in text and image captions generated by machine are other types of fake news problems. These problems use neural networks which mainly control distributional features rather than evidence. We propose applying correlation between features set and class, and correlation among the features to compute correlation attribute evaluation metric and covariance metric to compute variance of attributes over the news items. Features unique, negative, positive, and cardinal numbers with high values on the metrics are observed to provide a high area under the curve (AUC) and F1-score.
翻訳日:2022-11-29 15:21:35 公開日:2022-11-26
# 誰の事ですか? マルチモーダルグラウンドを用いた弱教師付きコリファレンス解像度

Who are you referring to? Weakly supervised coreference resolution with multimodal grounding ( http://arxiv.org/abs/2211.14563v1 )

ライセンス: Link先を確認
Arushi Goel, Basura Fernando, Frank Keller and Hakan Bilen(参考訳) Coreference Resolutionは、自然言語処理のコアツールであるテキスト内の同じエンティティを参照する単語やフレーズを識別することを目的としている。 本稿では,マルチモーダルデータ,視覚シーンの長文記述におけるコア参照を解消する新しいタスクを提案する。 既存の画像テキストデータセットの多くは、コアフェレント表現なしで短い文しか含まない。 この目的のために、まず新しいデータセットFlickr30k-Corefを導入し、これらのチェーンのコア参照チェーンとバウンディングボックスのローカライゼーションに注釈を付ける。 本稿では,画像テキスト対からの弱教師付き接地と,事前言語知識を用いた正規化により,コリファレンスチェーンを識別する手法を提案する。 提案手法は,先行研究に比べて,コリファレンス解像度と長文記述の弱教師付きグラウンド化において大きな性能向上をもたらす。

Coreference resolution aims at identifying words and phrases which refer to same entity in a text, a core tool in natural language processing. In this paper, we propose a novel task, resolving coreferences in multimodal data, long-form textual descriptions of visual scenes. Most existing image-text datasets only contain short sentences without coreferent expressions, or coreferences are not annotated. To this end, we first introduce a new dataset, Flickr30k-Coref in which coreference chains and bounding box localization of these chains are annotated. We propose a new technique that learns to identify coreference chains through weakly supervised grounding from image-text pairs and a regularization using prior linguistic knowledge. Our model yields large performance gains over prior work in coreference resolution and weakly supervised grounding of long-form text descriptions.
翻訳日:2022-11-29 15:11:30 公開日:2022-11-26
# 可変形状トラスの計算共設計

Computational Co-Design for Variable Geometry Truss ( http://arxiv.org/abs/2211.14663v1 )

ライセンス: Link先を確認
Jianzhe Gu and Lining Yao(参考訳) 生物や機械は形態や動きを通じて世界と相互作用する。 近年のバイオインスパイアされたモーフィングロボットや機械の創出は、任意のジオメトリーを近似し、変形する自由度の高い可変幾何学トラス(VGT)の研究につながっている。 しかし、過度に複雑な制御システムのため、単純なジオメトリや動きに限定されている。 最近の研究であるPneuMeshは、選択的なチャネル接続戦略を導入した新しいVGT設計でこの課題を解決する一方で、効果的なチャネルグループ化と制御方法の同定に新たな課題を課している。 PneuMeshで提示されたハードウェア概念に基づいて、我々はこの課題を共同設計問題に組み入れ、準最適設計を見つけるための学習モデルを導入する。 具体的には、人間の設計者が提供した初期のトラス構造を考慮し、まず、チャネルグループ化を最適化するための遺伝的アルゴリズム(GA)を採用し、次に、制御のための強化学習(RL)とGAを結合する。 モデルはPneuMeshシステムに合わせてカスタマイズされた初期化、突然変異、選択機能、強化学習のためのカスタマイズされた翻訳不変状態ベクトルを備える。 その結果,ロボットテーブルを用いたVGTにより,限られた制御入力数で様々な動作を実現できることがわかった。 テーブルは、動く、体を下げる、またはテーブルトップを傾けるように訓練されており、子供や画家に異なる形状の状態で使用してもらうなど、複数のユースケースに対応している。

Living creatures and machines interact with the world through their morphology and motions. Recent advances in creating bio-inspired morphing robots and machines have led to the study of variable geometry truss (VGT), structures that can approximate arbitrary geometries and has large degree of freedom to deform. However, they are limited to simple geometries and motions due to the excessively complex control system. While a recent work PneuMesh solves this challenge with a novel VGT design that introduces a selective channel connection strategy, it imposes new challenge in identifying effective channel groupings and control methods. Building on top of the hardware concept presented in PneuMesh, we frame the challenge into a co-design problem and introduce a learning-based model to find a sub-optimal design. Specifically, given an initial truss structure provided by a human designer, we first adopt a genetic algorithm (GA) to optimize the channel grouping, and then couple GA with reinforcement learning (RL) for the control. The model is tailored to the PneuMesh system with customized initialization, mutation and selection functions, as well as the customized translation-invariant state vector for reinforcement learning. The result shows that our method enables a robotic table-based VGT to achieve various motions with a limited number of control inputs. The table is trained to move, lower its body or tilt its tabletop to accommodate multiple use cases such as benefiting kids and painters to use it in different shape states, allowing inclusive and adaptive design through morphing trusses.
翻訳日:2022-11-29 15:04:39 公開日:2022-11-26
# コード混合かなだ英語テキストにおける単語レベル言語識別のためのトランスフォーマーモデル

Transformer-based Model for Word Level Language Identification in Code-mixed Kannada-English Texts ( http://arxiv.org/abs/2211.14459v1 )

ライセンス: Link先を確認
Atnafu Lambebo Tonja, Mesay Gemeda Yigezu, Olga Kolesnikova, Moein Shahiki Tash, Grigori Sidorov, Alexander Gelbuk(参考訳) 現在、自然言語処理(NLP)研究にコードミキシングデータを使用することが注目されている。 ソーシャルメディアの言語識別 コード混合テキストは,近年,コミュニケーションにおけるソーシャルメディアの進歩と影響から,興味深い研究課題となっている。 本稿では、ICON2022におけるCoLI-Kanglish共有タスクのためのCICチームのシステム記述論文について、Instituto Polit\'ecnico Nacional, Centro de Investigaci\'on en Computaci\'on(CIC)を提案する。 本稿では,コード混合カンナダ英語テキストにおける単語レベルの言語識別にトランスフォーマティブモデルを用いることを提案する。 提案手法は, 重み付きf1-score 0.84, マクロf1-score 0.61である。

Using code-mixed data in natural language processing (NLP) research currently gets a lot of attention. Language identification of social media code-mixed text has been an interesting problem of study in recent years due to the advancement and influences of social media in communication. This paper presents the Instituto Polit\'ecnico Nacional, Centro de Investigaci\'on en Computaci\'on (CIC) team's system description paper for the CoLI-Kanglish shared task at ICON2022. In this paper, we propose the use of a Transformer based model for word-level language identification in code-mixed Kannada English texts. The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61.
翻訳日:2022-11-29 15:03:57 公開日:2022-11-26
# PCRED:可能性候補関係選択とエンティティ境界検出によるゼロショット関係トリプレット抽出

PCRED: Zero-shot Relation Triplet Extraction with Potential Candidate Relation Selection and Entity Boundary Detection ( http://arxiv.org/abs/2211.14477v1 )

ライセンス: Link先を確認
Yuquan Lan, Dongxu Li, Hui Zhao, Gang Zhao(参考訳) ゼロショット関係三重項抽出(ZeroRTE)は、非構造化テキストから関係三重項を抽出することを目的としている。 従来の最先端の手法は、事前訓練された言語モデルを利用して、追加のトレーニングサンプルとしてデータを生成することで、この課題に対処する。 我々は,この課題を新たな視点から解決し,候補関係選択とエンティティ境界検出を併用したPCRED for ZeroRTEを提案する。 このモデルは関係ファーストパラダイムを採用しており、まずは候補関係選択を通じて未知の関係を認識する。 このアプローチによって、関係の意味論は自然に文脈に注入される。 エンティティはその後、関係のコンテキストとセマンティクスに基づいて抽出される。 我々は2つのZeroRTEデータセットでモデルを評価する。 実験の結果,本手法は従来の手法を一貫して上回っていることがわかった。 さらに、当社のモデルは、単純さと有効性の利点を誇った追加データに依存していません。 私たちのコードはhttps://anonymous.4open.science/r/pcredで利用可能です。

Zero-shot relation triplet extraction (ZeroRTE) aims to extract relation triplets from unstructured texts, while the relation sets at the training and testing stages are disjoint. Previous state-of-the-art method handles this challenging task by leveraging pretrained language models to generate data as additional training samples, which increases the training cost and severely constrains the model performance. We tackle this task from a new perspective and propose a novel method named PCRED for ZeroRTE with Potential Candidate Relation selection and Entity boundary Detection. The model adopts a relation-first paradigm, which firstly recognizes unseen relations through candidate relation selection. By this approach, the semantics of relations are naturally infused in the context. Entities are extracted based on the context and the semantics of relations subsequently. We evaluate our model on two ZeroRTE datasets. The experiment result shows that our method consistently outperforms previous works. Besides, our model does not rely on any additional data, which boasts the advantages of simplicity and effectiveness. Our code is available at https://anonymous.4open.science/r/PCRED.
翻訳日:2022-11-29 15:03:45 公開日:2022-11-26
# タスク指向対話のための辞書インジェクションセマンティックパーシング

Lexicon-injected Semantic Parsing for Task-Oriented Dialog ( http://arxiv.org/abs/2211.14508v1 )

ライセンス: Link先を確認
Xiaojun Meng, Wenlin Dai, Yasheng Wang, Baojun Wang, Zhiyong Wu, Xin Jiang, Qun Liu(参考訳) 近年,対話システムにおける階層表現を用いた意味解析が注目されている。 入れ子ノードのラベルとしてインテントとスロットを持つツリー表現であるTask-Oriented Parse(TOP)が、ユーザの発話を解析するために提案されている。 以前のトップパース手法は、未知の動的スロット値(例えば、新しい曲や場所の追加)に取り組むことに限定されており、これは実際のダイアログシステムにとって緊急の問題である。 この問題を軽減するために,既存の手法よりも優れたスパンベースパーサのスパン分割表現を提案する。 次に、木表現のスロットラベルをレキシコンとして収集し、構文特徴をパーサのスパン表現に注入する新しいレキシコンインジェクト意味構文解析器を提案する。 追加のスロット曖昧化技術は、レキシコンから不適切なスパンマッチの発生を除去する。 我々のベストパーサーはTOPデータセット上で新しい最先端結果(87.62%)を生成し、タスク指向の実際のダイアログにおいて頻繁に更新されるスロットレキシコンエントリへの適応性を示す。

Recently, semantic parsing using hierarchical representations for dialog systems has captured substantial attention. Task-Oriented Parse (TOP), a tree representation with intents and slots as labels of nested tree nodes, has been proposed for parsing user utterances. Previous TOP parsing methods are limited on tackling unseen dynamic slot values (e.g., new songs and locations added), which is an urgent matter for real dialog systems. To mitigate this issue, we first propose a novel span-splitting representation for span-based parser that outperforms existing methods. Then we present a novel lexicon-injected semantic parser, which collects slot labels of tree representation as a lexicon, and injects lexical features to the span representation of parser. An additional slot disambiguation technique is involved to remove inappropriate span match occurrences from the lexicon. Our best parser produces a new state-of-the-art result (87.62%) on the TOP dataset, and demonstrates its adaptability to frequently updated slot lexicon entries in real task-oriented dialog, with no need of retraining.
翻訳日:2022-11-29 15:03:29 公開日:2022-11-26
# 神経ネットワーク分類における不確実性の起源について

Looking at the posterior: on the origin of uncertainty in neural-network classification ( http://arxiv.org/abs/2211.14605v1 )

ライセンス: Link先を確認
H. Linander, O. Balabanov, H. Yang, B. Mehlig(参考訳) ベイズ推定はモデルパラメータとネットワーク出力の後方分布を用いてニューラルネットワークの予測の不確かさを定量化することができる。 これらの後方分布を見ることにより、不確実性の起源をアレオテリックとエピステマティックに分けることができる。 予測不確かさと認識不確かさの合同分布を用いて、この不確かさの解釈が、画像分類タスクにおけるモデルアーキテクチャ、データセットの複雑さ、データ分散シフトに依存するかを定量化する。 結論として,不確実性の起源は各ニューラルネットワークの主観的であり,データ分布シフトによる不確実性の定量化は,基礎となるデータセットの複雑性に依存する。 さらに,予測的不確実性と認識的不確実性の組み合わせ分布をモデルが最も正確であるデータ領域の同定に利用できることを示す。 これらの結果に到達するために,モンテカルロ・ドロップアウト法とディープアンサンブル法という2つの近似手法を用いて,完全連結,畳み込み,注意に基づくニューラルネットワークを構築した。

Bayesian inference can quantify uncertainty in the predictions of neural networks using posterior distributions for model parameters and network output. By looking at these posterior distributions, one can separate the origin of uncertainty into aleatoric and epistemic. We use the joint distribution of predictive uncertainty and epistemic uncertainty to quantify how this interpretation of uncertainty depends upon model architecture, dataset complexity, and data distributional shifts in image classification tasks. We conclude that the origin of uncertainty is subjective to each neural network and that the quantification of the induced uncertainty from data distributional shifts depends on the complexity of the underlying dataset. Furthermore, we show that the joint distribution of predictive and epistemic uncertainty can be used to identify data domains where the model is most accurate. To arrive at these results, we use two common posterior approximation methods, Monte-Carlo dropout and deep ensembles, for fully-connected, convolutional and attention-based neural networks.
翻訳日:2022-11-29 14:53:27 公開日:2022-11-26
# スパイクニューラルネットワークにおける時間情報ダイナミクスの探索

Exploring Temporal Information Dynamics in Spiking Neural Networks ( http://arxiv.org/abs/2211.14406v1 )

ライセンス: Link先を確認
Youngeun Kim, Yuhang Li, Hyoungseob Park, Yeshwanth Venkatesha, Anna Hambitzer, Priyadarshini Panda(参考訳) 現存するほとんどのスパイキングニューラルネットワーク(SNN)は、SNNがスパイクの時間的情報ダイナミクスを利用する可能性があると述べている。 しかし、時間的情報ダイナミクスの明示的な分析はまだ欠落している。 本稿では、SNNの基本的な理解を提供するために、いくつかの重要な質問を行う: SNNの内部の時間的情報力学とは何か? 時間情報のダイナミクスをどのように測定するか? 時間的情報ダイナミクスは学習全体のパフォーマンスにどのように影響するか? これらの疑問に答えるために,重みのフィッシャー情報を推定し,訓練中の時間情報の分布を実証的に測定する。 驚くべきことに、訓練が進むにつれて、フィッシャーの情報は早期の段階に集中し始める。 トレーニング後,情報収集の時間的集中度は,時間的情報集中度という現象に大きく依存することが明らかとなった。 時間的情報集中現象は,アーキテクチャ,データセット,最適化戦略,時間定数,時間ステップなどの様々な構成について広範な実験を行い,snsの一般的な学習特徴である。 さらに、時間情報集中がSNNの性能に与える影響を明らかにするために、時間情報の動向を変えるための損失関数を設計する。 SNNの構築には時間的情報集中が不可欠であるが,分類精度にはほとんど影響しない。 最後に,時間的情報集中の観測に基づく効率的な反復的刈り取り手法を提案する。 コードはhttps://github.com/Intelligent-Computing-Lab-Yale/Exploring-Temporal-Information-Dynamics-in-Spiking -Neural-Networksで公開されている。

Most existing Spiking Neural Network (SNN) works state that SNNs may utilize temporal information dynamics of spikes. However, an explicit analysis of temporal information dynamics is still missing. In this paper, we ask several important questions for providing a fundamental understanding of SNNs: What are temporal information dynamics inside SNNs? How can we measure the temporal information dynamics? How do the temporal information dynamics affect the overall learning performance? To answer these questions, we estimate the Fisher Information of the weights to measure the distribution of temporal information during training in an empirical manner. Surprisingly, as training goes on, Fisher information starts to concentrate in the early timesteps. After training, we observe that information becomes highly concentrated in earlier few timesteps, a phenomenon we refer to as temporal information concentration. We observe that the temporal information concentration phenomenon is a common learning feature of SNNs by conducting extensive experiments on various configurations such as architecture, dataset, optimization strategy, time constant, and timesteps. Furthermore, to reveal how temporal information concentration affects the performance of SNNs, we design a loss function to change the trend of temporal information. We find that temporal information concentration is crucial to building a robust SNN but has little effect on classification accuracy. Finally, we propose an efficient iterative pruning method based on our observation on temporal information concentration. Code is available at https://github.com/Intelligent-Computing-Lab-Yale/Exploring-Temporal-Information-Dynamics-in-Spiking -Neural-Networks.
翻訳日:2022-11-29 14:53:10 公開日:2022-11-26
# Photo Rater:ディープラーニングで自動セレクタを撮影

Photo Rater: Photographs Auto-Selector with Deep Learning ( http://arxiv.org/abs/2211.14420v1 )

ライセンス: Link先を確認
Wentao Guo, Charlie Ruan, Claire Zhou(参考訳) Photo Raterは、ニューラルネットワークを使って、写真家が同じシーンで撮影された写真の中から最高の写真を選ぶのを助けるコンピュータービジョンプロジェクトだ。 このプロセスは通常、写真では「彫刻」と呼ばれ、手作業で行うと退屈で時間がかかることがある。 photo raterは3つの別個のニューラルネットワークを使用して、一般的な画像品質評価のための1つ、写真のぼやけを分類する1つ(非定常な手や集中力の欠如による)、一般的な美的評価のための1つ(写真の構成を含む)というタスクを完了している。 それぞれのニューラルネットワークを通じて画像を入力した後、Photo Raterは各画像の最終スコアを出力し、このスコアに基づいてランク付けし、ユーザに提示する。

Photo Rater is a computer vision project that uses neural networks to help photographers select the best photo among those that are taken based on the same scene. This process is usually referred to as "culling" in photography, and it can be tedious and time-consuming if done manually. Photo Rater utilizes three separate neural networks to complete such a task: one for general image quality assessment, one for classifying whether the photo is blurry (either due to unsteady hands or out-of-focusness), and one for assessing general aesthetics (including the composition of the photo, among others). After feeding the image through each neural network, Photo Rater outputs a final score for each image, ranking them based on this score and presenting it to the user.
翻訳日:2022-11-29 14:45:05 公開日:2022-11-26
# SGCE-Font:中国語フォント生成のための骨格誘導チャネル拡張

SGCE-Font: Skeleton Guided Channel Expansion for Chinese Font Generation ( http://arxiv.org/abs/2211.14475v1 )

ライセンス: Link先を確認
Jie Zhou, Yefei Wang, Yiyang Yuan, Qing Huang, Jinshan Zeng(参考訳) 中国語フォントの自動生成は多くのアプリケーションにおいて重要な問題である。 中国語フォント生成の優先的な方法は、特に生成逆ネットワーク(GAN)の深層生成モデルに基づいている。 しかし、中国語フォント生成のための既存のGANベースの手法(例えばCycleGAN)は、主に効果的なガイダンス情報がないためにモード崩壊の問題に悩まされる。 本稿では,漢字の局所構造情報とグローバル構造情報の両方を具現化して,文字生成のためのスケルトンガイドチャネル拡張(SGCE)モジュールと呼ばれる新しい情報誘導モジュールを提案する。 提案モジュールの有効性を示すため,広範な実験を行った。 シミュレーションの結果,提案したSGCEモジュールを装着することで,既知のCycleGANが抱えるモード崩壊問題を効果的に軽減でき,SGCEを搭載したCycleGANは4つの重要な評価指標と可視化品質で最先端のモデルより優れていることがわかった。 cycleganの他に,提案するsgceモジュールを,中国フォント生成のための他のモデルにプラグインアンドプレイモジュールとして適用することで,パフォーマンスをさらに向上できることを示す。

The automatic generation of Chinese fonts is an important problem involved in many applications. The predominated methods for the Chinese font generation are based on the deep generative models, especially the generative adversarial networks (GANs). However, existing GAN-based methods (say, CycleGAN) for the Chinese font generation usually suffer from the mode collapse issue, mainly due to the lack of effective guidance information. This paper proposes a novel information guidance module called the skeleton guided channel expansion (SGCE) module for the Chinese font generation through integrating the skeleton information into the generator with the channel expansion way, motivated by the observation that the skeleton embodies both local and global structure information of Chinese characters. We conduct extensive experiments to show the effectiveness of the proposed module. Numerical results show that the mode collapse issue suffered by the known CycleGAN can be effectively alleviated by equipping with the proposed SGCE module, and the CycleGAN equipped with SGCE outperforms the state-of-the-art models in terms of four important evaluation metrics and visualization quality. Besides CycleGAN, we also show that the suggested SGCE module can be adapted to other models for Chinese font generation as a plug-and-play module to further improve their performance.
翻訳日:2022-11-29 14:44:50 公開日:2022-11-26
# 畳み込みニューラルネットワークの受容場微細化による予測性能の向上

Receptive Field Refinement for Convolutional Neural Networks Reliably Improves Predictive Performance ( http://arxiv.org/abs/2211.14487v1 )

ライセンス: Link先を確認
Mats L. Richter, Christopher Pal(参考訳) ニューラルネットワークへの最小限の変更(例えば、キー層内の1つのハイパーパラメータの変更)は、畳み込みニューラルネットワーク(CNN)の予測性能を著しく向上させる可能性がある。 そこで本研究では,20のよく知られたCNNアーキテクチャにおいて,このような理論的および経験的性能向上を達成できる受容場解析手法を提案する。 畳み込みニューラルネットワークにおける受容場拡大の解析をさらに発展させ、形式化することにより、モデルをトレーニングする前に非生産層を自動で予測することができる。 これにより、所定のアーキテクチャのパラメータ効率を低コストで最適化できる。 この手法は計算がシンプルで,ほとんどの一般的なアーキテクチャに対して最小限の労力で,自動的あるいは手作業で行うことができる。 本稿では,過去および現在のCNNアーキテクチャにおけるパラメータ効率を向上し,本手法の有効性を示す。 具体的には、VGG Nets、MobileNetV1、MobileNetV3、NASNet A (mobile)、MnasNet、EfficientNet、ConvNeXtなど、広く知られたSOTA(State-of-the-art)モデルクラスで、ImageNet1Kのパフォーマンスを改善することができる。

Minimal changes to neural architectures (e.g. changing a single hyperparameter in a key layer), can lead to significant gains in predictive performance in Convolutional Neural Networks (CNNs). In this work, we present a new approach to receptive field analysis that can yield these types of theoretical and empirical performance gains across twenty well-known CNN architectures examined in our experiments. By further developing and formalizing the analysis of receptive field expansion in convolutional neural networks, we can predict unproductive layers in an automated manner before ever training a model. This allows us to optimize the parameter-efficiency of a given architecture at low cost. Our method is computationally simple and can be done in an automated manner or even manually with minimal effort for most common architectures. We demonstrate the effectiveness of this approach by increasing parameter efficiency across past and current top-performing CNN-architectures. Specifically, our approach is able to improve ImageNet1K performance across a wide range of well-known, state-of-the-art (SOTA) model classes, including: VGG Nets, MobileNetV1, MobileNetV3, NASNet A (mobile), MnasNet, EfficientNet, and ConvNeXt - leading to a new SOTA result for each model class.
翻訳日:2022-11-29 14:44:24 公開日:2022-11-26
# ターゲットフリーテキスト誘導画像マニピュレーション

Target-Free Text-guided Image Manipulation ( http://arxiv.org/abs/2211.14544v1 )

ライセンス: Link先を確認
Wan-Cyuan Fan, Cheng-Fu Yang, Chiao-An Yang, Yu-Chiang Frank Wang(参考訳) 与えられたテキスト命令に基づいて入力基準画像を変更する必要があるが、訓練中は真理目標画像は観測されない、目標フリーなテキストガイド画像操作の問題に取り組む。 この課題に対処するため,本論文では,興味のある画像領域の編集方法と場所を認識可能な循環制御型GAN(cManiGAN)を提案する。 具体的には、cManiGANの画像エディタが入力画像の識別と完了を学習し、クロスモーダルインタプリタと推論器が配置され、入力命令に基づいて出力画像の意味的正当性を検証する。 前者はイメージセマンティクスの認証に事実/事実記述学習を利用するが、後者は"undo"命令を予測し、cManiGANの訓練にピクセルレベルの監督を提供する。 このような運用サイクル整合性では、上記の弱教師付き環境でcManiGANをトレーニングすることができます。 我々はCLEVRとCOCOのデータセットに関する広範な実験を行い、提案手法の有効性と一般化性を検証した。 プロジェクトページ: https://sites.google.com/view/wancyuanfan/projects/cmanigan

We tackle the problem of target-free text-guided image manipulation, which requires one to modify the input reference image based on the given text instruction, while no ground truth target image is observed during training. To address this challenging task, we propose a Cyclic-Manipulation GAN (cManiGAN) in this paper, which is able to realize where and how to edit the image regions of interest. Specifically, the image editor in cManiGAN learns to identify and complete the input image, while cross-modal interpreter and reasoner are deployed to verify the semantic correctness of the output image based on the input instruction. While the former utilizes factual/counterfactual description learning for authenticating the image semantics, the latter predicts the "undo" instruction and provides pixel-level supervision for the training of cManiGAN. With such operational cycle-consistency, our cManiGAN can be trained in the above weakly supervised setting. We conduct extensive experiments on the datasets of CLEVR and COCO, and the effectiveness and generalizability of our proposed method can be successfully verified. Project page: https://sites.google.com/view/wancyuanfan/projects/cmanigan.
翻訳日:2022-11-29 14:44:02 公開日:2022-11-26
# テキスト表現法とその系譜に関する調査

A Survey of Text Representation Methods and Their Genealogy ( http://arxiv.org/abs/2211.14591v1 )

ライセンス: Link先を確認
Philipp Siebers, Christian Janiesch, Patrick Zschech(参考訳) 近年、高度にスケーラブルな人工神経ネットワークに基づくテキスト表現手法が出現し、自然言語処理の分野では前例のない成長と洗練が見られた。 分布仮説を用いて、テキストの複雑な言語情報を多次元密度数値ベクトルに蒸留することが可能になった。 その結果、テキスト表現手法は急速に進化しており、研究コミュニティは方法とその相互関係に関する知識を維持するのに苦労している。 我々は,現在のアプローチを系譜に整理し,テキスト表現法の分類法を概念化し,現状を検証,説明することにより,コンパイル,構成,体系化の欠如に3倍の貢献をする。 本研究は,レコメンダシステムやチャットボット,感情分析など,自然言語処理アプリケーションに興味を持つ人工知能研究者や実践者にとって,貴重なガイドであり参考となる。

In recent years, with the advent of highly scalable artificial-neural-network-based text representation methods the field of natural language processing has seen unprecedented growth and sophistication. It has become possible to distill complex linguistic information of text into multidimensional dense numeric vectors with the use of the distributional hypothesis. As a consequence, text representation methods have been evolving at such a quick pace that the research community is struggling to retain knowledge of the methods and their interrelations. We contribute threefold to this lack of compilation, composition, and systematization by providing a survey of current approaches, by arranging them in a genealogy, and by conceptualizing a taxonomy of text representation methods to examine and explain the state-of-the-art. Our research is a valuable guide and reference for artificial intelligence researchers and practitioners interested in natural language processing applications such as recommender systems, chatbots, and sentiment analysis.
翻訳日:2022-11-29 14:35:49 公開日:2022-11-26
# 限られた異種データに対する深層神経進化 : 仮想プール画像を用いた神経芽腫脳転移に対する概念実証的応用

Deep neuroevolution for limited, heterogeneous data: proof-of-concept application to Neuroblastoma brain metastasis using a small virtual pooled image collection ( http://arxiv.org/abs/2211.14499v1 )

ライセンス: Link先を確認
Subhanik Purkayastha, Hrithwik Shalu, David Gutman, Shakeel Modak, Ellen Basu, Brian Kushner, Kim Kramer, Sofia Haque and Joseph Stember(参考訳) 放射線学における人工知能(AI)は近年大きな進歩を遂げているが、多くのハードルが残っている。 オーバーフィッティングと一般化性の欠如は、正確で信頼性の高い臨床展開を妨げる重要な課題である。 もしAIアルゴリズムが過度な適合を避け、真の一般化性を達成することができれば、彼らは研究領域から臨床研究の最前線に進むことができる。 近年、deep neuroevolution (dne)のような小さなデータaiアプローチは、小さなトレーニングセットの過剰フィットを避けている。 我々は,様々な機関の画像からなる仮想プールデータセットにDNEを適用し,過剰適合性と一般化性の両方に対処する。 症例はMRIによる神経芽腫脳転移の分類である。 神経芽腫は稀な癌であるため,目的に適している。 したがって、この小児病の研究には小さなデータアプローチが必要である。 第3のケアセンターとして、当社のローカルPicture Archiving and Communication System(PACS)の神経芽細胞腫像は、主に外部機関のものである。 これらの多施設画像は、実世界の臨床展開をシミュレートできる異種データセットを提供する。 DNEの以前の研究と同様に、30の正常と30の転移を含むMRI脳スキャンと37%の外部画像からなる小さなトレーニングセットを使用した。 テストセットは83%の外部画像で強化された。 DNEはテストセットの精度が97%に収束した。 そのため、アルゴリズムは実世界のデータをシミュレートするテストセット上で、ほぼ完璧な精度で画像クラスを予測することができた。 したがって、この研究は、臨床的に実現可能なAIに対するかなりの貢献を示している。

Artificial intelligence (AI) in radiology has made great strides in recent years, but many hurdles remain. Overfitting and lack of generalizability represent important ongoing challenges hindering accurate and dependable clinical deployment. If AI algorithms can avoid overfitting and achieve true generalizability, they can go from the research realm to the forefront of clinical work. Recently, small data AI approaches such as deep neuroevolution (DNE) have avoided overfitting small training sets. We seek to address both overfitting and generalizability by applying DNE to a virtually pooled data set consisting of images from various institutions. Our use case is classifying neuroblastoma brain metastases on MRI. Neuroblastoma is well-suited for our goals because it is a rare cancer. Hence, studying this pediatric disease requires a small data approach. As a tertiary care center, the neuroblastoma images in our local Picture Archiving and Communication System (PACS) are largely from outside institutions. These multi-institutional images provide a heterogeneous data set that can simulate real world clinical deployment. As in prior DNE work, we used a small training set, consisting of 30 normal and 30 metastasis-containing post-contrast MRI brain scans, with 37% outside images. The testing set was enriched with 83% outside images. DNE converged to a testing set accuracy of 97%. Hence, the algorithm was able to predict image class with near-perfect accuracy on a testing set that simulates real-world data. Hence, the work described here represents a considerable contribution toward clinically feasible AI.
翻訳日:2022-11-29 14:29:16 公開日:2022-11-26
# 多次元連続特徴空間における識別語探索

Searching for Discriminative Words in Multidimensional Continuous Feature Space ( http://arxiv.org/abs/2211.14631v1 )

ライセンス: Link先を確認
Marius Sajgalik and Michal Barla and Maria Bielikova(参考訳) ワード特徴ベクトルは多くのNLPタスクを改善することが証明されている。 これらの特徴ベクトルの教師なし学習の最近の進歩により、さらに多くのデータで学習することが可能となり、学習された特徴の質も向上した。 単語の潜在的な特徴の合同確率を学習するので、解決したい目標タスクに関する事前の知識なしに学習することができるという利点がある。 我々は,音声のタグ付けや構文解析など,多くの標準NLPタスクですでに実証されている特徴ベクトルの普遍的適用性を評価することを目的とする。 本稿では,テキスト文書のトピック的焦点を理解し,異なるトピックの識別に適した効率的な表現を設計したい。 この判別性は、テキスト分類タスクで適切に評価することができる。 文書から識別キーワードを抽出する新しい手法を提案する。 単語特徴ベクトルを用いて単語間の関係をよりよく理解するとともに,テキスト内で議論され,直接言及されることなく論理的に推測される潜在トピックについても理解する。 また,抽出された識別語から文書の特徴ベクトルを計算する簡易な方法を提案する。 本手法は,テキスト分類のための4つの最もポピュラーなデータセットについて評価する。 異なる識別指標が全体の結果にどのように影響するかを示す。 少数の抽出キーワードを用いて,テキスト分類作業における最先端結果の達成によるアプローチの有効性を示す。 単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善できることを示す。 単語の分散表現は、ドキュメントの特徴ベクトルを実証し構築する際に、より高いレベルの抽象化を構築するために使用できると結論づける。

Word feature vectors have been proven to improve many NLP tasks. With recent advances in unsupervised learning of these feature vectors, it became possible to train it with much more data, which also resulted in better quality of learned features. Since it learns joint probability of latent features of words, it has the advantage that we can train it without any prior knowledge about the goal task we want to solve. We aim to evaluate the universal applicability property of feature vectors, which has been already proven to hold for many standard NLP tasks like part-of-speech tagging or syntactic parsing. In our case, we want to understand the topical focus of text documents and design an efficient representation suitable for discriminating different topics. The discriminativeness can be evaluated adequately on text categorisation task. We propose a novel method to extract discriminative keywords from documents. We utilise word feature vectors to understand the relations between words better and also understand the latent topics which are discussed in the text and not mentioned directly but inferred logically. We also present a simple way to calculate document feature vectors out of extracted discriminative words. We evaluate our method on the four most popular datasets for text categorisation. We show how different discriminative metrics influence the overall results. We demonstrate the effectiveness of our approach by achieving state-of-the-art results on text categorisation task using just a small number of extracted keywords. We prove that word feature vectors can substantially improve the topical inference of documents' meaning. We conclude that distributed representation of words can be used to build higher levels of abstraction as we demonstrate and build feature vectors of documents.
翻訳日:2022-11-29 14:27:46 公開日:2022-11-26
# Sketch2FullStack: フルスタックWebサイトのSkeletonコードの生成とディープラーニングとコンピュータビジョンを用いたSketchからのアプリケーション

Sketch2FullStack: Generating Skeleton Code of Full Stack Website and Application from Sketch using Deep Learning and Computer Vision ( http://arxiv.org/abs/2211.14607v1 )

ライセンス: Link先を確認
Somoy Subandhu Barua, Imam Mohammad Zulkarnain, Abhishek Roy, Md. Golam Rabiul Alam, Md Zia Uddin(参考訳) フルスタックのwebサイトやアプリの開発には、ソフトウェア会社やより具体的には、経験豊富な開発者のチームがwebサイトの設計とコードへの変換のために、時間とリソースの大部分を貢献しなければならない。 その結果、uiワイヤフレームとデータベーススキーマを実際の作業システムに変換する場合、開発チームの効率は大幅に低下します。 クライアントや開発者がこのプロセスを自動化することで、ビルド済みのフルスタックのWebサイト設計を、完全な動作コードでなければ部分的に動作させることができます。 本稿では,Deep LearningとComputer Visionを用いたスケッチ画像からスケルトンコードを生成する手法を提案する。 トレーニング用のデータセットは、低忠実度ワイヤフレーム、データベーススキーマ、クラスダイアグラムのファーストハンドスケッチイメージである。 アプローチは3つの部分からなる。 まず、フロントエンドまたはUI要素がカスタムメイドのUIワイヤーフレームから検出および抽出する。 次に、スキーマ設計から個々のデータベーステーブルを作成し、最後にクラス図からクラスファイルを作成します。

For a full-stack web or app development, it requires a software firm or more specifically a team of experienced developers to contribute a large portion of their time and resources to design the website and then convert it to code. As a result, the efficiency of the development team is significantly reduced when it comes to converting UI wireframes and database schemas into an actual working system. It would save valuable resources and fasten the overall workflow if the clients or developers can automate this process of converting the pre-made full-stack website design to get a partially working if not fully working code. In this paper, we present a novel approach of generating the skeleton code from sketched images using Deep Learning and Computer Vision approaches. The dataset for training are first-hand sketched images of low fidelity wireframes, database schemas and class diagrams. The approach consists of three parts. First, the front-end or UI elements detection and extraction from custom-made UI wireframes. Second, individual database table creation from schema designs and lastly, creating a class file from class diagrams.
翻訳日:2022-11-29 14:27:22 公開日:2022-11-26
# 機能的mri随伴行列から脳原発腫瘍の悪性度を予測する深部神経進化

Deep neuroevolution to predict primary brain tumor grade from functional MRI adjacency matrices ( http://arxiv.org/abs/2211.14500v1 )

ライセンス: Link先を確認
Joseph Stember, Mehrnaz Jenabi, Luca Pasquini, Kyung Peck, Andrei Holodny and Hrithwik Shalu(参考訳) MRIが脳の解剖学的情報を生成するのに対し、機能MRI(fMRI)は脳内の神経活動について教えてくれます。 脳内の会話の完全なコーラスは、隣接マトリックスでエレガントに要約される。 情報に富むが、隣接行列は通常直観的な方法ではほとんど提供しない。 解剖学的MRIを観察する訓練された放射線学者は、異なる種類の脳がんを区別することができるが、隣接行列を用いた同様の判定は専門家の把握を超えている。 放射線学における人工知能(ai)は通常解剖学的イメージングを分析し、放射線科医に支援を提供する。 隣接行列のような直観的でないデータ型では、aiは役に立たないアシスタントの役割を超越する。 そこで我々は,隣接行列に基づいて,高次グリオーマ (HGG) と低次グリオーマ (LGG) の2つの重要な脳腫瘍の鑑別をAIが学べることを求めた。 近年の有望な結果により,畳み込みニューラルネットワーク (cnn) を深層神経進化 (dne) 法で訓練した。 たった30個の隣接行列でトレーニングした後、私たちのCNNは、完全なテストセットの正確さでLGGとの違いをHGGに伝えることができました。 ネットワークは高度に高度で複雑な特徴を習得し、その成功を達成した。 そこで我々は,脳腫瘍のタイプを機能的接続から認識することが可能であることを示した。 今後の研究では、DNEを、fMRIによるさらなる探索を含む、他の騒々しい、やや暗号的な医療データに適用する。

Whereas MRI produces anatomic information about the brain, functional MRI (fMRI) tells us about neural activity within the brain, including how various regions communicate with each other. The full chorus of conversations within the brain is summarized elegantly in the adjacency matrix. Although information-rich, adjacency matrices typically provide little in the way of intuition. Whereas trained radiologists viewing anatomic MRI can readily distinguish between different kinds of brain cancer, a similar determination using adjacency matrices would exceed any expert's grasp. Artificial intelligence (AI) in radiology usually analyzes anatomic imaging, providing assistance to radiologists. For non-intuitive data types such as adjacency matrices, AI moves beyond the role of helpful assistant, emerging as indispensible. We sought here to show that AI can learn to discern between two important brain tumor types, high-grade glioma (HGG) and low-grade glioma (LGG), based on adjacency matrices. We trained a convolutional neural networks (CNN) with the method of deep neuroevolution (DNE), because of the latter's recent promising results; DNE has produced remarkably accurate CNNs even when relying on small and noisy training sets, or performing nuanced tasks. After training on just 30 adjacency matrices, our CNN could tell HGG apart from LGG with perfect testing set accuracy. Saliency maps revealed that the network learned highly sophisticated and complex features to achieve its success. Hence, we have shown that it is possible for AI to recognize brain tumor type from functional connectivity. In future work, we will apply DNE to other noisy and somewhat cryptic forms of medical data, including further explorations with fMRI.
翻訳日:2022-11-29 14:27:03 公開日:2022-11-26
# ニューラルネットワークが機能する理由

Why Neural Networks Work ( http://arxiv.org/abs/2211.14632v1 )

ライセンス: Link先を確認
Sayandev Mukherjee, Bernardo A. Huberman(参考訳) 多層パーセプトロン(multi-layer perceptrons, mlps)とも呼ばれる完全結合型フィードフォワードニューラルネットワーク(fcnns)の多くの特性は、入力よりも高次元空間へのランダム射影とスパーシフィケーション演算の1対の分析から説明可能である。 便宜上、dasguptaの用語に従って、この連続した操作のペアをexpand-sparsifyと呼びます。 本稿では,いわゆるロッテリ・チェケット仮説,ランダム初期化未学習ニューラルネットワークの驚くほど優れた性能,トレーニングにおけるDropoutの有効性,特にZhangらによって最初に強調された過度パラメータ化モデルの謎的な一般化能力,そしてその後ベルキンらによる非神経ネットワークモデルにおいても同定されたような文献で議論された現象を,いかに拡大・スパーシフィケートが説明できるかを示す。

We argue that many properties of fully-connected feedforward neural networks (FCNNs), also called multi-layer perceptrons (MLPs), are explainable from the analysis of a single pair of operations, namely a random projection into a higher-dimensional space than the input, followed by a sparsification operation. For convenience, we call this pair of successive operations expand-and-sparsify following the terminology of Dasgupta. We show how expand-and-sparsify can explain the observed phenomena that have been discussed in the literature, such as the so-called Lottery Ticket Hypothesis, the surprisingly good performance of randomly-initialized untrained neural networks, the efficacy of Dropout in training and most importantly, the mysterious generalization ability of overparameterized models, first highlighted by Zhang et al. and subsequently identified even in non-neural network models by Belkin et al.
翻訳日:2022-11-29 14:26:26 公開日:2022-11-26