このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220521となっている論文です。

PDF登録状況(公開日: 20220521)

TitleAuthorsAbstract論文公表日・翻訳日
# 電子構造のハミルトニアン分解におけるフェルミオン数の利用

Exploiting fermion number in factorized decompositions of the electronic structure Hamiltonian ( http://arxiv.org/abs/2107.07238v2 )

ライセンス: Link先を確認
Sam McArdle, Earl Campbell, Yuan Su(参考訳) フェルミオン系の正確な記述を得るには、通常フェルミオンよりもかなり多くの軌道を必要とする。 量子化学シミュレーションの以前の資源分析では、トロッターベースの手法の実装において、この低いフェルミオン数情報を活用できず、結果として量子コンピュータランタイムを過大評価した。 それらはまた、計算コストが高すぎて実用上の大きなシステムまでスケールアップできない数値手順にも依存していた。 本稿では,電子構造ハミルトニアンの様々な因子分解を用いて両問題を解く手法を提案する。 我々は、一様電子ガスの手法を示し、低充填分率のトロッター誤差の大幅な改善(100倍以上)を発見し、既存の方法よりもはるかに多くの軌道へと押し上げる。 最後に、Jelium上で位相推定を行うためにTカウントを計算する。 低充填状態下では, これまでに報告された最も優れたトロッターベースアプローチと比較して, 10倍以上のゲート複雑性の改善が見られた。 また,wigner-seitz値に対する量子化法と競合するゲート数についても報告する。

Achieving an accurate description of fermionic systems typically requires considerably many more orbitals than fermions. Previous resource analyses of quantum chemistry simulation often failed to exploit this low fermionic number information in the implementation of Trotter-based approaches and overestimated the quantum-computer runtime as a result. They also depended on numerical procedures that are computationally too expensive to scale up to large systems of practical interest. Here we propose techniques that solve both problems by using various factorized decompositions of the electronic structure Hamiltonian. We showcase our techniques for the uniform electron gas, finding substantial (over 100x) improvements in Trotter error for low-filling fraction and pushing to much higher numbers of orbitals than is possible with existing methods. Finally, we calculate the T-count to perform phase-estimation on Jellium. In the low-filling regime, we observe improvements in gate complexity of over 10x compared to the best Trotter-based approach reported to date. We also report gate counts competitive with qubitization-based approaches for Wigner-Seitz values of physical interest.
翻訳日:2023-03-22 05:21:55 公開日:2022-05-21
# 総括スクイーズドコヒーレント状態の流体力学的解釈:運動論的理論

Hydrodynamic interpretation of generic squeezed coherent states: A kinetic theory ( http://arxiv.org/abs/2110.01102v2 )

ライセンス: Link先を確認
Nezihe Uzun(参考訳) 量子力学の流体力学的解釈は、粒子の系を効果的に扱う。 本研究では,流体力学的解釈における圧縮コヒーレント状態について検討する。 問題のハミルトン作用素は時間依存、n-次元、二次順序である。 まず、圧縮されたコヒーレント状態に対する位相空間ウィグナー確率分布と関連する平衡エントロピーを導出する。 次に,ジョイント位相空間分布を,位置選択後に条件づけられた限界位置分布と運動量分布の2つの部分に分割する。 条件的に平均されたモーメントは、弱い測定とのつながりが既に知られているボームのモーメントと等しいことが示される。 また,シンプレクティック相空間ダイナミクスのせん断,拡大,回転成分を同定することで,対応する古典系の進化を追跡する。 これにより、量子統計学の概念の根底にある古典運動のどの部分が現れるのかを特定できる。 確率分布がフォッカー・プランク方程式を正確に満たすことを示す。 それらは、平衡エントロピーを、古典的速度論のサックル・テトロドエントロピーのように、位置やモーメントにおいて欠落した情報に分解するのに使うことができる。 最終的に、古典力学理論と同じ方法で互いに関連する量子圧力、量子温度、量子内部エネルギーを定義する。 量子ポテンシャルは内部エネルギーの運動的部分と周囲のゆらぎを包含していることを示す。 これにより、量子条件 virial relation を提案できる。 最後に、運動的内部エネルギーは、量子発振器のエネルギーがマスロフ指数にリンクされている場合と同様、基礎となる古典力学のフーリエ変換器部分とリンクしていることを示す。

The hydrodynamic interpretation of quantum mechanics treats a system of particles in an effective manner. In this work, we investigate squeezed coherent states within the hydrodynamic interpretation. The Hamiltonian operator in question is time dependent, n-dimensional and in quadratic order. We start by deriving a phase space Wigner probability distribution and an associated equilibrium entropy for the squeezed coherent states. Then, we decompose the joint phase space distribution into two portions: a marginal position distribution and a momentum distribution that is conditioned on the post-selection of positions. Our conditionally averaged momenta are shown to be equal to the Bohm's momenta whose connection to the weak measurements is already known. We also keep track of the corresponding classical system evolution by identifying shear, magnification and rotation components of the symplectic phase space dynamics. This allows us to pinpoint which portion of the underlying classical motion appears in which quantum statistical concept. We show that our probability distributions satisfy the Fokker-Planck equations exactly. They can be used to decompose the equilibrium entropy into the missing information in positions and in momenta as in the Sackur-Tetrode entropy of the classical kinetic theory. Eventually, we define a quantum pressure, a quantum temperature and a quantum internal energy which are related to each other in the same fashion as in the classical kinetic theory. We show that the quantum potential incorporates the kinetic part of the internal energy and the fluctuations around it. This allows us to suggest a quantum conditional virial relation. In the end, we show that the kinetic internal energy is linked to the fractional Fourier transformer part of the underlying classical dynamics similar to the case where the energy of a quantum oscillator is linked to its Maslov index.
翻訳日:2023-03-12 16:05:23 公開日:2022-05-21
# ホログラフィック時空、ブラックホール、量子誤差補正符号

Holographic spacetime, black holes and quantum error correcting codes: A review ( http://arxiv.org/abs/2110.14669v2 )

ライセンス: Link先を確認
Tanay Kibe, Prabha Mandayam and Ayan Mukhopadhyay(参考訳) 本稿では、ブラックホールからのホーキング放射のページ曲線の再現にこれらの発展がどのように寄与したかの説明を含む、双対場理論からのホログラフィック対応におけるバルク時空の再構成に関する我々の理解の進展を概観する。 テンソルネットワークに基づく量子誤差補正と関連する回復マップについて検討し、双対場理論における作用素代数の性質と矛盾が自然に解決されるようなバルク再構成のフレームワークをどのように提供するかについて議論する。 双対体論におけるモジュラーフローを理解する重要性が強調されている。 極値面からの入力とバルク演算子のエンコーディングの複雑さの定量化による量子誤差補正の枠組みにおいて、ブラックホールのマイクロステートの再構成状態依存性がどのように定式化できるかを考察する。 最後に,ブラックホール相補性原理が情報パラドックスに遭遇することなくどのように機能するかを照らし出し,ホーキング放射にエンコードする望ましい特徴の生成に関する新たな知見を提供するため,ブラックホールの移動可能なマイクロステートモデルの構築を動機付け,議論する。

This article reviews the progress in our understanding of the reconstruction of the bulk spacetime in the holographic correspondence from the dual field theory including an account of how these developments have led to the reproduction of the Page curve of the Hawking radiation from black holes. We review quantum error correction and relevant recovery maps with toy examples based on tensor networks, and discuss how it provides the desired framework for bulk reconstruction in which apparent inconsistencies with properties of the operator algebra in the dual field theory are naturally resolved. The importance of understanding the modular flow in the dual field theory has been emphasized. We discuss how the state-dependence of reconstruction of black hole microstates can be formulated in the framework of quantum error correction with inputs from extremal surfaces along with a quantification of the complexity of encoding of bulk operators. Finally, we motivate and discuss a class of tractable microstate models of black holes which can illuminate how the black hole complementarity principle can emerge operationally without encountering information paradoxes, and provide new insights into generation of desirable features of encoding into the Hawking radiation.
翻訳日:2023-03-10 03:09:08 公開日:2022-05-21
# $s$-matrix と rg フローの uv/ir 対称性

UV/IR symmetries of the $S$-matrix and RG flow ( http://arxiv.org/abs/2112.03472v2 )

ライセンス: Link先を確認
Silas R. Beane and Roland C. Farrell(参考訳) 有限距離力から生じる非相対論的散乱を記述する低エネルギー$S$-行列は、対応する有効場理論(EFT)作用に隠れたUV/IR対称性を持つ。 s$行列対称性は、3次元と2次元の空間次元におけるeft作用における結合定数の rg フローの幾何学的対称性として表される。 例えば、$S$-行列におけるUV/IR対称性の破れは、EDTの対応する対称性の破れ作用素の係数のRGフローに強い制約を与えることを示す。

The low energy $S$-matrix which describes non-relativistic scattering arising from finite-range forces has UV/IR symmetries that are hidden in the corresponding effective field theory (EFT) action. It is shown that the $S$-matrix symmetries are manifest as geometric symmetries of the RG flow of coupling constants in the EFT action in both three and two spatial dimensions. An example is given demonstrating that UV/IR symmetry breaking in the $S$-matrix implies strong constraints on the RG flow of the coefficients of the corresponding symmetry-breaking operators in the EFT.
翻訳日:2023-03-05 08:03:16 公開日:2022-05-21
# 一次元量子ウォークにおける異常拡散のキャラクタリゼーション

Characterization of anomalous diffusion in one-dimensional quantum walks ( http://arxiv.org/abs/2112.14611v2 )

ライセンス: Link先を確認
Abhaya S. Hegde, C. M. Chandrashekar(参考訳) 量子ウォーク(quantum walk)は、古典的なウォークよりも2次的に速く伝播し、様々な量子系の力学をモデル化するために用いられる。 位置空間における量子ウォークの広がりは異常な拡散挙動を示す。 ウォーカーの自由度に対する量子コイン操作の作用を制御することにより、拡散挙動に対する制御を示すことができる。 本研究では,異常拡散挙動を示す量子ウォークにおけるコイン操作の異なる形態について報告する。 均質で加速された量子ウォークは超拡散的挙動を示し、一方、進化における非相関な静的および動的障害は、微分的および正常な拡散的挙動を示す粒子の強弱な局在を誘導する。 ウォーカーの拡散における干渉効果が果たした役割は、いまだに解明されておらず、本研究における我々の目的は、量子コヒーレンスとウォーカーの平均二乗変位の相互作用を提示することである。 量子ウォークの力学における異常拡散挙動の背後にある駆動力としての量子干渉の役割を決定的に確立するために、2つの信頼性の高いコヒーレンス尺度を用いる。

Quantum walks are known to propagate quadratically faster than their classical counterparts and are used to model dynamics in various quantum systems. The spread of the quantum walk in position space shows anomalous diffusion behavior. By controlling the action of quantum coin operation on the corresponding coin degree of freedom of the walker, one can demonstrate control over the diffusion behavior. In this work, we report different forms of coin operations on quantum walks exhibiting anomalous diffusion behavior. Homogeneous and accelerated quantum walks display superdiffusive behavior, whereas uncorrelated static and dynamic disorders in the evolution induce strong and weak localization of the particle indicating subdiffusive and normal diffusive behavior. The role played by the interference effects in the spreading of the walker has remained elusive and our aim in this work is to present the interplay between quantum coherence and mean squared displacement of the walker. We employ two reliable measures of coherence for conclusively establishing the role of quantum interference as the driving force behind the anomalous diffusive behavior in the dynamics of quantum walks.
翻訳日:2023-03-02 23:28:10 公開日:2022-05-21
# 生体指紋システムにおけるユーザ認識の評価

Evaluation of User Perception on Biometric Fingerprint System ( http://arxiv.org/abs/2205.10695v1 )

ライセンス: Link先を確認
Jones Yeboah, Victor Adewopo, Sylvia Azumah, Izunna Okpala(参考訳) 生体認証システムは、システムを高度に安全かつ堅牢にするためのセキュリティ保証を伴う。 現在、バイオメトリック技術は、強力なプライバシーとセキュリティを強制するために、新しいシステムに修正されている。 いくつかの革新的なシステムが導入されており、そのほとんどは軍事基地や銀行機械、オンライン追跡システムなどの高度なシステムを保護するためのバイオメトリックスを備えている。 企業は自分のコア機能に集中し、データセキュリティに自信を持つことができる。 バイオメトリックスが提供するセキュリティの利点と拡張にもかかわらず、いくつかの脆弱性もある。 本研究は,医療施設におけるバイオメトリック・システムの脆弱性を調査し,バイオメトリック・システムの脆弱性に対する対策を提案する。

Biometric systems involve security assurance to make our system highly secured and robust. Nowadays, biometric technology has been fixed into new systems with the aim of enforcing strong privacy and security. Several innovative system have been introduced, and most of them have biometrics installed to protect military bases, banking machines, and other sophisticated systems, such as online tracking systems. Businesses can now focus on their core functions and feel confident about their data security. Despite the benefits and enhancements in security that biometrics offer, there are also some vulnerabilities. This study aimed to investigate the biometric vulnerabilities in a healthcare facility and propose possible countermeasures for biometric system vulnerabilities.
翻訳日:2023-02-19 17:08:14 公開日:2022-05-21
# ブロックチェーンによるプライバシ保護による接触追跡フレームワークのパンデミック

Blockchain Driven Privacy Preserving Contact Tracing Framework in Pandemics ( http://arxiv.org/abs/2202.09407v2 )

ライセンス: Link先を確認
Xiao Li, Weili Wu, Tiantian Chen(参考訳) 接触追跡は、新型コロナウイルスのパンデミックなどのパンデミックに広がるウイルスを抑える効果的なアプローチであることが証明されている。 強力な分散技術として、ブロックチェーンは接触追跡プロセスにおけるデータのプライバシとセキュリティを確保するために研究されている。 しかし、既存の作業はほとんど高レベルな設計であり、十分なデモがなく、ブロックチェーンをサードパーティの中央サーバを支援する独立したストレージシステムとして扱い、コンセンサスメカニズムとインセンティブメカニズムの重要性と能力を無視している。 本稿では,このギャップを埋めるために,軽量で完全にサードパーティのBlockchain-Driven Contact Tracing Framework (BDCT)を提案する。 bdctフレームワークでは、接触者追跡の正確性を確保するためにrsa暗号に基づくトランザクション検証法(rsa-tvm)が提案されており、各人が連絡先情報の検証に失敗する確率が60\%である場合でも、96\%以上の接触者記録精度を達成可能である。 評価補正デリゲート・デリゲート・オブ・ステーク(rc-dpos)のコンセンサスメカニズムは、コンタクトケースを報告し、ブロックチェーンを分散に保つためのインセンティブメカニズムとともに提案されている。 人口密度に基づく3つの異なる接触シナリオを考慮した新しい接触追跡シミュレーション環境を構築した。 シミュレーションの結果,提案BDCTにおけるRSA-TVMとRC-DPoSの有効性,ロバスト性,耐攻撃性を示した。

Contact tracing has been proven an effective approach to control the virus spread in pandemics like COVID-19 pandemic. As an emerging powerful decentralized technique, blockchain has been explored to ensure data privacy and security in contact tracing processes. However, existing works are mostly high-level designs with no sufficient demonstration and treat blockchain as separate storage system assisting third-party central servers, ignoring the importance and capability of consensus mechanism and incentive mechanism. In this paper, we propose a light-weight and fully third-party free Blockchain-Driven Contact Tracing framework (BDCT) to bridge the gap. In the BDCT framework, RSA encryption based transaction verification method (RSA-TVM) is proposed to ensure contact tracing correctness, which can achieve more than 96\% contact cases recording accuracy even each person has 60\% probability of failing to verify the contact information. Reputation Corrected Delegated Proof of Stake (RC-DPoS) consensus mechanism is proposed together with the incentive mechanism, which can ensure timeliness of reporting contact cases and keep blockchain decentralized. A novel contact tracing simulation environment is created, which considers three different contact scenarios based on population density. The simulation results demonstrate the effectiveness, robustness and attack resistance of RSA-TVM and RC-DPoS in the proposed BDCT.
翻訳日:2023-02-19 15:03:50 公開日:2022-05-21
# 技術倫理と行動 : 批判的・学際的視点

Technology Ethics in Action: Critical and Interdisciplinary Perspectives ( http://arxiv.org/abs/2202.01351v2 )

ライセンス: Link先を確認
Ben Green (editor)(参考訳) この特集は、デジタル技術研究、開発、利用、ガバナンスへの倫理の埋め込みという「技術倫理」の意味と影響を問うものである。 デジタル技術に関連する社会的危害に関する懸念に応えて、多くの個人や機関は、デジタル技術における倫理に重点を置く必要性を強調した。 しかし、より多くのグループが倫理の概念を受け入れるにつれて、倫理がどの倫理の中心にあるのか、"倫理"が技術を改善するための適切な枠組みなのか、実際に"倫理的"な技術を開発することの意味について、批判的な議論が生まれてきた。 この学際的な問題はこれらの問題を取り上げ、倫理、技術、社会の関係を問うものである。 この特別問題には、倫理そのものの規範的・論争的な概念、ドメイン間の技術と倫理がどのように統合されているか、そしてより公正で平等主義的な技術をサポートするための潜在的な道のりなどが含まれる。 この論文の著者たちは、哲学理論から始めるのではなく、現実の言説や技術倫理の影響、すなわち技術倫理の行動に関する記事を整理している。

This special issue interrogates the meaning and impacts of "tech ethics": the embedding of ethics into digital technology research, development, use, and governance. In response to concerns about the social harms associated with digital technologies, many individuals and institutions have articulated the need for a greater emphasis on ethics in digital technology. Yet as more groups embrace the concept of ethics, critical discourses have emerged questioning whose ethics are being centered, whether "ethics" is the appropriate frame for improving technology, and what it means to develop "ethical" technology in practice. This interdisciplinary issue takes up these questions, interrogating the relationships among ethics, technology, and society in action. This special issue engages with the normative and contested notions of ethics itself, how ethics has been integrated with technology across domains, and potential paths forward to support more just and egalitarian technology. Rather than starting from philosophical theories, the authors in this issue orient their articles around the real-world discourses and impacts of tech ethics--i.e., tech ethics in action.
翻訳日:2023-02-19 14:39:22 公開日:2022-05-21
# 液体ヘリウムに対する電子のマイクロ波スターク効果による電流

Electric Current Induced by Microwave Stark Effect of Electrons on Liquid Helium ( http://arxiv.org/abs/2205.10557v1 )

ライセンス: Link先を確認
T. Wang, M. Zhang, and L. F. Wei(参考訳) 液体ヘリウム表面に浮遊する電子の低温におけるテラヘルツ(THz)およびギガヘルツ(GHz)電磁波の周波数混合効果を提案する。 THz波は、表面状態電子の最低2レベル間の遷移周波数とほぼ共鳴している。 GHz波は遷移を励起しないが、液体ヘリウム上の電子の対称性を破る固有状態を持つGHz変化のスターク効果を生成する。 入力されたthz波とghz波の効果的な結合を示す。これは電子とthz波のデチューニングがghz波の周波数と等しいという臨界点に現れる。 この結合により、THzおよびGHz波は電子を協調的に励起し、液体ヘリウム表面の垂直方向に沿った低周波交流電流を生成し、画像チャージアプローチ(Phys. Rev. Lett. 123, 086801 (2019))]により実験的に検出される。 これはthz検出の代替アプローチを提供する。

We propose a frequency-mixed effect of Terahertz (THz) and Gigahertz (GHz) electromagnetic waves in the cryogenic system of electrons floating on liquid helium surface. The THz wave is near-resonant with the transition frequency between the lowest two levels of surface state electrons. The GHz wave does not excite the transitions but generates a GHz-varying Stark effect with the symmetry-breaking eigenstates of electrons on liquid helium. We show an effective coupling between the inputting THz and GHz waves, which appears at the critical point that the detuning between electrons and THz wave is equal to the frequency of GHz wave. By this coupling, the THz and GHz waves cooperatively excite electrons and generate the low-frequency ac currents along the perpendicular direction of liquid helium surface to be experimentally detected by the image-charge approach [Phys. Rev. Lett. 123, 086801 (2019)]. This offers an alternative approach for THz detections.
翻訳日:2023-02-12 05:34:27 公開日:2022-05-21
# 分子内励起レーザー駆動電子ダイナミクスの量子計算アルゴリズム

A Quantum-compute Algorithm for Exact Laser-driven Electron Dynamics in Molecules ( http://arxiv.org/abs/2205.10543v1 )

ライセンス: Link先を確認
Fabian Langkabel, Annika Bande(参考訳) 本研究では,水酸化リチウムなどの小分子のレーザー駆動電子動力学をシミュレートするフォールトトレラント量子コンピューティングのための既知の量子計算アルゴリズムの能力について検討する。 これらの計算は量子コンピュータシミュレータ上で実行される。 結果はtd-fci(time-dependent full configuration interaction method)と比較される。 実際の波束伝播は、ヨルダン・ウィグナー変換とトロッター積公式を用いて密に再現される。 また、時間依存期待値の例として、時間依存双極子モーメントをハダマール検定を用いて算出する。 非エルミート作用素を力学に含めるために、量子想像時間進化(QITE)アルゴリズムに類似したアプローチを用いて、プロパゲータを量子ゲートに変換する。 したがって、複素吸収電位の影響下での水素分子のイオン化を正確にシミュレートすることができる。 すべての量子コンピュータアルゴリズムは指数関数的にTD-FCIとしてではなく、多項式的にスケールし、将来ますます大きな分子系の電子力学の理解においてかなりの進歩を約束する。

In this work, we investigate the capability of known quantum-computing algorithms for fault-tolerant quantum computing to simulate the laser-driven electron dynamics in small molecules such as lithium hydride. These computations are executed on a quantum-computer simulator. Results are compared with the time-dependent full configuration interaction method (TD-FCI). The actual wave packet propagation is closely reproduced using the Jordan-Wigner transformation and the Trotter product formula. In addition, the time-dependent dipole moment, as an example of a time-dependent expectation value, is calculated using the Hadamard test. In order to include non-Hermitian operators in the dynamics, a similar approach to the quantum imaginary time evolution (QITE) algorithm is employed to translate the propagator into quantum gates. Thus, ionization of a hydrogen molecule under the influence of a complex absorbing potential can be simulated accurately. All quantum computer algorithms used scale polynomially rather than exponentially as TD-FCI and therefore hold promise for substantial progress in the understanding of electron dynamics of increasingly large molecular systems in the future.
翻訳日:2023-02-12 05:34:09 公開日:2022-05-21
# フラットバンド系におけるiii型クーロン様ポテンシャルによる無限境界状態と1/n$エネルギースペクトル

Infinite bound states and $1/n$ energy spectrum induced by a Coulomb-like potential of type III in a flat band system ( http://arxiv.org/abs/2205.10477v1 )

ライセンス: Link先を確認
Yi-Cai Zhang(参考訳) 本研究では, 1次元スピン-1フラットバンド系において, 固有な非有界行列要素を持つiii型クーロンのようなポテンシャルを持つ一次元のスピン-1フラットバンド系において, $|1\rangle$ を基本とする境界状態について検討する。 そのようなポテンシャルに対して、無限の有界状態が存在することが分かる。 連続スペクトルのしきい値付近では、境界状態エネルギーはライドバーグ補正を伴う通常の水素様原子エネルギー準式と一致する。 さらに、平らなバンドは境界状態に大きな影響を及ぼす。 例えば、フラットバンドから生成される無限境界状態が存在する。 さらに、ポテンシャルが弱ければ、束縛状態エネルギーはクーロンのようなポテンシャル強度$\alpha$に比例する。 境界状態エネルギーがフラットバンドに非常に近い場合、自然数 $n$ に逆比例する(例えば、$e_n\propto 1/n, n=1,2,3,...$)。 さらに、エネルギースペクトルは準古典近似(WKB法)によってよく説明できることがわかった。 最後に、境界状態エネルギーが連続スペクトルのしきい値に達する臨界ポテンシャル強度$\alpha_c$を与える。 しきい値を越えると、連続体(BIC)の有界状態はそのような平らなバンド系に存在するかもしれない。

In this work, we investigate the bound states in a one-dimensional spin-1 flat band system with a Coulomb-like potential of type III, which has a unique non-vanishing matrix element in basis $|1\rangle$. It is found that, for such a kind of potential, there exists infinite bound states. Near the threshold of continuous spectrum, the bound state energy is consistent with the ordinary hydrogen-like atom energy level formula with Rydberg correction. In addition, the flat band has significant effects on the bound states. For example, there are infinite bound states which are generated from the flat band. Furthermore, when the potential is weak, the bound state energy is proportional to the Coulomb-like potential strength $\alpha$. When the bound state energies are very near the flat band, they are inversely proportional to the natural number $n$ (e.g., $E_n\propto 1/n, n=1,2,3,...$). Further we find that the energy spectrum can be well described by quasi-classical approximation (WKB method). Finally, we give a critical potential strength $\alpha_c$ at which the bound state energy reaches the threshold of continuous spectrum. \textbf{After crossing the threshold, the bound states in the continuum (BIC) may exist in such a flat band system.
翻訳日:2023-02-12 05:33:33 公開日:2022-05-21
# 平面帯に誘起される無限境界状態と水素原子様エネルギースペクトル

Infinite bound states and hydrogen atom-like energy spectrum induced by a flat band ( http://arxiv.org/abs/2205.10474v1 )

ライセンス: Link先を確認
Yi-Cai Zhang and Guo-Bao Guo(参考訳) 本研究では,平面バンドを持つ1次元スピン-1 ディラック・ハミルトンの有界状態問題について検討する。 その結果, 平坦帯は境界状態に有意な影響を及ぼすことがわかった。 例えば、ディラックデルタポテンシャル $g\delta(x)$ に対して、正および負のポテンシャル強度 $g$ の有界状態が存在する。 さらに、ポテンシャルが弱ければ、束縛状態エネルギーはポテンシャル強度$g$に比例する。 正方形井戸ポテンシャルに対して、フラットバンドは任意の弱ポテンシャルに対する無限有界状態の存在をもたらす。 さらに、バウンド状態エネルギーが平面バンドに非常に近いとき、エネルギーは水素原子に似たスペクトル、すなわち、バウンド状態エネルギーは自然数$n$(例えば$E_n\propto 1/n^2, n=1,2,3,...$)の平方に逆比例する。 上記の非自明な振る舞いのほとんどは、平坦なバンドの状態の無限大密度と、それに続くグリーン関数の1/z$特異性に起因する。 短距離ポテンシャルとフラットバンドの組み合わせは、無限個の結合状態と水素原子のようなエネルギースペクトルを得る新たな可能性をもたらす。 さらに, フラットバンドの多体物理学を理解する上で有用な知見が得られた。

In this work, we investigate the bound state problem in one dimensional spin-1 Dirac Hamiltonian with a flat band. It is found that, the flat band has significant effects on the bound states. For example, for Dirac delta potential $g\delta(x)$, there exists one bound state for both positive and negative potential strength $g$. Furthermore, when the potential is weak, the bound state energy is proportional to the potential strength $g$. For square well potential, the flat band results in the existence of infinite bound states for arbitrarily weak potential. In addition, when the bound state energy is very near the flat band, the energy displays hydrogen atom-like spectrum, i.e., the bound state energies are inversely proportional to the square of natural number $n$ (e.g., $E_n\propto 1/n^2, n=1,2,3,...$). Most of the above nontrivial behaviors can be attributed to the infinitely large density of states of flat band and its ensuing $1/z$ singularity of Green function. The combination of a short-ranged potential and flat band provides a new possibility to get infinite number of bound states and hydrogen atom-like energy spectrum. In addition, our findings would provide some useful insights in the understanding of many-body physics of flat band.
翻訳日:2023-02-12 05:33:12 公開日:2022-05-21
# 機械学習による四ビット交絡状態の分類

Classification of four-qubit entangled states via Machine Learning ( http://arxiv.org/abs/2205.11512v1 )

ライセンス: Link先を確認
S. V. Vintskevich, N. Bao, A. Nomerotski, P. Stankus, D.A. Grigoriev(参考訳) サポートベクターマシン (svm) アルゴリズムを適用し, 4量子状態の族における絡み合いパターンを同定するために, 絡み合い証人集合 (ew) を導出する。 実用EW実装におけるSVMの有効性は、等価な絡み合った量子状態の族を粗く記述することに由来する。 本研究における等価性基準は,確率的局所演算と古典的通信(SLOCC)分類と,四ビット交絡Werner状態の記述に基づく。 我々は,svmアプローチが,与えられた家族状態の粗粒度記述が利用可能である場合に,絡み合い証人問題に対処する効果的なツールであることを数値的に検証する。 また, 非線形カーネルsvm法の効率を, 4量子ビットエンタングル状態分類に適用して議論し, 実証する。

We apply the support vector machine (SVM) algorithm to derive a set of entanglement witnesses (EW) to identify entanglement patterns in families of four-qubit states. The effectiveness of SVM for practical EW implementations stems from the coarse-grained description of families of equivalent entangled quantum states. The equivalence criteria in our work is based on the stochastic local operations and classical communication (SLOCC) classification and the description of the four-qubit entangled Werner states. We numerically verify that the SVM approach provides an effective tool to address the entanglement witness problem when the coarse-grained description of a given family state is available. We also discuss and demonstrate the efficiency of nonlinear kernel SVM methods as applied to four-qubit entangled state classification.
翻訳日:2023-02-12 05:28:38 公開日:2022-05-21
# 単一光子損失の存在下での2光子吸収測定

Two-photon absorption measurements in the presence of single-photon losses ( http://arxiv.org/abs/2205.10675v1 )

ライセンス: Link先を確認
Shahram Panahiyan, Carlos S\'anchez Mu\~noz, Maria V. Chekhova, Frank Schlawin(参考訳) 送信光場の測定において,光の励起状態とコヒーレント状態の2光子吸収(TPA)がどのように検出できるかを論じる。 このような測定は、実験的な欠陥や試料内部の線形散乱損失といった競合する損失機構に悩まされ、2光子吸収断面積の誤った評価につながる。 我々は, TPAの検出感度を評価し, TPA感度が十分に大きな光子数で線形損失とは無関係になることを見出した。 特に、これは光子数の測定や反スケーズ場二次の測定において起こり、大きなゆらぎが反作用し、単一光子損失による劣化を正確にキャンセルする。

We discuss how two-photon absorption (TPA) of squeezed and coherent states of light can be detected in measurements of the transmitted light fields. Such measurements typically suffer from competing loss mechanisms such as experimental imperfections and linear scattering losses inside the sample itself, which can lead to incorrect assessments of the two-photon absorption cross section. We evaluate the sensitivity with which TPA can be detected and find that TPA sensitivity of squeezed vacua or squeezed coherent states can become independent of linear losses at sufficiently large photon numbers. In particular, this happens for measurements of the photon number or of the anti-squeezed field quadrature, where large fluctuations counteract and exactly cancel the degradation caused by single photon losses.
翻訳日:2023-02-12 05:28:13 公開日:2022-05-21
# パイロット波動力学における実超現実軌道

Real surreal trajectories in pilot-wave hydrodynamics ( http://arxiv.org/abs/2205.10628v1 )

ライセンス: Link先を確認
Valeri Frumkin, David Darrow, Ward Struyve and John W. M. Bush(参考訳) ある例では、ボーム力学によって予測される粒子経路は古典的直観と相反すると考えられている。 Englert, Scully, S\"ussmann and Walther による干渉実験では、ボヘミア軌道は現実ではあり得ず、したがって「超現実的」でなければならない、と著者らは主張する。 実験と数値の複合研究により、流体力学のパイロット波系における個々の軌道が、超現実的なボヘミアン系の重要な特徴を示すことを示した。 これらの実超現実的な古典的軌道は、システムの非マルコフ的パイロット波動力学の観点から合理的である。 本研究は,古典力学の限界とパイロット波の流体力学への親しみの欠如に関する誤解に基づいて,ボーム軌道をシュールリアルと指定することを明確にする。

In certain instances, the particle paths predicted by Bohmian mechanics are thought to be at odds with classical intuition. A striking illustration arises in the interference experiments envisaged by Englert, Scully, S\"ussmann and Walther, which lead the authors to claim that the Bohmian trajectories can not be real and so must be `surreal'. Through a combined experimental and numerical study, we here demonstrate that individual trajectories in the hydrodynamic pilot-wave system exhibit the key features of their surreal Bohmian counterparts. These real surreal classical trajectories are rationalized in terms of the system's non-Markovian pilot-wave dynamics. Our study thus makes clear that the designation of Bohmian trajectories as surreal is based on misconceptions concerning the limitations of classical dynamics and a lack of familiarity with pilot-wave hydrodynamics.
翻訳日:2023-02-12 05:28:00 公開日:2022-05-21
# 準結晶中のスペクトルギャップの発見

Finding spectral gaps in quasicrystals ( http://arxiv.org/abs/2205.10622v1 )

ライセンス: Link先を確認
Paul Hege, Massimo Moscolari, Stefan Teufel(参考訳) 有限領域上の数値計算に基づいて,準結晶秩序を持つハミルトンのスペクトルギャップの存在を確実かつ体系的に証明するアルゴリズムを提案する。 このアルゴリズムを用いて、平面のammann-beenkerティリング上のホフシュタッター模型が、あるエネルギーでスペクトルギャップを持つことを証明し、従来の数値結果が決定的でないスペクトルギャップの存在を証明できる。 このアルゴリズムは、有限局所複雑性を持つより一般的なシステムに適用でき、最終的にすべてのギャップを見つけ、一般ハミルトニアンのスペクトルギャップの計算可能性に関する以前のno-go定理を回避できる。

We present an algorithm for reliably and systematically proving the existence of spectral gaps in Hamiltonians with quasicrystalline order, based on numerical calculations on finite domains. We apply this algorithm to prove that the Hofstadter model on the Ammann-Beenker tiling of the plane has spectral gaps at certain energies, and we are able to prove the existence of a spectral gap where previous numerical results were inconclusive. Our algorithm is applicable to more general systems with finite local complexity and eventually finds all gaps, circumventing an earlier no-go theorem regarding the computability of spectral gaps for general Hamiltonians.
翻訳日:2023-02-12 05:27:44 公開日:2022-05-21
# 超決定論の直感的側面

Aspects of Superdeterminism Made Intuitive ( http://arxiv.org/abs/2205.10616v1 )

ライセンス: Link先を確認
Vitaly Nikolaev, Louis Vervoort(参考訳) 我々は超決定論をより直感的にし、特に決定論的モデルシステムであるビリヤードゲームをシミュレートする。 この系では、初期「バン」は超決定論的宇宙のように全ての事象を関連付ける。 文献の議論を明確にするために,「強い」と「ソフトな」超決定論の概念を導入する。 ビリヤードの類推から、超決定論的相関は原則として存在するが、すべての実用目的において検出不可能であることを示す。 これにより、科学的手法や新しい理論の構築と相反するであろうという主張のような超決定論に対する古典的異論に対抗することができる。 最後に、物理理論としての確率論は、超決定論がその競合相手よりも大きな説明力を持っていることを示している:他の立場が無力のままである問題に対して、コヒーレントに答えることができる。

We attempt to make superdeterminism more intuitive, notably by simulating a deterministic model system, a billiard game. In this system an initial 'bang' correlates all events, just as in the superdeterministic universe. We introduce the notions of 'strong' and 'soft' superdeterminism, in order to clarify debates in the literature. Based on the analogy with billiards, we show that superdeterministic correlations may exist as a matter of principle, but be undetectable for all practical purposes. This allows us to counter classical objections to superdeterminism such as the claim that it would be at odds with the scientific method, and with the construction of new theories. Finally, we show that probability theory, as a physical theory, indicates that superdeterminism has a greater explanatory power than its competitors: it can coherently answer questions for which other positions remain powerless.
翻訳日:2023-02-12 05:27:32 公開日:2022-05-21
# SWAPのコストが同じとは限らない:最適化対応のクビットルーティングの場合

Not All SWAPs Have the Same Cost: A Case for Optimization-Aware Qubit Routing ( http://arxiv.org/abs/2205.10596v1 )

ライセンス: Link先を確認
Ji Liu, Peiyi Li, Huiyang Zhou(参考訳) 量子コンピューティング技術の急速な進歩にもかかわらず、量子ビット接続制限は依然として重要な課題である。 NISQ量子コンピュータと比較的長期のスケーラブルな量子アーキテクチャの両方が完全な接続を提供していない。 その結果、量子回路は量子ハードウェア上で直接実行されることはなく、量子コンパイラはデバイスレイアウトと互換性を持たせるために量子ビットルーティングを実行する必要がある。 キュービットルーティングステップの間、コンパイラはSWAPゲートを挿入し、回路変換を行う。 ターゲットハードウェアの接続トポロジを考えると、一般的に複数のqubitルーティング候補が存在する。 最先端のコンパイラはコスト関数を使用して、異なるルートのSWAPゲートの数を評価し、最小数のSWAPゲートを選択する。 キュービットルーティング後、量子コンパイラは新たに挿入されたSWAPゲートで回路上でゲート最適化を行う。 本稿では,前述のqubitルーティングが最適ではないこと,およびqubitルーティングがその後のゲート最適化に依存しないことを観察する。 ゲート最適化を考えると、全てのスワップゲートが同じ基底ゲートコストを持つわけではないことが分かる。 これらの知見は、我々のキュービットルーティングアルゴリズムであるNASC(Not All Swaps have the Same Cost)の開発につながります。 NASSCはルーティングステップにおけるその後の最適化を検討する最初のアルゴリズムである。 我々の最適化対応キュービットルーティングは、より良いルーティング決定とその後の最適化の恩恵をもたらす。 また,挿入スワップゲートに対する新しい最適化・アウェア分解法を提案する。 私たちの実験では、ルーティングアルゴリズムでコンパイルされたルーティングのオーバーヘッドは、cnotゲート数で最大69.30\%$ (平均で21.30\%$)、回路深さで$43.50\%$ (平均で7.61\%$$) に減少することが示されています。

Despite rapid advances in quantum computing technologies, the qubit connectivity limitation remains to be a critical challenge. Both near-term NISQ quantum computers and relatively long-term scalable quantum architectures do not offer full connectivity. As a result, quantum circuits may not be directly executed on quantum hardware, and a quantum compiler needs to perform qubit routing to make the circuit compatible with the device layout. During the qubit routing step, the compiler inserts SWAP gates and performs circuit transformations. Given the connectivity topology of the target hardware, there are typically multiple qubit routing candidates. The state-of-the-art compilers use a cost function to evaluate the number of SWAP gates for different routes and then select the one with the minimum number of SWAP gates. After qubit routing, the quantum compiler performs gate optimizations upon the circuit with the newly inserted SWAP gates. In this paper, we observe that the aforementioned qubit routing is not optimal, and qubit routing should \textit{not} be independent on subsequent gate optimizations. We find that with the consideration of gate optimizations, not all of the SWAP gates have the same basis-gate cost. These insights lead to the development of our qubit routing algorithm, NASSC (Not All Swaps have the Same Cost). NASSC is the first algorithm that considers the subsequent optimizations during the routing step. Our optimization-aware qubit routing leads to better routing decisions and benefits subsequent optimizations. We also propose a new optimization-aware decomposition for the inserted SWAP gates. Our experiments show that the routing overhead compiled with our routing algorithm is reduced by up to $69.30\%$ ($21.30\%$ on average) in the number of CNOT gates and up to $43.50\%$ ($7.61\%$ on average) in the circuit depth compared with the state-of-the-art scheme, SABRE.
翻訳日:2023-02-12 05:27:19 公開日:2022-05-21
# 非退化量子ビットの定常絡み合い生成

Steady-state entanglement generation for non-degenerate qubits ( http://arxiv.org/abs/2205.10590v1 )

ライセンス: Link先を確認
Murilo H. Oliveira, Gerard Higgins, Chi Zhang, Ana Predojevi\'c, Markus Hennrich, Romain Bachelard, Celso J. Villas-Boas(参考訳) ボソニックモードとの相互作用により, 2量子ビット系の定常的絡み合いを散逸的に生成する手法を提案する。 このシステムは定常エンタングル状態に駆動され、コヒーレントポンプ場を介してエネルギーを注入することでモード散逸を補償する。 また,すべての個体群を,所望の絡み合った状態へ対話的に移動させる手法を提案する。 これらのスキームにおける絡み合った状態につながるダイナミクスは、それぞれ電磁誘導透過(EIT)と刺激されたラマン断熱路(STIRAP)の類似で理解することができる。

We propose a scheme to dissipatively produce steady-state entanglement in a two-qubit system, via an interaction with a bosonic mode. The system is driven into a stationary entangled state, while we compensate the mode dissipation by injecting energy via a coherent pump field. We also present a scheme which allows us to adiabatically transfer all the population to the desired entangled state. The dynamics leading to the entangled state in these schemes can be understood in analogy with electromagnetically induced transparency (EIT) and stimulated Raman adiabatic passage (STIRAP), respectively.
翻訳日:2023-02-12 05:26:48 公開日:2022-05-21
# 大規模構造からの等価原理違反

Equivalence principle violation from large scale structure ( http://arxiv.org/abs/2205.10566v1 )

ライセンス: Link先を確認
Luciano Petruzziello(参考訳) 我々は,大距離における時空曲率の影響を含む拡張不確実性原理として知られるハイゼンベルクの不確かさ関係の一般化と等価原理の相互作用を考察する。 具体的には、修正の不確実性関係が成立すると、量子系の慣性質量が位置依存となり、重力質量が無傷のままとなるため、同値原理の弱い定式化が破られることを観測する。 以上の結果を得るため、スピノル場とスカラー場は拡張不確実性原理の存在下でディラック方程式とクライン・ゴルドン方程式の非相対論的極限を考慮に入れて別々に解析される。 どちらのシナリオにおいても、慣性と重力質量の比は同じであることが判明した。

We explore the interplay between the equivalence principle and a generalization of the Heisenberg uncertainty relations known as extended uncertainty principle, that comprises the effects of spacetime curvature at large distances. Specifically, we observe that, when the modified uncertainty relations hold, the weak formulation of the equivalence principle is violated, since the inertial mass of quantum systems becomes position-dependent whilst the gravitational mass is left untouched. To obtain the above result, spinor and scalar fields are separately analyzed by considering the non-relativistic limit of the Dirac and the Klein-Gordon equations in the presence of the extended uncertainty principle. In both scenarios, it is found that the ratio between the inertial and the gravitational mass is the same.
翻訳日:2023-02-12 05:26:37 公開日:2022-05-21
# 局所フィルタリングによる隠れた標準三成分非局在性の解明

Revealing hidden standard tripartite nonlocality by local filtering ( http://arxiv.org/abs/2205.10562v1 )

ライセンス: Link先を確認
Qiao-Qiao Lv, Jin-Min Liang, Zhi-Xi Wang, Shao-Ming Fei(参考訳) 量子非局所性(quantum nonlocality)は、量子エンタングルメントやEPRステアリングよりも強い量子相関の一種である。 標準三部類非局所性は、メルミン不等式違反によって検出できる。 局所フィルタリング演算を用いることで、メルミン作用素の最大期待値の上限を厳密に設定する。 詳細な例により、隠れた標準非局所性は、雑音の絡み合った状態の堅牢性を高めることができる局所フィルタリングによって明らかにできることを示す。

Quantum nonlocality is a kind of significant quantum correlation that is stronger than quantum entanglement and EPR steering. The standard tripartite nonlocality can be detected by the violation of the Mermin inequality. By using local filtering operations, we give a tight upper bound on the maximal expected value of the Mermin operators. By detailed examples we show that the hidden standard nonlocality can be revealed by local filtering which can enhance the robustness of the noised entangled states.
翻訳日:2023-02-12 05:26:22 公開日:2022-05-21
# 集団カウントのためのベイズ型マルチスケールニューラルネットワーク

Bayesian Multi Scale Neural Network for Crowd Counting ( http://arxiv.org/abs/2007.14245v3 )

ライセンス: Link先を確認
Abhinav Sagar(参考訳) 群衆のカウントはコンピュータビジョンにおいて難しいが重要な問題である。 画像上の密度マップの推定に基づく畳み込みニューラルネットワークは、この領域で非常に成功している。 しかし、密集した群衆の数え上げは、激しい閉塞と様々な大きさの人々が出席できる視点のため、未解決の問題である。 本稿では,resnetベースの特徴抽出器,拡張畳み込みを用いたダウンサンプリングブロック,トランスポーズ畳み込みを用いたアップサンプリングブロックを用いた新しいネットワークを提案する。 本稿では,視点視点問題に対してネットワークを堅牢化する新しいアグリゲーションモジュールを提案する。 本研究では最適化の詳細,損失関数,アルゴリズムについて述べる。 評価指標としてmseとmaeを用いた上海テク, ucf-cc-50, ucf-qnrfデータセットの評価について, 本ネットワークは, 原理ベイズ方式で不確実性推定を行いつつ, 先行技術アプローチを上回っている。

Crowd Counting is a difficult but important problem in computer vision. Convolutional Neural Networks based on estimating the density map over the image has been highly successful in this domain. However dense crowd counting remains an open problem because of severe occlusion and perspective view in which people can be present at various sizes. In this work, we propose a new network which uses a ResNet based feature extractor, downsampling block which uses dilated convolutions and upsampling block using transposed convolutions. We present a novel aggregation module which makes our network robust to the perspective view problem. We present the optimization details, loss functions and the algorithm used in our work. On evaluating on ShanghaiTech, UCF-CC-50 and UCF-QNRF datasets using MSE and MAE as evaluation metrics, our network outperforms previous state of the art approaches while giving uncertainty estimates in a principled bayesian manner.
翻訳日:2022-11-11 13:00:21 公開日:2022-05-21
# 確率的ソフトウェアモデリングによる意味的クローン検出

Semantic Clone Detection via Probabilistic Software Modeling ( http://arxiv.org/abs/2008.04891v2 )

ライセンス: Link先を確認
Hannes Thaller, Lukas Linsbauer, and Alexander Egyed(参考訳) セマンティッククローン検出(Semantic clone detection)は、プログラム要素を同じまたは等しい実行動作で検出するプロセスである。 例えば、因子計算の帰納的および反復的な実装間の意味的等式を検出する。 意味的クローン検出は、事実上の技術的境界である。 近年、この境界は興味深い新しいアプローチでテストされている。 この記事では、構文的類似性0%のクローンを検出するセマンティッククローン検出手法を提案する。 本稿では,確率論的ソフトウェアモデリング(SCD-PSM)を用いた意味クローン検出手法を提案する。 PSMは実行時データの評価と生成が可能なプログラムの確率モデルを構築する。 SCD-PSMはこのモデルとそのモデル要素を利用して、振る舞いに等しいモデル要素を見つける。 この挙動等式は、元のプログラム要素の意味的等式に一般化される。 距離計量としてモデル要素間の可能性を用いる。 そして、予め特定され制御可能な偽陽性率から、この距離が有意かどうかを判定するために、確率比重み検定を用いる。 SCD-PSMの出力は、プログラム要素(すなわちメソッド)のペア、その距離、クローンかどうかの決定である。 scd-psmはマシューズ相関係数0.9以上の優れた結果が得られる。 これらの結果は、アルゴリズムの再帰的および反復的バージョンの検出のような古典的な意味的クローン検出問題だけでなく、符号化競合で使用される複雑な問題にもたらされる。

Semantic clone detection is the process of finding program elements with similar or equal runtime behavior. For example, detecting the semantic equality between the recursive and iterative implementation of the factorial computation. Semantic clone detection is the de facto technical boundary of clone detectors. In recent years, this boundary has been tested using interesting new approaches. This article contributes a semantic clone detection approach that detects clones that have 0% syntactic similarity. We present Semantic Clone Detection via Probabilistic Software Modeling (SCD-PSM) as a stable and precise solution to semantic clone detection. PSM builds a probabilistic model of a program that is capable of evaluating and generating runtime data. SCD-PSM leverages this model and its model elements for finding behaviorally equal model elements. This behavioral equality is then generalized to semantic equality of the original program elements. It uses the likelihood between model elements as a distance metric. Then, it employs the likelihood ratio significance test to decide whether this distance is significant, given a pre-specified and controllable false-positive rate. The output of SCD-PSM are pairs of program elements (i.e., methods), their distance, and a decision on whether they are clones or not. SCD-PSM yields excellent results with a Matthews Correlation Coefficient greater than 0.9. These results are obtained on classical semantic clone detection problems such as detecting recursive and iterative versions of an algorithm, but also on complex problems used in coding competitions.
翻訳日:2022-10-31 12:02:00 公開日:2022-05-21
# (参考訳) 確率的構造化文法進化

Probabilistic Structured Grammatical Evolution ( http://arxiv.org/abs/2205.10685v1 )

ライセンス: CC BY 4.0
Jessica M\'egane and Nuno Louren\c{c}o and Penousal Machado(参考訳) 文法に基づく遺伝的プログラミング(gp)法で用いられる文法は、その構文に解を制限することにより探索空間を定義するため、生成する解の品質に大きな影響を与える。 本研究では,確率的文法進化(Probabilistic Structured Grammatical Evolution, SGE)と確率的文法進化(Probabilistic Grammatical Evolution, PGE)の表現変異とマッピング機構を組み合わせた新しい手法を提案する。 ジェノタイプ(英: genotype)は、文法の各非終端に対して、次の確率的文脈自由文法(pcfg)の導出規則を選択する確率を表すリストの各要素を含む、動的リストのセットである。 PSGEは、調査された6つのベンチマーク問題すべてにおいて、統計的に文法的進化(GE)を上回った。 PGEと比較してPSGEは分析した6つの問題のうち4つを上回った。

The grammars used in grammar-based Genetic Programming (GP) methods have a significant impact on the quality of the solutions generated since they define the search space by restricting the solutions to its syntax. In this work, we propose Probabilistic Structured Grammatical Evolution (PSGE), a new approach that combines the Structured Grammatical Evolution (SGE) and Probabilistic Grammatical Evolution (PGE) representation variants and mapping mechanisms. The genotype is a set of dynamic lists, one for each non-terminal in the grammar, with each element of the list representing a probability used to select the next Probabilistic Context-Free Grammar (PCFG) derivation rule. PSGE statistically outperformed Grammatical Evolution (GE) on all six benchmark problems studied. In comparison to PGE, PSGE outperformed 4 of the 6 problems analyzed.
翻訳日:2022-06-27 08:12:06 公開日:2022-05-21
# グループ最適化による強化歩行者属性認識

Reinforced Pedestrian Attribute Recognition with Group Optimization Reward ( http://arxiv.org/abs/2205.14042v1 )

ライセンス: Link先を確認
Zhong Ji, Zhenfei Hu, Yaodong Wang, Shengjia Li(参考訳) Pedestrian Attribute Recognition (PAR)は、インテリジェントなビデオ監視における課題である。 PARの2つの重要な課題は、画像と属性の複雑なアライメント関係と不均衡なデータ分散である。 既存のアプローチは通常、認識タスクとしてPARを定式化する。 これらと異なり、本論文は強化学習フレームワークによる意思決定タスクとして扱う。 具体的には、PARは、創発的な状態、アクション空間、報酬関数、状態遷移を設計することで、マルコフ決定プロセス(MDP)として定式化される。 属性間不均衡問題を緩和するために、属性を各属性の地域やカテゴリ情報に応じてサブグループに分割してAGS(Attribute Grouping Strategy)を適用する。 次に,各属性群を認識するエージェントを用いて,深層q学習アルゴリズムを用いて学習する。 また, 分布内不均衡問題を軽減するグループ最適化報酬(gor)関数を提案する。 PETA, RAP, PA100Kの3つのベンチマークデータセットに対する実験結果は,提案手法の有効性と競争力を示し, PARへの強化学習の適用が研究上の有益であることを示す。

Pedestrian Attribute Recognition (PAR) is a challenging task in intelligent video surveillance. Two key challenges in PAR include complex alignment relations between images and attributes, and imbalanced data distribution. Existing approaches usually formulate PAR as a recognition task. Different from them, this paper addresses it as a decision-making task via a reinforcement learning framework. Specifically, PAR is formulated as a Markov decision process (MDP) by designing ingenious states, action space, reward function and state transition. To alleviate the inter-attribute imbalance problem, we apply an Attribute Grouping Strategy (AGS) by dividing all attributes into subgroups according to their region and category information. Then we employ an agent to recognize each group of attributes, which is trained with Deep Q-learning algorithm. We also propose a Group Optimization Reward (GOR) function to alleviate the intra-attribute imbalance problem. Experimental results on the three benchmark datasets of PETA, RAP and PA100K illustrate the effectiveness and competitiveness of the proposed approach and demonstrate that the application of reinforcement learning to PAR is a valuable research direction.
翻訳日:2022-06-12 09:33:56 公開日:2022-05-21
# (参考訳) 直視のための深層学習 : 調査と新たな展望

Deep Learning for Omnidirectional Vision: A Survey and New Perspectives ( http://arxiv.org/abs/2205.10468v1 )

ライセンス: CC BY 4.0
Hao Ai, Zidong Cao, Jinjing Zhu, Haotian Bai, Yucheng Chen and Ling Wang(参考訳) 全方位画像(odi)データは、ピンホールカメラよりもはるかに広く、従来の平面画像よりもリッチな空間情報を含む360x180の視野でキャプチャされる。 そのため、自動運転や仮想現実など、多くのアプリケーションでより有利な性能を持つため、全方向ビジョンが注目を集めている。 近年、顧客レベルの360度カメラが利用可能になり、全方向視界がより普及し、深層学習(DL)の進歩が研究や応用に大きな影響を与えている。 本稿では,全方位視覚のためのdl法の最近の進歩を体系的かつ包括的にレビューし,分析する。 私たちの作品は4つの主な内容をカバーしています 一 全方位画像の原理、ODI上の畳み込み方法及びデータセットの導入により、2次元平面画像データと比較した場合の差と難易度を明らかにすること。 二 全方向視覚のためのdl法の構造的及び階層的分類法 三 最新の新規学習戦略及び応用の概要 (4)コミュニティのさらなる研究を促すための潜在的研究の方向性を強調することで、課題とオープンな問題についての洞察に富んだ議論。

Omnidirectional image (ODI) data is captured with a 360x180 field-of-view, which is much wider than the pinhole cameras and contains richer spatial information than the conventional planar images. Accordingly, omnidirectional vision has attracted booming attention due to its more advantageous performance in numerous applications, such as autonomous driving and virtual reality. In recent years, the availability of customer-level 360 cameras has made omnidirectional vision more popular, and the advance of deep learning (DL) has significantly sparked its research and applications. This paper presents a systematic and comprehensive review and analysis of the recent progress in DL methods for omnidirectional vision. Our work covers four main contents: (i) An introduction to the principle of omnidirectional imaging, the convolution methods on the ODI, and datasets to highlight the differences and difficulties compared with the 2D planar image data; (ii) A structural and hierarchical taxonomy of the DL methods for omnidirectional vision; (iii) A summarization of the latest novel learning strategies and applications; (iv) An insightful discussion of the challenges and open problems by highlighting the potential research directions to trigger more research in the community.
翻訳日:2022-06-05 19:45:25 公開日:2022-05-21
# (参考訳) DeepStruct: 構造予測のための言語モデルの事前学習

DeepStruct: Pretraining of Language Models for Structure Prediction ( http://arxiv.org/abs/2205.10475v1 )

ライセンス: CC BY 4.0
Chenguang Wang, Xiao Liu, Zui Chen, Haoyun Hong, Jie Tang, Dawn Song(参考訳) 本稿では,言語モデルの構造理解能力を向上させる手法を提案する。 タスク固有の拡張でモデルを微調整する従来のアプローチとは異なり、私たちはテキストから構造を生成するタスクに依存しないコーパスの集合に言語モデルを事前トレーニングします。 我々の構造事前学習は、モデルが構造タスクについて持っている学習知識のゼロショット転送を可能にする。 オープン情報抽出,共同エンティティと関係抽出,名前付きエンティティ認識,関係分類,意味的役割ラベリング,イベント抽出,コリファレンス解決,事実探索,意図検出,対話状態追跡など10つの構造予測タスクにまたがる28のデータセットにおけるこのアプローチの性能について検討した。 タスク固有のトレーニングセットによる事前トレーニングをさらに強化する。 10Bパラメータ言語モデルは、ほとんどのタスクに非自明に転送し、評価した28のデータセットのうち21の最先端のパフォーマンスを得る。

We introduce a method for improving the structural understanding abilities of language models. Unlike previous approaches that finetune the models with task-specific augmentation, we pretrain language models on a collection of task-agnostic corpora to generate structures from text. Our structure pretraining enables zero-shot transfer of the learned knowledge that models have about the structure tasks. We study the performance of this approach on 28 datasets, spanning 10 structure prediction tasks including open information extraction, joint entity and relation extraction, named entity recognition, relation classification, semantic role labeling, event extraction, coreference resolution, factual probe, intent detection, and dialogue state tracking. We further enhance the pretraining with the task-specific training sets. We show that a 10B parameter language model transfers non-trivially to most tasks and obtains state-of-the-art performance on 21 of 28 datasets that we evaluate.
翻訳日:2022-06-05 19:44:10 公開日:2022-05-21
# (参考訳) 反復データからの学習のスケーリング法則と解釈可能性

Scaling Laws and Interpretability of Learning from Repeated Data ( http://arxiv.org/abs/2205.10487v1 )

ライセンス: CC BY 4.0
Danny Hernandez, Tom Brown, Tom Conerly, Nova DasSarma, Dawn Drain, Sheer El-Showk, Nelson Elhage, Zac Hatfield-Dodds, Tom Henighan, Tristan Hume, Scott Johnston, Ben Mann, Chris Olah, Catherine Olsson, Dario Amodei, Nicholas Joseph, Jared Kaplan and Sam McCandlish(参考訳) 近年の大規模言語モデルは、膨大なデータセットで訓練されているが、高品質なデータの重み付けを目的として、あるいは意図せず、文章、段落、文書レベルで繰り返しデータに晒されるため、繰り返しデータでも訓練されている。 いくつかの研究は、この繰り返しデータによるかなりのパフォーマンス効果を報告している。 本稿では,繰り返しデータを体系的に研究し,その効果を機械的に理解しようと試みる。 これを実現するために、データの大部分がユニークだが、そのごく一部が何度も繰り返されるモデルファミリをトレーニングします。 また,2重降下現象は,反復的なデータによってテスト損失が増加し,トレーニングの途中で増加する可能性がある。 予測可能な繰り返し周波数の範囲は、驚くほどパフォーマンスが低下する。 例えば、800mのパラメータモデルの性能は、他の90%のトレーニングトークンがユニークであるにもかかわらず、データの0.1%を100回繰り返して、2倍小さいモデル(400mパラム)に低下させることができる。 私たちは、データが記憶できる範囲があり、それによってモデルのキャパシティの大部分が消費されるのではないかと考えています。 最後に、これらの観測を最近の機械的解釈可能性作業(モデルによって実行される詳細な計算をリバースエンジニアリングしようとする)に結び付け、データの繰り返しが、誘導ヘッドのような一般化に関連するコピーや内部構造を不均等に損なうことを示し、一般化から記憶へのシフトのメカニズムを提供する。 これらの結果は、大規模な言語モデルで比較的少ないデータを繰り返し繰り返すと、パフォーマンスに不釣り合いに大きな害をもたらすという仮説をもたらしている。

Recent large language models have been trained on vast datasets, but also often on repeated data, either intentionally for the purpose of upweighting higher quality data, or unintentionally because data deduplication is not perfect and the model is exposed to repeated data at the sentence, paragraph, or document level. Some works have reported substantial negative performance effects of this repeated data. In this paper we attempt to study repeated data systematically and to understand its effects mechanistically. To do this, we train a family of models where most of the data is unique but a small fraction of it is repeated many times. We find a strong double descent phenomenon, in which repeated data can lead test loss to increase midway through training. A predictable range of repetition frequency leads to surprisingly severe degradation in performance. For instance, performance of an 800M parameter model can be degraded to that of a 2x smaller model (400M params) by repeating 0.1% of the data 100 times, despite the other 90% of the training tokens remaining unique. We suspect there is a range in the middle where the data can be memorized and doing so consumes a large fraction of the model's capacity, and this may be where the peak of degradation occurs. Finally, we connect these observations to recent mechanistic interpretability work - attempting to reverse engineer the detailed computations performed by the model - by showing that data repetition disproportionately damages copying and internal structures associated with generalization, such as induction heads, providing a possible mechanism for the shift from generalization to memorization. Taken together, these results provide a hypothesis for why repeating a relatively small fraction of data in large language models could lead to disproportionately large harms to performance.
翻訳日:2022-06-05 19:07:03 公開日:2022-05-21
# (参考訳) 行列分解に基づくレコメンダシステムの理論的精度向上手法

Theoretically Accurate Regularization Technique for Matrix Factorization based Recommender Systems ( http://arxiv.org/abs/2205.10492v1 )

ライセンス: CC BY 4.0
Hao Wang(参考訳) 正規化は、機械学習アルゴリズムの過剰な問題を解く一般的な手法である。 ほとんどの正規化手法は正規化係数のパラメータ選択に依存する。 プラグイン法とクロスバリデーション法はリッジ回帰、ラッソ回帰、カーネル回帰といった回帰法において最も一般的なパラメータ選択手法である。 行列分解に基づくレコメンデーションシステムは正規化手法にも大きく依存している。 ほとんどの人は、ユーザー特徴ベクトルとアイテム特徴ベクトルを独立またはまとめて正規化する単一のスカラー値を選択する。 本稿では,正則化係数を選択する手法が無効であることを証明し,精度と公正度の両方において最も広く用いられている手法を上回る理論的に正確な方法を提案する。

Regularization is a popular technique to solve the overfitting problem of machine learning algorithms. Most regularization technique relies on parameter selection of the regularization coefficient. Plug-in method and cross-validation approach are two most common parameter selection approaches for regression methods such as Ridge Regression, Lasso Regression and Kernel Regression. Matrix factorization based recommendation system also has heavy reliance on the regularization technique. Most people select a single scalar value to regularize the user feature vector and item feature vector independently or collectively. In this paper, we prove that such approach of selecting regularization coefficient is invalid, and we provide a theoretically accurate method that outperforms the most widely used approach in both accuracy and fairness metrics.
翻訳日:2022-06-05 18:33:25 公開日:2022-05-21
# (参考訳) eBIM-GNN : BIMとグラフニューラルネットワークによる高速でスケーラブルなエネルギー分析

eBIM-GNN : Fast and Scalable energy analysis through BIMs and Graph Neural Networks ( http://arxiv.org/abs/2205.10497v1 )

ライセンス: CC BY 4.0
Rucha Bhalchandra Joshi and Annada Prasad Behera and Subhankar Mishra(参考訳) 建築情報モデリングは、建物のエネルギー効率を高めるだけでなく、分析にも使われてきた。 既存の建物では、解体と改造によって大きな期待が持たれている。 省エネの知識のない現在の都市では、エネルギー利用でスマートになるためのより良い方法が求められている。 しかし,既存のBIM生成手法は構築ベースで機能する。 したがって、大きなコミュニティや町全体や都市にスケールする場合は、遅くて費用がかかります。 本稿では, 統計的に非常に効率的に一致し, 生成できるプロトタイプビルを創出する手法を提案する。 提案手法は既存の建物のエネルギー効率のよいプロトタイプを提案する。 既存の建物は3Dポイントクラウドに識別され、配置されている。 我々は、このアプローチの動作を実証するために、合成データセットで実験を行う。

Building Information Modeling has been used to analyze as well as increase the energy efficiency of the buildings. It has shown significant promise in existing buildings by deconstruction and retrofitting. Current cities which were built without the knowledge of energy savings are now demanding better ways to become smart in energy utilization. However, the existing methods of generating BIMs work on building basis. Hence they are slow and expensive when we scale to a larger community or even entire towns or cities. In this paper, we propose a method to creation of prototype buildings that enable us to match and generate statistics very efficiently. Our method suggests better energy efficient prototypes for the existing buildings. The existing buildings are identified and located in the 3D point cloud. We perform experiments on synthetic dataset to demonstrate the working of our approach.
翻訳日:2022-06-05 18:28:10 公開日:2022-05-21
# (参考訳) Namesakes 上の Named Entity Linking

Named Entity Linking on Namesakes ( http://arxiv.org/abs/2205.10498v1 )

ライセンス: CC BY 4.0
Oleg Vasilyev, Alex Dauenhauer, Vedant Dharnidharka, John Bohannon(参考訳) 名前付きエンティティリンク(NEL)の単純かつ実用的な手法を提案し,その特徴と性能を曖昧な名前付きエンティティのデータセット上で検討する。 我々は知識ベース(kb)エンティティを埋め込みのセットで表現する。 我々の観察は、そのような埋め込みの限られた数を維持することは合理的であり、KBエンティティを作成するのに必要な言及の数が重要であることを示唆している。 知識ベース(KB)におけるエンティティの表現をKBデータのみを用いて調整できることを示し,NELの性能を向上させる。

We propose a simple and practical method of named entity linking (NEL), and explore its features and performance on a dataset of ambiguous named entities - Namesakes. We represent knowledge base (KB) entity by a set of embeddings. Our observations suggest that it is reasonable to keep a limited number of such embeddings, and that the number of mentions required to create a KB entity is important. We show that representations of entities in the knowledge base (KB) can be adjusted using only KB data, and the adjustment improves NEL performance.
翻訳日:2022-06-05 18:17:42 公開日:2022-05-21
# (参考訳) 動作可能な静的解析警告の発見方法

How to Find Actionable Static Analysis Warnings ( http://arxiv.org/abs/2205.10504v1 )

ライセンス: CC BY 4.0
Rahul Yedida, Hong Jin Kang, Huy Tu, Xueqi Yang, David Lo, Tim Menzies(参考訳) 自動生成された静的コード警告は、多数の誤報に悩まされる。 したがって、開発者はこれらの警告のごく一部にのみ対処する。 静的なコードの警告を無視すべきでないことをより正確に予測するために、アナリストはアルゴリズムを深く調べて、特定の問題の詳細を改善する選択肢を見つける必要があることを提案します。 具体的には、このような警告の効果的な予測は、決定境界を局所的に調整する手法(実行可能な警告など)によって作成できることを示す。 これらのメソッドは、実行可能な静的コード警告を認識するための新しい高い透かしを与える。 8つのオープンソースjavaプロジェクト(cassandra、jmeter、commons、lucene-solr、ant、tomcat、derby)に対して、私たちは4/8のデータセットで完全なテスト結果を達成しました。

Automatically generated static code warnings suffer from a large number of false alarms. Hence, developers only take action on a small percent of those warnings. To better predict which static code warnings should not be ignored, we suggest that analysts need to look deeper into their algorithms to find choices that better improve the particulars of their specific problem. Specifically, we show here that effective predictors of such warnings can be created by methods that locally adjust the decision boundary (between actionable warnings and others). These methods yield a new high water-mark for recognizing actionable static code warnings. For eight open-source Java projects (CASSANDRA, JMETER, COMMONS, LUCENE-SOLR, ANT, TOMCAT, DERBY) we achieve perfect test results on 4/8 datasets and, overall, a median AUC (area under the true negatives, true positives curve) of 92\%.
翻訳日:2022-06-05 18:07:34 公開日:2022-05-21
# (参考訳) メラノーマ検出支援のためのCoAtNet予測の可視化

Visualizing CoAtNet Predictions for Aiding Melanoma Detection ( http://arxiv.org/abs/2205.10515v1 )

ライセンス: CC BY 4.0
Daniel Kvak(参考訳) メラノーマは最も攻撃的な皮膚癌であると考えられている。 悪性および良性癌の類似した形態のため、医師はこれらの所見を診断する際にかなり多くの時間を費やす。 現在, 悪性度の評価は, 不審な病変の浸潤組織学的検討が主である。 早期かつ効率的な検出のための正確な分類器の開発は、皮膚がんの有害な影響を最小化し、監視し、患者の生存率を高めることができる。 本稿では,従来の畳み込みニューラルネットワークの深い畳み込み行列操作とトランスフォーマーモデルと自己注意機構の強みを組み合わせたハイブリッドモデルであるCoAtNetアーキテクチャを用いたマルチクラス分類タスクを提案する。 提案したマルチクラス分類器は0.901, 0.895, AP 0.923の総合精度を実現し, 他の最先端ネットワークと比較して高い性能を示した。

Melanoma is considered to be the most aggressive form of skin cancer. Due to the similar shape of malignant and benign cancerous lesions, doctors spend considerably more time when diagnosing these findings. At present, the evaluation of malignancy is performed primarily by invasive histological examination of the suspicious lesion. Developing an accurate classifier for early and efficient detection can minimize and monitor the harmful effects of skin cancer and increase patient survival rates. This paper proposes a multi-class classification task using the CoAtNet architecture, a hybrid model that combines the depthwise convolution matrix operation of traditional convolutional neural networks with the strengths of Transformer models and self-attention mechanics to achieve better generalization and capacity. The proposed multi-class classifier achieves an overall precision of 0.901, recall 0.895, and AP 0.923, indicating high performance compared to other state-of-the-art networks.
翻訳日:2022-06-05 17:46:30 公開日:2022-05-21
# (参考訳) より強い教師からの知識蒸留

Knowledge Distillation from A Stronger Teacher ( http://arxiv.org/abs/2205.10536v1 )

ライセンス: CC BY 4.0
Tao Huang, Shan You, Fei Wang, Chen Qian, Chang Xu(参考訳) 既存の知識蒸留法とは異なり, 教師のモデルや訓練戦略は最先端のアプローチほど強くなく, 競合するものではないため, 従来の知識蒸留法とは異なり, 強い教師からより良い蒸留を行うためのdistと呼ばれる方法を提案する。 経験的に、学生と教師の予測の相違は、かなり厳しいものになりがちである。 その結果、KL分岐における予測の正確な一致は、トレーニングを妨害し、既存の手法の性能を低下させる。 本稿では,教師と生徒の予測関係を単に保存するだけで十分であることを示すとともに,教師から固有のクラス間関係を明示的に捉えるための相関に基づく損失を提案する。 さらに、異なるインスタンスが各クラスに異なる意味的類似性を持っていることを考慮し、この関係性マッチングをクラス内のレベルにまで拡張する。 提案手法は単純かつ実用的であり,様々なアーキテクチャ,モデルサイズ,トレーニング戦略に適応し,画像分類,オブジェクト検出,意味セグメンテーションタスクにおいて一貫して最先端のパフォーマンスを実現することを実証した。 コードはhttps://github.com/hunto/dist_kd。

Unlike existing knowledge distillation methods focus on the baseline settings, where the teacher models and training strategies are not that strong and competing as state-of-the-art approaches, this paper presents a method dubbed DIST to distill better from a stronger teacher. We empirically find that the discrepancy of predictions between the student and a stronger teacher may tend to be fairly severer. As a result, the exact match of predictions in KL divergence would disturb the training and make existing methods perform poorly. In this paper, we show that simply preserving the relations between the predictions of teacher and student would suffice, and propose a correlation-based loss to capture the intrinsic inter-class relations from the teacher explicitly. Besides, considering that different instances have different semantic similarities to each class, we also extend this relational match to the intra-class level. Our method is simple yet practical, and extensive experiments demonstrate that it adapts well to various architectures, model sizes and training strategies, and can achieve state-of-the-art performance consistently on image classification, object detection, and semantic segmentation tasks. Code is available at: https://github.com/hunto/DIST_KD .
翻訳日:2022-06-05 17:33:40 公開日:2022-05-21
# (参考訳) マスク画像モデリングのための自己教師付き表現学習の改善

Improvements to Self-Supervised Representation Learning for Masked Image Modeling ( http://arxiv.org/abs/2205.10546v1 )

ライセンス: CC BY 4.0
Jiawei Mao, Xuesong Yin, Yuanqi Chang, Honggu Zhou(参考訳) 本稿では,マスク画像モデリング(MIM)パラダイムの改良について検討する。 MIMパラダイムにより、入力画像のマスキングとマスク部分のアンマスク部分の予測により、モデルが画像の主オブジェクトの特徴を学習することができる。 MIMの改善には以下の3つの方向がある。 まず、エンコーダとデコーダの両方が表現学習に寄与するため、MIMは下流タスクにのみエンコーダを使用し、デコーダが表現学習に与える影響を無視する。 MIMパラダイムは、既に非対称構造を持つ小さなデコーダを使用しているが、デコーダパラメータの継続的な削減は、エンコーダの表現学習能力を改善するために有用であると考えている。 第二に、MIMはエンコーダとデコーダを併用して画像予測タスクを訓練し、エンコーダの別タスクを設計しない。 下流タスクの実行時のエンコーダの性能をさらに向上するため、比較学習とトークン位置予測のタスクのためのエンコーダを設計した。 第3に、入力画像には背景やその他のオブジェクトが含まれており、画像内の各オブジェクトの比率が異なるため、背景または他のオブジェクトに関連するトークンの再構築は、mimが主要なオブジェクト表現を理解する意味がない。 そこで,コントラストクロップを用いて入力画像の抽出を行い,入力画像が極力主オブジェクトのみを含むようにした。 以上の3つのMIMの改良に基づき,新しいモデルであるContrastive Masked AutoEncoders (CMAE)を提案する。 vit-bバックボーンを用いたtinyimagenetのtop-1精度は65.84%で,全条件が等しければ+2.89で競合メソッドのmaeを上回った。 コードは利用可能になる。

This paper explores improvements to the masked image modeling (MIM) paradigm. The MIM paradigm enables the model to learn the main object features of the image by masking the input image and predicting the masked part by the unmasked part. We found the following three main directions for MIM to be improved. First, since both encoders and decoders contribute to representation learning, MIM uses only encoders for downstream tasks, which ignores the impact of decoders on representation learning. Although the MIM paradigm already employs small decoders with asymmetric structures, we believe that continued reduction of decoder parameters is beneficial to improve the representational learning capability of the encoder . Second, MIM solves the image prediction task by training the encoder and decoder together , and does not design a separate task for the encoder . To further enhance the performance of the encoder when performing downstream tasks, we designed the encoder for the tasks of comparative learning and token position prediction. Third, since the input image may contain background and other objects, and the proportion of each object in the image varies, reconstructing the tokens related to the background or to other objects is not meaningful for MIM to understand the main object representations. Therefore we use ContrastiveCrop to crop the input image so that the input image contains as much as possible only the main objects. Based on the above three improvements to MIM, we propose a new model, Contrastive Masked AutoEncoders (CMAE). We achieved a Top-1 accuracy of 65.84% on tinyimagenet using the ViT-B backbone, which is +2.89 outperforming the MAE of competing methods when all conditions are equal. Code will be made available.
翻訳日:2022-06-05 17:11:13 公開日:2022-05-21
# (参考訳) 均一な群衆環境で追随するロボット人

Robot Person Following in Uniform Crowd Environment ( http://arxiv.org/abs/2205.10553v1 )

ライセンス: CC BY 4.0
Adarsh Ghimire, Xiaoxiong Zhang, Sajid Javed, Jorge Dias, Naoufel Werghi(参考訳) 人追跡ロボットには、セキュリティ、高齢者介護、社交ロボットなど、多くの応用がある。 このようなタスクは、統一的な群衆の中を移動するときに特に難しい。 また、文献で報告されている追跡者の著しい進歩にもかかわらず、最先端の追跡者はそのようなシナリオでのフォローにほとんど対処していない。 本研究では,ロバストでリアルタイムなオブジェクトトラッカーを開発することにより,タスク追従者のロボットの知覚能力の向上に焦点をあてる。 我々は,新しいRGB-Dトラッカーを備えた新しいロボット人追跡システムであるDep Tracking with RGB-D (DTRD)を提案する。 トラッカーは変換器エンコーダ・デコーダアーキテクチャを用いて,RGBと深度情報を用いて,類似のトラクタから対象者を識別する。 総合的な実験と結果から,我々のトラッカーは2つの定量的評価指標において高い性能を示し,他のsotaトラッカーよりも優れていることを確認した。

Person-tracking robots have many applications, such as in security, elderly care, and socializing robots. Such a task is particularly challenging when the person is moving in a Uniform crowd. Also, despite significant progress of trackers reported in the literature, state-of-the-art trackers have hardly addressed person following in such scenarios. In this work, we focus on improving the perceptivity of a robot for a person following task by developing a robust and real-time applicable object tracker. We present a new robot person tracking system with a new RGB-D tracker, Deep Tracking with RGB-D (DTRD) that is resilient to tricky challenges introduced by the uniform crowd environment. Our tracker utilizes transformer encoder-decoder architecture with RGB and depth information to discriminate the target person from similar distractors. A substantial amount of comprehensive experiments and results demonstrate that our tracker has higher performance in two quantitative evaluation metrics and confirms its superiority over other SOTA trackers.
翻訳日:2022-06-05 16:59:44 公開日:2022-05-21
# (参考訳) 視線追跡用サイクルガン

Cycle-GAN for eye-tracking ( http://arxiv.org/abs/2205.10556v1 )

ライセンス: CC BY 4.0
Ildar Rakhmatulin(参考訳) 本論文は、視線追跡タスクのためのサイクル生成対向ネットワーク(Cycle-GAN)の典型的な実装である。

This manuscript presents a not typical implementation of the cycle generative adversarial networks (Cycle-GAN) method for eye-tracking tasks.
翻訳日:2022-06-05 16:49:35 公開日:2022-05-21
# (参考訳) HamNoSys表記を用いた教師なし手話音素クラスタリング

Unsupervised Sign Language Phoneme Clustering using HamNoSys Notation ( http://arxiv.org/abs/2205.10560v1 )

ライセンス: CC BY 4.0
Boris Mocialov, Graham Turner and Helen Hastie(参考訳) 伝統的に、手話リソースは、特定のアノテーションタイプを伴う教師付き手話分類や言語研究を含む特定のタスクの制御された設定で収集されている。 現在まで、ソーシャルメディアプラットフォーム上でオンラインで見つかった署名ビデオや、そのようなリソースに適用された教師なしの手法を調査している人はほとんどいない。 現場は、訓練中と異なるデータで許容可能なモデル性能を達成するために、手話データにより多くの多様性を求めるため、制御された実験室で得られたデータから離れようとしている。 さらに,手話データ収集やアノテーションにはオーバーヘッドが大きいため,アノテーションプロセスの高速化が望ましい。 本稿では,上記の傾向を考慮すると,音素クラスタリングによる手話コーパスの自動生成と注釈付けを行う上で,オンラインデータの収集の側面を取る。

Traditionally, sign language resources have been collected in controlled settings for specific tasks involving supervised sign classification or linguistic studies accompanied by specific annotation type. To date, very few who explored signing videos found online on social media platforms as well as the use of unsupervised methods applied to such resources. Due to the fact that the field is striving to achieve acceptable model performance on the data that differs from that seen during training calls for more diversity in sign language data, stepping away from the data obtained in controlled laboratory settings. Moreover, since the sign language data collection and annotation carries large overheads, it is desirable to accelerate the annotation process. Considering the aforementioned tendencies, this paper takes the side of harvesting online data in a pursuit for automatically generating and annotating sign language corpora through phoneme clustering.
翻訳日:2022-06-05 16:41:16 公開日:2022-05-21
# (参考訳) HLATR:ハイブリッドリスト対応変圧器リグレードによる多段階テキスト検索

HLATR: Enhance Multi-stage Text Retrieval with Hybrid List Aware Transformer Reranking ( http://arxiv.org/abs/2205.10569v1 )

ライセンス: CC BY 4.0
Yanzhao Zhang, Dingkun Long, Guangwei Xu, Pengjun Xie(参考訳) 深い事前訓練された言語モデル(例えばBERT)は、大規模テキスト検索タスクに有効である。 既存のテキスト検索システムでは、事前訓練された言語モデルの計算コストが高く、コーパスサイズが大きいため、検索可能なアーキテクチャを採用するのが一般的である。 このような多段階アーキテクチャの下では、従来の研究は主にフレームワークの単一ステージの最適化に重点を置いており、全体的な検索性能が向上した。 しかし、最適化のためのマルチステージ機能を直接結合する方法は研究されていない。 本稿では,HLATR(Hybrid List Aware Transformer Re rank)を,検索機能とステージ機能の両方を組み込んだ後続のリランクモジュールとして設計する。 hlatrは軽量であり、既存のテキスト検索システムと容易に並列化できるので、再ランキング処理を単一の効率的な処理で行える。 2つの大規模テキスト検索データセットの実証実験により、HLATRは既存の多段階テキスト検索手法のランク付け性能を効率的に向上できることが示された。

Deep pre-trained language models (e,g. BERT) are effective at large-scale text retrieval task. Existing text retrieval systems with state-of-the-art performance usually adopt a retrieve-then-reranking architecture due to the high computational cost of pre-trained language models and the large corpus size. Under such a multi-stage architecture, previous studies mainly focused on optimizing single stage of the framework thus improving the overall retrieval performance. However, how to directly couple multi-stage features for optimization has not been well studied. In this paper, we design Hybrid List Aware Transformer Reranking (HLATR) as a subsequent reranking module to incorporate both retrieval and reranking stage features. HLATR is lightweight and can be easily parallelized with existing text retrieval systems so that the reranking process can be performed in a single yet efficient processing. Empirical experiments on two large-scale text retrieval datasets show that HLATR can efficiently improve the ranking performance of existing multi-stage text retrieval methods.
翻訳日:2022-06-05 16:31:10 公開日:2022-05-21
# (参考訳) 歩行時バイオメカニカル信号を用いた糖尿病性感覚運動性ポリニューロパチー重症度分類のための機械学習モデルの性能評価

Evaluating Performance of Machine Learning Models for Diabetic Sensorimotor Polyneuropathy Severity Classification using Biomechanical Signals during Gait ( http://arxiv.org/abs/2205.10581v1 )

ライセンス: CC BY 4.0
Fahmida Haque, Mamun Bin Ibne Reaz, Muhammad Enamul Hoque Chowdhury, Serkan Kiranyaz, Mohamed Abdelmoniem, Emadeddin Hussein, Mohammed Shaat, Sawal Hamid Md Ali, Ahmad Ashrif A Bakar, Geetika Srivastava, Mohammad Arif Sobhan Bhuiyan, Mohd Hadri Hafiz Mokhtar, Edi Kurniawan(参考訳) 糖尿病性感覚運動性ニューロパチー(DSPN)は、ヒト歩行の生体力学的変化に変化を伴う糖尿病患者によって引き起こされる神経障害の1つである。 文献では、過去50年間、研究者は筋筋電図(EMG)と地面反応力(GRF)を研究することによって、DSPNによる生体力学的変化を観察してきた。 しかし、文献は矛盾している。 このようなシナリオでは、EMGとGRFデータを用いてDSPN患者を識別するために機械学習技術を利用することを提案する。 EMG(tibialis previous, TA), vastus lateralis(VL), gastrocnemius medialis(GM), 3-dimensional GRF component(GRFx, GRFy, GRFz)の3つの下肢筋からなるデータセットを収集した。 生のEMG信号とGRF信号の事前処理を行い,新たに提案した特徴抽出手法を適用し,信号から最良の特徴を抽出した。 抽出した特徴リストをRelief特徴ランキング手法を用いてランク付けし,高い相関性のある特徴を除去した。 私たちは、最高のパフォーマンスモデルを見つけるために、さまざまなMLモデルをトレーニングし、そのモデルを最適化しました。 筋とGRF成分の異なる組み合わせに対する最適化MLモデルを訓練し,性能行列を評価した。 本研究は, DSPN Severityの同定において, アンサンブル分類器モデルの性能を確認し, トレーニング前に最適化した。 筋電図解析では, GL, VL, TAの筋肉を併用し, トップ14の特徴を用いた92.89%の精度が得られた。 GRF分析では、GRFx, GRFy, GRFz信号から抽出した特徴の組み合わせについて、トップ15の特徴を用いて94.78%の精度を示した。 MLに基づくDSPN重度分類モデルの性能は大幅に向上し,生体力学データに対するDSPN重度分類の信頼性が向上した。

Diabetic sensorimotor polyneuropathy (DSPN) is one of the prevalent forms of neuropathy affected by diabetic patients that involves alterations in biomechanical changes in human gait. In literature, for the last 50 years, researchers are trying to observe the biomechanical changes due to DSPN by studying muscle electromyography (EMG), and ground reaction forces (GRF). However, the literature is contradictory. In such a scenario, we are proposing to use Machine learning techniques to identify DSPN patients by using EMG, and GRF data. We have collected a dataset consists of three lower limb muscles EMG (tibialis anterior (TA), vastus lateralis (VL), gastrocnemius medialis (GM) and 3-dimensional GRF components (GRFx, GRFy, and GRFz). Raw EMG and GRF signals were preprocessed, and a newly proposed feature extraction technique scheme from literature was applied to extract the best features from the signals. The extracted feature list was ranked using Relief feature ranking techniques, and highly correlated features were removed. We have trained different ML models to find out the best-performing model and optimized that model. We trained the optimized ML models for different combinations of muscles and GRF components features, and the performance matrix was evaluated. This study has found ensemble classifier model was performing in identifying DSPN Severity, and we optimized it before training. For EMG analysis, we have found the best accuracy of 92.89% using the Top 14 features for features from GL, VL and TA muscles combined. In the GRF analysis, the model showed 94.78% accuracy by using the Top 15 features for the feature combinations extracted from GRFx, GRFy and GRFz signals. The performance of ML-based DSPN severity classification models, improved significantly, indicating their reliability in DSPN severity classification, for biomechanical data.
翻訳日:2022-06-05 16:19:51 公開日:2022-05-21
# (参考訳) Venn-AbeRS予測を用いた自然言語理解モデルの校正

Calibration of Natural Language Understanding Models with Venn--ABERS Predictors ( http://arxiv.org/abs/2205.10586v1 )

ライセンス: CC BY 4.0
Patrizio Giovannotti(参考訳) 現在、自然言語理解(NLU)タスクの最先端であるトランスフォーマーは、未検証の予測や極端な確率を生成する傾向にあり、出力に基づいて異なる決定を下すプロセスは比較的困難である。 本稿では,事前学習した変圧器の選択に基づいて,最小限の仮定でキャリブレーションされた複数の誘導型Venn--ABERS予測器(IVAP)を構築することを提案する。 我々は,一連の多様なNLUタスクに対して,その性能を検証し,原モデルの予測精度を維持しつつ,[0,1]間隔を均一に分散した,よく校正された確率予測を生成可能であることを示す。

Transformers, currently the state-of-the-art in natural language understanding (NLU) tasks, are prone to generate uncalibrated predictions or extreme probabilities, making the process of taking different decisions based on their output relatively difficult. In this paper we propose to build several inductive Venn--ABERS predictors (IVAP), which are guaranteed to be well calibrated under minimal assumptions, based on a selection of pre-trained transformers. We test their performance over a set of diverse NLU tasks and show that they are capable of producing well-calibrated probabilistic predictions that are uniformly spread over the [0,1] interval -- all while retaining the original model's predictive accuracy.
翻訳日:2022-06-05 15:58:14 公開日:2022-05-21
# (参考訳) 生成型adversarial networkを用いた意味的顔属性編集に関する包括的調査

A comprehensive survey on semantic facial attribute editing using generative adversarial networks ( http://arxiv.org/abs/2205.10587v1 )

ライセンス: CC BY 4.0
Ahmad Nickabadi, Maryam Saeedi Fard, Nastaran Moradzadeh Farid, Najmeh Mohammadbagheri(参考訳) ランダムなフォトリアリスティック画像の生成は、深層畳み込みニューラルネットワークと生成モデルの発展により、ここ数年で大きな成長を遂げている。 様々な領域において、顔写真は多くの注目を集めており、多数の顔生成と操作モデルが提案されている。 セマンティック顔属性編集(Semantic face attribute editing)は、顔画像の1つ以上の属性の値を変更するプロセスであり、画像の他の属性は影響を受けない。 要求された修正は属性ベクトルまたは駆動顔画像の形式で提供され、プロセス全体は対応するモデルによって実行される。 本稿では,意味的顔属性編集における最近の研究と進歩について述べる。 関連する定義や概念,アーキテクチャ,損失関数,データセット,評価指標,アプリケーションなど,これらのモデルに関するすべての側面をカバーしています。 アーキテクチャに基づいて、最先端のモデルはエンコーダデコーダ、イメージ・ツー・イメージ、フォトガイドモデルに分類され、研究される。 現在の最先端手法の課題と制約についても論じる。

Generating random photo-realistic images has experienced tremendous growth during the past few years due to the advances of the deep convolutional neural networks and generative models. Among different domains, face photos have received a great deal of attention and a large number of face generation and manipulation models have been proposed. Semantic facial attribute editing is the process of varying the values of one or more attributes of a face image while the other attributes of the image are not affected. The requested modifications are provided as an attribute vector or in the form of driving face image and the whole process is performed by the corresponding models. In this paper, we survey the recent works and advances in semantic facial attribute editing. We cover all related aspects of these models including the related definitions and concepts, architectures, loss functions, datasets, evaluation metrics, and applications. Based on their architectures, the state-of-the-art models are categorized and studied as encoder-decoder, image-to-image, and photo-guided models. The challenges and restrictions of the current state-of-the-art methods are discussed as well.
翻訳日:2022-06-05 15:44:58 公開日:2022-05-21
# (参考訳) Facing the Void:マルチビュー画像における欠落データ克服

Facing the Void: Overcoming Missing Data in Multi-View Imagery ( http://arxiv.org/abs/2205.10592v1 )

ライセンス: CC BY 4.0
Gabriel Machado, Keiller Nogueira, Matheus Barros Pereira, Jefersson Alex dos Santos(参考訳) いくつかのシナリオでは、単一の入力画像がオブジェクトの分類を可能にするのに十分ではないかもしれない。 これらの場合、複数の視点(またはビュー)から同一のオブジェクトを示す画像から抽出された補完的情報を探索し、一般的なシーン理解を深め、その結果、パフォーマンスを向上させることが不可欠である。 しかし、このタスクは一般的にマルチビュー画像分類と呼ばれ、欠落データという大きな課題がある。 本稿では,この問題に頑健なマルチビュー画像分類のための新しい手法を提案する。 最先端のディープラーニングアプローチとメトリック学習に基づく提案手法は,他のアプリケーションやドメインでも容易に適用・活用できる。 提案アルゴリズムの体系的評価は,異なる特性を持つ2つの多視点地上データセットを用いて行った。 その結果,提案アルゴリズムは,最先端手法と比較して,多視点画像分類精度の向上を図っている。 コードは \url{https://github.com/gabriellm2003/remote_sensing_missing_data}。

In some scenarios, a single input image may not be enough to allow the object classification. In those cases, it is crucial to explore the complementary information extracted from images presenting the same object from multiple perspectives (or views) in order to enhance the general scene understanding and, consequently, increase the performance. However, this task, commonly called multi-view image classification, has a major challenge: missing data. In this paper, we propose a novel technique for multi-view image classification robust to this problem. The proposed method, based on state-of-the-art deep learning-based approaches and metric learning, can be easily adapted and exploited in other applications and domains. A systematic evaluation of the proposed algorithm was conducted using two multi-view aerial-ground datasets with very distinct properties. Results show that the proposed algorithm provides improvements in multi-view image classification accuracy when compared to state-of-the-art methods. Code available at \url{https://github.com/Gabriellm2003/remote_sensing_missing_data}.
翻訳日:2022-06-05 15:43:43 公開日:2022-05-21
# (参考訳) 脳皮質機能勾配によるアテンションメッシュ畳み込みによる皮質屈曲パターンの予測

Brain Cortical Functional Gradients Predict Cortical Folding Patterns via Attention Mesh Convolution ( http://arxiv.org/abs/2205.10605v1 )

ライセンス: CC BY 4.0
Li Yang, Zhibin He, Changhe Li, Junwei Han, Dajiang Zhu, Tianming Liu, Tuo Zhang(参考訳) 皮質の折り畳みパターンの2つの基本的な解剖学的構成要素であるgyriとsulciは、異なる機能的役割を持つことが示唆されたため、脳機能からジャイロ・サルカルパターンへの正確なマッピングは、生物学的および人工的なニューラルネットワークの両方に深い洞察を与えることができる。 しかし、それらの間の高度に非線形な関係、巨大な個体間変動、モザイクとしての脳機能領域/ネットワーク分布の洗練された記述などにより、これまでのところ一般的な理論と効果的な計算モデルに欠けており、空間的パターン化は考慮されていない。 機能的接続パターンの「段階的」変化を埋め込むために、静止状態fMRIから得られる脳機能勾配を採用し、個々の脳における皮質ジャイロ-サルカルセグメンテーションマップを予測する新しい注意メッシュ畳み込みモデルを開発した。 メッシュ上の畳み込みは、皮質シート上の関数勾配と折り畳みパターンの空間的構造を考慮し、新しく設計されたチャネルアテンションブロックは、皮質の折り畳み予測に対する異なる関数勾配の寄与の解釈可能性を高める。 実験の結果,我々のモデルによる予測性能は他の最先端モデルよりも優れていた。 さらに, 主関数勾配は折りたたみ予測にはあまり寄与しないことがわかった。 最後の層の活性化マップでは、高度に活性化された領域ではなく、境界によく研究された皮質のランドマークが発見されている。 これらの結果と結果から,特に設計された人工ニューラルネットワークは,脳機能と皮質の折り畳みパターンのマッピングの精度を向上し,神経科学における脳解剖学-機能関係の貴重な洞察を与える可能性が示唆された。

Since gyri and sulci, two basic anatomical building blocks of cortical folding patterns, were suggested to bear different functional roles, a precise mapping from brain function to gyro-sulcal patterns can provide profound insights into both biological and artificial neural networks. However, there lacks a generic theory and effective computational model so far, due to the highly nonlinear relation between them, huge inter-individual variabilities and a sophisticated description of brain function regions/networks distribution as mosaics, such that spatial patterning of them has not been considered. we adopted brain functional gradients derived from resting-state fMRI to embed the "gradual" change of functional connectivity patterns, and developed a novel attention mesh convolution model to predict cortical gyro-sulcal segmentation maps on individual brains. The convolution on mesh considers the spatial organization of functional gradients and folding patterns on a cortical sheet and the newly designed channel attention block enhances the interpretability of the contribution of different functional gradients to cortical folding prediction. Experiments show that the prediction performance via our model outperforms other state-of-the-art models. In addition, we found that the dominant functional gradients contribute less to folding prediction. On the activation maps of the last layer, some well-studied cortical landmarks are found on the borders of, rather than within, the highly activated regions. These results and findings suggest that a specifically designed artificial neural network can improve the precision of the mapping between brain functions and cortical folding patterns, and can provide valuable insight of brain anatomy-function relation for neuroscience.
翻訳日:2022-06-05 15:28:49 公開日:2022-05-21
# (参考訳) インテリジェント通信チャネルによる複数のエージェント間のポリシー調整

Coordinating Policies Among Multiple Agents via an Intelligent Communication Channel ( http://arxiv.org/abs/2205.10607v1 )

ライセンス: CC BY 4.0
Dianbo Liu, Vedant Shah, Oussama Boussif, Cristian Meo, Anirudh Goyal, Tianmin Shu, Michael Mozer, Nicolas Heess, Yoshua Bengio(参考訳) MARL(Multi-Agent Reinforcement Learning)では、エージェントが直接通信できる特別なチャンネルがしばしば導入される。 本稿では,エージェントの集団的性能を向上させるために,エージェントが提供した情報を読み取って解釈する知的なファシリテータを通じてエージェントがコミュニケーションする手法を提案する。 このファシリテータが集中型コントローラにならないようにするために、エージェントは、伝達するメッセージへの依存を減らすためにインセンティブを与え、そのメッセージは、ポリシーが与えられた即時のアクションではなく、固定されたセットからポリシーの選択にのみ影響することができる。 いくつかのMARL環境における既存のベースラインに対するこのアーキテクチャの強みを実証する。

In Multi-Agent Reinforcement Learning (MARL), specialized channels are often introduced that allow agents to communicate directly with one another. In this paper, we propose an alternative approach whereby agents communicate through an intelligent facilitator that learns to sift through and interpret signals provided by all agents to improve the agents' collective performance. To ensure that this facilitator does not become a centralized controller, agents are incentivized to reduce their dependence on the messages it conveys, and the messages can only influence the selection of a policy from a fixed set, not instantaneous actions given the policy. We demonstrate the strength of this architecture over existing baselines on several cooperative MARL environments.
翻訳日:2022-06-05 14:54:17 公開日:2022-05-21
# (参考訳) CEP3: グラフ上のニューラルポイントプロセスによるコミュニティイベント予測

CEP3: Community Event Prediction with Neural Point Process on Graph ( http://arxiv.org/abs/2205.10624v1 )

ライセンス: CC BY 4.0
Xuhong Wang, Sirui Chen, Yixuan He, Minjie Wang, Quan Gan, Yupu Yang, Junchi Yan(参考訳) 多くの実世界のアプリケーションは、連続時間動的グラフ(ctdgs)上でのイベント予測として定式化することができ、そこでは2つのエンティティ間の時間的イベントの発生は、グラフの時間スタンプとともにエッジとして表現される。 本稿では,複数のリンクイベントとそのタイムスタンプをCTDG上のコミュニティ上で共同で予測する,グラフニューラルネットワークとMTPP(Marked Temporal Point Process)を組み合わせた新しいモデルを提案する。 さらに,我々のモデルを大規模グラフにスケールするために,共同イベント予測問題を3つのより簡単な条件付き確率モデリング問題に分解する。 実験では,モデルの精度と訓練効率の両面から,モデルの優れた性能を示す。

Many real world applications can be formulated as event forecasting on Continuous Time Dynamic Graphs (CTDGs) where the occurrence of a timed event between two entities is represented as an edge along with its occurrence timestamp in the graphs.However, most previous works approach the problem in compromised settings, either formulating it as a link prediction task on the graph given the event time or a time prediction problem given which event will happen next. In this paper, we propose a novel model combining Graph Neural Networks and Marked Temporal Point Process (MTPP) that jointly forecasts multiple link events and their timestamps on communities over a CTDG. Moreover, to scale our model to large graphs, we factorize the jointly event prediction problem into three easier conditional probability modeling problems.To evaluate the effectiveness of our model and the rationale behind such a decomposition, we establish a set of benchmarks and evaluation metrics for this event forecasting task. Our experiments demonstrate the superior performance of our model in terms of both model accuracy and training efficiency.
翻訳日:2022-06-05 14:33:22 公開日:2022-05-21
# (参考訳) DProQ:タンパク質複合体構造評価のためのグラフ変換器

DProQ: A Gated-Graph Transformer for Protein Complex Structure Assessment ( http://arxiv.org/abs/2205.10627v1 )

ライセンス: CC BY 4.0
Xiao Chen, Alex Morehead, Jian Liu, Jianlin Cheng(参考訳) タンパク質は、必須の生物学的機能を実行するために複合体を形成する。 タンパク質複合体の構造を予測する計算手法が開発されている。 しかし、タンパク質複合体構造予測における重要な課題は、対応するネイティブ構造を知らずに予測されたタンパク質複合体構造の品質を推定することである。 このような推定は、タンパク質の機能解析や薬物発見などの生物医学的な研究を促進するために、高品質な予測された複雑な構造を選択するために用いられる。 DProQは、3Dタンパク質複合体の質を予測するために設計されたゲート近傍変調グラフ変換器(GGT)を導入している。 特に、グラフメッセージパッシング時の情報フローを制御するために、新しいグラフトランスフォーマーフレームワークにノードゲートとエッジゲートを組み込む。 dproqを新たに開発した4つのデータセットでトレーニングし、評価します。 我々の厳密な実験は、DProQがタンパク質複合体のランク付けにおいて最先端のパフォーマンスを達成することを示した。

Proteins interact to form complexes to carry out essential biological functions. Computational methods have been developed to predict the structures of protein complexes. However, an important challenge in protein complex structure prediction is to estimate the quality of predicted protein complex structures without any knowledge of the corresponding native structures. Such estimations can then be used to select high-quality predicted complex structures to facilitate biomedical research such as protein function analysis and drug discovery. We challenge this significant task with DProQ, which introduces a gated neighborhood-modulating Graph Transformer (GGT) designed to predict the quality of 3D protein complex structures. Notably, we incorporate node and edge gates within a novel Graph Transformer framework to control information flow during graph message passing. We train and evaluate DProQ on four newly-developed datasets that we make publicly available in this work. Our rigorous experiments demonstrate that DProQ achieves state-of-the-art performance in ranking protein complex structures.
翻訳日:2022-06-05 14:13:16 公開日:2022-05-21
# (参考訳) SplitPlace: モバイルエッジ環境におけるAIによる分割と大規模ニューラルネットワークの配置

SplitPlace: AI Augmented Splitting and Placement of Large-Scale Neural Networks in Mobile Edge Environments ( http://arxiv.org/abs/2205.10635v1 )

ライセンス: CC BY 4.0
Shreshth Tuli and Giuliano Casale and Nicholas R. Jennings(参考訳) 近年、深層学習モデルは産業やアカデミアでも普及している。 ディープニューラルネットワークは、現在最も複雑なパターン認識の問題を解決することができるが、膨大な計算とメモリ要求のコストが伴う。 これにより、リソース制約のあるモバイルエッジコンピューティングプラットフォーム、特に監視や医療といったミッションクリティカルな領域において、このような大規模なニューラルネットワークの展開が困難になる。 これを解決するために、有望な解決策は、リソースハングリーニューラルネットワークをパイプライン化された分散処理のための軽量な非結合の小さなコンポーネントに分割することである。 現時点では、この方法には2つの主要なアプローチがある。 前者はニューラルネットワークを、結果の一部を生成する並列な非結合モデルに分割し、後者は中間結果を生成する逐次モデルに分割する。 しかし、どの分割戦略を使用するかを決め、最適な性能のためにモジュラー分割をエッジノードに配置するインテリジェントなアルゴリズムは存在しない。 これに対処するため、本研究では、入力タスクのサービス期限要求に基づいて、レイヤーとセマンティックスプリット戦略をインテリジェントに決定するためにマルチアームバンドを使用する、新しいai駆動のオンラインポリシーであるsplitplaceを提案する。 SplitPlaceは、効率的でスケーラブルなコンピューティングのために、意思決定対応の強化学習を使用して、そのようなニューラルネットワーク分割フラグメントをモバイルデバイスに配置する。 さらにSplitPlaceは、揮発性環境に対応するために配置エンジンを微調整する。 実世界のワークロードを用いた物理的モバイルエッジ環境の実験により,SplitPlaceは平均応答時間,期限違反率,推論精度,合計報酬を最大46,69,3,12%向上させることができることがわかった。

In recent years, deep learning models have become ubiquitous in industry and academia alike. Deep neural networks can solve some of the most complex pattern-recognition problems today, but come with the price of massive compute and memory requirements. This makes the problem of deploying such large-scale neural networks challenging in resource-constrained mobile edge computing platforms, specifically in mission-critical domains like surveillance and healthcare. To solve this, a promising solution is to split resource-hungry neural networks into lightweight disjoint smaller components for pipelined distributed processing. At present, there are two main approaches to do this: semantic and layer-wise splitting. The former partitions a neural network into parallel disjoint models that produce a part of the result, whereas the latter partitions into sequential models that produce intermediate results. However, there is no intelligent algorithm that decides which splitting strategy to use and places such modular splits to edge nodes for optimal performance. To combat this, this work proposes a novel AI-driven online policy, SplitPlace, that uses Multi-Armed-Bandits to intelligently decide between layer and semantic splitting strategies based on the input task's service deadline demands. SplitPlace places such neural network split fragments on mobile edge devices using decision-aware reinforcement learning for efficient and scalable computing. Moreover, SplitPlace fine-tunes its placement engine to adapt to volatile environments. Our experiments on physical mobile-edge environments with real-world workloads show that SplitPlace can significantly improve the state-of-the-art in terms of average response time, deadline violation rate, inference accuracy, and total reward by up to 46, 69, 3 and 12 percent respectively.
翻訳日:2022-06-05 13:55:47 公開日:2022-05-21
# (参考訳) 加速最適化のための対称性テレポーテーション

Symmetry Teleportation for Accelerated Optimization ( http://arxiv.org/abs/2205.10637v1 )

ライセンス: CC BY 4.0
Bo Zhao, Nima Dehmamy, Robin Walters, Rose Yu(参考訳) 既存の勾配に基づく最適化手法は、損失関数を最小限にする方向にパラメータをローカルに更新する。 我々は、次のステップにおける収束速度を改善するために、パラメータが損失レベルセット上で大きな距離を移動できるようにする異なるアプローチ、対称性のテレポーテーションを研究する。 テレポーテーションは最適化問題のパラメータ空間対称性を利用して、損失不変性を保ちながらパラメータを変換する。 テスト関数と多層ニューラルネットワークの損失不変群作用を導出し,テレポーテーションが収束率を向上するために必要な条件を証明する。 また,本アルゴリズムは二階法と密接に関連していることを示す。 テレポーテーションは,テスト関数,多層回帰,mnist分類などの最適化問題に対して,勾配降下とアダグラードの収束速度が向上することを示す。

Existing gradient-based optimization methods update the parameters locally, in a direction that minimizes the loss function. We study a different approach, symmetry teleportation, that allows the parameters to travel a large distance on the loss level set, in order to improve the convergence speed in subsequent steps. Teleportation exploits parameter space symmetries of the optimization problem and transforms parameters while keeping the loss invariant. We derive the loss-invariant group actions for test functions and multi-layer neural networks, and prove a necessary condition of when teleportation improves convergence rate. We also show that our algorithm is closely related to second order methods. Experimentally, we show that teleportation improves the convergence speed of gradient descent and AdaGrad for several optimization problems including test functions, multi-layer regressions, and MNIST classification.
翻訳日:2022-06-05 13:18:13 公開日:2022-05-21
# (参考訳) metanet:クラウド環境におけるスケジューリングポリシーの動的自動選択

MetaNet: Automated Dynamic Selection of Scheduling Policies in Cloud Environments ( http://arxiv.org/abs/2205.10642v1 )

ライセンス: CC BY 4.0
Shreshth Tuli and Giuliano Casale and Nicholas R. Jennings(参考訳) タスクスケジューリングは、クラウドコンピューティング環境のQuality of Service(QoS)を最適化する文脈において、よく研究されている問題である。 計算要求の急速な成長を維持するため、クラウドスケジューラにとって最も重要なQoSメトリクスの1つは、実行コストである。 このような観点から、動的ワークロード設定におけるスケーラブルで効率的なリソース管理を可能にするために、データ駆動型ディープニューラルネットワーク(DNN)ベースのスケジューラが近年提案されている。 しかし、最適スケジューリングは高い計算能力を必要とする高度なdnnに依存しており、実行コストが高くなる。 さらに,非定常環境においても,高精細なスケジューラは必ずしも必要ではなく,コスト効率の低いスケジューラを短時間で利用することができる。 そこで本研究では,MetaNetと呼ばれる代理モデルを用いて,スケジューリングポリシーのオンライン動的選択という,非自明なメタ問題を解決することを目的とする。 固定されたスケジューリングポリシーを持つ従来のソリューションとは異なり、metanetは大量のdnnベースのメソッドからスケジューラを選択し、タスクのスケジューリングと実行コストをタンデムで最適化する。 最先端のDNNスケジューラと比較して、実行コスト、エネルギー消費、応答時間、サービスレベルの合意違反を最大11, 43, 8, 13パーセント改善することができる。

Task scheduling is a well-studied problem in the context of optimizing the Quality of Service (QoS) of cloud computing environments. In order to sustain the rapid growth of computational demands, one of the most important QoS metrics for cloud schedulers is the execution cost. In this regard, several data-driven deep neural networks (DNNs) based schedulers have been proposed in recent years to allow scalable and efficient resource management in dynamic workload settings. However, optimal scheduling frequently relies on sophisticated DNNs with high computational needs implying higher execution costs. Further, even in non-stationary environments, sophisticated schedulers might not always be required and we could briefly rely on low-cost schedulers in the interest of cost-efficiency. Therefore, this work aims to solve the non-trivial meta problem of online dynamic selection of a scheduling policy using a surrogate model called MetaNet. Unlike traditional solutions with a fixed scheduling policy, MetaNet on-the-fly chooses a scheduler from a large set of DNN based methods to optimize task scheduling and execution costs in tandem. Compared to state-of-the-art DNN schedulers, this allows for improvement in execution costs, energy consumption, response time and service level agreement violations by up to 11, 43, 8 and 13 percent, respectively.
翻訳日:2022-06-05 12:42:11 公開日:2022-05-21
# (参考訳) 自己監督型音声表現学習の展望

Self-Supervised Speech Representation Learning: A Review ( http://arxiv.org/abs/2205.10643v1 )

ライセンス: CC BY 4.0
Abdelrahman Mohamed, Hung-yi Lee, Lasse Borgholt, Jakob D. Havtorn, Joakim Edin, Christian Igel, Katrin Kirchhoff, Shang-Wen Li, Karen Livescu, Lars Maal{\o}e, Tara N. Sainath, Shinji Watanabe(参考訳) 教師付きディープラーニングは音声と音声処理に革命をもたらしたが、個々のタスクやアプリケーションシナリオの専門モデルの構築を必要としている。 同様に、限定されたラベル付きデータしか利用できない方言や言語に適用することは困難である。 自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。 このような手法は自然言語処理やコンピュータビジョン領域で成功し、多くのダウンストリームシナリオに必要なラベル数を削減しつつ、新たなレベルのパフォーマンスを実現している。 音声表現学習は、生成的、コントラスト的、予測的な3つのカテゴリで同様の進歩を経験している。 その他のアプローチでは、事前トレーニングやテキストやビジュアルデータストリームと音声を混合するマルチモーダルデータに依存している。 自己教師あり音声表現はいまだに創発的な研究分野であるが、語彙資源ゼロの音響単語埋め込みや学習と密接に関連しており、いずれも長年にわたって活発に研究されてきた。 本稿では,自己指導型音声表現学習と他の研究領域との関係について述べる。 ダウンストリームタスクとして自動音声認識にのみ焦点をあてる手法が多数あるため,音声認識を超えてアプリケーションを拡張するための学習表現のベンチマークに関する最近の取り組みを概観する。

Although supervised deep learning has revolutionized speech and audio processing, it has necessitated the building of specialist models for individual tasks and application scenarios. It is likewise difficult to apply this to dialects and languages for which only limited labeled data is available. Self-supervised representation learning methods promise a single universal model that would benefit a wide variety of tasks and domains. Such methods have shown success in natural language processing and computer vision domains, achieving new levels of performance while reducing the number of labels required for many downstream scenarios. Speech representation learning is experiencing similar progress in three main categories: generative, contrastive, and predictive methods. Other approaches rely on multi-modal data for pre-training, mixing text or visual data streams with speech. Although self-supervised speech representation is still a nascent research area, it is closely related to acoustic word embedding and learning with zero lexical resources, both of which have seen active research for many years. This review presents approaches for self-supervised speech representation learning and their connection to other research areas. Since many current methods focus solely on automatic speech recognition as a downstream task, we review recent efforts on benchmarking learned representations to extend the application beyond speech recognition.
翻訳日:2022-06-05 12:21:12 公開日:2022-05-21
# (参考訳) アクセシビリティのための画像記述の文脈--参照なし評価基準への挑戦

Context Matters for Image Descriptions for Accessibility: Challenges for Referenceless Evaluation Metrics ( http://arxiv.org/abs/2205.10646v1 )

ライセンス: CC BY 4.0
Elisa Kreiss, Cynthia Bennett, Shayan Hooshmand, Eric Zelikman, Meredith Ringel Morris, Christopher Potts(参考訳) Web上の画像はほとんどなく、視覚障害者(BLV)にアクセスできるようなalt-text記述が受けられる。 画像ベースNLGシステムは、この永続的な社会問題に対処し始めるまで進歩してきたが、これらのシステムは、彼らの開発を正しく導く指標で評価しない限り、完全には成功しない。 ここでは、BLVユーザのニーズに合致しないという理由から、現在の参照なしメトリクス -- 人為的な地道的な記述に依存しないもの -- を論じる。 これらの指標の根本的な欠点は、コンテキストを考慮に入れることができないのに対して、コンテキスト情報はBLVユーザによって高く評価されている点である。 これらの主張を裏付けるために,様々な次元で記述を評定するblv参加者による研究を行った。 詳細な分析によると、文脈認識の欠如により、現在の参照レスメトリクスは画像アクセシビリティ向上に不適であり、画像ベースNLGシステムの参照レス評価メトリクスを再考する必要がある。

Few images on the Web receive alt-text descriptions that would make them accessible to blind and low vision (BLV) users. Image-based NLG systems have progressed to the point where they can begin to address this persistent societal problem, but these systems will not be fully successful unless we evaluate them on metrics that guide their development correctly. Here, we argue against current referenceless metrics -- those that don't rely on human-generated ground-truth descriptions -- on the grounds that they do not align with the needs of BLV users. The fundamental shortcoming of these metrics is that they cannot take context into account, whereas contextual information is highly valued by BLV users. To substantiate these claims, we present a study with BLV participants who rated descriptions along a variety of dimensions. An in-depth analysis reveals that the lack of context-awareness makes current referenceless metrics inadequate for advancing image accessibility, requiring a rethinking of referenceless evaluation metrics for image-based NLG systems.
翻訳日:2022-06-05 10:51:12 公開日:2022-05-21
# (参考訳) 臨床的安全なセグメンテーションのためのトランスフォーマーを用いたアウト・オブ・ディストリビューション検出

Transformer-based out-of-distribution detection for clinically safe segmentation ( http://arxiv.org/abs/2205.10650v1 )

ライセンス: CC BY 4.0
Mark S Graham, Petru-Daniel Tudosiu, Paul Wright, Walter Hugo Lopez Pinaya, U Jean-Marie, Yee Mah, James Teo, Rolf H J\"ager, David Werring, Parashkev Nachev, Sebastien Ourselin, M Jorge Cardoso(参考訳) 臨床環境では、デプロイされた画像処理システムは、彼らが遭遇する可能性のあるすべての入力に対して堅牢であり、特に確実に間違った予測をしないことが不可欠である。 安全な処理に対する最も一般的なアプローチは、不確実性の尺度を提供するネットワークをトレーニングすることだが、トレーニングデータ分布に遠く及ばない入力には失敗する傾向がある。 近年、データサンプルの可能性を明示的に定量化し、さらなる処理を行う前にOOD(out-of-distribution)サンプルをフィルタリングする手法が提案されている。 本研究では,頭部ctで出血を分別する作業において,画像分割に注目し,遠眼および近眼症例におけるネットワーク不確かさに対するいくつかのアプローチを評価した。 これらのアプローチは、OODを操作する際に確実に間違った予測を提供するため、安全なセグメンテーションには適さない。 本稿では,VQ-GANを用いたフル3次元OOD検出を行い,画像の圧縮潜在表現と変換器を用いてデータ可能性の推定を行う。 本手法は遠近法と近近法の両方で画像の同定に成功した。 画像の可読性とモデルのセグメンテーションの品質との間には強い関係があり、このアプローチはセグメンテーションに適さない画像のフィルタリングに有効である。 我々の知る限り、3D画像データ上でOOD検出を行うためにトランスフォーマーが適用されたのはこれが初めてである。

In a clinical setting it is essential that deployed image processing systems are robust to the full range of inputs they might encounter and, in particular, do not make confidently wrong predictions. The most popular approach to safe processing is to train networks that can provide a measure of their uncertainty, but these tend to fail for inputs that are far outside the training data distribution. Recently, generative modelling approaches have been proposed as an alternative; these can quantify the likelihood of a data sample explicitly, filtering out any out-of-distribution (OOD) samples before further processing is performed. In this work, we focus on image segmentation and evaluate several approaches to network uncertainty in the far-OOD and near-OOD cases for the task of segmenting haemorrhages in head CTs. We find all of these approaches are unsuitable for safe segmentation as they provide confidently wrong predictions when operating OOD. We propose performing full 3D OOD detection using a VQ-GAN to provide a compressed latent representation of the image and a transformer to estimate the data likelihood. Our approach successfully identifies images in both the far- and near-OOD cases. We find a strong relationship between image likelihood and the quality of a model's segmentation, making this approach viable for filtering images unsuitable for segmentation. To our knowledge, this is the first time transformers have been applied to perform OOD detection on 3D image data.
翻訳日:2022-06-05 10:32:44 公開日:2022-05-21
# (参考訳) グラフニューラルネットワークはナレッジグラフ補完に本当に役立つのか?

Are Graph Neural Networks Really Helpful for Knowledge Graph Completion? ( http://arxiv.org/abs/2205.10652v1 )

ライセンス: CC BY 4.0
Juanhui Li and Harry Shomer and Jiayuan Ding and Yiqi Wang and Yao Ma and Neil Shah and Jiliang Tang and Dawei Yin(参考訳) 知識グラフ(KG)は、多くの分野に適用可能な関係知識を格納できるため、幅広い応用を促進する。 製造とメンテナンスに多大な努力を払ったにもかかわらず、最大のkgも完成にはほど遠い。 したがって、KG完了(KGC)はKG研究において最も重要な課題の一つとなっている。 近年、この領域におけるかなりの文献は、KGのトポロジ的構造を利用する強力な埋め込みを学習するためのグラフニューラルネットワーク(GNN)の利用を中心にしている。 具体的には、GNNを単純な等質グラフと一様関係グラフのために設計し、近隣ノード(GNNの性能に重要な)上でより複雑な集約スキームを設計し、複数の関係情報を適切に活用することで、エンティティ間の多元的および多元的関係を持つKGコンテキストに拡張する努力がなされている。 これらの手法の成功は、単純な多層パーセプトロン(MLP)モデルよりもGNNを使うことによるものである。 この研究で、驚くほど単純なMLPモデルでGNNに匹敵する性能を達成できることが判明し、アグリゲーションが以前信じられていたほど重要でない可能性が示唆された。 さらに,注意深いスコアリング機能と損失関数の設計がkgcモデルの性能に大きく影響し,アグリゲーションは実際には必要ではないことを示す。 これは、現在最先端のKGC手法のスケーラビリティに関する将来的な洞察と、明日のKGCタスクに適した集約設計に注意を払って、事前作業におけるスコアリング関数設計、損失関数設計、集約の融合を示唆している。

Knowledge graphs (KGs) facilitate a wide variety of applications due to their ability to store relational knowledge applicable to many areas. Despite great efforts invested in creation and maintenance, even the largest KGs are far from complete. Hence, KG completion (KGC) has become one of the most crucial tasks for KG research. Recently, considerable literature in this space has centered around the use of Graph Neural Networks (GNNs) to learn powerful embeddings which leverage topological structures in the KGs. Specifically, dedicated efforts have been made to extend GNNs, which are commonly designed for simple homogeneous and uni-relational graphs, to the KG context which has diverse and multi-relational connections between entities, by designing more complex aggregation schemes over neighboring nodes (crucial to GNN performance) to appropriately leverage multi-relational information. The success of these methods is naturally attributed to the use of GNNs over simpler multi-layer perceptron (MLP) models, owing to their additional aggregation functionality. In this work, we find that surprisingly, simple MLP models are able to achieve comparable performance to GNNs, suggesting that aggregation may not be as crucial as previously believed. With further exploration, we show careful scoring function and loss function design has a much stronger influence on KGC model performance, and aggregation is not practically required. This suggests a conflation of scoring function design, loss function design, and aggregation in prior work, with promising insights regarding the scalability of state-of-the-art KGC methods today, as well as careful attention to more suitable aggregation designs for KGC tasks tomorrow.
翻訳日:2022-06-05 10:15:10 公開日:2022-05-21
# (参考訳) リアルタイム・エネルギー効率向上を目指すSiamese Tracking -- ハードウェア・ソフトウェア・アプローチ

Towards real-time and energy efficient Siamese tracking -- a hardware-software approach ( http://arxiv.org/abs/2205.10653v1 )

ライセンス: CC BY 4.0
Dominika Przewlocka-Rus, Tomasz Kryjak(参考訳) シームズトラッカーは、過去数年間、各Visual Object Tracking(VOT)チャレンジにおける最先端のソリューションのひとつです。 リアルタイム処理を実現するには、これらのトラッカーは大規模に並列化され、通常はハイエンドGPU上で実行される必要がある。 実装が簡単で、このアプローチはエネルギー消費であり、多くの低消費電力アプリケーションでは利用できない。 これを解決するために、ARMプロセッサシステムとプログラマブルロジック(FPGA)を結合する異種プラットフォームのようなエネルギー効率のよい組み込みデバイスを使用することができる。 本研究では,よく知られた完全連結型シームズトラッカー(SiamFC)のハードウェアソフトウェア実装を提案する。 我々は、FINNアクセラレーターのための量子化シームズネットワークを開発し、アルゴリズム-加速器共設計を用いて、最適効率-エネルギー比(FPSと使用資源で決定される)を達成する設計空間探索を行った。 我々のネットワークでは、Zynq UltraScale+MPSoC ZCU104のプログラム可能なロジック部で動作し、フローティングポイントと同等のトラッカー精度で、50フレーム/秒の処理を実現しました。 FPGA上でネットワークを高速化したARMで実装された完全なトラッキングシステムは17fpsに達する。 これらの結果から,低消費電力エッジシステムにおいて,高精度だがエネルギー需要の高いアルゴリズムとエネルギー効率の高いソリューションとのギャップを埋めることができた。

Siamese trackers have been among the state-of-the-art solutions in each Visual Object Tracking (VOT) challenge over the past few years. However, with great accuracy comes great computational complexity: to achieve real-time processing, these trackers have to be massively parallelised and are usually run on high-end GPUs. Easy to implement, this approach is energy consuming, and thus cannot be used in many low-power applications. To overcome this, one can use energy-efficient embedded devices, such as heterogeneous platforms joining the ARM processor system with programmable logic (FPGA). In this work, we propose a hardware-software implementation of the well-known fully connected Siamese tracker (SiamFC). We have developed a quantised Siamese network for the FINN accelerator, using algorithm-accelerator co-design, and performed design space exploration to achieve the best efficiency-to-energy ratio (determined by FPS and used resources). For our network, running in the programmable logic part of the Zynq UltraScale+ MPSoC ZCU104, we achieved the processing of almost 50 frames-per-second with tracker accuracy on par with its floating point counterpart, as well as the original SiamFC network. The complete tracking system, implemented in ARM with the network accelerated on FPGA, achieves up to 17 fps. These results bring us towards bridging the gap between the highly accurate but energy-demanding algorithms and energy-efficient solutions ready to be used in low-power, edge systems.
翻訳日:2022-06-05 09:56:58 公開日:2022-05-21
# (参考訳) 2022年の視覚トランスフォーマー:小さなイメージネットのアップデート

Vision Transformers in 2022: An Update on Tiny ImageNet ( http://arxiv.org/abs/2205.10660v1 )

ライセンス: CC BY 4.0
Ethan Huynh(参考訳) 最近の画像トランスフォーマーの進歩は目覚ましい結果を示し、従来のCNNアーキテクチャのギャップを大きく埋めてきた。 標準的な手順は、ImageNet-21kのような大規模なデータセットでトレーニングし、ImageNet-1kで微調整する。 微調整の後、CIFAR-10/100のような小さなデータセットでの転送学習のパフォーマンスをよく検討するが、Tiny ImageNetを除外した。 本稿では,視覚トランスフォーマーの小型イメージネットにおける性能について述べる。 Vision Transformer (ViT)、Data Efficient Image Transformer (DeiT)、Class Attention in Image Transformer (CaiT)、Swin Transformerなどです。 さらに、Swin Transformersは現在の最先端の結果を91.35%の精度で破る。 https://github.com/ehuynh1106/TinyImageNet-Transformers

The recent advances in image transformers have shown impressive results and have largely closed the gap between traditional CNN architectures. The standard procedure is to train on large datasets like ImageNet-21k and then finetune on ImageNet-1k. After finetuning, researches will often consider the transfer learning performance on smaller datasets such as CIFAR-10/100 but have left out Tiny ImageNet. This paper offers an update on vision transformers' performance on Tiny ImageNet. I include Vision Transformer (ViT) , Data Efficient Image Transformer (DeiT), Class Attention in Image Transformer (CaiT), and Swin Transformers. In addition, Swin Transformers beats the current state-of-the-art result with a validation accuracy of 91.35%. Code is available here: https://github.com/ehuynh1106/TinyImageNet-Transformers
翻訳日:2022-06-05 09:47:00 公開日:2022-05-21
# (参考訳) 等変メッシュアテンションネットワーク

Equivariant Mesh Attention Networks ( http://arxiv.org/abs/2205.10662v1 )

ライセンス: CC BY 4.0
Sourya Basu, Jose Gallego-Posada, Francesco Vigan\`o, James Rowbottom and Taco Cohen(参考訳) 対称性の等価性は、ディープラーニング研究において強力な帰納バイアスであることが証明されている。 メッシュ処理に関する最近の研究は、翻訳、回転、スケーリング、ノード置換、ゲージ変換など、様々な種類の自然対称性に集中している。 今のところ、既存のアーキテクチャはこれらすべての変換に等しくない。 さらに、以前の実装は、常にこれらの対称性変換をテストデータセットに適用していない。 これにより、モデルが主張される同値性を達成するかどうかを決定する能力が阻害される。 本稿では、上記のすべての変換にほぼ同値なメッシュデータに対する注意に基づくアーキテクチャを提案する。 FAUSTおよびTOSCAデータセットの実験を行い、上記の対称性をテストセットのみに適用する。 この結果から,提案するアーキテクチャは局所・グローバル変換に対して同値であり,従ってロバストであることを確認した。

Equivariance to symmetries has proven to be a powerful inductive bias in deep learning research. Recent works on mesh processing have concentrated on various kinds of natural symmetries, including translations, rotations, scaling, node permutations, and gauge transformations. To date, no existing architecture is equivariant to all of these transformations. Moreover, previous implementations have not always applied these symmetry transformations to the test dataset. This inhibits the ability to determine whether the model attains the claimed equivariance properties. In this paper, we present an attention-based architecture for mesh data that is provably equivariant to all transformations mentioned above. We carry out experiments on the FAUST and TOSCA datasets, and apply the mentioned symmetries to the test set only. Our results confirm that our proposed architecture is equivariant, and therefore robust, to these local/global transformations.
翻訳日:2022-05-30 12:17:05 公開日:2022-05-21
# (参考訳) 肝分画のためのトランスフォーマベース生成逆ネットワーク

Transformer based Generative Adversarial Network for Liver Segmentation ( http://arxiv.org/abs/2205.10663v1 )

ライセンス: CC BY 4.0
Ugur Demir, Zheyuan Zhang, Bin Wang, Matthew Antalek, Elif Keles, Debesh Jha, Amir Borhani, Daniela Ladner and Ulas Bagci(参考訳) 放射線検査(CT, MRI)による自動肝セグメンテーションは, 従来の診断・予後検査に加えて, 手術・治療計画, 術後評価を改善することができる。 畳み込みニューラルネットワーク(cnns)が標準的な画像分割タスクとなっているが、近年ではトランスフォーマーが信号の長距離依存性モデリング機能を利用するようになり、注意機構と呼ばれるようになったため、トランスフォーマーベースのアーキテクチャへと変化し始めた。 本研究では,Transformer(s) とGenerative Adversarial Network (GAN) を組み合わせたハイブリッド手法を用いて,新しいセグメンテーション手法を提案する。 この選択の背景にある前提は、トランスフォーマーの自己着脱機構により、ネットワークは高次元の特徴を集約し、グローバルな情報モデリングを提供できることである。 このメカニズムは従来の手法に比べてセグメンテーション性能が良い。 さらに,ganの識別器ネットワークが生成したセグメンテーションマスクの信頼性を,人間(専門家)のアノテーションによる実際のマスクと比較して分類できるように,このジェネレータをganベースのアーキテクチャにエンコードする。 これにより,生体画像セグメンテーションのためのマスク内の高次元トポロジー情報を抽出し,より信頼性の高いセグメンテーション結果を提供する。 我々のモデルは高いダイス係数0.9433、リコール0.9515、精度0.9376、その他のトランスフォーマーベースアプローチより優れていた。

Automated liver segmentation from radiology scans (CT, MRI) can improve surgery and therapy planning and follow-up assessment in addition to conventional use for diagnosis and prognosis. Although convolutional neural networks (CNNs) have become the standard image segmentation tasks, more recently this has started to change towards Transformers based architectures because Transformers are taking advantage of capturing long range dependence modeling capability in signals, so called attention mechanism. In this study, we propose a new segmentation approach using a hybrid approach combining the Transformer(s) with the Generative Adversarial Network (GAN) approach. The premise behind this choice is that the self-attention mechanism of the Transformers allows the network to aggregate the high dimensional feature and provide global information modeling. This mechanism provides better segmentation performance compared with traditional methods. Furthermore, we encode this generator into the GAN based architecture so that the discriminator network in the GAN can classify the credibility of the generated segmentation masks compared with the real masks coming from human (expert) annotations. This allows us to extract the high dimensional topology information in the mask for biomedical image segmentation and provide more reliable segmentation results. Our model achieved a high dice coefficient of 0.9433, recall of 0.9515, and precision of 0.9376 and outperformed other Transformer based approaches.
翻訳日:2022-05-30 11:55:01 公開日:2022-05-21
# (参考訳) MultiBiSage: Pinterestの複数の2部グラフを使用したWebスケールレコメンデーションシステム

MultiBiSage: A Web-Scale Recommendation System Using Multiple Bipartite Graphs at Pinterest ( http://arxiv.org/abs/2205.10666v1 )

ライセンス: CC BY 4.0
Saket Gurukar, Nikil Pancha, Andrew Zhai, Eric Kim, Samson Hu, Srinivasan Parthasarathy, Charles Rosenberg, Jure Leskovec(参考訳) グラフ畳み込みネットワーク(GCN)はグラフ構造とノード機能を効率的に統合し、高品質なノード埋め込みを学習する。 これらの埋め込みは、レコメンデーションや検索など、いくつかのタスクに使用できる。 Pinterestでは、Pin-Boardグラフからピン埋め込みを学習するデータ効率のGCNであるPinSageを開発し、デプロイしました。 Pin-Boardグラフはピンとボードのエンティティを含み、グラフはピンをキャプチャしてボードのインタラクションに属する。 しかし、pinterestにはユーザ、アイデアピン、クリエーターなどいくつかのエンティティがあり、add-to-cart、follow、long-clickといったエンティティ間で異質なインタラクションが存在する。 本研究では,これらの多様な相互作用を捉えるグラフ上でのディープラーニングモデルのトレーニングにより,PinSageのトレーニングよりも高品質なピン埋め込みを学習できることを示す。 そこで我々は,複数の二部グラフを用いて多様な実体とその多様な相互作用をモデル化し,新しいデータ効率のMultiBiSageモデルを提案する。 MultiBiSageは、複数の二部グラフのグラフ構造をキャプチャして、高品質なピン埋め込みを学習することができる。 これは10億のノードグラフ上で最適化されたランダムウォークを実行するpixieシステムや、既存のトレーニングやデプロイメントワークフローなど、pinterestで開発された既存のインフラストラクチャを活用可能にするためです。 我々はPin-Boardグラフを含む6つの二部グラフ上でMultiBiSageを訓練する。 当社のオフラインメトリクスは、マルチバイザが複数のユーザのエンゲージメント指標でデプロイされた最新バージョンのpinsageを大幅に上回っていることを示している。

Graph Convolutional Networks (GCN) can efficiently integrate graph structure and node features to learn high-quality node embeddings. These embeddings can then be used for several tasks such as recommendation and search. At Pinterest, we have developed and deployed PinSage, a data-efficient GCN that learns pin embeddings from the Pin-Board graph. The Pin-Board graph contains pin and board entities and the graph captures the pin belongs to a board interaction. However, there exist several entities at Pinterest such as users, idea pins, creators, and there exist heterogeneous interactions among these entities such as add-to-cart, follow, long-click. In this work, we show that training deep learning models on graphs that captures these diverse interactions would result in learning higher-quality pin embeddings than training PinSage on only the Pin-Board graph. To that end, we model the diverse entities and their diverse interactions through multiple bipartite graphs and propose a novel data-efficient MultiBiSage model. MultiBiSage can capture the graph structure of multiple bipartite graphs to learn high-quality pin embeddings. We take this pragmatic approach as it allows us to utilize the existing infrastructure developed at Pinterest -- such as Pixie system that can perform optimized random-walks on billion node graphs, along with existing training and deployment workflows. We train MultiBiSage on six bipartite graphs including our Pin-Board graph. Our offline metrics show that MultiBiSage significantly outperforms the deployed latest version of PinSage on multiple user engagement metrics.
翻訳日:2022-05-30 10:43:31 公開日:2022-05-21
# (参考訳) 眼球運動軌跡の個々のトポロジー構造

Individual Topology Structure of Eye Movement Trajectories ( http://arxiv.org/abs/2205.10667v1 )

ライセンス: CC BY 4.0
Arsenii Onuchin, Oleg Kachan(参考訳) 伝統的に、眼球運動データからパターンを抽出することは、固定やササードのような異なるマクロイベントの統計に依存する。 これは、眼球運動のサブタイプを分離するために追加の事前処理ステップを必要とし、しばしば分類結果が依存する多くのパラメータを持つ。 さらに、そのようなマクロイベントの定義は、異なる研究者によって異なる方法で定式化される。 本稿では,眼球運動軌跡構造の定量的解析に新たな特徴のクラスを応用することを提案する。 代数トポロジーに基づくこの新しい特徴のクラスは、座標や振幅の時系列、熱マップ、点雲といった様々な視線から、マイクロからマクロまであらゆるスケールで統一された方法でパターンを抽出することができる。 本稿では,最近発表された眼球運動軌跡データセットにおける人物認証タスクに併用しながら,従来の特徴と相乗効果を両立させた新しい特徴の競争力を実験的に実証する。

Traditionally, extracting patterns from eye movement data relies on statistics of different macro-events such as fixations and saccades. This requires an additional preprocessing step to separate the eye movement subtypes, often with a number of parameters on which the classification results depend. Besides that, definitions of such macro events are formulated in different ways by different researchers. We propose an application of a new class of features to the quantitative analysis of personal eye movement trajectories structure. This new class of features based on algebraic topology allows extracting patterns from different modalities of gaze such as time series of coordinates and amplitudes, heatmaps, and point clouds in a unified way at all scales from micro to macro. We experimentally demonstrate the competitiveness of the new class of features with the traditional ones and their significant synergy while being used together for the person authentication task on the recently published eye movement trajectories dataset.
翻訳日:2022-05-30 10:19:43 公開日:2022-05-21
# (参考訳) 高次元共変量を持つガウス図形回帰に対するマルチタスク学習

Multi-task Learning for Gaussian Graphical Regressions with High Dimensional Covariates ( http://arxiv.org/abs/2205.10672v1 )

ライセンス: CC BY 4.0
Jingfei Zhang and Yi Li(参考訳) ガウスのグラフィカル回帰は、共変量上でガウスのグラフィカルモデルの精度行列を回帰する強力な手段であり、応答変数と共変量の数が標本サイズを超えることを許している。 モデルフィッティングは通常、ノード毎のラッソ回帰によって行われ、これらの回帰のうちネットワークによる構造は無視される。 これにより、特にノード数が大きい場合にはエラーレートが高くなる。 本稿では,ガウスのグラフィカル回帰モデルに適合するマルチタスク学習推定器を提案する。我々は,多タスク群間隔ペナルティとタスク内要素幅ペナルティを設計し,アクティブな共変量とそのグラフへの影響をそれぞれ管理する。 計算には,半滑らかなニュートン法を用いて部分問題を解く効率的な拡張ラグランジアンアルゴリズムを考える。 理論上,マルチタスク学習に基づく推定の誤り率は,クロスタスクペナルティがタスク間で情報を借りているため,ノード単位でのlasso推定よりも大幅に改善されていることを示す。 複雑な相関構造にタスクが絡み合っているという主な課題に対処するために、任意の相関構造を持つ相関重み付き(部分指数)変数の新たなテール確率を、それ自身で有用な理論的結果として確立する。 最後に,本手法の有用性をシミュレーションにより実証し,脳癌患者との遺伝子共発現ネットワーク研究への応用を行った。

Gaussian graphical regression is a powerful means that regresses the precision matrix of a Gaussian graphical model on covariates, permitting the numbers of the response variables and covariates to far exceed the sample size. Model fitting is typically carried out via separate node-wise lasso regressions, ignoring the network-induced structure among these regressions. Consequently, the error rate is high, especially when the number of nodes is large. We propose a multi-task learning estimator for fitting Gaussian graphical regression models; we design a cross-task group sparsity penalty and a within task element-wise sparsity penalty, which govern the sparsity of active covariates and their effects on the graph, respectively. For computation, we consider an efficient augmented Lagrangian algorithm, which solves subproblems with a semi-smooth Newton method. For theory, we show that the error rate of the multi-task learning based estimates has much improvement over that of the separate node-wise lasso estimates, because the cross-task penalty borrows information across tasks. To address the main challenge that the tasks are entangled in a complicated correlation structure, we establish a new tail probability bound for correlated heavy-tailed (sub-exponential) variables with an arbitrary correlation structure, a useful theoretical result in its own right. Finally, the utility of our method is demonstrated through simulations as well as an application to a gene co-expression network study with brain cancer patients.
翻訳日:2022-05-30 10:10:32 公開日:2022-05-21
# (参考訳) NS3:Neuro-Symbolic Semantic Code Search

NS3: Neuro-Symbolic Semantic Code Search ( http://arxiv.org/abs/2205.10674v1 )

ライセンス: CC BY 4.0
Shushan Arakelyan, Anna Hakhverdyan, Miltiadis Allamanis, Christophe Hauser, Luis Garcia and Xiang Ren(参考訳) 意味的なコード検索は、その機能のテキスト記述が与えられたコードスニペットを検索するタスクである。 最近の研究は、テキストとコードのニューラル埋め込み間の類似度メトリクスの使用に焦点を当てている。 しかし、現在の言語モデルは、長い合成テキストと多段階推論に苦しむことが知られている。 この制限を克服するために,問合せ文をその意味構造のレイアウトで補完する手法を提案する。 セマンティックレイアウトは、最終的な推論決定を下位の一連の決定に分解するために使用される。 私たちはこのアイデアを実装するためにNeural Module Networkアーキテクチャを使用します。 ns3(neuro-symbolic semantic search)モデルと最先端のセマンティックコード検索手法を含む多数のベースラインを比較し,codesearchnetとcode searchとq&aという2つのデータセットを評価した。 提案手法によりより正確なコード検索が可能となり,合成クエリ処理におけるモジュール設計の有効性を検証した。

Semantic code search is the task of retrieving a code snippet given a textual description of its functionality. Recent work has been focused on using similarity metrics between neural embeddings of text and code. However, current language models are known to struggle with longer, compositional text, and multi-step reasoning. To overcome this limitation, we propose supplementing the query sentence with a layout of its semantic structure. The semantic layout is used to break down the final reasoning decision into a series of lower-level decisions. We use a Neural Module Network architecture to implement this idea. We compare our model - NS3 (Neuro-Symbolic Semantic Search) - to a number of baselines, including state-of-the-art semantic code retrieval methods, and evaluate on two datasets - CodeSearchNet and Code Search and Question Answering. We demonstrate that our approach results in more precise code retrieval, and we study the effectiveness of our modular design when handling compositional queries.
翻訳日:2022-05-30 09:47:35 公開日:2022-05-21
# (参考訳) エンティティマッチングの問題とその受信物自動決済への応用について

On the problem of entity matching and its application in automated settlement of receivables ( http://arxiv.org/abs/2205.10678v1 )

ライセンス: CC BY 4.0
Lukasz Czekaj, Tomasz Biegus, Robert Kitlowski, Stanislaw Raczynski, Mateusz Olszewski, Jakub Dziedzic, Pawe{\l} Tomasik, Ryszard Kozera, Alexander Prokopenya, Robert Olszewski(参考訳) 本稿では,非政府組織におけるレセビブルの自動決済について述べる。 我々はエンティティマッチング技術でこの問題に取り組む。 マッチングの予備ランク付けにベースアルゴリズムを用いる場合のセットアップについて検討し,スコアポスト処理,カスケードモデル,チェーンモデルといったベースアルゴリズムのマッチング品質を向上させるために,いくつかの新しい手法を適用した。 ここで提示する手法は, 受取可能な自動解決, エンティティマッチング, オープンワールドシナリオにおけるマルチラベル分類に寄与する。 提案手法は78%(ベースモデル)から90%までのリコールを精度99%で促進する。

This paper covers automated settlement of receivables in non-governmental organizations. We tackle the problem with entity matching techniques. We consider setup, where base algorithm is used for preliminary ranking of matches, then we apply several novel methods to increase matching quality of base algorithm: score post processing, cascade model and chain model. The methods presented here contribute to automated settlement of receivables, entity matching and multilabel classification in open-world scenario. We evaluate our approach on real world operational data which come from company providing settlement of receivables as a service: proposed methods boost recall from 78% (base model) to >90% at precision 99%.
翻訳日:2022-05-30 09:21:23 公開日:2022-05-21
# (参考訳) フェーディングチャネル用短絡符号のニューラル拡張Min-Sum復号

Neural Augmented Min-Sum Decoding of Short Block Codes for Fading Channels ( http://arxiv.org/abs/2205.10684v1 )

ライセンス: CC BY 4.0
Sravan Kumar Ankireddy and Hyeji Kim(参考訳) 線形ブロック符号の復号において,Belief Propagation (BP)デコーダに学習可能なパラメータを導入することにより,ビット誤り率の観点から顕著なゲインが得られることを示した。 これらの手法が成功したにも拘わらず、鍵となる問題は2つある。 1つ目は、AWGN以外のチャネルの分析の欠如である。 2つ目は、学習した重みの解釈とBPデコーダの信頼性への影響である。 本研究では,拡張都市 (ETU) などの非AWGNチャネルに着目し,このギャップを埋めることを目的としている。 bpデコーダのmin-sumバージョンにおいて,重み付けの効果と異なるチャネル設定における性能の保持について検討した。 エンタングルメントはAWGNチャネルではほとんど劣化しないが,より複雑なチャネルでは顕著な損失が見られた。 また、学習した重みと基礎となるコードの構造との関係についての洞察も提供します。 最後に,このアルゴリズムを無線ソフトウェアを用いて無線路上で評価する。

In the decoding of linear block codes, it was shown that noticeable gains in terms of bit error rate can be achieved by introducing learnable parameters to the Belief Propagation (BP) decoder. Despite the success of these methods, there are two key open problems. The first is the lack of analysis for channels other than AWGN. The second is the interpretation of the weights learned and their effect on the reliability of the BP decoder. In this work, we aim to bridge this gap by looking at non-AWGN channels such as Extended Typical Urban (ETU) channel. We study the effect of entangling the weights and how the performance holds across different channel settings for the min-sum version of BP decoder. We show that while entanglement has little degradation in the AWGN channel, a significant loss is observed in more complex channels. We also provide insights into the weights learned and their connection to the structure of the underlying code. Finally, we evaluate our algorithm on the over-the-air channels using Software Defined Radios.
翻訳日:2022-05-30 09:14:44 公開日:2022-05-21
# (参考訳) 事前学習型言語モデルの再検討とアラビア自然言語理解のための評価

Revisiting Pre-trained Language Models and their Evaluation for Arabic Natural Language Understanding ( http://arxiv.org/abs/2205.10687v1 )

ライセンス: CC BY 4.0
Abbas Ghaddar, Yimeng Wu, Sunyam Bagga, Ahmad Rashid, Khalil Bibi, Mehdi Rezagholizadeh, Chao Xing, Yasheng Wang, Duan Xinyu, Zhefeng Wang, Baoxing Huai, Xin Jiang, Qun Liu, Philippe Langlais(参考訳) 近年、アラビア語のための事前訓練言語モデル(PLM)を開発するための活動が活発化している。 この研究は、アラビア語のNLUおよびNLGフィールドの進行を抑制する既存のアラビア語のPLMの2つの大きな問題に対処するものであり、第一に、既存のアラビア語のPLMは十分に探索されておらず、その事前訓練はより体系的なアプローチで大幅に改善することができる。 第2に,これらのモデルの体系的かつ再現可能な評価が文献に欠落している。 本研究では,アラビア語 PLM の事前学習と評価について再考する。 事前学習に関しては,事前学習データの品質,モデルのサイズ,文字レベル情報の導入という3つの観点から,アラビア語 LM の改善を検討する。 その結果、アラビア語のBERTスタイルモデル(JABER、Char-JABER、SABER)とT5スタイルモデル(AT5S、AT5B)を新たに3種類リリースした。 評価の面では、アラビアNLUタスクのリーダーボードを用いたベンチマークであるALUEと、アラビアNLGタスクのARGENベンチマークのサブセットを用いて、既存の最先端モデルの性能を体系的に評価するための総合的な実証的研究を行う。 我々のモデルは既存のアラビア PLM を著しく上回り、差別的で生成的なアラビア NLU および NLG タスクにおける新たな最先端性能を実現する。 結果の再現を行う当社のモデルとソースコードは,近く公開される予定です。

There is a growing body of work in recent years to develop pre-trained language models (PLMs) for the Arabic language. This work concerns addressing two major problems in existing Arabic PLMs which constraint progress of the Arabic NLU and NLG fields.First, existing Arabic PLMs are not well-explored and their pre-trainig can be improved significantly using a more methodical approach. Second, there is a lack of systematic and reproducible evaluation of these models in the literature. In this work, we revisit both the pre-training and evaluation of Arabic PLMs. In terms of pre-training, we explore improving Arabic LMs from three perspectives: quality of the pre-training data, size of the model, and incorporating character-level information. As a result, we release three new Arabic BERT-style models ( JABER, Char-JABER, and SABER), and two T5-style models (AT5S and AT5B). In terms of evaluation, we conduct a comprehensive empirical study to systematically evaluate the performance of existing state-of-the-art models on ALUE that is a leaderboard-powered benchmark for Arabic NLU tasks, and on a subset of the ARGEN benchmark for Arabic NLG tasks. We show that our models significantly outperform existing Arabic PLMs and achieve a new state-of-the-art performance on discriminative and generative Arabic NLU and NLG tasks. Our models and source code to reproduce of results will be made available shortly.
翻訳日:2022-05-30 09:04:38 公開日:2022-05-21
# (参考訳) 拘束的進化による身体神経の共設計

Co-design of Embodied Neural Intelligence via Constrained Evolution ( http://arxiv.org/abs/2205.10688v1 )

ライセンス: CC BY 4.0
Zhiquan Wang, Bedrich Benes, Ahmed H. Qureshi, Christos Mousas(参考訳) 本稿では,深層強化学習と進化とユーザ制御を組み合わせた自律移動エージェントの形状特性とロコモーションの協調設計手法を提案する。 私たちの主なインスピレーションは進化によるもので、自然界における幅広い多様性と適応をもたらし、同時にデザインと振る舞いを著しく改善する可能性がある。 提案手法は,進化してはならない脚部や変更範囲を許容するなど,任意の単純な制約を持つ入力エージェントを用いる。 物理に基づくシミュレーションを用いて、その動きを判断し、後に比較のベースラインとして使われる入力設計のための行動ポリシーを見つける。 エージェントは許可された範囲内でランダムに修正され、数百のエージェントを新たに生成する。 生成は、トレーニングを著しくスピードアップする以前のポリシーを転送することでトレーニングされる。 ベストパフォーマンス剤が選択され、そのクロスオーバーと変異を用いて新しい世代が形成される。 次の世代は満足な結果に到達するまで訓練される。 我々は多種多様な進化エージェントを示し、その結果、わずか10%の変化でも、進化エージェントの全体的なパフォーマンスは50%向上していることがわかった。 最初の設計にもっと重要な変更が許されれば、実験のパフォーマンスはさらに150%向上します。 関連する作業とは対照的に、私たちの共同設計は単一のGPUで動作し、1時間以内に何千ものエージェントをトレーニングすることで満足な結果を提供する。

We introduce a novel co-design method for autonomous moving agents' shape attributes and locomotion by combining deep reinforcement learning and evolution with user control. Our main inspiration comes from evolution, which has led to wide variability and adaptation in Nature and has the potential to significantly improve design and behavior simultaneously. Our method takes an input agent with optional simple constraints such as leg parts that should not evolve or allowed ranges of changes. It uses physics-based simulation to determine its locomotion and finds a behavior policy for the input design, later used as a baseline for comparison. The agent is then randomly modified within the allowed ranges creating a new generation of several hundred agents. The generation is trained by transferring the previous policy, which significantly speeds up the training. The best-performing agents are selected, and a new generation is formed using their crossover and mutations. The next generations are then trained until satisfactory results are reached. We show a wide variety of evolved agents, and our results show that even with only 10% of changes, the overall performance of the evolved agents improves 50%. If more significant changes to the initial design are allowed, our experiments' performance improves even more to 150%. Contrary to related work, our co-design works on a single GPU and provides satisfactory results by training thousands of agents within one hour.
翻訳日:2022-05-30 08:39:34 公開日:2022-05-21
# (参考訳) ジェネレーティブ・ディバイサル・ネットワークを用いた病理ファントム画像の作成と腫瘍検出の改善

Producing Histopathology Phantom Images using Generative Adversarial Networks to improve Tumor Detection ( http://arxiv.org/abs/2205.10691v1 )

ライセンス: CC BY 4.0
Vidit Gautam(参考訳) 医学画像の進歩は深層学習研究の重要な部分である。 コンピュータビジョンの目標の1つは、生検で得られた組織学的スライドから腫瘍を識別できる包括的包括的モデルの開発である。 主要な問題は、いくつかのがんタイプのデータがないことだ。 本稿では,ganを用いたデータ拡張が,我々のデータセットにおける異なるがんタイプの分布のムラを減少させる有効な解決策となることを確かめる。 実験の結果,50%増のデータセットでは腫瘍検出率が80%から87.5%に増加した。

Advance in medical imaging is an important part in deep learning research. One of the goals of computer vision is development of a holistic, comprehensive model which can identify tumors from histology slides obtained via biopsies. A major problem that stands in the way is lack of data for a few cancer-types. In this paper, we ascertain that data augmentation using GANs can be a viable solution to reduce the unevenness in the distribution of different cancer types in our dataset. Our demonstration showed that a dataset augmented to a 50% increase causes an increase in tumor detection from 80% to 87.5%
翻訳日:2022-05-30 08:23:00 公開日:2022-05-21
# (参考訳) 必要なのはログだけ - 匿名のide使用ログから学ぶことでコード補完を改善する

All You Need Is Logs: Improving Code Completion by Learning from Anonymous IDE Usage Logs ( http://arxiv.org/abs/2205.10692v1 )

ライセンス: CC BY 4.0
Vitaliy Bibaev, Alexey Kalina, Vadim Lomshakov, Yaroslav Golubev, Alexander Bezzubov, Nikita Povarov, Timofey Bryksin(参考訳) 統合開発環境(IDE)は、ユーザの生産性を高め、作業をより快適にするために設計されています。 これを実現するために、多くの多様なツールがIDEに組み込まれており、IDEの開発者は匿名の使用ログを使用して、それらを改善するためにどのように使われているかのデータを集めることができる。 統計的学習技術を用いてコード補完を改善することは、十分に確立された研究分野である。 そこで本研究では,IDEのユーザから完成度ログを収集し,それを機械学習モデルで学習し,完成度候補のランク付けを行う手法を提案する。 コンプリート候補とそのコンテキストを記述した一連の機能を開発し、IntelliJベースのIDEの早期アクセスプログラムに匿名化されたコレクションをデプロイしました。 ログを使ってユーザからコード補完のデータセットを収集し、ランキングのcatboostモデルをトレーニングするために使用しました。 次に、収集した完了の保留セットと、IDE内の2つの異なるユーザーグループで別々のA/Bテストの2つの設定で評価した。 評価の結果,過去のユーザ行動ログでトレーニングされた単純なランキングモデルを用いることで,コード補完エクスペリエンスが大幅に向上した。 既定のヒューリスティックスによるランキングと比較すると,IDEの完了に必要なタイピングアクションの数が2.073から1.832に減少した。 このアプローチは、個人情報の収集を必要とせず、クライアント側で必要な匿名化を実行するため、プライバシー要件と法的制約に準拠する。 重要なのは、新機能の実装、新しいデータ収集、新しいモデルの評価など、継続的に改善できることです。

Integrated Development Environments (IDE) are designed to make users more productive, as well as to make their work more comfortable. To achieve this, a lot of diverse tools are embedded into IDEs, and the developers of IDEs can employ anonymous usage logs to collect the data about how they are being used to improve them. A particularly important component that this can be applied to is code completion, since improving code completion using statistical learning techniques is a well-established research area. In this work, we propose an approach for collecting completion usage logs from the users in an IDE and using them to train a machine learning based model for ranking completion candidates. We developed a set of features that describe completion candidates and their context, and deployed their anonymized collection in the Early Access Program of IntelliJ-based IDEs. We used the logs to collect a dataset of code completions from users, and employed it to train a ranking CatBoost model. Then, we evaluated it in two settings: on a held-out set of the collected completions and in a separate A/B test on two different groups of users in the IDE. Our evaluation shows that using a simple ranking model trained on the past user behavior logs significantly improved code completion experience. Compared to the default heuristics-based ranking, our model demonstrated a decrease in the number of typing actions necessary to perform the completion in the IDE from 2.073 to 1.832. The approach adheres to privacy requirements and legal constraints, since it does not require collecting personal information, performing all the necessary anonymization on the client's side. Importantly, it can be improved continuously: implementing new features, collecting new data, and evaluating new models - this way, we have been using it in production since the end of 2020.
翻訳日:2022-05-30 08:15:03 公開日:2022-05-21
# (参考訳) life after bert: 他のマペットは言語について何を理解していますか?

Life after BERT: What do Other Muppets Understand about Language? ( http://arxiv.org/abs/2205.10696v1 )

ライセンス: CC BY 4.0
Vladislav Lialin, Kevin Zhao, Namrata Shivagunde, Anna Rumshisky(参考訳) 既存の事前学習されたトランスフォーマー分析は、通常、1つまたは2つのモデルファミリにのみ焦点を合わせ、アーキテクチャの変動性と事前学習目標を見渡す。 本研究では,t5,bart,albertなど29種類のモデルに対して,olmpicsベンチマークと精神言語学的プロビングデータセットを用いた。 さらに,OLMpicsゼロショット設定を自己回帰モデルに適用し,異なるサイズのGPTネットワークを評価する。 以上の結果から,これらのモデルがゼロショット方式で構成問題を解けないことが示唆され,既存の事前学習目標を用いて学習できないことが示唆された。 さらに、アーキテクチャ、方向性、データセットのサイズ、事前学習対象といったグローバルなモデル決定は、モデルの言語能力の予測にはならないことがわかった。

Existing pre-trained transformer analysis works usually focus only on one or two model families at a time, overlooking the variability of the architecture and pre-training objectives. In our work, we utilize the oLMpics benchmark and psycholinguistic probing datasets for a diverse set of 29 models including T5, BART, and ALBERT. Additionally, we adapt the oLMpics zero-shot setup for autoregressive models and evaluate GPT networks of different sizes. Our findings show that none of these models can resolve compositional questions in a zero-shot fashion, suggesting that this skill is not learnable using existing pre-training objectives. Furthermore, we find that global model decisions such as architecture, directionality, size of the dataset, and pre-training objective are not predictive of a model's linguistic capabilities.
翻訳日:2022-05-30 07:55:01 公開日:2022-05-21
# GANを用いた原理的知識外挿

Principled Knowledge Extrapolation with GANs ( http://arxiv.org/abs/2205.13444v1 )

ライセンス: Link先を確認
Ruili Feng, Jie Xiao, Kecheng Zheng, Deli Zhao, Jingren Zhou, Qibin Sun, Zheng-Jun Zha(参考訳) 人間はよく外挿し、日々の知識を未熟なシナリオに一般化し、反事実的疑問を提起し、答えることができる。 この能力を生成モデルで再現するため、以前の研究では、構造因果モデル(SCM)を生成ネットワークのアーキテクチャに明示的にエンコードする研究が盛んに行われている。 しかし、この手法は因果グラフに従わなければならないためジェネレータの柔軟性を制限し、多くの実シナリオにおいて非自明な仮定である強い無知の仮定を持つ基底真理SCMを要求する。 したがって、現在の因果GAN法の多くは、最先端の生成モデルを容易に活用できないため、高い忠実度対実結果を生成することができない。 本稿では,データ分布の与えられた知識次元が外挿される知識外挿という新たな視点から,反実合成を研究することを提案するが,残りの知識は元の分布と区別できない。 本稿では, 閉形式判別器を用いた対角ゲームを用いて知識外挿問題に対処できることを示し, 新たな主知識降下法により, 対角ゲームを通して外挿分布を効率的に推定できることを示す。 本手法は多くのシナリオにおいてエレガントな理論保証と優れた性能の両方を享受する。

Human can extrapolate well, generalize daily knowledge into unseen scenarios, raise and answer counterfactual questions. To imitate this ability via generative models, previous works have extensively studied explicitly encoding Structural Causal Models (SCMs) into architectures of generator networks. This methodology, however, limits the flexibility of the generator as they must be carefully crafted to follow the causal graph, and demands a ground truth SCM with strong ignorability assumption as prior, which is a nontrivial assumption in many real scenarios. Thus, many current causal GAN methods fail to generate high fidelity counterfactual results as they cannot easily leverage state-of-the-art generative models. In this paper, we propose to study counterfactual synthesis from a new perspective of knowledge extrapolation, where a given knowledge dimension of the data distribution is extrapolated, but the remaining knowledge is kept indistinguishable from the original distribution. We show that an adversarial game with a closed-form discriminator can be used to address the knowledge extrapolation problem, and a novel principal knowledge descent method can efficiently estimate the extrapolated distribution through the adversarial game. Our method enjoys both elegant theoretical guarantees and superior performance in many scenarios.
翻訳日:2022-05-29 20:27:27 公開日:2022-05-21
# 空間的寄与の探索:空間的活性化概念ベクトルを用いた隠れ層解釈

Exploring Concept Contribution Spatially: Hidden Layer Interpretation with Spatial Activation Concept Vector ( http://arxiv.org/abs/2205.11511v1 )

ライセンス: Link先を確認
Andong Wang, Wei-Ning Lee(参考訳) ディープラーニングモデルを解釈するには、ネットワークによる学習概念の探求が主流だ。 コンセプトアクティベーションベクター(tcav)を使ったテストは、ターゲットクラスに対するクエリ概念(ユーザ定義のガイダンスイメージで表現される)の貢献度を定量化する強力なツールを提供する。 例えば,TCAVを用いたモデル予測ゼブラに,ストライプの概念がどの程度寄与するかを定量的に評価することができる。 したがって、TCAVはディープネットワークの推論プロセスを白化している。 診断などの実践的な問題を解決するために応用されている。 しかし,対象対象が領域のごく一部しか占めていない画像では,TCAVが対象クラスへの概念貢献を隠蔽層全体に基づいて計算するため,冗長な背景特徴によってTCAV評価が阻害されることがある。 この問題に対処するため,TAVに基づく空間活性化概念ベクトル(SACV)を提案し,対象クラスのモデル予測への寄与を評価しながら,クエリ概念に関連する空間的位置を特定する。 実験によれば、scvは隠れた層に対してより細かい説明マップを生成し、空間的に概念の貢献を定量化する。 さらに、バックグラウンド機能からの干渉を回避する。 コードはhttps://github.com/AntonotnaWang/Spatial-Activation-Concept-Vectorで入手できる。

To interpret deep learning models, one mainstream is to explore the learned concepts by networks. Testing with Concept Activation Vector (TCAV) presents a powerful tool to quantify the contribution of query concepts (represented by user-defined guidance images) to a target class. For example, we can quantitatively evaluate whether and to what extent concept striped contributes to model prediction zebra with TCAV. Therefore, TCAV whitens the reasoning process of deep networks. And it has been applied to solve practical problems such as diagnosis. However, for some images where the target object only occupies a small fraction of the region, TCAV evaluation may be interfered with by redundant background features because TCAV calculates concept contribution to a target class based on a whole hidden layer. To tackle this problem, based on TCAV, we propose Spatial Activation Concept Vector (SACV) which identifies the relevant spatial locations to the query concept while evaluating their contributions to the model prediction of the target class. Experiment shows that SACV generates a more fine-grained explanation map for a hidden layer and quantifies concepts' contributions spatially. Moreover, it avoids interference from background features. The code is available on https://github.com/AntonotnaWang/Spatial-Activation-Concept-Vector.
翻訳日:2022-05-25 14:31:33 公開日:2022-05-21
# フレームレート歪みに敏感な映像品質評価モデルの作成

Making Video Quality Assessment Models Sensitive to Frame Rate Distortions ( http://arxiv.org/abs/2205.10501v1 )

ライセンス: Link先を確認
Pavan C. Madhusudana, Neil Birkbeck, Yilin Wang, Balu Adsumilli and Alan C. Bovik(参考訳) 本稿では,ビデオ品質アセスメント(VQA)の一環として,フレームレートの変化に伴う歪みを捉える問題について考察する。 可変フレームレート(VFR)ビデオはより一般的になり、ストリームされたビデオは通常、毎秒30フレーム(fps)から120fpsまでである。 VFR-VQAは、歪みのタイプや、フレームレートの異なる参照ビデオと歪みビデオの非一様比較において、ユニークな課題を提供する。 現在のVQAモデルのほとんどは、比較ビデオが同じフレームレートでなければならないが、フレームレートのアーティファクトを適切に説明できない。 最近提案された一般化エントロピー差分(GREED)VQAモデルは、時間帯域通過係数のエントロピー差の自然なビデオ統計モデルを用いて、フレームレート歪みによる映像品質変化の予測に優れた性能を提供する。 本稿では,GREEDの時間的特徴と既存のVQAモデルを組み合わせることで,フレームレート歪みに対するモデル感度を向上させるための単純な融合フレームワークを提案する。 我々は、この機能融合がHFR/VFRデータセットと固定フレームレート(FFR)VQAデータベースの両方のモデル性能を著しく向上させるという広範な実験を通して見出した。 その結果,フレームレートの変動が発生すると,効率的な時間表現を用いることで,より堅牢で正確なVQAモデルが得られることが示唆された。

We consider the problem of capturing distortions arising from changes in frame rate as part of Video Quality Assessment (VQA). Variable frame rate (VFR) videos have become much more common, and streamed videos commonly range from 30 frames per second (fps) up to 120 fps. VFR-VQA offers unique challenges in terms of distortion types as well as in making non-uniform comparisons of reference and distorted videos having different frame rates. The majority of current VQA models require compared videos to be of the same frame rate, but are unable to adequately account for frame rate artifacts. The recently proposed Generalized Entropic Difference (GREED) VQA model succeeds at this task, using natural video statistics models of entropic differences of temporal band-pass coefficients, delivering superior performance on predicting video quality changes arising from frame rate distortions. Here we propose a simple fusion framework, whereby temporal features from GREED are combined with existing VQA models, towards improving model sensitivity towards frame rate distortions. We find through extensive experiments that this feature fusion significantly boosts model performance on both HFR/VFR datasets as well as fixed frame rate (FFR) VQA databases. Our results suggest that employing efficient temporal representations can result much more robust and accurate VQA models when frame rate variations can occur.
翻訳日:2022-05-24 20:18:26 公開日:2022-05-21
# 長期・短軸情報を組み合わせた慢性梗塞MR画像における左室の3次元分割

Three-Dimensional Segmentation of the Left Ventricle in Late Gadolinium Enhanced MR Images of Chronic Infarction Combining Long- and Short-Axis Information ( http://arxiv.org/abs/2205.10548v1 )

ライセンス: Link先を確認
Dong Wei, Ying Sun, Sim-Heng Ong, Ping Chai, Lynette L. Teo, Adrian F. Low(参考訳) 虚血心筋における造影剤の蓄積による強度不均一性のため,晩期ガドリニウム(lge)心筋mr(cmr)像における左室(lv)の自動分画は困難である。 本稿では,LGE CMR画像におけるLVの自動3次元セグメンテーションのための包括的フレームワークを提案する。 先行知識としてシネ画像の心筋輪郭が与えられると、フレームワークは当初、シネ画像からlge画像へ2d翻訳登録によってa先行画像のセグメンテーションを伝播する。 次に、それぞれ心内膜と心外膜を表す2つのメッシュを伝播輪郭で構築する。 構築後、2つのメッシュは、統合された3D座標系において、短軸および長軸LGE画像の両方で検出された心筋エッジポイントに向かって変形する。 LGE画像におけるLVの強度特性を考慮し、心筋(梗塞または健康)の病態やLGE画像(短軸または長軸)のタイプに関わらず、一貫した心筋エッジポイント検出のためのLVのパラメトリックモデルを提案する。 提案フレームワークは,21組の患者と4組の模擬ファントムデータを用いて評価した。 lge画像の心筋セグメンテーションの精度と信頼性は, 遠方, 局所的, いずれのパフォーマンス指標からも確認できた。 また,実運用環境とシミュレーション環境の両方において,事前セグメンテーションの多様性に関して,フレームワークの堅牢性を検証した。 実験結果から,提案フレームワークは与えられた事前知識の変動を著しく補償し,常に正確なセグメンテーションを生成することができることがわかった。

Automatic segmentation of the left ventricle (LV) in late gadolinium enhanced (LGE) cardiac MR (CMR) images is difficult due to the intensity heterogeneity arising from accumulation of contrast agent in infarcted myocardium. In this paper, we present a comprehensive framework for automatic 3D segmentation of the LV in LGE CMR images. Given myocardial contours in cine images as a priori knowledge, the framework initially propagates the a priori segmentation from cine to LGE images via 2D translational registration. Two meshes representing respectively endocardial and epicardial surfaces are then constructed with the propagated contours. After construction, the two meshes are deformed towards the myocardial edge points detected in both short-axis and long-axis LGE images in a unified 3D coordinate system. Taking into account the intensity characteristics of the LV in LGE images, we propose a novel parametric model of the LV for consistent myocardial edge points detection regardless of pathological status of the myocardium (infarcted or healthy) and of the type of the LGE images (short-axis or long-axis). We have evaluated the proposed framework with 21 sets of real patient and 4 sets of simulated phantom data. Both distance- and region-based performance metrics confirm the observation that the framework can generate accurate and reliable results for myocardial segmentation of LGE images. We have also tested the robustness of the framework with respect to varied a priori segmentation in both practical and simulated settings. Experimental results show that the proposed framework can greatly compensate variations in the given a priori knowledge and consistently produce accurate segmentations.
翻訳日:2022-05-24 20:18:02 公開日:2022-05-21
# 後期ガドリニウム強化心筋共鳴画像の自動定量化のための総合的3次元フレームワーク

A Comprehensive 3-D Framework for Automatic Quantification of Late Gadolinium Enhanced Cardiac Magnetic Resonance Images ( http://arxiv.org/abs/2205.10572v1 )

ライセンス: Link先を確認
Dong Wei, Ying Sun, Sim-Heng Ong, Ping Chai, Lynette L Teo, Adrian F Low(参考訳) 遅発性ガドリニウム増強(LGE)心筋磁気共鳴(CMR)は、正常心筋に対して高強度の非生存性心筋を直接可視化することができる。 心臓発作患者に対しては,LGE CMR画像の解析と定量化により適切な治療の決定を容易にすることが重要である。 正確な定量化を実現するためには、LGE CMR画像は心筋の分節化と、分節された心筋内の梗塞の分類の2つのステップで処理する必要がある。 しかし、通常、心筋の強度の多様性と梗塞と血流の強度の類似性のため、自動分画は困難である。 加えて、LGE CMRデータセットのスライスはしばしば空間的および強度の歪みに悩まされ、セグメンテーションと分類がさらに困難になる。 本稿では,LGE CMR画像の自動定量化のための総合的な3次元フレームワークを提案する。 この枠組みでは、心内膜と心外膜を結合し、短軸スライスと長軸スライスの両方で情報を結合する新しい方法によって心筋を分割し、梗塞を強度と空間情報を組み込んだグラフカットアルゴリズムで分類する。 さらに、空間歪みと強度歪みは、特別に設計された対策で効果的に補正される。 20組の実際の患者データを用いた実験では、視覚的に優れたセグメンテーションと分類結果が、専門家が手作業で得たものと強く一致している。

Late gadolinium enhanced (LGE) cardiac magnetic resonance (CMR) can directly visualize nonviable myocardium with hyperenhanced intensities with respect to normal myocardium. For heart attack patients, it is crucial to facilitate the decision of appropriate therapy by analyzing and quantifying their LGE CMR images. To achieve accurate quantification, LGE CMR images need to be processed in two steps: segmentation of the myocardium followed by classification of infarcts within the segmented myocardium. However, automatic segmentation is difficult usually due to the intensity heterogeneity of the myocardium and intensity similarity between the infarcts and blood pool. Besides, the slices of an LGE CMR dataset often suffer from spatial and intensity distortions, causing further difficulties in segmentation and classification. In this paper, we present a comprehensive 3-D framework for automatic quantification of LGE CMR images. In this framework, myocardium is segmented with a novel method that deforms coupled endocardial and epicardial meshes and combines information in both short- and long-axis slices, while infarcts are classified with a graph-cut algorithm incorporating intensity and spatial information. Moreover, both spatial and intensity distortions are effectively corrected with specially designed countermeasures. Experiments with 20 sets of real patient data show visually good segmentation and classification results that are quantitatively in strong agreement with those manually obtained by experts.
翻訳日:2022-05-24 20:17:37 公開日:2022-05-21
# 最適データ圧縮のためのテンソル形状探索

Tensor Shape Search for Optimum Data Compression ( http://arxiv.org/abs/2205.10651v1 )

ライセンス: Link先を確認
Ryan Solgi, Zichang He, William Jiahua Liang, Zheng Zhang(参考訳) データ圧縮には様々なテンソル分解法が提案されている。 実世界におけるテンソル分解の応用では、与えられたデータに対するテンソル形状の選択が課題となり、テンソルの形状が誤差と圧縮比に影響する可能性がある。 本研究では, テンソルの形状がテンソルの分解に及ぼす影響について検討し, テンソルの分解に最適な形状を求める最適化モデルを提案する。 提案した最適化モデルは,誤差境界が与えられたTT分解の圧縮比を最大化する。 最適化モデルを解決するために,TT-SVDアルゴリズムにリンクした遺伝的アルゴリズム(GA)を実装した。 提案手法をRGB画像の圧縮に適用する。 その結果,tt分解に対する進化的テンソル形状探索の有効性が示された。

Various tensor decomposition methods have been proposed for data compression. In real world applications of the tensor decomposition, selecting the tensor shape for the given data poses a challenge and the shape of the tensor may affect the error and the compression ratio. In this work, we study the effect of the tensor shape on the tensor decomposition and propose an optimization model to find an optimum shape for the tensor train (TT) decomposition. The proposed optimization model maximizes the compression ratio of the TT decomposition given an error bound. We implement a genetic algorithm (GA) linked with the TT-SVD algorithm to solve the optimization model. We apply the proposed method for the compression of RGB images. The results demonstrate the effectiveness of the proposed evolutionary tensor shape search for the TT decomposition.
翻訳日:2022-05-24 20:16:42 公開日:2022-05-21
# 近距離鉄道遅延予測のための新しいマルコフモデル

A Novel Markov Model for Near-Term Railway Delay Prediction ( http://arxiv.org/abs/2205.10682v1 )

ライセンス: Link先を確認
Jin Xu, Weiqi Wang, Zheming Gao, Haochen Luo, Qian Wu(参考訳) 鉄道運転や乗客の走行経験には、列車の精度で近い将来の遅れを予測することが重要である。 本研究の目的は、オランダ鉄道データに基づく列車遅延予測モデルの設計である。 まず,駅の遅延変化が1次マルコフ連鎖に従うことを示すため,チ2乗テストを開発した。 次に,非均一マルコフ連鎖に基づく遅延予測モデルを提案する。 マルコフ鎖の遷移行列のスパース性に対処するために,ガウス核密度推定に依存する新しい行列復元法を提案する。 本手法は予測精度において他のヒューリスティック手法よりも優れていることを示す。 我々の提案するマルコフ連鎖モデルは、解釈可能性と予測精度の両方に関して、他の広く使われている時系列モデルよりも優れていることを示す。 さらに,提案モデルでは,大規模予測問題に対処可能な複雑なトレーニングプロセスは必要としない。

Predicting the near-future delay with accuracy for trains is momentous for railway operations and passengers' traveling experience. This work aims to design prediction models for train delays based on Netherlands Railway data. We first develop a chi-square test to show that the delay evolution over stations follows a first-order Markov chain. We then propose a delay prediction model based on non-homogeneous Markov chains. To deal with the sparsity of the transition matrices of the Markov chains, we propose a novel matrix recovery approach that relies on Gaussian kernel density estimation. Our numerical tests show that this recovery approach outperforms other heuristic approaches in prediction accuracy. The Markov chain model we propose also shows to be better than other widely-used time series models with respect to both interpretability and prediction accuracy. Moreover, our proposed model does not require a complicated training process, which is capable of handling large-scale forecasting problems.
翻訳日:2022-05-24 20:16:31 公開日:2022-05-21
# 強化学習によるタンパク質標的特異的足場型インヒビターの設計

De novo design of protein target specific scaffold-based Inhibitors via Reinforcement Learning ( http://arxiv.org/abs/2205.10473v1 )

ライセンス: Link先を確認
Andrew D. McNaughton, Mridula S. Bontha, Carter R. Knutson, Jenna A. Pope, Neeraj Kumar(参考訳) ターゲット駆動分子の効率的な設計と発見は、創薬におけるリード最適化を促進する上で重要なステップである。 標的タンパク質の分子開発への現在のアプローチは、直感駆動であり、3次元構造データを利用する際の計算上の課題による反復的設計-テストサイクルの遅さによって妨げられ、最終的には分子設計のボトルネックに結びつく化学の専門知識によって制限される。 本稿では3D-MolGNN$_{RL}$と呼ばれる新しいフレームワークを3D-Scaffoldに基づく結合強化学習(RL)モデルに導入し,コアの足場から原子によって構築されたタンパク質に特異的なターゲット候補を生成する。 3D-MolGNN$_{RL}$は、並列グラフニューラルネットワークモデルを用いて、タンパク質ポケット内の多目的報酬関数によって重要な機能を最適化する効率的な方法を提供する。 エージェントは、活性を最適化し、親和性、有効性、および感染性疾患タンパク質の標的となる候補の合成的アクセシビリティを保ちながら、3次元空間で分子を構築することを学ぶ。 われわれのアプローチは、最適化された活動、有効性、生体物理特性によるリード最適化のための解釈可能な人工知能(AI)ツールとして機能する。

Efficient design and discovery of target-driven molecules is a critical step in facilitating lead optimization in drug discovery. Current approaches to develop molecules for a target protein are intuition-driven, hampered by slow iterative design-test cycles due to computational challenges in utilizing 3D structural data, and ultimately limited by the expertise of the chemist - leading to bottlenecks in molecular design. In this contribution, we propose a novel framework, called 3D-MolGNN$_{RL}$, coupling reinforcement learning (RL) to a deep generative model based on 3D-Scaffold to generate target candidates specific to a protein building up atom by atom from the starting core scaffold. 3D-MolGNN$_{RL}$ provides an efficient way to optimize key features by multi-objective reward function within a protein pocket using parallel graph neural network models. The agent learns to build molecules in 3D space while optimizing the activity, binding affinity, potency, and synthetic accessibility of the candidates generated for infectious disease protein targets. Our approach can serve as an interpretable artificial intelligence (AI) tool for lead optimization with optimized activity, potency, and biophysical properties.
翻訳日:2022-05-24 19:30:06 公開日:2022-05-21
# LSTMを用いた動的ワイヤレス充電のための適応車両位置制御

LSTM-Based Adaptive Vehicle Position Control for Dynamic Wireless Charging ( http://arxiv.org/abs/2205.10491v1 )

ライセンス: Link先を確認
Lokesh Chandra Das, Dipankar Dasgupta, Myounggyu Won(参考訳) ダイナミックワイヤレス充電(dynamic wireless charging, dwc)は、電気自動車(ev)の動作中にワイヤレス充電を可能にする技術である。 EVのレンジ制限問題に対処できる可能性があるため、大きな勢いを増している。 しかし、ワイヤレス電力転送による電力損失が大きいため、dwcシステムでは充電効率の向上が大きな課題となっている。 本稿では,充電効率を最大化するために設計したDWC用LSTM型車両運動制御システムについて述べる。 多層LSTMに基づいてDWC系の送信機コイルによって生じる電磁界のダイナミクスをモデル化する。 LSTMモデルを用いて、電磁力の最大値が期待される横方向の位置を予測し、充電効率を最適化するためにEV動作を制御する。 シミュレーションにより,evを車線の中心に保持することに焦点を当てた最先端の車両運動制御システムと比較して,最大162.3%高い充電効率を実現することを実証した。

Dynamic wireless charging (DWC) is an emerging technology that allows electric vehicles (EVs) to be wirelessly charged while in motion. It is gaining significant momentum as it can potentially address the range limitation issue for EVs. However, due to significant power loss caused by wireless power transfer, improving charging efficiency remains as a major challenge for DWC systems. This paper presents the first LSTM-based vehicle motion control system for DWC designed to maximize charging efficiency. The dynamics of the electromagnetic field generated by the transmitter coils of a DWC system are modeled based on a multi-layer LSTM. The LSTM model is used to make a prediction of the lateral position where the electromagnetic strength is expected to be maximal and to control the EV motion accordingly to optimize charging efficiency. Simulations were conducted to demonstrate that our LSTM-based approach achieves by up to 162.3% higher charging efficiency compared with state-of-the-art vehicle motion control systems focused on keeping an EV in the center of lane.
翻訳日:2022-05-24 19:29:48 公開日:2022-05-21
# ユーザ対話型オフライン強化学習

User-Interactive Offline Reinforcement Learning ( http://arxiv.org/abs/2205.10629v1 )

ライセンス: Link先を確認
Phillip Swazinna, Steffen Udluft, Thomas Runkler(参考訳) オフライン強化学習アルゴリズムは、データセットを生成したり、ユーザになじみのない予期せぬ方法で振る舞う元のポリシーよりも学習ポリシーが悪くなるリスクがあるため、実際には信頼を欠いている。 同時に、オフラインのRLアルゴリズムは、学習されたポリシーと元のポリシーに近い、最も重要なハイパーパラメータをチューニングできない。 本稿では,ユーザがこのハイパーパラメータを実行時にチューニングできるアルゴリズムを提案する。 これにより、ユーザは元の振る舞いから始めて、徐々に大きな偏差を許容し、ポリシーが悪化したり、慣れ親しんだ行動から遠ざかったりした時にいつでも停止することができる。

Offline reinforcement learning algorithms still lack trust in practice due to the risk that the learned policy performs worse than the original policy that generated the dataset or behaves in an unexpected way that is unfamiliar to the user. At the same time, offline RL algorithms are not able to tune their most important hyperparameter - the proximity of the learned policy to the original policy. We propose an algorithm that allows the user to tune this hyperparameter at runtime, thereby overcoming both of the above mentioned issues simultaneously. This allows users to start with the original behavior and grant successively greater deviation, as well as stopping at any time when the policy deteriorates or the behavior is too far from the familiar one.
翻訳日:2022-05-24 19:29:33 公開日:2022-05-21
# ドリフトアウェア動的ニューラルネットワークによる時間領域一般化

Temporal Domain Generalization with Drift-Aware Dynamic Neural Network ( http://arxiv.org/abs/2205.10664v1 )

ライセンス: Link先を確認
Guangji Bai, Ling Chen, Liang Zhao(参考訳) 時間領域の一般化は、時間的に変化するデータ分布の下でモデルを学習し、変化の傾向に従って見つからないデータ分布に一般化するという、有望で非常に困難な領域である。 この地域の進歩は以下の通りである。 1)データ分布ドリフトの特徴とそのモデルへの影響 2)モデルダイナミクスの追跡における表現力,および 3) 性能に関する理論的保証。 そこで我々は, Drift-Aware Dynamic Neural Network (DRAIN) フレームワークを用いた時間領域一般化を提案する。 具体的には、データとモデルダイナミクスの関係を共同でモデル化するベイズフレームワークに問題を定式化する。 次に、異なる時点にわたって学習した動的グラフ構造ニューラルネットワークを特徴付けるために、リカレントグラフ生成シナリオを構築する。 モデルパラメータとデータ分布の時間的ドリフトをキャプチャし、将来のデータなしで将来モデルを予測することができる。 さらに, 時相DG設定におけるモデル性能の理論的保証について検討し, 不確実性や一般化誤差を含む理論的解析を行う。 最後に,時間的ドリフトを伴う実世界のベンチマーク実験を行い,提案手法の有効性と有効性を示した。

Temporal domain generalization is a promising yet extremely challenging area where the goal is to learn models under temporally changing data distributions and generalize to unseen data distributions following the trends of the change. The advancement of this area is challenged by: 1) characterizing data distribution drift and its impacts on models, 2) expressiveness in tracking the model dynamics, and 3) theoretical guarantee on the performance. To address them, we propose a Temporal Domain Generalization with Drift-Aware Dynamic Neural Network (DRAIN) framework. Specifically, we formulate the problem into a Bayesian framework that jointly models the relation between data and model dynamics. We then build a recurrent graph generation scenario to characterize the dynamic graph-structured neural networks learned across different time points. It captures the temporal drift of model parameters and data distributions and can predict models in the future without the presence of future data. In addition, we explore theoretical guarantees of the model performance under the challenging temporal DG setting and provide theoretical analysis, including uncertainty and generalization error. Finally, extensive experiments on several real-world benchmarks with temporal drift demonstrate the effectiveness and efficiency of the proposed method.
翻訳日:2022-05-24 19:28:19 公開日:2022-05-21
# 多様性を考慮したオンラインソーシャルネットワーク向けリンク勧告

Diversity Preference-Aware Link Recommendation for Online Social Networks ( http://arxiv.org/abs/2205.10689v1 )

ライセンス: Link先を確認
Kexin Yin, Xiao Fang, Bintong Chen and Olivia Sheng(参考訳) リンクレコメンデーション(リンクレコメンデーション)は、リンクのないオンラインソーシャルネットワークユーザーをリンクでつなぐことを推奨している。 既存のリンクレコメンデーション手法は、ユーザーと類似した友人を推薦する傾向にあるが、ユーザの多様性選好を無視する傾向にある。 リンクレコメンデーションに関連する分野であるレコメンデーションシステムでは,推奨項目の多様性を改善するために,様々な多様化手法が提案されている。 しかし、多様性の選好は多様化法によって研究された多様性とは異なる。 これらの研究のギャップに対処するために,我々は,リンク推薦のための多様性優先の概念を定義し,運用し,新しいリンク推薦問題である多様性優先・アウェアリンク推奨問題を提案する。 次に,新しいリンクレコメンデーション問題の鍵となる特性を分析し,その問題を解決する新しいリンクレコメンデーション手法を開発した。 2つの大規模オンラインソーシャルネットワークデータセットを用いて,提案手法がリンク推薦や最先端リンク推薦手法に適合する代表的多角化手法よりも優れた性能を示すために,広範な実証的評価を行った。

Link recommendation, which recommends links to connect unlinked online social network users, is a fundamental social network analytics problem with ample business implications. Existing link recommendation methods tend to recommend similar friends to a user but overlook the user's diversity preference, although social psychology theories suggest the criticality of diversity preference to link recommendation performance. In recommender systems, a field related to link recommendation, a number of diversification methods have been proposed to improve the diversity of recommended items. Nevertheless, diversity preference is distinct from diversity studied by diversification methods. To address these research gaps, we define and operationalize the concept of diversity preference for link recommendation and propose a new link recommendation problem: the diversity preference-aware link recommendation problem. We then analyze key properties of the new link recommendation problem and develop a novel link recommendation method to solve the problem. Using two large-scale online social network data sets, we conduct extensive empirical evaluations to demonstrate the superior performance of our method over representative diversification methods adapted for link recommendation as well as state-of-the-art link recommendation methods.
翻訳日:2022-05-24 19:28:00 公開日:2022-05-21
# 認知システムのリスク駆動設計

Risk-Driven Design of Perception Systems ( http://arxiv.org/abs/2205.10677v1 )

ライセンス: Link先を確認
Anthony L. Corso, Sydney M. Katz, Craig Innes, Xin Du, Subramanian Ramamoorthy, Mykel J. Kochenderfer(参考訳) 現代の自律システムは、複雑なセンサー計測を状態推定に処理するために知覚モジュールに依存している。 これらの見積もりはコントローラに渡され、安全クリティカルな意思決定に使用される。 したがって、システム全体の安全性を低下させる誤差を最小限に抑えるために知覚システムを設計することが重要である。 完全積分閉ループシステムの性能に及ぼす知覚誤差の影響を考慮に入れた認識システム設計のためのリスク駆動型アプローチを開発する。 与えられた知覚誤差が全体の安全性に与える影響を定量化するためのリスク関数を定式化し、リスク依存項を損失関数に含み、リスクに敏感な領域でトレーニングデータを生成することにより、より安全な知覚システムを設計する方法を示す。 我々は,現実の視覚に基づく航空機に適用を検知・回避する手法を評価し,リスク駆動設計によりベースラインシステムよりも衝突リスクを37%低減できることを示す。

Modern autonomous systems rely on perception modules to process complex sensor measurements into state estimates. These estimates are then passed to a controller, which uses them to make safety-critical decisions. It is therefore important that we design perception systems to minimize errors that reduce the overall safety of the system. We develop a risk-driven approach to designing perception systems that accounts for the effect of perceptual errors on the performance of the fully-integrated, closed-loop system. We formulate a risk function to quantify the effect of a given perceptual error on overall safety, and show how we can use it to design safer perception systems by including a risk-dependent term in the loss function and generating training data in risk-sensitive regions. We evaluate our techniques on a realistic vision-based aircraft detect and avoid application and show that risk-driven design reduces collision risk by 37% over a baseline system.
翻訳日:2022-05-24 19:21:10 公開日:2022-05-21
# 後期ガドリニウム造影mr画像の心筋分画 : cine mr画像からの輪郭伝播による検討

Myocardial Segmentation of Late Gadolinium Enhanced MR Images by Propagation of Contours from Cine MR Images ( http://arxiv.org/abs/2205.10595v1 )

ライセンス: Link先を確認
Dong Wei, Ying Sun, Ping Chai, Adrian Low and Sim Heng Ong(参考訳) 晩期gadolinium enhanced(lge)心筋mr(cmr)画像における心筋の自動分画は,梗塞領域における造影剤の蓄積による強度の多様性のため,しばしば困難である。 本稿では,同一患者のシネ画像とLGE画像の共有情報を完全に活用する自動セグメンテーションフレームワークを提案する。 シンCMR画像における心筋の輪郭を考慮し,LGE CMR画像の粗大な分画化を実現する。 まず、対応するcineとLGE画像のペア間でアフィンの登録を行い、次に非厳密な登録を行い、最後にLGE画像の局所的な特徴から引き起こされる力によって駆動される心筋輪郭の局所的な変形を行う。 その結果,本研究の枠組みはlge cmr画像の心筋分画に対して正確かつ信頼性の高い結果が得られることがわかった。

Automatic segmentation of myocardium in Late Gadolinium Enhanced (LGE) Cardiac MR (CMR) images is often difficult due to the intensity heterogeneity resulting from accumulation of contrast agent in infarcted areas. In this paper, we propose an automatic segmentation framework that fully utilizes shared information between corresponding cine and LGE images of a same patient. Given myocardial contours in cine CMR images, the proposed framework achieves accurate segmentation of LGE CMR images in a coarse-to-fine manner. Affine registration is first performed between the corresponding cine and LGE image pair, followed by nonrigid registration, and finally local deformation of myocardial contours driven by forces derived from local features of the LGE image. Experimental results on real patient data with expert outlined ground truth show that the proposed framework can generate accurate and reliable results for myocardial segmentation of LGE CMR images.
翻訳日:2022-05-24 19:18:48 公開日:2022-05-21
# sept-angle合成波長干渉計

Swept-Angle Synthetic Wavelength Interferometry ( http://arxiv.org/abs/2205.10655v1 )

ライセンス: Link先を確認
Alankar Kotwal and Anat Levin and Ioannis Gkioulekas(参考訳) フルフィールドミクロンスケール3Dセンシングのための新しいイメージング技術であるスワップアングル合成波長干渉法を提案する。 従来の合成波長干渉計と同様に、2つの光波長からなる光を用いて、位相がシーン深さを符号化する画素ごとの干渉計測を行う。 また、空間的に不整合な照明をエミュレートすることで、深度情報に干渉する大域的な照明効果に敏感な干渉計測を行う新しいタイプの光源を用いる。 この手法はフルフィールド干渉計の速度と、走査干渉計のグローバル照明に対するロバスト性を組み合わせたものである。 総じて,本手法は,数マイクロメートルの空間的および軸方向の解像度で,最大16個の測定値を用いて全フレーム深度を復元し,フレームレート10hzの高速取得を実現する。 実験的なプロトタイプを構築して,反射,地下散乱,特異性などの光輸送効果を含む様々な場面を走査することで,これらの機能を実証する。 我々は, 全フィールド光コヒーレンス断層撮影装置の基準測定値と密接に一致していることを示し, 測定精度の検証を行った。

We present a new imaging technique, swept-angle synthetic wavelength interferometry, for full-field micron-scale 3D sensing. As in conventional synthetic wavelength interferometry, our technique uses light consisting of two optical wavelengths, resulting in per-pixel interferometric measurements whose phase encodes scene depth. Our technique additionally uses a new type of light source that, by emulating spatially-incoherent illumination, makes interferometric measurements insensitive to global illumination effects that confound depth information. The resulting technique combines the speed of full-field interferometric setups with the robustness to global illumination of scanning interferometric setups. Overall, our technique can recover full-frame depth at a spatial and axial resolution of a few micrometers using as few as 16 measurements, resulting in fast acquisition at frame rates of 10 Hz. We build an experimental prototype and use it to demonstrate these capabilities, by scanning a variety of scenes that contain challenging light transport effects such as interreflections, subsurface scattering, and specularities. We validate the accuracy of our measurements by showing that they closely match reference measurements from a full-field optical coherence tomography system, despite being captured at orders of magnitude faster acquisition times and while operating under strong ambient light.
翻訳日:2022-05-24 19:18:33 公開日:2022-05-21
# 計算可能な人工知能

Computable Artificial General Intelligence ( http://arxiv.org/abs/2205.10513v1 )

ライセンス: Link先を確認
Michael Timothy Bennett(参考訳) 人工知能(artificial general intelligence, agi)は、正確な予測を行うために、他のどの情報よりも少ない情報を必要とするエージェントである。 一般的な強化学習エージェントであるAIXIが、この定義を満たしただけでなく、それを行う唯一の数学的形式主義であったことは疑わしい。 重要な結果となったが、AIXIは計算不能であり、性能は主観的であった。 本稿では,両問題を克服するAGIの代替形式性を提案する。 その性能の形式的な証明と、これらの主張をサポートする単純な実装と実験結果が与えられる。

An artificial general intelligence (AGI), by one definition, is an agent that requires less information than any other to make an accurate prediction. It is arguable that the general reinforcement learning agent AIXI not only met this definition, but was the only mathematical formalism to do so. Though a significant result, AIXI was incomputable and its performance subjective. This paper proposes an alternative formalism of AGI which overcomes both problems. Formal proof of its performance is given, along with a simple implementation and experimental results that support these claims.
翻訳日:2022-05-24 18:26:29 公開日:2022-05-21
# シナリオベースマルチプロダクト広告コピーライティングによる電子商取引

Scenario-based Multi-product Advertising Copywriting Generation for E-Commerce ( http://arxiv.org/abs/2205.10530v1 )

ライセンス: Link先を確認
Xueying Zhang, Kai Shen, Chi Zhang, Xiaochuan Fan, Yun Xiao, Zhen He, Bo Long, Lingfei Wu(参考訳) 本稿では,中国の主要なeコマースプラットフォーム上に展開されているEコマースのための,シナリオベースのマルチプロダクト広告複写生成システム(SMPACG)を提案する。 SMPACGは2つの主成分から構成される。 1)トピック予測モデル、パターンおよび属性ベースの選択モデル、仲裁者モデルで構成される自動多産物組合せ選択モジュール 2)提案するドメイン特化事前学習言語モデルと知識に基づくデータエンハンスモデルを組み合わせた多製品広告自動複写生成モジュール。 SMPACGはシナリオベースのマルチプロダクト広告コンテンツの自動生成を実現する最初のシステムであり、他の最先端手法よりも大幅に改善されている。 SMPACGは、Eコマースレコメンデーションシステムに直接サービスを提供するために開発されただけでなく、商人のリアルタイム書き込み支援ツールとしても使用されている。

In this paper, we proposed an automatic Scenario-based Multi-product Advertising Copywriting Generation system (SMPACG) for E-Commerce, which has been deployed on a leading Chinese e-commerce platform. The proposed SMPACG consists of two main components: 1) an automatic multi-product combination selection module, which itself is consisted of a topic prediction model, a pattern and attribute-based selection model and an arbitrator model; and 2) an automatic multi-product advertising copywriting generation module, which combines our proposed domain-specific pretrained language model and knowledge-based data enhancement model. The SMPACG is the first system that realizes automatic scenario-based multi-product advertising contents generation, which achieves significant improvements over other state-of-the-art methods. The SMPACG has been not only developed for directly serving for our e-commerce recommendation system, but also used as a real-time writing assistant tool for merchants.
翻訳日:2022-05-24 18:26:21 公開日:2022-05-21
# UMLSメタテーラスにおけるバイオメディカル語彙アライメントのためのUVA資源

UVA Resources for the Biomedical Vocabulary Alignment at Scale in the UMLS Metathesaurus ( http://arxiv.org/abs/2205.10575v1 )

ライセンス: Link先を確認
Vinh Nguyen, Olivier Bodenreider(参考訳) UMLS(Unified Medical Language System)メタテーザウルスの構築と保守プロセスは,(1)同義語を提案する語彙的・意味的処理,(2)提案をキュレートするUMLSエディターの専門知識に依存するため,時間的・費用的にもコスト的にもエラーも生じやすい。 UMLSメタセサウルス構築プロセスを改善するため,本研究グループはUVA(UMLS Vocabulary Alignment)と呼ばれる新しいタスクを定義し,タスクを評価するデータセットを生成した。 我々のグループは、論理ルール(RBA)とニューラルネットワーク(LexLMとConLM)を用いて、このタスクのための異なるベースラインも開発した。 本稿では,(1)データセット生成装置,(2)ジェネレータを用いて生成された3つのデータセット,(3)ベースラインアプローチを含む再利用可能な資源の集合について述べる。 本稿では,UVAデータセット生成器とその実装について述べる。 本稿では,3つのUMLSリリース,2020AA,2021AA,2021ABに対応するデータセットを生成することで,データセットジェネレータの利用を実証する。 既存の3つのアプローチ(LexLM, ConLM, RBA)を用いて3つのUVAベースラインを提供する。 コード、データセット、実験は、UMLSリリースで公開され、再利用され、再現可能である(UMLSをダウンロードするためには、無償のライセンス契約が必要である)。

The construction and maintenance process of the UMLS (Unified Medical Language System) Metathesaurus is time-consuming, costly, and error-prone as it relies on (1) the lexical and semantic processing for suggesting synonymous terms, and (2) the expertise of UMLS editors for curating the suggestions. For improving the UMLS Metathesaurus construction process, our research group has defined a new task called UVA (UMLS Vocabulary Alignment) and generated a dataset for evaluating the task. Our group has also developed different baselines for this task using logical rules (RBA), and neural networks (LexLM and ConLM). In this paper, we present a set of reusable and reproducible resources including (1) a dataset generator, (2) three datasets generated by using the generator, and (3) three baseline approaches. We describe the UVA dataset generator and its implementation generalized for any given UMLS release. We demonstrate the use of the dataset generator by generating datasets corresponding to three UMLS releases, 2020AA, 2021AA, and 2021AB. We provide three UVA baselines using the three existing approaches (LexLM, ConLM, and RBA). The code, the datasets, and the experiments are publicly available, reusable, and reproducible with any UMLS release (a no-cost license agreement is required for downloading the UMLS).
翻訳日:2022-05-24 18:26:05 公開日:2022-05-21
# 点がベクトルである:点解析における特徴表現

Point is a Vector: A Feature Representation in Point Analysis ( http://arxiv.org/abs/2205.10528v1 )

ライセンス: Link先を確認
Xin Deng (1), WengYu Zhang (1), Qing Ding (1), XinMing Zhang (1) ((1) University of Science and Technology of China)(参考訳) 点雲の不規則性と乱れは、点雲分析に多くの課題をもたらす。 ポイントMLPは、幾何学情報が点雲解析における唯一の臨界点ではないことを示唆している。 幾何学的アフィンモジュールを用いた単純な多層認識(MLP)構造に基づく有望な結果が得られる。 しかし、これらのmlpライクな構造は、一定の重みだけで特徴を集約するが、異なる点特徴のセマンティック情報の違いは無視される。 そこで我々は,インダクティブバイアスを用いて特徴集合を改善するために,新しい点ベクトル表現を提案する。 導入されたベクトル表現の方向は、意味的関係に応じて2点特徴の集約を動的に変調することができる。 そこで我々は,新しいPoint2Vector MLPアーキテクチャを設計した。 実験の結果,ScanObjectNNデータセットの分類タスクにおける最先端性能は,従来のベストメソッドと比較して1%向上した。 この方法では,ポイントクラウド分析における意味情報の役割をより深く理解し,機能表現や他の方法についてより深く探求できることを願っています。

The irregularity and disorder of point clouds bring many challenges to point cloud analysis. PointMLP suggests that geometric information is not the only critical point in point cloud analysis. It achieves promising result based on a simple multi-layer perception (MLP) structure with geometric affine module. However, these MLP-like structures aggregate features only with fixed weights, while differences in the semantic information of different point features are ignored. So we propose a novel Point-Vector Representation of the point feature to improve feature aggregation by using inductive bias. The direction of the introduced vector representation can dynamically modulate the aggregation of two point features according to the semantic relationship. Based on it, we design a novel Point2Vector MLP architecture. Experiments show that it achieves state-of-the-art performance on the classification task of ScanObjectNN dataset, with 1% increase, compared with the previous best method. We hope our method can help people better understand the role of semantic information in point cloud analysis and lead to explore more and better feature representations or other ways.
翻訳日:2022-05-24 18:20:29 公開日:2022-05-21
# 自己評価分類器を用いた細粒度視覚分類

Fine-Grained Visual Classification using Self Assessment Classifier ( http://arxiv.org/abs/2205.10529v1 )

ライセンス: Link先を確認
Tuong Do, Huy Tran, Erman Tjiputra, Quang D. Tran, Anh Nguyen(参考訳) 識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を果たす。 既存の手法のほとんどは、この目標を達成するために注意や強化のメカニズムを開発することに焦点を当てている。 しかし、トップk予測クラスにおける曖昧性に対処することは十分に検討されていない。 本稿では,画像表現とトップk予測クラスを同時に活用し,分類結果の再評価を行う自己評価分類器を提案する。 本手法は,粗粒度および細粒度の分類器を用いた連続学習に触発され,バックボーンの特徴の識別を増加させ,画像上の情報領域の注意マップを作成する。 実際,本手法は補助分岐として機能し,異なるアーキテクチャに容易に組み込むことができる。 CUB200-2011、Stanford Dog、FGVC Aircraftのデータセットにおいて、トップk予測クラスにおけるあいまいさを効果的に解決することにより、新しい最先端の結果が得られることを示す。 さらに,既存の細粒度分類器の精度を統一的な設定で一貫して改善する。

Extracting discriminative features plays a crucial role in the fine-grained visual classification task. Most of the existing methods focus on developing attention or augmentation mechanisms to achieve this goal. However, addressing the ambiguity in the top-k prediction classes is not fully investigated. In this paper, we introduce a Self Assessment Classifier, which simultaneously leverages the representation of the image and top-k prediction classes to reassess the classification results. Our method is inspired by continual learning with coarse-grained and fine-grained classifiers to increase the discrimination of features in the backbone and produce attention maps of informative areas on the image. In practice, our method works as an auxiliary branch and can be easily integrated into different architectures. We show that by effectively addressing the ambiguity in the top-k prediction classes, our method achieves new state-of-the-art results on CUB200-2011, Stanford Dog, and FGVC Aircraft datasets. Furthermore, our method also consistently improves the accuracy of different existing fine-grained classifiers with a unified setup.
翻訳日:2022-05-24 18:19:55 公開日:2022-05-21
# ADT-SSL: 半教師付き学習のための適応型デュアルスレッド

ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning ( http://arxiv.org/abs/2205.10571v1 )

ライセンス: Link先を確認
Zechen Liang, Yuan-Gen Wang, Wei Lu, Xiaochun Cao(参考訳) Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータの両方を併用してモデルをトレーニングすることで、高度な分類タスクを実現している。 しかし、既存のSSLメソッドは、予測が一定の閾値(例えば0.95)を超えたラベル付きデータのみを考慮し、0.95未満のデータから貴重な情報を無視する。 これらの廃棄されたデータは大きな割合を持ち、通常ハードサンプルであり、モデルトレーニングの恩恵を受ける。 本稿では,セミスーパーバイズドラーニング(ADT-SSL)のための適応的デュアル閾値法を提案する。 固定しきい値を除くと、adtはラベル付きデータから別のクラス適応しきい値を取り出し、0.95未満で抽出されたデータよりも大きいラベル付きデータを利用する。 従って、ce と $l_2$ の損失関数は、これら2つのラベルなしデータから学ぶことができる。 高度に類似したラベルのないデータに対しては、モデルの一貫性を予測するために、新しい類似の損失を更に設計する。 CIFAR-10、CIFAR-100、SVHNなどのベンチマークデータセットで大規模な実験が行われた。 実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。

Semi-Supervised Learning (SSL) has advanced classification tasks by inputting both labeled and unlabeled data to train a model jointly. However, existing SSL methods only consider the unlabeled data whose predictions are beyond a fixed threshold (e.g., 0.95), ignoring the valuable information from those less than 0.95. We argue that these discarded data have a large proportion and are usually of hard samples, thereby benefiting the model training. This paper proposes an Adaptive Dual-Threshold method for Semi-Supervised Learning (ADT-SSL). Except for the fixed threshold, ADT extracts another class-adaptive threshold from the labeled data to take full advantage of the unlabeled data whose predictions are less than 0.95 but more than the extracted one. Accordingly, we engage CE and $L_2$ loss functions to learn from these two types of unlabeled data, respectively. For highly similar unlabeled data, we further design a novel similar loss to make the prediction of the model consistency. Extensive experiments are conducted on benchmark datasets, including CIFAR-10, CIFAR-100, and SVHN. Experimental results show that the proposed ADT-SSL achieves state-of-the-art classification accuracy.
翻訳日:2022-05-24 18:19:38 公開日:2022-05-21
# イメージインペインティングのための多機能コラーニング

Multi-feature Co-learning for Image Inpainting ( http://arxiv.org/abs/2205.10578v1 )

ライセンス: Link先を確認
Jiayu Lin, Yuan-Gen Wang, Wenzhi Tang, Aifeng Li(参考訳) 画像の塗装は、画像構造とテクスチャの特徴を同時に活用することで大きな進歩を遂げた。 しかし, 実効的な多機能融合技術が欠如しているため, 既存の画像塗装法は依然として改善が限られている。 本稿では,ソフトゲーティング・デュアル・フィーチャー・フュージョン(sdff)とバイラテラル・プロパゲーション・フィーチャー・アグリゲーション(bpfa)モジュールを含む,画像インペインティングのための深層多機能共学習ネットワークを設計する。 具体的には、まず2つの枝を使って構造的特徴とテクスチャ的特徴を別々に学習する。 SDFFモジュールは構造特徴をテクスチャ特徴に統合し,その一方でテクスチャ特徴を構造特徴の生成補助として利用する。 このようなコラーニング戦略は、構造とテクスチャの特徴をより一貫性を持たせる。 次に,提案するbpfaモジュールは,文脈的注意,チャネル毎の情報,特徴空間を共学習することで,局所的特徴から全体的一貫性への接続を強化し,生成した構造やテクスチャをさらに洗練する。 最後に、celeba、places2、paris streetviewなどのベンチマークデータセットで広範な実験が行われている。 実験により,提案手法が最先端技術よりも優れていることを示す。 ソースコードはhttps://github.com/GZHU-DVL/MFCL-Inpaintingで入手できる。

Image inpainting has achieved great advances by simultaneously leveraging image structure and texture features. However, due to lack of effective multi-feature fusion techniques, existing image inpainting methods still show limited improvement. In this paper, we design a deep multi-feature co-learning network for image inpainting, which includes Soft-gating Dual Feature Fusion (SDFF) and Bilateral Propagation Feature Aggregation (BPFA) modules. To be specific, we first use two branches to learn structure features and texture features separately. Then the proposed SDFF module integrates structure features into texture features, and meanwhile uses texture features as an auxiliary in generating structure features. Such a co-learning strategy makes the structure and texture features more consistent. Next, the proposed BPFA module enhances the connection from local feature to overall consistency by co-learning contextual attention, channel-wise information and feature space, which can further refine the generated structures and textures. Finally, extensive experiments are performed on benchmark datasets, including CelebA, Places2, and Paris StreetView. Experimental results demonstrate the superiority of the proposed method over the state-of-the-art. The source codes are available at https://github.com/GZHU-DVL/MFCL-Inpainting.
翻訳日:2022-05-24 18:19:19 公開日:2022-05-21
# Dual-Task Interactive Transformer を用いたカモフラージュ物体検出

Boosting Camouflaged Object Detection with Dual-Task Interactive Transformer ( http://arxiv.org/abs/2205.10579v1 )

ライセンス: Link先を確認
Zhengyi Liu, Zhili Zhang, Wei Wu(参考訳) カモフラージュされた物体検出は、周囲に隠された物体を発見することを目的としている。 既存のメソッドはバイオインスパイアされたフレームワークに従い、最初にオブジェクトを見つけ、次に境界を洗練する。 我々は、カモフラージュされた物体の発見は、物体と境界の繰り返し探索に依存すると主張する。 繰り返し処理することで、人間が疲れて無力になるが、これはグローバル検索能力を備えたトランスフォーマーの利点にすぎない。 そこで,2タスクの対話型変圧器を提案し,迷彩物体の正確な位置と,その詳細な境界を検出する。 境界機能はカモフラージュされたオブジェクト検出を改善するためのクエリと見なされ、一方、オブジェクト機能は境界検出を改善するクエリとみなされる。 カモフラージュされた物体検出と境界検出は、マルチヘッドセルフアテンションによって完全に相互作用する。 また、初期オブジェクト特徴および境界特徴を得るために、トランスフォーマーベースのバックボーンを採用して、前景と背景を抽出する。 前景は単なる対象であり、前景のマイナス背景は境界と見なされている。 ここでは、前景と背景のぼやけた境界領域から境界特徴を得ることができる。 オブジェクト、背景、境界の真理によって監督され、提案モデルはパブリックデータセットで最先端のパフォーマンスを達成する。 https://github.com/liuzywen/COD

Camouflaged object detection intends to discover the concealed objects hidden in the surroundings. Existing methods follow the bio-inspired framework, which first locates the object and second refines the boundary. We argue that the discovery of camouflaged objects depends on the recurrent search for the object and the boundary. The recurrent processing makes the human tired and helpless, but it is just the advantage of the transformer with global search ability. Therefore, a dual-task interactive transformer is proposed to detect both accurate position of the camouflaged object and its detailed boundary. The boundary feature is considered as Query to improve the camouflaged object detection, and meanwhile the object feature is considered as Query to improve the boundary detection. The camouflaged object detection and the boundary detection are fully interacted by multi-head self-attention. Besides, to obtain the initial object feature and boundary feature, transformer-based backbones are adopted to extract the foreground and background. The foreground is just object, while foreground minus background is considered as boundary. Here, the boundary feature can be obtained from blurry boundary region of the foreground and background. Supervised by the object, the background and the boundary ground truth, the proposed model achieves state-of-the-art performance in public datasets. https://github.com/liuzywen/COD
翻訳日:2022-05-24 18:18:55 公開日:2022-05-21
# グラディエント・コンシールメント: 敵攻撃に備えたフリーランチ

Gradient Concealment: Free Lunch for Defending Adversarial Attacks ( http://arxiv.org/abs/2205.10617v1 )

ライセンス: Link先を確認
Sen Pei, Jiaxi Sun, Xiaopeng Zhang, Gaofeng Meng(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)が様々なタスクで大きな成功を収めていることが示されている。 しかし、emph{of-the-art}ディープラーニングベースの分類器でさえ、敵の例に対して非常に脆弱であり、巨大な未知の攻撃の存在下で識別精度が急落する。 ニューラルネットワークが安全クリティカルな状況であるオープンワールドのシナリオで広く利用されているという事実を考えると、ディープラーニング手法の逆効果を緩和することが急務である。 一般に、従来のDNNは、ホワイトボックスのシナリオにおいて、勾配が徹底的に露出するため、劇的に高い成功率で攻撃することができるため、生データ空間における知覚不能な摂動しか持たない、よく訓練された分類器を台無しにすることは困難である。 この問題に対処するため,本研究では,予測時間における分類精度を確保しつつ,勾配の脆弱な方向を隠蔽する,学習自由層を「textbf{G}radient \textbf{C}oncealment \textbf{M}odule (GCM)」と呼ぶ。 gcmはimagenet分類ベンチマークで優れた防御結果を示し、バニラdnnsと比較して敵意入力に直面する場合、最大63.41\%top-1攻撃ロバスト性(ar)を改善した。 さらに、cvpr 2022ロバスト分類チャレンジでgcmを使用し、現在convnextの小さなバージョンだけでフェーズiiで \textbf{2nd} が達成されている。 コードは利用可能になります。

Recent studies show that the deep neural networks (DNNs) have achieved great success in various tasks. However, even the \emph{state-of-the-art} deep learning based classifiers are extremely vulnerable to adversarial examples, resulting in sharp decay of discrimination accuracy in the presence of enormous unknown attacks. Given the fact that neural networks are widely used in the open world scenario which can be safety-critical situations, mitigating the adversarial effects of deep learning methods has become an urgent need. Generally, conventional DNNs can be attacked with a dramatically high success rate since their gradient is exposed thoroughly in the white-box scenario, making it effortless to ruin a well trained classifier with only imperceptible perturbations in the raw data space. For tackling this problem, we propose a plug-and-play layer that is training-free, termed as \textbf{G}radient \textbf{C}oncealment \textbf{M}odule (GCM), concealing the vulnerable direction of gradient while guaranteeing the classification accuracy during the inference time. GCM reports superior defense results on the ImageNet classification benchmark, improving up to 63.41\% top-1 attack robustness (AR) when faced with adversarial inputs compared to the vanilla DNNs. Moreover, we use GCM in the CVPR 2022 Robust Classification Challenge, currently achieving \textbf{2nd} place in Phase II with only a tiny version of ConvNext. The code will be made available.
翻訳日:2022-05-24 18:18:36 公開日:2022-05-21
# AutoLink: キーポイントのリンクによる人体骨格とオブジェクトアウトラインの自己教師型学習

AutoLink: Self-supervised Learning of Human Skeletons and Object Outlines by Linking Keypoints ( http://arxiv.org/abs/2205.10636v1 )

ライセンス: Link先を確認
Xingzhe He, Bastian Wandt, Helge Rhodin(参考訳) キーポイントのような構造化表現は、ポーズ転送、条件付き画像生成、アニメーション、および3d再構成において広く使われている。 しかし、それらの教師付き学習は、ターゲットドメインごとに高価なアノテーションを必要とする。 本研究では,2次元キーポイントのグラフを直線のエッジに関連付けることで,オブジェクト構造を外見から切り離す自己教師型手法を提案する。 キーポイントの位置と両辺の重みはどちらも学習され、同じオブジェクトクラスを描いている画像の集合のみを考慮に入れられる。 グラフは解釈可能であり、例えば、autolinkは人を示す画像に適用されると、人間の骨格トポロジーを回復する。 私たちの重要な材料は 一 入力画像におけるキーポイントの位置を予測するエンコーダ 二 画像ごとに同じキーポイントのペアをリンクする潜在変数としての共有グラフ 三 潜伏グラフの辺の重みとキーポイントの位置を柔らかく異なる方法で組み合わせた中間エッジマップ iv) ランダムにマスキングされた画像に塗布する目的 シンプルではあるが、autolinkは確立されたキーポイントとポーズ推定ベンチマークで既存の自己教師付きメソッドよりも優れており、より多様なデータセット上の構造条件付き生成モデルへの道を開く。

Structured representations such as keypoints are widely used in pose transfer, conditional image generation, animation, and 3D reconstruction. However, their supervised learning requires expensive annotation for each target domain. We propose a self-supervised method that learns to disentangle object structure from the appearance with a graph of 2D keypoints linked by straight edges. Both the keypoint location and their pairwise edge weights are learned, given only a collection of images depicting the same object class. The graph is interpretable, for example, AutoLink recovers the human skeleton topology when applied to images showing people. Our key ingredients are i) an encoder that predicts keypoint locations in an input image, ii) a shared graph as a latent variable that links the same pairs of keypoints in every image, iii) an intermediate edge map that combines the latent graph edge weights and keypoint locations in a soft, differentiable manner, and iv) an inpainting objective on randomly masked images. Although simpler, AutoLink outperforms existing self-supervised methods on the established keypoint and pose estimation benchmarks and paves the way for structure-conditioned generative models on more diverse datasets.
翻訳日:2022-05-24 18:18:06 公開日:2022-05-21
# 差分プライバシーを持つ大規模畳み込みニューラルネットワークのスケーラブルで効率的なトレーニング

Scalable and Efficient Training of Large Convolutional Neural Networks with Differential Privacy ( http://arxiv.org/abs/2205.10683v1 )

ライセンス: Link先を確認
Zhiqi Bu, Jialin Mao, Shiyun Xu(参考訳) 大規模畳み込みニューラルネットワーク(CNN)は、最適化アルゴリズムは、サンプルごとの勾配クリッピングと呼ばれる計算コストの高い演算を必要とするため、差分プライベート(DP)方式でトレーニングすることが難しい。 提案手法は,時間と空間の複雑さの両面において,正確性に影響を与えず,プライベートトレーニングを著しく緩和する,畳み込み層上での効率的かつスケーラブルな実装を提案する。 ゴーストクリップングと既存のdpトレーニングアルゴリズムを併用した第1の複雑性解析により,効率改善を厳密に検討した。 大規模なResNet、VGG、Vision Transformersによる視覚分類タスクに関する大規模な実験では、混合ゴーストクリッピングによるDPトレーニングには、メモリオーバーヘッドが $1\sim 10\%$ と標準の非プライベートトレーニングに $<2\times$ が加えられている。 具体的には、CIFAR10でVGG19をトレーニングする場合、混合ゴーストクリッピングは、最先端のOpacusライブラリよりも3\times$で、最大バッチサイズは18\times$大きい。 畳み込み層における効率的なDPトレーニングの重要性を強調するため, CIFAR100では96.7\%, CIFAR100では83.0\%, BEiTでは1$, 前回では94.8\%, 67.4\%であった。 数行のコードでCNNのDPトレーニングを実装したプライバシーエンジン(\url{https://github.com/JialinMao/private_CNN})をオープンソースにしています。

Large convolutional neural networks (CNN) can be difficult to train in the differentially private (DP) regime, since the optimization algorithms require a computationally expensive operation, known as the per-sample gradient clipping. We propose an efficient and scalable implementation of this clipping on convolutional layers, termed as the mixed ghost clipping, that significantly eases the private training in terms of both time and space complexities, without affecting the accuracy. The improvement in efficiency is rigorously studied through the first complexity analysis for the mixed ghost clipping and existing DP training algorithms. Extensive experiments on vision classification tasks, with large ResNet, VGG, and Vision Transformers, demonstrate that DP training with mixed ghost clipping adds $1\sim 10\%$ memory overhead and $<2\times$ slowdown to the standard non-private training. Specifically, when training VGG19 on CIFAR10, the mixed ghost clipping is $3\times$ faster than state-of-the-art Opacus library with $18\times$ larger maximum batch size. To emphasize the significance of efficient DP training on convolutional layers, we achieve 96.7\% accuracy on CIFAR10 and 83.0\% on CIFAR100 at $\epsilon=1$ using BEiT, while the previous best results are 94.8\% and 67.4\%, respectively. We open-source a privacy engine (\url{https://github.com/JialinMao/private_CNN}) that implements DP training of CNN with a few lines of code.
翻訳日:2022-05-24 16:29:33 公開日:2022-05-21
# deep learning vs. gradient boosting: クレジットスコアリングのための最先端機械学習アルゴリズムのベンチマーク

Deep Learning vs. Gradient Boosting: Benchmarking state-of-the-art machine learning algorithms for credit scoring ( http://arxiv.org/abs/2205.10535v1 )

ライセンス: Link先を確認
Marc Schmitt(参考訳) 人工知能(AI)と機械学習(ML)は、世界中の金融サービス企業にとって競争力を維持するために不可欠である。 現在、信用リスク管理におけるポールポジションを競う2つのモデルは、ディープラーニング(DL)と勾配促進機(GBM)である。 本稿では、これらの2つのアルゴリズムを、異なる特徴を持つ3つの異なるデータセットを用いて、クレジットスコアの文脈でベンチマークし、モデル選択/パワーがデータセットの根底にある特性に依存することが多いことを実感した。 実験の結果、GBMはDLよりも強力であり、計算要求の低さによる速度の優位性も示している。 これにより、GBMはクレジットスコアリングの勝者と選択肢となる。 しかし、GBMの性能は必ずしも保証されておらず、最終的に具体的な問題シナリオやデータセットが最終的なモデル選択を決定することも示されている。 総じて、この研究に基づいて、両方のアルゴリズムは構造化データセット上のバイナリ分類タスクの最先端と見なすことができるが、gbmは、使いやすさ、トレーニング時間が大幅に速く、正確性が優れているため、ほとんどの問題シナリオにおいて、go-toソリューションであるべきである。

Artificial intelligence (AI) and machine learning (ML) have become vital to remain competitive for financial services companies around the globe. The two models currently competing for the pole position in credit risk management are deep learning (DL) and gradient boosting machines (GBM). This paper benchmarked those two algorithms in the context of credit scoring using three distinct datasets with different features to account for the reality that model choice/power is often dependent on the underlying characteristics of the dataset. The experiment has shown that GBM tends to be more powerful than DL and has also the advantage of speed due to lower computational requirements. This makes GBM the winner and choice for credit scoring. However, it was also shown that the outperformance of GBM is not always guaranteed and ultimately the concrete problem scenario or dataset will determine the final model choice. Overall, based on this study both algorithms can be considered state-of-the-art for binary classification tasks on structured datasets, while GBM should be the go-to solution for most problem scenarios due to easier use, significantly faster training time, and superior accuracy.
翻訳日:2022-05-24 16:26:37 公開日:2022-05-21
# 低リソース言語のための事前学習データ品質と量:マルタの新しいコーパスとBERTモデル

Pre-training Data Quality and Quantity for a Low-Resource Language: New Corpus and BERT Models for Maltese ( http://arxiv.org/abs/2205.10517v1 )

ライセンス: Link先を確認
Kurt Micallef, Albert Gatt, Marc Tanti, Lonneke van der Plas, Claudia Borg(参考訳) mBERTのような多言語言語モデルは、様々な言語に印象的な言語間移動が見られるが、多くの言語はこれらのモデルから除外されている。 本稿では,mBERT-Malteseに含まれない低リソース言語に対する単言語データによる事前学習の効果を,様々な事前学習セットアップを用いて分析する。 本研究では,3つのモーメントシンタクティックタスク (依存性解析, 音声タグ付け, 名前付き親和性認識) と1つの意味分類タスク (感情分析) について,新たに訓練したモデルを用いて評価を行った。 また,マルタ語のコーパスを新たに作成し,事前学習したデータサイズとドメインが下流のパフォーマンスに与える影響を判定する。 以上の結果から,事前学習ドメインの混合利用の方がwikipediaテキストのみの使用よりも優れていることが判明した。 また、このコーパスのほんの一部で、wikipediaでトレーニングされたモデルよりもパフォーマンスが飛躍的に向上していることも分かりました。 スクラッチからトレーニングした単言語BERTモデル(BERTu)と、さらに事前トレーニングされた多言語BERT(mBERTu)の2つのモデルを比較した。 これらのモデルは、新しいコーパスが高ソース言語で一般的に使用されるコーパスよりもかなり小さいにもかかわらず、これらのタスクで最先端のパフォーマンスを達成している。 BERTuは平均してmBERTuよりも優れ、mBERTuと競合し、高いレベルのタスクでは最大のゲインが観測される。

Multilingual language models such as mBERT have seen impressive cross-lingual transfer to a variety of languages, but many languages remain excluded from these models. In this paper, we analyse the effect of pre-training with monolingual data for a low-resource language that is not included in mBERT -- Maltese -- with a range of pre-training set ups. We conduct evaluations with the newly pre-trained models on three morphosyntactic tasks -- dependency parsing, part-of-speech tagging, and named-entity recognition -- and one semantic classification task -- sentiment analysis. We also present a newly created corpus for Maltese, and determine the effect that the pre-training data size and domain have on the downstream performance. Our results show that using a mixture of pre-training domains is often superior to using Wikipedia text only. We also find that a fraction of this corpus is enough to make significant leaps in performance over Wikipedia-trained models. We pre-train and compare two models on the new corpus: a monolingual BERT model trained from scratch (BERTu), and a further pre-trained multilingual BERT (mBERTu). The models achieve state-of-the-art performance on these tasks, despite the new corpus being considerably smaller than typically used corpora for high-resourced languages. On average, BERTu outperforms or performs competitively with mBERTu, and the largest gains are observed for higher-level tasks.
翻訳日:2022-05-24 16:25:27 公開日:2022-05-21
# coral: トレーニングダイアログ生成モデルのための文脈応答検索可能性損失関数

CORAL: Contextual Response Retrievability Loss Function for Training Dialog Generation Models ( http://arxiv.org/abs/2205.10558v1 )

ライセンス: Link先を確認
Bishal Santra, Ravi Ghadia, Arpit Dwivedi, Manish Gupta and Pawan Goyal(参考訳) 自然言語生成(NLG)は、NLP分野におけるタスクの集合である。 これらのタスクの多くは、クロスエントロピー(CE)損失によってうまく取り組まれているが、ダイアログ生成のタスクは、この損失関数にいくつかのユニークな課題をもたらす。 まず、CE損失は、任意の入力に対して唯一可能な出力はトレーニングデータセットの真理として利用できるものであると仮定する。 一般に、これはどんなタスクにも当てはまるものではなく、複数の意味論的に等価な文があり、それぞれ異なる表面形式を持つ。 この問題はダイアログ生成タスクではさらに誇張され、複数の有効な応答(与えられたコンテキストに対して)があり、異なる表面形式を持つだけでなく、意味的に等価ではない。 第二に、CE損失は応答を処理する際に文脈を考慮に入れず、従って、文脈に関係なく全ての基底真理を同じ重要性で扱う。 しかし、最終的なエージェントは特定の応答クラス(例えば、bland、non-informative、biased response)を避けて、よりコンテキスト固有の応答に対して比較的高い重み付けをして欲しいかもしれません。 本稿では、CE損失のこれらの欠点を回避するために、最近提案されたヒトの反応に対する嗜好の予測を直接最適化する新しい損失関数、CORALを提案する。 coralを使用すると、接地以外の応答が存在しないと仮定することなく、ダイアログ生成モデルをトレーニングできる。 また、コンテキストと応答の両方に基づいて、CORAL損失を算出する。 2つのベンチマークデータセットの広範な比較により、提案手法は、異なる大きさの強固な最先端のベースラインモデルを上回ることが示された。

Natural Language Generation (NLG) represents a large collection of tasks in the field of NLP. While many of these tasks have been tackled well by the cross-entropy (CE) loss, the task of dialog generation poses a few unique challenges for this loss function. First, CE loss assumes that for any given input, the only possible output is the one available as the ground truth in the training dataset. In general, this is not true for any task, as there can be multiple semantically equivalent sentences, each with a different surface form. This problem gets exaggerated further for the dialog generation task, as there can be multiple valid responses (for a given context) that not only have different surface forms but are also not semantically equivalent. Second, CE loss does not take the context into consideration while processing the response and, hence, it treats all ground truths with equal importance irrespective of the context. But, we may want our final agent to avoid certain classes of responses (e.g. bland, non-informative or biased responses) and give relatively higher weightage for more context-specific responses. To circumvent these shortcomings of the CE loss, in this paper, we propose a novel loss function, CORAL, that directly optimizes recently proposed estimates of human preference for generated responses. Using CORAL, we can train dialog generation models without assuming non-existence of response other than the ground-truth. Also, the CORAL loss is computed based on both the context and the response. Extensive comparisons on two benchmark datasets show that the proposed methods outperform strong state-of-the-art baseline models of different sizes.
翻訳日:2022-05-24 16:25:00 公開日:2022-05-21
# 因果推論のための神経進化的特徴表現

Neuroevolutionary Feature Representations for Causal Inference ( http://arxiv.org/abs/2205.10541v1 )

ライセンス: Link先を確認
Michael C. Burkhart and Gabriel Ruiz(参考訳) 因果推論の分野において、データから不均一な治療効果を推定する問題を考察する。 本研究では,条件付き平均処理効果(CATE)の推定を支援する特徴表現の学習手法を提案する。 本手法は,特徴から結果を予測するように訓練されたニューラルネットワークの中間層に着目した。 治療不変な表現の分布を促す従来のアプローチとは対照的に, 結果を予測するのに有用な表現を最適化し, 治療予測にあまり役に立たない表現を選択する遺伝的アルゴリズムを活用する。 これにより、治療課題に関連する情報であっても、結果を予測するのに有用な機能内に情報を保持することができる。 本手法を合成例で検証し,実生活データセット上での利用例を示す。

Within the field of causal inference, we consider the problem of estimating heterogeneous treatment effects from data. We propose and validate a novel approach for learning feature representations to aid the estimation of the conditional average treatment effect or CATE. Our method focuses on an intermediate layer in a neural network trained to predict the outcome from the features. In contrast to previous approaches that encourage the distribution of representations to be treatment-invariant, we leverage a genetic algorithm that optimizes over representations useful for predicting the outcome to select those less useful for predicting the treatment. This allows us to retain information within the features useful for predicting outcome even if that information may be related to treatment assignment. We validate our method on synthetic examples and illustrate its use on a real life dataset.
翻訳日:2022-05-24 16:04:10 公開日:2022-05-21
# $\ell_p$ Confidence Sets を用いたオフライン線形コンテキスト帯域のペシミズム

Pessimism for Offline Linear Contextual Bandits using $\ell_p$ Confidence Sets ( http://arxiv.org/abs/2205.10671v1 )

ライセンス: Link先を確認
Gene Li, Cong Ma, Nathan Srebro(参考訳) 線形文脈的包帯のオフライン学習のための悲観的学習規則の$$\{\hat{\pi}\}_{p\ge 1}$は、異なる$\ell_p$ノルムに対する信頼セットに依存し、$\hat{\pi}_2$はベルマン一貫性悲観主義(BCP)に対応し、$\hat{\pi}_\infty$は線形設定に対する低信頼境界(LCB)の新しい一般化である。 新たな$\hat{\pi}_\infty$学習規則は、ある意味では、すべての$\ell_q$制約された問題に対してミニマックス性能(ログファクタまで)を達成するため、適応的に最適であることを示し、$\hat{\pi}_2$を含む家族内の他の全ての予測因子を厳密に支配している。

We present a family $\{\hat{\pi}\}_{p\ge 1}$ of pessimistic learning rules for offline learning of linear contextual bandits, relying on confidence sets with respect to different $\ell_p$ norms, where $\hat{\pi}_2$ corresponds to Bellman-consistent pessimism (BCP), while $\hat{\pi}_\infty$ is a novel generalization of lower confidence bound (LCB) to the linear setting. We show that the novel $\hat{\pi}_\infty$ learning rule is, in a sense, adaptively optimal, as it achieves the minimax performance (up to log factors) against all $\ell_q$-constrained problems, and as such it strictly dominates all other predictors in the family, including $\hat{\pi}_2$.
翻訳日:2022-05-24 16:03:58 公開日:2022-05-21
# テンソル低ランク表現による半スーパービジョンサブスペースクラスタリング

Semi-Supervised Subspace Clustering via Tensor Low-Rank Representation ( http://arxiv.org/abs/2205.10481v1 )

ライセンス: Link先を確認
Guanxing Lu, Yuheng Jia, Junhui Hou(参考訳) 本稿では,初期監視情報の強化と識別的親和性行列の構築を同時に行うことのできる,半教師付き部分空間クラスタリング手法を提案する。 一対の制約行列として監督情報の限られた量を表現することにより、クラスタリングの理想的な親和性行列が、一対の制約行列と同じ低ランク構造を共有することを観察する。 そこで我々は,2つの行列を3次元テンソルに積み重ね,大域的な低ランク制約を課し,親和性行列の構築を促進し,初期対角制約を同期的に増強する。 さらに,より優れた親和性行列学習を実現するために,入力サンプルの局所幾何構造を用いて大域的低ランクを補完する。 提案手法は,Laplacian graph regularized convex low-rank tensor representation problemとして定式化され,さらに別の反復アルゴリズムを用いて解かれる。 さらに,拡張ペアワイズ制約によりアフィニティ行列を洗練することを提案する。 6つの一般的なベンチマークデータセットの総合的な実験結果から,本手法が最先端手法よりも優れていることを示す。 コードはhttps://github.com/GuanxingLu/Subspace-Clustering.comで公開されている。

In this letter, we propose a novel semi-supervised subspace clustering method, which is able to simultaneously augment the initial supervisory information and construct a discriminative affinity matrix. By representing the limited amount of supervisory information as a pairwise constraint matrix, we observe that the ideal affinity matrix for clustering shares the same low-rank structure as the ideal pairwise constraint matrix. Thus, we stack the two matrices into a 3-D tensor, where a global low-rank constraint is imposed to promote the affinity matrix construction and augment the initial pairwise constraints synchronously. Besides, we use the local geometry structure of input samples to complement the global low-rank prior to achieve better affinity matrix learning. The proposed model is formulated as a Laplacian graph regularized convex low-rank tensor representation problem, which is further solved with an alternative iterative algorithm. In addition, we propose to refine the affinity matrix with the augmented pairwise constraints. Comprehensive experimental results on six commonly-used benchmark datasets demonstrate the superiority of our method over state-of-the-art methods. The code is publicly available at https://github.com/GuanxingLu/Subspace-Clustering.
翻訳日:2022-05-24 15:58:03 公開日:2022-05-21
# グラフ畳み込みニューラルネットワークを用いたパラトランジット操作の走行時間・距離・コスト最適化

Travel Time, Distance and Costs Optimization for Paratransit Operations using Graph Convolutional Neural Network ( http://arxiv.org/abs/2205.10507v1 )

ライセンス: Link先を確認
Kelvin Kwakye, Younho Seong, Sun Yi(参考訳) パラトランジットサービスの提供は、Vulnerable Road Users (VRUs) の交通需要を満たすための選択肢の1つである。 他の輸送手段と同様に、パラトランジットは高い運用コストや長い旅行時間といった障害を抱えている。 その結果、顧客は満足せず、パラトランジットのオペレーターは低い評価を受けている。 研究者は、パラトランジット客の旅行行動と、どのように運用されているかをよりよく理解するために、長年にわたり様々な研究を実施してきた。 これらの研究の結果、パラトランジットオペレーターは、旅行時間を節約するために旅行の最適なルートを決定するという課題に直面している。 課題の性質に応じて、ほとんどの研究はこれらのルーティング問題を解決するために異なる最適化技術を用いた。 そこで本研究では,グラフ畳み込みニューラルネットワーク(gcns)を用いて,様々な運用シナリオを戦略的に検討し,ルーティングの最適化,運用コストの最小化,ユーザの移動時間の最小化を図る。 この研究は、ランダム化されたシミュレーションデータセットを使用して、異なる状況下で艦隊の構成と能力の観点で決定するのに役立つ。 様々なシナリオについて、GCNは最小の最適ギャップを決定するのに役立った。

The provision of paratransit services is one option to meet the transportation needs of Vulnerable Road Users (VRUs). Like any other means of transportation, paratransit has obstacles such as high operational costs and longer trip times. As a result, customers are dissatisfied, and paratransit operators have a low approval rating. Researchers have undertaken various studies over the years to better understand the travel behaviors of paratransit customers and how they are operated. According to the findings of these researches, paratransit operators confront the challenge of determining the optimal route for their trips in order to save travel time. Depending on the nature of the challenge, most research used different optimization techniques to solve these routing problems. As a result, the goal of this study is to use Graph Convolutional Neural Networks (GCNs) to assist paratransit operators in researching various operational scenarios in a strategic setting in order to optimize routing, minimize operating costs and minimize their users' travel time. The study was carried out by using a randomized simulated dataset to help determine the decision to make in terms of fleet composition and capacity under different situations. For the various scenarios investigated, the GCN assisted in determining the minimum optimal gap.
翻訳日:2022-05-24 15:57:44 公開日:2022-05-21
# 自動機械学習:ビジネス分析におけるai駆動意思決定

Automated machine learning: AI-driven decision making in business analytics ( http://arxiv.org/abs/2205.10538v1 )

ライセンス: Link先を確認
Marc Schmitt(参考訳) 今日の急成長と超競争的な市場において、AIによる意思決定が不可欠であるという認識は、産業機械学習(ML)アプリケーションへの関心を著しく高めた。 現在の分析専門家の需要は供給を大幅に上回っている。 この問題に対する解決策の1つは、MLフレームワークのユーザフレンドリさを高めて、非専門家に対してよりアクセスしやすいようにすることである。 Automated Machine Learning (AutoML)は、モデル選択とハイパーパラメータチューニングのための完全に自動化されたオフザシェルフソリューションを提供することによって、専門知識の問題を解決する試みである。 本稿では、ビジネス分析におけるアプリケーションにおけるAutoMLの可能性を分析し、すべての産業におけるMLの採用率の向上に寄与する。 H2O AutoMLフレームワークは、パフォーマンス、堅牢性、信頼性をテストするために、実世界の3つのデータセット上で手動で調整されたMLモデルと比較された。 手動で調整されたMLモデルは、実験で使用される3つのケーススタディすべてにおいて、パフォーマンス上の優位性に達する可能性がある。 それでも、H2O AutoMLパッケージは非常に強力であることが判明した。 高速で使いやすく、信頼性の高い結果をもたらし、プロフェッショナルにチューニングされたMLモデルに近い。 H2O AutoMLフレームワークの現在の能力は、開発とデプロイメントのサイクルを短縮する可能性があり、高速なプロトタイピングをサポートする貴重なツールである。 また、mlエキスパートの需要と供給のギャップを埋めることもでき、ビジネス分析における完全な自動決定への大きな一歩となる。

The realization that AI-driven decision-making is indispensable in todays fast-paced and ultra-competitive marketplace has raised interest in industrial machine learning (ML) applications significantly. The current demand for analytics experts vastly exceeds the supply. One solution to this problem is to increase the user-friendliness of ML frameworks to make them more accessible for the non-expert. Automated machine learning (AutoML) is an attempt to solve the problem of expertise by providing fully automated off-the-shelf solutions for model choice and hyperparameter tuning. This paper analyzed the potential of AutoML for applications within business analytics, which could help to increase the adoption rate of ML across all industries. The H2O AutoML framework was benchmarked against a manually tuned stacked ML model on three real-world datasets to test its performance, robustness, and reliability. The manually tuned ML model could reach a performance advantage in all three case studies used in the experiment. Nevertheless, the H2O AutoML package proved to be quite potent. It is fast, easy to use, and delivers reliable results, which come close to a professionally tuned ML model. The H2O AutoML framework in its current capacity is a valuable tool to support fast prototyping with the potential to shorten development and deployment cycles. It can also bridge the existing gap between supply and demand for ML experts and is a big step towards fully automated decisions in business analytics.
翻訳日:2022-05-24 15:51:50 公開日:2022-05-21
# KGNN:半教師付きグラフ分類のためのカーネルネットワークのハーネス化

KGNN: Harnessing Kernel-based Networks for Semi-supervised Graph Classification ( http://arxiv.org/abs/2205.10550v1 )

ライセンス: Link先を確認
Wei Ju, Junwei Yang, Meng Qu, Weiping Song, Jianhao Shen, Ming Zhang(参考訳) 本稿では,社会ネットワーク解析やバイオインフォマティクスにおいて重要な課題である半教師付きグラフ分類について述べる。 この問題は一般的に、トレーニングのために多くのラベル付きグラフに依存し、ラベル付きグラフを活用できないグラフニューラルネットワーク(gnns)を使用して解決される。 本稿では,カーネルベースのグラフニューラルネットワーク(KGNN)を提案する。 KGNNはGNNベースのネットワークとメモリネットワークによってパラメータ化されたカーネルベースのネットワークで構成される。 GNNベースのネットワークはグラフ表現の学習を通じて分類を行い、クエリグラフとラベル付きグラフの類似性を暗黙的にキャプチャし、カーネルベースのネットワークはグラフカーネルを使用して各クエリグラフとメモリに格納されたラベル付きグラフを明示的に比較する。 この2つのネットワークは補完的な視点から動機づけられているため、kgnnはラベル付きグラフをより効果的に使用できる。 両ネットワークを相互に拡張するための橋渡しとして,ラベルなしグラフの合意を後続正則化により最大化することにより,両ネットワークを協調的にトレーニングする。 良く知られたベンチマークデータセットの実験は、KGNNが競合するベースラインよりも優れたパフォーマンスを実現していることを示している。

This paper studies semi-supervised graph classification, which is an important problem with various applications in social network analysis and bioinformatics. This problem is typically solved by using graph neural networks (GNNs), which yet rely on a large number of labeled graphs for training and are unable to leverage unlabeled graphs. We address the limitations by proposing the Kernel-based Graph Neural Network (KGNN). A KGNN consists of a GNN-based network as well as a kernel-based network parameterized by a memory network. The GNN-based network performs classification through learning graph representations to implicitly capture the similarity between query graphs and labeled graphs, while the kernel-based network uses graph kernels to explicitly compare each query graph with all the labeled graphs stored in a memory for prediction. The two networks are motivated from complementary perspectives, and thus combing them allows KGNN to use labeled graphs more effectively. We jointly train the two networks by maximizing their agreement on unlabeled graphs via posterior regularization, so that the unlabeled graphs serve as a bridge to let both networks mutually enhance each other. Experiments on a range of well-known benchmark datasets demonstrate that KGNN achieves impressive performance over competitive baselines.
翻訳日:2022-05-24 15:51:27 公開日:2022-05-21
# 強化されたロバストなマルチビューカーネルサブスペースクラスタリング

Enriched Robust Multi-View Kernel Subspace Clustering ( http://arxiv.org/abs/2205.10495v1 )

ライセンス: Link先を確認
Mengyuan Zhang, Kai Liu(参考訳) サブスペースクラスタリングは、下位の低次元サブスペースを見つけ、データポイントを正しくクラスタ化する。 本稿では,新しいマルチビュー部分空間クラスタリング手法を提案する。 既存の手法には2つの重大な問題がある。 まず、彼らは通常2段階のフレームワークを採用し、親和性学習、多視点情報融合、クラスタリングのプロセスを分離する。 第二に、ほとんどの実世界のデータセットが非線形構造を持つため、実際には失敗する可能性がある線形部分空間にあると仮定する。 本稿では,マルチビューデータとスペクトルクラスタリングの両方からコンセンサス親和性行列を学習する,新しい拡張型マルチビューカーネルサブスペースクラスタリングフレームワークを提案する。 最適化が難しい目的や制約のため,実装が容易で,各ステップで閉じた解が得られる反復最適化法を提案する。 広範な実験により,最先端のクラスタリング手法よりも優れた手法が検証された。

Subspace clustering is to find underlying low-dimensional subspaces and cluster the data points correctly. In this paper, we propose a novel multi-view subspace clustering method. Most existing methods suffer from two critical issues. First, they usually adopt a two-stage framework and isolate the processes of affinity learning, multi-view information fusion and clustering. Second, they assume the data lies in a linear subspace which may fail in practice as most real-world datasets may have non-linearity structures. To address the above issues, in this paper we propose a novel Enriched Robust Multi-View Kernel Subspace Clustering framework where the consensus affinity matrix is learned from both multi-view data and spectral clustering. Due to the objective and constraints which is difficult to optimize, we propose an iterative optimization method which is easy to implement and can yield closed solution in each step. Extensive experiments have validated the superiority of our method over state-of-the-art clustering methods.
翻訳日:2022-05-24 15:16:25 公開日:2022-05-21
# セマンティックセグメンテーション問題に対するパッチベースの敵攻撃の可能性と一般性について

On the Feasibility and Generality of Patch-based Adversarial Attacks on Semantic Segmentation Problems ( http://arxiv.org/abs/2205.10539v1 )

ライセンス: Link先を確認
Soma Kontar, Andras Horvath(参考訳) ディープニューラルネットワークは、無数のアプリケーションで成功したが、安全上の重要なユースケースでは、敵の攻撃は依然として重大な脅威である。 これらの攻撃は様々な分類と検出タスクで実証され、通常は任意のネットワーク出力を生成できるという意味で一般的なものとみなされる。 本稿では,シミュレーションと実生活の両方において単純なケーススタディを通じて,セグメント化ネットワークの出力を変化させるためにパッチ攻撃を活用できることを実証する。 ネットワークの複雑さに関するいくつかの例と調査を通じて、特定のサイズのパッチベースの攻撃によって生成される可能性のあるアウトプットマップの数は、通常、それらが作用する領域や実用的用途で攻撃されるべき領域よりも小さいことを実証する。 これらの結果に基づいて、ほとんどのパッチベースの攻撃は、実際には、任意の出力マップを生成できない、あるいは可能であれば空間的に制限されており、パッチの受容領域よりもかなり小さい、という、一般的には不可能であることを示す。

Deep neural networks were applied with success in a myriad of applications, but in safety critical use cases adversarial attacks still pose a significant threat. These attacks were demonstrated on various classification and detection tasks and are usually considered general in a sense that arbitrary network outputs can be generated by them. In this paper we will demonstrate through simple case studies both in simulation and in real-life, that patch based attacks can be utilised to alter the output of segmentation networks. Through a few examples and the investigation of network complexity, we will also demonstrate that the number of possible output maps which can be generated via patch-based attacks of a given size is typically smaller than the area they effect or areas which should be attacked in case of practical applications. We will prove that based on these results most patch-based attacks cannot be general in practice, namely they can not generate arbitrary output maps or if they could, they are spatially limited and this limit is significantly smaller than the receptive field of the patches.
翻訳日:2022-05-24 15:16:11 公開日:2022-05-21
# 非自己回帰型ニューラルマシン翻訳:明快さを求める声

Non-Autoregressive Neural Machine Translation: A Call for Clarity ( http://arxiv.org/abs/2205.10577v1 )

ライセンス: Link先を確認
Robin M. Schmidt, Telmo Pires, Stephan Peitz, Jonas L\"o\"of(参考訳) 非自己回帰的アプローチは、予測されたトークンを反復的に生成するのではなく、単一のフォワードパスで出力シーケンスを生成するだけで、翻訳モデルの推論速度を改善することを目的としている。 その結果、その翻訳品質は、出力トークン相互依存性に関わるいくつかの問題により、自己回帰性に劣る傾向にある。 本稿では,非自己回帰的翻訳モデルを改善するために提案されているいくつかの手法を振り返り,それらの組み合わせた翻訳品質と速度への影響をサードパーティのテスト環境下で比較する。 我々は,長長予測やCTCに基づくアーキテクチャ変種を用いた強力なベースラインを確立するための新たな洞察を提供し,最大1.7 BLEU点のずれにつながるトークン化BLEUの使用において,矛盾として欠落している4つの翻訳タスクに対して,SsareBLEUを用いた標準化BLEU,chrF++,TERスコアを貢献する。 オープンソースコードは再現性のために Fairseq に統合されています。

Non-autoregressive approaches aim to improve the inference speed of translation models by only requiring a single forward pass to generate the output sequence instead of iteratively producing each predicted token. Consequently, their translation quality still tends to be inferior to their autoregressive counterparts due to several issues involving output token interdependence. In this work, we take a step back and revisit several techniques that have been proposed for improving non-autoregressive translation models and compare their combined translation quality and speed implications under third-party testing environments. We provide novel insights for establishing strong baselines using length prediction or CTC-based architecture variants and contribute standardized BLEU, chrF++, and TER scores using sacreBLEU on four translation tasks, which crucially have been missing as inconsistencies in the use of tokenized BLEU lead to deviations of up to 1.7 BLEU points. Our open-sourced code is integrated into fairseq for reproducibility.
翻訳日:2022-05-24 15:10:34 公開日:2022-05-21
# 対話処理のためのオンラインコリファレンス解決:リアルタイム会話における言及リンクの改善

Online Coreference Resolution for Dialogue Processing: Improving Mention-Linking on Real-Time Conversations ( http://arxiv.org/abs/2205.10670v1 )

ライセンス: Link先を確認
Liyan Xu, Jinho D. Choi(参考訳) 本論文は, 対話など, モデルが発話と過去の文脈を受理する対話のような, オンラインデコーディングにおけるコア参照解決の方向性について提案する。 参照リンクパラダイムから適応したベースラインと4つのインクリメンタル更新モデルが、シングルトン、話者グラウンドエンコーディング、クロスターン参照コンテキスト化など、さまざまな側面に対処する、この新しい設定のために提案されている。 このアプローチは、Friends、OntoNotes、BOLTの3つのデータセットに基づいて評価される。 その結果、各アスペクトは着実に改善し、最良のモデルはベースラインを10%以上上回り、この設定に効果的なシステムを示しています。 さらに分析は、参照リコールに対処する重要性などのタスク特性を強調している。

This paper suggests a direction of coreference resolution for online decoding on actively generated input such as dialogue, where the model accepts an utterance and its past context, then finds mentions in the current utterance as well as their referents, upon each dialogue turn. A baseline and four incremental-updated models adapted from the mention-linking paradigm are proposed for this new setting, which address different aspects including the singletons, speaker-grounded encoding and cross-turn mention contextualization. Our approach is assessed on three datasets: Friends, OntoNotes, and BOLT. Results show that each aspect brings out steady improvement, and our best models outperform the baseline by over 10%, presenting an effective system for this setting. Further analysis highlights the task characteristics, such as the significance of addressing the mention recall.
翻訳日:2022-05-24 15:10:14 公開日:2022-05-21
# 核ノルム最大化に基づく好奇心駆動学習

Nuclear Norm Maximization Based Curiosity-Driven Learning ( http://arxiv.org/abs/2205.10484v1 )

ライセンス: Link先を確認
Chao Chen, Zijian Gao, Kele Xu, Sen Yang, Yiying Li, Bo Ding, Dawei Feng, Huaimin Wang(参考訳) 強化学習における過度の報酬のスパース性に対処するために、研究者は、エージェントに新しい状態への訪問を奨励するなど、将来の報酬を追求するのに便利なスキルを学ぶための内在的な報酬を提案している。 しかし,本質的な報酬は,好ましくない環境の確率性や,その政策を監督するためのノイズ値予測を直接適用することで,学習性能や効率を向上させるのに有害である。 さらに、以前の多くの研究では、探鉱のノベルティを測定するために$\ell^2$ ノルムまたは分散を用いており、これは平方演算によるノイズを増幅する。 本稿では,核規範最大化(nnm)を活用し,騒音や異常に対して高い耐性を保ちながら,より正確に環境を探索する新しさを定量化する新たな好奇心を提案する。 我々は,様々なベンチマーク環境に対して広範な実験を行い,NNMが従来の好奇心法と比較して最先端の性能を提供できることを示唆した。 26のAtariゲームサブセットでは、NNMは人間正規化スコア1.09を達成し、競合する本質的な報酬ベースのアプローチの2倍になる。 私たちのコードは再現性を高めるために公開されます。

To handle the sparsity of the extrinsic rewards in reinforcement learning, researchers have proposed intrinsic reward which enables the agent to learn the skills that might come in handy for pursuing the rewards in the future, such as encouraging the agent to visit novel states. However, the intrinsic reward can be noisy due to the undesirable environment's stochasticity and directly applying the noisy value predictions to supervise the policy is detrimental to improve the learning performance and efficiency. Moreover, many previous studies employ $\ell^2$ norm or variance to measure the exploration novelty, which will amplify the noise due to the square operation. In this paper, we address aforementioned challenges by proposing a novel curiosity leveraging the nuclear norm maximization (NNM), which can quantify the novelty of exploring the environment more accurately while providing high-tolerance to the noise and outliers. We conduct extensive experiments across a variety of benchmark environments and the results suggest that NNM can provide state-of-the-art performance compared with previous curiosity methods. On 26 Atari games subset, NNM achieves a human-normalized score of 1.09, which doubles that of competitive intrinsic rewards-based approaches. Our code will be released publicly to enhance the reproducibility.
翻訳日:2022-05-24 15:04:17 公開日:2022-05-21
# 時間的知識グラフリンク予測のためのワンショット関係の学習メタ表現

Learning Meta Representations of One-shot Relations for Temporal Knowledge Graph Link Prediction ( http://arxiv.org/abs/2205.10621v1 )

ライセンス: Link先を確認
Zifeng Ding, Bailan He, Yunpu Ma, Zhen Han, Volker Tresp(参考訳) 近年,静的知識グラフ (KGs) のリレーショナル学習が注目されているが,時間的知識グラフ (TKGs) のリレーショナル学習はほとんど研究されていない。 KGと比較して、TKGは豊富な時間情報を含んでいるため、モデリングには時間的推論技術が必要である。 これは、時間的文脈で少数派関係を学ぶ上で大きな課題となる。 本稿では,KGにおける少数ショット関係学習に関する過去の研究を再考し,既存の2つのTKG推論タスク,すなわち補間および外挿リンク予測タスクをワンショット設定に拡張する。 4つの大規模ベンチマークデータセットを提案し,TKGのワンショット関係を学習するためのTKG推論モデルを開発した。 実験の結果,本モデルは補間処理と補間処理の両方において,すべてのデータセットにおいて優れた性能が得られることがわかった。

Few-shot relational learning for static knowledge graphs (KGs) has drawn greater interest in recent years, while few-shot learning for temporal knowledge graphs (TKGs) has hardly been studied. Compared to KGs, TKGs contain rich temporal information, thus requiring temporal reasoning techniques for modeling. This poses a greater challenge in learning few-shot relations in the temporal context. In this paper, we revisit the previous work related to few-shot relational learning in KGs and extend two existing TKG reasoning tasks, i.e., interpolated and extrapolated link prediction, to the one-shot setting. We propose four new large-scale benchmark datasets and develop a TKG reasoning model for learning one-shot relations in TKGs. Experimental results show that our model can achieve superior performance on all datasets in both interpolation and extrapolation tasks.
翻訳日:2022-05-24 15:03:55 公開日:2022-05-21
# より深く、より広く:トランスフォーマー構成の再検討

Deeper vs Wider: A Revisit of Transformer Configuration ( http://arxiv.org/abs/2205.10505v1 )

ライセンス: Link先を確認
Fuzhao Xue, Jianghai Chen, Aixin Sun, Xiaozhe Ren, Zangwei Zheng, Xiaoxin He, Xin Jiang, Yang You(参考訳) トランスフォーマーベースのモデルは、多くのタスク、特にビジョンと言語タスクで印象的な結果をもたらしました。 多くのモデルトレーニングでは、通常、従来の構成が採用される。 例えば、隠れた次元(すなわちモデル幅)のベースモデルを 768 に設定し、トランスフォーマー層(すなわちモデル深さ)を 12 に設定することが多い。 本稿では,従来の構成を再考する。 理論的解析と実験的評価により, マスク付きオートエンコーダは, 深部変圧器訓練における過密問題を緩和するのに有効であることを示す。 そこで本研究では,より深く狭いトランスフォーマー構成をマスキングオートエンコーダのトレーニングに利用するbambooを提案する。 ImageNetでは、そのような構成の変更により、再設計されたモデルは87.1%のトップ1の精度を実現し、MAEやBEiTのようなSoTAモデルより優れている。 言語タスクでは、再設計されたモデルは、GLUEデータセット上で、デフォルト設定でBERTを平均1.1ポイント上回る。

Transformer-based models have delivered impressive results on many tasks, particularly vision and language tasks. In many model training situations, conventional configurations are typically adopted. For example, we often set the base model with hidden dimensions (i.e. model width) to be 768 and the number of transformer layers (i.e. model depth) to be 12. In this paper, we revisit these conventional configurations. Through theoretical analysis and experimental evaluation, we show that the masked autoencoder is effective in alleviating the over-smoothing issue in deep transformer training. Based on this finding, we propose Bamboo, an idea of using deeper and narrower transformer configurations, for masked autoencoder training. On ImageNet, with such a simple change in configuration, re-designed model achieves 87.1% top-1 accuracy and outperforms SoTA models like MAE and BEiT. On language tasks, re-designed model outperforms BERT with default setting by 1.1 points on average, on GLUE datasets.
翻訳日:2022-05-24 14:18:44 公開日:2022-05-21
# 知識蒸留のためのマッピングエミュレーション

Mapping Emulation for Knowledge Distillation ( http://arxiv.org/abs/2205.10490v1 )

ライセンス: Link先を確認
Jing Ma, Xiang Xiang, Zihan Zhang, Yuwen Tan, Yiming Wan, Zhigang Zeng, Dacheng Tao(参考訳) 本稿では, 連関学習に欠かせない情報源盲点の知識蒸留問題を定式化する。 教師と生徒の間に生成された分布を整合させるような,新たな幾何学的視点が提示される。 新たなアーキテクチャMEKDが提案され, 生成的対角学習による逆写像をエミュレートする。 ロジットの模倣やロジット分布の整列とは異なり、分類器-ロジットからの写像の再構成は経験的距離を減少させる幾何学的直観を持ち、普遍関数近似と最適質量輸送理論を用いて理論的に保証される。 また,教師のパフォーマンス源となる学生モデルを学習するための新しいアルゴリズムも提案されている。 様々なベンチマークにおいて、MEKDは既存のソースブレンドKD法よりも優れており、アブレーション研究と視覚化結果で説明できる。

This paper formalizes the source-blind knowledge distillation problem that is essential to federated learning. A new geometric perspective is presented to view such a problem as aligning generated distributions between the teacher and student. With its guidance, a new architecture MEKD is proposed to emulate the inverse mapping through generative adversarial training. Unlike mimicking logits and aligning logit distributions, reconstructing the mapping from classifier-logits has a geometric intuition of decreasing empirical distances, and theoretical guarantees using the universal function approximation and optimal mass transportation theories. A new algorithm is also proposed to train the student model that reaches the teacher's performance source-blindly. On various benchmarks, MEKD outperforms existing source-blind KD methods, explainable with ablation studies and visualized results.
翻訳日:2022-05-24 14:18:26 公開日:2022-05-21
# Retriever-Generatorイテレーティブトレーニングを用いた検索強化多言語キーワード生成

Retrieval-Augmented Multilingual Keyphrase Generation with Retriever-Generator Iterative Training ( http://arxiv.org/abs/2205.10471v1 )

ライセンス: Link先を確認
Yifan Gao, Qingyu Yin, Zheng Li, Rui Meng, Tong Zhao, Bing Yin, Irwin King, Michael R. Lyu(参考訳) キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。 近年の隆盛にもかかわらず、非英語でのキーフレーズ生成は、あまり調査されていない。 本稿では,多言語キーフレーズ生成という新しいセッティングに注目し,ECommerceMKPとAcademicMKPという2つの新しいデータセットを6つの言語で提供する。 本稿では,非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索型手法を提案する。 検索強化モデルは、英語データセットのキーフレーズアノテーションを利用して、低リソース言語でキーフレーズを生成する。 非英語のパッセージが与えられると、言語間密なパッセージ検索モジュールは関連する英語のパッセージを見つける。 その後、関連する英語キーフレーズは、現在の言語におけるキーフレーズ生成の外部知識として機能する。 さらに, 擬似並列通路ペアをマイニングし, 言語横断通路レトリバーを強化するレトリバー-ジェネレータ反復学習アルゴリズムを開発した。 包括的な実験とアブレーションは、提案手法が全てのベースラインを上回ることを示している。

Keyphrase generation is the task of automatically predicting keyphrases given a piece of long text. Despite its recent flourishing, keyphrase generation on non-English languages haven't been vastly investigated. In this paper, we call attention to a new setting named multilingual keyphrase generation and we contribute two new datasets, EcommerceMKP and AcademicMKP, covering six languages. Technically, we propose a retrieval-augmented method for multilingual keyphrase generation to mitigate the data shortage problem in non-English languages. The retrieval-augmented model leverages keyphrase annotations in English datasets to facilitate generating keyphrases in low-resource languages. Given a non-English passage, a cross-lingual dense passage retrieval module finds relevant English passages. Then the associated English keyphrases serve as external knowledge for keyphrase generation in the current language. Moreover, we develop a retriever-generator iterative training algorithm to mine pseudo parallel passage pairs to strengthen the cross-lingual passage retriever. Comprehensive experiments and ablations show that the proposed approach outperforms all baselines.
翻訳日:2022-05-24 14:16:11 公開日:2022-05-21
# Masterful: コンピュータビジョンモデルのためのトレーニングプラットフォーム

Masterful: A Training Platform for Computer Vision Models ( http://arxiv.org/abs/2205.10469v1 )

ライセンス: Link先を確認
Samuel Wookey, Yaoshiang Ho, Tom Rikert, Juan David Gil Lopez, Juan Manuel Mu\~noz Beancur, Santiago Cortes, Ray Tawil, Aaron Sabin, Jack Lynch, Travis Harper, Nikhil Gajendrakumar(参考訳) masterfulは、ディープラーニングコンピュータビジョンモデルをトレーニングするためのソフトウェアプラットフォームである。 データとモデルアーキテクチャはプラットフォームへの入力であり、出力はトレーニングされたモデルである。 プラットフォームの主な目標は、トレーニングされたモデルの精度を最大化し、正規化と半教師付き学習実装を通じて達成することである。 プラットフォームの2番目の目標は、トレーニングハイパーパラメータのチューニングに必要な手動実験の量を最小化することであり、プラットフォームの正規化と半教師付き学習実装を制御するためにカスタム化された複数のメタラーニングアルゴリズムによって実現されている。 このプラットフォームの3番目の目標は、モデルをトレーニングするために必要なコンピューティングリソースを最小限にすることであり、Tensorflowの最適化実装を制御するために構築された別のメタラーニングアルゴリズムによって達成される。 このプラットフォームは、tensorflowのデータ管理、アーキテクチャ、自動微分、最適化実装上に構築されている。

Masterful is a software platform to train deep learning computer vision models. Data and model architecture are inputs to the platform, and the output is a trained model. The platform's primary goal is to maximize a trained model's accuracy, which it achieves through its regularization and semi-supervised learning implementations. The platform's secondary goal is to minimize the amount of manual experimentation typically required to tune training hyperparameters, which it achieves via multiple metalearning algorithms which are custom built to control the platform's regularization and semi-supervised learning implementations. The platform's tertiary goal is to minimize the computing resources required to train a model, which it achieves via another set of metalearning algorithms which are purpose built to control Tensorflow's optimization implementations. The platform builds on top of Tensorflow's data management, architecture, automatic differentiation, and optimization implementations.
翻訳日:2022-05-24 14:12:41 公開日:2022-05-21
# ヒートマップ重み付け損失を用いた軽量ポーズ推定

Lightweight Human Pose Estimation Using Heatmap-Weighting Loss ( http://arxiv.org/abs/2205.10611v1 )

ライセンス: Link先を確認
Shiqi Li, Xiang Xiang(参考訳) 人間のポーズ推定に関する最近の研究は、複雑な構造を利用してベンチマークデータセットのパフォーマンスを改善し、実際にモデルがデプロイされたときのリソースオーバーヘッドと推論速度を無視している。 本稿では,simplebaselineにおけるデコンボリューションヘッドネットワークの計算コストとパラメータを軽量化し,オリジナル情報,レベル間情報,レベル内情報を用いて精度を高める注意機構を提案する。 さらに,ヒートマップ上の各画素の重み付けを生成するヒートマップ重み付け損失と呼ばれる新しい損失関数を提案する。 実験により,本手法は性能,資源容積,推論速度のバランスがとれることを示した。 具体的には,COCOテストデブでは65.3のAPスコアが得られ,推定速度はモバイルGPUでは55FPS,CPUでは18FPSである。

Recent research on human pose estimation exploits complex structures to improve performance on benchmark datasets, ignoring the resource overhead and inference speed when the model is actually deployed. In this paper, we lighten the computation cost and parameters of the deconvolution head network in SimpleBaseline and introduce an attention mechanism that utilizes original, inter-level, and intra-level information to intensify the accuracy. Additionally, we propose a novel loss function called heatmap weighting loss, which generates weights for each pixel on the heatmap that makes the model more focused on keypoints. Experiments demonstrate our method achieves a balance between performance, resource volume, and inference speed. Specifically, our method can achieve 65.3 AP score on COCO test-dev, while the inference speed is 55 FPS and 18 FPS on the mobile GPU and CPU, respectively.
翻訳日:2022-05-24 14:11:33 公開日:2022-05-21
# 神経芽腫患者ctによるmycn遺伝子増幅に関するパイロット研究

A Pilot Study of Relating MYCN-Gene Amplification with Neuroblastoma-Patient CT Scans ( http://arxiv.org/abs/2205.10619v1 )

ライセンス: Link先を確認
Zihan Zhang, Xiang Xiang, Xuehua Peng, Jianbo Shao(参考訳) 神経芽細胞腫は乳児で最も多いがんの1つであり,早期診断は困難である。 現在、MYCN遺伝子増幅(MNA)は、腫瘍サンプルの侵襲的病理検査により検出されている。 これは時間がかかり、子供に隠れた影響を及ぼす可能性がある。 この問題に対処するために,複数の機械学習(ml)アルゴリズムを適用し,mycn遺伝子増幅の有無を予測する。 このデータセットは、23人の神経芽腫患者の振り返りCT画像で構成されている。 従来の研究と異なり,手動で切除した原発性腫瘍は時間がかかり,実用的ではない。 代わりに、我々は、センターポイントの座標と、サブ専門の小児放射線科医が与える腫瘍スライスの数だけが必要である。 具体的には、CNNベースの方法は事前訓練された畳み込みニューラルネットワークを使用し、放射能ベースの方法は放射能の特徴を抽出する。 以上の結果から,CNN法はラジオミクス法よりも優れていた。

Neuroblastoma is one of the most common cancers in infants, and the initial diagnosis of this disease is difficult. At present, the MYCN gene amplification (MNA) status is detected by invasive pathological examination of tumor samples. This is time-consuming and may have a hidden impact on children. To handle this problem, we adopt multiple machine learning (ML) algorithms to predict the presence or absence of MYCN gene amplification. The dataset is composed of retrospective CT images of 23 neuroblastoma patients. Different from previous work, we develop the algorithm without manually-segmented primary tumors which is time-consuming and not practical. Instead, we only need the coordinate of the center point and the number of tumor slices given by a subspecialty-trained pediatric radiologist. Specifically, CNN-based method uses pre-trained convolutional neural network, and radiomics-based method extracts radiomics features. Our results show that CNN-based method outperforms the radiomics-based method.
翻訳日:2022-05-24 14:11:18 公開日:2022-05-21
# DKG: エンティティ間の関係を説明するための記述的知識グラフ

DKG: A Descriptive Knowledge Graph for Explaining Relationships between Entities ( http://arxiv.org/abs/2205.10479v1 )

ライセンス: Link先を確認
Jie Huang, Kerui Zhu, Kevin Chen-Chuan Chang, Jinjun Xiong, Wen-mei Hwu(参考訳) 本稿では、エンティティ間の関係をモデル化するオープンで解釈可能な形式である記述的知識グラフ(DKG)を提案する。 DKGでは、エンティティ間の関係は関係記述によって表現される。 例えば、機械学習の実体とアルゴリズムの関係は、「機械学習は、データから学び、予測することができるアルゴリズムの研究と構築を探索する」と説明できる。 DKGを構築するために、依存パターンの分析により関係記述を抽出する自己教師付き学習法と、関係記述を生成するトランスフォーマーに基づく関係記述合成モデルを提案する。 実験により,本システムはエンティティ関係を説明するための高品質な関係記述を抽出・生成できることが証明された。

In this paper, we propose Descriptive Knowledge Graph (DKG) - an open and interpretable form of modeling relationships between entities. In DKGs, relationships between entities are represented by relation descriptions. For instance, the relationship between entities of machine learning and algorithm can be described as "Machine learning explores the study and construction of algorithms that can learn from and make predictions on data." To construct DKGs, we propose a self-supervised learning method to extract relation descriptions with the analysis of dependency patterns and a transformer-based relation description synthesizing model to generate relation descriptions. Experiments demonstrate that our system can extract and generate high-quality relation descriptions for explaining entity relationships.
翻訳日:2022-05-24 14:08:06 公開日:2022-05-21
# 容易な関係強化とコントラスト学習による長文文書レベル関係抽出の改良

Improving Long Tailed Document-Level Relation Extraction via Easy Relation Augmentation and Contrastive Learning ( http://arxiv.org/abs/2205.10511v1 )

ライセンス: Link先を確認
Yangkai Du, Tengfei Ma, Lingfei Wu, Yiming Wu, Xuhong Zhang, Bo Long, Shouling Ji(参考訳) 実世界の情報抽出シナリオに向けて,関係抽出の研究がドキュメントレベルの関係抽出(DocRE)へと進んでいる。 DocREの既存のアプローチは、新しいモデルアーキテクチャによって様々な情報ソースを長いコンテキストでエンコードすることで関係を抽出することを目的としている。 しかし、DocREの本質的な長期分布問題は、以前の研究によって見過ごされている。 我々は,DocREが現実のシナリオにおいて,長期分布問題の緩和に不可欠であると主張する。 ロングテール分布問題に動機づけられ,末尾関係の性能向上によりdocreを改善するための容易な関係拡張(era)法を提案する。 さらに,ERAに基づく新しいコントラスト学習フレームワーク,すなわちERACLを提案する。これは,末尾関係のモデル性能をさらに向上させ,最先端技術と比較して総合的なDocRE性能を実現する。

Towards real-world information extraction scenario, research of relation extraction is advancing to document-level relation extraction(DocRE). Existing approaches for DocRE aim to extract relation by encoding various information sources in the long context by novel model architectures. However, the inherent long-tailed distribution problem of DocRE is overlooked by prior work. We argue that mitigating the long-tailed distribution problem is crucial for DocRE in the real-world scenario. Motivated by the long-tailed distribution problem, we propose an Easy Relation Augmentation(ERA) method for improving DocRE by enhancing the performance of tailed relations. In addition, we further propose a novel contrastive learning framework based on our ERA, i.e., ERACL, which can further improve the model performance on tailed relations and achieve competitive overall DocRE performance compared to the state-of-arts.
翻訳日:2022-05-24 14:07:55 公開日:2022-05-21
# PDDを用いた数ショット自然言語推論生成:プロンプトと動的デモ

Few-Shot Natural Language Inference Generation with PDD: Prompt and Dynamic Demonstration ( http://arxiv.org/abs/2205.10593v1 )

ライセンス: Link先を確認
Kaijian Li, Shansan Gong, Kenny Q. Zhu(参考訳) 自然言語推論タスクは、テキスト前提とそれらの間の論理的関係が与えられたテキスト仮説を生成する。 このタスクは、実際にデータ拡張と制御可能なテキスト生成に使用できる。 本稿では,プロンプトと動的デモ(LM-PDD)を用いた言語モデルを提案する。 本フレームワークは,SNLIデータセットとMNLIデータセットに対して平均8%の絶対的な改善を達成し,また,13の自然言語分類タスクにおける結果から,動的実演法が優れた一般化性を示す。

Natural Language Inference Generation task is to generate a text hypothesis given a text premise and a logical relation between the two. This task can be used in data augmentation and controllable text generation in practice. In this paper, we propose language models with prompt and dynamic demonstration (LM-PDD) to tackle this problem in few-shot settings. Our framework outperforms standard fine-tuned models with low resource, achieving an average 8% absolute improvement on SNLI and MNLI datasets, and the results on 13 natural language classification tasks also show that our dynamic demonstration method has good generalizability.
翻訳日:2022-05-24 14:07:42 公開日:2022-05-21
# 大規模言語モデルにおけるLast-to-Most Promptingによる複雑な推論

Least-to-Most Prompting Enables Complex Reasoning in Large Language Models ( http://arxiv.org/abs/2205.10625v1 )

ライセンス: Link先を確認
Denny Zhou, Nathanael Sch\"arli, Le Hou, Jason Wei, Nathan Scales, Xuezhi Wang, Dale Schuurmans, Olivier Bousquet, Quoc Le, Ed Chi(参考訳) 本稿では,大規模言語モデルによる多段階推論処理の高速化を実現する新しいプロンプト戦略を提案する。 最下位のプロンプトは、まず、複雑な問題を部分問題のリストに減らし、その後、順次部分問題を解く。 シンボリック操作、組成一般化、数値推論の実験により、最小プロンプトはプロンプトコンテキストで見られるものよりも難しい例に一般化することができ、他のプロンプトベースアプローチを大きなマージンで上回っている。 GPT-3 コード-ダヴィンチ-002 の最小プロンプトのモデルでは、14例を用いて99.7%の精度でSCANベンチマークを解くことができる。 比較として、SCANの解法に特化した文献におけるニューラルシンボリックモデルは、15,000以上の例からなる完全なトレーニングセットで訓練される。

We propose a novel prompting strategy, least-to-most prompting, that enables large language models to better perform multi-step reasoning tasks. Least-to-most prompting first reduces a complex problem into a list of subproblems, and then sequentially solves the subproblems, whereby solving a given subproblem is facilitated by the model's answers to previously solved subproblems. Experiments on symbolic manipulation, compositional generalization and numerical reasoning demonstrate that least-to-most prompting can generalize to examples that are harder than those seen in the prompt context, outperforming other prompting-based approaches by a large margin. A notable empirical result is that the GPT-3 code-davinci-002 model with least-to-most-prompting can solve the SCAN benchmark with an accuracy of 99.7% using 14 examples. As a comparison, the neural-symbolic models in the literature specialized for solving SCAN are trained with the full training set of more than 15,000 examples.
翻訳日:2022-05-24 14:07:32 公開日:2022-05-21
# 知識グラフを用いたコモンセンス自己スーパービジョンの実証的研究

An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs ( http://arxiv.org/abs/2205.10661v1 )

ライセンス: Link先を確認
Jiarui Zhang, Filip Ilievski, Kaixin Ma, Jonathan Francis and Alessandro Oltramari(参考訳) 大規模知識グラフから抽出した情報に基づく自己スーパービジョンにより,ダウンストリーム言語推論タスクにおけるゼロショット評価において,言語モデルの一般化が向上することが示されている。 これらの改善は総じて報告されているので、あまり知られていない。 i)タスク間での堅実なパフォーマンスのための適切な知識の選択方法 (二)この知識をニューラルネットワークモデルと組み合わせる方法、及び 3)これらのペアリングがタスクパフォーマンスにどのように影響するか。 本稿では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。 様々なアーキテクチャや大きさの言語モデルに異なる合成データセットが与える影響について検討する。 得られたモデルは、ドメインオーバーラップ、応答類似性、語彙オーバーラップ、応答長の4つのタスク特性に対して評価される。 実験の結果,エンコーダ-デコーダモデルでは学習するデータが多くなるのに対して,異なる側面のバランスをとるサンプリング戦略では最高のパフォーマンスが得られることがわかった。 改善のほとんどは、短い回答と異なる回答候補を持つ質問で行われ、事前学習に使用されるデータの特徴に対応している。

Self-supervision based on the information extracted from large knowledge graphs has been shown to improve the generalization of language models, in zero-shot evaluation on various downstream language reasoning tasks. Since these improvements are reported in aggregate, however, little is known about (i) how to select the appropriate knowledge for solid performance across tasks, (ii) how to combine this knowledge with neural language models, and (iii) how these pairings affect granular task performance. In this paper, we study the effect of knowledge sampling strategies and sizes that can be used to generate synthetic data for adapting language models. We study the effect of different synthetic datasets on language models with various architectures and sizes. The resulting models are evaluated against four task properties: domain overlap, answer similarity, vocabulary overlap, and answer length. Our experiments show that encoder-decoder models benefit from more data to learn from, whereas sampling strategies that balance across different aspects yield best performance. Most of the improvement occurs on questions with short answers and dissimilar answer candidates, which corresponds to the characteristics of the data used for pre-training.
翻訳日:2022-05-24 14:07:14 公開日:2022-05-21