このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221127となっている論文です。

PDF登録状況(公開日: 20221127)

TitleAuthorsAbstract論文公表日・翻訳日
# 教育におけるメタバース:ビジョン、機会、挑戦

Metaverse in Education: Vision, Opportunities, and Challenges ( http://arxiv.org/abs/2211.14951v1 )

ライセンス: Link先を確認
Hong Lin, Shicheng Wan, Wensheng Gan, Jiahui Chen, Han-Chieh Chao(参考訳) 伝統的な教育は、人類史における情報技術の発展とともに更新されている。 ビッグデータとサイバー物理システムの中で、メタバースは過去10年間、様々なアプリケーション(エンターテイメント、ビジネス、文化旅行など)に強い関心を寄せてきた。 新たなソーシャルワークのアイデアとして、Metaverseはビッグデータ、インタラクション、人工知能、ゲームデザイン、インターネットコンピューティング、モノのインターネット、ブロックチェーンなど、さまざまな技術で構成されている。 メタバースの活用が教育の発展に寄与することが予想される。 しかし、教育におけるメタバースの建築はまだ十分に成熟していない。 教育におけるメタバースには多くの疑問がある。 そこで本稿は,教育におけるメタバースの体系的な文献レビューを提供することを目的とする。 本稿では,現在の技術,課題,機会,今後の方向性に着目し,教育におけるメタバースの包括的調査を行う。 まず,教育におけるメタバースの概要と,その統合の背景にある動機について述べる。 そして,教育におけるメタバースの重要な特徴として,個人教育環境や個人学習環境について調査する。 次に,この組み合わせが教育にどのような影響を与えるのかを考察し,その強みと弱みについて議論する。 また,メタバース教育の最先端事例研究(技術系企業や教育機関を含む)についても概観する。 最後に、この有望な領域におけるいくつかの課題と課題を指摘した。

Traditional education has been updated with the development of information technology in human history. Within big data and cyber-physical systems, the Metaverse has generated strong interest in various applications (e.g., entertainment, business, and cultural travel) over the last decade. As a novel social work idea, the Metaverse consists of many kinds of technologies, e.g., big data, interaction, artificial intelligence, game design, Internet computing, Internet of Things, and blockchain. It is foreseeable that the usage of Metaverse will contribute to educational development. However, the architectures of the Metaverse in education are not yet mature enough. There are many questions we should address for the Metaverse in education. To this end, this paper aims to provide a systematic literature review of Metaverse in education. This paper is a comprehensive survey of the Metaverse in education, with a focus on current technologies, challenges, opportunities, and future directions. First, we present a brief overview of the Metaverse in education, as well as the motivation behind its integration. Then, we survey some important characteristics for the Metaverse in education, including the personal teaching environment and the personal learning environment. Next, we envisage what variations of this combination will bring to education in the future and discuss their strengths and weaknesses. We also review the state-of-the-art case studies (including technical companies and educational institutions) for Metaverse in education. Finally, we point out several challenges and issues in this promising area.
翻訳日:2023-02-19 12:41:39 公開日:2022-11-27
# 研究機関における非分類情報の管理

Managing Controlled Unclassified Information in Research Institutions ( http://arxiv.org/abs/2211.14886v1 )

ライセンス: Link先を確認
Baijian Yang, Carolyn Ellis, Preston Smith, Huyunting Huang(参考訳) 規制された世界での運用のためには、研究者は進化を続ける情報セキュリティ規制とベストプラクティスの状況に準拠する必要がある。 本研究は,制御型非分類情報(cui)の概念と,それが研究機関にもたらした課題について述べる。 ユーザの認識から見ると、ほとんどの研究者やIT管理者は、CUIの理解が不十分で、HIPAA、ITAR、GLBA、FERPAといった他の規制とどのように関係しているかが示されています。 この研究にマネージドリサーチのエコシステムが導入された。 この効率的で費用対効果の高いフレームワークのワークフローは、制御された研究データが、キャンパス環境における最も高いレベルのサイバーセキュリティに適合するようにどのように処理されるかを示すために詳しく述べられている。 フレームワーク自体以外の問題も議論されている。 このフレームワークは、他の機関がCUI研究を支援するためのリファレンスモデルとして機能する。 この研究で開発された認識とトレーニングプログラムは他の機関と共有し、より大きなCUIエコシステムを構築する。

In order to operate in a regulated world, researchers need to ensure compliance with ever-evolving landscape of information security regulations and best practices. This work explains the concept of Controlled Unclassified Information (CUI) and the challenges it brings to the research institutions. Survey from the user perceptions showed that most researchers and IT administrators lack a good understanding of CUI and how it is related to other regulations, such as HIPAA, ITAR, GLBA, and FERPA. A managed research ecosystem is introduced in this work. The workflow of this efficient and cost effective framework is elaborated to demonstrate how controlled research data are processed to be compliant with one of the highest level of cybersecurity in a campus environment. Issues beyond the framework itself is also discussed. The framework serves as a reference model for other institutions to support CUI research. The awareness and training program developed from this work will be shared with other institutions to build a bigger CUI ecosystem.
翻訳日:2023-02-19 12:41:18 公開日:2022-11-27
# 非対称接合を持つ超伝導量子ビット中の準粒子

Quasiparticles in superconducting qubits with asymmetric junctions ( http://arxiv.org/abs/2205.06056v2 )

ライセンス: Link先を確認
Giampiero Marchegiani, Luigi Amico, Gianluigi Catelani(参考訳) 超伝導ギャップの空間形状設計 - ギャップ工学 - は、超伝導デバイスにおける準粒子の効果的な制御方法として長年認識されてきた。 アルミニウムフィルムでは、その厚さはギャップを変調するので、Al/AlOx/Al Josephson接合の標準的な製法は、より薄い膜の上に重なり合うため、常にギャップ工学的な装置が生じる。 ここでは、超伝導量子ビットにおける準粒子効果を再考し、ジョセフソン接合の両側のギャップにおける避けられない非対称性を明示的に説明する。 準粒子が2つの接合の鉛に類似した密度を持つか、主に低ギャップの鉛に制限されている異なる状態に遭遇する可能性がある。 質的にも同様な密度では、クビットの励起状態の個体数は低いが、その緩和速度は準粒子が閉じ込められた時よりも高く、したがって、クビット内の2つの望ましい性質の間には潜在的なトレードオフが存在する。

Designing the spatial profile of the superconducting gap -- gap engineering -- has long been recognized as an effective way of controlling quasiparticles in superconducting devices. In aluminum films, their thickness modulates the gap; therefore, standard fabrication of Al/AlOx/Al Josephson junctions, which relies on overlapping a thicker film on top of a thinner one, always results in gap-engineered devices. Here we reconsider quasiparticle effects in superconducting qubits to explicitly account for the unavoidable asymmetry in the gap on the two sides of a Josephson junction. We find that different regimes can be encountered in which the quasiparticles have either similar densities in the two junction leads, or are largely confined to the lower-gap lead. Qualitatively, for similar densities the qubit's excited state population is lower but its relaxation rate higher than when the quasiparticles are confined; therefore, there is a potential trade-off between two desirable properties in a qubit.
翻訳日:2023-02-13 09:37:16 公開日:2022-11-27
# 認証削除による暗号

Cryptography with Certified Deletion ( http://arxiv.org/abs/2207.01754v4 )

ライセンス: Link先を確認
James Bartusek and Dakshita Khurana(参考訳) 我々は,暗号プリミティブの配列を認証された削除で生成する新しい統一フレームワークを提案する。 これらのプリミティブにより、量子暗号文を持つ当事者は、暗号化された平文が情報理論上削除された古典的証明を生成し、無制限の計算資源が与えられたとしても復元できない。 - x \in {public-key, attribute-based, full-homomorphic, witness, timed-release} では、コンパイラは任意の (ポスト量子) x 暗号化を x 暗号化に変換する。 さらに,証明された永遠隠蔽を伴う統計的拘束コミットメントに対する統計的拘束コミットメントをコンパイルする。 また, 統計的拘束力の仮定として, ゼロ知識が証明されたQMAに対して, 統計的にゼロ知識証明を得る。 また,二者間および多人数間において,不公平な多数派において,永続的なセキュリティが確立されている。 この設定で、すべての当事者に対して永続的なセキュリティを実現することは不可能であることが分かっていますが、永続的なセキュリティ転送(est)を導入します。 これにより、ある当事者(またはある当事者のサブセット)が、プロトコルの実行後に他の参加者のデータを削除する動的かつ確実に情報論的に行うことができる。 我々は,一方向関数や擬似ランダム量子状態に基づいて,統計的に結合したコミットメントを仮定したESTを用いた汎用セキュア計算を構築した。 提案手法は,従来は暗号文によって決定されていたにもかかわらず,有効な削除証明書を出力した後,ビットbが敵の視点から情報理論的に削除されたと主張する新しい証明手法を考案した。 この技術は独立した関心を持つかもしれない。

We propose a new, unifying framework that yields an array of cryptographic primitives with certified deletion. These primitives enable a party in possession of a quantum ciphertext to generate a classical certificate that the encrypted plaintext has been information-theoretically deleted, and cannot be recovered even given unbounded computational resources. - For X \in {public-key, attribute-based, fully-homomorphic, witness, timed-release}, our compiler converts any (post-quantum) X encryption to X encryption with certified deletion. In addition, we compile statistically-binding commitments to statistically-binding commitments with certified everlasting hiding. As a corollary, we also obtain statistically-sound zero-knowledge proofs for QMA with certified everlasting zero-knowledge assuming statistically-binding commitments. - We also obtain a strong form of everlasting security for two-party and multi-party computation in the dishonest majority setting. While simultaneously achieving everlasting security against all parties in this setting is known to be impossible, we introduce everlasting security transfer (EST). This enables any one party (or a subset of parties) to dynamically and certifiably information-theoretically delete other participants' data after protocol execution. We construct general-purpose secure computation with EST assuming statistically-binding commitments, which can be based on one-way functions or pseudorandom quantum states. We obtain our results by developing a novel proof technique to argue that a bit b has been information-theoretically deleted from an adversary's view once they output a valid deletion certificate, despite having been previously information-theoretically determined by the ciphertext they held in their view. This technique may be of independent interest.
翻訳日:2023-02-06 13:01:32 公開日:2022-11-27
# 相互作用量子ドットにおける貧しい人間のマヨラナ境界状態の生成と検出

Creating and detecting poor man's Majorana bound states in interacting quantum dots ( http://arxiv.org/abs/2207.06160v3 )

ライセンス: Link先を確認
Athanasios Tsintzis, Rub\'en Seoane Souto, and Martin Leijnse(参考訳) 我々は、Physで導入された貧しい男性のマヨラナ境界状態(MBS)を作成する方法を提案し、理論的に検討する。 a b 86, 134528 (2012)。 本提案は,電子-電子相互作用が強い2つの量子ドット(qds)を中心qdと近接誘起超伝導で結合する。 スピン軌道結合と磁場の存在下では、3つのQDのゲート制御により、各外点に1MBSが局在したスイートスポットにシステムをチューニングすることができる。 これらのMBSの質を定量化し、ゼーマンエネルギーと相互作用強度にどのように依存するかを示す。 また,非局所輸送分光法を用いて,MBSの品質の高いスイートスポットを同定する方法を示す。 この結果は,他のプラットフォームを悩ませる疑念や不確実性の多くを伴わない設定で,MBS物理を調査するための道筋を提供する。

We propose and theoretically investigate an alternative way to create the poor man's Majorana bound states (MBSs) introduced in Phys. Rev. B 86, 134528 (2012). Our proposal is based on two quantum dots (QDs) with strong electron-electron interactions that couple via a central QD with proximity-induced superconductivity. In the presence of spin-orbit coupling and a magnetic field, gate control of all three QDs allows tuning the system into sweet spots with one MBS localized on each outer dot. We quantify the quality of these MBSs and show how it depends on the Zeeman energy and interaction strength. We also show how nonlocal transport spectroscopy can be used to identify sweet spots with high MBS quality. Our results provide a path for investigating MBS physics in a setting that is free of many of the doubts and uncertainties that plague other platforms.
翻訳日:2023-02-05 06:48:36 公開日:2022-11-27
# 逐次一般化測定:漸近的、典型的、創発的射影的測定

Sequential generalized measurements: Asymptotics, typicality and emergent projective measurements ( http://arxiv.org/abs/2208.08141v2 )

ライセンス: Link先を確認
Wen-Long Ma, Shu-Shen Li, and Ren-Bao Liu(参考訳) 射影測定と一般化された量子測定の関係は量子物理学の基本的な問題であり、この問題を明確にすることは量子技術にとっても重要である。 逐次的な一般化または弱い測定から射影測度を構築することは直感的に知られているが、一般の場合においてもこの仮説の証明は残っていない。 ここでは量子チャネルの観点から証明する。 射影計測は漸近極限における逐次一般化測定から自然に生じることを示す。 具体的には、選択的射影計測は、選択的一般化測定の典型的な配列の集合から生じる。 逐次一般化計測を用いた量子システムの投影的計測を行うための明示的なスキームを提案する。 驚くべきことに、単一のアンシラキュービットは、ジェネリックシステムの任意の射影的測度を構築するために逐次的な一般化された測定を仲介するのに十分である。

The relation between projective measurements and generalized quantum measurements is a fundamental problem in quantum physics, and clarifying this issue is also important to quantum technologies. While it has been intuitively known that projective measurements can be constructed from sequential generalized or weak measurements, there is still lack of a proof of this hypothesis in general cases. Here we prove it from the perspective of quantum channels. We show that projective measurements naturally arise from sequential generalized measurements in the asymptotic limit. Specifically, a selective projective measurement arises from a set of typical sequences of selective generalized measurements. We provide an explicit scheme to construct projective measurements of a quantum system with sequential generalized measurements. Remarkably, a single ancilla qubit is sufficient to mediate sequential generalized measurements for constructing arbitrary projective measurements of a generic system.
翻訳日:2023-01-30 20:29:31 公開日:2022-11-27
# 2粒子相互作用によるトポロジカル拘束状態、非エルミート皮膚効果および平坦帯

Topologically bound states, non-Hermitian skin effect and flat bands, induced by two-particle interaction ( http://arxiv.org/abs/2211.06043v2 )

ライセンス: Link先を確認
Alexander N. Poddubny(参考訳) 簡単な周期格子と開境界条件を持つ一次元強結合モデルにおいて、2つの反発スピンレス粒子の理論的量子状態について検討する。 粒子が同一でない場合、その相互作用が非自明な相関2粒子状態(結合状態、エッジ状態、相互作用誘起フラットバンドなど)を駆動することを示した。 特に、2つの粒子の中心運動と相対運動は位相的に非自明な方法で結合する。 非エルミート皮膚効果により、質量の中心の局在は相対運動の局在と境界状態の形成を強制する。

We study theoretically quantum states of two repelling spinless particles in a one-dimensional tight-binding model with simple periodic lattice and open boundary conditions. We demonstrate, that when the particles are not identical, their interaction drives nontrivial correlated two-particle states, such as bound states, edge states as well as interaction-induced flat bands. Specifically, the center-of-mass and relative motions of two particles become coupled in a topologically nontrivial way. By virtue of the non-Hermitian skin effect the localization of the center of mass enforces the localization of the relative motion and formation of the bound states.
翻訳日:2023-01-19 18:36:03 公開日:2022-11-27
# 量子相関はユークリッド・プリミティブのスピノルによって織り込まれている」に対する反応

Response to `Comment on "Quantum correlations are weaved by the spinors of the Euclidean primitives"' ( http://arxiv.org/abs/2211.09867v3 )

ライセンス: Link先を確認
Joy Christian(参考訳) 本稿では「量子相関はユークリッド・プリミティブのスピノルによって織られる」と題された、以前王立科学会で発表された論文の1つに対する批判に答える。 私の論文で提示した幾何学的枠組みにかかわることなく、批判は数学的な誤りがあると主張している。 私はこの批判が一連の誤解に基づいていることを証明し、それぞれの誤りの主張を反論する。 私はまた、論理的、数学的、概念的な誤りを、それが依存する批判や批判から取り出します。

In this paper I respond to a critique of one of my papers previously published in the Royal Society Open Science entitled "Quantum correlations are weaved by the spinors of the Euclidean primitives." Without engaging with the geometrical framework presented in my paper, the critique incorrectly claims that there are mathematical errors in it. I demonstrate that the critique is based on a series of misunderstandings, and refute each of its claims of error. I also bring out a number of logical, mathematical, and conceptual errors from the critique and the critiques it relies on.
翻訳日:2023-01-19 09:19:15 公開日:2022-11-27
# 双極子多層膜の成長と相関の制御:対生成からボソニック・キタエフモデルへ

Manipulating growth and propagation of correlations in dipolar multilayers: From pair production to bosonic Kitaev models ( http://arxiv.org/abs/2211.12521v2 )

ライセンス: Link先を確認
Thomas Bilitewski and Ana Maria Rey(参考訳) 本研究では,多層2次元層に閉じ込められた双極子の非平衡ダイナミクスについて検討した。 強平面XXX相互作用が集合層力学の多様体を保護できることを実証する。 これにより、多体スピンダイナミクスをボソニックモデルにマッピングすることができます。 二層構成では、量子光学から知られている2モードスクイージングハミルトニアンをモデルとして設計する方法を示し、その結果、絡み合ったペアを指数関数的に生成し、初期準備された製品状態からメトロロジー上有用な絡み合いを生成する。 多層構造では、層方向に沿ってキラル伝播を示す北エフモデルのボソニック変種を設計した。 本研究は、リドバーグや磁性原子、極性分子や閉じ込められたイオンなどのamoプラットフォームが独自に与える相互作用、格子幾何学、相互作用双極子系における状態形成の制御によって、量子センシングや量子シミュレーションにおける相関関係の時間的および空間的伝播を制御できることを示す。

We study the non-equilibrium dynamics of dipoles confined in multiple stacked two-dimensional layers realising a long-range interacting quantum spin 1/2 XXZ model. We demonstrate that strong in-plane XXX interactions can protect a manifold of collective layer dynamics. This then allows us to map the many-body spin dynamics to bosonic models. In a bilayer configuration we show how to engineer the paradigmatic two-mode squeezing Hamiltonian known from quantum optics, resulting in exponential production of entangled pairs and generation of metrologically useful entanglement from initially prepared product states. In multi-layer configurations we engineer a bosonic variant of the Kitaev model displaying chiral propagation along the layer direction. Our study illustrates how the control over interactions, lattice geometry and state preparation in interacting dipolar systems uniquely afforded by AMO platforms such as Rydberg and magnetic atoms, polar molecules or trapped ions allow for the control over the temporal and spatial propagation of correlations for applications in quantum sensing and quantum simulation.
翻訳日:2023-01-19 03:56:34 公開日:2022-11-27
# 多体系の最適有効理論のための量子アルゴリズム

Quantum algorithms for optimal effective theory of many-body systems ( http://arxiv.org/abs/2211.14854v1 )

ライセンス: Link先を確認
Yongdan Yang, Zongkang Zhang, Xiaosi Xu, Bingnan Lu, Ying Li(参考訳) 量子多体物理学における一般的な状況は、基礎となる理論は知られているが、効率的に解くには複雑すぎることである。 そのような場合、通常、より単純な有効理論を低エネルギーあるいは大規模な代替理論として構築する。 ここでの中心的なタスクは、多数の候補の中で最適な有効理論を見つけ、元の理論と等価性を証明している。 近年、量子コンピューティングはその本質的並列性を利用して量子多体システムを解く可能性を示した。 したがって、効果的な理論の出現を議論し、量子コンピューティングの結果に基づいてそれらを発見するための効率的なツールを設計することは興味深い話題である。 本稿では,この方向への第一歩として,量子力学を応用して量子多体系の最適実効理論を求める2つのアプローチを提案する。 第1のアルゴリズムは量子位相推定と振幅増幅により実効ハミルトニアンの空間を探索する。 第2のアルゴリズムは、近未来のアプリケーションに期待できる変分アプローチに基づいている。

A common situation in quantum many-body physics is that the underlying theories are known but too complicated to solve efficiently. In such cases, one usually builds simpler effective theories as low-energy or large-scale alternatives to the original theories. Here the central tasks are finding the optimal effective theories among a large number of candidates and proving their equivalence to the original theories. Recently quantum computing has shown the potential of solving quantum many-body systems by exploiting its inherent parallelism. It is thus an interesting topic to discuss the emergence of effective theories and design efficient tools for finding them based on the results from quantum computing. As the first step towards this direction, in this paper, we propose two approaches that apply quantum computing to find the optimal effective theory of a quantum many-body system given its full Hamiltonian. The first algorithm searches the space of effective Hamiltonians by quantum phase estimation and amplitude amplification. The second algorithm is based on a variational approach that is promising for near-future applications.
翻訳日:2023-01-17 15:24:40 公開日:2022-11-27
# 非エルミタン動力学の実用量子シミュレーション

Practical Quantum Simulation of Non-Hermitian Dynamics ( http://arxiv.org/abs/2211.14826v1 )

ライセンス: Link先を確認
Hongfeng Liu, Xiaodong Yang, Kai Tang, Liangyu Che, Xinfang Nie, Tao Xin, Jun Li, and Dawei Lu(参考訳) 非エルミート量子系は、そのエキゾチックな性質により、最近かなりの注目を集めている。 非エルミート系の多くの実験的実現が報告されているが、非ハーミティティーは通常、制御の難しい環境に頼っている。 別のアプローチとして、閉じたシステムで量子シミュレーションを使用することがあるが、一般のエルミート・ハミルトン力学をシミュレートする方法は大きな課題である。 この問題に対処するために,拡張法と変分量子アルゴリズムを組み合わせたプロトコルを提案する。 この拡張法は、非エルミートハミルトニアンを余剰量子回路を介してエルミート型に変換し、変分量子アルゴリズムは、この回路の複雑な絡み合ったゲートを効率的に近似するために用いられる。 実演として,非局所な非エルミート摂動をもつイジング鎖の力学をシミュレートするために,本プロトコルを適用し,非ゼロ温度における量子相転移を研究する上で重要なモデルである。 数値シミュレーションの結果は,提案プロトコルの有効性を明らかにする理論予測と極めて一致している。 提案プロトコルは、マルチキュービットの場合の一般非エルミート力学を実際にシミュレーションする方法を舗装する。

Non-Hermitian quantum systems have recently attracted considerable attentions due to their exotic properties. Though many experimental realizations of non-Hermitian systems have been reported, the non-Hermiticity usually resorts to the hard-to-control environments. An alternative approach is to use quantum simulation with the closed system, whereas how to simulate general non-Hermitian Hamiltonian dynamics remains a great challenge. To tackle this problem, we propose a protocol by combining a dilation method with the variational quantum algorithm. The dilation method is used to transform a non-Hermitian Hamiltonian into a Hermitian one through an exquisite quantum circuit, while the variational quantum algorithm is for efficiently approximating the complex entangled gates in this circuit. As a demonstration, we apply our protocol to simulate the dynamics of an Ising chain with nonlocal non-Hermitian perturbations, which is an important model to study quantum phase transition at nonzero temperatures. The numerical simulation results are highly consistent with the theoretical predictions, revealing the effectiveness of our protocol. The presented protocol paves the way for practically simulating general non-Hermitian dynamics in the multi-qubit case.
翻訳日:2023-01-17 15:24:27 公開日:2022-11-27
# ガス中の高速粒子の逆量子デコヒーレンス

Transverse quantum decoherence of a fast particle in a gas ( http://arxiv.org/abs/2211.14816v1 )

ライセンス: Link先を確認
David Gaspard and Jean-Marc Sparenberg(参考訳) ガス中の高速量子粒子のデコヒーレンスは、粒子の還元密度行列に対する量子マスター方程式にKramers-Moyal展開を適用することによって研究される。 この展開は、微分断面の角変化を考慮に入れたカルデイラ・レゲット・マスター方程式の一般形へと導かれる。 この方程式は粒子運動に関して縦方向と横方向の両方でデコヒーレンスを記述する。 差分断面が前方方向に集中すると、横方向のデコヒーレンスが支配的であることが示されている。 密度行列の対角線から離れたコヒーレンス領域は、ハイゼンベルク型不確実性関係に従って運動量共分散行列からガウス状態に対して導出できるコヒーレンス長によって特徴づけられる。 最後に、数MeVのアルファ粒子に対して、コヒーレンス長さの縦-横比を推定する。 この比はコヒーレンス領域が運動方向に伸びた楕円状に見えることを示している。

The decoherence of a fast quantum particle in a gas is studied by applying the Kramers-Moyal expansion to the quantum master equation for the reduced density matrix of the particle. This expansion leads to a general form of the Caldeira-Leggett master equation accounting for the angular variation of the differential cross section. The equation describes the decoherence in both the longitudinal and transverse directions with respect to the particle motion. It is shown that, when the differential cross section is concentrated in the forward direction, transverse decoherence dominates. The coherence region off the diagonal of the density matrix is characterized by coherence lengths, which can be deduced, for Gaussian states, from the momentum covariance matrix according to a Heisenberg-type uncertainty relation. Finally, the longitudinal-to-transverse ratio of the coherence lengths is estimated for an alpha particle of a few MeVs. This ratio indicates that the coherence region looks like an ellipsoid elongated in the direction of motion.
翻訳日:2023-01-17 15:24:06 公開日:2022-11-27
# 位置と運動量の不確実性原理の実験的検証について

On the experimental verification of the uncertainty principle of position and momentum ( http://arxiv.org/abs/2211.14724v1 )

ライセンス: Link先を確認
Thomas Sch\"urmann, Ingo Hoffmann and Winfrid G\"orlich(参考訳) 歴史的に、ケナードは不確実性の定量的尺度として標準偏差を最初に選んだ人物であり、彼もハイゼンベルクも実験的な物理的観点からこの選択が適切である理由を明確に説明しなかった。 粒子が空間幅$\Delta x$の単一のスリットで準備されている場合、有限標準偏差$\sigma_p<\infty$は、波動関数が$\Delta x$の端でゼロである場合にのみ保証できることが示されている。 この状況下で対応するシャープ不等式は$\sigma_p\delta x\geq \pi\hbar$である。 この境界はヒルベルト空間における変分問題の観点から数学的観点から再考され、さらにレーザービームの4fシングルスリット回折実験で試験される。 結果はm.f. guasti (2022) が最近行ったレーザー実験と比較される。

Historically, Kennard was the first to choose the standard deviation as a quantitative measure of uncertainty, and neither he nor Heisenberg explicitly explained why this choice should be appropriate from the experimental physical point of view. If a particle is prepared by a single slit of spatial width $\Delta x$, it has been shown that a finite standard deviation $\sigma_p<\infty$ can only be ensured if the wave-function is zero at the edge of $\Delta x$, otherwise it does not exist. Under this circumstances the corresponding sharp inequality is $\sigma_p\Delta x\geq \pi\hbar$. This bound will be reconsidered from the mathematical point of view in terms of a variational problem in Hilbert space and will furthermore be tested in a 4f-single slit diffraction experiment of a laser beam. Our results will be compared with a laser-experiment recently given by M. F. Guasti (2022).
翻訳日:2023-01-17 15:23:37 公開日:2022-11-27
# 尾を持つグラフにおける量子状態転移

Quantum State Transfer in Graphs with Tails ( http://arxiv.org/abs/2211.14704v1 )

ライセンス: Link先を確認
Pierre-Antoine Bernard, Christino Tamon, Luc Vinet, Weichen Xie(参考訳) 我々は無限経路に付随する有限グラフ上の量子状態転移を考える。 有限グラフは有用な量子情報処理を行うための演算量子システムを表す。 対照的に、無限経路は有限量子系と限定的(しかし自明でない)相互作用を持つ外部無限次元系を表す。 有限グラフ上では、無限尾点が存在する場合でも、驚くほど完全状態移動が生じることが示される。 我々の手法は、最終的に自由となるヤコビ行列、同値分割、標準リー理論の議論に対するデカップリング定理に基づいている。 これらの方法を通じて、これまで無膨らんだ光で見てきたダーク部分空間の概念を修復する。

We consider quantum state transfer on finite graphs which are attached to infinite paths. The finite graph represents an operational quantum system for performing useful quantum information tasks. In contrast, the infinite paths represent external infinite-dimensional systems which have limited (but nontrivial) interaction with the finite quantum system. We show that {\em perfect} state transfer can surprisingly still occur on the finite graph even in the presence of the infinite tails. Our techniques are based on a decoupling theorem for eventually-free Jacobi matrices, equitable partitions, and standard Lie theoretic arguments. Through these methods, we rehabilitate the notion of a dark subspace which had been so far viewed in an unflattering light.
翻訳日:2023-01-17 15:23:20 公開日:2022-11-27
# 蛍光ナノダイヤモンドを用いた高スループットt1緩和測定法

Method for in-solution, high-throughput T1 relaxometry using fluorescent nanodiamonds ( http://arxiv.org/abs/2211.14959v1 )

ライセンス: Link先を確認
Erin. S. Grant, Mina Barzegar Amiri Olia, Ella. P. Walsh, Liam T. Hall, Gawain McColl, David A. Simpson(参考訳) 蛍光ナノダイヤモンド(FND)は、ナノスケールの化学・生物学的センシング応用のための感度の高い量子プローブとして利用されてきた。 これは、通常、FNDサンプル内で不均一性を示すため、測定結果の計測時間、スループット、統計的重要性に重大な制限を与える。 そこで我々は,溶液中のFNDの大きなアンサンブルからT1スピン緩和時間を報告できる測定プラットフォームを開発した。 まず、この変調に対する精密な検出プロトコルを記述し、その上で常磁性ターゲットの検出に最適なFNDサイズを同定する。 我々のアプローチはセットアップが簡単で堅牢であり、素早い物質特性化や様々なその場での量子センシング用途に使用できる。

Fluorescent nanodiamonds (FNDs) have been exploited as sensitive quantum probes for nanoscale chemical and biological sensing applications, with the majority of demonstrations to date relying on the detection of single FNDs. This places significant limits on the measurement time, throughput and statistical significance of a measured result as there is usually marked inhomogeneity within FND samples. Here we have developed a measurement platform that can report the T1 spin relaxation time from a large ensemble of FNDs in solution. We first describe a refined sensing protocol for this modality and then use it to identify the optimal FND size for the detection of paramagnetic targets. Our approach is simple to set up, robust and can be used for rapid material characterisation or a variety of in-situ quantum sensing applications.
翻訳日:2023-01-17 15:18:01 公開日:2022-11-27
# アフィニティに基づく幾何学的不和とその生成と減衰の量子速度限界

Affinity-based geometric discord and quantum speed limits of its creation and decay ( http://arxiv.org/abs/2211.14943v1 )

ライセンス: Link先を確認
R. Muthuganesan, and S. Balakrishnan(参考訳) 本稿では,両部量子相関の忠実な量子化器,すなわちアフィニティに基づく計量を用いた量子不協和の幾何学的バージョンを定義する。 新たに導入された測度はヒルベルト・シュミット測度の局所的アンシラ問題を解く。 affinity-based discordの概念を生かして,margolus-levitin (ml) とmandelstamm-tamm (mt) の境界を,量子相関の生成と減衰のための量子速度制限時間として導出する。 動的研究は、親和性測度は絡み合いよりもより良い資源であることを示唆している。 最後に,量子速度限界における量子相関の役割について考察する。

In this article, we define a faithful quantifiers of bipartite quantum correlation, namely geometric version of quantum discord using affinity based metric. It is shown that the newly-minted measure resolves the local ancilla problem of Hilbert-Schmidt measures. Exploiting the notion of affinity-based discord, we derive Margolus-Levitin (ML) and Mandelstamm-Tamm (MT) bounds for the quantum speed limit time for the creation and decay of quantum correlation. The dynamical study suggests that the affinity measure is a better resource compared to entanglement. Finally, we study the role of quantum correlation on quantum speed limit.
翻訳日:2023-01-17 15:17:48 公開日:2022-11-27
# マイクロ波共振器におけるエンタングル原子アンサンブルとYIG球

Entangled atomic ensemble and YIG sphere in coupled microwave cavities ( http://arxiv.org/abs/2211.14914v1 )

ライセンス: Link先を確認
Dilawaiz, Shahid Qamar and Muhammad Irfan(参考訳) 本稿では,原子アンサンブルとイットリウム鉄ガーネット(YIG)球面を結合したマイクロ波キャビティに遠方二部および三部を絡み合わせる手法を提案する。 この系は、yig球面におけるキャビティ1光子、原子アンサンブル、キャビティ2光子、マグノン、フォノンモードの5つの励起モードを有する。 温度に対して頑健なキャビティ内の間接結合サブシステム間には,重要な2成分の絡み合いが存在することを示した。 さらに, アンサンブル, マグノン, フォノンモードの有意な三部構造絡み合わせに適した変形パラメータを提案する。 また,間接結合型キャビティ光子を用いたyig球面のマグノンモードとフォノンモード間の三成分絡み合いの存在を示す。 さらに,キャビティ・キャビティ結合強度は,様々なサブシステム間の量子絡み合いの度合いと移動に影響を及ぼすことを示した。 適切なキャビティとキャビティのカップリングは、エンタングルメント強度と臨界温度を増大させることで遠方のエンタングルメントを最適化する。

We present a scheme to generate distant bipartite and tripartite entanglement between an atomic ensemble and a yttrium iron garnet (YIG) sphere in coupled microwave cavities. The system we consider has five excitation modes namely cavity-1 photons, atomic ensemble, cavity-2 photons, magnon and phonon modes in YIG sphere. We show that significant bipartite entanglement exists between indirectly coupled subsystems in the cavities, which is robust against temperature. Moreover, we present suitable detuning parameters for a significant tripartite entanglement of ensemble, magnon, and phonon modes. We also demonstrate the existence of tripartite entanglement between magnon and phonon modes of YIG sphere with indirectly coupled cavity photons. Further, we show that cavity-cavity coupling strength affects both the degree and transfer of quantum entanglement between various subsystems. It follows that an appropriate cavity-cavity coupling optimizes the distant entanglement by increasing the entanglement strength and critical temperature for its existence.
翻訳日:2023-01-17 15:17:33 公開日:2022-11-27
# エンタングルメント支援量子スピードアップ:局所的な量子スピード制限に打ち勝つ

Entanglement-assisted quantum speedup: Beating local quantum speed limits ( http://arxiv.org/abs/2211.14898v1 )

ライセンス: Link先を確認
Farha Yasmin, Jan Sperling(参考訳) 今日の量子情報科学の研究は、古典的情報処理のスケーリングの限界を克服する約束によって進められている。 しかし、物理学者の観点からは、性能改善は、量子相関を動的に利用することによって量子領域における時間の変化を速くする物理スピードアップに関係しているかもしれない。 この貢献において、相互作用系の任意の過程に対する速度制限は非交叉状態の多様体に導かれる。 この上界は非絡み合う状態の変化率であり、時間内の絡み合う伝播速度と比較することができる。 特に、そのような局所的な制約を克服することにより、相関量子進化のエンタングルメント支援のスピードアップが実証され、時間依存多成分エンタングルメントの複雑な形態が包含される。 バイパルタイトおよびマルチパルタイトのための多様な物理系およびキュービットおよびキューディットシナリオの関連例をこのように分析する。 重要なことは、指数的にスピードが向上したケースがある。 そこで我々は,時間的絡み合いに基づく量子処理の利点を定量化するために,新規かつ汎用的な手法を確立し,適用する。

Today's research in quantum information science is driven by the promise to overcome scaling limitations of classical information processing. From the physicist's point of view, however, a performance improvement may be related to a physical speedup that yields a faster change in time in the quantum domain, e.g., by dynamically exploiting quantum correlations. In this contribution, speed limits for arbitrary processes of interacting systems are derived subject to the manifold of non-entangled states. This upper-bounds the rate of change for non-entangled states and can be compared with the speed of the entangling propagation in time. Specifically, by overcoming such local constraints, the entanglement-assisted speedup of a correlated quantum evolution is demonstrated, encompassing complex forms of time-dependent multipartite entanglement. Relevant examples from diverse physical systems for bipartite and multipartite as well as qubit and qudit scenarios are analyzed in this manner. Importantly, cases are found with exponentially enhanced speeds. Therefore, we establish and apply a novel and general approach to quantify temporal entanglement-based quantum processing advantages.
翻訳日:2023-01-17 15:17:15 公開日:2022-11-27
# 確率雑音下における閉量子力学のバウンド

Bound on the closed quantum dynamics under stochastic noise ( http://arxiv.org/abs/2211.14862v1 )

ライセンス: Link先を確認
Kohei Kobayashi(参考訳) 量子情報技術は、情報資源に使用される所望のターゲット状態を作成するために注意深い制御を必要とする。 障害物の1つは制御ハミルトニアン上の確率的ノイズであり、実際の制御性能は極めて制限されている。 したがって,雑音下で得られた状態と目標状態との間の距離を定量化するシナリオにおいて,到達可能性解析は非常に重要である。 本稿では、確率雑音下での閉量子系に対する忠実性の下限を与える。 この境界は確率過程を考慮せずに計算可能であり、状態の時間依存ダイナミクスを完全に必要としない。 数値シミュレーションにより, このバウンドの実際の密着性を示す。

Quantum information technologies require careful control for preparing a desired target state used for an information resource. The one of the obstacles is the stochastic noise on the control Hamiltonian, under which the realistic control performance is severely limited. Therefore, the reachability analysis, which in our scenario quantifying the distance between the obtained state under the noise and the target state, is of great importance. This paper gives a lower bound of the fidelity for a closed quantum system under the stochastic noise. Note that this bound is computable without considering the stochastic process and needing the full time-dependent dynamics of the states. We demonstrate the actual tightness of this bound via numerical simulation.
翻訳日:2023-01-17 15:16:53 公開日:2022-11-27
# 量子コンピューティングと量子プログラミングを教えるプログラミング・アサインメントの開発

Developing Programming Assignments for Teaching Quantum Computing and Quantum Programming ( http://arxiv.org/abs/2211.16347v1 )

ライセンス: Link先を確認
Mariia Mykhailova(参考訳) 本報告では、量子コンピューティングを実践的に教えるために使用できる様々なプログラミング課題について述べる。 これらの課題により、学習者は量子コンピューティングの問題を解決すること、プログラムのデバッグ、リソース推定の実行、量子ハードウェア上でのコード実行など、量子ソフトウェア開発プロセスのあらゆる段階を経験することができる。

This report describes a variety of programming assignments that can be used to teach quantum computing in a practical manner. These assignments let the learners get hands-on experience with all stages of quantum software development process, from solving quantum computing problems and implementing the solutions to debugging the programs, performing resource estimation, and running the code on quantum hardware.
翻訳日:2023-01-17 14:43:08 公開日:2022-11-27
# センサ数, ノイズ量, 閾値にロバストなディープマルチエミッタスペクトル占有率マッピング

Deep Multi-Emitter Spectrum Occupancy Mapping that is Robust to the Number of Sensors, Noise and Threshold ( http://arxiv.org/abs/2212.10444v1 )

ライセンス: Link先を確認
Abbas Termos and Bertrand Hochwald(参考訳) スペクトル占有マッピングの主要な目標の1つは、センサ数、占有しきい値(dbm)、センサノイズ、エミッタ数、伝搬環境に関する仮定にロバストなシステムを作ることである。 このようなシステムは、トレーニングやテスト中に様々なセンサーを利用できるように、アグリゲーションのプロセスを用いてニューラルネットワークで設計される可能性がある。 このプロセスは、測定の変数数を対数様比(LLR)に変換し、固定解像度の画像としてニューラルネットワークに供給する。 LLRの使用は、ノイズと占有閾値の影響に対して堅牢性を提供する。 言い換えれば、システムは名目上のセンサー数、しきい値、騒音レベルのために訓練され、再訓練することなく、他の様々なレベルでうまく機能する。 我々のシステムはエミッターの数を知ることなく動作し、その数やパワーを明示的に推定しようとはしない。 地形図と商用ネットワーク設計ツールを用いた現実的な伝搬環境を持つ受信者動作曲線は、ニューラルネットワークの性能が環境によってどのように変化するかを示す。 このシステムでの低解像度センサーの使用は性能を損なうことはない。

One of the primary goals in spectrum occupancy mapping is to create a system that is robust to assumptions about the number of sensors, occupancy threshold (in dBm), sensor noise, number of emitters and the propagation environment. We show that such a system may be designed with neural networks using a process of aggregation to allow a variable number of sensors during training and testing. This process transforms the variable number of measurements into log-likelihood ratios (LLRs), which are fed as a fixed-resolution image into a neural network. The use of LLRs provides robustness to the effects of noise and occupancy threshold. In other words, a system may be trained for a nominal number of sensors, threshold and noise levels, and still operate well at various other levels without retraining. Our system operates without knowledge of the number of emitters and does not explicitly attempt to estimate their number or power. Receiver operating curves with realistic propagation environments using topographic maps with commercial network design tools show how performance of the neural network varies with the environment. The use of low-resolution sensors in this system does not significantly hurt performance.
翻訳日:2022-12-25 03:21:01 公開日:2022-11-27
# 同時取得脳波とfMRIの深部変換による潜時神経源推定

Inferring latent neural sources via deep transcoding of simultaneously acquired EEG and fMRI ( http://arxiv.org/abs/2212.02226v1 )

ライセンス: Link先を確認
Xueqing Liu, Tao Tu, Paul Sajda(参考訳) 同時脳波-fMRIは相補的空間分解能と時間分解能を提供するマルチモーダル・ニューロイメージング技術である。 課題は、モダリティを融合するための原理的かつ解釈可能なアプローチ、特に神経活動を表す潜在源空間の推論を可能にするアプローチの開発である。 本稿では、この推論問題を、特定の符号化(モダリティ)からデコーディング(潜在ソース空間)へマッピングし、遅延ソース空間を他のモダリティに符号化するという、トランスコーディングの枠組みの中で解決する。 具体的には,eegをfmriに変換する循環畳み込みトランスコーダからなる対称的手法を開発した。 血行力学的応答関数またはリードフィールド行列の事前の知識がなければ、完全なデータ駆動法は、モダリティと潜在源空間の間の時間的および空間的関係を利用してこれらのマッピングを学ぶ。 シミュレーションデータと実脳波-fMRIデータの両方に対して、モダリティが相互にどの程度うまく変換されるか、また、復元されるソース空間が不明瞭なデータに基づいて評価されるかを定量化する。 遅延ソース空間を対称的に推論する新しい方法を可能にすることに加えて、この手法は低コストの計算ニューロイメージング、すなわち低コストの脳波データから「拡張的」fMRI BOLD画像を生成することができる。

Simultaneous EEG-fMRI is a multi-modal neuroimaging technique that provides complementary spatial and temporal resolution. Challenging has been developing principled and interpretable approaches for fusing the modalities, specifically approaches enabling inference of latent source spaces representative of neural activity. In this paper, we address this inference problem within the framework of transcoding -- mapping from a specific encoding (modality) to a decoding (the latent source space) and then encoding the latent source space to the other modality. Specifically, we develop a symmetric method consisting of a cyclic convolutional transcoder that transcodes EEG to fMRI and vice versa. Without any prior knowledge of either the hemodynamic response function or lead field matrix, the complete data-driven method exploits the temporal and spatial relationships between the modalities and latent source spaces to learn these mappings. We quantify, for both the simulated and real EEG-fMRI data, how well the modalities can be transcoded from one to another as well as the source spaces that are recovered, all evaluated on unseen data. In addition to enabling a new way to symmetrically infer a latent source space, the method can also be seen as low-cost computational neuroimaging -- i.e. generating an 'expensive' fMRI BOLD image from 'low cost' EEG data.
翻訳日:2022-12-11 12:50:51 公開日:2022-11-27
# パーキンソン病患者の歩行検出におけるエッジディープラーニングの有用性

Edge Deep Learning Enabled Freezing of Gait Detection in Parkinson's Patients ( http://arxiv.org/abs/2212.00729v1 )

ライセンス: Link先を確認
Ourong Lin, Tian Yu, Yuhan Hou, Yi Zhu, and Xilin Liu(参考訳) 本稿では,パーキンソン病患者の歩行(FoG)症状の検出と警告を行う無線センサネットワークの設計について述べる。 3つのセンサーノードは、それぞれ3軸加速度計を統合し、足首、大腿、トラックの患者に配置することができる。 各センサノードはデバイス上での深層学習(DL)モデルを使用して独立してFoGを検出でき、圧縮・励起畳み込みニューラルネットワーク(CNN)を備えている。 パブリックデータセットを用いた検証において、プロトタイプはFoG検出感度88.8%、F1スコア85.34%を達成し、センサーノード当たり20k未満のトレーニング可能なパラメータを使用した。 FoGが検知されると、ユーザーに警告する聴覚信号が生成され、必要に応じてアラーム信号が携帯電話に送信される。 インダクティブカップリングにより、センサノードを無線で簡単に充電することができる。 このシステムは自己完結型であり、外部デバイスやクラウドにデータをストリーミングすることなく、すべてのユーザデータをローカルに処理する。 開発された方法論は、幅広いアプリケーションで使用できる。

This paper presents the design of a wireless sensor network for detecting and alerting the freezing of gait (FoG) symptoms in patients with Parkinson's disease. Three sensor nodes, each integrating a 3-axis accelerometer, can be placed on a patient at ankle, thigh, and truck. Each sensor node can independently detect FoG using an on-device deep learning (DL) model, featuring a squeeze and excitation convolutional neural network (CNN). In a validation using a public dataset, the prototype developed achieved a FoG detection sensitivity of 88.8% and an F1 score of 85.34%, using less than 20 k trainable parameters per sensor node. Once FoG is detected, an auditory signal will be generated to alert users, and the alarm signal will also be sent to mobile phones for further actions if needed. The sensor node can be easily recharged wirelessly by inductive coupling. The system is self-contained and processes all user data locally without streaming data to external devices or the cloud, thus eliminating the cybersecurity risks and power penalty associated with wireless data transmission. The developed methodology can be used in a wide range of applications.
翻訳日:2022-12-02 17:42:46 公開日:2022-11-27
# 拡散確率モデルによるスリム化

Diffusion Probabilistic Model Made Slim ( http://arxiv.org/abs/2211.17106v1 )

ライセンス: Link先を確認
Xingyi Yang, Daquan Zhou, Jiashi Feng, Xinchao Wang(参考訳) 最近の視覚的に満足する結果にもかかわらず、膨大な計算コストは拡散確率モデル(dpms)にとって長年の欠陥であり、リソース制限されたプラットフォーム上での応用を大幅に制限している。 しかし、効率的なDPMに向けた以前の手法は、テストの高速化に重点を置いていたが、その膨大な複雑さとサイズを見落としていた。 本稿では,DPMの軽量化を図り,良好な性能を保とうとする試みを行う。 まず、スクラッチから小型潜伏拡散モデル(LDM)を訓練することから始めるが、合成画像における顕著な忠実度低下を観察する。 徹底的な評価により、DPMは本質的に高周波発生に偏りがあり、異なるタイミングで異なる周波数成分を回復することを学ぶ。 これらの特性により、コンパクトネットワークは正確な高周波推定で周波数ダイナミクスを表現できない。 この目的のために、我々は、軽量画像合成のためのスペクトル拡散(SD)と呼ばれるスリムDPMのカスタマイズ設計を導入する。 SDはウェーブレットゲーティングをアーキテクチャに組み込んで、逆ステップ毎に周波数動的特徴抽出を可能にするとともに、スペクトルマグニチュードに基づいて目的を逆重み付けすることで高周波回復を促進するためにスペクトル認識蒸留を行う。 実験の結果,sdは,競合画像の忠実性を維持しつつ,一連の条件付きおよび無条件画像生成タスクにおける潜在拡散モデルと比較して,8-18倍の計算複雑性低減を達成した。

Despite the recent visually-pleasing results achieved, the massive computational cost has been a long-standing flaw for diffusion probabilistic models (DPMs), which, in turn, greatly limits their applications on resource-limited platforms. Prior methods towards efficient DPM, however, have largely focused on accelerating the testing yet overlooked their huge complexity and sizes. In this paper, we make a dedicated attempt to lighten DPM while striving to preserve its favourable performance. We start by training a small-sized latent diffusion model (LDM) from scratch, but observe a significant fidelity drop in the synthetic images. Through a thorough assessment, we find that DPM is intrinsically biased against high-frequency generation, and learns to recover different frequency components at different time-steps. These properties make compact networks unable to represent frequency dynamics with accurate high-frequency estimation. Towards this end, we introduce a customized design for slim DPM, which we term as Spectral Diffusion (SD), for light-weight image synthesis. SD incorporates wavelet gating in its architecture to enable frequency dynamic feature extraction at every reverse steps, and conducts spectrum-aware distillation to promote high-frequency recovery by inverse weighting the objective based on spectrum magni tudes. Experimental results demonstrate that, SD achieves 8-18x computational complexity reduction as compared to the latent diffusion models on a series of conditional and unconditional image generation tasks while retaining competitive image fidelity.
翻訳日:2022-12-01 17:59:26 公開日:2022-11-27
# FJMP:学習直交非周期相互作用グラフ上の因子付き多重エージェント運動予測

FJMP: Factorized Joint Multi-Agent Motion Prediction over Learned Directed Acyclic Interaction Graphs ( http://arxiv.org/abs/2211.16197v1 )

ライセンス: Link先を確認
Luke Rowe, Martin Ethier, Eli-Henry Dykhne, Krzysztof Czarnecki(参考訳) 自動運転パイプラインでは,道路エージェントの将来の動きを予測することが重要な課題である。 本研究では,マルチエージェント運転シナリオにおけるシーンレベル,あるいはジョイント,将来の軌道予測を生成する問題に対処する。 そこで我々はFJMP(Factized Joint Motion Prediction framework for multi-agent Interactive driving scenarios)を提案する。 FJMPは将来のシーン相互作用のダイナミクスをスパース指向の相互作用グラフとしてモデル化する。 次に,グラフを有向非巡回グラフ(DAG)に抽出し,有向非巡回グラフニューラルネットワーク(DAGNN)を用いて結合将来の軌跡を復号するDAGの部分順序に従って,連成予測タスクを境界および条件付き予測列に分解する。 インタラクションとargoverse 2データセットの実験を行い、fjmpが非リファクタリングアプローチ、特に最もインタラクティブでキネマティックに興味深いエージェントよりも正確でシーン一貫性のあるジョイント軌道予測を生成することを実証する。 FJMPはInterActionデータセットのマルチエージェントテストリーダーボードで1位である。

Predicting the future motion of road agents is a critical task in an autonomous driving pipeline. In this work, we address the problem of generating a set of scene-level, or joint, future trajectory predictions in multi-agent driving scenarios. To this end, we propose FJMP, a Factorized Joint Motion Prediction framework for multi-agent interactive driving scenarios. FJMP models the future scene interaction dynamics as a sparse directed interaction graph, where edges denote explicit interactions between agents. We then prune the graph into a directed acyclic graph (DAG) and decompose the joint prediction task into a sequence of marginal and conditional predictions according to the partial ordering of the DAG, where joint future trajectories are decoded using a directed acyclic graph neural network (DAGNN). We conduct experiments on the INTERACTION and Argoverse 2 datasets and demonstrate that FJMP produces more accurate and scene-consistent joint trajectory predictions than non-factorized approaches, especially on the most interactive and kinematically interesting agents. FJMP ranks 1st on the multi-agent test leaderboard of the INTERACTION dataset.
翻訳日:2022-11-30 17:23:40 公開日:2022-11-27
# pinnet:アルツハイマー病の経路事前知識を持つディープニューラルネットワーク

PINNet: a deep neural network with pathway prior knowledge for Alzheimer's disease ( http://arxiv.org/abs/2211.15669v1 )

ライセンス: Link先を確認
Yeojin Kim, Hyunju Lee(参考訳) 早期診断にはアルツハイマー病(AD)関連転写因子の血液からの同定が重要である。 深層学習技術はAD診断のための強力な分類法であるが、ほとんどの場合、解釈可能性の欠如によりバイオマーカーを識別できなかった。 これらの課題に対処するために,AD患者を予測し,解釈可能な深層学習モデルを用いて血液および脳の転写シグネチャを解析するための経路情報ベースニューラルネットワーク(PINNet)を提案する。 pinnetは深層ニューラルネットワーク(dnn)モデルであり、遺伝子オントロジーまたは京都遺伝子百科事典データベースの経路事前知識を持っている。 次に,AD予測に必須の経路と遺伝子を明らかにするために,バックプロパゲーションに基づくモデル解釈法を適用した。 我々はPINNetの性能を経路のないDNNモデルと比較した。 PINNetのパフォーマンスは、それぞれ、血液および脳の遺伝子発現を使用する経路を持たないDNNよりも優れ、もしくは類似していた。 さらに、PINNetは、AD関連遺伝子が学習過程の経路を持たないDNNよりも重要な特徴であると考えている。 血液中のAD関連遺伝子は, 細胞移動, PI3K-Akt, MAPKシグナリング, アポトーシスに富んでいることが明らかとなった。 脳モジュールに富んだ経路には、細胞移動、PI3K-Akt、MAPKシグナル伝達、アポトーシス、タンパク質ユビキチン化、t細胞活性化が含まれる。 まとめると、PINNetはADに関連する重要な経路を明らかにする。

Identification of Alzheimer's Disease (AD)-related transcriptomic signatures from blood is important for early diagnosis of the disease. Deep learning techniques are potent classifiers for AD diagnosis, but most have been unable to identify biomarkers because of their lack of interpretability. To address these challenges, we propose a pathway information-based neural network (PINNet) to predict AD patients and analyze blood and brain transcriptomic signatures using an interpretable deep learning model. PINNet is a deep neural network (DNN) model with pathway prior knowledge from either the Gene Ontology or Kyoto Encyclopedia of Genes and Genomes databases. Then, a backpropagation-based model interpretation method was applied to reveal essential pathways and genes for predicting AD. We compared the performance of PINNet with a DNN model without a pathway. Performances of PINNet outperformed or were similar to those of DNN without a pathway using blood and brain gene expressions, respectively. Moreover, PINNet considers more AD-related genes as essential features than DNN without a pathway in the learning process. Pathway analysis of protein-protein interaction modules of highly contributed genes showed that AD-related genes in blood were enriched with cell migration, PI3K-Akt, MAPK signaling, and apoptosis in blood. The pathways enriched in the brain module included cell migration, PI3K-Akt, MAPK signaling, apoptosis, protein ubiquitination, and t-cell activation. Collectively, with prior knowledge about pathways, PINNet reveals essential pathways related to AD.
翻訳日:2022-11-30 15:27:53 公開日:2022-11-27
# 次元化による化学物質の同定

Identifying Chemicals Through Dimensionality Reduction ( http://arxiv.org/abs/2211.14708v1 )

ライセンス: Link先を確認
Emile Anand, Charles Steinhardt, Martin Hansen(参考訳) 文明は何千年もの間、飲料水を安全に消費しようとしてきた。 水汚染物質を決定するプロセスは、農薬や重金属による汚染物質の複雑さによって進化してきた。 水安全を判断するための日常的な手順は、既知のリストから特定の物質を探索するターゲット分析を使用することであるが、どの物質がリストに載るべきかは明確には分かっていない。 どの物質が汚染物質であるかを実験的に決定する前に、水中のすべての物質を同定するサンプリング問題にどう答えるか? 本稿では,非標的分析を用いて標本を探索し,ランダム林回帰モデルを構築し,試料中のすべての物質の名前とその濃度を予測したjaanus liigandらの研究に基づくアプローチについて述べる。 この研究は、次元の縮小と線形分解の手法を利用して、欧州質量銀行メタボロームライブラリーのデータを使ってより正確なモデルを示し、研究者たちが水浄化時に識別しテストできる化学のグローバルなリストを作成する。

Civilizations have tried to make drinking water safe to consume for thousands of years. The process of determining water contaminants has evolved with the complexity of the contaminants due to pesticides and heavy metals. The routine procedure to determine water safety is to use targeted analysis which searches for specific substances from some known list; however, we do not explicitly know which substances should be on this list. Before experimentally determining which substances are contaminants, how do we answer the sampling problem of identifying all the substances in the water? Here, we present an approach that builds on the work of Jaanus Liigand et al., which used non-targeted analysis that conducts a broader search on the sample to develop a random-forest regression model, to predict the names of all the substances in a sample, as well as their respective concentrations[1]. This work utilizes techniques from dimensionality reduction and linear decompositions to present a more accurate model using data from the European Massbank Metabolome Library to produce a global list of chemicals that researchers can then identify and test for when purifying water.
翻訳日:2022-11-29 22:57:04 公開日:2022-11-27
# BEAR:制御・強化学習のための物理原理建築環境

BEAR: Physics-Principled Building Environment for Control and Reinforcement Learning ( http://arxiv.org/abs/2211.14744v1 )

ライセンス: Link先を確認
Chi Zhang, Yuanyuan Shi, Yize Chen(参考訳) 近年の強化学習アルゴリズムの進歩は、研究者が自律的に建設エネルギー管理システムを運用し最適化するための扉を開いた。 しかし、容易に構成可能なビルディングダイナミックモデルとエネルギー管理タスクシミュレーションと評価プラットフォームが欠如していることは、高度な強化学習(RL)と運用タスク構築のための制御アルゴリズムの開発の進捗を鈍化させている。 本稿では,制御強化学習のための物理原理的建築環境であるBEARを提案する。 このプラットフォームでは、外部ビルディングシミュレータを併用することなく、Pythonの標準ビルディングモデルの広範なコレクションを使用して、モデルベースとモデルフリーの両方のコントローラをベンチマークすることができる。 本稿では,このプラットフォームの設計について検討し,他の建築シミュレーションフレームワークと比較する。 モデル予測制御(MPC)と2つのケーススタディを持つ最先端RL法の両方を含む,異なるコントローラによるBEARの互換性と性能を示す。

Recent advancements in reinforcement learning algorithms have opened doors for researchers to operate and optimize building energy management systems autonomously. However, the lack of an easily configurable building dynamical model and energy management task simulation and evaluation platform has arguably slowed the progress in developing advanced and dedicated reinforcement learning (RL) and control algorithms for building operation tasks. Here we propose "BEAR", a physics-principled Building Environment for Control And Reinforcement Learning. The platform allows researchers to benchmark both model-based and model-free controllers using a broad collection of standard building models in Python without co-simulation using external building simulators. In this paper, we discuss the design of this platform and compare it with other existing building simulation frameworks. We demonstrate the compatibility and performance of BEAR with different controllers, including both model predictive control (MPC) and several state-of-the-art RL methods with two case studies.
翻訳日:2022-11-29 22:56:47 公開日:2022-11-27
# 人工通貨による最適ルーティングのためのデータ駆動価格体系

A Data-driven Pricing Scheme for Optimal Routing through Artificial Currencies ( http://arxiv.org/abs/2211.14793v1 )

ライセンス: Link先を確認
David van de Sanden, Maarten Schoukens, Mauro Salazar(参考訳) モビリティシステムは、利己的なユーザーの制御不能な行動のために、しばしば高価格の無秩序に苦しむ。 これは、集中型システム最適化コントローラによって達成できるものよりもはるかに高い社会的コストをもたらす可能性がある。 金銭的な料金体系は、利己的なユーザーの行動をシステム最適化と効果的に一致させることができる。 しかし、彼らは必然的に収入の観点から人口を差別する。 人工通貨は、人口間の公正性を確保しつつ、同じパフォーマンスを達成する効果的な代替手段として提示された。 しかし、これらの研究は実践と異なる行動モデルに基づいていた。 本稿では,繰り返しゲーム設定において,人工通貨料金を自動的に適用するためのデータ駆動方式を提案する。 まず,利用者が独特な起点から独特な目的地へ毎日通勤するパラレルarc設定を検討し,他の利用者の選択が旅行不便に与える影響を考慮しつつ,人為的通貨価格や報酬と引き換えに経路を選択する。 第2に,提案フレームワークと対話して最適価格政策を自律的に学習するモデルベース強化学習制御を考案し,観測された集約フローの密接性から所望のシステム最適分布への報奨関数として扱う。 提案したデータ駆動型価格体系は, ユーザのフローを最適なシステムに効果的に整合させ, 制御されていないフローに対する社会的コスト(シナリオに応じて約15%から25%)を大幅に低減し, 堅牢かつ効率的に環境変化に対応することができることを示す。

Mobility systems often suffer from a high price of anarchy due to the uncontrolled behavior of selfish users. This may result in societal costs that are significantly higher compared to what could be achieved by a centralized system-optimal controller. Monetary tolling schemes can effectively align the behavior of selfish users with the system-optimum. Yet, they inevitably discriminate the population in terms of income. Artificial currencies were recently presented as an effective alternative that can achieve the same performance, whilst guaranteeing fairness among the population. However, those studies were based on behavioral models that may differ from practical implementations. This paper presents a data-driven approach to automatically adapt artificial-currency tolls within repetitive-game settings. We first consider a parallel-arc setting whereby users commute on a daily basis from a unique origin to a unique destination, choosing a route in exchange of an artificial-currency price or reward while accounting for the impact of the choices of the other users on travel discomfort. Second, we devise a model-based reinforcement learning controller that autonomously learns the optimal pricing policy by interacting with the proposed framework considering the closeness of the observed aggregate flows to a desired system-optimal distribution as a reward function. Our numerical results show that the proposed data-driven pricing scheme can effectively align the users' flows with the system optimum, significantly reducing the societal costs with respect to the uncontrolled flows (by about 15% and 25% depending on the scenario), and respond to environmental changes in a robust and efficient manner.
翻訳日:2022-11-29 22:56:32 公開日:2022-11-27
# 近似最適化を用いたピーク低減と自己消費の併用

Combined Peak Reduction and Self-Consumption Using Proximal Policy Optimization ( http://arxiv.org/abs/2211.14831v1 )

ライセンス: Link先を確認
Thijs Peirelinck, Chris Hermans, Fred Spiessens, Geert Deconinck(参考訳) 住宅需要対応プログラムは、家庭レベルでの需要柔軟性を活性化することを目的としている。 近年, 強化学習 (RL) が注目されている。 RLアルゴリズムの大きな課題は、データ効率である。 近似ポリシー最適化(PPO)のような新しいRLアルゴリズムは、データの効率を向上しようと試みている。 さらに、この課題を軽減するために、RLと転写学習の組み合わせが提案されている。 本研究では,需要応答領域の知識を学習パイプラインに組み込むことにより,最先端の伝達学習性能をさらに向上する。 我々は,ピークシェービングと自己消費がキャパシティ関税によってインセンティブ化される需要対応ユースケースに対するアプローチを評価する。 PPOの適応版と転写学習を組み合わせることで,通常のヒステリシスコントローラに比べて14.51%,従来のPPOに比べて6.68%のコスト削減を実現した。

Residential demand response programs aim to activate demand flexibility at the household level. In recent years, reinforcement learning (RL) has gained significant attention for these type of applications. A major challenge of RL algorithms is data efficiency. New RL algorithms, such as proximal policy optimisation (PPO), have tried to increase data efficiency. Additionally, combining RL with transfer learning has been proposed in an effort to mitigate this challenge. In this work, we further improve upon state-of-the-art transfer learning performance by incorporating demand response domain knowledge into the learning pipeline. We evaluate our approach on a demand response use case where peak shaving and self-consumption is incentivised by means of a capacity tariff. We show our adapted version of PPO, combined with transfer learning, reduces cost by 14.51% compared to a regular hysteresis controller and by 6.68% compared to traditional PPO.
翻訳日:2022-11-29 22:56:10 公開日:2022-11-27
# uav支援スペースエアグラウンド統合ネットワーク:最近の学習アルゴリズムの技術的レビュー

UAV-Assisted Space-Air-Ground Integrated Networks: A Technical Review of Recent Learning Algorithms ( http://arxiv.org/abs/2211.14931v1 )

ライセンス: Link先を確認
Atefeh H. Arani, Peng Hu, Yeying Zhu(参考訳) 宇宙・空・地上コンポーネントの最近の技術進歩により、宇宙地上統合ネットワーク(SAGIN)と呼ばれる新しいネットワークパラダイムが実現された。 無人航空機(UAV)はSAGINにおいて重要な役割を果たしている。 しかし、UAVの高ダイナミック性と複雑さのため、SAGINの実際の展開は、そのようなSAGINを実現する上で大きな障壁となる。 宇宙と地上のコンポーネントと比較して、UAVは限られたリソースを使用して高い柔軟性とダイナミックスで性能要求を満たすことが期待されている。 したがって、様々なシナリオでuavを使用するには、アルゴリズム的アプローチで適切に設計された計画が必要となる。 本稿では,最近の学習に基づくアルゴリズムアプローチの包括的レビューを行う。 報奨関数について検討し,q-learning,deep q-learning,multi-armed bandit (mab), particle swarm optimization (pso), satisfaction-based learningアルゴリズムなどの報奨関数を最適化するための最先端アルゴリズムについて論じる。 他の調査論文とは異なり、これらのアルゴリズムを用いて様々なuav支援ミッションに適用可能な最適化問題の方法論的視点に焦点を当てる。 実際のシナリオに従ってユーザと環境をシミュレートし、スループット、負荷、公平性、計算時間などの観点から学習ベースとpsoベースの手法を比較します。 また,これらアルゴリズムの2次元(2次元)と3次元(3次元)のバリエーションを実装し評価し,異なる展開事例を反映する。 シミュレーションによると、3ドルの満足度に基づく学習アルゴリズムは、多くの場合、さまざまなメトリクスに対する他のアプローチよりも優れています。 本研究の目的は,UAV支援SAGINの展開を最適化しつつ,アルゴリズム選択の設計ガイドラインを提供することである。

Recent technological advancements in space, air and ground components have made possible a new network paradigm called "space-air-ground integrated network" (SAGIN). Unmanned aerial vehicles (UAVs) play a key role in SAGINs. However, due to UAVs' high dynamics and complexity, the real-world deployment of a SAGIN becomes a major barrier for realizing such SAGINs. Compared to the space and terrestrial components, UAVs are expected to meet performance requirements with high flexibility and dynamics using limited resources. Therefore, employing UAVs in various usage scenarios requires well-designed planning in algorithmic approaches. In this paper, we provide a comprehensive review of recent learning-based algorithmic approaches. We consider possible reward functions and discuss the state-of-the-art algorithms for optimizing the reward functions, including Q-learning, deep Q-learning, multi-armed bandit (MAB), particle swarm optimization (PSO) and satisfaction-based learning algorithms. Unlike other survey papers, we focus on the methodological perspective of the optimization problem, which can be applicable to various UAV-assisted missions on a SAGIN using these algorithms. We simulate users and environments according to real-world scenarios and compare the learning-based and PSO-based methods in terms of throughput, load, fairness, computation time, etc. We also implement and evaluate the 2-dimensional (2D) and 3-dimensional (3D) variations of these algorithms to reflect different deployment cases. Our simulation suggests that the $3$D satisfaction-based learning algorithm outperforms the other approaches for various metrics in most cases. We discuss some open challenges at the end and our findings aim to provide design guidelines for algorithm selections while optimizing the deployment of UAV-assisted SAGINs.
翻訳日:2022-11-29 22:55:55 公開日:2022-11-27
# 線形最適化としてのニューラルネットワーク検証:階段関数の構成のための定式化

Neural Network Verification as Piecewise Linear Optimization: Formulations for the Composition of Staircase Functions ( http://arxiv.org/abs/2211.14706v1 )

ライセンス: Link先を確認
Tu Anh-Nguyen and Joey Huchette(参考訳) 混合整数計画法(MIP)を用いたニューラルネットワーク検証手法を提案する。 分割線形活性化関数を用いたネットワーク内の各ニューロンに対する \emph{strong formula} を導出する。 さらに、一般にこれらの定式化は指数関数的な不等式を必要とする場合があるが、入力次元において超線形時間で実行される分離手順も導出する。 我々はまず,relu,binarized,quantizedのアクティベーション関数を一般化した \emph{staircase} 関数のクラスにこの技術を導入,開発する。 次に,階段アクティベーション関数の結果を用いて,一般のピースワイド線形アクティベーション関数の分離方法を求める。 実験では, 強い定式化と分離技術を用いて, MIPに基づく正確な検証設定における計算時間を短縮し, MIP定式化の緩和に依存する不正確な検証者の偽陰性率を向上させることができる。

We present a technique for neural network verification using mixed-integer programming (MIP) formulations. We derive a \emph{strong formulation} for each neuron in a network using piecewise linear activation functions. Additionally, as in general, these formulations may require an exponential number of inequalities, we also derive a separation procedure that runs in super-linear time in the input dimension. We first introduce and develop our technique on the class of \emph{staircase} functions, which generalizes the ReLU, binarized, and quantized activation functions. We then use results for staircase activation functions to obtain a separation method for general piecewise linear activation functions. Empirically, using our strong formulation and separation technique, we can reduce the computational time in exact verification settings based on MIP and improve the false negative rate for inexact verifiers relying on the relaxation of the MIP formulation.
翻訳日:2022-11-29 20:37:18 公開日:2022-11-27
# ランダム探索のためのガウス平滑化の一般化

Generalizing Gaussian Smoothing for Random Search ( http://arxiv.org/abs/2211.14721v1 )

ライセンス: Link先を確認
Katelyn Gao and Ozan Sener(参考訳) Gaussian smoothing (GS) は、標準正規分布からサンプリングされた電流パラメータの摂動を用いて対象の勾配を推定する微分自由最適化(DFO)アルゴリズムである。 より大規模な分布系からの摂動をサンプリングするために一般化する。 非凸関数に対するDFOの解析に基づいて、勾配推定の平均二乗誤差(MSE)を最小限に抑える摂動分布を選択することを提案する。 ガウス平滑化よりも MSE が小さい3つの分布を導出する。 我々は,線形回帰,強化学習,DFOベンチマークの3つのサンプリング分布の評価を行い,その評価を行った。 提案手法は,同じ計算量でGSを改良し,通常分散摂動の共分散行列に適応する,より高コストな2つのアルゴリズムである Guided ES と Orthogonal ES と競合することが多い。

Gaussian smoothing (GS) is a derivative-free optimization (DFO) algorithm that estimates the gradient of an objective using perturbations of the current parameters sampled from a standard normal distribution. We generalize it to sampling perturbations from a larger family of distributions. Based on an analysis of DFO for non-convex functions, we propose to choose a distribution for perturbations that minimizes the mean squared error (MSE) of the gradient estimate. We derive three such distributions with provably smaller MSE than Gaussian smoothing. We conduct evaluations of the three sampling distributions on linear regression, reinforcement learning, and DFO benchmarks in order to validate our claims. Our proposal improves on GS with the same computational complexity, and are usually competitive with and often outperform Guided ES and Orthogonal ES, two computationally more expensive algorithms that adapt the covariance matrix of normally distributed perturbations.
翻訳日:2022-11-29 20:37:03 公開日:2022-11-27
# ギャンブルって誰? マルチモーダル検索法による暗号ギャンブラーの探索

Who is Gambling? Finding Cryptocurrency Gamblers Using Multi-modal Retrieval Methods ( http://arxiv.org/abs/2211.14779v1 )

ライセンス: Link先を確認
Zhengjie Huang, Zhenguang Liu, Jianhai Chen, Qinming He, Shuang Wu, Lei Zhu, Meng Wang(参考訳) 暗号通貨の人気とブロックチェーン技術の目覚ましい発展により、分散アプリケーションはインターネットの革命的な力として現れた。 一方、分散アプリケーションもオンラインギャンブルコミュニティから強い関心を集めており、スマートコントラクトの助けを借りて分散ギャンブルプラットフォームが作られるようになっている。 従来のギャンブルプラットフォームと比較すると、分散ギャンブルは透明なルールと低い参加しきい値を持ち、かなりの数のギャンブラーを惹きつける。 ギャンブルの振る舞いを発見し,ギャンブルに関わる契約や住所を特定するために,ETHGamDetというツールを提案する。 このツールは、スマートコントラクトコードとトランザクションレコードを精査することで、ギャンブルに関わるスマートコントラクトとアドレスを自動的に検出することができる。 興味深いことに、我々はメモリコンポーネントを備えた新しいlightgbmモデルを提案する。 サイドコントリビュートとして、この分野の将来の研究を促進するために、大規模なギャンブルデータセットをhttps://github.com/awesomehuang/bitcoin-gambling-datasetで構築し、リリースします。 ETHGamDetは、アドレス分類と契約分類においてそれぞれ0.72と0.89のF1スコアを獲得し、新しい興味深い洞察を提供する。

With the popularity of cryptocurrencies and the remarkable development of blockchain technology, decentralized applications emerged as a revolutionary force for the Internet. Meanwhile, decentralized applications have also attracted intense attention from the online gambling community, with more and more decentralized gambling platforms created through the help of smart contracts. Compared with conventional gambling platforms, decentralized gambling have transparent rules and a low participation threshold, attracting a substantial number of gamblers. In order to discover gambling behaviors and identify the contracts and addresses involved in gambling, we propose a tool termed ETHGamDet. The tool is able to automatically detect the smart contracts and addresses involved in gambling by scrutinizing the smart contract code and address transaction records. Interestingly, we present a novel LightGBM model with memory components, which possesses the ability to learn from its own misclassifications. As a side contribution, we construct and release a large-scale gambling dataset at https://github.com/AwesomeHuang/Bitcoin-Gambling-Dataset to facilitate future research in this field. Empirically, ETHGamDet achieves a F1-score of 0.72 and 0.89 in address classification and contract classification respectively, and offers novel and interesting insights.
翻訳日:2022-11-29 20:36:46 公開日:2022-11-27
# 波動流:滑らかな正規化流れにおける境界条件の強制とフェルミオン波動関数への応用

Waveflow: Enforcing boundary conditions in smooth normalizing flows with application to fermionic wave functions ( http://arxiv.org/abs/2211.14839v1 )

ライセンス: Link先を確認
Luca Thiede, Chong Sun, Al\'an Aspuru-Guzik(参考訳) 本稿では,まず,流れの正規化というトポロジー問題を扱う新しい方法を提案する。 次に, 境界条件のクラスを正規化フローに強制する手法について述べる。 第三に、以前の研究と同様、スプラインを利用するI-Spline bijectionを導入するが、これらの作品とは対照的に、任意に微分できることが多い。 そして最後に,これらの手法を用いて,mmcや正規化定数の推定を必要とせず,変動量子モンテカルロを用いて効率的に学習できる実空間における1次元多粒子フェルミオン波動関数のアンサッツであるwaveflowを作成する。 フェルミオン波動関数の必要な反対称性を強制するために、置換群の基本領域のみに正規化フローを訓練し、境界値問題に効果的に還元する。

In this paper, we introduce four main novelties: First, we present a new way of handling the topology problem of normalizing flows. Second, we describe a technique to enforce certain classes of boundary conditions onto normalizing flows. Third, we introduce the I-Spline bijection, which, similar to previous work, leverages splines but, in contrast to those works, can be made arbitrarily often differentiable. And finally, we use these techniques to create Waveflow, an Ansatz for the one-space-dimensional multi-particle fermionic wave functions in real space based on normalizing flows, that can be efficiently trained with Variational Quantum Monte Carlo without the need for MCMC nor estimation of a normalization constant. To enforce the necessary anti-symmetry of fermionic wave functions, we train the normalizing flow only on the fundamental domain of the permutation group, which effectively reduces it to a boundary value problem.
翻訳日:2022-11-29 20:36:22 公開日:2022-11-27
# CorrectNet: 誤り抑制と補償によるニューラルネットワークのアナログインメモリコンピューティングのロバスト性向上

CorrectNet: Robustness Enhancement of Analog In-Memory Computing for Neural Networks by Error Suppression and Compensation ( http://arxiv.org/abs/2211.14917v1 )

ライセンス: Link先を確認
Amro Eldebiky, Grace Li Zhang, Georg Boecherer, Bing Li, Ulf Schlichtmann(参考訳) 過去10年間、多くの分野におけるディープニューラルネットワーク(DNN)のブレークスルーを目撃してきた。 DNNの深みが増すにつれ、数億の乗算および累積(MAC)操作を実行する必要がある。 このような演算を効率的に高速化するために、抵抗RAM(RRAM)のような新興デバイスに基づくアナログインメモリコンピューティングプラットフォームが導入された。 これらの加速プラットフォームはデバイスのアナログ特性に依存しており、プロセスの変化やノイズに悩まされている。 その結果、これらのプラットフォームに設定されたニューラルネットワークの重みは期待値から逸脱し、特徴誤差と推論精度の大幅な低下につながる可能性がある。 この問題に対処するため,本稿では,ニューラルネットワークの変動と雑音下での堅牢性を高める枠組みを提案する。 まず,ニューラルネットワークトレーニング中に修正されたリプシッツ定数正則化を提案し,ネットワーク層を伝播する誤りの増幅を抑制する。 その後、補足学習によって決定される必要箇所でエラー補償を導入し、残りのエラーで特徴マップを救出する。 実験の結果、ニューラルネットワークの推論精度は、変動とノイズの下で1.69%以下から元の精度の95%以上まで回復でき、トレーニングとハードウェアコストは無視できることがわかった。

The last decade has witnessed the breakthrough of deep neural networks (DNNs) in many fields. With the increasing depth of DNNs, hundreds of millions of multiply-and-accumulate (MAC) operations need to be executed. To accelerate such operations efficiently, analog in-memory computing platforms based on emerging devices, e.g., resistive RAM (RRAM), have been introduced. These acceleration platforms rely on analog properties of the devices and thus suffer from process variations and noise. Consequently, weights in neural networks configured into these platforms can deviate from the expected values, which may lead to feature errors and a significant degradation of inference accuracy. To address this issue, in this paper, we propose a framework to enhance the robustness of neural networks under variations and noise. First, a modified Lipschitz constant regularization is proposed during neural network training to suppress the amplification of errors propagated through network layers. Afterwards, error compensation is introduced at necessary locations determined by reinforcement learning to rescue the feature maps with remaining errors. Experimental results demonstrate that inference accuracy of neural networks can be recovered from as low as 1.69% under variations and noise back to more than 95% of their original accuracy, while the training and hardware cost are negligible.
翻訳日:2022-11-29 20:36:05 公開日:2022-11-27
# タンパク質構造予測のためのhpモデルへの深層強化学習の適用

Applying Deep Reinforcement Learning to the HP Model for Protein Structure Prediction ( http://arxiv.org/abs/2211.14939v1 )

ライセンス: Link先を確認
Kaiyuan Yang, Houjing Huang, Olafs Vandans, Adithya Murali, Fujia Tian, Roland H.C. Yap, Liang Dai(参考訳) 計算生物物理学における中心的な問題はタンパク質構造予測、すなわち与えられたアミノ酸配列の最適な折り畳みを見つけることである。 この問題は古典的な抽象モデルHPモデルで研究され、このタンパク質は格子上のH(ヒドロホビック)とP(極性)アミノ酸の配列としてモデル化されている。 目的はH-H接触を最大化するコンフォメーションを見つけることである。 この還元された設定でさえ、問題は難解(NPハード)であることが知られている。 本研究では,2次元HPモデルに深部強化学習(DRL)を適用した。 20から50の長さのベンチマークhpシーケンスの最もよく知られたエネルギーのコンフォメーションを得ることができる。 我々のDRLはディープQネットワーク(DQN)に基づいている。 長寿命メモリ(LSTM)アーキテクチャに基づくDQNは、RL学習能力を大幅に向上し、探索処理を大幅に改善する。 DRLは手動のヒューリスティックを必要とせずに、状態空間を効率的にサンプリングすることができる。 実験により,試行錯誤による解が複数存在することがわかった。 本研究は,タンパク質折り畳みモデルにおける深部強化学習の有効性を示す。

A central problem in computational biophysics is protein structure prediction, i.e., finding the optimal folding of a given amino acid sequence. This problem has been studied in a classical abstract model, the HP model, where the protein is modeled as a sequence of H (hydrophobic) and P (polar) amino acids on a lattice. The objective is to find conformations maximizing H-H contacts. It is known that even in this reduced setting, the problem is intractable (NP-hard). In this work, we apply deep reinforcement learning (DRL) to the two-dimensional HP model. We can obtain the conformations of best known energies for benchmark HP sequences with lengths from 20 to 50. Our DRL is based on a deep Q-network (DQN). We find that a DQN based on long short-term memory (LSTM) architecture greatly enhances the RL learning ability and significantly improves the search process. DRL can sample the state space efficiently, without the need of manual heuristics. Experimentally we show that it can find multiple distinct best-known solutions per trial. This study demonstrates the effectiveness of deep reinforcement learning in the HP model for protein folding.
翻訳日:2022-11-29 20:35:43 公開日:2022-11-27
# 未知の介入下でのガウス構造因果モデルのキャラクタリゼーションと欲望学習

Characterization and Greedy Learning of Gaussian Structural Causal Models under Unknown Interventions ( http://arxiv.org/abs/2211.14897v1 )

ライセンス: Link先を確認
Juan L. Gamella, Armeen Taeb, Christina Heinze-Deml, Peter B\"uhlmann(参考訳) 我々は,各実験における介入対象が不明な場合,異なる実験条件からの観測結果に基づく因果構造回復の問題を考える。 付加的なガウス雑音を伴う線形構造因果モデルを仮定し、システム内の因果関係を維持しながら目標を乱す介入を検討する。 異なるモデルは同じ分布を伴い、与えられた観測に対して競合する因果説明を提供する。 我々は、この同値クラスを完全に特徴付け、GnIESと呼ばれる欲求アルゴリズムを導出し、介入対象を知らずにデータ生成モデルの同値クラスを復元する。 さらに,既知な因果的基底真理を持つ半合成的データセットを生成する新しい手法を開発した。 我々は,この手法を活用し,合成,実,半合成データセット上でのGnIESの性能を評価する。 ガウス分布の強い仮定にもかかわらず、GnIESはモデル違反の配列に対して堅牢であり、小さなから大きなサンプル設定で因果構造を復元する競争力がある。 我々は,Pythonパッケージの"gnies"と"sempler"において,GnIESの実装と半合成データ生成手順を提供する。

We consider the problem of recovering the causal structure underlying observations from different experimental conditions when the targets of the interventions in each experiment are unknown. We assume a linear structural causal model with additive Gaussian noise and consider interventions that perturb their targets while maintaining the causal relationships in the system. Different models may entail the same distributions, offering competing causal explanations for the given observations. We fully characterize this equivalence class and offer identifiability results, which we use to derive a greedy algorithm called GnIES to recover the equivalence class of the data-generating model without knowledge of the intervention targets. In addition, we develop a novel procedure to generate semi-synthetic data sets with known causal ground truth but distributions closely resembling those of a real data set of choice. We leverage this procedure and evaluate the performance of GnIES on synthetic, real, and semi-synthetic data sets. Despite the strong Gaussian distributional assumption, GnIES is robust to an array of model violations and competitive in recovering the causal structure in small- to large-sample settings. We provide, in the Python packages "gnies" and "sempler", implementations of GnIES and our semi-synthetic data generation procedure.
翻訳日:2022-11-29 20:27:14 公開日:2022-11-27
# ショット意味セグメンテーションのクエリとしてのプロトタイプ

Prototype as Query for Few Shot Semantic Segmentation ( http://arxiv.org/abs/2211.14764v1 )

ライセンス: Link先を確認
Leilei Cao, Yibo Guo, Ye Yuan and Qiangguo Jin(参考訳) Few-shot Semantic Segmentation (FSS) は、クエリイメージに未確認のクラスをセグメントするために提案され、サポートイメージという名前の注釈付き例をいくつか挙げた。 FSSの特徴の1つは、例えばテクスチャや外観など、クエリとサポートターゲットの間の空間的不整合である。 これは、クエリイメージとサポート例の依存性を効果的に活用する必要があるFSSのメソッドの一般化能力に大きく挑戦する。 既存の手法の多くは、サポート機能をプロトタイプベクターに抽象化し、コサイン類似性や特徴連結を用いたクエリ機能とのインタラクションを実装した。 しかし、この単純なインタラクションはクエリ特徴の空間的詳細を捉えないかもしれない。 この制限を軽減するために,Transformer のアテンション機構により実装された,ペアクエリとサポート機能との画素単位の相関を計算して,すべての画素単位のサポート情報を利用する方法がいくつかある。 これらのアプローチは、サポートとクエリ機能の全ピクセル間のドット製品注意の重い計算に苦しむ。 本稿では,protoformer と呼ばれるtransformer を基盤として,クエリ機能の空間的詳細を完全に把握する簡易かつ効果的なフレームワークを提案する。 対象クラスの抽象化されたプロトタイプをクエリとしてサポートし、クエリ機能はtransformerデコーダに入力されるキーと値の埋め込みとして見る。 このようにして、空間的詳細をよりよく捉え、クエリ画像中のターゲットクラスのセマンティックな特徴に焦点を合わせることができる。 トランスベースモジュールの出力は、拡張されたクエリ機能からセグメンテーションマスクをフィルタするセマンティックアウェアな動的カーネルと見なすことができる。 PASCAL-$5^{i}$とCOCO-$20^{i}$の大規模な実験は、我々のProtoFormerが最先端の手法を大幅に進歩させることを示している。

Few-shot Semantic Segmentation (FSS) was proposed to segment unseen classes in a query image, referring to only a few annotated examples named support images. One of the characteristics of FSS is spatial inconsistency between query and support targets, e.g., texture or appearance. This greatly challenges the generalization ability of methods for FSS, which requires to effectively exploit the dependency of the query image and the support examples. Most existing methods abstracted support features into prototype vectors and implemented the interaction with query features using cosine similarity or feature concatenation. However, this simple interaction may not capture spatial details in query features. To alleviate this limitation, a few methods utilized all pixel-wise support information via computing the pixel-wise correlations between paired query and support features implemented with the attention mechanism of Transformer. These approaches suffer from heavy computation on the dot-product attention between all pixels of support and query features. In this paper, we propose a simple yet effective framework built upon Transformer termed as ProtoFormer to fully capture spatial details in query features. It views the abstracted prototype of the target class in support features as Query and the query features as Key and Value embeddings, which are input to the Transformer decoder. In this way, the spatial details can be better captured and the semantic features of target class in the query image can be focused. The output of the Transformer-based module can be viewed as semantic-aware dynamic kernels to filter out the segmentation mask from the enriched query features. Extensive experiments on PASCAL-$5^{i}$ and COCO-$20^{i}$ show that our ProtoFormer significantly advances the state-of-the-art methods.
翻訳日:2022-11-29 20:10:44 公開日:2022-11-27
# ハイパースペクトル画像復調のための準リカレントニューラルネットワークの改良

Improved Quasi-Recurrent Neural Network for Hyperspectral Image Denoising ( http://arxiv.org/abs/2211.14811v1 )

ライセンス: Link先を確認
Zeqiang Lai, Ying Fu(参考訳) ハイパースペクトル画像はその豊富なスペクトル帯域に対して一意で有用であるが、その後、強固で強力なhsi復元アルゴリズムを構築するためのスペクトルに沿った大域的相関と同様に、空間スペクトル相関の詳細な処理が必要である。 このようなHSI特性を考慮すると、3D Quasi-Recurrent Neural Network (QRNN3D) は優れた性能と柔軟性を実現することが示されているHSI denoising Networkの1つである。 本稿では,簡単な修正でqrnn3dの性能が大幅に向上することを示す。 我々の修正は、QRNN3Dがスペクトル相関をモデル化するのに強力であることから、異なるソースの特徴間の適切な処理を無視し、トレーニング戦略が最適であることを示す。 そこで我々は,エンコーダとデコーダの特徴をよりよく融合するために,そのバニラ付加型スキップ接続を代替する適応型フュージョンモジュールを導入する。 さらに、バッチ正規化の除去、余分な周波数損失の使用、学習率のウォームアップなど、パフォーマンスをさらに向上する重要なテクニックをいくつか挙げる。 各種ノイズ設定実験の結果,提案手法の有効性と性能が示された。

Hyperspectral image is unique and useful for its abundant spectral bands, but it subsequently requires extra elaborated treatments of the spatial-spectral correlation as well as the global correlation along the spectrum for building a robust and powerful HSI restoration algorithm. By considering such HSI characteristics, 3D Quasi-Recurrent Neural Network (QRNN3D) is one of the HSI denoising networks that has been shown to achieve excellent performance and flexibility. In this paper, we show that with a few simple modifications, the performance of QRNN3D could be substantially improved further. Our modifications are based on the finding that through QRNN3D is powerful for modeling spectral correlation, it neglects the proper treatment between features from different sources and its training strategy is suboptimal. We, therefore, introduce an adaptive fusion module to replace its vanilla additive skip connection to better fuse the features of the encoder and decoder. We additionally identify several important techniques to further enhance the performance, which includes removing batch normalization, use of extra frequency loss, and learning rate warm-up. Experimental results on various noise settings demonstrate the effectiveness and superior performance of our method.
翻訳日:2022-11-29 20:10:13 公開日:2022-11-27
# リアルな水中データセット生成と色復元に向けて

Towards Realistic Underwater Dataset Generation and Color Restoration ( http://arxiv.org/abs/2211.14821v1 )

ライセンス: Link先を確認
Neham Jain, Gopi Matta, Kaushik Mitra(参考訳) 水中画像から真の色の回復は不適切な問題である。 これはRGB色チャネルの広帯域減衰係数がモデル化が難しい対象範囲や反射率などに依存するためである。 また、水中の懸濁粒子による後方散乱もある。 したがって、既存の深層学習に基づく色復元法は、合成水中データセットに基づいて訓練されており、実際の水中データではうまく機能しない。 これは、合成データが実際の状態を正確に表現できないという事実による。 この問題に対処するために,画像翻訳ネットワークを用いて合成水中ドメインから実際の水中ドメインへの画像変換を行い,合成水中ドメインと実際のドメインとのギャップを埋める。 このマルチモーダルドメイン適応手法を用いて,様々な水中条件をキャプチャ可能なデータセットを作成する。 次に、ドメイン適応データセットに基づいて、単純で効果的なcnnベースのネットワークをトレーニングし、カラー復元を行います。 コードおよび事前訓練されたモデルはhttps://github.com/nehamjain10/TRUDGCRでアクセスすることができる。

Recovery of true color from underwater images is an ill-posed problem. This is because the wide-band attenuation coefficients for the RGB color channels depend on object range, reflectance, etc. which are difficult to model. Also, there is backscattering due to suspended particles in water. Thus, most existing deep-learning based color restoration methods, which are trained on synthetic underwater datasets, do not perform well on real underwater data. This can be attributed to the fact that synthetic data cannot accurately represent real conditions. To address this issue, we use an image to image translation network to bridge the gap between the synthetic and real domains by translating images from synthetic underwater domain to real underwater domain. Using this multimodal domain adaptation technique, we create a dataset that can capture a diverse array of underwater conditions. We then train a simple but effective CNN based network on our domain adapted dataset to perform color restoration. Code and pre-trained models can be accessed at https://github.com/nehamjain10/TRUDGCR
翻訳日:2022-11-29 20:09:51 公開日:2022-11-27
# 医用画像セグメンテーションレビュー:u-netの成功

Medical Image Segmentation Review: The success of U-Net ( http://arxiv.org/abs/2211.14830v1 )

ライセンス: Link先を確認
Reza Azad, Ehsan Khodapanah Aghdam, Amelie Rauland, Yiwei Jia, Atlas Haddadi Avval, Afshin Bozorgpour, Sanaz Karimijafarbigloo, Joseph Paul Cohen, Ehsan Adeli, Dorit Merhof(参考訳) 自動画像分割は医療領域において重要な課題であり,コンピュータ支援診断パラダイムにおいて重要な課題である。 U-Netは、その柔軟性、最適化されたモジュラー設計、およびすべての医療画像モダリティの成功により、最も広く使われているイメージセグメンテーションアーキテクチャである。 長年にわたって、u-netモデルは学術および産業の研究者から多大な注目を集めた。 このネットワークのいくつかの拡張は、医療タスクによって生み出される規模と複雑さに対処するために提案されている。 単純なU-Netモデルの欠如に対処することは、ベンダーが自身のビジネスに適切なU-Net変種モデルを利用するための最優先ステップである。 異なる変種をひとつにまとめることで、ビルダーが関連する研究を識別しやすくなる。 また、ML研究者にとって、モデルに挑戦する生物学的タスクの課題を理解するのに役立つだろう。 そこで我々は,U-Netモデルの実践的側面について論じ,各ネットワーク変種を分類する分類法を提案する。 さらに,臨床応用におけるこれらの戦略の性能を評価するために,よく知られたデータセット上での特異かつ有名な設計の公正な評価を提案する。 今後の研究のために,学習モデルを用いた包括的実装ライブラリを提供する。 さらに、将来の研究を容易にするために、公式実装可能なu-net論文のオンラインリストを作成しました。 すべての情報はhttps://github.com/NITR098/Awesome-U-Netリポジトリで収集される。

Automatic medical image segmentation is a crucial topic in the medical domain and successively a critical counterpart in the computer-aided diagnosis paradigm. U-Net is the most widespread image segmentation architecture due to its flexibility, optimized modular design, and success in all medical image modalities. Over the years, the U-Net model achieved tremendous attention from academic and industrial researchers. Several extensions of this network have been proposed to address the scale and complexity created by medical tasks. Addressing the deficiency of the naive U-Net model is the foremost step for vendors to utilize the proper U-Net variant model for their business. Having a compendium of different variants in one place makes it easier for builders to identify the relevant research. Also, for ML researchers it will help them understand the challenges of the biological tasks that challenge the model. To address this, we discuss the practical aspects of the U-Net model and suggest a taxonomy to categorize each network variant. Moreover, to measure the performance of these strategies in a clinical application, we propose fair evaluations of some unique and famous designs on well-known datasets. We provide a comprehensive implementation library with trained models for future research. In addition, for ease of future studies, we created an online list of U-Net papers with their possible official implementation. All information is gathered in https://github.com/NITR098/Awesome-U-Net repository.
翻訳日:2022-11-29 20:09:38 公開日:2022-11-27
# より高速で軽量で強力な深層学習に基づく位置認識手法

A Faster, Lighter and Stronger Deep Learning-Based Approach for Place Recognition ( http://arxiv.org/abs/2211.14864v1 )

ライセンス: Link先を確認
Rui Huang, Ze Huang, Songzhi Su(参考訳) 視覚的位置認識は、カメラのローカライゼーションとループのクロージャ検出に不可欠なシステムであり、コンピュータビジョン、ロボティクス、AR/VRといった複数の領域に広く関心を集めている。 本研究では,パラメータの少ないモデルを生成することができ,推論に要する時間を短縮できる,高速で軽量で強力な手法を提案する。 当社のアーキテクチャではバックボーンネットワークとしてrevgg-liteを設計しましたが、プレース認識タスクでは他の一般的なネットワークよりも差別的です。 RepVG-liteは、より高い性能を実現しつつ、より高速な利点がある。 機能抽出段階において,グローバルディスクリプタからパッチレベルの記述子を1つだけ抽出する。 次に,注意機構に基づく特徴の空間的関係と視覚的外観の両方を利用するために,学習可能な特徴マッチング器を設計する。 挑戦的なベンチマークデータセットに関する総合的な実験は、提案手法が最近の最先端の学習アプローチより優れており、推論速度がさらに高いことを実証している。 提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。 さらに、我々のアプローチのパフォーマンスはRecall@1のPatch-NetVLADよりも0.55%向上しています。 Mapillary Street Level Sequencesデータセットのサブセットを使用して、他のすべての困難な条件に対する実験を行いました。

Visual Place Recognition is an essential component of systems for camera localization and loop closure detection, and it has attracted widespread interest in multiple domains such as computer vision, robotics and AR/VR. In this work, we propose a faster, lighter and stronger approach that can generate models with fewer parameters and can spend less time in the inference stage. We designed RepVGG-lite as the backbone network in our architecture, it is more discriminative than other general networks in the Place Recognition task. RepVGG-lite has more speed advantages while achieving higher performance. We extract only one scale patch-level descriptors from global descriptors in the feature extraction stage. Then we design a trainable feature matcher to exploit both spatial relationships of the features and their visual appearance, which is based on the attention mechanism. Comprehensive experiments on challenging benchmark datasets demonstrate the proposed method outperforming recent other state-of-the-art learned approaches, and achieving even higher inference speed. Our system has 14 times less params than Patch-NetVLAD, 6.8 times lower theoretical FLOPs, and run faster 21 and 33 times in feature extraction and feature matching. Moreover, the performance of our approach is 0.5\% better than Patch-NetVLAD in Recall@1. We used subsets of Mapillary Street Level Sequences dataset to conduct experiments for all other challenging conditions.
翻訳日:2022-11-29 20:09:16 公開日:2022-11-27
# 3inGAN: 自己相似シーンの画像から3次元生成モデルを学ぶ

3inGAN: Learning a 3D Generative Model from Images of a Self-similar Scene ( http://arxiv.org/abs/2211.14902v1 )

ライセンス: Link先を確認
Animesh Karnewar and Oliver Wang and Tobias Ritschel and Niloy Mitra(参考訳) 自己相似3dシーンの2d画像から学習した無条件3d生成モデルである3inganを紹介する。 このようなモデルは、空間的潜在コードから3dボリューム表現にマッピングすることで、与えられたシーンの3d「リミックス」を作成するために使用することができ、その後、物理ベースのボリュームレンダリングを使用して任意のビューからレンダリングすることができる。 建設段階では、生成されたシーンは任意のカメラ構成で表示に一貫性があり、フリックや時空間のアーティファクトはない。 トレーニングでは,異なるボリュームトレースによって得られた2Dと,複数のスケールにわたるGAN(Generative Adversarial Network)損失を組み合わせ,その3D構造と2Dレンダリングの両方にリアリズムを強制する。 実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。 そこで,本研究では,実演場面から3次元映像変化を学習する可能性を示すとともに,近年の手法との質的・定量的比較を行った。

We introduce 3inGAN, an unconditional 3D generative model trained from 2D images of a single self-similar 3D scene. Such a model can be used to produce 3D "remixes" of a given scene, by mapping spatial latent codes into a 3D volumetric representation, which can subsequently be rendered from arbitrary views using physically based volume rendering. By construction, the generated scenes remain view-consistent across arbitrary camera configurations, without any flickering or spatio-temporal artifacts. During training, we employ a combination of 2D, obtained through differentiable volume tracing, and 3D Generative Adversarial Network (GAN) losses, across multiple scales, enforcing realism on both its 3D structure and the 2D renderings. We show results on semi-stochastic scenes of varying scale and complexity, obtained from real and synthetic sources. We demonstrate, for the first time, the feasibility of learning plausible view-consistent 3D scene variations from a single exemplar scene and provide qualitative and quantitative comparisons against recent related methods.
翻訳日:2022-11-29 20:08:52 公開日:2022-11-27
# 深層学習によるマルチラベル胸部X線分類

Multi-Label Chest X-Ray Classification via Deep Learning ( http://arxiv.org/abs/2211.14929v1 )

ライセンス: Link先を確認
Aravind Sasidharan Pillai(参考訳) パンデミックのこの時代には、医療産業の未来はかつてないほどエキサイティングだった。 人工知能と機械学習(AI & ML)は、業界内で非常に特定のニーズに対応するソリューションを開発する機会を提供する。 医療におけるディープラーニングは、診療所を支援し、患者のケア全般を変える上で非常に強力だった。 深層学習は、肉眼で知覚できるもの以外の画像における臨床的に重要な特徴の検出にますます応用されている。 胸部X線画像は、肺炎、肺癌などの多くの疾患や、病変や骨折などの多くの異常を診断する最も一般的な臨床方法の1つである。 X線画像からの疾患の適切な診断は、専門家の放射線学者にとっても難しい課題であり、X線画像に符号化された大量の情報のために、コンピュータ支援システムの必要性が高まっている。 本研究の目的は,X線画像から14種類の胸部状態を検出する軽量なソリューションを開発することである。 入力としてx線画像が与えられると、分類器は14の病クラスのうちどれに画像が収まるかを示すラベルベクターを出力する。 画像機能に加えて、x線ビューの種類、年齢、性別など、データで利用可能な非画像機能も使用します。 Stanford ML Groupが実施した最初の研究は、私たちのベースラインです。 当初の研究は5つの疾患の予測に焦点を当てていた。 本研究の目的は,これまでの研究を改良し,予測を14疾患に拡大し,将来の胸部x線撮影研究への洞察を提供することである。

In this era of pandemic, the future of healthcare industry has never been more exciting. Artificial intelligence and machine learning (AI & ML) present opportunities to develop solutions that cater for very specific needs within the industry. Deep learning in healthcare had become incredibly powerful for supporting clinics and in transforming patient care in general. Deep learning is increasingly being applied for the detection of clinically important features in the images beyond what can be perceived by the naked human eye. Chest X-ray images are one of the most common clinical method for diagnosing a number of diseases such as pneumonia, lung cancer and many other abnormalities like lesions and fractures. Proper diagnosis of a disease from X-ray images is often challenging task for even expert radiologists and there is a growing need for computerized support systems due to the large amount of information encoded in X-Ray images. The goal of this paper is to develop a lightweight solution to detect 14 different chest conditions from an X ray image. Given an X-ray image as input, our classifier outputs a label vector indicating which of 14 disease classes does the image fall into. Along with the image features, we are also going to use non-image features available in the data such as X-ray view type, age, gender etc. The original study conducted Stanford ML Group is our base line. Original study focuses on predicting 5 diseases. Our aim is to improve upon previous work, expand prediction to 14 diseases and provide insight for future chest radiography research.
翻訳日:2022-11-29 20:08:34 公開日:2022-11-27
# 勧告のための不偏知識蒸留

Unbiased Knowledge Distillation for Recommendation ( http://arxiv.org/abs/2211.14729v1 )

ライセンス: Link先を確認
Gang Chen, Jiawei Chen, Fuli Feng, Sheng Zhou, Xiangnan He(参考訳) モデル圧縮のための有望なソリューションとして、推論遅延を低減するために知識蒸留(KD)が推奨システム(RS)に適用されている。 従来のソリューションは、まずトレーニングデータから完全な教師モデルをトレーニングし、その知識(\ie \textit{soft labels})を変換して、コンパクトな学生モデルの学習を監督する。 しかし, このような標準的な蒸留パラダイムは, 蒸留後, 人気項目がより強く推奨され, 学生モデルが正確かつ公正な推薦を行うことを防ぎ, RSの有効性を低下させることで, KDのバイアスの起源を突き止めることによって, 教師の偏りのあるソフトラベルに根ざし, 蒸留期間中にさらに普及・強化されることが判明した。 そこで本研究では, 成層蒸留方式による新しいKD法を提案する。 まず、人気に応じてアイテムを複数のグループに分割し、各グループ内のランキング知識を抽出し、生徒の学習を監督する。 本手法は単純かつ教師に依存しないもので,教師モデルの訓練に影響を与えることなく蒸留段階で動作する。 本提案の有効性を検証するため, 広範な理論的, 実証的研究を行った。 コードはhttps://github.com/chengang95/unkd.com/でリリースします。

As a promising solution for model compression, knowledge distillation (KD) has been applied in recommender systems (RS) to reduce inference latency. Traditional solutions first train a full teacher model from the training data, and then transfer its knowledge (\ie \textit{soft labels}) to supervise the learning of a compact student model. However, we find such a standard distillation paradigm would incur serious bias issue -- popular items are more heavily recommended after the distillation. This effect prevents the student model from making accurate and fair recommendations, decreasing the effectiveness of RS. In this work, we identify the origin of the bias in KD -- it roots in the biased soft labels from the teacher, and is further propagated and intensified during the distillation. To rectify this, we propose a new KD method with a stratified distillation strategy. It first partitions items into multiple groups according to their popularity, and then extracts the ranking knowledge within each group to supervise the learning of the student. Our method is simple and teacher-agnostic -- it works on distillation stage without affecting the training of the teacher model. We conduct extensive theoretical and empirical studies to validate the effectiveness of our proposal. We release our code at: https://github.com/chengang95/UnKD.
翻訳日:2022-11-29 19:50:35 公開日:2022-11-27
# 関数型オブジェクト指向ネットワークを用いた知識検索

Knowledge Retrieval Using Functional Object-Oriented Networks ( http://arxiv.org/abs/2211.14896v1 )

ライセンス: Link先を確認
Gabriel Laverghetta(参考訳) ロボットエージェントはしばしば、入力オブジェクトのセットを機能的動作によって出力オブジェクトに変換するタスクを実行する。 本研究はロボットタスクのフォオン知識表現モデルについて述べる。 FOONの構造とキーコンポーネントを定義し、従ったプロセスを説明し、汎用FOONデータセットを作成します。 本稿では、FOON内のオブジェクトの探索に使用した様々な検索アルゴリズムとヒューリスティック機能について述べる。 これらのアルゴリズムを用いてユニバーサルフォオンを複数回検索し,各アルゴリズムの有効性について検討した。

Robotic agents often perform tasks that transform sets of input objects into output objects through functional motions. This work describes the FOON knowledge representation model for robotic tasks. We define the structure and key components of FOON and describe the process we followed to create our universal FOON dataset. The paper describes various search algorithms and heuristic functions we used to search for objects within the FOON. We performed multiple searches on our universal FOON using these algorithms and discussed the effectiveness of each algorithm.
翻訳日:2022-11-29 19:50:12 公開日:2022-11-27
# フェデレーション・ラーニングの攻撃と防衛:調査

Federated Learning Attacks and Defenses: A Survey ( http://arxiv.org/abs/2211.14952v1 )

ライセンス: Link先を確認
Yao Chen, Yijie Gui, Hong Lin, Wensheng Gan, Yongdong Wu(参考訳) 人工知能に関しては、サーバーによる機械学習モデルの従来の集中的なトレーニング方法には、セキュリティとプライバシの欠陥がいくつかある。 この制限に対処するため、フェデレートドラーニング(FL)が提案され、‘データサイロ’を分解し、ユーザのプライバシを保護することで知られている。 しかし、FLはセキュリティ、プライバシ、通信コストの高騰などにより、業界内ではまだ人気を博していない。 本研究の推進を目的として, 堅牢なflシステムを構築し, flの幅広い応用を実現するため, 現行のflシステムの攻撃可能性とその防御方法を体系的に整理した。 本稿ではまず,FLの基本ワークフローと関連する攻撃と防御に関する知識について紹介する。 近年研究されているプライバシー盗難と悪意のある攻撃について、多くの研究をレビューしている。 最も重要なのは、現在の3つの分類基準、すなわち機械学習の3つの段階、連合学習における3つの異なる役割、およびプライバシー保護に関するcia(confidentiality, integrity, and availability)ガイドラインの観点から、攻撃アプローチをトレーニング段階と機械学習の予測段階に応じて2つのカテゴリに分割することである。 さらに,攻撃方法や潜在的攻撃の役割に違反するCIAの資産も同定した。 様々な防御機構は、プライバシとセキュリティのレベルから別々に分析される。 最後に,flの適用における課題を攻撃・防衛の観点から要約し,flシステムの今後の展開方向について考察する。 このように、設計されたFLシステムは異なる攻撃に抵抗する能力があり、より安全で安定している。

In terms of artificial intelligence, there are several security and privacy deficiencies in the traditional centralized training methods of machine learning models by a server. To address this limitation, federated learning (FL) has been proposed and is known for breaking down ``data silos" and protecting the privacy of users. However, FL has not yet gained popularity in the industry, mainly due to its security, privacy, and high cost of communication. For the purpose of advancing the research in this field, building a robust FL system, and realizing the wide application of FL, this paper sorts out the possible attacks and corresponding defenses of the current FL system systematically. Firstly, this paper briefly introduces the basic workflow of FL and related knowledge of attacks and defenses. It reviews a great deal of research about privacy theft and malicious attacks that have been studied in recent years. Most importantly, in view of the current three classification criteria, namely the three stages of machine learning, the three different roles in federated learning, and the CIA (Confidentiality, Integrity, and Availability) guidelines on privacy protection, we divide attack approaches into two categories according to the training stage and the prediction stage in machine learning. Furthermore, we also identify the CIA property violated for each attack method and potential attack role. Various defense mechanisms are then analyzed separately from the level of privacy and security. Finally, we summarize the possible challenges in the application of FL from the aspect of attacks and defenses and discuss the future development direction of FL systems. In this way, the designed FL system has the ability to resist different attacks and is more secure and stable.
翻訳日:2022-11-29 19:50:06 公開日:2022-11-27
# ローカルEgo-Networkエンコーディングによる1-WLを超えて

Beyond 1-WL with Local Ego-Network Encodings ( http://arxiv.org/abs/2211.14906v1 )

ライセンス: Link先を確認
Nurudin Alvarez-Gonzalez, Andreas Kaltenbrunner, Vicen\c{c} G\'omez(参考訳) 類似したネットワーク構造を特定することは、グラフ同型を捕捉し、グラフデータに符号化された構造情報を利用する表現を学習する鍵となる。 この研究は、Ego-networksがWeisfeiler-Lehman (1-WL) テストよりも高い表現性を持つ任意のグラフの構造的符号化スキームを作成できることを示している。 IGELは1-WLの表現性を超えたメッセージパッシング(MP)グラフニューラルネットワーク(GNN)を強化した疎ベクトルにエゴネットワークを符号化することでノード表現を増強する機能を生成する。 IGELと1-WLの関係を形式的に記述し,その表現力と限界を特徴付ける。 実験の結果、IGELは7つのGNNアーキテクチャの性能を改善しつつ、同型検出における最先端手法の実証的表現性と一致していることがわかった。

Identifying similar network structures is key to capture graph isomorphisms and learn representations that exploit structural information encoded in graph data. This work shows that ego-networks can produce a structural encoding scheme for arbitrary graphs with greater expressivity than the Weisfeiler-Lehman (1-WL) test. We introduce IGEL, a preprocessing step to produce features that augment node representations by encoding ego-networks into sparse vectors that enrich Message Passing (MP) Graph Neural Networks (GNNs) beyond 1-WL expressivity. We describe formally the relation between IGEL and 1-WL, and characterize its expressive power and limitations. Experiments show that IGEL matches the empirical expressivity of state-of-the-art methods on isomorphism detection while improving performance on seven GNN architectures.
翻訳日:2022-11-29 19:34:45 公開日:2022-11-27
# SteppingNet: インクリメンタルな精度向上を備えたステッピングニューラルネットワーク

SteppingNet: A Stepping Neural Network with Incremental Accuracy Enhancement ( http://arxiv.org/abs/2211.14926v1 )

ライセンス: Link先を確認
Wenhao Sun, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Huaxi Gu, Bing Li, Ulf Schlichtmann(参考訳) ディープニューラルネットワーク(DNN)は、過去数十年で多くの分野で成功している。 しかし、DNNにおける乗算および累積(MAC)操作の増加は、携帯電話や自動運転車などのリソース制約やリソース制限のあるプラットフォームへの適用を妨げている。 このようなプラットフォームでは、ニューラルネットワークは迅速に許容可能な結果を提供する必要があり、コンピュータシステムで利用可能な計算リソースに応じて結果の精度を動的に向上することができる。 これらの課題に対処するため,我々はSteppingNetという設計フレームワークを提案する。 SteppingNetは、MAC操作が利用可能になるにつれて精度が漸進的に向上する一連のサブネットを構築する。 したがって、この設計は精度とレイテンシのトレードオフを可能にする。 さらに、ステッピングネットのより大きなサブネットはより小さなサブネットの上に構築されているため、後者の結果は再計算なしで直接前者で再利用することができる。 このプロパティにより、SteppingNetはさらなるMAC操作を実行して推論精度を高めるかどうかをオンザフライで決定できる。 実験の結果、ステッピングネットは効果的なインクリメンタルな精度向上をもたらし、その推論精度は、同じ計算資源の限界下において最先端の作業を一貫して上回っています。

Deep neural networks (DNNs) have successfully been applied in many fields in the past decades. However, the increasing number of multiply-and-accumulate (MAC) operations in DNNs prevents their application in resource-constrained and resource-varying platforms, e.g., mobile phones and autonomous vehicles. In such platforms, neural networks need to provide acceptable results quickly and the accuracy of the results should be able to be enhanced dynamically according to the computational resources available in the computing system. To address these challenges, we propose a design framework called SteppingNet. SteppingNet constructs a series of subnets whose accuracy is incrementally enhanced as more MAC operations become available. Therefore, this design allows a trade-off between accuracy and latency. In addition, the larger subnets in SteppingNet are built upon smaller subnets, so that the results of the latter can directly be reused in the former without recomputation. This property allows SteppingNet to decide on-the-fly whether to enhance the inference accuracy by executing further MAC operations. Experimental results demonstrate that SteppingNet provides an effective incremental accuracy improvement and its inference accuracy consistently outperforms the state-of-the-art work under the same limit of computational resources.
翻訳日:2022-11-29 19:34:31 公開日:2022-11-27
# ニューラルネットワークのためのクラスベース量子化

Class-based Quantization for Neural Networks ( http://arxiv.org/abs/2211.14928v1 )

ライセンス: Link先を確認
Wenhao Sun, Grace Li Zhang, Huaxi Gu, Bing Li, Ulf Schlichtmann(参考訳) ディープニューラルネットワーク(DNN)では、大量の重みと乗算および累積(MAC)演算がある。 したがって、DNNを携帯電話などのリソース制約のあるプラットフォームに適用することは困難である。 量子化は、DNNのサイズと計算複雑性を減らす方法である。 既存の量子化法では、一様でない量子化を達成するためにハードウェアのオーバーヘッドを必要とするか、モデルワイドと層ワイドの均一な量子化に焦点を当てる。 本稿では,DNNにおける各フィルタやニューロンの最小量子化ビット数を個別に決定するクラスベース量子化法を提案する。 提案手法では、データセット内のクラス数に対する各フィルタまたはニューロンの重要性スコアをまず評価する。 スコアが大きくなるほど、フィルタやニューロンがより重要になり、量子化ビットの数が増える。 その後、フィルタとニューロンの異なる重要性を利用して、各フィルタまたはニューロンの量子化ビット数を決定する探索アルゴリズムが採用される。 実験の結果,提案手法はビット幅の少ない量子化で精度を維持できることがわかった。 同じ数の量子化ビットが与えられると、提案手法は既存の手法よりも優れた推論精度を達成することができる。

In deep neural networks (DNNs), there are a huge number of weights and multiply-and-accumulate (MAC) operations. Accordingly, it is challenging to apply DNNs on resource-constrained platforms, e.g., mobile phones. Quantization is a method to reduce the size and the computational complexity of DNNs. Existing quantization methods either require hardware overhead to achieve a non-uniform quantization or focus on model-wise and layer-wise uniform quantization, which are not as fine-grained as filter-wise quantization. In this paper, we propose a class-based quantization method to determine the minimum number of quantization bits for each filter or neuron in DNNs individually. In the proposed method, the importance score of each filter or neuron with respect to the number of classes in the dataset is first evaluated. The larger the score is, the more important the filter or neuron is and thus the larger the number of quantization bits should be. Afterwards, a search algorithm is adopted to exploit the different importance of filters and neurons to determine the number of quantization bits of each filter or neuron. Experimental results demonstrate that the proposed method can maintain the inference accuracy with low bit-width quantization. Given the same number of quantization bits, the proposed method can also achieve a better inference accuracy than the existing methods.
翻訳日:2022-11-29 19:34:11 公開日:2022-11-27
# 対実的最適化:確率的文脈 MDP におけるレート最適レグレット

Counterfactual Optimism: Rate Optimal Regret for Stochastic Contextual MDPs ( http://arxiv.org/abs/2211.14932v1 )

ライセンス: Link先を確認
Orin Levy and Asaf Cassel and Alon Cohen and Yishay Mansour(参考訳) 確率的文脈 MDP (CMDP) における後悔最小化のためのUC$^3$RLアルゴリズムを提案する。 このアルゴリズムは、実現可能な関数クラスの最小限の仮定の下で動作し、オフラインの最小二乗とログ損失回帰オラクルにアクセスする。 我々のアルゴリズムは効率的で(効率的なオフライン回帰オラクルを仮定すると)、$\widetilde{O}(H^3 \sqrt{T |S| |A|(\log (|\mathcal{F}|/\delta) + \log (|\mathcal{P}|/\delta) )})$ regret guarantee, with $T$, the number of episodes, $S$ the state space, $A$ the action space, $H$ the horizon, $\mathcal{P}$, $\mathcal{F}$は、それぞれ文脈依存のダイナミクスと報酬を近似するために使用される有限関数クラスである。 我々の知識を最大限に活用するため,本アルゴリズムは,一般オフライン関数近似設定下で動作するcmdpsにおいて,最初の効率的かつレート最適後悔最小化アルゴリズムである。

We present the UC$^3$RL algorithm for regret minimization in Stochastic Contextual MDPs (CMDPs). The algorithm operates under the minimal assumptions of realizable function class, and access to offline least squares and log loss regression oracles. Our algorithm is efficient (assuming efficient offline regression oracles) and enjoys an $\widetilde{O}(H^3 \sqrt{T |S| |A|(\log (|\mathcal{F}|/\delta) + \log (|\mathcal{P}|/ \delta) )})$ regret guarantee, with $T$ being the number of episodes, $S$ the state space, $A$ the action space, $H$ the horizon, and $\mathcal{P}$ and $\mathcal{F}$ are finite function classes, used to approximate the context-dependent dynamics and rewards, respectively. To the best of our knowledge, our algorithm is the first efficient and rate-optimal regret minimization algorithm for CMDPs, which operates under the general offline function approximation setting.
翻訳日:2022-11-29 19:33:52 公開日:2022-11-27
# 自己破壊モデル:基礎モデルにおける有害なデュアル使用コストの増加

Self-Destructing Models: Increasing the Costs of Harmful Dual Uses in Foundation Models ( http://arxiv.org/abs/2211.14946v1 )

ライセンス: Link先を確認
Eric Mitchell, Peter Henderson, Christopher D. Manning, Dan Jurafsky, Chelsea Finn(参考訳) 大規模でオープンソースのファンデーションモデルのエコシステムは、多くの新しい問題に機械学習を適用するために必要なラベル付きデータと技術的専門知識を減らした。 しかし、基礎モデルは明らかな二重利用リスクをもたらし、有害かつ有益な機械学習システムを構築するコストを無差別に削減する。 このリスクを軽減するため、基礎モデルに有害なタスクへの適応を阻害し、望ましいタスクに良好なパフォーマンスを保ちながら追加のメカニズムを訓練するタスクブロッキングパラダイムを提案する。 敵が有害な目的のためにツールを使用するのを防ぐメカニズムに触発された、結果のモデルを自己破壊モデルと呼んでいる。 本稿では,メタラーニングや敵対的学習の手法を活用した自己破壊モデル学習のためのアルゴリズムを提案する。 我々は今後の方向性について議論する。

A growing ecosystem of large, open-source foundation models has reduced the labeled data and technical expertise necessary to apply machine learning to many new problems. Yet foundation models pose a clear dual-use risk, indiscriminately reducing the costs of building both harmful and beneficial machine learning systems. To mitigate this risk, we propose the task blocking paradigm, in which foundation models are trained with an additional mechanism to impede adaptation to harmful tasks while retaining good performance on desired tasks. We call the resulting models self-destructing models, inspired by mechanisms that prevent adversaries from using tools for harmful purposes. We present an algorithm for training self-destructing models leveraging techniques from meta-learning and adversarial learning, showing that it can largely prevent a BERT-based model from learning to perform gender identification without harming the model's ability to perform profession classification. We conclude with a discussion of future directions.
翻訳日:2022-11-29 19:33:20 公開日:2022-11-27
# オンラインアンサンブル学習のためのニューラルアーキテクチャ

Neural Architecture for Online Ensemble Continual Learning ( http://arxiv.org/abs/2211.14963v1 )

ライセンス: Link先を確認
Mateusz W\'ojcik, Witold Ko\'sciukiewicz, Tomasz Kajdanowicz, Adam Gonczarek(参考訳) クラス数の増加による継続的学習は難しい課題である。 それぞれの例が正確に1回提示されると、困難が高まり、モデルがオンラインで学ぶ必要がある。 古典的なパラメータ最適化手順を持つ最近の手法は、そのような設定に苦労するか、非微分不可能なコンポーネントやメモリバッファのような制限があることが示されている。 そこで本研究では,エンドツーエンドでニューラルネットワークのアンサンブルを効率的に学習できる完全微分可能なアンサンブル法を提案する。 提案手法は,メモリバッファを使わずにSOTA結果が得られ,参照手法よりも明らかに優れている。 実験により,小アンサンブルの性能も著しく向上し,分類器の数を減らして比較的高い分類精度が得られることを示した。

Continual learning with an increasing number of classes is a challenging task. The difficulty rises when each example is presented exactly once, which requires the model to learn online. Recent methods with classic parameter optimization procedures have been shown to struggle in such setups or have limitations like non-differentiable components or memory buffers. For this reason, we present the fully differentiable ensemble method that allows us to efficiently train an ensemble of neural networks in the end-to-end regime. The proposed technique achieves SOTA results without a memory buffer and clearly outperforms the reference methods. The conducted experiments have also shown a significant increase in the performance for small ensembles, which demonstrates the capability of obtaining relatively high classification accuracy with a reduced number of classifiers.
翻訳日:2022-11-29 19:33:06 公開日:2022-11-27
# 深部ニューラルネットワークの逆ラセマチャー複雑性

Adversarial Rademacher Complexity of Deep Neural Networks ( http://arxiv.org/abs/2211.14966v1 )

ライセンス: Link先を確認
Jiancong Xiao, Yanbo Fan, Ruoyu Sun, Zhi-Quan Luo(参考訳) ディープニューラルネットワークは敵の攻撃に弱い。 理想的には、頑健なモデルは、乱れたトレーニングデータと見えない乱れテストデータの両方でうまく機能する。 摂動トレーニングデータへの適合は困難ではないが,摂動テストデータへの一般化は極めて困難である。 敵の一般化をよりよく理解するために、ディープニューラルネットワークの敵のラデマチャー複雑性(ARC)を研究することが大きな関心事である。 しかし、ARCの定義における敵の損失の分析が困難であるため、多層膜におけるARCの束縛方法はほとんど不明である。 アークには2種類の試みがあった。 1つは、線形および1つの層の場合におけるARCの上界を提供することである。 しかし、これらのアプローチを多層ケースに拡張することは困難に思える。 もう一つの方法は、対向損失を修正し、多重層の場合のそのような代理損失に対してラデマッハ複雑性の上限を与えることである。 しかしながら、そのようなラデマッハ複雑性の変種は有意義な堅牢な一般化ギャップ(RGG)の有界であることが保証されていない。 本稿では、この未解決問題に対する解決策を提供する。 具体的には、ディープニューラルネットワークの逆ラデマチャー複雑性の最初の境界を提供する。 我々のアプローチは数字をカバーしている。 DNNの頑健な関数クラスを処理し、カバー数を計算する方法を提案する。 最後に,我々の境界に関する経験的含意を研究する実験を行い,逆一般化の貧弱さの分析を行う。

Deep neural networks are vulnerable to adversarial attacks. Ideally, a robust model shall perform well on both the perturbed training data and the unseen perturbed test data. It is found empirically that fitting perturbed training data is not hard, but generalizing to perturbed test data is quite difficult. To better understand adversarial generalization, it is of great interest to study the adversarial Rademacher complexity (ARC) of deep neural networks. However, how to bound ARC in multi-layers cases is largely unclear due to the difficulty of analyzing adversarial loss in the definition of ARC. There have been two types of attempts of ARC. One is to provide the upper bound of ARC in linear and one-hidden layer cases. However, these approaches seem hard to extend to multi-layer cases. Another is to modify the adversarial loss and provide upper bounds of Rademacher complexity on such surrogate loss in multi-layer cases. However, such variants of Rademacher complexity are not guaranteed to be bounds for meaningful robust generalization gaps (RGG). In this paper, we provide a solution to this unsolved problem. Specifically, we provide the first bound of adversarial Rademacher complexity of deep neural networks. Our approach is based on covering numbers. We provide a method to handle the robustify function classes of DNNs such that we can calculate the covering numbers. Finally, we provide experiments to study the empirical implication of our bounds and provide an analysis of poor adversarial generalization.
翻訳日:2022-11-29 19:32:55 公開日:2022-11-27
# 制約付き確率連続体型バンディットの正則悲観的最適学習

Rectified Pessimistic-Optimistic Learning for Stochastic Continuum-armed Bandit with Constraints ( http://arxiv.org/abs/2211.14720v1 )

ライセンス: Link先を確認
Hengquan Guo, Qi Zhu, and Xin Liu(参考訳) 本稿では,制約付き確率連続体型バンディット問題(scbwc)について検討し,ブラックボックスの報酬関数 $f(x)$ を,連続空間 $\mathcal x$ 上のブラックボックス制約関数 $g(x)\leq 0$ に対して最適化する。 我々はガウス過程(GP)を介して報酬関数と制約関数をモデル化し、それぞれ報酬関数と制約関数に楽観的および悲観的なGPバンディット学習を取り入れたペナルティベースのフレームワークRPOL(Rectified Pessimistic-Optimistic Learning framework)を提案する。 累積制約違反の計量である$\sum_{t=1}^t(g(x_t))^{+},$は従来の長期制約違反である$\sum_{t=1}^tg(x_t)よりも厳密に強い。 $ ペナルティ更新の修正設計とRPOLの制約関数の悲観的な学習により、累積的制約違反は最小限である。 RPOLは、SCBwCとその変種(例えば遅延フィードバックや非定常環境下で)に対するサブ線形後悔と累積的制約違反を達成できる。 これらの理論結果は制約のない結果と一致する。 我々の実験は、RPOLが既存のベースラインアルゴリズムより優れていることを正当化する。

This paper studies the problem of stochastic continuum-armed bandit with constraints (SCBwC), where we optimize a black-box reward function $f(x)$ subject to a black-box constraint function $g(x)\leq 0$ over a continuous space $\mathcal X$. We model reward and constraint functions via Gaussian processes (GPs) and propose a Rectified Pessimistic-Optimistic Learning framework (RPOL), a penalty-based method incorporating optimistic and pessimistic GP bandit learning for reward and constraint functions, respectively. We consider the metric of cumulative constraint violation $\sum_{t=1}^T(g(x_t))^{+},$ which is strictly stronger than the traditional long-term constraint violation $\sum_{t=1}^Tg(x_t).$ The rectified design for the penalty update and the pessimistic learning for the constraint function in RPOL guarantee the cumulative constraint violation is minimal. RPOL can achieve sublinear regret and cumulative constraint violation for SCBwC and its variants (e.g., under delayed feedback and non-stationary environment). These theoretical results match their unconstrained counterparts. Our experiments justify RPOL outperforms several existing baseline algorithms.
翻訳日:2022-11-29 19:24:50 公開日:2022-11-27
# ReGrAt: Attentionを使ってクラス不均衡を処理するグラフの正規化

ReGrAt: Regularization in Graphs using Attention to handle class imbalance ( http://arxiv.org/abs/2211.14770v1 )

ライセンス: Link先を確認
Neeraja Kirtane, Jeshuren Chelladurai, Balaraman Ravindran, Ashish Tendulkar(参考訳) ノード分類はグラフベースの学習において重要な課題である。 この分野では多くの作業が行われているが、不均衡は無視されている。 実世界のデータは完璧ではなく、ほとんどの場合、表現において不均衡である。 テキストや画像は別として、データはグラフを使って表現できるため、グラフの不均衡に対処することが重要になっている。 ノード分類の文脈では、あるクラスは他のクラスよりも少ない例を持つ。 データ構成の変更は、ノード分類の不均衡に対処する一般的な方法である。 これはデータセットのバランスをとるためにデータを再サンプリングすることで行われる。 しかし、それによって情報が失われたり、データセットにノイズを加えることがある。 そこで本研究では,モデル損失を変化させることで暗黙的に解決する。 具体的には,注意ネットワークが不均衡にどう対処できるかを検討する。 さらに、正規化器を用いてマイノリティノードにより大きな重みを割り当てることで、この不均衡を緩和する。 我々は,いくつかの標準citationベンチマークデータセットにおいて,既存の手法よりも技術結果の状態を実現できる。

Node classification is an important task to solve in graph-based learning. Even though a lot of work has been done in this field, imbalance is neglected. Real-world data is not perfect, and is imbalanced in representations most of the times. Apart from text and images, data can be represented using graphs, and thus addressing the imbalance in graphs has become of paramount importance. In the context of node classification, one class has less examples than others. Changing data composition is a popular way to address the imbalance in node classification. This is done by resampling the data to balance the dataset. However, that can sometimes lead to loss of information or add noise to the dataset. Therefore, in this work, we implicitly solve the problem by changing the model loss. Specifically, we study how attention networks can help tackle imbalance. Moreover, we observe that using a regularizer to assign larger weights to minority nodes helps to mitigate this imbalance. We achieve State of the Art results than the existing methods on several standard citation benchmark datasets.
翻訳日:2022-11-29 19:24:25 公開日:2022-11-27
# 潜伏SHAP:実践的人間解釈可能な説明に向けて

Latent SHAP: Toward Practical Human-Interpretable Explanations ( http://arxiv.org/abs/2211.14797v1 )

ライセンス: Link先を確認
Ron Bitton, Alon Malach, Amiel Meiseles, Satoru Momiyama, Toshinori Araki, Jun Furukawa, Yuval Elovici and Asaf Shabtai(参考訳) モデル非依存特徴帰属アルゴリズム(shapやlimeなど)は、ディープニューラルネットワークのような複雑な分類モデルの決定を説明するユビキタスな手法である。 しかし、複雑な分類モデルは、低レベル(またはエンコード)特徴を訓練した場合に優れた性能をもたらすため、多くの場合、これらのアルゴリズムによって生成された説明は、人間が解釈も利用もできない。 近年,人間の解釈可能な説明の生成を支援する手法が提案されている。それは,モデルの入力特徴を人間解釈可能な特徴にマッピングする完全可逆変換関数を必要とするためである。 本研究では,完全可逆変換関数を必要とせず,人間の解釈可能な説明を提供するブラックボックス機能属性フレームワークであるLatent SHAPを紹介する。 本研究では,(1)可逆変換関数が利用可能である制御実験,(2)可逆変換関数が利用できないセレブの魅力度分類(CelebAデータセットを使用),および,提案手法の徹底的な質的評価を実現することによる遅延SHAPの有効性を実証する。

Model agnostic feature attribution algorithms (such as SHAP and LIME) are ubiquitous techniques for explaining the decisions of complex classification models, such as deep neural networks. However, since complex classification models produce superior performance when trained on low-level (or encoded) features, in many cases, the explanations generated by these algorithms are neither interpretable nor usable by humans. Methods proposed in recent studies that support the generation of human-interpretable explanations are impractical, because they require a fully invertible transformation function that maps the model's input features to the human-interpretable features. In this work, we introduce Latent SHAP, a black-box feature attribution framework that provides human-interpretable explanations, without the requirement for a fully invertible transformation function. We demonstrate Latent SHAP's effectiveness using (1) a controlled experiment where invertible transformation functions are available, which enables robust quantitative evaluation of our method, and (2) celebrity attractiveness classification (using the CelebA dataset) where invertible transformation functions are not available, which enables thorough qualitative evaluation of our method.
翻訳日:2022-11-29 19:24:13 公開日:2022-11-27
# 畳み込みネットワークにおけるスキップ接続のカーネル視点

A Kernel Perspective of Skip Connections in Convolutional Networks ( http://arxiv.org/abs/2211.14810v1 )

ライセンス: Link先を確認
Daniel Barzilai, Amnon Geifman, Meirav Galun and Ronen Basri(参考訳) オーバーパラメータ化残差ネットワーク(ResNet)は、画像処理において最も成功した畳み込みニューラルネットワークである。 ここではガウス過程とニューラルタンジェントカーネルを通してそれらの特性を研究する。 これらのカーネルの明示的な公式を導出し、スペクトルを分析し、インプリート条件数に境界を与える。 その結果, 1) ReLU が活性化すると, 残核の固有値は, スキップ接続が使用されない場合の同じカーネルと比較して多項式的に減衰し, 同様の周波数バイアスを保ちながら, (2) 残核はより局所的に偏りがあることがわかった。 さらに,これらの残核から得られる行列は,スキップ接続のない行列よりも有限深さで良好な条件数が得られることを示し,従って勾配降下によるトレーニングの収束を高速化する。

Over-parameterized residual networks (ResNets) are amongst the most successful convolutional neural architectures for image processing. Here we study their properties through their Gaussian Process and Neural Tangent kernels. We derive explicit formulas for these kernels, analyze their spectra, and provide bounds on their implied condition numbers. Our results indicate that (1) with ReLU activation, the eigenvalues of these residual kernels decay polynomially at a similar rate compared to the same kernels when skip connections are not used, thus maintaining a similar frequency bias; (2) however, residual kernels are more locally biased. Our analysis further shows that the matrices obtained by these residual kernels yield favorable condition numbers at finite depths than those obtained without the skip connections, enabling therefore faster convergence of training with gradient descent.
翻訳日:2022-11-29 19:23:52 公開日:2022-11-27
# コンピュータビジョンのための深層アクティブラーニング:過去と未来

Deep Active Learning for Computer Vision: Past and Future ( http://arxiv.org/abs/2211.14819v1 )

ライセンス: Link先を確認
Rinyoichi Takezoe, Xu Liu, Shunan Mao, Marco Tianyu Chen, Zhanpeng Feng, Shiliang Zhang, Xiaoyu Wang(参考訳) 重要なデータ選択スキーマとして、人工知能(AI)モデルを反復する場合、アクティブな学習が必須のコンポーネントとして現れる。 アプリケーション内で大量のパラメータとデータが空いているディープニューラルネットワークベースのモデルが支配的であることを考慮すると、これはさらに重要になります。 AIモデルの開発に欠かせない役割にもかかわらず、アクティブラーニングの研究は他の研究の方向性ほど集中的ではない。 本稿では、以下の観点から、深いアクティブラーニングアプローチによるアクティブラーニングについて概観する。 1)アクティブラーニングの技術的進歩 2)コンピュータビジョンにおけるアクティブラーニングの応用 3)データ反復に積極的学習を活用した産業システム 4)現在の限界と今後の研究方向 本稿では、現代のAIモデル製造プロセスにおけるアクティブラーニングの重要性を明らかにし、アクティブラーニングにさらなる研究の注意を向けることを期待する。 データ自動化の課題に対処し、自動化された機械学習システムに対処することによって、アクティブな学習は、大規模なモデル生産を促進することによって、AI技術の民主化を促進する。

As an important data selection schema, active learning emerges as the essential component when iterating an Artificial Intelligence (AI) model. It becomes even more critical given the dominance of deep neural network based models, which are composed of a large number of parameters and data hungry, in application. Despite its indispensable role for developing AI models, research on active learning is not as intensive as other research directions. In this paper, we present a review of active learning through deep active learning approaches from the following perspectives: 1) technical advancements in active learning, 2) applications of active learning in computer vision, 3) industrial systems leveraging or with potential to leverage active learning for data iteration, 4) current limitations and future research directions. We expect this paper to clarify the significance of active learning in a modern AI model manufacturing process and to bring additional research attention to active learning. By addressing data automation challenges and coping with automated machine learning systems, active learning will facilitate democratization of AI technologies by boosting model production at scale.
翻訳日:2022-11-29 19:23:36 公開日:2022-11-27
# ランダム化ブロッククリロフ反復に基づくテンソル分解の効率的・高精度化に向けて

Towards Efficient and Accurate Approximation: Tensor Decomposition Based on Randomized Block Krylov Iteration ( http://arxiv.org/abs/2211.14828v1 )

ライセンス: Link先を確認
Yichun Qiu, Weijun Sun, Guoxu Zhou, Qibin Zhao(参考訳) 大規模データ解析において効率的かつ高精度なlra法が重要である。 ランダム化テンソル分解は、このニーズを満たす強力なツールとして登場したが、既存のほとんどの手法はノイズ干渉の存在下では不十分である。 末尾特異値の効果を低減するためにランダム化されたブロッククリロフ反復(rBKI)の顕著な性能にインスパイアされたこの研究は、rBKIベースのタッカー分解(rBKI-TK)を設計し、大規模データの効率的な圧縮のためのrBKI-TKに基づく階層テンソルリング分解を設計する。 さらに、決定論的LRAとランダム化されたLRAとの間の誤差を研究する。 データ圧縮と復調の両方において,提案手法の効率性,精度,スケーラビリティを数値的に示す。

Efficient and accurate low-rank approximation (LRA) methods are of great significance for large-scale data analysis. Randomized tensor decompositions have emerged as powerful tools to meet this need, but most existing methods perform poorly in the presence of noise interference. Inspired by the remarkable performance of randomized block Krylov iteration (rBKI) in reducing the effect of tail singular values, this work designs an rBKI-based Tucker decomposition (rBKI-TK) for accurate approximation, together with a hierarchical tensor ring decomposition based on rBKI-TK for efficient compression of large-scale data. Besides, the error bound between the deterministic LRA and the randomized LRA is studied. Numerical experiences demonstrate the efficiency, accuracy and scalability of the proposed methods in both data compression and denoising.
翻訳日:2022-11-29 19:23:21 公開日:2022-11-27
# スマートでエネルギー効率の良い建物の機械学習

Machine Learning for Smart and Energy-Efficient Buildings ( http://arxiv.org/abs/2211.14889v1 )

ライセンス: Link先を確認
Hari Prasanna Das, Yu-Wen Lin, Utkarsha Agwan, Lucas Spangher, Alex Devonport, Yu Yang, Jan Drgona, Adrian Chong, Stefano Schiavon, Costas J. Spanos(参考訳) 住宅と商業の両方の建物におけるエネルギー消費は、米国のエネルギー消費の約40%を占めており、同様の数字が世界中の国から報告されている。 このかなりのエネルギーは、居住者にとって快適で安全で生産的な環境を維持するために使われる。 したがって、建物のエネルギー消費を最適化し、その間も、十分な快適さ、健康、安全の水準を維持することが不可欠である。 近年、機械学習はデータから重要な洞察を導き、様々なシステムを最適化する上で、貴重なツールであることが証明されている。 本研究では,建物をスマートでエネルギー効率のよいものにするために,機械学習を活用した手法を概観する。 読者の便宜のために、いくつかの機械学習パラダイムと、我々がカバーするスマートビルディングシステムのコンポーネントと機能を簡単に紹介する。 最後に、スマートビルディングに機械学習アルゴリズムを実装する際に直面する課題について論じ、スマートビルディングと機械学習の交差点での研究のための将来の道筋を提供する。

Energy consumption in buildings, both residential and commercial, accounts for approximately 40% of all energy usage in the U.S., and similar numbers are being reported from countries around the world. This significant amount of energy is used to maintain a comfortable, secure, and productive environment for the occupants. So, it is crucial that the energy consumption in buildings must be optimized, all the while maintaining satisfactory levels of occupant comfort, health, and safety. Recently, Machine Learning has been proven to be an invaluable tool in deriving important insights from data and optimizing various systems. In this work, we review the ways in which machine learning has been leveraged to make buildings smart and energy-efficient. For the convenience of readers, we provide a brief introduction of several machine learning paradigms and the components and functioning of each smart building system we cover. Finally, we discuss challenges faced while implementing machine learning algorithms in smart buildings and provide future avenues for research at the intersection of smart buildings and machine learning.
翻訳日:2022-11-29 19:23:06 公開日:2022-11-27
# 音声発話における拡散検出のための新しいマルチモーダルダイナミックフュージョンネットワーク

A novel multimodal dynamic fusion network for disfluency detection in spoken utterances ( http://arxiv.org/abs/2211.14700v1 )

ライセンス: Link先を確認
Sreyan Ghosh and Utkarsh Tyagi and Sonal Kumar and Manan Suri and Rajiv Ratn Shah(参考訳) disfluencyは、人間の話し言葉に由来するが、主にnlp(uni-modal text-based natural language processing)タスクとして研究されている。 本稿では,テキストと音響モダリティの早期融合と自己注意に基づくマルチモーダル相互作用に基づいて,個人発話からの拡散検出のための新しいマルチモーダルアーキテクチャを提案する。 我々のアーキテクチャはマルチモーダル動的融合ネットワークを利用しており、既存のテキストエンコーダよりも最小限のパラメータを追加して、音声に隠された韻律的および音響的手がかりを活用している。 実験により,提案手法は,文献の非モーダル・マルチモーダルシステムにおいて,分散検出および性能向上のために広く用いられている英語スイッチボード上で,最先端の結果が得られることを示す。 さらに,データに重複する相関に苦しむテキストのみシステムとは異なり,音声信号からの新たな手がかりによってこの問題を克服することを示す。 すべてのコードをgithubで公開しています。

Disfluency, though originating from human spoken utterances, is primarily studied as a uni-modal text-based Natural Language Processing (NLP) task. Based on early-fusion and self-attention-based multimodal interaction between text and acoustic modalities, in this paper, we propose a novel multimodal architecture for disfluency detection from individual utterances. Our architecture leverages a multimodal dynamic fusion network that adds minimal parameters over an existing text encoder commonly used in prior art to leverage the prosodic and acoustic cues hidden in speech. Through experiments, we show that our proposed model achieves state-of-the-art results on the widely used English Switchboard for disfluency detection and outperforms prior unimodal and multimodal systems in literature by a significant margin. In addition, we make a thorough qualitative analysis and show that, unlike text-only systems, which suffer from spurious correlations in the data, our system overcomes this problem through additional cues from speech signals. We make all our codes publicly available on GitHub.
翻訳日:2022-11-29 19:05:25 公開日:2022-11-27
# Detect-Localize-Repair: CodeT5でデバッグを学ぶための統一フレームワーク

Detect-Localize-Repair: A Unified Framework for Learning to Debug with CodeT5 ( http://arxiv.org/abs/2211.14875v1 )

ライセンス: Link先を確認
Nghi D. Q. Bui, Yue Wang, Steven Hoi(参考訳) ソフトウェアデバッギングの自動化は、ソフトウェア開発者の生産性を向上させるための重要なタスクです。 多くのニューラルネットワーク技術は、バグローカライゼーションやプログラム修復(バグ修正)といったデバッグ関連のタスクに有効であることが証明されている。 しかし、これらの技法は、しばしば両者の相互利益を無視して、どちらか一方にのみ焦点をあてたり、段階的にアプローチしたりする。 本研究では,事前に訓練されたプログラミング言語モデルであるCodeT5をベースとして,これらのタスクをシームレスに処理する新しい統合型 'emph{Detect-Localize-Repair} フレームワークを提案する。 具体的には,デバッグに汎用的なcodet5を適用するための3つの目標を提案する。与えられたコードスニペットがバギーであるかどうかを判断するバグ検出目的,バギーラインを特定するバグローカライゼーション目標,バギーコードを固定バージョンに変換するプログラム修復目標である。 新たに収集した2つの行レベルのデバッグデータセットをJavaとPythonで組み合わせて評価する。 その結果,NLPとソフトウェア工学の両分野において,モデルが既存のベースラインを大幅に上回ることがわかった。

Automated software debugging is a crucial task for improving the productivity of software developers. Many neural-based techniques have been proven effective for debugging-related tasks such as bug localization and program repair (or bug fixing). However, these techniques often focus only on either one of them or approach them in a stage-wise manner, ignoring the mutual benefits between them. In this work, we propose a novel unified \emph{Detect-Localize-Repair} framework based on a pretrained programming language model CodeT5 to seamlessly address these tasks, named CodeT5-DLR. Specifically, we propose three objectives to adapt the generic CodeT5 for debugging: a bug detection objective to determine whether a given code snippet is buggy or not, a bug localization objective to identify the buggy lines, and a program repair objective to translate the buggy code to its fixed version. We evaluate it on each of these tasks and their combined setting on two newly collected line-level debugging datasets in Java and Python. Extensive results show that our model significantly outperforms existing baselines from both NLP and software engineering domains.
翻訳日:2022-11-29 19:05:06 公開日:2022-11-27
# 医用画像分割における単一ソース領域一般化のためのデータ拡張の再考

Rethinking Data Augmentation for Single-source Domain Generalization in Medical Image Segmentation ( http://arxiv.org/abs/2211.14805v1 )

ライセンス: Link先を確認
Zixian Su and Kai Yao and Xi Yang and Qiufeng Wang and Jie Sun and Kaizhu Huang(参考訳) 医療画像セグメンテーションにおける単一ソース領域一般化(SDG)は、臨床画像データセット間でドメインシフトが非常に一般的であるため、難しいが必須課題である。 以前の試みは、ほとんどがグローバルオンリー/ランダムな拡張を行います。 彼らの拡張されたサンプルは、通常、多様性と情報性に乏しいため、ターゲットとなる領域の分布をカバーできない。 本稿では,医療画像セグメンテーションにおけるSDGのデータ拡張戦略を再考する。 医用画像のクラスレベルの表現不変性とスタイル変更性により,各変数がクラスレベルの位置スケール分布に従うような$C$(クラス番号)ランダム変数の線形結合から,未知のターゲットデータをサンプリングできるという仮説を立てた。 これにより、一般的な形式でランダム変数をサンプリングすることで、データ拡張を容易に行うことができる。 実証的な面では、制約付きB$\acute{\rm e}$zier変換をグローバルおよびローカル(クラスレベル)領域の両方で実装し、拡張の多様性を大幅に向上させることができる。 さらに, 勾配情報に係わることにより, 適切な方向と大きさで増補を導くことで, 情報度を高めるために, 塩分バランス融合機構が提案されている。 重要な貢献として、提案された拡張が未確認の対象領域における一般化リスクの上限に結びつくことを理論的に証明し、仮説を裏付ける。 この2つの戦略を組み合わせることで、Saliency-balancing Location-scale Augmentation(SLAug)は2つの挑戦的なSDGタスクにおいて最先端の作業を大きく上回っている。 コードはhttps://github.com/Kaiseem/SLAug で公開されている。

Single-source domain generalization (SDG) in medical image segmentation is a challenging yet essential task as domain shifts are quite common among clinical image datasets. Previous attempts most conduct global-only/random augmentation. Their augmented samples are usually insufficient in diversity and informativeness, thus failing to cover the possible target domain distribution. In this paper, we rethink the data augmentation strategy for SDG in medical image segmentation. Motivated by the class-level representation invariance and style mutability of medical images, we hypothesize that unseen target data can be sampled from a linear combination of $C$ (the class number) random variables, where each variable follows a location-scale distribution at the class level. Accordingly, data augmented can be readily made by sampling the random variables through a general form. On the empirical front, we implement such strategy with constrained B$\acute{\rm e}$zier transformation on both global and local (i.e. class-level) regions, which can largely increase the augmentation diversity. A Saliency-balancing Fusion mechanism is further proposed to enrich the informativeness by engaging the gradient information, guiding augmentation with proper orientation and magnitude. As an important contribution, we prove theoretically that our proposed augmentation can lead to an upper bound of the generalization risk on the unseen target domain, thus confirming our hypothesis. Combining the two strategies, our Saliency-balancing Location-scale Augmentation (SLAug) exceeds the state-of-the-art works by a large margin in two challenging SDG tasks. Code is available at https://github.com/Kaiseem/SLAug .
翻訳日:2022-11-29 18:33:04 公開日:2022-11-27
# シルエットの視覚的重要部位における3次元再構成の精度向上のための身体部品の調整法

Adjustable Method Based on Body Parts for Improving the Accuracy of 3D Reconstruction in Visually Important Body Parts from Silhouettes ( http://arxiv.org/abs/2211.14822v1 )

ライセンス: Link先を確認
Aref Hemati, Azam Bastanfard(参考訳) 本研究は,前後のシルエットから立体形状を復元する新しい調整可能なアルゴリズムを提案する。 最近のシルエットベースのアプローチでは、シルエットとキーポイントによって訓練されたディープニューラルネットワークを使用して形状パラメータを推定するが、モデルが体輪郭に正確に適合することができないため、特に胴体において詳細な体形状をカバーできない。 また、ほとんどのケースでは、体部が同じ精度の優先事項を持ち、最適化を困難にし、仮想着付けなど、ほとんどの用途で視覚的に重要な胴体など、必須の身体部品に最適な結果をもたらすのを避ける。 提案手法では、投影された3D体と2Dシルエット間の各体部距離の係数を割り当てることで、我々の目的に基づいて、各体部の予測精度を調整できる。 この距離を測定するために、まず両視点で体分割を用いて対応する体部を認識する。 次に,各部位を2次元剛性登録で整列し,ペアマッチングを用いてマッチングする。 目的関数は、統計モデルパラメータを最適化することにより、距離と係数に基づいて両視点における個々の身体部位の距離コストを最小化しようとする。 また、ポーズを合わせることで腕と手足の幅のわずかな変化も処理します。 正規化S-SCAPEから合成体メッシュを用いて提案手法を評価する。 その結果, 視覚的に重要な身体部位を高い係数で高精度に再現できることがわかった。

This research proposes a novel adjustable algorithm for reconstructing 3D body shapes from front and side silhouettes. Most recent silhouette-based approaches use a deep neural network trained by silhouettes and key points to estimate the shape parameters but cannot accurately fit the model to the body contours and consequently are struggling to cover detailed body geometry, especially in the torso. In addition, in most of these cases, body parts have the same accuracy priority, making the optimization harder and avoiding reaching the optimum possible result in essential body parts, like the torso, which is visually important in most applications, such as virtual garment fitting. In the proposed method, we can adjust the expected accuracy for each body part based on our purpose by assigning coefficients for the distance of each body part between the projected 3D body and 2D silhouettes. To measure this distance, we first recognize the correspondent body parts using body segmentation in both views. Then, we align individual body parts by 2D rigid registration and match them using pairwise matching. The objective function tries to minimize the distance cost for the individual body parts in both views based on distances and coefficients by optimizing the statistical model parameters. We also handle the slight variation in the degree of arms and limbs by matching the pose. We evaluate the proposed method with synthetic body meshes from the normalized S-SCAPE. The result shows that the algorithm can more accurately reconstruct visually important body parts with high coefficients.
翻訳日:2022-11-29 18:32:33 公開日:2022-11-27
# 粗いメッシュによる3dシーンの作成とレンダリング:照明転送アベニュー

3D Scene Creation and Rendering via Rough Meshes: A Lighting Transfer Avenue ( http://arxiv.org/abs/2211.14823v1 )

ライセンス: Link先を確認
Yujie Li, Bowen Cai, Yuqin Liang, Rongfei Jia, Binqiang Zhao, Mingming Gong, and Huan Fu(参考訳) 本稿では,再構成された3Dモデルを3Dシーン作成やレンダリングなどの実用的な3Dモデリングパイプラインに柔軟に統合する方法について述べる。 技術的難しさから、既存の3D再構成技術を用いて、ほとんどの実物に対して粗い3Dモデル(R3DM)しか得られない。 その結果、物理ベースレンダリング(PBR)はR3DMで構築された低画質の画像やビデオを表示するようになった。 期待できる解決策の1つは、現実世界のオブジェクトをNeRFのようなニューラルフィールドとして表現し、望まれる視点の下でオブジェクトの写実的なレンダリングを生成することである。 しかし、ニューラルフィールドレンダリング(NFR)による合成ビューは、特に3次元シーン生成におけるオブジェクトの相互作用が局所影を引き起こす場合、PBRパイプラインにおけるR3DMのシミュレーションライティング詳細を反映できない。 このジレンマを解決するため,我々は,nfr と pbr を橋渡しするための照明伝達ネットワーク (lightnet) を提案する。 LighTNetは、簡易な画像合成モデルに関する理由から、R3DMによる表面の不均一な問題を是正し、いくつかの知覚的モチベーションを持つ制約と、照明強度と色とのコントラストを高める新しいLab角損失によって強化されている。 比較では、LighTNetは印象的な照明の合成に優れており、実用的な3DモデリングワークフローにおいてNFRをさらに推し進めることを約束している。 プロジェクトページ:https://3d-front-future.github.io/LighTNet

This paper studies how to flexibly integrate reconstructed 3D models into practical 3D modeling pipelines such as 3D scene creation and rendering. Due to the technical difficulty, one can only obtain rough 3D models (R3DMs) for most real objects using existing 3D reconstruction techniques. As a result, physically-based rendering (PBR) would render low-quality images or videos for scenes that are constructed by R3DMs. One promising solution would be representing real-world objects as Neural Fields such as NeRFs, which are able to generate photo-realistic renderings of an object under desired viewpoints. However, a drawback is that the synthesized views through Neural Fields Rendering (NFR) cannot reflect the simulated lighting details on R3DMs in PBR pipelines, especially when object interactions in the 3D scene creation cause local shadows. To solve this dilemma, we propose a lighting transfer network (LighTNet) to bridge NFR and PBR, such that they can benefit from each other. LighTNet reasons about a simplified image composition model, remedies the uneven surface issue caused by R3DMs, and is empowered by several perceptual-motivated constraints and a new Lab angle loss which enhances the contrast between lighting strength and colors. Comparisons demonstrate that LighTNet is superior in synthesizing impressive lighting, and is promising in pushing NFR further in practical 3D modeling workflows. Project page: https://3d-front-future.github.io/LighTNet .
翻訳日:2022-11-29 18:32:07 公開日:2022-11-27
# CLID: 限られたデータによる制御長画像記述

CLID: Controlled-Length Image Descriptions with Limited Data ( http://arxiv.org/abs/2211.14835v1 )

ライセンス: Link先を確認
Elad Hirsch and Ayellet Tal(参考訳) 制御可能な画像キャプションモデルは、人間のような画像記述を生成し、生成されたキャプションのある種の制御を可能にする。 本稿では,字幕の長さ,すなわち簡潔で簡潔な記述,あるいは長くて詳細な記述の制御に焦点を当てる。 既存の画像キャプションデータセットにはほとんど短いキャプションが含まれているため、長いキャプションを生成するのは難しい。 長いトレーニング例の不足に対処するため,様々な長さの自己生成キャプションでデータセットを強化することを提案する。 しかし、これらは様々な品質を持つため、従来の訓練には適さない。 トレーニング中に使用するデータポイントを異なるタイミングで選択する,新たなトレーニング戦略を提案する。 本手法は,キャプション品質の点でSoTA性能を示しながら,長さ制御能力を劇的に向上させる。 我々のアプローチは一般的であり、段落生成にも適用可能である。

Controllable image captioning models generate human-like image descriptions, enabling some kind of control over the generated captions. This paper focuses on controlling the caption length, i.e. a short and concise description or a long and detailed one. Since existing image captioning datasets contain mostly short captions, generating long captions is challenging. To address the shortage of long training examples, we propose to enrich the dataset with varying-length self-generated captions. These, however, might be of varying quality and are thus unsuitable for conventional training. We introduce a novel training strategy that selects the data points to be used at different times during the training. Our method dramatically improves the length-control abilities, while exhibiting SoTA performance in terms of caption quality. Our approach is general and is shown to be applicable also to paragraph generation.
翻訳日:2022-11-29 18:31:40 公開日:2022-11-27
# 同時視覚言語生成のための統一離散拡散

Unified Discrete Diffusion for Simultaneous Vision-Language Generation ( http://arxiv.org/abs/2211.14842v1 )

ライセンス: Link先を確認
Minghui Hu, Chuanxia Zheng, Heliang Zheng, Tat-Jen Cham, Chaoyue Wang, Zuopeng Yang, Dacheng Tao, Ponnuthurai N. Suganthan(参考訳) 近年開発された離散拡散モデルは、テキストから画像へのタスクにおいて非常に良好に動作し、マルチモダリティ信号の処理に有意な期待を示す。 本研究では,これらの特徴を活かし,単一モデルを用いて「モダリティ翻訳」と「マルチモダリティ生成」の2つのタスクを実行し,テキストベース,イメージベース,さらには視覚言語同時生成を行う統合マルチモーダル生成モデルを提案する。 具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。 さらに,マルチモダリティ生成に不可欠なモード間結合を強調するために,融合埋め込み層と統一目的関数を持つ相互注意モジュールを設計する。 広範な実験により,提案手法は様々な生成タスクにおいて最先端のソリューションと相性が良いことを示唆した。

The recently developed discrete diffusion models perform extraordinarily well in the text-to-image task, showing significant promise for handling the multi-modality signals. In this work, we harness these traits and present a unified multimodal generation model that can conduct both the "modality translation" and "multi-modality generation" tasks using a single model, performing text-based, image-based, and even vision-language simultaneous generation. Specifically, we unify the discrete diffusion process for multimodal signals by proposing a unified transition matrix. Moreover, we design a mutual attention module with fused embedding layer and a unified objective function to emphasise the inter-modal linkages, which are vital for multi-modality generation. Extensive experiments indicate that our proposed method can perform comparably to the state-of-the-art solutions in various generation tasks.
翻訳日:2022-11-29 18:31:28 公開日:2022-11-27
# オープンボキャブラリー物体検出のためのオブジェクト言語アライメントの学習

Learning Object-Language Alignments for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2211.14843v1 )

ライセンス: Link先を確認
Chuang Lin, Peize Sun, Yi Jiang, Ping Luo, Lizhen Qu, Gholamreza Haffari, Zehuan Yuan and Jianfei Cai(参考訳) 既存のオブジェクト検出方法は、高価なラベル付きデータによって固定セット語彙にバウンドされる。 新たなカテゴリを扱う場合、モデルはよりバウンディングボックスアノテーションで再トレーニングする必要があります。 自然言語監督はアノテーションのない属性とより広いオブジェクト概念の魅力的な代替手段である。 しかし、画像とテキストのペアは粒度の細かいオブジェクトと言語のアライメントを含まないため、言語からのオープン語彙オブジェクト検出の学習は困難である。 従来の解決策は高価な接地アノテーションや分類指向の視覚モデルに頼っていた。 本稿では,画像とテキストのペアデータから直接学習するオープンボキャブラリー物体検出フレームワークを提案する。 画像領域の特徴の集合と単語埋め込みの集合との一致問題としてオブジェクト指向アライメントを定式化する。 これにより、画像とテキストのペア上で、よりシンプルで効果的な方法でオープン語彙オブジェクト検出器を訓練することができる。 COCOとLVISの2つのベンチマークデータセットに関する大規模な実験は、COCOで32.0% mAP、LVISで21.7%のマスクmAPを達成するなど、新しいカテゴリで競合するアプローチよりも優れたパフォーマンスを示している。 コードはhttps://github.com/clin1223/vldet.com/。

Existing object detection methods are bounded in a fixed-set vocabulary by costly labeled data. When dealing with novel categories, the model has to be retrained with more bounding box annotations. Natural language supervision is an attractive alternative for its annotation-free attributes and broader object concepts. However, learning open-vocabulary object detection from language is challenging since image-text pairs do not contain fine-grained object-language alignments. Previous solutions rely on either expensive grounding annotations or distilling classification-oriented vision models. In this paper, we propose a novel open-vocabulary object detection framework directly learning from image-text pair data. We formulate object-language alignment as a set matching problem between a set of image region features and a set of word embeddings. It enables us to train an open-vocabulary object detector on image-text pairs in a much simple and effective way. Extensive experiments on two benchmark datasets, COCO and LVIS, demonstrate our superior performance over the competing approaches on novel categories, e.g. achieving 32.0% mAP on COCO and 21.7% mask mAP on LVIS. Code is available at: https://github.com/clin1223/VLDet.
翻訳日:2022-11-29 18:31:13 公開日:2022-11-27
# Labelled Set Selection と Supervision Policies が半教師あり学習に及ぼす影響

Impact of Labelled Set Selection and Supervision Policies on Semi-supervised Learning ( http://arxiv.org/abs/2211.14912v1 )

ライセンス: Link先を確認
Shuvendu Roy, Ali Etemad(参考訳) 半教師付き表現学習フレームワークでは、ラベル付きデータの数が極めて少ない場合には、これらのサンプルの品質と代表性がますます重要になる。 半教師付き学習に関する既存の文献は、ラベル付けのための限られた数のデータポイントをランダムにサンプリングする。 これらのラベル付きサンプルはすべて、トレーニングプロセスを通じてラベルなしのデータとともに使用される。 本研究では,(1)ラベル付けにどのサンプルが選択されるかは重要か,という2つの重要な質問を行う。 (2)ラベルなしデータとともに、トレーニングプロセス全体でラベル付きサンプルがどのように使われているかは重要か? 最初の質問に答えるために、ラベルなし集合の代表性を最大化することを目的として、ラベル付きデータの特定のサブセットをラベル付きで選択するための教師なしの方法をいくつか検討する。 次に,2行目の質問に対して,トレーニングプロセスにおけるさまざまなラベル注入戦略を定義した。 CIFAR-10、CIFAR-100、SVHN、STL-10の4つの一般的なデータセットに対する大規模な実験は、データ全体を代表するサンプルの教師なし選択が、MixMatch、ReMixMatch、FixMatchなどの既存の半教師付きフレームワークよりも最大で2%パフォーマンスを改善することを示している。 ごく少数のシナリオでは,この増加が7.5%にまで増加することも示しています。 しかし,本研究は,学習過程を通じてラベルを徐々に注入することは,既存のラベルがトレーニング全体を通して使用されている場合に比べて,パフォーマンスに大きく影響しないことを示した。

In semi-supervised representation learning frameworks, when the number of labelled data is very scarce, the quality and representativeness of these samples become increasingly important. Existing literature on semi-supervised learning randomly sample a limited number of data points for labelling. All these labelled samples are then used along with the unlabelled data throughout the training process. In this work, we ask two important questions in this context: (1) does it matter which samples are selected for labelling? (2) does it matter how the labelled samples are used throughout the training process along with the unlabelled data? To answer the first question, we explore a number of unsupervised methods for selecting specific subsets of data to label (without prior knowledge of their labels), with the goal of maximizing representativeness w.r.t. the unlabelled set. Then, for our second line of inquiry, we define a variety of different label injection strategies in the training process. Extensive experiments on four popular datasets, CIFAR-10, CIFAR-100, SVHN, and STL-10, show that unsupervised selection of samples that are more representative of the entire data improves performance by up to ~2% over the existing semi-supervised frameworks such as MixMatch, ReMixMatch, FixMatch and others with random sample labelling. We show that this boost could even increase to 7.5% for very few-labelled scenarios. However, our study shows that gradually injecting the labels throughout the training procedure does not impact the performance considerably versus when all the existing labels are used throughout the entire training.
翻訳日:2022-11-29 18:30:56 公開日:2022-11-27
# 処理後の時間的動作検出

Post-Processing Temporal Action Detection ( http://arxiv.org/abs/2211.14924v1 )

ライセンス: Link先を確認
Sauradip Nag, Xiatian Zhu, Yi-Zhe Song and Tao Xiang(参考訳) 既存の時間的動作検出(tad)法は、通常、入力された可変長映像を時間的境界推定と行動分類の前に固定長スニペット表現列に変換する前処理ステップを取る。 この前処理ステップは、ビデオの時間的サンプルを減らし、推論解像度を減少させ、元の時間的解像度における検出性能を阻害する。 本質的にこれは、分解ダウンサンプリングとリカバリの間に導入された時間量子化誤差によるものである。 これはTADのパフォーマンスに悪影響を及ぼす可能性があるが、既存の手法では無視されている。 この問題に対処するため,本研究では,モデル再設計や再トレーニングを行わずに,新しいモデル非依存な後処理手法を提案する。 具体的には,アクションインスタンスの開始点と終了点をガウス分布でモデル化し,サブスニペットレベルで時間境界推論を可能にする。 さらに,ガウス近似ポストプロセッシング (GAP) と呼ばれるTaylor-Expansion に基づく効率的な近似を導入する。 我々のGAPは、挑戦的なActivityNet(平均mAPでは+0.2% -0.7%)とTHUMOS(平均mAPでは+0.2% -0.5%)のベンチマークで、幅広い事前訓練済みのTADモデルを継続的に改善できることを示した。 このような性能向上はすでに重要であり、斬新なモデル設計によって達成されたものと非常に同等である。 また、GAPはさらなるパフォーマンス向上のためにモデルトレーニングと統合することができる。 重要なことは、GAPはより効率的な推論のための低時間解像度を可能にし、低リソースアプリケーションを容易にします。 コードはhttps://github.com/sauradip/GAPで入手できる。

Existing Temporal Action Detection (TAD) methods typically take a pre-processing step in converting an input varying-length video into a fixed-length snippet representation sequence, before temporal boundary estimation and action classification. This pre-processing step would temporally downsample the video, reducing the inference resolution and hampering the detection performance in the original temporal resolution. In essence, this is due to a temporal quantization error introduced during the resolution downsampling and recovery. This could negatively impact the TAD performance, but is largely ignored by existing methods. To address this problem, in this work we introduce a novel model-agnostic post-processing method without model redesign and retraining. Specifically, we model the start and end points of action instances with a Gaussian distribution for enabling temporal boundary inference at a sub-snippet level. We further introduce an efficient Taylor-expansion based approximation, dubbed as Gaussian Approximated Post-processing (GAP). Extensive experiments demonstrate that our GAP can consistently improve a wide variety of pre-trained off-the-shelf TAD models on the challenging ActivityNet (+0.2% -0.7% in average mAP) and THUMOS (+0.2% -0.5% in average mAP) benchmarks. Such performance gains are already significant and highly comparable to those achieved by novel model designs. Also, GAP can be integrated with model training for further performance gain. Importantly, GAP enables lower temporal resolutions for more efficient inference, facilitating low-resource applications. The code will be available in https://github.com/sauradip/GAP
翻訳日:2022-11-29 18:30:28 公開日:2022-11-27
# GRelPose: 汎用的なエンドツーエンドの相対カメラ

GRelPose: Generalizable End-to-End Relative Camera Pose Regression ( http://arxiv.org/abs/2211.14950v1 )

ライセンス: Link先を確認
Fadi Khatib, Yuval Margalit, Meirav Galun, Ronen Basri(参考訳) 本稿では,2つの画像間の相対的なポーズ回帰のための一般化可能なエンドツーエンドの深層学習手法を提案する。 異なる視点から撮影した同一シーンの2つの画像から、本アルゴリズムは2つのカメラ間の相対回転と変換を予測する。 この分野の最近の進歩にもかかわらず、現在の深層ベース手法は訓練中に見えないシーンへの限定的な一般化しか示していない。 本手法では,事前学習したLoFTRネットワークを用いて,入力画像毎に粗い特徴のグリッドを抽出するネットワークアーキテクチャを提案する。 その後、2つの画像の対応する特徴を関連付け、最終的に畳み込みネットワークを用いて各カメラ間の相対回転と変換を復元する。 提案手法は,様々な設定やデータセット,特に限られたトレーニングデータにおいて,既存のディープラーニング手法よりも精度が向上し,新たな場面に一般化できることを示す。

This paper proposes a generalizable, end-to-end deep learning-based method for relative pose regression between two images. Given two images of the same scene captured from different viewpoints, our algorithm predicts the relative rotation and translation between the two respective cameras. Despite recent progress in the field, current deep-based methods exhibit only limited generalization to scenes not seen in training. Our approach introduces a network architecture that extracts a grid of coarse features for each input image using the pre-trained LoFTR network. It subsequently relates corresponding features in the two images, and finally uses a convolutional network to recover the relative rotation and translation between the respective cameras. Our experiments indicate that the proposed architecture can generalize to novel scenes, obtaining higher accuracy than existing deep-learning-based methods in various settings and datasets, in particular with limited training data.
翻訳日:2022-11-29 18:30:00 公開日:2022-11-27
# mgdoc: 文書画像理解のためのマルチグラニュラー階層による事前学習

MGDoc: Pre-training with Multi-granular Hierarchy for Document Image Understanding ( http://arxiv.org/abs/2211.14958v1 )

ライセンス: Link先を確認
Zilong Wang, Jiuxiang Gu, Chris Tensmeyer, Nikolaos Barmpalios, Ani Nenkova, Tong Sun, Jingbo Shang, Vlad I. Morariu(参考訳) 文書画像は、テキストが細かい粒度(例えば、単語)、中程度の粒度(例えば、段落や図形のような領域)、粗い粒度(例えば、ページ全体)を含む複雑な階層構造で構成される、ユビキタスなデータのソースである。 異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。 既存のメソッドは、単語レベルまたは領域レベルから機能を学ぶが、両方を同時に考慮しない。 単語レベルのモデルは、単語レベルのコンテキストのみをエンコードする純粋なテキスト言語モデルに由来するという事実によって制限される。 対照的に、地域レベルのモデルは、段落やテキストブロックに対応する領域を単一の埋め込みにエンコードしようと試みるが、追加の単語レベルの特徴でさらに悪化する。 これらの問題に対処するために,ページレベル,領域レベル,単語レベルの情報を同時に符号化する,新しいマルチモーダルなマルチグラニュラー事前学習フレームワークMGDocを提案する。 mgdocは統一されたテキスト・ビジュアルエンコーダを使用して、異なる粒度にまたがるマルチモーダルな特徴を得ることで、複数の粒度の特徴を同じハイパースペースに投影することができる。 領域と単語の相関関係をモデル化するために,領域と単語の階層構造を学習するモデルを強化するために,クロス・グラニュラー・アテンション機構と特定の事前学習タスクを設計する。 実験により,提案モデルが粒度をまたいで良好な性能を向上し,下流タスクの改善につながることを示す。

Document images are a ubiquitous source of data where the text is organized in a complex hierarchical structure ranging from fine granularity (e.g., words), medium granularity (e.g., regions such as paragraphs or figures), to coarse granularity (e.g., the whole page). The spatial hierarchical relationships between content at different levels of granularity are crucial for document image understanding tasks. Existing methods learn features from either word-level or region-level but fail to consider both simultaneously. Word-level models are restricted by the fact that they originate from pure-text language models, which only encode the word-level context. In contrast, region-level models attempt to encode regions corresponding to paragraphs or text blocks into a single embedding, but they perform worse with additional word-level features. To deal with these issues, we propose MGDoc, a new multi-modal multi-granular pre-training framework that encodes page-level, region-level, and word-level information at the same time. MGDoc uses a unified text-visual encoder to obtain multi-modal features across different granularities, which makes it possible to project the multi-granular features into the same hyperspace. To model the region-word correlation, we design a cross-granular attention mechanism and specific pre-training tasks for our model to reinforce the model of learning the hierarchy between regions and words. Experiments demonstrate that our proposed model can learn better features that perform well across granularities and lead to improvements in downstream tasks.
翻訳日:2022-11-29 18:29:47 公開日:2022-11-27
# 指紋孔の検出:サーベイ

Fingerprint Pore Detection: A Survey ( http://arxiv.org/abs/2211.14716v1 )

ライセンス: Link先を確認
Azim Ibragimov, Mauricio Pamplona Segundo(参考訳) 本研究は, 指紋孔検出に関する最初の調査である。 この調査は、フィールドの概観を提供し、メソッド、データセット、評価プロトコルについて論じている。 また,最適孔検出率を達成するためにハイパーパラメータを調整した,カスタマイズ可能なFully Convolutional Networkを実装した最先端技術に基づくベースライン手法を提案する。 最後に,本論文で提案する他の3つの手法を,評価目的で再実装した。 本研究では,(1)ベースライン手法,(2)再実装アプローチ,(3)一般向けに利用可能な2つの異なるデータセットのトレーニングおよび評価プロセスのソースコードを作成し,さらに多くの研究者をこの分野に誘致し,同じ条件下での今後の比較を容易にする。 コードは以下のリポジトリで入手できる。 https://github.com/azimIbragimov/Fingerprint-Pore-Detection-A-Survey

This work presents the first survey on fingerprint pore detection. The survey provides a general overview of the field and discusses methods, datasets, and evaluation protocols. We also present a baseline method inspired on the state-of-the-art that implements a customizable Fully Convolutional Network, whose hyperparameters were tuned to achieve optimal pore detection rates. Finally, we also reimplementated three other approaches proposed in the literature for evaluation purposes. We have made the source code of (1) the baseline method, (2) the reimplemented approaches, and (3) the training and evaluation processes for two different datasets available to the public to attract more researchers to the field and to facilitate future comparisons under the same conditions. The code is available in the following repository: https://github.com/azimIbragimov/Fingerprint-Pore-Detection-A-Survey
翻訳日:2022-11-29 18:23:56 公開日:2022-11-27
# BALF:シンプルで効率的な局所特徴検出器

BALF: Simple and Efficient Blur Aware Local Feature Detector ( http://arxiv.org/abs/2211.14731v1 )

ライセンス: Link先を確認
Zhenjun Zhao and Yu Zhai and Ben M. Chen and Peidong Liu(参考訳) 局所特徴検出は、視覚計測や局所化など、多くの画像処理やコンピュータビジョンアプリケーションの主要な要素である。 既存のアルゴリズムのほとんどは、シャープな画像からの特徴検出に焦点を当てている。 したがって、画像がぼやけば性能が低下し、低照度条件下では容易に起こりうる。 この問題に対処するために,不明瞭な画像中の有意なキーポイントを正確にローカライズできる,効率的かつ効果的なキーポイント検出法を提案する。 本手法は, 新たな多層パーセプトロン(MLP)アーキテクチャの利点を生かし, ぼやけた画像の検出再現性を著しく向上させる。 ネットワークは軽量でリアルタイムに動作し、時間制限のあるアプリケーションへのデプロイを可能にする。 広範な実験結果から,シャープ画像に対する既存の最先端検出装置と同等の性能を維持しつつ,ぼやけた画像による検出再現性の向上が期待できることがわかった。

Local feature detection is a key ingredient of many image processing and computer vision applications, such as visual odometry and localization. Most existing algorithms focus on feature detection from a sharp image. They would thus have degraded performance once the image is blurred, which could happen easily under low-lighting conditions. To address this issue, we propose a simple yet both efficient and effective keypoint detection method that is able to accurately localize the salient keypoints in a blurred image. Our method takes advantages of a novel multi-layer perceptron (MLP) based architecture that significantly improve the detection repeatability for a blurred image. The network is also light-weight and able to run in real-time, which enables its deployment for time-constrained applications. Extensive experimental results demonstrate that our detector is able to improve the detection repeatability with blurred images, while keeping comparable performance as existing state-of-the-art detectors for sharp images.
翻訳日:2022-11-29 18:23:43 公開日:2022-11-27
# 人物再同定のための動的特徴抽出と統合

Dynamic Feature Pruning and Consolidation for Occluded Person Re-Identification ( http://arxiv.org/abs/2211.14742v1 )

ライセンス: Link先を確認
Yuteng Ye, Hang Zhou, Junqing Yu, Qiang Hu, Wei Yang(参考訳) occluded person re-idification (reid) はoccludersの汚染による困難な問題であり、既存のアプローチでは、ヘビーオクルージョンや他の人間をoccludersとして提示する際に容易に失敗する、人間の身体のキーポイント、セマンティックセグメンテーションなど、事前知識の手がかりを扱う。 本稿では, スパースエンコーダ, グローバルおよびローカルな特徴ランキングモジュール, 機能強化デコーダから構成される, 明示的な人的構造解析を回避するために, FPC(Feature pruning and Consolidation)フレームワークを提案する。 具体的には、スパースエンコーダは、以前の人間の形状情報に頼るのではなく、クラストークンの注意の相関のみに従って、重要でない画像トークン(主に背景ノイズやオクルーダに関連する)をドロップする。 その後、ランキングステージはスパースエンコーダが生成した保存トークンに依存し、画像とパッチレベルの組み合わせ類似度を測定して、訓練済みのギャラリーメモリからk-アネレスト隣人を識別する。 最後に, 特徴統合モジュールを用いて, 同定された隣人を用いたプルーン特徴の補償を行い, 騒音や咬合の混乱を無視しながら本質情報を復元する。 実験の結果,提案フレームワークがオクルード,部分的および全体的re-idデータセット上で有効であることが示された。 特に本手法は,オクルードドドデュークデータセットにおいて,少なくとも8.6%の地図と6.0%のランク-1精度で最先端の結果を上回っている。

Occluded person re-identification (ReID) is a challenging problem due to contamination from occluders, and existing approaches address the issue with prior knowledge cues, eg human body key points, semantic segmentations and etc, which easily fails in the presents of heavy occlusion and other humans as occluders. In this paper, we propose a feature pruning and consolidation (FPC) framework to circumvent explicit human structure parse, which mainly consists of a sparse encoder, a global and local feature ranking module, and a feature consolidation decoder. Specifically, the sparse encoder drops less important image tokens (mostly related to background noise and occluders) solely according to correlation within the class token attention instead of relying on prior human shape information. Subsequently, the ranking stage relies on the preserved tokens produced by the sparse encoder to identify k-nearest neighbors from a pre-trained gallery memory by measuring the image and patch-level combined similarity. Finally, we use the feature consolidation module to compensate pruned features using identified neighbors for recovering essential information while disregarding disturbance from noise and occlusion. Experimental results demonstrate the effectiveness of our proposed framework on occluded, partial and holistic Re-ID datasets. In particular, our method outperforms state-of-the-art results by at least 8.6% mAP and 6.0% Rank-1 accuracy on the challenging Occluded-Duke dataset.
翻訳日:2022-11-29 18:23:26 公開日:2022-11-27
# コンピュータビジョンによる未収集リッターの探索

Searching for Uncollected Litter with Computer Vision ( http://arxiv.org/abs/2211.14743v1 )

ライセンス: Link先を確認
Julian Hernandez, and Dr. Clark Fitzgerald(参考訳) この研究は、写真メタデータとコンピュータビジョンを組み合わせて、未収集ごみが存在する場所を定量化する。 Trash Annotations in Context(TACO)データセットからのイメージを使用して、10のカテゴリのガベージを検出するアルゴリズムを教えた。 スマートフォンの写真ではうまく機能したが、車載カメラの画像を処理しようとすると苦労した。 しかし、データセットの視点と背景の多様さは、不慣れな状況で改善するのに役立ちます。 これらのデータは地図上にプロットされ、精度が向上すれば廃棄物管理戦略の測定やトレンドの定量化に使用できる。

This study combines photo metadata and computer vision to quantify where uncollected litter is present. Images from the Trash Annotations in Context (TACO) dataset were used to teach an algorithm to detect 10 categories of garbage. Although it worked well with smartphone photos, it struggled when trying to process images from vehicle mounted cameras. However, increasing the variety of perspectives and backgrounds in the dataset will help it improve in unfamiliar situations. These data are plotted onto a map which, as accuracy improves, could be used for measuring waste management strategies and quantifying trends.
翻訳日:2022-11-29 18:22:56 公開日:2022-11-27
# トランスダクティブファインチューニングによるクロスドメインショット分割

Cross-domain Few-shot Segmentation with Transductive Fine-tuning ( http://arxiv.org/abs/2211.14745v1 )

ライセンス: Link先を確認
Yuhang Lu, Xinyi Wu, Zhenyao Wu, Song Wang(参考訳) Few-shot segmentation (FSS)は、ベースクラスでトレーニングされたモデルが、いくつかのサポートイメージの助けを借りて、新しいクラスで動作することを期待している。 しかし、ベースクラスと新しいクラスの間にドメインギャップがある場合、最先端のFSSメソッドは単純なオブジェクトをセグメントすることができない。 そこで本研究では,クエリイメージの集合に対して,サポートラベルを用いてクエリイメージのセグメンテーションを暗黙的にガイドする,いくつかのショット設定の下で,ベースモデルをトランスダクティブに微調整することを提案する。 異なる画像は直接比較されないが、クラス毎のプロトタイプは機能領域に整列することが望ましい。 クエリとサポートプロトタイプを不確実性を考慮したコントラスト損失と整合させ,教師付きクロスエントロピー損失と教師なし境界損失を正規化として用いることで,ベースモデルを追加ラベルなしで対象領域に一般化することができる。 我々は,自然,リモートセンシング,医用画像の様々なクロスドメイン環境下で広範な実験を行う。 その結果,全クロスドメインタスクにおいて,fssモデルの性能を一貫して大幅に向上させることができることがわかった。

Few-shot segmentation (FSS) expects models trained on base classes to work on novel classes with the help of a few support images. However, when there exists a domain gap between the base and novel classes, the state-of-the-art FSS methods may even fail to segment simple objects. To improve their performance on unseen domains, we propose to transductively fine-tune the base model on a set of query images under the few-shot setting, where the core idea is to implicitly guide the segmentation of query images using support labels. Although different images are not directly comparable, their class-wise prototypes are desired to be aligned in the feature space. By aligning query and support prototypes with an uncertainty-aware contrastive loss, and using a supervised cross-entropy loss and an unsupervised boundary loss as regularizations, our method could generalize the base model to the target domain without additional labels. We conduct extensive experiments under various cross-domain settings of natural, remote sensing, and medical images. The results show that our method could consistently and significantly improve the performance of prototypical FSS models in all cross-domain tasks.
翻訳日:2022-11-29 18:22:46 公開日:2022-11-27
# 意味クラス情報を用いた条件付き被覆地位置検出(CGL)

Conditioning Covert Geo-Location (CGL) Detection on Semantic Class Information ( http://arxiv.org/abs/2211.14750v1 )

ライセンス: Link先を確認
Binoy Saha, Sukhendu Das(参考訳) 人工知能の主な目標は人間を模倣することである。 そのため、この目標に向かって進むために、AIコミュニティは、人間が所有する品質/スキルを模倣し、データセット/タスクの助けを借りてマシンに組み込もうとしている。 以前、画像に存在するオブジェクトに関する知識を必要とする多くのタスクは、視覚モデルによって十分解決された。 近年,非対象画像領域(ハイドアウト,ターン,その他の未知領域)に関する知識を取り入れることを目的として,SahaらによってCGL検出と呼ばれる隠れ領域の特定が提案されている。 それは、差し迫った脅威を引き起こす可能性のある画像領域を識別すること、または、隠蔽された物体を識別するためのさらなる調査のためにターゲットゾーンとして現れることを含む。 特定の意味クラスに属する特定の排他的項目だけがCGLを引き起こす。 この事実はSahaらによって見落とされ、CGL検出に不可欠なセマンティッククラス情報を利用する試みは行われなかった。 本稿では,2つの目標を達成するためのマルチタスク学習に基づくアプローチを提案する。 一 意味クラス情報を有する特徴の抽出 二 補助的タスク(意味的セグメンテーション)のトレーニングセットとして、大きな標準アノテーション付きデータセットを利用する共通エンコーダの堅牢なトレーニング。 エンコーダが抽出した特徴にクラス情報を明示的に組み込むため,我々は新たな注意機構を取り入れた。 また,正確な位置推定よりも認識に重み付けを与えるCGL検出のためのより良い評価基準を提案した。 CGLデータセットを用いて行った実験の結果, 分割1では約3%から14% mIoU, 3%から16% DaR, SOTAでは1% mIoU, 1%から2% DaRが顕著に増加し, このアプローチの優位性を示す結果となった。

The primary goal of artificial intelligence is to mimic humans. Therefore, to advance toward this goal, the AI community attempts to imitate qualities/skills possessed by humans and imbibes them into machines with the help of datasets/tasks. Earlier, many tasks which require knowledge about the objects present in an image are satisfactorily solved by vision models. Recently, with the aim to incorporate knowledge about non-object image regions (hideouts, turns, and other obscured regions), a task for identification of potential hideouts termed Covert Geo-Location (CGL) detection was proposed by Saha et al. It involves identification of image regions which have the potential to either cause an imminent threat or appear as target zones to be accessed for further investigation to identify any occluded objects. Only certain occluding items belonging to certain semantic classes can give rise to CGLs. This fact was overlooked by Saha et al. and no attempts were made to utilize semantic class information, which is crucial for CGL detection. In this paper, we propose a multitask-learning-based approach to achieve 2 goals - i) extraction of features having semantic class information; ii) robust training of the common encoder, exploiting large standard annotated datasets as training set for the auxiliary task (semantic segmentation). To explicitly incorporate class information in the features extracted by the encoder, we have further employed attention mechanism in a novel manner. We have also proposed a better evaluation metric for CGL detection that gives more weightage to recognition rather than precise localization. Experimental evaluations performed on the CGL dataset, demonstrate a significant increase in performance of about 3% to 14% mIoU and 3% to 16% DaR on split 1, and 1% mIoU and 1% to 2% DaR on split 2 over SOTA, serving as a testimony to the superiority of our approach.
翻訳日:2022-11-29 18:22:24 公開日:2022-11-27
# 単一画像からの反射層の推定:反射誘導と影/特異認識の統合

Estimating Reflectance Layer from A Single Image: Integrating Reflectance Guidance and Shadow/Specular Aware Learning ( http://arxiv.org/abs/2211.14751v1 )

ライセンス: Link先を確認
Yeying Jin, Ruoteng Li, Wenhan Yang, Robby T. Tan(参考訳) 単一のイメージから反射層を推定するのは難しい作業です。 入力画像にシャドーやスペクトルハイライトが含まれていると、反射層の不正確な推定がしばしば発生するため、より困難になる。 そこで本研究では,リフレクタンスガイダンスとシャドウ/スペック・アウェア(S-Aware)ネットワークを含む2段階の学習手法を提案する。 第1段階では、先行ベースのシャドウフリー及びスペクラーフリー画像により誘導される新規損失の制約により、シャドウ及びスペクティリティのない初期反射層を得る。 第二段改良において、反射層を影や特異点から独立させるために、入力画像と反射画像を区別するS-Awareネットワークを導入する。 我々のネットワークは、シャドー/シャドーフリー、スペキュラ/スペキュラフリーのクラスを分類し、アクティベーション機能をシャドー/特定領域にフォーカスするアテンションマップとして機能させる。 定量的および定性的評価により,提案手法は影や特異性のない反射層推定において,最先端の手法よりも優れていた。

Estimating reflectance layer from a single image is a challenging task. It becomes more challenging when the input image contains shadows or specular highlights, which often render an inaccurate estimate of the reflectance layer. Therefore, we propose a two-stage learning method, including reflectance guidance and a Shadow/Specular-Aware (S-Aware) network to tackle the problem. In the first stage, an initial reflectance layer free from shadows and specularities is obtained with the constraint of novel losses that are guided by prior-based shadow-free and specular-free images. To further enforce the reflectance layer to be independent from shadows and specularities in the second-stage refinement, we introduce an S-Aware network that distinguishes the reflectance image from the input image. Our network employs a classifier to categorize shadow/shadow-free, specular/specular-free classes, enabling the activation features to function as attention maps that focus on shadow/specular regions. Our quantitative and qualitative evaluations show that our method outperforms the state-of-the-art methods in the reflectance layer estimation that is free from shadows and specularities.
翻訳日:2022-11-29 18:21:49 公開日:2022-11-27
# VideoReTalking:ヘッドビデオ編集のためのオーディオベースのリップ同期

VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild ( http://arxiv.org/abs/2211.14758v1 )

ライセンス: Link先を確認
Kun Cheng, Xiaodong Cun, Yong Zhang, Menghan Xia, Fei Yin, Mingrui Zhu, Xuan Wang, Jue Wang, Nannan Wang(参考訳) 入力音声に基づいて実世界のトーキングヘッドビデオの顔を編集する新しいシステムであるVideoReTalkingを提案し,感情の異なる高品質でリップシンクな出力ビデオを生成する。 本システムは,(1)正準表現による顔映像生成,(2)音声駆動のリップシンク,(3)フォトリアリズム改善のための顔強調の3つの課題に分類する。 そこで,本研究では,まず,表現編集ネットワークを用いて,各フレームの表現を同じ表現テンプレートに従って修正し,正規表現付きビデオを生成する。 このビデオは、与えられたオーディオと共に、リップシンクネットワークに送られ、リップシンクビデオを生成する。 最後に,自己認識型顔強調ネットワークと後処理により合成顔の写実性を向上させる。 学習ベースのアプローチを3つのステップすべてに使い、すべてのモジュールを、ユーザの介入なしにシーケンシャルなパイプラインで取り組めます。 さらに,本システムは,特定の人に再訓練する必要がない汎用的なアプローチである。 広範に使用されている2つのデータセットと実例の評価は、リップ同期精度と視覚品質の観点から、他の最先端手法よりも優れたフレームワークを示している。

We present VideoReTalking, a new system to edit the faces of a real-world talking head video according to input audio, producing a high-quality and lip-syncing output video even with a different emotion. Our system disentangles this objective into three sequential tasks: (1) face video generation with a canonical expression; (2) audio-driven lip-sync; and (3) face enhancement for improving photo-realism. Given a talking-head video, we first modify the expression of each frame according to the same expression template using the expression editing network, resulting in a video with the canonical expression. This video, together with the given audio, is then fed into the lip-sync network to generate a lip-syncing video. Finally, we improve the photo-realism of the synthesized faces through an identity-aware face enhancement network and post-processing. We use learning-based approaches for all three steps and all our modules can be tackled in a sequential pipeline without any user intervention. Furthermore, our system is a generic approach that does not need to be retrained to a specific person. Evaluations on two widely-used datasets and in-the-wild examples demonstrate the superiority of our framework over other state-of-the-art methods in terms of lip-sync accuracy and visual quality.
翻訳日:2022-11-29 18:21:29 公開日:2022-11-27
# Immutable:Few-Shotオブジェクト検出のための情報結合型プロトタイプ開発

Breaking Immutable: Information-Coupled Prototype Elaboration for Few-Shot Object Detection ( http://arxiv.org/abs/2211.14782v1 )

ライセンス: Link先を確認
Xiaonan Lu, Wenhui Diao, Yongqiang Mao, Junxi Li, Peijin Wang, Xian Sun, Kun Fu(参考訳) いくつかの例で新しいクラスを検知する検知器を期待するオブジェクト検出は、目立った進歩を遂げた。 しかし,既存のメタラーニング手法によって抽出されたプロトタイプは,表現情報の不足やクエリイメージの認識の欠如に悩まされており,異なるクエリイメージに適応的に適合することができない。 第一に、プロトタイプの抽出にはサポート画像のみが関与し、クエリ画像の知覚情報が不足する。 第二に、全ての支持画像の画素は、プロトタイプベクトルに特徴を集約する際に等しく扱われるので、散らかった背景に散らばる。 本稿では,各問合せ画像に対して具体的および代表的プロトタイプを生成するための情報結合プロトタイプ作成(icpe)手法を提案する。 具体的には、クエリブランチからサポートブランチへの情報を結合するために条件情報結合モジュールを導入し、サポート機能におけるクエリ知覚情報を強化する。 また,画像内および画像間集約重みを動的に調整し,問合せ画像の検出に有用な情報を強調する動的集約モジュールのプロトタイプを設計する。 また,Pascal VOCとMS COCOの両実験結果から,ほぼすべての設定で最先端の性能が得られた。

Few-shot object detection, expecting detectors to detect novel classes with a few instances, has made conspicuous progress. However, the prototypes extracted by existing meta-learning based methods still suffer from insufficient representative information and lack awareness of query images, which cannot be adaptively tailored to different query images. Firstly, only the support images are involved for extracting prototypes, resulting in scarce perceptual information of query images. Secondly, all pixels of all support images are treated equally when aggregating features into prototype vectors, thus the salient objects are overwhelmed by the cluttered background. In this paper, we propose an Information-Coupled Prototype Elaboration (ICPE) method to generate specific and representative prototypes for each query image. Concretely, a conditional information coupling module is introduced to couple information from the query branch to the support branch, strengthening the query-perceptual information in support features. Besides, we design a prototype dynamic aggregation module that dynamically adjusts intra-image and inter-image aggregation weights to highlight the salient information useful for detecting query images. Experimental results on both Pascal VOC and MS COCO demonstrate that our method achieves state-of-the-art performance in almost all settings.
翻訳日:2022-11-29 18:21:06 公開日:2022-11-27
# 神経芽細胞ラスタライゼーション

Neural Font Rasterization ( http://arxiv.org/abs/2211.14802v1 )

ライセンス: Link先を確認
Daniel Anderson, Ariel Shamir and Ohad Fried(参考訳) 近年のディープラーニング技術や応用の進歩は、多くの領域(テキスト、画像、音楽)における芸術的創造と操作に革命をもたらしたが、フォントは、そのマルチスケールな性質をサポートする方法で、まだディープラーニングアーキテクチャと統合されていない。 本研究は,複数サイズのグリフをラスタ化可能なネットワークアーキテクチャを提案し,フォントの作成と操作を容易にすることを目的としている。

Recent advances in deep learning techniques and applications have revolutionized artistic creation and manipulation in many domains (text, images, music); however, fonts have not yet been integrated with deep learning architectures in a manner that supports their multi-scale nature. In this work we aim to bridge this gap, proposing a network architecture capable of rasterizing glyphs in multiple sizes, potentially paving the way for easy and accessible creation and manipulation of fonts.
翻訳日:2022-11-29 18:20:42 公開日:2022-11-27
# ドメイン適応意味セグメンテーションのためのクロスドメイントランスフォーマの一貫性の探求

Exploring Consistency in Cross-Domain Transformer for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2211.14703v1 )

ライセンス: Link先を確認
Kaihong Wang and Donghyun Kim and Regerio Feris and Kate Saenko and Margrit Betke(参考訳) セマンティックセグメンテーションにおけるトランスフォーマーの性能は大幅に向上しているが、ドメイン適応トランスフォーマーはまだ十分に研究されていない。 ドメインギャップが自己注意の相違を引き起こす可能性があることを確認します。 このギャップのため、変圧器は、ターゲット領域の精度を低下させる刺激領域または画素に付随する。 対象領域とソース領域間で特徴を共有するクロスドメインアテンション層を用いてアテンションマップに適応する手法を提案する。 具体的には、クロスドメインアテンションと自己アテンションモジュールからの予測の一貫性を課し、アテンションレベルとアウトプットレベルのアライメントといったドメイン間のモデルのアテンションとアウトプットにおける同様の分散を促進する。 また,異なるアテンションビュー間のアテンションマップの一貫性を強制し,アテンションに基づくアライメントをさらに強化する。 これら2つのコンポーネントを組み合わせることで、ドメイン間の注意マップの相違を緩和し、教師なしドメイン適応設定下での変換器の性能をさらに向上する。 gtav-to-cityscapes by 1.3% point (pp) , synthia-to-cityscapes by 0.6 pp, cityscapes-to-acdc by 1.1 pp である。 また,本手法の有効性と一般化性を広範囲な実験により検証した。 私たちのコードは公開されます。

While transformers have greatly boosted performance in semantic segmentation, domain adaptive transformers are not yet well explored. We identify that the domain gap can cause discrepancies in self-attention. Due to this gap, the transformer attends to spurious regions or pixels, which deteriorates accuracy on the target domain. We propose to perform adaptation on attention maps with cross-domain attention layers that share features between the source and the target domains. Specifically, we impose consistency between predictions from cross-domain attention and self-attention modules to encourage similar distribution in the attention and output of the model across domains, i.e., attention-level and output-level alignment. We also enforce consistency in attention maps between different augmented views to further strengthen the attention-based alignment. Combining these two components, our method mitigates the discrepancy in attention maps across domains and further boosts the performance of the transformer under unsupervised domain adaptation settings. Our model outperforms the existing state-of-the-art baseline model on three widely used benchmarks, including GTAV-to-Cityscapes by 1.3 percent point (pp), Synthia-to-Cityscapes by 0.6 pp, and Cityscapes-to-ACDC by 1.1 pp, on average. Additionally, we verify the effectiveness and generalizability of our method through extensive experiments. Our code will be publicly available.
翻訳日:2022-11-29 18:12:55 公開日:2022-11-27
# 意味認識型局所的グローバルビジョントランスフォーマ

Semantic-Aware Local-Global Vision Transformer ( http://arxiv.org/abs/2211.14705v1 )

ライセンス: Link先を確認
Jiatong Zhang, Zengwei Yao, Fanglin Chen, Guangming Lu, and Wenjie Pei(参考訳) 視覚トランスフォーマーは著しく進歩し、スウィントランスフォーマーは視覚タスクにおけるトランスフォーマーの膨大な可能性を実証した。 シフトウィンドウ内で局所的な自己アテンションを行うことで、高い計算複雑性の鍵となる課題を克服する。 本研究では,Swin Transformerに対する2つの潜在的な改善点について検討するため,Semantic-Aware Local-Global Vision Transformer (SALG)を提案する。 まず,局所的な自己アテンションのために正規ウィンドウのサイズを均等に分割するSwin Transformerとは異なり,当社のSALGは教師なしの方法でセマンティックセグメンテーションを行い,画像の基盤となるセマンティックセグメンテーションを探索する。 その結果、各セグメント領域は画像内の意味的に意味のある部分に対応でき、セグメント領域ごとにより効果的な特徴をもたらす可能性がある。 次に、Swin Transformerのようにローカルウィンドウ内でのみローカル自己アテンションを実行する代わりに、提案したSALGが両方を実行する。 1)各地域におけるきめ細かい特徴を学習するための地域内自己注意 2)全地域間のグローバル依存関係をモデル化するためのグローバル地域間特徴伝達。 その結果,Transformerの重要な利点であるトークンごとの特徴を学習する際のグローバルビューが得られた。 セマンティクス事前の明示的なモデリングと提案する局所的グローバルモデリング機構により,モデル能力が他のモデルが暗黙的にセマンティクスを学ぶのに十分でない場合に,salgは特に小規模モデルにとって有利である。 様々な視覚タスクにわたる大規模な実験は、特に小規模のモデリングシナリオにおいて、他の視覚変換器よりもモデルの利点を示す。

Vision Transformers have achieved remarkable progresses, among which Swin Transformer has demonstrated the tremendous potential of Transformer for vision tasks. It surmounts the key challenge of high computational complexity by performing local self-attention within shifted windows. In this work we propose the Semantic-Aware Local-Global Vision Transformer (SALG), to further investigate two potential improvements towards Swin Transformer. First, unlike Swin Transformer that performs uniform partition to produce equal size of regular windows for local self-attention, our SALG performs semantic segmentation in an unsupervised way to explore the underlying semantic priors in the image. As a result, each segmented region can correspond to a semantically meaningful part in the image, potentially leading to more effective features within each of segmented regions. Second, instead of only performing local self-attention within local windows as Swin Transformer does, the proposed SALG performs both 1) local intra-region self-attention for learning fine-grained features within each region and 2) global inter-region feature propagation for modeling global dependencies among all regions. Consequently, our model is able to obtain the global view when learning features for each token, which is the essential advantage of Transformer. Owing to the explicit modeling of the semantic priors and the proposed local-global modeling mechanism, our SALG is particularly advantageous for small-scale models when the modeling capacity is not sufficient for other models to learn semantics implicitly. Extensive experiments across various vision tasks demonstrates the merit of our model over other vision Transformers, especially in the small-scale modeling scenarios.
翻訳日:2022-11-29 18:12:28 公開日:2022-11-27
# マルチカメラ3次元物体検出変換器の3次元位置符号化

3D Point Positional Encoding for Multi-Camera 3D Object Detection Transformers ( http://arxiv.org/abs/2211.14710v1 )

ライセンス: Link先を確認
Changyong Shu, Fisher Yu and Yifan Liu(参考訳) 視覚のみの駆動システムにとって重要なコンポーネントであるマルチカメラ3Dオブジェクト検出は、目覚ましい進歩を遂げた。 特に,3次元位置エンコーディング(PE)により強化された2次元特徴を持つトランスフォーマーを用いた手法は大きな成功を収めている。 しかし, 3D PEのメカニズムと選択肢は十分に解明されていない。 本稿ではまず,様々な3次元位置エンコーディングを探索し,解析し,比較する。 特に, 3D 点 PE を考案し, より精密な位置決めが 3D 検出に繋がる可能性があり, 優れた性能を示す。 実際には、単眼深度推定を用いて、マルチカメラ3Dオブジェクト検出のための3D点位置を求める。 推定3Dポイント位置のPEは、一般的に使用されるカメラ線PEに比べて大幅に改善される可能性がある。 提案手法は, DETRをベースとした手法の中で, 競合するヌステンス評価セット上で, 最先端の45.6 mAPと55.1 NDSを実現する。 ビジョンオンリー(DETRベース)とLiDARベースのメソッドのパフォーマンスギャップが 5 % mAP と 6 % NDS で減少するのは,これが初めてです。

Multi-camera 3D object detection, a critical component for vision-only driving systems, has achieved impressive progress. Notably, transformer-based methods with 2D features augmented by 3D positional encodings (PE) have enjoyed great success. However, the mechanism and options of 3D PE have not been thoroughly explored. In this paper, we first explore, analyze and compare various 3D positional encodings. In particular, we devise 3D point PE and show its superior performance since more precise positioning may lead to superior 3D detection. In practice, we utilize monocular depth estimation to obtain the 3D point positions for multi-camera 3D object detection. The PE with estimated 3D point locations can bring significant improvements compared to the commonly used camera-ray PE. Among DETR-based strategies, our method achieves state-of-the-art 45.6 mAP and 55.1 NDS on the competitive nuScenes valuation set. It's the first time that the performance gap between the vision-only (DETR-based) and LiDAR-based methods is reduced within 5\% mAP and 6\% NDS.
翻訳日:2022-11-29 18:11:58 公開日:2022-11-27
# BLOOMの理解 : 多様なNLPタスクに関する実証的研究

Understanding BLOOM: An empirical study on diverse NLP tasks ( http://arxiv.org/abs/2211.14865v1 )

ライセンス: Link先を確認
Parag Pravin Dakle, SaiKrishna Rallabandi and Preethi Raghavan(参考訳) 本研究では,様々な自然言語処理タスクにおいて,より小さなBLOOMモデル(350m/560mおよび1b3/1b7)の評価を行う。 GLUE - 言語理解、プロンプトベースのゼロショット、少数ショットのテキスト分類と抽出、質問応答、プロンプトベースのテキスト生成、モデルの強みや弱さや振る舞いを理解するための多言語テキスト分類。 実験結果から、BLOOMの変種は(WNLIを除く)すべてのGLUEタスク、質問応答、テキスト生成で性能が低いことが示された。 WNLIでは56.3%の精度で、MIT MoviesやATISのデータセットでプロンプトベースの数発のテキスト抽出が可能である。 BLOOM の変種は、それぞれMIT Movies と ATIS のデータセットから抽出された GPT-2 と GPT-Neo のモデルよりも7%精度が高い。

In this work, we present an evaluation of smaller BLOOM model variants (350m/560m and 1b3/1b7) on various natural language processing tasks. This includes GLUE - language understanding, prompt-based zero-shot and few-shot text classification and extraction, question answering, prompt-based text generation, and multi-lingual text classification to understand model strengths/weaknesses and behavior. Empirical results show that BLOOM variants under-perform on all GLUE tasks (except WNLI), question-answering, and text generation. The variants bloom for WNLI, with an accuracy of 56.3%, and for prompt-based few-shot text extraction on MIT Movies and ATIS datasets. The BLOOM variants on average have 7% greater accuracy over GPT-2 and GPT-Neo models on Director and Airline Name extraction from MIT Movies and ATIS datasets, respectively.
翻訳日:2022-11-29 17:26:41 公開日:2022-11-27
# 無置換カーネル2サンプル試験

A Permutation-free Kernel Two-Sample Test ( http://arxiv.org/abs/2211.14908v1 )

ライセンス: Link先を確認
Shubhanshu Shekhar, Ilmun Kim, Aaditya Ramdas(参考訳) kernel maximum mean discrepancy~(mmd)は、2つのサンプルテストで有用性を見出した分布間の一般的な多変数距離メトリックである。 通常のカーネル-MMDテスト統計は、ヌルの下での退化U統計であり、難解な制限分布を持つ。 したがって、レベル-$\alpha$ テストを設計するには、通常、拒絶しきい値を置換分布の$(1-\alpha)$-quantileとして選択する。 結果の非パラメトリックテストは有限サンプルの妥当性を持つが、全ての置換に2次時間を要するため、計算コストが大きい。 サンプル分割と学生化に基づく新しい2次時間MDDテスト統計であるクロスMMDを提案する。 穏やかな仮定の下では、クロスMMD は null の下での標準ガウス分布に制限があることを示す。 重要なことに、得られたテストは任意の固定された代替品に対して一貫性があることを示し、ガウスカーネルを使用する場合、局所的な代替品に対して最小の速度最適化力を持つ。 大きなサンプルサイズの場合、我々の新しいクロスMMDはMDDよりも大幅にスピードアップし、わずかに電力が失われる。

The kernel Maximum Mean Discrepancy~(MMD) is a popular multivariate distance metric between distributions that has found utility in two-sample testing. The usual kernel-MMD test statistic is a degenerate U-statistic under the null, and thus it has an intractable limiting distribution. Hence, to design a level-$\alpha$ test, one usually selects the rejection threshold as the $(1-\alpha)$-quantile of the permutation distribution. The resulting nonparametric test has finite-sample validity but suffers from large computational cost, since every permutation takes quadratic time. We propose the cross-MMD, a new quadratic-time MMD test statistic based on sample-splitting and studentization. We prove that under mild assumptions, the cross-MMD has a limiting standard Gaussian distribution under the null. Importantly, we also show that the resulting test is consistent against any fixed alternative, and when using the Gaussian kernel, it has minimax rate-optimal power against local alternatives. For large sample sizes, our new cross-MMD provides a significant speedup over the MMD, for only a slight loss in power.
翻訳日:2022-11-29 17:18:43 公開日:2022-11-27
# 最適計算予算割当アルゴリズムの収束率解析

Convergence Rate Analysis for Optimal Computing Budget Allocation Algorithms ( http://arxiv.org/abs/2211.14722v1 )

ライセンス: Link先を確認
Yanwen Li, Siyang Gao(参考訳) 順序最適化 (ordinal optimization, oo) は離散事象動的システム (deds) を最適化するための広く研究された手法である。 有限集合におけるシステム設計の性能をサンプリングにより評価し、設計の順序的比較を正しく行うことを目的とする。 OOのよく知られた方法は、最適計算予算配分(OCBA)である。 各設計に割り当てられたサンプル数に対する最適性条件を構築し、最適性条件を満たすサンプル割り当ては、最適な設計のための正しい選択の確率を漸近的に最大化する。 本稿では,2つのOCBAアルゴリズムについて検討する。 各設計のサンプルに対する既知の分散により、それぞれの収束率を異なる性能指標で特徴付ける。 まず2つのOCBAアルゴリズムが正しい選択の確率と期待される機会コストで最適収束率を達成することを実証した。 これはocbaアルゴリズムの収束解析の空白を埋める。 次に、機械学習の分野で研究されている主要な尺度である累積後悔の尺度に分析を拡張する。 2つのOCBAアルゴリズムは,小さな修正を加えれば,累積後悔の下で最適収束率に達することを示す。 これはOCBA最適条件に基づいて設計されたアルゴリズムの幅広い利用の可能性を示している。

Ordinal optimization (OO) is a widely-studied technique for optimizing discrete-event dynamic systems (DEDS). It evaluates the performance of the system designs in a finite set by sampling and aims to correctly make ordinal comparison of the designs. A well-known method in OO is the optimal computing budget allocation (OCBA). It builds the optimality conditions for the number of samples allocated to each design, and the sample allocation that satisfies the optimality conditions is shown to asymptotically maximize the probability of correct selection for the best design. In this paper, we investigate two popular OCBA algorithms. With known variances for samples of each design, we characterize their convergence rates with respect to different performance measures. We first demonstrate that the two OCBA algorithms achieve the optimal convergence rate under measures of probability of correct selection and expected opportunity cost. It fills the void of convergence analysis for OCBA algorithms. Next, we extend our analysis to the measure of cumulative regret, a main measure studied in the field of machine learning. We show that with minor modification, the two OCBA algorithms can reach the optimal convergence rate under cumulative regret. It indicates the potential of broader use of algorithms designed based on the OCBA optimality conditions.
翻訳日:2022-11-29 17:11:36 公開日:2022-11-27
# ミオピックランキングと選択手順の漸近的最適性

Asymptotic Optimality of Myopic Ranking and Selection Procedures ( http://arxiv.org/abs/2211.14723v1 )

ライセンス: Link先を確認
Yanwen Li, Siyang Gao, Zhongshun Shi(参考訳) ランキング・アンド・セレクション(R&S)は離散イベント・ダイナミックシステムの研究において一般的なモデルである。 最適な設計(最大の平均性能を持つ設計)を有限集合から選択することを目的としており、各設計の平均は未知であり、サンプルで学ぶ必要がある。 経験的性能に優れた手順を開発し,その最適性を示すための文献において,この課題に多大な研究が割かれてきた。 これらの努力の中で、明法が流行した。 彼らは、客観的測度の近似を反復的かつ神秘的に改善する「ナイーブ」メカニズムを用いて、最良の設計を選択する。 それらは単純なヒューリスティックに基づいており、理論的な支援を欠いているが、後に提案され、漸近的に最適であることが示されている手順と比較して非常に効果的で、しばしば競争的な経験的性能を達成した。 本稿では,これらのミオピック法を理論的に解析し,他のR&S法と同様に,R&Sの最適条件を満たすことを証明する。 種々の数値実験における筋電図法の性能について解説し、効率的なR&S法の構造と理論的発展についての知見を提供する。

Ranking and selection (R&S) is a popular model for studying discrete-event dynamic systems. It aims to select the best design (the design with the largest mean performance) from a finite set, where the mean of each design is unknown and has to be learned by samples. Great research efforts have been devoted to this problem in the literature for developing procedures with superior empirical performance and showing their optimality. In these efforts, myopic procedures were popular. They select the best design using a 'naive' mechanism of iteratively and myopically improving an approximation of the objective measure. Although they are based on simple heuristics and lack theoretical support, they turned out highly effective, and often achieved competitive empirical performance compared to procedures that were proposed later and shown to be asymptotically optimal. In this paper, we theoretically analyze these myopic procedures and prove that they also satisfy the optimality conditions of R&S, just like some other popular R&S methods. It explains the good performance of myopic procedures in various numerical tests, and provides good insight into the structure and theoretical development of efficient R&S procedures.
翻訳日:2022-11-29 17:11:21 公開日:2022-11-27
# 屈折体に対するサンプリング型ニューラルラジアンス場

Sampling Neural Radiance Fields for Refractive Objects ( http://arxiv.org/abs/2211.14799v1 )

ライセンス: Link先を確認
Jen-I Pan, Jheng-Wei Su, Kai-Wen Hsiao, Ting-Yu Yen, Hung-Kuo Chu(参考訳) 近年、ニューラルラジアンスフィールド(NeRF)における可変ボリュームレンダリングが広く普及し、その変種は多くの印象的な結果を得た。 しかし、既存の方法では、このシーンは直線に沿って光線を流すように均質な体積であると仮定することが多い。 この作品では、シーンは、異なる屈折率を交わすと経路が湾曲する、区分的に連続した屈折率を持つ不均質なボリュームである。 屈折物体の新規なビュー合成を目的として, 屈折物体シルエットを用いた多視点画像から, 境界体積および境界領域の放射界を最適化することを目的とした。 この課題に対処するため、シーンの屈折率をシルエットから再構成する。 屈折率を考慮し,NeRFにおける層状および階層的サンプリング手法を拡張し,アイコン方程式で追跡された曲線に沿って試料を描画できるようにする。 その結果,本手法は定量的,質的にも最先端の手法を上回っており,知覚的類似度指標による性能向上や,合成的,実場面でのレンダリング品質の向上が期待できることがわかった。

Recently, differentiable volume rendering in neural radiance fields (NeRF) has gained a lot of popularity, and its variants have attained many impressive results. However, existing methods usually assume the scene is a homogeneous volume so that a ray is cast along the straight path. In this work, the scene is instead a heterogeneous volume with a piecewise-constant refractive index, where the path will be curved if it intersects the different refractive indices. For novel view synthesis of refractive objects, our NeRF-based framework aims to optimize the radiance fields of bounded volume and boundary from multi-view posed images with refractive object silhouettes. To tackle this challenging problem, the refractive index of a scene is reconstructed from silhouettes. Given the refractive index, we extend the stratified and hierarchical sampling techniques in NeRF to allow drawing samples along a curved path tracked by the Eikonal equation. The results indicate that our framework outperforms the state-of-the-art method both quantitatively and qualitatively, demonstrating better performance on the perceptual similarity metric and an apparent improvement in the rendering quality on several synthetic and real scenes.
翻訳日:2022-11-29 17:09:00 公開日:2022-11-27
# H&Eによる分子腫瘍バイオマーカーの深層学習による予測

Deep Learning-Based Prediction of Molecular Tumor Biomarkers from H&E: A Practical Review ( http://arxiv.org/abs/2211.14847v1 )

ライセンス: Link先を確認
Heather D. Couture(参考訳) 分子的およびゲノム的性質は、個々の腫瘍、特に免疫療法を標的とする癌治療を選択する上で重要である。 しかし、そのような性質を評価する方法は高価であり、時間を要するため、日常的に行われないことが多い。 H&E画像に機械学習を適用することで、よりコスト効率の良いスクリーニングが可能になる。 過去数年間の研究で、分子改変、ゲノムサブタイプ、タンパク質バイオマーカー、さらにはウイルスの存在など、深層学習の進歩を用いて、H&Eだけで様々な分子バイオマーカーを予測できることが示されている。 本稿では、がんの種類や、これらのモデルをスライド画像全体上でトレーニングし、検証するための方法論について概説する。 ボトムアップから病理学者主導、ハイブリッドアプローチまで、主要なトレンドには、さまざまな弱い教師付きディープラーニングベースのアプローチ、そして特定の状況で教師付きモデルをトレーニングするメカニズムが含まれる。 これらのアルゴリズムの結果は有望に見えるが、小さなトレーニングセット、厳密な検証、モデル説明可能性など、いくつかの課題はまだ続いている。 バイオマーカー予測モデルは、分子テストの実行時期を決定するスクリーニング方法や、分子テストが不可能である場合の代替手段を与えることができる。 また、腫瘍内不均一性を定量化し、患者の結果を予測する新たな機会も生み出す。

Molecular and genomic properties are critical in selecting cancer treatments to target individual tumors, particularly for immunotherapy. However, the methods to assess such properties are expensive, time-consuming, and often not routinely performed. Applying machine learning to H&E images can provide a more cost-effective screening method. Dozens of studies over the last few years have demonstrated that a variety of molecular biomarkers can be predicted from H&E alone using the advancements of deep learning: molecular alterations, genomic subtypes, protein biomarkers, and even the presence of viruses. This article reviews the diverse applications across cancer types and the methodology to train and validate these models on whole slide images. From bottom-up to pathologist-driven to hybrid approaches, the leading trends include a variety of weakly supervised deep learning-based approaches, as well as mechanisms for training strongly supervised models in select situations. While results of these algorithms look promising, some challenges still persist, including small training sets, rigorous validation, and model explainability. Biomarker prediction models may yield a screening method to determine when to run molecular tests or an alternative when molecular tests are not possible. They also create new opportunities in quantifying intratumoral heterogeneity and predicting patient outcomes.
翻訳日:2022-11-29 17:08:40 公開日:2022-11-27
# RecXplainer: Recommenderシステムのためのポストホック属性に基づく説明

RecXplainer: Post-Hoc Attribute-Based Explanations for Recommender Systems ( http://arxiv.org/abs/2211.14935v1 )

ライセンス: Link先を確認
Sahil Verma, Anurag Beniwal, Narayanan Sadagopan, Arjun Seshadri(参考訳) 現在のデジタル世界では、リコメンダシステムは、ほとんどのインタラクションにおいてユビキタスです。 衣料品の買い物、youtubeでエキサイティングなビデオのスクロール、新しい都市のレストランの検索など、バックエンドのレコメンデーションシステムはこれらのサービスを動かしている。 ほとんどの大規模レコメンデータシステムは、広範なデータセットでトレーニングされた巨大なモデルであり、開発者とエンドユーザの両方にとってブラックボックスである。 先行研究では、レコメンデーションの提供とその理由が、レコメンデーションシステムの信頼性、精査性、説得力を高めることが示されている。 説明可能性に関する最近の文献では、この目的のためにいくつかのアルゴリズムを提案している。 これらの作品のほとんどはアイテムスタイルの説明を提供しており、例えば「アイテムbを買ったので、アイテムaを推奨します。 「我々は,推奨項目の属性に対するユーザの嗜好に基づいて,よりきめ細かい説明を行うための新しいアプローチであるRecXplainerを提案する。 実世界のデータセットを用いて実験を行い、ユーザの好みを捉えてレコメンデーションを説明する上でRecXplainerの有効性を示す。 また,新しい評価指標を10種類提案し,RecXplainerを6種類のベースライン手法と比較した。

Recommender systems are ubiquitous in most of our interactions in the current digital world. Whether shopping for clothes, scrolling YouTube for exciting videos, or searching for restaurants in a new city, the recommender systems at the back-end power these services. Most large-scale recommender systems are huge models trained on extensive datasets and are black-boxes to both their developers and end-users. Prior research has shown that providing recommendations along with their reason enhances trust, scrutability, and persuasiveness of the recommender systems. Recent literature in explainability has been inundated with works proposing several algorithms to this end. Most of these works provide item-style explanations, i.e., `We recommend item A because you bought item B.' We propose a novel approach, RecXplainer, to generate more fine-grained explanations based on the user's preference over the attributes of the recommended items. We perform experiments using real-world datasets and demonstrate the efficacy of RecXplainer in capturing users' preferences and using them to explain recommendations. We also propose ten new evaluation metrics and compare RecXplainer to six baseline methods.
翻訳日:2022-11-29 16:50:59 公開日:2022-11-27
# モンテカルロドロップアウトを用いた衛星の異常検出法

An Anomaly Detection Method for Satellites Using Monte Carlo Dropout ( http://arxiv.org/abs/2211.14938v1 )

ライセンス: Link先を確認
Mohammad Amin Maleki Sadr, Yeying Zhu, Peng Hu(参考訳) 近年,ニューラルネットワーク(NN)を用いた衛星テレメトリ異常検出(AD)への関心が高まっている。 ADの目的のために、現在のアプローチは時系列の予測や再構築に重点を置いており、信頼性のレベルや正しい検出の確率を測定することはできない。 ベイズニューラルネットワーク(BNN)に基づくアプローチは時系列の不確実性推定でよく知られているが、それらは計算的に難解である。 本稿では,衛星テレメトリ時系列における不確かさを高精度に把握するために,モンテカルロ(MC)ドロップアウト法に基づくBNNのトラクタブル近似を提案する。 時系列予測には、複数の長短記憶層(LSTM)と様々な高密度層からなるNNを用いる。 各LSTM層内および高密度層にMCドロップアウトを適用し,不確実性評価を行った。 提案した不確実性領域と後処理フィルタを用いることで,異常点を効果的に捉えることができる。 その結果,提案手法は予測精度と広告視点の両方において既存の手法よりも優れていることがわかった。

Recently, there has been a significant amount of interest in satellite telemetry anomaly detection (AD) using neural networks (NN). For AD purposes, the current approaches focus on either forecasting or reconstruction of the time series, and they cannot measure the level of reliability or the probability of correct detection. Although the Bayesian neural network (BNN)-based approaches are well known for time series uncertainty estimation, they are computationally intractable. In this paper, we present a tractable approximation for BNN based on the Monte Carlo (MC) dropout method for capturing the uncertainty in the satellite telemetry time series, without sacrificing accuracy. For time series forecasting, we employ an NN, which consists of several Long Short-Term Memory (LSTM) layers followed by various dense layers. We employ the MC dropout inside each LSTM layer and before the dense layers for uncertainty estimation. With the proposed uncertainty region and by utilizing a post-processing filter, we can effectively capture the anomaly points. Numerical results show that our proposed time series AD approach outperforms the existing methods from both prediction accuracy and AD perspectives.
翻訳日:2022-11-29 16:50:39 公開日:2022-11-27
# diggan: 限定データを用いたganトレーニングのための判別子勾配ギャップ正規化

DigGAN: Discriminator gradIent Gap Regularization for GAN Training with Limited Data ( http://arxiv.org/abs/2211.14694v1 )

ライセンス: Link先を確認
Tiantian Fang, Ruoyu Sun, Alex Schwing(参考訳) GAN(Generative Adversarial Nets)は、与えられたデータセットによって指定された分布から、特に与えられたデータセットがその次元よりも合理的に大きい場合のサンプルを学習することに成功した。 しかし、限られたデータを考えると、古典的なGANは苦労しており、出力規則化、データ拡張、事前訓練されたモデルの使用、プルーニングといった戦略が改善につながることが示されている。 特に この戦略の適用性は 1) しばしば特定の設定(例えば、事前訓練されたGANの利用可能性など)に制約される。 2) プルーニングを使用する場合,トレーニング時間を短縮する。 これとは対照的に,既存の任意のGANに付加可能なDigGAN(DigGAN)正規化GAN(Distriminator gradIent Gap regularized GAN)の定式化を提案する。 DigGANは、判別器の予測 w.r.t.\ の勾配のノルムと、生成されたサンプル w.r.t.\ とのギャップを狭めることで既存のGANを増強する。 この定式化は,GANロスランドスケープ内の悪い引き込みを回避し,限られたデータが得られる場合に,GANトレーニングの結果を大幅に改善するDigGANを見出した。 コードは \url{https://github.com/AilsaF/DigGAN} で入手できる。

Generative adversarial nets (GANs) have been remarkably successful at learning to sample from distributions specified by a given dataset, particularly if the given dataset is reasonably large compared to its dimensionality. However, given limited data, classical GANs have struggled, and strategies like output-regularization, data-augmentation, use of pre-trained models and pruning have been shown to lead to improvements. Notably, the applicability of these strategies is 1) often constrained to particular settings, e.g., availability of a pretrained GAN; or 2) increases training time, e.g., when using pruning. In contrast, we propose a Discriminator gradIent Gap regularized GAN (DigGAN) formulation which can be added to any existing GAN. DigGAN augments existing GANs by encouraging to narrow the gap between the norm of the gradient of a discriminator's prediction w.r.t.\ real images and w.r.t.\ the generated samples. We observe this formulation to avoid bad attractors within the GAN loss landscape, and we find DigGAN to significantly improve the results of GAN training when limited data is available. Code is available at \url{https://github.com/AilsaF/DigGAN}.
翻訳日:2022-11-29 16:25:01 公開日:2022-11-27
# ロジット型知識蒸留のためのクラスアウェア情報

Class-aware Information for Logit-based Knowledge Distillation ( http://arxiv.org/abs/2211.14773v1 )

ライセンス: Link先を確認
Shuoxi Zhang, Hanpeng Liu, John E. Hopcroft, Kun He(参考訳) 知識蒸留は, 教師モデルの予測・特徴を利用して, 学生モデルに知識を伝達することを目的としており, 特徴ベース蒸留は近年, ロジットベース蒸留よりも優位性を示している。 しかしながら、余分な計算と余分な機能変換の保存のため、機能ベースのメソッドのトレーニングオーバーヘッドは、ロジットベースの蒸留よりもずっと高い。 本稿では,ロジットベースの知識蒸留を再検討し,既存のロジットベースの蒸留方法がインスタンスレベルでのみ予測ロジットを処理し,他の有用な意味情報を見落としていることを観察する。 この問題に対処するため、我々は、インスタンスレベルとクラスレベルの両方でロジト蒸留を拡大するクラス対応ロジト知識蒸留法(CLKD)を提案する。 CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。 さらに,教師のクラスレベルの相関を学習させるために,クラス相関損失と呼ばれる新たな損失を導入する。 実験的な比較では,複数の一般的なロジット法や特徴に基づく手法よりも提案手法の方が優れていることを示す。

Knowledge distillation aims to transfer knowledge to the student model by utilizing the predictions/features of the teacher model, and feature-based distillation has recently shown its superiority over logit-based distillation. However, due to the cumbersome computation and storage of extra feature transformation, the training overhead of feature-based methods is much higher than that of logit-based distillation. In this work, we revisit the logit-based knowledge distillation, and observe that the existing logit-based distillation methods treat the prediction logits only in the instance level, while many other useful semantic information is overlooked. To address this issue, we propose a Class-aware Logit Knowledge Distillation (CLKD) method, that extents the logit distillation in both instance-level and class-level. CLKD enables the student model mimic higher semantic information from the teacher model, hence improving the distillation performance. We further introduce a novel loss called Class Correlation Loss to force the student learn the inherent class-level correlation of the teacher. Empirical comparisons demonstrate the superiority of the proposed method over several prevailing logit-based methods and feature-based methods, in which CLKD achieves compelling results on various visual classification tasks and outperforms the state-of-the-art baselines.
翻訳日:2022-11-29 16:24:38 公開日:2022-11-27
# Landsat-8画像の深部セグメンテーションモデルの性能評価

Performance evaluation of deep segmentation models on Landsat-8 imagery ( http://arxiv.org/abs/2211.14851v1 )

ライセンス: Link先を確認
Akshat Bhandari and Sriya Rallabandi and Sanchit Singhal and Aditya Kasliwal(参考訳) コントラル(Contrail)は、冷たく湿った空気を飛ぶ際に航空機のエンジンの排気によって生じる線状の氷雲である。 放射される長波の約33%を地球に吸収または誘導することで温室効果を発生させる。 それらは航空活動による気候変動の半分以上を占める。 コントラルの回避と飛行経路の調整は、その影響を減らすための安価で効果的な方法である可能性がある。 違反回避戦略の開発と評価には,正確で自動化された信頼性の高い検出アルゴリズムが必要である。 コントラル検出の進歩は、いくつかの要因により、主に品質ラベル付きデータの欠如により、著しく制限されている。 近年,大型のLandsat-8コントラルデータセットが提案されている。 各コントラルには、ランドサット8衛星画像の様々な場面で様々な入力が慎重にラベル付けされている。 本研究では,様々な損失関数とエンコーダのバックボーンを組み合わせたセグメンテーションモデルをベンチマークする。 この研究は、低軌道衛星画像の反則を検出するために最先端のセグメンテーション技術を適用した最初のものである。 私たちの作品は、反則セグメンテーションのオープンベンチマークとしても使用でき、公開されています。

Contrails, short for condensation trails, are line-shaped ice clouds produced by aircraft engine exhaust when they fly through cold and humid air. They generate a greenhouse effect by absorbing or directing back to Earth approximately 33% of emitted outgoing longwave radiation. They account for over half of the climate change resulting from aviation activities. Avoiding contrails and adjusting flight routes could be an inexpensive and effective way to reduce their impact. An accurate, automated, and reliable detection algorithm is required to develop and evaluate contrail avoidance strategies. Advancement in contrail detection has been severely limited due to several factors, primarily due to a lack of quality-labeled data. Recently, proposed a large human-labeled Landsat-8 contrails dataset. Each contrail is carefully labeled with various inputs in various scenes of Landsat-8 satellite imagery. In this work, we benchmark several popular segmentation models with combinations of different loss functions and encoder backbones. This work is the first to apply state-of-the-art segmentation techniques to detect contrails in low-orbit satellite imagery. Our work can also be used as an open benchmark for contrail segmentation and is publicly available.
翻訳日:2022-11-29 16:24:16 公開日:2022-11-27
# ジオ適応型深部時空間予測モデルによるモビリティ

Geo-Adaptive Deep Spatio-Temporal predictive modeling for human mobility ( http://arxiv.org/abs/2211.14885v1 )

ライセンス: Link先を確認
Syed Mohammed Arshad Zaidi, Varun Chandola, EunHye Yoo(参考訳) クラウドフロー予測のような時空間予測問題に対するディープラーニングのアプローチは、データが固定的かつ正規なテンソルであると仮定し、不規則でスパースなデータテンソルを扱うという課題に直面する。 これは、地理的領域のラスタ/イメージ形式表現を用いて、特定の時間分解度における特定の空間領域の「個々人の訪問数」の予測などのユースケースシナリオにおいて制限を生じさせる。 さらに、現在のディープラーニングアプローチでは、個人の時空間的移動パターンをモデル化しながら、地域の地理的認識は考慮されていない。 これらの制約に対処するためには、ジオアウェアネスをモデルに組み込みながら、スパースデータと不規則データの両方を扱える新しい戦略とモデリングアプローチを開発する必要がある。 本稿では,クワッドツリーを画像表現のためのデータ構造として利用し,時間依存を考慮しつつ空間依存を組み込むクワッドツリーデータ構造に基づく新しいジオアウェアモジュールに基づく畳み込み操作を行う新しいジオアウェア対応深層ga-convlstmを導入する。 本稿では, 深層学習に基づく予測モデルGADST-Predictを通して, 個人の空間行動(例えば, 特定の場所への頻繁な訪問)を予測する問題について述べる。 2つのGPSに基づくトレースデータによる実験結果から,提案手法は様々なユースケースに対する周波数訪問を高い精度で扱うのに有効であることが示された。

Deep learning approaches for spatio-temporal prediction problems such as crowd-flow prediction assumes data to be of fixed and regular shaped tensor and face challenges of handling irregular, sparse data tensor. This poses limitations in use-case scenarios such as predicting visit counts of individuals' for a given spatial area at a particular temporal resolution using raster/image format representation of the geographical region, since the movement patterns of an individual can be largely restricted and localized to a certain part of the raster. Additionally, current deep-learning approaches for solving such problem doesn't account for the geographical awareness of a region while modelling the spatio-temporal movement patterns of an individual. To address these limitations, there is a need to develop a novel strategy and modeling approach that can handle both sparse, irregular data while incorporating geo-awareness in the model. In this paper, we make use of quadtree as the data structure for representing the image and introduce a novel geo-aware enabled deep learning layer, GA-ConvLSTM that performs the convolution operation based on a novel geo-aware module based on quadtree data structure for incorporating spatial dependencies while maintaining the recurrent mechanism for accounting for temporal dependencies. We present this approach in the context of the problem of predicting spatial behaviors of an individual (e.g., frequent visits to specific locations) through deep-learning based predictive model, GADST-Predict. Experimental results on two GPS based trace data shows that the proposed method is effective in handling frequency visits over different use-cases with considerable high accuracy.
翻訳日:2022-11-29 16:23:59 公開日:2022-11-27
# コントラスト学習における帰納バイアスの理論的研究

A Theoretical Study of Inductive Biases in Contrastive Learning ( http://arxiv.org/abs/2211.14699v1 )

ライセンス: Link先を確認
Jeff Z. HaoChen, Tengyu Ma(参考訳) 自己指導型学習を理解することは重要だが難しい。 以前の理論研究では、損失の事前学習の役割を研究し、ニューラルネットワークを一般的なブラックボックスと見なす。 しかし、saunshiらによる最近の研究は、モデルアーキテクチャー(以前の作品にほとんど無視されているコンポーネント)は、自己監督学習の下流のパフォーマンスに大きな影響を与えていると主張している。 本研究では,モデルクラスから派生した帰納的バイアスの効果を取り入れた,自己指導型学習に関する最初の理論的分析を行う。 特に,視覚領域で広く使われている自己指導型学習手法であるコントラスト学習に注目した。 モデルがキャパシティに制限がある場合、コントラスト表現はモデルアーキテクチャと互換性のある特定の特殊なクラスタリング構造を回復するが、データ分散における他の多くのクラスタリング構造は無視する。 その結果,本理論は,データ分布のクラスタ数よりもコントラスト表現の次元がはるかに低い,より現実的な設定を捉えることができる。 我々は、いくつかの合成データ分布に関する理論をインスタンス化し、理論を支持する実証的な証拠を提供する。

Understanding self-supervised learning is important but challenging. Previous theoretical works study the role of pretraining losses, and view neural networks as general black boxes. However, the recent work of Saunshi et al. argues that the model architecture -- a component largely ignored by previous works -- also has significant influences on the downstream performance of self-supervised learning. In this work, we provide the first theoretical analysis of self-supervised learning that incorporates the effect of inductive biases originating from the model class. In particular, we focus on contrastive learning -- a popular self-supervised learning method that is widely used in the vision domain. We show that when the model has limited capacity, contrastive representations would recover certain special clustering structures that are compatible with the model architecture, but ignore many other clustering structures in the data distribution. As a result, our theory can capture the more realistic setting where contrastive representations have much lower dimensionality than the number of clusters in the data distribution. We instantiate our theory on several synthetic data distributions, and provide empirical evidence to support the theory.
翻訳日:2022-11-29 16:16:55 公開日:2022-11-27
# 固定予算の制約付き純粋探査型多武装バンディット

Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget ( http://arxiv.org/abs/2211.14768v1 )

ライセンス: Link先を確認
Fathima Zarin Faizal, Jayakrishnan Nair(参考訳) 固定予算の下で、制約のある純粋な探索、確率的マルチアームバンディットの定式化を検討する。 各アームは未知の多次元分布と関連付けられ、この分布の関数である複数の属性によって記述される。 その目的は、ユーザが定義した他の属性の制約に従う特定の属性を最適化することである。 このフレームワークは、リスクに制約された平均戻り値の最大化を実行するのが自然である金融ポートフォリオ最適化のようなアプリケーションをモデル化する。 これらの属性は腕の分布のサンプルを用いて推定でき、これらの推定器は適切な濃度不等式を満たすと仮定する。 本稿では,Successive Rejects フレームワークをベースとした \textsc{Constrained-SR} というアルゴリズムを提案する。 このアルゴリズムの重要な特徴は、二本腕のインスタンスに対する情報理論の下限に基づいて設計されていることである。 我々は、予算に関して指数関数的に減衰する「textsc{Constrained-SR}」の下で、エラーの確率のインスタンス依存上界を特徴づける。 さらに, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示す。

We consider a constrained, pure exploration, stochastic multi-armed bandit formulation under a fixed budget. Each arm is associated with an unknown, possibly multi-dimensional distribution and is described by multiple attributes that are a function of this distribution. The aim is to optimize a particular attribute subject to user-defined constraints on the other attributes. This framework models applications such as financial portfolio optimization, where it is natural to perform risk-constrained maximization of mean return. We assume that the attributes can be estimated using samples from the arms' distributions and that these estimators satisfy suitable concentration inequalities. We propose an algorithm called \textsc{Constrained-SR} based on the Successive Rejects framework, which recommends an optimal arm and flags the instance as being feasible or infeasible. A key feature of this algorithm is that it is designed on the basis of an information theoretic lower bound for two-armed instances. We characterize an instance-dependent upper bound on the probability of error under \textsc{Constrained-SR}, that decays exponentially with respect to the budget. We further show that the associated decay rate is nearly optimal relative to an information theoretic lower bound in certain special cases.
翻訳日:2022-11-29 16:16:37 公開日:2022-11-27
# 分布シフトのためのラベルアライメント規則化

Label Alignment Regularization for Distribution Shift ( http://arxiv.org/abs/2211.14960v1 )

ライセンス: Link先を確認
Ehsan Imani, Guojun Zhang, Jun Luo, Pascal Poupart, Yangchen Pan(参考訳) 最近の研究は、教師付き学習環境でラベルアライメント特性を報告している。データセット内の全てのラベルのベクトルは、データマトリックスの最も少ない特異ベクトルのスパンにある。 この観察に触発されて,教師なし領域適応のための正規化法を導出する。 一般的なドメイン適応法によって行われる表現学習を正則化する代わりに、対象領域の予測が対象領域から教師なしデータ行列の最上位の特異ベクトルである程度 ``align" できるように分類器を正則化する。 線形回帰設定では, ラベルアライメント特性を理論的に正当化し, 最適解までの距離を限定することで正規化の解の最適性を特徴付ける。 従来のドメイン適応手法が失敗することが知られているラベルシフト問題に対して,本手法がうまく機能することを示す実験を行う。 また、一般的に見られるMNIST-USPSドメイン適応タスクと言語間感情分析タスクに基づいて、ドメイン適応ベースラインを軽度に改善する。

Recent work reported the label alignment property in a supervised learning setting: the vector of all labels in the dataset is mostly in the span of the top few singular vectors of the data matrix. Inspired by this observation, we derive a regularization method for unsupervised domain adaptation. Instead of regularizing representation learning as done by popular domain adaptation methods, we regularize the classifier so that the target domain predictions can to some extent ``align" with the top singular vectors of the unsupervised data matrix from the target domain. In a linear regression setting, we theoretically justify the label alignment property and characterize the optimality of the solution of our regularization by bounding its distance to the optimal solution. We conduct experiments to show that our method can work well on the label shift problems, where classic domain adaptation methods are known to fail. We also report mild improvement over domain adaptation baselines on a set of commonly seen MNIST-USPS domain adaptation tasks and on cross-lingual sentiment analysis tasks.
翻訳日:2022-11-29 16:16:17 公開日:2022-11-27
# 交通予測のための時空間メタグラフ学習

Spatio-Temporal Meta-Graph Learning for Traffic Forecasting ( http://arxiv.org/abs/2211.14701v1 )

ライセンス: Link先を確認
Renhe Jiang, Zhaonan Wang, Jiawei Yong, Puneet Jeph, Quanjun Chen, Yasumasa Kobayashi, Xuan Song, Shintaro Fukushima, Toyotaro Suzumura(参考訳) 多変量時系列予測の標準タスクとしての交通予測は、aiコミュニティにおいて重要な研究課題となっている。 本研究では,トラヒックストリームに含まれる時空間不均一性と非定常性に対処するために,時空間データに対する新しいグラフ構造学習機構として時空間メタグラフ学習を提案する。 具体的には,このアイデアをMeta-Graph Convolutional Recurrent Network(MegaCRN)に実装し,Meta-ノードバンクを利用したMeta-Graph LearnerをGCRNエンコーダに接続する。 本稿では,2つのベンチマークデータセット(METR-LAとPEMS-BAY)と,交通インシデント情報を含む大規模交通速度データセットの総合評価を行う。 私たちのモデルは3つのデータセット(27% mae と 34% rmse)すべてにおいて最先端を上回りました。 さらに, 一連の定性的評価により, 道路リンクや時間帯を異なるパターンで明示的に切り離し, 異常な交通状況に対して頑健に適応できることを実証した。 コードとデータセットはhttps://github.com/deepkashiwa20/megacrnで入手できる。

Traffic forecasting as a canonical task of multivariate time series forecasting has been a significant research topic in AI community. To address the spatio-temporal heterogeneity and non-stationarity implied in the traffic stream, in this study, we propose Spatio-Temporal Meta-Graph Learning as a novel Graph Structure Learning mechanism on spatio-temporal data. Specifically, we implement this idea into Meta-Graph Convolutional Recurrent Network (MegaCRN) by plugging the Meta-Graph Learner powered by a Meta-Node Bank into GCRN encoder-decoder. We conduct a comprehensive evaluation on two benchmark datasets (METR-LA and PEMS-BAY) and a new large-scale traffic speed dataset in which traffic incident information is contained. Our model outperformed the state-of-the-arts to a large degree on all three datasets (over 27% MAE and 34% RMSE). Besides, through a series of qualitative evaluations, we demonstrate that our model can explicitly disentangle the road links and time slots with different patterns and be robustly adaptive to any anomalous traffic situations. Codes and datasets are available at https://github.com/deepkashiwa20/MegaCRN.
翻訳日:2022-11-29 15:48:37 公開日:2022-11-27
# 時系列は64語の価値:トランスフォーマーによる長期予測

A Time Series is Worth 64 Words: Long-term Forecasting with Transformers ( http://arxiv.org/abs/2211.14730v1 )

ライセンス: Link先を確認
Yuqi Nie, Nam H. Nguyen, Phanwadee Sinthong, Jayant Kalagnanam(参考訳) 本稿では,多変量時系列予測と自己教師型表現学習のためのトランスフォーマーモデルを提案する。 これは2つの重要なコンポーネントに基づいている。 (i)Transformerへの入力トークンとして提供されるサブシリーズレベルのパッチへの時系列のセグメンテーション (ii)各チャンネルが同じ埋め込みとトランスフォーマーの重みを全シリーズで共有する1つの不等級時系列を含む場合のチャネル独立性。 局所的なセマンティック情報は埋め込みに保持される; 注意マップの計算とメモリ使用量は、同じルックバックウィンドウで二次的に削減される; モデルは長い歴史にたどり着くことができる。 チャネルに依存しないパッチ時系列変換器(PatchTST)は,SOTAトランスフォーマーモデルと比較して長期予測精度を大幅に向上させることができる。 また, 自己教師付き事前学習タスクに適用し, 優れた微調整性能を達成し, 大規模データセットでの教師付きトレーニングを上回った。 マスク付き事前学習表現を他のデータセットに転送することで、SOTA予測精度も向上する。 コードは、https://github.com/yuqinie98/PatchTST.comで入手できる。

We propose an efficient design of Transformer-based models for multivariate time series forecasting and self-supervised representation learning. It is based on two key components: (i) segmentation of time series into subseries-level patches which are served as input tokens to Transformer; (ii) channel-independence where each channel contains a single univariate time series that shares the same embedding and Transformer weights across all the series. Patching design naturally has three-fold benefit: local semantic information is retained in the embedding; computation and memory usage of the attention maps are quadratically reduced given the same look-back window; and the model can attend longer history. Our channel-independent patch time series Transformer (PatchTST) can improve the long-term forecasting accuracy significantly when compared with that of SOTA Transformer-based models. We also apply our model to self-supervised pre-training tasks and attain excellent fine-tuning performance, which outperforms supervised training on large datasets. Transferring of masked pre-trained representation on one dataset to others also produces SOTA forecasting accuracy. Code is available at: https://github.com/yuqinie98/PatchTST.
翻訳日:2022-11-29 15:48:16 公開日:2022-11-27
# 「同じ方法で説明しろ!」 -- 対実的説明のモデル非依存グループフェアネス

"Explain it in the Same Way!" -- Model-Agnostic Group Fairness of Counterfactual Explanations ( http://arxiv.org/abs/2211.14858v1 )

ライセンス: Link先を確認
Andr\'e Artelt and Barbara Hammer(参考訳) 反事実的説明は、意思決定システムの結果をユーザに透明にする一般的な説明である。 反事実的な説明は、望ましい方法でシステムの結果を変更するために、ユーザに何をすべきかを伝えます。 しかし,最近の研究結果から,行動の推奨事項は,保護された個人群間の複雑さにおいて著しく異なることが判明した。 あるグループに対するアクションのより難しい推奨を提供することは、他のグループと比較してこのグループの不利につながる。 本研究では,保護群間の複雑性に差がない反事実的説明をモデル非依存で計算する手法を提案する。

Counterfactual explanations are a popular type of explanation for making the outcomes of a decision making system transparent to the user. Counterfactual explanations tell the user what to do in order to change the outcome of the system in a desirable way. However, it was recently discovered that the recommendations of what to do can differ significantly in their complexity between protected groups of individuals. Providing more difficult recommendations of actions to one group leads to a disadvantage of this group compared to other groups. In this work we propose a model-agnostic method for computing counterfactual explanations that do not differ significantly in their complexity between protected groups.
翻訳日:2022-11-29 15:47:56 公開日:2022-11-27
# 超短期太陽観測・クラウド解析・モデリングのためのオープンソース地上画像データセット:総合調査

Open-Source Ground-based Sky Image Datasets for Very Short-term Solar Forecasting, Cloud Analysis and Modeling: A Comprehensive Survey ( http://arxiv.org/abs/2211.14709v1 )

ライセンス: Link先を確認
Yuhao Nie, Xiatong Li, Quentin Paletta, Max Aragon, Andea Scott, Adam Brandt(参考訳) 本研究は,超短期太陽予報のためのオープンソース地上画像データセットの総合的な調査である。 クラウドセグメンテーション、クラウド分類、クラウドモーション予測など、太陽の予測方法の改善に役立つ可能性のある関連する研究分野も検討されている。 まず,機械学習と深層学習のニーズを満たす72のオープンソーススカイイメージデータセットを同定する。 そして、データセットの様々な側面に関する情報データベースを構築する。 調査した各データセットを評価するために,データセットの8次元に基づくマルチ基準ランキングシステムを構築し,データの利用に重要な影響を与える可能性がある。 最後に,これらのデータセットの使用状況について,公開文献で考察する。 この論文は、非常に短期的な太陽予測、クラウド分析、大気モデルのためのディープラーニングモデルをトレーニングするためのデータセットを探している研究者向けの概要を提供する。

This study presents a comprehensive survey of open-source ground-based sky image datasets for very short-term solar forecasting. Related research areas which could potentially help improve solar forecasting methods, including cloud segmentation, cloud classification, and cloud motion prediction are also considered. We first identify 72 open-source sky image datasets that satisfy the needs of machine/deep learning. Then a database of information about various aspects of the datasets is constructed. To evaluate each surveyed datasets, we further develop a multi-criteria ranking system based on 8 dimensions of the datasets which could potentially have important impacts on usage of the data. Finally, we provide insights on the usage of these datasets in the open literature. We hope this paper provide an overview for researchers who are looking for datasets for training deep learning models for very short-term solar forecasting, cloud analysis, and atmospheric modeling.
翻訳日:2022-11-29 15:31:00 公開日:2022-11-27
# 医用画像の認識向上に向けた自己指導型事前学習のための知識ベース学習フレームワーク

A Knowledge-based Learning Framework for Self-supervised Pre-training Towards Enhanced Recognition of Medical Images ( http://arxiv.org/abs/2211.14715v1 )

ライセンス: Link先を確認
Wei Chen, Chen Li, Dan Chen, Xin Luo(参考訳) 自己教師付き事前訓練は、日常的にアノテーションなし、意味論なし、品質保証なしの大規模な医療画像の自動認識のための信頼できるモデルを確立するための優先的選択となっている。 このパラダイムはまだ初期段階であり、関連するオープンな問題によって制限されています。 1) サンプルの多様性の低いラベルなしの医用画像から教師なしでロバスト表現を学習するにはどうすればよいか? そして 2)高品質セグメンテーションに要求される最も重要な表現の獲得方法 そこで本研究では,これらの課題に着目し,コントラスト学習と生成学習モデルを組み合わせた3段階の医療画像認識のための知識ベース学習フレームワークを提案する。 1) サンプル空間の多様化: 再構成型プロキシタスクは、拡張されたサンプル空間の多様化のために強調されたコンテキストで事前知識を埋め込むことができる。 2) 拡張表現学習: 情報的ノイズコントラスト推定損失は、エンコーダを正規化し、アノテーションのない画像の表現学習を強化する。 3) 相関最適化: エンコーダとデコーダの事前トレーニングにおける最適化操作は、プロキシタスクからのイメージ復元を通じて関連付けられ、セマンティックセグメンテーションの必要性を目標としている。 さまざまな公開医療画像データセット(例えば、CheXpertやDRIVE)に対して、最先端の医療画像データセット(例えば、SimCLRやMoCo)に対して大規模な実験が行われ、このフレームワークは、AUC/DiceのSimCLRよりも2.8、1.23、1.12、0.76、.38パーセント改善されている。 提案手法は, 病理分類において最大99%のアノテーションコスト削減など, ラベル効率の高い半教師付き学習を実現する。

Self-supervised pre-training has become the priory choice to establish reliable models for automated recognition of massive medical images, which are routinely annotation-free, without semantics, and without guarantee of quality. Note that this paradigm is still at its infancy and limited by closely related open issues: 1) how to learn robust representations in an unsupervised manner from unlabelled medical images of low diversity in samples? and 2) how to obtain the most significant representations demanded by a high-quality segmentation? Aiming at these issues, this study proposes a knowledge-based learning framework towards enhanced recognition of medical images, which works in three phases by synergizing contrastive learning and generative learning models: 1) Sample Space Diversification: Reconstructive proxy tasks have been enabled to embed a priori knowledge with context highlighted to diversify the expanded sample space; 2) Enhanced Representation Learning: Informative noise-contrastive estimation loss regularizes the encoder to enhance representation learning of annotation-free images; 3) Correlated Optimization: Optimization operations in pre-training the encoder and the decoder have been correlated via image restoration from proxy tasks, targeting the need for semantic segmentation. Extensive experiments have been performed on various public medical image datasets (e.g., CheXpert and DRIVE) against the state-of-the-art counterparts (e.g., SimCLR and MoCo), and results demonstrate that: The proposed framework statistically excels in self-supervised benchmarks, achieving 2.08, 1.23, 1.12, 0.76 and 1.38 percentage points improvements over SimCLR in AUC/Dice. The proposed framework achieves label-efficient semi-supervised learning, e.g., reducing the annotation cost by up to 99% in pathological classification.
翻訳日:2022-11-29 15:30:47 公開日:2022-11-27
# コンピュータビジョンにおける属性に基づくXAI手法

Attribution-based XAI Methods in Computer Vision: A Review ( http://arxiv.org/abs/2211.14736v1 )

ライセンス: Link先を確認
Kumar Abhishek, Deeksha Kamath(参考訳) 視覚認知タスクのためのディープラーニングベースの手法の進歩は、自動運転から臨床意思決定支援システムまで、多くの応用分野で広く採用され、この10年で驚くべき成長を遂げている。 優れたパフォーマンスにもかかわらず、これらのディープラーニングベースのモデルは意思決定プロセスにおいてかなり不透明であり、人間クリティカルなタスクへの展開を危険にさらしている。 これにより、信頼性の高いデプロイメントに不可欠なこれらのモデルによる決定を理解することができます。 説明可能なai(xai)メソッドは、このようなブラックボックスディープラーニングメソッドの説明を提供することで、この問題に対処しようとする。 本稿では,コンピュータビジョンにおける帰属型xai手法の包括的調査を行い,xaiの勾配型,摂動型,コントラスト型に関する既存の文献を概観し,ロバストxai手法の開発と評価における重要な課題について考察する。

The advancements in deep learning-based methods for visual perception tasks have seen astounding growth in the last decade, with widespread adoption in a plethora of application areas from autonomous driving to clinical decision support systems. Despite their impressive performance, these deep learning-based models remain fairly opaque in their decision-making process, making their deployment in human-critical tasks a risky endeavor. This in turn makes understanding the decisions made by these models crucial for their reliable deployment. Explainable AI (XAI) methods attempt to address this by offering explanations for such black-box deep learning methods. In this paper, we provide a comprehensive survey of attribution-based XAI methods in computer vision and review the existing literature for gradient-based, perturbation-based, and contrastive methods for XAI, and provide insights on the key challenges in developing and evaluating robust XAI methods.
翻訳日:2022-11-29 15:30:17 公開日:2022-11-27
# Augmented Graph Convolutional Network を用いたマルチラベル連続学習

Multi-Label Continual Learning using Augmented Graph Convolutional Network ( http://arxiv.org/abs/2211.14763v1 )

ライセンス: Link先を確認
Kaile Du, Fan Lyu, Linyan Li, Fuyuan Hu, Wei Feng, Fenglei Xu, Xuefeng Xi, Hanjing Cheng(参考訳) Multi-Label Continual Learning (MLCL)は、シーケンシャルなマルチラベル画像認識データストリームにクラスインクリメンタルフレームワークを構築する。 MLCLの重要な課題は、過去の欠落と将来の欠落したトレーニングデータの部分ラベルに関するラベル関係の構築と、古いクラスの破滅的な忘れ込みであり、結果として一般化が不十分なことである。 この問題を解決するために,MLCL内のクロスタスクラベル関係を構築し,破滅的な忘れを抑えるAGCN++(Augmented Graph Convolutional Network)を提案する。 まず,すべての参照クラスにわたって拡張相関行列(acm)を構築し,タスク内関係をハードラベル統計から導出する。 対照的に、タスク間の関係はデータと構築された専門家ネットワークからハードラベルとソフトラベルを活用する。 そこで我々は,MLCL用の新しい部分ラベルエンコーダ(PLE)を提案し,グラフノードとして各部分ラベル画像の動的クラス表現を抽出し,ソフトラベルを生成することにより,より説得力のあるACMを作成し,忘れを抑える。 最後に,従来のタスク間のラベル依存の忘れを抑えるために,ラベル関係を構築するための関係保存制約を提案する。 クラス間トポロジは自動的に拡張され、効果的なクラス表現も得られる。 提案手法は2つのマルチラベル画像ベンチマークを用いて評価する。 実験の結果,提案手法はmlcl画像認識に有効であり,過去のタスクのラベルが失われても,タスク間の説得力のある相関関係を構築することができることがわかった。

Multi-Label Continual Learning (MLCL) builds a class-incremental framework in a sequential multi-label image recognition data stream. The critical challenges of MLCL are the construction of label relationships on past-missing and future-missing partial labels of training data and the catastrophic forgetting on old classes, resulting in poor generalization. To solve the problems, the study proposes an Augmented Graph Convolutional Network (AGCN++) that can construct the cross-task label relationships in MLCL and sustain catastrophic forgetting. First, we build an Augmented Correlation Matrix (ACM) across all seen classes, where the intra-task relationships derive from the hard label statistics. In contrast, the inter-task relationships leverage hard and soft labels from data and a constructed expert network. Then, we propose a novel partial label encoder (PLE) for MLCL, which can extract dynamic class representation for each partial label image as graph nodes and help generate soft labels to create a more convincing ACM and suppress forgetting. Last, to suppress the forgetting of label dependencies across old tasks, we propose a relationship-preserving constrainter to construct label relationships. The inter-class topology can be augmented automatically, which also yields effective class representations. The proposed method is evaluated using two multi-label image benchmarks. The experimental results show that the proposed way is effective for MLCL image recognition and can build convincing correlations across tasks even if the labels of previous tasks are missing.
翻訳日:2022-11-29 15:29:48 公開日:2022-11-27
# SegCLIP:オープン語彙セマンティックセマンティックセグメンテーションのための学習可能なセンターによるパッチアグリゲーション

SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2211.14813v1 )

ライセンス: Link先を確認
Huaishao Luo, Junwei Bao, Youzheng Wu, Xiaodong He, Tianrui Li(参考訳) 近年,clipのようなコントラスト型言語イメージ事前学習が,ダウンストリームタスクにおいて有望な結果を示している。 事前学習されたモデルは、大規模なテキスト画像データから学習することで、画像の豊富な視覚概念をキャプチャすることができる。 しかし、学習した視覚知識を開放的な意味セグメンテーションに移すことはまだ未検討である。 本稿では,open-vocabulary segmentationを無アノテーションで扱うために,segclipというクリップベースモデルを提案する。 SegCLIPはViTに基づくセグメンテーションを実現し,テキストイメージペアのトレーニングを通じて,学習可能なセンタをセマンティック領域に集める。 収集操作は、最終的なセグメンテーション結果を生成するために使用できるセマンティックグループを動的にキャプチャすることができる。 さらに,マスク付きパッチの再構成損失と擬似ラベル付きスーパーピクセルベースのKL損失を提案し,視覚的表現を高める。 実験の結果, PASCAL VOC 2012(+1.4% mIoU), PASCAL Context(+2.4% mIoU), COCO(+5.6% mIoU)では, ベースラインと比較して, 高いセグメンテーション精度が得られた。 コードをhttps://github.com/ArrowLuo/SegCLIPでリリースします。

Recently, the contrastive language-image pre-training, e.g., CLIP, has demonstrated promising results on various downstream tasks. The pre-trained model can capture enriched visual concepts for images by learning from a large scale of text-image data. However, transferring the learned visual knowledge to open-vocabulary semantic segmentation is still under-explored. In this paper, we propose a CLIP-based model named SegCLIP for the topic of open-vocabulary segmentation in an annotation-free manner. The SegCLIP achieves segmentation based on ViT and the main idea is to gather patches with learnable centers to semantic regions through training on text-image pairs. The gathering operation can dynamically capture the semantic groups, which can be used to generate the final segmentation results. We further propose a reconstruction loss on masked patches and a superpixel-based KL loss with pseudo-labels to enhance the visual representation. Experimental results show that our model achieves comparable or superior segmentation accuracy on the PASCAL VOC 2012 (+1.4% mIoU), PASCAL Context (+2.4% mIoU), and COCO (+5.6% mIoU) compared with baselines. We release the code at https://github.com/ArrowLuo/SegCLIP.
翻訳日:2022-11-29 15:29:16 公開日:2022-11-27
# ディープニューラルネットワークにおけるフォアリング説明

Foiling Explanations in Deep Neural Networks ( http://arxiv.org/abs/2211.14860v1 )

ライセンス: Link先を確認
Snir Vitrack Tamam, Raz Lapid, Moshe Sipper(参考訳) ディープニューラルネットワーク(DNN)は、過去10年間に多くの分野に大きな影響を与えてきた。 しかし、多くの問題に対して優れたパフォーマンスを示すにもかかわらず、ブラックボックスの性質は説明可能性に関して依然として大きな課題となっている。 実際、説明可能な人工知能(XAI)はいくつかの分野で重要である。 本稿では、画像ベースDNNにおける説明手法の厄介な性質を明らかにする: 入力画像に小さな視覚的変化を加えることで、ネットワークの出力に影響を与えることがほとんどなく、進化戦略を用いて、どのように説明が任意に操作されるかを実証する。 我々の新しいアルゴリズムであるAttaXAIは、XAIアルゴリズムに対するモデルに依存しない、敵対的な攻撃であり、分類器の出力ロジットと説明マップへのアクセスしか必要としない。 ベンチマークデータセットであるcifar100とimagenetのパフォーマンスを,vgg16-cifar100,vgg16-imagenet,mobilenet-cifar100,inception-v3-imagenetの4つの異なるディープラーニングモデルを用いて比較した。 XAI法は勾配やモデル内部を使わずに操作できることがわかった。 我々の新しいアルゴリズムは、XAI法が特定の説明図を出力するように、人間の目では認識できない方法で画像を操作できる。 我々の知る限り、これはブラックボックス設定における最初の方法であり、説明責任が望まれ、必要であり、法的に義務付けられている重要な価値があると考えている。

Deep neural networks (DNNs) have greatly impacted numerous fields over the past decade. Yet despite exhibiting superb performance over many problems, their black-box nature still poses a significant challenge with respect to explainability. Indeed, explainable artificial intelligence (XAI) is crucial in several fields, wherein the answer alone -- sans a reasoning of how said answer was derived -- is of little value. This paper uncovers a troubling property of explanation methods for image-based DNNs: by making small visual changes to the input image -- hardly influencing the network's output -- we demonstrate how explanations may be arbitrarily manipulated through the use of evolution strategies. Our novel algorithm, AttaXAI, a model-agnostic, adversarial attack on XAI algorithms, only requires access to the output logits of a classifier and to the explanation map; these weak assumptions render our approach highly useful where real-world models and data are concerned. We compare our method's performance on two benchmark datasets -- CIFAR100 and ImageNet -- using four different pretrained deep-learning models: VGG16-CIFAR100, VGG16-ImageNet, MobileNet-CIFAR100, and Inception-v3-ImageNet. We find that the XAI methods can be manipulated without the use of gradients or other model internals. Our novel algorithm is successfully able to manipulate an image in a manner imperceptible to the human eye, such that the XAI method outputs a specific explanation map. To our knowledge, this is the first such method in a black-box setting, and we believe it has significant value where explainability is desired, required, or legally mandatory.
翻訳日:2022-11-29 15:28:51 公開日:2022-11-27
# bev-locator:マルチビュー画像を用いたエンド・ツー・エンドのビジュアルセマンティクス定位ネットワーク

BEV-Locator: An End-to-end Visual Semantic Localization Network Using Multi-View Images ( http://arxiv.org/abs/2211.14927v1 )

ライセンス: Link先を確認
Zhihuang Zhang, Meng Xu, Wenqiang Zhou, Tao Peng, Liang Li, Stefan Poslad(参考訳) 正確なローカライゼーション能力は、自動運転の基本である。 従来の視覚的ローカライゼーションフレームワークは、複雑なパラメータチューニングに依存し、大規模なデプロイメントを妨げる幾何学モデルによる意味地図マッチング問題にアプローチする。 本稿では,多視点カメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークBEV-Locatorを提案する。 具体的には、視覚的BEVエンコーダ(Birds-Eye-View)が、多視点画像をBEV空間に抽出し、平坦化する。 セマンティックマップ機能はマップクエリシーケンスとして構造的に組み込まれている。 次に、クロスモデル変換器は、BEV機能とセマンティックマップクエリを関連付ける。 ego-carのローカライズ情報はクロスアテンションモジュールによって再帰的にクエリされる。 最後に、変換器出力を復号することで、エゴポーズを推測することができる。 提案手法を大規模nuSceneおよびQcraftデータセットで評価する。 実験の結果,bev-ロケータは多視点画像とグローバルセマンティックマップのクロスモデル情報を効果的に関連付ける汎用シナリオで車両のポーズを推定できることがわかった。 実験の結果, 平均絶対誤差が0.052m, 0.135m, 0.251$^\circ$で, 横方向, 縦方向, 方向角の精度は良好であった。

Accurate localization ability is fundamental in autonomous driving. Traditional visual localization frameworks approach the semantic map-matching problem with geometric models, which rely on complex parameter tuning and thus hinder large-scale deployment. In this paper, we propose BEV-Locator: an end-to-end visual semantic localization neural network using multi-view camera images. Specifically, a visual BEV (Birds-Eye-View) encoder extracts and flattens the multi-view images into BEV space. While the semantic map features are structurally embedded as map queries sequence. Then a cross-model transformer associates the BEV features and semantic map queries. The localization information of ego-car is recursively queried out by cross-attention modules. Finally, the ego pose can be inferred by decoding the transformer outputs. We evaluate the proposed method in large-scale nuScenes and Qcraft datasets. The experimental results show that the BEV-locator is capable to estimate the vehicle poses under versatile scenarios, which effectively associates the cross-model information from multi-view images and global semantic maps. The experiments report satisfactory accuracy with mean absolute errors of 0.052m, 0.135m and 0.251$^\circ$ in lateral, longitudinal translation and heading angle degree.
翻訳日:2022-11-29 15:28:22 公開日:2022-11-27
# 相関変数を持つニューラルマニフォールドの線形分類

Linear Classification of Neural Manifolds with Correlated Variability ( http://arxiv.org/abs/2211.14961v1 )

ライセンス: Link先を確認
Albert J. Wakhloo, Tamara J. Sussman, SueYeon Chung(参考訳) ニューラルアクティベーションの統計的および幾何学的性質がネットワーク性能にどのように関係しているかを理解することは、理論的神経科学とディープラーニングの重要な問題である。 本稿では,対象表現間の相関がキャパシティに与える影響,すなわち線形分離可能性の尺度を計算する。 球面多様体では、中心体間の相関が効果的に球面を近づける一方で、球面の軸間の相関が効果的に半径を縮小し、神経相関と幾何学の双対性が明らかにされる。 その結果,実際のニューラルデータを用いて正確な推定能力が得られた。

Understanding how the statistical and geometric properties of neural activations relate to network performance is a key problem in theoretical neuroscience and deep learning. In this letter, we calculate how correlations between object representations affect the capacity, a measure of linear separability. We show that for spherical object manifolds, introducing correlations between centroids effectively pushes the spheres closer together, while introducing correlations between the spheres' axes effectively shrinks their radii, revealing a duality between neural correlations and geometry. We then show that our results can be used to accurately estimate the capacity with real neural data.
翻訳日:2022-11-29 15:21:47 公開日:2022-11-27
# EPIK:知識蒸留による多モデルパイプラインの除去

EPIK: Eliminating multi-model Pipelines with Knowledge-distillation ( http://arxiv.org/abs/2211.14920v1 )

ライセンス: Link先を確認
Bhavesh Laddagiri, Yash Raj, Anshuman Dash(参考訳) 実世界のタスクは、主に複数のモデルで構成されており、それぞれがより大きなタスクチェーンでサブタスクを実行する。 マトラのようなモデルは2つの段階において言語間翻訳のタスクを実行し、英語を2つの言語間翻訳の中間的対象として使用する。 そこで本研究では,階層型タスクのための2段階パイプラインを,性能を損なうことなく単一エンドツーエンドモデルに凝縮する新しい蒸留手法 EPIK を提案する。 この方法は、専用のエンドツーエンドデータセットを必要とせずに、タスクのエンドツーエンドモデルを作成することができ、データの不足問題を解決する。 epikモデルはこの知識蒸留技術を用いてマトラモデルから蒸留されている。 マトラモデルは英語、ヒンディー語、タミル語、カンナダ語、ベンガル語という5つの言語間の言語間翻訳を行うことができる。 EPIKモデルは、MATraモデルの性能と正確性を保ちながら、中間的な英語出力なしで音訳タスクを実行する。 EPIKモデルは平均CERスコア0.015、平均音韻精度92.1%で音訳を行うことができる。 また、教師モデルと比較して平均実行時間が54.3%減少し、教師エンコーダとの類似点が97.5%となった。 いくつかのケースでは、EPIKモデル(学生モデル)は、MATraモデルから蒸留したとしても、MATraモデル(教師モデル)よりも優れている。

Real-world tasks are largely composed of multiple models, each performing a sub-task in a larger chain of tasks, i.e., using the output from a model as input for another model in a multi-model pipeline. A model like MATRa performs the task of Crosslingual Transliteration in two stages, using English as an intermediate transliteration target when transliterating between two indic languages. We propose a novel distillation technique, EPIK, that condenses two-stage pipelines for hierarchical tasks into a single end-to-end model without compromising performance. This method can create end-to-end models for tasks without needing a dedicated end-to-end dataset, solving the data scarcity problem. The EPIK model has been distilled from the MATra model using this technique of knowledge distillation. The MATra model can perform crosslingual transliteration between 5 languages - English, Hindi, Tamil, Kannada and Bengali. The EPIK model executes the task of transliteration without any intermediate English output while retaining the performance and accuracy of the MATra model. The EPIK model can perform transliteration with an average CER score of 0.015 and average phonetic accuracy of 92.1%. In addition, the average time for execution has reduced by 54.3% as compared to the teacher model and has a similarity score of 97.5% with the teacher encoder. In a few cases, the EPIK model (student model) can outperform the MATra model (teacher model) even though it has been distilled from the MATra model.
翻訳日:2022-11-29 15:13:20 公開日:2022-11-27
# ワッサーシュタイン空間における教師なしオピニオン要約

Unsupervised Opinion Summarisation in the Wasserstein Space ( http://arxiv.org/abs/2211.14923v1 )

ライセンス: Link先を確認
Jiayu Song, Iman Munire Bilal, Adam Tsakalidis, Rob Procter, Maria Liakata(参考訳) 意見要約は、同じトピックについて議論する文書のグループで表現された意見を合成し、単一の要約を生成する。 最近の研究は、ソーシャルメディア投稿の集合の要約を考察している。 このような投稿は騒々しく、予測不可能な構造であり、これまでの意見要約の焦点であったオンラインレビューに比べて、要約配信の構築や意味の保存にさらなる課題が生じる。 これらの課題に対処するために、ワッサーシュタイン距離を利用する教師なし抽象的要約モデルであるtextit{WassOS} を提示する。 変分オートエンコーダは文書/ポストの分布を得るために使われ、分布は別々の意味空間と構文空間に分離される。 要約分布は、意味分布と構文分布のwasserstein barycenterを用いて得られる。 要約分布からサンプリングされた潜伏変数を変圧器層付きGRUデコーダに供給して最終要約を生成する。 Twitterクラスタ、Redditスレッド、レビューを含む複数のデータセットに関する我々の実験は、WassOSがROUGEメトリクスの最先端をほぼ常に上回り、人間の評価による意味保存に関する最高の要約を一貫して生成していることを示している。

Opinion summarisation synthesises opinions expressed in a group of documents discussing the same topic to produce a single summary. Recent work has looked at opinion summarisation of clusters of social media posts. Such posts are noisy and have unpredictable structure, posing additional challenges for the construction of the summary distribution and the preservation of meaning compared to online reviews, which has been so far the focus of opinion summarisation. To address these challenges we present \textit{WassOS}, an unsupervised abstractive summarization model which makes use of the Wasserstein distance. A Variational Autoencoder is used to get the distribution of documents/posts, and the distributions are disentangled into separate semantic and syntactic spaces. The summary distribution is obtained using the Wasserstein barycenter of the semantic and syntactic distributions. A latent variable sampled from the summary distribution is fed into a GRU decoder with a transformer layer to produce the final summary. Our experiments on multiple datasets including Twitter clusters, Reddit threads, and reviews show that WassOS almost always outperforms the state-of-the-art on ROUGE metrics and consistently produces the best summaries with respect to meaning preservation according to human evaluations.
翻訳日:2022-11-29 15:12:56 公開日:2022-11-27
# 野生におけるトピックセグメンテーション:半構造化・非構造化チャットのセグメンテーションに向けて

Topic Segmentation in the Wild: Towards Segmentation of Semi-structured & Unstructured Chats ( http://arxiv.org/abs/2211.14954v1 )

ライセンス: Link先を確認
Reshmi Ghosh, Harjeet Singh Kajal, Sharanya Kamath, Dhuri Shrivastava, Samyadeep Basu, Soundararajan Srinivasan(参考訳) 文書や会話をセマンティック構造に基づいて複数の連続セグメントに分割することは、NLPにおいて重要かつ困難な問題であり、多くの下流タスクを支援することができる。 しかし、現在のトピックセグメンテーションの研究は、しばしば構造化テキストのセグメンテーションに焦点を当てている。 本稿では,非構造化テキスト上での最先端トピックセグメンテーションモデルの一般化能力を包括的に分析する。 私たちはそれを見つけました (a)wiki-727kのような構造化テキストの大きなコーパスで事前学習する現在の戦略は、非構造化テキストへの転送性に役立たない。 b) 対象非構造領域の比較的小さなデータセットのみをスクラッチからトレーニングすることで, セグメンテーションの結果を顕著なマージンで改善する。

Breaking down a document or a conversation into multiple contiguous segments based on its semantic structure is an important and challenging problem in NLP, which can assist many downstream tasks. However, current works on topic segmentation often focus on segmentation of structured texts. In this paper, we comprehensively analyze the generalization capabilities of state-of-the-art topic segmentation models on unstructured texts. We find that: (a) Current strategies of pre-training on a large corpus of structured text such as Wiki-727K do not help in transferability to unstructured texts. (b) Training from scratch with only a relatively small-sized dataset of the target unstructured domain improves the segmentation results by a significant margin.
翻訳日:2022-11-29 15:12:34 公開日:2022-11-27
# パッチレベル事前訓練ドキュメンテーション画像モデルのためのアライメント強化チューニング

Alignment-Enriched Tuning for Patch-Level Pre-trained Document Image Models ( http://arxiv.org/abs/2211.14777v1 )

ライセンス: Link先を確認
Lei Wang, Jiabang He, Xing Xu, Ning Liu, Hui Liu(参考訳) 画像とテキストのアライメントは、パッチレベルの事前訓練された文書イメージモデルに有望な改善を示している。 しかしながら、事前トレーニング中のより効果的で細かいアライメント技術を調査するには、大量の計算コストと時間が必要となる。 トレーニング済みのモデルを、アライメントの目的を持った下流タスクに適応させ、同等あるいはより良いパフォーマンスを達成することができるだろうか? 本稿では,事前訓練された文書画像モデルに基づくアライメント強化チューニング(AETNet)を用いた新しいモデルアーキテクチャを提案する。 具体的には,アライメントウェア画像エンコーダとしての余分な視覚トランスと,マルチモーダル融合前のアライメントウェアテキストエンコーダとしての余分なテキストトランスについて紹介する。 私たちは以下の3つの側面で整合性を考える。 1) クロスモーダル及びイントラモーダルコントラスト損失を利用した文書レベルのアライメント 2) 文書画像における局所的及び構造的情報をモデル化するためのグローバル局所的アライメント 3)より正確なパッチレベル情報に対する局所レベルアライメント。 様々なダウンストリームタスクの実験は、AETNetが様々なダウンストリームタスクで最先端のパフォーマンスを達成できることを示している。 特に、AETNetは3つの異なる下流タスクにおいて、LayoutLMv3のような最先端の事前訓練されたモデルよりも一貫して優れている。

Alignment between image and text has shown promising improvements on patch-level pre-trained document image models. However, investigating more effective or finer-grained alignment techniques during pre-training requires a large amount of computation cost and time. Thus, a question naturally arises: Could we fine-tune the pre-trained models adaptive to downstream tasks with alignment objectives and achieve comparable or better performance? In this paper, we propose a new model architecture with alignment-enriched tuning (dubbed AETNet) upon pre-trained document image models, to adapt downstream tasks with the joint task-specific supervised and alignment-aware contrastive objective. Specifically, we introduce an extra visual transformer as the alignment-ware image encoder and an extra text transformer as the alignment-ware text encoder before multimodal fusion. We consider alignment in the following three aspects: 1) document-level alignment by leveraging the cross-modal and intra-modal contrastive loss; 2) global-local alignment for modeling localized and structural information in document images; and 3) local-level alignment for more accurate patch-level information. Experiments on various downstream tasks show that AETNet can achieve state-of-the-art performance on various downstream tasks. Notably, AETNet consistently outperforms state-of-the-art pre-trained models, such as LayoutLMv3 with fine-tuning techniques, on three different downstream tasks.
翻訳日:2022-11-29 15:11:15 公開日:2022-11-27
# BadPrompt: 継続的プロンプトに対するバックドア攻撃

BadPrompt: Backdoor Attacks on Continuous Prompts ( http://arxiv.org/abs/2211.14719v1 )

ライセンス: Link先を確認
Xiangrui Cai, Haidong Xu, Sihan Xu, Ying Zhang, Xiaojie Yuan(参考訳) プロンプトベースの学習パラダイムは近年、多くの研究の注目を集めている。 いくつかのNLPタスク、特に数ショットのシナリオで最先端のパフォーマンスを達成した。 下流のタスクを操る一方で、プロンプトベースのモデルのセキュリティ問題を調査する作業はほとんど報告されていない。 本稿では,バックドア攻撃に対する連続的プロンプト学習アルゴリズムの脆弱性に関する最初の研究を行う。 数発のシナリオは、既存のNLPバックドアメソッドの使用性を制限し、プロンプトベースのモデルに対するバックドア攻撃に対して大きな課題をもたらしている。 この課題に対処するため,我々は,軽量かつタスク適応型アルゴリズムであるbadpromptを提案する。 特に、badpromptはまず、ターゲットラベルを予測し、非ターゲットラベルのサンプルと似ていないことを示す候補トリガーを生成する。 次に、適応トリガー最適化アルゴリズムを用いて、各サンプルに対して最も効果的で目に見えないトリガーを自動的に選択する。 5つのデータセットと2つの継続的プロンプトモデルによるbadpromptの性能評価を行った。 その結果, クリーンなテストセットで高い性能を維持しつつ, 連続的なプロンプトを効果的に攻撃できるバッドプロンプトの能力が, ベースラインモデルを大きく上回った。 BadPromptのソースコードはhttps://github.com/papersPapers/BadPrompt.comで公開されている。

The prompt-based learning paradigm has gained much research attention recently. It has achieved state-of-the-art performance on several NLP tasks, especially in the few-shot scenarios. While steering the downstream tasks, few works have been reported to investigate the security problems of the prompt-based models. In this paper, we conduct the first study on the vulnerability of the continuous prompt learning algorithm to backdoor attacks. We observe that the few-shot scenarios have posed a great challenge to backdoor attacks on the prompt-based models, limiting the usability of existing NLP backdoor methods. To address this challenge, we propose BadPrompt, a lightweight and task-adaptive algorithm, to backdoor attack continuous prompts. Specially, BadPrompt first generates candidate triggers which are indicative for predicting the targeted label and dissimilar to the samples of the non-targeted labels. Then, it automatically selects the most effective and invisible trigger for each sample with an adaptive trigger optimization algorithm. We evaluate the performance of BadPrompt on five datasets and two continuous prompt models. The results exhibit the abilities of BadPrompt to effectively attack continuous prompts while maintaining high performance on the clean test sets, outperforming the baseline models by a large margin. The source code of BadPrompt is publicly available at https://github.com/papersPapers/BadPrompt.
翻訳日:2022-11-29 15:03:08 公開日:2022-11-27
# X-PuDu at SemEval-2022 Task 7: An alterd Token Detection Task Pre-trained Model with Pattern-Aware Ensembling for Identifications

X-PuDu at SemEval-2022 Task 7: A Replaced Token Detection Task Pre-trained Model with Pattern-aware Ensembling for Identifying Plausible Clarifications ( http://arxiv.org/abs/2211.14734v1 )

ライセンス: Link先を確認
Junyuan Shang, Shuohuan Wang, Yu Sun, Yanjun Yu, Yue Zhou, Li Xiang, Guixiu Yang(参考訳) 本稿では,SemEval 2022 Task 7: Identifying Plausible Clarifications of Implicit and Underspecificified Phrases in Instructional Textsについて述べる。 SubTask-A: Multi-class Classification と SubTask-B: Ranking のために、置換トークン検出事前訓練モデルを使用する。 パターン認識アンサンブル法を組み込んで68.90%の精度スコアと0.8070のスピアマンのランク相関スコアを2位に上り、それぞれSubTask-AとSubTask-Bの2.7と2.2%の差で達成した。 提案手法は単純で実装が容易であり, アブレーション研究を行い, システムにおける作業戦略の質的, 定量的解析を行った。

This paper describes our winning system on SemEval 2022 Task 7: Identifying Plausible Clarifications of Implicit and Underspecified Phrases in Instructional Texts. A replaced token detection pre-trained model is utilized with minorly different task-specific heads for SubTask-A: Multi-class Classification and SubTask-B: Ranking. Incorporating a pattern-aware ensemble method, our system achieves a 68.90% accuracy score and 0.8070 spearman's rank correlation score surpassing the 2nd place with a large margin by 2.7 and 2.2 percent points for SubTask-A and SubTask-B, respectively. Our approach is simple and easy to implement, and we conducted ablation studies and qualitative and quantitative analyses for the working strategies used in our system.
翻訳日:2022-11-29 15:02:47 公開日:2022-11-27
# AWTE-BERT:共同入力分類とスロットフィリングのためのBERTによるワードピースのトークン化

AWTE-BERT:Attending to Wordpiece Tokenization Explicitly on BERT for Joint Intent Classification and SlotFilling ( http://arxiv.org/abs/2211.14829v1 )

ライセンス: Link先を確認
Yu Guo, Zhilong Xie, Xingyan Chen, Leilei Wang and Gang Wu(参考訳) インテント分類とスロットフィリングは、自然言語理解(NLU)における2つの中核的なタスクである。 2つのタスクの相互作用の性質は、ジョイントモデルが単一設計よりも優れている。 BERT(Bidirectional Encoder Representations from Transformers)と呼ばれる有望なソリューションの1つは、2つのタスクを共同で最適化する。 bertはワードピースを採用し、各入力トークンを複数のサブトークンにトークン化することで、トークンとラベルの長さのミスマッチを引き起こす。 従来の方法では、分類器への入力として第1サブソートに対応する隠れた状態を使用するが、隠れた意味情報の一部が微調整プロセスで破棄されるため、性能改善が制限される。 本稿では,単語ピースのトークン化後の複数のサブトークン特徴を明示的にモデル化し,スロットフィリングに寄与するコンテキスト特徴を生成する,BERTに基づく新しいジョイントモデルを提案する。 具体的には,複数のサブトークンに対応する隠蔽状態を,アテンション機構を介してコンテキストベクトルに符号化する。 そして,各文脈ベクトルをスロット充填エンコーダに入力し,文の完全性を維持する。 実験の結果,提案モデルは2つのベンチマークデータセットにおいて,意図分類精度,スロット充填f1,文レベルの意味フレーム精度において有意な改善が得られた。 特にスロット充填のf1スコアは、atisデータセットの96.1から98.2(絶対値2.1%)に向上した。

Intent classification and slot filling are two core tasks in natural language understanding (NLU). The interaction nature of the two tasks makes the joint models often outperform the single designs. One of the promising solutions, called BERT (Bidirectional Encoder Representations from Transformers), achieves the joint optimization of the two tasks. BERT adopts the wordpiece to tokenize each input token into multiple sub-tokens, which causes a mismatch between the tokens and the labels lengths. Previous methods utilize the hidden states corresponding to the first sub-token as input to the classifier, which limits performance improvement since some hidden semantic informations is discarded in the fine-tune process. To address this issue, we propose a novel joint model based on BERT, which explicitly models the multiple sub-tokens features after wordpiece tokenization, thereby generating the context features that contribute to slot filling. Specifically, we encode the hidden states corresponding to multiple sub-tokens into a context vector via the attention mechanism. Then, we feed each context vector into the slot filling encoder, which preserves the integrity of the sentence. Experimental results demonstrate that our proposed model achieves significant improvement on intent classification accuracy, slot filling F1, and sentence-level semantic frame accuracy on two public benchmark datasets. The F1 score of the slot filling in particular has been improved from 96.1 to 98.2 (2.1% absolute) on the ATIS dataset.
翻訳日:2022-11-29 15:02:25 公開日:2022-11-27
# PUnifiedNER: 多様なデータセットのためのプロンプトベース統一NERシステム

PUnifiedNER: a Prompting-based Unified NER System for Diverse Datasets ( http://arxiv.org/abs/2211.14838v1 )

ライセンス: Link先を確認
Jinghui Lu, Rui Zhao, Brian Mac Namee, Fei Tan(参考訳) 名前付きエンティティ認識(NER)研究の多くは、関心領域のデータと関連するエンティティタイプの限定セットに基づいてデータセット固有のモデルを開発することに焦点を当てている。 新しいデータセットごとに新しいモデルをトレーニングし、保存する必要があるため、これはイライラします。 本研究では,異なるドメインのデータを同時に認識し,最大37個のエンティティタイプを同時に認識できる,PromptingベースのUnified NERシステム(PUnifiedNER)である `versatile' モデルを提案する。 迅速な学習を使用することで、PUnifiedNERは、インテリジェントなオンデマンドエンティティ認識を実装し、複数のコーパスを共同でトレーニングできる新しいアプローチである。 実験の結果,PUnifiedNERは,モデル展開コストを著しく削減したデータセット固有のモデルと比較して,大きな予測上のメリットをもたらすことがわかった。 さらに、PUnifiedNERのパフォーマンスは、いくつかのデータセットに対する最先端のドメイン固有メソッドよりも、競争力やパフォーマンスが向上する。 また,PUnifiedNERの各コンポーネントの深度分析を支援するため,総合的なパイロットおよびアブレーション研究も行った。

Much of named entity recognition (NER) research focuses on developing dataset-specific models based on data from the domain of interest, and a limited set of related entity types. This is frustrating as each new dataset requires a new model to be trained and stored. In this work, we present a ``versatile'' model -- the Prompting-based Unified NER system (PUnifiedNER) -- that works with data from different domains and can recognise up to 37 entity types simultaneously, and theoretically it could be as many as possible. By using prompt learning, PUnifiedNER is a novel approach that is able to jointly train across multiple corpora, implementing intelligent on-demand entity recognition. Experimental results show that PUnifiedNER leads to significant prediction benefits compared to dataset-specific models with impressively reduced model deployment costs. Furthermore, the performance of PUnifiedNER can achieve competitive or even better performance than state-of-the-art domain-specific methods for some datasets. We also perform comprehensive pilot and ablation studies to support in-depth analysis of each component in PUnifiedNER.
翻訳日:2022-11-29 15:02:00 公開日:2022-11-27
# 複数段階のアクティブラーニングによる低リソース質問応答の改善

Improving Low-Resource Question Answering using Active Learning in Multiple Stages ( http://arxiv.org/abs/2211.14880v1 )

ライセンス: Link先を確認
Maximilian Schmidt, Andrea Bartezzaghi, Jasmina Bogojeska, A. Cristiano I. Malossi, Thang Vu(参考訳) 質問応答の分野では、神経的なアプローチがとても人気になっていますが、大量の注釈付きデータが必要です。 さらに、それらは非常に優れたパフォーマンスをもたらすことが多いが、トレーニング対象のドメインのみである。 本研究では,質問応答生成によるデータ拡張とアクティブラーニングを併用して,低リソース環境におけるパフォーマンスを向上させる手法を提案する。 また,様々な段階の質問応答に対するアクティブラーニングについても検討し,人間のアノテーションの労力を減らした。 この目的のために、非常に少ない量の注釈付きサンプルを持つが、少ない労力で得られると仮定する多くのラベル付きドキュメントを持つ、現実的な設定でターゲットドメインを検討する。 さらに、ソースドメインから十分な量のラベル付きデータが利用できると仮定する。 ドメインエキスパートを組み込むのに最適なセットアップを見つけるために、広範な実験を行います。 以上の結果から,人間をできるだけ早くプロセスに組み込む新たなアプローチは,低リソースなドメイン固有設定のパフォーマンスを高め,新たな専門領域における低ラベル・エフォート質問応答システムを実現する。 さらに、人間のアノテーションが、実行されたステージによってQAのパフォーマンスにどのように影響するかを示す。

Neural approaches have become very popular in the domain of Question Answering, however they require a large amount of annotated data. Furthermore, they often yield very good performance but only in the domain they were trained on. In this work we propose a novel approach that combines data augmentation via question-answer generation with Active Learning to improve performance in low resource settings, where the target domains are diverse in terms of difficulty and similarity to the source domain. We also investigate Active Learning for question answering in different stages, overall reducing the annotation effort of humans. For this purpose, we consider target domains in realistic settings, with an extremely low amount of annotated samples but with many unlabeled documents, which we assume can be obtained with little effort. Additionally, we assume sufficient amount of labeled data from the source domain is available. We perform extensive experiments to find the best setup for incorporating domain experts. Our findings show that our novel approach, where humans are incorporated as early as possible in the process, boosts performance in the low-resource, domain-specific setting, allowing for low-labeling-effort question answering systems in new, specialized domains. They further demonstrate how human annotation affects the performance of QA depending on the stage it is performed.
翻訳日:2022-11-29 15:01:40 公開日:2022-11-27
# 深層表現学習:基礎,展望,応用,オープンチャレンジ

Deep representation learning: Fundamentals, Perspectives, Applications, and Open Challenges ( http://arxiv.org/abs/2211.14732v1 )

ライセンス: Link先を確認
Kourosh T. Baghaei, Amirreza Payandeh, Pooya Fayyazsanavi, Shahram Rahimi, Zhiqian Chen, Somayeh Bakhtiari Ramezani(参考訳) 機械学習のアルゴリズムは、過去数十年間、コンピュータ科学の分野に大きな影響を与えてきた。 これらのアルゴリズムの性能は、学習過程におけるデータから導出される表現に大きく影響される。 成功した学習プロセスで学んだ表現は簡潔で離散的で意味があり、様々なタスクに適用できるべきである。 近年,高次元,非線形,マルチモーダル特性の把握に特に有効であることが証明されたディープラーニングモデルの開発に向けた取り組みが進められている。 本研究では,表現の学習過程における原則と発展について論じ,それらを望ましいアプリケーションに変換する。 さらに、各フレームワークやモデルについて、主要な問題とオープンな課題、および利点について検討する。

Machine Learning algorithms have had a profound impact on the field of computer science over the past few decades. These algorithms performance is greatly influenced by the representations that are derived from the data in the learning process. The representations learned in a successful learning process should be concise, discrete, meaningful, and able to be applied across a variety of tasks. A recent effort has been directed toward developing Deep Learning models, which have proven to be particularly effective at capturing high-dimensional, non-linear, and multi-modal characteristics. In this work, we discuss the principles and developments that have been made in the process of learning representations, and converting them into desirable applications. In addition, for each framework or model, the key issues and open challenges, as well as the advantages, are examined.
翻訳日:2022-11-29 14:55:55 公開日:2022-11-27
# 異なるタイプのディープニューラルネットワークアーキテクチャ構築のための自己適応型神経進化アプローチ

A Self-adaptive Neuroevolution Approach to Constructing Deep Neural Network Architectures Across Different Types ( http://arxiv.org/abs/2211.14753v1 )

ライセンス: Link先を確認
Zhenhao Shuai, Hongbo Liu, Zhaolin Wan, Wei-Jie Yu, Jun Zhang(参考訳) Neuroevolutionは、Deep Neural Network(DNN)アーキテクチャ設計とその応用を大いに推進し、スケールとパフォーマンスの両方に関して、さまざまなDNNタイプにまたがるメソッドが不足している。 本研究では,多種多様なタスクのための軽量DNNアーキテクチャを自動構築する自己適応型神経進化(SANE)手法を提案する。 SANEの重要な設定の1つは、異なるDNNタイプに適応した細胞と臓器によって定義された検索空間である。 この探索空間に基づいて、均一な進化設定と操作を備えた構成的進化戦略は、徐々にDNNアーキテクチャを成長させるように設計されている。 SANEは、進化探索とエクスプロイトを自己適応的に調整し、探索効率を向上させる。 また,種間の選抜競争を制限し,早期収束から進化を守るための種分化スキームを開発した。 SANEを評価するために、畳み込みニューラルネットワーク、生成対向ネットワーク、長期記憶を含む異なるDNNアーキテクチャを生成するために神経進化実験を行った。 得られたDNNアーキテクチャは,既存のDNNアーキテクチャと同等の性能でスケールが小さくなる可能性が示唆された。 提案するSANEは,異なるタイプのDNNアーキテクチャを自己適応的に検索する効率的な手法を提供する。

Neuroevolution has greatly promoted Deep Neural Network (DNN) architecture design and its applications, while there is a lack of methods available across different DNN types concerning both their scale and performance. In this study, we propose a self-adaptive neuroevolution (SANE) approach to automatically construct various lightweight DNN architectures for different tasks. One of the key settings in SANE is the search space defined by cells and organs self-adapted to different DNN types. Based on this search space, a constructive evolution strategy with uniform evolution settings and operations is designed to grow DNN architectures gradually. SANE is able to self-adaptively adjust evolution exploration and exploitation to improve search efficiency. Moreover, a speciation scheme is developed to protect evolution from early convergence by restricting selection competition within species. To evaluate SANE, we carry out neuroevolution experiments to generate different DNN architectures including convolutional neural network, generative adversarial network and long short-term memory. The results illustrate that the obtained DNN architectures could have smaller scale with similar performance compared to existing DNN architectures. Our proposed SANE provides an efficient approach to self-adaptively search DNN architectures across different types.
翻訳日:2022-11-29 14:52:47 公開日:2022-11-27
# ロバストモデルに基づくオフライン強化学習のためのドメイン一般化

Domain Generalization for Robust Model-Based Offline Reinforcement Learning ( http://arxiv.org/abs/2211.14827v1 )

ライセンス: Link先を確認
Alan Clark, Shoaib Ahmed Siddiqui, Robert Kirk, Usman Anwar, Stephen Chung, David Krueger(参考訳) 既存のオフライン強化学習(RL)アルゴリズムは通常、トレーニングデータは以下のどちらかであると仮定する。 1) 既知の方針によって生じるもの,又は 2)出自が全く不明である。 マルチデーモンストレータのオフラインRLは、各データセットをどのデモストレータが生成したかがわかる中間層であるが、デモストレータの基盤となるポリシーについては仮定しない。 これは、複数の操作者からデータを集める場合の最も自然な設定であるが、未調査のままである。 異なるデモンストレータは異なるデータ分布を誘導するので、各デモンストレータが異なるドメインに対応するドメイン一般化問題として自然にフレーム化できることを示す。 具体的には、ドメイン不変モデルに基づくオフラインrl(dimorl)を提案し、リスク外挿(rex)(krueger et al., 2020)を学習ダイナミクスと報酬モデルに適用する。 以上の結果から,rexでトレーニングされたモデルは,すべてのデモンストレータのデータをプールする自然なベースラインと比較して,ドメインの一般化性能が向上することが示された。 オフラインモデルに基づくRL設定における優れたポリシーの学習を頻繁に可能とし、ポリシー学習プロセスの安定性を向上し、探索の強化を可能にすることを観察する。

Existing offline reinforcement learning (RL) algorithms typically assume that training data is either: 1) generated by a known policy, or 2) of entirely unknown origin. We consider multi-demonstrator offline RL, a middle ground where we know which demonstrators generated each dataset, but make no assumptions about the underlying policies of the demonstrators. This is the most natural setting when collecting data from multiple human operators, yet remains unexplored. Since different demonstrators induce different data distributions, we show that this can be naturally framed as a domain generalization problem, with each demonstrator corresponding to a different domain. Specifically, we propose Domain-Invariant Model-based Offline RL (DIMORL), where we apply Risk Extrapolation (REx) (Krueger et al., 2020) to the process of learning dynamics and rewards models. Our results show that models trained with REx exhibit improved domain generalization performance when compared with the natural baseline of pooling all demonstrators' data. We observe that the resulting models frequently enable the learning of superior policies in the offline model-based RL setting, can improve the stability of the policy learning process, and potentially enable increased exploration.
翻訳日:2022-11-29 14:46:39 公開日:2022-11-27
# MNER-QG:クエリグラウンディングを用いたマルチモーダル名前付きエンティティ認識のためのエンドツーエンドMRCフレームワーク

MNER-QG: An End-to-End MRC framework for Multimodal Named Entity Recognition with Query Grounding ( http://arxiv.org/abs/2211.14739v1 )

ライセンス: Link先を確認
Meihuizi Jia, Lei Shen, Xin Shen, Lejian Liao, Meng Chen, Xiaodong He, Zhendong Chen, Jiaqi Li(参考訳) MNER(Multimodal Name entity Recognition)は、文と画像のペアが与えられたエンティティのスパンを検出し、それらに対応するエンティティタイプに分類することを目的とした、情報抽出の重要なステップである。 既存の手法では,(1)注意機構から粗粒度の視覚的手がかりを持つ名前付きエンティティを得るか,(2)ツールキットを用いてまず細粒度の視覚的領域を検出し,次に名前付きエンティティを認識する。 しかし、エンティティタイプと視覚領域間の不適切なアライメントや2段階のエラー伝達に苦しむため、最終的には無関係な視覚情報をテキストにインポートする。 本稿では、mner-qgという、mrcベースのマルチモーダル名前付きエンティティ認識とクエリの接地を同時に行うことのできる、新しいエンド・ツー・エンドフレームワークを提案する。 具体的には、クエリの助けを借りて、MNER-QGはエンティティタイプと視覚領域の事前知識を提供し、テキストと画像の両方の表現をさらに強化することができる。 問合せ接地作業を行うために,手動のアノテーションと弱い監督機能を提供し,伝達学習を用いて高度に柔軟な視覚接地モデルを訓練することで得られる。 我々は、Twitter2015とTwitter2017の2つの公開MNERデータセットに対して広範な実験を行った。 実験の結果,MNER-QGはMNERタスクにおける現在の最先端モデルよりも優れており,クエリグラウンド性能も向上していることがわかった。

Multimodal named entity recognition (MNER) is a critical step in information extraction, which aims to detect entity spans and classify them to corresponding entity types given a sentence-image pair. Existing methods either (1) obtain named entities with coarse-grained visual clues from attention mechanisms, or (2) first detect fine-grained visual regions with toolkits and then recognize named entities. However, they suffer from improper alignment between entity types and visual regions or error propagation in the two-stage manner, which finally imports irrelevant visual information into texts. In this paper, we propose a novel end-to-end framework named MNER-QG that can simultaneously perform MRC-based multimodal named entity recognition and query grounding. Specifically, with the assistance of queries, MNER-QG can provide prior knowledge of entity types and visual regions, and further enhance representations of both texts and images. To conduct the query grounding task, we provide manual annotations and weak supervisions that are obtained via training a highly flexible visual grounding model with transfer learning. We conduct extensive experiments on two public MNER datasets, Twitter2015 and Twitter2017. Experimental results show that MNER-QG outperforms the current state-of-the-art models on the MNER task, and also improves the query grounding performance.
翻訳日:2022-11-29 14:37:37 公開日:2022-11-27
# 攻撃者が望むナビゲーション? 連合学習下におけるビザンチン・ロバスト体化エージェントの構築に向けて

Navigation as the Attacker Wishes? Towards Building Byzantine-Robust Embodied Agents under Federated Learning ( http://arxiv.org/abs/2211.14769v1 )

ライセンス: Link先を確認
Yunchao Zhang, Zonglin Di, Kaiwen Zhou, Cihang Xie, Xin Wang(参考訳) federated embodied agent learningは、トレーニング中に各クライアント(個々の環境)にデータをローカルに保持することで、個々の視覚環境のデータプライバシを保護する。 しかし、連合学習中のサーバにはローカルデータがアクセスできないため、攻撃者は容易にローカルクライアントのトレーニングデータを毒殺してエージェントにバックドアを構築することができる。 このようなエージェントを配置することは、攻撃者がバックドアを介して簡単にエージェントをナビゲートし制御できるため、人間に潜在的危害を与えるリスクを増大させる。 本稿では,ビザンチン・ロバスト連合型エージェント学習に向けて,視覚・言語ナビゲーション(VLN)の課題に対する攻撃と防御について検討する。 まず,悪質なクライアントが局所軌道データを操作してバックドアをグローバルモデルに埋め込む,単純かつ効果的な攻撃戦略であるナビゲーション・アズ・ウィッシュ(naw)を導入する。 2つのVLNデータセット(R2RとRxR)の結果は、NAWが通常のテストセットのパフォーマンスに影響を与えることなく、言語命令にかかわらず、デプロイされたVLNエージェントを容易にナビゲートできることを示している。 そこで我々は,フェデレートされたVLNにおけるNAW攻撃を防御する新しいPBAを提案する。これにより,サーバは,訓練中に区別できるように,良性クライアントと悪質クライアントとの視覚的・言語的アライメントの「プロンプト」をサーバに提供する。 NAW攻撃からグローバルモデルを保護するためのPBA法の有効性を検証する。この手法は,R2RとRxRの防衛基準において,他の最先端の防衛手法よりも優れる。

Federated embodied agent learning protects the data privacy of individual visual environments by keeping data locally at each client (the individual environment) during training. However, since the local data is inaccessible to the server under federated learning, attackers may easily poison the training data of the local client to build a backdoor in the agent without notice. Deploying such an agent raises the risk of potential harm to humans, as the attackers may easily navigate and control the agent as they wish via the backdoor. Towards Byzantine-robust federated embodied agent learning, in this paper, we study the attack and defense for the task of vision-and-language navigation (VLN), where the agent is required to follow natural language instructions to navigate indoor environments. First, we introduce a simple but effective attack strategy, Navigation as Wish (NAW), in which the malicious client manipulates local trajectory data to implant a backdoor into the global model. Results on two VLN datasets (R2R and RxR) show that NAW can easily navigate the deployed VLN agent regardless of the language instruction, without affecting its performance on normal test sets. Then, we propose a new Prompt-Based Aggregation (PBA) to defend against the NAW attack in federated VLN, which provides the server with a ''prompt'' of the vision-and-language alignment variance between the benign and malicious clients so that they can be distinguished during training. We validate the effectiveness of the PBA method on protecting the global model from the NAW attack, which outperforms other state-of-the-art defense methods by a large margin in the defense metrics on R2R and RxR.
翻訳日:2022-11-29 14:37:12 公開日:2022-11-27
# ビジョンランゲージ・メタ適応によるマルチモーダルショット時間行動検出

Multi-Modal Few-Shot Temporal Action Detection via Vision-Language Meta-Adaptation ( http://arxiv.org/abs/2211.14905v1 )

ライセンス: Link先を確認
Sauradip Nag, Mengmeng Xu, Xiatian Zhu, Juan-Manuel Perez-Rua, Bernard Ghanem, Yi-Zhe Song and Tao Xiang(参考訳) Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出 (TAD) を新しいクラスに拡張するための2つの異なるアプローチである。 前者は事前訓練された視覚モデルを、クラス毎に1つのビデオで表される新しいタスクに適応させるが、後者は、新しいクラスのセマンティックな記述を利用するためのトレーニング例を必要としない。 本研究では,マルチモーダル・マルチショット(MMFS)のTAD問題を導入し,この問題をFS-TADとZS-TADの結婚とみなすことができる。 この問題に対処するために,新しいMUlti-modality PromPt mETa-learning法(MUPPET)を導入する。 これは、学習済みの能力を最大限に再利用しながら、訓練済みの視覚と言語モデルを効率的にブリッジすることで実現される。 具体的には,メタ学習型適応型ビジュアルセマンティックストークン化器を用いて,サポート動画を視覚モデルのテキストトークン空間にマッピングすることで,マルチモーダルプロンプトを構築する。 クラス内の大きな変動に対処するため、クエリ特徴の規制スキームを更に設計する。 ActivityNetv1.3 と THUMOS14 の大規模な実験により、我々の MUPPET は最先端の代替手法よりも優れており、多くの場合大きなマージンで性能が向上することが示された。 また,MS-COCOデータセット上では,MUPPETを簡単に拡張することで,オブジェクト検出の問題に対処し,最先端のパフォーマンスを実現できることを示す。 コードはhttps://github.com/sauradip/MUPPETで入手できる。

Few-shot (FS) and zero-shot (ZS) learning are two different approaches for scaling temporal action detection (TAD) to new classes. The former adapts a pretrained vision model to a new task represented by as few as a single video per class, whilst the latter requires no training examples by exploiting a semantic description of the new class. In this work, we introduce a new multi-modality few-shot (MMFS) TAD problem, which can be considered as a marriage of FS-TAD and ZS-TAD by leveraging few-shot support videos and new class names jointly. To tackle this problem, we further introduce a novel MUlti-modality PromPt mETa-learning (MUPPET) method. This is enabled by efficiently bridging pretrained vision and language models whilst maximally reusing already learned capacity. Concretely, we construct multi-modal prompts by mapping support videos into the textual token space of a vision-language model using a meta-learned adapter-equipped visual semantics tokenizer. To tackle large intra-class variation, we further design a query feature regulation scheme. Extensive experiments on ActivityNetv1.3 and THUMOS14 demonstrate that our MUPPET outperforms state-of-the-art alternative methods, often by a large margin. We also show that our MUPPET can be easily extended to tackle the few-shot object detection problem and again achieves the state-of-the-art performance on MS-COCO dataset. The code will be available in https://github.com/sauradip/MUPPET
翻訳日:2022-11-29 14:28:52 公開日:2022-11-27
# 従来の分類ニューラルネットワークは優れたジェネレータである:DDPMやGANと競合する

Traditional Classification Neural Networks are Good Generators: They are Competitive with DDPMs and GANs ( http://arxiv.org/abs/2211.14794v1 )

ライセンス: Link先を確認
Guangrun Wang, Philip H.S. Torr(参考訳) 分類器とジェネレータは長い間分離されてきた。 この分離を分解し、従来のニューラルネットワーク分類器が、最先端の生成モデル(DDPMやGANなど)に匹敵する、多数のカテゴリの高品質な画像を生成することができることを示した。 本研究では,入力に対する分類損失関数の部分微分を計算し,入力を最適化して画像を生成する。 入力を直接最適化することは、人為的な画像を生成することができない敵攻撃に類似していることが広く知られているので、マスクベースの確率再構成モジュールを提案する。 さらに,フォトリアリスティックな画像を生成する忠実性を保証するプログレッシブレゾリューション手法を提案する。 さらに,分類ニューラルネットワークが多様で高忠実な画像を合成できることを保証するために,距離距離損失と非自明な分布損失を導入する。 従来のニューラルネットワーク分類器を使用して、ImageNet上で256$\times$256解像度の良質な画像を生成することができる。 本手法は,画像・テキスト基礎モデルを一般化分類器として扱うことで,テキストから画像への生成にも応用できる。 分類器がデータの分布を学習し、画像生成の準備が整っていることを証明すると、分類器はDDPMやGANのような生成モデルよりも訓練がずっと簡単である。 たくさんのパブリックなモデルがダウンロード可能であるため、分類モデルをトレーニングする必要はありません。 また、これは分類器の解釈可能性や堅牢性に大きな可能性を秘めている。

Classifiers and generators have long been separated. We break down this separation and showcase that conventional neural network classifiers can generate high-quality images of a large number of categories, being comparable to the state-of-the-art generative models (e.g., DDPMs and GANs). We achieve this by computing the partial derivative of the classification loss function with respect to the input to optimize the input to produce an image. Since it is widely known that directly optimizing the inputs is similar to targeted adversarial attacks incapable of generating human-meaningful images, we propose a mask-based stochastic reconstruction module to make the gradients semantic-aware to synthesize plausible images. We further propose a progressive-resolution technique to guarantee fidelity, which produces photorealistic images. Furthermore, we introduce a distance metric loss and a non-trivial distribution loss to ensure classification neural networks can synthesize diverse and high-fidelity images. Using traditional neural network classifiers, we can generate good-quality images of 256$\times$256 resolution on ImageNet. Intriguingly, our method is also applicable to text-to-image generation by regarding image-text foundation models as generalized classifiers. Proving that classifiers have learned the data distribution and are ready for image generation has far-reaching implications, for classifiers are much easier to train than generative models like DDPMs and GANs. We don't even need to train classification models because tons of public ones are available for download. Also, this holds great potential for the interpretability and robustness of classifiers.
翻訳日:2022-11-29 14:28:28 公開日:2022-11-27
# 不均一情報ネットワークにおける部分的メッセージ伝搬を用いた異種メタマルチグラフ探索

Differentiable Meta Multigraph Search with Partial Message Propagation on Heterogeneous Information Networks ( http://arxiv.org/abs/2211.14752v1 )

ライセンス: Link先を確認
Chao Li, Hao Xu, Kun He(参考訳) 不均一情報ネットワーク(HIN)は、複雑な実体と関係を持つ現実世界のデータを記述するために広く利用されている。 意味情報を自動的に活用するために,近年,HINの様々なタスクに基づいてグラフニューラルアーキテクチャ検索が開発されている。 一方、既存の作品は不安定さと柔軟性の弱点を示している。 これらの問題に対処するために,HINのニューラルネットワーク設計を自動的に最適化する部分メッセージメタグラフ探索(PMMM)を提案する。 具体的には、グラフニューラルネットワーク(gnn)が様々な種類のエッジに沿ってメッセージを伝達する方法を学ぶために、pmmmは効率的な微分可能なフレームワークを採用して有意義なメタマルチグラフを検索し、メタグラフよりも柔軟で複雑な意味関係を捉えることができる。 微分可能探索は、通常、性能の不安定さに悩まされるため、探索されたメタマルチグラフが手作業で設計したメタパス、すなわちメタパスを一貫して上回るよう、部分的メッセージサーチと呼ばれる安定なアルゴリズムを提案する。 ノード分類とレコメンデーションを含む2つの代表的なタスクに対する6つのベンチマークデータセットの大規模な実験により,提案手法の有効性が示された。 我々の手法は、最先端の異種GNNより優れ、意味のあるメタマルチグラフを見つけ、より安定している。

Heterogeneous information networks (HINs) are widely employed for describing real-world data with intricate entities and relationships. To automatically utilize their semantic information, graph neural architecture search has recently been developed on various tasks of HINs. Existing works, on the other hand, show weaknesses in instability and inflexibility. To address these issues, we propose a novel method called Partial Message Meta Multigraph search (PMMM) to automatically optimize the neural architecture design on HINs. Specifically, to learn how graph neural networks (GNNs) propagate messages along various types of edges, PMMM adopts an efficient differentiable framework to search for a meaningful meta multigraph, which can capture more flexible and complex semantic relations than a meta graph. The differentiable search typically suffers from performance instability, so we further propose a stable algorithm called partial message search to ensure that the searched meta multigraph consistently surpasses the manually designed meta-structures, i.e., meta-paths. Extensive experiments on six benchmark datasets over two representative tasks, including node classification and recommendation, demonstrate the effectiveness of the proposed method. Our approach outperforms the state-of-the-art heterogeneous GNNs, finds out meaningful meta multigraphs, and is significantly more stable.
翻訳日:2022-11-29 14:26:07 公開日:2022-11-27