このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221006となっている論文です。

PDF登録状況(公開日: 20221006)

TitleAuthorsAbstract論文公表日・翻訳日
# 電子トンネルと機械的運動の超強結合

Ultrastrong coupling between electron tunneling and mechanical motion ( http://arxiv.org/abs/2103.15219v3 )

ライセンス: Link先を確認
Florian Vigneau, Juliette Monsel, Jorge Tabanera, Kushagra Aggarwal, L\'ea Bresque, Federico Fedele, G.A.D Briggs, Janet Anders, Juan M.R. Parrondo, Alexia Auff\`eves and Natalia Ares(参考訳) 単一電子トンネルとナノメカニカルモーションの超強結合は、基本的な疑問を探求し、量子技術の新たなプラットフォームを開発するエキサイティングな機会を開く。 我々は、この電気機械的カップリングを全置換カーボンナノチューブデバイスで測定、モデル化し、その比が$g_\mathrm{m}/\omega_\mathrm{m} = 2.72 \pm 0.14$, ここで、$g_\mathrm{m}/2\pi = 0.80\pm 0.04$ GHzは結合強度、$\omega_\mathrm{m}/2\pi=294.5$ MHzは機械共鳴周波数である。 これは超強結合状態にあり、他の全ての電気機械プラットフォームの中で最高である。 我々は、この構造がカーボンナノチューブデバイスにも存在したが、気づかれなかったことを証明した。 さらに高い比は、デバイス設計の改善によって達成できる。

The ultrastrong coupling of single-electron tunneling and nanomechanical motion opens exciting opportunities to explore fundamental questions and develop new platforms for quantum technologies. We have measured and modeled this electromechanical coupling in a fully-suspended carbon nanotube device and report a ratio of $g_\mathrm{m}/\omega_\mathrm{m} = 2.72 \pm 0.14$, where $g_\mathrm{m}/2\pi = 0.80\pm 0.04$ GHz is the coupling strength and $\omega_\mathrm{m}/2\pi=294.5$ MHz is the mechanical resonance frequency. This is well within the ultrastrong coupling regime and the highest among all other electromechanical platforms. We show that, although this regime was present in similar fully-suspended carbon nanotube devices, it went unnoticed. Even higher ratios could be achieved with improvement on device design.
翻訳日:2023-04-06 08:03:28 公開日:2022-10-06
# ホップ代数に基づく一般化キタエフ量子二重モデルにおけるリボン作用素

Ribbon operators in the generalized Kitaev quantum double model based on Hopf algebras ( http://arxiv.org/abs/2105.08202v2 )

ライセンス: Link先を確認
Penghua Chen, Shawn X. Cui, and Bowen Yan(参考訳) キタエフの量子二重モデル(英: quantum double model)は、物質の2次元位相相を実現する完全可解格子モデルの族である。 元々は有限群に基づくもので、後に半単純ホップ代数に一般化される。 我々は一般化されたキタエフ量子二重モデルにおいてリボン作用素を厳密に定義・研究する。 これらのリボン作用素は準粒子励起を理解するための重要なツールである。 演算子の定義には、直観的に考えるものと対照的な微妙な点があることが判明した。 特に、局所時計回りリボンと局所時計回りリボンと呼ばれる2種類のリボンを区別する必要がある。 さらに、この問題は有限非アベル群に基づく元のモデルにすでに存在する。 この2つのリボンのクラスを区別しなければ、元のモデルでも特定の性質が失敗することを示す。 おそらく驚くことではないが、新しい定義の下でリボン作用素は期待されるすべての性質を満たす。 例えば、それらはリボンの端でのみ準粒子励起を生成し、準粒子の型は入力ホップ代数のドリンフェルト双対の既約表現に対応する。 しかし、これらの性質の証明は有限群の場合よりもはるかに複雑である。 これは群代数よりも一般的なホップ代数を扱う場合の複雑さによるものである。

Kitaev's quantum double model is a family of exactly solvable lattice models that realize two dimensional topological phases of matter. Originally it is based on finite groups, and is later generalized to semi-simple Hopf algebras. We rigorously define and study ribbon operators in the generalized Kitaev quantum double model. These ribbon operators are important tools to understand quasi-particle excitations. It turns out that there are some subtleties in defining the operators in contrast to what one would naively think. In particular, one has to distinguish two classes of ribbons which we call locally clockwise and locally counterclockwise ribbons. Moreover, this issue already exists in the original model based on finite non-Abelian groups. We show how certain properties would fail even in the original model if we do not distinguish these two classes of ribbons. Perhaps not surprisingly, under the new definitions ribbon operators satisfy all properties that are expected. For instance, they create quasi-particle excitations only at the end of the ribbon, and the types of the quasi-particles correspond to irreducible representations of the Drinfeld double of the input Hopf algebra. However, the proofs of these properties are much more complicated than those in the case of finite groups. This is partly due to the complications in dealing with general Hopf algebras rather than just group algebras.
翻訳日:2023-03-30 22:08:03 公開日:2022-10-06
# シェルトラップにおける量子ガスの膨張

Expansion of a quantum gas in a shell trap ( http://arxiv.org/abs/2105.12981v2 )

ライセンス: Link先を確認
Yanliang Guo, Emmanuel Mercado Gutierrez, David Rey, Thomas Badr, Aur\'elien Perrin, Laurent Longchambon, Vanderlei Salvador Bagnato, H\'el\`ene Perrin, Romain Dubessy(参考訳) 湾曲した殻状表面上に閉じ込められた2次元量子ガスの制御膨張の観測を報告する。 着飾った四重極トラップの楕円形状から始まり、完全な楕円形を探索できる新しい重力補償機構を導入する。 横閉じ込めの零点エネルギーは、原子分布における環状形状の自発的な出現によって現れる。 実験結果は, 3次元gross-pitaevskii方程式の解と, 2次元半解析モデルとの比較を行った。 この研究は、隠れた次元が、トポロジーの変化を誘導することによって、埋め込んだ低次元システムに劇的に影響を与えることを示す。

We report the observation of the controlled expansion of a two-dimensional quantum gas confined onto a curved shell-shaped surface. We start from the ellipsoidal geometry of a dressed quadrupole trap and introduce a novel gravity compensation mechanism enabling to explore the full ellipsoid. The zero-point energy of the transverse confinement manifests itself by the spontaneous emergence of an annular shape in the atomic distribution. The experimental results are compared with the solution of the three-dimensional Gross-Pitaevskii equation and with a two-dimensional semi-analytical model. This work evidences how a hidden dimension can affect dramatically the embedded low-dimensional system by inducing a change of topology.
翻訳日:2023-03-29 07:21:25 公開日:2022-10-06
# 量子光学系における単一励起状態の高速・高次数値計算法

A fast, high-order numerical method for the simulation of single-excitation states in quantum optics ( http://arxiv.org/abs/2109.06956v2 )

ライセンス: Link先を確認
Jeremy Hoskins and Jason Kaye and Manas Rachh and John C. Schotland(参考訳) 単一光子を含む2レベル原子系における集団自発放出過程をモデル化する非局所偏微分方程式の数値解を考える。 我々は、問題を原子自由度に対する積分微分方程式として再構成し、ガウス原子密度の場合の効率的な解法を記述する。 積分的定式化から生じる履歴依存の問題は、総和履歴圧縮を用いて解決される。 まず、最初に励起された原子が自発的な放出によって光子に崩壊し、次に光子パルスを使用して原子を励起し、次に崩壊する。

We consider the numerical solution of a nonlocal partial differential equation which models the process of collective spontaneous emission in a two-level atomic system containing a single photon. We reformulate the problem as an integro-differential equation for the atomic degrees of freedom, and describe an efficient solver for the case of a Gaussian atomic density. The problem of history dependence arising from the integral formulation is addressed using sum-of-exponentials history compression. We demonstrate the solver on two systems of physical interest: in the first, an initially-excited atom decays into a photon by spontaneous emission, and in the second, a photon pulse is used to an excite an atom, which then decays.
翻訳日:2023-03-15 02:55:59 公開日:2022-10-06
# バルク-表面反応による永久相転移

Peratic Phase Transition by Bulk-to-Surface Response ( http://arxiv.org/abs/2109.13254v3 )

ライセンス: Link先を確認
Xingze Qiu, Hai Wang, Wei Xia and Xiaopeng Li(参考訳) 動的相転移の研究は、過去10年間にかなりの研究努力を惹きつけてきた。 現在の関心の1つのテーマは、平衡相転移の枠組みを超えたエキゾチックなシナリオを探すことである。 ここでは、古典系と量子系の両方における多体力学と静的ハミルトン基底状態の双対性を確立する。 我々は、基底状態遷移が力学系におけるカオス遷移と厳密な双対性を持つフラストレーションフリーハミルトニアンを構築する。 この双対性により、対応する基底状態相転移はバルク-表面反応によって特徴づけられ、境界に対する応答によって定義される「ペラティクス」と呼ばれる。 古典的なシステムでは、静的基底状態において時間的な次元がどのように現れるかを示す。 量子系では、基底状態は2次元配列上の幾何学的直線の重ね合わせであり、1次元乱れたスピン鎖の動的フロッケ進化の歴史を符号化する。 ペルマティック相転移の予測は、ライドバーグ原子や超伝導量子ビットなどの量子シミュレーションプラットフォームや異方性スピングラス材料に直接的な影響をもたらす。 この発見は、平衡系との動的相転移の統一に光を当てた。

The study of dynamical phase transitions has been attracting considerable research efforts in the last decade. One theme of present interest is to search for exotic scenarios beyond the framework of equilibrium phase transitions. Here, we establish a duality between many-body dynamics and static Hamiltonian ground states for both classical and quantum systems. We construct frustration free Hamiltonians whose ground state phase transitions have rigorous duality to chaotic transitions in dynamical systems. By this duality, we show the corresponding ground state phase transitions are characterized by bulk-to-surface response, which are then dubbed "peratic" meaning defined by response to the boundary. For the classical system, we show how the time-like dimension emerges in the static ground states. For the quantum system, the ground state is a superposition of geometrical lines on a two dimensional array, which encode the dynamical Floquet evolution history of one dimensional disordered spin chains. Our prediction of peratic phase transition has direct consequences in quantum simulation platforms such as Rydberg atoms and superconducting qubits, as well as anisotropic spin glass materials. The discovery would shed light on the unification of dynamical phase transitions with equilibrium systems.
翻訳日:2023-03-13 11:43:18 公開日:2022-10-06
# 量子スイッチの量子スイッチを用いた量子通信

Quantum communication using a quantum switch of quantum switches ( http://arxiv.org/abs/2111.08266v3 )

ライセンス: Link先を確認
Debarshi Das, Somshubhro Bandyopadhyay(参考訳) 量子スイッチ (quantum switch) は、2つ以上の量子チャネルが1つの量子系の状態によって決定される応用順序で量子系に作用する量子演算を記述する。 そして、順番システムの状態を適切に選択することで、異なる順序のアプリケーションの量子重ね合わせを作成することができ、標準量子シャノン理論の枠組みでは不可能となる通信タスクを実行することができる。 本稿では,一発のヘラルド量子ビット通信のシナリオを考察し,与えられた量子スイッチを用いたプロトコルが存在するか,あるいは与えられたプロトコルよりも優れるスイッチが存在するかを問う。 私たちはこの質問を肯定的に答える。 我々は、2つの量子スイッチからなる高階量子スイッチを定義し、その順番は別の順序量子システムによって制御される。 次に、量子重ね合わせに配置された量子スイッチは、量子スイッチを個別に実現可能な確率よりも高い量子ビットを誤りなく送信できることを示した。 リソースとして有用な量子スイッチと、役に立たないスイッチとの通信優位性を実証する。 また、個々の量子スイッチに対して通信上の優位性がない状況も示している。

The quantum switch describes a quantum operation in which two or more quantum channels act on a quantum system with the order of application determined by the state of an order quantum system. And by suitably choosing the state of the order system, one can create a quantum superposition of the different orders of application, which can perform communication tasks impossible within the framework of the standard quantum Shannon theory. In this paper, we consider the scenario of one-shot heralded qubit communication and ask whether there exist protocols using a given quantum switch or switches that could outperform the given ones. We answer this question in the affirmative. We define a higher-order quantum switch composed of two quantum switches, with their order of application controlled by another order quantum system. We then show that the quantum switches placed in a quantum superposition of their alternative orders can transmit a qubit, without any error, with a probability higher than that achievable with the quantum switches individually. We demonstrate this communication advantage over quantum switches useful as a resource and those that are useless. We also show that there are situations where there is no communication advantage over the individual quantum switches.
翻訳日:2023-03-08 00:10:23 公開日:2022-10-06
# youtubeの代替収益化戦略の特徴

Characterizing Alternative Monetization Strategies on YouTube ( http://arxiv.org/abs/2203.10143v2 )

ライセンス: Link先を確認
Yiqing Hua, Manoel Horta Ribeiro, Robert West, Thomas Ristenpart, Mor Naaman(参考訳) YouTubeプラットフォームで重要な役割の1つは、クリエイターにコンテンツと対話から収益を生み出す機能を提供することだ。 広告からの収益分配などのプラットフォームから直接提供されるツールと並行して、クリエーターはプラットフォームを共同運用し、さまざまなオフプラットフォーム収益化の機会を提供する。 本研究は,これら代替収益化戦略の研究と特徴付けに焦点をあてる。 人気クリエイターの大規模な縦断的YouTubeデータセットを活用することで、代替収益化戦略の分類法と、それらの利用を自動的に検出するための簡単な手法を開発する。 そして、これらの戦略の採用を特徴づけます。 まず、外部収益化の利用は拡大し、全ビデオの18%で使われるようになり、チャンネルの61%が少なくとも1回はそのような戦略を使っていることが判明した。 第2に、これらの戦略の採用が、異なる種類や人気のチャネル間で大きく異なること、そして、これらの代替収益源を確立するチャネルがプラットフォーム上でより生産的になることが多いことを示します。 最後に、問題のあるチャネル(alt-lite、alt-right、manosphereのコンテンツを生成するチャネル)が、代替の収益化戦略をどのように活用するかを調査し、慎重に選択されたチャネルの比較セットよりも、より多様な戦略を採用することを見出します。 この発見は、プラットフォーム上のネイティブな収益化からポリシー違反のコンテンツを除外する慣行が効果的ではないため、YouTubeのゲートキーパーとしての役割を複雑にしている。 全体として、この研究はyoutube上のコンテンツ制作の背景にある金銭的インセンティブを広く理解するための重要な一歩となる。

One of the key emerging roles of the YouTube platform is providing creators the ability to generate revenue from their content and interactions. Alongside tools provided directly by the platform, such as revenue-sharing from advertising, creators co-opt the platform to use a variety of off-platform monetization opportunities. In this work, we focus on studying and characterizing these alternative monetization strategies. Leveraging a large longitudinal YouTube dataset of popular creators, we develop a taxonomy of alternative monetization strategies and a simple methodology to detect their usage automatically. We then proceed to characterize the adoption of these strategies. First, we find that the use of external monetization is expansive and increasingly prevalent, used in 18% of all videos, with 61% of channels using one such strategy at least once. Second, we show that the adoption of these strategies varies substantially among channels of different kinds and popularity, and that channels that establish these alternative revenue streams often become more productive on the platform. Lastly, we investigate how potentially problematic channels -- those that produce Alt-lite, Alt-right, and Manosphere content -- leverage alternative monetization strategies, finding that they employ a more diverse set of such strategies significantly more often than a carefully chosen comparison set of channels. This finding complicates YouTube's role as a gatekeeper, since the practice of excluding policy-violating content from its native on-platform monetization may not be effective. Overall, this work provides an important step toward broadening the understanding of the monetary incentives behind content creation on YouTube.
翻訳日:2023-02-19 15:43:46 公開日:2022-10-06
# TrustVault: 欧州ブロックチェーンサービスインフラストラクチャのためのプライバシ優先のデータウォレット

TrustVault: A privacy-first data wallet for the European Blockchain Services Infrastructure ( http://arxiv.org/abs/2210.02987v1 )

ライセンス: Link先を確認
Sharif Jacobino, Johan Pouwelse(参考訳) 欧州連合(EU)は、EU市民と企業全員に利用可能な欧州のデジタルアイデンティティを導入する。 これは、市民や企業がオンラインでやりとりする方法に大きな影響を与えるだろう。 大手テクノロジー企業は現在、デジタルアイデンティティの使い方を定めている。 その結果、彼らは膨大な量のプライベートユーザーデータを収集した。 Self-Sovereign Identityのようなムーブメントは、ユーザが自分のオンラインアイデンティティをコントロールできるようにする。 trustvaultは、ユーザが自分のidとすべてのデータをバックコントロールできる最初のデータウォレットだ。 trustvaultでは、ユーザーはすべてのデータをスマートフォンに保存し、誰と共有するかをコントロールできる。 ユーザは、検証可能なユーザ属性に基づいてきめ細かいアクセス制御を行う。 EBSIはTrustVaultとEuropean Self-Sovereign Identity Frameworkを接続し、ユーザーはアクセス制御ポリシーで公共機関や民間機関の認証クレデンシャルを使用できる。 システムはサーバーレスであり、信頼できるサードパーティはいない。 TrustVaultは、Big Techの営利目的のインフラを、イノベーションのための公開的で透明なプラットフォームに置き換える。

The European Union is on course to introduce a European Digital Identity that will be available to all EU citizens and businesses. This will have a huge impact on how citizens and businesses interact online. Big Tech companies currently dictate how digital identities are used. As a result, they have amassed vast amounts of private user data. Movements like Self-Sovereign Identity aim to give users control over their online identity. TrustVault is the first data wallet that gives users back control of their identity and all their data. TrustVault allows users to store all their data on their smartphones and control with whom they share it. The user has fine-grained access control based on verifiable user attributes. EBSI connects TrustVault to the European Self-Sovereign Identity Framework allowing users to use Verifiable Credentials from public and private institutions in their access control policies. The system is serverless and has no Trusted Third Parties. TrustVault replaces the for-profit infrastructure of Big Tech with a public and transparent platform for innovation.
翻訳日:2023-02-19 11:33:59 公開日:2022-10-06
# netizensを思い出す:netizensの共著者であるronda hauben氏のインタビュー:usenetとインターネットの歴史と影響(1997年)

Remembering Netizens: An interview with Ronda Hauben, co-author of Netizens: On the history and impact of Usenet and the Internet (1997) ( http://arxiv.org/abs/2210.02978v1 )

ライセンス: Link先を確認
Tristan Miller, Camille Paloque-Berg\`es, Avery Dame-Griff(参考訳) Netizens, Michael and Ronda Hauben's foundational treatise on Usenet and the Internetは25年前に初めて出版された。 本稿では,本書とUsenet自体の歴史と影響を追究し,仮想コミュニティ,オンライン文化,インターネット史に関する現代的,現代的な奨学金の文脈を考察する。 エンパワーメントのツールとしてのnetについて議論し、共有ネットワーク基盤の維持とusenetアーカイブの保存とコモディティ化に関連する社会的、技術的、経済的な問題について触れる。 Ronda Hauben氏とのインタビューは、オンラインコミュニティの発展、その影響、そしてそれらがどのように研究されているのかを振り返る。 彼女は、オンライン世界への自身の導入と、ネット市民のための衝動と執筆プロセスについて言及している。 彼女はマイケル・ハウベンの「ネット市民(netizens)」という概念と、彼らが構築した「電子コモンズ(electronic commons)」を提示し、この協力的で収集主義的なモデルは、インターネットとそのコミュニティの民営化と商業化によって圧倒され、危険にさらされていると主張している。

Netizens, Michael and Ronda Hauben's foundational treatise on Usenet and the Internet, was first published in print 25 years ago. In this piece, we trace the history and impact of the book and of Usenet itself, contextualising them within the contemporary and modern-day scholarship on virtual communities, online culture, and Internet history. We discuss the Net as a tool of empowerment, and touch on the social, technical, and economic issues related to the maintenance of shared network infrastructures and to the preservation and commodification of Usenet archives. Our interview with Ronda Hauben offers a retrospective look at the development of online communities, their impact, and how they are studied. She recounts her own introduction to the online world, as well as the impetus and writing process for Netizens. She presents Michael Hauben's conception of "netizens" as contributory citizens of the Net (rather than mere users of it) and the "electronic commons" they built up, and argues that this collaborative and collectivist model has been overwhelmed and endangered by the privatisation and commercialisation of the Internet and its communities.
翻訳日:2023-02-19 11:33:45 公開日:2022-10-06
# Vague Operatorsとしてのコミュニティ:コミュニティ検出アルゴリズムの批判的ヒューリスティックスに対する認識論的質問

Communities as Vague Operators: Epistemological Questions for a Critical Heuristics of Community Detection Algorithms ( http://arxiv.org/abs/2210.02753v1 )

ライセンス: Link先を確認
Dominik Schindler and Matthew Fuller(参考訳) 本稿では,ネットワーク科学における「コミュニティ」と呼ばれるノードとエッジのパターンとしての性質と認識的結果を分析することを目的とする。 これらを多面的かつ曖昧なものとして,スーザン・リー・スター(susan leigh star)のバウンダリ・オブジェクト(バウンダリ・オブジェクト)の概念に関連する「ヴァグ・オペレーター(vague operator)」としてのコミュニティ概念を,ヒントの収集のようによりゆるやかに記述し,曖昧でハイパー・プレシシズな面の異なる様式を,記号論的,技術的,社会的用語で構築する能力は,デジタル政治と「コミュニティ」の分析の両方において重要であることを示唆する。 これらのフォーメーションを数学やソフトウェアの研究から引き合いに出すことで、その形成のより広いマッピングが可能になる。 2002年にmichelle girvan と mark newman が普及した 'community' の設立説明を文脈化することができる。 コミュニティ検出アルゴリズム(いわゆる「ルービンアルゴリズム」)を1つ検討した後、よりあいまいな応用によって生じる論争についてコメントする。 は、ソーシャルネットワーキングサイトでエコーチェンバーを作るなど、社会関係を再構築する力を持つ真の抽象化として機能することができる。 コミュニティ検出の認識論的用語を再考するために、ネットワーク科学の文献における議論や提案を描き、偏り、認識論的謙虚さ、反射性、人工性を受け入れる「批判的ヒューリスティックス」を想像する。

In this article, we aim to analyse the nature and epistemic consequences of what figures in network science as patterns of nodes and edges called 'communities'. Tracing these as multi-faceted and ambivalent, we propose to describe the concept of community as a 'vague operator' related to Susan Leigh Star's notion of the boundary object but more loose, like a collection of hints, and propose that the ability to construct different modes of faceting that are both vague and hyper-precise, in semiotic, technical and social terms is core both to digital politics and the analysis of 'communities'. Engaging with these formations in terms drawn from mathematics and software studies enables a wider mapping of their formation. Disentangling different lineages in network science then allows us to contextualise the founding account of 'community' popularised by Michelle Girvan and Mark Newman in 2002. After studying one particular community detection algorithm, the so called 'Louvain algorithm', we comment on controversies arising with some of their more ambiguous applications. We argue that 'community' can act as a real abstraction with the power to reshape social relations such as producing echo chambers in social networking sites. To rework the epistemological terms of community detection, we draw on debates and propositions in the literature of network science to imagine a 'critical heuristics' that embraces partiality, epistemic humbleness, reflexivity and artificiality.
翻訳日:2023-02-19 11:33:21 公開日:2022-10-06
# 法的結果予測における否定的前例の役割について

On the Role of Negative Precedent in Legal Outcome Prediction ( http://arxiv.org/abs/2208.08225v2 )

ライセンス: Link先を確認
Josef Valvoda, Ryan Cotterell, Simone Teufel(参考訳) あらゆる訴訟は、以下の2つの方法のいずれかで法律を開発することによって前例を定めている。 範囲を広げて、肯定的な前例を設定するか、狭めるか、否定的な前例を作るかのどちらかである。 ポジティブな結果の予測である法的結果予測は、AIにおいてますます一般的なタスクである。 対照的に、私たちはここでネガティブな結果に焦点をあて、ネガティブな結果予測の新しいタスクを導入します。 正および負の結果を予測する既存モデルの非対称性を発見する。 私たちが使用した最先端の結果予測モデルは75.06 F1で正の結果を予測するが、ランダムなベースラインよりも悪い10.09 F1で負の結果を予測する。 この性能ギャップに対処するために、裁判所プロセスのダイナミクスに触発された2つの新しいモデルを開発する。 第1モデルは 77.15 F1 に,第2モデルは24.01 F1 に負の結果予測性能を2倍以上に向上させる。 この改善にもかかわらず、ネガティブな結果に焦点を移すことで、結果予測モデルにはまだ改善の余地が残っていることが分かる。

Every legal case sets a precedent by developing the law in one of the following two ways. It either expands its scope, in which case it sets positive precedent, or it narrows it, in which case it sets negative precedent. Legal outcome prediction, the prediction of positive outcome, is an increasingly popular task in AI. In contrast, we turn our focus to negative outcomes here, and introduce a new task of negative outcome prediction. We discover an asymmetry in existing models' ability to predict positive and negative outcomes. Where the state-of-the-art outcome prediction model we used predicts positive outcomes at 75.06 F1, it predicts negative outcomes at only 10.09 F1, worse than a random baseline. To address this performance gap, we develop two new models inspired by the dynamics of a court process. Our first model significantly improves positive outcome prediction score to 77.15 F1 and our second model more than doubles the negative outcome prediction performance to 24.01 F1. Despite this improvement, shifting focus to negative outcomes reveals that there is still much room for improvement for outcome prediction models.
翻訳日:2023-02-19 10:34:02 公開日:2022-10-06
# 多項式法への逆について

On converses to the polynomial method ( http://arxiv.org/abs/2204.12303v2 )

ライセンス: Link先を確認
Jop Bri\"et and Francisco Escudero Guti\'errez(参考訳) Aaronson et al. (CCC'16) の驚くべき「多項式法への逆」は、任意の有界二次多項式は、有名なグロタンディーク定数に関連する普遍的乗法係数まで1-クエリアルゴリズムによって正確に計算できることを示している。 そこで提起された自然の質問は、有界なクォート多項式が2$キューリー量子アルゴリズムによって近似できるかどうかを問うものである。 arunachalam, palazuelos, そして最初の著者は、aaronsonらの結果の直接的な類似性がないことを示した。 まず、立方体からクォート多項式への変換に関係のある構成において小さな誤りを指摘し、修正する。 第二に、加法コンビネータの技法に基づく完全に明示的な例を示す。 第3に,小さな加算誤差を許容した場合,結果が持続することを示す。 これに対し、完全有界近似度に対して、Gribling and Laurent (QIP'19) のSDP特性を適用する。

A surprising 'converse to the polynomial method' of Aaronson et al. (CCC'16) shows that any bounded quadratic polynomial can be computed exactly in expectation by a 1-query algorithm up to a universal multiplicative factor related to the famous Grothendieck constant. A natural question posed there asks if bounded quartic polynomials can be approximated by $2$-query quantum algorithms. Arunachalam, Palazuelos and the first author showed that there is no direct analogue of the result of Aaronson et al. in this case. We improve on this result in the following ways: First, we point out and fix a small error in the construction that has to do with a translation from cubic to quartic polynomials. Second, we give a completely explicit example based on techniques from additive combinatorics. Third, we show that the result still holds when we allow for a small additive error. For this, we apply an SDP characterization of Gribling and Laurent (QIP'19) for the completely-bounded approximate degree.
翻訳日:2023-02-15 12:04:16 公開日:2022-10-06
# 近点単色可変低温ニオブ電子場エミッタ

Near-monochromatic tuneable cryogenic niobium electron field emitter ( http://arxiv.org/abs/2205.05767v2 )

ライセンス: Link先を確認
Cameron W. Johnson, Andreas K. Schmid, Marian Mankos, Robin R\"opke, Nicole Kerker, Ed K. Wong, D. Frank Ogletree, Andrew M. Minor and Alexander Stibor(参考訳) コヒーレント電子の生成、操作、検出は、将来の量子顕微鏡と分光技術の中心にある。 低温での電子ビーム源の量子特性の活用と特に変化は、その放出特性を高めることができる。 ここでは、単結晶の超伝導ニオブナノチップからの電子放出を5.9kの温度で記述する。放出された電子エネルギースペクトルは、ナノプロジェクションの頂点での局所化バンド状態と鋭い低温フェルミエッジでのカットオフにより、波長可変共振トンネル放出により、16mev以下の超ナロー分布を示す。 これは従来の電界放出電子源よりも桁違いに低い。 先端の自己焦点幾何学は、3.7 degの角度で放出され、3.8 x 10exp8 A/(m2 sr V)の輝度が減少し、4.1 nAのビーム電流と69 mVのエネルギー幅で時間安定性が保たれる。 この光源はレンズ収差の影響を低減し、低エネルギー電子顕微鏡、電子エネルギー損失分光、高分解能振動分光の新しいモードを可能にする。

Creating, manipulating, and detecting coherent electrons is at the heart of future quantum microscopy and spectroscopy technologies. Leveraging and specifically altering the quantum features of an electron beam source at low temperatures can enhance its emission properties. Here, we describe electron field emission from a monocrystalline, superconducting niobium nanotip at a temperature of 5.9 K. The emitted electron energy spectrum reveals an ultra-narrow distribution down to 16 meV due to tunable resonant tunneling field emission via localized band states at a nano-protrusion's apex and a cut-off at the sharp low-temperature Fermi-edge. This is an order of magnitude lower than for conventional field emission electron sources. The self-focusing geometry of the tip leads to emission in an angle of 3.7 deg, a reduced brightness of 3.8 x 10exp8 A/(m2 sr V), and a stability of hours at 4.1 nA beam current and 69 meV energy width. This source will decrease the impact of lens aberration and enable new modes in low-energy electron microscopy, electron energy loss spectroscopy, and high-resolution vibrational spectroscopy.
翻訳日:2023-02-13 12:11:38 公開日:2022-10-06
# 境界エネルギースペクトルを持つ状態の量子速度限界

Quantum Speed Limit for States with a Bounded Energy Spectrum ( http://arxiv.org/abs/2206.14803v4 )

ライセンス: Link先を確認
Gal Ness, Andrea Alberti, and Yoav Sagi(参考訳) 量子速度制限は状態進化の最大速度を設定する。 ユニタリな時間に依存しないハミルトニアンには、マンデルスタム・タムとマルゴルス・レヴィティンの2つの限界が存在する。 前者は状態エネルギーの不確実性に応じて速度を制限するが、後者は基底状態に対する平均エネルギーに依存する。 ここでは、有界エネルギースペクトルを持つ状態に対して存在する追加境界について報告する。 この境界は、州の平均エネルギーと最も占有された固有状態のエネルギーの差に依存するという意味で、マルゴラス=レヴィチンと双対である。 3つの境界のそれぞれがエネルギーの広がりと平均によって最も制限的なものとなり、マルチレベルシステムでアクセス可能な3つの動的状態を形成する。 新しい境界は量子情報応用に関係しており、そのほとんどにおいて、情報は有界エネルギースペクトルを持つヒルベルト空間に保存され、操作される。

Quantum speed limits set the maximal pace of state evolution. Two well-known limits exist for a unitary time-independent Hamiltonian: the Mandelstam-Tamm and Margolus-Levitin bounds. The former restricts the rate according to the state energy uncertainty, while the latter depends on the mean energy relative to the ground state. Here we report on an additional bound that exists for states with a bounded energy spectrum. This bound is dual to the Margolus-Levitin one in the sense that it depends on the difference between the state's mean energy and the energy of the highest occupied eigenstate. Each of the three bounds can become the most restrictive one, depending on the spread and mean of the energy, forming three dynamical regimes which are accessible in a multi-level system. The new bound is relevant for quantum information applications, since in most of them, information is stored and manipulated in a Hilbert space with a bounded energy spectrum.
翻訳日:2023-02-07 07:19:41 公開日:2022-10-06
# 非相対論的スピンの代数理論

An Algebraic Theory of Non-Relativistic Spin ( http://arxiv.org/abs/2207.02351v2 )

ライセンス: Link先を確認
Peter T. J. Bradshaw(参考訳) 本稿では,非相対論的スピンの単元代数的手法を用いた新しい基本微分法を提案する。 これを実現するために、代数的性質に従って実自己準同型の領域を分解する新しい手法を定式化する。 非可換多極テンソルをスピンの一次物理的に有意義な観測対象として明らかにし、スピンが本質的に幾何学的であることを示唆する。 このようにして、スピンの基本的な記述には力学も複素数も不可欠ではないことを示す。

In this paper we present a new, elementary derivation of non-relativistic spin using exclusively real algebraic methods. To do this, we formulate a novel method to decompose the domain of a real endomorphism according to its algebraic properties. We reveal non-commutative multipole tensors as the primary physically meaningful observables of spin, and indicate that spin is fundamentally geometric in nature. In so doing, we demonstrate that neither dynamics nor complex numbers are essential to the fundamental description of spin.
翻訳日:2023-02-06 12:18:50 公開日:2022-10-06
# 非断熱遷移に対するMajoranaのアプローチは、断熱・インパルス近似を検証する

Majorana's approach to nonadiabatic transitions validates the adiabatic-impulse approximation ( http://arxiv.org/abs/2208.00481v2 )

ライセンス: Link先を確認
Polina O. Kofman, Oleh V. Ivakhnenko, Sergey N. Shevchenko, Franco Nori(参考訳) Ettore Majoranaの2つの準交叉準位間の非断熱遷移に対するアプローチを再考する。 我々は、landau-zener-st\"{u}ckelberg-majorana公式として知られる遷移確率を再定義し、マヨラナのアプローチを現代の読者に導入する。 この結果は一般にlandau-zenerの公式と呼ばれ、landau, zener, st\"{u}ckelberg の前に majorana によって発表された。 さらに,近年,量子制御や量子情報にとって重要な位相を含む全波関数を得る。 漸近波動関数は回避レベル交叉から遠く離れたダイナミクスを正しく記述するが、その領域では精度は限られている。

The approach by Ettore Majorana for non-adiabatic transitions between two quasi-crossing levels is revisited. We rederive the transition probability, known as the Landau-Zener-St\"{u}ckelberg-Majorana formula, and introduce Majorana's approach to modern readers. This result typically referred as the Landau-Zener formula, was published by Majorana before Landau, Zener, St\"{u}ckelberg. Moreover, we obtain the full wave function, including its phase, which is important nowadays for quantum control and quantum information. The asymptotic wave function correctly describes dynamics far from the avoided-level crossing, while it has limited accuracy in that region.
翻訳日:2023-02-02 21:29:58 公開日:2022-10-06
# 超伝導量子ビットの光バス工学

Phononic bath engineering of a superconducting qubit ( http://arxiv.org/abs/2208.07423v2 )

ライセンス: Link先を確認
J. M. Kitzman, J. R. Lane, C. Undershute, P. M. Harrington, N. R. Beysengulov, C. A. Mikolas, K. W. Murch, J. Pollanen(参考訳) 振動エネルギーのユビキタス量子であるフォノンは、多くの量子技術の性能において重要な役割を果たす。 適切に定義されたフォノンモードに結合することで、イオントラップアーキテクチャにおける高接続のマルチキュービットゲートと超伝導キュービット系の絡み合った状態の生成が可能になる。 フォノンが大きな散逸浴の形を取る場合でも、可逆的な熱の流れはレーザーシステムの機能や光学活性スピン量子ビットの操作に致命的な状態初期化を可能にする。 逆に、フォノンへの意図しない結合は、非結合な準粒子を生成して量子ビットの性能を低下させ、超伝導量子ビット系における相関誤差をもたらすことが示されている。 音波浴が許容されるか削除されるかは問わないが、典型的にはシステムに固有のものであり、スペクトル特性に対する特定の制御や、その散逸を資源として用いるための工学的側面は認めていない。 ここでは、超伝導量子ビットとフォノニック自由度との結合を精密に設計・制御することにより、超伝導回路上での新しいタイプの量子制御が可能になることを示す。 誘電体表面の損失波フォノンの浴槽への結合により、量子ビットの損失スペクトルを形成することにより、任意の量子ビット状態の調製と安定化が可能となる。 さらに、フォノンによって量子ビットに付与されるエネルギー依存損失の存在は、複合系のマスター方程式処理によってよく説明され、量子ビットダイナミクスと定常状態の両方に優れた一致が得られた。 本研究は,高効率な量子ビット制御を実現するために,音波散逸を設計できることを示す。

Phonons, the ubiquitous quanta of vibrational energy, play a vital role in the performance of many quantum technologies. Coupling to well-defined phonon modes allows for highly-connected multi-qubit gates in ion trap architectures as well as the generation of entangled states in systems of superconducting qubits. Even when the phonons take the form of a large dissipative bath, an irreversible flow of heat allows for state initialization critical to the function of laser systems and the operation of optically active spin qubits. Conversely, unintended coupling to phonons has been shown to degrade qubit performance by generating decohering quasiparticles and leading to correlated errors in superconducting qubit systems. Regardless of whether a phononic bath plays an enabling or deleterious role, it is typically intrinsic to the system and does not admit specific control over its spectral properties, nor the possibility of engineering aspects of its dissipation to be used as a resource. Here we show that by precisely designing and controlling the coupling of a superconducting qubit to phononic degrees of freedom allows a new type of quantum control over superconducting circuits. By shaping the loss spectrum of the qubit via its coupling to a bath of lossy piezoelectric surface acoustic wave phonons, we are able to prepare and stabilize arbitrary qubit states. Additionally, we find that the presence of the energy-dependent loss imparted onto the qubit by the phonons is well-described by a master equation treatment of the composite system, with excellent agreement in both the qubit dynamics as well as its steady state. Our results demonstrate the ability of engineered phononic dissipation to achieve highly efficient qubit control.
翻訳日:2023-01-31 01:20:20 公開日:2022-10-06
# 可変長符号が誤り検出の分野を満たすとき

When Variable-Length Codes Meet the Field of Error Detection ( http://arxiv.org/abs/2208.14681v2 )

ライセンス: Link先を確認
Jean N\'eraud (UNIROUEN)(参考訳) 有限アルファベット $a$ と二項関係 $\tau\subseteq a^*\times a^*$ が与えられると、集合 $x$ は$\tau(x)\cap x=\emptyset$ であれば$\tau$-{\it independent} となる。 a quasi-metric $d$ over $A^*$ ( \cite{W31} の意味) と $k\ge 1$ が与えられたとき、$(x,y)\in\tau_{d,k}$ と $d(x,y)\le k$ \cite{CP02} を関連付ける。 \cite{jk97,n21} の精神では、可変長符号の誤り検出訂正能力は$\tau_{d,k}$ 以上の条件で表現できる。 プレフィックス計量、因子1、および自由モノイドの(反)自己同型に関連するすべての準計量に関して、これらの条件が与えられた正規コードに対して決定可能であるかどうかを調べる。

Given a finite alphabet $A$ and a binary relation $\tau\subseteq A^*\times A^*$, a set $X$ is $\tau$-{\it independent} if $ \tau(X)\cap X=\emptyset$. Given a quasi-metric $d$ over $A^*$ (in the meaning of \cite{W31}) and $k\ge 1$, we associate the relation $\tau_{d,k}$ defined by $(x,y)\in\tau_{d,k}$ if, and only if, $d(x,y)\le k$ \cite{CP02}.In the spirit of \cite{JK97,N21}, the error detection-correction capability of variable-length codes can be expressed in term of conditions over $\tau_{d,k}$. With respect to the prefix metric, the factor one, and every quasi-metric associated to (anti-)automorphisms of the free monoid, we examine whether those conditions are decidable for a given regular code.
翻訳日:2023-01-28 09:16:21 公開日:2022-10-06
# ノイズ型超伝導量子コンピュータの量子シミュレーション

Quantum Simulation on Noisy Superconducting Quantum Computers ( http://arxiv.org/abs/2209.02795v3 )

ライセンス: Link先を確認
Kaelyn J. Ferris, A. J. Rasmusson, Nicholas T. Bronn, Olivia Lanes(参考訳) 量子シミュレーションは量子コンピューティングの潜在的に強力な応用であり、古典的計算方法の範囲を超えて興味深い量子システムをエミュレートできることを約束している。 このような有望な応用と活発な研究の増加にもかかわらず、大学院や学部の学生レベルでの入門文学やデモンストレーションはほとんどない。 これにより、アカデミックと産業の両方において、既に限られた労働力を持つ分野への参入障壁が人為的に上昇する。 ここでは、選択されたハミルトニアンから始まり、状態の準備と進化を概観し、測定方法について議論する量子システムのシミュレーションを紹介する。 スズキ-トローター分解を用いた時間発展による乱れを伴うタイト結合モデルの状態ダイナミクスを計測した例を示す。 さらに、現在利用可能なノイズ量子コンピュータ上で量子アルゴリズムを実行するには、エラー緩和とノイズ低減が不可欠である。 性能を著しく向上させる様々な誤差軽減手法と回路最適化手法を議論し、実証する。 すべてのソースコードは無償で利用可能です。

Quantum simulation is a potentially powerful application of quantum computing, holding the promise to be able to emulate interesting quantum systems beyond the reach of classical computing methods. Despite such promising applications, and the increase in active research, there is little introductory literature or demonstrations of the topic at a graduate or undergraduate student level. This artificially raises the barrier to entry into the field which already has a limited workforce, both in academia and industry. Here we present an introduction to simulating quantum systems, starting with a chosen Hamiltonian, overviewing state preparation and evolution, and discussing measurement methods. We provide an example simulation by measuring the state dynamics of a tight-binding model with disorder by time evolution using the Suzuki-Trotter decomposition. Furthermore, error mitigation and noise reduction are essential to executing quantum algorithms on currently available noisy quantum computers. We discuss and demonstrate various error mitigation and circuit optimization techniques that significantly improve performance. All source code is freely available, and we encourage the reader to build upon it.
翻訳日:2023-01-27 18:12:50 公開日:2022-10-06
# 任意の摂動に対して確実にロバストなエルゴード性破壊

Ergodicity breaking provably robust to arbitrary perturbations ( http://arxiv.org/abs/2209.03966v2 )

ライセンス: Link先を確認
David T. Stephen, Oliver Hart and Rahul M. Nandkishore(参考訳) ヒルベルト空間の断片化によるエルゴディニティ破壊への新たな経路を提示し、前例のない強靭性を示す。 我々の建設は1つの緊急(予熱)保存法に依存している。 保存則が厳密である極限において、指数関数的な数の凍結構成を持つヒルベルト空間のフラグメンテーションの出現を証明する。 さらに、すべての凍結構成が摂動理論のすべての有限順序に対して、任意の摂動に対して絶対安定であることを示す。 特に、この証明は対称摂動やコンパクトな支持を持つ摂動に限らず、長距離テールを持つ摂動にも適用でき、また、任意の幾何学的に非局所な $k$-body 摂動にも適用でき、熱力学的極限では $k/l \rightarrow 0$ であり、ここで $l$ は線形系の大きさである。 さらに, 非フレッシュセクタを特徴づける1-形式 $u(1)$ 電荷を同定し, 創発的1-形式対称性の磁気流体力学の観点から最もよく解釈される典型的な初期条件から発生する力学について考察する。

We present a new route to ergodicity breaking via Hilbert space fragmentation that displays an unprecedented level of robustness. Our construction relies on a single emergent (prethermal) conservation law. In the limit when the conservation law is exact, we prove the emergence of Hilbert space fragmentation with an exponential number of frozen configurations. We further prove that every frozen configuration is absolutely stable to arbitrary perturbations, to all finite orders in perturbation theory. In particular, our proof is not limited to symmetric perturbations, or to perturbations with compact support, but also applies to perturbations with long-range tails, and even to arbitrary geometrically nonlocal $k$-body perturbations, as long as $k/L \rightarrow 0$ in the thermodynamic limit, where $L$ is linear system size. Additionally, we identify one-form $U(1)$ charges characterizing some non-frozen sectors, and discuss the dynamics starting from typical initial conditions, which we argue is best interpreted in terms of the magnetohydrodynamics of the emergent one-form symmetry.
翻訳日:2023-01-27 07:44:30 公開日:2022-10-06
# 正準アンサンブルの一体還元密度行列汎関数理論

One-body reduced density-matrix functional theory for the canonical ensemble ( http://arxiv.org/abs/2209.11663v2 )

ライセンス: Link先を確認
Sarina M. Sutter and Klaas J. H. Giesbertz(参考訳) 我々は、高温度で設定された有限基底で正準アンサンブルに対する一体還元密度行列関数理論を確立する。 温度を含むことは、すべての状態を占有し、さらにフェルミオン系における状態を完全に占有しないことにより、普遍汎関数の微分可能性を保証する。 我々は、ポテンシャル-1rdm写像の普遍汎関数と可逆性の凸性を用いて、その部分次数は微分可能性と同値な1つの要素のみを含むことを示す。 これにより、純粋に小さな占有数スペクトル(0 < n_i < 1 \; \forall_i$)を持つ全ての1RDMが一意に$v$-表現可能であることを示すことができる。

We establish one-body reduced density-matrix functional theory for the canonical ensemble in a finite basis set at elevated temperature. Including temperature guarantees differentiability of the universal functional by occupying all states and additionally not fully occupying the states in a fermionic system. We use convexity of the universal functional and invertibility of the potential-to-1RDM map to show that the subgradient contains only one element which is equivalent to differentiability. This allows us to show that all 1RDMs with a purely fractional occupation number spectrum ($0 < n_i < 1 \; \forall_i$) are uniquely $v$-representable up to a constant.
翻訳日:2023-01-25 10:05:36 公開日:2022-10-06
# 導波路QEDにおける多体超放射と動的対称性の破れ

Many-body superradiance and dynamical symmetry breaking in waveguide QED ( http://arxiv.org/abs/2209.12970v2 )

ライセンス: Link先を確認
Silvia Cardenas-Lopez, Stuart J. Masson, Zoe Zager, Ana Asenjo-Garcia(参考訳) 2段階系の拡張集合の多体崩壊は未解決の問題である。 ここでは, 1次元浴に結合された量子ビットの配列が, 完全に逆転した系が崩壊するにつれて同期し, 散逸によって量子ビット間の相関関係を生成するプロセスであるDicke superradiance(Dicke superradiance)を成すか否かを検討する。 これにより、速い光子バーストの形で全てのエネルギーが放出される。 我々は、バーストの最小条件を、順序アンサンブルと無秩序アンサンブルの両方において、量子ビット数、導波路のキラリティー、および単一量子ビット光学深さの関数として導出する。 多体超放射は、放出を誘発する初期揺らぎが崩壊過程を通じて増幅されるため起こる。 この雪崩のような挙動は動的に自発的な対称性の破れを生じさせ、多くの光子は左または右の光モードに放出され、創発的なキラリティーを生じさせる。 超ラジアントバーストは、エキゾチック量子統計の相関光子状態を生成するための喫煙銃である可能性がある。 この物理は、ナノファイバーに近い原子から、伝送線に結合した超伝導量子ビットまで、様々な構成で探索することができる。

The many-body decay of extended collections of two-level systems remains an open problem. Here, we investigate whether an array of qubits coupled to a one-dimensional bath undergoes Dicke superradiance, a process whereby a completely inverted system synchronizes as it decays, generating correlations between qubits via dissipation. This leads to the release of all the energy in the form of a rapid photon burst. We derive the minimal conditions for the burst to happen as a function of the number of qubits, the chirality of the waveguide, and the single-qubit optical depth, both for ordered and disordered ensembles. Many-body superradiance occurs because the initial fluctuation that triggers the emission is amplified through the decay process. We show that this avalanche-like behavior leads to a dynamical spontaneous symmetry breaking, where most photons are emitted into either the left- or the right-propagating optical modes, giving rise to an emergent chirality. Superradiant bursts may be a smoking gun for the generation of correlated photon states of exotic quantum statistics. This physics can be explored in diverse setups, ranging from atoms close to nanofibers to superconducting qubits coupled to transmission lines.
翻訳日:2023-01-25 02:44:47 公開日:2022-10-06
# 無空スピンボソンリンドブレディアンの十分条件と散逸時間結晶との相関

Sufficient condition for gapless spin-boson Lindbladians, and its connection to dissipative time-crystals ( http://arxiv.org/abs/2209.12949v2 )

ライセンス: Link先を確認
Leonardo da Silva Souza, Luis Fernando dos Prazeres, Fernando Iemini(参考訳) 群スピンボーソン系および置換不変系に対するリンドブラドマスター方程式におけるギャップのない励起の十分条件について考察する。 この条件は、マクロ的な定常状態における累積相関の伸張性とリンドブレディアンにおけるギャップレスモードの存在に関連する。 競合するコヒーレントかつ散逸したリンドブラジアン項から生じる相では、そのようなギャップのないモードは散逸時間結晶の形成が可能なスピン観測可能性において永続的なダイナミクスをもたらすことができると主張する。 この観点から、リンドブラディアンとエルミートジャンプ作用素から、集合スピンとフロケスピンボソン系からなる非エルミートモデルまで、様々なモデルを研究する。 累積展開に基づくシステムにおける平均場半古典的アプローチの正確性に関する簡単な解析的証明も提供する。

We discuss a sufficient condition for gapless excitations in the Lindbladian master equation for collective spin-boson systems and permutationally invariant systems. The condition relates the extensivity of the cumulant correlations in the macroscopic steady state to the presence of gapless modes in the Lindbladian. In phases arising from competing coherent and dissipative Lindbladian terms, we argue that such gapless modes can lead to persistent dynamics in the spin observables with the possible formation of dissipative time-crystals. We study different models within this perspective, from Lindbladians with Hermitian jump operators, to nonHermitian ones composed by collective spins and Floquet spin-boson systems. We also provide a simple analytical proof for the exactness of mean-field semiclassical approach in such systems based on a cumulant expansion.
翻訳日:2023-01-25 02:43:49 公開日:2022-10-06
# 光格子中の強相関ボソンにおける絡み合いエントロピーの進化

Evolution of entanglement entropy in strongly correlated bosons in an optical lattice ( http://arxiv.org/abs/2209.13340v3 )

ライセンス: Link先を確認
Shion Yamashika, Daichi Kagamihara, Ryosuke Yoshii, Shunji Tsuchiya(参考訳) 急激なホッピング振幅のクエンチによって誘導される1次元光学格子におけるボソンの絡み合いエントロピーの時間発展について検討した。 このシステムは, 各格子で分離された個々のボソンを持つ生成物状態から, 深いモット絶縁(MI)体制,すなわち$J/U\ll 1$(U$はオンサイト反発相互作用の強さである)に焼き上げられていると考える。 この状態の低エネルギー励起状態は、ドーブロンやホロンとして知られるフェルミオン準粒子によって効果的に説明できる。 有効理論を考案し,サブシステムに対する第2次r\'enyiエントロピー(re)の時間発展を解析的に計算し,得られた解析式に基づいてreの時間発展のための準粒子画像を提案する。 デュボロンとホロンは、速度 $v_{\rm pair}=6j$で伝播する絡み合ったペアとしてクエンチによって励起される。 REは、サブシステムの境界にまたがるダブルロン-ホロン対の集団を反映している。 短時間スケール [$Jt/\hbar=\mathcal{O}({1})$] では、REは周波数$U/\hbar$で急激な振動を示すが、長時間スケール($Jt/\hbar\gg 1$)では、REは、サブシステムのサイズを超えてREが飽和するまで線形に成長する。 ドブロン-ホロン対はクエンチ後に周期的に放出され、$t>0$で放出されるものはREの線形成長と飽和の間の滑らかな遷移を説明する。

We study the time evolution of entanglement entropy of bosons in a one-dimensional optical lattice induced by a sudden quench of the hopping amplitude $J$. We consider the system being quenched into the deep Mott-insulating (MI) regime, i.e., $J/U\ll 1$ ($U$ is the strength of the on-site repulsive interaction), from the product state with individual boson isolated in each lattice site. The low-energy excited states in this regime can be effectively described by fermionic quasiparticles known as doublons and holons. Developing the effective theory, we analytically calculate the time evolution of the second-order R\'enyi entropy (RE) for a subsystem and propose a quasiparticle picture for the time evolution of the RE based on the obtained analytic expressions. Doublons and holons are excited by the quench as entangled pairs that propagate with the velocity $v_{\rm pair}=6J$. The RE reflects the population of doublon-holon pairs that span the boundary of the subsystem. In the short-time scale [$Jt/\hbar=\mathcal{O}({1})$], the RE exhibits the rapid oscillations with the frequency $U/\hbar$, while in the long-time scale ($Jt/\hbar\gg 1$) the RE grows linearly in time until the pair spreads beyond the size of the subsystem and the RE saturates to a constant. We find that doublon-holon pairs are emitted periodically in time after the quench and those emitted at $t>0$ explain the smooth transition between the linear growth and the saturation of the RE.
翻訳日:2023-01-25 00:21:04 公開日:2022-10-06
# ナノフォトニックキャビティにおけるスピン欠陥の決定論的レーザー書き込み

Deterministic Laser Writing of Spin Defects in Nanophotonic Cavities ( http://arxiv.org/abs/2210.00177v2 )

ライセンス: Link先を確認
Aaron M. Day, Jonathan R. Dietz, Madison Sutula, Matthew Yeh and Evelyn L. Hu(参考訳) キャビティ-エミッタカップリングの高yieldエンジニアリングとキャラクタリゼーションは、スケーラブルな量子ネットワークノードの開発において際立った課題である。 既設欠陥生成プロセスでは, リアルタイムな欠陥キャビティ評価が防止され, 従来のインスタット法ではエミッタ特性の改善やバルク基板の制限が求められていた。 ナノ秒パルス上帯域ギャップレーザーを用いたキャビティ集積スピン欠陥の直接レーザーライティングを示す。 4H-ケイ素炭化物中のフォトニック結晶空洞は、100〜\text{nm}^3$キャビティモード体積内のシリコン単空孔(V$_{Si}^-$)欠陥の形成を監視するナノスコープとして機能する。 従来の欠陥生成法と整合した欠陥スピン共鳴, キャビティ集積フォトルミネッセンス, 励起状態寿命を, 照射後熱アニールを必要とせず観察した。 さらに, キャビティアモルファスしきい値に接近したフルエンスにおける励起状態寿命の指数関数的減少を見出し, v$_{si}^-$ 形成部位における固有背景欠陥の単発局所アニーリングを示す。 このリアルタイムな局所的欠陥形成法は、空洞積分欠陥スピンの実証と組み合わせて、量子ネットワークにおける工学的空洞-エミッタ結合の重要なステップとなる。

High-yield engineering and characterization of cavity-emitter coupling is an outstanding challenge in developing scalable quantum network nodes. Ex-situ defect formation processes prevent real-time defect-cavity characterization, and previous in-situ methods require further processing to improve emitter properties or are limited to bulk substrates. We demonstrate direct laser-writing of cavity-integrated spin defects using a nanosecond-pulsed above-bandgap laser. Photonic crystal cavities in 4H-silicon carbide serve as a nanoscope monitoring silicon monovacancy (V$_{Si}^-$) defect formation within the $100~\text{nm}^3$ cavity mode volume. We observe defect spin resonance, cavity-integrated photoluminescence and excited-state lifetimes consistent with conventional defect formation methods, without need for post-irradiation thermal annealing. We further find an exponential reduction in excited-state lifetime at fluences approaching the cavity amorphization threshold, and show single-shot local annealing of the intrinsic background defects at the V$_{Si}^-$ formation sites. This real-time in-situ method of localized defect formation, paired with demonstration of cavity-integrated defect spins, marks an important step in engineering cavity-emitter coupling for quantum networking.
翻訳日:2023-01-24 05:18:00 公開日:2022-10-06
# 単一分子のナノ共振ラマン散乱における光学的効果

Optomechanical Effects in Nanocavity-enhanced Resonant Raman Scattering of a Single Molecule ( http://arxiv.org/abs/2210.02639v1 )

ライセンス: Link先を確認
Xuan-Ming Shen, Yuan Zhang, Shunping Zhang, Yao Zhang, Qiu-Shi Meng, Guangchao Zheng, Siyuan Lv, Luxia Wang, Roberto A. Boto, Chongxin Shan, Javier Aizpurua(参考訳) 本稿では, 共振ラマン散乱 (serrs) の光力学的効果について, 共振ラマン散乱 (serrs) をミラー(npom) ナノキャビティ上の1分子のナノ分子から取り上げ, マクロな量子電磁力学と開量子系理論の枠組みにおける電子-振動相互作用を組み合わせた量子マスター方程式理論を考案する。 我々は電磁シミュレーションと時間依存密度汎関数理論計算で理論を補足し、現実的なNPoMナノキャビティにおけるメチレンブルー分子のSERRSを研究する。 シミュレーションにより, 振動ポンピング, ストークスの非線形スケーリング, 反ストークス散乱など, 従来のオプテメカ的な効果を達成するための条件を同定できるだけでなく, 励起子集団の飽和, モロー三重項側バンドの出現, 高次ラマン散乱など, 異なる挙動の発見が可能になる。 全体としては、共鳴ラマン散乱における光学効果のさらなる研究を導く可能性がある。

In this article, we address the optomechanical effects in surface-enhanced resonant Raman scattering (SERRS) from a single molecule in a nano-particle on mirror (NPoM) nanocavity by developing a quantum master equation theory, which combines macroscopic quantum electrodynamics and electron-vibration interaction within the framework of open quantum system theory. We supplement the theory with electromagnetic simulations and time-dependent density functional theory calculations in order to study the SERRS of a methylene blue molecule in a realistic NPoM nanocavity. The simulations allow us not only to identify the conditions to achieve conventional optomechanical effects, such as vibrational pumping, non-linear scaling of Stokes and anti-Stokes scattering, but also to discovery distinct behaviors, such as the saturation of exciton population, the emergence of Mollow triplet side-bands, and higher-order Raman scattering. All in all, our study might guide further investigations of optomechanical effects in resonant Raman scattering.
翻訳日:2023-01-23 15:03:32 公開日:2022-10-06
# 地球重力場下の衛星による連続可変量子鍵分布

Satellite-based continuous-variable quantum key distribution under the Earth's gravitational field ( http://arxiv.org/abs/2210.02776v1 )

ライセンス: Link先を確認
Tonghua Liu, Shuo Cao, Sixuan Zhang, Shuai Ma and Xiaobao Liu(参考訳) 長距離通信プロトコルは、地球の重力場の存在と量子状態への影響を無視することはできない。 本研究では,地球の重力場が連続可変量子鍵分布プロトコルに与える影響について,非常に一般的な方法を示す。 以上の結果から,地球の重力場は,すべてのプロトコルでQKDを実行する能力を損なうことが明らかとなった。 しかし、我々はまたいくつかの興味深い特徴、すなわち、最初は特定の高さパラメータ$h\simeq r_A/2$で増加し、その後衛星の軌道が増加するにつれて徐々に減少する。 また, 重力周波数シフトと特殊相対論的効果がキーレートにおいて異なる役割を担っていることを考慮し, 解析に可能な説明を与える。 さらに, 静止地球軌道の衛星高度内において, 重力周波数シフトによる鍵レートの変化が<1.0\%$の値で決定できることが示唆された。 我々の研究は、衛星の軌道高度の制御を通じて損失鍵率を減少させる興味深い可能性をもたらすかもしれない。

Long distance communication protocols cannot ignore the existence of the Earth's gravitational field and its effects on quantum states. In this work, we show a very general method to consider the effects of the Earth's gravitational field on continuous-variable quantum key distribution protocols. Our results show that the Earth's gravitational field erodes the ability of the two parties to perform QKD in all the protocols. However, our findings also exhibit some interesting features, i.e., the key rates initially increase for a specific range of height parameter $h\simeq r_A/2$ and then gradually decrease with the increasing of the orbits of satellite $h$. A possible explanation is also provided in our analysis, considering the fact that gravitational frequency shift and special relativistic effects play different roles in the key rates. In addition, our findings show that the change in key rate effected by gravitational frequency shift can be determined at a level of $<1.0\%$ within the satellite height at geostationary Earth orbits. Our work could provide some interesting possibilities to reduce the loss key rate through the control of the orbital height of satellites.
翻訳日:2023-01-23 15:00:29 公開日:2022-10-06
# 非局所性と非互換性破壊量子ビットチャネルの相互作用

Interplay of nonlocality and incompatibility breaking qubit channels ( http://arxiv.org/abs/2210.02744v1 )

ライセンス: Link先を確認
Swati Kumari, Javid Naikoo, Sibasish Ghosh, A. K. Pan(参考訳) 非可換性と非局所性は基礎的な関心だけでなく、量子情報理論の重要な資源としても機能する。 CHSH (Clauser--Horne--Shimony-Holt) のシナリオでは、可観測物の対の不相性はベル非局所性と同値であることが知られている。 ここでは、これらの概念を量子チャネルの文脈で検討する。 ベル・チェシュの不等式は、非局所性破壊キュービットチャネルと非可逆性破壊キュービットチャネルの間の相互作用を決定する一方で、真の3部構成の非局所性シナリオと比較して、より大きな視点を持つ。 ベルCHSHのシナリオでは、チャネルの共役が不整合性破壊である場合、チャネル自体が非局所性破壊であり、逆もまたチャネルがユニタリであれば保持する。 しかし、この同値性は、多元系において不整合と非局所性の間の同値関係が存在しないため、直接多元系に一般化されるわけではない。 ghz状態やw状態などのよく知られた状態を考慮し、メルミンとスヴェトリクニーの非局所性の概念を用いて三部関係を考察する。 問題当事者を単位量子チャネルに従属させることにより、非局所性に相反する状態パラメータとチャネルパラメータの範囲を同定する。 さらに、入力状態のmermin/svetlichny nonlocality breaking \emph{irrespective} となる単位的量子ビットチャネルの集合を同定する。

Incompatibility and nonlocality are not only of foundational interest but also act as important resources for quantum information theory. In CHSH (Clauser--Horne--Shimony--Holt) scenario, the incompatiblity of a pair of observables is known to be equivalent to Bell nonlocality. Here, we investigate these notions in the context of qubit channels. The Bell-CHSH inequality has a greater perspective -- compared to any genuine tri-partite nonlocality scenario -- while determining about the interplay between nonlocality breaking qubit channels and incompatibility breaking qubit channels. In Bell CHSH scenario, we prove that if the conjugate of a channel is incompatibility breaking, then the channel is itself nonlocality breaking and the converse also holds provided the channel is unital. However, this equivalence is not straightforwardly generalized to multi-partite systems, due to the absence of an equivalence relation between incompatiblity and nonlocality in the multi-partite scenario. We investigate this relation in tripartite scenario by considering some well known states like GHZ and W states and using the notion of Mermin and Svetlichny nonlocality. By subjecting the parties in question to unital qubit channels, we identify the range of state and channel parameters for which incompatiblity coexists with nonlocality. Further, we identify the set of unital qubit channels that is Mermin/Svetlichny nonlocality breaking \emph{irrespective} of the input state.
翻訳日:2023-01-23 15:00:04 公開日:2022-10-06
# 量子冷凍機に応用した量子熱力学

Quantum Thermodynamics applied for Quantum Refrigerators cooling down a qubit ( http://arxiv.org/abs/2210.02681v1 )

ライセンス: Link先を確認
Hideaki Okane, Shunsuke Kamimura, Shingo Kukita, Yasushi Kondo and Yuichiro Matsuzaki(参考訳) 本研究では, 地盤と励起状態のエネルギー差が環境の熱エネルギーよりも小さいターゲット量子ビットの基底状態確率を高めるための量子冷蔵庫について議論する。 我々は,(1)頻繁なパルス演算を伴う1つの余分量子ビット,(2)それを持たない2つの余分量子ビットの2種類を考察する。 これらの2種類の冷凍機は、量子熱力学の観点から評価される。 具体的には,対象量子ビットから取り出された熱,システムに対する作業,および性能係数 (COP) を計算し,熱間の比が作業に反することを示した。 第2型のCOPは第1型のCOPよりも優れていることを示す。 この結果は、量子冷凍機を1キュービットで冷却する高性能な設計に有用である。

We discuss a quantum refrigerator to increase the ground state probability of a target qubit whose energy difference between the ground and excited states is less than the thermal energy of the environment. We consider two types of quantum refrigerators: (1) one extra qubit with frequent pulse operations and (2) two extra qubits without them. These two types of refrigerators are evaluated from the viewpoint of quantum thermodynamics. More specifically, we calculate the heat removed from the target qubit, the work done for the system, and the coefficient of performance (COP), the ratio between the heat ant the work. We show that the COP of the second type outperforms that of the first type. Our results are useful to design a high-performance quantum refrigerator cooling down a qubit.
翻訳日:2023-01-23 14:59:37 公開日:2022-10-06
# 変分量子一類分類器

Variational quantum one-class classifier ( http://arxiv.org/abs/2210.02674v1 )

ライセンス: Link先を確認
Gunhee Park, Joonsuk Huh, Daniel K. Park(参考訳) 一級分類は、幅広い応用のパターン認識における根本的な問題である。 本稿では,このような問題に対する半教師付き量子機械学習アルゴリズムを示し,変分量子一クラス分類器 (vqocc) と呼ぶ。 VQOCCは通常のデータセットで完全にパラメータ化された量子オートエンコーダを訓練し、デコードを必要としないため、このアルゴリズムはノイズの多い中間スケール量子コンピューティングに適している。 VQOCCの性能は、1クラスサポートベクトルマシン(OC-SVM)、カーネル主成分分析(PCA)、手書き桁とFashion-MNISTデータセットを用いたディープ畳み込みオートエンコーダ(DCAE)と比較される。 数値実験では,vqoccの様々な構造について,データエンコーディング,パラメータ化量子回路層数,潜在特徴空間の大きさなどについて検討した。 ベンチマークの結果、VQOCCの分類性能はOC-SVMやPCAと同等であるが、モデルパラメータの数はデータサイズと対数的にしか増加しないことがわかった。 量子アルゴリズムは、ほとんどの場合、同様の訓練条件下でDCAEより優れていた。 そこで本アルゴリズムは,一クラス分類のための非常にコンパクトで効果的な機械学習モデルを構成する。

One-class classification is a fundamental problem in pattern recognition with a wide range of applications. This work presents a semi-supervised quantum machine learning algorithm for such a problem, which we call a variational quantum one-class classifier (VQOCC). The algorithm is suitable for noisy intermediate-scale quantum computing because the VQOCC trains a fully-parameterized quantum autoencoder with a normal dataset and does not require decoding. The performance of the VQOCC is compared with that of the one-class support vector machine (OC-SVM), the kernel principal component analysis (PCA), and the deep convolutional autoencoder (DCAE) using handwritten digit and Fashion-MNIST datasets. The numerical experiment examined various structures of VQOCC by varying data encoding, the number of parameterized quantum circuit layers, and the size of the latent feature space. The benchmark shows that the classification performance of VQOCC is comparable to that of OC-SVM and PCA, although the number of model parameters grows only logarithmically with the data size. The quantum algorithm outperformed DCAE in most cases under similar training conditions. Therefore, our algorithm constitutes an extremely compact and effective machine learning model for one-class classification.
翻訳日:2023-01-23 14:59:26 公開日:2022-10-06
# su(1,1)干渉計を用いた量子改良位相推定

Quantum-improved phase estimation with a displacement-assisted SU(1,1) interferometer ( http://arxiv.org/abs/2210.02645v1 )

ライセンス: Link先を確認
W. Ye, S. K. Chang, S. Y. Gao, H. Zhang, Y. Xia, and X. Rao(参考訳) 変位アシストsu(1,1) [dsu(1,1)] と呼ばれるsu(1,1)干渉計の内部で2つの局所変位演算(ldos)を行うことにより、ホモダイン検出に基づく位相感度と光子損失の有無による量子フィッシャー情報(qfi)の両方について検討した。 このDSU(1,1)干渉計では,現実的シナリオにおいても,導入したLDOが位相感度およびQFIに与える影響に注目する。 dsu(1,1)干渉計の推算性能はldoを伴わないsu(1,1)干渉計よりも常に良好であり,特にldo強度の増加により徐々にハイゼンベルク限界に近づく理想シナリオにおいて,前者の位相精度は高い値を示した。 さらに、後者と異なり、LDOを制御・制御することで前者の堅牢性を著しく向上させることができる。 この結果は,光干渉計の量子改良位相推定に有用である。

By performing two local displacement operations (LDOs) inside an SU(1,1) interferometer, called as the displacement-assisted SU(1,1) [DSU(1,1)], both the phase sensitivity based on homodyne detection and quantum Fisher information (QFI) with and without photon losses are investigated in this paper. In this DSU(1,1) interferometer, we focus our attention on the extent to which the introduced LDO affects the phase sensitivity and the QFI, even in the realistic scenario. Our analyses show that the estimation performance of DSU(1,1) interferometer is always better than that of SU(1,1) interferometer without the LDO, especially the phase precision of the former in the ideal scenario gradually approaching to the Heisenberg limit via the increase of the LDO strength. More significantly, different from the latter, the robustness of the former can be enhanced markedly by regulating and controlling the LDO. Our findings would open an useful view for quantum-improved phase estimation of optical interferometers.
翻訳日:2023-01-23 14:59:04 公開日:2022-10-06
# 量子ソボレフ不等式について

On Quantum Sobolev Inequalities ( http://arxiv.org/abs/2210.03013v1 )

ライセンス: Link先を確認
Laurent Lafleche(参考訳) 位相空間における古典ソボレフ不等式の量子アナログについて検討する。 これらの不等式は多くの体の不確実性原理と見なすことができ、またその記号の観点からワイル量子化のシャッテンノルムに新しい境界をもたらす。 中間ツールとして、対応するヤングとハーディ・リトルウッド・ソボレフの不等式とともに畳み込みの半古典的類似式を定義し、量子ベッソフ空間を導入する。 明示的な推定は最適定数で得られる。

We investigate the quantum analogue of the classical Sobolev inequalities in the phase space. These inequalities can be seen as a many body uncertainty principle, and also lead to new bounds on the Schatten norms of the Weyl quantization in terms of its symbol. As an intermediate tool, we define a semiclassical analogue of the convolution together with the corresponding Young's and Hardy-Littlewood-Sobolev's inequalities, and introduce quantum Besov spaces. Explicit estimates are obtained on the optimal constants.
翻訳日:2023-01-23 14:52:29 公開日:2022-10-06
# 貯水池式トランスモン鎖における非エルミート位相量子状態

Non-Hermitian topological quantum states in a reservoir-engineered transmon chain ( http://arxiv.org/abs/2210.02985v1 )

ライセンス: Link先を確認
Wojciech Brzezicki, Matti Silveri, Marcin P{\l}odzie\'n, Francesco Massel, Timo Hyart(参考訳) 開放系における散逸は、ハーミート的枠組みを超えたハミルトニアンの対称性を豊かにし、新しい非エルミート的位相の可能性を許容し、混乱から保護される長生きの終末状態を示す。 これまでのところ、非エルミート位相は真の量子効果を探究する場面でのみ研究されてきた。 理論上は、非エルミート位相的量子位相が貯留層工学的トランスモン鎖で実現可能であることを示す。 散逸の空間変調は、各トランスモンを広い範囲で散逸強度のその場調整が可能な量子回路冷凍機に結合することにより得られる。 密度行列再正規化群と第3の量子化アプローチを組み合わせた多体リンドブラッドマスター方程式の解法により, トポロジカルエンドモードと関連する位相遷移が, 実験的に現実的なパラメータを用いた単純な反射測定において可視であることを示す。 最後に、この系において真の量子効果は、局所的に励起されたトランモンから受動的に発生するトポロジカルエンドモードの、頑健でゆっくりと崩壊する長距離量子絡みを通じて観測可能であることを示す。

Dissipation in open systems enriches the possible symmetries of the Hamiltonians beyond the Hermitian framework allowing the possibility of novel non-Hermitian topological phases, which exhibit long-living end states that are protected against disorder. So far, non-Hermitian topology has been explored only in settings where probing genuine quantum effects has been challenging. We theoretically show that a non-Hermitian topological quantum phase can be realized in a reservoir-engineered transmon chain. The spatial modulation of dissipation is obtained by coupling each transmon to a quantum circuit refrigerator allowing in-situ tuning of dissipation strength in a wide range. By solving the many-body Lindblad master equation using a combination of the density matrix renormalization group and third quantization approaches, we show that the topological end modes and the associated phase transition are visible in simple reflection measurements with experimentally realistic parameters. Finally, we demonstrate that genuine quantum effects are observable in this system via robust and slowly decaying long-range quantum entanglement of the topological end modes, which can be generated passively starting from a locally excited transmon.
翻訳日:2023-01-23 14:52:03 公開日:2022-10-06
# 優先Tオートマー状態予測の量子シミュレーション

Quantum Simulation of Preferred Tautomeric State Prediction ( http://arxiv.org/abs/2210.02977v1 )

ライセンス: Link先を確認
Yu Shee and Tzu-Lan Yeh and Jen-Yueh Hsiao and Ann Yang and Yen-Chu Lin and Min-Hsiu Hsieh(参考訳) タウトマーの予測は、コンピュータ支援薬物発見において重要な役割を果たす。 しかし、現在、特定の薬物様分子の正準tオートマー形式を正確に予測することは難しい課題である。 広範なtautomerデータベースの欠如は、おそらく実験的研究が困難であるため、tautomer予測のための効果的な経験的手法の開発を妨げている。 より正確な tautomeric form の推定は、量子化学計算によって達成できる。 しかし、必要な計算コストは、量子化学計算がコンピュータ支援薬物発見におけるタウトマー予測の標準ツールになるのを防ぐ。 本稿では,支配的なtautomeric形式を効率的に予測するためのハイブリッド量子化学量子計算ワークフローを提案する。 具体的には、量子化学法に基づく活性空間分子軌道を選択する。 次に,量子デバイス上にハミルトニアンをマッピングする効率的な符号化手法を用いて,量子ビット資源と回路深度を削減する。 最後に、ハードウェア効率のよいアンザッツ回路を用いた基底状態推定に変分量子固有ソルバ(vqe)アルゴリズムを用いる。 提案手法の適用性を実証するため,STO-3Gベースセットにそれぞれ52と150のスピン軌道を持つアセトンとエダラボンの2つの自動合成系で実験を行った。 その結果,ccsdベンチマークはtautomeric state prediction (tautomeric state prediction) と一致した。 さらに、必要となる量子資源は効率的であり、エダラボンの例では、8キュービットと802キュービットのゲートで化学的精度を達成できた。

Prediction of tautomers plays an essential role in computer-aided drug discovery. However, it remains a challenging task nowadays to accurately predict the canonical tautomeric form of a given drug-like molecule. Lack of extensive tautomer databases, most likely due to the difficulty in experimental studies, hampers the development of effective empirical methods for tautomer predictions. A more accurate estimation of the stable tautomeric form can be achieved by quantum chemistry calculations. Yet, the computational cost required prevents quantum chemistry calculation as a standard tool for tautomer prediction in computer-aided drug discovery. In this paper we propose a hybrid quantum chemistry-quantum computation workflow to efficiently predict the dominant tautomeric form. Specifically, we select active-space molecular orbitals based on quantum chemistry methods. Then we utilize efficient encoding methods to map the Hamiltonian onto quantum devices to reduce the qubit resources and circuit depth. Finally, variational quantum eigensolver (VQE) algorithms are employed for ground state estimation where hardware-efficient ansatz circuits are used. To demonstrate the applicability of our methodology, we perform experiments on two tautomeric systems: acetone and Edaravone, each having 52 and 150 spin-orbitals in the STO-3G basis set, respectively. Our numerical results show that their tautomeric state prediction agrees with the CCSD benchmarks. Moreover, the required quantum resources are efficient: in the example of Edaravone, we could achieve chemical accuracy with only eight qubits and 80 two-qubit gates.
翻訳日:2023-01-23 14:51:41 公開日:2022-10-06
# 絡み合い支援通信のためのフォールトトレラント符号化

Fault-tolerant Coding for Entanglement-Assisted Communication ( http://arxiv.org/abs/2210.02939v1 )

ライセンス: Link先を確認
Paula Belzig, Matthias Christandl, Alexander M\"uller-Hermes(参考訳) チャネル容量は、ノイズの多いチャネル上で情報を確実に送信する最適な速度を定量化する。 通常、キャパシティの研究は、送信側と受信側がエンコードとデコードに使用する回路が完全なノイズのないゲートからなると仮定している。 しかし、量子チャネル上の通信の場合、この仮定は、デコヒーレンスの過程によって影響を受ける量子情報の脆弱さのために、長期的にも非現実的であると広く信じられている。 そのため、ChristandlとM\"uller-Hermesは、量子チャネルのフォールトトレラントチャネル符号化、すなわちエンコーダ回路とデコーダ回路がノイズに影響を受けるコーディングスキームの研究を開始し、フォールトトレラント量子コンピューティングの技法を用いて古典的および量子的情報を送信するための符号化定理を確立した。 ここでは,これらの手法を絡み合い支援通信の場合,特にゲートエラーがゼロに近づくと,耐故障能力が通常の容量に近づくことを示す。 独立した関心を持つと思われる主なツールは、フォールトトレラントなエンタングルメント蒸留の導入である。 さらに,他のフォールトトレラントな通信シナリオでも容易に適用できるように,使用されるテクニックのモジュール化にも重点を置いています。

Channel capacities quantify the optimal rates of sending information reliably over noisy channels. Usually, the study of capacities assumes that the circuits which sender and receiver use for encoding and decoding consist of perfectly noiseless gates. In the case of communication over quantum channels, however, this assumption is widely believed to be unrealistic, even in the long-term, due to the fragility of quantum information, which is affected by the process of decoherence. Christandl and M\"uller-Hermes have therefore initiated the study of fault-tolerant channel coding for quantum channels, i.e. coding schemes where encoder and decoder circuits are affected by noise, and have used techniques from fault-tolerant quantum computing to establish coding theorems for sending classical and quantum information in this scenario. Here, we extend these methods to the case of entanglement-assisted communication, in particular proving that the fault-tolerant capacity approaches the usual capacity when the gate error approaches zero. A main tool, which might be of independent interest, is the introduction of fault-tolerant entanglement distillation. We furthermore focus on the modularity of the techniques used, so that they can be easily adopted in other fault-tolerant communication scenarios.
翻訳日:2023-01-23 14:51:19 公開日:2022-10-06
# 光格子におけるスケーラブル多部絡み合わせのための機能的構造ブロック

Functional building blocks for scalable multipartite entanglement in optical lattices ( http://arxiv.org/abs/2210.02936v1 )

ライセンス: Link先を確認
Wei-Yong Zhang, Ming-Gen He, Hui Sun, Yong-Guang Zheng, Ying Liu, An Luo, Han-Yi Wang, Zi-Hang Zhu, Pei-Yue Qiu, Ying-Chao Shen, Xuan-Kai Wang, Wan Lin, Song-Tao Yu, Bin-Chen Li, Bo Xiao, Meng-Da Li, Yu-Meng Yang, Xiao Jiang, Han-Ning Dai, You Zhou, Xiongfeng Ma, Zhen-Sheng Yuan, Jian-Wei Pan(参考訳) 優れたコヒーレンスを特徴とし、並列に動作し、光学格子内の超低温原子は量子計算の競合候補を形成する。 このため、多数の平行な絡み合った原子対が超格子で実現されている。 しかし、より強固な課題は、レトロ反射双色超格子における局所原子スピンに対する操作の欠如による多成分の絡み合いのスケールアップと検出である。 そこで我々は,原子間相互作用のための量子ガス顕微鏡を組み込んだ中等分離原子上に量子ゲート層を実装するために,交叉スピン依存超格子を用いた新しいアーキテクチャを開発した。 ベル対を1次元の10原子鎖と2\times4$原子の2次元プラーペットにつなぐことで,スケーラブルな多成分の絡み合いのための機能的ビルディングブロックを作成し,検証した。 これはスケーラブルな量子計算とシミュレーションのための新しいプラットフォームを提供する。

Featuring excellent coherence and operated parallelly, ultracold atoms in optical lattices form a competitive candidate for quantum computation. For this, a massive number of parallel entangled atom pairs have been realized in superlattices. However, the more formidable challenge is to scale-up and detect multipartite entanglement due to the lack of manipulations over local atomic spins in retro-reflected bichromatic superlattices. Here we developed a new architecture based on a cross-angle spin-dependent superlattice for implementing layers of quantum gates over moderately-separated atoms incorporated with a quantum gas microscope for single-atom manipulation. We created and verified functional building blocks for scalable multipartite entanglement by connecting Bell pairs to one-dimensional 10-atom chains and two-dimensional plaquettes of $2\times4$ atoms. This offers a new platform towards scalable quantum computation and simulation.
翻訳日:2023-01-23 14:50:56 公開日:2022-10-06
# 光スピン軌道相互作用の基礎と創発的応用

Spin-Orbit Interactions of Light: Fundamentals and Emergent Applications ( http://arxiv.org/abs/2210.02921v1 )

ライセンス: Link先を確認
Graciana Puentes(参考訳) フォトニック材料における光のスピン軌道相互作用(SOI)の最近の進展を概観する。 特に、双曲型メタマテリアルやメタサーフェスにおけるスピンホール効果(she)の検出の進展を強調する。 さらに,次世代フォトニックデバイスにおけるsois of lightの創発的応用に向けた興味深い今後の方向性について概説する。

We present a comprehensive review of recent developments in Spin Orbit Interactions (SOIs) of light in photonic materials. In particular, we highlight progress on detection of Spin Hall Effect (SHE) of light in hyperbolic metamaterials and metasurfaces. Moreover, we outline some fascinating future directions for emergent applications of SOIs of light in photonic devices of the upcoming generation.
翻訳日:2023-01-23 14:50:42 公開日:2022-10-06
# 量子ネットワークコードによるテレポーテーションの実証

Demonstration of teleportation across a quantum network code ( http://arxiv.org/abs/2210.02878v1 )

ライセンス: Link先を確認
Hjalmar Rall and Mark Tame(参考訳) 量子ネットワークにおいて重要な目標は、量子情報の転送と通信のリソース要件を減らすことである。 量子ネットワーク符号化は、通常競合を示すネットワークに絡み合った状態を分散することで、このような方法を示す。 本研究では,特にノイズの多い中間スケール量子デバイスに適した,計測ベースの量子ネットワーク符号化(mqnc)について検討する。 mqncは従来超伝導プロセッサで実験的に研究されてきたが、結果として得られる状態はエンタングルメントの程度は得られなかった。 我々は、新しい超伝導プロセッサibm_cairoにMQNCを適応させ、より改良されたエンタングルメントを求め、量子情報の遠隔伝送を成功させることを可能にした。 テレポーテーションは、ブロッホ球面の極冠から量子ビットを考慮し、古典的手段で達成できるよりも忠実度が高く発生することが示されている。 また、重いヘックスプロセッサレイアウトへの単純なマッピングと、提案した論理誤り訂正レイアウトへの直接マッピングによるMQNCの一般化を提案する。 我々の研究は、量子ネットワークコーディングをテストし、うまく実行するためのいくつかの有用な技術を提供します。

In quantum networks an important goal is to reduce resource requirements for the transport and communication of quantum information. Quantum network coding presents a way of doing this by distributing entangled states over a network that would ordinarily exhibit contention. In this work, we study measurement-based quantum network coding (MQNC), which is a protocol particularly suitable for noisy intermediate-scale quantum devices. MQNC has previously been studied experimentally on a superconducting processor, however the resulting states did not have a usable degree of entanglement. We adapt MQNC to the newer superconducting processor ibm_cairo and obtain a much improved degree of entanglement, enabling us to demonstrate successful teleportation of quantum information. The teleportation is shown to occur with fidelity higher than could be achieved via classical means, made possible by considering qubits from a polar cap of the Bloch Sphere. We also present a generalization of MQNC with a simple mapping onto the heavy-hex processor layout and a direct mapping onto a proposed logical error-corrected layout. Our work provides some useful techniques for testing and successfully carrying out quantum network coding.
翻訳日:2023-01-23 14:50:38 公開日:2022-10-06
# Kirkwood-Dirac 古典的な純粋状態

Kirkwood-Dirac classical pure states ( http://arxiv.org/abs/2210.02876v1 )

ライセンス: Link先を確認
Jianwei Xu(参考訳) kirkwood-dirac (kd) 分布は量子状態の表現である。 近年、KD分布は量子力学、量子カオス、量子理論の基礎など多くのシナリオで採用されている。 KD分布は準確率分布であり、負または非実の要素は特定のタスクにおける量子上の利点を示す。 量子状態は kd 分布が確率分布であるときに kd 古典 (kd classical) と呼ばれる。 ほとんどの量子情報処理は純粋状態を理想的な資源として使用するため、量子純粋状態がkd古典であるかどうかを決定することが鍵となる。 本稿では,kd古典的純粋状態の一般構造に関するいくつかの特徴について述べる。 この結果の応用として、De Bi\`{e}vre [Phys. Rev. Lett. 127, 190404 (2021)] によって提起された予想を証明し、離散フーリエ変換のためのすべてのKD古典的純粋状態を求める。

Kirkwood-Dirac (KD) distribution is a representation of quantum states. Recently, KD distribution has been employed in many scenarios such as quantum metrology, quantum chaos and foundations of quantum theory. KD distribution is a quasiprobability distribution, and negative or nonreal elements may signify quantum advantages in certain tasks. A quantum state is called KD classical if its KD distribution is a probability distribution. Since most quantum information processings use pure states as ideal resources, then a key problem is to determine whether a quantum pure state is KD classical. In this paper, we provide some characterizations for the general structure of KD classical pure states. As an application of our results, we prove a conjecture raised by De Bi\`{e}vre [Phys. Rev. Lett. 127, 190404 (2021)] which finds out all KD classical pure states for discrete Fourier transformation.
翻訳日:2023-01-23 14:50:19 公開日:2022-10-06
# 量子擬可積分ハミルトン衝撃系

Quantum pseudo-integrable Hamiltonian impact systems ( http://arxiv.org/abs/2210.02854v1 )

ライセンス: Link先を確認
Omer Yaniv and Vered Rom-Kedar(参考訳) 擬可積分ハミルトニアン衝突系の玩具モデルの量子化は、EBK量子化条件、ワイルの法則の検証、それらの波動関数の研究、およびそれらのエネルギー準位の性質の研究を含む。 エネルギー準位統計は擬可積分ビリヤード統計と類似していることが示されている。 しかし、ここでは、古典的なレベル集合の配置空間への射影に集中する波動関数の密度は、大きなエネルギーで消えることはなく、大きなエネルギー極限における構成空間に等分布は存在しないことを示唆し、これはいくつかの極限対称の場合で解析的に示され、いくつかの非対称ケースで数値的に示される。

Quantization of a toy model of a pseudointegrable Hamiltonian impact system is introduced, including EBK quantization conditions, a verification of Weyl's law, the study of their wavefunctions and a study of their energy levels properties. It is demonstrated that the energy levels statistics are similar to those of pseudointegrable billiards. Yet, here, the density of wavefunctions which concentrate on projections of classical level sets to the configuration space does not disappear at large energies, suggesting that there is no equidistribution in the configuration space in the large energy limit; this is shown analytically for some limit symmetric cases and is demonstrated numerically for some nonsymmetric cases.
翻訳日:2023-01-23 14:50:00 公開日:2022-10-06
# 変分量子連続最適化:量子数学的解析のコーナーストーン

Variational Quantum Continuous Optimization: a Cornerstone of Quantum Mathematical Analysis ( http://arxiv.org/abs/2210.03136v1 )

ライセンス: Link先を確認
Pablo Bermejo, Roman Orus(参考訳) ここでは,量子回路モデルに基づく普遍量子コンピュータが,連続領域を持つ関数の数学的解析計算をディジタル化することなく,非常に少ない量子ビットで処理できることを示す。 このアプローチの基本構成ブロックは変動量子回路であり、各量子ビットは最大3つの連続変数(ブロッホ球の2つの角度と1つの放射体)を符号化する。 この符号化と量子状態トモグラフィーを組み合わせることで、$n$ qubitsの変分量子回路はアナログ的に最大3n$連続変数の関数を最適化することができる。 次に、連続最適化のためのこの量子アルゴリズムは、量子コンピュータ上の数学的解析のためのツールボックス全体の基盤となっているかを説明する。 例えば、フーリエ(ハーモニック)分解のような任意の級数展開を計算するためにそれを使う方法を示す。 代わりにフーリエ解析により、多次元定積分の評価、微分方程式の解法(系)など、関数計算に関連するあらゆるタスクを本質的に実装することができる。 提案手法の有効性を証明するため,量子コンピュータシミュレータに実装されたこれらのユースケースの多くに対して,ベンチマーク計算を行う。 数学的解析のための古典的アルゴリズムに関する利点や、視点や拡張の可能性についても論じる。

Here we show how universal quantum computers based on the quantum circuit model can handle mathematical analysis calculations for functions with continuous domains, without any digitalization, and with remarkably few qubits. The basic building block of our approach is a variational quantum circuit where each qubit encodes up to three continuous variables (two angles and one radious in the Bloch sphere). By combining this encoding with quantum state tomography, a variational quantum circuit of $n$ qubits can optimize functions of up to $3n$ continuous variables in an analog way. We then explain how this quantum algorithm for continuous optimization is at the basis of a whole toolbox for mathematical analysis on quantum computers. For instance, we show how to use it to compute arbitrary series expansions such as, e.g., Fourier (harmonic) decompositions. In turn, Fourier analysis allows us to implement essentially any task related to function calculus, including the evaluation of multidimensional definite integrals, solving (systems of) differential equations, and more. To prove the validity of our approach, we provide benchmarking calculations for many of these use-cases implemented on a quantum computer simulator. The advantages with respect to classical algorithms for mathematical analysis, as well as perspectives and possible extensions, are also discussed.
翻訳日:2023-01-23 14:44:17 公開日:2022-10-06
# 時間的スライスにおける絡み合いエントロピー:自由フェルミオン研究

Entanglement Entropy in Timelike Slices: a Free Fermion Study ( http://arxiv.org/abs/2210.03134v1 )

ライセンス: Link先を確認
Bowei Liu, Hao Chen, Biao Lian(参考訳) 任意の時空スライスにおける離散的な点集合における量子状態の絡み合いエントロピーを定義し、自由フェルミオンに対して明示的な公式を与える。 タイムライクなスライス(causal)を特に検討する。 1次元格子フリーフェルミオンの場合、同じ場所での時間方向エンタングルメントエントロピーを$t_n=n\tau$(1\le n\le K$)で計算し、$\tau=\tau_0=2\pi/E_0$で安定化遷移を同定した。 ゼロ温度では, 格子フェルミオンの時間的絡み合いエントロピーは, キラルフェルミオンの1つのフレーバーに対してカルディ式に類似している。 一般的なスライスでは、絡み合うエントロピーは空間的なスライスと時間的なスライスの間の明確な遷移を示す。 我々は、量子状態から情報を取得するために連続する局所観測の時間上限である$\tau_0$ を予想し、同様の$\tau_0$ が相互作用モデルに存在すると推測する。

We define the entanglement entropy of a quantum state in a discrete set of points in an arbitrary spacetime slice, and give the explicit formula for free fermions. We investigate timelike (causal) slices specifically. For 1D lattice free fermions, we calculated the time-direction entanglement entropy in a set of times $t_n=n\tau$ ($1\le n\le K$) on the same site, and identified a stabilizing transition at $\tau=\tau_0=2\pi/E_0$, where $E_0$ is the energy range of single-fermion spectrum. At zero temperature, the time-like entanglement entropy of the lattice fermion with $\tau<\tau_0$ resembles the Cardy formula for one flavor of chiral fermion. For generic slices, the entanglement entropy shows a clear transition between spacelike and timelike slices. We conjecture $\tau_0$ is the upper bound of time period for consecutive local observations to retrieve information from a quantum state, and conjecture a similar $\tau_0$ exists in interacting models.
翻訳日:2023-01-23 14:43:57 公開日:2022-10-06
# 格子ゲージ理論における動的量子相転移の量子計算と絡み合いトモグラフィ

Quantum computation of dynamical quantum phase transitions and entanglement tomography in a lattice gauge theory ( http://arxiv.org/abs/2210.03089v1 )

ライセンス: Link先を確認
Niklas Mueller, Joseph A. Carolan, Andrew Connelly, Zohreh Davoudi, Eugene F. Dumitrescu, K\"ubra Yeter-Aydeniz(参考訳) 平衡から遠く離れた強結合ゲージ理論は、初期の宇宙やハドロンやイオン衝突型加速器の物理学を照らし出す独特な特徴を示すかもしれない。 リアルタイム現象の研究は古典シミュレーション法では難しいことが証明されているが、量子シミュレーションの自然な応用である。 この可能性を示すために、IonQ Inc. によるトラップイオン量子コンピュータを用いて、量子非等時相関関数を計算し、単純な格子ゲージ理論であるシュウィンガーモデルの非平衡状態のエンタングルメントトモグラフィーを行う。 短期機器の理想的なターゲットとして、最近予測された(Phys.Rev.Lett)。 122 (2019) 5, 050403) このモデルにおける動的量子相転移は、次の3つの方法で非平衡ダイナミクスを準備、クエンチ、追跡することによって研究される。 一 ダイナミックな遷移を合図する重複エコー 二 トポロジカルな性質の非等時相関関数及び等時相関関数 三 非平衡状態の絡み合い構造であって、絡み合いハミルトニアンを含むもの これらの結果は、量子コンピュータ上の格子ゲージ理論における動的量子相転移の最初の観測であり、量子技術を用いた核・高エネルギー物理学における位相現象の研究への第一歩である。

Strongly-coupled gauge theories far from equilibrium may exhibit unique features that could illuminate the physics of the early universe and of hadron and ion colliders. Studying real-time phenomena has proven challenging with classical-simulation methods, but is a natural application of quantum simulation. To demonstrate this prospect, we quantum compute non-equal time correlation functions and perform entanglement tomography of non-equilibrium states of a simple lattice gauge theory, the Schwinger model, using a trapped-ion quantum computer by IonQ Inc. As an ideal target for near-term devices, a recently-predicted (Phys.Rev.Lett. 122 (2019) 5, 050403) dynamical quantum phase transition in this model is studied by preparing, quenching, and tracking the subsequent non-equilibrium dynamics in three ways: i) overlap echos signaling dynamical transitions, ii) non-equal time correlation functions with an underlying topological nature, and iii) the entanglement structure of non-equilibrium states, including Entanglement Hamiltonians. These results constitute the first observation of a dynamical quantum phase transition in a lattice gauge theory on a quantum computer, and are a first step toward investigating topological phenomena in nuclear and high-energy physics using quantum technologies.
翻訳日:2023-01-23 14:42:41 公開日:2022-10-06
# テレポーテーションとワームホールにおける測定誘起相転移

Measurement-induced phase transition in teleportation and wormholes ( http://arxiv.org/abs/2210.03083v1 )

ライセンス: Link先を確認
Alexey Milekhin, Fedor K. Popov(参考訳) 我々は、いくつかの量子テレポーテーションプロトコルがsachdev ye kitaevモデルで測定誘起相転移を示すことを実証する。 すなわち, 北エブ吉田, ガオジャフェリスウォールプロトコルは, それぞれ大きな投射速度で, あるいは大きなカップリングレートで適用した場合に相転移が生じる。 小さなレートでは、テレポーテーションは小さな時間ウィンドウ内でのみ行われることが知られている。 大規模なレートでは、テレポーテーションはいつでも実行可能であることを示します。 北エフ吉田の場合を解析するために、ある投影を低エネルギーの量子チャネルで近似することができ、それはシステムを加熱せず、定性的に実射影のように振る舞う。 dual jackiw teitelboim重力では、これらの相転移は永遠の可逆ワームホールの形成に対応する。 キタエフ吉田の場合、この新しいタイプのワームホールは連続射影によって支持される。

We demonstrate that some quantum teleportation protocols exhibit measurement induced phase transitions in Sachdev Ye Kitaev model. Namely, Kitaev Yoshida and Gao Jafferis Wall protocols have a phase transition if we apply them at a large projection rate or at a large coupling rate respectively. It is well-known that at small rates they allow teleportation to happen only within a small time-window. We show that for large rates, the teleportation can be performed at any moment. In order to analyze Kitaev Yoshida case, we argue that certain projections can be approximated by low-energy quantum channels, which do not heat the system but qualitatively behave like a real projection. In dual Jackiw Teitelboim gravity these phase transitions correspond to the formation of an eternal traversable wormhole. In the Kitaev Yoshida case this novel type of wormhole is supported by continuous projections.
翻訳日:2023-01-23 14:42:18 公開日:2022-10-06
# 量子アルゴリズムを用いたキラリティー不均衡の研究

Studying chirality imbalance with quantum algorithms ( http://arxiv.org/abs/2210.03062v1 )

ライセンス: Link先を確認
Alexander M. Czajka, Zhong-Bo Kang, Yuxuan Tee and Fanyi Zhao(参考訳) キラル効果を説明するために、外部磁場の影響下でのクォークグルーオンプラズマにおけるトポロジカル電荷変化遷移の影響を模倣するために、キラル化学ポテンシャル$\mu_5$が導入された。 1+1)次元nambu-jona-lasinio(njl)モデルを用いて,量子シミュレータにおいて有限キラル化学ポテンシャル$\mu_5$を持つ強相互作用物質のキラル相構造とキラル電荷密度の研究を行った。 qite(quantum imaginary time evolution)アルゴリズムを実行することで、様々な温度$t$の格子上の(1+1)次元njlモデルをシミュレートし、化学ポテンシャルを$\mu$,$\mu_5$とし、量子シミュレーションが解析計算や格子ハミルトニアンの正確な対角化とよく一致していることを見つける。

To describe the chiral magnetic effect, the chiral chemical potential $\mu_5$ is introduced to imitate the impact of topological charge changing transitions in the quark-gluon plasma under the influence of an external magnetic field. We employ the (1+1) dimensional Nambu-Jona-Lasinio (NJL) model to study the chiral phase structure and chirality charge density of strongly interacting matter with finite chiral chemical potential $\mu_5$ in a quantum simulator. By performing the Quantum imaginary time evolution (QITE) algorithm, we simulate the (1+1) dimensional NJL model on the lattice at various temperature $T$ and chemical potentials $\mu$, $\mu_5$ and find that the quantum simulations are in good agreement with analytical calculations as well as exact diagonalization of the lattice Hamiltonian.
翻訳日:2023-01-23 14:42:04 公開日:2022-10-06
# 絡み合った量子状態ファイバーに対するスケーラブルな実験境界

Scalable Experimental Bounds for Entangled Quantum State Fidelities ( http://arxiv.org/abs/2210.03048v1 )

ライセンス: Link先を確認
Shamminuj Aktar, Andreas B\"artschi, Abdel-Hameed A. Badawy, Stephan Eidenbenz(参考訳) ノイズの多い中間スケール量子(NISQ)デバイス上での高絡み合い状態の状態準備忠実度の推定は、ベンチマークと応用上の考慮にとって重要な課題である。 残念なことに、正確な忠実度の測定は、n量子ビット状態のo(3^n)として指数関数的にスケールし、全てのポーリ塩基の組み合わせで測定されたフルステートトモグラフィーを用いて、急速に高価になる。 しかし、[Somma et.al. 2006] は、Dicke States や GHZ States のような対称性を示す状態の忠実度の下限をみると、複雑さが劇的に減少することが知られている。 より大きな州では、これらの境界は現在の (2022) の NISQ デバイスで妥当な推定を提供するのに十分ではない。 本研究は,理論導入から15年以上を経て初めて,最近提案された拡張回路の効率よく実装した量子H1イオントラップ系において,すべてのDicke状態がN=10まで,すべてのGHZ状態がN=20まで,その状態が有意に低いことを報告した。 例えば、状態準備フィデリティの低い境界を与える。 (i)Dicke State |D10,5> と 0.46 (ii)GHZ状態 |G20> の0.73。 これらの値は, 超伝導系において, それぞれより小さな状態である |D6,3> と |G5> の正確な忠実度の記録と一致するか, あるいは超える。 さらに、大きなディック状態 |DN,N/2> に対して、GHZ に基づく近似状態の準備を利用してより忠実な状態が得られることを示す。

Estimating the state preparation fidelity of highly entangled states on noisy intermediate-scale quantum (NISQ) devices is an important task for benchmarking and application considerations. Unfortunately, exact fidelity measurements quickly become prohibitively expensive, as they scale exponentially as O(3^N) for N-qubit states, using full state tomography with measurements in all Pauli bases combinations. However, it is known [Somma et.al. 2006] that the complexity can be drastically reduced when looking at fidelity lower bounds for states that exhibit symmetries, such as Dicke States and GHZ States. For larger states, these bounds have so far not been tight enough to provide reasonable estimations on today's (2022) NISQ devices. In this work, for the first time and more than 15 years after the theoretical introduction, we report meaningful lower bounds for the state preparation fidelity of all Dicke States up to N=10 and all GHZ states up to N=20 on Quantinuum H1 ion-trap systems using efficient implementations of recently proposed scalable circuits for these states. For example, we give state preparation fidelity lower bounds of (i) 0.46 for the Dicke State |D10,5> and (ii) 0.73 for the GHZ State |G20>. These match or exceed exact fidelity records recently achieved on superconducting systems for the much smaller states |D6,3> and |G5>, respectively. Furthermore, we provide evidence that for large Dicke States |DN,N/2>, we can resort to a GHZ-based approximate state preparation to achieve better fidelity.
翻訳日:2023-01-23 14:41:47 公開日:2022-10-06
# クジラ取引とCryptoQuantのデータからBitcoinのボラティリティを予測するSynthesizer Transformerモデル

Forecasting Bitcoin volatility spikes from whale transactions and CryptoQuant data using Synthesizer Transformer models ( http://arxiv.org/abs/2211.08281v1 )

ライセンス: Link先を確認
Dorien Herremans, Kah Wee Low(参考訳) 暗号通貨市場は従来の金融市場と比べて非常に不安定である。 したがって、ボラティリティの予測はリスク管理に不可欠である。 本稿では,暗号データ(on-chain analytics, exchange, miner dataなど)とクジラアラートつぶやきを調査し,その翌日のボラティリティとの関係を,極端なボラティリティの上昇に焦点をあてて検討する。 本稿では,ボラティリティ予測のためのディープラーニングシンセサイザトランスモデルを提案する。 結果は、暗号データとクジラのアラートツイートを使ってbitcoinの極端なボラティリティのスパイクを予測する際に、このモデルが既存の最先端モデルを上回ることを示している。 私たちはCaptum XAIライブラリでモデルを分析し、どの機能が最も重要なのかを調査しました。 また、さまざまなベースライン取引戦略で予測結果をバックテストし、安定した利益を維持しながら、デダウンを最小限に抑えることができることを示した。 提案手法はビットコイン市場における極端なボラティリティ(変動性)の動きを予測するための有用なツールである。

The cryptocurrency market is highly volatile compared to traditional financial markets. Hence, forecasting its volatility is crucial for risk management. In this paper, we investigate CryptoQuant data (e.g. on-chain analytics, exchange and miner data) and whale-alert tweets, and explore their relationship to Bitcoin's next-day volatility, with a focus on extreme volatility spikes. We propose a deep learning Synthesizer Transformer model for forecasting volatility. Our results show that the model outperforms existing state-of-the-art models when forecasting extreme volatility spikes for Bitcoin using CryptoQuant data as well as whale-alert tweets. We analysed our model with the Captum XAI library to investigate which features are most important. We also backtested our prediction results with different baseline trading strategies and the results show that we are able to minimize drawdown while keeping steady profits. Our findings underscore that the proposed method is a useful tool for forecasting extreme volatility movements in the Bitcoin market.
翻訳日:2023-01-23 14:34:40 公開日:2022-10-06
# Dynamics-Agnostic Reinforcement Learning を用いた低推力軌道移動

Low-Thrust Orbital Transfer using Dynamics-Agnostic Reinforcement Learning ( http://arxiv.org/abs/2211.08272v1 )

ライセンス: Link先を確認
Carlos M. Casas, Belen Carro, and Antonio Sanchez-Esguevillas(参考訳) 低推力軌道設計と飛行制御は、新しい世代の衛星運用において最も困難なトピックの1つである。 現在実装されているほとんどのソリューションは、参照軌跡に基づいており、準最適燃料の使用につながる。 他のソリューションは、定期的に更新する必要がある単純なガイダンス法に基づいており、運用コストを増大させる。 一部の最適化戦略が人工知能の手法を利用するのに対して、これまで研究されてきたアプローチはすべて、以前に生成されたデータか、衛星のダイナミクスに関する強力な事前知識を必要とする。 本研究では,低推力中軌道衛星を対象としたモデルフリー強化学習を用いてエージェントを訓練する。 エージェントは環境ダイナミクスに関する事前の知識を持っておらず、古典的な軌道最適化パターンとは疎遠である。 訓練されたエージェントは、コースの設計と、巡航中の衛星の自律制御に使用される。 シミュレーションにより、動的エージェントは準最適誘導法を学習でき、環境力学の不確実性によく対応できることが示された。 その結果,より複雑なシナリオやマルチサテライト問題に対する強化学習の利用,あるいは参照解が不明な環境における軌道探索への扉を開くことができた。

Low-thrust trajectory design and in-flight control remain two of the most challenging topics for new-generation satellite operations. Most of the solutions currently implemented are based on reference trajectories and lead to sub-optimal fuel usage. Other solutions are based on simple guidance laws that need to be updated periodically, increasing the cost of operations. Whereas some optimization strategies leverage Artificial Intelligence methods, all of the approaches studied so far need either previously generated data or a strong a priori knowledge of the satellite dynamics. This study uses model-free Reinforcement Learning to train an agent on a constrained pericenter raising scenario for a low-thrust medium-Earth-orbit satellite. The agent does not have any prior knowledge of the environment dynamics, which makes it unbiased from classical trajectory optimization patterns. The trained agent is then used to design a trajectory and to autonomously control the satellite during the cruise. Simulations show that a dynamics-agnostic agent is able to learn a quasi-optimal guidance law and responds well to uncertainties in the environment dynamics. The results obtained open the door to the usage of Reinforcement Learning on more complex scenarios, multi-satellite problems, or to explore trajectories in environments where a reference solution is not known
翻訳日:2023-01-23 14:34:18 公開日:2022-10-06
# 変分量子非直交最適化

Variational Quantum Non-Orthogonal Optimization ( http://arxiv.org/abs/2210.04639v1 )

ライセンス: Link先を確認
Pablo Bermejo, Roman Orus(参考訳) 現在のユニバーサル量子コンピュータは、ノイズの量子ビットが限られている。 このため、大規模な複雑な最適化問題を解くことは困難である。 本稿では,量子システムの非直交状態において離散的古典変数を符号化する量子最適化スキームを提案する。 我々は、量子コンピュータ上で1ビット以上の古典変数を扱う個々の量子ビットを持つ非直交量子ビット状態のケースを開発する。 このアイデアと変分量子固有解法(VQE)と量子状態トモグラフィーを組み合わせることで、複雑な最適化問題を解決するために量子ハードウェアに必要な量子ビットの数を著しく削減できることを示す。 我々は、15量子ビットのみを用いて、次数8と15変数の多項式を最適化し、アルゴリズムをベンチマークした。 我々の提案は、今日の限定量子ハードウェアにおいて、現実の有用な最適化問題を解決するための道を開く。

Current universal quantum computers have a limited number of noisy qubits. Because of this, it is difficult to use them to solve large-scale complex optimization problems. In this paper we tackle this issue by proposing a quantum optimization scheme where discrete classical variables are encoded in non-orthogonal states of the quantum system. We develop the case of non-orthogonal qubit states, with individual qubits on the quantum computer handling more than one bit classical variable. Combining this idea with Variational Quantum Eigensolvers (VQE) and quantum state tomography, we show that it is possible to significantly reduce the number of qubits required by quantum hardware to solve complex optimization problems. We benchmark our algorithm by successfully optimizing a polynomial of degree 8 and 15 variables using only 15 qubits. Our proposal opens the path towards solving real-life useful optimization problems in today's limited quantum hardware.
翻訳日:2023-01-23 14:34:00 公開日:2022-10-06
# ランダム状態のサブシステムトレーサビリティ

Subsystem Trace-Distances of Random States ( http://arxiv.org/abs/2210.03213v1 )

ライセンス: Link先を確認
Joaquim Telles de Miranda and Tobias Micklitz(参考訳) カオス量子システムにおける2状態識別について検討する。 2つの$N$-qubit純状態のうちの1つがランダムに選択されたと仮定すると、$N-N_B$ qubitsのサブセットを含む最適に選択された実験から選択された状態を特定する確率は、状態のトレース距離によって与えられる。 熱力学的極限$N\to\infty$では、ランダムな純状態に対する平均的なサブシステムトレース距離は、測定されていない量子ビットの分数$f=N_B/N$が増加するにつれて、単位値から0への急激な第1次遷移を$f=1/2$とする。 有限個の量子ビットに対して対応するクロスオーバーを解析的に計算し、局所保存法則の存在によってどのように影響を受けるかを調べ、多体カオスに対するモデルの正確な対角化に対する予測を検証した。

We study two-state discrimination in chaotic quantum systems. Assuming that one of two $N$-qubit pure states has been randomly selected, the probability to correctly identify the selected state from an optimally chosen experiment involving a subset of $N-N_B$ qubits is given by the trace-distance of the states, with $N_B$ qubits partially traced out. In the thermodynamic limit $N\to\infty$, the average subsystem trace-distance for random pure states makes a sharp, first order transition from unity to zero at $f=1/2$, as the fraction $f=N_B/N$ of unmeasured qubits is increased. We analytically calculate the corresponding crossover for finite numbers $N$ of qubits, study how it is affected by the presence of local conservation laws, and test our predictions against exact diagonalization of models for many-body chaos.
翻訳日:2023-01-23 14:33:24 公開日:2022-10-06
# 分枝・分枝・分枝・分枝・木探索アルゴリズムのためのユニバーサル量子スピードアップ

Universal Quantum Speedup for Branch-and-Bound, Branch-and-Cut, and Tree-Search Algorithms ( http://arxiv.org/abs/2210.03210v1 )

ライセンス: Link先を確認
Shouvanik Chakrabarti, Pierre Minssen, Romina Yalovetzky, Marco Pistoia(参考訳) MIP(Mixed Integer Programs)は、コンピュータサイエンス、オペレーションリサーチ、ファイナンシャルエンジニアリングにおける多くの最適化問題をモデル化する。 MIPを解くことは一般にNP-Hardであるが、中間サイズの問題に対して最適に近い解を得ることに成功した。 分岐・切断アルゴリズムは、分岐・境界論理と切断平面ルーチンを組み合わせたもので、現代のmipソルバの核心にある。 モンタナロは、全ての最適解が要求される最悪の場合において、古典的分岐・境界アルゴリズムと比較して、極小に近い速度アップを持つ量子アルゴリズムを提案した。 しかし、実際には、準最適解は十分であり、木探索ヒューリスティックを利用して解木の一部のみを探索することで、古典的アルゴリズムは最悪の場合の保証よりもはるかに優れた性能を発揮する。 本稿では,各入力に対する古典的分岐・境界アルゴリズムに対する普遍的近似量子速度アップを持つ量子アルゴリズム,インクリメンタル量子分岐・境界アルゴリズム,すなわち,古典的分岐・境界アルゴリズムの複雑性が解深さ$d$となる場合,インクリメンタル量子分岐・境界は$\tilde{o}(\sqrt{q}d)$という計算量で同じ保証を提供する。 我々の結果は、深さベース、コストベース、および$A^{\ast}$ヒューリスティックスを含む、幅広い検索ヒューリスティックに有効である。 分枝木探索や加湿木探索にもユニバーサル・スピードアップが得られた。 我々のアルゴリズムは商用のMIPソルバと直接的に同等であり、$Q \gg d$ のときにほぼ2次スピードアップを保証する。 本稿では,Sherrington-Kirkpatrickモデル,Maximum Independent Set,Portfolio Optimizationの典型的な例に対する$Q \gg d$の数値シミュレーションを行い,入力サイズパラメータに対する$Q$の依存性を推定する。 これにより、これらの重要な問題に対する量子アルゴリズムの典型的な性能を予測できる。

Mixed Integer Programs (MIPs) model many optimization problems of interest in Computer Science, Operations Research, and Financial Engineering. Solving MIPs is NP-Hard in general, but several solvers have found success in obtaining near-optimal solutions for problems of intermediate size. Branch-and-Cut algorithms, which combine Branch-and-Bound logic with cutting-plane routines, are at the core of modern MIP solvers. Montanaro proposed a quantum algorithm with a near-quadratic speedup compared to classical Branch-and-Bound algorithms in the worst case, when every optimal solution is desired. In practice, however, a near-optimal solution is satisfactory, and by leveraging tree-search heuristics to search only a portion of the solution tree, classical algorithms can perform much better than the worst-case guarantee. In this paper, we propose a quantum algorithm, Incremental-Quantum-Branch-and-Bound, with universal near-quadratic speedup over classical Branch-and-Bound algorithms for every input, i.e., if classical Branch-and-Bound has complexity $Q$ on an instance that leads to solution depth $d$, Incremental-Quantum-Branch-and-Bound offers the same guarantees with a complexity of $\tilde{O}(\sqrt{Q}d)$. Our results are valid for a wide variety of search heuristics, including depth-based, cost-based, and $A^{\ast}$ heuristics. Universal speedups are also obtained for Branch-and-Cut as well as heuristic tree search. Our algorithms are directly comparable to commercial MIP solvers, and guarantee near quadratic speedup whenever $Q \gg d$. We use numerical simulation to verify that $Q \gg d$ for typical instances of the Sherrington-Kirkpatrick model, Maximum Independent Set, and Portfolio Optimization; as well as to extrapolate the dependence of $Q$ on input size parameters. This allows us to project the typical performance of our quantum algorithms for these important problems.
翻訳日:2023-01-23 14:33:03 公開日:2022-10-06
# 乱れたハイゼンベルク鎖における生成状態の再生

Reviving product states in the disordered Heisenberg chain ( http://arxiv.org/abs/2210.03153v1 )

ライセンス: Link先を確認
Henrik Wilming, Tobias J. Osborne, Kevin S.C. Decker, Christoph Karrasch(参考訳) 一般的な量子系が単純な初期条件で準備された場合、通常は熱アンサンブルによって記述できる状態に向かって平衡する。 既知の例外は、非エルゴードで熱化しない局所的なシステムであるが、局所的な可観測性は依然として定常化していると考えられている。 ここでは、全波動関数の周期的高忠実度再現と無期限に振動する局所可観測性を備えた積状態を構築して、この全体像が不完全であることを示す。 システムは平衡も熱化もしない。 これは多体傷による弱いエルゴード性破壊現象と類似しており、絡み合いエントロピーの対数的成長のような現在のMBL現象学の課題である。 我々の主張を支持するために、解析的議論と、乱れたハイゼンベルク連鎖に対する大規模テンソルネットワーク数値を組み合わせる。 実験結果は,機械精度まで160箇所のチェーンで任意に長時間継続した。

When a generic quantum system is prepared in a simple initial condition, it typically equilibrates toward a state that can be described by a thermal ensemble. A known exception are localized systems which are non-ergodic and do not thermalize, however local observables are still believed to become stationary. Here we demonstrate that this general picture is incomplete by constructing product states which feature periodic high-fidelity revivals of the full wavefunction and local observables that oscillate indefinitely. The system neither equilibrates nor thermalizes. This is analogous to the phenomenon of weak ergodicity breaking due to many-body scars and challenges aspects of the current MBL phenomenology, such as the logarithmic growth of the entanglement entropy. To support our claim, we combine analytic arguments with large-scale tensor network numerics for the disordered Heisenberg chain. Our results hold for arbitrarily long times in chains of 160 sites up to machine precision.
翻訳日:2023-01-23 14:32:20 公開日:2022-10-06
# 減圧真空によるダーク量子ダイマーの消散安定化

Dissipative stabilization of dark quantum dimers via squeezed vacuum ( http://arxiv.org/abs/2210.03141v1 )

ライセンス: Link先を確認
R. Guti\'errez-J\'auregui, A. Asenjo-Garcia, G. S. Agarwal(参考訳) オープン量子システムが情報を環境と交換するメカニズムを理解することは、量子状態の生成と安定化の中心である。 このテーマは最近探求され、主にシステム制御や環境工学に焦点を当てている。 ここで、これらのアイデアをまとめて、圧縮真空に結合した拡張原子配列の多体ダイナミクスを記述する。 揺らぎは、環境から切り離された純粋な暗黒状態へと配列を駆動することができることを示す。 暗い状態は偶数個の原子で得られ、圧縮された磁場の挙動を模倣する最大に絡み合った原子対(ダイマー)で構成される。 各ペアは1つの分極二次数のゆらぎを減少させ、別のペアで増幅する。 この散逸による安定化は、光子と原子の対の相関の効率的な移動に依存する。 圧縮光が原子配列を自己組織化させるメカニズムを解明し、多体効果が中心的な役割を果たす現代の量子技術において空間相関の重要性が増していることを示す。

Understanding the mechanism through which an open quantum system exchanges information with an environment is central to the creation and stabilization of quantum states. This theme has been explored recently, with attention mostly focused on system control or environment engineering. Here, we bring these ideas together to describe the many-body dynamics of an extended atomic array coupled to a squeezed vacuum. We show that fluctuations can drive the array into a pure dark state decoupled from the environment. The dark state is obtained for an even number of atoms and consists of maximally entangled atomic pairs, or dimers, that mimic the behavior of the squeezed field. Each pair displays reduced fluctuations in one polarization quadrature and amplified in another. This dissipation-induced stabilization relies on an efficient transfer of correlations between pairs of photons and atoms. It uncovers the mechanism through which squeezed light causes an atomic array to self-organize and illustrates the increasing importance of spatial correlations in modern quantum technologies where many-body effects play a central role.
翻訳日:2023-01-23 14:32:03 公開日:2022-10-06
# ガイド画像変換のためのマルチチャネル注意選択GAN

Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation ( http://arxiv.org/abs/2002.01048v2 )

ライセンス: Link先を確認
Hao Tang, Philip H.S. Torr, Nicu Sebe(参考訳) 本研究では,画像対画像変換のための多チャンネル注意選択生成逆ネットワーク(selectiongan)と呼ばれる新しいモデルを提案する。 提案したSelectionGANは意味指導情報を明示的に利用し,2段階からなる。 第1段階では、入力画像と条件付き意味ガイダンスをサイクル付き意味誘導生成ネットワークに供給し、初期粗い結果を生成する。 第2段階では,提案するマルチスケール空間プーリング・チャネル選択モジュールとマルチチャネルアテンション選択モジュールを用いて,初期結果を洗練する。 さらに、注意マップから自動的に学習される不確実性マップを用いて、ネットワーク最適化を改善するために画素損失を導出する。 顔,手,体,ストリートビューの4つの困難な画像間翻訳タスク(顔,手,体,ストリートビュー)に対する実験により,SelectionGANは最先端の手法よりもはるかに優れた結果が得られることが示された。 一方、提案するフレームワークとモジュールは統合されたソリューションであり、セマンティック画像合成などの他の世代課題に応用できる。 コードはhttps://github.com/ha0tang/selectionganで入手できる。

We propose a novel model named Multi-Channel Attention Selection Generative Adversarial Network (SelectionGAN) for guided image-to-image translation, where we translate an input image into another while respecting an external semantic guidance. The proposed SelectionGAN explicitly utilizes the semantic guidance information and consists of two stages. In the first stage, the input image and the conditional semantic guidance are fed into a cycled semantic-guided generation network to produce initial coarse results. In the second stage, we refine the initial results by using the proposed multi-scale spatial pooling & channel selection module and the multi-channel attention selection module. Moreover, uncertainty maps automatically learned from attention maps are used to guide the pixel loss for better network optimization. Exhaustive experiments on four challenging guided image-to-image translation tasks (face, hand, body, and street view) demonstrate that our SelectionGAN is able to generate significantly better results than the state-of-the-art methods. Meanwhile, the proposed framework and modules are unified solutions and can be applied to solve other generation tasks such as semantic image synthesis. The code is available at https://github.com/Ha0Tang/SelectionGAN.
翻訳日:2023-01-04 08:58:11 公開日:2022-10-06
# グローバル外観モデルを用いたスペクトル画像分割

Spectral Image Segmentation with Global Appearance Modeling ( http://arxiv.org/abs/2006.06573v2 )

ライセンス: Link先を確認
Jeova F. S. Rocha Neto and Pedro F. Felzenszwalb(参考訳) 本稿では,グローバル外観モデリングに長距離関係を組み込んだ画像分割のための新しいスペクトル法を提案する。 このアプローチは2つの異なるグラフを組み合わせており、1つは近くのピクセル間の空間的関係をキャプチャするスパースグラフであり、もう1つはすべてのピクセル間のペアの類似性をキャプチャする密度の高いグラフである。 各グラフに関連するマルコフ連鎖の遷移行列を組み合わせることにより、正規化カットのスペクトル法をこの設定に拡張する。 また,出現関係の密接なグラフを分離する効率的な手法を導出する。 これにより、高解像度画像のセグメンテーションが実用的なアルゴリズムとなる。 結果として得られる方法は、フィルタリングや前処理なしに、挑戦的な画像を分割することができる。

We introduce a new spectral method for image segmentation that incorporates long range relationships for global appearance modeling. The approach combines two different graphs, one is a sparse graph that captures spatial relationships between nearby pixels and another is a dense graph that captures pairwise similarity between all pairs of pixels. We extend the spectral method for Normalized Cuts to this setting by combining the transition matrices of Markov chains associated with each graph. We also derive an efficient method for sparsifying the dense graph of appearance relationships. This leads to a practical algorithm for segmenting high-resolution images. The resulting method can segment challenging images without any filtering or pre-processing.
翻訳日:2022-11-22 13:31:32 公開日:2022-10-06
# Bayesian Nonlocal Operator Regression (BNOR):不確実な量子化を伴う非局所モデルのデータ駆動学習フレームワーク

Bayesian Nonlocal Operator Regression (BNOR): A Data-Driven Learning Framework of Nonlocal Models with Uncertainty Quantification ( http://arxiv.org/abs/2211.01330v1 )

ライセンス: Link先を確認
Yiming Fan, Marta D'Elia, Yue Yu, Habib N. Najm, Stewart Silling(参考訳) マイクロスケールのダイナミクスと相互作用が地球規模の挙動に影響を及ぼす異種材料のモデリングの問題を考える。 材料のミクロ組織に異質性が存在する場合、材料応答の定量的なキャラクタリゼーションを提供するために、しばしば実用的でない。 本研究の目的は,非局所モデルを用いた材料応答予測における不確実性定量化(UQ)のためのベイズフレームワークを開発することである。 提案手法は非局所作用素回帰(NOR)手法とベイズ推定を組み合わせたものである。 具体的には、マルコフ連鎖モンテカルロ法(mcmc)を用いて、非局所構成則に関連するパラメータの後方確率分布と、高い忠実度計算に対する関連するモデリングの不一致をサンプリングする。 本研究では, ランダムに生成した構造を有する一次元不均質棒による応力波の伝播について考察する。 いくつかの数値実験は、非局所モデル予測におけるUQを可能にする構成を例示している。 非局所モデルは均質化のための一般的な手段となっているが、高忠実度モデルに対する統計的キャリブレーションは以前にも発表されていない。 この研究は、ホモジェナイゼーションの文脈における非局所モデル差の統計的特徴付けへの第一歩である。

We consider the problem of modeling heterogeneous materials where micro-scale dynamics and interactions affect global behavior. In the presence of heterogeneities in material microstructure it is often impractical, if not impossible, to provide quantitative characterization of material response. The goal of this work is to develop a Bayesian framework for uncertainty quantification (UQ) in material response prediction when using nonlocal models. Our approach combines the nonlocal operator regression (NOR) technique and Bayesian inference. Specifically, we use a Markov chain Monte Carlo (MCMC) method to sample the posterior probability distribution on parameters involved in the nonlocal constitutive law, and associated modeling discrepancies relative to higher fidelity computations. As an application, we consider the propagation of stress waves through a one-dimensional heterogeneous bar with randomly generated microstructure. Several numerical tests illustrate the construction, enabling UQ in nonlocal model predictions. Although nonlocal models have become popular means for homogenization, their statistical calibration with respect to high-fidelity models has not been presented before. This work is a first step towards statistical characterization of nonlocal model discrepancy in the context of homogenization.
翻訳日:2022-11-06 15:18:33 公開日:2022-10-06
# 消費支出予測への高周波気象データの導入

Incorporating High-Frequency Weather Data into Consumption Expenditure Predictions ( http://arxiv.org/abs/2211.01406v1 )

ライセンス: Link先を確認
Anders Christensen, Joel Ferguson, Sim\'on Ram\'irez Amaya(参考訳) 近年、衛星画像や他の非伝統的なデータソースを用いて、世界のデータ不足地域における福祉の正確なマッピングに成功している。 しかし、これまでの文献では、短期的な幸福の変動に比較的敏感な特定の福祉措置、資産指数の予測に焦点が当てられている。 消費支出などの揮発性福祉対策の予測は, 時間分解能の高いデータソースの導入による大きなメリットがあると考えられる。 日々の天気データをトレーニングや予測に取り入れることで、衛星画像のみを利用するモデルと比較して消費予測精度を著しく向上させる。

Recent efforts have been very successful in accurately mapping welfare in datasparse regions of the world using satellite imagery and other non-traditional data sources. However, the literature to date has focused on predicting a particular class of welfare measures, asset indices, which are relatively insensitive to short term fluctuations in well-being. We suggest that predicting more volatile welfare measures, such as consumption expenditure, substantially benefits from the incorporation of data sources with high temporal resolution. By incorporating daily weather data into training and prediction, we improve consumption prediction accuracy significantly compared to models that only utilize satellite imagery.
翻訳日:2022-11-06 15:18:14 公開日:2022-10-06
# 指標モデルを用いた人工知能科学生態系の創発的技術検出

Detecting Emerging Technologies in Artificial Intelligence Scientific Ecosystem Using an Indicator-based Model ( http://arxiv.org/abs/2211.01348v1 )

ライセンス: Link先を確認
Ali Ghaemmaghami, Andrea Schiffauerova, Ashkan Ebadi(参考訳) 創発的トピックの早期発見は、社会への潜在的な影響により、顕著に重要である。 新たな用語やトピックを検出する方法は数多くあり、いずれもメリットと欠点がある。 しかし、出現の属性や指標については意見の一致がない。 本研究では,人工知能の分野におけるトピック検出について,新たな手法を用いて評価する。 また, 論文情報と特許情報の両方を同時に利用するための, コラボレーションと技術的影響の2つの新たな属性を紹介する。 提案手法は,研究期間中に新たに出現するトピックの同定に有効であることが確認できた。 さらに,新たな手法により,各属性のスコアと最終出現スコアが提供され,その出現スコアと各属性スコアで新興トピックのランク付けが可能になる。

Early identification of emergent topics is of eminent importance due to their potential impacts on society. There are many methods for detecting emerging terms and topics, all with advantages and drawbacks. However, there is no consensus about the attributes and indicators of emergence. In this study, we evaluate emerging topic detection in the field of artificial intelligence using a new method to evaluate emergence. We also introduce two new attributes of collaboration and technological impact which can help us use both paper and patent information simultaneously. Our results confirm that the proposed new method can successfully identify the emerging topics in the period of the study. Moreover, this new method can provide us with the score of each attribute and a final emergence score, which enable us to rank the emerging topics with their emergence scores and each attribute score.
翻訳日:2022-11-06 15:12:39 公開日:2022-10-06
# デジタルアセット評価:ドメイン名、メールアドレス、NFTに関する研究

Digital Asset Valuation: A Study on Domain Names, Email Addresses, and NFTs ( http://arxiv.org/abs/2210.10637v1 )

ライセンス: Link先を確認
Kai Sun(参考訳) 既存のインターネット上のデジタル資産の評価作業は、通常は単一の資産クラスに焦点を当てている。 自動評価技術,好ましくは複数のアセットクラスに適用可能なものの開発を促進するために,古典的からブロックチェーンベースの複数のデジタルアセットクラスを対象とする,最初のデジタルアセット販売履歴データセットであるDASHを構築した。 ドメイン名の280Kトランザクション(DASH_DN)、メールアドレス(DASH_EA)、およびEthereum Name Service Name(DASH_NFT)のような非偽造トークン(DASH_NFT)ベースの識別子(DASH_NFT)で構成され、サブセットのDASH_DN、DASH_EA、DASH_NFTはそれぞれ識別子にフォーカスする最初のNFTトランザクションデータセットである。 DASHのベースラインとして,従来の機能ベースの強力なモデルを構築します。 次に,事前学習された言語モデルに基づく深層学習モデルについて検討する。 バニラの微調整モデルはすでに十分な性能を発揮しており、最高の性能のベースライン以外を上回ります。 さらに、モデルがトランザクションの時間的感度と資産の人気をより認識できるようにするための改善も提案する。 実験の結果,改善されたモデルはDASH上のすべてのアセットクラスにおいて,他のモデルよりも一貫して優れていた。

Existing works on valuing digital assets on the Internet typically focus on a single asset class. To promote the development of automated valuation techniques, preferably those that are generally applicable to multiple asset classes, we construct DASH, the first Digital Asset Sales History dataset that features multiple digital asset classes spanning from classical to blockchain-based ones. Consisting of 280K transactions of domain names (DASH_DN), email addresses (DASH_EA), and non-fungible token (NFT)-based identifiers (DASH_NFT), such as Ethereum Name Service names, DASH advances the field in several aspects: the subsets DASH_DN, DASH_EA, and DASH_NFT are the largest freely accessible domain name transaction dataset, the only publicly available email address transaction dataset, and the first NFT transaction dataset that focuses on identifiers, respectively. We build strong conventional feature-based models as the baselines for DASH. We next explore deep learning models based on fine-tuning pre-trained language models, which have not yet been explored for digital asset valuation in the previous literature. We find that the vanilla fine-tuned model already performs reasonably well, outperforming all but the best-performing baselines. We further propose improvements to make the model more aware of the time sensitivity of transactions and the popularity of assets. Experimental results show that our improved model consistently outperforms all the other models across all asset classes on DASH.
翻訳日:2022-10-30 12:17:17 公開日:2022-10-06
# fedcvt:クロスビュートレーニングによる半教師付き垂直フェデレーション学習

FedCVT: Semi-supervised Vertical Federated Learning with Cross-view Training ( http://arxiv.org/abs/2008.10838v2 )

ライセンス: Link先を確認
Yan Kang, Yang Liu, Xinle Liang(参考訳) フェデレートされた学習により、複数のパーティがデータを公開することなく、協調して機械学習モデルを構築することができる。 特に、垂直連合学習(VFL)により、参加者は、アライメントされたサンプルの分散特徴に基づいて、共同機械学習モデルを構築することができる。 しかしながら、VFLはすべての関係者に十分な量の一致したサンプルを共有することを要求する。 実際、アライメントされたサンプルの集合は小さくなり、非アライメントされたデータの大部分は使われないままである。 本稿では,準教師付き学習手法であるfederated cross-view training (fedcvt)を提案する。 具体的には、feedcvtは欠落した特徴の表現を推定し、ラベルのないサンプルの擬似ラベルを予測してトレーニングセットを拡大し、vflモデルの性能を改善するために拡張トレーニングセットの異なるビューに基づいて3つの分類器を共同で訓練する。 FedCVTは独自のデータとモデルパラメータを共有する必要はなく、データのプライバシを保存する。 NUS-WIDE, Vehicle, CIFAR10データセットについて実験を行った。 実験の結果,FedCVTはアライメント標本のみを利用するバニラVFLよりも優れていた。 最後に,FedCVTの各成分がFedCVTの性能に与える影響について,アブレーション研究を行った。

Federated learning allows multiple parties to build machine learning models collaboratively without exposing data. In particular, vertical federated learning (VFL) enables participating parties to build a joint machine learning model based upon distributed features of aligned samples. However, VFL requires all parties to share a sufficient amount of aligned samples. In reality, the set of aligned samples may be small, leaving the majority of the non-aligned data unused. In this article, we propose Federated Cross-view Training (FedCVT), a semi-supervised learning approach that improves the performance of the VFL model with limited aligned samples. More specifically, FedCVT estimates representations for missing features, predicts pseudo-labels for unlabeled samples to expand the training set, and trains three classifiers jointly based upon different views of the expanded training set to improve the VFL model's performance. FedCVT does not require parties to share their original data and model parameters, thus preserving data privacy. We conduct experiments on NUS-WIDE, Vehicle, and CIFAR10 datasets. The experimental results demonstrate that FedCVT significantly outperforms vanilla VFL that only utilizes aligned samples. Finally, we perform ablation studies to investigate the contribution of each component of FedCVT to the performance of FedCVT.
翻訳日:2022-10-25 03:08:38 公開日:2022-10-06
# 複雑問題解決のための知識追跡:粒度に基づくテンソル因子化

Knowledge Tracing for Complex Problem Solving: Granular Rank-Based Tensor Factorization ( http://arxiv.org/abs/2210.09013v1 )

ライセンス: Link先を確認
Chunpai Wang, Shaghayegh Sahebi, Siqian Zhao, Peter Brusilovsky, Laura O. Moraes(参考訳) 学生の知識レベルをモデル化し,その性能を予測することを目的とした知識追跡(KT)は,ユーザモデリングの最も重要な応用の1つである。 近代的なKTは、問題の試行において、学生の歴史的業績に従って、一連のコース概念をモデル化し、最新の学生知識の状態を維持する。 しかし、KTアプローチは知能学習システムにおいて比較的小さな問題解決ステップを観察することで知識をモデル化するために設計された。 これらのアプローチは、単純な問題に対する生徒のソリューションを観察することで、学生の知識をモデル化するためにうまく適用されているが、学生の複雑な問題解決をモデル化するにはうまく機能しない。 本稿では,すべての試みが学生の知識状態の発見に同等に重要であるわけではなく,学生のパフォーマンスをより良く表現するために,いくつかの試みをまとめて考えることができる。 本稿では,問題における生徒のパフォーマンスを予測し,それらに提示される概念を探索しながら,動的に集約可能な学生試みを選択する,新しい学生知識追跡手法であるGranular RAnkベースのTEnsor Factorization(GRATE)を提案する。 実世界の3つのデータセットを用いた実験は,学生のパフォーマンス予測タスクにおいて,最先端のベースラインと比較してgrateの性能が向上することを示す。 さらに,学生が発見した知識状態から不必要なゆらぎを取り除き,問題における複雑な潜在概念の発見に寄与することを示す。

Knowledge Tracing (KT), which aims to model student knowledge level and predict their performance, is one of the most important applications of user modeling. Modern KT approaches model and maintain an up-to-date state of student knowledge over a set of course concepts according to students' historical performance in attempting the problems. However, KT approaches were designed to model knowledge by observing relatively small problem-solving steps in Intelligent Tutoring Systems. While these approaches were applied successfully to model student knowledge by observing student solutions for simple problems, they do not perform well for modeling complex problem solving in students.M ost importantly, current models assume that all problem attempts are equally valuable in quantifying current student knowledge.However, for complex problems that involve many concepts at the same time, this assumption is deficient. In this paper, we argue that not all attempts are equivalently important in discovering students' knowledge state, and some attempts can be summarized together to better represent student performance. We propose a novel student knowledge tracing approach, Granular RAnk based TEnsor factorization (GRATE), that dynamically selects student attempts that can be aggregated while predicting students' performance in problems and discovering the concepts presented in them. Our experiments on three real-world datasets demonstrate the improved performance of GRATE, compared to the state-of-the-art baselines, in the task of student performance prediction. Our further analysis shows that attempt aggregation eliminates the unnecessary fluctuations from students' discovered knowledge states and helps in discovering complex latent concepts in the problems.
翻訳日:2022-10-23 20:35:53 公開日:2022-10-06
# 強化学習に基づくデジタルヒューマン対話型推薦意思決定

Digital Human Interactive Recommendation Decision-Making Based on Reinforcement Learning ( http://arxiv.org/abs/2210.10638v1 )

ライセンス: Link先を確認
Junwu Xiong (AntGroup)(参考訳) デジタルヒューマンレコメンデーションシステムは、顧客がお気に入りの製品を見つけるのを助けるために開発されており、様々なレコメンデーションコンテキストでアクティブな役割を果たす。 適切なタイミングで顧客の好みをキャッチして学習し、顧客の正確な要求を満たすには、デジタルヒューマンレコメンデーションにおいて不可欠となる。 本研究では,デジタルヒューマン特徴と強化学習の優位性を両立し,インタラクティブな推薦意思決定の効率を向上させるために,強化学習に基づく新しい実践的デジタル人間対話型推薦エージェントフレームワークを設計した。 提案するフレームワークは,デジタル人間と顧客との直接的インタラクションを,stat-of-art強化学習アルゴリズムとマルチモーダルおよびグラフ埋め込みにより動的に学習し,パーソナライゼーションの精度を向上させる。 実際のビジネスデータの実験は、このフレームワークがより良い個人化された顧客エンゲージメントとより良い顧客エクスペリエンスを提供することができることを示している。

Digital human recommendation system has been developed to help customers to find their favorite products and is playing an active role in various recommendation contexts. How to catch and learn the preferences of the customers at the right time and meet the exact requirements of the customer become crucial in the digital human recommendation. We design a novel practical digital human interactive recommendation agent framework based on reinforcement learning to improve the efficiency of interactive recommendation decision-making by leveraging both the digital human features and the superiority of reinforcement learning. The proposed framework learns through immediate interactions among the digital human and customers dynamically through stat-of-art reinforcement learning algorithms and embedding with multimodal and graph embedding to improve the accuracy of the personalization and thus enable the digital human agent to actively catch the attention of a customer timely. Experiments on real business data show that this framework can provide better-personalized customer engagement and better customer experiences etc.
翻訳日:2022-10-23 20:35:09 公開日:2022-10-06
# 複数疾患の高スループットスクリーニングのためのECG:集団データを用いた多変量深層学習による概念実証

ECG for high-throughput screening of multiple diseases: Proof-of-concept using multi-diagnosis deep learning from population-based datasets ( http://arxiv.org/abs/2210.06291v1 )

ライセンス: Link先を確認
Weijie Sun, Sunil Vasu Kalmady, Amir Salimi, Nariman Sepehrvand, Eric Ly, Abram Hindle, Russell Greiner, Padma Kaul(参考訳) 心電図(ECG)の異常は心血管疾患と関連しているが、心疾患、神経疾患、代謝疾患、感染症などの他の非心血管疾患でも発生することがある。 しかし,近年の患者コホートにおける深層学習(DL)による診断は,心臓疾患の小さなセットに限られている。 本研究は,1000例以上の医療疾患と200万例の心電図を用いた人口ベースデータセットを用いて,最初の院内心電図と正確に診断できる広範囲の疾患を同定した。 DLモデルでは128の疾患と68の疾患カテゴリーが同定された。

Electrocardiogram (ECG) abnormalities are linked to cardiovascular diseases, but may also occur in other non-cardiovascular conditions such as mental, neurological, metabolic and infectious conditions. However, most of the recent success of deep learning (DL) based diagnostic predictions in selected patient cohorts have been limited to a small set of cardiac diseases. In this study, we use a population-based dataset of >250,000 patients with >1000 medical conditions and >2 million ECGs to identify a wide range of diseases that could be accurately diagnosed from the patient's first in-hospital ECG. Our DL models uncovered 128 diseases and 68 disease categories with strong discriminative performance.
翻訳日:2022-10-16 16:12:20 公開日:2022-10-06
# リガンド系医薬品設計のための3次元分子の等変形状合成

Equivariant Shape-Conditioned Generation of 3D Molecules for Ligand-Based Drug Design ( http://arxiv.org/abs/2210.04893v1 )

ライセンス: Link先を確認
Keir Adams and Connor W. Coley(参考訳) 形状に基づく仮想スクリーニングは、既知の配位子と比較して新しい2次元化学構造を持つ3次元形状を持つ分子の化学ライブラリーを探索するために、リガンドベースの薬物設計に広く用いられている。 3D深部生成モデルは、この形状条件の3D化学空間の探索を自動化する可能性があるが、既成のモデルでは、既知の結合ポーズのような特定の形状を採用するコンフォーメーションにおいて有効な薬物様分子を確実に生成することはできない。 本稿では,分子形状を等変エンコードし,化学同一性を変分エンコードすることで形状条件付き3次元分子設計を可能にする,新しいマルチモーダル3次元生成モデルを提案する。 我々は, 自己回帰的フラグメントベース生成とヒューリスティック結合ジオメトリーを用いて生成分子の局所的な幾何学的, 化学的妥当性を保証し, 成長するコンフォメーション構造とターゲット形状との整合性を最優先する。 我々は, 分子構造の形状条件生成や分子特性の最適化など, 薬物設計に関わる課題において, 3次元生成モデルを評価し, 列挙されたライブラリの仮想スクリーニングよりも有用であることを実証した。

Shape-based virtual screening is widely employed in ligand-based drug design to search chemical libraries for molecules with similar 3D shapes yet novel 2D chemical structures compared to known ligands. 3D deep generative models have the potential to automate this exploration of shape-conditioned 3D chemical space; however, no existing models can reliably generate valid drug-like molecules in conformations that adopt a specific shape such as a known binding pose. We introduce a new multimodal 3D generative model that enables shape-conditioned 3D molecular design by equivariantly encoding molecular shape and variationally encoding chemical identity. We ensure local geometric and chemical validity of generated molecules by using autoregressive fragment-based generation with heuristic bonding geometries, allowing the model to prioritize the scoring of rotatable bonds to best align the growing conformational structure to the target shape. We evaluate our 3D generative model in tasks relevant to drug design including shape-conditioned generation of chemically diverse molecular structures and shape-constrained molecular property optimization, demonstrating its utility over virtual screening of enumerated libraries.
翻訳日:2022-10-16 16:10:58 公開日:2022-10-06
# 構造予測付きドメイン特化語埋め込み

Domain-Specific Word Embeddings with Structure Prediction ( http://arxiv.org/abs/2210.04962v1 )

ライセンス: Link先を確認
Stephanie Brandl and David Lassner and Anne Baillot and Shinichi Nakajima(参考訳) 優れた一般的な単語埋め込みを見つけるのと相補的に、表現学習にとって重要な質問は、例えば時間や領域にまたがる動的単語埋め込みを見つけることである。 現在の手法では、サブコーパス、時間、ドメイン、動的埋め込みの間の構造に関する情報の使用や予測は、アライメント後にのみ比較できない。 本稿では,コーパス全体の汎用表現,サブコーパス毎のドメイン固有表現,サブコーパス構造,埋め込みアライメントを同時に提供する新しい単語埋め込み手法を提案する。 ニューヨーク・タイムズの記事と2つの英語のウィキペディアデータセットに科学と哲学に関する記事を載せた実証的な評価を提示する。 提案手法はword2vec with structure prediction (w2vpred) と呼ばれ,一般アナロジーテスト,ドメイン固有アナロジーテスト,複数単語埋め込み評価,事前構造が与えられていない場合の構造予測性能などの点で,ベースラインよりも優れた性能を提供する。 デジタル人文科学の分野でのユースケースとして、ドイツ語テキストアーカイブからハイ文学のための新しい研究課題を提起する方法を実証する。

Complementary to finding good general word embeddings, an important question for representation learning is to find dynamic word embeddings, e.g., across time or domain. Current methods do not offer a way to use or predict information on structure between sub-corpora, time or domain and dynamic embeddings can only be compared after post-alignment. We propose novel word embedding methods that provide general word representations for the whole corpus, domain-specific representations for each sub-corpus, sub-corpus structure, and embedding alignment simultaneously. We present an empirical evaluation on New York Times articles and two English Wikipedia datasets with articles on science and philosophy. Our method, called Word2Vec with Structure Prediction (W2VPred), provides better performance than baselines in terms of the general analogy tests, domain-specific analogy tests, and multiple specific word embedding evaluations as well as structure prediction performance when no structure is given a priori. As a use case in the field of Digital Humanities we demonstrate how to raise novel research questions for high literature from the German Text Archive.
翻訳日:2022-10-16 16:02:51 公開日:2022-10-06
# 拡散モデルを用いた新しい視点合成

Novel View Synthesis with Diffusion Models ( http://arxiv.org/abs/2210.04628v1 )

ライセンス: Link先を確認
Daniel Watson, William Chan, Ricardo Martin-Brualla, Jonathan Ho, Andrea Tagliasacchi, Mohammad Norouzi(参考訳) 本稿では,3次元新規ビュー合成のための拡散モデルである3DiMについて述べる。 3DiMのコアコンポーネントは、ソースビューとそのポーズを入力として、ターゲットポーズの新たなビューを出力として生成する、ポーズ条件のイメージ・ツー・イメージ拡散モデルである。 3DiMは、確率条件付けと呼ばれる新しい技術を用いて、複数の3D一貫性のあるビューを生成することができる。 出力ビューは自己回帰的に生成され、各新規ビューの生成中に、各装飾ステップで利用可能なビューのセットからランダムな条件付けビューを選択する。 確率的条件付けにより,画像から画像への拡散モデルに対するナイーブ・サンプラーの3次元一貫性が大幅に向上することを示す。 3DiMとSRN ShapeNetデータセットの先行研究を比較し、単一のビューから生成された3DiMの完成度が約3D一貫性を保ちながら、はるかに高い忠実性を実現することを示した。 また,ニューラルフィールドをモデルの出力ビューにトレーニングすることにより,生成されたオブジェクトの3次元一貫性を測定するための新しい評価手法である3次元一貫性スコア法を提案する。 3DiMは幾何学的自由であり、新しいビュー合成のためにハイパーネットやテストタイムの最適化を頼らず、単一のモデルを多数のシーンに容易にスケールすることができる。

We present 3DiM, a diffusion model for 3D novel view synthesis, which is able to translate a single input view into consistent and sharp completions across many views. The core component of 3DiM is a pose-conditional image-to-image diffusion model, which takes a source view and its pose as inputs, and generates a novel view for a target pose as output. 3DiM can generate multiple views that are 3D consistent using a novel technique called stochastic conditioning. The output views are generated autoregressively, and during the generation of each novel view, one selects a random conditioning view from the set of available views at each denoising step. We demonstrate that stochastic conditioning significantly improves the 3D consistency of a naive sampler for an image-to-image diffusion model, which involves conditioning on a single fixed view. We compare 3DiM to prior work on the SRN ShapeNet dataset, demonstrating that 3DiM's generated completions from a single view achieve much higher fidelity, while being approximately 3D consistent. We also introduce a new evaluation methodology, 3D consistency scoring, to measure the 3D consistency of a generated object by training a neural field on the model's output views. 3DiM is geometry free, does not rely on hyper-networks or test-time optimization for novel view synthesis, and allows a single model to easily scale to a large number of scenes.
翻訳日:2022-10-11 16:19:37 公開日:2022-10-06
# 小児の細胞障害性浮腫に対する深層学習混合アプローチ

Deep Learning Mixture-of-Experts Approach for Cytotoxic Edema Assessment in Infants and Children ( http://arxiv.org/abs/2210.04767v1 )

ライセンス: Link先を確認
Henok Ghebrechristos, Stence Nicholas, David Mirsky, Gita Alaghband, Manh Huynh, Zackary Kromer, Ligia Batista, Brent ONeill, Steven Moulton, Daniel M.Lindberg(参考訳) 本稿では,小児の細胞毒性浮腫 (CE) 診断における画像分類のための深層学習フレームワークを提案する。 提案フレームワークは、2種類の臨床MRIデータから学習するために最適化された2つの3次元ネットワークアーキテクチャ、トレース拡散強調画像(DWI)と計算されたApparent Diffusion Coefficient Map(ADC)を含む。 本研究は,3次元画像の体積解析(時間スライスからの画素を用いた)と3次元畳み込みニューラルネットワーク(CNN)モデルに基づく,堅牢で斬新な解を提案する。 アーキテクチャは単純だが,提案するフレームワークはドメイン問題に対して重要な定量的結果を示す。 小児病院コロラド (CHCO) 患者登録簿から収集したデータセットを用いて, CEを伴わない重度神経障害児とCEを区別するための予測性能F1スコア0.91を報告した。 さらに, 虐待性頭部外傷(AHT), 虐待に伴う外傷性脳損傷(TBI)の種類, 機能的アウトカム, 小児・小児の病院死亡率など, CEと外傷性頭部外傷(AHT)との関連を判定するために, システム出力の分析を行った。 AHT診断と機能的ステータス尺度(FSS)スコアの2つの臨床変数を用いて,CEが総合的な結果と高い相関性を示し,CEがAHTのバイオマーカーであるか否かを判断するためにはさらなる研究が必要であるという結論に達した。 そこで本研究では,CEの自動分類のための,シンプルながら強力なディープラーニングベースのソリューションを提案する。 このソリューションはまた、CEの進行とAHTとの相関の深い分析を可能にし、その結果、子どもの人生の初期段階において専門家がAHTを診断し緩和する可能性がある。

This paper presents a deep learning framework for image classification aimed at increasing predictive performance for Cytotoxic Edema (CE) diagnosis in infants and children. The proposed framework includes two 3D network architectures optimized to learn from two types of clinical MRI data , a trace Diffusion Weighted Image (DWI) and the calculated Apparent Diffusion Coefficient map (ADC). This work proposes a robust and novel solution based on volumetric analysis of 3D images (using pixels from time slices) and 3D convolutional neural network (CNN) models. While simple in architecture, the proposed framework shows significant quantitative results on the domain problem. We use a dataset curated from a Childrens Hospital Colorado (CHCO) patient registry to report a predictive performance F1 score of 0.91 at distinguishing CE patients from children with severe neurologic injury without CE. In addition, we perform analysis of our systems output to determine the association of CE with Abusive Head Trauma (AHT) , a type of traumatic brain injury (TBI) associated with abuse , and overall functional outcome and in hospital mortality of infants and young children. We used two clinical variables, AHT diagnosis and Functional Status Scale (FSS) score, to arrive at the conclusion that CE is highly correlated with overall outcome and that further study is needed to determine whether CE is a biomarker of AHT. With that, this paper introduces a simple yet powerful deep learning based solution for automated CE classification. This solution also enables an indepth analysis of progression of CE and its correlation to AHT and overall neurologic outcome, which in turn has the potential to empower experts to diagnose and mitigate AHT during early stages of a childs life.
翻訳日:2022-10-11 16:19:13 公開日:2022-10-06
# CBCTスキャンにおける下顎管分割のための2段階重み付き注意型畳み込みニューラルネットワーク

Dual-Stage Deeply Supervised Attention-based Convolutional Neural Networks for Mandibular Canal Segmentation in CBCT Scans ( http://arxiv.org/abs/2210.03739v1 )

ライセンス: Link先を確認
Azka Rehman, Muhammad Usman, Rabeea Jawaid, Shi Sub Byon, Sung Hyun Kim, Byoung Dai Lee, Byung il Lee and Yeong Gil Shin(参考訳) 下顎管の正確なセグメント化は歯科インプラント学において重要であり, インプラント位置と寸法は現在, 3次元CT画像から手動で決定されており, 口腔内の下顎神経の損傷を回避している。 本稿では,下顎管の自動検出のための新しい2段階深層学習手法を提案する。 特に, 下顎管の視認性を向上する新しいヒストグラムを用いた動的ウィンドウリング法を用いて, CBCTスキャンの強化を行った。 拡張後, 下顎管内(左右の管内)を含む関心量(VOI)を局在させるために, 3次元の注意点U-Netアーキテクチャを設計した。 最後に,マルチスケール入力残差U-Netアーキテクチャ(MS-R-UNet)を用いて下顎管を正確に分割した。 提案手法は500のスキャンで厳密に評価され,本手法はセグメンテーション性能およびロバスト性の観点から,既存の最先端手法を実行することを示す。

Accurate segmentation of mandibular canals in lower jaws is important in dental implantology, in which the implant position and dimensions are currently determined manually from 3D CT images by medical experts to avoid damaging the mandibular nerve inside the canal. In this paper, we propose a novel dual-stage deep learning based scheme for automatic detection of mandibular canal. Particularly, we first we enhance the CBCT scans by employing the novel histogram-based dynamic windowing scheme which improves the visibility of mandibular canals. After enhancement, we design 3D deeply supervised attention U-Net architecture for localize the volume of interest (VOI) which contains the mandibular canals (i.e., left and right canals). Finally, we employed the multi-scale input residual U-Net architecture (MS-R-UNet) to accurately segment the mandibular canals. The proposed method has been rigorously evaluated on 500 scans and results demonstrate that our technique out performs the existing state-of-the-art methods in term of segmentation performance as well as robustness.
翻訳日:2022-10-11 15:41:16 公開日:2022-10-06
# 深層ネットワークにおける多感覚統合のための臨界学習期間

Critical Learning Periods for Multisensory Integration in Deep Networks ( http://arxiv.org/abs/2210.04643v1 )

ライセンス: Link先を確認
Michael Kleinman, Alessandro Achille, Stefano Soatto(参考訳) ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階に適切に相関した信号に晒されることに批判的になる。 この初期段階での学習プロセスへの干渉は、この現象が臨界学習期間として知られる人工システムと生物学的システムの両方において、スキルの発達を永久に損なう可能性がある。 臨界周期は、訓練されたシステムの最終性能とその学習された表現を決定づける、複雑で不安定な初期過渡ダイナミクスから生じる。 この証拠は、広いネットワークと浅いネットワークの分析によって引き起こされる、ニューラルネットワークの早期学習ダイナミクスが線形モデルに類似した単純なものであるという見解に挑戦している。 実際,深層線形ネットワークでさえ,浅層ネットワークがそうでないにもかかわらず,マルチソース統合において重要な学習期間を示すことを示す。 障害や感覚障害に応じて内部表現がどのように変化するかをよりよく理解するために、トレーニング中のソースの抑制と統合を追跡できる新たなソース感度尺度を導入する。 本研究は, クロスソース・コンストラクションを自然な補助訓練対象とし, クロスセンサ・コンストラクションを訓練した建築は, 臨界期に対する耐性が著しく高いことを示すものである。 近年の自己指導型マルチモーダルトレーニングの成功は,より堅牢な学習のダイナミクスと,より優れたアーキテクチャやデータによってのみ実現されている可能性がある。

We show that the ability of a neural network to integrate information from diverse sources hinges critically on being exposed to properly correlated signals during the early phases of training. Interfering with the learning process during this initial stage can permanently impair the development of a skill, both in artificial and biological systems where the phenomenon is known as critical learning period. We show that critical periods arise from the complex and unstable early transient dynamics, which are decisive of final performance of the trained system and their learned representations. This evidence challenges the view, engendered by analysis of wide and shallow networks, that early learning dynamics of neural networks are simple, akin to those of a linear model. Indeed, we show that even deep linear networks exhibit critical learning periods for multi-source integration, while shallow networks do not. To better understand how the internal representations change according to disturbances or sensory deficits, we introduce a new measure of source sensitivity, which allows us to track the inhibition and integration of sources during training. Our analysis of inhibition suggests cross-source reconstruction as a natural auxiliary training objective, and indeed we show that architectures trained with cross-sensor reconstruction objectives are remarkably more resilient to critical periods. Our findings suggest that the recent success in self-supervised multi-modal training compared to previous supervised efforts may be in part due to more robust learning dynamics and not solely due to better architectures and/or more data.
翻訳日:2022-10-11 14:23:32 公開日:2022-10-06
# カプセル型ニューラルネットワークによる単一画像超解像

Single Image Super-Resolution Based on Capsule Neural Networks ( http://arxiv.org/abs/2210.03743v1 )

ライセンス: Link先を確認
George Corr\^ea de Ara\'ujo, Helio Pedrini(参考訳) SISR(Single Image Super- resolution)は、単位面積当たりのピクセル数を増やすことにより、低解像度画像の高解像度バージョンを得る過程である。 この手法は, 空中・衛星画像から圧縮画像, 映像強調に至るまで, 適用可能な現実世界の様々な問題に対して, 研究コミュニティから積極的に研究されている。 この分野におけるディープラーニングによって達成された改善にもかかわらず、使用済みネットワークの大部分は従来の畳み込みに基づいている。 本研究では,従来の畳み込みから脱却し,カプセルの概念を採用することを決定した。 画像分類とセグメンテーション問題の両方において圧倒的な結果が得られているため,sisrにどの程度適しているか疑問視する。 また、異なるソリューションが構成の大部分を共有していることを検証するとともに、この傾向がネットワーク多様体の探索を少なくすると主張している。 実験では、新しい異なる損失機能からカプセル層の変化まで、様々な戦略をチェックして結果を改善する。 我々のネットワークは、畳み込みベースの層が少なくて良い結果を得たので、カプセルは画像超解像問題に適用する価値のある概念である可能性が示唆された。

Single image super-resolution (SISR) is the process of obtaining one high-resolution version of a low-resolution image by increasing the number of pixels per unit area. This method has been actively investigated by the research community, due to the wide variety of real-world problems where it can be applied, from aerial and satellite imaging to compressed image and video enhancement. Despite the improvements achieved by deep learning in the field, the vast majority of the used networks are based on traditional convolutions, with the solutions focusing on going deeper and/or wider, and innovations coming from jointly employing successful concepts from other fields. In this work, we decided to step up from the traditional convolutions and adopt the concept of capsules. Since their overwhelming results both in image classification and segmentation problems, we question how suitable they are for SISR. We also verify that different solutions share most of their configurations, and argue that this trend leads to fewer explorations of network varieties. During our experiments, we check various strategies to improve results, ranging from new and different loss functions to changes in the capsule layers. Our network achieved good results with fewer convolutional-based layers, showing that capsules might be a concept worth applying in the image super-resolution problem.
翻訳日:2022-10-11 14:22:54 公開日:2022-10-06
# 最適軌道に関する情報の計画による探索

Exploration via Planning for Information about the Optimal Trajectory ( http://arxiv.org/abs/2210.04642v1 )

ライセンス: Link先を確認
Viraj Mehta and Ian Char and Joseph Abbate and Rory Conlin and Mark D. Boyer and Stefano Ermon and Jeff Schneider and Willie Neiswanger(参考訳) 強化学習 (RL) の潜在的な応用は、効果的な政策を学ぶのに必要なサンプルが多々あることによる。 科学やロボティクスなどの実世界の制御タスクにRLを適用する場合、環境におけるポリシーの実行はコストがかかる。 一般的なRLアルゴリズムでは、エージェントは典型的には報酬最大化ポリシーに確率性を加えるか、与えられたタスクを考慮せずに環境力学に関する最大情報を収集しようとする。 そこで本研究では,タスクとダイナミクスに関する現在の知識の両方を考慮に入れながら,探索を計画できる手法を開発した。 提案手法の主な洞察は,タスクの最適軌道に関する期待情報を最大化するためのアクションシーケンスを計画することである。 本手法は,オープンループとクローズドループの制御設定において,多種多様な低-中次元制御タスクにおいて,強力な探索ベースラインよりも2倍,モデルフリーメソッドより200倍少ないサンプルで強力なポリシーを学習できることを実証する。

Many potential applications of reinforcement learning (RL) are stymied by the large numbers of samples required to learn an effective policy. This is especially true when applying RL to real-world control tasks, e.g. in the sciences or robotics, where executing a policy in the environment is costly. In popular RL algorithms, agents typically explore either by adding stochasticity to a reward-maximizing policy or by attempting to gather maximal information about environment dynamics without taking the given task into account. In this work, we develop a method that allows us to plan for exploration while taking both the task and the current knowledge about the dynamics into account. The key insight to our approach is to plan an action sequence that maximizes the expected information gain about the optimal trajectory for the task at hand. We demonstrate that our method learns strong policies with 2x fewer samples than strong exploration baselines and 200x fewer samples than model free methods on a diverse set of low-to-medium dimensional control tasks in both the open-loop and closed-loop control settings.
翻訳日:2022-10-11 14:11:25 公開日:2022-10-06
# HetSyn: 異種同期による局所SGDの高速化

HetSyn: Speeding Up Local SGD with Heterogeneous Synchronization ( http://arxiv.org/abs/2210.03521v1 )

ライセンス: Link先を確認
Feng Zhu, Jingjing Zhang and Xin Wang(参考訳) 同期的な局所確率勾配降下(ローカルSGD)は、労働者が同じ局所的な更新を完了するのを待つため、一部の労働者がアイドル状態とランダムな遅延に悩まされる。 本稿では,ストラグラーを緩和し,通信効率を向上させるため,HetSynという新たなローカルSGD戦略を開発した。 キーポイントは、すべてのワーカーが各同期ラウンドで継続的に計算し続け、ストラグラーに関係なく、各ワーカーの効果的な(完了した)ローカルアップデートをフル活用することである。 HetSynの性能を評価するため,壁面平均時間,局部平均更新数,1ラウンドあたりアップロード人員数の解析を行った。 HetSynの収束は、目的関数が凸でない場合でも厳密に確立される。 実験結果から, 作業者毎の局所的更新を有効活用することにより, 提案手法に対するHetSynの優位性を示し, システムパラメータの影響について検討した。 ワーカー間で異なるローカル更新数で異種同期を可能にすることで、HetSynは時間と通信効率の両方で大幅に改善される。

Synchronous local stochastic gradient descent (local SGD) suffers from some workers being idle and random delays due to slow and straggling workers, as it waits for the workers to complete the same amount of local updates. In this paper, to mitigate stragglers and improve communication efficiency, a novel local SGD strategy, named HetSyn, is developed. The key point is to keep all the workers computing continually at each synchronization round, and make full use of any effective (completed) local update of each worker regardless of stragglers. An analysis of the average wall-clock time, average number of local updates and average number of uploading workers per round is provided to gauge the performance of HetSyn. The convergence of HetSyn is also rigorously established even when the objective function is nonconvex. Experimental results show the superiority of the proposed HetSyn against state-of-the-art schemes through utilization of additional effective local updates at each worker, and the influence of system parameters is studied. By allowing heterogeneous synchronization with different numbers of local updates across workers, HetSyn provides substantial improvements both in time and communication efficiency.
翻訳日:2022-10-10 15:18:14 公開日:2022-10-06
# lgtbids:beyond 5gにおける層状グラフ理論に基づく侵入検出システム

LGTBIDS: Layer-wise Graph Theory Based Intrusion Detection System in Beyond 5G ( http://arxiv.org/abs/2210.03518v1 )

ライセンス: Link先を確認
Misbah Shafi, Rakesh Kumar Jha, Sanjeev Jain(参考訳) 無線通信技術の進歩はますます需要を増し、普及しつつある。 ネットワークの効率を制限する基本的なパラメータの1つは、セキュリティ上の課題である。 通信ネットワークは、スプーフィング攻撃や信号強度攻撃などのセキュリティ攻撃に対して脆弱である。 侵入検知は、通信ネットワークのセキュリティを確保するための中心的なアプローチを示す。 本稿では,グラフ理論の枠組みに基づく侵入検知システムを提案する。 layerwise graph theory-based intrusion detection system (lgtbids) アルゴリズムは攻撃されたノードを検出するために設計されている。 このアルゴリズムは、脆弱なノードと最終的に攻撃されたノードを抽出するために層別分析を実行する。 各層について、各ノードは感受性のあるノード(s)の可能性をスキャンする。 IDSの戦略は、エネルギー効率と機密率の分析に基づいている。 攻撃対象ノードとして、上閾値及び下閾値の範囲を超えたエネルギー効率及び秘密率のノードを検出する。 さらに、検出されたノードはランダムなビット列で送信され、その後再認証される。 得られた結果は、優れた性能、低時間計算、低複雑性を検証する。 最後に,提案手法を従来の侵入検出法と比較した。

The advancement in wireless communication technologies is becoming more demanding and pervasive. One of the fundamental parameters that limit the efficiency of the network are the security challenges. The communication network is vulnerable to security attacks such as spoofing attacks and signal strength attacks. Intrusion detection signifies a central approach to ensuring the security of the communication network. In this paper, an Intrusion Detection System based on the framework of graph theory is proposed. A Layerwise Graph Theory-Based Intrusion Detection System (LGTBIDS) algorithm is designed to detect the attacked node. The algorithm performs the layer-wise analysis to extract the vulnerable nodes and ultimately the attacked node(s). For each layer, every node is scanned for the possibility of susceptible node(s). The strategy of the IDS is based on the analysis of energy efficiency and secrecy rate. The nodes with the energy efficiency and secrecy rate beyond the range of upper and lower thresholds are detected as the nodes under attack. Further, detected node(s) are transmitted with a random sequence of bits followed by the process of re-authentication. The obtained results validate the better performance, low time computations, and low complexity. Finally, the proposed approach is compared with the conventional solution of intrusion detection.
翻訳日:2022-10-10 15:12:33 公開日:2022-10-06
# 飛行機事故からアルゴリズム的被害へ:責任あるMLのための安全工学フレームワークの適用性

From plane crashes to algorithmic harm: applicability of safety engineering frameworks for responsible ML ( http://arxiv.org/abs/2210.03535v1 )

ライセンス: Link先を確認
Shalaleh Rismani, Renee Shelby, Andrew Smart, Edgar Jatho, Joshua Kroll, AJung Moon, Negar Rostamzadeh(参考訳) 機械学習(ML)システムの不適切な設計と展開は、ユーザ、社会、環境に対するネガティブなダウンストリームの社会的および倫理的影響をもたらす。 MLシステムの規制の必要性が高まっているにもかかわらず、リスクの評価と緩和の現在のプロセスは相容れない。 私たちは、現在の社会的および倫理的リスク管理プラクティスについて30の業界実践者に対してインタビューを行い、安全工学のフレームワークを実践に適応させるための最初の反応、すなわちシステム理論プロセス分析(STPA)と障害モードと効果分析(FMEA)を収集しました。 以上の結果から,STPA/FMEAは社会的・倫理的リスク評価・緩和のプロセスに適切な構造を提供する可能性が示唆された。 しかし、このようなフレームワークをML産業の急激なペースの文化に組み込むことの難しさもある。 我々は、ML研究コミュニティに対して、既存のフレームワークを強化し、その有効性を評価し、MLシステムがすべての人々にとってより安全であることを保証するよう呼びかけます。

Inappropriate design and deployment of machine learning (ML) systems leads to negative downstream social and ethical impact -- described here as social and ethical risks -- for users, society and the environment. Despite the growing need to regulate ML systems, current processes for assessing and mitigating risks are disjointed and inconsistent. We interviewed 30 industry practitioners on their current social and ethical risk management practices, and collected their first reactions on adapting safety engineering frameworks into their practice -- namely, System Theoretic Process Analysis (STPA) and Failure Mode and Effects Analysis (FMEA). Our findings suggest STPA/FMEA can provide appropriate structure toward social and ethical risk assessment and mitigation processes. However, we also find nontrivial challenges in integrating such frameworks in the fast-paced culture of the ML industry. We call on the ML research community to strengthen existing frameworks and assess their efficacy, ensuring that ML systems are safer for all people.
翻訳日:2022-10-10 15:12:21 公開日:2022-10-06
# 深層学習における感情音声合成と変換の概観

An Overview of Affective Speech Synthesis and Conversion in the Deep Learning Era ( http://arxiv.org/abs/2210.03538v1 )

ライセンス: Link先を確認
Andreas Triantafyllopoulos, Bj\"orn W. Schuller, G\"ok\c{c}e \.Iymen, Metin Sezgin, Xiangheng He, Zijiang Yang, Panagiotis Tzirakis, Shuo Liu, Silvan Mertes, Elisabeth Andr\'e, Ruibo Fu, Jianhua Tao(参考訳) 音声は人間のコミュニケーションの基本的なモードであり、その合成は人間とコンピュータの相互作用研究における中心的な優先事項である。 近年、機械は人間が理解できる音声を生成する技術を習得している。 しかし、発話の言語的内容は、その意味の一部しか含まない。 感情、あるいは表現力は、会話を、親密な思考、感情、感情を伝達できる媒体に変える能力を持っている。 音声合成に表現性を与えるという目標はこれまでも解明されてきたが、テキストから音声への合成の進歩に続いて、感情的音声合成や変換の分野においてもパラダイムシフトが進んでいる。 ディープラーニングは、人工知能の最近の進歩のほとんどを支える技術であり、これらの取り組みを先導している。 本稿では,このエキサイティングな分野を包括的に概観する試みとして,現在進行中のトレンドと最先端のアプローチの概要について概説する。

Speech is the fundamental mode of human communication, and its synthesis has long been a core priority in human-computer interaction research. In recent years, machines have managed to master the art of generating speech that is understandable by humans. But the linguistic content of an utterance encompasses only a part of its meaning. Affect, or expressivity, has the capacity to turn speech into a medium capable of conveying intimate thoughts, feelings, and emotions -- aspects that are essential for engaging and naturalistic interpersonal communication. While the goal of imparting expressivity to synthesised utterances has so far remained elusive, following recent advances in text-to-speech synthesis, a paradigm shift is well under way in the fields of affective speech synthesis and conversion as well. Deep learning, as the technology which underlies most of the recent advances in artificial intelligence, is spearheading these efforts. In the present overview, we outline ongoing trends and summarise state-of-the-art approaches in an attempt to provide a comprehensive overview of this exciting field.
翻訳日:2022-10-10 15:12:05 公開日:2022-10-06
# 電球内のネットワーク侵入検知システム

Network Intrusion Detection System in a Light Bulb ( http://arxiv.org/abs/2210.03254v1 )

ライセンス: Link先を確認
Liam Daly Manocchio, Siamak Layeghy, Marius Portmann(参考訳) IoT(Internet of Things)デバイスは、さまざまなエッジアプリケーションで、ホームおよび業界のインフラストラクチャを監視し、制御するために、徐々に利用されています。 計算資源とエネルギー資源が限られているため、多くのIoTデバイスでは、アクティブなセキュリティ保護は最小限である。 これは、ネットワークセキュリティの分野における研究者の関心を惹きつける重要なセキュリティ課題を生み出した。 提案されているネットワーク侵入検知システム(NIDS)は多数存在するが、実際のIoT実装についての研究は限られており、私たちの知る限り、ESP8266のようなIoTデバイスの大部分で見られる一般的な低電力チップセットでエッジベースのNIDSが動作することが実証されていない。 本研究の目的は、低消費電力機械学習(ML)ベースのNIDSのバウンダリをプッシュすることで、このギャップを解決することである。 我々は、効率よく低消費電力のMLベースのNIDSを提案し、典型的なスマート電球上で動作させることでIoTエッジアプリケーションへの適用性を実証する。 また,提案する他のエッジベースNIDSに対してシステムの評価を行い,本モデルが検出性能が高く,より高速かつ小型であり,より広い範囲のIoTエッジデバイスに適用可能であることを示す。

Internet of Things (IoT) devices are progressively being utilised in a variety of edge applications to monitor and control home and industry infrastructure. Due to the limited compute and energy resources, active security protections are usually minimal in many IoT devices. This has created a critical security challenge that has attracted researchers' attention in the field of network security. Despite a large number of proposed Network Intrusion Detection Systems (NIDSs), there is limited research into practical IoT implementations, and to the best of our knowledge, no edge-based NIDS has been demonstrated to operate on common low-power chipsets found in the majority of IoT devices, such as the ESP8266. This research aims to address this gap by pushing the boundaries on low-power Machine Learning (ML) based NIDSs. We propose and develop an efficient and low-power ML-based NIDS, and demonstrate its applicability for IoT edge applications by running it on a typical smart light bulb. We also evaluate our system against other proposed edge-based NIDSs and show that our model has a higher detection performance, and is significantly faster and smaller, and therefore more applicable to a wider range of IoT edge devices.
翻訳日:2022-10-10 15:10:41 公開日:2022-10-06
# ディープインベントリマネジメント

Deep Inventory Management ( http://arxiv.org/abs/2210.03137v1 )

ライセンス: Link先を確認
Dhruv Madeka, Kari Torkkola, Carson Eisenach, Dean Foster, Anna Luo(参考訳) 本稿では, 定期レビュー在庫管理システムを, 確率的ベンダーリードタイム, 損失販売, 相関需要, 価格整合で解くための深層強化学習手法を提案する。 この動的プログラムは歴史的に難易度が高いと考えられてきたが、いくつかのポリシー学習アプローチが古典的ベースラインアプローチと競合するか、性能を上回っていることを示す。 これらのアルゴリズムを訓練するために,過去のデータをシミュレータに変換する新しい手法を開発した。 また,モデルベース強化学習手順(direct backprop)を提案し,微分可能なシミュレータを構築し,動的周期的レビューインベントリ制御問題を解く。 さまざまな指標の下で、Direct Backpropは、シミュレーションと実世界のデプロイの両方において、モデルフリーのRLとニュースベンダーのベースラインを上回っている。

We present a Deep Reinforcement Learning approach to solving a periodic review inventory control system with stochastic vendor lead times, lost sales, correlated demand, and price matching. While this dynamic program has historically been considered intractable, we show that several policy learning approaches are competitive with or outperform classical baseline approaches. In order to train these algorithms, we develop novel techniques to convert historical data into a simulator. We also present a model-based reinforcement learning procedure (Direct Backprop) to solve the dynamic periodic review inventory control problem by constructing a differentiable simulator. Under a variety of metrics Direct Backprop outperforms model-free RL and newsvendor baselines, in both simulations and real-world deployments.
翻訳日:2022-10-10 15:03:09 公開日:2022-10-06
# FocalUNETR:CT画像の境界認識セグメンテーションのためのFocal Transformer

FocalUNETR: A Focal Transformer for Boundary-aware Segmentation of CT Images ( http://arxiv.org/abs/2210.03189v1 )

ライセンス: Link先を確認
Chengyin Li, Hassan Bagher-Ebadian, Vikram Goddla, Indrin J. Chetty, and Dongxiao Zhu(参考訳) CT(Computed Tomography)に基づく治療計画のための精密前立腺分節化は,(1)CTの軟組織コントラストから得られた前立腺の境界が不明瞭であること,(2)長距離グローバルコンテキストを捉えるための畳み込みニューラルネットワークベースモデルの制限により困難である。 本稿では,CT画像から局所的な視覚特徴とグローバルな文脈を効果的に抽出する焦点変換器に基づく画像分割アーキテクチャを提案する。 さらに,主セグメント化タスクと補助境界誘発ラベル回帰タスクを正規化として設計し,セグメント化結果を同時に最適化し,不明瞭な境界効果を軽減する。 400個の前立腺CTの大規模データセットに対する広範囲な実験により,前立腺分割作業における焦点変換器の競合手法よりも優れた性能を示した。

Computed Tomography (CT) based precise prostate segmentation for treatment planning is challenging due to (1) the unclear boundary of prostate derived from CTs poor soft tissue contrast, and (2) the limitation of convolutional neural network based models in capturing long-range global context. Here we propose a focal transformer based image segmentation architecture to effectively and efficiently extract local visual features and global context from CT images. Furthermore, we design a main segmentation task and an auxiliary boundary-induced label regression task as regularization to simultaneously optimize segmentation results and mitigate the unclear boundary effect, particularly in unseen data set. Extensive experiments on a large data set of 400 prostate CT scans demonstrate the superior performance of our focal transformer to the competing methods on the prostate segmentation task.
翻訳日:2022-10-10 14:55:19 公開日:2022-10-06
# 自己監督型単分子深度水中

Self-Supervised Monocular Depth Underwater ( http://arxiv.org/abs/2210.03206v1 )

ライセンス: Link先を確認
Shlomi Amitai, Itzik Klein, Tali Treibitz(参考訳) ロボットシステムでは深さ推定が不可欠である。 近年,単眼画像からの奥行き推定は大きな改善が見られたが,水中環境においては,媒体による外観変化により,まだ遅れている。 これまでのところ、これを克服する努力はほとんど払われていない。 さらに、水中では、高解像度深度センサーの使用にはより多くの制限があるため、学習方法に対する基礎的真実がさらに大きな障害となる。 これまでのところ、これを解決しようとする教師なしの手法は、空気中のデータセットからのドメイン転送に依存するため、非常に限定的な成功を収めている。 再投射損失によって自己監視された後続のフレームを用いたトレーニングを提案する。 我々は,水中環境に対処し,難易度の高い水中データセット上での最新結果を達成するために,自己教師付きフレームワークにいくつかの追加を提案する。

Depth estimation is critical for any robotic system. In the past years estimation of depth from monocular images have shown great improvement, however, in the underwater environment results are still lagging behind due to appearance changes caused by the medium. So far little effort has been invested on overcoming this. Moreover, underwater, there are more limitations for using high resolution depth sensors, this makes generating ground truth for learning methods another enormous obstacle. So far unsupervised methods that tried to solve this have achieved very limited success as they relied on domain transfer from dataset in air. We suggest training using subsequent frames self-supervised by a reprojection loss, as was demonstrated successfully above water. We suggest several additions to the self-supervised framework to cope with the underwater environment and achieve state-of-the-art results on a challenging forward-looking underwater dataset.
翻訳日:2022-10-10 14:55:02 公開日:2022-10-06
# ロボットチームにおけるタスク割り当てに関する考察

Considerations for Task Allocation in Human-Robot Teams ( http://arxiv.org/abs/2210.03259v1 )

ライセンス: Link先を確認
Arsha Ali, Dawn M. Tilbury, Lionel P. Robert Jr(参考訳) エージェントが協力するヒューマンロボットチームでは、エージェントにタスクを明確に割り当てる必要があります。 タスク割り当ては、チームパフォーマンスの改善など、ヒューマンロボットチームの推定利益を達成するのに役立つ。 エージェントの能力、可用性、ワークロード、疲労、タスクやドメイン固有のパラメータなどを含む多くのタスク割り当て方法が提案されている。 本稿では,タスクアロケーションの選択作業について概説する。 また,タスク割り当ての継続およびさらなる検討を行う領域についても論じる。 これらの分野には、コラボレーションのレベル、新しいタスク、未知および動的エージェント能力、交渉と公正、倫理が含まれる。 適用可能なところでは、タスク割り当てに関する作業についても言及します。 タスク割り当ての継続的な努力と考慮を通じて、人間とロボットのチーム化が改善される。

In human-robot teams where agents collaborate together, there needs to be a clear allocation of tasks to agents. Task allocation can aid in achieving the presumed benefits of human-robot teams, such as improved team performance. Many task allocation methods have been proposed that include factors such as agent capability, availability, workload, fatigue, and task and domain-specific parameters. In this paper, selected work on task allocation is reviewed. In addition, some areas for continued and further consideration in task allocation are discussed. These areas include level of collaboration, novel tasks, unknown and dynamic agent capabilities, negotiation and fairness, and ethics. Where applicable, we also mention some of our work on task allocation. Through continued efforts and considerations in task allocation, human-robot teaming can be improved.
翻訳日:2022-10-10 14:52:30 公開日:2022-10-06
# 視覚表現のためのコントラスト学習課題の簡単な紹介

Brief Introduction to Contrastive Learning Pretext Tasks for Visual Representation ( http://arxiv.org/abs/2210.03163v1 )

ライセンス: Link先を確認
Zhenyuan Lu(参考訳) 写真やビデオからの視覚的特徴表現のパフォーマンスを向上させるために,深層ニューラルネットワークをトレーニングしながら,大規模なラベル付きデータが必要となる。 しかしながら、人間によるラベル付きデータの収集と注釈付けのコストは高価である。 実世界ではラベルのないデータが多数存在することを考えると、この問題を防ぐために自己定義の擬似ラベルを監督として導入することが可能である。 自己教師あり学習(英: self-supervised learning)は、コンピュータビジョン、自然言語処理、その他の領域で普及した教師なし学習法のサブセットである。 対照的な学習の目的は、同じサンプルから抽出した拡張サンプルを互いに埋め込み、そうでないサンプルを押し出すことである。 以下の節では、異なる学習の中で規則的な定式化を導入する。 次の節では、様々な学習の定式化について論じる。 さらに,視覚表現のためのプリテキストタスクに着目した,最近公開されたコントラスト学習からの戦略も提示する。

To improve performance in visual feature representation from photos or videos for practical applications, we generally require large-scale human-annotated labeled data while training deep neural networks. However, the cost of gathering and annotating human-annotated labeled data is expensive. Given that there is a lot of unlabeled data in the actual world, it is possible to introduce self-defined pseudo labels as supervisions to prevent this issue. Self-supervised learning, specifically contrastive learning, is a subset of unsupervised learning methods that has grown popular in computer vision, natural language processing, and other domains. The purpose of contrastive learning is to embed augmented samples from the same sample near to each other while pushing away those that are not. In the following sections, we will introduce the regular formulation among different learnings. In the next sections, we will discuss the regular formulation of various learnings. Furthermore, we offer some strategies from contrastive learning that have recently been published and are focused on pretext tasks for visual representation.
翻訳日:2022-10-10 14:43:45 公開日:2022-10-06
# Framingham Heart Study データセットを用いた欠測データ計算法の比較

Comparison of Missing Data Imputation Methods using the Framingham Heart study dataset ( http://arxiv.org/abs/2210.03154v1 )

ライセンス: Link先を確認
Konstantinos Psychogyios, Loukas Ilias, Dimitris Askounis(参考訳) 心臓血管疾患(英: Cardiovascular disease, CVD)は、心臓や血管を包含する疾患の一種であり、世界保健機関(WHO)によると、世界中の死因である。 この症例に関するEHRデータは、一般的には医療ケースと同様に、非常に頻度の低い値を含んでいる。 欠落の割合は様々であり、計器エラーや手動データ入力手順などと関連付けられている。 通常、欠落率は大きいが、多くの場合、欠落した値の計算部はケース削除またはモードや中央値の計算のような単純な統計手法で処理される。 これらの手法はデータセットの変数間の関係を考慮しないため、大きなバイアスをもたらすことが知られている。 医療フレームワークでは、多くのデータセットがラボテストまたは患者の医療テストで構成されており、これらの関係は存在し強い。 本稿では,GAN(Generative Adversarial Networks)とオートエンコーダ(Autoencoder)に基づく,最先端の欠落値計算手法のテストと修正を行う。 データ計算とポストインプット予測の両方のタスクに対して評価を行う。 計算作業では,正常化ルート平均正方形誤差 (RMSE) と受信器動作特性曲線 (AUROC) の0.20, 7.00%の改善が達成された。 計算後予測タスクでは、F1スコアで標準手法を2.50%上回っている。

Cardiovascular disease (CVD) is a class of diseases that involve the heart or blood vessels and according to World Health Organization is the leading cause of death worldwide. EHR data regarding this case, as well as medical cases in general, contain missing values very frequently. The percentage of missingness may vary and is linked with instrument errors, manual data entry procedures, etc. Even though the missing rate is usually significant, in many cases the missing value imputation part is handled poorly either with case-deletion or with simple statistical approaches such as mode and median imputation. These methods are known to introduce significant bias, since they do not account for the relationships between the dataset's variables. Within the medical framework, many datasets consist of lab tests or patient medical tests, where these relationships are present and strong. To address these limitations, in this paper we test and modify state-of-the-art missing value imputation methods based on Generative Adversarial Networks (GANs) and Autoencoders. The evaluation is accomplished for both the tasks of data imputation and post-imputation prediction. Regarding the imputation task, we achieve improvements of 0.20, 7.00% in normalised Root Mean Squared Error (RMSE) and Area Under the Receiver Operating Characteristic Curve (AUROC) respectively. In terms of the post-imputation prediction task, our models outperform the standard approaches by 2.50% in F1-score.
翻訳日:2022-10-10 14:37:39 公開日:2022-10-06
# 深層学習時系列モデルを用いた郡レベルの新型コロナウイルス感染と特徴感受性の解釈

Interpreting County Level COVID-19 Infection and Feature Sensitivity using Deep Learning Time Series Models ( http://arxiv.org/abs/2210.03258v1 )

ライセンス: Link先を確認
Md Khairul Islam, Di Zhu, Yingzheng Liu, Andrej Erkelens, Nick Daniello, Judy Fox(参考訳) 解釈可能な機械学習は、ディープラーニングモデル予測における特徴の重要性を理解することが困難であるため、医療において重要な役割を果たす。 本稿では,ディープラーニングを用いたモデル予測のための特徴感度の研究手法を提案する。 この研究は、時空間的特徴の解釈に対応する不均一な時系列深層学習モデル予測と感度解析を組み合わせる。 テンポラルフュージョントランスを用いた郡レベルの新型コロナウイルス感染予測を行った。 次に、モリス法を拡張した感度解析を用いて、出力が静的および動的入力特徴に対する摂動に対してどれほど感度が高いかを確認する。 この研究の意義は、非定常的で細かい粒状で異質なデータによる実際の新型コロナウイルス感染予測にある。 1)本モデルでは,時間的および空間的モデル行動の詳細な日次変化を捉え,PyTorchベースラインと比較して高い予測性能が得られる。 2)モリスの感度指標と注意パターンを分析し,観察人口と動的モデル変化による特徴量の重要性を推定した。 3)米国の3142郡(例,死亡例,年齢分布,健康格差,産業)および動的特徴(予防接種,疾病の拡散,透過性ケース,社会的距離)について,社会経済的および健康的特徴の2.5年間を集計した。 提案手法を用いて,本モデルが複雑な相互作用を学習し,郡レベルで毎日の感染予測を行うことを示す。 郡レベルでのモリス指標によるハイブリッド予測と説明精度測定で病気感染をモデル化することは、感度分析を通じて個々の特徴解釈に光を当てる中心的な考え方である。

Interpretable machine learning plays a key role in healthcare because it is challenging in understanding feature importance in deep learning model predictions. We propose a novel framework that uses deep learning to study feature sensitivity for model predictions. This work combines sensitivity analysis with heterogeneous time-series deep learning model prediction, which corresponds to the interpretations of spatio-temporal features. We forecast county-level COVID-19 infection using the Temporal Fusion Transformer. We then use the sensitivity analysis extending Morris Method to see how sensitive the outputs are with respect to perturbation to our static and dynamic input features. The significance of the work is grounded in a real-world COVID-19 infection prediction with highly non-stationary, finely granular, and heterogeneous data. 1) Our model can capture the detailed daily changes of temporal and spatial model behaviors and achieves high prediction performance compared to a PyTorch baseline. 2) By analyzing the Morris sensitivity indices and attention patterns, we decipher the meaning of feature importance with observational population and dynamic model changes. 3) We have collected 2.5 years of socioeconomic and health features over 3142 US counties, such as observed cases and deaths, and a number of static (age distribution, health disparity, and industry) and dynamic features (vaccination, disease spread, transmissible cases, and social distancing). Using the proposed framework, we conduct extensive experiments and show our model can learn complex interactions and perform predictions for daily infection at the county level. Being able to model the disease infection with a hybrid prediction and description accuracy measurement with Morris index at the county level is a central idea that sheds light on individual feature interpretation via sensitivity analysis.
翻訳日:2022-10-10 14:37:11 公開日:2022-10-06
# 幾何学的複素PDEを解くための統一ハード制約フレームワーク

A Unified Hard-Constraint Framework for Solving Geometrically Complex PDEs ( http://arxiv.org/abs/2210.03526v1 )

ライセンス: Link先を確認
Songming Liu, Zhongkai Hao, Chengyang Ying, Hang Su, Jun Zhu, Ze Cheng(参考訳) 本稿では,最もよく用いられるディリクレ,ノイマン,ロビン境界条件(bcs)を考えるニューラルネットワークを用いて,幾何学的に複雑なpdesを解決するための統一的ハードコンストラクションフレームワークを提案する。 具体的には、まず混合有限要素法から「外部場」を導入し、PDEを3種類のBCを等価に線形形式に変換するように再構成する。 改革に基づいて、BCの一般的な解を解析的に導き、BCに自動的に満足するアンザッツを構築するために使用される。 このようなフレームワークを用いることで、余分な損失項を加えることなくニューラルネットワークをトレーニングし、幾何学的に複雑なPDEを効率的に処理し、BCとPDEに対応する損失項間の不均衡な競合を軽減することができる。 理論上は,「エクストラフィールド」がトレーニングプロセスを安定化できることを実証する。 実世界の幾何学的複素PDEの実験結果は,最先端のベースラインと比較して,本手法の有効性を示した。

We present a unified hard-constraint framework for solving geometrically complex PDEs with neural networks, where the most commonly used Dirichlet, Neumann, and Robin boundary conditions (BCs) are considered. Specifically, we first introduce the "extra fields" from the mixed finite element method to reformulate the PDEs so as to equivalently transform the three types of BCs into linear forms. Based on the reformulation, we derive the general solutions of the BCs analytically, which are employed to construct an ansatz that automatically satisfies the BCs. With such a framework, we can train the neural networks without adding extra loss terms and thus efficiently handle geometrically complex PDEs, alleviating the unbalanced competition between the loss terms corresponding to the BCs and PDEs. We theoretically demonstrate that the "extra fields" can stabilize the training process. Experimental results on real-world geometrically complex PDEs showcase the effectiveness of our method compared with state-of-the-art baselines.
翻訳日:2022-10-10 14:34:45 公開日:2022-10-06
# 多安定ニューラルネットワークの構造解明に向けて

A Step Towards Uncovering The Structure of Multistable Neural Networks ( http://arxiv.org/abs/2210.03241v1 )

ライセンス: Link先を確認
Magnus Tournoy and Brent Doiron(参考訳) 本稿では,マルチスタブルリカレントニューラルネットワークの構造について検討する。 活性化関数は非平滑なヘビサイドステップ関数によって単純化される。 この非線形性は位相空間を異なるが線形ダイナミクスを持つ領域に分割する。 ネットワークアーキテクチャ内でのマルチスタビリティのコード化について検討する。 安定状態はシナプス重み行列の半有界性制約によって同定される。 制限は、接続の符号や強度への影響によって分離することができる。 ネットワークトポロジー、符号安定性、重み行列因子分解、パターン補完、パターン結合に関する正確な結果が導出され、証明される。 これらはより複雑なリカレントニューラルネットワークとニューロコンピューティングの基礎となるかもしれない。

We study the structure of multistable recurrent neural networks. The activation function is simplified by a nonsmooth Heaviside step function. This nonlinearity partitions the phase space into regions with different, yet linear dynamics. We derive how multistability is encoded within the network architecture. Stable states are identified by their semipositivity constraints on the synaptic weight matrix. The restrictions can be separated by their effects on the signs or the strengths of the connections. Exact results on network topology, sign stability, weight matrix factorization, pattern completion and pattern coupling are derived and proven. These may lay the foundation of more complex recurrent neural networks and neurocomputing.
翻訳日:2022-10-10 13:59:55 公開日:2022-10-06
# 有限サイズデータセットに対する逆ラグランジアン統合コントラスト埋め込み

Adversarial Lagrangian Integrated Contrastive Embedding for Limited Size Datasets ( http://arxiv.org/abs/2210.03261v1 )

ライセンス: Link先を確認
Amin Jalali and Minho Lee(参考訳) あるデータセットには、非常に多様なスタイルと複雑な構造を持つ限られた数のサンプルが含まれている。 本研究では,小さなデータセットに対する新しい逆ラグランジアン統合コントラスト埋め込み(ALICE)法を提案する。 まず, サンプル数が少ないデータセットの様々なサブセットに, 事前学習した逆転の精度向上とトレーニング収束を示す。 次に, 種々の拡張手法を用いた新しい対角統合コントラストモデルについて検討した。 提案する構造は,異なる外観の入力サンプルを考察し,逆伝達コントラストトレーニングで優れた表現を生成する。 最後に、多目的拡張ラグランジアン乗算器は、提示された逆コントラスト埋め込みの低ランクおよびスパース性を奨励し、最適化器の係数を最適重み付けに適応的に推定する。 スパーシティ制約は、特徴空間におけるより少ない代表要素を抑制する。 低ランクの制約は自明で冗長なコンポーネントを排除し、優れた一般化を可能にする。 提案モデルの性能は,小さなデータサンプルを用いたシナリオのベンチマークデータセットを用いてアブレーション研究によって検証される。

Certain datasets contain a limited number of samples with highly various styles and complex structures. This study presents a novel adversarial Lagrangian integrated contrastive embedding (ALICE) method for small-sized datasets. First, the accuracy improvement and training convergence of the proposed pre-trained adversarial transfer are shown on various subsets of datasets with few samples. Second, a novel adversarial integrated contrastive model using various augmentation techniques is investigated. The proposed structure considers the input samples with different appearances and generates a superior representation with adversarial transfer contrastive training. Finally, multi-objective augmented Lagrangian multipliers encourage the low-rank and sparsity of the presented adversarial contrastive embedding to adaptively estimate the coefficients of the regularizers automatically to the optimum weights. The sparsity constraint suppresses less representative elements in the feature space. The low-rank constraint eliminates trivial and redundant components and enables superior generalization. The performance of the proposed model is verified by conducting ablation studies by using benchmark datasets for scenarios with small data samples.
翻訳日:2022-10-10 13:59:47 公開日:2022-10-06
# 別の否定ベンチマークではない:nan-nli test suite for sub-clausal negation

Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal Negation ( http://arxiv.org/abs/2210.03256v1 )

ライセンス: Link先を確認
Hung Thinh Truong, Yulia Otmakhova, Timothy Baldwin, Trevor Cohn, Karin Verspoor, Jey Han Lau(参考訳) 否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。 自然言語推論(NLI)テストスイートを導入し,NLP手法の機能の探索を可能にした。 テストスイートには前提-仮説ペアが含まれており、前提は下記の否定を含み、仮説は、異なる可能な解釈を反映するために前提に最小限の変更を加えることによって構成される。 標準のNLIラベルを採用する以外に、我々のテストスイートは厳格な言語フレームワークの下で体系的に構築されています。 否定型の注釈や言語理論に基づく構成、仮説を構築するのに使用される操作などが含まれる。 これにより、モデル性能のきめ細かい解析が容易になる。 事前学習した言語モデルを使って実験を行い、テストスイートが既存のネゲーションにフォーカスしたベンチマークよりも難しいことを示し、アノテーションがネゲーションと定量化の観点から現在のnli機能のより深い理解をどのようにサポートするかを示します。

Negation is poorly captured by current language models, although the extent of this problem is not widely understood. We introduce a natural language inference (NLI) test suite to enable probing the capabilities of NLP methods, with the aim of understanding sub-clausal negation. The test suite contains premise--hypothesis pairs where the premise contains sub-clausal negation and the hypothesis is constructed by making minimal modifications to the premise in order to reflect different possible interpretations. Aside from adopting standard NLI labels, our test suite is systematically constructed under a rigorous linguistic framework. It includes annotation of negation types and constructions grounded in linguistic theory, as well as the operations used to construct hypotheses. This facilitates fine-grained analysis of model performance. We conduct experiments using pre-trained language models to demonstrate that our test suite is more challenging than existing benchmarks focused on negation, and show how our annotation supports a deeper understanding of the current NLI capabilities in terms of negation and quantification.
翻訳日:2022-10-10 13:52:26 公開日:2022-10-06
# CoGrasp:人間-ロボットコラボレーションのための6-DoFグラフ生成

CoGrasp: 6-DoF Grasp Generation for Human-Robot Collaboration ( http://arxiv.org/abs/2210.03173v1 )

ライセンス: Link先を確認
Abhinav K. Keshari, Hanwen Ren, Ahmed H. Qureshi(参考訳) ロボットグルーピングはロボット工学の活発な研究領域であり、主にオブジェクト操作のための生成されたグルーピングの品質に焦点を当てている。 しかし,これらの手法では,ロボットと人間が同時に同じ物体をつかむという人間とロボットの協調設定は考慮していない。 そのため、安全で自然なコラボレーション体験を確保するためには、物体を同時に保持する人間の好みと相性のあるロボットの作成が必要となる。 本稿では,ロボットの把持選択プロセスに対象把握の人間の嗜好モデルをコンテキスト化することにより,人間認識ロボットを把持する新しい深層ニューラルネットワークに基づく手法であるcograspを提案する。 シミュレーションおよび実ロボット実験およびユーザスタディを通じて,既存の最先端ロボット把持手法に対するアプローチを検証する。 実ロボット実験では, 安定な把持器の製作において約88%の成功率を達成し, 対象物との対話と把持を, 社会的に適合した方法で同時に行えるようにした。 さらに,10人の独立した参加者によるユーザスタディにより,標準的なロボットグリップ技術と比較して,安全で自然かつ社会的に認識された人間ロボットオブジェクトのコグラスピング体験を実現することができた。

Robot grasping is an actively studied area in robotics, mainly focusing on the quality of generated grasps for object manipulation. However, despite advancements, these methods do not consider the human-robot collaboration settings where robots and humans will have to grasp the same objects concurrently. Therefore, generating robot grasps compatible with human preferences of simultaneously holding an object becomes necessary to ensure a safe and natural collaboration experience. In this paper, we propose a novel, deep neural network-based method called CoGrasp that generates human-aware robot grasps by contextualizing human preference models of object grasping into the robot grasp selection process. We validate our approach against existing state-of-the-art robot grasping methods through simulated and real-robot experiments and user studies. In real robot experiments, our method achieves about 88\% success rate in producing stable grasps that also allow humans to interact and grasp objects simultaneously in a socially compliant manner. Furthermore, our user study with 10 independent participants indicated our approach enables a safe, natural, and socially-aware human-robot objects' co-grasping experience compared to a standard robot grasping technique.
翻訳日:2022-10-10 13:44:18 公開日:2022-10-06
# ResNetは必要なものすべて? 基礎画像における糖尿病網膜症検出のための強力なベースラインのモデル化

A ResNet is All You Need? Modeling A Strong Baseline for Detecting Referable Diabetic Retinopathy in Fundus Images ( http://arxiv.org/abs/2210.03180v1 )

ライセンス: Link先を確認
Tom\'as Castilla, Marcela S. Mart\'inez, Mercedes Legu\'ia, Ignacio Larrabide, Jos\'e Ignacio Orlando(参考訳) 深層学習は、現在、カラーファンドス写真(CFP)から参照可能な糖尿病網膜症(DR)を自動的に検出するための最先端技術である。 方法論的な革新を通じて結果を改善することには一般的な関心があるが、適切な設定で訓練された標準の深層分類モデルと比較して、これらのアプローチがどの程度優れているかは明らかではない。 本稿では,シンプルな標準ResNet-18アーキテクチャに基づいて,このタスクの強力なベースラインをモデル化する。 この目的のために,我々は,標準前処理戦略を用いてモデルを訓練し,複数の公開ソースの画像と経験的に校正されたデータ拡張設定を用いて,先行技術の上に構築した。 その性能を評価するために,画像および患者レベルのDRスクリーニング,入力品質とDRグレードによる応答の識別,モデルの不確実性の評価,質的解析など,臨床上の複数の視点について検討した。 私たちのResNetモデルは、慎重に設計されたトレーニング以外に方法論的な革新はありませんでしたが、さまざまな公開データセットから61007のテストイメージを組み合わせて、AUC = 0.955 (0.953 - 0.956)を達成しました。 この研究のために特別に作成された2つの社内データベースから480枚の画像から同様のAUC値を得た。 これにより、適切にトレーニングされた場合、標準ネットワークは、このタスクの強力なベースラインとなることが保証される。

Deep learning is currently the state-of-the-art for automated detection of referable diabetic retinopathy (DR) from color fundus photographs (CFP). While the general interest is put on improving results through methodological innovations, it is not clear how good these approaches perform compared to standard deep classification models trained with the appropriate settings. In this paper we propose to model a strong baseline for this task based on a simple and standard ResNet-18 architecture. To this end, we built on top of prior art by training the model with a standard preprocessing strategy but using images from several public sources and an empirically calibrated data augmentation setting. To evaluate its performance, we covered multiple clinically relevant perspectives, including image and patient level DR screening, discriminating responses by input quality and DR grade, assessing model uncertainties and analyzing its results in a qualitative manner. With no other methodological innovation than a carefully designed training, our ResNet model achieved an AUC = 0.955 (0.953 - 0.956) on a combined test set of 61007 test images from different public datasets, which is in line or even better than what other more complex deep learning models reported in the literature. Similar AUC values were obtained in 480 images from two separate in-house databases specially prepared for this study, which emphasize its generalization ability. This confirms that standard networks can still be strong baselines for this task if properly trained.
翻訳日:2022-10-10 13:43:57 公開日:2022-10-06
# FAST:フィードバックを考慮した自己学習によるテキスト生成の制御性向上

FAST: Improving Controllability for Text Generation with Feedback Aware Self-Training ( http://arxiv.org/abs/2210.03167v1 )

ライセンス: Link先を確認
Junyi Chai, Reid Pryzant, Victor Ye Dong, Konstantin Golobokov, Chenguang Zhu, Yi Liu(参考訳) 制御可能なテキスト生成システムは、しばしば制御コードを利用して、スタイルや長さといった出力の様々な特性を指示する。 nlpの因果推論に関する最近の研究から着想を得た本論文は、これらの制御コードに基づく条件付きテキスト生成アルゴリズムのこれまで見過ごされていた欠陥を明らかにする。 トレーニングデータの偽相関により、モデルが属性選択のための制御コード以外の入力部分に誤って依存し、下流生成品質と制御性を大幅に損なう可能性がある。 一連のケーススタディでこの問題の深刻度を実証し、トレーニングセットにおけるこれらの相関を減らすための2つの簡単な手法を提案する。 最初のテクニックは、サンプルのそれぞれの言語属性(IPS)に対する適合性に応じてデータを再サンプリングすることに基づいている。 ふたつめは、各例の複数の反事実バージョンを生成し、さらに追加のフィードバックメカニズムを使用して、騒がしい例(フィードバックの自己学習、迅速化)を取り除く。 我々は,ニュースヘッドライン,メタレビュー,検索広告生成の3つのタスクについて評価し,FASTは,最先端の制御可能なテキスト生成手法と比較して,生成した出力の制御性と言語品質を著しく向上させることができることを示した。

Controllable text generation systems often leverage control codes to direct various properties of the output like style and length. Inspired by recent work on causal inference for NLP, this paper reveals a previously overlooked flaw in these control code-based conditional text generation algorithms. Spurious correlations in the training data can lead models to incorrectly rely on parts of the input other than the control code for attribute selection, significantly undermining downstream generation quality and controllability. We demonstrate the severity of this issue with a series of case studies and then propose two simple techniques to reduce these correlations in training sets. The first technique is based on resampling the data according to an example's propensity towards each linguistic attribute (IPS). The second produces multiple counterfactual versions of each example and then uses an additional feedback mechanism to remove noisy examples (feedback aware self-training, FAST). We evaluate on 3 tasks -- news headline, meta review, and search ads generation -- and demonstrate that FAST can significantly improve the controllability and language quality of generated outputs when compared to state-of-the-art controllable text generation approaches.
翻訳日:2022-10-10 13:42:34 公開日:2022-10-06
# 構造的順序付けと肥育層による組成一般化

Compositional Generalisation with Structured Reordering and Fertility Layers ( http://arxiv.org/abs/2210.03183v1 )

ライセンス: Link先を確認
Matthias Lindemann, Alexander Koller, Ivan Titov(参考訳) Seq2seqモデルは、構成一般化、すなわち、トレーニング中に見られるよりも新しくより複雑な構造への一般化に苦しむことが示されている。 構成の一般化に優れた文法モデルから着想を得て,2つの構造的操作を構成する柔軟なエンドツーエンドの微分可能なニューラルモデルを提案する。 我々のモデルは、より長い例に一般化を必要とする現実的な意味解析タスクの難解な構成分割に対して、Seq2seqモデルより広範囲に優れている。 また、構成一般化を対象とする他のモデルと好意的に比較する。

Seq2seq models have been shown to struggle with compositional generalisation, i.e. generalising to new and potentially more complex structures than seen during training. Taking inspiration from grammar-based models that excel at compositional generalisation, we present a flexible end-to-end differentiable neural model that composes two structural operations: a fertility step, which we introduce in this work, and a reordering step based on previous work (Wang et al., 2021). Our model outperforms seq2seq models by a wide margin on challenging compositional splits of realistic semantic parsing tasks that require generalisation to longer examples. It also compares favourably to other models targeting compositional generalisation.
翻訳日:2022-10-10 13:42:12 公開日:2022-10-06
# 大規模パラフレーズ獲得と生成の改善

Improving Large-scale Paraphrase Acquisition and Generation ( http://arxiv.org/abs/2210.03235v1 )

ライセンス: Link先を確認
Yao Dou, Chao Jiang, Wei Xu(参考訳) 本稿では,既存のtwitterベースのparaphraseデータセットの品質問題を取り上げ,paraphraseの2つの定義を識別および生成タスクに使用する必要性について論じる。 パラフレーズ生成のための多参照テストセット(MultiPIT_NMR)と大規模自動構築トレーニングセット(MultiPIT_Auto)に加えて、パラフレーズ識別のための2つの異なるパラフレーズ定義を用いた合計130k文対のクラウドソーシング(MultiPIT_crowd)とエキスパート(MultiPIT_expert)アノテーションからなるTwitter(MultiPIT)コーパスを提案する。 データアノテーションの品質とタスク固有のパラフレーズ定義の改善により、データセットに微調整された最高の事前学習言語モデルは、自動パラフレーズ識別のための84.2 F1の最先端性能を達成する。 さらに,マルチpit_autoで学習したパラフレーズ生成モデルは,quora,mscoco,paranmtなどのコーパスで微調整されたモデルに比べて,より多様で高品質なパラフレーズを生成する。

This paper addresses the quality issues in existing Twitter-based paraphrase datasets, and discusses the necessity of using two separate definitions of paraphrase for identification and generation tasks. We present a new Multi-Topic Paraphrase in Twitter (MultiPIT) corpus that consists of a total of 130k sentence pairs with crowdsoursing (MultiPIT_crowd) and expert (MultiPIT_expert) annotations using two different paraphrase definitions for paraphrase identification, in addition to a multi-reference test set (MultiPIT_NMR) and a large automatically constructed training set (MultiPIT_Auto) for paraphrase generation. With improved data annotation quality and task-specific paraphrase definition, the best pre-trained language model fine-tuned on our dataset achieves the state-of-the-art performance of 84.2 F1 for automatic paraphrase identification. Furthermore, our empirical results also demonstrate that the paraphrase generation models trained on MultiPIT_Auto generate more diverse and high-quality paraphrases compared to their counterparts fine-tuned on other corpora such as Quora, MSCOCO, and ParaNMT.
翻訳日:2022-10-10 13:42:00 公開日:2022-10-06
# HealthE:オンラインテキストヘルスアドバイザにおけるエンティティの分類

HealthE: Classifying Entities in Online Textual Health Advice ( http://arxiv.org/abs/2210.03246v1 )

ライセンス: Link先を確認
Joseph Gatto, Parker Seegmiller, Garrett Johnston, Sarah M. Preum(参考訳) 自然言語における実体の処理は多くの医療用NLPシステムに必須である。 残念ながら、既存のデータセットは、webmdのようなサイトでよく見られる健康アドバイスのような、公衆衛生に関連するテキストのモデル化に必要なエンティティをほとんど表現していない。 人々はそのような情報を個人の健康管理や臨床に関連する意思決定に頼っている。 本研究では、6,756の健康アドバイスからなる新しい注釈付きデータセットHealthEをリリースする。 HealthEは既存のNERコーパスに比べてより粒度の細かいラベル空間を持ち、多様な健康用語のアノテーションを含んでいる。 さらに、エンティティクラス分類におけるテキストコンテキストパターンを活用する、新しいヘルスエンティティ分類モデルEP S-BERTを導入する。 EP S-BERTは、臨床テキストから疾患や医薬品の言及を抽出するために訓練された市販の医療用NERツールと比較して、最寄りのベースラインよりもF1スコアが4ポイント上昇し、F1が34ポイント上昇する。 すべてのコードとデータはgithubで公開されている。

The processing of entities in natural language is essential to many medical NLP systems. Unfortunately, existing datasets vastly under-represent the entities required to model public health relevant texts such as health advice often found on sites like WebMD. People rely on such information for personal health management and clinically relevant decision making. In this work, we release a new annotated dataset, HealthE, consisting of 6,756 health advice. HealthE has a more granular label space compared to existing medical NER corpora and contains annotation for diverse health phrases. Additionally, we introduce a new health entity classification model, EP S-BERT, which leverages textual context patterns in the classification of entity classes. EP S-BERT provides a 4-point increase in F1 score over the nearest baseline and a 34-point increase in F1 when compared to off-the-shelf medical NER tools trained to extract disease and medication mentions from clinical texts. All code and data are publicly available on Github.
翻訳日:2022-10-10 13:41:36 公開日:2022-10-06
# メモリ制約下でのオートコンプリートのための小文字モデル

Small Character Models Match Large Word Models for Autocomplete Under Memory Constraints ( http://arxiv.org/abs/2210.03251v1 )

ライセンス: Link先を確認
Ganesh Jawahar, Subhabrata Mukherjee, Debadeepta Dey, Muhammad Abdul-Mageed, Laks V.S. Lakshmanan, Caio Cesar Teodoro Mendes, Gustavo Henrique de Rosa, Shital Shah(参考訳) オートコンプリート(autocomplete)は、ユーザがプロンプトと呼ばれるテキストを入力して、モデルによってセマンティクス的にコヒーレントな継続を生成するタスクである。 このタスクの既存の作業は主に、単語ベースの言語モデルが非常に効果的である高周波ユーザプロンプトパターン(または集中プロンプト)を持つデータセット(eメール、チャットなど)に焦点を当てている。 本研究では,低頻度ユーザのプロンプトパターン(例えば,第93回アカデミー賞のプロンプトなど)からなるより困難な設定について検討し,文字ベースの言語モデルの有効性を示す。 メモリ制限された設定(エッジデバイスやスマートフォンなど)下では,文字ベースの表現が全体のモデルサイズ(パラメーター)を低減するのに有効である。 我々は、WikiText-103ベンチマークを用いて、モデルサイズを制御した場合、文字モデルがオートコンプリートタスクの正確な一致精度で単語モデルに匹敵することを示す。 例えば、20Mパラメータのキャラクタモデルがバニラ設定における80Mパラメータのワードモデルと類似して動作することを示す。 さらに,合成情報形式における帰納的バイアスと大単語モデルからの表現伝達を取り入れ,文字モデルを改善する新しい手法を提案する。

Autocomplete is a task where the user inputs a piece of text, termed prompt, which is conditioned by the model to generate semantically coherent continuation. Existing works for this task have primarily focused on datasets (e.g., email, chat) with high frequency user prompt patterns (or focused prompts) where word-based language models have been quite effective. In this work, we study the more challenging setting consisting of low frequency user prompt patterns (or broad prompts, e.g., prompt about 93rd academy awards) and demonstrate the effectiveness of character-based language models. We study this problem under memory-constrained settings (e.g., edge devices and smartphones), where character-based representation is effective in reducing the overall model size (in terms of parameters). We use WikiText-103 benchmark to simulate broad prompts and demonstrate that character models rival word models in exact match accuracy for the autocomplete task, when controlled for the model size. For instance, we show that a 20M parameter character model performs similar to an 80M parameter word model in the vanilla setting. We further propose novel methods to improve character models by incorporating inductive bias in the form of compositional information and representation transfer from large word models.
翻訳日:2022-10-10 13:41:18 公開日:2022-10-06
# 特徴共有と分割アンサンブルによる潜在多様体上のニューラルコーディングの理解

Understanding Neural Coding on Latent Manifolds by Sharing Features and Dividing Ensembles ( http://arxiv.org/abs/2210.03155v1 )

ライセンス: Link先を確認
Martin Bjerke, Lukas Schott, Kristopher T. Jensen, Claudia Battistin, David A. Klindt, Benjamin A. Dunn(参考訳) システム神経科学は、単一ニューロンチューニング曲線と集団活動の分析を特徴とする2つの相補的な神経データ観に依存している。 これらの2つの視点は、単純なチューニング曲線関数によってモデル化された潜在変数と神経活動の関係を制約するニューラル潜在変数モデルにおいてエレガントに結合する。 これは最近、現実的かつ位相的に関連する潜在多様体への応用を含むガウス過程を用いて実証されている。 しかし、これらのモデルと以前のモデルは、神経集団の重要な共有符号化特性を欠いた。 ニューラルチューニング曲線にまたがる機能共有を提案し、性能を大幅に改善し、より良い最適化を実現する。 また、異なるニューロン群、すなわちアンサンブル群が異なる潜在多様体によって変調できるアンサンブル検出の問題に対する解決策を提案する。 これはトレーニング中のニューロンのソフトクラスタリングによって達成され、教師なしの方法で混合神経集団を分離することができる。 これらの革新は、複雑な潜在多様体の混合でもよく訓練され、より良く機能する神経集団活動のより解釈可能なモデルへと繋がる。 最後に,本手法を最近公開されたグリッドセルデータセットに適用し,異なるアンサンブルを復元し,トロイダル潜伏剤を推定し,ニューラルネットワークのチューニング曲線を1つの統合モデリングフレームワークで予測する。

Systems neuroscience relies on two complementary views of neural data, characterized by single neuron tuning curves and analysis of population activity. These two perspectives combine elegantly in neural latent variable models that constrain the relationship between latent variables and neural activity, modeled by simple tuning curve functions. This has recently been demonstrated using Gaussian processes, with applications to realistic and topologically relevant latent manifolds. Those and previous models, however, missed crucial shared coding properties of neural populations. We propose feature sharing across neural tuning curves, which significantly improves performance and leads to better-behaved optimization. We also propose a solution to the problem of ensemble detection, whereby different groups of neurons, i.e., ensembles, can be modulated by different latent manifolds. This is achieved through a soft clustering of neurons during training, thus allowing for the separation of mixed neural populations in an unsupervised manner. These innovations lead to more interpretable models of neural population activity that train well and perform better even on mixtures of complex latent manifolds. Finally, we apply our method on a recently published grid cell dataset, recovering distinct ensembles, inferring toroidal latents and predicting neural tuning curves all in a single integrated modeling framework.
翻訳日:2022-10-10 13:34:58 公開日:2022-10-06
# がん研究のための統合イメージングインフォマティクス:ニューロオンコロジーのためのワークフロー自動化(I3CR-WANO)

Integrative Imaging Informatics for Cancer Research: Workflow Automation for Neuro-oncology (I3CR-WANO) ( http://arxiv.org/abs/2210.03151v1 )

ライセンス: Link先を確認
Satrajit Chakrabarty, Syed Amaan Abidi, Mina Mousa, Mahati Mokkarala, Isabelle Hren, Divya Yadav, Matthew Kelsey, Pamela LaMontagne, John Wood, Michael Adams, Yuzhuo Su, Sherry Thorpe, Caroline Chung, Aristeidis Sotiras, and Daniel S. Marcus(参考訳) 腫瘍評価を作成するために臨床画像データの量を増やす努力は、データの不均一性のためにかなりの手動データを必要とする。 本稿では,多系列神経腫瘍学MRIデータの集約と処理のための人工知能ベースのソリューションを提案する。 エンドツーエンドフレームワーク 一 アンサンブル分類器を用いてMRI配列を分類すること。 二 再現可能な方法でデータを前処理すること。 iii)畳み込みニューラルネットワークを用いた腫瘍組織サブタイプの検討 iv) 多様な放射線特性を抽出する。 さらに、欠落したシーケンスにロバストで、expert-in-the-loopアプローチを採用しており、セグメンテーションの結果は放射線技師によって手作業で洗練される可能性がある。 dockerコンテナでのフレームワークの実装に続いて、ワシントン大学医学部(wusm; n = 384)とm.d. anderson cancer center(mda; n = 30)から収集された2つの振り返りグリオーマデータセットに適用し、病理診断グリオーマ患者からのmriスキャンを行った。 スキャン型分類器の精度は99%を超え、それぞれWUSMデータセットとMDAデータセットから380/384セッションと30/30セッションのシーケンスを正確に同定した。 予測した腫瘍マスクと切除した腫瘍マスクのDice similarity Coefficientを用いてセグメンテーション性能を定量化した。 平均diceスコアはwusmとmdaでそれぞれ0.882 (\pm$0.244) と0.977 (\pm$0.04) であった。 この合理化フレームワークは、グリオーマの様々なグレードを持つ患者のMRIデータを自動でキュレート、処理、セグメンテーションし、大規模な神経腫瘍学データセットのキュレーションを可能にし、臨床実践における補助具としての統合の可能性を示す。

Efforts to utilize growing volumes of clinical imaging data to generate tumor evaluations continue to require significant manual data wrangling owing to the data heterogeneity. Here, we propose an artificial intelligence-based solution for the aggregation and processing of multisequence neuro-oncology MRI data to extract quantitative tumor measurements. Our end-to-end framework i) classifies MRI sequences using an ensemble classifier, ii) preprocesses the data in a reproducible manner, iii) delineates tumor tissue subtypes using convolutional neural networks, and iv) extracts diverse radiomic features. Moreover, it is robust to missing sequences and adopts an expert-in-the-loop approach, where the segmentation results may be manually refined by radiologists. Following the implementation of the framework in Docker containers, it was applied to two retrospective glioma datasets collected from the Washington University School of Medicine (WUSM; n = 384) and the M.D. Anderson Cancer Center (MDA; n = 30) comprising preoperative MRI scans from patients with pathologically confirmed gliomas. The scan-type classifier yielded an accuracy of over 99%, correctly identifying sequences from 380/384 and 30/30 sessions from the WUSM and MDA datasets, respectively. Segmentation performance was quantified using the Dice Similarity Coefficient between the predicted and expert-refined tumor masks. Mean Dice scores were 0.882 ($\pm$0.244) and 0.977 ($\pm$0.04) for whole tumor segmentation for WUSM and MDA, respectively. This streamlined framework automatically curated, processed, and segmented raw MRI data of patients with varying grades of gliomas, enabling the curation of large-scale neuro-oncology datasets and demonstrating a high potential for integration as an assistive tool in clinical practice.
翻訳日:2022-10-10 13:32:40 公開日:2022-10-06
# Q-LSTM言語モデル - プライバシ保護のための分散量子多言語事前訓練言語モデル

Q-LSTM Language Model -- Decentralized Quantum Multilingual Pre-Trained Language Model for Privacy Protection ( http://arxiv.org/abs/2210.03221v1 )

ライセンス: Link先を確認
Shuyue Stella Li, Xiangyu Zhang, Shu Zhou, Hongchao Shu, Ruixing Liang, Hexin Liu, and Leibny Paola Garcia(参考訳) 大規模な言語モデルは、プライベート情報をエンコードしたり、反映したりする可能性のある膨大な自然言語データに基づいてトレーニングされます。 注意深い操作によって、悪意のあるエージェントは、事前トレーニングプロセスにデータ衛生と差分プライバシーアルゴリズムが関与している場合でも、トレーニングデータをリバースエンジニアリングすることができる。 本研究では,大規模言語モデルの学習におけるプライバシー問題に対処する分散トレーニングフレームワークを提案する。 このフレームワークは、文埋め込みのための変分量子分類器(VQC)とローカル長短項メモリ(LSTM)モデルで構築されたクラウド量子言語モデルで構成されている。 量子言語モデルの性能評価には,内在的評価(ロス,パープレキシティ)と外在的評価(ダウンストリーム感情分析タスク)の両方を用いる。 私たちの量子モデルは、上記のすべてのメトリクスにおいて古典的なものと同等でした。 また,VQCのサイズとトレーニングデータのサイズがモデルの性能に及ぼす影響を検討するためのアブレーション研究を行った。 当社のアプローチでは,下流タスクのパフォーマンスを犠牲にすることなく,プライバシの問題を解決する。 古典的ハードウェアにおける量子演算の難易度は、トレーニングデータの機密性を保証し、いかなる敵によっても回復することができない。

Large-scale language models are trained on a massive amount of natural language data that might encode or reflect our private information. With careful manipulation, malicious agents can reverse engineer the training data even if data sanitation and differential privacy algorithms were involved in the pre-training process. In this work, we propose a decentralized training framework to address privacy concerns in training large-scale language models. The framework consists of a cloud quantum language model built with Variational Quantum Classifiers (VQC) for sentence embedding and a local Long-Short Term Memory (LSTM) model. We use both intrinsic evaluation (loss, perplexity) and extrinsic evaluation (downstream sentiment analysis task) to evaluate the performance of our quantum language model. Our quantum model was comparable to its classical counterpart on all the above metrics. We also perform ablation studies to look into the effect of the size of VQC and the size of training data on the performance of the model. Our approach solves privacy concerns without sacrificing downstream task performance. The intractability of quantum operations on classical hardware ensures the confidentiality of the training data and makes it impossible to be recovered by any adversary.
翻訳日:2022-10-10 13:25:30 公開日:2022-10-06
# トランスデューサを用いた自動音声認識における領域適応時の損傷制御

Damage Control During Domain Adaptation for Transducer Based Automatic Speech Recognition ( http://arxiv.org/abs/2210.03255v1 )

ライセンス: Link先を確認
Somshubra Majumdar, Shantanu Acharya, Vitaly Lavrukhin, Boris Ginsburg(参考訳) 自動音声認識モデルは、新しい領域で精度を向上させるためにしばしば適用される。 新しいドメインへのモデル適応の潜在的な欠点は、元のドメインの単語エラー率が著しく低下する破滅的な忘れることである。 本稿では、新しい領域に自動音声認識モデルを同時に適用したい場合と、元のトレーニングデータセットにアクセスせずに元のドメインの精度の低下を制限する場合について述べる。 本稿では,Transducerエンコーダの限られたトレーニング戦略や正規化アダプタモジュール,予測,結合器ネットワークなどの手法を提案する。 本手法は,Google Speech Commands および UK および Ireland English Dialect 音声データセットに適用し,元のドメインの劣化を抑えつつ,新たなターゲットドメインに対する強い結果を得る。

Automatic speech recognition models are often adapted to improve their accuracy in a new domain. A potential drawback of model adaptation to new domains is catastrophic forgetting, where the Word Error Rate on the original domain is significantly degraded. This paper addresses the situation when we want to simultaneously adapt automatic speech recognition models to a new domain and limit the degradation of accuracy on the original domain without access to the original training dataset. We propose several techniques such as a limited training strategy and regularized adapter modules for the Transducer encoder, prediction, and joiner network. We apply these methods to the Google Speech Commands and to the UK and Ireland English Dialect speech data set and obtain strong results on the new target domain while limiting the degradation on the original domain.
翻訳日:2022-10-10 13:25:10 公開日:2022-10-06
# テスト関数を用いた遺伝的アルゴリズムの定式化とチューニング

Genetic algorithm formulation and tuning with use of test functions ( http://arxiv.org/abs/2210.03217v1 )

ライセンス: Link先を確認
Tomasz Tarkowski(参考訳) 本研究は,浮動小数点,整数,バイナリ,置換表現を用いた単一目的制約付き遺伝的アルゴリズムについて論じる。 テスト関数を用いた浮動小数点遺伝的アルゴリズムのチューニングを行い、比較的優れた性能でパラメータ化を行う。

This work discusses single-objective constrained genetic algorithm with floating-point, integer, binary and permutation representation. Floating-point genetic algorithm tuning with use of test functions is done and leads to a parameterization with comparatively outstanding performance.
翻訳日:2022-10-10 13:24:29 公開日:2022-10-06
# 感度属性のない公正性評価:補助モデルのみを用いたフレームワーク

Evaluating Fairness Without Sensitive Attributes: A Framework Using Only Auxiliary Models ( http://arxiv.org/abs/2210.03175v1 )

ライセンス: Link先を確認
Zhaowei Zhu, Yuanshun Yao, Jiankai Sun, Yang Liu, Hang Li(参考訳) 文学の量や機械学習の公平性に対する大衆の関心は著しく伸びているが、実際、公正性を研究・促進する第一歩である公平性を測定するための基本的なタスクは困難である。 これは、機密属性がプライバシー規制のためにしばしば利用できないためである。 直接的な解決策は、欠落した機密属性を予測するために補助モデルを使用することである。 しかし,本理論解析により,直接測定された公正度測定値の推定誤差は,補助モデルの予測誤差率に比例することが示された。 推定誤差を減少させようとする既存の作業では、例えば、基底の感度の高い属性へのアクセスや条件付き独立性といった、強い仮定が必要となる。 本稿では,これらの仮定を取り除き,既成の補助モデルのみを用いた枠組みを提案する。 主な課題は、不完全に予測されたセンシティブな属性が、地味のセンシティブな属性を知ることなく、フェアネスの指標に負の影響を減らせるかである。 ノイズラベル学習の文献に触発されて、まず直接測定された公正度とそれに対応する地味度との閉形式関係を導出する。 そして、いくつかの重要な統計値(最も重要なノイズラベル文献の遷移行列)を推定し、そこから派生した関係と合わせてフェアネスの指標を校正する。 さらに, キャリブレーション指標における推定誤差の上限を理論的に証明し, 特に補助モデルが不正確な場合や, 対象モデルに偏りが強い場合において, 推定誤差を著しく低減できることを示す。 compas と celeba に関する実験は理論解析を検証し、好都合な条件下での基準値よりもフェアネスをかなり正確に測定できることを示した。

Although the volume of literature and public attention on machine learning fairness has been growing significantly, in practice some tasks as basic as measuring fairness, which is the first step in studying and promoting fairness, can be challenging. This is because sensitive attributes are often unavailable due to privacy regulations. The straightforward solution is to use auxiliary models to predict the missing sensitive attributes. However, our theoretical analyses show that the estimation error of the directly measured fairness metrics is proportional to the error rates of auxiliary models' predictions. Existing works that attempt to reduce the estimation error often require strong assumptions, e.g. access to the ground-truth sensitive attributes or some form of conditional independence. In this paper, we drop those assumptions and propose a framework that uses only off-the-shelf auxiliary models. The main challenge is how to reduce the negative impact of imperfectly predicted sensitive attributes on the fairness metrics without knowing the ground-truth sensitive attributes. Inspired by the noisy label learning literature, we first derive a closed-form relationship between the directly measured fairness metrics and their corresponding ground-truth metrics. And then we estimate some key statistics (most importantly transition matrix in the noisy label literature), which we use, together with the derived relationship, to calibrate the fairness metrics. In addition, we theoretically prove the upper bound of the estimation error in our calibrated metrics and show our method can substantially decrease the estimation error especially when auxiliary models are inaccurate or the target model is highly biased. Experiments on COMPAS and CelebA validate our theoretical analyses and show our method can measure fairness significantly more accurately than baselines under favorable circumstances.
翻訳日:2022-10-10 13:24:24 公開日:2022-10-06
# InfoOT: 最適輸送を最大化する情報

InfoOT: Information Maximizing Optimal Transport ( http://arxiv.org/abs/2210.03164v1 )

ライセンス: Link先を確認
Ching-Yao Chuang, Stefanie Jegelka, David Alvarez-Melis(参考訳) 最適な輸送は、幾何距離など、それらの間の輸送コストを最小限にして、分布をまたいだサンプルを並べる。 しかし、クラスタのようなデータのコヒーレンス構造を無視し、アウトレーヤをうまく扱わず、新しいデータポイントを統合することができない。 これらの欠点に対処するために、幾何距離を最小化しながらドメイン間の相互情報を最大化する最適な輸送の情報理論拡張であるInfoOTを提案する。 結果として得られる目標は(一般化された)最適輸送問題として定式化でき、投影勾配降下によって効率的に解くことができる。 この定式化は、外れ値にロバストな新しい射影法を与え、見当たらないサンプルに一般化する。 InfoOTは、ドメイン適応、クロスドメイン検索、シングルセルアライメントにおけるベンチマーク間のアライメントの質を実証的に改善する。

Optimal transport aligns samples across distributions by minimizing the transportation cost between them, e.g., the geometric distances. Yet, it ignores coherence structure in the data such as clusters, does not handle outliers well, and cannot integrate new data points. To address these drawbacks, we propose InfoOT, an information-theoretic extension of optimal transport that maximizes the mutual information between domains while minimizing geometric distances. The resulting objective can still be formulated as a (generalized) optimal transport problem, and can be efficiently solved by projected gradient descent. This formulation yields a new projection method that is robust to outliers and generalizes to unseen samples. Empirically, InfoOT improves the quality of alignments across benchmarks in domain adaptation, cross-domain retrieval, and single-cell alignment.
翻訳日:2022-10-10 13:16:49 公開日:2022-10-06
# 動的ベンチマークの理論

A Theory of Dynamic Benchmarks ( http://arxiv.org/abs/2210.03165v1 )

ライセンス: Link先を確認
Ali Shirali, Rediet Abebe, Moritz Hardt(参考訳) 動的ベンチマークは静的ベンチマークの制限を軽減するために、モデルフィッティングとデータ収集を織り込む。 静的な設定に関する広範な理論的、実証的な研究とは対照的に、動的に対応する研究は、限られた経験的研究と、現在まで明らかな理論的基礎によって遅れている。 この欠陥に対応して、動的ベンチマークの理論的研究を開始する。 我々は,現在の実践を捉えた2つの実現と,より複雑な設定をモデル化するもう1つの実現について検討する。 第1のモデルでは、データ収集とモデルフィッティングが逐次的に行われるが、モデルの性能は向上するが、わずか3ラウンドで停止できる。 例えば、アノテータの不一致から生じるラベルノイズは、さらに強いネガティブな結果をもたらす。 第2のモデルは、データ収集とモデル適合が階層的な依存性構造を持つ場合に、第1のモデルを一般化する。 この設計は、複雑さが著しく増加するにもかかわらず、最初のものよりも厳格に進歩することを保証している。 2つの一般的なデータセット上で動的ベンチマークをシミュレートすることで理論的解析を支援する。 これらの結果は動的ベンチマークの利点と実用上の限界を照らし、経験的作業において観察されるボトルネックに対する理論的基礎と因果的説明の両方を提供する。

Dynamic benchmarks interweave model fitting and data collection in an attempt to mitigate the limitations of static benchmarks. In contrast to an extensive theoretical and empirical study of the static setting, the dynamic counterpart lags behind due to limited empirical studies and no apparent theoretical foundation to date. Responding to this deficit, we initiate a theoretical study of dynamic benchmarking. We examine two realizations, one capturing current practice and the other modeling more complex settings. In the first model, where data collection and model fitting alternate sequentially, we prove that model performance improves initially but can stall after only three rounds. Label noise arising from, for instance, annotator disagreement leads to even stronger negative results. Our second model generalizes the first to the case where data collection and model fitting have a hierarchical dependency structure. We show that this design guarantees strictly more progress than the first, albeit at a significant increase in complexity. We support our theoretical analysis by simulating dynamic benchmarks on two popular datasets. These results illuminate the benefits and practical limitations of dynamic benchmarking, providing both a theoretical foundation and a causal explanation for observed bottlenecks in empirical work.
翻訳日:2022-10-10 13:16:34 公開日:2022-10-06
# 補助共変量を用いたFDR制御確率モデル

Probabilistic Model Incorporating Auxiliary Covariates to Control FDR ( http://arxiv.org/abs/2210.03178v1 )

ライセンス: Link先を確認
Lin Qiu, Nils Murrugarra-Llerena, V\'itor Silva, Lin Lin, Vernon M. Chinchilli(参考訳) 複数の仮説テストの側面情報を活用しながら、偽発見率(FDR)を制御することは、現代のデータサイエンスにおける新たな研究トピックである。 既存のメソッドはテストレベルのコ変数に依存するが、テストレベルのコ変数に関するメトリクスは無視する。 この戦略は、テストレベルの共変量と補助的な計量または共変量の間に間接関係がしばしば存在する複雑な大規模問題に対して最適ではないかもしれない。 我々は,FDR(NeurT-FDR)を制御する深層ブラックボックスフレームワークにおいて,テストレベルの共変量に補助的共変量を加える。 提案手法は,ニューラルネットワークとしてテストレベル共変分をパラメータ化し,高次元特徴の柔軟なハンドリングと効率的なエンドツーエンド最適化を可能にする回帰フレームワークを介して補助共変分を調整する。 neurt-fdrは3つの実際のデータセットにおいて、競合するベースラインに比べてかなり多く発見できることを示した。

Controlling False Discovery Rate (FDR) while leveraging the side information of multiple hypothesis testing is an emerging research topic in modern data science. Existing methods rely on the test-level covariates while ignoring metrics about test-level covariates. This strategy may not be optimal for complex large-scale problems, where indirect relations often exist among test-level covariates and auxiliary metrics or covariates. We incorporate auxiliary covariates among test-level covariates in a deep Black-Box framework controlling FDR (named as NeurT-FDR) which boosts statistical power and controls FDR for multiple-hypothesis testing. Our method parametrizes the test-level covariates as a neural network and adjusts the auxiliary covariates through a regression framework, which enables flexible handling of high-dimensional features as well as efficient end-to-end optimization. We show that NeurT-FDR makes substantially more discoveries in three real datasets compared to competitive baselines.
翻訳日:2022-10-10 13:16:16 公開日:2022-10-06
# 概念ドリフトを用いたデータストリーム分類におけるk-NNの評価

Evaluating k-NN in the Classification of Data Streams with Concept Drift ( http://arxiv.org/abs/2210.03119v1 )

ライセンス: Link先を確認
Roberto Souto Maior de Barros, Silas Garrido Teixeira de Carvalho Santos, Jean Paul Barddal(参考訳) データストリームはしばしば、高速で連続的に流れる大量のデータとして定義される。 さらに、これらのデータは、概念ドリフト(concept drift)として知られるデータ分散の変化の影響を受けやすい。 上述のすべての理由から、ストリームからの学習は、しばしばオンラインであり、メモリ消費と実行時間の制限下にある。 多くの分類アルゴリズムが存在するが、この領域で出版された作品の多くは、実験のベースラーナーとしてネイブベイズ(NB)とホーフディングツリー(HT)を使用している。 本稿では,k-nearest neighbors (k-nn) を概念ドリフトの対象とするデータストリームの分類候補として深く評価する。 また、時間の複雑さと、k-nnの2つの主要なパラメータ、すなわち、予測に使用される最寄りの近傍の数(k)とウィンドウサイズ(w)を分析する。 我々はk-NNのパラメータ値を比較し、多くのデータセットのドリフト検出器(RDDM)とNBとHTを比較した。 我々は、k-NNがデータストリーム分類にふさわしい候補である、特にランタイム制約があまり制限されない場合に、10の研究質問を定式化し、回答した。

Data streams are often defined as large amounts of data flowing continuously at high speed. Moreover, these data are likely subject to changes in data distribution, known as concept drift. Given all the reasons mentioned above, learning from streams is often online and under restrictions of memory consumption and run-time. Although many classification algorithms exist, most of the works published in the area use Naive Bayes (NB) and Hoeffding Trees (HT) as base learners in their experiments. This article proposes an in-depth evaluation of k-Nearest Neighbors (k-NN) as a candidate for classifying data streams subjected to concept drift. It also analyses the complexity in time and the two main parameters of k-NN, i.e., the number of nearest neighbors used for predictions (k), and window size (w). We compare different parameter values for k-NN and contrast it to NB and HT both with and without a drift detector (RDDM) in many datasets. We formulated and answered 10 research questions which led to the conclusion that k-NN is a worthy candidate for data stream classification, especially when the run-time constraint is not too restrictive.
翻訳日:2022-10-10 13:07:42 公開日:2022-10-06
# gbsvm:粒球支持ベクターマシン

GBSVM: Granular-ball Support Vector Machine ( http://arxiv.org/abs/2210.03120v1 )

ライセンス: Link先を確認
Shuyin Xia, Guoyin Wang, Xinbo Gao, Xiaoli Peng(参考訳) GBSVM (Granular-ball Support Vector Machine) は、粒度の粗い粒度を入力として用い、データポイントの代わりに分類器を構築する重要な試みである。 機械学習の歴史において、入力に点、すなわち$x_i$が含まれない最初の分類器である。 しかし、その双対モデルは導出されておらず、アルゴリズムは実装されておらず、適用できない。 一方、既存のモデルにはいくつかのエラーがある。 これらの問題に対処するため,GBSVMのオリジナルのモデルの誤りを修正し,その二重モデルを導出する。 さらに、双対モデルを解くために粒子群最適化アルゴリズムを用いてアルゴリズムを設計する。 UCIベンチマークデータセットの実験結果は、GBSVMが堅牢性と効率性に優れていることを示している。

GBSVM (Granular-ball Support Vector Machine) is an important attempt to use the coarse granularity of a granular-ball as the input to construct a classifier instead of a data point. It is the first classifier whose input contains no points, i.e., $x_i$, in the history of machine learning. However, on the one hand, its dual model is not derived, and the algorithm has not been implemented and can not be applied. On the other hand, there are some errors in its existing model. To address these problems, this paper has fixed the errors of the original model of GBSVM, and derived its dual model. Furthermore, an algorithm is designed using particle swarm optimization algorithm to solve the dual model. The experimental results on the UCI benchmark datasets demonstrate that GBSVM has good robustness and efficiency.
翻訳日:2022-10-10 13:07:22 公開日:2022-10-06
# 時系列予測のための時間空間分解と融合ネットワーク

Temporal Spatial Decomposition and Fusion Network for Time Series Forecasting ( http://arxiv.org/abs/2210.03122v1 )

ライセンス: Link先を確認
Liwang Zhou, Jing Gao(参考訳) 時系列予測のより良い結果を得るためには、機能エンジニアリングが必要であり、分解が不可欠である。 標準的な時系列分解は柔軟性と堅牢性に欠けるため、多くの予測タスクには1つの分解アプローチは使用できないことが多い。 従来の機能選択は、既存のドメイン知識に大きく依存し、一般的な方法論がなく、多くの労力を必要とします。 しかしながら、ディープラーニングに基づくほとんどの時系列予測モデルは、通常、解釈可能性の問題に苦しむため、"ブラックボックス"の結果は、信頼性の欠如につながる。 上記の問題に対処するためには、論文の動機となる。 本稿では,自己分解機構と注意的特徴融合機構を備えたニューラルネットワークとしてTSDFNetを提案する。 この自己分解機構により、TSDFNetは任意の時系列に対して拡張性および適応性のある分解機能を付与し、ユーザは自身の基底関数を選択して、シーケンスを時間的空間次元と一般化空間次元に分解することができる。 注意深い特徴融合機構は、外部変数の重要性とターゲット変数との因果関係を捉えることができる。 有効機能を強化しながら、重要でない機能を自動的に抑制できるので、ユーザーは機能選択に苦労する必要がなくなる。 さらに、tsdfnetはディープニューラルネットワークの「ブラックボックス」を可視化し、予測結果を分析することで容易に調べることができる。 我々は10以上のデータセット上で,既存の広く受け入れられているモデルに対する性能改善を実証し,tsdfnetの解釈可能性を示す3つの実験を行った。

Feature engineering is required to obtain better results for time series forecasting, and decomposition is a crucial one. One decomposition approach often cannot be used for numerous forecasting tasks since the standard time series decomposition lacks flexibility and robustness. Traditional feature selection relies heavily on preexisting domain knowledge, has no generic methodology, and requires a lot of labor. However, most time series prediction models based on deep learning typically suffer from interpretability issue, so the "black box" results lead to a lack of confidence. To deal with the above issues forms the motivation of the thesis. In the paper we propose TSDFNet as a neural network with self-decomposition mechanism and an attentive feature fusion mechanism, It abandons feature engineering as a preprocessing convention and creatively integrates it as an internal module with the deep model. The self-decomposition mechanism empowers TSDFNet with extensible and adaptive decomposition capabilities for any time series, users can choose their own basis functions to decompose the sequence into temporal and generalized spatial dimensions. Attentive feature fusion mechanism has the ability to capture the importance of external variables and the causality with target variables. It can automatically suppress the unimportant features while enhancing the effective ones, so that users do not have to struggle with feature selection. Moreover, TSDFNet is easy to look into the "black box" of the deep neural network by feature visualization and analyze the prediction results. We demonstrate performance improvements over existing widely accepted models on more than a dozen datasets, and three experiments showcase the interpretability of TSDFNet.
翻訳日:2022-10-10 13:07:10 公開日:2022-10-06
# ハイブリッドポーリングによる言語処理のための混合グラフ学習の強化

Enhancing Mixup-Based Graph Learning for Language Processing via Hybrid Pooling ( http://arxiv.org/abs/2210.03123v1 )

ライセンス: Link先を確認
Zeming Dong, Qiang Hu, Yuejun Guo, Maxime Cordy, Mike Papadakis, Yves Le Traon, and Jianjun Zhao(参考訳) グラフニューラルネットワーク(GNN)は最近、自然言語やプログラミング言語処理、特にテキストやソースコードの分類で人気がある。 グラフ表現全体をノード表現として処理するグラフプーリング(グラフ分類など)は、GNNの重要なコンポーネントである。 近年,グラフ学習を強化するために,プーリング層後にグラフデータベクトルを混合するデータ拡張戦略である manifold mixup が導入された。 しかし、一連のグラフプーリング手法が存在するため、そのような混合アプローチの有効性にどのように影響するかは不明である。 本稿では,グラフプーリング手法がmixupベースのデータ拡張手法の有効性に与える影響を検討するための第一歩を踏み出す。 具体的には、9種類のハイブリッドプール法が研究において考慮されている。例えば、$\mathcal{M}_{sum}(\mathcal{P}_{att},\mathcal{P}_{max})$である。 自然言語データセット (Gossipcop, Politifact) とプログラミング言語データセット (Java250, Python800) の両方の実験結果から, ハイブリットプール法は標準の最大プール法や最先端のグラフマルチセットトランスフォーマー (GMT) よりも, 計量精度とロバストネスの観点から, ミックスアップに適していることが示された。

Graph neural networks (GNNs) have recently been popular in natural language and programming language processing, particularly in text and source code classification. Graph pooling which processes node representation into the entire graph representation, which can be used for multiple downstream tasks, e.g., graph classification, is a crucial component of GNNs. Recently, to enhance graph learning, Manifold Mixup, a data augmentation strategy that mixes the graph data vector after the pooling layer, has been introduced. However, since there are a series of graph pooling methods, how they affect the effectiveness of such a Mixup approach is unclear. In this paper, we take the first step to explore the influence of graph pooling methods on the effectiveness of the Mixup-based data augmentation approach. Specifically, 9 types of hybrid pooling methods are considered in the study, e.g., $\mathcal{M}_{sum}(\mathcal{P}_{att},\mathcal{P}_{max})$. The experimental results on both natural language datasets (Gossipcop, Politifact) and programming language datasets (Java250, Python800) demonstrate that hybrid pooling methods are more suitable for Mixup than the standard max pooling and the state-of-the-art graph multiset transformer (GMT) pooling, in terms of metric accuracy and robustness.
翻訳日:2022-10-10 13:06:45 公開日:2022-10-06
# アウト・オブ・ディストリビューション対応ロバストネスに向けて

Towards Out-of-Distribution Adversarial Robustness ( http://arxiv.org/abs/2210.03150v1 )

ライセンス: Link先を確認
Adam Ibrahim, Charles Guille-Escuret, Ioannis Mitliagkas, Irina Rish, David Krueger, Pouya Bashivan(参考訳) 敵対的堅牢性は、深層学習の大きな課題であり続けている。 核となる問題は、あるタイプの攻撃に対する堅牢性は、しばしば他の攻撃への転送に失敗することである。 先行研究は、異なる$L_p$ノルムに対するロバスト性の理論的なトレードオフを確立する一方で、ドメイン一般化アプローチを採用することで、多くの一般的な攻撃に対する改善の可能性を示す。 具体的には、各攻撃をドメインとして扱い、全ての訓練攻撃に対して同様のロバスト性を促進するリスク外挿法(REx)を適用する。 既存の手法と比較して,訓練中に見られた攻撃に対して,同様の,あるいは優れた対向性が得られる。 さらに,家族の優れたパフォーマンスや,テスト時にのみ遭遇する攻撃のチューニングを実現する。 攻撃のアンサンブルでは,MNISTでは3.4%,MNISTでは25.9%,CIFAR10では16.9%から23.5%に精度が向上した。

Adversarial robustness continues to be a major challenge for deep learning. A core issue is that robustness to one type of attack often fails to transfer to other attacks. While prior work establishes a theoretical trade-off in robustness against different $L_p$ norms, we show that there is potential for improvement against many commonly used attacks by adopting a domain generalisation approach. Concretely, we treat each type of attack as a domain, and apply the Risk Extrapolation method (REx), which promotes similar levels of robustness against all training attacks. Compared to existing methods, we obtain similar or superior worst-case adversarial robustness on attacks seen during training. Moreover, we achieve superior performance on families or tunings of attacks only encountered at test time. On ensembles of attacks, our approach improves the accuracy from 3.4% the best existing baseline to 25.9% on MNIST, and from 16.9% to 23.5% on CIFAR10.
翻訳日:2022-10-10 13:06:20 公開日:2022-10-06
# 支配に基づくラフセットアプローチ,基本概念と主な動向

Dominance-based Rough Set Approach, basic ideas and main trends ( http://arxiv.org/abs/2210.03233v1 )

ライセンス: Link先を確認
Jerzy B{\l}aszczy\'nski (1), Salvatore Greco (2 and 3), Benedetto Matarazzo (2), Marcin Szel\k{a}g (4) ((1) Poznan Supercomputing and Networking Center - Pozna\'n - Poland, (2) Department of Economics and Business - University of Catania - Catania - Italy, (3) Centre for Operational Research & Logistics - Portsmouth Business School - Portsmouth - UK, (4) Institute of Computing Science - Poznan University of Technology - Pozna\'n - Poland)(参考訳) ドミナンスに基づくラフアプローチ(DRSA)は、MCDA(Multiple Criteria Decision Aiding)を扱う機械学習および知識発見手法として提案されている。 意思決定者(DM)に簡単な嗜好情報を求め、理解しやすく説明しやすいレコメンデーションを提供する能力があるため、DRSAは長年にわたって多くの関心を集めており、現在では最も高く評価されているMCDAアプローチの一つである。 実際、MCDA領域を超えても、モノトニックデータ(および非モノトニックデータ)の分析のための一般的な知識発見およびデータマイニング手法として適用されている。 この貢献の中で、私たちは、その開発とソフトウェアの概要とともに、dsaの基本的な原則と主要な概念を思い出します。 我々はまた,この方法論の起源を歴史的に再構築し,特にローマ語の s{\l}owi\'nski の貢献に焦点をあてた。

Dominance-based Rough Approach (DRSA) has been proposed as a machine learning and knowledge discovery methodology to handle Multiple Criteria Decision Aiding (MCDA). Due to its capacity of asking the decision maker (DM) for simple preference information and supplying easily understandable and explainable recommendations, DRSA gained much interest during the years and it is now one of the most appreciated MCDA approaches. In fact, it has been applied also beyond MCDA domain, as a general knowledge discovery and data mining methodology for the analysis of monotonic (and also non-monotonic) data. In this contribution, we recall the basic principles and the main concepts of DRSA, with a general overview of its developments and software. We present also a historical reconstruction of the genesis of the methodology, with a specific focus on the contribution of Roman S{\l}owi\'nski.
翻訳日:2022-10-10 13:06:02 公開日:2022-10-06
# 神経容積メッシュ発生装置

Neural Volumetric Mesh Generator ( http://arxiv.org/abs/2210.03158v1 )

ライセンス: Link先を確認
Yan Zheng, Lemeng Wu, Xingchao Liu, Zhen Chen, Qiang Liu, Qixing Huang(参考訳) 深部生成モデルは、異なる表現を持つ3次元形状の生成に成功している。 本研究では,新しい,高品質なボリュームメッシュを生成するニューラルボリュームメッシュジェネレータ(NVMG)を提案する。 従来のポイントクラウド、ボクセル、暗黙の曲面の3次元生成モデルとは異なり、ボリュームメッシュの表現は、表面と内部の両方の詳細を備えた業界で使える表現である。 このような高度に構造化されたデータを生成することは、大きな課題をもたらす。 まず,この問題を解決するために拡散型生成モデルを提案し,近対現実の輪郭と構造を持つボクセル化形状を生成する。 ボキセル化形状のテンプレートとして四面体メッシュを簡便に得ることができる。 さらに,ボクセル条件付きニューラルネットワークを用いて,ボクセル上の滑らかな暗黙的表面を予測し,正則化下で4面体メッシュを予測面に段階的に投影する。 正則化項は(1)旋回や高歪みなどの欠陥を除去できるように慎重に設計され、(2)高品質な最終メッシュの変形過程において内部構造と表面構造の正則性を強制する。 実験で示したように、パイプラインは無作為なノイズや参照画像から、後処理なしで高品質なアーティファクトフリーボリュームと表面メッシュを生成することができる。 最新のvoxel-to-mesh変形法と比較して,生成したvoxelを入力として使用する場合,より頑健で優れた性能を示す。

Deep generative models have shown success in generating 3D shapes with different representations. In this work, we propose Neural Volumetric Mesh Generator(NVMG) which can generate novel and high-quality volumetric meshes. Unlike the previous 3D generative model for point cloud, voxel, and implicit surface, the volumetric mesh representation is a ready-to-use representation in industry with details on both the surface and interior. Generating this such highly-structured data thus brings a significant challenge. We first propose a diffusion-based generative model to tackle this problem by generating voxelized shapes with close-to-reality outlines and structures. We can simply obtain a tetrahedral mesh as a template with the voxelized shape. Further, we use a voxel-conditional neural network to predict the smooth implicit surface conditioned on the voxels, and progressively project the tetrahedral mesh to the predicted surface under regularizations. The regularization terms are carefully designed so that they can (1) get rid of the defects like flipping and high distortion; (2) force the regularity of the interior and surface structure during the deformation procedure for a high-quality final mesh. As shown in the experiments, our pipeline can generate high-quality artifact-free volumetric and surface meshes from random noise or a reference image without any post-processing. Compared with the state-of-the-art voxel-to-mesh deformation method, we show more robustness and better performance when taking generated voxels as input.
翻訳日:2022-10-10 12:58:32 公開日:2022-10-06
# トランスフォーマによる消化器疾患の検出

Gastrointestinal Disorder Detection with a Transformer Based Approach ( http://arxiv.org/abs/2210.03168v1 )

ライセンス: Link先を確認
A.K.M. Salman Hosain, Mynul islam, Md Humaion Kabir Mehedi, Irteza Enan Kabir, Zarin Tasnim Khan(参考訳) 内視鏡画像を用いた正確な疾患分類は胃腸科学において重要な問題である。 本稿では,視覚変換器と移動学習モデルを用いて,内視鏡画像の特徴を分類し,診断支援と消化管疾患の同定を行う手法について述べる。 vision transformerは、難しい画像分類タスクで非常に有望な結果を示している。 本稿では, 内視鏡的大腸内視鏡(WCE)画像から消化管疾患を95.63\%の精度で検出するための視覚変換器を用いたアプローチを提案する。 我々は,このトランスフォーマチックなアプローチを,事前学習された畳み込みニューラルネットワーク (cnn) モデルである densenet201 と比較し,様々な定量的性能評価指標で vision transformer が densenet201 を上回ったことを示した。

Accurate disease categorization using endoscopic images is a significant problem in Gastroenterology. This paper describes a technique for assisting medical diagnosis procedures and identifying gastrointestinal tract disorders based on the categorization of characteristics taken from endoscopic pictures using a vision transformer and transfer learning model. Vision transformer has shown very promising results on difficult image classification tasks. In this paper, we have suggested a vision transformer based approach to detect gastrointestianl diseases from wireless capsule endoscopy (WCE) curated images of colon with an accuracy of 95.63\%. We have compared this transformer based approach with pretrained convolutional neural network (CNN) model DenseNet201 and demonstrated that vision transformer surpassed DenseNet201 in various quantitative performance evaluation metrics.
翻訳日:2022-10-10 12:58:06 公開日:2022-10-06
# 非線形回帰のためのスパイキングニューラルネットワーク

Spiking neural network for nonlinear regression ( http://arxiv.org/abs/2210.03515v1 )

ライセンス: Link先を確認
Alexander Henkes, Jason K. Eshraghian, Henning Wessels(参考訳) 第3世代のニューラルネットワークとも呼ばれるスパイクニューラルネットワークは、従来の第2世代のニューラルネットワークよりもメモリとエネルギー消費が大幅に減少する可能性を持っている。 人間の脳の無論の効率に触発され、時間的および神経細胞のスパーシティを導入し、次世代のニューロモルフィック・ハードウェアによって悪用される。 工学的応用への道を開くために,このエキサイティングな技術を連続力学の文脈で紹介する。 しかし、スパイキングニューラルネットワークの性質は回帰問題に挑戦し、エンジニアリング科学のモデリングにおいてしばしば発生する。 この問題を解決するために,スパイクニューラルネットワークを用いた回帰フレームワークを提案する。 特に,スパイキングニューロンの膜電位を利用して,バイナリスパイク列を実数に復号するネットワークトポロジーを導入する。 この貢献の目的は、この新しい手法の簡潔な導入であり、単純なスパイクフィードフォワードから複雑なスパイクロング短期記憶ニューラルネットワークまで、いくつかの異なるスパイクニューラルアーキテクチャが導出される。 線形および非線形な履歴依存材料モデルの回帰に向け、いくつかの数値実験を行った。 従来のニューラルネットワークと直接比較すると、提案するフレームワークは精度と一般化性を保ちながらはるかに効率的であることがわかる。 すべてのコードは再現性のために公開され、この新しいドメインにおける継続的な拡張を促進する。

Spiking neural networks, also often referred to as the third generation of neural networks, carry the potential for a massive reduction in memory and energy consumption over traditional, second-generation neural networks. Inspired by the undisputed efficiency of the human brain, they introduce temporal and neuronal sparsity, which can be exploited by next-generation neuromorphic hardware. To open the pathway toward engineering applications, we introduce this exciting technology in the context of continuum mechanics. However, the nature of spiking neural networks poses a challenge for regression problems, which frequently arise in the modeling of engineering sciences. To overcome this problem, a framework for regression using spiking neural networks is proposed. In particular, a network topology for decoding binary spike trains to real numbers is introduced, utilizing the membrane potential of spiking neurons. As the aim of this contribution is a concise introduction to this new methodology, several different spiking neural architectures, ranging from simple spiking feed-forward to complex spiking long short-term memory neural networks, are derived. Several numerical experiments directed towards regression of linear and nonlinear, history-dependent material models are carried out. A direct comparison with counterparts of traditional neural networks shows that the proposed framework is much more efficient while retaining precision and generalizability. All code has been made publicly available in the interest of reproducibility and to promote continued enhancement in this new domain.
翻訳日:2022-10-10 12:50:40 公開日:2022-10-06
# 対照的なドメインミックスアップを用いたcovid-19情報サービスの教師なしドメイン適応

Unsupervised Domain Adaptation for COVID-19 Information Service with Contrastive Adversarial Domain Mixup ( http://arxiv.org/abs/2210.03250v1 )

ライセンス: Link先を確認
Huimin Zeng, Zhenrui Yue, Ziyi Kou, Lanyu Shang, Yang Zhang, Dong Wang(参考訳) 新型コロナウイルス(covid-19)の誤情報検出の現実世界での応用において、基本的な課題は、特にパンデミックの初期段階において、モデルのエンドツーエンドトレーニングを監督可能にするためのラベル付きcovid-19データの欠如である。 そこで本研究では,既存のソースデータドメインから対象のcovid-19データドメインに知識を転送するために,コントラスト学習と敵対的ドメインミックスアップを用いた教師なしドメイン適応フレームワークを提案する。 特に、ソースドメインとターゲットドメインの間のギャップを埋めるために、この2つのドメイン間のラジアル基底関数(rbf)に基づく不一致を減少させる。 さらに,両ドメインから入力されたテキストの潜在表現を学習過程中に混合することができる中間領域混在を確立するために,ドメイン逆例のパワーを利用する。 複数の実世界のデータセットに対する大規模な実験により、我々の手法は、最先端のベースラインに比べて大幅に改善され、未確認のCOVID-19ターゲットドメインに誤情報検出システムを効果的に適応できることが示唆された。

In the real-world application of COVID-19 misinformation detection, a fundamental challenge is the lack of the labeled COVID data to enable supervised end-to-end training of the models, especially at the early stage of the pandemic. To address this challenge, we propose an unsupervised domain adaptation framework using contrastive learning and adversarial domain mixup to transfer the knowledge from an existing source data domain to the target COVID-19 data domain. In particular, to bridge the gap between the source domain and the target domain, our method reduces a radial basis function (RBF) based discrepancy between these two domains. Moreover, we leverage the power of domain adversarial examples to establish an intermediate domain mixup, where the latent representations of the input text from both domains could be mixed during the training process. Extensive experiments on multiple real-world datasets suggest that our method can effectively adapt misinformation detection systems to the unseen COVID-19 target domain with significant improvements compared to the state-of-the-art baselines.
翻訳日:2022-10-10 12:50:20 公開日:2022-10-06
# 誘導拡散モデルの蒸留について

On Distillation of Guided Diffusion Models ( http://arxiv.org/abs/2210.03142v1 )

ライセンス: Link先を確認
Chenlin Meng, Ruiqi Gao, Diederik P. Kingma, Stefano Ermon, Jonathan Ho, Tim Salimans(参考訳) 分類器フリーの誘導拡散モデルは最近、高分解能画像生成に非常に有効であることが示されており、dall-e 2、glide、imagenといった大規模拡散フレームワークで広く使われている。 しかし,クラス条件モデルと無条件モデルという2つの拡散モデルを数百回評価する必要があるため,分類器フリーの誘導拡散モデルの欠点は,計算コストが高いことにある。 この制限に対処するため, 事前学習した分類器フリーガイド付きモデルが与えられた場合, まず, 条件付きモデルと非条件付きモデルの組み合わせの出力に適合する単一モデルを学習し, そのモデルをより少ないサンプリングステップを必要とする拡散モデルに段階的に蒸留する手法を提案する。 imagenet 64x64とcifar-10では、4つのサンプリングステップを使用して、元のモデルに匹敵するイメージを視覚的に生成することが可能で、元のモデルに匹敵するfid/isスコアを、サンプルから最大256倍高速に生成することができる。

Classifier-free guided diffusion models have recently been shown to be highly effective at high-resolution image generation, and they have been widely used in large-scale diffusion frameworks including DALL-E 2, GLIDE and Imagen. However, a downside of classifier-free guided diffusion models is that they are computationally expensive at inference time since they require evaluating two diffusion models, a class-conditional model and an unconditional model, hundreds of times. To deal with this limitation, we propose an approach to distilling classifier-free guided diffusion models into models that are fast to sample from: Given a pre-trained classifier-free guided model, we first learn a single model to match the output of the combined conditional and unconditional models, and then progressively distill that model to a diffusion model that requires much fewer sampling steps. On ImageNet 64x64 and CIFAR-10, our approach is able to generate images visually comparable to that of the original model using as few as 4 sampling steps, achieving FID/IS scores comparable to that of the original model while being up to 256 times faster to sample from.
翻訳日:2022-10-10 12:41:41 公開日:2022-10-06
# エッジデバイスによるディープラーニングの実現

Enabling Deep Learning on Edge Devices ( http://arxiv.org/abs/2210.03204v1 )

ライセンス: Link先を確認
Zhongnan Qu(参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョン、自然言語処理、強化学習など、多くの異なる認識タスクに成功している。 高性能DNNは資源消費に大きく依存している。 例えば、DNNのトレーニングには高ダイナミックメモリ、大規模なデータセット、大量の計算(長いトレーニング時間)が必要です。 そのため、最先端のdnnは、多数のスーパーコンピュータ、高帯域幅通信バス、共有ストレージインフラストラクチャ、高電力サプリメントを備えたクラウドサーバにデプロイされることが多い。 近年、AR/VR、モバイルアシスタント、モノのインターネットなど、新たなインテリジェントなアプリケーションでは、リソース制約のあるエッジデバイスにDNNをデプロイする必要があります。 クラウドサーバと比較して、エッジデバイスはリソースが比較的少ないことが多い。 エッジデバイスにDNNをデプロイするには、DNNのサイズを減らす必要がある。 本論文では,エッジデバイスへの推論,エッジデバイスへの適応,エッジデバイスへの学習,エッジサーバシステムという4つのエッジインテリジェンスシナリオについて検討し,各シナリオにおける深層学習を実現するための方法論を開発した。 現在のDNNは過パラメータ化されることが多いため、各シナリオにおけるDNNの冗長性を見つけて低減することが目標です。

Deep neural networks (DNNs) have succeeded in many different perception tasks, e.g., computer vision, natural language processing, reinforcement learning, etc. The high-performed DNNs heavily rely on intensive resource consumption. For example, training a DNN requires high dynamic memory, a large-scale dataset, and a large number of computations (a long training time); even inference with a DNN also demands a large amount of static storage, computations (a long inference time), and energy. Therefore, state-of-the-art DNNs are often deployed on a cloud server with a large number of super-computers, a high-bandwidth communication bus, a shared storage infrastructure, and a high power supplement. Recently, some new emerging intelligent applications, e.g., AR/VR, mobile assistants, Internet of Things, require us to deploy DNNs on resource-constrained edge devices. Compare to a cloud server, edge devices often have a rather small amount of resources. To deploy DNNs on edge devices, we need to reduce the size of DNNs, i.e., we target a better trade-off between resource consumption and model accuracy. In this dissertation, we studied four edge intelligence scenarios, i.e., Inference on Edge Devices, Adaptation on Edge Devices, Learning on Edge Devices, and Edge-Server Systems, and developed different methodologies to enable deep learning in each scenario. Since current DNNs are often over-parameterized, our goal is to find and reduce the redundancy of the DNNs in each scenario.
翻訳日:2022-10-10 12:41:20 公開日:2022-10-06
# プライバシ保護機械学習のための合成データセット生成

Synthetic Dataset Generation for Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2210.03205v1 )

ライセンス: Link先を確認
Efstathia Soufleri, Gobinda Saha, Kaushik Roy(参考訳) 機械学習(ML)は、コンピュータビジョン、音声認識、オブジェクト検出といった様々な問題を解決することで、大きな成功を収めている。 この成功の主な理由は、ディープニューラルネットワーク(DNN)をトレーニングするための巨大なデータセットが利用可能になったことだ。 しかし、医療記録などの機密情報を含むデータセットは公開されず、データのプライバシが大きな関心事となる。 暗号化メソッドは可能なソリューションだが、MLアプリケーションへのデプロイは、分類精度に深刻な影響を与え、計算オーバーヘッドが大幅に増加する。 あるいは、難読化テクニックを使うこともできるが、視覚的プライバシと精度のトレードオフを維持することは難しい。 本稿では,元のプライベートデータセットからセキュアな合成データセットを生成する手法を提案する。 バッチ正規化(BN)層を持つネットワークが元のデータセットで事前訓練された場合、まずクラスワイズBN層統計を記録する。 次に、合成データが原画像の層別統計分布と一致するようにランダムノイズを最適化して合成データセットを生成する。 本研究では,画像分類データセット (CIFAR10, ImageNet) について評価し,CIFAR10/ImageNetデータの代わりに合成データをスクラッチからトレーニングし,同等の分類性能が得られることを示す。 さらに,本手法による視覚プライバシの分析には,画像品質指標を用い,オリジナル画像と合成画像との視覚的類似度を高く評価する。 さらに,本提案手法は,グラディエントマッチング攻撃,モデル記憶攻撃,GANベースの攻撃など,様々なプライバシー侵害攻撃の下でデータプライバシを保持する。

Machine Learning (ML) has achieved enormous success in solving a variety of problems in computer vision, speech recognition, object detection, to name a few. The principal reason for this success is the availability of huge datasets for training deep neural networks (DNNs). However, datasets cannot be publicly released if they contain sensitive information such as medical records, and data privacy becomes a major concern. Encryption methods could be a possible solution, however their deployment on ML applications seriously impacts classification accuracy and results in substantial computational overhead. Alternatively, obfuscation techniques could be used, but maintaining a good trade-off between visual privacy and accuracy is challenging. In this paper, we propose a method to generate secure synthetic datasets from the original private datasets. Given a network with Batch Normalization (BN) layers pretrained on the original dataset, we first record the class-wise BN layer statistics. Next, we generate the synthetic dataset by optimizing random noise such that the synthetic data match the layer-wise statistical distribution of original images. We evaluate our method on image classification datasets (CIFAR10, ImageNet) and show that synthetic data can be used in place of the original CIFAR10/ImageNet data for training networks from scratch, producing comparable classification performance. Further, to analyze visual privacy provided by our method, we use Image Quality Metrics and show high degree of visual dissimilarity between the original and synthetic images. Moreover, we show that our proposed method preserves data-privacy under various privacy-leakage attacks including Gradient Matching Attack, Model Memorization Attack, and GAN-based Attack.
翻訳日:2022-10-10 12:40:54 公開日:2022-10-06
# 神経進化はスキル発見のための強化学習の競合的代替手段である

Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery ( http://arxiv.org/abs/2210.03516v1 )

ライセンス: Link先を確認
Felix Chalumeau, Raphael Boige, Bryan Lim, Valentin Mac\'e, Maxime Allard, Arthur Flajolet, Antoine Cully, Thomas Pierrot(参考訳) deep reinforcement learning(rl)は、複雑な制御タスクを解決するためにニューラルネットワークポリシをトレーニングするための強力なパラダイムとして登場した。 しかしながら、これらのポリシーは、訓練されたタスクと環境の正確な仕様に適合しがちであり、条件がわずかにずれたり、階層的に構成された場合、さらに複雑なタスクを解決するためにうまく機能しない。 最近の研究は、単一の政策とは対照的に、様々な領域の国家行動空間を探索するために推進される政策の混合を訓練することが、適応タスクや階層的計画において大きな影響を与える様々な行動セットを生成することによって、この欠点に対処できることを示した。 これは典型的には、RLによって最適化された目的関数に多様性項(しばしば情報理論に由来する)を含めることで実現される。 しかし、これらのアプローチは、しばしば注意深いハイパーパラメータチューニングを効果的に必要とします。 本研究は, 広範に用いられない神経進化法, 特にqd( quality diversity)が, スキル発見のための情報理論に基づくrlの代替となることを実証する。 8つの最先端手法を広範囲に比較した経験的評価 (i)スキルの多様性を直接評価する指標。 (ii)適応作業における技能の発揮、及び (iii)階層的計画のためのプリミティブとして使用する場合、qdメソッドは、ハイパーパラメータに対する感度が低く、スケーラブルで、性能が同等で、時には改善される。 すべての環境に対してほぼ最適性能を提供する方法が存在しないため、今後の方向性を提案し、最適化されたオープンソース実装を提供することで、さらなる研究を支援するための豊富なスコープがある。

Deep Reinforcement Learning (RL) has emerged as a powerful paradigm for training neural policies to solve complex control tasks. However, these policies tend to be overfit to the exact specifications of the task and environment they were trained on, and thus do not perform well when conditions deviate slightly or when composed hierarchically to solve even more complex tasks. Recent work has shown that training a mixture of policies, as opposed to a single one, that are driven to explore different regions of the state-action space can address this shortcoming by generating a diverse set of behaviors, referred to as skills, that can be collectively used to great effect in adaptation tasks or for hierarchical planning. This is typically realized by including a diversity term - often derived from information theory - in the objective function optimized by RL. However these approaches often require careful hyperparameter tuning to be effective. In this work, we demonstrate that less widely-used neuroevolution methods, specifically Quality Diversity (QD), are a competitive alternative to information-theory-augmented RL for skill discovery. Through an extensive empirical evaluation comparing eight state-of-the-art methods on the basis of (i) metrics directly evaluating the skills' diversity, (ii) the skills' performance on adaptation tasks, and (iii) the skills' performance when used as primitives for hierarchical planning; QD methods are found to provide equal, and sometimes improved, performance whilst being less sensitive to hyperparameters and more scalable. As no single method is found to provide near-optimal performance across all environments, there is a rich scope for further research which we support by proposing future directions and providing optimized open-source implementations.
翻訳日:2022-10-10 12:33:07 公開日:2022-10-06
# 生成モデルにおける公正性

Fairness in generative modeling ( http://arxiv.org/abs/2210.03517v1 )

ライセンス: Link先を確認
Mariia Zameshina (LIGM, FAIR), Olivier Teytaud (FAIR), Fabien Teytaud (ULCO), Vlad Hosu, Nathanael Carraz, Laurent Najman (LIGM), Markus Wagner(参考訳) 生成モデルにおける公平性問題とモード崩壊に対処する汎用アルゴリズムを設計する。 より正確には、我々が気づかないかもしれない変数を含む、極力多くの敏感な変数に対して公正なアルゴリズムを設計するために、私たちはセンシティブな変数の事前知識を仮定しない。 法的リスクを軽減するために、顔のすべての画像(生成されたものでさえ)が削除された。

We design general-purpose algorithms for addressing fairness issues and mode collapse in generative modeling. More precisely, to design fair algorithms for as many sensitive variables as possible, including variables we might not be aware of, we assume no prior knowledge of sensitive variables: our algorithms use unsupervised fairness only, meaning no information related to the sensitive variables is used for our fairness-improving methods. All images of faces (even generated ones) have been removed to mitigate legal risks.
翻訳日:2022-10-10 12:32:40 公開日:2022-10-06
# 言語モデルにおける制御性と毒性低減のためのプロンプト圧縮とコントラスト条件

Prompt Compression and Contrastive Conditioning for Controllability and Toxicity Reduction in Language Models ( http://arxiv.org/abs/2210.03162v1 )

ライセンス: Link先を確認
David Wingate, Mohammad Shoeybi, Taylor Sorensen(参考訳) 言語モデルの条件付けに使用されるプロンプトを圧縮するというアイデアを探求し、圧縮プロンプトが元のプロンプトに関する情報の実質的な量を保持することができることを示す。 高度に圧縮されたプロンプトでは、きめ細かい情報が失われる一方で、抽象的な情報や一般的な感情は驚くほど少ないパラメータで保持することができる。 本研究では,言語モデル生成を好ましくないテキストから遠ざけるためのコントラスト条件について検討し,複雑なプロンプトを1つのトークンに効果的に圧縮して生成を誘導できることを見出した。 また、圧縮されたプロンプトは概ね構成的であり、生成したテキストの独立した側面を制御するために使用できることを示す。

We explore the idea of compressing the prompts used to condition language models, and show that compressed prompts can retain a substantive amount of information about the original prompt. For severely compressed prompts, while fine-grained information is lost, abstract information and general sentiments can be retained with surprisingly few parameters, which can be useful in the context of decode-time algorithms for controllability and toxicity reduction. We explore contrastive conditioning to steer language model generation towards desirable text and away from undesirable text, and find that some complex prompts can be effectively compressed into a single token to guide generation. We also show that compressed prompts are largely compositional, and can be constructed such that they can be used to control independent aspects of generated text.
翻訳日:2022-10-10 12:32:16 公開日:2022-10-06
# ReAct: 言語モデルにおける推論と実行の同期化

ReAct: Synergizing Reasoning and Acting in Language Models ( http://arxiv.org/abs/2210.03629v1 )

ライセンス: Link先を確認
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao(参考訳) 大規模言語モデル(llm)は、言語理解と対話的意思決定において、タスク間で印象的な能力を示す一方で、推論(例えば、連鎖的プロンプト)と行動(例えば行動計画生成)の能力は、主に別のトピックとして研究されてきた。 本稿では,LLMを用いて推論トレースとタスク固有の動作の両方をインターリーブ方式で生成し,モデル間のシナジーを高める。推論トレースは,モデルが行動プランを誘導,追跡,更新し,例外を処理するのに役立ち,アクションは知識ベースや環境などの外部ソースと対話して追加情報を集めることができる。 我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用し、最先端のベースラインに対するその効果を実証するとともに、推論や動作部品を使わずにメソッドに対する人間の解釈可能性や信頼性を向上させる。 具体的には、質問応答 (hotpotqa) と事実検証 (fever) において、単純なwikipedia api と相互作用することで、幻覚と誤りの伝達という問題を克服し、推論トレースなしでベースラインよりも解釈しやすいヒューマンライクなタスク解決トラジェクタを生成する。 2つのインタラクティブな意思決定ベンチマーク(ALFWorldとWebShop)では、ReActは、それぞれ34%と10%の絶対的な成功率で模倣と強化学習の手法を上回り、コンテキスト内例は1つまたは2つしかない。

While large language models (LLMs) have demonstrated impressive capabilities across tasks in language understanding and interactive decision making, their abilities for reasoning (e.g. chain-of-thought prompting) and acting (e.g. action plan generation) have primarily been studied as separate topics. In this paper, we explore the use of LLMs to generate both reasoning traces and task-specific actions in an interleaved manner, allowing for greater synergy between the two: reasoning traces help the model induce, track, and update action plans as well as handle exceptions, while actions allow it to interface with external sources, such as knowledge bases or environments, to gather additional information. We apply our approach, named ReAct, to a diverse set of language and decision making tasks and demonstrate its effectiveness over state-of-the-art baselines, as well as improved human interpretability and trustworthiness over methods without reasoning or acting components. Concretely, on question answering (HotpotQA) and fact verification (Fever), ReAct overcomes issues of hallucination and error propagation prevalent in chain-of-thought reasoning by interacting with a simple Wikipedia API, and generates human-like task-solving trajectories that are more interpretable than baselines without reasoning traces. On two interactive decision making benchmarks (ALFWorld and WebShop), ReAct outperforms imitation and reinforcement learning methods by an absolute success rate of 34% and 10% respectively, while being prompted with only one or two in-context examples.
翻訳日:2022-10-10 12:31:37 公開日:2022-10-06
# NAS-Bench-Suite-Zero:ゼロコストプロキシの加速研究

NAS-Bench-Suite-Zero: Accelerating Research on Zero Cost Proxies ( http://arxiv.org/abs/2210.03230v1 )

ライセンス: Link先を確認
Arjun Krishnakumar, Colin White, Arber Zela, Renbo Tu, Mahmoud Safari, Frank Hutter(参考訳) ゼロコストプロキシ(ゼロコストプロキシ、ZC proxies)は、ニューラルネットワーク検索(NAS)のアルゴリズムを大幅に高速化することを目的とした、最近のアーキテクチャパフォーマンス予測技術である。 最近の研究は、これらの手法が大きな可能性を示していることを示しているが、相補的な強みを評価し、活用するといった特定の側面は未研究である。 我々は、28のタスクにまたがる13のzcプロキシを評価し、zcプロキシの最大のデータセット(と統一されたコードベース)を作成し、異なる実装による結合要因を避けながら、zcプロキシの桁違いな実験を可能にします。 nas-bench-suiteの有用性を示すために,バイアス解析を含むzcプロキシの大規模解析と,zcプロキシが実質的な補完情報を取得すると結論づけた最初の情報理論解析を行った。 また,NASアルゴリズムが使用するサロゲートモデルに全13個のZCプロキシを組み込むことで,最大42%の予測性能を向上できることを示す。 私たちのコードとデータセットはhttps://github.com/automl/naslib/tree/zerocostで利用可能です。

Zero-cost proxies (ZC proxies) are a recent architecture performance prediction technique aiming to significantly speed up algorithms for neural architecture search (NAS). Recent work has shown that these techniques show great promise, but certain aspects, such as evaluating and exploiting their complementary strengths, are under-studied. In this work, we create NAS-Bench-Suite: we evaluate 13 ZC proxies across 28 tasks, creating by far the largest dataset (and unified codebase) for ZC proxies, enabling orders-of-magnitude faster experiments on ZC proxies, while avoiding confounding factors stemming from different implementations. To demonstrate the usefulness of NAS-Bench-Suite, we run a large-scale analysis of ZC proxies, including a bias analysis, and the first information-theoretic analysis which concludes that ZC proxies capture substantial complementary information. Motivated by these findings, we present a procedure to improve the performance of ZC proxies by reducing biases such as cell size, and we also show that incorporating all 13 ZC proxies into the surrogate models used by NAS algorithms can improve their predictive performance by up to 42%. Our code and datasets are available at https://github.com/automl/naslib/tree/zerocost.
翻訳日:2022-10-10 12:30:32 公開日:2022-10-06
# ハブの評価と評価:データとモデル計測のためのより良いベストプラクティス

Evaluate & Evaluation on the Hub: Better Best Practices for Data and Model Measurements ( http://arxiv.org/abs/2210.01970v2 )

ライセンス: Link先を確認
Leandro von Werra, Lewis Tunstall, Abhishek Thakur, Alexandra Sasha Luccioni, Tristan Thrush, Aleksandra Piktus, Felix Marty, Nazneen Rajani, Victor Mustar, Helen Ngo, Omar Sanseviero, Mario \v{S}a\v{s}ko, Albert Villanova, Quentin Lhoest, Julien Chaumond, Margaret Mitchell, Alexander M. Rush, Thomas Wolf, Douwe Kiela(参考訳) 評価は機械学習(ML)の重要な部分ですが、その情報と体系的なプラクティスを実現するためのサポートとツーリングが欠如しています。 mlにおけるモデルやデータセットの評価を容易にするツールセットであるhub -- の評価と評価について紹介する。 evaluationは、データとモデルの計測、メトリクス、比較のためのベストプラクティスをサポートするライブラリである。 その目標は、評価の再現性をサポートし、評価プロセスの集中化と文書化を行い、モデルパフォーマンスのより多くの側面をカバーするために評価を広げることである。 さまざまなドメインやシナリオの50以上の効率的な標準実装、インタラクティブなドキュメント、実装や成果を簡単に共有できる機能が含まれている。 このライブラリはhttps://github.com/huggingface/evaluateで入手できる。 さらに,Hugging Face Hub上で75,000以上のモデルと11,000のデータセットを,ボタンをクリックするだけで大規模に評価できるプラットフォームであるAccess on the Hubを紹介した。 Hubの評価はhttps://huggingface.co/autoevaluate.comで確認できる。

Evaluation is a key part of machine learning (ML), yet there is a lack of support and tooling to enable its informed and systematic practice. We introduce Evaluate and Evaluation on the Hub --a set of tools to facilitate the evaluation of models and datasets in ML. Evaluate is a library to support best practices for measurements, metrics, and comparisons of data and models. Its goal is to support reproducibility of evaluation, centralize and document the evaluation process, and broaden evaluation to cover more facets of model performance. It includes over 50 efficient canonical implementations for a variety of domains and scenarios, interactive documentation, and the ability to easily share implementations and outcomes. The library is available at https://github.com/huggingface/evaluate. In addition, we introduce Evaluation on the Hub, a platform that enables the large-scale evaluation of over 75,000 models and 11,000 datasets on the Hugging Face Hub, for free, at the click of a button. Evaluation on the Hub is available at https://huggingface.co/autoevaluate.
翻訳日:2022-10-09 17:01:55 公開日:2022-10-06
# ハイゼンベルク限定スケーリングによる多体ハミルトニアンの学習

Learning many-body Hamiltonians with Heisenberg-limited scaling ( http://arxiv.org/abs/2210.03030v1 )

ライセンス: Link先を確認
Hsin-Yuan Huang and Yu Tong and Di Fang and Yuan Su(参考訳) 力学から多体ハミルトニアンを学ぶことは物理学の基本的な問題である。 本研究では, 相互作用するn$-qubit 局所ハミルトニアンを学習するためのハイゼンベルク限界を達成する最初のアルゴリズムを提案する。 総発展時間は$\mathcal{o}(\epsilon^{-1})$であった後、提案されたアルゴリズムは、n$-qubitハミルトニアンの任意のパラメータを高い確率で$\epsilon$-errorに効率的に推定することができる。 提案アルゴリズムは状態準備および測定誤差に対して頑健であり、固有状態や熱状態は不要であり、$\mathrm{polylog}(\epsilon^{-1})$実験のみを使用する。 対照的に、勾配に基づく最適化や多項式補間を用いた最近の研究のような最も古いアルゴリズムは、$\mathcal{O}(\epsilon^{-2})$と$\mathcal{O}(\epsilon^{-2})$実験の総進化時間を必要とする。 我々のアルゴリズムは量子シミュレーションのアイデアを使って未知のn$-qubit hamiltonian $h$を非干渉パッチに分離し、量子エンハンスド除算法を用いてh$を学習する。 アルゴリズムの漸近的最適性を確立するために、一致する下限を証明します。

Learning a many-body Hamiltonian from its dynamics is a fundamental problem in physics. In this work, we propose the first algorithm to achieve the Heisenberg limit for learning an interacting $N$-qubit local Hamiltonian. After a total evolution time of $\mathcal{O}(\epsilon^{-1})$, the proposed algorithm can efficiently estimate any parameter in the $N$-qubit Hamiltonian to $\epsilon$-error with high probability. The proposed algorithm is robust against state preparation and measurement error, does not require eigenstates or thermal states, and only uses $\mathrm{polylog}(\epsilon^{-1})$ experiments. In contrast, the best previous algorithms, such as recent works using gradient-based optimization or polynomial interpolation, require a total evolution time of $\mathcal{O}(\epsilon^{-2})$ and $\mathcal{O}(\epsilon^{-2})$ experiments. Our algorithm uses ideas from quantum simulation to decouple the unknown $N$-qubit Hamiltonian $H$ into noninteracting patches, and learns $H$ using a quantum-enhanced divide-and-conquer approach. We prove a matching lower bound to establish the asymptotic optimality of our algorithm.
翻訳日:2022-10-07 18:08:33 公開日:2022-10-06
# サーバ学習によるフェデレーションラーニング - 非IIDデータのパフォーマンス向上

Federated Learning with Server Learning: Enhancing Performance for Non-IID Data ( http://arxiv.org/abs/2210.02614v1 )

ライセンス: Link先を確認
Van Sy Mai, Richard J. La, Tao Zhang(参考訳) フェデレーション学習(fl)は、ローカルデータサンプルを使用してクライアントで分散学習するための一般的な手段となっている。 しかし、最近の研究では、クライアントデータが独立で同一の分散(IID)をしていない場合、FLは学習が遅く、性能が低くなることが示されている。 本稿では,中央サーバが小さなデータセットにアクセスし,そこから学習し,その知識をフェデレート学習プロセスを通じてグローバルモデルに融合する,新たなフェデレーション学習アルゴリズムを提案する。 この新しいアプローチは、Federated Learning with Server LearningまたはFSLと呼ばれ、補完的なものであり、他のFL学習アルゴリズムと組み合わせることができる。 fslの収束を証明し,解析とシミュレーションによりその利点を実証する。 現在のモデルがローカルな最小値から遠く離れている場合、サーバ学習はFLを大幅に改善し、加速することができます。 一方、モデルが局所最小化器に近い場合、サーバ学習は、サーバが使用する推定勾配のばらつきのために、flの収束近傍に影響を与える可能性がある。 サーバデータセットが非常に小さい場合でも、このようなトレードオフを簡単に調整して大きなメリットを提供できることをシミュレーションで示しています。

Federated learning (FL) has become a popular means for distributed learning at clients using local data samples. However, recent studies have shown that FL may experience slow learning and poor performance when client data are not independent and identically distributed (IID). This paper proposes a new federated learning algorithm, where the central server has access to a small dataset, learns from it, and fuses the knowledge into the global model through the federated learning process. This new approach, referred to as Federated learning with Server Learning or FSL, is complementary to and can be combined with other FL learning algorithms. We prove the convergence of FSL and demonstrate its benefits through analysis and simulations. We also reveal an inherent trade-off: when the current model is far from any local minimizer, server learning can significantly improve and accelerate FL. On the other hand, when the model is close to a local minimizer, server learning could potentially affect the convergence neighborhood of FL due to variances in the estimated gradient used by the server. We show via simulations that such trade-off can be tuned easily to provide significant benefits, even when the server dataset is very small.
翻訳日:2022-10-07 18:07:00 公開日:2022-10-06
# MechRetroは化学機械駆動型グラフ学習フレームワークで、レトロシンセシス予測と経路計画を解釈できる

MechRetro is a chemical-mechanism-driven graph learning framework for interpretable retrosynthesis prediction and pathway planning ( http://arxiv.org/abs/2210.02630v1 )

ライセンス: Link先を確認
Yu Wang, Chao Pang, Yuzhe Wang, Yi Jiang, Junru Jin, Sirui Liang, Quan Zou, and Leyi Wei(参考訳) 自動レトロシンセシスのための人工知能の活用は、デジタル研究室における有機経路計画を高速化する。 しかし、既存のディープラーニングアプローチは説明がつかない。"ブラックボックス"のように、ほとんど洞察がなく、特に実際のレトロシンセシスシナリオでのアプリケーションを制限する。 そこで,本稿では,化学メカニズムを基盤とした化学学習フレームワークであるmechretroを提案する。このフレームワークは,複雑な自己適応型共同学習による逆反応をシミュレートするための,いくつかの逆合成作用を学習する。 化学知識を先行情報として統合することにより,識別的および化学的に有意味な分子表現を適応的に学習する新しいグラフトランスフォーマアーキテクチャを設計し,分子特徴表現学習における強力な能力を強調した。 我々は,大規模ベンチマークデータセットにおいて,mechretroがレトロシンセティック予測の最先端のアプローチを上回ることを実証する。 メヒレトロを多段階の逆合成解析に拡張し、解釈可能な推論機構を介して効率的な合成経路を同定し、知識のある合成化学者の領域をよりよく理解する。 また,MechRetroは,不確実性評価のためのエネルギースコアとともに,プロトキロールの新規な経路を発見し,実用シナリオへの適用性を広げた。 全体として、私たちはMechRetroが、薬物発見における高スループットの自動有機合成に有意義な洞察を提供することを期待している。

Leveraging artificial intelligence for automatic retrosynthesis speeds up organic pathway planning in digital laboratories. However, existing deep learning approaches are unexplainable, like "black box" with few insights, notably limiting their applications in real retrosynthesis scenarios. Here, we propose MechRetro, a chemical-mechanism-driven graph learning framework for interpretable retrosynthetic prediction and pathway planning, which learns several retrosynthetic actions to simulate a reverse reaction via elaborate self-adaptive joint learning. By integrating chemical knowledge as prior information, we design a novel Graph Transformer architecture to adaptively learn discriminative and chemically meaningful molecule representations, highlighting the strong capacity in molecule feature representation learning. We demonstrate that MechRetro outperforms the state-of-the-art approaches for retrosynthetic prediction with a large margin on large-scale benchmark datasets. Extending MechRetro to the multi-step retrosynthesis analysis, we identify efficient synthetic routes via an interpretable reasoning mechanism, leading to a better understanding in the realm of knowledgeable synthetic chemists. We also showcase that MechRetro discovers a novel pathway for protokylol, along with energy scores for uncertainty assessment, broadening the applicability for practical scenarios. Overall, we expect MechRetro to provide meaningful insights for high-throughput automated organic synthesis in drug discovery.
翻訳日:2022-10-07 18:06:39 公開日:2022-10-06
# PSVRF: 参照なしでピッチシフト音声を復元する学習

PSVRF: Learning to restore Pitch-Shifted Voice without reference ( http://arxiv.org/abs/2210.02731v1 )

ライセンス: Link先を確認
Yangfu Li, Xiaodan Lin, and Jiaxin Yang(参考訳) ピッチスケーリングアルゴリズムは、自動話者検証(ASV)システムのセキュリティに大きな影響を及ぼす。 ピッチシフト音声を識別し、元のバージョンに復元するために、多くのアンチスプーフィングアルゴリズムが提案されているが、それらは性能が悪いか、あるいは元の音声を参照として必要とせず、アプリケーションの展望を制限している。 本稿では,ピッチシフト音声の高品質復元のためのノン参照手法PSVRF$^1$を提案する。 AISHELL-1とAISHELL-3の実験は、PSVRFが様々なピッチスケーリング技術で偽装された音声を復元できることを示した。 さらに、PSVRFのパフォーマンスは最先端の参照ベースアプローチよりも優れている。

Pitch scaling algorithms have a significant impact on the security of Automatic Speaker Verification (ASV) systems. Although numerous anti-spoofing algorithms have been proposed to identify the pitch-shifted voice and even restore it to the original version, they either have poor performance or require the original voice as a reference, limiting the prospects of applications. In this paper, we propose a no-reference approach termed PSVRF$^1$ for high-quality restoration of pitch-shifted voice. Experiments on AISHELL-1 and AISHELL-3 demonstrate that PSVRF can restore the voice disguised by various pitch-scaling techniques, which obviously enhances the robustness of ASV systems to pitch-scaling attacks. Furthermore, the performance of PSVRF even surpasses that of the state-of-the-art reference-based approach.
翻訳日:2022-10-07 18:06:15 公開日:2022-10-06
# the sound of silence: 合成音声検出における第1桁特徴の効率性

The Sound of Silence: Efficiency of First Digit Features in Synthetic Audio Detection ( http://arxiv.org/abs/2210.02746v1 )

ライセンス: Link先を確認
Daniele Mari, Federica Latora, Simone Milani(参考訳) 最近の生成的ニューラル戦略と音声処理技術の統合は、合成音声合成や変換アルゴリズムの普及を促している。 この能力は多くの法的および情報的プロセス(ニュース、生体認証、裁判所における音声証拠など)において有害であることが証明される。 したがって、偽造技術の不均一性のため、効率的な検出アルゴリズムの開発は重要かつ困難である。 本研究では,合成音声検出におけるサイレント部分の識別的役割について検討し,mfcc係数から抽出した第1桁統計がロバスト検出に効果的に有効かを示す。 提案手法は,大規模なニューラル検出アーキテクチャに頼らず,ASVSpoofデータセットのほとんどのクラスにおいて90%以上の精度が得られるため,計算的に軽量であり,多くのアルゴリズムで有効である。

The recent integration of generative neural strategies and audio processing techniques have fostered the widespread of synthetic speech synthesis or transformation algorithms. This capability proves to be harmful in many legal and informative processes (news, biometric authentication, audio evidence in courts, etc.). Thus, the development of efficient detection algorithms is both crucial and challenging due to the heterogeneity of forgery techniques. This work investigates the discriminative role of silenced parts in synthetic speech detection and shows how first digit statistics extracted from MFCC coefficients can efficiently enable a robust detection. The proposed procedure is computationally-lightweight and effective on many different algorithms since it does not rely on large neural detection architecture and obtains an accuracy above 90\% in most of the classes of the ASVSpoof dataset.
翻訳日:2022-10-07 18:06:02 公開日:2022-10-06
# AutoQC:ニューラルネットワークを用いた量子回路の自動合成

AutoQC: Automated Synthesis of Quantum Circuits Using Neural Network ( http://arxiv.org/abs/2210.02766v1 )

ライセンス: Link先を確認
Kentaro Murakami, Jianjun Zhao(参考訳) 量子コンピュータの能力は劇的に向上しているが、量子アルゴリズムの開発は限られており、人間の洞察と創造性に依存している。 多くの量子プログラミング言語が開発されているが、量子コンピューティングに精通していないソフトウェア開発者にとってこれらの言語を習得し、利用するのは難しい。 したがって、新しい量子アルゴリズムやプログラムを自動で開発するためのツールを開発する必要がある。 本稿では,入力対と出力対からニューラルネットワークを用いて量子回路を自動的に合成する手法であるAutoQCを提案する。 量子回路を量子ゲートの列と考え、各ステップでニューラルネットワークで優先順位付けすることで確率的に量子回路を合成する。 実験結果は、AutoQCがいくつかの重要な量子回路を低コストで合成する能力を強調している。

While the ability to build quantum computers is improving dramatically, developing quantum algorithms is limited and relies on human insight and ingenuity. Although a number of quantum programming languages have been developed, it is challenging for software developers who are not familiar with quantum computing to learn and use these languages. It is, therefore, necessary to develop tools to support developing new quantum algorithms and programs automatically. This paper proposes AutoQC, an approach to automatically synthesizing quantum circuits using the neural network from input and output pairs. We consider a quantum circuit a sequence of quantum gates and synthesize a quantum circuit probabilistically by prioritizing with a neural network at each step. The experimental results highlight the ability of AutoQC to synthesize some essential quantum circuits at a lower cost.
翻訳日:2022-10-07 18:05:48 公開日:2022-10-06
# 簡潔な予測によるパッシング

Paging with Succinct Predictions ( http://arxiv.org/abs/2210.02775v1 )

ライセンス: Link先を確認
Antonios Antoniadis, Joan Boyar, Marek Eli\'a\v{s}, Lene M. Favrholdt, Ruben Hoeksma, Kim S. Larsen, Adam Polak, Bertrand Simon(参考訳) ページングはオンラインアルゴリズムの分野における典型的な問題である。 これは、アルゴリズムに予測へのアクセスを与えることで、古典的な最悪のケース分析の欠点を改善することを目的としている最近の研究である。 このような予測は通常、機械学習のアプローチで生成されるが、本質的には不完全である。 学習増強型ページングに関する先行研究は、予測について調査している。 (i)現在のページが再び要求される場合(再帰予測) (ii)最適なアルゴリズム(状態予測)におけるキャッシュの現在の状態 (iii)現在のページが再びリクエストされるまでの全リクエスト (iv)ページが要求される相対順序 予測情報の最小化を求める新たな視点から学習増強ページングについて検討する。 より具体的には、各ページリクエストで得られた予測は1ビットに限られる。 2つの自然な設定を考える。 (i)予測ビットが、このページを退去させるのに ``safe'' であるか否かを示す予測を破棄し、 (ii) フェーズ予測では、ビットは次のフェーズで現在のページが要求されるかどうかを示す(入力を適切なフェーズに分割する)。 当社では,1リクエストあたり1ビットの予測に制限があるにも関わらず,学習型アルゴリズムの3つの望ましい特性すべて – すなわち一貫性,堅牢性,スムース – を満たした,2つのセットアップ毎にアルゴリズムを開発しています。 アルゴリズムが本質的に最善であることを示す下限も提示します。

Paging is a prototypical problem in the area of online algorithms. It has also played a central role in the development of learning-augmented algorithms -- a recent line of research that aims to ameliorate the shortcomings of classical worst-case analysis by giving algorithms access to predictions. Such predictions can typically be generated using a machine learning approach, but they are inherently imperfect. Previous work on learning-augmented paging has investigated predictions on (i) when the current page will be requested again (reoccurrence predictions), (ii) the current state of the cache in an optimal algorithm (state predictions), (iii) all requests until the current page gets requested again, and (iv) the relative order in which pages are requested. We study learning-augmented paging from the new perspective of requiring the least possible amount of predicted information. More specifically, the predictions obtained alongside each page request are limited to one bit only. We consider two natural such setups: (i) discard predictions, in which the predicted bit denotes whether or not it is ``safe'' to evict this page, and (ii) phase predictions, where the bit denotes whether the current page will be requested in the next phase (for an appropriate partitioning of the input into phases). We develop algorithms for each of the two setups that satisfy all three desirable properties of learning-augmented algorithms -- that is, they are consistent, robust and smooth -- despite being limited to a one-bit prediction per request. We also present lower bounds establishing that our algorithms are essentially best possible.
翻訳日:2022-10-07 18:05:37 公開日:2022-10-06
# ユーザ提供構造コンテキストによるメロディインフィルディング

Melody Infilling with User-Provided Structural Context ( http://arxiv.org/abs/2210.02829v1 )

ライセンス: Link先を確認
Chih-Pin Tan, Alvin W.Y. Su and Yi-Hsuan Yang(参考訳) 本稿では,過去と将来の状況のギャップを埋める音楽通路を生成するために,トランスフォーマーを用いた新しい楽曲入力モデルを提案する。 既存の補充アプローチは、与えられた文脈と局所的にスムーズに接続する経路を生成することができるが、音楽の形式や構造を考慮に入れず、従って過度にスムーズな結果を生み出す可能性がある。 この問題に対処するために,ユーザが提供する構造関連情報をトランスフォーマーに入力するための新しいアテンション選択モジュールを用いた構造対応コンディショニング手法を提案する。 客観評価と主観評価の両面から,提案モデルは構造情報を効果的に活用し,既存の2つの構造に依存しない埋込モデルよりも高い品質のポップスタイルでメロディを生成することができることを示す。

This paper proposes a novel Transformer-based model for music score infilling, to generate a music passage that fills in the gap between given past and future contexts. While existing infilling approaches can generate a passage that connects smoothly locally with the given contexts, they do not take into account the musical form or structure of the music and may therefore generate overly smooth results. To address this issue, we propose a structure-aware conditioning approach that employs a novel attention-selecting module to supply user-provided structure-related information to the Transformer for infilling. With both objective and subjective evaluations, we show that the proposed model can harness the structural information effectively and generate melodies in the style of pop of higher quality than the two existing structure-agnostic infilling models.
翻訳日:2022-10-07 18:05:18 公開日:2022-10-06
# 制約付き最小値最適化のための高速化シングルコール法

Accelerated Single-Call Methods for Constrained Min-Max Optimization ( http://arxiv.org/abs/2210.03096v1 )

ライセンス: Link先を確認
Yang Cai, Weiqiang Zheng(参考訳) 制約最小値最適化のための一階法について検討する。 既存のメソッドは、各イテレーションで2つのグラデーションコールまたは2つのプロジェクションを必要とする。 本稿では,単射単射影アルゴリズムである楽観的勾配 (og) 法は,弱ミント変分不等式 (mvi) を満たす演算子を用いた包含問題に対して$o(\frac{1}{\sqrt{t}})$ の収束率を持つことを示す。 第二の結果は、最初の単呼単射アルゴリズムである Accelerated Reflected Gradient (ARG) 法であり、負のコモノトニック性を満たす包摂問題に対する最適$O(\frac{1}{T})$収束率を達成する。 弱いMVIと負のコモノトニック性はともによく研究された仮定であり、非凸なmin-max最適化問題のリッチな集合を捉えている。 最後に、リフレクテッド・グラディエント(RG)法は、別の単発単発単射アルゴリズムであり、制約付き凸凸凹最小値最適化における最終点収束率を$O(\frac{1}{\sqrt{T}}) とし、[Hsieh et al, 2019] の開問題に答えることを示した。

We study first-order methods for constrained min-max optimization. Existing methods either requires two gradient calls or two projections in each iteration, which may be costly in applications. In this paper, we first show that the Optimistic Gradient (OG) method, a single-call single-projection algorithm, has $O(\frac{1}{\sqrt{T}})$ convergence rate for inclusion problems with operators that satisfy the weak Minty variation inequality (MVI). Our second result is the first single-call single-projection algorithm -- the Accelerated Reflected Gradient (ARG) method that achieves the optimal $O(\frac{1}{T})$ convergence rate for inclusion problems that satisfy negative comonotonicity. Both the weak MVI and negative comonotonicity are well-studied assumptions and capture a rich set of non-convex non-concave min-max optimization problems. Finally, we show that the Reflected Gradient (RG) method, another single-call single-projection algorithm, has $O(\frac{1}{\sqrt{T}})$ last-iterate convergence rate for constrained convex-concave min-max optimization, answering an open problem of [Hsieh et al, 2019].
翻訳日:2022-10-07 18:04:36 公開日:2022-10-06
# 直交非負行列因子分解 : 最大エントロピー原理アプローチ

Orthogonal Non-negative Matrix Factorization: a Maximum-Entropy-Principle Approach ( http://arxiv.org/abs/2210.02672v1 )

ライセンス: Link先を確認
Salar Basiri, Mustafa Kapadia, Srinivasa Salapaka(参考訳) 本稿では,2つの非負行列(特徴行列と混合行列)の積による入力データ行列の近似を目的とし,その一方が直交行列であるような直交非負行列分解(onmf)問題を解く新しい手法を提案する。 我々は,ONMFを特定の施設配置問題(FLP)と解釈し,FLPの最大エントロピー原理に基づく解をONMF問題に適用する方法について述べる。 提案手法は,2つの行列因子が負でないことを保証しながら,特徴量や混合行列の直交性を保証する。 また、特徴(混合)行列は、各行(列)にまたがってちょうど1つの非零要素を持ち、直交因子の最大スパーシティを提供する。 これにより、非重複機能を使った基礎となるデータマトリックスのセマンティック解釈が可能になる。 合成データと標準マイクロアレイデータセットに関する実験は、特徴(混合)行列の空間性と直交性のスコアにおいて、ほぼ同じ以上の(最大3%)再構成誤差を達成しつつ、大幅な改善を示した。

In this paper, we introduce a new methodology to solve the orthogonal non-negative matrix factorization (ONMF) problem, where the objective is to approximate an input data matrix by the product of two non-negative matrices, the features matrix and the mixing matrix, while one of them is orthogonal. We show how the ONMF can be interpreted as a specific facility-location problem (FLP), and adapt a maximum-entropy-principle based solution for FLP to the ONMF problem. The proposed approach guarantees orthogonality of the features or the mixing matrix, while ensuring that both of the matrix factors are non-negative. Also, the features (mixing) matrix has exactly one non-zero element across each row (column), providing the maximum sparsity of the orthogonal factor. This enables a semantic interpretation of the underlying data matrix using non-overlapping features. The experiments on synthetic data and a standard microarray dataset demonstrate significant improvements in terms of sparsity and orthogonality scores of features (mixing) matrices, while achieving approximately the same or better (up to 3%) reconstruction errors.
翻訳日:2022-10-07 18:04:07 公開日:2022-10-06
# 高次元回帰問題に対するユニタリネットワークの確率的分割

Probabilistic partition of unity networks for high-dimensional regression problems ( http://arxiv.org/abs/2210.02694v1 )

ライセンス: Link先を確認
Tiffany Fan, Nathaniel Trask, Marta D'Elia, Eric Darve(参考訳) 我々は高次元回帰問題の文脈におけるユニタリネットワーク(PPOU-Net)モデルの確率的分割について検討する。 PPOU-Netsでは、任意の入力に対するターゲット関数は、各クラスタが固定度多項式に関連付けられている専門家モデルの混合によって近似される。 クラスタの重みは、単位の分割を定義するDNNによって決定される。 多項式の重み付き平均は対象関数に近似し、自然に不確かさを定量化する。 トレーニング戦略は自動微分と予測最大化(EM)アルゴリズムを活用する。 トレーニング中、私たちは i) DNN係数を更新するために勾配降下を適用する。 (ii)重み付き最小二乗法を用いて多項式係数を更新する。 (iii)emアルゴリズムから導かれた閉形式式に従って各クラスタの分散を計算する。 PPOU-Netsは、様々なデータ次元の数値実験において、同等の大きさのベースライン完全接続ニューラルネットワークを一貫して上回っている。 また、PPOU-Netが変動量子回路に関連するコストランドスケープの代理モデルとして機能する量子コンピューティングの応用における提案モデルについても検討する。

We explore the probabilistic partition of unity network (PPOU-Net) model in the context of high-dimensional regression problems. With the PPOU-Nets, the target function for any given input is approximated by a mixture of experts model, where each cluster is associated with a fixed-degree polynomial. The weights of the clusters are determined by a DNN that defines a partition of unity. The weighted average of the polynomials approximates the target function and produces uncertainty quantification naturally. Our training strategy leverages automatic differentiation and the expectation maximization (EM) algorithm. During the training, we (i) apply gradient descent to update the DNN coefficients; (ii) update the polynomial coefficients using weighted least-squares solves; and (iii) compute the variance of each cluster according to a closed-form formula derived from the EM algorithm. The PPOU-Nets consistently outperform the baseline fully-connected neural networks of comparable sizes in numerical experiments of various data dimensions. We also explore the proposed model in applications of quantum computing, where the PPOU-Nets act as surrogate models for cost landscapes associated with variational quantum circuits.
翻訳日:2022-10-07 17:58:26 公開日:2022-10-06
# ターゲットデータによる最適学習について

On Optimal Learning Under Targeted Data Poisoning ( http://arxiv.org/abs/2210.02713v1 )

ライセンス: Link先を確認
Steve Hanneke, Amin Karbasi, Mohammad Mahmoody, Idan Mehalel and Shay Moran(参考訳) 仮説クラス $\mathcal{H}$ を、任意の逆例でトレーニングセットの例の最大$\eta$分を置き換えることができる敵の存在下で学習するタスクを考える。 相手は、特定の目標テストポイント$x$で学習者を失敗させることを目的としており、相手には知られ、学習者には知られない。 本研究の目的は,実現可能な最小のエラーである$\epsilon=\epsilon(\eta)$を,現実的かつ不可知的な設定の両方において,学習者によって特徴付けることである。 これを完全に実現し、$\epsilon=\Theta(\matht{VC}(\mathcal{H})\cdot \eta)$, ここで$\matht{VC}(\mathcal{H})$は$\mathcal{H}$のVC次元であることを示す。 注目すべきは,上界が決定論的学習者によって達成できることである。 我々は、決定論的学習者に、$\epsilon \leq c\cdot\mathtt{opt} + o(\mathtt{vc}(\mathcal{h})\cdot \eta)$ の乗法的後悔の保証を考案する。 我々は、決定論的学習者に対して、そのエラーを少なくとも2$\cdot \mathtt{OPT}$に悪化させる攻撃が存在することを示すことでこれを補完する。 これは、この場合、後悔の多元的劣化は避けられないことを意味する。 最後に、最適な速度を達成するために開発したアルゴリズムは本質的に不適切である。 それでも、線形分類器のような様々な自然概念クラスに対して、従属 $\epsilon=\Theta_{\mathcal{H}}(\eta)$ は実現可能な設定における適切なアルゴリズムによって維持可能であることを示す。 ここで、$\Theta_{\mathcal{H}}$は$\mathtt{VC}(\mathcal{H})$に対する多項式依存を隠蔽する。

Consider the task of learning a hypothesis class $\mathcal{H}$ in the presence of an adversary that can replace up to an $\eta$ fraction of the examples in the training set with arbitrary adversarial examples. The adversary aims to fail the learner on a particular target test point $x$ which is known to the adversary but not to the learner. In this work we aim to characterize the smallest achievable error $\epsilon=\epsilon(\eta)$ by the learner in the presence of such an adversary in both realizable and agnostic settings. We fully achieve this in the realizable setting, proving that $\epsilon=\Theta(\mathtt{VC}(\mathcal{H})\cdot \eta)$, where $\mathtt{VC}(\mathcal{H})$ is the VC dimension of $\mathcal{H}$. Remarkably, we show that the upper bound can be attained by a deterministic learner. In the agnostic setting we reveal a more elaborate landscape: we devise a deterministic learner with a multiplicative regret guarantee of $\epsilon \leq C\cdot\mathtt{OPT} + O(\mathtt{VC}(\mathcal{H})\cdot \eta)$, where $C > 1$ is a universal numerical constant. We complement this by showing that for any deterministic learner there is an attack which worsens its error to at least $2\cdot \mathtt{OPT}$. This implies that a multiplicative deterioration in the regret is unavoidable in this case. Finally, the algorithms we develop for achieving the optimal rates are inherently improper. Nevertheless, we show that for a variety of natural concept classes, such as linear classifiers, it is possible to retain the dependence $\epsilon=\Theta_{\mathcal{H}}(\eta)$ by a proper algorithm in the realizable setting. Here $\Theta_{\mathcal{H}}$ conceals a polynomial dependence on $\mathtt{VC}(\mathcal{H})$.
翻訳日:2022-10-07 17:58:12 公開日:2022-10-06
# Federated Boosted Decision Trees with Differential Privacy

Federated Boosted Decision Trees with Differential Privacy ( http://arxiv.org/abs/2210.02910v1 )

ライセンス: Link先を確認
Samuel Maddock, Graham Cormode, Tianhao Wang, Carsten Maple and Somesh Jha(参考訳) 分散データを通じてトレーニング可能な、スケーラブルでセキュアで効率的なプライバシ保護機械学習モデルには、大きな需要があります。 ディープラーニングモデルは通常、集中型非セキュアな設定で最高の結果を達成するが、プライバシと通信の制約が課される場合、異なるモデルが優れている。 代わりに、XGBoostのようなツリーベースのアプローチは、高いパフォーマンスと使いやすさに多くの注目を集めている。 その結果、最近のいくつかの研究は、XGBoostのようなグラディエントブースト決定木(GBDT)モデルを、ホモモルフィック暗号化(HE)やセキュアマルチパーティ計算(MPC)といった暗号機構を介して、フェデレーション設定に翻訳することに焦点を当てている。 しかし、これらは必ずしも正式なプライバシー保証を提供したり、ハイパーパラメータと実装設定の完全な範囲を考慮していない。 本研究では,差分プライバシー(DP)の下でGBDTモデルを実装した。 本稿では,従来の決定木に対するアプローチをキャプチャし,拡張する汎用フレームワークを提案する。 当社の手法の枠組みは, 連携した設定に合わせたものであり, 高度なプライバシーを維持しつつ, 極めて高い実用性を実現することができることを示す。

There is great demand for scalable, secure, and efficient privacy-preserving machine learning models that can be trained over distributed data. While deep learning models typically achieve the best results in a centralized non-secure setting, different models can excel when privacy and communication constraints are imposed. Instead, tree-based approaches such as XGBoost have attracted much attention for their high performance and ease of use; in particular, they often achieve state-of-the-art results on tabular data. Consequently, several recent works have focused on translating Gradient Boosted Decision Tree (GBDT) models like XGBoost into federated settings, via cryptographic mechanisms such as Homomorphic Encryption (HE) and Secure Multi-Party Computation (MPC). However, these do not always provide formal privacy guarantees, or consider the full range of hyperparameters and implementation settings. In this work, we implement the GBDT model under Differential Privacy (DP). We propose a general framework that captures and extends existing approaches for differentially private decision trees. Our framework of methods is tailored to the federated setting, and we show that with a careful choice of techniques it is possible to achieve very high utility while maintaining strong levels of privacy.
翻訳日:2022-10-07 17:57:12 公開日:2022-10-06
# canife: 連合学習における経験的プライバシー測定のためのカナリア作成

CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated Learning ( http://arxiv.org/abs/2210.02912v1 )

ライセンス: Link先を確認
Samuel Maddock, Alexandre Sablayrolles and Pierre Stock(参考訳) Federated Learning(FL)は、クライアントが生データを共有せず、モデルのアップデートをサーバに送る分散環境で機械学習モデルをトレーニングするための設定である。 しかし、モデル更新は攻撃を受け、個人情報を漏洩する可能性がある。 差分プライバシー(DP)は、クリップされたモデル更新にノイズを追加し、強力な理論的プライバシー保証のためにパフォーマンスをトレードオフする主要な緩和戦略である。 前回の研究では、dpの脅威モデルは保守的であり、得られた保証は空白であるか、実際には情報漏洩に直接変換されない可能性があることが示されている。 本稿では,現実的な脅威モデルを考慮したモデル露出の厳密な測定を実現することを目的とする。 本稿では,カナリアを用いた新しい手法であるCANIFEを提案する。訓練ラウンドの経験的プライバシを評価するために,強敵による慎重にサンプルを作成する。 この攻撃は、CIFAR-10とCelebAで訓練された視覚モデルと、Sent140とシェイクスピアで訓練された言語モデルに適用する。 特に現実的なFLシナリオでは、CANIFEで得られた経験的エプシロンが理論的境界より2~7倍低いことを示す。

Federated Learning (FL) is a setting for training machine learning models in distributed environments where the clients do not share their raw data but instead send model updates to a server. However, model updates can be subject to attacks and leak private information. Differential Privacy (DP) is a leading mitigation strategy which involves adding noise to clipped model updates, trading off performance for strong theoretical privacy guarantees. Previous work has shown that the threat model of DP is conservative and that the obtained guarantees may be vacuous or may not directly translate to information leakage in practice. In this paper, we aim to achieve a tighter measurement of the model exposure by considering a realistic threat model. We propose a novel method, CANIFE, that uses canaries - carefully crafted samples by a strong adversary to evaluate the empirical privacy of a training round. We apply this attack to vision models trained on CIFAR-10 and CelebA and to language models trained on Sent140 and Shakespeare. In particular, in realistic FL scenarios, we demonstrate that the empirical epsilon obtained with CANIFE is 2-7x lower than the theoretical bound.
翻訳日:2022-10-07 17:56:48 公開日:2022-10-06
# Actor-Critic Reinforcement Learning を用いた擬ドロレータのロバスト低レベルアグノスティック制御系の設計

Designing a Robust Low-Level Agnostic Controller for a Quadrotor with Actor-Critic Reinforcement Learning ( http://arxiv.org/abs/2210.02964v1 )

ライセンス: Link先を確認
Guilherme Siqueira Eduardo and Wouter Caarls(参考訳) 目的: クワッドローターを用いた実生活アプリケーションは、飛行制御装置に挑戦する多くの外乱と時間変動特性をもたらす。 従来のPIDとRLをベースとした制御器は,積載物を積載し降ろす作業を行う場合,外部物体との相互作用により車両の挙動が変化した後の飛行維持に苦慮している。 方法:本研究では,ソフトアクター・クリティカルに基づく低レベルウェイポイント誘導制御器の訓練段階における領域ランダム化を提案する。 提案するペイロードピックアップ・アンド・ドロップタスクにおいて、車両の実運用をエミュレートする外乱を付加した制御器を評価する。 結果と結論: トレーニング中に四重項力学にある程度の不確実性を導入することにより, 提案するタスクをより多種多様な四重項パラメータを用いて実行可能なコントローラを得ることができることを示す。 さらに、RLベースのコントローラは、このタスクで最適化されたゲインを持つ従来の位置PIDコントローラよりも優れ、異なるシミュレーションパラメータに依存しないままである。

Purpose: Real-life applications using quadrotors introduce a number of disturbances and time-varying properties that pose a challenge to flight controllers. We observed that, when a quadrotor is tasked with picking up and dropping a payload, traditional PID and RL-based controllers found in literature struggle to maintain flight after the vehicle changes its dynamics due to interaction with this external object. Methods: In this work, we introduce domain randomization during the training phase of a low-level waypoint guidance controller based on Soft Actor-Critic. The resulting controller is evaluated on the proposed payload pick up and drop task with added disturbances that emulate real-life operation of the vehicle. Results & Conclusion: We show that, by introducing a certain degree of uncertainty in quadrotor dynamics during training, we can obtain a controller that is capable to perform the proposed task using a larger variation of quadrotor parameters. Additionally, the RL-based controller outperforms a traditional positional PID controller with optimized gains in this task, while remaining agnostic to different simulation parameters.
翻訳日:2022-10-07 17:56:25 公開日:2022-10-06
# グラフコントラスト学習における構造フェアネスの解明

Uncovering the Structural Fairness in Graph Contrastive Learning ( http://arxiv.org/abs/2210.03011v1 )

ライセンス: Link先を確認
Ruijia Wang, Xiao Wang, Chuan Shi, Le Song(参考訳) 近年の研究では、グラフ畳み込みネットワーク(GCN)は、しばしば低次ノードに対して悪化し、いわゆる構造的不公平性を示すことが示されている。 グラフコントラスト学習(GCL)は、GCNとコントラスト学習のパワーを融合し、ノード表現を学習するための有望な自己教師型アプローチとして登場した。 GCLは構造的公正性の観点からどのように振る舞うのか? 驚いたことに、GCL法で得られた表現は、GCNで学んだ表現よりも既にある程度偏りがある。 理論的には、この公正性はGCLのコミュニティ内濃度とコミュニティ間散乱特性に起因していることを示し、コミュニティ境界から低次ノードを遠ざけるための、より明確なコミュニティ構造をもたらす。 この理論解析に基づいて,低次ノードと高次ノードに対して異なる戦略を適用する,次数バイアス(グレード)のためのグラフコントラスト学習と呼ばれる新しいグラフ増補法をさらに考案する。 提案手法の有効性を検証するため,各種ベンチマークおよび評価プロトコルの広範囲な実験を行った。

Recent studies show that graph convolutional network (GCN) often performs worse for low-degree nodes, exhibiting the so-called structural unfairness for graphs with long-tailed degree distributions prevalent in the real world. Graph contrastive learning (GCL), which marries the power of GCN and contrastive learning, has emerged as a promising self-supervised approach for learning node representations. How does GCL behave in terms of structural fairness? Surprisingly, we find that representations obtained by GCL methods are already fairer to degree bias than those learned by GCN. We theoretically show that this fairness stems from intra-community concentration and inter-community scatter properties of GCL, resulting in a much clear community structure to drive low-degree nodes away from the community boundary. Based on our theoretical analysis, we further devise a novel graph augmentation method, called GRAph contrastive learning for DEgree bias (GRADE), which applies different strategies to low- and high-degree nodes. Extensive experiments on various benchmarks and evaluation protocols validate the effectiveness of the proposed method.
翻訳日:2022-10-07 17:56:07 公開日:2022-10-06
# マルチ層コンピューティングのためのディジタルツインエンパワーネットワーク計画

Digital Twin-Empowered Network Planning for Multi-Tier Computing ( http://arxiv.org/abs/2210.02616v1 )

ライセンス: Link先を確認
Conghao Zhou, Jie Gao, Mushu Li, Xuemin (Sherman) Shen, Weihua Zhuang(参考訳) 本稿では,6Gネットワークで広く普及するステートフルアプリケーションをサポートするリソース管理手法を設計する。 ステートレスアプリケーションとは異なり、ステートフルアプリケーションはユーザー端末(uts)からコンピューティングタスクを実行する際にコンテキストデータを必要とする。 コアネットワーク,ゲートウェイ,ベースステーションにサーバを配置して,ステートフルなアプリケーションをサポートするマルチ層コンピューティングパラダイムを用いて,コンピューティング,ストレージ,通信リソースの利用を最小化し,リソース予約を再構成するコストを両立させることで,長期リソース予約の最適化を目指す。 異なるリソース間の結合とUTモビリティの影響は、リソース管理の課題を生み出します。 この課題に対処するために,マルチリソース予約とリソース予約再構成という2つの要素からなるネットワークプランニング機能を備えたディジタルツイン(DT)を開発した。 第一に、DTはUTステータスデータを収集するために設計され、その移動パターンに基づいてUTがグループ化される。 第二に、異なるグループに対して異なるリソース要求を満たすようにリソース予約をカスタマイズするアルゴリズムを提案する。 最後に、ネットワークリソース使用量と再設定コストのバランスをとるために、リソース予約を再設定するためのメタラーニングベースのアプローチを開発した。 シミュレーションの結果,提案するdt-empowered network planningは,リソースの削減と再構成コストの低減により,ベンチマークフレームワークを上回った。

In this paper, we design a resource management scheme to support stateful applications, which will be prevalent in 6G networks. Different from stateless applications, stateful applications require context data while executing computing tasks from user terminals (UTs). Using a multi-tier computing paradigm with servers deployed at the core network, gateways, and base stations to support stateful applications, we aim to optimize long-term resource reservation by jointly minimizing the usage of computing, storage, and communication resources and the cost from reconfiguring resource reservation. The coupling among different resources and the impact of UT mobility create challenges in resource management. To address the challenges, we develop digital twin (DT) empowered network planning with two elements, i.e., multi-resource reservation and resource reservation reconfiguration. First, DTs are designed for collecting UT status data, based on which UTs are grouped according to their mobility patterns. Second, an algorithm is proposed to customize resource reservation for different groups to satisfy their different resource demands. Last, a Meta-learning-based approach is developed to reconfigure resource reservation for balancing the network resource usage and the reconfiguration cost. Simulation results demonstrate that the proposed DT-empowered network planning outperforms benchmark frameworks by using less resources and incurring lower reconfiguration costs.
翻訳日:2022-10-07 17:48:47 公開日:2022-10-06
# エッジにおける推論遅延予測

Inference Latency Prediction at the Edge ( http://arxiv.org/abs/2210.02620v1 )

ライセンス: Link先を確認
Zhuojin Li, Marco Paolieri and Leana Golubchik(参考訳) モバイルデバイスでの推論タスクの負荷の増加に伴い、最先端のニューラルアーキテクチャ(nas)は通常、nas(neural architecture search)を通じて設計され、精度と効率(例えばレイテンシ)のトレードオフでnasを識別する。 NAS中の巨大な候補アーキテクチャのレイテンシの測定はスケーラブルではないため、モバイルデバイス上でのエンドツーエンドの推論遅延を予測するためのアプローチが必要である。 このような予測は、ハードウェアの不均一性、MLフレームワークによる最適化、ニューラルネットワークの多様性などによって難しい。 本稿では,これらの課題に動機づけられ,まず,推論遅延に大きな影響を与えるニューラルネットワークとモバイルデバイスの特性を定量的に評価する。 この評価に基づいて,マルチコアcpuとgpuを用いて,様々な設定とハードウェアデバイスで動作方向のレイテンシ予測器を開発し,エンドツーエンドのレイテンシ予測において高い精度を達成することで,これらの課題に対処できるレイテンシ予測フレームワークを提案する。 提案手法は高価なデータ収集を必要としないことを示すため,少数のプロファイリングデータのみを用いて実世界のNAに対して正確な予測を行うことができることを示す。

With the growing workload of inference tasks on mobile devices, state-of-the-art neural architectures (NAs) are typically designed through Neural Architecture Search (NAS) to identify NAs with good tradeoffs between accuracy and efficiency (e.g., latency). Since measuring the latency of a huge set of candidate architectures during NAS is not scalable, approaches are needed for predicting end-to-end inference latency on mobile devices. Such predictions are challenging due to hardware heterogeneity, optimizations applied by ML frameworks, and the diversity of neural architectures. Motivated by these challenges, in this paper, we first quantitatively assess characteristics of neural architectures and mobile devices that have significant effects on inference latency. Based on this assessment, we propose a latency prediction framework which addresses these challenges by developing operation-wise latency predictors, under a variety of settings and a number of hardware devices, with multi-core CPUs and GPUs, achieving high accuracy in end-to-end latency prediction, as shown by our comprehensive evaluations. To illustrate that our approach does not require expensive data collection, we also show that accurate predictions can be achieved on real-world NAs using only small amounts of profiling data.
翻訳日:2022-10-07 17:48:22 公開日:2022-10-06
# trust in motion: ハイブリッドaiを用いたオープンソースプロジェクトにおける信頼の上昇

Trust in Motion: Capturing Trust Ascendancy in Open-Source Projects using Hybrid AI ( http://arxiv.org/abs/2210.02656v1 )

ライセンス: Link先を確認
Huascar Sanchez and Briland Hitaj(参考訳) オープンソースはしばしば、前例のないコミュニケーションとコラボレーションのドライバーとして説明され、プロジェクトがチームワークをサポートするときに最もうまく機能します。 しかし、彼らの協力プロセスは、プロジェクトコントリビュータを信頼、力、影響力の考慮から保護するものではない。 実際、プロジェクトに貢献し、その方向性に影響を与えるために必要な信頼のレベルを達成することは、変化の絶え間ないプロセスであり、開発者は多くのコミュニケーションチャネルを越えて多くの異なるルートをたどり、それを達成する。 我々は、この影響調査と信頼構築のプロセス、信頼の上昇について言及する。 本稿では,信頼の上昇という概念を理解するための方法論について述べるとともに,オープンソースプロジェクト上で生じる信頼の上昇操作のローカライズに必要な機能を紹介する。 オープンソースソフトウェア開発における信頼を理解する以前の仕事の多くは、問題の静的な見方に焦点をあて、さまざまな量の測定方法を用いてそれを研究してきた。 しかし、信頼の優位性は静的ではなく、開発者の役割の変化、新しい機能、新しいテクノロジなどに対応するオープンソースエコシステムの変化に適応している。 本稿は,この問題のダイナミックな視点から,これらの信号の明瞭化と研究を行う最初の試みである。 その点では、研究課題や実装上のトレードオフ、補完的なソリューションを照らし出すのに役立つ関連する作業を特定します。 本研究は,2020年の社会工学的攻撃に携わる個人による信頼度向上のための手法の有効性を示すものである。 今後の計画では、研究課題を強調するとともに、より自動化され、正確で効率的なモデリング方法を構築し、オープンソースプロジェクトにおける信頼の上昇を追跡するために、分野横断的なコラボレーションを奨励します。

Open-source is frequently described as a driver for unprecedented communication and collaboration, and the process works best when projects support teamwork. Yet, their cooperation processes in no way protect project contributors from considerations of trust, power, and influence. Indeed, achieving the level of trust necessary to contribute to a project and thus influence its direction is a constant process of change, and developers take many different routes over many communication channels to achieve it. We refer to this process of influence-seeking and trust-building, trust ascendancy. This paper describes a methodology for understanding the notion of trust ascendancy, and introduces the capabilities that are needed to localizing trust ascendancy operations happening over open-source projects. Much of the prior work in understanding trust in open-source software development has focused on a static view of the problem, and study it using different forms of quantity measures. However, trust ascendancy is not static but rather adapt to changes in the open-source ecosystem in response to developer role changes, new functionality, new technologies, and so on. This paper is the first attempt to articulate and study these signals, from a dynamic view of the problem. In that respect, we identify related work that may help illuminate research challenges, implementation tradeoffs, and complementary solutions. Our preliminary results show the effectiveness of our method at capturing the trust ascendancy developed by individuals involved in a well-documented 2020 social engineering attack. Our future plans highlight research challenges, and encourage cross-disciplinary collaboration to create more automated, accurate, and efficient ways to modeling and then tracking trust ascendancy in open-source projects.
翻訳日:2022-10-07 17:48:00 公開日:2022-10-06
# ユーザコンテンツ検索におけるシーケンスパターンの深いマイニングによる予測エッジキャッシング

Predictive Edge Caching through Deep Mining of Sequential Patterns in User Content Retrievals ( http://arxiv.org/abs/2210.02657v1 )

ライセンス: Link先を確認
Chen Li, Xiaoyu Wang, Tongyu Zong, Houwei Cao, Yong Liu(参考訳) エッジキャッシュは、冗長なネットワークトラフィックを削減しつつ、ユーザのコンテンツ検索パフォーマンスを高める上で、ますます重要な役割を果たす。 キャッシングの有効性は、近い将来にコンテンツの人気を予測する精度にかかっている。 しかし、ネットワークエッジでは、多様なユーザコンテンツ検索行動や低度のユーザ多重化のため、コンテンツの人気は極めてダイナミックである。 従来のリアクティブキャッシングシステムでは、動的コンテンツの人気パターンに追随するのは難しいのです。 本稿では,ユーザコンテンツ検索行動における逐次パターンをマイニングする細粒度学習モデルを用いて,将来的なコンテンツ人気を予測する新しい予測エッジキャッシング(pec)システムを提案する。 実際のコンテンツ検索トレースによる広範囲な実験を通じて,pecが高度にダイナミックなコンテンツ人気に適応できることを実証し,キャッシュヒット率を大幅に改善し,最先端キャッシュポリシーよりもユーザコンテンツ検索遅延を低減できることを示した。 さらに,本研究では,ユーザのコンテンツ検索行動の深いマイニングにより,エッジキャッシング性能が向上することを示す。

Edge caching plays an increasingly important role in boosting user content retrieval performance while reducing redundant network traffic. The effectiveness of caching ultimately hinges on the accuracy of predicting content popularity in the near future. However, at the network edge, content popularity can be extremely dynamic due to diverse user content retrieval behaviors and the low-degree of user multiplexing. It's challenging for the traditional reactive caching systems to keep up with the dynamic content popularity patterns. In this paper, we propose a novel Predictive Edge Caching (PEC) system that predicts the future content popularity using fine-grained learning models that mine sequential patterns in user content retrieval behaviors, and opportunistically prefetches contents predicted to be popular in the near future using idle network bandwidth. Through extensive experiments driven by real content retrieval traces, we demonstrate that PEC can adapt to highly dynamic content popularity, and significantly improve cache hit ratio and reduce user content retrieval latency over the state-of-art caching policies. More broadly, our study demonstrates that edge caching performance can be boosted by deep mining of user content retrieval behaviors.
翻訳日:2022-10-07 17:47:31 公開日:2022-10-06
# 機械学習を使わない場合--可能性と限界の観点から

When not to use machine learning: a perspective on potential and limitations ( http://arxiv.org/abs/2210.02666v1 )

ライセンス: Link先を確認
M. R. Carbone(参考訳) テクノロジー分野における人工知能(AI)の成功は、科学界で膨大な量の研究を触媒にした。 これは強力なツールであることが証明されているが、急速に発展している分野と同様に、情報の混乱は圧倒的であり、混乱し、時には誤解を招くことがある。 これにより、これまで資金が不足し、AI Wintersとして知られる期待が枯渇していた期間に終わったのと同じハイプサイクルで、簡単に失われることが可能になる。 さらに、革新的でリスクの高い研究の重要性を誇張することはできないが、特にルールが常に書き直され、高リスクシナリオに適用される可能性が高くなる若い分野において、利用可能なテクニックの基本的な限界を理解することも不可欠である。 この観点では、データ駆動モデリングの指針原則、これらの原則がほぼ魔法のような予測力を持つモデルをどのように生かし、またそれらが対処できる問題の範囲に制限を加えるかを強調します。 特に、機械学習のようなデータ駆動技術を使用しない場合の理解は、一般的に検討されるものではなく、そのテクニックを適切に適用する方法を知ることと同じくらい重要である。 その技術がいつ適切か、見守るべき落とし穴、そして最も重要なことは、彼らが提供できる力を活用する自信について、研究者がより深く理解できるようになることを願っています。

The unparalleled success of artificial intelligence (AI) in the technology sector has catalyzed an enormous amount of research in the scientific community. It has proven to be a powerful tool, but as with any rapidly developing field, the deluge of information can be overwhelming, confusing and sometimes misleading. This can make it easy to become lost in the same hype cycles that have historically ended in the periods of scarce funding and depleted expectations known as AI Winters. Furthermore, while the importance of innovative, high-risk research cannot be overstated, it is also imperative to understand the fundamental limits of available techniques, especially in young fields where the rules appear to be constantly rewritten and as the likelihood of application to high-stakes scenarios increases. In this perspective, we highlight the guiding principles of data-driven modeling, how these principles imbue models with almost magical predictive power, and how they also impose limitations on the scope of problems they can address. Particularly, understanding when not to use data-driven techniques, such as machine learning, is not something commonly explored, but is just as important as knowing how to apply the techniques properly. We hope that the discussion to follow provides researchers throughout the sciences with a better understanding of when said techniques are appropriate, the pitfalls to watch for, and most importantly, the confidence to leverage the power they can provide.
翻訳日:2022-10-07 17:47:09 公開日:2022-10-06
# 量子化器を用いた一階論理の変換器

Transformers Implement First-Order Logic with Majority Quantifiers ( http://arxiv.org/abs/2210.02671v1 )

ライセンス: Link先を確認
William Merrill and Ashish Sabharwal(参考訳) ニューラルネットワーク内の計算の暗黙構造を特徴付けることは、ディープラーニングの解釈可能性の領域における基礎的な問題である。 それらの内部決定プロセスは、見慣れた論理で象徴的に捉えられるか? 我々は,任意のトランスフォーマリンニューラルネットワークを等価な固定サイズの一階述語論理式に変換できることを示した。 このアイデアは、非常に均一なしきい値回路でトランスフォーマーをシミュレートし、回路と論理の間の既知の理論的接続を活用する。 また,2つの(大きな)整数の分割にのみ変換器全体の計算を還元できるという驚くべき事実も明らかになった。 我々の結果はトランスにとって最も重要でありながら、ニューラルネットワークアーキテクチャのより広範なクラス、すなわち、フィードフォワードと畳み込みネットワークを含む標準ニューラルネットワークコンポーネントからなる固定深度均一な計算グラフに等しく適用される。

Characterizing the implicit structure of the computation within neural networks is a foundational problem in the area of deep learning interpretability. Can their inner decision process be captured symbolically in some familiar logic? We show that any transformer neural network can be translated into an equivalent fixed-size first-order logic formula which may also use majority quantifiers. The idea is to simulate transformers with highly uniform threshold circuits and leverage known theoretical connections between circuits and logic. Our findings also reveal the surprising fact that the entire transformer computation can be reduced merely to the division of two (large) integers. While our results are most pertinent for transformers, they apply equally to a broader class of neural network architectures, namely those with a fixed-depth uniform computation graph made up of standard neural net components, which includes feedforward and convolutional networks.
翻訳日:2022-10-07 17:46:46 公開日:2022-10-06
# 多クラス侵入検出のための効果的なメタヒューリスティックに基づく分類器

Effective Metaheuristic Based Classifiers for Multiclass Intrusion Detection ( http://arxiv.org/abs/2210.02678v1 )

ライセンス: Link先を確認
Zareen Fatima, Arshad Ali(参考訳) ネットワークセキュリティは、コンピュータネットワークとアプリケーションの指数的な増加により、サイバーセキュリティの分野で最大の関心事となっている。 侵入検知は情報システムやネットワークデバイスのセキュリティにおいて重要な役割を果たす。 侵入検知システム(IDS)の目的は、悪意のある活動を検出し、これらの活動に対して警報を発生させることである。 大量のデータを持つことは、攻撃を検出する上で重要な問題のひとつだ。 ほとんどの侵入検知システムは、モデルと結果を評価するためにデータセットの全ての特徴を使用し、低い検出率、高い計算時間、多くのコンピュータリソースの使用である。 高速攻撃検出には軽量データが必要である。 特徴選択法は、最良特徴の選択に重要な役割を担い、最大精度を達成する。 本研究は、UNSW-NB15とCICDDoS2019の2つの最新の攻撃データセットを考慮し実験を行う。 本研究は, アンサンブル分類器を用いた遺伝的アルゴリズム (GA) の選択法を提案する。 gaは、最高の機能サブセットを選択し、既存のアプローチと比較して高い精度、検出率(dr)、低い誤警報率(far)を達成する。 本研究は多種分類に焦点をあてる。 スタックングとバッキングの2つのアンサンブルメソッドを実装して、さまざまなタイプの攻撃を検出する。 その結果,GAはアンサンブル分類器を積み重ねることで精度を大幅に向上した。

Network security has become the biggest concern in the area of cyber security because of the exponential growth in computer networks and applications. Intrusion detection plays an important role in the security of information systems or networks devices. The purpose of an intrusion detection system (IDS) is to detect malicious activities and then generate an alarm against these activities. Having a large amount of data is one of the key problems in detecting attacks. Most of the intrusion detection systems use all features of datasets to evaluate the models and result in is, low detection rate, high computational time and uses of many computer resources. For fast attacks detection IDS needs a lightweight data. A feature selection method plays a key role to select best features to achieve maximum accuracy. This research work conduct experiments by considering on two updated attacks datasets, UNSW-NB15 and CICDDoS2019. This work suggests a wrapper based Genetic Algorithm (GA) features selection method with ensemble classifiers. GA select the best feature subsets and achieve high accuracy, detection rate (DR) and low false alarm rate (FAR) compared to existing approaches. This research focuses on multi-class classification. Implements two ensemble methods: stacking and bagging to detect different types of attacks. The results show that GA improve the accuracy significantly with stacking ensemble classifier.
翻訳日:2022-10-07 17:46:31 公開日:2022-10-06
# DReS-FL:シークレットデータ共有による非IIDクライアントのためのドロップアウト耐性セキュアフェデレーション学習

DReS-FL: Dropout-Resilient Secure Federated Learning for Non-IID Clients via Secret Data Sharing ( http://arxiv.org/abs/2210.02680v1 )

ライセンス: Link先を確認
Jiawei Shao, Yuchang Sun, Songze Li, Jun Zhang(参考訳) フェデレートラーニング(FL)は、クライアントのプライベートデータを集中的に収集することなく、機械学習モデルの協調トレーニングを可能にする。 集中トレーニングとは異なり、flのクライアント間のローカルデータセットは非独立で、同じ分散(非iid)である。 また、データ提供クライアントは、任意にトレーニングプロセスから外れる可能性がある。 これらの特性はトレーニング性能を著しく低下させる。 本稿では,Lagrange Coded Computing (LCC) に基づくDropout-Resilient Secure Federated Learning (DReS-FL) フレームワークを提案する。 重要なアイデアは、ラグランジュ符号化を利用してクライアント間でプライベートデータセットを秘密に共有することで、各クライアントがグローバルデータセットのエンコードバージョンを受け取り、このデータセット上の局所勾配計算は偏りがない、というものだ。 サーバの勾配を正確に復号するためには、勾配関数は有限フィールドの多項式でなければならないので、我々のフレームワークを実現するために多項式整数ニューラルネットワーク(PINN)を構築する。 理論的解析によると、DReS-FLはクライアントのドロップアウトに耐性があり、ローカルデータセットのプライバシ保護を提供する。 さらに,DReS-FLがベースライン法よりも高い性能向上をもたらすことを実験的に実証した。

Federated learning (FL) strives to enable collaborative training of machine learning models without centrally collecting clients' private data. Different from centralized training, the local datasets across clients in FL are non-independent and identically distributed (non-IID). In addition, the data-owning clients may drop out of the training process arbitrarily. These characteristics will significantly degrade the training performance. This paper proposes a Dropout-Resilient Secure Federated Learning (DReS-FL) framework based on Lagrange coded computing (LCC) to tackle both the non-IID and dropout problems. The key idea is to utilize Lagrange coding to secretly share the private datasets among clients so that each client receives an encoded version of the global dataset, and the local gradient computation over this dataset is unbiased. To correctly decode the gradient at the server, the gradient function has to be a polynomial in a finite field, and thus we construct polynomial integer neural networks (PINNs) to enable our framework. Theoretical analysis shows that DReS-FL is resilient to client dropouts and provides privacy protection for the local datasets. Furthermore, we experimentally demonstrate that DReS-FL consistently leads to significant performance gains over baseline methods.
翻訳日:2022-10-07 17:46:12 公開日:2022-10-06
# IJCB 2022 Mobile Behavioral Biometrics Competition (MobileB2C)

IJCB 2022 Mobile Behavioral Biometrics Competition (MobileB2C) ( http://arxiv.org/abs/2210.03072v1 )

ライセンス: Link先を確認
Giuseppe Stragapede, Ruben Vera-Rodriguez, Ruben Tolosana, Aythami Morales, Julian Fierrez, Javier Ortega-Garcia, Sanka Rasnayaka, Sachith Seneviratne, Vipula Dissanayake, Jonathan Liebers, Ashhadul Islam, Samir Brahim Belhaouari, Sumaiya Ahmad, Suraiya Jabin(参考訳) IJCB 2022 Mobile Behavioral Biometrics Competition (MobileB2C) の実験的枠組みと結果について述べる。 MobileB2Cの目的は、新しい公開データベースであるBehavePassDBと標準実験プロトコルを使用して、通常のHCI(Human-Computer Interaction)においてモバイルデバイスが透過的に取得した行動バイオメトリック特性に基づいて、モバイルユーザ認証システムをベンチマークすることである。 コンペティションは、キーストローク、テキスト読み込み、ギャラリースワイプ、タップの4つの典型的なユーザアクティビティに対応する4つのタスクに分けられる。 データはタッチスクリーンデータと、複数の背景センサデータを同時に取得する。 ランダム(異なるデバイスを持つ異なるユーザ)と「スキル」(正当なユーザを模倣しようとする同じデバイス上の異なるユーザ)が想定されている。 参加者が行った結果は,行動バイオメトリックスによるユーザ認証の実現可能性を示しているが,これは非自明な課題であることが証明されている。 MobileB2Cは、現在進行中のコンペティションとして確立される。

This paper describes the experimental framework and results of the IJCB 2022 Mobile Behavioral Biometrics Competition (MobileB2C). The aim of MobileB2C is benchmarking mobile user authentication systems based on behavioral biometric traits transparently acquired by mobile devices during ordinary Human-Computer Interaction (HCI), using a novel public database, BehavePassDB, and a standard experimental protocol. The competition is divided into four tasks corresponding to typical user activities: keystroke, text reading, gallery swiping, and tapping. The data are composed of touchscreen data and several background sensor data simultaneously acquired. "Random" (different users with different devices) and "skilled" (different user on the same device attempting to imitate the legitimate one) impostor scenarios are considered. The results achieved by the participants show the feasibility of user authentication through behavioral biometrics, although this proves to be a non-trivial challenge. MobileB2C will be established as an on-going competition.
翻訳日:2022-10-07 17:40:17 公開日:2022-10-06
# 家庭内暴力の早期発見に向けたドアスラム検出の可能性

Feasibility on Detecting Door Slamming towards Monitoring Early Signs of Domestic Violence ( http://arxiv.org/abs/2210.02642v1 )

ライセンス: Link先を確認
Osian Morgan, Hakan Kayan, Charith Perera(参考訳) 低コストマイクロコントローラとTinyMLを用いて、家庭内暴力やその他の反社会的行動の早期警戒サインの検出の可能性を検討した。 音声データを分析し、これを畳み込みニューラルネットワークに入力してサンプルを分類することで、ドアが積極的に閉じられているかどうかを判断する機械学習モデルを作成しました。 試験条件下では, 背景雑音が無く, 88.89\%の精度が達成され, 試料の0.5倍の相対体積で混入した場合, 87.50\%まで低下した。 そして、そのモデルがドアに取り付けられたArduino Nano BLE 33 Sense上に展開され、予め定義された閾値加速度以上の加速度が検出されたときにのみサンプリングを開始する。 モデルの予測は、ble経由でraspberry piのスマートフォンなど、他のデバイスに送信することができる。

By using low-cost microcontrollers and TinyML, we investigate the feasibility of detecting potential early warning signs of domestic violence and other anti-social behaviors within the home. We created a machine learning model to determine if a door was closed aggressively by analyzing audio data and feeding this into a convolutional neural network to classify the sample. Under test conditions, with no background noise, accuracy of 88.89\% was achieved, declining to 87.50\% when assorted background noises were mixed in at a relative volume of 0.5 times that of the sample. The model is then deployed on an Arduino Nano BLE 33 Sense attached to the door, and only begins sampling once an acceleration greater than a predefined threshold acceleration is detected. The predictions made by the model can then be sent via BLE to another device, such as a smartphone of Raspberry Pi.
翻訳日:2022-10-07 17:39:59 公開日:2022-10-06
# 足ロボットの最適設計のためのメタ強化学習

Meta Reinforcement Learning for Optimal Design of Legged Robots ( http://arxiv.org/abs/2210.02750v1 )

ライセンス: Link先を確認
\'Alvaro Belmonte-Baeza, Joonho Lee, Giorgio Valsecchi, Marco Hutter(参考訳) ロボット設計のプロセスは複雑な作業であり、設計決定の大部分は、人間の直感や退屈なマニュアルチューニングに基づいている。 この課題に直面するよりインフォームドな方法は、設計パラメータが対応するコントローラで同時に最適化される計算設計手法である。 しかし、既存のアプローチは事前定義された制御ルールやモーションテンプレートの影響を強く受けており、エンドツーエンドのソリューションを提供できない。 本稿では,モデルフリーなメタ強化学習を用いた設計最適化フレームワークとその四足歩行ロボットの運動学およびアクチュエータパラメータの最適化への応用について述べる。 我々はメタ強化学習を用いて、異なる設計に迅速に適応できる移動ポリシーを訓練する。 このポリシーは、設計最適化中の各設計インスタンスを評価するために使用される。 このポリシーは異なる設計のロボットを制御し、様々な荒地でランダムな速度指令を追跡できることを実証する。 制御された実験により、メタポリシーが適応後の各設計インスタンスの近接最適性能を達成することを示す。 最後に,モデルベースのベースラインと比較し,事前定義された動作や歩行パターンに制約されることなく,より高いパフォーマンスを実現する方法を示す。

The process of robot design is a complex task and the majority of design decisions are still based on human intuition or tedious manual tuning. A more informed way of facing this task is computational design methods where design parameters are concurrently optimized with corresponding controllers. Existing approaches, however, are strongly influenced by predefined control rules or motion templates and cannot provide end-to-end solutions. In this paper, we present a design optimization framework using model-free meta reinforcement learning, and its application to the optimizing kinematics and actuator parameters of quadrupedal robots. We use meta reinforcement learning to train a locomotion policy that can quickly adapt to different designs. This policy is used to evaluate each design instance during the design optimization. We demonstrate that the policy can control robots of different designs to track random velocity commands over various rough terrains. With controlled experiments, we show that the meta policy achieves close-to-optimal performance for each design instance after adaptation. Lastly, we compare our results against a model-based baseline and show that our approach allows higher performance while not being constrained by predefined motions or gait patterns.
翻訳日:2022-10-07 17:39:43 公開日:2022-10-06
# KnowledgeShovel:科学知識ベース構築のためのAI-in-the-Loopドキュメンテーションアノテーションシステム

KnowledgeShovel: An AI-in-the-Loop Document Annotation System for Scientific Knowledge Base Construction ( http://arxiv.org/abs/2210.02830v1 )

ライセンス: Link先を確認
Shao Zhang, Yuting Jia, Hui Xu, Dakuo Wang, Toby Jia-jun Li, Ying Wen, Xinbing Wang, Chenghu Zhou(参考訳) 包括的で正確で有用な科学的知識基盤を構築することは、科学的知識を合成し、al駆動の科学的発見を可能にするために重要である。 しかし,(1)利用可能な膨大な科学文献,(2)高度に専門化された科学領域,(3)情報(文章,図形,表)の多様さ,(4)不整合な形式と構造を持つ出版物における科学知識のサイロなどにより,現状のプロセスは困難で誤りを生じやすい。 そこで我々は,学術知識基盤を構築するためのAl-in-the-Loop文書アノテーションシステムであるKnowledgeShovelを設計・開発した。 KnowledgeShovelの設計では、ユーザの既存のワークフローと整合するマルチステップのヒューマン-AIコラボレーションパイプラインを導入し、データの正確性を向上し、人的負担を軽減する。 7つの地学研究者によるフォローアップユーザ評価は、知識ショベルが科学的知識ベースを十分な精度で効率的に構築できることを示している。

Constructing a comprehensive, accurate, and useful scientific knowledge base is crucial for human researchers synthesizing scientific knowledge and for enabling Al-driven scientific discovery. However, the current process is difficult, error-prone, and laborious due to (1) the enormous amount of scientific literature available; (2) the highly-specialized scientific domains; (3) the diverse modalities of information (text, figure, table); and, (4) the silos of scientific knowledge in different publications with inconsistent formats and structures. Informed by a formative study and iterated with participatory design workshops, we designed and developed KnowledgeShovel, an Al-in-the-Loop document annotation system for researchers to construct scientific knowledge bases. The design of KnowledgeShovel introduces a multi-step multi-modal human-AI collaboration pipeline that aligns with users' existing workflows to improve data accuracy while reducing the human burden. A follow-up user evaluation with 7 geoscience researchers shows that KnowledgeShovel can enable efficient construction of scientific knowledge bases with satisfactory accuracy.
翻訳日:2022-10-07 17:39:27 公開日:2022-10-06
# 確率論理プログラミングにおけるプログラムとしての説明

Explanations as Programs in Probabilistic Logic Programming ( http://arxiv.org/abs/2210.03021v1 )

ライセンス: Link先を確認
Germ\'an Vidal(参考訳) 理解可能な説明の生成は、現代の人工知能システムに欠かせない特徴である。 本研究では,関係構造や不確実性を持つ領域をモデル化するのに有用な論理プログラミングの拡張である確率的論理プログラミングを考える。 本質的には、プログラムは可能な世界(つまり事実の集合)の確率分布を指定する。 説明の概念は、典型的には世界のそれと関連付けられるので、クエリーが真である世界と同様に、最も可能性の高い世界を探すことが多い。 残念ながら、このような説明は因果構造を示さない。 特に、特定の予測(クエリによって表される)に必要な推論の連鎖は示されていない。 本稿では,複数の展開様変換によって与えられた問合せから生成するプログラムとして説明を表現できる新しい手法を提案する。 ここで、与えられたクエリを証明する推論の連鎖は明示される。 さらに、生成された説明は最小限(すなわち、無関係な情報を含む)であり、可視的述語仕様をパラメータ化できるため、ユーザーは説明から興味のない詳細を隠すことができる。

The generation of comprehensible explanations is an essential feature of modern artificial intelligence systems. In this work, we consider probabilistic logic programming, an extension of logic programming which can be useful to model domains with relational structure and uncertainty. Essentially, a program specifies a probability distribution over possible worlds (i.e., sets of facts). The notion of explanation is typically associated with that of a world, so that one often looks for the most probable world as well as for the worlds where the query is true. Unfortunately, such explanations exhibit no causal structure. In particular, the chain of inferences required for a specific prediction (represented by a query) is not shown. In this paper, we propose a novel approach where explanations are represented as programs that are generated from a given query by a number of unfolding-like transformations. Here, the chain of inferences that proves a given query is made explicit. Furthermore, the generated explanations are minimal (i.e., contain no irrelevant information) and can be parameterized w.r.t. a specification of visible predicates, so that the user may hide uninteresting details from explanations.
翻訳日:2022-10-07 17:39:03 公開日:2022-10-06
# ガウス過程を用いた時間内干渉の因果効果の推論

Inference on Causal Effects of Interventions in Time using Gaussian Processes ( http://arxiv.org/abs/2210.02850v1 )

ライセンス: Link先を確認
Gianluca Giudice, Sara Geneletti and Konstantinos Kalogeropoulos(参考訳) 本稿では、時間とともに結果変数に現れるように、特定の時点における介入の因果的影響を推論することに焦点を当てる。 我々は、割り込み時系列の枠組みを運用し、ガウス過程に基づく非パラメトリックな定式化を基礎とした動的線形回帰モデルを置き換えることにより、合成制御(2003年秋)やベイズ構造時系列(Brodersen et al 2015)のようなアプローチを拡張した。 開発されたモデルは、機能形式にほとんど制限を課さない高い柔軟性を持ち、ベイズフレームワークの下で、その推定から生じる不確実性を組み込むことができる。 結果変数の軌道のみに作用する非パラメトリック構造時系列モデルの2つのファミリを導入するか、複数のガウス過程を用いて多変量設定を行う。 本論文は、欧州の他の地域と対照的に、英国における予防接種計画の加速の影響に焦点を当てたケーススタディと密接に関わり、その方法論を解説し、実施手順を提示する。

This paper focuses on drawing inference on the causal impact of an intervention at a specific time point, as manifested in an outcome variable over time. We operate on the interrupted time series framework and expand on approaches such as the synthetic control (Abadie 2003) and Bayesian structural time series (Brodersen et al 2015), by replacing the underlying dynamic linear regression model with a non-parametric formulation based on Gaussian Processes. The developed models possess a high degree of flexibility posing very little limitations on the functional form and allow to incorporate uncertainty, stemming from its estimation, under the Bayesian framework. We introduce two families of non-parametric structural time series models either operating on the trajectory of the outcome variable alone, or in a multivariate setting using multiple output Gaussian processes. The paper engages closely with a case study focusing on the impact of the accelerated UK vaccination schedule, as contrasted with the rest of Europe, to illustrate the methodology and present the implementation procedure.
翻訳日:2022-10-07 17:38:47 公開日:2022-10-06
# モデルベース森林を用いた観測データの不均一処理効果推定

Heterogeneous Treatment Effect Estimation for Observational Data using Model-based Forests ( http://arxiv.org/abs/2210.02836v1 )

ライセンス: Link先を確認
Susanne Dandl and Andreas Bender and Torsten Hothorn(参考訳) 異種治療効果(hte)の推定は、多くの分野、特に医学や経済学において大きな関心を集めている。 現代の研究は、従来のhteが線形モデルによって推定される連続的および二分的応答に主に焦点を合わせており、特定のモデル誤特定の下でも定数または不均質な効果を推定することができる。 生存、数、順序の結果のより複雑なモデルは、治療効果を確実に推定するためにより厳格な仮定を必要とする。 最も重要なのは、非協調性問題は治療と予後の同時評価を必要とすることである。 モデルベース森林は共変量依存的治療と予後予測効果の同時推定を可能にするが、ランダム化試験のみである。 本稿では,観測データの融合問題に対処するため,モデルベース森林の修正を提案する。 特に,ロビンソン(1988,econometrica)が提唱した直交化戦略を,一般化線形モデルと変換モデルにおけるhte推定を目標としたモデルベース森林の文脈で評価した。 その結果,様々な結果分布を持つシミュレーション実験において,この戦略は結束効果を減少させることがわかった。 筋萎縮性側索硬化症の進行に対するリルゾールの潜在的ヘテロジニアス効果を評価することにより,HTEの生存率と経時的成績を推定する実践的側面を示す。

The estimation of heterogeneous treatment effects (HTEs) has attracted considerable interest in many disciplines, most prominently in medicine and economics. Contemporary research has so far primarily focused on continuous and binary responses where HTEs are traditionally estimated by a linear model, which allows the estimation of constant or heterogeneous effects even under certain model misspecifications. More complex models for survival, count, or ordinal outcomes require stricter assumptions to reliably estimate the treatment effect. Most importantly, the noncollapsibility issue necessitates the joint estimation of treatment and prognostic effects. Model-based forests allow simultaneous estimation of covariate-dependent treatment and prognostic effects, but only for randomized trials. In this paper, we propose modifications to model-based forests to address the confounding issue in observational data. In particular, we evaluate an orthogonalization strategy originally proposed by Robinson (1988, Econometrica) in the context of model-based forests targeting HTE estimation in generalized linear models and transformation models. We found that this strategy reduces confounding effects in a simulated study with various outcome distributions. We demonstrate the practical aspects of HTE estimation for survival and ordinal outcomes by an assessment of the potentially heterogeneous effect of Riluzole on the progress of Amyotrophic Lateral Sclerosis.
翻訳日:2022-10-07 17:31:38 公開日:2022-10-06
# 生物ニューロンは貯水池計算における一般化フィルタとして働く

Biological neurons act as generalization filters in reservoir computing ( http://arxiv.org/abs/2210.02913v1 )

ライセンス: Link先を確認
Takuma Sumi, Hideaki Yamamoto, Yuichi Katori, Satoshi Moriya, Tomohiro Konno, Shigeo Sato, Ayumi Hirano-Iwata(参考訳) 貯留層コンピューティングは、時系列データを処理するための高次元非線形システムの過渡ダイナミクスを変換する機械学習パラダイムである。 哺乳類の皮質における情報処理をモデル化するために貯水池コンピューティングが最初に提案されたが、モジュラーアーキテクチャのような非ランダムネットワークアーキテクチャが生体ニューロンの生理機能とどのように統合され、生体神経ネットワークの機能(BNN)が特徴づけられるかは不明である。 そこで我々は,培養BNNの多細胞応答を記録するために光遺伝学と蛍光カルシウムイメージングを用い,その計算能力をデコードするために貯水池計算フレームワークを用いた。 マイクロパターンの基板はモジュールアーキテクチャをBNNに埋め込むために使われた。 まず,線形デコーダによる静的入力パターンの分類にモジュール型BNNを用いることで,BNNのモジュラリティが分類精度と正の相関関係があることを示す。 次にタイマタスクを用いて,BNN が ~1 秒の短期記憶を持つことを検証し,この特性が音声桁分類に活用可能であることを示す。 興味深いことに、bnnベースのリザーバでは転送学習が可能で、ひとつのデータセットでトレーニングされたネットワークを使用して、同じカテゴリのデータセットを分類することができる。 このような分類は、入力パターンが線形デコーダによって直接デコードされると不可能であり、bnnが一般化フィルタとして機能し、貯留層計算性能を向上させることを示唆した。 本研究は,BNNにおける情報処理の機械的理解に向けての道を開くとともに,BNNに基づく物理貯水池コンピューティングシステムの実現に向けての今後の期待を構築するものである。

Reservoir computing is a machine learning paradigm that transforms the transient dynamics of high-dimensional nonlinear systems for processing time-series data. Although reservoir computing was initially proposed to model information processing in the mammalian cortex, it remains unclear how the non-random network architecture, such as the modular architecture, in the cortex integrates with the biophysics of living neurons to characterize the function of biological neuronal networks (BNNs). Here, we used optogenetics and fluorescent calcium imaging to record the multicellular responses of cultured BNNs and employed the reservoir computing framework to decode their computational capabilities. Micropatterned substrates were used to embed the modular architecture in the BNNs. We first show that modular BNNs can be used to classify static input patterns with a linear decoder and that the modularity of the BNNs positively correlates with the classification accuracy. We then used a timer task to verify that BNNs possess a short-term memory of ~1 s and finally show that this property can be exploited for spoken digit classification. Interestingly, BNN-based reservoirs allow transfer learning, wherein a network trained on one dataset can be used to classify separate datasets of the same category. Such classification was not possible when the input patterns were directly decoded by a linear decoder, suggesting that BNNs act as a generalization filter to improve reservoir computing performance. Our findings pave the way toward a mechanistic understanding of information processing within BNNs and, simultaneously, build future expectations toward the realization of physical reservoir computing systems based on BNNs.
翻訳日:2022-10-07 17:31:19 公開日:2022-10-06
# 光球の明るい点群の量と輝度進化特性に関する研究

Research on the quantity and brightness evolution characteristics of Photospheric Bright Points groups ( http://arxiv.org/abs/2210.02635v1 )

ライセンス: Link先を確認
HaiCheng Bai(参考訳) コンテキスト。 光球の最小の磁性元素である光球明るい点(bps)と磁束管のフットポイントトレーサは、bpsの研究にとって非常に重要である。 いくつかの特定のBPの特性と進化の研究と比較して、BPs群の研究はBPs群の特徴と全体活性をよりよく理解することができる。 狙いだ 本研究では,輝度レベルの異なるbps群の輝度と数の進化特性と,これらの特性が静かな領域と活動的な領域でどのように異なるかを明らかにすることを目的とした。 メソッド。 従来の技術とニューラルネットワークを組み合わせたハイブリッドBP検出モデル(HBDモデル)を提案する。 このモデルは、一対のBBSOのTiOバンドにおいて、アクティブ領域とサイレント領域の連続した高解像度画像シーケンスの各フレームのBPs輝度特性を検出し、計算するために使用される。 機械学習クラスタリング法を用いて,各フレームのpbsを4つのレベルグループ(レベル1レベル4)に分け,輝度を低レベルから高レベルに設定した。 最後に、フーリエ変換と逆フーリエ変換を用いて、これらの4つのレベル群におけるBPsの明るさと量の進化を分析する。 結果だ BPs群の活性はランダムで無秩序ではない。 異なるレベルの明るさでは、その量と明るさの進化は複雑な変化を示す。 4段階の明るさのうち,活動領域のbpsは静かな領域よりも活発で強い値を示した。 しかし, 静けさ領域におけるBPs群の量と明るさ変化は, 中・高輝度域における大きな周期変化と小さな周期変化の特徴を示した(レベル3, レベル4)。 静かな領域におけるpbs群の明るさ変化は周期的に明らかに変化するが、活性領域は完全にランダムで乱暴な変動状態にある。

Context. Photospheric bright points (BPs), as the smallest magnetic element of the photosphere and the footpoint tracer of the magnetic flux tube, are of great significance to the study of BPs. Compared with the study of the characteristics and evolution of a few specific BPs, the study of BPs groups can provide us with a better understanding of the characteristics and overall activities of BPs groups. Aims. We aim to find out the evolution characteristics of the brightness and number of BPs groups at different brightness levels, and how these characteristics differ between quiet and active regions. Methods. We propose a hybrid BPs detection model (HBD Model) combining traditional technology and neural network. The Model is used to detect and calculate the BPs brightness characteristics of each frame of continuous high resolution image sequences of active and quiet regions in TiO-band of a pair of BBSO. Using machine learning clustering method, the PBs of each frame was divided into four levels groups (level1-level4) according to the brightness from low to high. Finally, Fourier transform and inverse Fourier transform are used to analyze the evolution of BPs brightness and quantity in these four levels groups. Results. The activities of BPs groups are not random and disorderly. In different levels of brightness, their quantity and brightness evolution show complex changes. Among the four levels of brightness, BPs in the active region were more active and intense than those in the quiet region. However, the quantity and brightness evolution of BPs groups in the quiet region showed the characteristics of large periodic changes and small periodic changes in the medium and high brightness levels (level3 and level4). The brightness evolution of PBs group in the quiet region has obvious periodic changes, but the active region is in a completely random and violent fluctuation state.
翻訳日:2022-10-07 17:29:39 公開日:2022-10-06
# dexgraspnet: シミュレーションに基づく汎用オブジェクトのための大規模ロボットデクスタース把持データセット

DexGraspNet: A Large-Scale Robotic Dexterous Grasp Dataset for General Objects Based on Simulation ( http://arxiv.org/abs/2210.02697v1 )

ライセンス: Link先を確認
Ruicheng Wang, Jialiang Zhang, Jiayi Chen, Yinzhen Xu, Puhao Li, Tengyu Liu, He Wang(参考訳) 器用な手を使って物体をつかむことは、ロボットの器用な操作にとって重要な課題である。 並列グリップパーを用いた物体把握の分野と比較すると,大規模なデータセットが欠如していることから,デクスタラスグリップは非常に過小評価されている。 本研究では,ロボットによるデキスタラスハンドリングのための大規模シミュレーションデータセットdexgraspnetと,多様なデキスタラスハンドリング合成のための高効率合成手法を提案する。 高度に加速された微分可能な力の閉鎖推定装置を利用することで、我々は初めて安定かつ多様な把持を効率的かつロバストに合成することができる。 我々はロボット工学で一般的に見られるデクタブルなグリッパーであるshadowhandを選択し、5355個の物体に対して1303万のグリップを生成し、各オブジェクトインスタンスに200以上の多様なグリップを含む133のオブジェクトカテゴリをカバーし、全てのグリップが物理シミュレーターによって検証されている。 GraspIt!が生成した以前のデータセットと比較すると、私たちのデータセットはオブジェクトやグリップだけでなく、多様性や品質も高くなります。 データセット間実験を行った結果,データセット上でのデクスタリーグリップ合成のアルゴリズムの訓練は,DexGraspNetの大規模化と多様性を実証し,前者よりも大幅に優れていたことがわかった。 受け入れ次第、データとツールをリリースします。

Object grasping using dexterous hands is a crucial yet challenging task for robotic dexterous manipulation. Compared with the field of object grasping with parallel grippers, dexterous grasping is very under-explored, partially owing to the lack of a large-scale dataset. In this work, we present a large-scale simulated dataset, DexGraspNet, for robotic dexterous grasping, along with a highly efficient synthesis method for diverse dexterous grasping synthesis. Leveraging a highly accelerated differentiable force closure estimator, we, for the first time, are able to synthesize stable and diverse grasps efficiently and robustly. We choose ShadowHand, a dexterous gripper commonly seen in robotics, and generated 1.32 million grasps for 5355 objects, covering more than 133 object categories and containing more than 200 diverse grasps for each object instance, with all grasps having been validated by the physics simulator. Compared to the previous dataset generated by GraspIt!, our dataset has not only more objects and grasps, but also higher diversity and quality. Via performing cross-dataset experiments, we show that training several algorithms of dexterous grasp synthesis on our datasets significantly outperforms training on the previous one, demonstrating the large scale and diversity of DexGraspNet. We will release the data and tools upon acceptance.
翻訳日:2022-10-07 17:29:11 公開日:2022-10-06
# MuS2:Sentinel-2マルチイメージ超解法のベンチマーク

MuS2: A Benchmark for Sentinel-2 Multi-Image Super-Resolution ( http://arxiv.org/abs/2210.02745v1 )

ライセンス: Link先を確認
Pawel Kowaleczko, Tomasz Tarasiewicz, Maciej Ziaja, Daniel Kostrzewa, Jakub Nalepa, Przemyslaw Rokita, Michal Kawulok(参考訳) センチネル2データを含む衛星画像の不十分な空間分解能は、多くの実用的なユースケースにおいて深刻な限界である。 この問題を軽減するため,超高解像度再構築はリモートセンシングコミュニティから大きな注目を集めている。 その後の改訂で撮影された複数の画像から撮影された場合、情報融合の恩恵を受け、再構築精度が向上する。 マルチイメージ・スーパーレゾリューションの障害の1つは、実生活のベンチマークデータセットが不足していることである。 本稿では,高解像度参照としてWorldView-2画像を用いた,Sentinel-2画像のマルチイメージ超解像再構成のための新しい MuS2 ベンチマークを提案する。 MuS2 内では,この問題に対する最初のエンドツーエンド評価手順を公開し,研究者がSentinel-2 画像のマルチイメージ超解像の最先端化に役立てることを期待している。

Insufficient spatial resolution of satellite imagery, including Sentinel-2 data, is a serious limitation in many practical use cases. To mitigate this problem, super-resolution reconstruction is receiving considerable attention from the remote sensing community. When it is performed from multiple images captured at subsequent revisits, it may benefit from information fusion, leading to enhanced reconstruction accuracy. One of the obstacles in multi-image super-resolution consists in the scarcity of real-life benchmark datasets -- most of the research was performed for simulated data which do not fully reflect the operating conditions. In this letter, we introduce a new MuS2 benchmark for multi-image super-resolution reconstruction of Sentinel-2 images, with WorldView-2 imagery used as the high-resolution reference. Within MuS2, we publish the first end-to-end evaluation procedure for this problem which we expect to help the researchers in advancing the state of the art in multi-image super-resolution for Sentinel-2 imagery.
翻訳日:2022-10-07 17:28:43 公開日:2022-10-06
# ベイズメタラーニングによる心臓シミュレーションのためのパーソナライズされたニューラルサロゲートの生成

Few-shot Generation of Personalized Neural Surrogates for Cardiac Simulation via Bayesian Meta-Learning ( http://arxiv.org/abs/2210.02967v1 )

ライセンス: Link先を確認
Xiajun Jiang, Zhiyuan Li, Ryan Missel, Md Shakil Zaman, Brian Zenger, Wilson W. Good, Rob S. MacLeod, John L. Sapp, Linwei Wang(参考訳) パーソナライズされた仮想心臓シミュレーションの臨床応用は、モデルパーソナライゼーションと高価な計算の課題に直面している。 理想的なソリューションは、個々の被験者にパーソナライズされた効率的なニューラルネットワークサロゲートであるが、最先端技術は高価なシミュレーションモデルをパーソナライズするか、効率的で汎用的なサロゲートを学ぶことに関心がある。 本稿では,メタラーニングの単一コヒーレントフレームワーク(metaPNS)において,パーソナライズされたニューラルサロゲートを実現するための全く新しい概念を提案する。 1つの神経代理を学習する代わりに、被験者から少量の文脈データを用いてパーソナライズされた神経代理を学習する過程を追求する。 1)主観的コンテキストデータに基づいて、コンテキストセットに含まれないクエリシミュレーションを生成することを学習する、心シミュレーションのための設定条件付きニューラルネットワーク 2) 文脈データのフィードフォワード埋め込みにより, 神経代理の条件付けを学習する, 変分推論のメタモデル。 テスト時間としてmetapnsは、個人から利用可能な小規模で柔軟なデータを高速にフィードフォワードに埋め込むことでパーソナライズされたニューラルネットワークサロゲートを提供し、エンドツーエンドの学習フレームワークで高価なシミュレーションのためのパーソナライズとサロゲートを実現する。 合成および実データ実験により、メタPNSは、従来の最適化された心臓シミュレーションモデルと比較して、計算のごく一部でパーソナライズと予測精度を向上させることができた。

Clinical adoption of personalized virtual heart simulations faces challenges in model personalization and expensive computation. While an ideal solution is an efficient neural surrogate that at the same time is personalized to an individual subject, the state-of-the-art is either concerned with personalizing an expensive simulation model, or learning an efficient yet generic surrogate. This paper presents a completely new concept to achieve personalized neural surrogates in a single coherent framework of meta-learning (metaPNS). Instead of learning a single neural surrogate, we pursue the process of learning a personalized neural surrogate using a small amount of context data from a subject, in a novel formulation of few-shot generative modeling underpinned by: 1) a set-conditioned neural surrogate for cardiac simulation that, conditioned on subject-specific context data, learns to generate query simulations not included in the context set, and 2) a meta-model of amortized variational inference that learns to condition the neural surrogate via simple feed-forward embedding of context data. As test time, metaPNS delivers a personalized neural surrogate by fast feed-forward embedding of a small and flexible number of data available from an individual, achieving -- for the first time -- personalization and surrogate construction for expensive simulations in one end-to-end learning framework. Synthetic and real-data experiments demonstrated that metaPNS was able to improve personalization and predictive accuracy in comparison to conventionally-optimized cardiac simulation models, at a fraction of computation.
翻訳日:2022-10-07 17:22:45 公開日:2022-10-06
# SynBench: 合成データを用いた事前学習表現のタスク非依存ベンチマーク

SynBench: Task-Agnostic Benchmarking of Pretrained Representations using Synthetic Data ( http://arxiv.org/abs/2210.02989v1 )

ライセンス: Link先を確認
Ching-Yun Ko, Pin-Yu Chen, Jeet Mohapatra, Payel Das, Luca Daniel(参考訳) 近年,タスク中心のモデル設計からタスク非依存の表現学習,タスク特化の微調整に至るまで,ダウンストリームタスクにおける広範囲なデータに基づいて事前訓練された大規模モデルの開発が成功している。 本稿では, 事前学習されたモデルの表現を, 異なる下流タスクの基盤として用いるため, 合成データを用いて事前学習された表現の質を測定するための, タスクに依存しない新しいフレームワーク, \textit{SynBench}を提案する。 条件付きガウス混合のロバストネス・精度トレードオフを理論的に導いた基準を設定した。 事前学習モデルにより,ガウス混合物から合成したデータの表現を用いて,原データとそれらの表現との面積内曲線の比を比較することにより,ロバスト性・精度評価ベンチマークのための定量スコアを提供する。 我々のフレームワークは、継続的なデータ入力を受け取り、下流のタスクやデータセットとは独立している幅広い事前訓練されたモデルに適用されます。 先行学習した視覚トランスフォーマモデルを用いて評価した結果, 実験結果から, 下流タスクで微調整を行った場合, シンベンチスコアは実際の線形プロビング性能によく合っていることがわかった。 さらに,本フレームワークは,学習済み表現に対するロバスト線形プローブの設計を知らせることで,下流タスクにおけるロバスト性・正確性トレードオフを軽減することができる。

Recent success in fine-tuning large models, that are pretrained on broad data at scale, on downstream tasks has led to a significant paradigm shift in deep learning, from task-centric model design to task-agnostic representation learning and task-specific fine-tuning. As the representations of pretrained models are used as a foundation for different downstream tasks, this paper proposes a new task-agnostic framework, \textit{SynBench}, to measure the quality of pretrained representations using synthetic data. We set up a reference by a theoretically-derived robustness-accuracy tradeoff of the class conditional Gaussian mixture. Given a pretrained model, the representations of data synthesized from the Gaussian mixture are used to compare with our reference to infer the quality.By comparing the ratio of area-under-curve between the raw data and their representations, SynBench offers a quantifiable score for robustness-accuracy performance benchmarking. Our framework applies to a wide range of pretrained models taking continuous data inputs and is independent of the downstream tasks and datasets. Evaluated with several pretrained vision transformer models, the experimental results show that our SynBench score well matches the actual linear probing performance of the pre-trained model when fine-tuned on downstream tasks. Moreover, our framework can be used to inform the design of robust linear probing on pretrained representations to mitigate the robustness-accuracy tradeoff in downstream tasks.
翻訳日:2022-10-07 17:22:15 公開日:2022-10-06
# bytetransformer:可変長入力のための高性能トランスフォーマー

ByteTransformer: A High-Performance Transformer Boosted for Variable-Length Inputs ( http://arxiv.org/abs/2210.03052v1 )

ライセンス: Link先を確認
Yujia Zhai, Chengquan Jiang, Leyuan Wang, Xiaoying Jia, Shang Zhang, Zizhong Chen, Xin Liu, Yibo Zhu(参考訳) Transformerは、過去10年間の自然言語処理(NLP)の基盤モデルです。 ディープラーニング(DL)アプリケーションで大きな成功を収めたにもかかわらず、トランスフォーマーモデルに必要なパラメータ空間が増加し、トランスフォーマーモデルの性能向上への需要が高まっている。 さらに、NLPの問題は、単語番号が文によって異なるため、可変長のシーケンスで一般的に直面することができる。 既存のdlフレームワークは可変長シーケンスを最大長にパットする必要があるが、これは大きなメモリと計算オーバーヘッドをもたらす。 本稿では,可変長入力用高性能トランスフォーマであるbytetransformerを提案する。 本研究では,無用なパディングトークン上での冗長な計算から変換器全体を解放するゼロパディングアルゴリズムを提案する。 アルゴリズムレベルの最適化に加えて、トランスフォーマー機能モジュール、特にパフォーマンスクリティカルなアルゴリズムであるマルチヘッドアテンション(mha)のアーキテクチャ対応最適化も提供する。 可変長シーケンス入力を持つNVIDIA A100 GPUの実験結果は、融合MHA(FMHA)が標準PyTorch MHAを6.13Xで上回ることを示す。 標準的なBERTトランスモデルのByteTransformerのエンドツーエンドのパフォーマンスは、PyTorch JIT、TensorFlow XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークをそれぞれ87\%、131\%、138\%、46\%を超えている。

Transformer is the cornerstone model of Natural Language Processing (NLP) over the past decade. Despite its great success in Deep Learning (DL) applications, the increasingly growing parameter space required by transformer models boosts the demand on accelerating the performance of transformer models. In addition, NLP problems can commonly be faced with variable-length sequences since their word numbers can vary among sentences. Existing DL frameworks need to pad variable-length sequences to the maximal length, which, however, leads to significant memory and computational overhead. In this paper, we present ByteTransformer, a high-performance transformer boosted for variable-length inputs. We propose a zero padding algorithm that enables the whole transformer to be free from redundant computations on useless padded tokens. Besides the algorithmic level optimization, we provide architectural-aware optimizations for transformer functioning modules, especially the performance-critical algorithm, multi-head attention (MHA). Experimental results on an NVIDIA A100 GPU with variable-length sequence inputs validate that our fused MHA (FMHA) outperforms the standard PyTorch MHA by 6.13X. The end-to-end performance of ByteTransformer for a standard BERT transformer model surpasses the state-of-the-art Transformer frameworks, such as PyTorch JIT, TensorFlow XLA, Tencent TurboTransformer and NVIDIA FasterTransformer, by 87\%, 131\%, 138\% and 46\%, respectively.
翻訳日:2022-10-07 17:21:49 公開日:2022-10-06
# 減衰のより良い方法: ニューラルネットの近位勾配トレーニングアルゴリズム

A Better Way to Decay: Proximal Gradient Training Algorithms for Neural Nets ( http://arxiv.org/abs/2210.03069v1 )

ライセンス: Link先を確認
Liu Yang, Jifan Zhang, Joseph Shenouda, Dimitris Papailiopoulos, Kangwook Lee, Robert D. Nowak(参考訳) 重みの減衰はディープラーニングにおいて最も広く使われる正規化の1つであり、一般化と堅牢性を改善することが示されている。 重量減衰の最適化対象は損失の和であり、二乗重みの和に比例する項である。 本稿では,確率勾配降下 (SGD) はこの目的に対して非効率なアルゴリズムであると主張している。 ReLU アクティベーションを持つニューラルネットワークの場合、重み劣化対象の解は異なる目的の解と等価であり、正規化項は ReLU に関連する入力および出力重みのノルム $\ell_2$ (2乗でない) の積の和である。 この代替的(かつ効果的に等価な)正則化は、ネットワークトレーニングのための新しい近位勾配アルゴリズムを示唆する。 理論と実験は新しいトレーニング手法を支持し、標準の重量減衰トレーニングと共有するスパース解にはるかに早く収束できることを示した。

Weight decay is one of the most widely used forms of regularization in deep learning, and has been shown to improve generalization and robustness. The optimization objective driving weight decay is a sum of losses plus a term proportional to the sum of squared weights. This paper argues that stochastic gradient descent (SGD) may be an inefficient algorithm for this objective. For neural networks with ReLU activations, solutions to the weight decay objective are equivalent to those of a different objective in which the regularization term is instead a sum of products of $\ell_2$ (not squared) norms of the input and output weights associated each ReLU. This alternative (and effectively equivalent) regularization suggests a novel proximal gradient algorithm for network training. Theory and experiments support the new training approach, showing that it can converge much faster to the sparse solutions it shares with standard weight decay training.
翻訳日:2022-10-07 17:21:21 公開日:2022-10-06
# 責任あるAIに対する人権に基づくアプローチ

A Human Rights-Based Approach to Responsible AI ( http://arxiv.org/abs/2210.02667v1 )

ライセンス: Link先を確認
Vinodkumar Prabhakaran, Margaret Mitchell, Timnit Gebru, Iason Gabriel(参考訳) 社会におけるAIによる介入の公平性、説明責任、透明性、倫理に関する研究は、近年ますます勢いを増している。 しかし、この研究と介入を導く規範的価値と原則のセットとの明確な整合性は欠如している。 むしろ、暗黙のコンセンサスはしばしば、我々が住んでいる多元的世界と矛盾するモデルに与える価値を保っていると仮定される。 本稿では、普遍人権主義を、責任あるaiにおける明示的な価値調整の枠組みとして機能する、グローバルにサルエントかつクロスカルチャーに認識された価値の集合であり、市民社会のパートナーシップと参加の枠組みとしての有効性について論じる。 人権の枠組みは、機械や偏見のリスクからこの領域の研究を遠ざけ、人間や権利に対するリスクに向け、本質的には、誰が害を受けているか、どのような被害に直面しているか、そしてそれらの害が緩和される可能性があるかを議論する。

Research on fairness, accountability, transparency and ethics of AI-based interventions in society has gained much-needed momentum in recent years. However it lacks an explicit alignment with a set of normative values and principles that guide this research and interventions. Rather, an implicit consensus is often assumed to hold for the values we impart into our models - something that is at odds with the pluralistic world we live in. In this paper, we put forth the doctrine of universal human rights as a set of globally salient and cross-culturally recognized set of values that can serve as a grounding framework for explicit value alignment in responsible AI - and discuss its efficacy as a framework for civil society partnership and participation. We argue that a human rights framework orients the research in this space away from the machines and the risks of their biases, and towards humans and the risks to their rights, essentially helping to center the conversation around who is harmed, what harms they face, and how those harms may be mitigated.
翻訳日:2022-10-07 17:21:06 公開日:2022-10-06
# Evasion Generative Adversarial Network for Botnet Detection (情報ネットワーク)

Deep Reinforcement Learning based Evasion Generative Adversarial Network for Botnet Detection ( http://arxiv.org/abs/2210.02840v1 )

ライセンス: Link先を確認
Rizwan Hamid Randhawa, Nauman Aslam, Mohammad Alauthman, Muhammad Khalid, Husnain Rafiq(参考訳) 機械学習に基づくボットネット検出器は、敵対的回避攻撃の潜在的なターゲットである。 いくつかの研究は、gans(generative adversarial nets)から生成したサンプルを使って、ボットネット検出器を敵の回避を認識することに長けている。 しかし、合成回避は、入力サンプルの本来の意味に従わないかもしれない。 本稿では, 深部強化学習(DRL)を利用した新しいGANモデルを提案し, セマンティック・アウェアネス・サンプルの探索と検出の強化を行う。 DRL剤は、ボットネット検出器として作用するGANの判別器を攻撃するために用いられる。 判別器は、GAN訓練中にエージェントによって製作された摂動に基づいて訓練され、DRLのない場合よりも早くGANジェネレータが収束するのに役立つ。 我々はこのモデルをRELEVAGAN,すなわち[”relive a GAN”あるいは“deep Reinforcement Learning-based Evasion Generative Adversarial Network”と名付けた。 gan訓練中に、エージェントによる工作摂動を学習するための判別器重みを調整するために攻撃を行う。 relevaganは、semantic-aware botnet検出モデルとして機能するため、ml分類器の敵意トレーニングを必要としない。 コードはhttps://github.com/rhr407/RELEVAGANで入手できる。

Botnet detectors based on machine learning are potential targets for adversarial evasion attacks. Several research works employ adversarial training with samples generated from generative adversarial nets (GANs) to make the botnet detectors adept at recognising adversarial evasions. However, the synthetic evasions may not follow the original semantics of the input samples. This paper proposes a novel GAN model leveraged with deep reinforcement learning (DRL) to explore semantic aware samples and simultaneously harden its detection. A DRL agent is used to attack the discriminator of the GAN that acts as a botnet detector. The discriminator is trained on the crafted perturbations by the agent during the GAN training, which helps the GAN generator converge earlier than the case without DRL. We name this model RELEVAGAN, i.e. ["relive a GAN" or deep REinforcement Learning-based Evasion Generative Adversarial Network] because, with the help of DRL, it minimises the GAN's job by letting its generator explore the evasion samples within the semantic limits. During the GAN training, the attacks are conducted to adjust the discriminator weights for learning crafted perturbations by the agent. RELEVAGAN does not require adversarial training for the ML classifiers since it can act as an adversarial semantic-aware botnet detection model. Code will be available at https://github.com/rhr407/RELEVAGAN.
翻訳日:2022-10-07 17:20:48 公開日:2022-10-06
# データ駆動型ミートナビゲーション:概念、モデル、実験的検証

Data-Driven Meets Navigation: Concepts, Models, and Experimental Validation ( http://arxiv.org/abs/2210.02930v1 )

ライセンス: Link先を確認
Itzik Klein(参考訳) ナビゲーションの目的は、人間や自律的なプラットフォーム、人間、動物の位置、速度、方向を決定することである。 正確なナビゲーションを行うには、慣性センサーやグローバルナビゲーション衛星システムといったいくつかのセンサーをモデルベースの非線形推定フレームワークで融合する必要がある。 近年,様々な分野に適用されたデータ駆動アプローチが,モデルベース手法と比較して最先端のパフォーマンスを示している。 本稿では,人間および動物の応用に適したアルゴリズム,多様な自律プラットフォーム,多目的ナビゲーションおよび融合アプローチを含む,自律ナビゲーション・センサ融合ラボ(ansfl)で開発・実証された多分野データ駆動型ナビゲーションアルゴリズムについて述べる。

The purpose of navigation is to determine the position, velocity, and orientation of manned and autonomous platforms, humans, and animals. Obtaining accurate navigation commonly requires fusion between several sensors, such as inertial sensors and global navigation satellite systems, in a model-based, nonlinear estimation framework. Recently, data-driven approaches applied in various fields show state-of-the-art performance, compared to model-based methods. In this paper we review multidisciplinary, data-driven based navigation algorithms developed and experimentally proven at the Autonomous Navigation and Sensor Fusion Lab (ANSFL) including algorithms suitable for human and animal applications, varied autonomous platforms, and multi-purpose navigation and fusion approaches
翻訳日:2022-10-07 17:20:23 公開日:2022-10-06
# 複数のタスクを解くニューラルネットワークにおけるモダリティ統合と柔軟な学習を支援する相乗的情報

Synergistic information supports modality integration and flexible learning in neural networks solving multiple tasks ( http://arxiv.org/abs/2210.02996v1 )

ライセンス: Link先を確認
Alexandra M. Proca, Fernando E. Rosas, Andrea I. Luppi, Daniel Bor, Matthew Crosby, Pedro A.M. Mediano(参考訳) 近年,その神経基盤が情報処理の異なるモードにどのように関与しているかを分析することによって,人間の認知を理解するための研究が進められている。 特に、神経情報は相乗的、冗長的、独特な特徴に分解することができ、相乗的成分は特に複雑な認知と一致している。 しかし、2つの基本的な疑問は未解決のままである。 (a)認知システムが高度に相乗的になる正確な方法と理由 b) これらの情報状態が、様々な学習モードで人工ニューラルネットワークにどのようにマップされるか。 これらの問題に対処するために,情報分解フレームワークを用いて,教師付き学習と強化学習の両方において,さまざまな認知タスクを実行するシンプルなニューラルネットワークが採用する情報処理戦略について検討する。 ニューラルネットワークが複数の多様なタスクを学習するにつれて、シナジーが増加することを示す。 さらに、複数の情報ソースの統合を必要とするタスクのパフォーマンスは、相乗的ニューロンに依存する。 最後に、トレーニング中にランダムにニューロンをオフにすることで、ロバスト性の増加に対応するネットワーク冗長性が向上する。 全体として、学習過程における摂動に対する堅牢性には冗長な情報が必要であるが、相乗的情報は複数の様相の情報を組み合わせたり、より一般的に柔軟で効率的な学習のために用いられる。 これらの知見は,学習システムが特定の情報処理戦略をどのように採用するか,またなぜ学習システムが特定の情報処理戦略を採用するのかを調査する新たな方法の扉を開く。

Striking progress has recently been made in understanding human cognition by analyzing how its neuronal underpinnings are engaged in different modes of information processing. Specifically, neural information can be decomposed into synergistic, redundant, and unique features, with synergistic components being particularly aligned with complex cognition. However, two fundamental questions remain unanswered: (a) precisely how and why a cognitive system can become highly synergistic; and (b) how these informational states map onto artificial neural networks in various learning modes. To address these questions, here we employ an information-decomposition framework to investigate the information processing strategies adopted by simple artificial neural networks performing a variety of cognitive tasks in both supervised and reinforcement learning settings. Our results show that synergy increases as neural networks learn multiple diverse tasks. Furthermore, performance in tasks requiring integration of multiple information sources critically relies on synergistic neurons. Finally, randomly turning off neurons during training through dropout increases network redundancy, corresponding to an increase in robustness. Overall, our results suggest that while redundant information is required for robustness to perturbations in the learning process, synergistic information is used to combine information from multiple modalities -- and more generally for flexible and efficient learning. These findings open the door to new ways of investigating how and why learning systems employ specific information-processing strategies, and support the principle that the capacity for general-purpose learning critically relies in the system's information dynamics.
翻訳日:2022-10-07 17:20:11 公開日:2022-10-06
# Mixup-based data Augmentation によるコード分類の強化

Enhancing Code Classification by Mixup-Based Data Augmentation ( http://arxiv.org/abs/2210.03003v1 )

ライセンス: Link先を確認
Zeming Dong, Qiang Hu, Yuejun Guo, Maxime Cordy, Mike Papadakis, Yves Le Traon, and Jianjun Zhao(参考訳) 近年、ディープニューラルネットワーク(DNN)はプログラミング言語理解に広く応用されている。 一般的に、DNNモデルを競争性能でトレーニングするには、大規模で高品質なラベル付きトレーニングデータが必要である。 しかし、そのようなデータの収集とラベル付けには時間と労力がかかる。 この問題に対処するため、データ拡張は一般的なソリューションであり、例えば逆例生成のようなトレーニングデータサイズを微妙に増加させる。 しかし、プログラミング言語関連のタスクにそれを使うことに焦点を当てる研究はほとんどない。 本稿では,mixupベースのデータ拡張手法であるmixcodeを提案する。 まず,複数のコードリファクタリング手法を用いてラベル一貫性のあるコードデータを生成する。 次に、元のコードと変換されたコードを混合して新しいトレーニングデータを作成し、モデルをトレーニングする。 2つのプログラミング言語(JAVAとPython)、2つのコードタスク(プロブレム分類とバグ検出)、4つのデータセット(JAVA250、Python800、CodRep1、Refactory)、5つのモデルアーキテクチャについてMixCodeを評価する。 実験の結果、MixCodeは標準データ拡張ベースラインを6.24\%の精度改善と26.06\%の堅牢性改善で上回っている。

Recently, deep neural networks (DNNs) have been widely applied in programming language understanding. Generally, training a DNN model with competitive performance requires massive and high-quality labeled training data. However, collecting and labeling such data is time-consuming and labor-intensive. To tackle this issue, data augmentation has been a popular solution, which delicately increases the training data size, e.g., adversarial example generation. However, few works focus on employing it for programming language-related tasks. In this paper, we propose a Mixup-based data augmentation approach, MixCode, to enhance the source code classification task. First, we utilize multiple code refactoring methods to generate label-consistent code data. Second, the Mixup technique is employed to mix the original code and transformed code to form the new training data to train the model. We evaluate MixCode on two programming languages (JAVA and Python), two code tasks (problem classification and bug detection), four datasets (JAVA250, Python800, CodRep1, and Refactory), and 5 model architectures. Experimental results demonstrate that MixCode outperforms the standard data augmentation baseline by up to 6.24\% accuracy improvement and 26.06\% robustness improvement.
翻訳日:2022-10-07 17:19:46 公開日:2022-10-06
# 検索モデルにおける一般化特性

Generalization Properties of Retrieval-based Models ( http://arxiv.org/abs/2210.02617v1 )

ライセンス: Link先を確認
Soumya Basu, Ankit Singh Rawat, Manzil Zaheer(参考訳) GPT-3のような現代の高性能機械学習モデルの多くは、主にトランスフォーマーネットワークのようなモデルのスケールアップに依存している。 同時に、並列処理は、推論中に入力インスタンスを他の(ラベル付き)インスタンスで拡張することで、モデルパフォーマンスを改善することを目的としている。 このような拡張の例としては、タスク固有のプロンプトや、非パラメトリックなコンポーネントによってトレーニングデータから取得された同様の例などがある。 驚くべきことに、検索ベースの手法は、webgptやalphafoldなど最近の多くの取り組みで示されているように、標準的な自然言語処理や視覚タスクからタンパク質折り畳みまで、幅広い問題で成功をおさめています。 これらのモデルの有望さを示す文献が増えているにもかかわらず、これらのモデルの理論的基礎は未検討のままである。 本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。 特に,検索に基づく分類手法の2つのクラスに注目した。 まず,各入力インスタンスの検索例に基づく局所的経験的リスク最小化を用いた局所学習フレームワークの解析を行う。 興味深いことに、基礎となる学習タスクをローカルなサブタスクに分解することで、モデルが全体的な正確性を確保するために、複雑さの低いパラメトリックコンポーネントを採用することができる。 検索に基づく第2級のアプローチでは,局所学習タスクを明示的に解くことなく,カーネル手法を用いてグローバルモデルを学習し,入力インスタンスと検索したサンプルを直接予測にマップする。

Many modern high-performing machine learning models such as GPT-3 primarily rely on scaling up models, e.g., transformer networks. Simultaneously, a parallel line of work aims to improve the model performance by augmenting an input instance with other (labeled) instances during inference. Examples of such augmentations include task-specific prompts and similar examples retrieved from the training data by a nonparametric component. Remarkably, retrieval-based methods have enjoyed success on a wide range of problems, ranging from standard natural language processing and vision tasks to protein folding, as demonstrated by many recent efforts, including WebGPT and AlphaFold. Despite growing literature showcasing the promise of these models, the theoretical underpinning for such models remains underexplored. In this paper, we present a formal treatment of retrieval-based models to characterize their generalization ability. In particular, we focus on two classes of retrieval-based classification approaches: First, we analyze a local learning framework that employs an explicit local empirical risk minimization based on retrieved examples for each input instance. Interestingly, we show that breaking down the underlying learning task into local sub-tasks enables the model to employ a low complexity parametric component to ensure good overall accuracy. The second class of retrieval-based approaches we explore learns a global model using kernel methods to directly map an input instance and retrieved examples to a prediction, without explicitly solving a local learning task.
翻訳日:2022-10-07 17:12:47 公開日:2022-10-06
# 効率的なグラフ表現学習のための測地グラフニューラルネットワーク

Geodesic Graph Neural Network for Efficient Graph Representation Learning ( http://arxiv.org/abs/2210.02636v1 )

ライセンス: Link先を確認
Lecheng Kong, Yixin Chen, Muhan Zhang(参考訳) 近年,グラフ学習タスクにグラフニューラルネットワーク(gnns)が適用され,最新の結果が得られた。 しかしながら、多くの競合的手法は、通常のGNNでは理解が難しい情報を取得するために、サブグラフ抽出やカスタマイズされたラベリングなどのターゲットノードで事前処理を採用する。 このような操作は時間がかかり、大きなグラフにスケールしない。 本稿では,Geodesic GNN(GDGNN)と呼ばれる効率的なGNNフレームワークを提案する。 ラベル付けなしでノード間の条件付き関係をモデルに注入する。 具体的には、2つのノード間の最短経路を周辺の近傍の空間グラフコンテキストとして捉える。 最短経路上のノードのGNN埋め込みは測地表現を生成するために使用される。 ジオデシック表現を前提としたGDGNNは、通常のGNNよりもはるかにリッチな構造情報を持つノード、リンク、グラフ表現を生成することができる。 我々はGDGNNが通常のGNNよりも強力であることを理論的に証明し、GDGNNがリンク予測やグラフ分類タスクにおける最先端のGNNモデルと高い競争性能を達成できることを示す。

Recently, Graph Neural Networks (GNNs) have been applied to graph learning tasks and achieved state-of-the-art results. However, many competitive methods employ preprocessing on the target nodes, such as subgraph extraction and customized labeling, to capture some information that is hard to be learned by normal GNNs. Such operations are time-consuming and do not scale to large graphs. In this paper, we propose an efficient GNN framework called Geodesic GNN (GDGNN). It injects conditional relationships between nodes into the model without labeling. Specifically, we view the shortest paths between two nodes as the spatial graph context of the neighborhood around them. The GNN embeddings of nodes on the shortest paths are used to generate geodesic representations. Conditioned on the geodesic representations, GDGNN is able to generate node, link, and graph representations that carry much richer structural information than plain GNNs. We theoretically prove that GDGNN is more powerful than plain GNNs, and present experimental results to show that GDGNN achieves highly competitive performance with state-of-the-art GNN models on link prediction and graph classification tasks while taking significantly less time.
翻訳日:2022-10-07 17:12:25 公開日:2022-10-06
# Wasserstein Distance と Barycenter を用いたトポロジカル連続学習

Topological Continual Learning with Wasserstein Distance and Barycenter ( http://arxiv.org/abs/2210.02661v1 )

ライセンス: Link先を確認
Tananun Songdechakraiwut, Xiaoshuang Yin, Barry D. Van Veen(参考訳) ニューラルネットワークにおける継続的な学習は、破滅的な忘れという現象に悩まされ、ネットワークは以前のタスクで学んだことをすぐに忘れてしまう。 しかし、人間の脳は新しいタスクを継続的に学び、人生を通して知識を蓄積することができる。 神経科学の知見は、人間の脳における継続的な学習の成功は、そのモジュラー構造と記憶統合機構に潜在的に関連していることを示唆している。 本稿では,ニューラルネットワークの周期構造を持続的ホモロジーと最適輸送の原理的理論を用いて学習中に解析する新しい位相正規化を提案する。 このペナルティは、トレーニング中にネットワークがモジュール構造を学ぶことを奨励する。 ペナル化は、ネットワークの1-スケルトン表現の位相的特徴に対するワッサーシュタイン距離とバリー中心の閉形式表現に基づいている。 トポロジカル連続学習法は,提案する正規化と小さなエピソディックメモリを組み合わせることで,忘れを緩和する。 提案手法は,複数の画像分類データセットに対して,浅層および深層ネットワークアーキテクチャの両方に有効であることを示す。

Continual learning in neural networks suffers from a phenomenon called catastrophic forgetting, in which a network quickly forgets what was learned in a previous task. The human brain, however, is able to continually learn new tasks and accumulate knowledge throughout life. Neuroscience findings suggest that continual learning success in the human brain is potentially associated with its modular structure and memory consolidation mechanisms. In this paper we propose a novel topological regularization that penalizes cycle structure in a neural network during training using principled theory from persistent homology and optimal transport. The penalty encourages the network to learn modular structure during training. The penalization is based on the closed-form expressions of the Wasserstein distance and barycenter for the topological features of a 1-skeleton representation for the network. Our topological continual learning method combines the proposed regularization with a tiny episodic memory to mitigate forgetting. We demonstrate that our method is effective in both shallow and deep network architectures for multiple image classification datasets.
翻訳日:2022-10-07 17:12:01 公開日:2022-10-06
# 多視点データの不確実性推定:全体像を見る力

Uncertainty Estimation for Multi-view Data: The Power of Seeing the Whole Picture ( http://arxiv.org/abs/2210.02676v1 )

ライセンス: Link先を確認
Myong Chol Jung, He Zhao, Joanna Dipnall, Belinda Gabbe, Lan Du(参考訳) 不確実性推定は、ニューラルネットワークを現実世界のアプリケーションで信頼できるものにするために不可欠である。 予測の不確かさを定量化し減らすために広範な研究がなされている。 しかし,既存の作業の多くは一様データ用に設計されているが,多視点不確実性評価は十分に研究されていない。 そこで本研究では,各視点を不確実性認識分類器と関連付け,すべての視点の予測を原則的に組み合わせた,不確実性推定と領域外サンプル検出のための新しいマルチビュー分類フレームワークを提案する。 実世界のデータセットを用いた実験の結果,提案手法は精度が高く,信頼性が高く,信頼性の高い分類器であり,予測された校正誤差,雑音に対するロバスト性,領域内サンプル分類と領域外サンプル検出タスクの精度でテストされたマルチビューベースラインを圧倒的に上回っていることがわかった。

Uncertainty estimation is essential to make neural networks trustworthy in real-world applications. Extensive research efforts have been made to quantify and reduce predictive uncertainty. However, most existing works are designed for unimodal data, whereas multi-view uncertainty estimation has not been sufficiently investigated. Therefore, we propose a new multi-view classification framework for better uncertainty estimation and out-of-domain sample detection, where we associate each view with an uncertainty-aware classifier and combine the predictions of all the views in a principled way. The experimental results with real-world datasets demonstrate that our proposed approach is an accurate, reliable, and well-calibrated classifier, which predominantly outperforms the multi-view baselines tested in terms of expected calibration error, robustness to noise, and accuracy for the in-domain sample classification and the out-of-domain sample detection tasks.
翻訳日:2022-10-07 17:11:45 公開日:2022-10-06
# Hyperbox-brain: Hyperboxベースの機械学習アルゴリズムのためのツールボックス

hyperbox-brain: A Toolbox for Hyperbox-based Machine Learning Algorithms ( http://arxiv.org/abs/2210.02704v1 )

ライセンス: Link先を確認
Thanh Tung Khuat and Bogdan Gabrys(参考訳) ハイパーボックスベースの機械学習アルゴリズムは、ファジィ集合と論理理論とニューラルネットワークアーキテクチャを用いた分類器の構築において、機械学習の重要かつ一般的な分野である。 このタイプの学習は、高いスケーラビリティ、説明可能性、オンライン適応性、少量のデータからの効果的な学習、欠落したデータを扱うネイティブな能力、新しいクラスへの適応など、現代の予測者の多くの強みによって特徴付けられる。 それにもかかわらず、ハイパーボックスベースの機械学習の包括的パッケージは存在せず、これは研究のベンチマークとなり、専門家でないユーザーがこれらのアルゴリズムを簡単に適用できる。 hyperbox-brainは、ハイパーボックスベースの機械学習アルゴリズムを実装したオープンソースのpythonライブラリである。 このライブラリは、scikit-learnおよびnumpyツールボックスに密接に従って互換性のある統一apiを公開する。 ライブラリはpython package index(pypi)とconda package managerからインストールでき、gpl-3ライセンスの下で配布される。 ソースコード、ドキュメント、詳細なチュートリアル、APIの完全な説明はhttps://uts-caslab.github.io/hyperbox-brain.orgにある。

Hyperbox-based machine learning algorithms are an important and popular branch of machine learning in the construction of classifiers using fuzzy sets and logic theory and neural network architectures. This type of learning is characterised by many strong points of modern predictors such as a high scalability, explainability, online adaptation, effective learning from a small amount of data, native ability to deal with missing data and accommodating new classes. Nevertheless, there is no comprehensive existing package for hyperbox-based machine learning which can serve as a benchmark for research and allow non-expert users to apply these algorithms easily. hyperbox-brain is an open-source Python library implementing the leading hyperbox-based machine learning algorithms. This library exposes a unified API which closely follows and is compatible with the renowned scikit-learn and numpy toolboxes. The library may be installed from Python Package Index (PyPI) and the conda package manager and is distributed under the GPL-3 license. The source code, documentation, detailed tutorials, and the full descriptions of the API are available at https://uts-caslab.github.io/hyperbox-brain.
翻訳日:2022-10-07 17:11:30 公開日:2022-10-06
# ディープニューラルネットワークの更新過程の制御による連続診断と予後

Continuous Diagnosis and Prognosis by Controlling the Update Process of Deep Neural Networks ( http://arxiv.org/abs/2210.02719v1 )

ライセンス: Link先を確認
Chenxi Sun and Hongyan Li and Moxian Song and Derun Cai and Baofeng Zhang and Shenda Hong(参考訳) 集中治療患者には連続診断と予後が不可欠である。 タイムリーな治療と合理的な資源配分、特にicuの主要な死因である敗血症や、世界的な新しい流行であるcovid-19の機会を提供することができる。 深層学習法は多くの医学的タスクにおいて大きな優位性を示しているが、それらは破滅的に忘れ、適合しすぎ、連続したモードで診断と予後を行うには遅すぎる。 本研究では,この課題の3つの要件を要約し,新しい概念である連続時系列分類(CCTS)を提案し,新しいモデルトレーニング手法,ニューラルネットワークの制限された更新戦略を設計した。 連続予後の文脈では,本法はすべての基準線を上回り,敗血症予後,COVID-19死亡率予測,8つの疾患分類で平均90%,97%,85%の精度を達成した。 また,本手法は,病気のメカニズムを探求し,医学研究の新たな地平を提供する可能性を秘めている。 我々は、敗血症とcovid-19の病期をそれぞれ4段階と3段階に分けて達成した。 さらに,本手法はデータに依存しないモデルに依存しないプラグインであり,ステージングによる他の疾患の診断や,他の分野でのCCTSの実装にも利用できる。

Continuous diagnosis and prognosis are essential for intensive care patients. It can provide more opportunities for timely treatment and rational resource allocation, especially for sepsis, a main cause of death in ICU, and COVID-19, a new worldwide epidemic. Although deep learning methods have shown their great superiority in many medical tasks, they tend to catastrophically forget, over fit, and get results too late when performing diagnosis and prognosis in the continuous mode. In this work, we summarized the three requirements of this task, proposed a new concept, continuous classification of time series (CCTS), and designed a novel model training method, restricted update strategy of neural networks (RU). In the context of continuous prognosis, our method outperformed all baselines and achieved the average accuracy of 90%, 97%, and 85% on sepsis prognosis, COVID-19 mortality prediction, and eight diseases classification. Superiorly, our method can also endow deep learning with interpretability, having the potential to explore disease mechanisms and provide a new horizon for medical research. We have achieved disease staging for sepsis and COVID-19, discovering four stages and three stages with their typical biomarkers respectively. Further, our method is a data-agnostic and model-agnostic plug-in, it can be used to continuously prognose other diseases with staging and even implement CCTS in other fields.
翻訳日:2022-10-07 17:11:12 公開日:2022-10-06
# 交通予知のための時空間グラフ畳み込み同期ネットワーク

Spatial-Temporal Graph Convolutional Gated Recurrent Network for Traffic Forecasting ( http://arxiv.org/abs/2210.02737v1 )

ライセンス: Link先を確認
Le Zhao, Mingcai Chen, Yuntao Du, Haiyang Yang, Chongjun Wang(参考訳) インテリジェント交通システムの重要な部分として、交通予測は学術や産業から大きな注目を集めている。 交通予測には多くの手法が提案されているが、複雑な時空間依存をモデル化することは依然として困難である。 一時的な依存関係には短期依存と長期依存が含まれており、後者はしばしば見過ごされる。 空間依存は、距離ベース空間依存と隠れ空間依存の2つの部分に分けられる。 複雑な時空間依存性をモデル化するために,時空間グラフ畳み込みGated Recurrent Network (STGCGRN) と呼ばれるトラフィック予測のための新しいフレームワークを提案する。 交通データ中の周期的な情報をマイニングすることで、長期依存を捕捉するアテンションモジュールを設計する。 本稿では,グラフ畳み込みネットワークとGRUを統合したDGCGRU(Double Graph Convolution Gated Recurrent Unit)を提案する。 グラフ畳み込み部は、距離ベースの予め定義された隣接行列と、自己適応的隣接行列との隠れ空間依存性をそれぞれモデル化する。 特に,複数の隠れた依存関係をキャプチャするために,マルチヘッド機構を採用している。 さらに、各予測ノードの周期パターンが異なる場合があるため、しばしば無視され、空間依存をモデル化する際にノード間の周期情報の相互干渉が発生する。 そのために、モデルのアーキテクチャを検討し、パフォーマンスを改善します。 4つのデータセットの実験は、我々のモデルの優れた性能を示している。

As an important part of intelligent transportation systems, traffic forecasting has attracted tremendous attention from academia and industry. Despite a lot of methods being proposed for traffic forecasting, it is still difficult to model complex spatial-temporal dependency. Temporal dependency includes short-term dependency and long-term dependency, and the latter is often overlooked. Spatial dependency can be divided into two parts: distance-based spatial dependency and hidden spatial dependency. To model complex spatial-temporal dependency, we propose a novel framework for traffic forecasting, named Spatial-Temporal Graph Convolutional Gated Recurrent Network (STGCGRN). We design an attention module to capture long-term dependency by mining periodic information in traffic data. We propose a Double Graph Convolution Gated Recurrent Unit (DGCGRU) to capture spatial dependency, which integrates graph convolutional network and GRU. The graph convolution part models distance-based spatial dependency with the distance-based predefined adjacency matrix and hidden spatial dependency with the self-adaptive adjacency matrix, respectively. Specially, we employ the multi-head mechanism to capture multiple hidden dependencies. In addition, the periodic pattern of each prediction node may be different, which is often ignored, resulting in mutual interference of periodic information among nodes when modeling spatial dependency. For this, we explore the architecture of model and improve the performance. Experiments on four datasets demonstrate the superior performance of our model.
翻訳日:2022-10-07 17:10:48 公開日:2022-10-06
# なぜ君を選んだらいいのか。 AutoXAI: eXplainable AIソリューションの選択とチューニングのためのフレームワーク

Why Should I Choose You? AutoXAI: A Framework for Selecting and Tuning eXplainable AI Solutions ( http://arxiv.org/abs/2210.02795v1 )

ライセンス: Link先を確認
Robin Cugny, Julien Aligon, Max Chevalier, Geoffrey Roman Jimenez and Olivier Teste(参考訳) 近年、既存のML(Machine Learning)モデルの説明や解釈可能なMLモデルを作成するために、多くのXAI(eXplainable Artificial Intelligence)ソリューションが提案されている。 近年,評価手法が提案され,これらのxaiソリューションを比較できるようになった。 しかしながら、これらの多様性の中で最も重要なXAIソリューションを選択するのは、特に特定のニーズや制約を満たす場合、いまだに面倒な作業です。 本稿では,ユーザのコンテキスト(データセット,MLモデル,XAIのニーズ,制約)を考慮して,最適なXAIソリューションとそのハイパーパラメータを,特定のXAI評価指標に従って推奨するフレームワークであるAutoXAIを提案する。 コンテキスト対応レコメンデータシステムからのアプローチとAutoML(Automated Machine Learning)からの最適化と評価戦略に適応する。 われわれはAutoXAIを2つのユースケースに適用し、ユーザのニーズに合わせて最適なハイパーパラメータでXAIソリューションを推奨していることを示す。

In recent years, a large number of XAI (eXplainable Artificial Intelligence) solutions have been proposed to explain existing ML (Machine Learning) models or to create interpretable ML models. Evaluation measures have recently been proposed and it is now possible to compare these XAI solutions. However, selecting the most relevant XAI solution among all this diversity is still a tedious task, especially when meeting specific needs and constraints. In this paper, we propose AutoXAI, a framework that recommends the best XAI solution and its hyperparameters according to specific XAI evaluation metrics while considering the user's context (dataset, ML model, XAI needs and constraints). It adapts approaches from context-aware recommender systems and strategies of optimization and evaluation from AutoML (Automated Machine Learning). We apply AutoXAI to two use cases, and show that it recommends XAI solutions adapted to the user's needs with the best hyperparameters matching the user's constraints.
翻訳日:2022-10-07 17:10:26 公開日:2022-10-06
# ローリングシャッターのインバージョン:ローリングシャッター画像を高フレームレートのグローバルシャッタービデオに

Rolling Shutter Inversion: Bring Rolling Shutter Images to High Framerate Global Shutter Video ( http://arxiv.org/abs/2210.03040v1 )

ライセンス: Link先を確認
Bin Fan, Yuchao Dai and Hongdong Li(参考訳) 単一のローリングシャッター(RS)画像は、露光期間内に(仮想)移動GSカメラによって撮影されたグローバルシャッター(GS)画像の行ワイドな組み合わせと見なすことができる。 RSカメラは広く使われているが、RS効果は特に高速カメラモーションの存在下で画像の歪みを生じさせ、下流のコンピュータビジョンタスクを妨げている。 本稿では,2つの時間連続RSフレームから連続した高フレームレートGS映像を復元するRS画像キャプチャ機構を逆転する手法を提案する。 我々はこのタスクをRS時間超解像(RSSR)問題と呼ぶ。 RSSRは非常に難しいタスクであり、私たちの知る限り、現在まで実践的な解決策はありません。 本稿では,新しいディープラーニングソリューションを提案する。 ラーニングベースフレームワークは,RSイメージングプロセスの多視点幾何関係を利用して,高いフレームレートGS生成を実現する。 具体的には、3つの新しい貢献が特定できる。 (i)一定速度下での双方向rs非変形流の新規定式化と定常加速度運動モデル (ii)rs非歪流と正則光流を橋渡しする単純な線形スケーリング操作。 (iii)異なるスキャンラインに対応するrs非歪流間の新たな相互変換スキーム。 また,本手法は深層学習フレームワークにおける空間的・時間的関係を生かし,必要な中間走査GS画像以外の追加の監督を必要としない。 これらの貢献に基づいて、2つのRSフレームから高フレームのGSビデオを復元できる、最初の時空超解像ディープネットワークを表現した。 合成データと実データの両方に対する大規模な実験結果から,提案手法は高精細な高品質なGS画像系列を生成できることを示す。

A single rolling-shutter (RS) image may be viewed as a row-wise combination of a sequence of global-shutter (GS) images captured by a (virtual) moving GS camera within the exposure duration. Although RS cameras are widely used, the RS effect causes obvious image distortion especially in the presence of fast camera motion, hindering downstream computer vision tasks. In this paper, we propose to invert the RS image capture mechanism, i.e., recovering a continuous high framerate GS video from two time-consecutive RS frames. We call this task the RS temporal super-resolution (RSSR) problem. The RSSR is a very challenging task, and to our knowledge, no practical solution exists to date. This paper presents a novel deep-learning based solution. By leveraging the multi-view geometry relationship of the RS imaging process, our learning-based framework successfully achieves high framerate GS generation. Specifically, three novel contributions can be identified: (i) novel formulations for bidirectional RS undistortion flows under constant velocity as well as constant acceleration motion model. (ii) a simple linear scaling operation, which bridges the RS undistortion flow and regular optical flow. (iii) a new mutual conversion scheme between varying RS undistortion flows that correspond to different scanlines. Our method also exploits the underlying spatial-temporal geometric relationships within a deep learning framework, where no additional supervision is required beyond the necessary middle-scanline GS image. Building upon these contributions, we represent the very first rolling-shutter temporal super-resolution deep-network that is able to recover high framerate GS videos from just two RS frames. Extensive experimental results on both synthetic and real data show that our proposed method can produce high-quality GS image sequences with rich details, outperforming the state-of-the-art methods.
翻訳日:2022-10-07 17:05:00 公開日:2022-10-06
# 非一様霧除去のための構造表現ネットワークと不確かさフィードバック学習

Structure Representation Network and Uncertainty Feedback Learning for Dense Non-Uniform Fog Removal ( http://arxiv.org/abs/2210.03061v1 )

ライセンス: Link先を確認
Yeying Jin, Wending Yan, Wenhan Yang, Robby T. Tan(参考訳) 煙、塵、霧などで起こる密度と非均一な粒子分布を考慮する既存の画像のデオグやデハジング法はほとんどない。 霧の減衰と風光(または換気効果)が入力画像の背景のシーン情報を著しく弱めるため、これらの密度および/または一様でない分布に対処することは難解である。 この問題に対処するために,不確実性フィードバック学習を伴う構造表現ネットワークを導入する。 具体的には,事前学習した視覚トランスフォーマ(dino-vit)モジュールから特徴表現を抽出して背景情報を復元する。 不均一な霧領域に着目し,それに従って霧を除去し,不確実性フィードバック学習を行う。不確実性フィードバック学習は,濃密な霧領域において不確実性が高く,霧の密度と不均一分布を表す注意マップと見なすことができる。 不確実性マップに基づいて、我々のフィードバックネットワークは、欠落した出力を反復的に洗練する。 また、大気光色を推定する難易度に対処するために、入力画像に現れる可能性のある様々な光色の影響が少ないため、入力画像のグレースケール版を利用する。 実験により, 濃霧, 非一様霧, 煙の処理における最先端手法と比較して, 定量的, 定性的に評価した。

Few existing image defogging or dehazing methods consider dense and non-uniform particle distributions, which usually happen in smoke, dust and fog. Dealing with these dense and/or non-uniform distributions can be intractable, since fog's attenuation and airlight (or veiling effect) significantly weaken the background scene information in the input image. To address this problem, we introduce a structure-representation network with uncertainty feedback learning. Specifically, we extract the feature representations from a pre-trained Vision Transformer (DINO-ViT) module to recover the background information. To guide our network to focus on non-uniform fog areas, and then remove the fog accordingly, we introduce the uncertainty feedback learning, which produces the uncertainty maps, that have higher uncertainty in denser fog regions, and can be regarded as an attention map that represents fog's density and uneven distribution. Based on the uncertainty map, our feedback network refines our defogged output iteratively. Moreover, to handle the intractability of estimating the atmospheric light colors, we exploit the grayscale version of our input image, since it is less affected by varying light colors that are possibly present in the input image. The experimental results demonstrate the effectiveness of our method both quantitatively and qualitatively compared to the state-of-the-art methods in handling dense and non-uniform fog or smoke.
翻訳日:2022-10-07 17:04:32 公開日:2022-10-06
# env-aware anomaly detection: スタイル変更を無視し、コンテンツに忠実でいてください!

Env-Aware Anomaly Detection: Ignore Style Changes, Stay True to Content! ( http://arxiv.org/abs/2210.03103v1 )

ライセンス: Link先を確認
Stefan Smeu, Elena Burceanu, Andrei Liviu Nicolicioiu, Emanuela Haller(参考訳) 分散シフトシナリオにおける教師なし異常検出タスクの形式化とベンチマークを導入する。 我々の研究はiWildCamデータセットに基づいており、私たちの知る限り、ビジュアルデータに対するこのようなアプローチを最初に提案しました。 本研究では,環境に配慮した手法が,基本的な経験的リスク最小化 (ERM) と比較した場合,その効果を実証的に検証する。 次に、学習時の環境ラベルを考慮し、ERMベースラインスコアを8.7%改善するコントラスト手法の正のサンプルを生成する拡張法を提案する。

We introduce a formalization and benchmark for the unsupervised anomaly detection task in the distribution-shift scenario. Our work builds upon the iWildCam dataset, and, to the best of our knowledge, we are the first to propose such an approach for visual data. We empirically validate that environment-aware methods perform better in such cases when compared with the basic Empirical Risk Minimization (ERM). We next propose an extension for generating positive samples for contrastive methods that considers the environment labels when training, improving the ERM baseline score by 8.7%.
翻訳日:2022-10-07 17:04:08 公開日:2022-10-06
# mask3dによる3次元意味インスタンスセグメンテーション

Mask3D for 3D Semantic Instance Segmentation ( http://arxiv.org/abs/2210.03105v1 )

ライセンス: Link先を確認
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe(参考訳) 現代の3dセマンティクスインスタンスセグメンテーションのアプローチは、主に特殊な投票機構と、注意深く設計された幾何学的クラスタリング技術に依存している。 近年のオブジェクト検出と画像分割におけるトランスフォーマティブ手法の成功を踏まえ,3次元意味インスタンスセグメンテーションのための最初のトランスフォーマティブ方式を提案する。 汎用的なトランスフォーマービルディングブロックを利用して,3dポイントクラウドからインスタンスマスクを直接予測できることを示す。 Mask3Dと呼ばれるモデルでは、各オブジェクトインスタンスはインスタンスクエリとして表現されます。 Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。 ポイント機能と組み合わせて、インスタンスクエリは、すべてのインスタンスマスクを並列に生成する。 mask3dは,(1)手動で選択した幾何学的特性(中心など)を必要とする投票スキーム,(2)手動で調整されたハイパーパラメータ(radiiなど)を必要とする幾何学的グループ化機構,(3)インスタンスマスクを直接最適化する損失など,最先端のアプローチよりもいくつかのメリットがある。 Mask3Dは新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、STPLS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)をセットする。

Modern 3D semantic instance segmentation approaches predominantly rely on specialized voting mechanisms followed by carefully designed geometric clustering techniques. Building on the successes of recent Transformer-based methods for object detection and image segmentation, we propose the first Transformer-based approach for 3D semantic instance segmentation. We show that we can leverage generic Transformer building blocks to directly predict instance masks from 3D point clouds. In our model called Mask3D each object instance is represented as an instance query. Using Transformer decoders, the instance queries are learned by iteratively attending to point cloud features at multiple scales. Combined with point features, the instance queries directly yield all instance masks in parallel. Mask3D has several advantages over current state-of-the-art approaches, since it neither relies on (1) voting schemes which require hand-selected geometric properties (such as centers) nor (2) geometric grouping mechanisms requiring manually-tuned hyper-parameters (e.g. radii) and (3) enables a loss that directly optimizes instance masks. Mask3D sets a new state-of-the-art on ScanNet test (+6.2 mAP), S3DIS 6-fold (+10.1 mAP), STPLS3D (+11.2 mAP) and ScanNet200 test (+12.4 mAP).
翻訳日:2022-10-07 17:03:58 公開日:2022-10-06
# CLIPモデルは効果的な継続的学習者である

CLIP model is an Efficient Continual Learner ( http://arxiv.org/abs/2210.03114v1 )

ライセンス: Link先を確認
Vishal Thengane, Salman Khan, Munawar Hayat, Fahad Khan(参考訳) 継続的学習設定は、以前のタスクを忘れずに、時間とともに新しいタスクを学習することを目的としている。 文献では、この問題に以前のタスクデータに制限またはアクセスしないで対処するいくつかの重要な取り組みを報告している。 このような取り組みの中で、典型的なソリューションは、メモリリプレイ、知識の蒸留、モデル正規化、動的ネットワーク拡張を含む高度な技術を提供する。 得られた方法は、各学習タスク、専用のメモリ要件、設定固有の設計選択において、再トレーニングコストがかかる。 本研究では,凍結したCLIP(Contrastive Language- Image Pretraining)モデルが,微調整(ゼロショット評価)を伴わない連続学習性能を提供することを示す。 画像Net-100と1K、CORe50、CIFAR-100、TinyImageNetの5つのベンチマークにおいて、クラスインクリメンタル、ドメインインクリメンタル、タスク非依存のインクリメンタル学習を含む様々な設定でCLIPを評価した。 ベルとホイッスルがなければ、CLIPモデルは、ほとんどの設定において最先端の継続的学習アプローチよりも優れています。 簡単なプロンプトテンプレートによるテキスト入力の変化によるCLIPモデルの性能への影響を示す。 私たちの知る限りでは、CLIPゼロショットのパフォーマンスを連続的に報告するのはこれが初めてです。 継続学習タスクにおける将来の比較において、この強いが恥ずかしいほど単純なベースラインの使用を提唱する。

The continual learning setting aims to learn new tasks over time without forgetting the previous ones. The literature reports several significant efforts to tackle this problem with limited or no access to previous task data. Among such efforts, typical solutions offer sophisticated techniques involving memory replay, knowledge distillation, model regularization, and dynamic network expansion. The resulting methods have a retraining cost at each learning task, dedicated memory requirements, and setting-specific design choices. In this work, we show that a frozen CLIP (Contrastive Language-Image Pretraining) model offers astounding continual learning performance without any fine-tuning (zero-shot evaluation). We evaluate CLIP under a variety of settings including class-incremental, domain-incremental and task-agnostic incremental learning on five popular benchmarks (ImageNet-100 & 1K, CORe50, CIFAR-100, and TinyImageNet). Without any bells and whistles, the CLIP model outperforms the state-of-the-art continual learning approaches in the majority of the settings. We show the effect on the CLIP model's performance by varying text inputs with simple prompt templates. To the best of our knowledge, this is the first work to report the CLIP zero-shot performance in a continual setting. We advocate the use of this strong yet embarrassingly simple baseline for future comparisons in the continual learning tasks.
翻訳日:2022-10-07 17:03:33 公開日:2022-10-06
# MaPLe: マルチモーダル・プロンプト学習

MaPLe: Multi-modal Prompt Learning ( http://arxiv.org/abs/2210.03117v1 )

ライセンス: Link先を確認
Muhammad Uzair Khattak, Hanoona Rasheed, Muhammad Maaz, Salman Khan, Fahad Shahbaz Khan(参考訳) CLIPのような事前学習された視覚言語(V-L)モデルは、下流タスクに優れた一般化能力を示している。 しかし、それらは入力テキストのプロンプトの選択に敏感であり、うまく機能するにはプロンプトテンプレートを慎重に選択する必要がある。 自然言語処理(NLP)の文献に触発された最近のCLIP適応アプローチは、下流タスクのための微調整CLIPへのテキスト入力として、プロンプトを学ぶ。 ここでは,CLIPの単一ブランチ(言語や視覚)で表現を適応させるプロンプトが,下流タスク上で両方の表現空間を動的に調整できないため,準最適である点に留意する。 本研究では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。 我々の設計は、視覚言語プロンプト間の強い結合を促進し、相互の相乗効果と独立なユニモーダル解の学習を阻害する。 さらに、異なる初期段階の異なるプロンプトを学習し、段階的特徴関係を段階的にモデル化し、リッチな文脈学習を可能にする。 本稿では,新しいクラス,新しいターゲットデータセット,目に見えないドメインシフトの3つのタスクに対するアプローチの有効性を評価する。 state-of-the-artメソッドと比べ、mapleは優れたパフォーマンスを示し、11種類の画像認識データセットの平均で、新規クラスでは3.45%、総合調和平均では2.72%という絶対的なゲインを達成している。 コード: https://tinyurl.com/2dzs8f3w。

Pre-trained vision-language (V-L) models such as CLIP have shown excellent generalization ability to downstream tasks. However, they are sensitive to the choice of input text prompts and require careful selection of prompt templates to perform well. Inspired by the Natural Language Processing (NLP) literature, recent CLIP adaptation approaches learn prompts as the textual inputs to fine-tune CLIP for downstream tasks. We note that using prompting to adapt representations in a single branch of CLIP (language or vision) is sub-optimal since it does not allow the flexibility to dynamically adjust both representation spaces on a downstream task. In this work, we propose Multi-modal Prompt Learning (MaPLe) for both vision and language branches to improve alignment between the vision and language representations. Our design promotes strong coupling between the vision-language prompts to ensure mutual synergy and discourages learning independent uni-modal solutions. Further, we learn separate prompts across different early stages to progressively model the stage-wise feature relationships to allow rich context learning. We evaluate the effectiveness of our approach on three representative tasks of generalization to novel classes, new target datasets and unseen domain shifts. Compared with the state-of-the-art method Co-CoOp, MaPLe exhibits favorable performance and achieves an absolute gain of 3.45% on novel classes and 2.72% on overall harmonic-mean, averaged over 11 diverse image recognition datasets. Code: https://tinyurl.com/2dzs8f3w.
翻訳日:2022-10-07 17:03:10 公開日:2022-10-06
# LiDAR深度マップの教師なし信頼と応用

Unsupervised confidence for LiDAR depth maps and applications ( http://arxiv.org/abs/2210.03118v1 )

ライセンス: Link先を確認
Andrea Conti, Matteo Poggi, Filippo Aleotti and Stefano Mattoccia(参考訳) 深度知覚は、ロボット工学や自動運転など、多くの分野において重要な要素である。 その結果、LiDARのような深度センサーは多くの用途で急速に普及した。 これらのセンサーによって生成された3Dポイントの雲は、フレーム化されたシーンを意味的に理解するために、しばしばRGBカメラと結合されなければならない。 通常は、前者はカメラのイメージプレーンの上に投影され、疎遠な深度マップに繋がる。 残念ながら、このプロセスはすべての深度センサーに影響する本質的な問題と相まって、最終出力のノイズと粗悪な外れ値を生み出します。 本稿では,lidarスパース深度マップの信頼度を推定し,異常値のフィルタリングを可能にすることにより,この問題を明示的に解決するための効果的な非教師付きフレームワークを提案する。 KITTIデータセットの実験結果は、我々のフレームワークがこの目的のために優れていることを強調している。 さらに、この成果が幅広いタスクをどのように改善できるかを実証する。

Depth perception is pivotal in many fields, such as robotics and autonomous driving, to name a few. Consequently, depth sensors such as LiDARs rapidly spread in many applications. The 3D point clouds generated by these sensors must often be coupled with an RGB camera to understand the framed scene semantically. Usually, the former is projected over the camera image plane, leading to a sparse depth map. Unfortunately, this process, coupled with the intrinsic issues affecting all the depth sensors, yields noise and gross outliers in the final output. Purposely, in this paper, we propose an effective unsupervised framework aimed at explicitly addressing this issue by learning to estimate the confidence of the LiDAR sparse depth map and thus allowing for filtering out the outliers. Experimental results on the KITTI dataset highlight that our framework excels for this purpose. Moreover, we demonstrate how this achievement can improve a wide range of tasks.
翻訳日:2022-10-07 17:02:25 公開日:2022-10-06
# オープンドメイン質問応答のための検索拡張生成(RAG)モデルのドメイン適応性の改善

Improving the Domain Adaptation of Retrieval Augmented Generation (RAG) Models for Open Domain Question Answering ( http://arxiv.org/abs/2210.02627v1 )

ライセンス: Link先を確認
Shamane Siriwardhana, Rivindu Weerasekera, Elliott Wen, Tharindu Kaluarachchi, Rajib Rana, Suranga Nanayakkara(参考訳) Retrieval Augment Generation (RAG)は、最近のオープンドメイン質問回答(ODQA)の進歩である。 RAGはウィキペディアベースの外部知識ベースでのみ訓練と探索が行われており、医療やニュースといった他の専門分野に最適化されていない。 本稿では, ODQAにおける領域適応の課題に対して, RAG のレトリバーとジェネレータのジョイントトレーニングが与える影響について検討する。 RAGの拡張である‘textit{RAG-end2end}は、トレーニング中に外部知識ベースの全コンポーネントを更新することで、ドメイン固有の知識ベースに適応できる。 さらに,ドメイン固有の知識を注入するための補助訓練信号を導入する。 この補助信号は、外部知識ベースから関連情報にアクセスして所定文を再構成する。 我々の新しい貢献はRAGとは異なり、RAG-end2endは最終QAタスクとドメイン適応のためのレトリバーとジェネレータの共同トレーニングを行います。 我々は、COVID-19、News、Conversationsの3つの領域のデータセットによるアプローチを評価し、オリジナルのRAGモデルと比較して大幅なパフォーマンス向上を実現した。 私たちの作業はHuggingface Transformersライブラリを通じてオープンソースとして公開されています。

Retrieval Augment Generation (RAG) is a recent advancement in Open-Domain Question Answering (ODQA). RAG has only been trained and explored with a Wikipedia-based external knowledge base and is not optimized for use in other specialized domains such as healthcare and news. In this paper, we evaluate the impact of joint training of the retriever and generator components of RAG for the task of domain adaptation in ODQA. We propose \textit{RAG-end2end}, an extension to RAG, that can adapt to a domain-specific knowledge base by updating all components of the external knowledge base during training. In addition, we introduce an auxiliary training signal to inject more domain-specific knowledge. This auxiliary signal forces \textit{RAG-end2end} to reconstruct a given sentence by accessing the relevant information from the external knowledge base. Our novel contribution is unlike RAG, RAG-end2end does joint training of the retriever and generator for the end QA task and domain adaptation. We evaluate our approach with datasets from three domains: COVID-19, News, and Conversations, and achieve significant performance improvements compared to the original RAG model. Our work has been open-sourced through the Huggingface Transformers library, attesting to our work's credibility and technical consistency.
翻訳日:2022-10-07 17:01:32 公開日:2022-10-06
# FloatingFusion:ToFと画像安定化ステレオカメラの奥行き

FloatingFusion: Depth from ToF and Image-stabilized Stereo Cameras ( http://arxiv.org/abs/2210.02785v1 )

ライセンス: Link先を確認
Andreas Meuleman, Hakyeong Kim, James Tompkin, Min H. Kim(参考訳) そのため、スマートフォンには現在、マルチモーダルカメラシステムと、タイム・オブ・フライ(ToF)深度センサーと複数のカラーカメラが搭載されている。 しかし、tofセンサの解像度が低く、能動照明能力が限られているため、正確な高分解能深度の生成は依然として困難である。 高品質な2D RGB画像を提供するために、メインカラーセンサーのレンズは光学的に安定しており、結果として、マルチモーダルイメージセンサー間の幾何学的関係を壊す浮動小数点レンズのポーズが未知になる。 tof深度推定と広角rgbカメラを用いて,1つのスナップショットから安定化主rgbセンサの遠近性,内在性,歪みパラメータを推定可能な,高密度2d/3dマッチングに基づく自動校正手法を設計した。 これにより、ステレオとtofのキューを相関ボリュームで融合できます。 融合には,ニューラルネットワークを用いて深度を推定した実世界の訓練データセットを用いて深度学習を適用する。 評価のために,市販の高出力深度カメラを用いてテストデータセットを取得し,既存のベースラインよりも精度が高いことを示す。

High-accuracy per-pixel depth is vital for computational photography, so smartphones now have multimodal camera systems with time-of-flight (ToF) depth sensors and multiple color cameras. However, producing accurate high-resolution depth is still challenging due to the low resolution and limited active illumination power of ToF sensors. Fusing RGB stereo and ToF information is a promising direction to overcome these issues, but a key problem remains: to provide high-quality 2D RGB images, the main color sensor's lens is optically stabilized, resulting in an unknown pose for the floating lens that breaks the geometric relationships between the multimodal image sensors. Leveraging ToF depth estimates and a wide-angle RGB camera, we design an automatic calibration technique based on dense 2D/3D matching that can estimate camera extrinsic, intrinsic, and distortion parameters of a stabilized main RGB sensor from a single snapshot. This lets us fuse stereo and ToF cues via a correlation volume. For fusion, we apply deep learning via a real-world training dataset with depth supervision estimated by a neural reconstruction method. For evaluation, we acquire a test dataset using a commercial high-power depth camera and show that our approach achieves higher accuracy than existing baselines.
翻訳日:2022-10-07 16:56:04 公開日:2022-10-06
# 3dポイントクラウド理解のためのデータ拡張フリー教師なし学習

Data Augmentation-free Unsupervised Learning for 3D Point Cloud Understanding ( http://arxiv.org/abs/2210.02798v1 )

ライセンス: Link先を確認
Guofeng Mei and Cristiano Saltori and Fabio Poiesi and Jian Zhang and Elisa Ricci and Nicu Sebe and Qiang Wu(参考訳) 3Dポイントクラウドでの教師なし学習は、特にデータ拡張ベースのコントラスト手法のおかげで、急速な進化を遂げている。 しかし、データ拡張は、実行すべき拡張のタイプを慎重に選択する必要があるため、理想的ではない。 そこで本研究では,ソフトクラスタリングによる移動可能なポイントレベルの特徴を学習するための拡張性のない無教師なし手法であるsoftcluを提案する。 softclu は、クラスタに属する点が幾何空間と特徴空間の両方において互いに近いと仮定している。 これは、ポイントクラウド全体とその拡張バージョンに類似した表現を構築する典型的なコントラスト学習とは異なる。 クラスタへのポイントのアフィリエーションをプロキシとして活用し,擬似ラベル予測タスクによる自己学習を可能にする。 これらの擬ラベルが点雲の分断を誘導するという制約の下で、我々はSoftCluを最適な輸送問題とみなした。 擬似ラベルと予測ラベルの標準クロスエントロピーを最小化するために教師なし損失を定式化する。 3Dオブジェクト分類、部分分割、セマンティックセグメンテーションなどの下流アプリケーションにおける実験は、我々のフレームワークが最先端技術において有効であることを示す。

Unsupervised learning on 3D point clouds has undergone a rapid evolution, especially thanks to data augmentation-based contrastive methods. However, data augmentation is not ideal as it requires a careful selection of the type of augmentations to perform, which in turn can affect the geometric and semantic information learned by the network during self-training. To overcome this issue, we propose an augmentation-free unsupervised approach for point clouds to learn transferable point-level features via soft clustering, named SoftClu. SoftClu assumes that the points belonging to a cluster should be close to each other in both geometric and feature spaces. This differs from typical contrastive learning, which builds similar representations for a whole point cloud and its augmented versions. We exploit the affiliation of points to their clusters as a proxy to enable self-training through a pseudo-label prediction task. Under the constraint that these pseudo-labels induce the equipartition of the point cloud, we cast SoftClu as an optimal transport problem. We formulate an unsupervised loss to minimize the standard cross-entropy between pseudo-labels and predicted labels. Experiments on downstream applications, such as 3D object classification, part segmentation, and semantic segmentation, show the effectiveness of our framework in outperforming state-of-the-art techniques.
翻訳日:2022-10-07 16:55:41 公開日:2022-10-06
# 蒸留のない低スループットネットワークにおける効果的な自己教師付き事前学習

Effective Self-supervised Pre-training on Low-compute networks without Distillation ( http://arxiv.org/abs/2210.02808v1 )

ライセンス: Link先を確認
Fuwen Tan, Fatemeh Saleh, Brais Martinez(参考訳) 自己教師付き学習(SSL)の目覚ましい進歩にもかかわらず、低スループットネットワークへの適用性は制限されている。 報告されたパフォーマンスは、標準的な教師付き事前トレーニングに大きく遅れており、デバイスにデプロイされるモデルに影響を与えない自己教師型学習を禁止している。 ほとんどの先行研究は、この性能の低下を低計算ネットワークの容量ボトルネックとしており、知識蒸留(kd)によって問題を回避している。 本研究では、効率的なニューラルネットワークのためにSSLを再検討し、実用的制約の原因となる有害要因と、それらが自己監督型低コンパス設定に固有のものであるかどうかを詳しく検討する。 受け入れられた知識とは対照的に、固有のアーキテクチャ上のボトルネックはなく、パフォーマンスのボトルネックはモデルの複雑さと正規化の強さのトレードオフに関係していると診断する。 特に、ローカルビューの使用がSSLメソッドの有効性に劇的な影響を与えることを実証的に観察することから始める。 これは、低容量ネットワークにおけるSSLのパフォーマンスボトルネックのひとつとして、ビューサンプリングを示唆している。 私たちは、非常に多様な空間的スケールとコンテキストのビューをマッチングする必要がある大規模ニューラルネットワークのビューサンプリング戦略が、低容量アーキテクチャに要求されすぎていると仮定する。 我々はビューサンプリング機構の設計を体系化し、異なるSSLメソッド(MoCo-v2、SwaV、DINOなど)、異なる低サイズのネットワーク(MobileNetV2、ResNet18、ResNet34、ViT-Tiなど)、異なるタスク(線形プローブ、オブジェクト検出、インスタンスセグメンテーション、半教師付き学習など)におけるパフォーマンスを継続的に改善する新しいトレーニング手法を導いた。 我々の最善のモデルは、kd損失項を使わずに、低コンピュートネットワーク上でsslメソッドの新しい最先端を確立します。

Despite the impressive progress of self-supervised learning (SSL), its applicability to low-compute networks has received limited attention. Reported performance has trailed behind standard supervised pre-training by a large margin, barring self-supervised learning from making an impact on models that are deployed on device. Most prior works attribute this poor performance to the capacity bottleneck of the low-compute networks and opt to bypass the problem through the use of knowledge distillation (KD). In this work, we revisit SSL for efficient neural networks, taking a closer at what are the detrimental factors causing the practical limitations, and whether they are intrinsic to the self-supervised low-compute setting. We find that, contrary to accepted knowledge, there is no intrinsic architectural bottleneck, we diagnose that the performance bottleneck is related to the model complexity vs regularization strength trade-off. In particular, we start by empirically observing that the use of local views can have a dramatic impact on the effectiveness of the SSL methods. This hints at view sampling being one of the performance bottlenecks for SSL on low-capacity networks. We hypothesize that the view sampling strategy for large neural networks, which requires matching views in very diverse spatial scales and contexts, is too demanding for low-capacity architectures. We systematize the design of the view sampling mechanism, leading to a new training methodology that consistently improves the performance across different SSL methods (e.g. MoCo-v2, SwAV, DINO), different low-size networks (e.g. MobileNetV2, ResNet18, ResNet34, ViT-Ti), and different tasks (linear probe, object detection, instance segmentation and semi-supervised learning). Our best models establish a new state-of-the-art for SSL methods on low-compute networks despite not using a KD loss term.
翻訳日:2022-10-07 16:55:18 公開日:2022-10-06
# RGB-Dパノプティブセグメンテーションのためのロバスト二重エンコーダネットワーク

Robust Double-Encoder Network for RGB-D Panoptic Segmentation ( http://arxiv.org/abs/2210.02834v1 )

ライセンス: Link先を確認
Matteo Sodano, Federico Magistri, Tiziano Guadagnino, Jens Behley, Cyrill Stachniss(参考訳) 自律システムは、周囲の世界を適切に観察し理解する必要があるため、現実の環境で行動するロボットには知覚が不可欠である。 パノプティックセグメンテーションは、ピクセル単位のセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。 本稿では,室内シーンのRGB-Dデータを用いたパノプティカルセグメンテーションについて述べる。 本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。 個々のエンコーダの特徴は異なる解像度で徐々にマージされ、rgbの特徴は相補的な深さ情報を用いて強化される。 本稿では,特徴マップの重要度に応じて各エントリを強調する,susentexciteと呼ばれる新しいマージ手法を提案する。 ダブルエンコーダアーキテクチャでは、欠けているヒントに対して堅牢です。 特に、同じモデルは、特殊なモデルを訓練することなく、RGB-D、RGB-only、deep-only入力データをトレーニングおよび推論することができる。 提案手法を公開データセット上で評価し,他の汎視的セグメンテーション手法と比較して優れた結果が得られることを示す。

Perception is crucial for robots that act in real-world environments, as autonomous systems need to see and understand the world around them to act appropriately. Panoptic segmentation provides an interpretation of the scene by computing a pixel-wise semantic label together with instance IDs. In this paper, we address panoptic segmentation using RGB-D data of indoor scenes. We propose a novel encoder-decoder neural network that processes RGB and depth separately through two encoders. The features of the individual encoders are progressively merged at different resolutions, such that the RGB features are enhanced using complementary depth information. We propose a novel merging approach called ResidualExcite, which reweighs each entry of the feature map according to its importance. With our double-encoder architecture, we are robust to missing cues. In particular, the same model can train and infer on RGB-D, RGB-only, and depth-only input data, without the need to train specialized models. We evaluate our method on publicly available datasets and show that our approach achieves superior results compared to other common approaches for panoptic segmentation.
翻訳日:2022-10-07 16:54:43 公開日:2022-10-06
# CIR-Net:RGB-D能動物体検出のためのクロスモーダルインタラクションとリファインメント

CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient Object Detection ( http://arxiv.org/abs/2210.02843v1 )

ライセンス: Link先を確認
Runmin Cong, Qinwei Lin, Chen Zhang, Chongyi Li, Xiaochun Cao, Qingming Huang, and Yao Zhao(参考訳) 本稿では, RGB-D Salient Object Detection (SOD)タスクにおいて, クロスモダリティ情報を効果的に捕捉・活用する方法の問題に着目し, 新たなクロスモダリティ相互作用と改良に基づく畳み込みニューラルネットワーク(CNN)モデルを提案する。 相互モダリティ相互作用について 1)エンコーダ段階でRGB-D特徴表現を十分に統合するプログレッシブアテンション誘導統合ユニットを提案する。 2) コンバージェンス・アグリゲーション構造を提案し, RGB と深度復号化特徴をデコーダ・ステージにおける重要ゲート融合ユニットを介して対応する RGB-D 復号ストリームに流す。 クロスモダリティ改善のために、自己モダリティ注意改善ユニットとクロスモダリティ重み付け精細化ユニットを用いて、RGB、深さ、RGB-Dエンコーダの特徴がさらに洗練されるエンコーダとデコーダとの間に、精細化ミドルウェア構造を挿入する。 最後に,徐々に洗練されていく機能により,デコーダ段階におけるサリエンシーマップを予測できる。 6つのRGB-D SODベンチマークの大規模な実験により、我々のネットワークは定性的かつ定量的に最先端の塩分濃度検出器より優れていることが示された。

Focusing on the issue of how to effectively capture and utilize cross-modality information in RGB-D salient object detection (SOD) task, we present a convolutional neural network (CNN) model, named CIR-Net, based on the novel cross-modality interaction and refinement. For the cross-modality interaction, 1) a progressive attention guided integration unit is proposed to sufficiently integrate RGB-D feature representations in the encoder stage, and 2) a convergence aggregation structure is proposed, which flows the RGB and depth decoding features into the corresponding RGB-D decoding streams via an importance gated fusion unit in the decoder stage. For the cross-modality refinement, we insert a refinement middleware structure between the encoder and the decoder, in which the RGB, depth, and RGB-D encoder features are further refined by successively using a self-modality attention refinement unit and a cross-modality weighting refinement unit. At last, with the gradually refined features, we predict the saliency map in the decoder stage. Extensive experiments on six popular RGB-D SOD benchmarks demonstrate that our network outperforms the state-of-the-art saliency detectors both qualitatively and quantitatively.
翻訳日:2022-10-07 16:54:25 公開日:2022-10-06
# テキスト駆動ビデオ予測

Text-driven Video Prediction ( http://arxiv.org/abs/2210.02872v1 )

ライセンス: Link先を確認
Xue Song, Jingjing Chen, Bin Zhu, Yu-Gang Jiang(参考訳) 現在のビデオ生成モデルは、通常、入力(画像、テキストなど)や潜在空間(ノイズベクトルなど)から受信した外観や動きを示す信号を連続したフレームに変換し、潜在コードサンプリングによってもたらされる不確実性に対する確率的生成プロセスを実現する。 しかし、この生成パターンは外観と動きの両方に決定論的制約がなく、制御不能で望ましくない結果をもたらす。 そこで本研究では,テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。 本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。 具体的には、画像とキャプションとで外観と動き成分を別々に設ける。 TVP タスクに対処する鍵は、テキスト記述における基盤となる動作情報を完全に探索することに依存している。 実際、このタスクは本質的に原因と効果の問題であり、テキストの内容はフレームの動きの変化に直接影響する。 プログレッシブモーション情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を備えており、ステップワイドな埋め込みを生成し、その後のフレームに対する動き推論を制御する。 特に、グローバルモーションセマンティクスを組み込んだ改良機構により、コヒーレント生成が保証される。 大規模な実験は、Something V2とSinglemoving MNISTデータセットで行われている。 実験の結果,本モデルは他のベースラインよりも優れた結果が得られ,提案フレームワークの有効性が検証された。

Current video generation models usually convert signals indicating appearance and motion received from inputs (e.g., image, text) or latent spaces (e.g., noise vectors) into consecutive frames, fulfilling a stochastic generation process for the uncertainty introduced by latent code sampling. However, this generation pattern lacks deterministic constraints for both appearance and motion, leading to uncontrollable and undesirable outcomes. To this end, we propose a new task called Text-driven Video Prediction (TVP). Taking the first frame and text caption as inputs, this task aims to synthesize the following frames. Specifically, appearance and motion components are provided by the image and caption separately. The key to addressing the TVP task depends on fully exploring the underlying motion information in text descriptions, thus facilitating plausible video generation. In fact, this task is intrinsically a cause-and-effect problem, as the text content directly influences the motion changes of frames. To investigate the capability of text in causal inference for progressive motion information, our TVP framework contains a Text Inference Module (TIM), producing step-wise embeddings to regulate motion inference for subsequent frames. In particular, a refinement mechanism incorporating global motion semantics guarantees coherent generation. Extensive experiments are conducted on Something-Something V2 and Single Moving MNIST datasets. Experimental results demonstrate that our model achieves better results over other baselines, verifying the effectiveness of the proposed framework.
翻訳日:2022-10-07 16:53:59 公開日:2022-10-06
# 予習物体検出器における不確実性校正の検討

A Review of Uncertainty Calibration in Pretrained Object Detectors ( http://arxiv.org/abs/2210.02935v1 )

ライセンス: Link先を確認
Denis Huseljic and Marek Herde and Mehmet Muejde and Bernhard Sick(参考訳) ディープラーニングベースのコンピュータビジョンの分野では、ディープオブジェクト検出の開発は、独自のパラダイム(例えば、2段階またはセットベース)とアーキテクチャ(例えば、Faster-RCNNやDETR)をもたらし、挑戦的なベンチマークデータセット上での優れたパフォーマンスを実現している。 それにもかかわらず、訓練された物体検出器は、通常、自身の知識に関する不確実性を確実に評価しておらず、確率的予測の品質は低い。 これらは後続の決定にしばしば用いられるため、そのような不正確な確率的予測は避けなければならない。 本研究では,様々な事前学習対象検出アーキテクチャにおける不確かさのキャリブレーション特性をマルチクラス設定で検討する。 本研究では,分布変化によるキャリブレーション(分布シフト,分布外データの適用など)を評価する上で,公平かつ偏りのない,繰り返し可能な評価を実現するための枠組みを提案する。 さらに, 異なる検出器のパラダイム, 後処理ステップ, 適切なメトリクス選択の影響を調べた結果, 検出器のキャリブレーションが低い理由について新たな知見が得られた。 これらの知見に基づき、最終層を微調整するだけで検出器の校正を改善することができる。

In the field of deep learning based computer vision, the development of deep object detection has led to unique paradigms (e.g., two-stage or set-based) and architectures (e.g., Faster-RCNN or DETR) which enable outstanding performance on challenging benchmark datasets. Despite this, the trained object detectors typically do not reliably assess uncertainty regarding their own knowledge, and the quality of their probabilistic predictions is usually poor. As these are often used to make subsequent decisions, such inaccurate probabilistic predictions must be avoided. In this work, we investigate the uncertainty calibration properties of different pretrained object detection architectures in a multi-class setting. We propose a framework to ensure a fair, unbiased, and repeatable evaluation and conduct detailed analyses assessing the calibration under distributional changes (e.g., distributional shift and application to out-of-distribution data). Furthermore, by investigating the influence of different detector paradigms, post-processing steps, and suitable choices of metrics, we deliver novel insights into why poor detector calibration emerges. Based on these insights, we are able to improve the calibration of a detector by simply finetuning its last layer.
翻訳日:2022-10-07 16:53:10 公開日:2022-10-06
# Content-Aware Query を用いた Transformer によるビデオ参照表現の理解

Video Referring Expression Comprehension via Transformer with Content-aware Query ( http://arxiv.org/abs/2210.02953v1 )

ライセンス: Link先を確認
Ji Jiang, Meng Cao, Tengtao Song, Yuexian Zou(参考訳) video reference expression comprehension(rec)は、自然言語表現で参照されるビデオフレームに対象オブジェクトをローカライズすることを目的としている。 近年、トランスフォーマー方式は性能の限界を大きく高めている。 しかし、現在のクエリ設計はサブオプティマであり、2つの欠点に悩まされている。 1) 遅い訓練収束過程 2)微粒なアライメントの欠如。 これを軽減するために、純粋に学習可能なクエリとコンテンツ情報との結合を目指す。 具体的には,フレーム全体の学習可能なバウンディングボックスを一定数設定し,アラインされた領域特徴を用いて実りある手掛かりを提供する。 さらに,文中の特定のフレーズを意味的に関連する視覚領域に明示的にリンクする。 この目的のために、VID-Entity と VidSTG-Entity という2つの新しいデータセットを導入し、VDSentence と VidSTG のデータセットを文全体に明示的に参照された単語で拡張する。 この利点を生かして,より詳細な特徴表現を保証する領域・フレーズレベルで細粒度のクロスモーダルアライメントを行う。 これら2つの設計を組み込んだモデル(ContFormer)は、広くベンチマークされたデータセット上での最先端のパフォーマンスを実現する。 例えば、VID-Entityデータセットでは、以前のSOTAと比較して、ContFormerはAccuの8.75%の絶対的な改善を実現している。 @0.6.

Video Referring Expression Comprehension (REC) aims to localize a target object in video frames referred by the natural language expression. Recently, the Transformerbased methods have greatly boosted the performance limit. However, we argue that the current query design is suboptima and suffers from two drawbacks: 1) the slow training convergence process; 2) the lack of fine-grained alignment. To alleviate this, we aim to couple the pure learnable queries with the content information. Specifically, we set up a fixed number of learnable bounding boxes across the frame and the aligned region features are employed to provide fruitful clues. Besides, we explicitly link certain phrases in the sentence to the semantically relevant visual areas. To this end, we introduce two new datasets (i.e., VID-Entity and VidSTG-Entity) by augmenting the VIDSentence and VidSTG datasets with the explicitly referred words in the whole sentence, respectively. Benefiting from this, we conduct the fine-grained cross-modal alignment at the region-phrase level, which ensures more detailed feature representations. Incorporating these two designs, our proposed model (dubbed as ContFormer) achieves the state-of-the-art performance on widely benchmarked datasets. For example on VID-Entity dataset, compared to the previous SOTA, ContFormer achieves 8.75% absolute improvement on Accu.@0.6.
翻訳日:2022-10-07 16:52:50 公開日:2022-10-06
# 効率的な映像理解のための圧縮ビジョン

Compressed Vision for Efficient Video Understanding ( http://arxiv.org/abs/2210.02995v1 )

ライセンス: Link先を確認
Olivia Wiles and Joao Carreira and Iain Barr and Andrew Zisserman and Mateusz Malinowski(参考訳) 経験と推論は、ミリ秒、秒、時間、日といった複数の時間スケールで起こる。 しかし、コンピュータビジョン研究の大多数は、個々の画像や短いビデオにわずか数秒しかかからない。 これは、長いビデオを扱うには、よりスケーラブルなアプローチを必要とするためです。 本研究では,現在2時間ビデオ処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。 我々は、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示す。 圧縮ビデオの操作は、データ転送、スピード、メモリなど、すべてのパイプラインレベルで効率を向上し、モデルがより速く、より長いビデオでトレーニングできるようになる。 しかし, 圧縮信号の処理は, 経時的に行うと, 標準的な拡張技術に先行する欠点がある。 そこで本稿では,従来のビデオ空間における一般的な拡張に対応する潜在符号に変換を適用可能な,小さなネットワークを導入する。 圧縮ビジョンパイプラインを使えば、kinetics600やcoinといった人気のあるベンチマークで、より効率的にビデオモデルをトレーニングできることを実証します。 また、標準フレームレートで1時間ビデオ上で定義された新しいタスクを用いて概念実証実験を行う。 このような長いビデオの処理は圧縮表現を使わずに不可能である。

Experience and reasoning occur across multiple temporal scales: milliseconds, seconds, hours or days. The vast majority of computer vision research, however, still focuses on individual images or short videos lasting only a few seconds. This is because handling longer videos require more scalable approaches even to process them. In this work, we propose a framework enabling research on hour-long videos with the same hardware that can now process second-long videos. We replace standard video compression, e.g. JPEG, with neural compression and show that we can directly feed compressed videos as inputs to regular video networks. Operating on compressed videos improves efficiency at all pipeline levels -- data transfer, speed and memory -- making it possible to train models faster and on much longer videos. Processing compressed signals has, however, the downside of precluding standard augmentation techniques if done naively. We address that by introducing a small network that can apply transformations to latent codes corresponding to commonly used augmentations in the original video space. We demonstrate that with our compressed vision pipeline, we can train video models more efficiently on popular benchmarks such as Kinetics600 and COIN. We also perform proof-of-concept experiments with new tasks defined over hour-long videos at standard frame rates. Processing such long videos is impossible without using compressed representation.
翻訳日:2022-10-07 16:52:24 公開日:2022-10-06
# 逆ロバストな抽選券サブネットワークを用いた動的確率アンサンブル

Dynamic Stochastic Ensemble with Adversarial Robust Lottery Ticket Subnetworks ( http://arxiv.org/abs/2210.02618v1 )

ライセンス: Link先を確認
Qi Peng, Wenlin Liu, Ruoxi Qin, Libin Hou, Bin Yan, Linyuan Wang(参考訳) 敵攻撃はCNNの本質的な脆弱性と考えられている。 攻撃のために設計された防衛戦略は、攻撃と防御のバランスの相違を反映して、敵の攻撃防衛軍拡競争で立ち往生している。 動的防御フレームワーク(ddf)は最近、確率的アンサンブルモデルに基づいてパッシブ安全性の現状を変更した。 DDFにおいて重要な関心事であるサブネットの多様性は、異なるネットワーク間の逆転性によって効果的に評価できる。 そこで本稿では,スクラッチチケットのサブネット間の様々な残差を生かし,動的確率的アンサンブル防衛戦略を実現する方法を提案する。 異なる基本構造と疎性から引き出されたロバストな宝くじサブネット間の逆転可能な多様性を発見する。 実験結果から,攻撃の信頼性を低下させる逆転可能な多様性により,より堅牢でクリーンな認識精度が向上することが示唆された。

Adversarial attacks are considered the intrinsic vulnerability of CNNs. Defense strategies designed for attacks have been stuck in the adversarial attack-defense arms race, reflecting the imbalance between attack and defense. Dynamic Defense Framework (DDF) recently changed the passive safety status quo based on the stochastic ensemble model. The diversity of subnetworks, an essential concern in the DDF, can be effectively evaluated by the adversarial transferability between different networks. Inspired by the poor adversarial transferability between subnetworks of scratch tickets with various remaining ratios, we propose a method to realize the dynamic stochastic ensemble defense strategy. We discover the adversarial transferable diversity between robust lottery ticket subnetworks drawn from different basic structures and sparsity. The experimental results suggest that our method achieves better robust and clean recognition accuracy by adversarial transferable diversity, which would decrease the reliability of attacks.
翻訳日:2022-10-07 16:46:24 公開日:2022-10-06
# IR2Net:正確なバイナリニューラルネットワークのための情報制限と情報回復

IR2Net: Information Restriction and Information Recovery for Accurate Binary Neural Networks ( http://arxiv.org/abs/2210.02637v1 )

ライセンス: Link先を確認
Ping Xue, Yang Lu, Jingfei Chang, Xing Wei, Zhen Wei(参考訳) 重みと活性化のバイナリ化はディープニューラルネットワークを効率的に圧縮し、モデル推論を加速するが、深刻な精度低下を引き起こす。 バイナリニューラルネットワーク(bnns)の既存の最適化手法は、量子化エラーを減らすために全精度ネットワークを適合させることに重点を置いており、精度と計算複雑性のトレードオフに苦しめられている。 対照的に,bnnの表現能力の制限による学習能力の制限と情報損失を考慮したir$^2$netを提案し,入力情報を制限し,以下を含む特徴情報を回復することにより,bnnのポテンシャルを刺激し,ネットワーク精度を向上させる。 1)情報制限:BNNは、入力情報に対する学習能力を評価し、集中できない情報の一部を破棄し、学習能力に合わせて入力情報の量を制限する。 2)情報回復:前方伝播における情報損失のため,ネットワークの出力特徴情報は正確な分類を支援するには不十分である。 より豊富な情報を持つ浅い特徴マップを選択し、最後の特徴マップと融合して特徴情報を復元する。 さらに、情報回復法を合理化して計算コストを削減し、精度と効率のトレードオフを改善する。 実験の結果,ResNet-18では,$10倍の浮動小数点演算(FLOP)の削減が図られている。 モデルとコードはhttps://github.com/pingxue-hfut/ir2netで入手できる。

Weight and activation binarization can efficiently compress deep neural networks and accelerate model inference, but cause severe accuracy degradation. Existing optimization methods for binary neural networks (BNNs) focus on fitting full-precision networks to reduce quantization errors, and suffer from the trade-off between accuracy and computational complexity. In contrast, considering the limited learning ability and information loss caused by the limited representational capability of BNNs, we propose IR$^2$Net to stimulate the potential of BNNs and improve the network accuracy by restricting the input information and recovering the feature information, including: 1) information restriction: for a BNN, by evaluating the learning ability on the input information, discarding some of the information it cannot focus on, and limiting the amount of input information to match its learning ability; 2) information recovery: due to the information loss in forward propagation, the output feature information of the network is not enough to support accurate classification. By selecting some shallow feature maps with richer information, and fusing them with the final feature maps to recover the feature information. In addition, the computational cost is reduced by streamlining the information recovery method to strike a better trade-off between accuracy and efficiency. Experimental results demonstrate that our approach still achieves comparable accuracy even with $ \sim $10x floating-point operations (FLOPs) reduction for ResNet-18. The models and code are available at https://github.com/pingxue-hfut/IR2Net.
翻訳日:2022-10-07 16:46:10 公開日:2022-10-06
# 対照因果学習による領域一般化

Domain Generalization via Contrastive Causal Learning ( http://arxiv.org/abs/2210.02655v1 )

ライセンス: Link先を確認
Qiaowei Miao, Junkun Yuan and Kun Kuang(参考訳) ドメイン一般化(Domain Generalization, DG)は、ソースドメインの集合から見えないターゲットドメインに適切に一般化できるモデルを学ぶことを目的としている。 不変因果機構(invariant causal mechanism)のアイデアにより、オブジェクトによって決定されるがドメインの変更に敏感なロバスト因果効果の学習に多くの努力が払われた。 因果効果のばらつきにもかかわらず、定量化や最適化は困難である。 先行知識によって人間が新しい環境に適応する能力に触発されて,未知のイメージを学習知識に伝達し,学習知識に基づいて因果効果を定量化する,新しいコントラスト因果モデル(CCM)を開発した。 DGの領域シフトの影響を考慮し、DGタスクを記述するためのより包括的な因果グラフを提案する。 この因果グラフに基づいて、CCMはドメインファクタを制御し、過剰な因果経路を切断し、残りの部分はフロントドア基準によるラベルに対する画像の因果効果を計算する。 具体的には、CCMは3つのコンポーネントから構成される。 (i)画像とラベルの相関をCCMに教えるドメイン条件付き教師あり学習 (ii) ccmがラベルに対する画像の真の因果効果を測定するのに役立つ因果効果学習 (iii)同一クラスに属する画像の特徴を集約し、類似性の定量化を提供する対比的類似性学習 最後に、PACS、OfficeHome、TerraIncognitaなどの複数のデータセット上でCCMの性能をテストする。 実験により,CCMが従来のDG法をはるかに上回っていることが示された。

Domain Generalization (DG) aims to learn a model that can generalize well to unseen target domains from a set of source domains. With the idea of invariant causal mechanism, a lot of efforts have been put into learning robust causal effects which are determined by the object yet insensitive to the domain changes. Despite the invariance of causal effects, they are difficult to be quantified and optimized. Inspired by the ability that humans adapt to new environments by prior knowledge, We develop a novel Contrastive Causal Model (CCM) to transfer unseen images to taught knowledge which are the features of seen images, and quantify the causal effects based on taught knowledge. Considering the transfer is affected by domain shifts in DG, we propose a more inclusive causal graph to describe DG task. Based on this causal graph, CCM controls the domain factor to cut off excess causal paths and uses the remaining part to calculate the causal effects of images to labels via the front-door criterion. Specifically, CCM is composed of three components: (i) domain-conditioned supervised learning which teaches CCM the correlation between images and labels, (ii) causal effect learning which helps CCM measure the true causal effects of images to labels, (iii) contrastive similarity learning which clusters the features of images that belong to the same class and provides the quantification of similarity. Finally, we test the performance of CCM on multiple datasets including PACS, OfficeHome, and TerraIncognita. The extensive experiments demonstrate that CCM surpasses the previous DG methods with clear margins.
翻訳日:2022-10-07 16:45:44 公開日:2022-10-06
# ニューラルマッチングフィールド:視覚対応のためのマッチングフィールドの暗黙の表現

Neural Matching Fields: Implicit Representation of Matching Fields for Visual Correspondence ( http://arxiv.org/abs/2210.02689v1 )

ライセンス: Link先を確認
Sunghwan Hong, Jisu Nam, Seokju Cho, Susung Hong, Sangryul Jeon, Dongbo Min, Seungryong Kim(参考訳) 既存の意味対応のパイプラインには、クラス内変異や背景乱れに対する不変性に対する高レベルの意味的特徴の抽出が含まれる。 しかし、このアーキテクチャは必然的に低解像度のマッチングフィールドとなり、それにはポストプロセッシングとしてアドホックな補間プロセスが必要となり、マッチング結果の全体的な性能が確実に制限される。 近年の暗黙的ニューラル表現の成功に触発されて,ニューラルマッチングフィールド(NeMF)と呼ばれる意味対応の新たな手法を提案する。 しかし、4Dマッチングフィールドの適合性と高次元性は大きな障害であり、後続の完全接続ネットワークを通じて高精度マッチングフィールドを確立するためのガイダンスとして、粗いコストボリュームを処理するためのコスト埋め込みネットワークを提案する。 しかし、4D空間のすべてのピクセルからの単純な徹底的な推論は、ピクセルワイズ対応を推測するためには、4D空間の全ピクセルからのクエリを必要とする。 そこで本研究では, 学習段階ではランダムに候補をサンプリングし, 推論段階ではパッチマッチに基づく推論と協調最適化をテスト時に繰り返し実施する, 適切なトレーニングと推論手順を提案する。 これらの組み合わせにより、セマンティック対応のためのいくつかの標準ベンチマークで競争結果が得られる。 コードとトレーニング済みのウェイトはhttps://ku-cvlab.github.io/NeMF/.orgで公開されている。

Existing pipelines of semantic correspondence commonly include extracting high-level semantic features for the invariance against intra-class variations and background clutters. This architecture, however, inevitably results in a low-resolution matching field that additionally requires an ad-hoc interpolation process as a post-processing for converting it into a high-resolution one, certainly limiting the overall performance of matching results. To overcome this, inspired by recent success of implicit neural representation, we present a novel method for semantic correspondence, called Neural Matching Field (NeMF). However, complicacy and high-dimensionality of a 4D matching field are the major hindrances, which we propose a cost embedding network to process a coarse cost volume to use as a guidance for establishing high-precision matching field through the following fully-connected network. Nevertheless, learning a high-dimensional matching field remains challenging mainly due to computational complexity, since a naive exhaustive inference would require querying from all pixels in the 4D space to infer pixel-wise correspondences. To overcome this, we propose adequate training and inference procedures, which in the training phase, we randomly sample matching candidates and in the inference phase, we iteratively performs PatchMatch-based inference and coordinate optimization at test time. With these combined, competitive results are attained on several standard benchmarks for semantic correspondence. Code and pre-trained weights are available at https://ku-cvlab.github.io/NeMF/.
翻訳日:2022-10-07 16:45:20 公開日:2022-10-06
# 骨格に基づく行動認識のための音声・グローバル空間時間変換器

Focal and Global Spatial-Temporal Transformer for Skeleton-based Action Recognition ( http://arxiv.org/abs/2210.02693v1 )

ライセンス: Link先を確認
Zhimin Gao, Peitao Wang, Pei Lv, Xiaoheng Jiang, Qidong Liu, Pichao Wang, Mingliang Xu and Wanqing Li(参考訳) 様々な視覚タスクでトランスフォーマーが大きな進歩を遂げたものの、スケルトンベースの動作認識では、わずか数回の試行で未熟である。 さらに、これらの手法は、空間次元と時間次元の両方の全ての関節に対する対のグローバルな自己アテンションを直接計算し、識別的局所関節と短距離時間ダイナミクスの影響を過小評価する。 本研究では,(1)fg-sformer: focal joints と global parts coupling spatial transformer の2つの主成分を具備した,新しいfg-stformer (fg-stformer) を提案する。 ネットワークは、学習された空間的関節と人体部分の両方のモデリング相関に焦点を合わせなければならない。 選択的焦点関節は、相関を蓄積する際の非情報的効果を除去する。 一方、焦点関節と体部との相互作用は相互に交叉することで空間依存性を高めるために組み込まれている。 2)FG-TFormer:焦点と大域の時間変換器。 拡張した時間的畳み込みはグローバルな自己保持機構に統合され、時間的トランスフォーマーを機能させる上で重要な、関節または身体部分の局所的な時間的動きパターンを明示的に捉える。 NTU-60, NTU-120, NW-UCLAの3つのベンチマークによる大規模な実験結果から, FG-STFormerは既存のトランスフォーマーベースの手法を全て上回り, 最先端のGCNベースの手法と比較した。

Despite great progress achieved by transformer in various vision tasks, it is still underexplored for skeleton-based action recognition with only a few attempts. Besides, these methods directly calculate the pair-wise global self-attention equally for all the joints in both the spatial and temporal dimensions, undervaluing the effect of discriminative local joints and the short-range temporal dynamics. In this work, we propose a novel Focal and Global Spatial-Temporal Transformer network (FG-STFormer), that is equipped with two key components: (1) FG-SFormer: focal joints and global parts coupling spatial transformer. It forces the network to focus on modelling correlations for both the learned discriminative spatial joints and human body parts respectively. The selective focal joints eliminate the negative effect of non-informative ones during accumulating the correlations. Meanwhile, the interactions between the focal joints and body parts are incorporated to enhance the spatial dependencies via mutual cross-attention. (2) FG-TFormer: focal and global temporal transformer. Dilated temporal convolution is integrated into the global self-attention mechanism to explicitly capture the local temporal motion patterns of joints or body parts, which is found to be vital important to make temporal transformer work. Extensive experimental results on three benchmarks, namely NTU-60, NTU-120 and NW-UCLA, show our FG-STFormer surpasses all existing transformer-based methods, and compares favourably with state-of-the art GCN-based methods.
翻訳日:2022-10-07 16:44:55 公開日:2022-10-06
# FedGraph: グラフの観点からの集約手法

FedGraph: an Aggregation Method from Graph Perspective ( http://arxiv.org/abs/2210.02733v1 )

ライセンス: Link先を確認
Zhifang Deng, Xiaohong Huang, Dandan Li, Xueguang Yuan(参考訳) ますます強化されたデータプライバシ法と難しいデータ集中化により、フェデレーション学習(fl)は、各クライアントのプライバシを維持しながらモデルを協調的にトレーニングするための効果的なソリューションとなっている。 FedAvgは標準集約アルゴリズムであり、各クライアントのデータセットサイズの割合を集約重みとする。 しかし、その固定集約重みとデータ分布の無視のため、非独立で同一の(非i.d)データを扱うことはできない。 本稿では,非i.i.dデータセット,すなわちfeedgraphを効果的に処理可能な集約戦略を提案し,学習プロセス全体における局所モデルのトレーニング条件に応じて,集約重みを適応的に調整する手法を提案する。 FedGraphは、各ローカルデータセットサイズの割合、モデルグラフのトポロジ係数、モデルウェイトという、粗いものから細かいものまで、3つの要素を考慮に入れている。 局所モデルからトポロジーグラフへの変換により局所モデル間の重力力を計算する。 FedGraphは、各ローカルデータセット、トポロジ構造、モデルウェイトを重み付けした組み合わせによって、ローカルモデル間の内部的相関性を改善することができる。 提案するfedgraphは,miccai federated tumor segmentation challenge 2021 (fets) データセットに適用され,本手法が従来の2.76 dice類似度スコアを上回った。 ソースコードはgithubで入手できる。

With the increasingly strengthened data privacy act and the difficult data centralization, Federated Learning (FL) has become an effective solution to collaboratively train the model while preserving each client's privacy. FedAvg is a standard aggregation algorithm that makes the proportion of dataset size of each client as aggregation weight. However, it can't deal with non-independent and identically distributed (non-i.i.d) data well because of its fixed aggregation weights and the neglect of data distribution. In this paper, we propose an aggregation strategy that can effectively deal with non-i.i.d dataset, namely FedGraph, which can adjust the aggregation weights adaptively according to the training condition of local models in whole training process. The FedGraph takes three factors into account from coarse to fine: the proportion of each local dataset size, the topology factor of model graphs, and the model weights. We calculate the gravitational force between local models by transforming the local models into topology graphs. The FedGraph can explore the internal correlation between local models better through the weighted combination of the proportion each local dataset, topology structure, and model weights. The proposed FedGraph has been applied to the MICCAI Federated Tumor Segmentation Challenge 2021 (FeTS) datasets, and the validation results show that our method surpasses the previous state-of-the-art by 2.76 mean Dice Similarity Score. The source code will be available at Github.
翻訳日:2022-10-07 16:44:27 公開日:2022-10-06
# 音声-視覚面の再現

Audio-Visual Face Reenactment ( http://arxiv.org/abs/2210.02755v1 )

ライセンス: Link先を確認
Madhav Agarwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C V Jawahar(参考訳) 本研究は,音声と視覚ストリームを用いたリアルな音声ヘッドビデオ生成手法を提案する。 学習可能なキーポイントで生成された密集した動き場を用いて、駆動映像から頭の動きを転送して音源画像をアニメーション化する。 我々は、音声を付加入力としてリップシンクの質を改善し、ネットワークが口領域に参加するのを助ける。 さらに,顔のセグメンテーションと顔メッシュを用いて,再建した顔の構造を改善する。 最後に、慎重に設計されたID対応ジェネレータモジュールを組み込むことにより、世代ごとの視覚的品質を向上させる。 アイデンティティ対応ジェネレータは、ソース画像と歪んだ動作特徴を入力として、きめ細かい細部で高品質な出力を生成する。 提案手法は最先端の結果を生成し,未知の顔,言語,音声によく当てはまる。 我々は、複数のメトリクスを用いてアプローチを包括的に評価し、定性的かつ定量的に現在の手法より優れている。 我々の作業は、低帯域幅のビデオ通話など、いくつかのアプリケーションを開く。 デモビデオと追加情報をhttp://cvit.iiit.ac.in/research/projects/cvit-projects/avfrで公開します。

This work proposes a novel method to generate realistic talking head videos using audio and visual streams. We animate a source image by transferring head motion from a driving video using a dense motion field generated using learnable keypoints. We improve the quality of lip sync using audio as an additional input, helping the network to attend to the mouth region. We use additional priors using face segmentation and face mesh to improve the structure of the reconstructed faces. Finally, we improve the visual quality of the generations by incorporating a carefully designed identity-aware generator module. The identity-aware generator takes the source image and the warped motion features as input to generate a high-quality output with fine-grained details. Our method produces state-of-the-art results and generalizes well to unseen faces, languages, and voices. We comprehensively evaluate our approach using multiple metrics and outperforming the current techniques both qualitative and quantitatively. Our work opens up several applications, including enabling low bandwidth video calls. We release a demo video and additional information at http://cvit.iiit.ac.in/research/projects/cvit-projects/avfr.
翻訳日:2022-10-07 16:44:00 公開日:2022-10-06
# 生起点雲から段階的に非符号距離関数を学習する

Learning Consistency-Aware Unsigned Distance Functions Progressively from Raw Point Clouds ( http://arxiv.org/abs/2210.02757v1 )

ライセンス: Link先を確認
Junsheng Zhou, Baorui Ma, Yu-Shen Liu, Yi Fang and Zhizhong Han(参考訳) 点雲の表面再構成は3次元コンピュータビジョンにおいて重要な課題である。 最新の手法のほとんどは、閉じた面を持つ形状やシーンの再構築に制限された点雲から符号付き距離関数(sdf)を学習することでこの問題を解決する。 その他の方法では、未署名距離関数(UDF)を用いて、大規模な地上真実から未署名距離の形状やシーンを表現しようとした。 しかし, 学習したudfは点雲の非連続性のため, 表面近傍の滑らかな距離場を提供することは困難である。 本稿では,無符号距離関数を生点雲から直接学習する新しい手法を提案する。 フィールド一貫性の制約により3dクエリを表面まで移動させることで,より正確なサーフェスを段階的に見積もることを可能にした。 具体的には, 動的に問合せの移動対象を探索することで, 3次元問合せと近似面の関係を徐々に推測するためにニューラルネットワークを訓練し, その結果, 表面近傍に一貫した場が形成される。 一方,学習されたUDFの勾配場から直接表面を抽出する多角化アルゴリズムを導入する。 合成および実走査データの表面再構成実験の結果, 広く使用されているベンチマークにおいて, 最先端技術よりも顕著な改善が見られた。

Surface reconstruction for point clouds is an important task in 3D computer vision. Most of the latest methods resolve this problem by learning signed distance functions (SDF) from point clouds, which are limited to reconstructing shapes or scenes with closed surfaces. Some other methods tried to represent shapes or scenes with open surfaces using unsigned distance functions (UDF) which are learned from large scale ground truth unsigned distances. However, the learned UDF is hard to provide smooth distance fields near the surface due to the noncontinuous character of point clouds. In this paper, we propose a novel method to learn consistency-aware unsigned distance functions directly from raw point clouds. We achieve this by learning to move 3D queries to reach the surface with a field consistency constraint, where we also enable to progressively estimate a more accurate surface. Specifically, we train a neural network to gradually infer the relationship between 3D queries and the approximated surface by searching for the moving target of queries in a dynamic way, which results in a consistent field around the surface. Meanwhile, we introduce a polygonization algorithm to extract surfaces directly from the gradient field of the learned UDF. The experimental results in surface reconstruction for synthetic and real scan data show significant improvements over the state-of-the-art under the widely used benchmarks.
翻訳日:2022-10-07 16:43:41 公開日:2022-10-06
# Guess the Instruction! ゼロショット学習者による言語モデルの構築

Guess the Instruction! Making Language Models Stronger Zero-Shot Learners ( http://arxiv.org/abs/2210.02969v1 )

ライセンス: Link先を確認
Seonghyeon Ye, Doyoung Kim, Joel Jang, Joongbo Shin, Minjoon Seo(参考訳) タスク命令と入力インスタンスが与えられたターゲットラベルの確率を最大化することにより、様々な下流タスクの言語モデル(LM)を微調整するメタトレーニングにより、ゼロショットタスクの一般化性能が向上した。 しかし、メタトレーニング中の新規ラベルを含む課題タスクへの一般化に苦慮している。 本稿では,入力インスタンスとラベルを与えられたタスク命令を生成するためにlmを訓練するメタトレーニングの代替手法であるflipped learningを提案する。 推論中、Flipped Learningと呼ばれるFlipped Learningで訓練されたLMは、タスク命令を生成する可能性が最も高いラベルオプションを選択する。 BIGベンチマークの14のタスクでは、3BサイズのFlippedは0ショットのT0-11Bの4倍、さらに60倍の3ショットのGPT-3 (175B)を平均1.8%と3.1%で上回っている。 Flippedは目に見えないラベルを特に大きく改善し、T0-11Bを最大で20%のスコアで上回った。 これは、Flippedの強いタスク一般化は、新しいラベルへの一般化の改善に由来することを示している。 私たちはコードをhttps://github.com/seonghyeonye/flipped-learningでリリースします。

Meta-training, which fine-tunes the language model (LM) on various downstream tasks by maximizing the likelihood of the target label given the task instruction and input instance, has improved the zero-shot task generalization performance. However, meta-trained LMs still struggle to generalize to challenging tasks containing novel labels unseen during meta-training. In this paper, we propose Flipped Learning, an alternative method of meta-training which trains the LM to generate the task instruction given the input instance and label. During inference, the LM trained with Flipped Learning, referred to as Flipped, selects the label option that is most likely to generate the task instruction. On 14 tasks of the BIG-bench benchmark, the 3B-sized Flipped outperforms 4 times larger zero-shot T0-11B and even a 60 times larger 3-shot GPT-3 (175B) on average by 1.8% and 3.1%, respectively. Flipped gives particularly large improvements on unseen labels, outperforming T0-11B by up to +20% average F1 score. This indicates that the strong task generalization of Flipped comes from improved generalization to novel labels. We release our code at https://github.com/seonghyeonye/Flipped-Learning.
翻訳日:2022-10-07 16:38:13 公開日:2022-10-06
# 抽象的意味表現による微粒化セマンティック等価性の測定

Measuring Fine-Grained Semantic Equivalence with Abstract Meaning Representation ( http://arxiv.org/abs/2210.03018v1 )

ライセンス: Link先を確認
Shira Wein, Zhuxin Wang, Nathan Schneider(参考訳) 意味論的に等価な文を特定することは、多くの言語間および単言語NLPタスクにおいて重要である。 現在の意味同値に対するアプローチは、粒度の違いと暗黙的な内容が人間の理解(roth and anthonio, 2021)とシステムパフォーマンス(briakou and carpuat, 2021)に影響を与えているという以前の証拠にもかかわらず、ゆるやかに文レベルでの「等価性」へのアプローチを取る。 本稿では,抽象的意味表現グラフ構造を利用した意味同値性を特徴付ける,新しい,より繊細な手法を提案する。 我々は、金または自動AMRアノテーションで使用できるアプローチを開発し、我々のソリューションが既存のコーパスフィルタリング手法よりも細粒度であり、既存の意味的類似度指標よりも厳密に等価な文を予測できることを実証する。 意味同値のきめ細かい尺度は,人間のポスト編集機械翻訳作業や文の類似性評価における作業負荷を制限できる可能性が示唆された。

Identifying semantically equivalent sentences is important for many cross-lingual and mono-lingual NLP tasks. Current approaches to semantic equivalence take a loose, sentence-level approach to "equivalence," despite previous evidence that fine-grained differences and implicit content have an effect on human understanding (Roth and Anthonio, 2021) and system performance (Briakou and Carpuat, 2021). In this work, we introduce a novel, more sensitive method of characterizing semantic equivalence that leverages Abstract Meaning Representation graph structures. We develop an approach, which can be used with either gold or automatic AMR annotations, and demonstrate that our solution is in fact finer-grained than existing corpus filtering methods and more accurate at predicting strictly equivalent sentences than existing semantic similarity metrics. We suggest that our finer-grained measure of semantic equivalence could limit the workload in the task of human post-edited machine translation and in human evaluation of sentence similarity.
翻訳日:2022-10-07 16:37:50 公開日:2022-10-06
# 情報文中の感情要素の検出

Detecting Narrative Elements in Informational Text ( http://arxiv.org/abs/2210.03028v1 )

ライセンス: Link先を確認
Effi Levi, Guy Mor, Tamir Sheafer, Shaul R. Shenhav(参考訳) 物語理論と計算モデルを組み合わせたテキストからの物語要素の自動抽出は、ここ数年で注目を集めている。 以前の作品では、ラボフとワルツキーによる口頭物語理論を利用して、個人的な物語のテキスト中の様々な物語要素を同定している。 代わりに私たちは、情報テキスト、特にニュースストーリーに焦点をあてています。 原文中の物語要素を検出する新しいNLPタスクNEAT(Narrative Elements AnnoTation)を紹介する。 この目的のために,ラボフとワレツキーの物語理論の要素(補完と解決)を適応させて,情報的テキスト(例えばニュースメディア)に適した新たな多段的ナラティブアノテーションスキームを考案し,新たなナラティブ要素(成功)を付加した。 次に,様々なカテゴリから46のニュース記事から得られた2,209文の新しいデータセットにアノテートするために,このスキームを用いた。 我々は、注釈付きデータセット上で複数の異なる設定で教師付きモデルを訓練し、異なる物語要素を識別し、平均F1スコアを最大0.77まで達成した。 この結果は、アノテーションスキームの全体的性質と、ドメインカテゴリに対する堅牢性を示している。

Automatic extraction of narrative elements from text, combining narrative theories with computational models, has been receiving increasing attention over the last few years. Previous works have utilized the oral narrative theory by Labov and Waletzky to identify various narrative elements in personal stories texts. Instead, we direct our focus to informational texts, specifically news stories. We introduce NEAT (Narrative Elements AnnoTation) - a novel NLP task for detecting narrative elements in raw text. For this purpose, we designed a new multi-label narrative annotation scheme, better suited for informational text (e.g. news media), by adapting elements from the narrative theory of Labov and Waletzky (Complication and Resolution) and adding a new narrative element of our own (Success). We then used this scheme to annotate a new dataset of 2,209 sentences, compiled from 46 news articles from various category domains. We trained a number of supervised models in several different setups over the annotated dataset to identify the different narrative elements, achieving an average F1 score of up to 0.77. The results demonstrate the holistic nature of our annotation scheme as well as its robustness to domain category.
翻訳日:2022-10-07 16:37:29 公開日:2022-10-06
# 大規模多言語機械翻訳における毒性

Toxicity in Multilingual Machine Translation at Scale ( http://arxiv.org/abs/2210.03070v1 )

ライセンス: Link先を確認
Marta R. Costa-juss\`a, Eric Smith, Christophe Ropers, Daniel Licht, Javier Ferrando, Carlos Escolano(参考訳) 機械翻訳システムは異なるタイプのエラーを発生させることができ、そのいくつかはユーザーに負の影響を与える可能性があるため、致命的あるいは破滅的なものとして特徴づけられる。 自動的あるいは人為的評価指標は、必ずしもそのようなクリティカルエラーとより無害なエラーを区別するものではない。 本稿では,1種類の致命的エラー,すなわち毒性の付加に焦点をあてる。 大規模評価データセット(HOLISTICBIAS, 472k以上の文)を英語から164言語に翻訳する際に, 付加毒性を評価し, 解析した。 毒性自動評価の結果,言語間での毒性は0%から5%に変化した。 最も高い毒性を持つ出力言語は低資源言語であり、最も高い毒性を持つ人口動態は、性的指向、性別、性、能力である。 また,8方向のサブセットでヒト評価を行い,真に付加された毒性の有病率を確認する。 我々は, 毒性の原因を解釈するために, 低ソースの寄与が幻覚を暗示する翻訳への寄与の量を測定する。 ソースの寄与は毒性と何らかの相関があるが、毒性のある単語の45.6%はソースの寄与度が高いため、添加された毒性の多くは誤翻訳によるものと考えられる。 ソースコントリビューションの信号と翻訳堅牢性の測定を組み合わせることで、22.3%の毒性が付加され、付加毒性は幻覚と異なる文脈における翻訳の安定性の両方に関係している可能性が示唆された。 これらの結果から, 誤訳を回避し, 幻覚を緩和し, 不安定な翻訳をチェックするために, 追加毒性の低減を推奨する。

Machine Translation systems can produce different types of errors, some of which get characterized as critical or catastrophic due to the specific negative impact they can have on users. Automatic or human evaluation metrics do not necessarily differentiate between such critical errors and more innocuous ones. In this paper we focus on one type of critical error: added toxicity. We evaluate and analyze added toxicity when translating a large evaluation dataset (HOLISTICBIAS, over 472k sentences, covering 13 demographic axes) from English into 164 languages. The toxicity automatic evaluation shows that added toxicity across languages varies from 0% to 5%. The output languages with the most added toxicity tend to be low-resource ones, and the demographic axes with the most added toxicity include sexual orientation, gender and sex, and ability. We also perform human evaluation on a subset of 8 directions, confirming the prevalence of true added toxicity. We use a measurement of the amount of source contribution to the translation, where a low source contribution implies hallucination, to interpret what causes toxicity. We observe that the source contribution is somewhat correlated with toxicity but that 45.6% of added toxic words have a high source contribution, suggesting that much of the added toxicity may be due to mistranslations. Combining the signal of source contribution level with a measurement of translation robustness allows us to flag 22.3% of added toxicity, suggesting that added toxicity may be related to both hallucination and the stability of translations in different contexts. Given these findings, our recommendations to reduce added toxicity are to curate training data to avoid mistranslations, mitigate hallucination and check unstable translations.
翻訳日:2022-10-07 16:37:08 公開日:2022-10-06
# 変圧器を用いた説明可能な言語誤り検出

Explainable Verbal Deception Detection using Transformers ( http://arxiv.org/abs/2210.03080v1 )

ライセンス: Link先を確認
Loukas Ilias, Felix Soldner, Bennett Kleinberg(参考訳) 人々は、偽ニュース、誤解を招く製品レビュー、活動に関する嘘など、潜在的に偽装的な言明にしばしば直面する。 テキストベースのデセプションの自動検出に関する作業が、ディープラーニングアプローチの可能性を活用しているのはごくわずかだ。 深層学習手法の批判は、解釈可能性の欠如であり、騙しの根底にある(言語学的)メカニズムを理解することを妨げる。 しかし、近年の進歩により、そのようなモデルのいくつかの側面を説明できるようになった。 本稿では,BERT(およびRoBERTa),マルチヘッドアテンション,コアテンション,トランスフォーマーの組み合わせを含む6つのディープラーニングモデルを提案し,評価する。 モデルがどのように決定に達するかを理解するため、LIMEを用いてモデルの予測を検討する。 次に,語彙の独特性と,LIWCカテゴリと結果クラス(真偽対偽)の相関を拡大する。 その結果,我々のトランスフォーマーモデルでは,自動偽造検出性能(+2.11%の精度)が向上し,真偽および偽造文におけるLIWC特徴の使用による有意な差異が示唆された。

People are regularly confronted with potentially deceptive statements (e.g., fake news, misleading product reviews, or lies about activities). Only few works on automated text-based deception detection have exploited the potential of deep learning approaches. A critique of deep-learning methods is their lack of interpretability, preventing us from understanding the underlying (linguistic) mechanisms involved in deception. However, recent advancements have made it possible to explain some aspects of such models. This paper proposes and evaluates six deep-learning models, including combinations of BERT (and RoBERTa), MultiHead Attention, co-attentions, and transformers. To understand how the models reach their decisions, we then examine the model's predictions with LIME. We then zoom in on vocabulary uniqueness and the correlation of LIWC categories with the outcome class (truthful vs deceptive). The findings suggest that our transformer-based models can enhance automated deception detection performances (+2.11% in accuracy) and show significant differences pertinent to the usage of LIWC features in truthful and deceptive statements.
翻訳日:2022-10-07 16:36:40 公開日:2022-10-06
# ARS2: 弱教師付きクラス不均衡テキスト分類のための適応ランキングに基づくサンプル選択

ARS2: Adaptive Ranking-based Sample Selection for Weakly supervised Class-imbalanced Text Classification ( http://arxiv.org/abs/2210.03092v1 )

ライセンス: Link先を確認
Linxin Song, Jieyu Zhang, Tianxiang Yang, Masayuki Goto(参考訳) 大量のトレーニングラベルを安価に得るために、研究者らは最近、自然言語処理(nlp)タスクの競争結果を達成するために個別のアノテーションを使うのではなく、トレーニングラベルを合成するためにラベル規則を利用する弱い監督(ws)パラダイムを採用した。 しかし、様々なNLPタスクでよくある問題であるにもかかわらず、WSパラダイムを適用する際にデータ不均衡がしばしば見過ごされる。 この課題に対処するために、WSパラダイムにおけるデータ不均衡問題を緩和するモデルに依存しないフレームワークであるAdaptive Ranking-based Sample Selection (ARS2)を提案する。 具体的には、現在のモデルの出力に基づいて確率的マージンスコアを算出し、各データポイントの清潔度を測定しランク付けする。 そして、クラス別およびルール対応のランキングに基づいてランキングデータをサンプリングする。 特に2つのサンプル戦略は,(1)バランスのとれたデータバッチでモデルを訓練し,データの不均衡問題を軽減し,(2)クリーンなサンプルを集めるためのラベル付けルールの専門知識を活用する,というモチベーションに対応している。 4つの異なる不均衡比を持つ4つのテキスト分類データセットの実験は、ARS2が最先端の不均衡学習とWSメソッドより優れており、F1スコアの2%-57.8%改善につながったことを示している。

To obtain a large amount of training labels inexpensively, researchers have recently adopted the weak supervision (WS) paradigm, which leverages labeling rules to synthesize training labels rather than using individual annotations to achieve competitive results for natural language processing (NLP) tasks. However, data imbalance is often overlooked in applying the WS paradigm, despite being a common issue in a variety of NLP tasks. To address this challenge, we propose Adaptive Ranking-based Sample Selection (ARS2), a model-agnostic framework to alleviate the data imbalance issue in the WS paradigm. Specifically, it calculates a probabilistic margin score based on the output of the current model to measure and rank the cleanliness of each data point. Then, the ranked data are sampled based on both class-wise and rule-aware ranking. In particular, the two sample strategies corresponds to our motivations: (1) to train the model with balanced data batches to reduce the data imbalance issue and (2) to exploit the expertise of each labeling rule for collecting clean samples. Experiments on four text classification datasets with four different imbalance ratios show that ARS2 outperformed the state-of-the-art imbalanced learning and WS methods, leading to a 2%-57.8% improvement on their F1-score.
翻訳日:2022-10-07 16:36:20 公開日:2022-10-06
# コモンズのマルチエージェント悲劇における人工内在性物質

Artificial virtuous agents in a multiagent tragedy of the commons ( http://arxiv.org/abs/2210.02769v1 )

ライセンス: Link先を確認
Jakob Stenseke(参考訳) 美徳倫理は, 人工道徳エージェント(AMA)の開発に適した枠組みとして何度も提案されてきたが, 計算的観点からのアプローチは困難であることが証明されている。 本稿では, モラルシミュレーションにおいて, 人工視覚エージェント (avas) の技術的実装を初めて紹介する。 まず, 人工美徳倫理における従来の概念的, 技術的研究を概観し, 転置的美徳, ボトムアップ学習, トップダウン的報酬に基づくAVAへの機能的パスについて述べる。 次に、コモンズシナリオの悲劇に基づいたモラルシミュレーションにおいて、技術的な実装の詳細を提供する。 実験の結果, avasは, モラル特性, 態度美徳, 経験からの学習, エウダイモニアの追求など, 理論的な特徴を提示しながら, 協力的課題にどのように取り組むかを示した。 究極的には、美徳倫理は道徳的に優れた機械への魅力的な道を与え、我々の仕事はそのような努力にとって重要な出発点となる。

Although virtue ethics has repeatedly been proposed as a suitable framework for the development of artificial moral agents (AMAs), it has been proven difficult to approach from a computational perspective. In this work, we present the first technical implementation of artificial virtuous agents (AVAs) in moral simulations. First, we review previous conceptual and technical work in artificial virtue ethics and describe a functionalistic path to AVAs based on dispositional virtues, bottom-up learning, and top-down eudaimonic reward. We then provide the details of a technical implementation in a moral simulation based on a tragedy of the commons scenario. The experimental results show how the AVAs learn to tackle cooperation problems while exhibiting core features of their theoretical counterpart, including moral character, dispositional virtues, learning from experience, and the pursuit of eudaimonia. Ultimately, we argue that virtue ethics provides a compelling path toward morally excellent machines and that our work provides an important starting point for such endeavors.
翻訳日:2022-10-07 16:35:55 公開日:2022-10-06
# オントロジーにおける多言語主義の概観

A Review of Multilingualism in and for Ontologies ( http://arxiv.org/abs/2210.02807v1 )

ライセンス: Link先を確認
Frances Gillis-Webber and C. Maria Keet(参考訳) Multilingual Semantic Webは10年以上にわたって注目されてきた。 Linked DataとRDFのマルチ言語主義は、かなり採用されているが、15年前の前回レビュー以来、オントロジには不明瞭である。 OWLの設計目標の1つは国際化であり、オントロジーは言語や文化にまたがって利用できることを目的としていた。 多言語オントロジーを改善するための多くの研究は、その間に行われており、多言語リンクデータは多言語オントロジーを使用する可能性がある。 したがって このレビューは (i)多言語オントロジーのモデリングオプションの解明と比較。 (ii)多言語主義における現存するオントロジーの検討 (iii)多言語オントロジーを管理する能力について、オントロジー編集者を評価する。 オントロジーにおける多言語性モデリングのための9つの主要なアプローチが同定され、マルチ言語ラベル、言語モデル、マッピングベースアプローチのいずれかのアプローチに当てはまる。 オントロジーのための多言語情報をモデル化するアドホックなビジュアライゼーションモード、欠点、解決しようとする課題などによって、設計上で比較される。 オントロジーについては、bioportalとlovリポジトリから生産レベルとアクセス可能なオントロジーを抽出し、少なくとも6.77%と15.74%が多言語オントロジーであり、そのほとんどが部分翻訳のみでラベルベースのアプローチのみを使っている。 多言語オントロジーを管理するための9つのツール要件に基づいて、7つの関連するオントロジーエディターの評価は、ツールサポートに重大なギャップがあることを示しました。 この株式取得は新たなベースラインとして機能し、多言語オントロジーの新しい研究方向性を動機づける可能性がある。

The Multilingual Semantic Web has been in focus for over a decade. Multilingualism in Linked Data and RDF has shown substantial adoption, but this is unclear for ontologies since the last review 15 years ago. One of the design goals for OWL was internationalisation, with the aim that an ontology is usable across languages and cultures. Much research to improve on multilingual ontologies has taken place in the meantime, and presumably multilingual linked data could use multilingual ontologies. Therefore, this review seeks to (i) elucidate and compare the modelling options for multilingual ontologies, (ii) examine extant ontologies for their multilingualism, and (iii) evaluate ontology editors for their ability to manage a multilingual ontology. Nine different principal approaches for modelling multilinguality in ontologies were identified, which fall into either of the following approaches: using multilingual labels, linguistic models, or a mapping-based approach. They are compared on design by means of an ad hoc visualisation mode of modelling multilingual information for ontologies, shortcomings, and what issues they aim to solve. For the ontologies, we extracted production-level and accessible ontologies from BioPortal and the LOV repositories, which had, at best, 6.77% and 15.74% multilingual ontologies, respectively, where most of them have only partial translations and they all use a labels-based approach only. Based on a set of nine tool requirements for managing multilingual ontologies, the assessment of seven relevant ontology editors showed that there are significant gaps in tooling support, with VocBench 3 nearest of meeting them all. This stock-taking may function as a new baseline and motivate new research directions for multilingual ontologies.
翻訳日:2022-10-07 16:35:35 公開日:2022-10-06
# 本当の同義語置換攻撃から どこまで?

How Far Are We from Real Synonym Substitution Attacks? ( http://arxiv.org/abs/2210.02844v1 )

ライセンス: Link先を確認
Cheng-Han Chiang and Hung-yi Lee(参考訳) 本稿では, 現実のシノニム置換攻撃(SSAs)からどこまでの距離が遠いか, という課題を考察する。 そこで本研究では,SSAが文中の単語をどう置き換えるかを検証し,現在のSSAが無効な対数サンプルを生成する未解決の障害が存在することを示す。 広く使われている4つの単語置換法は、文法的でない、あるいは原文の意味を保たない、多数の無効な置換語を生成する。 次に,無効な単語置換の検出に用いる意味的制約と文法的制約が,無効な単語置換の検出に極めて不十分であることを示す。 私たちの仕事は、将来より優れたSSAを構築するための重要なステップストーンです。

In this paper, we explore the following question: how far are we from real synonym substitution attacks (SSAs). We approach this question by examining how SSAs replace words in the original sentence and show that there are still unresolved obstacles that make current SSAs generate invalid adversarial samples. We reveal that four widely used word substitution methods generate a large fraction of invalid substitution words that are ungrammatical or do not preserve the original sentence's semantics. Next, we show that the semantic and grammatical constraints used in SSAs for detecting invalid word replacements are highly insufficient in detecting invalid adversarial samples. Our work is an important stepping stone to constructing better SSAs in the future.
翻訳日:2022-10-07 16:28:47 公開日:2022-10-06
# XDoc: クロスフォーマットドキュメント理解のための統一事前トレーニング

XDoc: Unified Pre-training for Cross-Format Document Understanding ( http://arxiv.org/abs/2210.02849v1 )

ライセンス: Link先を確認
Jingye Chen, Tengchao Lv, Lei Cui, Cha Zhang, Furu Wei(参考訳) 事前学習の急増は、文書理解の急速な発展を目撃している。 事前学習と微調整のフレームワークは、プレーンテキスト、文書テキスト、ウェブテキストなど、さまざまなフォーマットでテキストに取り組むために効果的に使用されている。 有望なパフォーマンスを達成しているにもかかわらず、既存の事前訓練されたモデルは、通常、一度に1つの特定のドキュメントフォーマットをターゲットにしている。 そこで本研究では,複数の文書フォーマットを1つのモデルで処理する事前学習モデルXDocを提案する。 パラメータ効率の面では、ワード埋め込み層やトランスフォーマー層といった異なるフォーマットのバックボーンパラメータを共有する。 一方,異なるフォーマット間の識別性を高めるために,軽量パラメータによる適応層を導入する。 実験の結果、36.7%のパラメータしか持たないxdocは、個々の事前訓練されたモデルと比較して、様々な下流タスクで同等またはそれ以上の性能を達成している。 コードと事前訓練されたモデルは、 \url{https://aka.ms/xdoc} で公開される。

The surge of pre-training has witnessed the rapid development of document understanding recently. Pre-training and fine-tuning framework has been effectively used to tackle texts in various formats, including plain texts, document texts, and web texts. Despite achieving promising performance, existing pre-trained models usually target one specific document format at one time, making it difficult to combine knowledge from multiple document formats. To address this, we propose XDoc, a unified pre-trained model which deals with different document formats in a single model. For parameter efficiency, we share backbone parameters for different formats such as the word embedding layer and the Transformer layers. Meanwhile, we introduce adaptive layers with lightweight parameters to enhance the distinction across different formats. Experimental results have demonstrated that with only 36.7% parameters, XDoc achieves comparable or even better performance on a variety of downstream tasks compared with the individual pre-trained models, which is cost effective for real-world deployment. The code and pre-trained models will be publicly available at \url{https://aka.ms/xdoc}.
翻訳日:2022-10-07 16:28:36 公開日:2022-10-06
# Time Will Change Things: ソーシャルメディア分類における動的言語理解に関する実証的研究

Time Will Change Things: An Empirical Study on Dynamic Language Understanding in Social Media Classification ( http://arxiv.org/abs/2210.02857v1 )

ライセンス: Link先を確認
Yuji Zhang, Jing Li(参考訳) 現実世界のソーシャルメディア環境では、言語機能は進化し続けている。 自然言語理解(NLU)における多くの訓練されたモデルは、目に見えない特徴のセマンティック推論に効果がなく、結果として動的性能の劣化に苦しむ可能性がある。 この課題に対処するために,我々はソーシャルメディアnluを動的セットアップで経験的に研究し,モデルが過去のデータに基づいてトレーニングされ,将来のテストが行われる。 普通に採用されているランダムなデータ分割の静的セットアップよりも、現実的なプラクティスを反映している。 モデル適応を動的に解析するために,モデルが訓練された後に作成されたラベルのないデータを活用することの有用性を検討する。 自動エンコーディングと擬似ラベルに基づく教師なしドメイン適応ベースラインとそれらを結合するジョイントフレームワークの性能を実験で検討した。 4つのソーシャルメディアタスクにおける実質的な結果は、分類精度よりも進化する環境の普遍的な悪影響を示唆する一方、自動エンコーディングと擬似ラベルは、動的性の最良の堅牢性を示している。

Language features are ever-evolving in the real-world social media environment. Many trained models in natural language understanding (NLU), ineffective in semantic inference for unseen features, might consequently struggle with the deteriorating performance in dynamicity. To address this challenge, we empirically study social media NLU in a dynamic setup, where models are trained on the past data and test on the future. It better reflects the realistic practice compared to the commonly-adopted static setup of random data split. To further analyze model adaption to the dynamicity, we explore the usefulness of leveraging some unlabeled data created after a model is trained. The performance of unsupervised domain adaption baselines based on auto-encoding and pseudo-labeling and a joint framework coupling them both are examined in the experiments. Substantial results on four social media tasks imply the universally negative effects of evolving environments over classification accuracy, while auto-encoding and pseudo-labeling collaboratively show the best robustness in dynamicity.
翻訳日:2022-10-07 16:28:16 公開日:2022-10-06
# シンボリック言語におけるバインディング言語モデル

Binding Language Models in Symbolic Languages ( http://arxiv.org/abs/2210.02875v1 )

ライセンス: Link先を確認
Zhoujun Cheng, Tianbao Xie, Peng Shi, Chengzu Li, Rahul Nadkarni, Yushi Hu, Caiming Xiong, Dragomir Radev, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Tao Yu(参考訳) エンドツーエンドのニューラルアプローチは最近、パフォーマンスと使いやすさの両方でnlpタスクを支配しているが、解釈性と堅牢性に欠けている。 プログラムにタスク入力をマッピングするトレーニングフリーのニューラルシンボリックフレームワークであるbinderを提案する。(1)言語モデル(lm)の機能の統一apiをプログラミング言語(例えば、sql, python)にバインドすることにより、文法の範囲を拡大し、より多様な問題に対処できる。(2)プログラムパーサとしてlmを採用し、実行中にapiによって呼び出される基礎モデルを採用する。 具体的には,GPT-3コーデックスをLMとして使用する。 構文解析の段階では、いくつかのコンテキスト内例があるだけで、Codexは、元のプログラミング言語では答えられないタスクインプットの一部を特定し、Codexに未解決の部分を解くよう促すAPIコールを正しく生成し、元の文法と互換性のあるAPI呼び出しの場所を特定することができる。 実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能(例えば、コモンセンスQA、情報抽出)を実行することができる。 BinderはWikiTableQuestionsとTabFactデータセットの最先端の結果を達成し、人間のデバッグに役立つ明示的な出力プログラムを提供する。 以前のベストシステムは、すべて数万のタスク固有のサンプルで微調整されていますが、binderはトレーニングなしで、コンテキスト内インスタンスとして数十のアノテーションのみを使用します。 私たちのコードはhttps://github.com/HKUNLP/Binder で利用可能です。

Though end-to-end neural approaches have recently been dominating NLP tasks in both performance and ease-of-use, they lack interpretability and robustness. We propose Binder, a training-free neural-symbolic framework that maps the task input to a program, which (1) allows binding a unified API of language model (LM) functionalities to a programming language (e.g., SQL, Python) to extend its grammar coverage and thus tackle more diverse questions, (2) adopts an LM as both the program parser and the underlying model called by the API during execution, and (3) requires only a few in-context exemplar annotations. Specifically, we employ GPT-3 Codex as the LM. In the parsing stage, with only a few in-context exemplars, Codex is able to identify the part of the task input that cannot be answerable by the original programming language, correctly generate API calls to prompt Codex to solve the unanswerable part, and identify where to place the API calls while being compatible with the original grammar. In the execution stage, Codex can perform versatile functionalities (e.g., commonsense QA, information extraction) given proper prompts in the API calls. Binder achieves state-of-the-art results on WikiTableQuestions and TabFact datasets, with explicit output programs that benefit human debugging. Note that previous best systems are all finetuned on tens of thousands of task-specific samples, while Binder only uses dozens of annotations as in-context exemplars without any training. Our code is available at https://github.com/HKUNLP/Binder .
翻訳日:2022-10-07 16:27:58 公開日:2022-10-06
# マルチアスペクト制御可能なテキスト生成用分布レンズ

A Distributional Lens for Multi-Aspect Controllable Text Generation ( http://arxiv.org/abs/2210.02889v1 )

ライセンス: Link先を確認
Yuxuan Gu, Xiaocheng Feng, Sicheng Ma, Lingyuan Zhang, Heng Gong, Bing Qin(参考訳) マルチアスペクト制御可能なテキスト生成は、シングルアスペクト制御よりも困難で実用的なタスクである。 既存手法は、単一視点から学習した複数のコントローラを融合させて複雑なマルチアスペクト制御を実現するが、これらのコントローラの相互干渉による特性劣化に悩まされる。 これに対処するために,分布論的観点から属性融合の観察を行い,生成のための組合せとして複数の属性分布の交点領域を直接探索することを提案する。 本手法では,まず属性空間をオートエンコーダ構造で推定する。 その後、異なる属性を表す点までの距離を最小化することで交差点に反復的に接近する。 最後に,属性関連文にプレフィックスチューニングに基づくデコーダでマッピングする。 感傷的・話題的・解毒的側面を含む3視点制御課題の実験により,本手法は属性関連性やテキスト品質に優れ,SOTAを達成できることを示す。 さらなる分析は、我々のアプローチの有効性に関する説明的支援も提供する。

Multi-aspect controllable text generation is a more challenging and practical task than single-aspect control. Existing methods achieve complex multi-aspect control by fusing multiple controllers learned from single-aspect, but suffer from attribute degeneration caused by the mutual interference of these controllers. To address this, we provide observations on attribute fusion from a distributional perspective and propose to directly search for the intersection areas of multiple attribute distributions as their combination for generation. Our method first estimates the attribute space with an autoencoder structure. Afterward, we iteratively approach the intersections by jointly minimizing distances to points representing different attributes. Finally, we map them to attribute-relevant sentences with a prefix-tuning-based decoder. Experiments on the three-aspect control task, including sentiment, topic, and detoxification aspects, reveal that our method outperforms several strong baselines on attribute relevance and text quality and achieves the SOTA. Further analysis also supplies some explanatory support for the effectiveness of our approach.
翻訳日:2022-10-07 16:27:26 公開日:2022-10-06
# multiview context commonsense inference: 新しいデータセットとタスク

Multiview Contextual Commonsense Inference: A New Dataset and Task ( http://arxiv.org/abs/2210.02890v1 )

ライセンス: Link先を確認
Siqi Shen, Deepanway Ghosal, Navonil Majumder, Henry Lim, Rada Mihalcea, Soujanya Poria(参考訳) コンテキストコモンセンス推論(Contextual Commonsense Inference)は、原因、モチベーション、感情反応など、ダイアディック対話における事象に関する様々な説明を生成するタスクである。 コヒーレントで非自明な説明を生成するには、対話の構造と、その文脈における出来事の根拠に対する認識が必要である。 本研究では,2,379の対話から8,351のインスタンスからなるデータセットである「cicerov2」を作成し,それぞれの文脈的コモンセンス推論質問に対して,複数の人文による回答を格納し,原因,その後の出来事,動機,感情的反応に関する説明のタイプを表現する。 CICEROv2の推論は、他の文脈コモンセンス推論データセットよりも意味的に多様であることを示す。 推定課題を解決するため,提案手法では,提案課題の事前学習モデルを作成するために,概念記述や発話ソートを含む事前学習対象の収集を提案する。 提案した事前学習目標が,文脈コモンセンス推論タスクに対する事前学習T5-ラージモデルの適用に有効であることを示す。

Contextual commonsense inference is the task of generating various types of explanations around the events in a dyadic dialogue, including cause, motivation, emotional reaction, and others. Producing a coherent and non-trivial explanation requires awareness of the dialogue's structure and of how an event is grounded in the context. In this work, we create CICEROv2, a dataset consisting of 8,351 instances from 2,379 dialogues, containing multiple human-written answers for each contextual commonsense inference question, representing a type of explanation on cause, subsequent event, motivation, and emotional reaction. We show that the inferences in CICEROv2 are more semantically diverse than other contextual commonsense inference datasets. To solve the inference task, we propose a collection of pre-training objectives, including concept denoising and utterance sorting to prepare a pre-trained model for the downstream contextual commonsense inference task. Our results show that the proposed pre-training objectives are effective at adapting the pre-trained T5-Large model for the contextual commonsense inference task.
翻訳日:2022-10-07 16:27:11 公開日:2022-10-06
# 嫌悪だけでは不十分! --下流課題におけるMLMと社会的バイアスの緩和効果について

Debiasing isn't enough! -- On the Effectiveness of Debiasing MLMs and their Social Biases in Downstream Tasks ( http://arxiv.org/abs/2210.02938v1 )

ライセンス: Link先を確認
Masahiro Kaneko, Danushka Bollegala, Naoaki Okazaki(参考訳) マスキング言語モデル(mlms)におけるタスク非依存的内在的およびタスク固有の社会的バイアス評価尺度の関係について検討し,これら2つの評価尺度の間には弱い相関しか存在しないことを見出した。 さらに, 下流タスクの微調整中に, 異なる手法を用いて, MLMは社会的バイアスを再学習する傾向を示した。 本研究は,内在バイアス評価と外因バイアス評価の相違を理由として,トレーニングインスタンスの社会的偏見とラベルを付与する。 本研究は,既存のMLMバイアス評価尺度の限界を強調し,これらの尺度を用いた下流アプリケーションにおけるMLMの展開に関する懸念を提起する。

We study the relationship between task-agnostic intrinsic and task-specific extrinsic social bias evaluation measures for Masked Language Models (MLMs), and find that there exists only a weak correlation between these two types of evaluation measures. Moreover, we find that MLMs debiased using different methods still re-learn social biases during fine-tuning on downstream tasks. We identify the social biases in both training instances as well as their assigned labels as reasons for the discrepancy between intrinsic and extrinsic bias evaluation measurements. Overall, our findings highlight the limitations of existing MLM bias evaluation measures and raise concerns on the deployment of MLMs in downstream applications using those measures.
翻訳日:2022-10-07 16:26:50 公開日:2022-10-06
# Augmentorかフィルタか? テキスト分類強化における事前学習言語モデルの役割の再考

Augmentor or Filter? Reconsider the Role of Pre-trained Language Model in Text Classification Augmentation ( http://arxiv.org/abs/2210.02941v1 )

ライセンス: Link先を確認
Heng Yang, Ke Li(参考訳) テキスト拡張は、テキスト分類におけるデータ不足の重要な問題を解決する最も効果的な手法の1つである。 既存のテキスト増補手法は、数ショットのテキストデータ増補において希望的な性能を達成する。 しかしながら、これらのメソッドは通常、品質向上の悪いインスタンスのために、公開データセットのパフォーマンス劣化につながる。 本研究は,事前学習した言語モデルを用いても,既存のテキスト拡張手法が多数の低品質インスタンスを生成し,拡張インスタンスにおける特徴空間シフト問題を引き起こすことを示す。 しかし、トレーニング済みの言語モデルは、ターゲットデータセット上で微調整された場合、低品質のインスタンスを見つけるのに優れていることに留意する。 既存のテキスト拡張手法における特徴空間シフトと性能劣化を軽減するため,テキスト拡張における言語モデルの役割を再考するBOOSTAUGを提案する。 文レベルのテキスト分類とアスペクトベースの感情分類の両方を用いてBOOSTAUGを評価する。 7つのテキスト分類データセットに対する実験結果から,本手法が最先端の性能を得ることを示す。 さらに、BOOSTAUGは柔軟なフレームワークであり、既存の拡張メソッドを改善するのに役立つコードをリリースします。

Text augmentation is one of the most effective techniques to solve the critical problem of insufficient data in text classification. Existing text augmentation methods achieve hopeful performance in few-shot text data augmentation. However, these methods usually lead to performance degeneration on public datasets due to poor quality augmentation instances. Our study shows that even employing pre-trained language models, existing text augmentation methods generate numerous low-quality instances and lead to the feature space shift problem in augmentation instances. However, we note that the pre-trained language model is good at finding low-quality instances provided that it has been fine-tuned on the target dataset. To alleviate the feature space shift and performance degeneration in existing text augmentation methods, we propose BOOSTAUG, which reconsiders the role of the language model in text augmentation and emphasizes the augmentation instance filtering rather than generation. We evaluate BOOSTAUG on both sentence-level text classification and aspect-based sentiment classification. The experimental results on seven commonly used text classification datasets show that our augmentation method obtains state-of-the-art performance. Moreover, BOOSTAUG is a flexible framework; we release the code which can help improve existing augmentation methods.
翻訳日:2022-10-07 16:26:36 公開日:2022-10-06
# ドメイン適応によるプロンプトチューニングのサンプル効率の改善

Improving the Sample Efficiency of Prompt Tuning with Domain Adaptation ( http://arxiv.org/abs/2210.02952v1 )

ライセンス: Link先を確認
Xu Guo, Boyang Li, Han Yu(参考訳) データから学習したソフトプロンプトを備えたフリーズプレトレーニング言語モデル(PLM)のプロンプトチューニング(Prompt tuning)は、幅広いNLPタスクにおいて印象的なパフォーマンスを示す。 しかし、プロンプトチューニングでは、大規模なトレーニングデータセットを有効にし、データスカース方式でPLM全体を微調整することで性能が向上する。 以前の研究 \citep{gu-etal-2022-ppt,vu-etal-2022-spot} では、ソースドメイン上で事前訓練されたソフトプロンプトをターゲットドメインに転送することを提案した。 本稿では,事前学習中に対象領域からラベルなしのデータが得られる問題設定であるプロンプトチューニングのためのドメイン適応について検討する。 本稿では,ソースとターゲットデータ分布が類似する領域をスムースに決定境界を定式化する,ドメイン適応によるプロンプトチューニング(optima)を提案する。 広汎な実験により,OPTIMAは強いベースラインと比較して,プロンプトチューニングの伝達性と試料効率を著しく向上することが示された。 さらに、数ショット設定では、OPTIMAはフルモデルのチューニングを大きなマージンで上回る。

Prompt tuning, or the conditioning of a frozen pretrained language model (PLM) with soft prompts learned from data, has demonstrated impressive performance on a wide range of NLP tasks. However, prompt tuning requires a large training dataset to be effective and is outperformed by finetuning the entire PLM in data-scarce regimes. Previous work \citep{gu-etal-2022-ppt,vu-etal-2022-spot} proposed to transfer soft prompts pretrained on the source domain to the target domain. In this paper, we explore domain adaptation for prompt tuning, a problem setting where unlabeled data from the target domain are available during pretraining. We propose bOosting Prompt TunIng with doMain Adaptation (OPTIMA), which regularizes the decision boundary to be smooth around regions where source and target data distributions are similar. Extensive experiments demonstrate that OPTIMA significantly enhances the transferability and sample-efficiency of prompt tuning compared to strong baselines. Moreover, in few-shot settings, OPTIMA exceeds full-model tuning by a large margin.
翻訳日:2022-10-07 16:26:18 公開日:2022-10-06
# 単語境界は教師なし言語学習に役立つか?

Are word boundaries useful for unsupervised language learning? ( http://arxiv.org/abs/2210.02956v1 )

ライセンス: Link先を確認
Tu Anh Nguyen, Maureen de Seyssel, Robin Algayres, Patricia Roze, Ewan Dunbar, Emmanuel Dupoux(参考訳) 単語または単語フレームベースの言語モデル(LM)は、多くの下流アプリケーションにおいて文字ベースの言語モデルよりも好まれる。 単語は文字よりも言語的に関連のある単位に見えるので、これは驚くことではないかもしれない。 単語は少なくとも2種類の関連情報(境界情報と意味単位)を提供する。 しかし、音声入力の場合、単語境界情報は欠落または信頼できない場合がある(単語境界は音声ストリームでは明示的にマークされない)。 ここでは,LSTMを入力単位(文字,音素,単語,単語部分)と金境界情報の有無の関数として体系的に比較する。 pWUGGY, pBLIMP, pSIMI の3つの言語適応ブラックボックス NLP を用いて, 語彙, 構文, 意味レベルでの言語知識を探索した。 境界の欠如は、タスクによる相対的なパフォーマンスにおいて2\%から28\%のコストがかかることが判明した。 教師なしセグメンテーションアルゴリズムで得られたゴールドバウンダリを自動的に検出することで,ゴールドバウンダリを置き換えることが可能であること,また境界情報のない基本文字/電話モデルと比較して,モデストセグメンテーション性能でも2つのタスクにおいて性能が向上することを示した。

Word or word-fragment based Language Models (LM) are typically preferred over character-based ones in many downstream applications. This may not be surprising as words seem more linguistically relevant units than characters. Words provide at least two kinds of relevant information: boundary information and meaningful units. However, word boundary information may be absent or unreliable in the case of speech input (word boundaries are not marked explicitly in the speech stream). Here, we systematically compare LSTMs as a function of the input unit (character, phoneme, word, word part), with or without gold boundary information. We probe linguistic knowledge in the networks at the lexical, syntactic and semantic levels using three speech-adapted black box NLP psycholinguistically-inpired benchmarks (pWUGGY, pBLIMP, pSIMI). We find that the absence of boundaries costs between 2\% and 28\% in relative performance depending on the task. We show that gold boundaries can be replaced by automatically found ones obtained with an unsupervised segmentation algorithm, and that even modest segmentation performance gives a gain in performance on two of the three tasks compared to basic character/phone based models without boundary information.
翻訳日:2022-10-07 16:25:55 公開日:2022-10-06
# u3e: 機械読解のための教師なしおよび消去に基づく証拠抽出

U3E: Unsupervised and Erasure-based Evidence Extraction for Machine Reading Comprehension ( http://arxiv.org/abs/2210.02621v1 )

ライセンス: Link先を確認
Suzhe He, Shumin Shi and Chenghao Wu(参考訳) 機械読解理解(MRC)におけるより多くのタスクは、解答の予測に加えて、解答を支持する証拠文の抽出を必要とする。 しかし、証拠文を支持するアノテーションは通常、時間と労力がかかる。 本稿では,この問題に対処し,既存の抽出手法の大部分が半監督されていることを考慮し,教師なし証拠抽出法(U3E)を提案する。 U3Eは文書中の文レベルの特徴消去後の変化を入力として、人間の記憶低下に起因する問題解決能力の低下をシミュレートする。 原文のセマンティクスを十分に理解した上で選択を行うために,この入力変化に対して最適なメモリモデルを迅速に選択するためのメトリクスを提案する。 U3Eと典型的なエビデンス抽出法を比較し,そのエビデンス抽出における有効性を検討するため,異なるデータセットで実験を行った。 実験の結果、U3Eは単純だが有効であり、証拠をより正確に抽出するだけでなく、モデルの性能も大幅に向上した。

More tasks in Machine Reading Comprehension(MRC) require, in addition to answer prediction, the extraction of evidence sentences that support the answer. However, the annotation of supporting evidence sentences is usually time-consuming and labor-intensive. In this paper, to address this issue and considering that most of the existing extraction methods are semi-supervised, we propose an unsupervised evidence extraction method (U3E). U3E takes the changes after sentence-level feature erasure in the document as input, simulating the decline in problem-solving ability caused by human memory decline. In order to make selections on the basis of fully understanding the semantics of the original text, we also propose metrics to quickly select the optimal memory model for this input changes. To compare U3E with typical evidence extraction methods and investigate its effectiveness in evidence extraction, we conduct experiments on different datasets. Experimental results show that U3E is simple but effective, not only extracting evidence more accurately, but also significantly improving model performance.
翻訳日:2022-10-07 16:18:00 公開日:2022-10-06
# 医療会話における機能セクションの学習:反復的擬似ラベルとヒューマン・イン・ザ・ループアプローチ

Learning functional sections in medical conversations: iterative pseudo-labeling and human-in-the-loop approach ( http://arxiv.org/abs/2210.02658v1 )

ライセンス: Link先を確認
Mengqian Wang, Ilya Valmianski, Xavier Amatriain, Anitha Kannan(参考訳) 患者と医療専門家の医療会話は、「歴史の取り方」「要約」「教育」「医療計画」など、暗黙的な機能的部分を持っている。 本研究では,これらのセクションを自動的に抽出することに興味がある。 直接的なアプローチでは、このタスクのために大量の専門家のアノテーションを収集する必要があります。 本稿では,大量のアノテーションを必要とせず,医学的対話を機能的セクションに分類する学習問題に取り組む手法を提案する。 提案手法は擬似ラベルとHuman-in-the-loopを組み合わせる。 まず,対話型のターンレベル擬似ラベルを生成し,トランスフォーマティブベースのモデルを訓練し,個々の文に適用して雑音文レベルラベルを作成する。 第2に、クラスタベースのHuman-in-the-loopアプローチを用いて文レベルラベルを反復的に洗練する。 各イテレーションには、わずか数十のアノテーションによる決定しか必要ありません。 100の対話のエキスパートによるデータセットで結果を評価し、モデルが69.5%の精度で始まりながら、反復的に82.5%まで改善できることを確認した。 この論文で説明されているすべての実験に使用されたコードは、以下のとおりである。

Medical conversations between patients and medical professionals have implicit functional sections, such as "history taking", "summarization", "education", and "care plan." In this work, we are interested in learning to automatically extract these sections. A direct approach would require collecting large amounts of expert annotations for this task, which is inherently costly due to the contextual inter-and-intra variability between these sections. This paper presents an approach that tackles the problem of learning to classify medical dialogue into functional sections without requiring a large number of annotations. Our approach combines pseudo-labeling and human-in-the-loop. First, we bootstrap using weak supervision with pseudo-labeling to generate dialogue turn-level pseudo-labels and train a transformer-based model, which is then applied to individual sentences to create noisy sentence-level labels. Second, we iteratively refine sentence-level labels using a cluster-based human-in-the-loop approach. Each iteration requires only a few dozen annotator decisions. We evaluate the results on an expert-annotated dataset of 100 dialogues and find that while our models start with 69.5% accuracy, we can iteratively improve it to 82.5%. The code used to perform all experiments described in this paper can be found here: https://github.com/curai/curai-research/functional-sections.
翻訳日:2022-10-07 16:17:42 公開日:2022-10-06
# 意図分類とスロット充填としての説明可能な乱用検出

Explainable Abuse Detection as Intent Classification and Slot Filling ( http://arxiv.org/abs/2210.02659v1 )

ライセンス: Link先を確認
Agostina Calabrese, Bj\"orn Ross, Mirella Lapata(参考訳) ソーシャルメディアユーザーに安全なオンライン体験を提供するためには、有害な投稿を検出し、プラットフォームモデレーターに即座に警告するシステムが必要である。 一貫性のあるポリシーの施行を保証するため、モデレーターには詳細なガイドラインが提供される。 対照的に、最先端のモデルの多くはラベル付き例から何が悪用であるかを学び、その結果、信頼できないグループ識別子の存在など、散発的な手がかりに基づく予測を行う。 本研究では,データのみを検査することで,どの現象が悪用に影響を及ぼすかを,システムが確実に学習できるという非現実的な期待を放棄する,政策意識による悪用検出の概念を導入する。 我々は,モデレーターが強制しようとする方針を,意図とスロットの集合に分割することで,機械にやさしく表現することを提案する。 このようなスロットで3,535の英語投稿のデータセットを収集して注釈付けし、意図分類とスロット充填のアーキテクチャが乱用検出にどのように役立つかを示しながら、モデル決定の根拠を提供する。

To proactively offer social media users a safe online experience, there is a need for systems that can detect harmful posts and promptly alert platform moderators. In order to guarantee the enforcement of a consistent policy, moderators are provided with detailed guidelines. In contrast, most state-of-the-art models learn what abuse is from labelled examples and as a result base their predictions on spurious cues, such as the presence of group identifiers, which can be unreliable. In this work we introduce the concept of policy-aware abuse detection, abandoning the unrealistic expectation that systems can reliably learn which phenomena constitute abuse from inspecting the data alone. We propose a machine-friendly representation of the policy that moderators wish to enforce, by breaking it down into a collection of intents and slots. We collect and annotate a dataset of 3,535 English posts with such slots, and show how architectures for intent classification and slot filling can be used for abuse detection, while providing a rationale for model decisions.
翻訳日:2022-10-07 16:17:21 公開日:2022-10-06
# おばあちゃん サンプルは400個だけ! フィリピンの綴り正規化におけるn-gramルール自動生成の有効性の再検討

Look Ma, Only 400 Samples! Revisiting the Effectiveness of Automatic N-Gram Rule Generation for Spelling Normalization in Filipino ( http://arxiv.org/abs/2210.02675v1 )

ライセンス: Link先を確認
Lorenzo Jaime Yu Flores(参考訳) オンラインで8475万人のフィリピン人がいるため、オンラインテキストを処理するモデルがフィリピンのNLPアプリケーションの開発に不可欠である。 これにより、下流処理においてスペル補正が重要な前処理ステップとなる。 しかし、データの欠如は、このタスクに言語モデルの使用を妨げている。 本稿では,N-Gram + Damerau Levenshtein距離モデルを提案する。 我々は300のサンプルでモデルをトレーニングし、限られたトレーニングデータにもかかわらず、優れた性能を発揮し、精度と編集距離の点で他のディープラーニングアプローチよりも優れていることを示す。 さらに,(1) モデルでは計算能力が少なく,(2) 列車の運転時間が少なく,(2) 列車の再訓練が可能で,(3) は容易に解釈可能であり,直接トラブルシューティングが可能であり,データの入手不能な環境でのより複雑なディープラーニングモデルに対する従来のアプローチの成功を強調している。

With 84.75 million Filipinos online, the ability for models to process online text is crucial for developing Filipino NLP applications. To this end, spelling correction is a crucial preprocessing step for downstream processing. However, the lack of data prevents the use of language models for this task. In this paper, we propose an N-Gram + Damerau Levenshtein distance model with automatic rule extraction. We train the model on 300 samples, and show that despite limited training data, it achieves good performance and outperforms other deep learning approaches in terms of accuracy and edit distance. Moreover, the model (1) requires little compute power, (2) trains in little time, thus allowing for retraining, and (3) is easily interpretable, allowing for direct troubleshooting, highlighting the success of traditional approaches over more complex deep learning models in settings where data is unavailable.
翻訳日:2022-10-07 16:17:03 公開日:2022-10-06
# ニューラルネットワークによる算数学習の指導

Teaching Neural Module Networks to Do Arithmetic ( http://arxiv.org/abs/2210.02703v1 )

ライセンス: Link先を確認
Jiayi Chen and Xiao-Yu Guo and Yuan-Fang Li and Gholamreza Haffari(参考訳) 原文上の多段階多型推論を必要とする複雑な質問への回答は,特に数値推論を行う場合には困難である。 Neural Module Networks(NMNs)はプログラマ-解釈フレームワークに従い、異なる推論スキルを学ぶためにトレーニング可能なモジュールを設計する。 しかし、NMNは推論能力が限られており、数値推論能力がない。 NMN をアップグレードします。 (a) その通訳と複雑な質問とのギャップを埋めること。 (b)数に対する数値推論を行う加算及び減算モジュールの導入。 DROPのサブセットでは,提案手法によりNMNの数値推論能力は17.7%向上し,従来の最先端モデルよりも大幅に向上した。

Answering complex questions that require multi-step multi-type reasoning over raw text is challenging, especially when conducting numerical reasoning. Neural Module Networks(NMNs), follow the programmer-interpreter framework and design trainable modules to learn different reasoning skills. However, NMNs only have limited reasoning abilities, and lack numerical reasoning capability. We up-grade NMNs by: (a) bridging the gap between its interpreter and the complex questions; (b) introducing addition and subtraction modules that perform numerical reasoning over numbers. On a subset of DROP, experimental results show that our proposed methods enhance NMNs' numerical reasoning skills by 17.7% improvement of F1 score and significantly outperform previous state-of-the-art models.
翻訳日:2022-10-07 16:16:47 公開日:2022-10-06
# 大規模事前学習モデルによるタスク固有論理則の蒸留

Distilling Task-specific Logical Rules from Large Pre-trained Models ( http://arxiv.org/abs/2210.02768v1 )

ライセンス: Link先を確認
Tao Chen, Luxin Liu, Xuepeng Jia, Baoliang Cui, Haihong Tang, Siliang Tang(参考訳) 論理規則は、転送可能かつ説明可能であり、名前付きエンティティタグ付けのような多くの下流タスクの弱い教師付き信号として広く使われている。 ルールを書く人の労力を減らすために、以前の研究者はいくつかのシードルールから論理ルールを自動的に学習する反復的なアプローチを採用した。 しかし、より多くのシードルールを取得することは、重いコストで追加の人間のアノテーションによってのみ達成できる。 シードルールのサイズと品質によって制限され、以前のシステムのモデル性能は制限される。 本稿では,大規模な事前学習モデルからタスク固有の論理ルールを抽出する新しいフレームワークSTREAMを開発する。 具体的には、最近のプロンプトベースの言語モデルを知識エキスパートとして借用し、中間的な役割として機能する高品質なインスタンスプールを形成した上で、専門家にタスクに合うように教え、タスク固有の論理ルールを学習し続けます。 3つのパブリックなエンティティタグ付けベンチマークの実験は、提案フレームワークの有効性を実証している。 いくつかの事前定義されたプロンプトテンプレートにより,従来の最先端手法よりも大幅に改善されている。

Logical rules, both transferable and explainable, are widely used as weakly supervised signals for many downstream tasks such as named entity tagging. To reduce the human effort of writing rules, previous researchers adopt an iterative approach to automatically learn logical rules from several seed rules. However, obtaining more seed rules can only be accomplished by extra human annotation with heavy costs. Limited by the size and quality of the seed rules, the model performance of previous systems is bounded. In this paper, we develop a novel framework STREAM to distill task-specific logical rules from large pre-trained models. Specifically, we borrow recent prompt-based language models as the knowledge expert to yield initial seed rules, and based on the formed high-quality instance pool that acts as an intermediary role, we keep teaching the expert to fit our task and learning task-specific logical rules. Experiments on three public named entity tagging benchmarks demonstrate the effectiveness of our proposed framework. With several predefined prompt templates, our system has gained significant improvements over previous state-of-the-art methods.
翻訳日:2022-10-07 16:16:35 公開日:2022-10-06
# セグメンテーション・地域抽出・分類パイプラインを用いたCOVID-19検出

COVID-19 Detection Using Segmentation, Region Extraction and Classification Pipeline ( http://arxiv.org/abs/2210.02992v1 )

ライセンス: Link先を確認
Kenan Morani(参考訳) 目的 この研究の主な目的は、CT画像の大規模かつ挑戦的なデータベースから、COVID-19検出のためのパイプラインを提案することである。 提案パイプラインは、セグメンテーション部と、関心領域抽出部と、分類部とを含む。 メソッド セグメンテーションで使われる方法論は、UNetベースのセグメンテーションと同様に伝統的なセグメンテーションメソッドである。 分類部では、最終診断決定のために畳み込みニューラルネットワーク(CNN)が使用された。 結果 セグメンテーション部では, 提案したセグメンテーション法は, 公開可能なデータセット上で高いダイススコアを示す。 分類部では,COV19-CT-DBデータセットの検証分割に対して高い精度を示し,高い精度,リコール,マクロF1スコアを示した。 分類結果は、以前の研究や同じデータセットで行った他の研究と比較された。 結論 本稿では,CT画像による新型コロナウイルスの検出と診断に臨床応用の可能性のある,効率的なパイプラインを提案する。 コードはgithubのhttps://github.com/idu-cvlab/cov19d_3rdにある。

Purpose The main purpose in this study is to propose a pipeline for COVID-19 detection from a big and challenging database of Computed Tomography (CT) images. The proposed pipeline includes a segmentation part, a region of interest extraction part, and a classifier part. Methods The methodology used in the segmentation part is traditional segmentation methods as well as UNet based segmentation. In the classification part a Convolutional Neural Network (CNN) was used to take the final diagnosis decisions. Results In the segmentation part, the proposed segmentation methods show high dice scores on a publicly vailable dataset. In the classification part, the results show high accuracy on the validation partition of COV19-CT-DB dataset as well as higher precision, recall, and macro F1 score. The classification results were compared to our previous works other studies as well as on the same dataset. Conclusions The improved work in this paper proposes efficient pipeline with a potential of having clinical usage for COVID-19 detection and diagnosis via CT images. The code is on github at https://github.com/IDU-CVLab/COV19D_3rd
翻訳日:2022-10-07 16:10:36 公開日:2022-10-06
# X線画像からの胸部疾患分類のための解剖学的事前確率マップを用いた新しい注意機構

A Novel Attention Mechanism Using Anatomical Prior Probability Maps for Thoracic Disease Classification from X-Ray Images ( http://arxiv.org/abs/2210.02998v1 )

ライセンス: Link先を確認
Md. Iqbal Hossain, S. M. Jawwad Hossain, Mohammad Zunaed and Taufiq Hasan(参考訳) 医療画像に基づくコンピュータ支援疾患診断と予後は急速に発展している分野である。 多くの畳み込みニューラルネットワーク(CNN)アーキテクチャは、胸部X線画像から疾患分類と局所化の研究者によって開発されている。 胸部疾患の病変は、特定の解剖学的領域において他の部位よりも多く発生することが知られている。 この知見に基づいて,胸部X線画像の特定の領域における疾患発生確率を示す解剖学的先行確率をまず,疾患依存性の空間確率として推定する。 次に, 深層畳み込みネットワークから生成された特徴マップに注意を向けるために, 推定解剖学的事前情報と自動抽出された胸部関心領域(roi)マスク情報を組み合わせた新しい注意に基づく分類モデルを開発した。 提案手法は, 様々な自己追跡機構を用いた先行研究とは異なり, 抽出された胸部roiマスクと確率的解剖学的事前情報を併用し, 異なる疾患に対する関心領域を選択し, 注意を喚起する。 提案手法はNIH ChestX-ray14データセットの疾患分類において,既存の最先端手法と比較して,ROC曲線(AUC)0.8427以下の領域に到達しながら優れた性能を示す。 疾患の局所化に関して,本手法は最先端手法と比較して競合性能を示し,IoU(Intersection over Union)閾値0.3の精度で61%の精度を達成した。 提案手法は, 病変発生確率が特定の解剖学的部位に依存する他の医用画像に基づく疾患分類および局所化タスクにも一般化することができる。

Computer-aided disease diagnosis and prognosis based on medical images is a rapidly emerging field. Many Convolutional Neural Network (CNN) architectures have been developed by researchers for disease classification and localization from chest X-ray images. It is known that different thoracic disease lesions are more likely to occur in specific anatomical regions compared to others. Based on this knowledge, we first estimate a disease-dependent spatial probability, i.e., an anatomical prior, that indicates the probability of occurrence of a disease in a specific region in a chest X-ray image. Next, we develop a novel attention-based classification model that combines information from the estimated anatomical prior and automatically extracted chest region of interest (ROI) masks to provide attention to the feature maps generated from a deep convolution network. Unlike previous works that utilize various self-attention mechanisms, the proposed method leverages the extracted chest ROI masks along with the probabilistic anatomical prior information, which selects the region of interest for different diseases to provide attention. The proposed method shows superior performance in disease classification on the NIH ChestX-ray14 dataset compared to existing state-of-the-art methods while reaching an area under the ROC curve (AUC) of 0.8427. Regarding disease localization, the proposed method shows competitive performance compared to state-of-the-art methods, achieving an accuracy of 61% with an Intersection over Union (IoU) threshold of 0.3. The proposed method can also be generalized to other medical image-based disease classification and localization tasks where the probability of occurrence of the lesion is dependent on specific anatomical sites.
翻訳日:2022-10-07 16:10:23 公開日:2022-10-06
# XDGAN:2次元空間におけるマルチモーダル3次元形状生成

XDGAN: Multi-Modal 3D Shape Generation in 2D Space ( http://arxiv.org/abs/2210.03007v1 )

ライセンス: Link先を確認
Hassan Abu Alhaija, Alara Dirik, Andr\'e Kn\"orig, Sanja Fidler, Maria Shugrina(参考訳) 2d画像生成モデルは最近、2d畳み込みアーキテクチャの効率により、品質、解像度、速度が大幅に向上している。 しかし、現在の3D表現のほとんどはカスタムネットワークコンポーネントに依存しているため、この進歩を3Dドメインに拡張することは困難である。 2次元画像生成モデルを直接活用して,代わりに3次元形状を生成することは可能か? そこで本研究では,XDGANを提案する。XDGANは2次元画像GANアーキテクチャを3次元オブジェクト形状の生成に適用し,カラーテクスチャや正規表現などの表面特性を付加する手法である。 具体的には,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。 生成された幾何画像は素早く3dメッシュに変換し、リアルタイムの3dオブジェクト合成、可視化、インタラクティブな編集を可能にする。 さらに、標準の2dアーキテクチャを使用することで、3d領域にさらに2dの進歩をもたらすことができる。 近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。

Generative models for 2D images has recently seen tremendous progress in quality, resolution and speed as a result of the efficiency of 2D convolutional architectures. However it is difficult to extend this progress into the 3D domain since most current 3D representations rely on custom network components. This paper addresses a central question: Is it possible to directly leverage 2D image generative models to generate 3D shapes instead? To answer this, we propose XDGAN, an effective and fast method for applying 2D image GAN architectures to the generation of 3D object geometry combined with additional surface attributes, like color textures and normals. Specifically, we propose a novel method to convert 3D shapes into compact 1-channel geometry images and leverage StyleGAN3 and image-to-image translation networks to generate 3D objects in 2D space. The generated geometry images are quick to convert to 3D meshes, enabling real-time 3D object synthesis, visualization and interactive editing. Moreover, the use of standard 2D architectures can help bring more 2D advances into the 3D realm. We show both quantitatively and qualitatively that our method is highly effective at various tasks such as 3D shape generation, single view reconstruction and shape manipulation, while being significantly faster and more flexible compared to recent 3D generative models.
翻訳日:2022-10-07 16:09:55 公開日:2022-10-06
# リアルタイムオープンセットシーン理解のための特徴リアリスティックニューラルフュージョン

Feature-Realistic Neural Fusion for Real-Time, Open Set Scene Understanding ( http://arxiv.org/abs/2210.03043v1 )

ライセンス: Link先を確認
Kirill Mazur, Edgar Sucar and Andrew J. Davison(参考訳) ロボティクスの一般的なシーン理解には柔軟な意味表現が必要であり、トレーニング時に知られていない可能性のある新しいオブジェクトや構造を識別、分割、グループ化することができる。 本稿では,標準的な事前学習ネットワークから,リアルタイムSLAMにおける高効率な3次元幾何学的ニューラルネットワーク表現に一般化したアルゴリズムを提案する。 融合した3D特徴写像は、ニューラルネットワークの幾何表現のコヒーレンスを継承する。 つまり、実行時に対話するわずかな量の人間のラベルによって、オブジェクトやオブジェクトの一部でさえ、オープンセットでロバストかつ正確にセグメンテーションすることができる。

General scene understanding for robotics requires flexible semantic representation, so that novel objects and structures which may not have been known at training time can be identified, segmented and grouped. We present an algorithm which fuses general learned features from a standard pre-trained network into a highly efficient 3D geometric neural field representation during real-time SLAM. The fused 3D feature maps inherit the coherence of the neural field's geometry representation. This means that tiny amounts of human labelling interacting at runtime enable objects or even parts of objects to be robustly and accurately segmented in an open set manner.
翻訳日:2022-10-07 16:09:32 公開日:2022-10-06
# Masked Visual Pre-Trainingを用いた実世界ロボット学習

Real-World Robot Learning with Masked Visual Pre-training ( http://arxiv.org/abs/2210.03109v1 )

ライセンス: Link先を確認
Ilija Radosavovic, Tete Xiao, Stephen James, Pieter Abbeel, Jitendra Malik, Trevor Darrell(参考訳) 本研究では,実世界のロボット作業における多種多様な映像の自己教師付き視覚事前学習について検討する。 以前の作業と同様に、視覚表現はマスク付きオートエンコーダ(MAE)を介して事前訓練され、凍結され、学習可能な制御モジュールに渡される。 従来の作業とは異なり、トレーニング済みの表現は、現実世界のロボットタスクや実施形態で有効であることを示す。 当社のエンコーダは,クリップ(最大75%),イメージネット事前トレーニング(最大81%),スクラッチ(最大81%)を一貫して上回っています。 最後に,インターネットおよびエゴセントリックビデオから450万画像の膨大なコレクションに対して,307mパラメータビジョントランスフォーマーをトレーニングし,ロボット学習のための視覚的事前トレーニングのメリットを明確に示す。

In this work, we explore self-supervised visual pre-training on images from diverse, in-the-wild videos for real-world robotic tasks. Like prior work, our visual representations are pre-trained via a masked autoencoder (MAE), frozen, and then passed into a learnable control module. Unlike prior work, we show that the pre-trained representations are effective across a range of real-world robotic tasks and embodiments. We find that our encoder consistently outperforms CLIP (up to 75%), supervised ImageNet pre-training (up to 81%), and training from scratch (up to 81%). Finally, we train a 307M parameter vision transformer on a massive collection of 4.5M images from the Internet and egocentric videos, and demonstrate clearly the benefits of scaling visual pre-training for robot learning.
翻訳日:2022-10-07 16:09:24 公開日:2022-10-06
# 深層生成モデルのコンテンツベース検索

Content-Based Search for Deep Generative Models ( http://arxiv.org/abs/2210.03116v1 )

ライセンス: Link先を確認
Daohan Lu, Sheng-Yu Wang, Nupur Kumari, Rohan Agarwal, David Bau, Jun-Yan Zhu(参考訳) 事前訓練された生成モデルの増加により、ユーザーが存在する全てのモデルを完全に認識することは不可能になった。 このニーズに対処するために、クエリと大量の生成モデルが与えられたら、クエリに最も合うモデルを見つけ出すという、コンテンツベースのモデルサーチのタスクを紹介します。 各生成モデルは画像の分布を生成するため、与えられたモデルに対してクエリマッチを生成する確率を最大化する最適化として探索問題を定式化する。 本稿では,クエリが画像,スケッチ,テキスト記述,生成モデル,あるいは上記の組み合わせである場合に,この問題を抽出できるように近似を開発する。 生成モデルのセットよりも精度と速度の両面で本手法をベンチマークする。 本モデル検索は,画像編集と再構成,少数ショット転送学習,潜在空間補間に適したモデルを検索できることを実証する。 最後に、検索アルゴリズムをオンライン生成モデル共有プラットフォームhttps://modelverse.cs.cmu.eduにデプロイします。

The growing proliferation of pretrained generative models has made it infeasible for a user to be fully cognizant of every model in existence. To address this need, we introduce the task of content-based model search: given a query and a large set of generative models, find the models that best match the query. Because each generative model produces a distribution of images, we formulate the search problem as an optimization to maximize the probability of generating a query match given a model. We develop approximations to make this problem tractable when the query is an image, a sketch, a text description, another generative model, or a combination of the above. We benchmark our method in both accuracy and speed over a set of generative models. We demonstrate that our model search retrieves suitable models for image editing and reconstruction, few-shot transfer learning, and latent space interpolation. Finally, we deploy our search algorithm to our online generative model-sharing platform at https://modelverse.cs.cmu.edu.
翻訳日:2022-10-07 16:09:07 公開日:2022-10-06
# バックプレッシャと強化学習を用いたリアプノフ関数整合適応型ネットワーク信号制御

Lyapunov Function Consistent Adaptive Network Signal Control with Back Pressure and Reinforcement Learning ( http://arxiv.org/abs/2210.02612v1 )

ライセンス: Link先を確認
Chaolun Ma, Bruce Wang, Zihao Li, Ahmadreza Mahmoudzadeh, Yunlong Zhang(参考訳) 本研究では,ネットワーク交通信号制御問題について検討する。 リアプノフ制御関数を用いて、交叉レーンフローによって重み付けられた差分キュー長に等しいバックプレッシャー法を導出する。 リャプノフ制御理論(lyapunov control theory)は、交差信号制御の現在の理論のいくつかを統合するプラットフォームである。 さらに, この定理を用いて, 流れ系および他の圧力系信号制御アルゴリズムを導出する。 例えば、DORAS(Dynamic, Optimal, Real-time Algorithm for Signals)アルゴリズムは、リアプノフ関数をキュー長の和として定義することで導出することができる。 この研究は、後圧を強化学習(RL)に基づくネットワーク信号制御(Double-DQN)の報酬として利用し、そのエージェントは二重Qネットワーク(Double-DQN)で訓練される。 提案手法は, 旅客交通流と貨物交通の混合流における従来のRL法とRL法を比較した。 この数値実験は,低,中,高トラフィックの3つの交通需要シナリオの下で,1つの廊下とローカルグリッドネットワーク上で実施される。 数値シミュレーションにより,提案手法がネットワーク上の平均車両待ち時間において他のアルゴリズムよりも優れていることを示す。

This research studies the network traffic signal control problem. It uses the Lyapunov control function to derive the back pressure method, which is equal to differential queue lengths weighted by intersection lane flows. Lyapunov control theory is a platform that unifies several current theories for intersection signal control. We further use the theorem to derive the flow-based and other pressure-based signal control algorithms. For example, the Dynamic, Optimal, Real-time Algorithm for Signals (DORAS) algorithm may be derived by defining the Lyapunov function as the sum of queue length. The study then utilizes the back pressure as a reward in the reinforcement learning (RL) based network signal control, whose agent is trained with double Deep Q-Network (Double-DQN). The proposed algorithm is compared with several traditional and RL-based methods under passenger traffic flow and mixed flow with freight traffic, respectively. The numerical tests are conducted on a single corridor and on a local grid network under three traffic demand scenarios of low, medium, and heavy traffic, respectively. The numerical simulation demonstrates that the proposed algorithm outperforms the others in terms of the average vehicle waiting time on the network.
翻訳日:2022-10-07 16:08:33 公開日:2022-10-06
# 無限次元ベイズ逆問題によるニューラル作用素の残留誤差補正

Residual-based error correction for neural operator accelerated infinite-dimensional Bayesian inverse problems ( http://arxiv.org/abs/2210.03008v1 )

ライセンス: Link先を確認
Lianghao Cao, Thomas O'Leary-Roseberry, Prashant K. Jha, J. Tinsley Oden, Omar Ghattas(参考訳) 関数空間間の非線形写像のニューラルネットワーク表現であるニューラル演算子を用いて,非線形パラメトリック偏微分方程式(pdes)をモデルとした無限次元ベイズ逆問題(bips)を高速化する。 近年,PDEが定義するパラメータ・ツー・ソリューションマップを,限られたパラメータ・サンプル数でPDEのトレーニングデータ・ソリューションとして活用する能力に注目が集まっている。 後部評価に必要な多くのPDE解が、訓練されたニューラル演算子の評価に置き換えられると、BIPの計算コストを大幅に削減できる。 しかし、トレーニング中のニューラル演算子の近似誤差を減らして得られるBIP解の誤差を低減することは困難であり、信頼できない。 ニューラル演算子の近似誤差に特定のBIPを悪条件にすることができることを示し、トレーニングにおいて到達不能な精度要件を導出する先験誤差境界結果を提供する。 ニューラル演算子をbipsに確実に展開するためには,pde残差に基づく線形変分問題を解くことにより,訓練されたニューラルオペレータの予測を補正する,ニューラルオペレータの性能向上戦略を検討する。 モデルが高非線形PDEによって制御される場合, 後続サンプリングの計算速度をかなり向上させながら, 誤差補正の訓練されたニューラル演算子が近似誤差を2次的に低減できることを示す。 この戦略は、非線形反応拡散問題と超弾性材料の変形に基づくBIPの2つの数値例に適用する。 トレーニングされたニューラル演算子を用いて生成された2つのBIPの後方表現は、誤り訂正によって大きく、一貫して拡張されていることを示す。

We explore using neural operators, or neural network representations of nonlinear maps between function spaces, to accelerate infinite-dimensional Bayesian inverse problems (BIPs) with models governed by nonlinear parametric partial differential equations (PDEs). Neural operators have gained significant attention in recent years for their ability to approximate the parameter-to-solution maps defined by PDEs using as training data solutions of PDEs at a limited number of parameter samples. The computational cost of BIPs can be drastically reduced if the large number of PDE solves required for posterior characterization are replaced with evaluations of trained neural operators. However, reducing error in the resulting BIP solutions via reducing the approximation error of the neural operators in training can be challenging and unreliable. We provide an a priori error bound result that implies certain BIPs can be ill-conditioned to the approximation error of neural operators, thus leading to inaccessible accuracy requirements in training. To reliably deploy neural operators in BIPs, we consider a strategy for enhancing the performance of neural operators, which is to correct the prediction of a trained neural operator by solving a linear variational problem based on the PDE residual. We show that a trained neural operator with error correction can achieve a quadratic reduction of its approximation error, all while retaining substantial computational speedups of posterior sampling when models are governed by highly nonlinear PDEs. The strategy is applied to two numerical examples of BIPs based on a nonlinear reaction--diffusion problem and deformation of hyperelastic materials. We demonstrate that posterior representations of the two BIPs produced using trained neural operators are greatly and consistently enhanced by error correction.
翻訳日:2022-10-07 16:08:11 公開日:2022-10-06
# 格子細胞のリカレントネットワークにおけるリー群表現の等方性

Conformal Isometry of Lie Group Representation in Recurrent Network of Grid Cells ( http://arxiv.org/abs/2210.02684v1 )

ライセンス: Link先を確認
Dehong Xu, Ruiqi Gao, Wen-Hao Zhang, Xue-Xin Wei, Ying Nian Wu(参考訳) 脳の内側角膜皮質(MEC)におけるグリッド細胞集団の活性は、動物の自己位置のベクトル表現を形成する。 リカレントニューラルネットワークは、入力速度に基づいてベクトルを変換し、グリッドセルが経路統合を行えるようにすることで、グリッドセルの特性を説明するために開発された。 本稿では,再帰ネットワークモデルを用いてグリッドセルの代数的,幾何学的,位相的性質について検討する。 代数的には、自己運動の表現として再帰変換のリー群とリー代数を研究する。 幾何学的には、神経空間内のベクトルの局所的変位が2次元の物理的空間におけるエージェントの局所的変位に比例する再帰的ネットワークのリー群表現の共形等長法について研究する。 次に、グリッドセルの連続的アトラクタニューラルネットワークの基盤となる、単純な非線形リカレントモデルに注目する。 数値実験により,共形アイソメトリーは格子細胞の応答マップのヘキサゴナル周期パターンを導出し,正確な経路積分が可能であることが示された。

The activity of the grid cell population in the medial entorhinal cortex (MEC) of the brain forms a vector representation of the self-position of the animal. Recurrent neural networks have been developed to explain the properties of the grid cells by transforming the vector based on the input velocity, so that the grid cells can perform path integration. In this paper, we investigate the algebraic, geometric, and topological properties of grid cells using recurrent network models. Algebraically, we study the Lie group and Lie algebra of the recurrent transformation as a representation of self-motion. Geometrically, we study the conformal isometry of the Lie group representation of the recurrent network where the local displacement of the vector in the neural space is proportional to the local displacement of the agent in the 2D physical space. We then focus on a simple non-linear recurrent model that underlies the continuous attractor neural networks of grid cells. Our numerical experiments show that conformal isometry leads to hexagon periodic patterns of the response maps of grid cells and our model is capable of accurate path integration.
翻訳日:2022-10-07 16:00:30 公開日:2022-10-06
# プログラム的弱監督におけるラベルアグリゲーションのインスタンス機能活用

Leveraging Instance Features for Label Aggregation in Programmatic Weak Supervision ( http://arxiv.org/abs/2210.02724v1 )

ライセンス: Link先を確認
Jieyu Zhang, Linxin Song, Alexander Ratner(参考訳) Programmatic Weak Supervision (PWS) はトレーニングラベルを効率的に合成するためのパラダイムとして広く普及している。 PWSのコアコンポーネントはラベルモデルであり、ラベル関数(LF)として抽象化された複数のノイズ管理ソースの出力を集約することで、真のラベルを推論する。 既存の統計ラベルモデルは通常、lfの出力のみに依存し、基礎となる生成過程をモデル化する際にインスタンスの特徴を無視する。 本稿では,提案するFABLEを用いて,インスタンスの特徴を統計的ラベルモデルに組み込もうとする。 特に、相関のグローバルパターンに対応するベイズラベルモデルの混合物の上に構築され、混合成分の係数はインスタンス特徴に基づくガウス過程分類器によって予測される。 ガウス過程とベイズラベルモデルとの非共役問題に対処するために,補助変数に基づく変分推論アルゴリズムを採用する。 11のベンチマークデータセットに対する大規模な比較では、FABLEは9つのベースラインで最高の平均パフォーマンスを達成している。

Programmatic Weak Supervision (PWS) has emerged as a widespread paradigm to synthesize training labels efficiently. The core component of PWS is the label model, which infers true labels by aggregating the outputs of multiple noisy supervision sources abstracted as labeling functions (LFs). Existing statistical label models typically rely only on the outputs of LF, ignoring the instance features when modeling the underlying generative process. In this paper, we attempt to incorporate the instance features into a statistical label model via the proposed FABLE. In particular, it is built on a mixture of Bayesian label models, each corresponding to a global pattern of correlation, and the coefficients of the mixture components are predicted by a Gaussian Process classifier based on instance features. We adopt an auxiliary variable-based variational inference algorithm to tackle the non-conjugate issue between the Gaussian Process and Bayesian label models. Extensive empirical comparison on eleven benchmark datasets sees FABLE achieving the highest averaged performance across nine baselines.
翻訳日:2022-10-07 16:00:13 公開日:2022-10-06
# データ深度を用いた異常検出:多変量の場合

Anomaly detection using data depth: multivariate case ( http://arxiv.org/abs/2210.02851v1 )

ライセンス: Link先を確認
Pavlo Mozharovskyi(参考訳) 異常検出は、異常な振る舞いを示す観察を識別することを目的とした、機械学習とデータ分析の分野である。 測定エラー、病気発生、厳しい天候、生産品質のデフォルト(item)、または故障した機器、金融詐欺または危機事象であれば、そのオンタイム識別、隔離および説明は、ほとんどあらゆる産業および科学分野において重要なタスクとなる。 堅牢な順序付けを提供することにより、データセットに対する空間の任意の点の属性を測定する統計的関数は、異常の検出に特に有用なツールとなる。 その理論的性質で知られているように、データ深度は過去10年、特に近年でかなりの計算発展を遂げており、現代のデータ分析や機械学習の課題に適用できるようになっている。 本稿では,データ深度を効率的な異常検出ツールとして検討し,多変量設定において,低い深度値の観測に異常ラベルを割り当てる。 不変性の必要性と推論可能性、深さ関数の形状、ロバスト性、計算複雑性、しきい値の選択に関する実践的な疑問について論じる。 イラストには、さまざまな設定でデータ深度の有利な振る舞いを示すユースケースが含まれている。

Anomaly detection is a branch of machine learning and data analysis which aims at identifying observations that exhibit abnormal behaviour. Be it measurement errors, disease development, severe weather, production quality default(s) (items) or failed equipment, financial frauds or crisis events, their on-time identification, isolation and explanation constitute an important task in almost any branch of industry and science. By providing a robust ordering, data depth -- statistical function that measures belongingness of any point of the space to a data set -- becomes a particularly useful tool for detection of anomalies. Already known for its theoretical properties, data depth has undergone substantial computational developments in the last decade and particularly recent years, which has made it applicable for contemporary-sized problems of data analysis and machine learning. In this article, data depth is studied as an efficient anomaly detection tool, assigning abnormality labels to observations with lower depth values, in a multivariate setting. Practical questions of necessity and reasonability of invariances and shape of the depth function, its robustness and computational complexity, choice of the threshold are discussed. Illustrations include use-cases that underline advantageous behaviour of data depth in various settings.
翻訳日:2022-10-07 15:59:56 公開日:2022-10-06
# 非凸最適化のための確率的勾配降下のスケーリング

Scaling up Stochastic Gradient Descent for Non-convex Optimisation ( http://arxiv.org/abs/2210.02882v1 )

ライセンス: Link先を確認
Saad Mohamad and Hamad Alamri and Abdelhamid Bouchachia(参考訳) 確率勾配降下(SGD)は、微分可能な目的関数を最適化するための広く採用されている反復法である。 本稿では,非凸関数や大規模データセットを含むアプリケーションにおいて,SGDをスケールアップするための新しいアプローチを提案する。 共有メモリと分散メモリの両方を使用する場合のボトルネック問題に対処する。 一般に、前者は限られた計算資源と帯域幅に縛られ、後者は通信オーバーヘッドに悩まされる。 本稿では,非同期分散とロックフリー並列性の両方に依存する分散並列化SGD(DPSGD)を提案する。 2つの戦略を統一されたフレームワークに組み込むことで、DPSGDはローカル計算と通信のトレードオフを改善することができる。 DPSGDの収束特性は、統計モデリングや機械学習などの非凸問題に対して研究される。 我々の理論解析によると、DPSGDは、コア数とワーカ数に関してスピードアップし、漸近収束率を$O(1/\sqrt{T})$が$T^{1/4}$、ワーカ数が$T^{1/2}$が$T^{1/2}$となることを保証している。 DPSGDによって達成できる潜在的な利得は、確率的変分推論問題(Latent Dirichlet Allocation)と、DPSVIとHSA2Cの2つのアルゴリズムによる深部強化学習(DRL)問題(アドバンテージ・アクター・批評家 - A2C)で実証的に実証される。 実験結果から理論的知見が得られた。 最新のDRLアルゴリズムに対して提案したDPSGDの性能について比較検討を行った。

Stochastic gradient descent (SGD) is a widely adopted iterative method for optimizing differentiable objective functions. In this paper, we propose and discuss a novel approach to scale up SGD in applications involving non-convex functions and large datasets. We address the bottleneck problem arising when using both shared and distributed memory. Typically, the former is bounded by limited computation resources and bandwidth whereas the latter suffers from communication overheads. We propose a unified distributed and parallel implementation of SGD (named DPSGD) that relies on both asynchronous distribution and lock-free parallelism. By combining two strategies into a unified framework, DPSGD is able to strike a better trade-off between local computation and communication. The convergence properties of DPSGD are studied for non-convex problems such as those arising in statistical modelling and machine learning. Our theoretical analysis shows that DPSGD leads to speed-up with respect to the number of cores and number of workers while guaranteeing an asymptotic convergence rate of $O(1/\sqrt{T})$ given that the number of cores is bounded by $T^{1/4}$ and the number of workers is bounded by $T^{1/2}$ where $T$ is the number of iterations. The potential gains that can be achieved by DPSGD are demonstrated empirically on a stochastic variational inference problem (Latent Dirichlet Allocation) and on a deep reinforcement learning (DRL) problem (advantage actor critic - A2C) resulting in two algorithms: DPSVI and HSA2C. Empirical results validate our theoretical findings. Comparative studies are conducted to show the performance of the proposed DPSGD against the state-of-the-art DRL algorithms.
翻訳日:2022-10-07 15:59:37 公開日:2022-10-06
# 多目的ベイズ最適化のための共同エントロピー探索

Joint Entropy Search for Multi-objective Bayesian Optimization ( http://arxiv.org/abs/2210.02905v1 )

ライセンス: Link先を確認
Ben Tu, Axel Gandy, Nikolas Kantas, Behrang Shafei(参考訳) 多くの現実世界の問題は多目的最適化問題(multi-objective optimization problem)と呼ばれることがある。 マルチオブジェクトベイズ最適化 (BO) は,多くのノイズのある目的関数評価に制限されるベクトル値最適化問題を解くために,効率の良い手法である。 本稿では,JES(Joint Entropy Search)と呼ばれるBOのための新しい情報理論獲得関数を提案する。 我々は,jes取得関数に対する解析的近似をいくつか提示し,バッチ設定の拡張も導入する。 本稿では,超体積とその重み付き変種の観点から,合成問題および実世界問題に対するこの新しいアプローチの有効性を示す。

Many real-world problems can be phrased as a multi-objective optimization problem, where the goal is to identify the best set of compromises between the competing objectives. Multi-objective Bayesian optimization (BO) is a sample efficient strategy that can be deployed to solve these vector-valued optimization problems where access is limited to a number of noisy objective function evaluations. In this paper, we propose a novel information-theoretic acquisition function for BO called Joint Entropy Search (JES), which considers the joint information gain for the optimal set of inputs and outputs. We present several analytical approximations to the JES acquisition function and also introduce an extension to the batch setting. We showcase the effectiveness of this new approach on a range of synthetic and real-world problems in terms of the hypervolume and its weighted variants.
翻訳日:2022-10-07 15:59:08 公開日:2022-10-06
# メタラーニング型クロスバリデーションに基づくコンフォーマル予測による集合予測子のFew-Shot校正

Few-Shot Calibration of Set Predictors via Meta-Learned Cross-Validation-Based Conformal Prediction ( http://arxiv.org/abs/2210.03067v1 )

ライセンス: Link先を確認
Sangwoo Park, Kfir M. Cohen, Osvaldo Simeone(参考訳) 従来の頻繁な学習は、不確かさを確実に定量化できない不適切な校正されたモデルを生み出すことが知られている。 ベイズ学習は校正を改善することができるが、正式な保証は正しいモデル仕様に関する限定的な仮定の下でのみ適用される。 コンフォーマル予測(CP)は、基礎となるデータ生成メカニズムにかかわらず保持されるキャリブレーション保証を備えたセット予測器の設計のための一般的なフレームワークを提供する。 しかし、訓練データに制限がある場合、CPは巨大で非形式的な予測セットを生成する傾向にある。 本稿では,集合予測を小さくすることを目的とした新しいメタラーニングソリューションを提案する。 先行研究とは異なり、提案されたメタラーニングスキームはmeta-xbと呼ばれる。 (i)より効率の低い検証ベースのCPではなく、クロスバリデーションベースのCP上に構築する。 (ii) 厳密なタスクマージの保証よりも、正式なタスク毎のキャリブレーションの保証を保持する。 最後に、メタXBは適応的な非コンフォーマルスコアに拡張され、これは経験的に示され、入力当たりの限界校正をさらに強化する。

Conventional frequentist learning is known to yield poorly calibrated models that fail to reliably quantify the uncertainty of their decisions. Bayesian learning can improve calibration, but formal guarantees apply only under restrictive assumptions about correct model specification. Conformal prediction (CP) offers a general framework for the design of set predictors with calibration guarantees that hold regardless of the underlying data generation mechanism. However, when training data are limited, CP tends to produce large, and hence uninformative, predicted sets. This paper introduces a novel meta-learning solution that aims at reducing the set prediction size. Unlike prior work, the proposed meta-learning scheme, referred to as meta-XB, (i) builds on cross-validation-based CP, rather than the less efficient validation-based CP; and (ii) preserves formal per-task calibration guarantees, rather than less stringent task-marginal guarantees. Finally, meta-XB is extended to adaptive non-conformal scores, which are shown empirically to further enhance marginal per-input calibration.
翻訳日:2022-10-07 15:58:55 公開日:2022-10-06
# テキストとオーディオの埋め込みのマッチング:言語に基づく音声検索のための移動学習戦略を探る

Matching Text and Audio Embeddings: Exploring Transfer-learning Strategies for Language-based Audio Retrieval ( http://arxiv.org/abs/2210.02833v1 )

ライセンス: Link先を確認
Benno Weck, Miguel P\'erez Fern\'andez, Holger Kirchhoff, Xavier Serra(参考訳) 本稿では,クロスモーダル (text-to-audio) 検索に用いる大規模事前学習モデルの解析を行う。 これらのモデルから抽出された埋め込みをメトリック学習フレームワークとして使用して,オーディオとテキストのマッチングペアを接続する。 浅いニューラルネットワークは埋め込みを共通の次元にマッピングする。 本システムでは,テキスト埋め込み抽出器としてRoBERTaファンデーションモデルを用いて,Language-based Audio Retrieval Task of the DCASE Challenge 2022の拡張を行った。 事前訓練されたPANNsモデルは、オーディオ埋め込みを抽出する。 モデルの一般化を図るため,オンラインプラットフォームfreesoundから収集した音声および関連雑音文の事前学習により,提案手法の性能が向上することを示す。 さらに, 本研究は, 競争検索システムの学習において, 損失関数の適切な選択と事前学習モデルの微調整が不可欠であることを示す。

We present an analysis of large-scale pretrained deep learning models used for cross-modal (text-to-audio) retrieval. We use embeddings extracted by these models in a metric learning framework to connect matching pairs of audio and text. Shallow neural networks map the embeddings to a common dimensionality. Our system, which is an extension of our submission to the Language-based Audio Retrieval Task of the DCASE Challenge 2022, employs the RoBERTa foundation model as the text embedding extractor. A pretrained PANNs model extracts the audio embeddings. To improve the generalisation of our model, we investigate how pretraining with audio and associated noisy text collected from the online platform Freesound improves the performance of our method. Furthermore, our ablation study reveals that the proper choice of the loss function and fine-tuning the pretrained models are essential in training a competitive retrieval system.
翻訳日:2022-10-07 15:58:39 公開日:2022-10-06
# データ駆動アプローチによる機械学習モデル開発

Data-driven Approaches to Surrogate Machine Learning Model Development ( http://arxiv.org/abs/2210.02631v1 )

ライセンス: Link先を確認
H. Rhys Jones, Tingting Mu and Andrei C. Popescu(参考訳) 本稿では,機械学習モデル開発における3つの確立した手法の適用例を示す。 これらの方法は、データ拡張、カスタム損失関数、転送学習である。 これらの手法は、機械学習の分野で広く使われているが、ここでは機械学習モデル開発を代理するために特に応用する。 この研究の背後にある基礎となる機械学習モデルは、イギリス原子力産業で使用される伝統的な工学モデルに取って代わることを目的としていた。 このモデルの以前の性能は、限られたトレーニングデータのため、性能の低下によって妨げられている。 ここでは,追加技術を組み合わせることで,モデル性能を大幅に改善できることを実証する。 以上の技術は,それぞれが独自の実用性を持ち,相互に組み合わさっていることを示す。 しかし,それらは転校学習操作の一部として最もよく適用されている。 この研究以前に作成された5つの事前訓練されたサロゲートモデルは、拡張データセットとカスタムロス関数でさらに訓練された。 3つのテクニックを組み合わせることで、モデルのパフォーマンスが大幅に向上しています。

We demonstrate the adaption of three established methods to the field of surrogate machine learning model development. These methods are data augmentation, custom loss functions and transfer learning. Each of these methods have seen widespread use in the field of machine learning, however, here we apply them specifically to surrogate machine learning model development. The machine learning model that forms the basis behind this work was intended to surrogate a traditional engineering model used in the UK nuclear industry. Previous performance of this model has been hampered by poor performance due to limited training data. Here, we demonstrate that through a combination of additional techniques, model performance can be significantly improved. We show that each of the aforementioned techniques have utility in their own right and in combination with one another. However, we see them best applied as part of a transfer learning operation. Five pre-trained surrogate models produced prior to this research were further trained with an augmented dataset and with our custom loss function. Through the combination of all three techniques, we see a significant improvement in model performance.
翻訳日:2022-10-07 15:53:14 公開日:2022-10-06
# 深層学習における勾配正規化の理解:効率的な有限差分計算と暗黙バイアス

Understanding Gradient Regularization in Deep Learning: Efficient Finite-Difference Computation and Implicit Bias ( http://arxiv.org/abs/2210.02720v1 )

ライセンス: Link先を確認
Ryo Karakida, Tomoumi Takase, Tomohiro Hayase, Kazuki Osawa(参考訳) グラディエント正規化(GR、Gradient regularization)は、トレーニング中のトレーニング損失の勾配規範を罰する手法である。 一部の研究では、GRはディープラーニングにおける一般化性能を改善すると報告されているが、アルゴリズムの観点からは、GRのアルゴリズムが効率よく性能を改善することにはほとんど注目されていない。 本研究では, 勾配上昇ステップと降下ステップの両方からなる特定の有限差分計算により, grの計算コストが低減することを示す。 さらに、この計算は経験的により良い一般化性能を達成する。 次に,理論上,可解モデルである対角線形ネットワークを解析し,ある問題に対してgrが望ましい暗黙的バイアスを持つことを明らかにする。 特に、有限差分grを用いた学習は、上昇ステップサイズが大きくなるにつれて、より良いミニマを選択する。 最後に、有限差分GRは、平坦なミニマを探索するための反復的な昇降ステップと降下ステップに基づく他のアルゴリズムと密接に関連していることを示す。 我々は洪水が有限差GRを暗黙的に実行することを明らかにした。 したがって、この研究はGRの実践と理論の両方における理解を広げる。

Gradient regularization (GR) is a method that penalizes the gradient norm of the training loss during training. Although some studies have reported that GR improves generalization performance in deep learning, little attention has been paid to it from the algorithmic perspective, that is, the algorithms of GR that efficiently improve performance. In this study, we first reveal that a specific finite-difference computation, composed of both gradient ascent and descent steps, reduces the computational cost for GR. In addition, this computation empirically achieves better generalization performance. Next, we theoretically analyze a solvable model, a diagonal linear network, and clarify that GR has a desirable implicit bias in a certain problem. In particular, learning with the finite-difference GR chooses better minima as the ascent step size becomes larger. Finally, we demonstrate that finite-difference GR is closely related to some other algorithms based on iterative ascent and descent steps for exploring flat minima: sharpness-aware minimization and the flooding method. We reveal that flooding performs finite-difference GR in an implicit way. Thus, this work broadens our understanding of GR in both practice and theory.
翻訳日:2022-10-07 15:53:02 公開日:2022-10-06
# 混合データにおける条件付き特徴の重要性

Conditional Feature Importance for Mixed Data ( http://arxiv.org/abs/2210.03047v1 )

ライセンス: Link先を確認
Kristin Blesch, David S. Watson, Marvin N. Wright(参考訳) 解釈可能な機械学習における特徴重要度尺度の人気にもかかわらず、これらの手法の統計的妥当性はめったに議論されていない。 統計学的観点からは、変数の共変量に対する調整前後の重要性を分析することが大きな違いである。 限界措置と条件措置の間。 私たちの作品は、ほとんど認められていないが重要な区別に注意を向け、その意味を示している。 さらに,条件付き特徴重要度テスト(CFI)では,データ要件のミスマッチによる手法適用が厳しく制限されているメソッドは少なく,実践者が厳格に制限されていることも明らかにした。 ほとんどの実世界のデータは複雑な機能依存を示し、連続データと分類データの両方(混合データ)を組み込んでいる。 どちらの性質もしばしばCFI測度によって無視される。 このギャップを埋めるために、条件付き予測インパクト(CPI)フレームワーク(arXiv:1901.09917)とシーケンシャルノックオフサンプリング(arXiv:2010.14026)を組み合わせることを提案する。 CPIは、有効なノックオフ(従って、同様の統計特性を持つ合成データを生成する)をサンプリングすることで、任意の機能依存関係を制御するCFI測定を可能にする。 逐次ノックオフは、混合データを扱うために意図的に設計されており、CPIアプローチをそのようなデータセットに拡張することができます。 我々は,多数のシミュレーションと実例を通して,提案したワークフローがI型エラーを制御し,高出力を実現し,他のCFI尺度による結果と一致していることを示す。 本研究は,混合データに対して統計的に適切な特殊手法を開発する必要性を浮き彫りにした。

Despite the popularity of feature importance measures in interpretable machine learning, the statistical adequacy of these methods is rarely discussed. From a statistical perspective, a major distinction is between analyzing a variable's importance before and after adjusting for covariates - i.e., between marginal and conditional measures. Our work draws attention to this rarely acknowledged, yet crucial distinction and showcases its implications. Further, we reveal that for testing conditional feature importance (CFI), only few methods are available and practitioners have hitherto been severely restricted in method application due to mismatching data requirements. Most real-world data exhibits complex feature dependencies and incorporates both continuous and categorical data (mixed data). Both properties are oftentimes neglected by CFI measures. To fill this gap, we propose to combine the conditional predictive impact (CPI) framework (arXiv:1901.09917) with sequential knockoff sampling (arXiv:2010.14026). The CPI enables CFI measurement that controls for any feature dependencies by sampling valid knockoffs - hence, generating synthetic data with similar statistical properties - for the data to be analyzed. Sequential knockoffs were deliberately designed to handle mixed data and thus allow us to extend the CPI approach to such datasets. We demonstrate through numerous simulations and a real-world example that our proposed workflow controls type I error, achieves high power and is in line with results given by other CFI measures, whereas marginal feature importance metrics result in misleading interpretations. Our findings highlight the necessity of developing statistically adequate, specialized methods for mixed data.
翻訳日:2022-10-07 15:52:42 公開日:2022-10-06
# 反復的視覚・言語ナビゲーション

Iterative Vision-and-Language Navigation ( http://arxiv.org/abs/2210.03087v1 )

ライセンス: Link先を確認
Jacob Krantz, Shurjo Banerjee, Wang Zhu, Jason Corso, Peter Anderson, Stefan Lee and Jesse Thomason(参考訳) 本稿では,永続環境における言語誘導エージェントの時間経過を評価するためのパラダイムである反復的視覚言語ナビゲーション(ivln)を提案する。 既存のVision-and-Language Navigation (VLN)ベンチマークは、各エピソードの開始時にエージェントのメモリを消去し、事前情報なしでコールドスタートナビゲーションを実行する機能をテストする。 しかし、展開されたロボットは同じ環境を長時間占有する。 IVLNパラダイムは、最大100の命令追従のRoom-to-Room(R2R)エピソードからなるシーンのツアーを通してメモリを維持するVLNエージェントをトレーニングし、評価することで、この格差に対処する。 室内80シーンに約400のツアーからなるir2rベンチマークを離散的かつ連続的に実施する。 高性能トランスフォーマーVLNエージェントの暗黙的メモリの拡張はIVLNには不十分であるが、マップを構築するエージェントは環境の持続性から恩恵を受け、VLNのマップ構築エージェントに新たな焦点をあてる動機となっている。

We present Iterative Vision-and-Language Navigation (IVLN), a paradigm for evaluating language-guided agents navigating in a persistent environment over time. Existing Vision-and-Language Navigation (VLN) benchmarks erase the agent's memory at the beginning of every episode, testing the ability to perform cold-start navigation with no prior information. However, deployed robots occupy the same environment for long periods of time. The IVLN paradigm addresses this disparity by training and evaluating VLN agents that maintain memory across tours of scenes that consist of up to 100 ordered instruction-following Room-to-Room (R2R) episodes, each defined by an individual language instruction and a target path. We present discrete and continuous Iterative Room-to-Room (IR2R) benchmarks comprising about 400 tours each in 80 indoor scenes. We find that extending the implicit memory of high-performing transformer VLN agents is not sufficient for IVLN, but agents that build maps can benefit from environment persistence, motivating a renewed focus on map-building agents in VLN.
翻訳日:2022-10-07 15:52:12 公開日:2022-10-06
# VLSNR:Vision-Linguistics Coordination Time Sequence-Aware News Recommendation

VLSNR:Vision-Linguistics Coordination Time Sequence-aware News Recommendation ( http://arxiv.org/abs/2210.02946v1 )

ライセンス: Link先を確認
Songhao Han (1), Wei Huang (1), Xiaotian Luan (2) ((1) Beihang University, (2) Peking University)(参考訳) ニュース表現とユーザ指向モデリングはどちらもニュースレコメンデーションに不可欠である。 既存の手法の多くはテキスト情報に基づいているが、視覚情報やユーザの動的興味を無視する。 しかし、テキストのみのコンテンツと比較して、マルチモーダルセマンティクスはユーザの時間的・長期的関心の理解を高めるのに有用である。 本研究では,視覚言語による時系列ニュースレコメンデーションを提案する。 まず、事前訓練されたマルチモーダルエンコーダを用いて、画像とテキストを同じ特徴空間に埋め込む。 そして、自己注意ネットワークを用いて時系列を学習する。 さらに,ユーザの嗜好を適切にモデル化するための注意的GRUネットワークを提案する。 最後に、クリック履歴とユーザ表現を埋め込んで、候補ニュースのランキングスコアを算出する。 さらに,大規模なマルチモーダルニュースレコメンデーションデータセットV-MINDを構築した。 実験結果から,本モデルはベースラインより優れ,独立に構築したデータセット上でSOTAを実現することがわかった。

News representation and user-oriented modeling are both essential for news recommendation. Most existing methods are based on textual information but ignore the visual information and users' dynamic interests. However, compared to textual only content, multimodal semantics is beneficial for enhancing the comprehension of users' temporal and long-lasting interests. In our work, we propose a vision-linguistics coordinate time sequence news recommendation. Firstly, a pretrained multimodal encoder is applied to embed images and texts into the same feature space. Then the self-attention network is used to learn the chronological sequence. Additionally, an attentional GRU network is proposed to model user preference in terms of time adequately. Finally, the click history and user representation are embedded to calculate the ranking scores for candidate news. Furthermore, we also construct a large scale multimodal news recommendation dataset V-MIND. Experimental results show that our model outperforms baselines and achieves SOTA on our independently constructed dataset.
翻訳日:2022-10-07 15:50:28 公開日:2022-10-06
# VIMA:マルチモーダルプロンプトによる汎用ロボット操作

VIMA: General Robot Manipulation with Multimodal Prompts ( http://arxiv.org/abs/2210.03094v1 )

ライセンス: Link先を確認
Yunfan Jiang, Agrim Gupta, Zichen Zhang, Guanzhi Wang, Yongqiang Dou, Yanjun Chen, Li Fei-Fei, Anima Anandkumar, Yuke Zhu, Linxi Fan(参考訳) プロンプトに基づく学習は自然言語処理において成功し、入力プロンプトによって指定されたタスクを実行するために単一の汎用言語モデルを指示することができる。 しかしロボティクスにおけるタスク仕様は、ワンショットデモの模倣、言語指示の追従、視覚目標の達成など、さまざまな形態で実現されている。 それらはしばしば異なるタスクと見なされ、特殊なモデルによって取り組まれる。 本研究は,多モーダルなプロンプト,テキストおよび視覚トークンのインターリーブにより,ロボット操作タスクの幅広い範囲を表現できることを示唆する。 我々は,これらのプロンプトを処理し,自己回帰的に運動行動を出力するトランスフォーマリストロボットエージェントvimaを設計した。 VIMAを訓練し評価するために,数千の手続き的に生成されるテーブルトップタスクにマルチモーダルプロンプト,600K以上の模倣学習専門トラジェクトリ,体系的一般化のための4レベル評価プロトコルを備えた新しいシミュレーションベンチマークを開発した。 VIMAは、モデルキャパシティとデータサイズの両方において、強力なスケーラビリティを実現する。 従来のSOTA法では、同じトレーニングデータから最大2.9\times$タスク成功率で最強のゼロショット一般化設定を上回ります。 10\times$のトレーニングデータでは、vimaは依然として上位のライバルのアプローチよりも2.7\times$が優れている。 私たちはhttps://vimalabs.github.ioで、すべてのコード、事前訓練されたモデル、データセット、シミュレーションベンチマークをオープンソース化しました。

Prompt-based learning has emerged as a successful paradigm in natural language processing, where a single general-purpose language model can be instructed to perform any task specified by input prompts. Yet task specification in robotics comes in various forms, such as imitating one-shot demonstrations, following language instructions, and reaching visual goals. They are often considered different tasks and tackled by specialized models. This work shows that we can express a wide spectrum of robot manipulation tasks with multimodal prompts, interleaving textual and visual tokens. We design a transformer-based generalist robot agent, VIMA, that processes these prompts and outputs motor actions autoregressively. To train and evaluate VIMA, we develop a new simulation benchmark with thousands of procedurally-generated tabletop tasks with multimodal prompts, 600K+ expert trajectories for imitation learning, and four levels of evaluation protocol for systematic generalization. VIMA achieves strong scalability in both model capacity and data size. It outperforms prior SOTA methods in the hardest zero-shot generalization setting by up to $2.9\times$ task success rate given the same training data. With $10\times$ less training data, VIMA still performs $2.7\times$ better than the top competing approach. We open-source all code, pretrained models, dataset, and simulation benchmark at https://vimalabs.github.io
翻訳日:2022-10-07 15:50:13 公開日:2022-10-06
# IR-MCL:暗黙の表現に基づくオンライングローバルローカライゼーション

IR-MCL: Implicit Representation-Based Online Global Localization ( http://arxiv.org/abs/2210.03113v1 )

ライセンス: Link先を確認
Haofei Kuang, Xieyuanli Chen, Tiziano Guadagnino, Nicky Zimmerman, Jens Behley and Cyrill Stachniss(参考訳) 移動ロボットの状態を決定することは,ロボットナビゲーションシステムの基本構成要素である。 本稿では,2次元LiDARデータを用いて室内環境におけるロボットの姿勢を推定する問題に対処し,現代環境モデルが金標準モンテカルロローカライゼーション(MCL)システムをどのように改善するかを検討する。 ニューラルネットワークを用いてシーンを暗黙的に表現するためのニューラルネットワーク占有場(NOF)を提案する。 トレーニング済みのネットワークでは、ボリュームレンダリングによって任意のロボットポーズのための2D LiDARスキャンを合成できる。 暗黙的な表現に基づいて,合成されたスキャンと実際のスキャンの類似性を観測モデルとして求め,mclシステムに統合することで正確な位置推定を行うことができる。 自己記録データセットと3つの公開データセットの5つのシーケンスに対するアプローチを評価した。 本研究では,最先端手法のローカライズ性能を上回って,ロボットを高精度かつ効率的にローカライズできることを示す。 実験結果から,提案した暗黙表現はより正確な2次元LiDARスキャンを予測できる可能性が示唆された。 私たちのアプローチのコードは、https://github.com/prbonn/ir-mclでリリースされています。

Determining the state of a mobile robot is an essential building block of robot navigation systems. In this paper, we address the problem of estimating the robots pose in an indoor environment using 2D LiDAR data and investigate how modern environment models can improve gold standard Monte-Carlo localization (MCL) systems. We propose a neural occupancy field (NOF) to implicitly represent the scene using a neural network. With the pretrained network, we can synthesize 2D LiDAR scans for an arbitrary robot pose through volume rendering. Based on the implicit representation, we can obtain the similarity between a synthesized and actual scan as an observation model and integrate it into an MCL system to perform accurate localization. We evaluate our approach on five sequences of a self-recorded dataset and three publicly available datasets. We show that we can accurately and efficiently localize a robot using our approach surpassing the localization performance of state-of-the-art methods. The experiments suggest that the presented implicit representation is able to predict more accurate 2D LiDAR scans leading to an improved observation model for our particle filter-based localization. The code of our approach is released at: https://github.com/PRBonn/ir-mcl.
翻訳日:2022-10-07 15:49:51 公開日:2022-10-06
# 相互依存ネットワークにおける部分グラフ検出のためのブロック構造最適化

Block-Structured Optimization for Subgraph Detection in Interdependent Networks ( http://arxiv.org/abs/2210.02702v1 )

ライセンス: Link先を確認
Fei Jie, Chunpai Wang, Feng Chen, Lei Li, Xindong Wu(参考訳) 本稿では,多層ネットワーク,時間ネットワーク,ネットワークネットワークなどの相互依存ネットワークにおける構造化サブグラフ検出に適用可能なブロック構造非凸最適化のための一般化フレームワークを提案する。 具体的には,グラフ構造制約を受ける一般的な非線形関数を最適化するために,効率的な並列化可能な投影アルゴリズム,すなわちグラフブロック構造勾配投影(gbgp)を設計した。 私たちはアルゴリズムを証明します。 1)ネットワークサイズでほぼ線形の時間で動作します。 2)理論近似の保証を享受する。 さらに、我々のフレームワークが2つの非常に実用的な応用に適用可能であることを示し、提案アルゴリズムの有効性と効率性を示す包括的な実験を行う。

We propose a generalized framework for block-structured nonconvex optimization, which can be applied to structured subgraph detection in interdependent networks, such as multi-layer networks, temporal networks, networks of networks, and many others. Specifically, we design an effective, efficient, and parallelizable projection algorithm, namely Graph Block-structured Gradient Projection (GBGP), to optimize a general non-linear function subject to graph-structured constraints. We prove that our algorithm: 1) runs in nearly-linear time on the network size; 2) enjoys a theoretical approximation guarantee. Moreover, we demonstrate how our framework can be applied to two very practical applications and conduct comprehensive experiments to show the effectiveness and efficiency of our proposed algorithm.
翻訳日:2022-10-07 15:44:14 公開日:2022-10-06
# ベイジアンMAMLへのハイパーネットワークアプローチ

Hypernetwork approach to Bayesian MAML ( http://arxiv.org/abs/2210.02796v1 )

ライセンス: Link先を確認
Piotr Borycki, Piotr Kubacki, Marcin Przewi\k{e}\'zlikowski, Tomasz Ku\'smierczyk, Jacek Tabor, Przemys{\l}aw Spurek(参考訳) Few-Shot学習アルゴリズムの主な目標は、少量のデータから学習できるようにすることである。 最も人気がありエレガントなFew-Shot学習アプローチの1つは、モデルに依存しないメタラーニング(MAML)である。 この手法の主な考え方は、メタモデルの共有普遍重みを学習し、特定のタスクに適応させることである。 しかし、データサイズが限られているため、この手法は過度に適合し、不確実性を十分に定量化する。 ベイズ的アプローチは原則として、点の重みの代わりに重み分布を学習することでこれらの欠点を軽減することができる。 残念なことに、以前のベイズによるMAMLの変更は、従来のMAMLと似た方法で制限されている。 さらに、タスク固有の分布は、前もって働く普遍分布の後方と見なされ、それらを勾配と共同で最適化することは困難であり、局所的なオプティマで立ち往生する危険性がある。 本稿では,mamlのためのハイパーネットワークとともにベイズ原理を用いた,ベイズmamlの新しい一般化であるベイズハイパーショットを提案する。 古典的に普遍的な重みを学習することで,従来の手法よりも収束性が向上した。 さらに、特定のタスクのベイズ処理は不確実性定量化を可能にし、タスク適応の柔軟性は勾配ベースの更新ではなくハイパーネットワークを用いて達成される。 その結果、提案手法は従来の手法、例えばいくつかの標準的なFew-Shot学習ベンチマークにおける古典的およびベイズ的MAMLよりも改善されているだけでなく、ベイズ的フレームワークの特性からも恩恵を受けている。

The main goal of Few-Shot learning algorithms is to enable learning from small amounts of data. One of the most popular and elegant Few-Shot learning approaches is Model-Agnostic Meta-Learning (MAML). The main idea behind this method is to learn shared universal weights of a meta-model, which then are adapted for specific tasks. However, due to limited data size, the method suffers from over-fitting and poorly quantifies uncertainty. Bayesian approaches could, in principle, alleviate these shortcomings by learning weight distributions in place of point-wise weights. Unfortunately, previous Bayesian modifications of MAML are limited in a way similar to the classic MAML, e.g., task-specific adaptations must share the same structure and can not diverge much from the universal meta-model. Additionally, task-specific distributions are considered as posteriors to the universal distributions working as priors, and optimizing them jointly with gradients is hard and poses a risk of getting stuck in local optima. In this paper, we propose BayesianHyperShot, a novel generalization of Bayesian MAML, which employs Bayesian principles along with Hypernetworks for MAML. We achieve better convergence than the previous methods by classically learning universal weights. Furthermore, Bayesian treatment of the specific tasks enables uncertainty quantification, and high flexibility of task adaptations is achieved using Hypernetworks instead of gradient-based updates. Consequently, the proposed approach not only improves over the previous methods, both classic and Bayesian MAML in several standard Few-Shot learning benchmarks but also benefits from the properties of the Bayesian framework.
翻訳日:2022-10-07 15:44:02 公開日:2022-10-06
# POPNASv2: 効率的な多目的ニューラルアーキテクチャ探索手法

POPNASv2: An Efficient Multi-Objective Neural Architecture Search Technique ( http://arxiv.org/abs/2210.02959v1 )

ライセンス: Link先を確認
Andrea Falanti, Eugenio Lomurno, Stefano Samele, Danilo Ardagna, Matteo Matteucci(参考訳) 最良のニューラルネットワークモデルのための研究の自動化は、ここ数年でますます関連性を増してきたタスクです。 この文脈において、ニューラルアーキテクチャサーチ(NAS)は、成果が手作り建築の状況に匹敵する最も効果的なテクニックである。 しかし、このアプローチには多くの計算能力と研究時間が必要であり、多くの現実世界のシナリオでの使用を禁止している。 逐次モデルに基づく最適化戦略によって、プログレッシブ・ニューラル・アーキテクチャ・サーチ(pnas)は、このリソース問題に直面するためのステップとして考えられる。 見つかったネットワークアーキテクチャの品質にもかかわらず、この技術は研究期間に限られている。 この方向の重要なステップは、POPNAS(Pareto-Optimal Progressive Neural Architecture Search)によって行われ、PNASを時間予測器で拡張し、多目的最適化問題を考慮して、検索時間と精度のトレードオフを可能にする。 本稿では,pareto-optimal progressive neural architecture searchの新バージョンであるpopnasv2を提案する。 私たちのアプローチは、最初のバージョンを強化し、パフォーマンスを改善します。 新たな演算子を追加して検索スペースを拡張し、より正確なParetoフロントを構築するために両方の予測器の品質を改善しました。 さらに,細胞同値チェックを導入し,適応的な欲求探索ステップで探索戦略を強化した。 POPNASv2は平均4倍の検索時間でPNASライクな性能を実現することができる。

Automating the research for the best neural network model is a task that has gained more and more relevance in the last few years. In this context, Neural Architecture Search (NAS) represents the most effective technique whose results rival the state of the art hand-crafted architectures. However, this approach requires a lot of computational capabilities as well as research time, which makes prohibitive its usage in many real-world scenarios. With its sequential model-based optimization strategy, Progressive Neural Architecture Search (PNAS) represents a possible step forward to face this resources issue. Despite the quality of the found network architectures, this technique is still limited in research time. A significant step in this direction has been done by Pareto-Optimal Progressive Neural Architecture Search (POPNAS), which expands PNAS with a time predictor to enable a trade-off between search time and accuracy, considering a multi-objective optimization problem. This paper proposes a new version of the Pareto-Optimal Progressive Neural Architecture Search, called POPNASv2. Our approach enhances its first version and improves its performance. We expanded the search space by adding new operators and improved the quality of both predictors to build more accurate Pareto fronts. Moreover, we introduced cell equivalence checks and enriched the search strategy with an adaptive greedy exploration step. Our efforts allow POPNASv2 to achieve PNAS-like performance with an average 4x factor search time speed-up.
翻訳日:2022-10-07 15:43:37 公開日:2022-10-06
# eXplainable AIを用いた故障診断--拡張合成データを利用した回転機械の伝達学習に基づくアプローチ

Fault Diagnosis using eXplainable AI: a Transfer Learning-based Approach for Rotating Machinery exploiting Augmented Synthetic Data ( http://arxiv.org/abs/2210.02974v1 )

ライセンス: Link先を確認
Lucas Costa Brito, Gian Antonio Susto Jorge Nei Brito, Marcus Antonio Viana Duarte(参考訳) 人工知能(AI)は、資産の動作状態の診断を提供する収集されたデータ(例えば、振動信号)を分析するために提案されたアプローチの1つである。 ラベル付きデータ(教師あり)で訓練されたモデルは、優れた結果が得られることは知られているが、2つの主な問題は、プロダクションプロセスにおける彼らの応用を困難にしている。 (i)すべての運用条件(故障がほとんど起こらないため)のサンプルを得るための不可能又は長い時間 (ii)取得したすべてのデータをラベル付けする専門家のコストが高い。 この文脈におけるAIアプローチの適用可能性のもうひとつの制限要因は、モデルの解釈可能性(ブラックボックス)の欠如である。 これらの問題を克服するために、強化合成データから実回転機械への変換学習に基づく回転機械の故障の分類のための新しい汎用的・解釈可能なアプローチ、すなわちFaultD-XAIを提案する。 伝達学習を用いたスケーラビリティを実現するため、動作中の故障特性を模倣した合成振動信号を作成する。 1次元畳み込みニューラルネットワーク (1D CNN) を用いた勾配重み付きクラスアクティベーションマッピング (Grad-CAM) の適用により, 結果の解釈が可能となり, ユーザの意思決定を支援し, 診断信頼性を高めることができる。 提案手法は有望な診断性能を得ただけでなく、専門家が使用する特性を学習し、ソースドメインの条件を特定し、他のターゲットドメインに適用することができる。 実験結果は, 伝達学習, 合成データ, 説明可能な人工知能を障害診断に活用する有望なアプローチを提案する。 最後に、再現性を確保し、この分野の研究を育むために、開発したデータセットを一般公開する。

Artificial Intelligence (AI) is one of the approaches that has been proposed to analyze the collected data (e.g., vibration signals) providing a diagnosis of the asset's operating condition. It is known that models trained with labeled data (supervised) achieve excellent results, but two main problems make their application in production processes difficult: (i) impossibility or long time to obtain a sample of all operational conditions (since faults seldom happen) and (ii) high cost of experts to label all acquired data. Another limitating factor for the applicability of AI approaches in this context is the lack of interpretability of the models (black-boxes), which reduces the confidence of the diagnosis and trust/adoption from users. To overcome these problems, a new generic and interpretable approach for classifying faults in rotating machinery based on transfer learning from augmented synthetic data to real rotating machinery is here proposed, namelly FaultD-XAI (Fault Diagnosis using eXplainable AI). To provide scalability using transfer learning, synthetic vibration signals are created mimicking the characteristic behavior of failures in operation. The application of Gradient-weighted Class Activation Mapping (Grad-CAM) with 1D Convolutional Neural Network (1D CNN) allows the interpretation of results, supporting the user in decision making and increasing diagnostic confidence. The proposed approach not only obtained promising diagnostic performance, but was also able to learn characteristics used by experts to identify conditions in a source domain and apply them in another target domain. The experimental results suggest a promising approach on exploiting transfer learning, synthetic data and explainable artificial intelligence for fault diagnosis. Lastly, to guarantee reproducibility and foster research in the field, the developed dataset is made publicly available.
翻訳日:2022-10-07 15:43:15 公開日:2022-10-06
# 多変量時系列予測のためのエッジ可変フーリエグラフネットワーク

Edge-Varying Fourier Graph Networks for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2210.03093v1 )

ライセンス: Link先を確認
Kun Yi and Qi Zhang(参考訳) 多変量時系列解析と予測の鍵となる問題は、共動を駆動する変数間の下位結合を明らかにすることである。 グラフニューラルネットワーク(GNN)は、リレーショナルモデリングに欠かせない能力のため、近年成功しているMSS手法である。 しかし、以前の研究では、時系列変数の静的グラフ構造を使ってMSSをモデル化したが、時間とともに変化する相関を捉えられなかった。 この目的のために、任意の2つの変数を2つのタイムスタンプで接続する完全連結な超グラフが適応的に学習され、効率的なグラフ畳み込みネットワークを介して高分解能な変数依存性をキャプチャする。 具体的には、周波数領域におけるグラフ畳み込みを効率的に行うFourier Graph Shift Operator (FGSO) を備えたEdge-Varying Fourier Graph Networks (EV-FGN) を構築する。 その結果、畳み込み定理に従い、mts分析と予測のための高効率なスケールフリーパラメータ学習法が導出される。 大規模な実験により、EV-FGNは7つの実世界のMSSデータセットで最先端の手法より優れていることが示された。

The key problem in multivariate time series (MTS) analysis and forecasting aims to disclose the underlying couplings between variables that drive the co-movements. Considerable recent successful MTS methods are built with graph neural networks (GNNs) due to their essential capacity for relational modeling. However, previous work often used a static graph structure of time-series variables for modeling MTS failing to capture their ever-changing correlations over time. To this end, a fully-connected supra-graph connecting any two variables at any two timestamps is adaptively learned to capture the high-resolution variable dependencies via an efficient graph convolutional network. Specifically, we construct the Edge-Varying Fourier Graph Networks (EV-FGN) equipped with Fourier Graph Shift Operator (FGSO) which efficiently performs graph convolution in the frequency domain. As a result, a high-efficiency scale-free parameter learning scheme is derived for MTS analysis and forecasting according to the convolution theorem. Extensive experiments show that EV-FGN outperforms state-of-the-art methods on seven real-world MTS datasets.
翻訳日:2022-10-07 15:42:13 公開日:2022-10-06
# 分布適応型メタ強化学習

Distributionally Adaptive Meta Reinforcement Learning ( http://arxiv.org/abs/2210.03104v1 )

ライセンス: Link先を確認
Anurag Ajay, Abhishek Gupta, Dibya Ghosh, Sergey Levine, Pulkit Agrawal(参考訳) メタ強化学習アルゴリズムは、様々な報酬やダイナミクス機能を備えた多くのタスクに迅速に適応するポリシーを取得するためのデータ駆動の方法を提供する。 しかし、学習されたメタポリケーションは、トレーニングされたタスクの正確な分布にのみ有効であり、テストタイム報酬の分散シフトや移行ダイナミクスの存在に苦慮することが多い。 本研究では,タスク空間におけるテスト時間分布シフトの下で適切に動作可能なメタRLアルゴリズムのフレームワークを開発する。 我々の枠組みは分布のロバスト性への適応的アプローチに焦点をあて、様々なレベルの分布シフトにロバストなメタポリティシーの集団を訓練する。 タスクの潜在的にシフトしたテスト時間分布で評価すると、最も適切なレベルのロバスト性を持つメタポリシーを選択し、それを高速適応に使用できます。 我々は,分散シフト下での後悔を改善するための枠組みを正式に示し,幅広い分散シフト下でのシミュレーションロボット問題に対するその効果を実証的に示す。

Meta-reinforcement learning algorithms provide a data-driven way to acquire policies that quickly adapt to many tasks with varying rewards or dynamics functions. However, learned meta-policies are often effective only on the exact task distribution on which they were trained and struggle in the presence of distribution shift of test-time rewards or transition dynamics. In this work, we develop a framework for meta-RL algorithms that are able to behave appropriately under test-time distribution shifts in the space of tasks. Our framework centers on an adaptive approach to distributional robustness that trains a population of meta-policies to be robust to varying levels of distribution shift. When evaluated on a potentially shifted test-time distribution of tasks, this allows us to choose the meta-policy with the most appropriate level of robustness, and use it to perform fast adaptation. We formally show how our framework allows for improved regret under distribution shift, and empirically show its efficacy on simulated robotics problems under a wide range of distribution shifts.
翻訳日:2022-10-07 15:41:58 公開日:2022-10-06
# 目視による米カーネルの欠陥分類と重み推定

Vision-Based Defect Classification and Weight Estimation of Rice Kernels ( http://arxiv.org/abs/2210.02665v1 )

ライセンス: Link先を確認
Xiang Wang, Kai Wang, Xiaohong Li, Shiguo Lian(参考訳) 米は世界中の多くの地域で主要な主食の1つである。 イネ核の品質評価は、食品の安全性と社会経済的影響の両面で重要である。 これは、通常、品質検査官によって行われ、客観的および主観的不正確な結果をもたらす可能性がある。 そこで本研究では,米の粒度を自動的に推定し,その欠陥の種類に応じて試料米の粒度を分類し,その粒度をパースペクティブ・カーネルの重量比で評価するシステムを提案する。 異なるカーネル数の不均衡を補償し、複数の欠陥を正確に分類するために、キャプチャー画像中のカーネルを特定し、それらの特性を分類できる多段階ワークフローを提案する。 画像中の各カーネルの相対重量をその面積から測定する新しい指標を定義し,すべてのサンプルに対する各カーネルの相対重量を計算し,米の品質評価の基盤として利用できるようにした。 様々な実験により,本システムは接触のない方法で正確な結果を出力し,退屈でエラーの少ない手作業を置き換えることができることを示した。

Rice is one of the main staple food in many areas of the world. The quality estimation of rice kernels are crucial in terms of both food safety and socio-economic impact. This was usually carried out by quality inspectors in the past, which may result in both objective and subjective inaccuracies. In this paper, we present an automatic visual quality estimation system of rice kernels, to classify the sampled rice kernels according to their types of flaws, and evaluate their quality via the weight ratios of the perspective kernel types. To compensate for the imbalance of different kernel numbers and classify kernels with multiple flaws accurately, we propose a multi-stage workflow which is able to locate the kernels in the captured image and classify their properties. We define a novel metric to measure the relative weight of each kernel in the image from its area, such that the relative weight of each type of kernels with regard to the all samples can be computed and used as the basis for rice quality estimation. Various experiments are carried out to show that our system is able to output precise results in a contactless way and replace tedious and error-prone manual works.
翻訳日:2022-10-07 15:34:50 公開日:2022-10-06
# 自由空間検出のためのクロスモーダルドメイン適応:単純で効果的なベースライン

Cross-Modality Domain Adaptation for Freespace Detection: A Simple yet Effective Baseline ( http://arxiv.org/abs/2210.02991v1 )

ライセンス: Link先を確認
Yuanbin Wang, Leyan Zhu, Shaofei Huang, Tianrui Hui, Xiaojie Li, Fei Wang, Si Liu(参考訳) 自律運転システムの基本機能の一つとして、自由空間検出は、カメラが捉えた画像の各ピクセルを、ドライビング可能または非駆動可能と分類することを目的としている。 フリースペース検出の現在の研究は、高度にラベル付けされた大量のトレーニングデータを精度と堅牢性に大きく依存している。 我々の知る限り、我々は、合成データによるデータ制限問題を軽減するために、自由空間検出のための教師なし領域適応を初めて検討する。 我々はRGB画像と深度画像から生成された表面正規写像の両方を利用するクロスモダリティ領域適応フレームワークを開発した。 協調的クロスガイダンス(CCG)モジュールは、一方のモダリティの文脈情報を利用して、他方のモダリティを相互に導くことによって、ドメイン間の相補性を実現する。 また、ソースドメイン(合成データ)とターゲットドメイン(実世界のデータ)のドメインギャップを埋めるため、二つのドメイン間の一貫した前景領域の特徴のみを整列させるSelective Feature Alignment (SFA)モジュールを提案し、ドメイン間のモダリティ適応を実現する。 3つの異なる合成データセットを1つの実世界のデータセットにそれぞれ適応させ、それぞれ自由空間検出を行う。 本手法は,完全教師付き自由空間検出法 (93.08 v.s. 97.50 f1 score) と密接な関係を持ち,広いマージンを持つ意味セグメンテーションのための他の一般的な教師なし領域適応法よりも優れている。

As one of the fundamental functions of autonomous driving system, freespace detection aims at classifying each pixel of the image captured by the camera as drivable or non-drivable. Current works of freespace detection heavily rely on large amount of densely labeled training data for accuracy and robustness, which is time-consuming and laborious to collect and annotate. To the best of our knowledge, we are the first work to explore unsupervised domain adaptation for freespace detection to alleviate the data limitation problem with synthetic data. We develop a cross-modality domain adaptation framework which exploits both RGB images and surface normal maps generated from depth images. A Collaborative Cross Guidance (CCG) module is proposed to leverage the context information of one modality to guide the other modality in a cross manner, thus realizing inter-modality intra-domain complement. To better bridge the domain gap between source domain (synthetic data) and target domain (real-world data), we also propose a Selective Feature Alignment (SFA) module which only aligns the features of consistent foreground area between the two domains, thus realizing inter-domain intra-modality adaptation. Extensive experiments are conducted by adapting three different synthetic datasets to one real-world dataset for freespace detection respectively. Our method performs closely to fully supervised freespace detection methods (93.08 v.s. 97.50 F1 score) and outperforms other general unsupervised domain adaptation methods for semantic segmentation with large margins, which shows the promising potential of domain adaptation for freespace detection.
翻訳日:2022-10-07 15:34:33 公開日:2022-10-06
# ロバストな視覚イベント分類のための人間の判断による曖昧な画像

Ambiguous Images With Human Judgments for Robust Visual Event Classification ( http://arxiv.org/abs/2210.03102v1 )

ライセンス: Link先を確認
Kate Sanders, Reno Kriz, Anqi Liu, Benjamin Van Durme(参考訳) 現代のビジョンベンチマークは、人間がほぼ完璧なパフォーマンスを達成できるタスクを主に検討している。 しかし、人間は100%確実性で分類できない視覚データをしばしば提示され、標準視覚ベンチマークで訓練されたモデルは、このデータで評価すると低いパフォーマンスを達成する。 この問題に対処するために,ビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成するために,あいまいな画像のデータセットを作成する手順を導入する。 すべての画像は基底真理値でアノテートされ、テストセットは人間の不確実性判断でアノテートされる。 このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴付け、既存の視覚イベント分類モデルを評価する。 実験の結果、既存の視覚モデルは曖昧な画像に対して有意義な出力を提供するのに十分な機能を持たず、モデルトレーニングとモデルキャリブレーションの直接評価を通じて、この性質のデータセットを用いてモデルの評価と改善が可能であることが示唆された。 これらの発見は、大規模な曖昧なデータセットの作成と、ノイズの多い視覚データに焦点を当てたさらなる研究の動機となっている。

Contemporary vision benchmarks predominantly consider tasks on which humans can achieve near-perfect performance. However, humans are frequently presented with visual data that they cannot classify with 100% certainty, and models trained on standard vision benchmarks achieve low performance when evaluated on this data. To address this issue, we introduce a procedure for creating datasets of ambiguous images and use it to produce SQUID-E ("Squidy"), a collection of noisy images extracted from videos. All images are annotated with ground truth values and a test set is annotated with human uncertainty judgments. We use this dataset to characterize human uncertainty in vision tasks and evaluate existing visual event classification models. Experimental results suggest that existing vision models are not sufficiently equipped to provide meaningful outputs for ambiguous images and that datasets of this nature can be used to assess and improve such models through model training and direct evaluation of model calibration. These findings motivate large-scale ambiguous dataset creation and further research focusing on noisy visual data.
翻訳日:2022-10-07 15:34:00 公開日:2022-10-06
# テンソルアナライザー:非負性テンソル因子化を用いた大都市における都市パターンの同定

TensorAnalyzer: Identification of Urban Patterns in Big Cities using Non-Negative Tensor Factorization ( http://arxiv.org/abs/2210.02623v1 )

ライセンス: Link先を確認
Jaqueline Silveira, Germain Garc\'ia, Afonso Paiva, Marcelo Nery, Sergio Adorno, Luis Gustavo Nonato(参考訳) 複数のデータソースから関連する都市パターンを抽出することは、アルゴリズムのハイパーパラメータを適切に設定し、外れ値を扱う必要があるため、古典的なクラスタリングアルゴリズムを使って難しい場合がある。 大都市のさらなる発展のための意思決定プロセスにおいて、都市計画者を支援するために、正しく対処すべきである。 例えば、専門家の犯罪学に対する主な関心は、特定の地理的な場所における犯罪と社会経済的特性の関係を理解することである。 さらに、古典的なクラスタリングアルゴリズムは、地理参照データソースの複雑な空間相関にほとんど注意を払わない。 本稿では、テンソル分解に基づく複数のデータソースから最も関連性の高い都市パターンを検出する新しい手法を提案する。 古典的手法と比較して,提案手法の性能は同定されたパターンの品質を評価するために検証される。 以上の結果から,このアプローチは,優れたクラスタリング品質を達成する上で,データ集合を特徴付ける機能的パターンを効果的に識別できることが示唆された。 さらに,提案手法の有効性と有用性について,一組の実験によって検証し,実世界ケーススタディにより,学校周辺における犯罪事象と学生のパフォーマンスと,分析に関わる他の変数との関係を検証した,TensorAnalyzerという汎用フレームワークを開発した。

Extracting relevant urban patterns from multiple data sources can be difficult using classical clustering algorithms since we have to make a suitable setup of the hyperparameters of the algorithms and deal with outliers. It should be addressed correctly to help urban planners in the decision-making process for the further development of a big city. For instance, experts' main interest in criminology is comprehending the relationship between crimes and the socio-economic characteristics at specific georeferenced locations. In addition, the classical clustering algorithms take little notice of the intricate spatial correlations in georeferenced data sources. This paper presents a new approach to detecting the most relevant urban patterns from multiple data sources based on tensor decomposition. Compared to classical methods, the proposed approach's performance is attested to validate the identified patterns' quality. The result indicates that the approach can effectively identify functional patterns to characterize the data set for further analysis in achieving good clustering quality. Furthermore, we developed a generic framework named TensorAnalyzer, where the effectiveness and usefulness of the proposed methodology are tested by a set of experiments and a real-world case study showing the relationship between the crime events around schools and students performance and other variables involved in the analysis.
翻訳日:2022-10-07 15:32:40 公開日:2022-10-06
# インテリジェントエージェントとメカニズムのための学習アルゴリズム

Learning Algorithms for Intelligent Agents and Mechanisms ( http://arxiv.org/abs/2210.02654v1 )

ライセンス: Link先を確認
Jad Rahme(参考訳) 本稿では,2つの異なる文脈における最適意思決定のための学習アルゴリズム,パート1における強化学習,パート2におけるオークションデザインについて検討する。 強化学習(Reinforcement Learning, RL)は、エージェントが時間とともに累積的な報酬を最大化する環境の中でどのように振る舞うべきかに関する機械学習の分野である。 第2章では統計物理学に触発された強化学習(Reinforcement Learning, RL)の新たなアプローチを開発し, 最適化された望ましい特性を持つ最適ポリシを学習するだけでなく, 最大エントロピーRLに新たな光を照射する。 第3章では、ベイズの視点から RL の一般化問題に取り組む。 環境の非完全な知識は、完全に観測されたマルコフ決定過程(MDP)を部分的に観察されたMDP(POMDP)に効果的に変換し、それをエピステミックPOMDPと呼ぶ。 そこで,本研究では一般化特性を改善した新しいポリシー学習アルゴリズムleepを開発した。 収益を最大化するインセンティブ互換で個別に合理的なオークションを設計することは、挑戦的で難解な問題である。 近年,データから最適オークションを学ぶためのディープラーニング手法が提案されている。 このアプローチは成功したが、サンプルの非効率性、新しいオークションへの一般化の欠如、トレーニングの困難など、いくつかの制限に苦しめられている。 第4章では匿名オークションに適した対称性保存型ニューラルネットワークアーキテクチャであるEquivariantNetを構築した。 equivariantnetはもっとサンプル効率が良いだけでなく、他の設定にうまく一般化したオークションルールも学習できる。 第5章では,二者ゲームとしてオークション学習問題の新規な定式化を提案する。 結果として得られた学習アルゴリズムalgnetは、トレーニングが簡単で、信頼性が高く、非定常設定に適している。

In this thesis, we research learning algorithms for optimal decision making in two different contexts, Reinforcement Learning in Part I and Auction Design in Part II. Reinforcement learning (RL) is an area of machine learning that is concerned with how an agent should act in an environment in order to maximize its cumulative reward over time. In Chapter 2, inspired by statistical physics, we develop a novel approach to Reinforcement Learning (RL) that not only learns optimal policies with enhanced desirable properties but also sheds new light on maximum entropy RL. In Chapter 3, we tackle the generalization problem in RL using a Bayesian perspective. We show that imperfect knowledge of the environments dynamics effectively turn a fully-observed Markov Decision Process (MDP) into a Partially Observed MDP (POMDP) that we call the Epistemic POMDP. Informed by this observation, we develop a new policy learning algorithm LEEP which has improved generalization properties. Designing an incentive compatible, individually rational auction that maximizes revenue is a challenging and intractable problem. Recently, deep learning based approaches have been proposed to learn optimal auctions from data. While successful, this approach suffers from a few limitations, including sample inefficiency, lack of generalization to new auctions, and training difficulties. In Chapter 4, we construct a symmetry preserving neural network architecture, EquivariantNet, suitable for anonymous auctions. EquivariantNet is not only more sample efficient but is also able to learn auction rules that generalize well to other settings. In Chapter 5, we propose a novel formulation of the auction learning problem as a two player game. The resulting learning algorithm, ALGNet, is easier to train, more reliable and better suited for non stationary settings.
翻訳日:2022-10-07 15:32:21 公開日:2022-10-06
# クローズだ! 抽象要約におけるFactual Consistencyの高速かつ簡便な評価法

Just ClozE! A Fast and Simple Method for Evaluating the Factual Consistency in Abstractive Summarization ( http://arxiv.org/abs/2210.02804v1 )

ライセンス: Link先を確認
Yiyang Li, Lei Li, Qing Yang, Marina Litvak, Natalia Vanetik, Dingxin Hu, Yuze Li, Yanquan Zhou, Dongliang Xu, Xuanyu Zhang(参考訳) 近年,抽象要約における事実整合性の問題が注目され,要約と文書間の事実整合性の評価が重要かつ緊急課題となっている。 現在の評価指標のほとんどは質問応答(QA)から採用されている。 しかし、QAベースのメトリクスの適用は実際は非常に時間がかかり、抽象的な要約研究の反復サイクルが著しく長引くことになる。 本稿では,マスク言語モデル(mlm)に基づいてインスタンス化されたclozeモデルによる事実整合性を評価するclozeと呼ばれる新しい手法を提案する。 評価時間をQAベースのメトリクスと比較して96$\%近く短縮できることを示すとともに、6つの人間アノテーション付きデータセットとメタ評価ベンチマークGO FIGURE \citep{gabriel2020go}の実験を通して、その解釈可能性と性能を維持する。 また,性能と速度の面でのclozeのさらなる特性を実証する実験も実施する。 さらに,ClozEの限界を実験的に分析し,今後の研究方向性を示唆する。 ClozEのコードとモデルは、論文の受理時にリリースされる。

The issue of factual consistency in abstractive summarization has attracted much attention in recent years, and the evaluation of factual consistency between summary and document has become an important and urgent task. Most of the current evaluation metrics are adopted from the question answering (QA). However, the application of QA-based metrics is extremely time-consuming in practice, causing the iteration cycle of abstractive summarization research to be severely prolonged. In this paper, we propose a new method called ClozE to evaluate factual consistency by cloze model, instantiated based on masked language model(MLM), with strong interpretability and substantially higher speed. We demonstrate that ClozE can reduce the evaluation time by nearly 96$\%$ relative to QA-based metrics while retaining their interpretability and performance through experiments on six human-annotated datasets and a meta-evaluation benchmark GO FIGURE \citep{gabriel2020go}. We also implement experiments to further demonstrate more characteristics of ClozE in terms of performance and speed. In addition, we conduct an experimental analysis of the limitations of ClozE, which suggests future research directions. The code and models for ClozE will be released upon the paper acceptance.
翻訳日:2022-10-07 15:26:34 公開日:2022-10-06
# カリキュラム学習による生成エンティティ型付け

Generative Entity Typing with Curriculum Learning ( http://arxiv.org/abs/2210.02914v1 )

ライセンス: Link先を確認
Siyu Yuan, Deqing Yang, Jiaqing Liang, Zhixu Li, Jinxi Liu, Jingyue Huang, Yanghua Xiao(参考訳) エンティティ型付けは、与えられたテキストのエンティティ参照に型を割り当てることを目的としている。 従来の分類に基づくエンティティ型付けパラダイムには、2つの無視できない欠点がある。 1) 事前に定義された型セットを超えた型にエンティティを割り当てることに失敗し、そして 2) 多くのロングテール型がトレーニングインスタンスをほとんど、あるいは全く持たない状況では、ほとんど処理できない。 このような欠点を克服するために,本論文では,エンティティに言及したテキストが与えられた場合に,そのエンティティが果たす役割の複数の型が,事前学習された言語モデル(PLM)によって生成される,新しい生成エンティティ型付け(GET)パラダイムを提案する。 しかしながら、PLMはエンティティ型付けデータセットを微調整した後、粗い型を生成する傾向がある。 また、人間の注釈付きデータのごく一部と、自動生成されるが品質の低いデータからなる異種トレーニングデータのみを有する。 これらの問題に対処するために,我々はカリキュラム学習(CL)を用いて,不均一なデータに基づいてGETモデルをトレーニングし,型粒度とデータ異質性の理解に基づいて,カリキュラムを自己更新学習で自己調整することができる。 さまざまな言語や下流タスクのデータセットに関する広範な実験は、最先端エンティティ型付けモデルよりもGETモデルの優位性を正当化します。 コードはhttps://github.com/siyuyuan/getでリリースされている。

Entity typing aims to assign types to the entity mentions in given texts. The traditional classification-based entity typing paradigm has two unignorable drawbacks: 1) it fails to assign an entity to the types beyond the predefined type set, and 2) it can hardly handle few-shot and zero-shot situations where many long-tail types only have few or even no training instances. To overcome these drawbacks, we propose a novel generative entity typing (GET) paradigm: given a text with an entity mention, the multiple types for the role that the entity plays in the text are generated with a pre-trained language model (PLM). However, PLMs tend to generate coarse-grained types after fine-tuning upon the entity typing dataset. Besides, we only have heterogeneous training data consisting of a small portion of human-annotated data and a large portion of auto-generated but low-quality data. To tackle these problems, we employ curriculum learning (CL) to train our GET model upon the heterogeneous data, where the curriculum could be self-adjusted with the self-paced learning according to its comprehension of the type granularity and data heterogeneity. Our extensive experiments upon the datasets of different languages and downstream tasks justify the superiority of our GET model over the state-of-the-art entity typing models. The code has been released on https://github.com/siyuyuan/GET.
翻訳日:2022-10-07 15:26:13 公開日:2022-10-06
# grape: オープンドメイン質問応答のための知識グラフ拡張パッセージリーダ

Grape: Knowledge Graph Enhanced Passage Reader for Open-domain Question Answering ( http://arxiv.org/abs/2210.02933v1 )

ライセンス: Link先を確認
Mingxuan Ju, Wenhao Yu, Tong Zhao, Chuxu Zhang, Yanfang Ye(参考訳) open-domain question answering (qa) モデルの一般的なスレッドは、wikipediaから関連する一握りの節を最初に取り出して、その節を熟読して回答を生成する、レトリバー-リーダーパイプラインを使用している。 しかし、最先端の読者でさえ、質問や検索文に現れるエンティティ間の複雑な関係を捉えられず、事実と矛盾する回答に繋がる。 そこで本研究では,オープンドメインqaの読取性能を向上させるために,新しい知識グラフ拡張パッセージリーダであるgrapeを提案する。 具体的には、質問文と検索文のペアごとに、まず、読者モデルの中間層から抽出されたエンティティ埋め込みによって引き起こされる局所化された二部グラフを構築する。 そして、グラフニューラルネットワークは、グラフと文脈表現を読み取りモデルの隠れ状態に融合させながら、関係知識を学習する。 3つのオープンドメインのQAベンチマークの実験では、Grapeは最大2.2の正確な一致スコアと無視できるオーバーヘッド増加、同じレトリバーと検索パスで、最先端のパフォーマンスを向上させることができる。 私たちのコードはhttps://github.com/jumxglhf/GRAPEで公開されています。

A common thread of open-domain question answering (QA) models employs a retriever-reader pipeline that first retrieves a handful of relevant passages from Wikipedia and then peruses the passages to produce an answer. However, even state-of-the-art readers fail to capture the complex relationships between entities appearing in questions and retrieved passages, leading to answers that contradict the facts. In light of this, we propose a novel knowledge Graph enhanced passage reader, namely Grape, to improve the reader performance for open-domain QA. Specifically, for each pair of question and retrieved passage, we first construct a localized bipartite graph, attributed to entity embeddings extracted from the intermediate layer of the reader model. Then, a graph neural network learns relational knowledge while fusing graph and contextual representations into the hidden states of the reader model. Experiments on three open-domain QA benchmarks show Grape can improve the state-of-the-art performance by up to 2.2 exact match score with a negligible overhead increase, with the same retriever and retrieved passages. Our code is publicly available at https://github.com/jumxglhf/GRAPE.
翻訳日:2022-10-07 15:25:51 公開日:2022-10-06
# ゼロショットタスクの一般化を促すソフトプロンプトの検索

Retrieval of Soft Prompt Enhances Zero-Shot Task Generalization ( http://arxiv.org/abs/2210.03029v1 )

ライセンス: Link先を確認
Seonghyeon Ye, Joel Jang, Doyoung Kim, Yongrae Jo, Minjoon Seo(参考訳) 言語モデル(LM)によるゼロショット推論では、ハードプロンプトだけでターゲットタスクを完全に記述することはできない。 本稿では,ゼロショットタスクの一般化において,プロンプトチューニングによって得られるソフトプロンプトの検索がハードプロンプトにどのように役立つかを検討する。 具体的には、プロンプトチューニングを通じて各プロンプトに対するソフトプロンプト埋め込みをトレーニングし、プロンプト埋め込みにマップされたトレーニングインスタンス(ハードプロンプト+インプットインスタンス)のサンプルを格納し、推論中にクエリインスタンスに最も近いトレーニングインスタンスの対応するプロンプト埋め込みを検索する。 その結果、この単純なアプローチは、11のデータセットのうち10のデータセットでパフォーマンスを向上し、BIG-benchベンチマークでのT0の平均精度を2.39%改善し、0.007%の追加パラメータしか追加しなかった。 また、複数埋め込みの補間と分散に基づくランク付けにより、異なる評価プロンプトに対する精度と堅牢性が向上し、性能ギャップが拡大する。 最後に、類似の回答選択フォーマットで訓練されたソース埋め込みの検索が、類似のタスクタイプよりも重要であることを発見した。 モデルチェックポイントとコードの実装はhttps://github.com/seonghyeonye/RoSPr.comで公開されている。

During zero-shot inference with language models (LMs), using hard prompts alone may not be able to fully describe the target task. In this paper, we explore how the retrieval of soft prompts obtained through prompt tuning can assist hard prompts in zero-shot task generalization. Specifically, we train soft prompt embeddings for each prompt through prompt tuning, store the samples of the training instances (hard prompt + input instances) mapped with the prompt embeddings, and retrieve the corresponding prompt embedding of the training instance closest to the query instance during inference. Results show this simple approach enhances the performance of T0 on unseen tasks by outperforming it on 10 out of 11 datasets as well as improving the mean accuracy of T0 on BIG-bench benchmark by 2.39% points while adding only 0.007% additional parameters. Also, using interpolation of multiple embeddings and variance-based ranking further improve accuracy and robustness to different evaluation prompts, widening the performance gap. Finally, we find that retrieving source embeddings trained on similar answer choice formats is more important than those on similar task types. Model checkpoints and code implementation are available at https://github.com/seonghyeonye/RoSPr.
翻訳日:2022-10-07 15:25:28 公開日:2022-10-06
# Predicate-Oriented Latent Graphを用いた会話セマンティック・ロールラベリング

Conversational Semantic Role Labeling with Predicate-Oriented Latent Graph ( http://arxiv.org/abs/2210.03037v1 )

ライセンス: Link先を確認
Hao Fei, Shengqiong Wu, Meishan Zhang, Yafeng Ren, Donghong Ji(参考訳) 対話型セマンティックロールラベリング(CSRL)は、対話テキスト中の浅いセマンティック構造を明らかにするための新しいタスクである。 残念なことに、CSRLタスクの重要な特徴は、構造情報の統合、近傍の影響など、既存の作業によって見過ごされている。 本研究では,CSRLの潜在グラフの統合について検討する。 本稿では,述語中心のガウス的機構を持つ述語指向潜時グラフ(POLar)を自動生成し,述語に近づいた情報的単語をより注意して割り当てることを提案する。 POLar構造は動的に切断され、タスクニーズに最適なように洗練される。 また,CSRLにおける複数の発話文のより良いサポートと話者照合問題を扱うために,効果的な対話レベル事前学習言語モデルであるCoDiaBERTを導入する。 提案システムは,3つのベンチマークCSRLデータセットにおいて,特に4%以上のF1スコア向上を達成し,最高性能のベースラインを達成している。 提案手法の有効性をよりよく理解するためにさらに分析を行った。

Conversational semantic role labeling (CSRL) is a newly proposed task that uncovers the shallow semantic structures in a dialogue text. Unfortunately several important characteristics of the CSRL task have been overlooked by the existing works, such as the structural information integration, near-neighbor influence. In this work, we investigate the integration of a latent graph for CSRL. We propose to automatically induce a predicate-oriented latent graph (POLar) with a predicate-centered Gaussian mechanism, by which the nearer and informative words to the predicate will be allocated with more attention. The POLar structure is then dynamically pruned and refined so as to best fit the task need. We additionally introduce an effective dialogue-level pre-trained language model, CoDiaBERT, for better supporting multiple utterance sentences and handling the speaker coreference issue in CSRL. Our system outperforms best-performing baselines on three benchmark CSRL datasets with big margins, especially achieving over 4% F1 score improvements on the cross-utterance argument detection. Further analyses are presented to better understand the effectiveness of our proposed methods.
翻訳日:2022-10-07 15:25:00 公開日:2022-10-06
# nlpにおける最新技術一般化研究:分類とレビュー

State-of-the-art generalisation research in NLP: a taxonomy and review ( http://arxiv.org/abs/2210.03050v1 )

ライセンス: Link先を確認
Dieuwke Hupkes, Mario Giulianelli, Verna Dankers, Mikel Artetxe, Yanai Elazar, Tiago Pimentel, Christos Christodoulopoulos, Karim Lasri, Naomi Saphra, Arabella Sinclair, Dennis Ulmer, Florian Schottmann, Khuyagbaatar Batsuren, Kaiser Sun, Koustuv Sinha, Leila Khalatbari, Rita Frieske, Ryan Cotterell, Zhijing Jin(参考訳) うまく一般化する能力は自然言語処理における主要なデシラタの1つである。 しかし、「良い一般化」とは何か、どのように評価されるべきなのかはよく理解されておらず、評価する共通の基準もない。 本稿では,これら2つの課題を改善するための土台を整備することを目的としている。 我々は,nlpにおける一般化研究を特徴付け,理解するための分類法を提示し,その分類法を用いて一般化研究の包括的な地図を提示し,今後注目すべき分野を推薦する。 我々の分類学は、一般化研究の広範な文献レビューに基づいており、研究内容に違いがある5つの軸を含む:彼らの主な動機、解決しようとする一般化の種類、彼らが考えるデータシフトの種類、このデータシフトが得られた源、モデリングパイプライン内のシフトの軌跡。 分類学を用いて、一般化をテストする400以上の以前の論文を分類し、合計600以上の実験を行った。 本研究の結果を踏まえ,NLPにおける一般化研究の現状を詳細に分析し,今後の課題について提言する。 本稿では,本論文とともに,レビューの結果を動的に探索できるWebページを公開し,新たなNLP一般化研究の公開とともに最新化を目指す。 本研究は,NLPにおける新しいステータスクオを最先端の一般化テストに活用することを目的としている。

The ability to generalise well is one of the primary desiderata of natural language processing NLP). Yet, what `good generalisation' entails and how it should be evaluated is not well understood, nor are there any common standards to evaluate it. In this paper, we aim to lay the ground-work to improve both of these issues. We present a taxonomy for characterising and understanding generalisation research in NLP, we use that taxonomy to present a comprehensive map of published generalisation studies, and we make recommendations for which areas might deserve attention in the future. Our taxonomy is based on an extensive literature review of generalisation research, and contains five axes along which studies can differ: their main motivation, the type of generalisation they aim to solve, the type of data shift they consider, the source by which this data shift is obtained, and the locus of the shift within the modelling pipeline. We use our taxonomy to classify over 400 previous papers that test generalisation, for a total of more than 600 individual experiments. Considering the results of this review, we present an in-depth analysis of the current state of generalisation research in NLP, and make recommendations for the future. Along with this paper, we release a webpage where the results of our review can be dynamically explored, and which we intend to up-date as new NLP generalisation studies are published. With this work, we aim to make steps towards making state-of-the-art generalisation testing the new status quo in NLP.
翻訳日:2022-10-07 15:24:41 公開日:2022-10-06
# rainier:コモンセンス質問応答のための知識イントロスペクタ

Rainier: Reinforced Knowledge Introspector for Commonsense Question Answering ( http://arxiv.org/abs/2210.03078v1 )

ライセンス: Link先を確認
Jiacheng Liu, Skyler Hallinan, Ximing Lu, Pengfei He, Sean Welleck, Hannaneh Hajishirzi, Yejin Choi(参考訳) 知識は推論の基礎となる。 近年の研究では、コモンセンス質問応答(QA)に追加の文脈として関連する知識が提供される場合、最先端技術でも性能を大幅に向上させることができることが示されている。 基本的な課題は、知識ベースから得られた知識が不完全であり、言語モデルから生成された知識が一貫性がない、という問題に対して、高品質かつポイントの知識を見つける場所と方法である。 我々は,与えられた質問に対して文脈的関連のある知識を生成できる知識イントロスペクタであるrainier(強化知識イントロスペクタ)を提案する。 提案手法は, GPT-3 が生成した知識を模倣することから始まり, 得られた質問応答の性能向上に基づいて報酬を形作る強化学習を通じて, 独自の知識を生成することを学習する。 Rainier氏は、9つの異なるコモンセンスベンチマーク(強化学習中に見られる5つのドメイン内ベンチマークを含む)でテストした場合、大幅に、一貫したパフォーマンス向上を示す。 本研究は,GPT-3より桁違いに小さいモデルで生成した知識が,GPT-3から抽出した知識の質を超えうることを報告した最初の事例である。

Knowledge underpins reasoning. Recent research demonstrates that when relevant knowledge is provided as additional context to commonsense question answering (QA), it can substantially enhance the performance even on top of state-of-the-art. The fundamental challenge is where and how to find such knowledge that is high quality and on point with respect to the question; knowledge retrieved from knowledge bases are incomplete and knowledge generated from language models are inconsistent. We present Rainier, or Reinforced Knowledge Introspector, that learns to generate contextually relevant knowledge in response to given questions. Our approach starts by imitating knowledge generated by GPT-3, then learns to generate its own knowledge via reinforcement learning where rewards are shaped based on the increased performance on the resulting question answering. Rainier demonstrates substantial and consistent performance gains when tested over 9 different commonsense benchmarks: including 5 in-domain benchmarks that are seen during reinforcement learning, as well as 4 out-of-domain benchmarks that are kept unseen. Our work is the first to report that knowledge generated by models that are orders of magnitude smaller than GPT-3, even without direct supervision on the knowledge itself, can exceed the quality of knowledge elicited from GPT-3 for commonsense QA.
翻訳日:2022-10-07 15:24:17 公開日:2022-10-06
# Covariance Matrix Adaptation MAP-Annealing による多次元制御系の訓練

Training Diverse High-Dimensional Controllers by Scaling Covariance Matrix Adaptation MAP-Annealing ( http://arxiv.org/abs/2210.02622v1 )

ライセンス: Link先を確認
Bryon Tjanaka, Matthew C. Fontaine, Aniruddha Kalkar, Stefanos Nikolaidis(参考訳) 様々なロボットコントローラーをシミュレーションで事前訓練することで、ロボットはロボットの移動タスクの損傷にオンラインで適応することができる。 しかし、多様で高性能なコントローラを見つけるには、特別なハードウェアと多数のハイパーパラメータの広範なチューニングが必要となる。 一方、進化戦略(ES)に基づく品質多様性アルゴリズムであるCovariance Matrix Adaptation MAP-Annealingアルゴリズムには、これらの制限がなく、標準ベンチマーク領域で最先端のパフォーマンスを実現することが示されている。 しかし、CMA-MAEは2次複雑さのため、現代のニューラルネットワークコントローラにはスケールできない。 ESにおける効率的な近似手法を利用して、非常に高次元にスケールする3つの新しいCMA-MAE変種を提案する。 実験の結果,この変種は,最先端の深層強化学習に基づく品質多様性アルゴリズムと同等でありながら,ベンチマークロボットの移動タスクにおいてESベースのベースラインを上回っていることがわかった。 ソースコードとビデオはhttps://scalingcmamae.github.ioで入手できる。

Pre-training a diverse set of robot controllers in simulation has enabled robots to adapt online to damage in robot locomotion tasks. However, finding diverse, high-performing controllers requires specialized hardware and extensive tuning of a large number of hyperparameters. On the other hand, the Covariance Matrix Adaptation MAP-Annealing algorithm, an evolution strategies (ES)-based quality diversity algorithm, does not have these limitations and has been shown to achieve state-of-the-art performance in standard benchmark domains. However, CMA-MAE cannot scale to modern neural network controllers due to its quadratic complexity. We leverage efficient approximation methods in ES to propose three new CMA-MAE variants that scale to very high dimensions. Our experiments show that the variants outperform ES-based baselines in benchmark robotic locomotion tasks, while being comparable with state-of-the-art deep reinforcement learning-based quality diversity algorithms. Source code and videos are available at https://scalingcmamae.github.io
翻訳日:2022-10-07 15:23:53 公開日:2022-10-06
# ジョインチェーンネットワーク:トランスフォーマーにおける多頭部注意の論理的推論ビュー

Join-Chain Network: A Logical Reasoning View of the Multi-head Attention in Transformer ( http://arxiv.org/abs/2210.02729v1 )

ライセンス: Link先を確認
Jianyi Zhang, Yiran Chen, Jianshu Chen(参考訳) 論理的推論が可能なニューラルアーキテクチャの開発は、広範囲のアプリケーション(例えば自然言語処理)にとってますます重要になっている。 この大目的に向けて、我々はまず、特に自然言語のモデリングに有用なFOETをチェーンするシンボリック推論アーキテクチャを提案する。 異なる学習能力を付与するために,記号結合鎖を近似する様々なニューラル演算子を精査する。 興味深いことに、変圧器で広く使われるマルチヘッド自己アテンションモジュールは、確率的述語空間における結合演算子の結合境界を実装する特別なニューラルネットワークとして理解することができる。 我々の分析は、自然言語理解のためのBERTのような事前学習モデルのメカニズムの新しい視点を提供するだけでなく、いくつかの重要な改善方向も示唆している。

Developing neural architectures that are capable of logical reasoning has become increasingly important for a wide range of applications (e.g., natural language processing). Towards this grand objective, we first propose a symbolic reasoning architecture that chain FOET, which is particularly useful for modeling natural languages. To endow it with differentiable learning capability, we closely examine various neural operators for approximating the symbolic join-chains. Interestingly, we find that the widely used multi-head self-attention module in transformer can be understood as a special neural operator that implements the union bound of the join operator in probabilistic predicate space. Our analysis not only provides a new perspective on the mechanism of the pretrained models such as BERT for natural language understanding, but also suggests several important future improvement directions.
翻訳日:2022-10-07 15:23:12 公開日:2022-10-06
# 展開グラフの伝播

Expander Graph Propagation ( http://arxiv.org/abs/2210.02997v1 )

ライセンス: Link先を確認
Andreea Deac, Marc Lackenby, Petar Veli\v{c}kovi\'c(参考訳) グラフニューラルネットワーク(GNN)をグラフ全体の分類や回帰タスクにデプロイすることは困難であることが知られている。 この空間をナビゲートするGNNアーキテクチャは、時間と空間の複雑さを理想的に要求しながら、ボトルネックやオーバーシャッシングといった病理学的な振る舞いを避ける必要がある。 本研究では,拡張グラフ上での情報伝達に基づくエレガントなアプローチを提案する。 与えられた大きさの拡張グラフを構築するための効率的な方法を提案し、この知見を用いてEGPモデルを提案する。 EGPは上記のすべての懸念に対処できるが、セットアップには最小限の労力が必要であり、Open Graph Benchmarkの関連するデータセットやベースラインにその経験的有用性を示す証拠を提供する。 重要なことに、メッセージパッシングのテンプレートとしてexpander graphsを使用することは、必ずしも負の曲率をもたらす。 オーバースカッシングに関する最近の研究からすると、これは直感的とは思えないが、ボトルネックを伴わずにスケーラブルなメッセージパッシングを得るためには、負の湾曲したエッジが必要であることが理論的に証明されている。 我々の知る限りでは、これはグラフ表現学習の文脈における未研究の結果であり、我々の分析は、GNNのオーバーカッシングに対処するための、新しいスケーラブルな方法のクラスへの道を開くものだと考えている。

Deploying graph neural networks (GNNs) on whole-graph classification or regression tasks is known to be challenging: it often requires computing node features that are mindful of both local interactions in their neighbourhood and the global context of the graph structure. GNN architectures that navigate this space need to avoid pathological behaviours, such as bottlenecks and oversquashing, while ideally having linear time and space complexity requirements. In this work, we propose an elegant approach based on propagating information over expander graphs. We provide an efficient method for constructing expander graphs of a given size, and use this insight to propose the EGP model. We show that EGP is able to address all of the above concerns, while requiring minimal effort to set up, and provide evidence of its empirical utility on relevant datasets and baselines in the Open Graph Benchmark. Importantly, using expander graphs as a template for message passing necessarily gives rise to negative curvature. While this appears to be counterintuitive in light of recent related work on oversquashing, we theoretically demonstrate that negatively curved edges are likely to be required to obtain scalable message passing without bottlenecks. To the best of our knowledge, this is a previously unstudied result in the context of graph representation learning, and we believe our analysis paves the way to a novel class of scalable methods to counter oversquashing in GNNs.
翻訳日:2022-10-07 15:17:48 公開日:2022-10-06
# 宝くじの仮説を解き明かす - 当選券のマスクにエンコードされたものは何か?

Unmasking the Lottery Ticket Hypothesis: What's Encoded in a Winning Ticket's Mask? ( http://arxiv.org/abs/2210.03044v1 )

ライセンス: Link先を確認
Mansheej Paul, Feng Chen, Brett W. Larsen, Jonathan Frankle, Surya Ganguli, Gintare Karolina Dziugaite(参考訳) 現代のディープラーニングでは、費用がかかり、過小評価されたネットワークをトレーニングすることで、完全なネットワーク(すなわちマッチング)と同じ精度でトレーニングできるスパルサーネットワークの探索を動機付ける。 イテレーティブ・マグニチュード・プルーニング(IMP)は、優勝チケットとして知られる、非常にスパースなサブネットワークを見つけることができる技術アルゴリズムの状態である。 IMPはトレーニングの反復サイクルで動作し、最小の重量をマスクし、初期のトレーニングポイントに巻き戻し、繰り返す。 その単純さにもかかわらず、IMPがいつどのようにチケットを勝ち取るかという根底にある原則はいまだに解明されていない。 特に,トレーニング終了時に見つかったimpマスクは,トレーニング開始付近のリワーンドネットワークにどのような有用な情報を提供するのか? SGDはどのようにしてこの情報を抽出できるのか? なぜイテレーティブ・プルーニングが必要なのか? 我々は、エラーランドスケープの幾何学的観点から答えを開発する。 まず、連続するプルーニングイテレーションにおけるプルーニングネットワークの高次スパルシティー$\unicode{x2014}$pairsは、エラーバリアがゼロの線形経路で接続される。 これは、トレーニングの終わりに見つかったマスクが、一致したサブレベル集合の望ましい線形連結モードと交差する軸部分空間の同一性を伝えることを示している。 第二に、SGDは強靭性のためにこの情報を活用できることを示し、訓練の早い段階で強い摂動にもかかわらず、このモードに戻ることができる。 第3に、トレーニング終了時のエラーランドスケープの平坦さが、impの各イテレーションでprunできる重みの比率の限界をどのように決定するかを示す。 最後に、IMPにおける再トレーニングの役割は、新しい小さな重みを持つネットワークを見つけることであることを示す。 全体として,これらの結果は,エラーランドスケープ幾何学の基本的役割を明らかにすることによって,当選チケットの存在を確定する方向に進んでいる。

Modern deep learning involves training costly, highly overparameterized networks, thus motivating the search for sparser networks that can still be trained to the same accuracy as the full network (i.e. matching). Iterative magnitude pruning (IMP) is a state of the art algorithm that can find such highly sparse matching subnetworks, known as winning tickets. IMP operates by iterative cycles of training, masking smallest magnitude weights, rewinding back to an early training point, and repeating. Despite its simplicity, the underlying principles for when and how IMP finds winning tickets remain elusive. In particular, what useful information does an IMP mask found at the end of training convey to a rewound network near the beginning of training? How does SGD allow the network to extract this information? And why is iterative pruning needed? We develop answers in terms of the geometry of the error landscape. First, we find that$\unicode{x2014}$at higher sparsities$\unicode{x2014}$pairs of pruned networks at successive pruning iterations are connected by a linear path with zero error barrier if and only if they are matching. This indicates that masks found at the end of training convey the identity of an axial subspace that intersects a desired linearly connected mode of a matching sublevel set. Second, we show SGD can exploit this information due to a strong form of robustness: it can return to this mode despite strong perturbations early in training. Third, we show how the flatness of the error landscape at the end of training determines a limit on the fraction of weights that can be pruned at each iteration of IMP. Finally, we show that the role of retraining in IMP is to find a network with new small weights to prune. Overall, these results make progress toward demystifying the existence of winning tickets by revealing the fundamental role of error landscape geometry.
翻訳日:2022-10-07 15:17:24 公開日:2022-10-06
# モバイルインタフェースの意味理解向上に向けて

Towards Better Semantic Understanding of Mobile Interfaces ( http://arxiv.org/abs/2210.02663v1 )

ライセンス: Link先を確認
Srinivas Sunkara, Maria Wang, Lijuan Liu, Gilles Baechler, Yu-Chung Hsiao, Jindong (JD) Chen, Abhanshu Sharma and James Stout(参考訳) モバイルデバイスのアクセシビリティと自動化機能の改善は、無数のユーザーの日常生活に大きな影響を与える可能性がある。 この方向に研究を刺激するため、UI要素の機能の理解を高めることを目的とした、約500万のユニークなアノテーションを備えた人間アノテーション付きデータセットをリリースする。 このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張し、その形状とセマンティクスに基づいたアイコンのアノテーションと、異なる要素と対応するテキストラベルの関連付けにより、UI要素の数とそれらに割り当てられたカテゴリが大幅に増加する。 画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。 我々のモデルは、目に見えないアプリの評価セットで強力な性能を示し、新しい画面への一般化性を示している。 これらのモデルと新しいデータセットを組み合わせることで、ラベルによるUI要素の参照、アイコンのカバレッジの改善、セマンティクスの改善といった革新的な機能を実現することができる。

Improving the accessibility and automation capabilities of mobile devices can have a significant positive impact on the daily lives of countless users. To stimulate research in this direction, we release a human-annotated dataset with approximately 500k unique annotations aimed at increasing the understanding of the functionality of UI elements. This dataset augments images and view hierarchies from RICO, a large dataset of mobile UIs, with annotations for icons based on their shapes and semantics, and associations between different elements and their corresponding text labels, resulting in a significant increase in the number of UI elements and the categories assigned to them. We also release models using image-only and multimodal inputs; we experiment with various architectures and study the benefits of using multimodal inputs on the new dataset. Our models demonstrate strong performance on an evaluation set of unseen apps, indicating their generalizability to newer screens. These models, combined with the new dataset, can enable innovative functionalities like referring to UI elements by their labels, improved coverage and better semantics for icons etc., which would go a long way in making UIs more usable for everyone.
翻訳日:2022-10-07 15:16:55 公開日:2022-10-06
# 新しい経路:合成命令と模倣学習による視覚言語ナビゲーションのスケーリング

A New Path: Scaling Vision-and-Language Navigation with Synthetic Instructions and Imitation Learning ( http://arxiv.org/abs/2210.03112v1 )

ライセンス: Link先を確認
Aishwarya Kamath, Peter Anderson, Su Wang, Jing Yu Koh, Alexander Ku, Austin Waters, Yinfei Yang, Jason Baldridge and Zarana Parekh(参考訳) 近年のVLN(Vision-and-Language Navigation)では、人間の指示に従うインテリジェントエージェントやロボットへのステップとして、RLエージェントを光現実的な環境で自然言語ナビゲーション命令を実行するように訓練している。 しかし、人間の指導データの不足と訓練環境の多様性を考えると、これらのエージェントは複雑な言語基底化と空間言語理解に苦しむ。 Webからの大きなテキストとイメージテキストのデータセットを事前トレーニングすることは、広く検討されているが、改善は限られている。 ドメイン内命令データの不足に対処するため,合成命令を用いた大規模拡張について検討する。 密集した360デグパノラマで撮影された500以上の屋内環境を取り、これらのパノラマを通してナビゲーショントラジェクタを構築し、高品質の多言語ナビゲーションインストラクションジェネレータであるmarky (wang et al., 2022) を用いて、各軌道に対して視覚的に接地した命令を生成する。 トラジェクトリの変動性をさらに高めるため、画像から画像へのGANを用いて、新しい視点から画像観察を合成する。 4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きく、幅広い環境と視点を含んでいる。 このスケールでデータを効率的に活用するために,700m以上の経験ステップを模倣学習したトランスフォーマーエージェントを訓練する。 挑戦的なRoom-across-Roomデータセットでは、既存のRLエージェントを全て上回り、現在のNATWを71.1から79.1に改善し、見えないテスト環境では64.6から66.8に改善しました。 我々の研究は、大規模模倣学習と合成命令生成能力の発達を強調し、命令追従エージェントを改善するための新たな道を示す。

Recent studies in Vision-and-Language Navigation (VLN) train RL agents to execute natural-language navigation instructions in photorealistic environments, as a step towards intelligent agents or robots that can follow human instructions. However, given the scarcity of human instruction data and limited diversity in the training environments, these agents still struggle with complex language grounding and spatial language understanding. Pre-training on large text and image-text datasets from the web has been extensively explored but the improvements are limited. To address the scarcity of in-domain instruction data, we investigate large-scale augmentation with synthetic instructions. We take 500+ indoor environments captured in densely-sampled 360 deg panoramas, construct navigation trajectories through these panoramas, and generate a visually-grounded instruction for each trajectory using Marky (Wang et al., 2022), a high-quality multilingual navigation instruction generator. To further increase the variability of the trajectories, we also synthesize image observations from novel viewpoints using an image-to-image GAN. The resulting dataset of 4.2M instruction-trajectory pairs is two orders of magnitude larger than existing human-annotated datasets, and contains a wider variety of environments and viewpoints. To efficiently leverage data at this scale, we train a transformer agent with imitation learning for over 700M steps of experience. On the challenging Room-across-Room dataset, our approach outperforms all existing RL agents, improving the state-of-the-art NDTW from 71.1 to 79.1 in seen environments, and from 64.6 to 66.8 in unseen test environments. Our work points to a new path to improving instruction-following agents, emphasizing large-scale imitation learning and the development of synthetic instruction generation capabilities.
翻訳日:2022-10-07 15:16:35 公開日:2022-10-06
# CLAD: バックグラウンドデバイアスに対するコントラスト学習に基づくアプローチ

CLAD: A Contrastive Learning based Approach for Background Debiasing ( http://arxiv.org/abs/2210.02748v1 )

ライセンス: Link先を確認
Ke Wang, Harshitha Machiraju, Oh-Hyeon Choung, Michael Herzog, Pascal Frossard(参考訳) 畳み込みニューラルネットワーク(CNN)は、複数の視覚タスク、特に画像分類において超人的性能を達成した。 しかし、人間とは異なり、cnnは背景情報などのスプリアス機能を利用して意思決定を行う。 この傾向は、強靭性や弱一般化性能の観点から異なる問題を引き起こす。 本研究を通じて,CNNの背景バイアスを軽減するために,コントラッシブラーニングベースアプローチ(CLAD)を導入する。 CLADは、オブジェクトフォアグラウンドにセマンティックなフォーカスを奨励し、無意味な背景から学習機能を罰する。 また, 陰性試料を効率よく採取する方法も提案した。 前回のベンチマークを4.1\%で上回り、バックグラウンドチャレンジデータセットで最先端の結果を得る。 本稿では,CLADが背景やテクスチャ(補足材料)など,突発的特徴の偏りの証明として機能することを示す。

Convolutional neural networks (CNNs) have achieved superhuman performance in multiple vision tasks, especially image classification. However, unlike humans, CNNs leverage spurious features, such as background information to make decisions. This tendency creates different problems in terms of robustness or weak generalization performance. Through our work, we introduce a contrastive learning-based approach (CLAD) to mitigate the background bias in CNNs. CLAD encourages semantic focus on object foregrounds and penalizes learning features from irrelavant backgrounds. Our method also introduces an efficient way of sampling negative samples. We achieve state-of-the-art results on the Background Challenge dataset, outperforming the previous benchmark with a margin of 4.1\%. Our paper shows how CLAD serves as a proof of concept for debiasing of spurious features, such as background and texture (in supplementary material).
翻訳日:2022-10-07 15:15:40 公開日:2022-10-06
# SimPer: 周期的ターゲットの簡単な自己教師付き学習

SimPer: Simple Self-Supervised Learning of Periodic Targets ( http://arxiv.org/abs/2210.03115v1 )

ライセンス: Link先を確認
Yuzhe Yang, Xin Liu, Jiang Wu, Silviu Borac, Dina Katabi, Ming-Zher Poh, Daniel McDuff(参考訳) 人間の生理学から環境進化まで、自然における重要な過程は、しばしば有意義で強い周期的または準周期的な変化を示す。 固有のラベルの不足のため、限定的あるいは全く監督しない周期的タスクの有用な表現を学ぶことは大きな利益となる。 しかし、既存の自己教師付き学習(SSL)手法は、データの本質的な周期性を見落とし、周期的または周波数的属性をキャプチャする表現を学ばない。 本稿では,データ内の周期情報を学習するための単純なコントラスト型SSLシステムであるSimPerを提案する。 周期的帰納バイアスを活用するために、SimPerは、カスタマイズされた拡張、特徴類似度尺度、そして、効率的で堅牢な周期表現を学習するための一般化されたコントラスト的損失を導入する。 人間の行動分析、環境センシング、医療分野における一般的な現実世界のタスクに関する広範囲な実験は、最先端のssl法と比較して、simperの優れた性能を検証し、データ効率の向上、スプリアス相関への堅牢性、分散シフトの一般化といった興味深い特性を強調している。 コードとデータは、https://github.com/YyzHarry/SimPer.comで入手できる。

From human physiology to environmental evolution, important processes in nature often exhibit meaningful and strong periodic or quasi-periodic changes. Due to their inherent label scarcity, learning useful representations for periodic tasks with limited or no supervision is of great benefit. Yet, existing self-supervised learning (SSL) methods overlook the intrinsic periodicity in data, and fail to learn representations that capture periodic or frequency attributes. In this paper, we present SimPer, a simple contrastive SSL regime for learning periodic information in data. To exploit the periodic inductive bias, SimPer introduces customized augmentations, feature similarity measures, and a generalized contrastive loss for learning efficient and robust periodic representations. Extensive experiments on common real-world tasks in human behavior analysis, environmental sensing, and healthcare domains verify the superior performance of SimPer compared to state-of-the-art SSL methods, highlighting its intriguing properties including better data efficiency, robustness to spurious correlations, and generalization to distribution shifts. Code and data are available at: https://github.com/YyzHarry/SimPer.
翻訳日:2022-10-07 15:15:09 公開日:2022-10-06
# eコマースの自動シーンベーストピックチャネル構築システム

Automatic Scene-based Topic Channel Construction System for E-Commerce ( http://arxiv.org/abs/2210.02643v1 )

ライセンス: Link先を確認
Peng Lin, Yanyan Zou, Lingfei Wu, Mian Ma, Zhuoye Ding, Bo Long(参考訳) あるシナリオ内でユーザーの興味をよく示すシーンマーケティングは、オフラインショッピングに効果的であることが証明された。 本研究は,eコマースプラットフォームにおけるシーンマーケティングを行うために,新しい商品形態と,同じ利用シナリオに属する多様な製品のリストと,そのシナリオをマーケティング用語で記述したトピックタイトルからなるシーンベースのトピックチャネルを提案する。 何十億もの製品と、動的で多様な顧客の興味によって、チャネルの手動構築が時間を要するため、特定の使用シナリオのチャネルを自動的に構築し、新しいトピックを見つけるためにAI技術を活用する必要がある。 具体的には、まず、チャネル構築タスクを2段階の問題、すなわち、シーンベースのトピック生成と製品クラスタリングとして構成し、eコマースのシーンベースのトピックチャネル構築システム(eコマースのトピック生成モデル、トピックの類似性に基づく製品クラスタリング、自動モデルフィルタリングとヒューマンスクリーニングに基づく品質管理からなる、自動生産を実現するためのeコマースのトピックチャネル構築システム(estc)を提案する。 大規模なオフライン実験とオンラインA/Bテストは、そのような新しい製品形態と提案システムの有効性を検証する。 さらに,提案するシステムを実世界の電子商取引推薦プラットフォームに展開する経験についても紹介する。

Scene marketing that well demonstrates user interests within a certain scenario has proved effective for offline shopping. To conduct scene marketing for e-commerce platforms, this work presents a novel product form, scene-based topic channel which typically consists of a list of diverse products belonging to the same usage scenario and a topic title that describes the scenario with marketing words. As manual construction of channels is time-consuming due to billions of products as well as dynamic and diverse customers' interests, it is necessary to leverage AI techniques to automatically construct channels for certain usage scenarios and even discover novel topics. To be specific, we first frame the channel construction task as a two-step problem, i.e., scene-based topic generation and product clustering, and propose an E-commerce Scene-based Topic Channel construction system (i.e., ESTC) to achieve automated production, consisting of scene-based topic generation model for the e-commerce domain, product clustering on the basis of topic similarity, as well as quality control based on automatic model filtering and human screening. Extensive offline experiments and online A/B test validates the effectiveness of such a novel product form as well as the proposed system. In addition, we also introduce the experience of deploying the proposed system on a real-world e-commerce recommendation platform.
翻訳日:2022-10-07 15:14:31 公開日:2022-10-06
# リレーショナル抽象化による推論の学習

Learning to Reason With Relational Abstractions ( http://arxiv.org/abs/2210.02615v1 )

ライセンス: Link先を確認
Andrew J. Nam, Mengye Ren, Chelsea Finn, James L. McClelland(参考訳) 大規模言語モデルは最近、解決ステップのシーケンスを人間が生成したシーケンスで微調整した場合、数学的推論の有望な進歩を示している。 しかし、解列は公式には構造化されておらず、結果として生じるモデル生成シーケンスは、専門家が生成するであろう体系的な推論を反映していないかもしれない。 本稿では,リレーショナル抽象化という概念を用いて,言語モデルにおける推論能力の強化について検討する。 中間解ステップから目標状態への遷移の抽象的な特徴付けをより明確にする新しいタイプのシーケンスを導入する。 提案手法では,プロンプトのようなシーケンスを付与したモデルでは,タスクの精度が大幅に向上し,そのようなシーケンスを生成するためのトレーニングを受けたモデルは,以前使用されていたヒト生成シーケンスや他のベースラインでトレーニングしたモデルよりも優れた問題を解くことができる。 本研究は,多段階の数学的推論を必要とするタスクにおいて,言語モデルがどのように機能するかを解明し,改善するためのいくつかのステップを踏む。

Large language models have recently shown promising progress in mathematical reasoning when fine-tuned with human-generated sequences walking through a sequence of solution steps. However, the solution sequences are not formally structured and the resulting model-generated sequences may not reflect the kind of systematic reasoning we might expect an expert human to produce. In this paper, we study how to build stronger reasoning capability in language models using the idea of relational abstractions. We introduce new types of sequences that more explicitly provide an abstract characterization of the transitions through intermediate solution steps to the goal state. We find that models that are supplied with such sequences as prompts can solve tasks with a significantly higher accuracy, and models that are trained to produce such sequences solve problems better than those that are trained with previously used human-generated sequences and other baselines. Our work thus takes several steps toward elucidating and improving how language models perform on tasks requiring multi-step mathematical reasoning.
翻訳日:2022-10-07 15:07:56 公開日:2022-10-06
# 事前学習バイエンコーダを用いたコモンセンス特性のモデル化

Modelling Commonsense Properties using Pre-Trained Bi-Encoders ( http://arxiv.org/abs/2210.02771v1 )

ライセンス: Link先を確認
Amit Gajbhiye, Luis Espinosa-Anke, Steven Schockaert(参考訳) 日常概念の共通性を理解することは言語理解の重要な前提条件である。 文脈化された言語モデルは人間のレベルの精度でそのようなコモンセンス特性を予測できると言われているが、これらの結果はトレーニングとテストの概念の相似性が高いために膨らませられていると論じる。 これは、概念の類似性を捉えるモデルは、たとえコモンセンスプロパティ自体の知識を捉えていなくても、うまく機能することを意味する。 トレーニングとテストの間に考慮されるプロパティの重複がない環境では、標準言語モデルの経験的パフォーマンスが劇的に低下していることが分かりました。 そこで本研究では,概念とその特性をモデル化するための微調整言語モデルの可能性について検討する。 特に,抽出されたhyponym-hypernym対とジェネリック文の2種類のデータに対して,分離概念とプロパティエンコーダを訓練する。 実験結果から,得られたエンコーダにより,言語モデルを直接調整することで,より高精度でコモンセンス特性を予測できることがわかった。 また,非教師なしハイパーニム発見のタスクについて実験結果を示す。

Grasping the commonsense properties of everyday concepts is an important prerequisite to language understanding. While contextualised language models are reportedly capable of predicting such commonsense properties with human-level accuracy, we argue that such results have been inflated because of the high similarity between training and test concepts. This means that models which capture concept similarity can perform well, even if they do not capture any knowledge of the commonsense properties themselves. In settings where there is no overlap between the properties that are considered during training and testing, we find that the empirical performance of standard language models drops dramatically. To address this, we study the possibility of fine-tuning language models to explicitly model concepts and their properties. In particular, we train separate concept and property encoders on two types of readily available data: extracted hyponym-hypernym pairs and generic sentences. Our experimental results show that the resulting encoders allow us to predict commonsense properties with much higher accuracy than is possible by directly fine-tuning language models. We also present experimental results for the related task of unsupervised hypernym discovery.
翻訳日:2022-10-07 15:07:38 公開日:2022-10-06
# チャットハンドオフにおける因果推論

Causal Inference for Chatting Handoff ( http://arxiv.org/abs/2210.02862v1 )

ライセンス: Link先を確認
Shanshan Zhong, Jinghui Qin, Zhongzhan Huang, Daifeng Li(参考訳) チャットボットの失敗を予測し、人間とエージェントのコラボレーションを可能にすることによるチャットボットの品質確保を目的として、MHCH(Machine-Human Chatting Handoff)は近年、業界と学術の両方から多くの注目を集めている。 しかし,既存のほとんどの手法は,ユーザ状態や労働コストといった因果関係を無視するマルチタスク学習に基づく対話コンテキストやグローバルな満足度予測の支援に重点を置いている。 これらの変数はハンドオフ決定に大きく関連し、予測バイアスとコスト増大をもたらす。 そこで本研究では,mhchの因果グラフを,単純かつ有効なモジュールであり,既存のmhchメソッドへの接続が容易であるmhchの因果グラフを確立することにより,causal-enhance module (cem)を提案する。 ユーザへの影響については,マルチタスクの因果関係に応じて,ユーザ状態を用いて予測バイアスを補正する。 作業コストについては,モデルがコストを認識できるように,非偏りのある作業コストを計算するための補助コストシミュレータを訓練する。 4つの実世界のベンチマークで実施された大規模な実験は、CEMが既存のMHCH法の性能を精巧なモデル作成なしに向上することを示すものである。

Aiming to ensure chatbot quality by predicting chatbot failure and enabling human-agent collaboration, Machine-Human Chatting Handoff (MHCH) has attracted lots of attention from both industry and academia in recent years. However, most existing methods mainly focus on the dialogue context or assist with global satisfaction prediction based on multi-task learning, which ignore the grounded relationships among the causal variables, like the user state and labor cost. These variables are significantly associated with handoff decisions, resulting in prediction bias and cost increasement. Therefore, we propose Causal-Enhance Module (CEM) by establishing the causal graph of MHCH based on these two variables, which is a simple yet effective module and can be easy to plug into the existing MHCH methods. For the impact of users, we use the user state to correct the prediction bias according to the causal relationship of multi-task. For the labor cost, we train an auxiliary cost simulator to calculate unbiased labor cost through counterfactual learning so that a model becomes cost-aware. Extensive experiments conducted on four real-world benchmarks demonstrate the effectiveness of CEM in generally improving the performance of existing MHCH methods without any elaborated model crafting.
翻訳日:2022-10-07 15:07:22 公開日:2022-10-06
# ソフトマックスかソフトマックスか:これはトランスフォーマーモデルにアクティブラーニングを適用する場合の問題です

To Softmax, or not to Softmax: that is the question when applying Active Learning for Transformer Models ( http://arxiv.org/abs/2210.03005v1 )

ライセンス: Link先を確認
Julius Gonsior, Christian Falkenberg, Silvio Magino, Anja Reusch, Maik Thiele, Wolfgang Lehner(参考訳) ほぼすべての自然言語処理アプリケーションにおいて最先端の成果が得られたにもかかわらず、微調整されたトランスフォーマーベースの言語モデルはまだかなりの量のラベル付きデータを必要とする。 ラベル付きデータセットを取得する際の人間の労力を減らすためのよく知られたテクニックは \textit{active learning} (al): 最小限のサンプルだけをラベル付けする反復プロセスである。 AL戦略はモデル予測の定量的信頼度尺度へのアクセスを必要とする。 一般的な選択は、最終層のsoftmaxアクティベーション関数である。 ソフトマックス関数は誤解を招く確率を提供するため、7つのデータセット上の8つの選択肢を比較する。 ほぼパラドックス的な発見は、ほとんどの手法が真に不確実なサンプル(外れ値)を特定するのに長すぎること、そしてラベリングが排他的でないことでパフォーマンスが低下することである。 ヒューリスティックとして, サンプルを体系的に無視し, ソフトマックス関数と比較して様々な方法が改善されることを示す。

Despite achieving state-of-the-art results in nearly all Natural Language Processing applications, fine-tuning Transformer-based language models still requires a significant amount of labeled data to work. A well known technique to reduce the amount of human effort in acquiring a labeled dataset is \textit{Active Learning} (AL): an iterative process in which only the minimal amount of samples is labeled. AL strategies require access to a quantified confidence measure of the model predictions. A common choice is the softmax activation function for the final layer. As the softmax function provides misleading probabilities, this paper compares eight alternatives on seven datasets. Our almost paradoxical finding is that most of the methods are too good at identifying the true most uncertain samples (outliers), and that labeling therefore exclusively outliers results in worse performance. As a heuristic we propose to systematically ignore samples, which results in improvements of various methods compared to the softmax function.
翻訳日:2022-10-07 15:07:01 公開日:2022-10-06
# ニューラルネットワーク翻訳のための大きな動作空間を用いた強化学習

Reinforcement Learning with Large Action Spaces for Neural Machine Translation ( http://arxiv.org/abs/2210.03053v1 )

ライセンス: Link先を確認
Asaf Yehudai, Leshem Choshen, Lior Fox, Omri Abend(参考訳) 最大極大推定(MLE)による強化学習(RL)の適用は、ニューラルネットワーク翻訳(NMT)性能を向上させるための汎用的な方法である。 しかし、最近の研究は、NMTのRLが生み出す利益は主に、既に事前訓練の確率がかなり高いトークンの促進によるものであると論じている。 我々は、大きな作用空間がMTにおけるRLの有効性の主な障害であると仮定し、我々の仮説を支持する2つの実験を行う。 まず,語彙のサイズを小さくすることで,RLの有効性が向上することがわかった。 第二に、語彙を変化させることなく行動空間の次元を効果的に減らすことは、BLEU、意味的類似性、人的評価による顕著な改善をもたらす。 実際、ネットワークの最終完全連結層(ネットワークの内部次元を語彙次元にマッピングする)を、類似のアクションを一般化する層で初期化することで、rl性能の大幅な改善(平均1.5 bleu点)が得られる。

Applying Reinforcement learning (RL) following maximum likelihood estimation (MLE) pre-training is a versatile method for enhancing neural machine translation (NMT) performance. However, recent work has argued that the gains produced by RL for NMT are mostly due to promoting tokens that have already received a fairly high probability in pre-training. We hypothesize that the large action space is a main obstacle to RL's effectiveness in MT, and conduct two sets of experiments that lend support to our hypothesis. First, we find that reducing the size of the vocabulary improves RL's effectiveness. Second, we find that effectively reducing the dimension of the action space without changing the vocabulary also yields notable improvement as evaluated by BLEU, semantic similarity, and human evaluation. Indeed, by initializing the network's final fully connected layer (that maps the network's internal dimension to the vocabulary dimension), with a layer that generalizes over similar actions, we obtain a substantial improvement in RL performance: 1.5 BLEU points on average.
翻訳日:2022-10-07 15:06:42 公開日:2022-10-06
# 言語モデルは多言語連鎖思考論者である

Language Models are Multilingual Chain-of-Thought Reasoners ( http://arxiv.org/abs/2210.03057v1 )

ライセンス: Link先を確認
Freda Shi, Mirac Suzgun, Markus Freitag, Xuezhi Wang, Suraj Srivats, Soroush Vosoughi, Hyung Won Chung, Yi Tay, Sebastian Ruder, Denny Zhou, Dipanjan Das, Jason Wei(参考訳) 多言語設定における大規模言語モデルの推論能力を評価する。 本稿では,GSM8Kデータセット(Cobbe et al., 2021)から,250の小学校数学問題を10言語に手動で翻訳することで,MGSMベンチマークを導入する。 モデルスケールの増大に伴ってMGSM問題の解法が出現し,ベンガル語やスワヒリ語のような表現不足言語においても,モデルが極めて強い多言語推論能力を持つことがわかった。 最後に,言語モデルの多言語推論能力は,コモンセンス推論や文脈内意味判断といった他のタスクにも拡張できることを示す。 MGSMベンチマークはhttps://github.com/google-research/url-nlpで公開されている。

We evaluate the reasoning abilities of large language models in multilingual settings. We introduce the Multilingual Grade School Math (MGSM) benchmark, by manually translating 250 grade-school math problems from the GSM8K dataset (Cobbe et al., 2021) into ten typologically diverse languages. We find that the ability to solve MGSM problems via chain-of-thought prompting emerges with increasing model scale, and that models have strikingly strong multilingual reasoning abilities, even in underrepresented languages such as Bengali and Swahili. Finally, we show that the multilingual reasoning abilities of language models extend to other tasks such as commonsense reasoning and word-in-context semantic judgment. The MGSM benchmark is publicly available at https://github.com/google-research/url-nlp.
翻訳日:2022-10-07 15:06:24 公開日:2022-10-06
# InferES : 否定に基づく反対・反対例を特徴とするスペイン語の自然言語推論コーパス

InferES : A Natural Language Inference Corpus for Spanish Featuring Negation-Based Contrastive and Adversarial Examples ( http://arxiv.org/abs/2210.03068v1 )

ライセンス: Link先を確認
Venelin Kovatchev and Mariona Taul\'e(参考訳) 本稿では,ヨーロッパにおける自然言語推論(nli)のためのオリジナルのコーパスであるinferesについて述べる。 我々は,専門家言語学者や群衆労働者を活用したコーパス作成戦略を提案し,実装し,分析する。 inferesの背後にある目標は、高品質なデータを提供することと、同時に自動化システムの体系的な評価を容易にすることである。 具体的には,ネゲーションに基づく対向例における機械学習システムの性能の測定と改善と,分布外トピックをまたいで一般化する能力に注目する。 様々なシナリオで2つのトランスフォーマーモデルをinferes(8,055ゴールドの例)でトレーニングします。 我々の最良のモデルは72.8%の精度で、改善の余地がたくさんある。 ハイポテーゼのみ" ベースラインは多数派より2%-5%だけ高く、以前の作業よりもアノテーションアーティファクトがはるかに少ないことを示している。 推論に基づいてトレーニングされたモデルは、トピック(イン・オブ・ディストリビューションとアウト・オブ・ディストリビューションの両方)をまたいで非常によく一般化し、否定ベースの敵の例で適度に機能する。

In this paper, we present InferES - an original corpus for Natural Language Inference (NLI) in European Spanish. We propose, implement, and analyze a variety of corpus-creating strategies utilizing expert linguists and crowd workers. The objectives behind InferES are to provide high-quality data, and, at the same time to facilitate the systematic evaluation of automated systems. Specifically, we focus on measuring and improving the performance of machine learning systems on negation-based adversarial examples and their ability to generalize across out-of-distribution topics. We train two transformer models on InferES (8,055 gold examples) in a variety of scenarios. Our best model obtains 72.8% accuracy, leaving a lot of room for improvement. The "hypothesis-only" baseline performs only 2%-5% higher than majority, indicating much fewer annotation artifacts than prior work. We find that models trained on InferES generalize very well across topics (both in- and out-of-distribution) and perform moderately well on negation-based adversarial examples.
翻訳日:2022-10-07 15:06:09 公開日:2022-10-06
# ジェネレーティブモデリングのためのフローマッチング

Flow Matching for Generative Modeling ( http://arxiv.org/abs/2210.02747v1 )

ライセンス: Link先を確認
Yaron Lipman, Ricky T. Q. Chen, Heli Ben-Hamu, Maximilian Nickel, Matt Le(参考訳) 連続正規化フロー(CNF)上に構築された生成モデリングのための新しいパラダイムを導入し、前例のない規模でCNFを訓練する。 具体的には、固定条件付き確率パスの回帰ベクトル場に基づいてCNFを訓練するためのシミュレーション不要なアプローチであるフローマッチング(FM)の概念を提案する。 フローマッチングは、ノイズとデータサンプルの間の変換を行うガウス確率パスの一般的なファミリーと互換性がある。 興味深いことに、拡散経路を用いたFMは、より堅牢で安定した拡散モデルの代替となる。 さらに、フローマッチングは、他の非拡散確率パスとCNFを訓練する扉を開く。 特に興味深い例は、条件付き確率経路を定義するために最適輸送(OT)変位補間を用いることである。 これらの経路は拡散経路よりも効率的であり、より高速なトレーニングとサンプリングを提供し、より良い一般化をもたらす。 ImageNet上でのFlow Matchingを用いたCNFのトレーニングは、可能性とサンプル品質の両方の観点から最先端のパフォーマンスをもたらし、オフザシェルフ数値ODEソルバを用いた高速で信頼性の高いサンプル生成を可能にする。

We introduce a new paradigm for generative modeling built on Continuous Normalizing Flows (CNFs), allowing us to train CNFs at unprecedented scale. Specifically, we present the notion of Flow Matching (FM), a simulation-free approach for training CNFs based on regressing vector fields of fixed conditional probability paths. Flow Matching is compatible with a general family of Gaussian probability paths for transforming between noise and data samples -- which subsumes existing diffusion paths as specific instances. Interestingly, we find that employing FM with diffusion paths results in a more robust and stable alternative for training diffusion models. Furthermore, Flow Matching opens the door to training CNFs with other, non-diffusion probability paths. An instance of particular interest is using Optimal Transport (OT) displacement interpolation to define the conditional probability paths. These paths are more efficient than diffusion paths, provide faster training and sampling, and result in better generalization. Training CNFs using Flow Matching on ImageNet leads to state-of-the-art performance in terms of both likelihood and sample quality, and allows fast and reliable sample generation using off-the-shelf numerical ODE solvers.
翻訳日:2022-10-07 15:05:49 公開日:2022-10-06
# 弾性ネットによる通信効率とドリフトロバスト連関学習

Communication-Efficient and Drift-Robust Federated Learning via Elastic Net ( http://arxiv.org/abs/2210.02940v1 )

ライセンス: Link先を確認
Seonhyeong Kim, Jiheon Woo, Daewon Seo, Yongjune Kim(参考訳) Federated Learning(FL)は、データのローカライズを維持しながら、ローカルクライアントのセット上でグローバルモデルをトレーニングする分散手法である。 プライバシーとセキュリティのリスクを減らすが、高価な通信コストやクライアントのドリフト問題など、重要な課題に直面している。 この問題に対処するため,我々は elastic net を活用した通信効率が高くドリフトロバストflフレームワーク fedelasticnet を提案する。 1) $\ell_1$-norm 正規化器はローカル更新をスパースして通信コストを削減し、(2) $\ell_2$-norm 正規化器はデータの不均一性による局所更新のドリフトの影響を制限してクライアントドリフト問題を解決する。 FedElasticNetはFLの一般的なフレームワークであり、追加のコストなしでFedAvg、FedProx、SCAFFOLD、FedDynといった従来のFL技術に統合することができる。 本フレームワークが通信コストとクライアントドリフト問題を効果的に解決することを示す。

Federated learning (FL) is a distributed method to train a global model over a set of local clients while keeping data localized. It reduces the risks of privacy and security but faces important challenges including expensive communication costs and client drift issues. To address these issues, we propose FedElasticNet, a communication-efficient and drift-robust FL framework leveraging the elastic net. It repurposes two types of the elastic net regularizers (i.e., $\ell_1$ and $\ell_2$ penalties on the local model updates): (1) the $\ell_1$-norm regularizer sparsifies the local updates to reduce the communication costs and (2) the $\ell_2$-norm regularizer resolves the client drift problem by limiting the impact of drifting local updates due to data heterogeneity. FedElasticNet is a general framework for FL; hence, without additional costs, it can be integrated into prior FL techniques, e.g., FedAvg, FedProx, SCAFFOLD, and FedDyn. We show that our framework effectively resolves the communication cost and client drift problems simultaneously.
翻訳日:2022-10-07 15:05:31 公開日:2022-10-06
# Ask Me Anything: 言語モデルを促進するためのシンプルな戦略

Ask Me Anything: A simple strategy for prompting language models ( http://arxiv.org/abs/2210.02441v2 )

ライセンス: Link先を確認
Simran Arora, Avanika Narayan, Mayee F. Chen, Laurel Orr, Neel Guha, Kush Bhatia, Ines Chami, Frederic Sala, Christopher R\'e(参考訳) 大規模言語モデル(LLM)は、単にタスクの実行方法を示す自然言語プロンプトを与えられただけで、追加のトレーニングは行われない。 プロンプティング(英: Prompting)は、プロンプトへの小さな変更がモデル予測に大きなバリエーションを引き起こすという不安定なプロセスである。 プロンプトデザインに関わる高い労力を軽減するために、複数の効果的だが不完全なプロンプトを作成し、それらを集約することで高品質なプロンプト戦略につながるかどうかを問う。 我々の観測は提案手法であるASK ME ANYTHING (AMA) を動機付けている。 まず、有効なプロンプト形式を理解し、QA(Qanguage-Awering)プロンプトがオープンエンド生成を促進する(Who went the park?)ことを発見し、モデル出力を制限するプロンプトよりも優れている(John went the park. Output True or False.)。 提案手法では,LLM自体を用いてタスク入力を効率的なQA形式に変換する。 収集したプロンプトを適用して、入力の真のラベルに対していくつかのノイズの多い投票を行う。 提案手法では,プロンプトの精度と複雑な依存性が全く異なる場合があり,ノイズ予測を組み合わせるための弱い監督手法を用いて入力の最終的な予測を行う。 オープンソースモデルファミリ(例えばEleutherAI, BLOOM, OPT, T0)とモデルサイズ(125M-175Bパラメータ)でAMAを評価し, 少数のベースラインに対して平均10.2%の性能向上を示した。 この単純な戦略により、オープンソースのGPT-J-6Bモデルは、20のベンチマークのうち15のベンチマークにおいて、数ショットのGPT3-175Bの性能にマッチし、超えることができる。 GPT-Neo-6BはGPT3-175Bより優れている。 コードはここでリリースします。 https://github.com/hazyresearch/ama_prompting

Large language models (LLMs) transfer well to new tasks out-of-the-box simply given a natural language prompt that demonstrates how to perform the task and no additional training. Prompting is a brittle process wherein small modifications to the prompt can cause large variations in the model predictions, and therefore significant effort is dedicated towards designing a painstakingly "perfect prompt" for a task. To mitigate the high degree of effort involved in prompt-design, we instead ask whether producing multiple effective, yet imperfect, prompts and aggregating them can lead to a high quality prompting strategy. Our observations motivate our proposed prompting method, ASK ME ANYTHING (AMA). We first develop an understanding of the effective prompt formats, finding that question-answering (QA) prompts, which encourage open-ended generation ("Who went to the park?") tend to outperform those that restrict the model outputs ("John went to the park. Output True or False."). Our approach recursively uses the LLM itself to transform task inputs to the effective QA format. We apply the collected prompts to obtain several noisy votes for the input's true label. We find that the prompts can have very different accuracies and complex dependencies and thus propose to use weak supervision, a procedure for combining the noisy predictions, to produce the final predictions for the inputs. We evaluate AMA across open-source model families (e.g., EleutherAI, BLOOM, OPT, and T0) and model sizes (125M-175B parameters), demonstrating an average performance lift of 10.2% over the few-shot baseline. This simple strategy enables the open-source GPT-J-6B model to match and exceed the performance of few-shot GPT3-175B on 15 of 20 popular benchmarks. Averaged across these tasks, the GPT-Neo-6B model outperforms few-shot GPT3-175B. We release our code here: https://github.com/HazyResearch/ama_prompting
翻訳日:2022-10-07 15:00:31 公開日:2022-10-06
# パズル作品の収集:テクスチャの交換による不連続な自己駆動型人間のポーズ伝達

Collecting The Puzzle Pieces: Disentangled Self-Driven Human Pose Transfer by Permuting Textures ( http://arxiv.org/abs/2210.01887v2 )

ライセンス: Link先を確認
Nannan Li, Kevin J. Shih, Bryan A. Plummer(参考訳) 人間のポーズ転送は、所定のポーズの下で人の新しい視点を合成することを目的としています。 近年の研究では、人物像からポーズとテクスチャの特徴を区別し、2つの特徴を組み合わせる自己再構成によってこれを実現している。 このような機能レベルの絡み合いは困難で不明確な問題であり、詳細や不要なアーティファクトが失われる可能性がある。 本稿では,ランダムにテクスチャを置換し,画像レベルの不連続と細部保存テクスチャ転送を実現するために,二枝注意で画像を再構成する自己駆動型ポーズ伝達法を提案する。 特徴レベルのゆがみと比較して、画像レベルのゆがみはより制御可能で信頼性が高い。 さらに, 知覚場の大きさの異なる2重カーネルエンコーダを導入し, 順応によるノイズを低減し, ポーズやテクスチャを調整しながら衣料品の細部を復元する。 deepfashionとmarket-1501に関する広範な実験により,fid,lpip,ssimを用いて生成した画像の品質を,他の自己駆動型手法よりも向上させるとともに,教師付き手法を上回ることも示された。 ユーザスタディでは, 自己駆動型アプローチでは, 従来の作業よりも72%のケースで生成した画像が好まれている。

Human pose transfer aims to synthesize a new view of a person under a given pose. Recent works achieve this via self-reconstruction, which disentangles pose and texture features from the person image, then combines the two features to reconstruct the person. Such feature-level disentanglement is a difficult and ill-defined problem that could lead to loss of details and unwanted artifacts. In this paper, we propose a self-driven human pose transfer method that permutes the textures at random, then reconstructs the image with a dual branch attention to achieve image-level disentanglement and detail-preserving texture transfer. We find that compared with feature-level disentanglement, image-level disentanglement is more controllable and reliable. Furthermore, we introduce a dual kernel encoder that gives different sizes of receptive fields in order to reduce the noise caused by permutation and thus recover clothing details while aligning pose and textures. Extensive experiments on DeepFashion and Market-1501 shows that our model improves the quality of generated images in terms of FID, LPIPS and SSIM over other self-driven methods, and even outperforming some fully-supervised methods. A user study also shows that among self-driven approaches, images generated by our method are preferred in 72% of cases over prior work.
翻訳日:2022-10-07 14:59:51 公開日:2022-10-06
# RISC-Vツールチェーンとアジャイル開発ベースのオープンソースニューロモーフィックプロセッサ

RISC-V Toolchain and Agile Development based Open-source Neuromorphic Processor ( http://arxiv.org/abs/2210.00562v2 )

ライセンス: Link先を確認
Jiulong Wang, Ruopu Wu, Guokai Chen, Xuhao Chen, Boran Liu, Jixiang Zong, Di Zhao(参考訳) 近年,脳の動作を模倣するニューロモルフィックコンピューティングがコンピュータ科学の様々な分野で開発されている。 ANN(Artificial Neural Network)は、人工知能(AI)において重要な概念である。 認識と分類に利用される。 ハードウェア上で、高速でエネルギー効率のよい脳の振る舞いをシミュレートするより良い方法を探るため、研究者はニューロモルフィックコンピューティングのような高度な手法が必要である。 この場合、スパイキングニューラルネットワーク(SNN)はハードウェア実装において最適な選択肢となる。 最近の研究はSNNコンピューティングの高速化に重点を置いている。 しかし、ほとんどのアクセラレーターソリューションは、この構造における複雑な制御フローのためにエネルギー非効率なCPU加速器アーキテクチャに基づいている。 本稿では、汎用CPU機能とSNNを組み合わせた低消費電力ニューロモルフィックプロセッサであるWenquxing 22Aを提案し、RISC-V SNN拡張命令で効率的に計算する。 Wenquxing 22Aの主なアイデアは、SNN計算ユニットを汎用CPUのパイプラインに統合して、カスタマイズされたRISC-V SNN命令バージョン1.0(RV-SNN V1.0)、Streamlined Leaky Integrate-and-Fire(LIF)モデル、およびバイナリ確率スパイク応答依存塑性(STDP)による低消費電力コンピューティングを実現することである。 wenquxing 22aのソースコードはgiteeとgithubからオンラインで公開されている。 Wenquxing 22AをMNISTデータセットの認識に適用し、他のSNNシステムと比較する。 Wenquxing 22Aは,3ビットODINオンライン学習では85.00%,1ビットODINでは91.91%,アクセラレータソリューションでは5.13倍のエネルギー消費を達成できた。

In recent decades, neuromorphic computing aiming to imitate brains' behaviors has been developed in various fields of computer science. The Artificial Neural Network (ANN) is an important concept in Artificial Intelligence (AI). It is utilized in recognition and classification. To explore a better way to simulate obtained brain behaviors, which is fast and energy-efficient, on hardware, researchers need an advanced method such as neuromorphic computing. In this case, Spiking Neural Network (SNN) becomes an optimal choice in hardware implementation. Recent works are focusing on accelerating SNN computing. However, most accelerator solutions are based on CPU-accelerator architecture which is energy-inefficient due to the complex control flows in this structure. This paper proposes Wenquxing 22A, a low-power neuromorphic processor that combines general-purpose CPU functions and SNN to efficiently compute it with RISC-V SNN extension instructions. The main idea of Wenquxing 22A is to integrate the SNN calculation unit into the pipeline of a general-purpose CPU to achieve low-power computing with customized RISC-V SNN instructions version 1.0 (RV-SNN V1.0), Streamlined Leaky Integrate-and-Fire (LIF) model, and the binary stochastic Spike-timing-dependent-plasticity (STDP). The source code of Wenquxing 22A is released online on Gitee and GitHub. We apply Wenquxing 22A to the recognition of the MNIST dataset to make a comparison with other SNN systems. Our experiment results show that Wenquxing 22A improves the energy expenses by 5.13 times over the accelerator solution, ODIN, with approximately classification accuracy, 85.00% for 3-bit ODIN online learning, and 91.91% for 1-bit Wenquxing 22A.
翻訳日:2022-10-07 14:58:59 公開日:2022-10-06
# BVI-VFI:ビデオフレーム補間のためのビデオ品質データベース

BVI-VFI: A Video Quality Database for Video Frame Interpolation ( http://arxiv.org/abs/2210.00823v2 )

ライセンス: Link先を確認
Duolikun Danier, Fan Zhang, David Bull(参考訳) ビデオフレーム補間(VFI)は、ビデオ処理の基本的な研究テーマであり、現在、研究コミュニティ全体で注目を集めている。 より高度なvfiアルゴリズムの開発は広範囲に研究されているが、人間が補間コンテンツの品質をどのように知覚するか、そして既存の客観的品質評価手法が知覚品質を測定する際にどのように機能するかについてはほとんど理解されていない。 この研究ギャップを狭めるためにBVI-VFIという新しいビデオ品質データベースを開発した。このデータベースは5つの一般的なVFIアルゴリズムを適用した540の歪みシーケンスを、様々な空間解像度とフレームレートで36の多様なソースビデオに適用することで生成する。 被験者189名を対象に大規模な主観的研究を行い,これらのビデオの品質評価を10,800件以上収集した。 収集した主観的スコアに基づいて,VFIアルゴリズムとフレームレートが補間ビデオの知覚品質に与える影響をさらに分析した。 さらに,新しいデータベース上で28の古典的,最先端の客観的画像/映像品質指標の性能をベンチマークし,より正確なVFIの品質評価手法の緊急要件を実証した。 この領域のさらなる研究を促進するため、BVI-VFIをhttps://github.com/danielism97/BVI-VFI-databaseで公開しました。

Video frame interpolation (VFI) is a fundamental research topic in video processing, which is currently attracting increased attention across the research community. While the development of more advanced VFI algorithms has been extensively researched, there remains little understanding of how humans perceive the quality of interpolated content and how well existing objective quality assessment methods perform when measuring the perceived quality. In order to narrow this research gap, we have developed a new video quality database named BVI-VFI, which contains 540 distorted sequences generated by applying five commonly used VFI algorithms to 36 diverse source videos with various spatial resolutions and frame rates. We collected more than 10,800 quality ratings for these videos through a large scale subjective study involving 189 human subjects. Based on the collected subjective scores, we further analysed the influence of VFI algorithms and frame rates on the perceptual quality of interpolated videos. Moreover, we benchmarked the performance of 28 classic and state-of-the-art objective image/video quality metrics on the new database, and demonstrated the urgent requirement for more accurate bespoke quality assessment methods for VFI. To facilitate further research in this area, we have made BVI-VFI publicly available at https://github.com/danielism97/BVI-VFI-database.
翻訳日:2022-10-07 14:58:25 公開日:2022-10-06
# 大規模合成グラフデータセット生成のためのフレームワーク

A Framework for Large Scale Synthetic Graph Dataset Generation ( http://arxiv.org/abs/2210.01944v2 )

ライセンス: Link先を確認
Sajad Darabi, Piotr Bigaj, Dawid Majchrowski, Pawel Morkisz, Alex Fit-Florea(参考訳) 近年,ノードやエッジの分類,リンクの予測,クラスタリングといった多くのグラフ解析タスクに対して,不正検出や薬物発見,レコメンダシステムなど,多数の実用的な応用によるディープグラフ学習アルゴリズムの開発や展開への関心が高まっている。 一般に利用可能なグラフ構造データセットは限られており、そのほとんどが数十兆のエッジと数十億のノードを持つ実運用規模のアプリケーションと比べて小さなものだ。 さらに、同様の特性を持つ類似データセット間で、新しいアルゴリズムとモデルがベンチマークされる。 本研究では,実世界のグラフの本来のデータ分布を模倣し,任意のサイズにスケール可能な,スケーラブルな合成グラフ生成ツールを提案する。 このツールは、プロプライエタリなデータセットからパラメトリックモデルのセットを学習するために使用され、その後研究者にリリースされ、プロトタイプ開発と新規アプリケーションの増加する合成データに関する様々なグラフメソッドを研究することができる。 最後に、グラフ学習アルゴリズムの性能は、サイズだけでなく、データセットの構造にも依存する。 我々のフレームワークがデータセットの集合をまたいでどのように一般化し、構造的および特徴的分布と、さまざまなデータセットサイズにまたがるスケーラビリティの両方を模倣するかを示します。

Recently there has been increasing interest in developing and deploying deep graph learning algorithms for many graph analysis tasks such as node and edge classification, link prediction, and clustering with numerous practical applications such as fraud detection, drug discovery, or recommender systems. Allbeit there is a limited number of publicly available graph-structured datasets, most of which are tiny compared to production-sized applications with trillions of edges and billions of nodes. Further, new algorithms and models are benchmarked across similar datasets with similar properties. In this work, we tackle this shortcoming by proposing a scalable synthetic graph generation tool that can mimic the original data distribution of real-world graphs and scale them to arbitrary sizes. This tool can be used then to learn a set of parametric models from proprietary datasets that can subsequently be released to researchers to study various graph methods on the synthetic data increasing prototype development and novel applications. Finally, the performance of the graph learning algorithms depends not only on the size but also on the dataset's structure. We show how our framework generalizes across a set of datasets, mimicking both structural and feature distributions as well as its scalability across varying dataset sizes.
翻訳日:2022-10-07 14:58:01 公開日:2022-10-06
# ガイドガンを用いた不整合環境における音響特徴変換の効率化

Efficient acoustic feature transformation in mismatched environments using a Guided-GAN ( http://arxiv.org/abs/2210.00721v3 )

ライセンス: Link先を確認
Walter Heymans, Marelie H. Davel, Charl van Heerden(参考訳) 本稿では,音声入力機能を利用するGAN(Generative Adversarial Network)を用いて,資源共有環境における自動音声認識(ASR)システムを改善するフレームワークを提案する。 GANは復号に先立ってミスマッチしたデータの特徴を強化するために使用され、音響モデルを微調整するために任意に使用できる。 マルチスタイルトレーニング(MTR)に匹敵する改善を実現するが、計算コストは低い。 1時間未満のデータで、良質なデータに基づいて訓練され、ミスマッチされたオーディオで評価されるasrシステムは、11.5%から19.7%の相対的単語誤り率(wer)で改善される。 実験により、このフレームワークはトレーニングデータと計算リソースが限られている非リソース環境で非常に有用であることが示されている。 GANは、ベースライン音響モデルを利用して、ジェネレータにベースラインによってよりよく分類された音響特徴を作成するための損失項を提供するため、並列トレーニングデータを必要としない。

We propose a new framework to improve automatic speech recognition (ASR) systems in resource-scarce environments using a generative adversarial network (GAN) operating on acoustic input features. The GAN is used to enhance the features of mismatched data prior to decoding, or can optionally be used to fine-tune the acoustic model. We achieve improvements that are comparable to multi-style training (MTR), but at a lower computational cost. With less than one hour of data, an ASR system trained on good quality data, and evaluated on mismatched audio is improved by between 11.5% and 19.7% relative word error rate (WER). Experiments demonstrate that the framework can be very useful in under-resourced environments where training data and computational resources are limited. The GAN does not require parallel training data, because it utilises a baseline acoustic model to provide an additional loss term that guides the generator to create acoustic features that are better classified by the baseline.
翻訳日:2022-10-07 14:57:41 公開日:2022-10-06
# 学習した等価性を測定するためのリー導出剤

The Lie Derivative for Measuring Learned Equivariance ( http://arxiv.org/abs/2210.02984v1 )

ライセンス: Link先を確認
Nate Gruver, Marc Finzi, Micah Goldblum, Andrew Gordon Wilson(参考訳) 等分散は、モデルの予測がデータ内の鍵対称性をキャプチャすることを保証する。 画像が変換または回転されると、同変モデルの画像表現は、それに応じて変換または回転する。 畳み込みニューラルネットワークの成功は、歴史的に、そのアーキテクチャに直接エンコードされた翻訳等価性に結びついている。 共分散に対する明確なアーキテクチャバイアスを持たない視覚トランスフォーマーの成功は、この物語に挑戦し、拡張とトレーニングデータがパフォーマンスにおいて重要な役割を果たす可能性があることを示唆している。 近年のビジョンモデルにおける等分散の役割をよりよく理解するために、強い数学的基礎と極小ハイパーパラメータで等分散を測定する方法であるリー微分を導入する。 リー微分を用いて,cnn,トランスフォーマー,ミキサーアーキテクチャにまたがる何百もの事前学習モデルの等分散特性について検討した。 分析の規模は、アーキテクチャの影響をモデルのサイズやトレーニング方法といった他の要因と区別することができます。 驚いたことに、等分散の多くの違反は、ポイントワイズ非線形性のようなユビキタスネットワーク層における空間的エイリアスと関連付けられ、モデルが大きくなり、より正確になるにつれて、アーキテクチャに関係なくより等分散を示す傾向がある。 例えば、トランスフォーマーはトレーニング後の畳み込みニューラルネットワークよりも等価である。

Equivariance guarantees that a model's predictions capture key symmetries in data. When an image is translated or rotated, an equivariant model's representation of that image will translate or rotate accordingly. The success of convolutional neural networks has historically been tied to translation equivariance directly encoded in their architecture. The rising success of vision transformers, which have no explicit architectural bias towards equivariance, challenges this narrative and suggests that augmentations and training data might also play a significant role in their performance. In order to better understand the role of equivariance in recent vision models, we introduce the Lie derivative, a method for measuring equivariance with strong mathematical foundations and minimal hyperparameters. Using the Lie derivative, we study the equivariance properties of hundreds of pretrained models, spanning CNNs, transformers, and Mixer architectures. The scale of our analysis allows us to separate the impact of architecture from other factors like model size or training method. Surprisingly, we find that many violations of equivariance can be linked to spatial aliasing in ubiquitous network layers, such as pointwise non-linearities, and that as models get larger and more accurate they tend to display more equivariance, regardless of architecture. For example, transformers can be more equivariant than convolutional neural networks after training.
翻訳日:2022-10-07 14:57:24 公開日:2022-10-06
# 画像集合をストーリーとして記述するための視覚トランスフォーマーモデル

Vision Transformer Based Model for Describing a Set of Images as a Story ( http://arxiv.org/abs/2210.02762v1 )

ライセンス: Link先を確認
Zainy M. Malakan, Ghulam Mubashar Hassan, and Ajmal Mian(参考訳) ビジュアルストーリーテリング(Visual Story-Telling)は、画像の集合から多文ストーリーを形成するプロセスである。 入力画像内の視覚的変化やコンテキスト情報を含めることは、視覚的ストーリーテリングの最も難しい側面の1つである。 その結果、一連の画像から発展したストーリーは、結束性、関連性、意味関係を欠くことが多い。 本稿では,画像の集合を物語として記述するための新しい視覚変換器ベースモデルを提案する。 提案手法は視覚変換器(ViT)を用いて入力画像の特徴を抽出する。 まず、入力画像を16×16パッチに分割し、フラット化されたパッチの線形投影に束ねる。 単一のイメージから複数のイメージパッチへの変換は、入力された視覚パターンの視覚的多様性をキャプチャする。 これらの機能は、シーケンスエンコーダの一部である双方向LSTMへの入力として使用される。 これはすべてのイメージパッチの過去と将来のイメージコンテキストをキャプチャする。 次に、注意機構を実装して、言語モデル、すなわちMogrifier-LSTMに入力されたデータの識別能力を高める。 提案モデルの性能はVisual Story-Telling dataset (VIST) を用いて評価し,本モデルが現在の技術モデルよりも優れていることを示す。

Visual Story-Telling is the process of forming a multi-sentence story from a set of images. Appropriately including visual variation and contextual information captured inside the input images is one of the most challenging aspects of visual storytelling. Consequently, stories developed from a set of images often lack cohesiveness, relevance, and semantic relationship. In this paper, we propose a novel Vision Transformer Based Model for describing a set of images as a story. The proposed method extracts the distinct features of the input images using a Vision Transformer (ViT). Firstly, input images are divided into 16X16 patches and bundled into a linear projection of flattened patches. The transformation from a single image to multiple image patches captures the visual variety of the input visual patterns. These features are used as input to a Bidirectional-LSTM which is part of the sequence encoder. This captures the past and future image context of all image patches. Then, an attention mechanism is implemented and used to increase the discriminatory capacity of the data fed into the language model, i.e. a Mogrifier-LSTM. The performance of our proposed model is evaluated using the Visual Story-Telling dataset (VIST), and the results show that our model outperforms the current state of the art models.
翻訳日:2022-10-07 14:57:03 公開日:2022-10-06
# MuRAG:画像とテキストに対するオープン質問応答のためのマルチモーダル検索拡張ジェネレータ

MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text ( http://arxiv.org/abs/2210.02928v1 )

ライセンス: Link先を確認
Wenhu Chen, Hexiang Hu, Xi Chen, Pat Verga, William W. Cohen(参考訳) 言語モデルは、そのパラメータに暗黙的に大量の世界知識を格納するが、非常に大きなモデルでさえ、膨大な計算コストを伴いながら、まれなエンティティやイベントに関する情報をエンコードできないことが多い。 近年,REALM,RAG,RETROなどの検索強化モデルでは,外部の非パラメトリック指標を活用して世界知識を言語生成に取り入れ,制約付きモデルサイズで印象的な性能を示した。 しかし、これらの手法は、画像のような他のモダリティにおけるユビキタスな知識を無視して、テキストの知識のみを取得することに制限されている。 この制限に対処するために、外部のパラメトリックなマルチモーダルメモリにアクセスして言語生成を行う、最初のMultimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは、大規模な画像テキストとテキストのみのコーパスの混合で、ジョイントコントラストとジェネレーションロスを用いて事前訓練される。 我々は,WebQAとMultimodalQAという,与えられたクエリに応答するために,画像とテキストの検索と推論を必要とする2つの異なるデータセットの実験を行う。 以上の結果から,mragは既存のモデルと比較して,データセットと気晴らし設定とウィキ設定の両方において絶対値が10~20\%向上した。

While language Models store a massive amount of world knowledge implicitly in their parameters, even very large models often fail to encode information about rare entities and events, while incurring huge computational costs. Recently, retrieval-augmented models, such as REALM, RAG, and RETRO, have incorporated world knowledge into language generation by leveraging an external non-parametric index and have demonstrated impressive performance with constrained model sizes. However, these methods are restricted to retrieving only textual knowledge, neglecting the ubiquitous amount of knowledge in other modalities like images -- much of which contains information not covered by any text. To address this limitation, we propose the first Multimodal Retrieval-Augmented Transformer (MuRAG), which accesses an external non-parametric multimodal memory to augment language generation. MuRAG is pre-trained with a mixture of large-scale image-text and text-only corpora using a joint contrastive and generative loss. We perform experiments on two different datasets that require retrieving and reasoning over both images and text to answer a given query: WebQA, and MultimodalQA. Our results show that MuRAG achieves state-of-the-art accuracy, outperforming existing models by 10-20\% absolute on both datasets and under both distractor and full-wiki settings.
翻訳日:2022-10-07 14:56:46 公開日:2022-10-06
# 視覚言語モデルはいつ、なぜ言葉の袋のように振る舞うのか。

When and why vision-language models behave like bags-of-words, and what to do about it? ( http://arxiv.org/abs/2210.01936v2 )

ライセンス: Link先を確認
Mert Yuksekgonul, Federico Bianchi, Pratyusha Kalluri, Dan Jurafsky, James Zou(参考訳) 多くの下流アプリケーションで大きなビジョンと言語モデル(VLM)が成功しているが、どのように構成情報をエンコードするかは不明である。 ここでは、VLMが様々な種類の関係、属性、順序を理解する能力について、体系的に評価するための属性、関係、順序(ARO)ベンチマークを作成する。 AROは、オブジェクトのプロパティの理解をテストするためのVisual Genome Attribution、リレーショナル理解をテストするVisual Genome Relation、注文感度をテストするCOCO & Flickr30k-Orderで構成されている。 AROは、以前の構成性のベンチマークよりも桁違いに大きく、5万以上のテストケースがある。 我々は最先端のvlmがリレーショナル理解に乏しいところを示し、オブジェクトと属性をリンクするときに鈍くなり、注文の感度が著しく欠如していることを示す。 VLMは画像とキャプションにリッチな構成構造を持つ大規模なデータセットで主に訓練され評価される。 しかし、これらのデータセットのトレーニングは、構成的理解の欠如に対処するには不十分であり、これらのデータセットの評価はこの不足を表面化できていない。 これらの制限が標準テストに現れて表現されない理由を理解するために、評価手順とトレーニング手順を拡大する。 構成情報や順序情報を使わずに既存のデータセットの検索をうまく行うことができることを示す。 対照的な事前学習が類似したショートカットを持つデータセットの検索に最適化されることを考えると、なぜモデルが構成情報を表現するために学習する必要がないのかを説明することができる。 この発見は、組成に敏感な負の鉱業という自然な解決策を示唆している。 コントラスト学習をシンプルに実装することで、順序と構成性の理解を必要とするタスクのパフォーマンスが大幅に向上することを示す。

Despite the success of large vision and language models (VLMs) in many downstream applications, it is unclear how well they encode compositional information. Here, we create the Attribution, Relation, and Order (ARO) benchmark to systematically evaluate the ability of VLMs to understand different types of relationships, attributes, and order. ARO consists of Visual Genome Attribution, to test the understanding of objects' properties; Visual Genome Relation, to test for relational understanding; and COCO & Flickr30k-Order, to test for order sensitivity. ARO is orders of magnitude larger than previous benchmarks of compositionality, with more than 50,000 test cases. We show where state-of-the-art VLMs have poor relational understanding, can blunder when linking objects to their attributes, and demonstrate a severe lack of order sensitivity. VLMs are predominantly trained and evaluated on large datasets with rich compositional structure in the images and captions. Yet, training on these datasets has not been enough to address the lack of compositional understanding, and evaluating on these datasets has failed to surface this deficiency. To understand why these limitations emerge and are not represented in the standard tests, we zoom into the evaluation and training procedures. We demonstrate that it is possible to perform well on retrieval over existing datasets without using the composition and order information. Given that contrastive pretraining optimizes for retrieval on datasets with similar shortcuts, we hypothesize that this can explain why the models do not need to learn to represent compositional information. This finding suggests a natural solution: composition-aware hard negative mining. We show that a simple-to-implement modification of contrastive learning significantly improves the performance on tasks requiring understanding of order and compositionality.
翻訳日:2022-10-07 14:50:57 公開日:2022-10-06
# 校正一般化ギャップ

The Calibration Generalization Gap ( http://arxiv.org/abs/2210.01964v2 )

ライセンス: Link先を確認
A. Michael Carrell, Neil Mallinar, James Lucas, Preetum Nakkiran(参考訳) キャリブレーションは優れた予測モデルの基本特性であり、その信頼度に比例してモデルが正しく予測する必要がある。 しかし、現代のニューラルネットワークは、そのキャリブレーションに関する強力な保証を提供していない。 良質な校正に寄与する要因(アーキテクチャ、データ拡張、過剰パラメータ化など)は、文献に様々な主張があるが、現時点では不明である。 本研究では,(1)列車のキャリブレーション誤差,(2)キャリブレーション一般化ギャップに分解することにより,キャリブレーション誤差を体系的に検討する方法を提案する。 これは一般化の基本的な分解を反映している。 次に,これらの各項について検討し,(1) DNNは典型的に列車セット上で校正され,(2) 校正一般化ギャップは標準一般化ギャップによって上界となることを示す。 これは、小さな一般化ギャップを持つモデル(|Test Error - Train Error|)がよく校正されていることを意味する。 この観点は文献において多くの結果を統一し、一般化ギャップ(データの追加、重い拡張、より小さいモデルサイズなど)を減らす介入も校正を改善することを示唆している。 そこで我々は, キャリブレーション, 一般化, 最適化の関係を, より体系的で包括的に理解するための基礎研究を行う。

Calibration is a fundamental property of a good predictive model: it requires that the model predicts correctly in proportion to its confidence. Modern neural networks, however, provide no strong guarantees on their calibration -- and can be either poorly calibrated or well-calibrated depending on the setting. It is currently unclear which factors contribute to good calibration (architecture, data augmentation, overparameterization, etc), though various claims exist in the literature. We propose a systematic way to study the calibration error: by decomposing it into (1) calibration error on the train set, and (2) the calibration generalization gap. This mirrors the fundamental decomposition of generalization. We then investigate each of these terms, and give empirical evidence that (1) DNNs are typically always calibrated on their train set, and (2) the calibration generalization gap is upper-bounded by the standard generalization gap. Taken together, this implies that models with small generalization gap (|Test Error - Train Error|) are well-calibrated. This perspective unifies many results in the literature, and suggests that interventions which reduce the generalization gap (such as adding data, using heavy augmentation, or smaller model size) also improve calibration. We thus hope our initial study lays the groundwork for a more systematic and comprehensive understanding of the relation between calibration, generalization, and optimization.
翻訳日:2022-10-07 14:50:29 公開日:2022-10-06
# COMPS:事前学習言語モデルにおける概念最小ペア文による特性知識と継承性のテスト

COMPS: Conceptual Minimal Pair Sentences for testing Property Knowledge and Inheritance in Pre-trained Language Models ( http://arxiv.org/abs/2210.01963v2 )

ライセンス: Link先を確認
Kanishka Misra, Julia Taylor Rayz, Allyson Ettinger(参考訳) 人間のセマンティックメモリの特徴は、経験を通して観察された概念のプロパティを保存し、取り出すだけでなく、スーパーオーディネートな概念(動物)から従属的な概念(犬)へのプロパティ(呼吸)の継承を促進する能力である。 本稿では,事前学習された言語モデル(plms)を共同でテストし,概念に属性を付与する能力と,特性継承の振る舞いを実証する能力について述べる。 comps上の22の異なるplmの分析により、それらは自明に異なる性質に基づいて容易に概念を区別できるが、概念がニュアンス化された知識表現に基づいて関連している場合、比較的難しいことが分かる。 さらに, PLM は, プロパティ継承に一貫性のある動作を示すことができるが, 多くのモデルの性能を低下させ, 場合によってはチャンスを下回っている。 この単純な推論の頑健さの欠如は、前提となる知識を持っているように見える場合でも正しい推論を行うplmの能力に関する重要な疑問を提起する。

A characteristic feature of human semantic memory is its ability to not only store and retrieve the properties of concepts observed through experience, but to also facilitate the inheritance of properties (can breathe) from superordinate concepts (animal) to their subordinates (dog) -- i.e. demonstrate property inheritance. In this paper, we present COMPS, a collection of minimal pair sentences that jointly tests pre-trained language models (PLMs) on their ability to attribute properties to concepts and their ability to demonstrate property inheritance behavior. Analyses of 22 different PLMs on COMPS reveal that they can easily distinguish between concepts on the basis of a property when they are trivially different, but find it relatively difficult when concepts are related on the basis of nuanced knowledge representations. Furthermore, we find that PLMs can demonstrate behavior consistent with property inheritance to a great extent, but fail in the presence of distracting information, which decreases the performance of many models, sometimes even below chance. This lack of robustness in demonstrating simple reasoning raises important questions about PLMs' capacity to make correct inferences even when they appear to possess the prerequisite knowledge.
翻訳日:2022-10-07 14:49:35 公開日:2022-10-06
# メモリ効率変換器の群自己保持機構

Grouped self-attention mechanism for a memory-efficient Transformer ( http://arxiv.org/abs/2210.00440v2 )

ライセンス: Link先を確認
Bumjun Jung, Yusuke Mukuta, Tatsuya Harada(参考訳) 時系列データ分析は、天気予報、電力消費、株式市場といった現実世界の多くのタスクが、時間とともに変化するデータの予測に関わるため重要である。 時系列データは通常、その周期的特性と時間的長期依存性のために、長いシーケンスで長い観察期間にわたって記録される。 したがって、時系列データ予測において、長距離依存性を捉えることが重要な要素である。 これらの問題を解決するために,GSA(Grouped Self-Attention)とCCA(Compressed Cross-Attention)という2つの新しいモジュールを提案した。 どちらのモジュールも計算空間と時間複雑性を達成し、小さなハイパーパラメータの制限下でのシーケンス長$l$ のオーダー $o(l)$ を達成し、グローバル情報を考慮しながら局所性をキャプチャできる。 時系列データセットを用いた実験の結果,提案モデルでは,既存の手法に匹敵する計算複雑性と性能の低減が効果的に示された。

Time-series data analysis is important because numerous real-world tasks such as forecasting weather, electricity consumption, and stock market involve predicting data that vary over time. Time-series data are generally recorded over a long period of observation with long sequences owing to their periodic characteristics and long-range dependencies over time. Thus, capturing long-range dependency is an important factor in time-series data forecasting. To solve these problems, we proposed two novel modules, Grouped Self-Attention (GSA) and Compressed Cross-Attention (CCA). With both modules, we achieved a computational space and time complexity of order $O(l)$ with a sequence length $l$ under small hyperparameter limitations, and can capture locality while considering global information. The results of experiments conducted on time-series datasets show that our proposed model efficiently exhibited reduced computational complexity and performance comparable to or better than existing methods.
翻訳日:2022-10-07 14:49:12 公開日:2022-10-06
# バックプロパゲーションの数値不安定性によるニューラルネットワークトレーニングの限界

Limitations of neural network training due to numerical instability of backpropagation ( http://arxiv.org/abs/2210.00805v2 )

ライセンス: Link先を確認
Clemens Karner, Vladimir Kazeev, Philipp Christian Petersen(参考訳) 本研究では,浮動小数点演算を用いた勾配降下による深層ニューラルネットワークの学習について検討する。 この枠組みと現実的な仮定の下では、階層数に対して超直線的に多くのアフィン片を持つ勾配降下学習において、ReLUニューラルネットワークを見つけることは極めて不可能であることを示す。 近似の高次多項式率をもたらす事実上全ての近似理論の議論では、その層数に対して指数関数的に多くのアフィンピースを持つreluニューラルネットワークのシーケンスが使用される。 その結果,ReLUニューラルネットワークの勾配降下による近似列は理論的に構築された配列と大きく異なることがわかった。 仮定と理論的結果は、連続的な結果をもたらす数値的研究と比較される。

We study the training of deep neural networks by gradient descent where floating-point arithmetic is used to compute the gradients. In this framework and under realistic assumptions, we demonstrate that it is highly unlikely to find ReLU neural networks that maintain, in the course of training with gradient descent, superlinearly many affine pieces with respect to their number of layers. In virtually all approximation theoretical arguments which yield high order polynomial rates of approximation, sequences of ReLU neural networks with exponentially many affine pieces compared to their numbers of layers are used. As a consequence, we conclude that approximating sequences of ReLU neural networks resulting from gradient descent in practice differ substantially from theoretically constructed sequences. The assumptions and the theoretical results are compared to a numerical study, which yields concurring results.
翻訳日:2022-10-07 14:48:56 公開日:2022-10-06
# 混合学習のためのフーリエアプローチ

A Fourier Approach to Mixture Learning ( http://arxiv.org/abs/2210.02415v2 )

ライセンス: Link先を確認
Mingda Qiao, Guru Guruganesh, Ankit Singh Rawat, Avinava Dubey, Manzil Zaheer(参考訳) 球状ガウスの混合物を学習する問題を再検討する。 混合 $\frac{1}{k}\sum_{j=1}^{k}\mathcal{n}(\mu_j, i_d)$ からのサンプルが与えられた場合、目標は$\mu_1, \mu_2, \ldots, \mu_k \in \mathbb{r}^d$ を小さな誤差まで推定することである。 この学習問題の難しさは、すべての手段間の最小距離として定義される分離$\Delta$によって測定できる。 Regev と Vijayaraghavan (2017) は、$\Delta = \Omega(\sqrt{\log k})$ 分離によって、この手段は $\mathrm{poly}(k, d)$ サンプルを用いて学習できることを示したが、超多項式的に、$\Delta = o(\sqrt{\log k})$ と $d = \Omega(\log k)$ が要求される。 これにより、$d = o(\log k)$ という低次元のレギュレーションが生まれる。 本研究では,$d = O(\log k/\log k)$ dimensions under separation $d/\sqrt{\log k}$ (modulo doublely logarithmic factor) で効率よく平均を学習するアルゴリズムを提案する。 この分離は$\sqrt{\log k}$よりも厳密に小さく、必要であることが示されている。 Regev と Vijayaraghavan (2017) の結果とともに、球状ガウス混合に対して効率的なパラメータ学習が可能である臨界分離しきい値のほとんどを導いた。 より一般的に、我々のアルゴリズムは時間$\mathrm{poly}(k)\cdot f(d, \Delta, \epsilon)$で実行され、従ってパラメータ$d$、$\Delta$および$\epsilon$で固定パラメータを抽出可能である。 本手法は, 混合液のフーリエ変換を注意深く選択した周波数で推定し, アルゴリズムと解析は単純かつ初等的である。 我々の正の結果は、分布のフーリエスペクトルの穏やかな条件の下で、非ガウス分布の学習混合物に容易に拡張できる。

We revisit the problem of learning mixtures of spherical Gaussians. Given samples from mixture $\frac{1}{k}\sum_{j=1}^{k}\mathcal{N}(\mu_j, I_d)$, the goal is to estimate the means $\mu_1, \mu_2, \ldots, \mu_k \in \mathbb{R}^d$ up to a small error. The hardness of this learning problem can be measured by the separation $\Delta$ defined as the minimum distance between all pairs of means. Regev and Vijayaraghavan (2017) showed that with $\Delta = \Omega(\sqrt{\log k})$ separation, the means can be learned using $\mathrm{poly}(k, d)$ samples, whereas super-polynomially many samples are required if $\Delta = o(\sqrt{\log k})$ and $d = \Omega(\log k)$. This leaves open the low-dimensional regime where $d = o(\log k)$. In this work, we give an algorithm that efficiently learns the means in $d = O(\log k/\log\log k)$ dimensions under separation $d/\sqrt{\log k}$ (modulo doubly logarithmic factors). This separation is strictly smaller than $\sqrt{\log k}$, and is also shown to be necessary. Along with the results of Regev and Vijayaraghavan (2017), our work almost pins down the critical separation threshold at which efficient parameter learning becomes possible for spherical Gaussian mixtures. More generally, our algorithm runs in time $\mathrm{poly}(k)\cdot f(d, \Delta, \epsilon)$, and is thus fixed-parameter tractable in parameters $d$, $\Delta$ and $\epsilon$. Our approach is based on estimating the Fourier transform of the mixture at carefully chosen frequencies, and both the algorithm and its analysis are simple and elementary. Our positive results can be easily extended to learning mixtures of non-Gaussian distributions, under a mild condition on the Fourier spectrum of the distribution.
翻訳日:2022-10-07 14:48:42 公開日:2022-10-06
# リモートセンシング画像からの地下タイル排水管の高精度検出のためのディープラーニングアーキテクチャ

Advanced Deep Learning Architectures for Accurate Detection of Subsurface Tile Drainage Pipes from Remote Sensing Images ( http://arxiv.org/abs/2210.02071v2 )

ライセンス: Link先を確認
Tom-Lukas Breitkopf (1), Leonard W. Hackel (1), Mahdyar Ravanbakhsh (1), Anne-Karin Cooke (2), Sandra Willkommen (2), Stefan Broda (2), Beg\"um Demir (1) ((1) Technische Universit\"at Berlin, (2) Bundesanstalt f\"ur Geowissenschaften und Rohstoffe Berlin)(参考訳) 地下のタイル排水管は農業、経済、環境に便益をもたらす。 湿った土壌の水位を下げることで、植物根の通気を改善し、最終的には農地の生産性を高める。 しかし、それらはまた、土壌の栄養損失を増加させる地下水域への農薬の入り口を提供する。 メンテナンスとインフラ整備のためには、タイル排水管の位置と排水された農地の正確な地図が必要である。 しかし、これらの地図はしばしば時代遅れか存在しない。 異なるリモートセンシング(rs)画像処理技術が長年にわたって適用されてきたが、これらの制限を克服するための成功度は様々である。 近年のディープラーニング(DL)技術の発展は,機械学習セグメンテーションモデルによる従来の手法により改善されている。 本研究では,2つのDLモデルを紹介する。 i) 改良されたu-netアーキテクチャ 二 タイル排水管検出の枠組みにおける視覚変換器に基づくエンコーダデコーダ 実験により, 基本U-Netアーキテクチャと比較して, 検出精度の観点から両モデルの有効性を確認した。 私たちのコードとモデルはhttps://git.tu-berlin.de/rsim/drainage-pipes-detectionで公開しています。

Subsurface tile drainage pipes provide agronomic, economic and environmental benefits. By lowering the water table of wet soils, they improve the aeration of plant roots and ultimately increase the productivity of farmland. They do however also provide an entryway of agrochemicals into subsurface water bodies and increase nutrition loss in soils. For maintenance and infrastructural development, accurate maps of tile drainage pipe locations and drained agricultural land are needed. However, these maps are often outdated or not present. Different remote sensing (RS) image processing techniques have been applied over the years with varying degrees of success to overcome these restrictions. Recent developments in deep learning (DL) techniques improve upon the conventional techniques with machine learning segmentation models. In this study, we introduce two DL-based models: i) improved U-Net architecture; and ii) Visual Transformer-based encoder-decoder in the framework of tile drainage pipe detection. Experimental results confirm the effectiveness of both models in terms of detection accuracy when compared to a basic U-Net architecture. Our code and models are publicly available at https://git.tu-berlin.de/rsim/drainage-pipes-detection.
翻訳日:2022-10-07 14:47:54 公開日:2022-10-06
# 不可能な線形時間論理仕様に対する最小振動連続制御の学習

Learning Minimally-Violating Continuous Control for Infeasible Linear Temporal Logic Specifications ( http://arxiv.org/abs/2210.01162v2 )

ライセンス: Link先を確認
Mingyu Cai, Makai Mann, Zachary Serlin, Kevin Leahy, Cristian-Ioan Vasile(参考訳) 本稿では,線形時間論理(LTL)として表される複雑な高次タスクを満たすために,目標駆動ナビゲーションのための連続時間制御合成を提案する。 本稿では,基盤となる動的システムが未知(不透明箱)である深層強化学習(drl)を用いたモデルフリーフレームワークを提案する。 本稿では,従来の研究とは異なり,LTL仕様が実現不可能であり,グローバルに達成できないシナリオについて考察する。 与えられたLTL式を変更する代わりに、最小限の違反で満たすための一般的なDRLベースのアプローチを提供する。 を、確率的なポリシーで呼ぶのが楽しいかどうかを判断するために、%\mminline{Need。 と言うようなコメントをどこにでも繰り返すつもりはありませんが、複数の場所があります。 これを実現するために、我々は、自動的満足度と最小違反コストを同時に要求する従来の多目的DRL問題を単一目的に変換する。 drlエージェントに潜在的に実現不可能なltlタスクのためのサンプリングベースの経路計画アルゴリズムを誘導することにより、提案手法はdrlの近視的傾向を軽減し、これは長地平線や無限地平線を持つ一般的なltlタスクを学習する際に問題となる。 これは、実用不可能なLTL式を、より短い水平線を持ついくつかのリーチアビドサブタスクに分解することで実現される。 さらに,経路プランナを用いて構成空間に密接な報酬を設計することにより,複雑で散在した環境におけるDRL探索の課題を克服する。 提案手法の利点は, 様々な非線形システムのテストにより実証され, 最先端のベースラインと比較できる。 YouTube Channel:\url{https://youtu.be/jBhx6Nv224E}.com/YouTubeチャンネルでビデオデモが公開されている。

This paper explores continuous-time control synthesis for target-driven navigation to satisfy complex high-level tasks expressed as linear temporal logic (LTL). We propose a model-free framework using deep reinforcement learning (DRL) where the underlying dynamic system is unknown (an opaque box). Unlike prior work, this paper considers scenarios where the given LTL specification might be infeasible and therefore cannot be accomplished globally. Instead of modifying the given LTL formula, we provide a general DRL-based approach to satisfy it with minimal violation. %\mminline{Need to decide if we're comfortable calling these "guarantees" due to the stochastic policy. I'm not repeating this comment everywhere that says "guarantees" but there are multiple places.} To do this, we transform a previously multi-objective DRL problem, which requires simultaneous automata satisfaction and minimum violation cost, into a single objective. By guiding the DRL agent with a sampling-based path planning algorithm for the potentially infeasible LTL task, the proposed approach mitigates the myopic tendencies of DRL, which are often an issue when learning general LTL tasks that can have long or infinite horizons. This is achieved by decomposing an infeasible LTL formula into several reach-avoid sub-tasks with shorter horizons, which can be trained in a modular DRL architecture. Furthermore, we overcome the challenge of the exploration process for DRL in complex and cluttered environments by using path planners to design rewards that are dense in the configuration space. The benefits of the presented approach are demonstrated through testing on various complex nonlinear systems and compared with state-of-the-art baselines. The Video demonstration can be found on YouTube Channel:\url{https://youtu.be/jBhx6Nv224E}.
翻訳日:2022-10-07 14:47:39 公開日:2022-10-06