このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221129となっている論文です。

PDF登録状況(公開日: 20221129)

TitleAuthorsAbstract論文公表日・翻訳日
# 非相対論的量子電磁力学におけるゲージ自由の影響

Implications of gauge freedom for nonrelativistic quantum electrodynamics ( http://arxiv.org/abs/2009.10662v3 )

ライセンス: Link先を確認
Adam Stokes and Ahsan Nazir(参考訳) 教科書以外の量子電磁力学(QED)におけるゲージ自由について概説する。 QEDサブシステムはゲージの選択に対して定義されることが強調されている。 各定義は異なるゲージ不変な可観測値を用いる。 この相対性理論は、十分な数のマルコフおよび弱結合近似が用いられる場合にのみ排除される。 すべての物理予測はゲージ不変であり、フォトン数や絡み合いなどのサブシステム特性を含む。 しかし、サブシステム特性は物理的サブシステムによって自然に異なる。 ゲージのあいまいさはゲージ不変な予測を得る方法が不明確であるからではなく、物理的な可観測物が最も運用上関係であるかどうかが常に明確であるからである。 予測のゲージ不変性は必要だが、その運用上の関連性を保証するには不十分である。 材料系を定義するためにどのゲージ不変観測器が使用されるかを制御する際に、ゲージの選択が材料系の局在と電磁ドレッシングのバランスに影響することが示されている。 有効モデルの導出,時間依存相互作用の記述,光検出理論,空洞内の物質の記述など,サブシステムゲージ相対性理論の様々な意味を概説する。

Gauge freedom in quantum electrodynamics (QED) outside of textbook regimes is reviewed. It is emphasized that QED subsystems are defined relative to a choice of gauge. Each definition uses different gauge-invariant observables. This relativity is eliminated only if a sufficient number of Markovian and weak-coupling approximations are employed. All physical predictions are gauge invariant, including subsystem properties such as photon number and entanglement. However, subsystem properties naturally differ for different physical subsystems. Gauge ambiguities arise not because it is unclear how to obtain gauge-invariant predictions, but because it is not always clear which physical observables are the most operationally relevant. The gauge invariance of a prediction is necessary but not sufficient to ensure its operational relevance. It is shown that, in controlling which gauge invariant observables are used to define a material system, the choice of gauge affects the balance between the material system's localization and its electromagnetic dressing. Various implications of subsystem gauge relativity for deriving effective models, for describing time-dependent interactions, for photodetection theory, and for describing matter within a cavity are reviewed.
翻訳日:2023-05-01 06:57:29 公開日:2022-11-29
# YouTube上のコンテンツとエコーチャンバーの信頼性

Reliability of Content and Echo Chambers on YouTube during the COVID-19 Debate ( http://arxiv.org/abs/2106.08684v2 )

ライセンス: Link先を確認
Niccol\`o Di Marco, Matteo Cinelli, Walter Quattrociocchi(参考訳) 不正確で誤解を招く情報の拡散は、行動を変え、危機管理を複雑にする可能性がある。 本稿は,youtube上でのニュース消費を評価することで,新型コロナウイルスのパンデミック時の情報拡散を調査することを目的とする。 まず、68のyoutubeチャンネルから1万3000本のビデオで200万人以上のユーザーのエンゲージメントを分析し、政治的バイアスと事実チェックインデックスをラベル付けした。 次に,各利用者の政治的嗜好と疑わしい情報(すなわち,事実チェックが不十分な)の消費との関係について検討する。 情報理論の尺度を用いて定量化した結果,政治バイアスと情報チャネルの信頼性に代表される2次元のエコーチャンバーの存在が証明された。 ユーザのインタラクションパターンを適切にランダム化し,エコーチャンバ構造を再現することは不可能である。 また,利用者の政治的偏りと,疑わしいニュースを消費する傾向との関係も観察した。

The spread of inaccurate and misleading information may alter behaviours and complicate crisis management, especially during an emergency like the COVID-19 pandemic. This paper aims to investigate information diffusion during the COVID-19 pandemic by evaluating news consumption on YouTube. First, we analyse more than 2 million users' engagement with 13,000 videos released by 68 YouTube channels, labelled with a political bias and fact-checking index. Then, we study the relationship between each user\~Os political preference and their consumption of questionable (i.e., poorly fact-checked) and reliable information. Our results, quantified using measures from information theory, provide evidence for the existence of echo chambers across two dimensions represented by political bias and the trustworthiness of information channels. We observe that the echo chamber structure cannot be reproduced after properly randomising the users' interaction patterns. Moreover, we observe a relation between the political bias of users and their tendency to consume highly questionable news.
翻訳日:2023-03-26 13:18:04 公開日:2022-11-29
# ガウス過程下の3レベル系におけるデコヒーレンス効果

Decoherence Effects in a Three-Level System under Gaussian Process ( http://arxiv.org/abs/2107.13897v2 )

ライセンス: Link先を確認
Sultan Mahmood Zangi, Atta ur Rahman, ZhaoXu Ji, Hazrat Ai, HuanGuo Zhang(参考訳) ガウス過程によって特徴づけられる古典的変動場を受けるとき、三段階量子系における {purity} とコヒーレンス保護について検討する。 この3レベル系の対称性は, 局所確率場を無雑音・無雑音領域においてさらに検討する場合に検証される。 特に、分数法的なガウス、ガウス、オルンシュタイン-ウレンベック、およびパワー法則を考えると、エンコードされた {純度とコヒーレンス} を維持するためのクォートの対称性に対するオルンシュタイン-ウレンベックの破壊的性質は大きいままである。 以上より, 雑音パラメータを適切に調整することで, 最適拡張 {purity and coherence} 生存を促進できることが示唆された。 非消滅項は単一四重項系の最終密度行列に現れ、強いコヒーレンス状態にあることを示す。 ガウスの全ての雑音のうち、復活しない単調な崩壊は単一クトリット系で観測されている。 コヒーレンスと情報保存の期間において、現在のクォート系は純度とフォン・ノイマンエントロピーを用いて複数のキュービットまたはクォートを持つ系より優れていることが分かる。 a~ 雑音・無騒音環境の比較は、古典ガウス雑音の影響によって局所確率場の変動の性質が最終的に失われることを示している。

When subjected to a classical fluctuating field characterized by a Gaussian process, we examine the {purity} and coherence protection in a three-level quantum system. This symmetry of the three-level system is examined when the local random field is investigated further in the noiseless and noisy regimes. In~particular, we consider fractional Gaussian, Gaussian, Ornstein--Uhlenbeck, and~power law noisy regimes. We show that the destructive nature of the Ornstein--Uhlenbeck noise toward the symmetry of the qutrit to preserve encoded {purity and coherence} remains large. Our findings suggest that properly adjusting the noisy parameters to specifically provided values can facilitate optimal extended {purity and coherence} survival. Non-vanishing terms appear in the final density matrix of the single qutrit system, indicating that it is in a strong coherence regime. Because~of all of the Gaussian noises, monotonic decay with no revivals has been observed in the single qutrit system. In~terms of coherence and information preservation, we find that the current qutrit system outperforms systems with multiple qubits or qutrits using purity and von Neumann entropy. A~comparison of noisy and noiseless situations shows that the fluctuating nature of the local random fields is ultimately lost when influenced using the classical Gaussian noises
翻訳日:2023-03-20 11:40:27 公開日:2022-11-29
# 並列量子アニーリング

Parallel Quantum Annealing ( http://arxiv.org/abs/2111.05995v4 )

ライセンス: Link先を確認
Elijah Pelofske, Georg Hahn, Hristo N. Djidjev(参考訳) D-Wave Systems, Inc. の量子アニールは、NPハード問題の高品質な解を計算する効率的な方法を提供する。 これは、量子チップの物理量子ビットに問題をマッピングすることで実現され、量子アニール後に解が得られる。 しかし、チップ上の物理量子ビットの接続は制限されているため、チップへの問題構造の小さな埋め込みが必要である。 このプロセス、特に小さな問題の場合、多くの量子ビットは使われない。 そこで本研究では,量子アニーラの同じアニーリングサイクルにおいて,複数の問題を埋め込むのに十分な物理量子ビットが存在すると仮定して,同一あるいは複数の独立な問題を解き明かす並列量子アニーラリング法を提案する。 個別解法の品質は、複数の問題を並列に解く際(個別解法とは対照的に)わずかに低下する可能性があるが、本手法は、各問題を量子アニール上で逐次解いた場合と比較して、最大斜め問題のインスタンスを解くために、TTS(Time-to-Solution)の観点から劇的なスピードアップを与えることを示した。 さらに, 並列量子アニールを用いた単一最大傾き問題の解法は, TTSを著しく減少させることを示した。

Quantum annealers of D-Wave Systems, Inc., offer an efficient way to compute high quality solutions of NP-hard problems. This is done by mapping a problem onto the physical qubits of the quantum chip, from which a solution is obtained after quantum annealing. However, since the connectivity of the physical qubits on the chip is limited, a minor embedding of the problem structure onto the chip is required. In this process, and especially for smaller problems, many qubits will stay unused. We propose a novel method, called parallel quantum annealing, to make better use of available qubits, wherein either the same or several independent problems are solved in the same annealing cycle of a quantum annealer, assuming enough physical qubits are available to embed more than one problem. Although the individual solution quality may be slightly decreased when solving several problems in parallel (as opposed to solving each problem separately), we demonstrate that our method may give dramatic speed-ups in terms of Time-to-Solution (TTS) for solving instances of the Maximum Clique problem when compared to solving each problem sequentially on the quantum annealer. Additionally, we show that solving a single Maximum Clique problem using parallel quantum annealing reduces the TTS significantly.
翻訳日:2023-03-08 10:06:56 公開日:2022-11-29
# 広告を超えて: 法と公共政策における逐次意思決定アルゴリズム

Beyond Ads: Sequential Decision-Making Algorithms in Law and Public Policy ( http://arxiv.org/abs/2112.06833v3 )

ライセンス: Link先を確認
Peter Henderson, Ben Chugg, Brandon Anderson, Daniel E. Ho(参考訳) 法律や公共政策において、バンディット、強化学習、アクティブラーニングなど、逐次的な意思決定アルゴリズムを採用する約束と課題を探求する。 このようなアルゴリズムは、民間部門(例えばオンライン広告)でよく特徴付けられた性能を持つが、あるドメイン(しばしばオンライン広告)に動機づけられたアルゴリズムを生かして適用する傾向は、「過誤」と呼ばれることがある。 私たちの主テーマは、法律と公共政策が、機械学習コミュニティがまだ取り組んでいない異なる方法論的課題をもたらす、ということです。 機械学習は"beyond ads"を動かすためにこれらの方法論的な問題に対処する必要がある。 例えば、公共法は、複数の目的を課すことができ、バッチ化と遅延したフィードバックを必要とし、システムは合理的で因果的な意思決定ポリシーを学ぶ必要があり、それぞれが研究フロンティアで新しい質問を提示する。 本稿では,公共衛生,環境保護,税務管理,職業安全,優遇等,規制・ガバナンスにおける逐次的意思決定アルゴリズムの適用の可能性について論じる。 これらの例は、政策に順応し、適応可能で、公共セクターで効果的に決定を下すのに必要な研究を強調します。 また、このような展開の潜在的なリスクを指摘し、シーケンシャルな意思決定システムが被害の発見をいかに促進できるかを説明した。 私たちの研究は、法律と公共政策における逐次的意思決定のさらなる調査を刺激し、重要な社会的利益をもたらす可能性のある機械学習研究者にユニークな課題を与えることを期待しています。

We explore the promises and challenges of employing sequential decision-making algorithms -- such as bandits, reinforcement learning, and active learning -- in law and public policy. While such algorithms have well-characterized performance in the private sector (e.g., online advertising), the tendency to naively apply algorithms motivated by one domain, often online advertisements, can be called the "advertisement fallacy." Our main thesis is that law and public policy pose distinct methodological challenges that the machine learning community has not yet addressed. Machine learning will need to address these methodological problems to move "beyond ads." Public law, for instance, can pose multiple objectives, necessitate batched and delayed feedback, and require systems to learn rational, causal decision-making policies, each of which presents novel questions at the research frontier. We discuss a wide range of potential applications of sequential decision-making algorithms in regulation and governance, including public health, environmental protection, tax administration, occupational safety, and benefits adjudication. We use these examples to highlight research needed to render sequential decision making policy-compliant, adaptable, and effective in the public sector. We also note the potential risks of such deployments and describe how sequential decision systems can also facilitate the discovery of harms. We hope our work inspires more investigation of sequential decision making in law and public policy, which provide unique challenges for machine learning researchers with potential for significant social benefit.
翻訳日:2023-03-04 16:32:39 公開日:2022-11-29
# 乱れ量子システムにおける最適制御

Optimal Control in Disordered Quantum Systems ( http://arxiv.org/abs/2201.02029v2 )

ライセンス: Link先を確認
Luuk Coopmans, Steve Campbell, Gabriele De Chiara and Anthony Kiely(参考訳) スピン鎖に沿って励起を輸送するための制御戦略について検討する。 微分可能プログラミングで設計されたプロトコルを用いて高速かつ高忠実なトランスポートを実現することを実証する。 これに基づいて、このアプローチを無秩序量子システムを制御するために効果的に適用する方法を示す。 我々は2つの設定を考察する: 既知の望ましくない障害パターン、すなわち特定の障害の実現のための最適制御、および障害の統計的特性のみが知られている最適制御、すなわち高い平均フィデリティに対する最適化。 前者では、適切に選択された制御プロトコルに対して障害効果を効果的に緩和することができる。 しかし、後者の設定では、平均忠実度はわずかに改善され、基本的な下界の存在が示唆される。

We investigate several control strategies for the transport of an excitation along a spin chain. We demonstrate that fast, high fidelity transport can be achieved using protocols designed with differentiable programming. Building on this, we then show how this approach can be effectively adapted to control a disordered quantum system. We consider two settings: optimal control for a known unwanted disorder pattern, i.e. a specific disorder realisation, and optimal control where only the statistical properties of disorder are known, i.e. optimizing for high average fidelities. In the former, disorder effects can be effectively mitigated for an appropriately chosen control protocol. However, in the latter setting the average fidelity can only be marginally improved, suggesting the presence of a fundamental lower bound.
翻訳日:2023-03-02 03:27:04 公開日:2022-11-29
# 新聞の予測方法としてのエントロピーレートと情報拡散

Entropy-rate as prediction method for newspapers and information diffusion ( http://arxiv.org/abs/2212.01361v1 )

ライセンス: Link先を確認
Andrea Russo, Antonio Picone, Vincenzo Miracula, Giovanni Giuffrida, Francesco Mazzeo Rinaldi(参考訳) 本論文は,ソーシャルネットワーク上の人気トピックが,オンライン新聞の視点をどう予測できるかを示すものである。 新聞サイトや多くのソーシャルネットワークは、複雑な現象を分析し説明するためのデータ源となっている。 トピックのエントロピーを理解することで、政府、機関、新聞、企業といった情報を共有する必要のあるすべての組織は、チャネル上でより高いアクティビティを期待でき、場合によっては受信者が送信者に対して何を期待しているか、コミュニケーションに何が間違っているのかを予測することができる。 そのような政党、リーダー、会社、その他多くの組織にとって、評判とコミュニケーションは(彼らにとって)より複雑で複雑な巨大システムの重要な部分です。 目的を達成するために,我々は収集ツールと情報理論を用いて,ソーシャルネットワーク上のトレンドトピックを検出し,分析する。この手法は,組織や新聞が,トピック上で行うべき記事やコミュニケーションの数を予測し,エントロピーとアーティクルの比率から始めて,特定の期間にどれだけのビューを得られるかを予測するのに役立つ。 本研究は,エントロピーレート,ダイナミックス,適切な情報拡散性能をソーシャルネットワークおよび新聞上で期待する課題に対処するものである。 我々は,その話題について人々がどのように議論し,議論し,新聞サイトで情報を伝えるかを説明する,横断的ダイナミクスを特定した。

This paper aims to show how some popular topics on social networks can be used to predict online newspaper views, related to the topics. Newspapers site and many social networks, become a good source of data to analyse and explain complex phenomena. Understanding the entropy of a topic, could help all organizations that need to share information like government, institution, newspaper or company, to expect an higher activity over their channels, and in some cases predict what the receiver expect from the senders or what is wrong about the communication. For some organization such political party, leaders, company and many others, the reputation and the communication are (for most of them) the key part of a more and complex huge system. To reach our goal, we use gathering tools and information theory to detect and analyse trends topic on social networks, with the purpose of proved a method that helps organization, newspapers to predict how many articles or communication they will have to do on a topic, and how much flow of views they will have in a given period, starting with the entropy-article ratio. Our work address the issue to explore in which entropy-rate, and through which dynamics, a suitable information diffusion performance is expected on social network and then on newspaper. We have identified some cross-cutting dynamics that, associated with the contexts, might explain how people discuss about a topic, can move on to argue and informs on newspapers sites.
翻訳日:2023-02-19 12:49:45 公開日:2022-11-29
# 産業課題の分類と産業における技術の実現に向けて 4.0

Towards a Taxonomy of Industrial Challenges and Enabling Technologies in Industry 4.0 ( http://arxiv.org/abs/2211.16563v1 )

ライセンス: Link先を確認
Roberto Figli\`e, Riccardo Amadio, Marios Tyrovolas, Chrysostomos Stylios, {\L}ukasz Pa\'sko, Dorota Stadnicka, Anna Carreras-Coch, Agust\'in Zaballos, Joan Navarro and Daniele Mazzei(参考訳) 今日、産業4.0パラダイムにおけるデジタルトランスフォーメーションの最大の課題の1つは、学術界と産業界の相互理解の欠如である。 一方、業界は科学研究から新しい技術やイノベーションを適用することに失敗している。 同時に、学者は、開発する技術ソリューションの現実の応用を見つけ、焦点を合わせるのに苦労している。 さらに、産業的な課題や技術の複雑さが増し、この混乱が拡大している。 この知識とコミュニケーションのギャップを減らすために,本稿では,技術分野と企業分野に適用する人文的・工学的手法の混合アプローチを提案する。 この研究の結果は、産業的課題とi4.0にフォーカスした技術が学術的および灰色文学的分析によって分類され、関連づけられる分類法によって表される。 この分類法は、産業従事者が工業挑戦の候補ソリューションを特定できる公共ウェブプラットフォームの構築の基礎となった。 同時に、教育的な観点からは、このツールにより、学者は、デジタルテクノロジーの教育プロセスを統合する現実世界のシナリオを識別できるため、学習手順を支援できる。

Today, one of the biggest challenges for digital transformation in the Industry 4.0 paradigm is the lack of mutual understanding between the academic and the industrial world. On the one hand, the industry fails to apply new technologies and innovations from scientific research. At the same time, academics struggle to find and focus on real-world applications for their developing technological solutions. Moreover, the increasing complexity of industrial challenges and technologies is widening this hiatus. To reduce this knowledge and communication gap, this article proposes a mixed approach of humanistic and engineering techniques applied to the technological and enterprise fields. The study's results are represented by a taxonomy in which industrial challenges and I4.0-focused technologies are categorized and connected through academic and grey literature analysis. This taxonomy also formed the basis for creating a public web platform where industrial practitioners can identify candidate solutions for an industrial challenge. At the same time, from the educational perspective, the learning procedure can be supported since, through this tool, academics can identify real-world scenarios to integrate digital technologies' teaching process.
翻訳日:2023-02-19 12:43:46 公開日:2022-11-29
# リツイートは、偏光情報への露出を歪めます

Retweets Distort Exposure to Polarized Information ( http://arxiv.org/abs/2211.16480v1 )

ライセンス: Link先を確認
Ashwin Rao, Fred Morstatter and Kristina Lerman(参考訳) 公共の談話におけるソーシャルメディアの隆盛は、オンラインに拡散する情報の質と、このプロセスにおける分極が果たす役割をより精査する結果となった。 しかし、Twitterのようなソーシャルメディアプラットフォームに広がる情報の研究は、ソーシャルグラフのデータ収集が困難であること、特にユーザーがタイムラインで見るものを形作るリンクをフォローすることによって妨げられている。 フォロワーグラフのプロキシとして、リツイートを使って拡散グラフを構築するが、これらのプロキシがオンライン情報エコシステムの研究にどのように影響するかは明らかではない。 twitterフォロワーグラフのサンプルと、その中のユーザーが投稿したツイートを含むデータセットを使用して、retweetグラフを再構築し、その露出測定への影響を定量化する。 どちらのネットワークにもecho chamberは存在するが、retweetの近隣ではより発音される。 我々は、フォロワーやリツイートグラフを通じてユーザーが見る情報の偏りを比較し、リツイートされたアカウントが政治的に極端な内容や誤情報を体系的に共有していることを示す。 このバイアスは、ユーザのソーシャル地区における活動や分極によって説明できないが、より分極されたソースに注意を払っている。 以上の結果から,従者グラフに基づく研究は,ユーザがオンラインに注目する情報の分極を過小評価していることが示唆された。

The growing prominence of social media in public discourse has led to greater scrutiny of the quality of information spreading online and the role that polarization plays in this process. However, studies of information spread on social media platforms like Twitter have been hampered by the difficulty of collecting data about the social graph, specifically follow links that shape what users see in their timelines. As a proxy of the follower graph, researchers use retweets to construct the diffusion graph, although it is not clear how these proxies affect studies of online information ecosystems. Using a dataset containing a sample of the Twitter follower graph and the tweets posted by users within it, we reconstruct the retweet graph and quantify its impact on the measures of exposure. While we find that echo chambers exist in both networks, they are more pronounced in the retweet neighborhood. We compare the polarization of information users see via their follower and retweet graphs to show that retweeted accounts systematically share more politically extreme content and misinformation. This bias cannot be explained by the activity or polarization within users' own social neighborhoods but by the increased attention they pay to more polarized sources. Our results suggest that studies relying on the follower graphs underestimate the polarization of information users pay attention to online.
翻訳日:2023-02-19 12:43:28 公開日:2022-11-29
# ツイートはいくつ必要か? Twitterにおける短期分極トピックの効率的なマイニング : 日本からの事例研究

How Many Tweets DoWe Need?: Efficient Mining of Short-Term Polarized Topics on Twitter: A Case Study From Japan ( http://arxiv.org/abs/2211.16305v1 )

ライセンス: Link先を確認
Tomoki Fukuma, Koki Noda, Hiroki Kumagai, Hiroki Yamamoto, Yoshiharu Ichikawa, Kyosuke Kambe, Yu Maubuchi and Fujio Toriumi(参考訳) 近年、ソーシャルメディアは偏光を放つと批判されている。 ジャーナリストが警告を作成し、よりバランスのとれた報道を提供することが重要である。 近年の研究ではソーシャルメディアにおける分極の存在が示されているが、特に数ヶ月や数年にわたって収集された大量のデータを持つ政治などの限られたトピックに焦点が当てられている。 これらの発見は役に立つが、すぐにアラートを作成するには遅すぎる。 このギャップに対処するため,Twitter上での分極トピックを短時間,すなわち12時間で識別するドメインに依存しないマイニング手法を開発した。 その結果,2022年前半の日刊ニュース関連トピックは,12時間以内で31.6\%の偏光が見られた。 また、比較的高い平均度で情報拡散ネットワークを構築する傾向があり、ツイートの半分が比較的少数の人によって作られていることも分析した。 しかし、Twitter APIの制限により、多くのトピックで毎日大量のツイートを収集し、偏光を監視するのは非常にコストがかかり、現実的ではない。 コスト効率を高めるために,ネットワーク情報を活用したランダムに収集したつぶやきを用いて偏光レベルを推定する機械学習手法を用いた予測手法を開発した。 広範な実験により、ベースラインメソッドと比較して収集コストが大幅に削減されることが示された。 特に,f-score は 0.85 で,ベースラインよりも 4 倍の節約が要求される。 我々の知る限りでは、低リソースのツイートでトピックの偏極レベルを予測するのは、私たちの仕事が初めてです。 我々の発見は、ジャーナリストが偏光情報を迅速かつ効率的に検出し、広めることを可能にし、ニュースメディアに深く影響している。

In recent years, social media has been criticized for yielding polarization. Identifying emerging disagreements and growing polarization is important for journalists to create alerts and provide more balanced coverage. While recent studies have shown the existence of polarization on social media, they primarily focused on limited topics such as politics with a large volume of data collected in the long term, especially over months or years. While these findings are helpful, they are too late to create an alert immediately. To address this gap, we develop a domain-agnostic mining method to identify polarized topics on Twitter in a short-term period, namely 12 hours. As a result, we find that daily Japanese news-related topics in early 2022 were polarized by 31.6\% within a 12-hour range. We also analyzed that they tend to construct information diffusion networks with a relatively high average degree, and half of the tweets are created by a relatively small number of people. However, it is very costly and impractical to collect a large volume of tweets daily on many topics and monitor the polarization due to the limitations of the Twitter API. To make it more cost-efficient, we also develop a prediction method using machine learning techniques to estimate the polarization level using randomly collected tweets leveraging the network information. Extensive experiments show a significant saving in collection costs compared to baseline methods. In particular, our approach achieves F-score of 0.85, requiring 4,000 tweets, 4x savings than the baseline. To the best of our knowledge, our work is the first to predict the polarization level of the topics with low-resource tweets. Our findings have profound implications for the news media, allowing journalists to detect and disseminate polarizing information quickly and efficiently.
翻訳日:2023-02-19 12:43:06 公開日:2022-11-29
# パンデミック閉じこもり時間におけるキャンパス教師の遠隔授業経験

Distance Teaching Experience of Campus-based Teachers at Times of Pandemic Confinement ( http://arxiv.org/abs/2211.16280v1 )

ライセンス: Link先を確認
Abbas Cheddad and Christian Nordahl(参考訳) 新型コロナウイルス(COVID-19)の感染拡大に伴い、オンライン学習の場である遠隔教育が一般的になっている。 キャンパスベースのプログラムとコースはタイムリーな方法で再設計され、教師が遠隔教育に慣れないことが課題となった。 学生の参加や積極的な参加が問題となり、近年一部の著述家によって生み出された「ズーム疲労」など、この設定と結びついた新たな効果が加わりつつある。 この問題を実現する上で、学生の参加を促し、オンライン教育における教師の体験を高めるための解決策が文献で提案された。 本研究は,新しい学習環境における教師の体験とともにこれらの効果を分析し,いくつかの勧告を考案して結論づける。 以上の目的を達成するために,教師6人とのオンラインインタビューを行い,映像の内容の書き起こしを行い,その結果を評価するためのインダクティブ・リサーチ・アプローチを適用した。

Amidst the outbreak of the coronavirus (COVID 19) pandemic, distance education, where the learning process is conducted online, has become the norm. Campus-based programs and courses have been redesigned in a timely manner which was a challenge for teachers not used to distance teaching. Students engagement and active participation become an issue; add to that new emerging effects associating with this set-up, such as the so called 'Zoom fatigue', which was coined recently by some authors. In realising this problem, solutions were suggested in the literature to help trigger students engagement and enhance teachers experience in online teaching. This study analyses these effects along with our teachers experience in the new learning environment and concludes by devising some recommendations. To attain the above objectives, we conducted online interviews with six of our teachers, transcribed the content of the videos and then applied the inductive research approach to assess the results.
翻訳日:2023-02-19 12:42:38 公開日:2022-11-29
# 複数部分群の公平性と正確性について

On Learning Fairness and Accuracy on Multiple Subgroups ( http://arxiv.org/abs/2210.10837v2 )

ライセンス: Link先を確認
Changjian Shui, Gezheng Xu, Qi Chen, Jiaqi Li, Charles Ling, Tal Arbel, Boyu Wang, Christian Gagn\'e(参考訳) 本稿では,データの有用性を保ちつつ,グループ満足度基準による予測格差を低減した公平学習の分析を提案する。 データは複数のサブグループあるいはそれ以上のサブグループを含み、それぞれが限られた数のサンプルを持つシナリオに焦点を当てる。 そこで本論文では,全部分群に対する公平な予測を2段階の目的として定式化することで学習する原則付き手法を提案する。 具体的には、サブグループ固有の予測器は、少量のデータと公正な予測器を通して下位層で学習される。 上層部では、フェア予測器が全てのサブグループ固有の予測器に近付くように更新される。 さらに,このような二レベル目標が,集団満足度と一般化誤差を効果的に制御できることを実証する。 提案フレームワークを実世界のデータセット上で評価する。 実証的な証拠は、公平な予測を一貫して改善し、ベースラインと同等の正確さを示唆している。

We propose an analysis in fair learning that preserves the utility of the data while reducing prediction disparities under the criteria of group sufficiency. We focus on the scenario where the data contains multiple or even many subgroups, each with limited number of samples. As a result, we present a principled method for learning a fair predictor for all subgroups via formulating it as a bilevel objective. Specifically, the subgroup specific predictors are learned in the lower-level through a small amount of data and the fair predictor. In the upper-level, the fair predictor is updated to be close to all subgroup specific predictors. We further prove that such a bilevel objective can effectively control the group sufficiency and generalization error. We evaluate the proposed framework on real-world datasets. Empirical evidence suggests the consistently improved fair predictions, as well as the comparable accuracy to the baselines.
翻訳日:2023-02-19 11:56:19 公開日:2022-11-29
# Resilient Risk based Adaptive Authentication and Authorization (RAD-AA) Framework

Resilient Risk based Adaptive Authentication and Authorization (RAD-AA) Framework ( http://arxiv.org/abs/2208.02592v3 )

ライセンス: Link先を確認
Jaimandeep Singh and Chintan Patel and Naveen Kumar Chaudhary(参考訳) 最近のサイバー攻撃では、クレデンシャル盗難がシステムに侵入する主要なベクターの1つとして浮上している。 攻撃者がシステムに足場を構えると、トークン操作を含むさまざまなテクニックを使用して権限を高め、保護されたリソースにアクセスする。 これにより、認証とトークンベースの認証は、セキュアでレジリエントなサイバーシステムの重要なコンポーネントとなる。 本稿では,リスクスコアと信頼プロファイルに基づいて自己適応が可能な,セキュアでレジリエントな認証・認証フレームワークの設計について考察する。 この設計をoauth 2.0、openid connect、saml 2.0といった既存の標準と比較する。 次に、STRIDE や PASTA などの一般的な脅威モデルについて検討し、提案アーキテクチャの共通かつ関連する脅威ベクトルに対するレジリエンスを要約する。 我々はこのフレームワークをResilient Risk based Adaptive Authentication and Authorization (RAD-AA)と呼んでいる。 提案したフレームワークは、敵がサイバー攻撃を仕掛け、維持するためのコストを過度に増加させ、重要なインフラに多くの強みを提供する。 また、適応エンジンがトランザクションを正確に分類し、リスクスコアに達するための機械学習(ML)アプローチについても論じる。

In recent cyber attacks, credential theft has emerged as one of the primary vectors of gaining entry into the system. Once attacker(s) have a foothold in the system, they use various techniques including token manipulation to elevate the privileges and access protected resources. This makes authentication and token based authorization a critical component for a secure and resilient cyber system. In this paper we discuss the design considerations for such a secure and resilient authentication and authorization framework capable of self-adapting based on the risk scores and trust profiles. We compare this design with the existing standards such as OAuth 2.0, OpenID Connect and SAML 2.0. We then study popular threat models such as STRIDE and PASTA and summarize the resilience of the proposed architecture against common and relevant threat vectors. We call this framework as Resilient Risk based Adaptive Authentication and Authorization (RAD-AA). The proposed framework excessively increases the cost for an adversary to launch and sustain any cyber attack and provides much-needed strength to critical infrastructure. We also discuss the machine learning (ML) approach for the adaptive engine to accurately classify transactions and arrive at risk scores.
翻訳日:2023-02-19 10:19:36 公開日:2022-11-29
# Pile of Law: 256GBのオープンソース法定データセットと法から責任のあるデータフィルタリングを学ぶ

Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset ( http://arxiv.org/abs/2207.00220v2 )

ライセンス: Link先を確認
Peter Henderson, Mark S. Krass, Lucia Zheng, Neel Guha, Christopher D. Manning, Dan Jurafsky, Daniel E. Ho(参考訳) 大規模言語モデルの台頭に対する懸念の1つは、特に偏見のある、わいせつな、著作権のある、プライベートな情報の事前学習から、大きな損害をもたらす可能性があることである。 新たな倫理的アプローチは事前学習材料をフィルタリングしようと試みてきたが、そのようなアプローチはアドホックであり、文脈を考慮に入れられなかった。 我々は, フィルター材料におけるトレードオフに直接対処する法則に基づくフィルタリングへのアプローチを提案する。 まず、裁判所の意見、契約、行政規則、および立法記録を網羅した256GBのオープンソースな法的および行政データのデータセットであるPile of Lawを収集、利用可能にします。 法律の山への事前訓練は、正義へのアクセスを改善するという約束を持つ法的タスクに役立つかもしれない。 第二に、政府が有毒なコンテンツや私的コンテンツを含めることを規制するために開発した法規範を、研究者のための実用的なレッスンに精査し、我々のデータセットがこれらの規範をどう反映しているかについて議論する。 第三に、Pile of Lawは研究者たちに、データから直接フィルタリングルールを学習する機会を与え、モデルベースの処理におけるエキサイティングな新しい研究方向を提供する。

One concern with the rise of large language models lies with their potential for significant harm, particularly from pretraining on biased, obscene, copyrighted, and private information. Emerging ethical approaches have attempted to filter pretraining material, but such approaches have been ad hoc and failed to take context into account. We offer an approach to filtering grounded in law, which has directly addressed the tradeoffs in filtering material. First, we gather and make available the Pile of Law, a 256GB (and growing) dataset of open-source English-language legal and administrative data, covering court opinions, contracts, administrative rules, and legislative records. Pretraining on the Pile of Law may help with legal tasks that have the promise to improve access to justice. Second, we distill the legal norms that governments have developed to constrain the inclusion of toxic or private content into actionable lessons for researchers and discuss how our dataset reflects these norms. Third, we show how the Pile of Law offers researchers the opportunity to learn such filtering rules directly from the data, providing an exciting new research direction in model-based processing.
翻訳日:2023-02-19 09:33:26 公開日:2022-11-29
# 熱力学第二法則の確率的違反に関する有限時間境界

Finite-time bounds on the probabilistic violation of the second law of thermodynamics ( http://arxiv.org/abs/2205.03065v2 )

ライセンス: Link先を確認
Harry J. D. Miller, Mart\'i Perarnau-Llobet(参考訳) ジャージンスキーの等式は、自由エネルギー差を超えて仕事を抽出することによって熱力学の第2法則に違反する確率に強い束縛を与える。 我々は、熱力学長の幾何学的概念で表現できる熱マルコフ環境と接触する駆動系に対して、この境界系に対して有限時間改良を導出する。 有限時間プロトコルがJarzynskiのバウンドに1/\sqrt{\tau}$より遅い速度で収束することを示し、$\tau$はワーク抽出プロトコルの総時間である。 その結果, 最小散逸過程の新しい応用を浮き彫りにし, 熱力学的幾何と仕事の高次統計特性との関係を実証した。

Jarzynski's equality sets a strong bound on the probability of violating the second law of thermodynamics by extracting work beyond the free energy difference. We derive finite-time refinements to this bound for driven systems in contact with a thermal Markovian environment, which can be expressed in terms of the geometric notion of thermodynamic length. We show that finite-time protocols converge to Jarzynski's bound at a rate slower than $1/\sqrt{\tau}$, where $\tau$ is the total time of the work-extraction protocol. Our result highlights a new application of minimal dissipation processes and demonstrates a connection between thermodynamic geometry and the higher order statistical properties of work.
翻訳日:2023-02-14 03:46:00 公開日:2022-11-29
# cftからbondi-metzner-sachs対称性の理論へ:複雑性と時間外の相関

From CFTs to theories with Bondi-Metzner-Sachs symmetries: Complexity and out-of-time-ordered correlators ( http://arxiv.org/abs/2205.15338v3 )

ライセンス: Link先を確認
Aritra Banerjee, Arpan Bhattacharyya, Priya Drashni, Srinidhi Pawar(参考訳) 我々は、量子カオスの診断を用いて、2d$相対論的CFTからボンディ・メッツナー・サッチ(英語版)(BMS)対称性の理論への縮約を探索する。 相対論的スカラー場理論の超相対論的極限から始まり、状態の振動子表現を用いた量子レベルでの追従から、cft$_2$ 真空が圧縮状態の形でbms$_3$真空にスムーズに発展することを示すことができる。 共分散行列法によるこの変換の計算回路の複雑さは、bms点が当たったり、あるいは目標状態が境界状態になったときと同値になったときに明らかな分岐を示す。 また,情報幾何法から計算した回路複雑性の類似した挙動を見出した。 さらに,このシステムのハミルトン的進化について考察し,時間外順序相関器 (OTOC) と演算子成長複雑性について考察した。

We probe the contraction from $2d$ relativistic CFTs to theories with Bondi-Metzner-Sachs (BMS) symmetries, or equivalently Conformal Carroll symmetries, using diagnostics of quantum chaos. Starting from an Ultrarelativistic limit on a relativistic scalar field theory and following through at the quantum level using an oscillator representation of states, one can show the CFT$_2$ vacuum evolves smoothly into a BMS$_3$ vacuum in the form of a squeezed state. Computing circuit complexity of this transmutation using the covariance matrix approach shows clear divergences when the BMS point is hit or equivalently when the target state becomes a boundary state. We also find similar behaviour of the circuit complexity calculated from methods of information geometry. Furthermore, we discuss the hamiltonian evolution of the system and investigate Out-of-time-ordered correlators (OTOCs) and operator growth complexity, both of which turn out to scale polynomially with time at the BMS point.
翻訳日:2023-02-11 06:36:13 公開日:2022-11-29
# 合成二層格子におけるフラットバンド誘起超伝導

Flat-band-induced superconductivity in synthetic bilayer optical lattices ( http://arxiv.org/abs/2207.13013v2 )

ライセンス: Link先を確認
Tymoteusz Salamon, Bernhard Irsigler, Debraj Rakshit, Maciej Lewenstein, Tobias Grass, Ravindra Chhajlany(参考訳) グラフェンの2つの層を相対的なねじれ角で重ねると、モワーイパターンが生まれ、電子的挙動が強く変化し、非伝統的な超伝導をもたらす。 ツイストした二層膜の合成バージョンは、光学格子内の冷たい原子で設計することができる。 ここでは、原子サブレベル間の結合によって二層構造を模倣し、この結合の空間変調によりねじれを実現する。 本稿では,このような合成ツイスト二層格子におけるフェルミオン原子の超伝導挙動について検討する。 原子間の誘引的相互作用は平均場レベルで処理され、超伝導挙動は自己整合的に決定されたペアリングギャップを介して解析される。 フェルミ表面で準平坦なバンド構造が発生すると、超伝導のねじれによって引き起こされる顕著な役割を反映して、ペアリングギャップの強い強化が見出される。 相互作用のチューナビリティは、内部(合成)層から中間(合成)層への超伝導相関の切り替えを可能にする。 これはまた、層間カップリングと層間カップリングの競合が超伝導の挙動を完全に破壊し、相互作用のチューニング時に再入射超伝導をもたらす中間シナリオを含む。

Stacking two layers of graphene with a relative twist angle gives rise to moir\'e patterns, which can strongly modify electronic behavior and may lead to unconventional superconductivity. A synthetic version of twisted bilayers can be engineered with cold atoms in optical lattices. Here, the bilayer structure is mimicked through coupling between atomic sublevels, and the twist is achieved by a spatial modulation of this coupling. In the present paper, we investigate the superconducting behavior of fermionic atoms in such a synthetic twisted bilayer lattice. Attractive interactions between the atoms are treated on the mean-field level, and the superconducting behavior is analyzed via the self-consistently determined pairing gap. A strong enhancement of the pairing gap is found, when a quasi-flat band structure occurs at the Fermi surface, reflecting the prominent role played by the twist on the superconductivity. The tunability of interactions allows for the switching of superconducting correlations from intra (synthetic) layer to inter (synthetic) layer. This includes also the intermediate scenario, in which the competition between inter- and intra-layer coupling completely destroys the superconducting behavior, resulting in re-entrant superconductivity upon tuning of the interactions
翻訳日:2023-02-03 16:52:37 公開日:2022-11-29
# 量子絡み合い:2つの量子ビットにおける分離性問題の概要

Quantum entanglement: an overview of the separability problem in two quantum bits ( http://arxiv.org/abs/2208.04747v3 )

ライセンス: Link先を確認
Honorine Gnonfin and Laure Gouba(参考訳) 分離可能性問題は、現在および将来の量子情報処理における基本的かつ創発的な問題の1つである。 後者は量子力学に基づく情報と計算に焦点を当て、量子ビットを基本情報単位として使用する。 本稿では,両部系における分離性問題,具体的には,1964ドルのベルの不等式から2018年の分離性基準まで,2つの量子ビット系における分離性問題の進展について概説する。

The separability problem is one of the basic and emergent problems in the present and future quantum information processing. The latter focuses on information and computing based on quantum mechanics and uses quantum bits as its basic information units. In this paper, we present an overview of the progress in the separability problem in bipartite systems, more specifically in two quantum bits systems from the criterion based on the inequalities of Bell in $1964$ to the recent criteria of separability in 2018.
翻訳日:2023-02-02 18:44:55 公開日:2022-11-29
# 通勤オペレーターフレームワークにおける量子テレポーテーション

Quantum teleportation in the commuting operator framework ( http://arxiv.org/abs/2208.01181v2 )

ライセンス: Link先を確認
Alexandre Conlon, Jason Crann, David W. Kribs and Rupert H. Levene(参考訳) 局所性の可換作用素モデルにおいて半有限フォン・ノイマン環の部分代数間のテレポーテーションスキームの概念を導入する。 部分因子理論の手法を用いて、相対可換群に対する非バイアス付きテレポーテーションスキーム (unbiased teleportation schemes) を示す:$N'\cap M$ of a large class of finite-index inclusions $N\subseteq M$ of tracial von Neumann algebras, ここでは、非バイアス付き条件は、テレポートされた可観測物に関する情報が当事者間の古典的通信に含まれないことを意味する。 M_n(\mathbb{C})$ の行列代数の大規模なクラスに対して、ハイブリッド古典/量子符号に関連するものを含む、$N$ のタイトなテレポーテーションスキームは、必然的に正則ユニタリな Pimsner-Popa 基底が$M_n(\mathbb{C})$ より大きいことを示し、Werner の仕事を一般化する。 ブランナン・ガンサン・ハリスの手法と組み合わせて、有限次元の包含から生じる様々な量子グラフに対して量子色数を計算する。

We introduce a notion of teleportation scheme between subalgebras of semi-finite von Neumann algebras in the commuting operator model of locality. Using techniques from subfactor theory, we present unbiased teleportation schemes for relative commutants $N'\cap M$ of a large class of finite-index inclusions $N\subseteq M$ of tracial von Neumann algebras, where the unbiased condition means that no information about the teleported observables are contained in the classical communication sent between the parties. For a large class of subalgebras $N$ of matrix algebras $M_n(\mathbb{C})$, including those relevant to hybrid classical/quantum codes, we show that any tight teleportation scheme for $N$ necessarily arises from an orthonormal unitary Pimsner-Popa basis of $M_n(\mathbb{C})$ over $N'$, generalising work of Werner. Combining our techniques with those of Brannan-Ganesan-Harris, we compute quantum chromatic numbers for a variety of quantum graphs arising from finite-dimensional inclusions $N\subseteq M$.
翻訳日:2023-02-02 14:35:17 公開日:2022-11-29
# 量子複雑性による量子障害と弱エルゴディディディティ破滅の探索

Probing quantum scars and weak ergodicity-breaking through quantum complexity ( http://arxiv.org/abs/2208.05503v3 )

ライセンス: Link先を確認
Budhaditya Bhattacharjee, Samudra Sur, Pratik Nandy(参考訳) scar状態は、固有熱化仮説(eth)を弱く破る特殊な多体固有状態である。 この文脈で通常前方散乱近似として知られるランチョスアルゴリズムの明示的な形式論を用いて、pxpハミルトニアンの時間発展によって生成される典型的な状態のクリロフ状態(スプレッド)の複雑さを計算し、そのような状態をホストする。 その結果,neel状態の複雑性は近似的に復活するが,eth状態の複雑性は常に増加することがわかった。 これは、対応するハミルトニアン発生器の近似SU(2)構造に起因していると考えられる。 このような「閉性」をq-変形su(2)代数で定量化し、近似クリロフ部分空間内のネール状態に対するランチョス係数の解析式を与える。 厳密な結合モデルの観点から、直感的に結果を説明します。 さらに, pxpハミルトニアンの変形を考察し,対応するランチョス係数と複雑性を計算する。 ネール状態の複雑性は、ほぼ完全に回復する一方、一般的なETH状態は保たないことがわかった。

Scar states are special many-body eigenstates that weakly violate the eigenstate thermalization hypothesis (ETH). Using the explicit formalism of the Lanczos algorithm, usually known as the forward scattering approximation in this context, we compute the Krylov state (spread) complexity of typical states generated by the time evolution of the PXP Hamiltonian, hosting such states. We show that the complexity for the Neel state revives in an approximate sense, while complexity for the generic ETH-obeying state always increases. This can be attributed to the approximate SU(2) structure of the corresponding generators of the Hamiltonian. We quantify such ''closeness'' by the q-deformed SU(2) algebra and provide an analytic expression of Lanczos coefficients for the Neel state within the approximate Krylov subspace. We intuitively explain the results in terms of a tight-binding model. We further consider a deformation of the PXP Hamiltonian and compute the corresponding Lanczos coefficients and the complexity. We find that complexity for the Neel state shows nearly perfect revival while the same does not hold for a generic ETH-obeying state.
翻訳日:2023-02-01 10:12:14 公開日:2022-11-29
# ノイズ拡散チャネルの量子力学

Quantum metrology of noisy spreading channels ( http://arxiv.org/abs/2208.09386v2 )

ライセンス: Link先を確認
Wojciech G\'orecki, Alberto Riccardi, and Lorenzo Maccone(参考訳) 本研究では,パラメータ(スプレッドチャネル)の特定値に対する識別チャネルに還元される雑音のあるチャネルのクラスに対する最適測定戦略を提案する。 本稿では,位相ランダム化雑音の存在下での変位の絶対値の推定について,物理的に関係のある例を示す。 驚くべきことに、このノイズは最適な測定の有効性に影響しない。 小さい変位では, 真空プローブ場が同じ平均エネルギーの戦略の中で最適であることを示す。 光検出に続くシャッシャーは、量子フィッシャー情報を得るための最適な検出戦略であるが、通常使われているホモダイン検出は、光学超解像におけるレイリーの呪いと同じ効果のため、小さな変位の限界では役に立たない。 量子的優位性がある:$N$平均光子を持つ圧縮状態またはフォック状態は、同じエネルギーを持つ古典的状態よりも正確にパラメータを$\sqrt{N}$で漸近的に推定することができる。

We provide the optimal measurement strategy for a class of noisy channels that reduce to the identity channel for a specific value of a parameter (spreading channels). We provide an example that is physically relevant: the estimation of the absolute value of the displacement in the presence of phase randomizing noise. Surprisingly, this noise does not affect the effectiveness of the optimal measurement. We show that, for small displacement, a squeezed vacuum probe field is optimal among strategies with same average energy. A squeezer followed by photodetection is the optimal detection strategy that attains the quantum Fisher information, whereas the customarily used homodyne detection becomes useless in the limit of small displacements, due to the same effect that gives Rayleigh's curse in optical superresolution. There is a quantum advantage: a squeezed or a Fock state with $N$ average photons allow to asymptotically estimate the parameter with a $\sqrt{N}$ better precision than classical states with same energy.
翻訳日:2023-01-30 11:58:00 公開日:2022-11-29
# 世界の終末ブレーンに欠陥のあるホログラフィックbcft

Holographic BCFT with a Defect on the End-of-the-World Brane ( http://arxiv.org/abs/2208.13783v3 )

ライセンス: Link先を確認
Masamichi Miyaji, Chitraang Murdia(参考訳) 本稿では,両端のブランを接続する欠陥を導入することで,2つの共形境界を持つ2ドルのbcftに対する新しい重力双対を提案する。 このバルクモデルに対するBCFT双対はよりリッチな低スペクトルを示すことを示す。 対応する最低エネルギー固有値は$-\frac{\pi c}{24\Delta x}$と$0$の間で連続的に補間することができる。 この範囲は、異なる境界条件を持つ従来のAdS/BCFTモデルにはアクセスできない。 ホログラフィックの絡み合いエントロピーを計算し、3つの異なる位相を示し、そのうちの1つは時間反射対称性を損なう。 また、AdSバルクを介して異なる境界を結ぶ3ドルのレプリカワームホールに類似したワームホールサドルも構築しています。 このサドルは、BCFTが単体ではない場合にのみ存在し、非連結サドルと比較して常に支配的である。

In this paper, we propose a new gravity dual for a $2$d BCFT with two conformal boundaries by introducing a defect that connects the two End-of-the-World branes. We demonstrate that the BCFT dual to this bulk model exhibits a richer lowest spectrum. The corresponding lowest energy eigenvalue can continuously interpolate between $-\frac{\pi c}{24\Delta x}$ and $0$ where $\Delta x$ is the distance between the boundaries. This range was inaccessible to the conventional AdS/BCFT model with distinct boundary conditions. We compute the holographic entanglement entropy and find that it exhibits three different phases, one of which breaks the time reflection symmetry. We also construct a wormhole saddle, analogous to a $3$d replica wormhole, which connects different boundaries through the AdS bulk. This saddle is present only if the BCFT is non-unitary and is always subdominant compared to the disconnected saddle.
翻訳日:2023-01-28 14:34:48 公開日:2022-11-29
# 多粒子量子ウォーク : トポロジカル多体励起の動的プローブ

Multiparticle quantum walk: a dynamical probe of topological many-body excitations ( http://arxiv.org/abs/2209.03569v2 )

ライセンス: Link先を確認
Bogdan Ostahie, Doru Sticlet, C\u{a}t\u{a}lin Pa\c{s}cu Moca, Bal\'azs D\'ora, Mikl\'os Antal Werner, J\'anos K. Asb\'oth, Gergely Zar\'and(参考訳) 最近の実験では、単一粒子の量子ウォークが単一粒子状態の位相的性質を解明できることが示されている。 ここでは、強く相互作用するフェルミオンの多粒子量子ウォークに着目して、この図を多体領域に一般化する。 相互作用するSU($N$) Su-Schrieffer-Heeger鎖に複数のフレーバーを持つ$N$粒子を注入した後、その多粒子連続時間量子ウォークは様々な方法で監視される。 スペクトルの$N$-body部分の多体ベリー相は、単一粒子の場合と同様、二量化の変化に伴う位相遷移を示す。 この位相遷移は、量子ウォーク中の単一および多体平均カイラル変位によって捉えられ、強い相互作用と中等度障害のために残っている。 我々の予測は、低温の原子ガスに対する実験的な到達範囲内であり、動的プローブによる多体励起のトポロジー特性の検出に利用できる。

Recent experiments demonstrated that single-particle quantum walks can reveal the topological properties of single particle states. Here we generalize this picture to the many-body realm by focusing on multiparticle quantum walks of strongly interacting fermions. After injecting $N$ particles with multiple flavors in the interacting SU($N$) Su-Schrieffer-Heeger chain, their multiparticle continuous time quantum walk is monitored by a variety of methods. We find that the many-body Berry phase in the $N$-body part of the spectrum signals a topological transition upon varying the dimerization, similarly to the single particle case. This topological transition is captured by the single and many-body mean chiral displacement during the quantum walk and remain present for strong interaction as well as moderate disorder. Our predictions are well within experimental reach for cold atomic gases and can be used to detect the topological properties of many-body excitations through dynamical probes.
翻訳日:2023-01-27 08:11:12 公開日:2022-11-29
# フラストレーションホッピングを有する1次元Bose-Hubbardモデルにおける遺伝子多部絡み合い

Genuine multipartite entanglement in a one-dimensional Bose-Hubbard model with frustrated hopping ( http://arxiv.org/abs/2209.08815v2 )

ライセンス: Link先を確認
Sudipto Singha Roy, Leon Carl, Philipp Hauke(参考訳) フラストレーションと量子絡み合いは、量子多体系における2つのエキゾチックな量子特性である。 しかし、いくつかの努力にもかかわらず、両者の正確な関係は解明されていない。 本研究では,光学格子中の強相関ボソニック原子を記述する物理モデルにおいて,フラストレーションと量子絡み合いの関係について検討する。 特に,neighbor (t_{1}$) とイライラしたnext-nearest neighbor (t_{2}$) のホッピングからなる1次元ボース・ハバードモデルを検討し,オンサイト相互作用 (u$) とホッピングの相互作用がシステムの基底状態において異なる量子相関をもたらすかを検討する。 次に,モデル内の量子絡み合いの挙動を解析する。 特に、一般化幾何測度によって定量化された真の多部交絡を計算し、二部交絡やその他の関連する順序パラメータとの比較研究を行う。 我々は,真のマルチパーティの絡み合いがパラメータ体系全体を通して非常に豊かな振る舞いをしており,フラストレーションが必ずしも大量のパラメータを生成することを好まないことを観察する。 さらに,量子揺らぎの強い領域では,粒子は全ての運動量モードにおいて非常に非局在であり,二成分および多成分の絡み合いが極めて低いことが示されている。 本研究は,強い相関関係を持つ系の基底状態における順序付け行動と量子絡み合いについて,異なる注意を払わなければならないことを示す。

Frustration and quantum entanglement are two exotic quantum properties in quantum many-body systems. However, despite several efforts, an exact relation between them remains elusive. In this work, we explore the relationship between frustration and quantum entanglement in a physical model describing strongly correlated ultracold bosonic atoms in optical lattices. In particular, we consider the one-dimensional Bose-Hubbard model comprising both nearest-neighbor ($t_{1}$) and frustrated next-nearest neighbor ($t_{2}$) hoppings and examine how the interplay of onsite interaction ($U$) and hoppings results in different quantum correlations dominating in the ground state of the system. We then analyze the behavior of quantum entanglement in the model. In particular, we compute genuine multipartite entanglement as quantified through the generalized geometric measure and make a comparative study with bipartite entanglement and other relevant order parameters. We observe that genuine multipartite entanglement has a very rich behavior throughout the considered parameter regime and frustration does not necessarily favor generating a high amount of it. Moreover, we show that in the region with strong quantum fluctuations, the particles remain highly delocalized in all momentum modes and share a very low amount of both bipartite and multipartite entanglement. Our work illustrates the necessity to give separate attention to dominating ordering behavior and quantum entanglement in the ground state of strongly correlated systems.
翻訳日:2023-01-26 02:22:04 公開日:2022-11-29
# 静水圧180GPaにおけるナノダイヤモンド中のSiVおよびGeV色中心の光学的特性

Optical properties of SiV and GeV color centers in nanodiamonds under hydrostatic pressures up to 180 GPa ( http://arxiv.org/abs/2209.09792v3 )

ライセンス: Link先を確認
Baptiste Vindolet, Marie-Pierre Adam, Lo\"ic Toraille, Mayeul Chipaux, Antoine Hilberer, G\'eraud Dupuy, Lukas Razinkovas, Audrius Alkauskas, Gerg\H{o} Thiering, Adam Gali, Mary De Feudis, Midrel Wilfried Ngandeu Ngambou, Jocelyn Achard, Alexandre Tallaire, Martin Schmidt, Christoph Becher, Jean-Fran\c{c}ois Roch(参考訳) シリコン空孔(SiV)とゲルマニウム空孔(GeV)の色中心の光学特性を,180GPaまでの静水圧下で検討した。 ナノダイヤモンドはSiまたはGe添加プラズマを用いた化学気相蒸着法により合成され, 実験のためにダイヤモンドアンビルセルで加圧した。 静水圧下では、SiVとGeVのゼロフォノン線のブルーシフトをそれぞれ17 THz (70 meV) と78 THz (320 meV) で観測する。 これらの測定された圧力誘起シフトは、ダイヤモンドの状態の方程式に基づく格子圧縮を考慮に入れ、スズ空孔(SnV)中心の場合まで拡張するアブイニシアト計算とよく一致している。 この研究は、超高圧下での量子センサーとしてのグループIV空孔中心の使用に関するガイダンスを提供し、その固有な反転対称構造によって引き起こされる特定の光学特性とスピン特性を利用する。

We investigate the optical properties of silicon-vacancy (SiV) and germanium-vacancy (GeV) color centers in nanodiamonds under hydrostatic pressure up to 180 GPa. The nanodiamonds were synthetized by Si or Ge-doped plasma assisted chemical vapor deposition and, for our experiment, pressurized in a diamond anvil cell. Under hydrostatic pressure we observe blue-shifts of the SiV and GeV zero-phonon lines by 17 THz (70 meV) and 78 THz (320 meV), respectively. These measured pressure induced shifts are in good agreement with ab initio calculations that take into account the lattice compression based on the equation of state of diamond and that are extended to the case of the tin-vacancy (SnV) center. This work provides guidance on the use of group-IV-vacancy centers as quantum sensors under extreme pressures that will exploit their specific optical and spin properties induced by their intrinsic inversion-symmetric structure.
翻訳日:2023-01-25 23:20:55 公開日:2022-11-29
# Kronig-Penneyモデルのブートストラップ

Bootstrapping the Kronig-Penney Model ( http://arxiv.org/abs/2209.09919v2 )

ライセンス: Link先を確認
Matthew J. Blacker, Arpan Bhattacharyya, Aritra Banerjee(参考訳) 近年、共形場理論からのブートストラップ法が様々な量子力学系のエネルギースペクトルの研究に応用されている。 本稿では,1次元格子内の粒子のkronig-penneyモデルに特に注意を払って,周期ポテンシャルを持つschr\"odinger方程式からスペクトルを得るためのこれらの手法の適用について考察する。 位置とモーメントを含む演算子基底の適切な選択により、ブートストラップアプローチはエネルギースペクトルのバンドギャップを効率的に計算するが、最小エネルギーを効果的に制限することは困難である。 我々は、momentaのより高いパワーを含むより複雑な制約を適用することで、このような問題を解決できる可能性を示す。 また,系のブロッホ運動量に関連する分散関係を解析的に構築する手法を提案する。

Recently, bootstrap methods from conformal field theory have been adapted for studying the energy spectrum of various quantum mechanical systems. In this paper, we consider the application of these methods in obtaining the spectrum from the Schr\"odinger equation with periodic potentials, paying particular attention to the Kronig-Penney model of a particle in a one-dimensional lattice. With an appropriate choice of operator basis involving position and momenta, we find that the bootstrap approach efficiently computes the band gaps of the energy spectrum but has trouble effectively constraining the minimum energy. We show how applying more complex constraints involving higher powers of momenta can potentially remedy such a problem. We also propose an approach for analytically constructing the dispersion relation associated with the Bloch momentum of the system.
翻訳日:2023-01-25 23:10:54 公開日:2022-11-29
# 分散負荷を考慮した3波混合ジョセフソン進行波パラメトリック増幅器の数値解析

Numerical analysis of a three-wave-mixing Josephson traveling-wave parametric amplifier with engineered dispersion loadings ( http://arxiv.org/abs/2209.11052v2 )

ライセンス: Link先を確認
Victor Gaydamachenko, Christoph Kissling, Ralf Dolata and Alexander B. Zorin(参考訳) 最近提案されたJTWPA(Josephson travel-wave parametric GC)は、無線周波数SQUIDと3波混合(3WM)を併用したはしご伝送線路をベースとし、20dBの利得と少なくとも4GHzのフラット帯域を実現する大きな可能性を持っている。 To realize this concept in practical amplifiers we model the advanced JTWPA circuit with periodic modulation of the circuit parameters (engineered dispersion loadings), which allow the basic mixing process, i.e., $\omega_s=\omega_p-\omega_i$, where $\omega_s$, $\omega_p$, and $\omega_i$ are the signal, the pump, and the idler frequencies, respectively, and efficiently suppress propagation of unwanted higher tones including $\omega_{2p}=2\omega_p$, $\omega_{p+s}=\omega_p +\omega_s$, $\omega_{p+i} = \omega_p + \omega_i$, etc. 設計された分散ロードは、利得-周波数依存性がかなり小さいリップル($\pm2$ db)と合わせて、$3$ ghzから$9$ ghzまでの十分な幅のdb帯域幅を達成することができる。

The recently proposed Josephson traveling-wave parametric amplifier (JTWPA) based on a ladder transmission line consisting of radio-frequency SQUIDs and exploiting three-wave mixing (3WM), has great potential in achieving both a gain of 20 dB and a flat bandwidth of at least 4 GHz. To realize this concept in practical amplifiers we model the advanced JTWPA circuit with periodic modulation of the circuit parameters (engineered dispersion loadings), which allow the basic mixing process, i.e., $\omega_s=\omega_p-\omega_i$, where $\omega_s$, $\omega_p$, and $\omega_i$ are the signal, the pump, and the idler frequencies, respectively, and efficiently suppress propagation of unwanted higher tones including $\omega_{2p}=2\omega_p$, $\omega_{p+s}=\omega_p +\omega_s$, $\omega_{p+i} = \omega_p + \omega_i$, etc. The engineered dispersion loadings allow achieving sufficiently wide $3$ dB-bandwidth from $3$ GHz to $9$ GHz combined with a reasonably small ripple ($\pm2$ dB) in the gain-versus-frequency dependence.
翻訳日:2023-01-25 18:08:52 公開日:2022-11-29
# 光後方散乱に対する位相制御非対称光学的絡み合い

Phase-controlled asymmetric optomechanical entanglement against optical backscattering ( http://arxiv.org/abs/2209.12508v2 )

ライセンス: Link先を確認
Jing-Xue Liu, Ya-Feng Jiao, Ying Li, Xun-Wei Xu, Qiong-Yi He, Hui Jing(参考訳) 量子絡み合いは、量子物理学の基本的な側面を理解し、様々な量子デバイスを実用化するためにも重要な役割を果たしている。 本稿では、駆動レーザの位相差を調整し、光ささやきモード共振器における光力学的絡み合いのコヒーレントスイッチを実現する方法を提案する。 光学的絡み合いとそれに伴う2モード量子スクイージングは、従来の対称デバイスと比較して、光学的後方散乱に対する量子絡み合いを効果的に保護し、強化する方法を提供する。 ノイズ耐性量子処理や後方散乱免疫型量子メソロジーなど,幅広い応用分野において重要となる雑音環境下での様々な量子デバイスの性能向上に新たな光を当てた。

Quantum entanglement plays a key role in both understanding the fundamental aspects of quantum physics and realizing various quantum devices for practical applications. Here we propose how to achieve coherent switch of optomechanical entanglement in an optical whispering-gallery-mode resonator, by tuning the phase difference of the driving lasers. We find that the optomechanical entanglement and the associated two-mode quantum squeezing can be well tuned in a highly asymmetric way, providing an efficient way to protect and enhance quantum entanglement against optical backscattering, in comparison with conventional symmetric devices. Our findings shed a new light on improving the performance of various quantum devices in practical noisy environment, which is crucial in such a wide range of applications as noise-tolerant quantum processing and the backscattering-immune quantum metrology.
翻訳日:2023-01-25 03:11:14 公開日:2022-11-29
# 正確なモビリティエッジとロバストフラットバンドを持つ2次元頂点装飾リーブ格子

Two dimensional vertex-decorated Lieb lattice with exact mobility edges and robust flat bands ( http://arxiv.org/abs/2209.14741v3 )

ライセンス: Link先を確認
Yucheng Wang, Long Zhang, Yuhao Wan, Yu He, and Yongjian Wang(参考訳) エネルギー分離と局所状態を示す移動端(ME)は、乱れや準周期ポテンシャルによって誘導される金属絶縁体遷移を理解するための中心概念である。 mesは3次元障害系と1次元準周期系で広く研究されている。 しかし、2次元(2D)系におけるMEの研究は稀である。 ここでは、(拡張)リーブ格子の頂点にのみ作用する準周期ポテンシャルを持つ2次元頂点装飾リーブ格子モデルのクラスを提案する。 これらのモデルを2D Aubry-Andr\'{e} モデルにマッピングすることにより、MEs の正確な表現と局所状態の局所化長を求め、さらに平坦なバンドが準周期ポテンシャルの影響を受けないことを示す。 最後に,量子ドットアレイ上で実験的にモデルを実現するための実現可能性の高いスキームを提案する。 2dシステムにおける正確な mes とロバストなフラットバンドの研究と実現への扉を開く。

The mobility edge (ME) that marks the energy separating extended and localized states is a central concept in understanding the metal-insulator transition induced by disordered or quasiperiodic potentials. MEs have been extensively studied in three dimensional disorder systems and one-dimensional quasiperiodic systems. However, the studies of MEs in two dimensional (2D) systems are rare. Here we propose a class of 2D vertex-decorated Lieb lattice models with quasiperiodic potentials only acting on the vertices of a (extended) Lieb lattice. By mapping these models to the 2D Aubry-Andr\'{e} model, we obtain exact expressions of MEs and the localization lengths of localized states, and further demonstrate that the flat bands remain unaffected by the quasiperiodic potentials. Finally, we propose a highly feasible scheme to experimentally realize our model in a quantum dot array. Our results open the door to studying and realizing exact MEs and robust flat bands in 2D systems.
翻訳日:2023-01-24 16:51:14 公開日:2022-11-29
# satyendra nath bose:量子統計からボース=アインシュタイン凝縮へ

Satyendra Nath Bose: Quantum statistics to Bose-Einstein condensation ( http://arxiv.org/abs/2210.13967v2 )

ライセンス: Link先を確認
Golam Ali Sekh and Benoy Talukdar(参考訳) Satyendra Nath Bose氏は、インドの偉大な科学者の一人です。 彼の黒体放射やプランクの法則の導出に関する顕著な研究は、量子統計学、特に光子の統計学に繋がった。 アルベルト・アインシュタインはボースの概念を原子からなる気体に適用し、ボース=アインシュタイン凝縮と呼ばれる新しい物質の状態を予測する。 実験室で予測された凝縮現象を観察するのに70年かかった。 ボース教授の形式的期間の簡単な紹介により、この調査は量子統計学の基礎研究から始まり、その後、ボース=アインシュタイン凝縮の実験的な実現において終了する一連の事象の簡単な説明を提供する。 また、準1次元凝縮体と魅力的な原子-原子相互作用における合成スピン軌道結合の役割を可視化する2つの簡単な例を示す。

Satyendra Nath Bose is one of the great Indian scientists. His remarkable work on the black body radiation or derivation of Planck's law led to quantum statistics, in particular, the statistics of photon. Albert Einstein applied Bose's idea to a gas made of atoms and predicted a new state of matter now called Bose-Einstein condensate. It took 70 years to observe the predicted condensation phenomenon in the laboratory. With a brief introduction to the formative period of Professor Bose, this research survey begins with the founding works on quantum statistics and, subsequently, provides a brief account of the series of events terminating in the experimental realization of Bose-Einstein condensation. We also provide two simple examples to visualize the role of synthetic spin-orbit coupling in a quasi-one-dimensional condensate with attractive atom-atom interaction.
翻訳日:2023-01-22 06:50:43 公開日:2022-11-29
# 高次コスト関数のための模擬分岐

Simulated bifurcation for higher-order cost functions ( http://arxiv.org/abs/2211.09296v3 )

ライセンス: Link先を確認
Taro Kanao, Hayato Goto(参考訳) 組合せ最適化問題を解くための高性能Isingマシンは、シミュレートバイファーケーション(SB)のようなヒューリスティックアルゴリズムを実装したデジタルプロセッサで開発されている。 イジングマシンは2次コスト関数用に設計されているが、高次コスト関数によって自然に表される実用的な問題がある。 本研究では,SBを高次コスト関数に拡張する。 3階のコスト関数を持つ問題を解くことにより、高階のSBはスピン変数を付加した2階のSBよりも優れるだけでなく、三階のコスト関数に直接適用されるアニールをシミュレートできることを示す。 その結果,高次SBは実用的に有用であることが示唆された。

High-performance Ising machines for solving combinatorial optimization problems have been developed with digital processors implementing heuristic algorithms such as simulated bifurcation (SB). Although Ising machines have been designed for second-order cost functions, there are practical problems expressed naturally by higher-order cost functions. In this work, we extend SB to such higher-order cost functions. By solving a problem having third-order cost functions, we show that the higher-order SB can outperform not only the second-order SB with additional spin variables, but also simulated annealing applied directly to the third-order cost functions. This result suggests that the higher-order SB can be practically useful.
翻訳日:2023-01-19 07:05:54 公開日:2022-11-29
# CHFClBr,CHFClI,CHFBrIの原子価軌道寄与のキャンセルによるパリティ違反エネルギー差の増大

Enhancement of parity-violating energy difference of CHFClBr, CHFClI, and CHFBrI by breaking the cancellation among valence orbital contributions ( http://arxiv.org/abs/2211.12010v2 )

ライセンス: Link先を確認
Naoya Kuroda, Ayaki Sunaga, and Masato Senami(参考訳) H$2X_2$$(X =$ O, S, Se, Te), CHFClBr, CHFClI, CHFBrIについて, 電子励起によるパリティ違反エネルギー差(PVED)の増大について検討した。 促進機構を明らかにするため, H$2X_2$のPVEDの励起状態における二面角依存性について検討した。 最上位占有分子軌道(homo)から基底状態のpvedへの寄与が全占有軌道からのpvedの合計よりも大きい場合、第1励起状態のpvedは原子価軌道の寄与のうちの破壊がキャンセルされたため、基底状態よりもはるかに大きな値を持つ。 この強化はキャンセル破壊強化と呼ばれる。 また,CHFClBr,CHFClI,CHFBrIの励起状態でのPVED増強効果も検討し,キャンセル破壊促進効果を確認した。 HOMOからのPVEDコントリビューションが他のどのコントリビューションよりも大きい場合、キャンセル破壊促進仮説はHOMOコントリビューションから最初の励起状態におけるPVEDの推定を提供する。

The enhancement of the parity-violating energy difference (PVED) by electronic excitation is studied for H$_2X_2$ ($X =$ O, S, Se, Te), CHFClBr, CHFClI, and CHFBrI. To clarify the enhancement mechanism, the dihedral angle dependence of the PVED of H$_2X_2$ in excited states is studied. If the contribution from the highest occupied molecular orbital (HOMO) to the PVED in the ground state is larger than the sum of those from all occupied orbitals, the PVED in the first excited state has a much larger value compared to the ground state due to cancellation breaking among valence orbital contributions. This enhancement is named cancellation breaking enhancement. The PVED enhancement is also studied for CHFClBr, CHFClI, and CHFBrI in excited states, and the cancellation breaking enhancement is confirmed. When the PVED contribution from the HOMO is larger than any other contribution, the cancellation breaking enhancement hypothesis provides the estimate of PVED in the first excited state from the HOMO contribution.
翻訳日:2023-01-19 04:16:10 公開日:2022-11-29
# ホウ素-アインシュタイン凝縮体における励起状態量子相転移とLoschmidtエコースペクトル

Excited state quantum phase transition and Loschmidt echo spectrum in a spinor Bose-Einstein condensate ( http://arxiv.org/abs/2211.15142v2 )

ライセンス: Link先を確認
Zhen-Xia Niu and Qian Wang(参考訳) 実験的に実現可能な量子多体系における励起状態量子相転移(ESQPT)の動的シグネチャの同定は、ESQPTの動的効果を理解するのに役立つ。 このような系では、高度に制御可能なスピノルBose-Einstein condenstes (BECs) はESQPTを研究するための特別なプラットフォームを提供する。 本研究では, ESQPTのスピン-1$BECにおける力学特性をLoschmidtエコースペクトルを用いて検討する。 ロシミットエコースペクトル(Loschmidt echo spectrum)は、よく知られたロシミットエコーの拡張であり、進化状態と初期ハミルトニアンの励起状態の重なりとして定義されている。 時間発展と時間平均化の両方のロスシュミットエコースペクトルは、システムがesqptの臨界点を通過すると著しく変化することを示した。 さらに、臨界点におけるLoschmidtエコースペクトルによって示される特定の挙動は、ESQPTを探査するための動的検出器として重要である。 さらに,ロシュミットエコースペクトルに関連するエネルギー分布を時間発展と時間平均化に重み付けて用いることで,esqptの特徴を捉える方法を示す。 本研究は,多体系における様々な量子相転移の観測におけるロスシュミットエコースペクトルの有用性のさらなる検証に寄与し,esqptの動的影響を実験的に検証する新しい方法を提供する。

Identifying dynamical signatures of excited state quantum phase transitions (ESQPTs) in experimentally realizable quantum many-body systems is helpful for understanding the dynamical effects of ESQPTs. In such systems, the highly controllable spinor Bose-Einstein condenstes (BECs) offer an exceptional platform to study ESQPTs. In this work, we investigate the dynamical characteristics of the ESQPT in spin-$1$ BEC by means of the Loschmidt echo spectrum. The Loschmidt echo spectrum is an extension of the well-known Loschmidt echo and definded as the overlaps between the evolved state and the excited states of the initial Hamiltonian. We show that both the time evolved and long time averaged Loschmidt echo spectrum undergo a remarkable change as the system passes through the critical point of the ESQPT. Moreover, the particular behavior exhibited by the Loschmidt echo spectrum at the critical point stand as a dynamical detector for probing the ESQPT. We further demonstrate how to capture the features of the ESQPT by using the energy distribution associated with the Loschmidt echo spectrum for time evolved and long time averaged cases, respectrively. Our findings contribute to a further verification of the usefulness of the Loschmidt echo spectrum for witnessing various quantum phase transitions in many-body systems and provide a new way to experimentally examine the dynamical consequences of ESQPTs.
翻訳日:2023-01-17 15:08:41 公開日:2022-11-29
# 機械学習のエネルギーとカーボンフットプリントの体系的報告に向けて

Towards the Systematic Reporting of the Energy and Carbon Footprints of Machine Learning ( http://arxiv.org/abs/2002.05651v2 )

ライセンス: Link先を確認
Peter Henderson, Jieru Hu, Joshua Romoff, Emma Brunskill, Dan Jurafsky, Joelle Pineau(参考訳) エネルギーと炭素使用の正確な報告は、機械学習研究の潜在的な気候影響を理解するために不可欠である。 我々は、リアルタイムエネルギー消費と二酸化炭素排出量を追跡するシンプルなインターフェースと、標準化されたオンライン付録を生成することによって、これをより簡単にするフレームワークを紹介する。 このフレームワークを利用して、エネルギー効率のよい強化学習アルゴリズムのためのリーダーボードを作成し、機械学習の他の分野の例として、この分野の責任ある研究にインセンティブを与える。 最後に,本フレームワークを用いたケーススタディに基づき,炭素排出量削減とエネルギー消費削減のための戦略を提案する。 会計を楽にすることで、機械学習実験の持続可能な発展を促進し、エネルギー効率のよいアルゴリズムの研究をさらに促進したいと考えています。

Accurate reporting of energy and carbon usage is essential for understanding the potential climate impacts of machine learning research. We introduce a framework that makes this easier by providing a simple interface for tracking realtime energy consumption and carbon emissions, as well as generating standardized online appendices. Utilizing this framework, we create a leaderboard for energy efficient reinforcement learning algorithms to incentivize responsible research in this area as an example for other areas of machine learning. Finally, based on case studies using our framework, we propose strategies for mitigation of carbon emissions and reduction of energy consumption. By making accounting easier, we hope to further the sustainable development of machine learning experiments and spur more research into energy efficient algorithms.
翻訳日:2023-01-05 07:06:56 公開日:2022-11-29
# ジョイントインテントとスロットラベリングのためのゼロショット学習

Zero-Shot Learning for Joint Intent and Slot Labeling ( http://arxiv.org/abs/2212.07922v1 )

ライセンス: Link先を確認
Rashmi Gangadharaiah and Balakrishnan Narayanaswamy(参考訳) ニューラルネットワーク(nn)ベースの自然言語理解(nlu)コンポーネントのタスク指向ダイアログシステムのトレーニングに必要な大量の文レベルのインテントとトークンレベルのスロットラベルアノテーションを得ることは、高価かつ困難である。 ラベル付き例を必要としないゼロショット学習アプローチ - 特徴と補助情報のみ - はスロットラベリングにのみ提案されているが,ゼロショットインテント分類とスロットラベリングを併用することで利益を得られることを示す。 我々は,インテントとスロット間の依存性と,ゼロショット設定の発話における異なるスロット間の依存性をキャプチャする価値を示す。 我々は、単語と文の埋め込み空間を翻訳するnnアーキテクチャを説明し、これらの修正は、このタスクのためにゼロショット学習を可能にするために必要であることを示す。 強固なベースラインよりも大幅に改善し、可視化とアブレーションの研究を通じて各アーキテクチャの変更の背後にある直感を説明する。

It is expensive and difficult to obtain the large number of sentence-level intent and token-level slot label annotations required to train neural network (NN)-based Natural Language Understanding (NLU) components of task-oriented dialog systems, especially for the many real world tasks that have a large and growing number of intents and slot types. While zero shot learning approaches that require no labeled examples -- only features and auxiliary information -- have been proposed only for slot labeling, we show that one can profitably perform joint zero-shot intent classification and slot labeling. We demonstrate the value of capturing dependencies between intents and slots, and between different slots in an utterance in the zero shot setting. We describe NN architectures that translate between word and sentence embedding spaces, and demonstrate that these modifications are required to enable zero shot learning for this task. We show a substantial improvement over strong baselines and explain the intuition behind each architectural modification through visualizations and ablation studies.
翻訳日:2022-12-18 18:58:21 公開日:2022-11-29
# 定常過程のカーネル自己分散作用素:推定と収束

Kernel Autocovariance Operators of Stationary Processes: Estimation and Convergence ( http://arxiv.org/abs/2004.00891v2 )

ライセンス: Link先を確認
Mattes Mollenhauer, Stefan Klus, Christof Sch\"utte, P\'eter Koltai(参考訳) 我々は、再生核ヒルベルト空間に埋め込まれたポーランド空間上の定常確率過程の自己共分散作用素を考える。 これらの演算子の経験的推定が、様々な条件下でのプロセスの実現に沿ってどのように収束するかを考察する。 特に,エルゴディックおよび強い混合過程を調べ,有限サンプル誤差境界だけでなく,いくつかの漸近的な結果を得る。 我々は、依存データを持つカーネルPCAの一貫性と遷移確率の条件平均埋め込みの観点から、我々の理論を応用した。 最後に,この手法を用いてマルコフ遷移作用素の非パラメトリック推定を検証し,この理論がカーネルに基づく動的モード分解を含む多くのスペクトル解析法に対する一貫性解析にどのように役立つかを強調する。

We consider autocovariance operators of a stationary stochastic process on a Polish space that is embedded into a reproducing kernel Hilbert space. We investigate how empirical estimates of these operators converge along realizations of the process under various conditions. In particular, we examine ergodic and strongly mixing processes and obtain several asymptotic results as well as finite sample error bounds. We provide applications of our theory in terms of consistency results for kernel PCA with dependent data and the conditional mean embedding of transition probabilities. Finally, we use our approach to examine the nonparametric estimation of Markov transition operators and highlight how our theory can give a consistency analysis for a large family of spectral analysis methods including kernel-based dynamic mode decomposition.
翻訳日:2022-12-17 09:54:32 公開日:2022-11-29
# 最小データ取得と計算時間を用いた3次元ナノスケールx線撮影のための注意型ptycho-tomography (apt)

Attentional Ptycho-Tomography (APT) for three-dimensional nanoscale X-ray imaging with minimal data acquisition and computation time ( http://arxiv.org/abs/2212.00014v1 )

ライセンス: Link先を確認
Iksung Kang, Ziling Wu, Yi Jiang, Yudong Yao, Junjing Deng, Jeffrey Klug, Stefan Vogt, George Barbastathis(参考訳) 例えば、集積回路(IC)のようなナノスケールの3次元物体の非侵襲的なX線イメージングは、一般的に2種類の走査を必要とする:ptychographicは翻訳され、ICを通して複雑な電磁場の推定を返却する。 そこで本研究では,不完全な測定にもかかわらずICの正確な再構築を行うために訓練されたAttentional Ptycho-Tomography(APT)を提案する。 トレーニングプロセスには、典型的なICパターンとX線伝播の物理に基づく事前調整が含まれる。 12時間縮小角度のAPTは、元の角度のセットのゴールド標準に匹敵する忠実性が得られることを示す。 同じ角度のセットで、APTはベースライン再構築法よりも優れている。 実験の結果,APTは品質を損なうことなく,データ取得と計算の108時間の集約化を実現した。 我々の物理支援機械学習フレームワークは、ナノスケールイメージングの他の分野にも応用できるだろう。

Noninvasive X-ray imaging of nanoscale three-dimensional objects, e.g. integrated circuits (ICs), generally requires two types of scanning: ptychographic, which is translational and returns estimates of complex electromagnetic field through ICs; and tomographic scanning, which collects complex field projections from multiple angles. Here, we present Attentional Ptycho-Tomography (APT), an approach trained to provide accurate reconstructions of ICs despite incomplete measurements, using a dramatically reduced amount of angular scanning. Training process includes regularizing priors based on typical IC patterns and the physics of X-ray propagation. We demonstrate that APT with 12-time reduced angles achieves fidelity comparable to the gold standard with the original set of angles. With the same set of reduced angles, APT also outperforms baseline reconstruction methods. In our experiments, APT achieves 108-time aggregate reduction in data acquisition and computation without compromising quality. We expect our physics-assisted machine learning framework could also be applied to other branches of nanoscale imaging.
翻訳日:2022-12-02 17:51:44 公開日:2022-11-29
# PAM 4短距離伝送のための貯留層計算に基づくマルチシムボル等化

Reservoir Computing-based Multi-Symbol Equalization for PAM 4 Short-reach Transmission ( http://arxiv.org/abs/2212.00738v1 )

ライセンス: Link先を確認
Yevhenii Osadchuk, Ognjen Jovanovic, Darko Zibar and Francesco Da Ros(参考訳) スペクトルスライシング型貯水池コンピュータ(RC)による32GBのPAM4伝送のマルチシンボル等化を提案する。 出力に17のシンボルを持つRCは、単純なトレーニングを維持しながら、乗算/シンボル対単一出力ケースの桁違いの削減を達成する。

We propose spectrum-sliced reservoir computer-based (RC) multi-symbol equalization for 32-GBd PAM4 transmission. RC with 17 symbols at the output achieves an order of magnitude reduction in multiplications/symbol versus single output case while maintaining simple training.
翻訳日:2022-12-02 17:42:04 公開日:2022-11-29
# トランスフォーマーを用いた高密度EMG信号による手指ジェスチャー認識:瞬時認識からモータスパイクの融合へ

Transformer-based Hand Gesture Recognition via High-Density EMG Signals: From Instantaneous Recognition to Fusion of Motor Unit Spike Trains ( http://arxiv.org/abs/2212.00743v1 )

ライセンス: Link先を確認
Mansooreh Montazerin, Elahe Rahimian, Farnoosh Naderkhani, S. Farokh Atashzar, Svetlana Yanushkevich, Arash Mohammadi(参考訳) 効率的で省力な義手の設計には、複雑さとレイテンシを限定した高精度なハンドジェスチャ認識アルゴリズムが必要である。 本稿では,高密度sEMG(HD-sEMG)信号を用いた手動ジェスチャー認識を実現するために,視覚変換器ネットワークを用いたCT-HGRと呼ばれる,コンパクトなディープラーニングフレームワークを提案する。 提案モデルにおけるアテンション機構は、並列計算のキャパシティが大きいデータセグメント間の類似性を識別し、大きなシーケンス長の入力を処理しながらメモリ制限問題に対処する。 CT-HGRは、転送学習を必要とせずにゼロからトレーニングすることができ、HD-sEMGデータの時間的特徴と空間的特徴を同時に抽出することができる。 さらに、CT-HGRフレームワークは、HD-SEMG信号から空間的に構成されたsEMG画像を用いて瞬時認識を行うことができる。 CT-HGRの変種は、Blind Source separation (BSS) を用いてHD-sEMG信号から抽出されたモータユニットスパイクトレイン(MUST)の形で、顕微鏡的なニューラルドライブ情報を組み込むように設計されている。 この変種は、マクロとミクロのニューラルドライブ情報を融合する可能性を評価するために、ハイブリッドアーキテクチャによるベースラインバージョンと組み合わせられている。 使用したHD-sEMGデータセットは、被験者20人の65の等尺手ジェスチャーに関連する信号を収集する128個の電極を含む。 提案したCT-HGRフレームワークは,32,64,128個の電極チャネルを用いて,上記データセットの窓サイズを31.25,62.5,125,250msとする。 32個の電極を使用し、窓サイズ31.25 msの全ての被験者の平均精度は86.23%であり、128個の電極で91.98%に達するまで徐々に増加し、窓サイズ250 msとなる。

Designing efficient and labor-saving prosthetic hands requires powerful hand gesture recognition algorithms that can achieve high accuracy with limited complexity and latency. In this context, the paper proposes a compact deep learning framework referred to as the CT-HGR, which employs a vision transformer network to conduct hand gesture recognition using highdensity sEMG (HD-sEMG) signals. The attention mechanism in the proposed model identifies similarities among different data segments with a greater capacity for parallel computations and addresses the memory limitation problems while dealing with inputs of large sequence lengths. CT-HGR can be trained from scratch without any need for transfer learning and can simultaneously extract both temporal and spatial features of HD-sEMG data. Additionally, the CT-HGR framework can perform instantaneous recognition using sEMG image spatially composed from HD-sEMG signals. A variant of the CT-HGR is also designed to incorporate microscopic neural drive information in the form of Motor Unit Spike Trains (MUSTs) extracted from HD-sEMG signals using Blind Source Separation (BSS). This variant is combined with its baseline version via a hybrid architecture to evaluate potentials of fusing macroscopic and microscopic neural drive information. The utilized HD-sEMG dataset involves 128 electrodes that collect the signals related to 65 isometric hand gestures of 20 subjects. The proposed CT-HGR framework is applied to 31.25, 62.5, 125, 250 ms window sizes of the above-mentioned dataset utilizing 32, 64, 128 electrode channels. The average accuracy over all the participants using 32 electrodes and a window size of 31.25 ms is 86.23%, which gradually increases till reaching 91.98% for 128 electrodes and a window size of 250 ms. The CT-HGR achieves accuracy of 89.13% for instantaneous recognition based on a single frame of HD-sEMG image.
翻訳日:2022-12-02 17:42:00 公開日:2022-11-29
# 意味的テキスト類似性を用いたAstroBERTの改良

Improving astroBERT using Semantic Textual Similarity ( http://arxiv.org/abs/2212.00744v1 )

ライセンス: Link先を確認
Felix Grezes, Thomas Allen, Sergi Blanco-Cuaresma, Alberto Accomazzi, Michael J. Kurtz, Golnaz Shapurian, Edwin Henneken, Carolyn S. Grant, Donna M. Thompson, Timothy W. Hostetler, Matthew R. Templeton, Kelly E. Lockhart, Shinyi Chen, Jennifer Koch, Taylor Jacovich, and Pavlos Protopapas(参考訳) NASA Astrophysics Data System(ADS)は、天文学と天体物理学の科学文献を探索できる研究者にとって不可欠なツールであるが、自然言語処理の最近の進歩をまだ活用していない。 ADASS 2021で我々は、ADSの天文学論文で使われるテキストに合わせた機械学習言語モデルAstroBERTを紹介した。 In this work: - announced the first public release of the astroBERT language model; - showing how astroBERT improves existing public language model on astrophysics specific task; - and details how ADS plans to leverage the unique structure of scientific papers, the citation graph and citation context, to improve astroBERT。

The NASA Astrophysics Data System (ADS) is an essential tool for researchers that allows them to explore the astronomy and astrophysics scientific literature, but it has yet to exploit recent advances in natural language processing. At ADASS 2021, we introduced astroBERT, a machine learning language model tailored to the text used in astronomy papers in ADS. In this work we: - announce the first public release of the astroBERT language model; - show how astroBERT improves over existing public language models on astrophysics specific tasks; - and detail how ADS plans to harness the unique structure of scientific papers, the citation graph and citation context, to further improve astroBERT.
翻訳日:2022-12-02 16:39:54 公開日:2022-11-29
# MMSpeech:マルチモーダルマルチタスクエンコーダデコーダの事前学習による音声認識

MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech Recognition ( http://arxiv.org/abs/2212.00500v1 )

ライセンス: Link先を確認
Xiaohuan Zhou, Jiaming Wang, Zeyu Cui, Shiliang Zhang, Zhijie Yan, Jingren Zhou, Chang Zhou(参考訳) 本稿では,マンダリン自動音声認識(ASR)のためのマルチモーダル・マルチタスク・エンコーダ・デコーダ事前学習フレームワーク(MMSpeech)を提案する。 音声-テキスト合同事前学習の主な難点は、特にマンダリン語とテキストにおいて、音声とテキストのモーダリティが著しく異なることによる。 英語や他のアルファベット表記の言語とは異なり、マンダリンはイデオロギーによる表記システムを用いており、文字と音は互いに密にマッピングされていない。 そこで本研究では,マンダリン音声とテキストのモーダリティ不変な情報を取り込むために,事前学習に音素モーダリティを導入することを提案する。 具体的には,音声とテキストデータを用いた5つの自己教師ありタスクを含むマルチタスク学習フレームワークを採用する。 エンドツーエンドの事前学習には,教師なし音声とテキストデータを用いた自己教師付き音声合成符号 (s2c) と音素対テキスト処理 (p2t) を導入する。 符号化器を訓練してより優れた音声表現を学ぶために,自己教師付きマスク音声予測(msp)と教師付き音素予測(pp)タスクを導入し,音声を音素にマッピングする学習を行う。 さらに、事前学習プロセスに下流教師あり音声テキスト(S2T)タスクを直接追加し、事前学習性能をさらに向上させ、微調整をせずに認識結果を改善する。 AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。

In this paper, we propose a novel multi-modal multi-task encoder-decoder pre-training framework (MMSpeech) for Mandarin automatic speech recognition (ASR), which employs both unlabeled speech and text data. The main difficulty in speech-text joint pre-training comes from the significant difference between speech and text modalities, especially for Mandarin speech and text. Unlike English and other languages with an alphabetic writing system, Mandarin uses an ideographic writing system where character and sound are not tightly mapped to one another. Therefore, we propose to introduce the phoneme modality into pre-training, which can help capture modality-invariant information between Mandarin speech and text. Specifically, we employ a multi-task learning framework including five self-supervised and supervised tasks with speech and text data. For end-to-end pre-training, we introduce self-supervised speech-to-pseudo-codes (S2C) and phoneme-to-text (P2T) tasks utilizing unlabeled speech and text data, where speech-pseudo-codes pairs and phoneme-text pairs are a supplement to the supervised speech-text pairs. To train the encoder to learn better speech representation, we introduce self-supervised masked speech prediction (MSP) and supervised phoneme prediction (PP) tasks to learn to map speech into phonemes. Besides, we directly add the downstream supervised speech-to-text (S2T) task into the pre-training process, which can further improve the pre-training performance and achieve better recognition results even without fine-tuning. Experiments on AISHELL-1 show that our proposed method achieves state-of-the-art performance, with a more than 40% relative improvement compared with other pre-training methods.
翻訳日:2022-12-02 15:39:26 公開日:2022-11-29
# 制約サンプリングのためのペナル化ランゲヴィンとハミルトンモンテカルロアルゴリズム

Penalized Langevin and Hamiltonian Monte Carlo Algorithms for Constrained Sampling ( http://arxiv.org/abs/2212.00570v1 )

ライセンス: Link先を確認
Mert G\"urb\"uzbalaban, Yuanhan Hu, Lingjiong Zhu(参考訳) 分布 $\pi(x)\propto e^{-f(x)}$ と $x$ が凸体 $\mathcal{C}\subset \mathbb{R}^d$ 上で制約されるような制約付きサンプリング問題を考える。 ペナルティ法を最適化から動機付け,制約付きサンプリング問題を制約違反のペナルティ関数を導入し,制約付きサンプリング問題を制約なしのペナルティ関数に変換する,ペナルティ付きランゲヴィンダイナミクス(PLD)とペナルティ付きハミルトンモンテカルロ(PHMC)を提案する。 f$ が滑らかで勾配が利用可能であれば、$\tilde{\mathcal{o}}(d/\varepsilon^{10})$ 反復複雑性を示す。 pld は目標を$\varepsilon$-error までサンプリングし、誤差は全変動距離で測定され、$\tilde{\mathcal{o}}(\cdot)$ はいくつかの対数因子を隠蔽する。 phmc の場合、この結果を $\tilde{\mathcal{o}}(\sqrt{d}/\varepsilon^{7})$ に改善する: $f$ のヘッセンがリプシッツであり、$\mathcal{c}$ の境界が十分滑らかである。 我々の知る限りでは、これらは非凸$f$を処理でき、決定論的勾配を持つ既存の方法間で最適な次元依存性を持つ保証を提供できる制約付きサンプリング設定において、ハミルトン・モンテカルロ法の最初の収束率結果である。 次に、偏りのない確率勾配が利用できる設定を考える。 メトロポリス・ハスティング補正ステップなしで確率勾配を処理できるPSGLDとPSGHMCを提案する。 f$ が強凸かつ滑らかであれば、それぞれ 2-ワッサーシュタイン距離において $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ と $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ の反復複雑性が得られる。 より一般的な場合、$f$ が滑らかで非凸であれば、有限時間のパフォーマンス境界と反復複雑性の結果も提供する。 最後に、アルゴリズムをベイズラッソ回帰とベイズ制約付き深層学習問題でテストする。

We consider the constrained sampling problem where the goal is to sample from a distribution $\pi(x)\propto e^{-f(x)}$ and $x$ is constrained on a convex body $\mathcal{C}\subset \mathbb{R}^d$. Motivated by penalty methods from optimization, we propose penalized Langevin Dynamics (PLD) and penalized Hamiltonian Monte Carlo (PHMC) that convert the constrained sampling problem into an unconstrained one by introducing a penalty function for constraint violations. When $f$ is smooth and the gradient is available, we show $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in terms of the total variation distance and $\tilde{\mathcal{O}}(\cdot)$ hides some logarithmic factors. For PHMC, we improve this result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence rate results for Hamiltonian Monte Carlo methods in the constrained sampling setting that can handle non-convex $f$ and can provide guarantees with the best dimension dependency among existing methods with deterministic gradients. We then consider the setting where unbiased stochastic gradients are available. We propose PSGLD and PSGHMC that can handle stochastic gradients without Metropolis-Hasting correction steps. When $f$ is strongly convex and smooth, we obtain an iteration complexity of $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ respectively in the 2-Wasserstein distance. For the more general case, when $f$ is smooth and non-convex, we also provide finite-time performance bounds and iteration complexity results. Finally, we test our algorithms on Bayesian LASSO regression and Bayesian constrained deep learning problems.
翻訳日:2022-12-02 15:28:12 公開日:2022-11-29
# Actor-Critic Deep Reinforcement Learning を用いたPID自動制御

Autotuning PID control using Actor-Critic Deep Reinforcement Learning ( http://arxiv.org/abs/2212.00013v1 )

ライセンス: Link先を確認
Vivien van Veldhuizen(参考訳) この研究は、リンゴ収穫用に設計されたロボットに対して、強化学習を用いて最適なPIDパラメータを予測する方法についての探索研究である。 これを研究するために、シミュレーションロボットアームにAdvantage Actor Critic (A2C)と呼ばれるアルゴリズムを実装した。 シミュレーションは主にROSフレームワークに依存している。 1回に1つのアクチュエータをチューニングする実験と1回に2つのアクチュエータを動作させることにより、モデルがセットベースラインよりも優れたPIDゲインを予測できることを示す。 さらに、リンゴの位置に基づいて、モデルがPIDパラメータを予測できるかどうかについても検討した。 最初のテストでは、モデルがその予測をリンゴの場所に適応できることが示され、適応的なコントローラになっている。

This work is an exploratory research concerned with determining in what way reinforcement learning can be used to predict optimal PID parameters for a robot designed for apple harvest. To study this, an algorithm called Advantage Actor Critic (A2C) is implemented on a simulated robot arm. The simulation primarily relies on the ROS framework. Experiments for tuning one actuator at a time and two actuators a a time are run, which both show that the model is able to predict PID gains that perform better than the set baseline. In addition, it is studied if the model is able to predict PID parameters based on where an apple is located. Initial tests show that the model is indeed able to adapt its predictions to apple locations, making it an adaptive controller.
翻訳日:2022-12-02 15:18:49 公開日:2022-11-29
# ランク回帰QRアルゴリズムを用いた貯水池計算のための時間シフトの最適化

Optimizing time-shifts for reservoir computing using a rank-revealing QR algorithm ( http://arxiv.org/abs/2211.17095v1 )

ライセンス: Link先を確認
Joseph D. Hart and Francesco Sorrentino and Thomas L. Carroll(参考訳) 貯留層コンピューティングは、出力層のみをトレーニングするリカレントニューラルネットワークパラダイムである。 近年,貯水池で発生した信号に時間シフトを加えることで,性能が向上することが実証された。 本研究では,最適な時間シフトを選択する手法を提案する。 本手法は,QRアルゴリズムを用いて貯水池行列のランクを最大化し,タスク依存ではない。 さらに,本手法はシステムのモデルを必要としないため,アナログハードウェア・サーブレット・コンピュータに直接適用可能である。 我々は,光電子発振器に基づく2種類のリザーバコンピュータと,$tanh$アクティベーション関数を持つ従来のリカレントネットワークを用いた時間シフト最適化手法を実証する。 この手法は,ランダムな時間シフト選択よりも,ほぼすべてのケースにおいて精度が向上することを見出した。

Reservoir computing is a recurrent neural network paradigm in which only the output layer is trained. Recently, it was demonstrated that adding time-shifts to the signals generated by a reservoir can provide large improvements in performance accuracy. In this work, we present a technique to choose the optimal time shifts. Our technique maximizes the rank of the reservoir matrix using a rank-revealing QR algorithm and is not task dependent. Further, our technique does not require a model of the system, and therefore is directly applicable to analog hardware reservoir computers. We demonstrate our time-shift optimization technique on two types of reservoir computer: one based on an opto-electronic oscillator and the traditional recurrent network with a $tanh$ activation function. We find that our technique provides improved accuracy over random time-shift selection in essentially all cases.
翻訳日:2022-12-01 18:18:30 公開日:2022-11-29
# 深部Qネットワークを用いた翼形状最適化

Airfoil Shape Optimization using Deep Q-Network ( http://arxiv.org/abs/2211.17189v1 )

ライセンス: Link先を確認
Siddharth Rout, Chao-An Lin(参考訳) 翼形状最適化における強化学習の有効性について検討した。 ディープqネットワーク(dqn)はマルコフの決定プロセス上で使われ、必要な目標を達成するために初期形状の最良の変化を学習することで最適な形状を見つける。 エアフォイルプロファイルはベジエ制御点を用いて生成され、制御変数の数を減らす。 制御点の位置の変化は、最適化の複雑さを減らすために、コードラインに正常な方向に限定される。 このプロセスは、プロファイルの各制御ポイントに対して行われた変更のエピソードの検索として設計されている。 DQNは基本的に、ベルマン最適方程式の時間差を更新することで、最高の変化のエピソードを学習する。 XFoil電位フローソルバを用いて計算したプロファイルに沿った圧力係数分布からドラッグ・アンド・リフト係数を算出する。 これらの係数は、最終目的がエピソードの累積報酬を最大化する学習過程において、すべての変化に報酬を与えるために使用される。

The feasibility of using reinforcement learning for airfoil shape optimization is explored. Deep Q-Network (DQN) is used over Markov's decision process to find the optimal shape by learning the best changes to the initial shape for achieving the required goal. The airfoil profile is generated using Bezier control points to reduce the number of control variables. The changes in the position of control points are restricted to the direction normal to the chordline so as to reduce the complexity of optimization. The process is designed as a search for an episode of change done to each control point of a profile. The DQN essentially learns the episode of best changes by updating the temporal difference of the Bellman Optimality Equation. The drag and lift coefficients are calculated from the distribution of pressure coefficient along the profile computed using XFoil potential flow solver. These coefficients are used to give a reward to every change during the learning process where the ultimate aim stands to maximize the cumulate reward of an episode.
翻訳日:2022-12-01 18:18:15 公開日:2022-11-29
# 古典データ上の量子忠実性核の利点に対する数値的証拠

Numerical evidence against advantage with quantum fidelity kernels on classical data ( http://arxiv.org/abs/2211.16551v1 )

ライセンス: Link先を確認
Lucas Slattery, Ruslan Shaydulin, Shouvanik Chakrabarti, Marco Pistoia, Sami Khairy, and Stefan M. Wild(参考訳) 量子機械学習技術は、実用的な量子優位性を示す最も有望な候補の1つである。 特に、量子カーネル法は、核が対象関数とよく一致している場合、古典的に難解な関数を効率的に学習できることが証明されている。 より一般的な場合、量子核は、量子ビットの数が増加するにつれてスペクトルの指数的な「平坦化」に悩まされ、一般化を防ぎ、超パラメータによる誘導バイアスの制御を必要とする。 量子カーネルの一般化を改善するために提案された汎用ハイパーパラメータチューニング技術により、カーネルは古典的カーネルによってよく近似され、量子優位性の可能性は排除されることを示す。 我々は,以前に研究した複数の量子特徴写像と合成データと実データを用いて,この現象に対する広範な数値的証拠を提供する。 この結果から,量子カーネルの帰納バイアスを制御する新しい手法が開発されない限り,古典的データに量子的優位性を与える可能性が示唆された。

Quantum machine learning techniques are commonly considered one of the most promising candidates for demonstrating practical quantum advantage. In particular, quantum kernel methods have been demonstrated to be able to learn certain classically intractable functions efficiently if the kernel is well-aligned with the target function. In the more general case, quantum kernels are known to suffer from exponential "flattening" of the spectrum as the number of qubits grows, preventing generalization and necessitating the control of the inductive bias by hyperparameters. We show that the general-purpose hyperparameter tuning techniques proposed to improve the generalization of quantum kernels lead to the kernel becoming well-approximated by a classical kernel, removing the possibility of quantum advantage. We provide extensive numerical evidence for this phenomenon utilizing multiple previously studied quantum feature maps and both synthetic and real data. Our results show that unless novel techniques are developed to control the inductive bias of quantum kernels, they are unlikely to provide a quantum advantage on classical data.
翻訳日:2022-12-01 18:10:12 公開日:2022-11-29
# 医学的意思決定問題に対する相対的スパーシティ

Relative Sparsity for Medical Decision Problems ( http://arxiv.org/abs/2211.16566v1 )

ライセンス: Link先を確認
Samuel J. Weisenthal, Sally W. Thurston, Ashkan Ertefaie(参考訳) 既存の統計手法は、政策を推定したり、共変量から意思決定へのマッピングに利用することができる。 医療においてこのようなデータ駆動ポリシーを使うことには大きな関心がある。 しかし、医療においては、医療提供者や患者に対して、新しいポリシーが現在のケアの標準とどのように異なるかを説明することがしばしば重要である。 この目的は、ケアの標準から、提案された新しいポリシーに移行する際に最も変化するポリシーの側面(すなわちパラメータ)を特定できれば促進される。 この目的のために、信頼地域政策最適化の考え方を適用します。 しかし,信頼領域の政策最適化とは異なり,提案する政策とケアの標準との差異は,解釈可能性に資する一方でスパースである必要がある。 特に、期待される報酬の最大化と、2つのポリシーのパラメータ間の標準偏差の最小化をトレードオフする。 これは「相対的スパーシティ」となり、チューニングパラメータの関数である$\lambda$として、ケアの標準において、提案するポリシーのパラメータ数と異なるパラメータの数を概ね制御できる。 我々は観測データ設定のための方法論を開発した。 我々は,$\lambda$を選択し,シミュレーションを行い,実際の観察的医療データセットを用いて,現在のケア標準の文脈で説明しやすいポリシーを導出して,その方法を説明するための問題固有の基準を提案する。 我々の研究は、データ駆動型意思決定支援の導入を促進し、健康的な結果を改善する大きな可能性を秘めている。

Existing statistical methods can be used to estimate a policy, or a mapping from covariates to decisions, which can then instruct decision makers. There is great interest in using such data-driven policies in healthcare. In healthcare, however, it is often important to explain to the healthcare provider, and to the patient, how a new policy differs from the current standard of care. This end is facilitated if one can pinpoint the aspects (i.e., parameters) of the policy that change most when moving from the standard of care to the new, suggested policy. To this end, we adapt ideas from Trust Region Policy Optimization. In our work, however, unlike in Trust Region Policy Optimization, the difference between the suggested policy and standard of care is required to be sparse, aiding with interpretability. In particular, we trade off between maximizing expected reward and minimizing the $L_1$ norm divergence between the parameters of the two policies. This yields "relative sparsity," where, as a function of a tuning parameter, $\lambda$, we can approximately control the number of parameters in our suggested policy that differ from their counterparts in the standard of care. We develop our methodology for the observational data setting. We propose a problem-specific criterion for selecting $\lambda$, perform simulations, and illustrate our method with a real, observational healthcare dataset, deriving a policy that is easy to explain in the context of the current standard of care. Our work promotes the adoption of data-driven decision aids, which have great potential to improve health outcomes.
翻訳日:2022-12-01 18:09:54 公開日:2022-11-29
# 転送エントロピー・ボトルネック:シーケンス情報伝達の学習

Transfer Entropy Bottleneck: Learning Sequence to Sequence Information Transfer ( http://arxiv.org/abs/2211.16607v1 )

ライセンス: Link先を確認
Damjan Kalajdzievski, Ximeng Mao, Pascal Fortier-Poisson, Guillaume Lajoie, Blake Richards(参考訳) 2つの統計依存変数のデータストリームが提示されると、その1つの変数(ターゲットストリーム)の将来を予測することは、その履歴と他の変数(ソースストリーム)の履歴の両方に関する情報から恩恵を受けることができる。 例えば、気象観測所の温度変動は、温度と気圧の読み取りの両方を使って予測できる。 しかし、そのようなデータをモデル化する上での課題は、ニューラルネットワークがターゲットストリーム内の最も大きなジョイント相関に依存することが簡単であり、ソースからターゲットストリームへの重要な情報転送を無視する可能性があることである。 同様に、ターゲットストリームがこれまで独立してモデル化されていた場合も多く、新しいジョイントモデルを伝えるためにそのモデルを使用することが有用である。 本稿では,2つの依存するデータストリームに対する条件学習のための情報ボトルネック手法を提案する。 提案手法はTEB (Transfer Entropy Bottleneck) と呼ばれるもので,本手法では,モデル内の情報伝達を定量化しながら,ソース変数からターゲット変数に転送される有向情報をボトルネックにするモデルを学習することができる。 そのため、TEBは2つの統計的に依存したデータストリームをモデル化し、そのうちの1つについて予測するために、有用な新しい情報ボトルネックアプローチを提供する。

When presented with a data stream of two statistically dependent variables, predicting the future of one of the variables (the target stream) can benefit from information about both its history and the history of the other variable (the source stream). For example, fluctuations in temperature at a weather station can be predicted using both temperatures and barometric readings. However, a challenge when modelling such data is that it is easy for a neural network to rely on the greatest joint correlations within the target stream, which may ignore a crucial but small information transfer from the source to the target stream. As well, there are often situations where the target stream may have previously been modelled independently and it would be useful to use that model to inform a new joint model. Here, we develop an information bottleneck approach for conditional learning on two dependent streams of data. Our method, which we call Transfer Entropy Bottleneck (TEB), allows one to learn a model that bottlenecks the directed information transferred from the source variable to the target variable, while quantifying this information transfer within the model. As such, TEB provides a useful new information bottleneck approach for modelling two statistically dependent streams of data in order to make predictions about one of them.
翻訳日:2022-12-01 18:09:29 公開日:2022-11-29
# 各ノード数: ノード分類におけるグラフニューラルネットワークのトレーニングを改善する

Every Node Counts: Improving the Training of Graph Neural Networks on Node Classification ( http://arxiv.org/abs/2211.16631v1 )

ライセンス: Link先を確認
Moshe Eliasof, Eldad Haber, Eran Treister(参考訳) グラフニューラルネットワーク(gnns)は、スパースおよび非構造化データの効率的かつ効果的に処理する。 特に、GNNはノード分類タスクに非常に効果的であることが示され、ラベル付き情報はノードのごく一部でしか利用できない。 通常、最適化プロセスは目的関数を通じてラベル付きノードのみを考慮し、残りは無視する。 本稿では、ノード分類のためのGNNのトレーニングのための新しい目的語を提案し、利用可能なすべてのデータを活用し、精度を向上させることを目的とする。 最初の用語は、最適化プロセスにおけるラベル付きノードとラベル付きノードの両方を考慮して、ノードとラベル付き特徴の相互情報を最大化することを目指しています。 第2項は予測写像における異方性平滑性を促進する。 最後に,ラベル付きデータからの学習を強化するために,相互評価型勾配法を提案する。 提案手法は汎用的であり,様々なGNNに適用可能であり,アーキテクチャ変更は不要である。 大規模な実験では,GCN,GAT,GCNIIなどの一般的なGNNを用いて,実世界のノード分類データセット10件について一貫した精度向上を図った。

Graph Neural Networks (GNNs) are prominent in handling sparse and unstructured data efficiently and effectively. Specifically, GNNs were shown to be highly effective for node classification tasks, where labelled information is available for only a fraction of the nodes. Typically, the optimization process, through the objective function, considers only labelled nodes while ignoring the rest. In this paper, we propose novel objective terms for the training of GNNs for node classification, aiming to exploit all the available data and improve accuracy. Our first term seeks to maximize the mutual information between node and label features, considering both labelled and unlabelled nodes in the optimization process. Our second term promotes anisotropic smoothness in the prediction maps. Lastly, we propose a cross-validating gradients approach to enhance the learning from labelled data. Our proposed objectives are general and can be applied to various GNNs and require no architectural modifications. Extensive experiments demonstrate our approach using popular GNNs like GCN, GAT and GCNII, reading a consistent and significant accuracy improvement on 10 real-world node classification datasets.
翻訳日:2022-12-01 18:09:08 公開日:2022-11-29
# 異なる方法で同じ服を着る -- コントロール可能な仮想トライオンメソッド

Wearing the Same Outfit in Different Ways -- A Controllable Virtual Try-on Method ( http://arxiv.org/abs/2211.16989v1 )

ライセンス: Link先を確認
Kedan Li, Jeffrey Zhang, Shao-Yu Chang, David Forsyth(参考訳) 衣服の可視化手法は、その衣服の画像から、実際の衣服を着ている人の画像を生成する。 現在の方法では、リアルに見え、衣服のアイデンティティを保ち、首輪、カフス、テクスチャ、ヘム、袖の長さといった細部で撮影できる。 しかし、現在の方法では、タックやアンタック、開閉、腰の高さや低さなど、衣服の着用方法を制御できないため、元の衣服の特性を正確に保存するリアルな画像を生成することができる。 服の同一性を維持しつつドレープを制御する服の可視化手法について述べる。 このシステムでは、衣服のドレープを個別に編集することができるため、ユーザーは衣服コレクション内のすべてのシャツに適用可能な編集(例えば、特定の方法でシャツを収納するなど)を構築できる。 衣服を体に置くための反りの手順に頼って衣服の細部を保存し、発電機が細かなシェーディングの細部を供給する。 インスタンス独立制御を実現するために,着衣カテゴリレベルのセマンティクスを持つ制御ポイントを用いてワープを誘導する。 上着を脱ぐ、上着を外す、上着を外す、下着を腰に上着、下着を下着する、などの創造的なスタイルで、最先端のクオリティのイメージを製作する。 この方法では、インタラクティブな制御によって個々のレンダリングのエラーを修正できる。 編集はインスタンスに依存しないため、自動的に大きな衣類のプールに適用でき、衣服のメタデータ(例えば、すべてのクロッピングジャケットが閉じられたり、すべての爆撃機ジャケットが閉じられたりする)で調整することができる。

An outfit visualization method generates an image of a person wearing real garments from images of those garments. Current methods can produce images that look realistic and preserve garment identity, captured in details such as collar, cuffs, texture, hem, and sleeve length. However, no current method can both control how the garment is worn -- including tuck or untuck, opened or closed, high or low on the waist, etc.. -- and generate realistic images that accurately preserve the properties of the original garment. We describe an outfit visualization method that controls drape while preserving garment identity. Our system allows instance independent editing of garment drape, which means a user can construct an edit (e.g. tucking a shirt in a specific way) that can be applied to all shirts in a garment collection. Garment detail is preserved by relying on a warping procedure to place the garment on the body and a generator then supplies fine shading detail. To achieve instance independent control, we use control points with garment category-level semantics to guide the warp. The method produces state-of-the-art quality images, while allowing creative ways to style garments, including allowing tops to be tucked or untucked; jackets to be worn open or closed; skirts to be worn higher or lower on the waist; and so on. The method allows interactive control to correct errors in individual renderings too. Because the edits are instance independent, they can be applied to large pools of garments automatically and can be conditioned on garment metadata (e.g. all cropped jackets are worn closed or all bomber jackets are worn closed).
翻訳日:2022-12-01 18:00:49 公開日:2022-11-29
# 3次元T1強調MRIヘッドのスカルストリップにおけるバニラ, 残留および高密度2次元U-Netアーキテクチャの性能評価

Performance Evaluation of Vanilla, Residual, and Dense 2D U-Net Architectures for Skull Stripping of Augmented 3D T1-weighted MRI Head Scans ( http://arxiv.org/abs/2211.16570v1 )

ライセンス: Link先を確認
Anway S. Pimpalkar, Rashmika K. Patole, Ketaki D. Kamble and Mahesh H. Shindikar(参考訳) Skull Strippingは、ほとんどの診断神経イメージング応用において必須の予備段階である。 手動Skull Strippingメソッドは、ドメインのゴールドスタンダードを定義するが、大量のデータサンプルでプロシースパイプラインを統合するのに時間がかかり、難しい。 自動化手法は頭部MRIのセグメンテーション、特にU-Netアーキテクチャ実装のようなディープラーニング手法の研究の活発な領域である。 本研究では,Skull StrippingのためのVanilla,Residual,Dense 2D U-Netアーキテクチャを比較した。 Dense 2D U-Netアーキテクチャは、テストデータセットで99.75%の精度を達成することで、VanillaとResidualのアーキテクチャよりも優れている。 U-Net内の密接な相互接続は、アーキテクチャの層をまたいだ機能の再利用を促進し、より深いネットワークの強さを持つより浅いモデルを可能にする。

Skull Stripping is a requisite preliminary step in most diagnostic neuroimaging applications. Manual Skull Stripping methods define the gold standard for the domain but are time-consuming and challenging to integrate into pro-cessing pipelines with a high number of data samples. Automated methods are an active area of research for head MRI segmentation, especially deep learning methods such as U-Net architecture implementations. This study compares Vanilla, Residual, and Dense 2D U-Net architectures for Skull Stripping. The Dense 2D U-Net architecture outperforms the Vanilla and Residual counterparts by achieving an accuracy of 99.75% on a test dataset. It is observed that dense interconnections in a U-Net encourage feature reuse across layers of the architecture and allow for shallower models with the strengths of a deeper network.
翻訳日:2022-12-01 17:52:04 公開日:2022-11-29
# アイルランド家賃圧力区域における短期賃貸規制違反の特定

Identification of the Breach of Short-term Rental Regulations in Irish Rent Pressure Zones ( http://arxiv.org/abs/2211.16617v1 )

ライセンス: Link先を確認
Guowen Liu, Inmaculada Arnedillo-Sanchez, Zhenshuo Chen(参考訳) アイルランドの住宅危機は近年急速に拡大している。 より大きな利益を得るために、多くの地主は、長期の期間で家を借りるのではなく、短期の期間で家を借りている。 長期賃貸から短期賃貸への移行は、民間住宅の供給に打撃を与えた。 賃貸料の高騰と高騰による賃貸料の規制は厄介な問題となっている。 本稿では、airbnb(短期ホームステイを専門とするオンラインマーケットプレイス)の公開データのみを使用して、レンタルプレッシャーゾーンにある短期レンタルをチェックするための違反識別子を開発した。 まず、Residual Neural Networkを使って屋外の風景写真をフィルタリングし、オーナーがレント・プレッシャーゾーンに複数のレンタルを持っているかどうかを判断する。 次に、シームズニューラルネットワークを用いて屋内写真の類似性を比較し、複数のレンタルポストが同じ住居に対応するかどうかを判定する。 次に、habrsineアルゴリズムを用いて、許可の座標を中心にした円内の短期賃貸物件を探索する。 許可付き短期賃貸は制限されない。 最後に,感情分析と組み合わせた占有率推定モデルの改善を行い,精度の向上を図る。 Airbnbは正確な家の座標と占有データを明らかにしていないので、侵入識別子の正確さを検証することは不可能です。 占有率推定器の精度も確認できない。 それは妥当な範囲でのみ見積もりを提供する。 ユーザは、できる限りの違反を通知される短期的なレンタルに懐疑的であるべきだ。

The housing crisis in Ireland has rapidly grown in recent years. To make a more significant profit, many landlords are no longer renting out their houses under long-term tenancies but under short-term tenancies. The shift from long-term to short-term rentals has harmed the supply of private housing rentals. Regulating rentals in Rent Pressure Zones with the highest and rising rents is becoming a tricky issue. In this paper, we develop a breach identifier to check short-term rentals located in Rent Pressure Zones with potential breaches only using publicly available data from Airbnb (an online marketplace focused on short-term home-stays). First, we use a Residual Neural Network to filter out outdoor landscape photos that negatively impact identifying whether an owner has multiple rentals in a Rent Pressure Zone. Second, a Siamese Neural Network is used to compare the similarity of indoor photos to determine if multiple rental posts correspond to the same residence. Next, we use the Haversine algorithm to locate short-term rentals within a circle centered on the coordinate of a permit. Short-term rentals with a permit will not be restricted. Finally, we improve the occupancy estimation model combined with sentiment analysis, which may provide higher accuracy. Because Airbnb does not disclose accurate house coordinates and occupancy data, it is impossible to verify the accuracy of our breach identifier. The accuracy of the occupancy estimator cannot be verified either. It only provides an estimate within a reasonable range. Users should be skeptical of short-term rentals that are flagged as possible breaches.
翻訳日:2022-12-01 17:51:48 公開日:2022-11-29
# 図書館学習のためのトップダウン合成

Top-Down Synthesis for Library Learning ( http://arxiv.org/abs/2211.16605v1 )

ライセンス: Link先を確認
Matthew Bowers, Theo X. Olausson, Catherine Wong, Gabriel Grand, Joshua B. Tenenbaum, Kevin Ellis, Armando Solar-Lezama(参考訳) 本稿では,ドメイン固有言語(DSL)におけるプログラムのコーパスから共通機能をキャプチャするライブラリ関数の合成機構として,コーパス誘導トップダウン合成を提案する。 アルゴリズムは初期dslプリミティブから直接抽象化を構築し、中間抽象の構文パターンマッチングを使用して検索空間をインテリジェントにプルし、コーパス内の共有構造を最大にキャプチャする抽象化へとアルゴリズムを導く。 本稿では,この手法をStitchと呼ばれるツールに実装し,DreamCoderの最先端の推論ライブラリ学習アルゴリズムに対して評価する。 評価の結果,stitchは3-4桁高速でメモリ使用量も2桁少なく,ライブラリのクオリティ(圧縮率による測定値)は同等か良好なものとなっている。 また、Stitchのコーパスに数百の複雑なプログラムを含むスケーラビリティを実証し、早期に探索手順を終了させることが堅牢であることを実証的に示し、早期停止による挑戦的なデータセットへのスケーリングを可能にした。

This paper introduces corpus-guided top-down synthesis as a mechanism for synthesizing library functions that capture common functionality from a corpus of programs in a domain specific language (DSL). The algorithm builds abstractions directly from initial DSL primitives, using syntactic pattern matching of intermediate abstractions to intelligently prune the search space and guide the algorithm towards abstractions that maximally capture shared structures in the corpus. We present an implementation of the approach in a tool called Stitch and evaluate it against the state-of-the-art deductive library learning algorithm from DreamCoder. Our evaluation shows that Stitch is 3-4 orders of magnitude faster and uses 2 orders of magnitude less memory while maintaining comparable or better library quality (as measured by compressivity). We also demonstrate Stitch's scalability on corpora containing hundreds of complex programs that are intractable with prior deductive approaches and show empirically that it is robust to terminating the search procedure early -- further allowing it to scale to challenging datasets by means of early stopping.
翻訳日:2022-12-01 17:43:03 公開日:2022-11-29
# 不確実性量子化を用いた移動学習:ソース・ターゲット(RECaST)のランダム効果校正

Transfer Learning with Uncertainty Quantification: Random Effect Calibration of Source to Target (RECaST) ( http://arxiv.org/abs/2211.16557v1 )

ライセンス: Link先を確認
Jimmy Hickey, Jonathan P. Williams, Emily C. Hector(参考訳) 転送学習は、ある集団のデータに対する予測や推論を行うように訓練されたデータモデルを使用して、信頼できる予測や別の集団のデータに対する推論を行う。 既存の転写学習アプローチのほとんどは、微調整済みのトレーニング済みニューラルネットワークモデルに基づいており、重要な不確実性定量化を提供していない。 我々は,転送学習に基づくモデル予測のための統計的フレームワーク,recastを開発した。 我々は線形モデル間の伝達学習に対する再キャスト手法の有効性を数学的および経験的に実証し、予測集合がそれらの名目上のカバレッジを達成するという意味で実証し、非線形モデルに対する漸近近似に対する方法の頑健さを数値的に示す。 既存の多くのテクニックが特定のソースモデル上に構築されているのに対して、RECaSTはソースモデルの選択に依存しない。 例えば、RECaST転送学習アプローチは、線形またはロジスティック回帰、ディープニューラルネットワークアーキテクチャなどを備えた連続的または離散的なデータモデルに適用できます。 さらに、RECaSTは予測に不確実な定量化を提供するが、文献にはほとんど存在しない。 シミュレーション研究における本手法の性能と実際の病院データへの適用について検討する。

Transfer learning uses a data model, trained to make predictions or inferences on data from one population, to make reliable predictions or inferences on data from another population. Most existing transfer learning approaches are based on fine-tuning pre-trained neural network models, and fail to provide crucial uncertainty quantification. We develop a statistical framework for model predictions based on transfer learning, called RECaST. The primary mechanism is a Cauchy random effect that recalibrates a source model to a target population; we mathematically and empirically demonstrate the validity of our RECaST approach for transfer learning between linear models, in the sense that prediction sets will achieve their nominal stated coverage, and we numerically illustrate the method's robustness to asymptotic approximations for nonlinear models. Whereas many existing techniques are built on particular source models, RECaST is agnostic to the choice of source model. For example, our RECaST transfer learning approach can be applied to a continuous or discrete data model with linear or logistic regression, deep neural network architectures, etc. Furthermore, RECaST provides uncertainty quantification for predictions, which is mostly absent in the literature. We examine our method's performance in a simulation study and in an application to real hospital data.
翻訳日:2022-12-01 17:41:26 公開日:2022-11-29
# 英国最高裁判所の聴力向上

Better Transcription of UK Supreme Court Hearings ( http://arxiv.org/abs/2211.17094v1 )

ライセンス: Link先を確認
Hadeel Saadany, Constantin Or\u{a}san, Catherine Breslin(参考訳) 法的手続きの転写は、司法へのアクセスを可能にするために非常に重要である。 しかし、音声の書き起こしは高価で遅いプロセスである。 本稿では,英国の司法部門に特化して設計された自動転写ツールを開発するための研究と産業の複合プロジェクトについて述べる。 本稿では,法廷聴聞書の翻訳に関わる課題と,これらの課題に対処するための自然言語処理(NLP)技術について説明する。 そこで,本研究では,英裁判所で一般的に使用されている法用語や用語に特有の致命的な誤りを回避し,単語誤り率(WER)を向上させるとともに,ドメイン内言語モデルを用いた汎用オフザシェルフ自動音声認識(ASR)システムの微調整を行う。

Transcription of legal proceedings is very important to enable access to justice. However, speech transcription is an expensive and slow process. In this paper we describe part of a combined research and industrial project for building an automated transcription tool designed specifically for the Justice sector in the UK. We explain the challenges involved in transcribing court room hearings and the Natural Language Processing (NLP) techniques we employ to tackle these challenges. We will show that fine-tuning a generic off-the-shelf pre-trained Automatic Speech Recognition (ASR) system with an in-domain language model as well as infusing common phrases extracted with a collocation detection model can improve not only the Word Error Rate (WER) of the transcribed hearings but avoid critical errors that are specific of the legal jargon and terminology commonly used in British courts.
翻訳日:2022-12-01 17:40:47 公開日:2022-11-29
# 投影型カメラの偏光イメージングのための幾何モデル

A Geometric Model for Polarization Imaging on Projective Cameras ( http://arxiv.org/abs/2211.16986v1 )

ライセンス: Link先を確認
Mara Pistellato and Filippo Bergamasco(参考訳) 形状分離法 (Shape-from-Polarization, SfP) の手法の大部分は、直視カメラの使用を単純化した仮定の下で機能する。 実際、入射光が像平面に直交しないとき、ストークスベクトルを射影する方法はまだよく分かっていない。 我々は、一般射影カメラが光偏光状態をどのように捉えるかを記述する幾何学モデルを提示したこの質問に答えようとする。 傾斜偏光器の光学特性に基づいて,本モデルは原画像に作用する前処理操作として実装され,その後に再構成された正規場を1画素当たり回転させる。 このように、ホログラフィックカメラを仮定する既存のSfPメソッドはすべて、投影型カメラ用に設計されたように振る舞うことができる。 さらに,本モデルは,最先端のフォワードおよび逆レンダラ(三波3やアートなど)と整合し,捕獲チャネル間の物理的制約を本質的に強制し,dofpセンサの復調処理を行う。 既存のデータセットと新しいデータセットに関する実験は、市販のポラリメトリックカメラに適用された場合のモデルの精度を示す。

The vast majority of Shape-from-Polarization (SfP) methods work under the oversimplified assumption of using orthographic cameras. Indeed, it is still not well understood how to project the Stokes vectors when the incoming rays are not orthogonal to the image plane. We try to answer this question presenting a geometric model describing how a general projective camera captures the light polarization state. Based on the optical properties of a tilted polarizer, our model is implemented as a pre-processing operation acting on raw images, followed by a per-pixel rotation of the reconstructed normal field. In this way, all the existing SfP methods assuming orthographic cameras can behave like they were designed for projective ones. Moreover, our model is consistent with state-of-the-art forward and inverse renderers (like Mitsuba3 and ART), intrinsically enforces physical constraints among the captured channels, and handles demosaicing of DoFP sensors. Experiments on existing and new datasets demonstrate the accuracy of the model when applied to commercially available polarimetric cameras.
翻訳日:2022-12-01 17:14:49 公開日:2022-11-29
# 空中画像の電力線分割における教師なし領域適応のための4重変換器

QuadFormer: Quadruple Transformer for Unsupervised Domain Adaptation in Power Line Segmentation of Aerial Images ( http://arxiv.org/abs/2211.16988v1 )

ライセンス: Link先を確認
Pratyaksh Prabhav Rao, Feng Qiao, Weide Zhang, Yiliang Xu, Yong Deng, Guangbin Wu, Qiang Zhang(参考訳) 航空車両の飛行安全性を確保するためには,航空画像中の電力線の正確なセグメンテーションが不可欠である。 ディープラーニングモデルをトレーニングするための、高品質な地上真理アノテーションの取得は、大変なプロセスです。 そのため,ラベル付き合成データからラベル付き実画像への知識を活用できるアルゴリズムの開発が求められている。 このプロセスはunsupervised domain adaptation (UDA) で研究されている。 セマンティックセグメンテーション(セマンティックセグメンテーション)では,対象ドメインに擬似ラベルを持つモデルをトレーニングするUDAにおいて,近年の自己学習アプローチが目覚ましい性能を達成している。 しかし、擬似ラベルは2つのデータ分布の不一致のためノイズが多い。 このドメインギャップを埋めるのにコンテキスト依存性が重要であると確認します。 そこで我々は,ドメイン適応型セマンティックセグメンテーションのための新しいフレームワークであるQuadFormerを提案する。 階層的な四重変圧器は、伝達可能なコンテキストに適応するために、クロスアテンションと自己アテンションのメカニズムを組み合わせる。 相互注意的特徴表現と自己注意的特徴表現に基づいて、擬似ラベルをオンライン化してドメインギャップを低減する擬似ラベル補正スキームを導入する。 さらに,arplsyn と arplreal の2つのデータセットを提案し,教師なし領域適応電力線セグメンテーションの研究をさらに進める。 最後に,本手法は ARPLSyn$\rightarrow$TTTPLA と ARPLSyn$\rightarrow$ARPLReal の領域適応電力線分割における最先端性能を実現することを示す。

Accurate segmentation of power lines in aerial images is essential to ensure the flight safety of aerial vehicles. Acquiring high-quality ground truth annotations for training a deep learning model is a laborious process. Therefore, developing algorithms that can leverage knowledge from labelled synthetic data to unlabelled real images is highly demanded. This process is studied in Unsupervised domain adaptation (UDA). Recent approaches to self-training have achieved remarkable performance in UDA for semantic segmentation, which trains a model with pseudo labels on the target domain. However, the pseudo labels are noisy due to a discrepancy in the two data distributions. We identify that context dependency is important for bridging this domain gap. Motivated by this, we propose QuadFormer, a novel framework designed for domain adaptive semantic segmentation. The hierarchical quadruple transformer combines cross-attention and self-attention mechanisms to adapt transferable context. Based on cross-attentive and self-attentive feature representations, we introduce a pseudo label correction scheme to online denoise the pseudo labels and reduce the domain gap. Additionally, we present two datasets - ARPLSyn and ARPLReal to further advance research in unsupervised domain adaptive powerline segmentation. Finally, experimental results indicate that our method achieves state-of-the-art performance for the domain adaptive power line segmentation on ARPLSyn$\rightarrow$TTTPLA and ARPLSyn$\rightarrow$ARPLReal.
翻訳日:2022-12-01 17:14:32 公開日:2022-11-29
# SparsePose:スパースビューカメラポッドの回帰とリファインメント

SparsePose: Sparse-View Camera Pose Regression and Refinement ( http://arxiv.org/abs/2211.16991v1 )

ライセンス: Link先を確認
Samarth Sinha, Jason Y. Zhang, Andrea Tagliasacchi, Igor Gilitschenski, David B. Lindell(参考訳) カメラポーズ推定は、単一のオブジェクトやシーンの密集したイメージセットで動作する標準的な3D再構築パイプラインにおける重要なステップである。 しかし、画像ペア間の視覚的特徴を頑健に識別しマッチングする能力に依存するため、少数の画像しか利用できない場合、ポーズ推定の手法は失敗することが多い。 これらの手法は高密度カメラビューで堅牢に機能するが、大量の画像をキャプチャすることは時間を要するか実用的ではない。 広帯域画像のスパースセット(10以下)を与えられた正確なカメラポーズを復元するSparsePoseを提案する。 この方法は,大規模なオブジェクトのデータセット(Co3D:Common Objects in 3D)をトレーニングした後,初期カメラのポーズを再現し,反復的に改善する。 SparsePoseは、カメラの正確な回転と翻訳の回復において、従来のベースラインと学習ベースのベースラインを大きく上回っている。 また,物体の5-9画像のみを用いて高忠実度3次元再構成のためのパイプラインを実証した。

Camera pose estimation is a key step in standard 3D reconstruction pipelines that operate on a dense set of images of a single object or scene. However, methods for pose estimation often fail when only a few images are available because they rely on the ability to robustly identify and match visual features between image pairs. While these methods can work robustly with dense camera views, capturing a large set of images can be time-consuming or impractical. We propose SparsePose for recovering accurate camera poses given a sparse set of wide-baseline images (fewer than 10). The method learns to regress initial camera poses and then iteratively refine them after training on a large-scale dataset of objects (Co3D: Common Objects in 3D). SparsePose significantly outperforms conventional and learning-based baselines in recovering accurate camera rotations and translations. We also demonstrate our pipeline for high-fidelity 3D reconstruction using only 5-9 images of an object.
翻訳日:2022-12-01 17:14:08 公開日:2022-11-29
# 視覚言語モデルを用いたFew-Shot分類のためのカテゴリ名の生成

Exploiting Category Names for Few-Shot Classification with Vision-Language Models ( http://arxiv.org/abs/2211.16594v1 )

ライセンス: Link先を確認
Taihong Xiao, Zirui Wang, Liangliang Cao, Jiahui Yu, Shengyang Dai, Ming-Hsuan Yang(参考訳) 大規模データに事前学習された視覚言語基礎モデルは、多くの視覚理解タスクに強力なツールを提供する。 多くの視覚言語モデルは、2つのモダリティを同じ埋め込み空間にマッピングできる2つのエンコーダ(視覚とテキスト)を構築している。 その結果、画像分類などのタスクにおいて、学習した表現はゼロショット性能がよい。 しかしながら、1つのカテゴリに少数の例しか存在しない場合、大きな視覚言語モデルのポテンシャルは、主に大量のパラメータと比較的少ないトレーニングデータの間のギャップのために、しばしば過小評価される。 本稿では,カテゴリ名を用いて分類ヘッドを初期化することにより,少数ショット分類の性能を大幅に向上できることを示す。 さらに興味深いことに、非完全カテゴリ名や外国語からの名前を借りて、ランダム初期化と比較して、少数ショットの分類性能を改善することができる。 提案するカテゴリ名初期化手法を用いて,数点画像分類ベンチマーク(imagenetでは87.37\%,スタンフォード車では96.08\%,5点学習では96.08\%)を用いて最新性能を得る。 また, カテゴリ名の効用が減少する時期や, 蒸留による小型モデルの性能向上について検討・分析し, 今後の研究へのガイダンスを提供する。

Vision-language foundation models pretrained on large-scale data provide a powerful tool for many visual understanding tasks. Notably, many vision-language models build two encoders (visual and textual) that can map two modalities into the same embedding space. As a result, the learned representations achieve good zero-shot performance on tasks like image classification. However, when there are only a few examples per category, the potential of large vision-language models is often underperformed, mainly due to the gap between a large number of parameters and a relatively small amount of training data. This paper shows that we can significantly improve the performance of few-shot classification by using the category names to initialize the classification head. More interestingly, we can borrow the non-perfect category names, or even names from a foreign language, to improve the few-shot classification performance compared with random initialization. With the proposed category name initialization method, our model obtains the state-of-the-art performance on a number of few-shot image classification benchmarks (e.g., 87.37\% on ImageNet and 96.08\% on Stanford Cars, both using five-shot learning). We also investigate and analyze when the benefit of category names diminishes and how to use distillation to improve the performance of smaller models, providing guidance for future research.
翻訳日:2022-12-01 16:58:17 公開日:2022-11-29
# diner: 深度認識画像に基づくニューラルネットワークの放射場

DINER: Depth-aware Image-based NEural Radiance fields ( http://arxiv.org/abs/2211.16630v1 )

ライセンス: Link先を確認
Malte Prinzler, Otmar Hilliges, Justus Thies(参考訳) 本稿では,深度認識型画像ベースニューラルラミアンスフィールド(diner)を提案する。 RGB入力ビューの粗いセットを考慮し、深度と特徴マップを予測して、新しいビューの下で3Dオブジェクトを描画できるボリュームシーン表現の再構築を誘導する。 具体的には,深度情報を特徴融合と効率的なシーンサンプリングに組み込む新しい手法を提案する。 以前の技術と比較すると、ダイナーは高い合成品質を達成し、高い差で入力ビューを処理できる。 これにより、ハードウェア要件のキャプチャを変更することなく、シーンをより完全にキャプチャすることができ、最終的には、新しいビュー合成時の視点変更を可能にします。 人間の頭と対象物の両方に新しいビューを合成することにより,本手法の評価を行い,従来の技術と比較すると,質的結果と知覚的指標が有意に向上したのを観察した。 コードは研究目的で公開される予定だ。

We present Depth-aware Image-based NEural Radiance fields (DINER). Given a sparse set of RGB input views, we predict depth and feature maps to guide the reconstruction of a volumetric scene representation that allows us to render 3D objects under novel views. Specifically, we propose novel techniques to incorporate depth information into feature fusion and efficient scene sampling. In comparison to the previous state of the art, DINER achieves higher synthesis quality and can process input views with greater disparity. This allows us to capture scenes more completely without changing capturing hardware requirements and ultimately enables larger viewpoint changes during novel view synthesis. We evaluate our method by synthesizing novel views, both for human heads and for general objects, and observe significantly improved qualitative results and increased perceptual metrics compared to the previous state of the art. The code will be made publicly available for research purposes.
翻訳日:2022-12-01 16:57:54 公開日:2022-11-29
# ワーストケース最適化のための適応シナリオサブセット選択とウェルプレースメント最適化への応用

Adaptive Scenario Subset Selection for Worst-Case Optimization and its Application to Well Placement Optimization ( http://arxiv.org/abs/2211.16574v1 )

ライセンス: Link先を確認
Atsuhiro Miyagi, Kazuto Fukuchi, Jun Sakuma, Youhei Akimoto(参考訳) 本研究では,連続設計変数と有限シナリオを用いたシミュレーションに基づく最悪ケース最適化問題を考察する。 最適な局所解のためのシミュレーション数を削減し、再スタート数を増やすため、適応シナリオ部分集合選択 (adaptive scenario subset selection, as3) と呼ばれる新しい手法を提案する。 提案手法は, シナリオサブセットを, 与えられた地区で最悪のケース関数を構築するためのサポートとしてサブサンプリングし, シナリオサブセットを導入する。 さらに,AS3と共分散行列適応進化戦略(CMA-ES)を組み合わせた新しい最適化アルゴリズムを開発した。 各アルゴリズムのイテレーションでは、サポートシナリオのサブセットが選択され、CMA-ESはシナリオのサブセットを通じてのみ計算される最悪の対象を最適化しようとする。 提案アルゴリズムは,シナリオサブセットのみにシミュレーションを実行するために必要なシミュレーション数を,すべてのシナリオではなく削減する。 数値実験により,AS3-CMA-ESは, シナリオ数とシナリオ数との比が比較的小さい場合, ブルートフォース法とサロゲート支援法とlq-CMA-ESのシミュレーション数より効率的であることが確認された。 さらに, 二酸化炭素回収貯蔵(CCS)の適正配置最適化にAS3-CMA-ESの有用性を評価した。 ブルートフォース法とlq-CMA-ESと比較して、AS3-CMA-ESはより頻繁な再起動によりより良い解を見つけることができた。

In this study, we consider simulation-based worst-case optimization problems with continuous design variables and a finite scenario set. To reduce the number of simulations required and increase the number of restarts for better local optimum solutions, we propose a new approach referred to as adaptive scenario subset selection (AS3). The proposed approach subsamples a scenario subset as a support to construct the worst-case function in a given neighborhood, and we introduce such a scenario subset. Moreover, we develop a new optimization algorithm by combining AS3 and the covariance matrix adaptation evolution strategy (CMA-ES), denoted AS3-CMA-ES. At each algorithmic iteration, a subset of support scenarios is selected, and CMA-ES attempts to optimize the worst-case objective computed only through a subset of the scenarios. The proposed algorithm reduces the number of simulations required by executing simulations on only a scenario subset, rather than on all scenarios. In numerical experiments, we verified that AS3-CMA-ES is more efficient in terms of the number of simulations than the brute-force approach and a surrogate-assisted approach lq-CMA-ES when the ratio of the number of support scenarios to the total number of scenarios is relatively small. In addition, the usefulness of AS3-CMA-ES was evaluated for well placement optimization for carbon dioxide capture and storage (CCS). In comparison with the brute-force approach and lq-CMA-ES, AS3-CMA-ES was able to find better solutions because of more frequent restarts.
翻訳日:2022-12-01 16:48:00 公開日:2022-11-29
# 分裂性シナプスを有するスパイキング神経ネットワークにおけるシーケンス学習

Sequence learning in a spiking neuronal network with memristive synapses ( http://arxiv.org/abs/2211.16592v1 )

ライセンス: Link先を確認
Younes Bouhadjar, Sebastian Siegel, Tom Tetzlaff, Markus Diesmann, Rainer Waser, Dirk J. Wouters(参考訳) brain-inspired computingは、人工知能の進歩を約束するアルゴリズムの原則を提案する。 システムは、自己学習能力、効率的なエネルギー使用、高ストレージ能力を持つ。 脳の計算の中心にある核となる概念はシーケンス学習と予測である。 この計算形式は、運動生成、知覚、言語など、私たちの日常的なタスクのほとんどすべてに不可欠である。 このような計算を脳がどのように行うかを理解することは、神経科学の進歩だけでなく、新しい技術である脳に触発された応用への道を開くことも重要である。 以前に開発されたシーケンス予測とリコールのスパイクニューラルネットワーク実装は、局所的、生物学的にインスパイアされた可塑性規則によって教師なしの方法で複雑な高次シーケンスを学習する。 この種のアルゴリズムの効率的な実行を約束する新たなタイプのハードウェアは、ニューロモルフィックハードウェアである。 脳が情報を処理する方法をエミュレートし、ニューロンとシナプスを直接物理的基質にマッピングする。 分裂装置は、ニューロモルフィックハードウェアの潜在的なシナプス要素として同定されている。 特に、レドックス誘発抵抗性ランダムアクセスメモリ(ReRAM)デバイスは、多くの点で際立っている。 スケーラビリティを許容し、エネルギー効率が高く、高速で、生物学的可塑性ルールを実装できる。 本研究では, シーケンシャルラーニングモデルにおける生物学的シナプスの代替として, ReRAM デバイスの利用の可能性を検討する。 ニューラルシミュレータNESTを用いて,ReRAM塑性を含むモデルを実装し,シミュレーションする。 デバイス特性の違いがシーケンス学習モデルの性能特性に及ぼす影響を調査し,オンオフ比,コンダクタンス分解能,デバイス変動性,シナプス障害のレジリエンスを示す。

Brain-inspired computing proposes a set of algorithmic principles that hold promise for advancing artificial intelligence. They endow systems with self learning capabilities, efficient energy usage, and high storage capacity. A core concept that lies at the heart of brain computation is sequence learning and prediction. This form of computation is essential for almost all our daily tasks such as movement generation, perception, and language. Understanding how the brain performs such a computation is not only important to advance neuroscience but also to pave the way to new technological brain-inspired applications. A previously developed spiking neural network implementation of sequence prediction and recall learns complex, high-order sequences in an unsupervised manner by local, biologically inspired plasticity rules. An emerging type of hardware that holds promise for efficiently running this type of algorithm is neuromorphic hardware. It emulates the way the brain processes information and maps neurons and synapses directly into a physical substrate. Memristive devices have been identified as potential synaptic elements in neuromorphic hardware. In particular, redox-induced resistive random access memories (ReRAM) devices stand out at many aspects. They permit scalability, are energy efficient and fast, and can implement biological plasticity rules. In this work, we study the feasibility of using ReRAM devices as a replacement of the biological synapses in the sequence learning model. We implement and simulate the model including the ReRAM plasticity using the neural simulator NEST. We investigate the effect of different device properties on the performance characteristics of the sequence learning model, and demonstrate resilience with respect to different on-off ratios, conductance resolutions, device variability, and synaptic failure.
翻訳日:2022-12-01 16:47:33 公開日:2022-11-29
# 深い線形ニューラルネットワークの無限幅限界

Infinite-width limit of deep linear neural networks ( http://arxiv.org/abs/2211.16980v1 )

ライセンス: Link先を確認
L\'ena\"ic Chizat, Maria Colombo, Xavier Fern\'andez-Real, Alessio Figalli(参考訳) 本稿では,ランダムパラメータを初期化した深部線形ニューラルネットワークの無限幅限界について検討する。 ニューロンの数が分岐すると、トレーニングダイナミクスは無限に広い決定論的線形ニューラルネットワーク上の勾配降下から得られる力学に(正確には)収束する。 さらに、重みがランダムなままであっても、トレーニングダイナミクスに沿って正確な法則が得られ、ニューロンの数の観点から線形予測器の定量的収束結果が証明される。 最後に,無限大の線形ニューラルネットワークに対して得られた連続時間限界について検討し,リスク最小の$\ell_2$-norm 最小値に対して指数関数速度でニューラルネットワークの線形予測器が収束することを示す。

This paper studies the infinite-width limit of deep linear neural networks initialized with random parameters. We obtain that, when the number of neurons diverges, the training dynamics converge (in a precise sense) to the dynamics obtained from a gradient descent on an infinitely wide deterministic linear neural network. Moreover, even if the weights remain random, we get their precise law along the training dynamics, and prove a quantitative convergence result of the linear predictor in terms of the number of neurons. We finally study the continuous-time limit obtained for infinitely wide linear neural networks and show that the linear predictors of the neural network converge at an exponential rate to the minimal $\ell_2$-norm minimizer of the risk.
翻訳日:2022-12-01 16:31:43 公開日:2022-11-29
# 新しい深部・局所CNNを用いた脳腫瘍MRI分類

Brain Tumor MRI Classification using a Novel Deep Residual and Regional CNN ( http://arxiv.org/abs/2211.16571v1 )

ライセンス: Link先を確認
Mirza Mumtaz Zahoor, Saddam Hussain Khan(参考訳) 脳腫瘍の分類は臨床分析に不可欠であり、患者を治療するための効果的な治療計画である。 深層学習モデルは、放射線技師が手動で腫瘍を正確にかつ効率的に分析するのに役立つ。 しかし、脳腫瘍解析は複雑な構造、テクスチャ、サイズ、位置、外観のために困難である。 そこで,脳腫瘍(磁気共鳴イメージング)のMRI分類のために,新たにRes-BRNet畳み込みニューラルネットワーク(CNN)を開発した。 開発されたRes-BRNetは、空間ブロックと残留ブロックの体系的な順序で、地域および境界ベースの操作を採用した。 さらに,空間ブロックは抽象レベルでの均一性と境界定義特徴を抽出する。 さらに, ターゲットレベルの残留ブロックは, 脳腫瘍の局所的, 全体的テクスチャの変化を有意に学習する。 また, 髄膜腫, グリオーマ, 下垂体, 健康画像などの各種腫瘍カテゴリを含むカグルとfigshareから得られたres-brnetの効率を標準データセットで評価した。 実験によると、Res-BRNetは標準のCNNモデルより優れており、優れた性能(精度:98.22%、感度:0.9811、Fスコア:0.9841、精度:0.9822)を達成した。 さらに,提案したRes-BRNetの性能は,医用画像に基づく疾患解析の強力な可能性を示している。

Brain tumor classification is crucial for clinical analysis and an effective treatment plan to cure patients. Deep learning models help radiologists to accurately and efficiently analyze tumors without manual intervention. However, brain tumor analysis is challenging because of its complex structure, texture, size, location, and appearance. Therefore, a novel deep residual and regional-based Res-BRNet Convolutional Neural Network (CNN) is developed for effective brain tumor (Magnetic Resonance Imaging) MRI classification. The developed Res-BRNet employed Regional and boundary-based operations in a systematic order within the modified spatial and residual blocks. Moreover, the spatial block extract homogeneity and boundary-defined features at the abstract level. Furthermore, the residual blocks employed at the target level significantly learn local and global texture variations of different classes of brain tumors. The efficiency of the developed Res-BRNet is evaluated on a standard dataset; collected from Kaggle and Figshare containing various tumor categories, including meningioma, glioma, pituitary, and healthy images. Experiments prove that the developed Res-BRNet outperforms the standard CNN models and attained excellent performances (accuracy: 98.22%, sensitivity: 0.9811, F-score: 0.9841, and precision: 0.9822) on challenging datasets. Additionally, the performance of the proposed Res-BRNet indicates a strong potential for medical image-based disease analyses.
翻訳日:2022-12-01 16:30:42 公開日:2022-11-29
# ButterflyNet2D: 画像処理における古典的手法とニューラルネットワーク手法

ButterflyNet2D: Bridging Classical Methods and Neural Network Methods in Image Processing ( http://arxiv.org/abs/2211.16578v1 )

ライセンス: Link先を確認
Gengzhi Yang, Yingzhou Li(参考訳) 古典的なフーリエ変換法とニューラルネットワーク法は画像処理タスクで広く使われている。 前者は解釈性が良く、後者は実行時のパフォーマンスが良くなる。 本稿では,疎チャネル接続を有する通常のCNNであるButterflyNet2Dを紹介する。 ButterflyNet2Dのフーリエ初期化戦略はフーリエ変換を近似するために提案される。 フーリエ変換と逆フーリエ変換の両方を近似したバタフライネット2Dの精度を数値実験により検証した。 さらに,4つの画像処理タスクと画像データセットを通じて,フーリエ初期化からのbutteritenet2dのトレーニングが,ランダム初期化ニューラルネットワークよりも優れたパフォーマンスを実現することを示す。

Both classical Fourier transform-based methods and neural network methods are widely used in image processing tasks. The former has better interpretability, whereas the latter often achieves better performance in practice. This paper introduces ButterflyNet2D, a regular CNN with sparse cross-channel connections. A Fourier initialization strategy for ButterflyNet2D is proposed to approximate Fourier transforms. Numerical experiments validate the accuracy of ButterflyNet2D approximating both the Fourier and the inverse Fourier transforms. Moreover, through four image processing tasks and image datasets, we show that training ButterflyNet2D from Fourier initialization does achieve better performance than random initialized neural networks.
翻訳日:2022-12-01 16:30:21 公開日:2022-11-29
# sinddm:単一画像の雑音拡散モデル

SinDDM: A Single Image Denoising Diffusion Model ( http://arxiv.org/abs/2211.16582v1 )

ライセンス: Link先を確認
Vladimir Kulikov, Shahar Yadin, Matan Kleiner, Tomer Michaeli(参考訳) ノイズ拡散モデル(ddms)は画像生成、編集、復元において驚くべき性能向上をもたらした。 しかし、既存のDDMはトレーニングに非常に大きなデータセットを使用している。 本稿では,単一画像上でDDMをトレーニングするためのフレームワークを提案する。 SinDDMを作成した本手法では,マルチスケール拡散プロセスを用いてトレーニング画像の内部統計を学習する。 逆拡散過程を駆動するために, 全畳み込み型軽量デノイザーを用い, 騒音レベルとスケールの両方を条件とする。 このアーキテクチャは任意の次元のサンプルを粗い方法で生成することができる。 以下に示すように、SinDDMは様々な高品質なサンプルを生成し、スタイル転送や調和を含む幅広いタスクに適用できる。 さらに、外部監視によって容易にガイドすることができる。 特に,事前学習したCLIPモデルを用いて,単一画像からのテキスト誘導生成を示す。

Denoising diffusion models (DDMs) have led to staggering performance leaps in image generation, editing and restoration. However, existing DDMs use very large datasets for training. Here, we introduce a framework for training a DDM on a single image. Our method, which we coin SinDDM, learns the internal statistics of the training image by using a multi-scale diffusion process. To drive the reverse diffusion process, we use a fully-convolutional light-weight denoiser, which is conditioned on both the noise level and the scale. This architecture allows generating samples of arbitrary dimensions, in a coarse-to-fine manner. As we illustrate, SinDDM generates diverse high-quality samples, and is applicable in a wide array of tasks, including style transfer and harmonization. Furthermore, it can be easily guided by external supervision. Particularly, we demonstrate text-guided generation from a single image using a pre-trained CLIP model.
翻訳日:2022-12-01 16:30:12 公開日:2022-11-29
# 凸クラスタリングペナルティによる階層的クラスタリングPCAとCAA

Hierarchically Clustered PCA and CCA via a Convex Clustering Penalty ( http://arxiv.org/abs/2211.16553v1 )

ライセンス: Link先を確認
Amanda M. Buch, Conor Liston, and Logan Grosenick(参考訳) 本稿では,クラスタ内における最大分散/共分散(変数内)の方向を推定し,(観察上)階層的クラスタリングを同時に行う非教師なし学習手法を提案する。 共同クラスタリングと埋め込みに関する従来の研究とは対照的に,我々の手法は簡単な定式化であり,分散最適化によって容易に拡張可能であり,階層的クラスタ化主成分分析(PCA)や階層的クラスタ化正準相関解析(CCA)として直接解釈できる。 数値実験と実世界の精密医療に関する実例から,本手法は,従来のクラスタリング法と現代のクラスタリング法を比較検討し,大規模データセット(例えば,$N=100,000$; $p=1,000$)にスケールし,階層単位の主成分や正準変数の解釈可能なデンドログラムを出力することを示した。

We introduce an unsupervised learning approach that combines the truncated singular value decomposition with convex clustering to estimate within-cluster directions of maximum variance/covariance (in the variables) while simultaneously hierarchically clustering (on observations). In contrast to previous work on joint clustering and embedding, our approach has a straightforward formulation, is readily scalable via distributed optimization, and admits a direct interpretation as hierarchically clustered principal component analysis (PCA) or hierarchically clustered canonical correlation analysis (CCA). Through numerical experiments and real-world examples relevant to precision medicine, we show that our approach outperforms traditional and contemporary clustering methods on underdetermined problems ($p \gg N$ with tens of observations) and scales to large datasets (e.g., $N=100,000$; $p=1,000$) while yielding interpretable dendrograms of hierarchical per-cluster principal components or canonical variates.
翻訳日:2022-12-01 16:21:19 公開日:2022-11-29
# 希少事象を伴う動的因果発見のための新しい統計的独立性試験

A Novel Statistical Independence Test for Dynamic Causal Discovery with Rare Events ( http://arxiv.org/abs/2211.16596v1 )

ライセンス: Link先を確認
Chih-Yuan Chiu, Kshitij Kulkarni, Shankar Sastry(参考訳) 稀な事象に関連する因果現象は、危険に敏感な安全分析、事故解析と予防、極端な価値理論など、幅広い工学的および数学的問題に頻繁に発生する。 しかしながら、因果発見の現在の方法は、変数が最初に低確率実現を経験したときにのみ現れるランダム変数間の因果関係を明らかにすることができないことが多い。 この問題に対処するため,時間不変の動的システムから収集したデータに対して統計的独立性テストを行うアルゴリズムを提案する。 我々は力学系の状態がレアな事象の可能性に因果的に影響を及ぼすかどうかを理解しようとする。 特に,基礎となるデータの時間的ばらつきを利用してレアな事象の発生を重畳し,レアな事象を表現できる新しいデータセットを作成し,条件付き独立性テストをより効率的に実行できるようにする。 我々は,アルゴリズムの整合性に対する非漸近的境界を提供し,様々なシミュレートシナリオにおけるアルゴリズムの性能と交通事故への応用を検証した。

Causal phenomena associated with rare events frequently occur across a wide range of engineering and mathematical problems, such as risk-sensitive safety analysis, accident analysis and prevention, and extreme value theory. However, current methods for causal discovery are often unable to uncover causal links between random variables that manifest only when the variables first experience low-probability realizations. To address this issue, we introduce a novel algorithm that performs statistical independence tests on data collected from time-invariant dynamical systems in which rare but consequential events occur. We seek to understand if the state of the dynamical system causally affects the likelihood of the rare event. In particular, we exploit the time-invariance of the underlying data to superimpose the occurrences of rare events, thus creating a new dataset, with rare events are better represented, on which conditional independence tests can be more efficiently performed. We provide non-asymptotic bounds for the consistency of our algorithm, and validate the performance of our algorithm across various simulated scenarios, with applications to traffic accidents.
翻訳日:2022-12-01 16:21:00 公開日:2022-11-29
# オンライン討論の積極的なモデレーション:既存の実践とアルゴリズム支援の可能性

Proactive Moderation of Online Discussions: Existing Practices and the Potential for Algorithmic Support ( http://arxiv.org/abs/2211.16525v1 )

ライセンス: Link先を確認
Charlotte Schluger, Jonathan P. Chang, Cristian Danescu-Niculescu-Mizil, Karen Levy(参考訳) 非文明的行動の広範な問題に対処するために、多くのオンライン・ディスカッション・プラットフォームは、人間のモデレーターを使って不利なコンテンツに対して行動を起こす。 既に投稿されている反社会的コンテンツに対して行動を起こすこのリアクティブパラダイムは、モデレーションの最も一般的な形態であり、モデレーションプロセスにオートメーションを導入する最近の多くの取り組みの基盤となっている。 他のモデレーションパラダイム(反社会的行動の出現を積極的に損なうなど)を理解するための作業は比較的少なく、これらのパラダイムにおいてアルゴリズム的サポートの役割が果たすことができる。 本研究では,wikipedia talk pages を事例として,モデレーションのための積極的なフレームワークについて検討する。 総合分析のために質的および設計的要素を組み合わせた混合手法を採用する。 モデレーターとのインタビューを通じて、モデレーターは技術的・社会的支援の欠如にもかかわらず、事前に会話に介入して追跡を続けるなど、多くの積極的なモデレーション行動に従事していることがわかった。 さらに、プロトタイプツールを構築し、モデレーターに提示することで、自動化が既存のアクティブなモデレーションワークフローをどのように支援するか、ワークフローにどのように適合するかを検討する。 その結果得られたフィードバックは、プロトタイプツールの長所と短所の両方を明らかにし、そのようなアシスト技術をさらに発展させるための具体的なステップを提案する。

To address the widespread problem of uncivil behavior, many online discussion platforms employ human moderators to take action against objectionable content, such as removing it or placing sanctions on its authors. This reactive paradigm of taking action against already-posted antisocial content is currently the most common form of moderation, and has accordingly underpinned many recent efforts at introducing automation into the moderation process. Comparatively less work has been done to understand other moderation paradigms -- such as proactively discouraging the emergence of antisocial behavior rather than reacting to it -- and the role algorithmic support can play in these paradigms. In this work, we investigate such a proactive framework for moderation in a case study of a collaborative setting: Wikipedia Talk Pages. We employ a mixed methods approach, combining qualitative and design components for a holistic analysis. Through interviews with moderators, we find that despite a lack of technical and social support, moderators already engage in a number of proactive moderation behaviors, such as preemptively intervening in conversations to keep them on track. Further, we explore how automation could assist with this existing proactive moderation workflow by building a prototype tool, presenting it to moderators, and examining how the assistance it provides might fit into their workflow. The resulting feedback uncovers both strengths and drawbacks of the prototype tool and suggests concrete steps towards further developing such assisting technology so it can most effectively support moderators in their existing proactive moderation workflow.
翻訳日:2022-12-01 16:04:55 公開日:2022-11-29
# GLOMの曖昧な部分から全体を予測する能力の検討

Testing GLOM's ability to infer wholes from ambiguous parts ( http://arxiv.org/abs/2211.16564v1 )

ライセンス: Link先を確認
Laura Culp, Sara Sabour, Geoffrey E. Hinton(参考訳) Hinton [2021]によって提案されたGLOMアーキテクチャは、イメージを全体と部分の階層にパースするためのリカレントニューラルネットワークである。 ある部分が曖昧である場合、グロムは、その部品が属する全体のポーズと同一性についてマルチモーダルな予測を行い、他の潜在的に曖昧な部分から来る同様の予測に注意を払い、複数の異なる部分によって予測される共通モードに落ち着かせることで、曖昧さを解消できると仮定する。 本研究では, このあいまいさに対する対処法の有効性を評価するために, 高度に単純化された glom 版について述べる。 以上の結果から,GLOMは同一物体が占めるすべての位置に対して,非常に類似した埋め込みベクトルの島体を形成することができ,入力の強いノイズ注入や分布外入力変換にも頑健であることが示唆された。

The GLOM architecture proposed by Hinton [2021] is a recurrent neural network for parsing an image into a hierarchy of wholes and parts. When a part is ambiguous, GLOM assumes that the ambiguity can be resolved by allowing the part to make multi-modal predictions for the pose and identity of the whole to which it belongs and then using attention to similar predictions coming from other possibly ambiguous parts to settle on a common mode that is predicted by several different parts. In this study, we describe a highly simplified version of GLOM that allows us to assess the effectiveness of this way of dealing with ambiguity. Our results show that, with supervised training, GLOM is able to successfully form islands of very similar embedding vectors for all of the locations occupied by the same object and it is also robust to strong noise injections in the input and to out-of-distribution input transformations.
翻訳日:2022-12-01 16:04:28 公開日:2022-11-29
# 多モード全スライド画像とゲノミクスを用いた生存予測のための階層変換器

Hierarchical Transformer for Survival Prediction Using Multimodality Whole Slide Images and Genomics ( http://arxiv.org/abs/2211.16632v1 )

ライセンス: Link先を確認
Chunyuan Li, Xinliang Zhu, Jiawen Yao and Junzhou Huang(参考訳) 下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良好な表現を学習することが重要である。 これまでの研究では、WSIをサンプルパッチの袋として複数のインスタンス学習(MIL)を使用していた。 しかし,高分解能のパッチサンプリングでは腫瘍細胞と周囲の組織との相対的な位置などの微小環境情報を描けないが,低分解能のパッチでは細部の詳細が失われる,巨大なwsiからパッチを抽出すると袋のサイズが大きくなり,計算コストが大幅に増大するなど,wsi表現学習はいまだに未解決のままである。 そこで本研究では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。 正確には、WSIから異なる倍率のインスタントレベルパッチ特徴をランダムに抽出する。 その後、画像とゲノミクスのコアテンションマッピングが学習され、対の相互作用を発見し、画像の特徴の空間的複雑さを低減する。 このような早期融合により、生存予測タスクにMIL変換器を使用することができる。 より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。 我々は,癌ゲノムアトラスデータベースから5種類の癌に対するアプローチを評価し,c-indexが0.673$であり,最先端のマルチモーダリティ法よりも優れていた。

Learning good representation of giga-pixel level whole slide pathology images (WSI) for downstream tasks is critical. Previous studies employ multiple instance learning (MIL) to represent WSIs as bags of sampled patches because, for most occasions, only slide-level labels are available, and only a tiny region of the WSI is disease-positive area. However, WSI representation learning still remains an open problem due to: (1) patch sampling on a higher resolution may be incapable of depicting microenvironment information such as the relative position between the tumor cells and surrounding tissues, while patches at lower resolution lose the fine-grained detail; (2) extracting patches from giant WSI results in large bag size, which tremendously increases the computational cost. To solve the problems, this paper proposes a hierarchical-based multimodal transformer framework that learns a hierarchical mapping between pathology images and corresponding genes. Precisely, we randomly extract instant-level patch features from WSIs with different magnification. Then a co-attention mapping between imaging and genomics is learned to uncover the pairwise interaction and reduce the space complexity of imaging features. Such early fusion makes it computationally feasible to use MIL Transformer for the survival prediction task. Our architecture requires fewer GPU resources compared with benchmark methods while maintaining better WSI representation ability. We evaluate our approach on five cancer types from the Cancer Genome Atlas database and achieved an average c-index of $0.673$, outperforming the state-of-the-art multimodality methods.
翻訳日:2022-12-01 16:04:06 公開日:2022-11-29
# rlベース人間型プレイスタイル生成による自動プレイテスト

Automated Play-Testing Through RL Based Human-Like Play-Styles Generation ( http://arxiv.org/abs/2211.17188v1 )

ライセンス: Link先を確認
Pierre Le Pelletier de Woillemont, R\'emi Labory, Vincent Corruble(参考訳) 現代のビデオゲームにおけるゲームプレイ機構の複雑さの増加は、ゲームプレイのより広い範囲の方法の出現に繋がる。 様々な可能なプレイスタイルは、自動化されたテストを通じて、デザイナーによって予測される必要があります。 強化学習は、ビデオゲームのテストを自動化する必要性に対する有望な答えである。 この効果を得るためには、デザイナーに有意義なフィードバックを与えるために、エージェントがプレイヤーと同じプレイスタイルを生成することを保証しながら、エージェントをトレーニングする必要がある。 CARMI: パラメータを入力として設定可能なエージェントを提示する。 以前は目に見えないレベルであっても、プレイヤーのプレースタイルをエミュレートできるエージェント。 現在のメソッドとは異なり、完全な軌跡を持つのではなく、要約データのみに依存する。 さらに、人間のデータが少ないため、現代のビデオゲーム生産の制約と互換性がある。 本発明の新規エージェントは,ゲーム製作時の動作やバランスを,現実的なトレーニング時間で調査することができる。

The increasing complexity of gameplay mechanisms in modern video games is leading to the emergence of a wider range of ways to play games. The variety of possible play-styles needs to be anticipated by designers, through automated tests. Reinforcement Learning is a promising answer to the need of automating video game testing. To that effect one needs to train an agent to play the game, while ensuring this agent will generate the same play-styles as the players in order to give meaningful feedback to the designers. We present CARMI: a Configurable Agent with Relative Metrics as Input. An agent able to emulate the players play-styles, even on previously unseen levels. Unlike current methods it does not rely on having full trajectories, but only summary data. Moreover it only requires little human data, thus compatible with the constraints of modern video game production. This novel agent could be used to investigate behaviors and balancing during the production of a video game with a realistic amount of training time.
翻訳日:2022-12-01 15:53:49 公開日:2022-11-29
# コンファウンディング時のオフライン政策評価と最適化

Offline Policy Evaluation and Optimization under Confounding ( http://arxiv.org/abs/2211.16583v1 )

ライセンス: Link先を確認
Kevin Tan, Yangyi Lu, Chinmaya Kausik, YIxin Wang, Ambuj Tewari(参考訳) いくつかの例外を除いて、オフライン強化学習(rl)の作業は、コンファウンディングがないと仮定している。 古典的な回帰設定では、共同設立者は省略変数バイアスを導入し、因果効果の識別を阻害する。 オフラインRLでは、ポリシーの価値の識別が防止され、ポリシーの改善が不可能になる。 したがって、コンファウンディングの存在下でオフラインrlで従来の方法を使用することは、意思決定の貧弱さや政策の貧弱さにつながるだけでなく、医療や教育といったアプリケーションにも悲惨な影響を与える可能性がある。 我々は、オフ・ポリティクス・アセスメント(OPE)と地域政策最適化の両方に、i.d.d.とグローバル共同設立者の設定でアプローチを提供する。 理論的および実証的な結果はこれらの方法の有効性と可能性を確認する。

With a few exceptions, work in offline reinforcement learning (RL) has so far assumed that there is no confounding. In a classical regression setting, confounders introduce omitted variable bias and inhibit the identification of causal effects. In offline RL, they prevent the identification of a policy's value, and therefore make it impossible to perform policy improvement. Using conventional methods in offline RL in the presence of confounding can therefore not only lead to poor decisions and poor policies, but can also have disastrous effects in applications such as healthcare and education. We provide approaches for both off-policy evaluation (OPE) and local policy optimization in the settings of i.i.d. and global confounders. Theoretical and empirical results confirm the validity and viability of these methods.
翻訳日:2022-12-01 15:53:38 公開日:2022-11-29
# マルチオミクスのためのマルチモーダル学習:調査

Multimodal Learning for Multi-Omics: A Survey ( http://arxiv.org/abs/2211.16509v1 )

ライセンス: Link先を確認
Sina Tabakhi, Mohammod Naimul Islam Suvon, Pegah Ahadian, Haiping Lu(参考訳) 高度なイメージング、シークエンシング、プロファイリング技術により、複数のオミクスデータが利用可能になり、がんの診断や治療など多くの医療応用を約束するようになる。 統合的マルチオミクス分析のためのマルチモーダル学習は、研究者や実践者が人間の病気に関する深い洞察を得るのに役立つ。 しかし、簡単にアクセスできるオープンソースツールなど、この分野の開発を妨げる課題がいくつかある。 この調査は、いくつかの新しい視点から、データの課題、融合アプローチ、データセット、ソフトウェアツールの最新の概要を提供することを目的としている。 我々は、フィールドをよりよく理解するのに役立つ様々なomicsデータチャレンジを特定し、調査する。 この領域の既存の手法を包括的に扱うために,融合アプローチを分類する。 既存のオープンソースツールを収集して、より広範な利用と開発を支援しています。 我々は、幅広いオミクスデータモダリティとアクセス可能なデータセットのリストを探索する。 最後に,既存のギャップに対処し得る今後の方向性を要約し,マルチオミクスデータ解析のためのマルチモーダル学習の推進の必要性に答える。

With advanced imaging, sequencing, and profiling technologies, multiple omics data become increasingly available and hold promises for many healthcare applications such as cancer diagnosis and treatment. Multimodal learning for integrative multi-omics analysis can help researchers and practitioners gain deep insights into human diseases and improve clinical decisions. However, several challenges are hindering the development in this area, including the availability of easily accessible open-source tools. This survey aims to provide an up-to-date overview of the data challenges, fusion approaches, datasets, and software tools from several new perspectives. We identify and investigate various omics data challenges that can help us understand the field better. We categorize fusion approaches comprehensively to cover existing methods in this area. We collect existing open-source tools to facilitate their broader utilization and development. We explore a broad range of omics data modalities and a list of accessible datasets. Finally, we summarize future directions that can potentially address existing gaps and answer the pressing need to advance multimodal learning for multi-omics data analysis.
翻訳日:2022-12-01 15:37:52 公開日:2022-11-29
# spartan:パラメータ効率のよいトランスフォーマーのためのスパース階層メモリ

SPARTAN: Sparse Hierarchical Memory for Parameter-Efficient Transformers ( http://arxiv.org/abs/2211.16634v1 )

ライセンス: Link先を確認
Ameet Deshpande, Md Arafat Sultan, Anthony Ferritto, Ashwin Kalyan, Karthik Narasimhan, Avirup Sil(参考訳) 微調整された事前学習言語モデル(PLM)は、下流タスクで印象的なパフォーマンスを実現し、その結果、そのサイズが大きくなる。 タスク毎にモデルの異なるコピーが必要であるため、このパラダイムは携帯電話のようなストレージに制限されたエッジデバイスには適用できない。 本稿では,各トランスフォーマー層の後,階層的に構成されたスパースメモリを付加するエッジデバイスのためのパラメータ効率(PE)と計算速度のよいアーキテクチャであるSPARTANを提案する。 SPARTANはPLMパラメータとメモリのみの微細構造を凍結し、異なるタスクのためにPLMバックボーンを再利用することでストレージコストを大幅に削減する。 SPARTANは2つのメモリレベルを含み、入力毎に第1のレベルで選択される親のスパースサブセットのみと、出力表現を計算するために使用される親に対応する子細胞である。 このスパーシリティと他のアーキテクチャ最適化を組み合わせることで、PEベースライン(アダプタ)と比較してRaspberry Pi 4での推論中にSPARTANのスループットが90%以上向上し、GLUEベンチマークでは後者よりも0.1ポイント向上した。 さらに、数ショット設定で34%高速にトレーニングでき、アダプタの0.9ポイント以内に実行することができる。 定性的分析により、SPARTANの異なる親細胞は異なるトピックを専門とし、効率的に責任を分割する。

Fine-tuning pre-trained language models (PLMs) achieves impressive performance on a range of downstream tasks, and their sizes have consequently been getting bigger. Since a different copy of the model is required for each task, this paradigm is infeasible for storage-constrained edge devices like mobile phones. In this paper, we propose SPARTAN, a parameter efficient (PE) and computationally fast architecture for edge devices that adds hierarchically organized sparse memory after each Transformer layer. SPARTAN freezes the PLM parameters and fine-tunes only its memory, thus significantly reducing storage costs by re-using the PLM backbone for different tasks. SPARTAN contains two levels of memory, with only a sparse subset of parents being chosen in the first level for each input, and children cells corresponding to those parents being used to compute an output representation. This sparsity combined with other architecture optimizations improves SPARTAN's throughput by over 90% during inference on a Raspberry Pi 4 when compared to PE baselines (adapters) while also outperforming the latter by 0.1 points on the GLUE benchmark. Further, it can be trained 34% faster in a few-shot setting, while performing within 0.9 points of adapters. Qualitative analysis shows that different parent cells in SPARTAN specialize in different topics, thus dividing responsibility efficiently.
翻訳日:2022-12-01 15:29:24 公開日:2022-11-29
# 機械翻訳におけるロバスト適応のためのソフトアライメント目的

Soft Alignment Objectives for Robust Adaptation in Machine Translation ( http://arxiv.org/abs/2211.16550v1 )

ライセンス: Link先を確認
Michal \v{S}tef\'anik and Marek Kadl\v{c}\'ik and Petr Sojka(参考訳) ドメイン適応により、生成言語モデルは、アプリケーションのドメインシフトに起因する特定の欠陥に対処できる。 しかし、ドメイン内のデータに対するさらなるトレーニングによる従来の適応は、モデルを他のドメインに一般化する能力を急速に弱め、適応モデルのオープンな配置はエラーを起こしやすい。 本研究は,予測されたトークンと参照との意味的類似性に基づく新しい学習目標を提案する。 その結果,(1)トークンのセマンティックな類似性からトレーニングターゲットを構築することで,単一の正しい予測の共通仮定を回避することにより,ドメイン適応時の破滅的な忘れを軽減し,(2)適応の質を保ちながら,(3)計算コストに無視できる加算を加えることができることがわかった。 より広い視点から見ると、ソフトトークンアライメントの目標が、効率的だがナイーブなトークンレベルの目標と、表現的かつ計算力に富んだ連続的な目標の間の中間的基盤を開拓することの先駆者であった。

Domain adaptation allows generative language models to address specific flaws caused by the domain shift of their application. However, the traditional adaptation by further training on in-domain data rapidly weakens the model's ability to generalize to other domains, making the open-ended deployments of the adapted models prone to errors. This work introduces novel training objectives built upon a semantic similarity of the predicted tokens to the reference. Our results show that (1) avoiding the common assumption of a single correct prediction by constructing the training target from tokens' semantic similarity can mitigate catastrophic forgetting during domain adaptation, while (2) preserving the quality of the adaptation, (3) with negligible additions to compute costs. In the broader perspective, the objectives grounded in a soft token alignment pioneer the exploration of the middle ground between the efficient but naive exact-match token-level objectives and expressive but computationally- and resource-intensive sequential objectives.
翻訳日:2022-12-01 15:18:30 公開日:2022-11-29
# ベイズ逆強化学習による実演満足度の自動評価

Autonomous Assessment of Demonstration Sufficiency via Bayesian Inverse Reinforcement Learning ( http://arxiv.org/abs/2211.15542v2 )

ライセンス: Link先を確認
Tu Trinh, Daniel S. Brown(参考訳) 本稿では,AIエージェントが実演から学習するAIエージェントのデモンストレーション効率を決定する上での問題点について考察する。 この問題を解決するために,ベイジアン逆強化学習とバリュー・アット・リスクに基づく新たな自己評価手法を提案する。 我々は,(1)正規化期待値差,(2)専門家の観察できない報酬関数に対する後悔度,(2)基準政策に対する改善,という2つの定義を提案し,評価する。 両指標の高信頼境界を定式化する方法を示す。 我々は、シミュレーションにおける我々のアプローチを評価し、専門家のパフォーマンスに適合するか、あるいは所望の安全閾値内で基準ポリシーのパフォーマンスを上回ることを保証し、十分なトレーニングデータを受信したかどうかを正確に評価できるAIシステムの開発の可能性を示す。

In this paper we examine the problem of determining demonstration sufficiency for AI agents that learn from demonstrations: how can an AI agent self-assess whether it has received enough demonstrations from an expert to ensure a desired level of performance? To address this problem we propose a novel self-assessment approach based on Bayesian inverse reinforcement learning and value-at-risk to enable agents that learn from demonstrations to compute high-confidence bounds on their performance and use these bounds to determine when they have a sufficient number of demonstrations. We propose and evaluate two definitions of sufficiency: (1) normalized expected value difference, which measures regret with respect to the expert's unobserved reward function, and (2) improvement over a baseline policy. We demonstrate how to formulate high-confidence bounds on both of these metrics. We evaluate our approach in simulation and demonstrate the feasibility of developing an AI system that can accurately evaluate whether it has received sufficient training data to guarantee, with high confidence, that it can match an expert's performance or surpass the performance of a baseline policy within some desired safety threshold.
翻訳日:2022-12-01 15:09:17 公開日:2022-11-29
# ジャカペラ・コーパス(jaCappella Corpus) 日本のカペラ・ボーカル・アンサンブル・コーパス

jaCappella Corpus: A Japanese a Cappella Vocal Ensemble Corpus ( http://arxiv.org/abs/2211.16028v1 )

ライセンス: Link先を確認
Tomohiko Nakamura, Shinnosuke Takamichi, Naoko Tanji, Satoru Fukayama, Hiroshi Saruwatari(参考訳) 音声アンサンブル分離合成のためのカペラ音声アンサンブル(jaCappella corpus)を日本語のコーパスで構築する。 著作権をクリアした35曲のボーカル・アンサンブルと、個々の音声パートの音声録音で構成されている。 これらの歌は、著作権のない日本の子どもの歌から作られ、6つの声部(リードボーカル、ソプラノ、アルト、テノール、ベース、ボーカルパーカッション)を持つ。 7つのサブセットに分けられ、それぞれジャズや演歌などの音楽ジャンルの典型的特徴を特徴とする。 ジャンルと声部の違いは、youtubeのようなソーシャルメディアサービスで最近広く普及した声楽アンサンブルと一致しているが、従来の声楽アンサンブルデータセットの主なターゲットはソプラノ、アルト、テノール、バスで構成される合唱歌である。 実験評価の結果,本コーパスは声帯分離の難解な資源であることが判明した。 私たちのコーパスはプロジェクトページ(https://tomohikonakamura.github.io/jacappella_corpus/)で閲覧できます。

We construct a corpus of Japanese a cappella vocal ensembles (jaCappella corpus) for vocal ensemble separation and synthesis. It consists of 35 copyright-cleared vocal ensemble songs and their audio recordings of individual voice parts. These songs were arranged from out-of-copyright Japanese children's songs and have six voice parts (lead vocal, soprano, alto, tenor, bass, and vocal percussion). They are divided into seven subsets, each of which features typical characteristics of a music genre such as jazz and enka. The variety in genre and voice part match vocal ensembles recently widespread in social media services such as YouTube, although the main targets of conventional vocal ensemble datasets are choral singing made up of soprano, alto, tenor, and bass. Experimental evaluation demonstrates that our corpus is a challenging resource for vocal ensemble separation. Our corpus is available on our project page (https://tomohikonakamura.github.io/jaCappella_corpus/).
翻訳日:2022-11-30 18:18:20 公開日:2022-11-29
# 制約付きmarlのための原始双対アルゴリズムの解釈

Interpreting Primal-Dual Algorithms for Constrained MARL ( http://arxiv.org/abs/2211.16069v1 )

ライセンス: Link先を確認
Daniel Tabas, Ahmed S. Zamzam, Baosen Zhang(参考訳) 制約付きマルチエージェント強化学習(C-MARL)は、MARLアルゴリズムがエネルギーシステムからドローン群まで、現実世界のシステムに新しい応用を見出すにつれ、重要性が高まっている。 ほとんどのc-marlアルゴリズムは、報酬に付加されるペナルティ関数を通じて制約を強制するために原始的アプローチを用いる。 本稿では,本手法の制約と価値関数に対する構造的効果について検討する。 まず,制約評価をペナルティとして用いると安全概念が弱くなるが,ペナルティ関数に簡単な修正を加えることで,有意義な確率的安全性制約を課すことができることを示す。 第二に、一次双対法の値関数に対する構造効果を利用して、値推定を改善する。 単純な制約付きマルチエージェント環境におけるシミュレーションにより,本手法の確率的制約による再解釈は有意義であり,提案手法は安全な共同政策への収束性を向上させる。

Constrained multiagent reinforcement learning (C-MARL) is gaining importance as MARL algorithms find new applications in real-world systems ranging from energy systems to drone swarms. Most C-MARL algorithms use a primal-dual approach to enforce constraints through a penalty function added to the reward. In this paper, we study the structural effects of the primal-dual approach on the constraints and value function. First, we show that using the constraint evaluation as the penalty leads to a weak notion of safety, but by making simple modifications to the penalty function, we can enforce meaningful probabilistic safety constraints. Second, we exploit the structural effects of primal-dual methods on value functions, leading to improved value estimates. Simulations in a simple constrained multiagent environment show that our reinterpretation of the primal-dual method in terms of probabilistic constraints is meaningful, and that our proposed value estimation procedure improves convergence to a safe joint policy.
翻訳日:2022-11-30 18:18:01 公開日:2022-11-29
# 確率的目標構成をもつ環境における計画学習のためのコンテキスト帯域アプローチ

A Contextual Bandit Approach for Learning to Plan in Environments with Probabilistic Goal Configurations ( http://arxiv.org/abs/2211.16309v1 )

ライセンス: Link先を確認
Sohan Rudra, Saksham Goel, Anirban Santara, Claudio Gentile, Laurent Perron, Fei Xia, Vikas Sindhwani, Carolina Parada, Gaurav Aggarwal(参考訳) Object-goal Navigation (Object-nav) は、ターゲットオブジェクトを検索、認識、ナビゲートする。 Object-navはEmbodied-AIコミュニティによって広く研究されてきたが、ほとんどのソリューションは静的なオブジェクト(テレビ、冷蔵庫など)に制限されている。 本研究では,静的な物体だけでなく,人間の介入によって頻繁に位置を変化させる移動体(果物,眼鏡,電話など)の屋内環境を効率的に探索できるオブジェクトナビのためのモジュラーフレームワークを提案する。 不確実性に直面して楽観性を示し、各ナビゲート可能な場所から異なる物体を発見できる可能性のモデルを学び、効率的に環境を探索する。 確率は、ロボットの軌道を推測するために、重み付き最小レイテンシソルバの報酬として使用される。 提案アルゴリズムを2つのシミュレーション環境と実世界の環境で評価し,高いサンプル効率と信頼性を示す。

Object-goal navigation (Object-nav) entails searching, recognizing and navigating to a target object. Object-nav has been extensively studied by the Embodied-AI community, but most solutions are often restricted to considering static objects (e.g., television, fridge, etc.). We propose a modular framework for object-nav that is able to efficiently search indoor environments for not just static objects but also movable objects (e.g. fruits, glasses, phones, etc.) that frequently change their positions due to human intervention. Our contextual-bandit agent efficiently explores the environment by showing optimism in the face of uncertainty and learns a model of the likelihood of spotting different objects from each navigable location. The likelihoods are used as rewards in a weighted minimum latency solver to deduce a trajectory for the robot. We evaluate our algorithms in two simulated environments and a real-world setting, to demonstrate high sample efficiency and reliability.
翻訳日:2022-11-30 18:17:44 公開日:2022-11-29
# 周期性丘陵上の流れのLESにおける壁モデリングのためのマルチエージェント強化学習

Multi-agent reinforcement learning for wall modeling in LES of flow over periodic hills ( http://arxiv.org/abs/2211.16427v1 )

ライセンス: Link先を確認
Di Zhou, Michael P. Whitmore, Kevin P. Griffin, H. Jane Bae(参考訳) マルチエージェント強化学習(MARL)を用いた各種圧力勾配効果を考慮した大渦シミュレーション(LES)の壁モデルを開発した。 モデルは、計算格子点に沿って壁にエージェントが分散した周期的ヒルズ上の低レイノルズ数流を用いて訓練される。 このモデルでは境界条件として壁渦粘性定式化を用いるが、これは典型的な壁面応力定式化よりも平均速度場の予測性が向上することを示している。 各エージェントは、オフウォールの場所における局所的な瞬時流量量に基づいて状態を受け取り、推定された壁シェール応力に基づいて報酬を計算し、各時間ステップで壁渦粘度を更新するためのアクションを提供する。 訓練された壁モデルは,レイノルズ数の高い周期的丘を流れる流れの壁模型les (wmles) で検証され, 圧力勾配を伴う流れに対するモデルの有効性が示された。 訓練されたモデルの解析は, モデルが流れに存在する様々な圧力勾配構造を区別できることを示している。

We develop a wall model for large-eddy simulation (LES) that takes into account various pressure-gradient effects using multi-agent reinforcement learning (MARL). The model is trained using low-Reynolds-number flow over periodic hills with agents distributed on the wall along the computational grid points. The model utilizes a wall eddy-viscosity formulation as the boundary condition, which is shown to provide better predictions of the mean velocity field, rather than the typical wall-shear stress formulation. Each agent receives states based on local instantaneous flow quantities at an off-wall location, computes a reward based on the estimated wall-shear stress, and provides an action to update the wall eddy viscosity at each time step. The trained wall model is validated in wall-modeled LES (WMLES) of flow over periodic hills at higher Reynolds numbers, and the results show the effectiveness of the model on flow with pressure gradients. The analysis of the trained model indicates that the model is capable of distinguishing between the various pressure gradient regimes present in the flow.
翻訳日:2022-11-30 18:17:27 公開日:2022-11-29
# Graph Neural Networks: ICの設計、信頼性、セキュリティを向上するための、パワフルでヴァーサタイルなツール

Graph Neural Networks: A Powerful and Versatile Tool for Advancing Design, Reliability, and Security of ICs ( http://arxiv.org/abs/2211.16495v1 )

ライセンス: Link先を確認
Lilas Alrahis, Johann Knechtel, Ozgur Sinanoglu(参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワークや生物学などに存在する大規模データを学習し、予測するために、最先端のSOTA(State-of-the-art)を推進した。 集積回路(IC)は自然にグラフとして表現できるため、IC設計の様々な面において機械学習(ML)ベースの手法にGNNを使うことが大幅に急増している。 この軌道を考えると、IC設計を進めるための強力で汎用的なGNNアプローチをレビューし、議論する必要がある。 本稿では,IC設計における課題を解決するため,GNNモデルに適した汎用パイプラインを提案する。 我々は,各パイプライン要素に対して有望な選択肢を概説し,選択された,有望な作業について議論する。 gnnsフレームワークの包括的概要 (i)電子設計自動化(eda)及び一般のic設計 (ii)信頼性のあるicの設計及び (iii)セキュアicの分析と同様に設計する。 我々は、GNN4ICハブのhttps://github.com/DfX-NYUAD/GNN4ICにも概要と関連リソースを提供している。 最後に,今後の研究の課題について考察する。

Graph neural networks (GNNs) have pushed the state-of-the-art (SOTA) for performance in learning and predicting on large-scale data present in social networks, biology, etc. Since integrated circuits (ICs) can naturally be represented as graphs, there has been a tremendous surge in employing GNNs for machine learning (ML)-based methods for various aspects of IC design. Given this trajectory, there is a timely need to review and discuss some powerful and versatile GNN approaches for advancing IC design. In this paper, we propose a generic pipeline for tailoring GNN models toward solving challenging problems for IC design. We outline promising options for each pipeline element, and we discuss selected and promising works, like leveraging GNNs to break SOTA logic obfuscation. Our comprehensive overview of GNNs frameworks covers (i) electronic design automation (EDA) and IC design in general, (ii) design of reliable ICs, and (iii) design as well as analysis of secure ICs. We provide our overview and related resources also in the GNN4IC hub at https://github.com/DfX-NYUAD/GNN4IC. Finally, we discuss interesting open problems for future research.
翻訳日:2022-11-30 18:17:05 公開日:2022-11-29
# ブロックチェーンシステムの性能評価、最適化、動的決定:最近の展望

Performance Evaluation, Optimization and Dynamic Decision in Blockchain Systems: A Recent Overview ( http://arxiv.org/abs/2211.15907v1 )

ライセンス: Link先を確認
Quan-Lin Li, Yan-Xia Chang and Qing Wang(参考訳) ブロックチェーン技術の急速な開発と、さまざまなアプリケーション領域の統合、パフォーマンス評価、パフォーマンス最適化、ブロックチェーンシステムの動的決定が、新たなブロックチェーンテクノロジの開発においてますます重要な役割を担っている。 本稿では,このクラス,特に数理モデリングとブロックチェーンシステムの基本理論の開発について,最近の体系的な概要を述べる。 重要な例を挙げると (a)性能評価:マルコフ過程、キューイング理論、マルコフ報酬過程、ランダムウォーク、流体及び拡散近似、マルティンゲール理論 (b)性能最適化:線形プログラミング、非線形プログラミング、整数プログラミング、多目的プログラミング (c)最適制御と動的決定:マルコフ決定過程、確率的最適制御 (d)人工知能:機械学習、深層強化学習、連合学習。 これまでのところ、これらの研究に焦点を絞った研究がいくつかある。 この論文で論じられたブロックチェーンシステムの数学的手法、アルゴリズム、シミュレーションによる基礎理論は、ブロックチェーン技術の今後の発展と継続的な革新を強く支援するであろう。

With rapid development of blockchain technology as well as integration of various application areas, performance evaluation, performance optimization, and dynamic decision in blockchain systems are playing an increasingly important role in developing new blockchain technology. This paper provides a recent systematic overview of this class of research, and especially, developing mathematical modeling and basic theory of blockchain systems. Important examples include (a) performance evaluation: Markov processes, queuing theory, Markov reward processes, random walks, fluid and diffusion approximations, and martingale theory; (b) performance optimization: Linear programming, nonlinear programming, integer programming, and multi-objective programming; (c) optimal control and dynamic decision: Markov decision processes, and stochastic optimal control; and (d) artificial intelligence: Machine learning, deep reinforcement learning, and federated learning. So far, a little research has focused on these research lines. We believe that the basic theory with mathematical methods, algorithms and simulations of blockchain systems discussed in this paper will strongly support future development and continuous innovation of blockchain technology.
翻訳日:2022-11-30 18:16:10 公開日:2022-11-29
# ネットワーク上の大規模多重テストについて:漸近的アプローチ

On Large-Scale Multiple Testing Over Networks: An Asymptotic Approach ( http://arxiv.org/abs/2211.16059v1 )

ライセンス: Link先を確認
Mehrdad Pournaderi and Yu Xiang(参考訳) この研究は、ネットワーク上の大規模多重テストのための通信効率と計算効率の手法の開発に関係しており、多くの実用的応用に注目されている。 我々は漸近的なアプローチを取り、分散設定に合わせた比例マッチングと欲欲集約という2つの方法を提案する。 比例マッチング法はグローバルbh性能を達成するが、真のヌル仮説の(推定された)比率と各ノードのp値の数のワンショット通信のみを必要とする。 漸近最適パワーに焦点をあてることで、漸近最適解の明示的な特徴づけを提供することで、BH手順を超えていく。 これにより、各ノードの最適拒絶領域を効果的に近似するグリーディアグリゲーション法が導かれるが、計算効率はグリーディ型アプローチから自然に導かれる。 理論的な知見を裏付けるために, 様々な難解な設定に関する広範な数値結果を提供する。

This work concerns developing communication- and computation-efficient methods for large-scale multiple testing over networks, which is of interest to many practical applications. We take an asymptotic approach and propose two methods, proportion-matching and greedy aggregation, tailored to distributed settings. The proportion-matching method achieves the global BH performance yet only requires a one-shot communication of the (estimated) proportion of true null hypotheses as well as the number of p-values at each node. By focusing on the asymptotic optimal power, we go beyond the BH procedure by providing an explicit characterization of the asymptotic optimal solution. This leads to the greedy aggregation method that effectively approximate the optimal rejection regions at each node, while computation-efficiency comes from the greedy-type approach naturally. Extensive numerical results over a variety of challenging settings are provided to support our theoretical findings.
翻訳日:2022-11-30 18:15:54 公開日:2022-11-29
# 前腕超音波による手の形状と指関節角度の同時推定

Simultaneous Estimation of Hand Configurations and Finger Joint Angles using Forearm Ultrasound ( http://arxiv.org/abs/2211.15871v1 )

ライセンス: Link先を確認
Keshav Bimbraw, Christopher J. Nycz, Matt Schueler, Ziming Zhang, and Haichong K. Zhang(参考訳) コンピュータとロボティクスの進歩により、デジタルシステム、拡張現実(AR/VR)インターフェース、物理ロボットシステムと対話するための、流動的で直感的な手法を開発する必要がある。 ハンドモーション認識はこれらの相互作用を可能にするために広く利用されている。 手の動きの包括的再構築には手形状分類とmcp関節角度検出が重要である。 sEMGや他の技術は手の動きの検出に使われてきた。 前腕超音波画像は、手の動きを理解するのに使える筋骨格の可視化を提供する。 近年の研究では、これらの超音波画像は機械学習を用いて離散的な手の配置を推定できることを示した。 前腕超音波による手指形状とMPP関節角度の推定は文献では行われていない。 本稿では,MPP関節角度を予測するためのCNNに基づくディープラーニングパイプラインを提案する。 手の配置分類の結果は異なる機械学習アルゴリズムを用いて比較した。 異なるカーネル, MLP, 提案したCNNのSVCを用いて, 日々の生活活動に基づいて, 超音波画像の11手構成に分類した。 前腕超音波画像は手の動きに応じて手を動かすよう指示された6名の被験者から得られた。 モーションキャプチャーデータを取得し、手の動きに対応する指の角度を異なる速度で取得した。 データセットのサブセットでは、提案されたCNNでは平均82.7%、異なるカーネルでは80%以上の分類精度が観測された。 予測値と真のmcp関節角の間に平均7.35°のrmseが得られた。 ヒューマンマシンインタフェースのリアルタイム制御を目的としたmcp関節角度とハンド構成の両方を推定するための低レイテンシ(6.25 - 9.1hz)パイプラインが提案されている。

With the advancement in computing and robotics, it is necessary to develop fluent and intuitive methods for interacting with digital systems, augmented/virtual reality (AR/VR) interfaces, and physical robotic systems. Hand motion recognition is widely used to enable these interactions. Hand configuration classification and MCP joint angle detection is important for a comprehensive reconstruction of hand motion. sEMG and other technologies have been used for the detection of hand motions. Forearm ultrasound images provide a musculoskeletal visualization that can be used to understand hand motion. Recent work has shown that these ultrasound images can be classified using machine learning to estimate discrete hand configurations. Estimating both hand configuration and MCP joint angles based on forearm ultrasound has not been addressed in the literature. In this paper, we propose a CNN based deep learning pipeline for predicting the MCP joint angles. The results for the hand configuration classification were compared by using different machine learning algorithms. SVC with different kernels, MLP, and the proposed CNN have been used to classify the ultrasound images into 11 hand configurations based on activities of daily living. Forearm ultrasound images were acquired from 6 subjects instructed to move their hands according to predefined hand configurations. Motion capture data was acquired to get the finger angles corresponding to the hand movements at different speeds. Average classification accuracy of 82.7% for the proposed CNN and over 80% for SVC for different kernels was observed on a subset of the dataset. An average RMSE of 7.35 degrees was obtained between the predicted and the true MCP joint angles. A low latency (6.25 - 9.1 Hz) pipeline has been proposed for estimating both MCP joint angles and hand configuration aimed at real-time control of human-machine interfaces.
翻訳日:2022-11-30 18:10:57 公開日:2022-11-29
# スマートグリッドにおける分散型エネルギー管理と需要応答: 多エージェント深層強化学習フレームワーク

Distributed Energy Management and Demand Response in Smart Grids: A Multi-Agent Deep Reinforcement Learning Framework ( http://arxiv.org/abs/2211.15858v1 )

ライセンス: Link先を確認
Amin Shojaeighadikolaei, Arman Ghasemi, Kailani Jones, Yousif Dafalla, Alexandru G. Bardas, Reza Ahmadi, Morteza Haashemi(参考訳) 本稿では,自律制御と再生可能エネルギー資源のスマートグリッドシステムへの統合のための多エージェント深層強化学習(DRL)フレームワークを提案する。 特に,提案フレームワークは,住宅利用者に対する需要応答 (DR) と分散エネルギー管理 (DEM) を共同で検討している。 DRは電力グリッドの安定性と信頼性を向上すると同時に、エンドユーザーのエネルギー料金を削減できる可能性が広く認識されている。 しかし、従来のDR技術には、エンドユーザー不使用を発生させながら運用上の不確実性を扱うことができないなど、いくつかの欠点がある。 提案フレームワークは,深層強化学習を用いて実現したリアルタイム価格戦略に基づいてDRとDEMを実装することで,これらの欠点に対処する。 さらに、このフレームワークにより、電力グリッドサービスプロバイダは、分散エネルギー資源(PVルーフトップパネルやバッテリストレージなど)をディスパッチ可能な資産として活用し、ピーク時のスマートグリッドをサポートすることができ、分散エネルギー資源の管理を達成できる。 Deep Q-Network (DQN) に基づくシミュレーションの結果, 送電事業者と電力グリッドサービス事業者の24時間累積利益が大幅に向上し, 電力グリッドリザーブジェネレータの利用が大幅に削減された。

This paper presents a multi-agent Deep Reinforcement Learning (DRL) framework for autonomous control and integration of renewable energy resources into smart power grid systems. In particular, the proposed framework jointly considers demand response (DR) and distributed energy management (DEM) for residential end-users. DR has a widely recognized potential for improving power grid stability and reliability, while at the same time reducing end-users energy bills. However, the conventional DR techniques come with several shortcomings, such as the inability to handle operational uncertainties while incurring end-user disutility, which prevents widespread adoption in real-world applications. The proposed framework addresses these shortcomings by implementing DR and DEM based on real-time pricing strategy that is achieved using deep reinforcement learning. Furthermore, this framework enables the power grid service provider to leverage distributed energy resources (i.e., PV rooftop panels and battery storage) as dispatchable assets to support the smart grid during peak hours, thus achieving management of distributed energy resources. Simulation results based on the Deep Q-Network (DQN) demonstrate significant improvements of the 24-hour accumulative profit for both prosumers and the power grid service provider, as well as major reductions in the utilization of the power grid reserve generators.
翻訳日:2022-11-30 18:09:59 公開日:2022-11-29
# 大規模状態空間を用いた深層強化学習における分散低減のためのmartingaleプロセス近似

Approximating Martingale Process for Variance Reduction in Deep Reinforcement Learning with Large State Space ( http://arxiv.org/abs/2211.15886v1 )

ライセンス: Link先を確認
Charlie Ruan(参考訳) Martingale Process (AMP) の近似は, マルチクラス待ち行列ネットワークなど特定の事例における強化学習(RL)の分散低減に有効であることが証明されている。 しかし、既に証明されたケースでは、状態空間は比較的小さく、全ての可能な状態遷移を反復することができる。 本稿では,状態空間が大きく,状態遷移を考慮した場合の不確実性を有するシステムについて考察する。 具体的には、ドライバーと顧客のポリシーを最適化するために、PPO(Proximal Policy Optimization)が組み込まれているUberのような配車システムにおけるAMPの適用について検討する。

Approximating Martingale Process (AMP) is proven to be effective for variance reduction in reinforcement learning (RL) in specific cases such as Multiclass Queueing Networks. However, in the already proven cases, the state space is relatively small and all possible state transitions can be iterated through. In this paper, we consider systems in which state space is large and have uncertainties when considering state transitions, thus making AMP a generalized variance-reduction method in RL. Specifically, we will investigate the application of AMP in ride-hailing systems like Uber, where Proximal Policy Optimization (PPO) is incorporated to optimize the policy of matching drivers and customers.
翻訳日:2022-11-30 18:09:34 公開日:2022-11-29
# 低いランク回帰における最良サブセット選択

Best Subset Selection in Reduced Rank Regression ( http://arxiv.org/abs/2211.15889v1 )

ライセンス: Link先を確認
Canhong Wen, Ruipeng Dong, Xueqin Wang, Weiyu Li, Heping Zhang(参考訳) 簡素な階位回帰は重要な統計的学習法である。 現代の文献では、推定は典型的には非凸最適化として定式化され、数値計算においてしばしば局所最適となる。 しかし、その理論解析は常に大域的最適度に重点を置いており、統計的保証と数値計算の相違が生じる。 本研究では,この問題に対処し,アルゴリズム解に対するほぼ最適な確率を確立するための新しいアルゴリズムを提案する。 また,このアルゴリズムが多項式数を繰り返して推定できることを実証した。 さらに,サポートセットの回復とランク推定の一貫性を同時に確保する汎用情報基準を提案する。 提案した基準の下では,本アルゴリズムが有意な確率でオラクル還元ランク推定を実現できることを示す。 卵巣癌遺伝データの数値的研究と応用は,我々のアプローチの有効性と拡張性を示している。

Sparse reduced rank regression is an essential statistical learning method. In the contemporary literature, estimation is typically formulated as a nonconvex optimization that often yields to a local optimum in numerical computation. Yet, their theoretical analysis is always centered on the global optimum, resulting in a discrepancy between the statistical guarantee and the numerical computation. In this research, we offer a new algorithm to address the problem and establish an almost optimal rate for the algorithmic solution. We also demonstrate that the algorithm achieves the estimation with a polynomial number of iterations. In addition, we present a generalized information criterion to simultaneously ensure the consistency of support set recovery and rank estimation. Under the proposed criterion, we show that our algorithm can achieve the oracle reduced rank estimation with a significant probability. The numerical studies and an application in the ovarian cancer genetic data demonstrate the effectiveness and scalability of our approach.
翻訳日:2022-11-30 18:09:22 公開日:2022-11-29
# Adap DP-FL:適応雑音による個人差分学習

Adap DP-FL: Differentially Private Federated Learning with Adaptive Noise ( http://arxiv.org/abs/2211.15893v1 )

ライセンス: Link先を確認
Jie Fu, Zhili Chen and Xiao Han(参考訳) フェデレーション学習は、クライアントがローカルトレーニングモデルのみを公開することで、孤立したデータ島の問題に対処しようとしている。 しかし,深層ニューラルネットワークモデル重みなどの局所モデルパラメータを解析することにより,プライベートな情報も推測できることが実証された。 近年、データプライバシを保護するためのフェデレーション学習に差分プライバシーが適用されているが、付加されるノイズは学習性能を著しく低下させる可能性がある。 通常、前回の作業ではトレーニングパラメータを均等にクリップし、ノイズを均一に追加した。 トレーニングパラメータの多様性と収束は、単に考慮されなかった。 本稿では適応雑音(Adap DP-FL)を用いたフェデレーション学習のための差分プライベートスキームを提案する。 具体的には, 勾配の不均質性から, 異なるクライアントと異なるラウンドに対して適応的な勾配クリッピングを行う。 実世界のデータセットに対する大規模な実験は、我々のAdap DP-FLが従来の手法よりも大幅に優れていることを示した。

Federated learning seeks to address the issue of isolated data islands by making clients disclose only their local training models. However, it was demonstrated that private information could still be inferred by analyzing local model parameters, such as deep neural network model weights. Recently, differential privacy has been applied to federated learning to protect data privacy, but the noise added may degrade the learning performance much. Typically, in previous work, training parameters were clipped equally and noises were added uniformly. The heterogeneity and convergence of training parameters were simply not considered. In this paper, we propose a differentially private scheme for federated learning with adaptive noise (Adap DP-FL). Specifically, due to the gradient heterogeneity, we conduct adaptive gradient clipping for different clients and different rounds; due to the gradient convergence, we add decreasing noises accordingly. Extensive experiments on real-world datasets demonstrate that our Adap DP-FL outperforms previous methods significantly.
翻訳日:2022-11-30 18:09:07 公開日:2022-11-29
# medalcare-xl:16,900 健常および病的12誘導心電図の電気生理学的シミュレーションによる解析

MedalCare-XL: 16,900 healthy and pathological 12 lead ECGs obtained through electrophysiological simulations ( http://arxiv.org/abs/2211.15997v1 )

ライセンス: Link先を確認
Karli Gillette, Matthias A.F. Gsell, Claudia Nagel, Jule Bender, Bejamin Winkler, Steven E. Williams, Markus B\"ar, Tobias Sch\"affter, Olaf D\"ossel, Gernot Plank, Axel Loewe(参考訳) メカニックな心臓電気生理学的モデルにより、心臓の電気的活動と体表面の心電図(ecg)のパーソナライズされたシミュレーションが可能になる。 したがって、合成信号は基礎疾患の既知の基底的真理ラベルを有しており、臨床信号に加えて機械学習のecg分析ツールの検証に利用できる。 近年, 合成心電図は臨床データの疎結合化や, トレーニング中に完全に置き換えられるようになり, 実世界の臨床検査データのパフォーマンスが向上した。 そこで我々は,健康管理と病理7クラスに均等に分布する電気生理学的シミュレーションに基づいて,合計16,900個のリード心電図からなる新しい合成データベースを作成した。 病理組織学的には6亜型であった。 仮想コホートと公用臨床心電図データベースの抽出特徴の比較により, 臨床心電図の合成信号は健常者, 病的サブポピュレーションにおいて高い忠実度を示すことが示された。 ECGデータベースは、新しい機械学習アルゴリズムの開発と客観的評価のためのトレーニング、検証、テストフォールドに分割される。

Mechanistic cardiac electrophysiology models allow for personalized simulations of the electrical activity in the heart and the ensuing electrocardiogram (ECG) on the body surface. As such, synthetic signals possess known ground truth labels of the underlying disease and can be employed for validation of machine learning ECG analysis tools in addition to clinical signals. Recently, synthetic ECGs were used to enrich sparse clinical data or even replace them completely during training leading to improved performance on real-world clinical test data. We thus generated a novel synthetic database comprising a total of 16,900 12 lead ECGs based on electrophysiological simulations equally distributed into healthy control and 7 pathology classes. The pathological case of myocardial infraction had 6 sub-classes. A comparison of extracted features between the virtual cohort and a publicly available clinical ECG database demonstrated that the synthetic signals represent clinical ECGs for healthy and pathological subpopulations with high fidelity. The ECG database is split into training, validation, and test folds for development and objective assessment of novel machine learning algorithms.
翻訳日:2022-11-30 18:08:53 公開日:2022-11-29
# ロボットシステムの学習と制御のためのリー群強制変分積分器ネットワーク

Lie Group Forced Variational Integrator Networks for Learning and Control of Robot Systems ( http://arxiv.org/abs/2211.16006v1 )

ライセンス: Link先を確認
Valentin Duruisseaux, Thai Duong, Melvin Leok, Nikolay Atanasov(参考訳) 物理法則の事前知識と力学系の構造特性をディープラーニングアーキテクチャの設計に組み込むことは、計算効率と一般化能力を向上させるための強力な技術であることが証明されている。 ロボットダイナミクスの正確なモデルを学ぶことは、安全で安定した制御に不可欠である。 車輪、空中、水中の車両を含む自律移動ロボットは、行列リー群上で進化するラグランジアンまたはハミルトン剛体系としてモデル化することができる。 本稿では,新しい構造保存型ディープラーニングアーキテクチャであるlie群強制変分積分器ネットワーク(liefvin)について紹介する。 設計上、リーフヴィンは力学が発展するリー群構造とハミルトンやラグランジアン系の基礎となるシンプレクティック構造の両方を保存している。 提案アーキテクチャでは,ベクトル場の代わりに離散時間フローマップを代理的に学習し,数値積分器やニューラルODE,アジョイントなどを用いることなく,より高速かつ高速な予測を可能にする。 さらに、学習された離散時間ダイナミクスと計算スケーラブルな離散時間(最適)制御戦略をシームレスに組み合わせることができる。

Incorporating prior knowledge of physics laws and structural properties of dynamical systems into the design of deep learning architectures has proven to be a powerful technique for improving their computational efficiency and generalization capacity. Learning accurate models of robot dynamics is critical for safe and stable control. Autonomous mobile robots, including wheeled, aerial, and underwater vehicles, can be modeled as controlled Lagrangian or Hamiltonian rigid-body systems evolving on matrix Lie groups. In this paper, we introduce a new structure-preserving deep learning architecture, the Lie group Forced Variational Integrator Network (LieFVIN), capable of learning controlled Lagrangian or Hamiltonian dynamics on Lie groups, either from position-velocity or position-only data. By design, LieFVINs preserve both the Lie group structure on which the dynamics evolve and the symplectic structure underlying the Hamiltonian or Lagrangian systems of interest. The proposed architecture learns surrogate discrete-time flow maps instead of surrogate vector fields, which allows better and faster prediction without requiring the use of a numerical integrator, neural ODE, or adjoint techniques. Furthermore, the learnt discrete-time dynamics can be combined seamlessly with computationally scalable discrete-time (optimal) control strategies.
翻訳日:2022-11-30 18:08:35 公開日:2022-11-29
# 選挙違反の新規性検出:エージェントによるシミュレーションデータを用いた事例研究

Novelty Detection for Election Fraud: A Case Study with Agent-Based Simulation Data ( http://arxiv.org/abs/2211.16023v1 )

ライセンス: Link先を確認
Khurram Yamin, Nima Jadali, Dima Nazzal, Yao Xie(参考訳) 本稿では,ロバストな選挙シミュレーションモデルを提案し,その有用性を示す選挙異常検出アルゴリズムを独立に開発した。 シミュレーションにより,実世界の選挙と類似した特性と傾向を持つ人工選挙が生成され,ユーザーは選挙の重要な要素をすべて制御し,知識を得ることができる。 不正のないクリーンな選挙結果データセットと、不正の度合いの異なるデータセットを生成します。 そして、アルゴリズムが詐欺のレベルをうまく検出できるかどうかを計測する。 このアルゴリズムは、実際の選挙結果とポーリングの予測結果と、同様の人口統計を持つ他の地域の回帰モデルとの類似性を決定する。 k-平均を用いて選挙地域をクラスタに分割し、クラスタ間で人口均質性が最大化される。 次に,一級支援ベクターマシンとして実装された新奇検出アルゴリズムを用いて,ポーリング予測と回帰予測の形式でクリーンなデータを提供する。 回帰予測は、データが自身を監督するように、実際のデータから構築されます。 シミュレーション手法と機械学習モデルの有効性を両立させ,不正領域の同定に成功した。

In this paper, we propose a robust election simulation model and independently developed election anomaly detection algorithm that demonstrates the simulation's utility. The simulation generates artificial elections with similar properties and trends as elections from the real world, while giving users control and knowledge over all the important components of the elections. We generate a clean election results dataset without fraud as well as datasets with varying degrees of fraud. We then measure how well the algorithm is able to successfully detect the level of fraud present. The algorithm determines how similar actual election results are as compared to the predicted results from polling and a regression model of other regions that have similar demographics. We use k-means to partition electoral regions into clusters such that demographic homogeneity is maximized among clusters. We then use a novelty detection algorithm implemented as a one-class Support Vector Machine where the clean data is provided in the form of polling predictions and regression predictions. The regression predictions are built from the actual data in such a way that the data supervises itself. We show both the effectiveness of the simulation technique and the machine learning model in its success in identifying fraudulent regions.
翻訳日:2022-11-30 18:08:13 公開日:2022-11-29
# ローカルスケールの英国気候モデルの機械学習エミュレーション

Machine learning emulation of a local-scale UK climate model ( http://arxiv.org/abs/2211.16116v1 )

ライセンス: Link先を確認
Henry Addison, Elizabeth Kendon, Suman Ravuri, Laurence Aitchison, Peter AG Watson(参考訳) 気候変動は降雨の激化を引き起こしている。 空間分解能の高い降水予測は、洪水の影響をモデル化するなど、これらの変化に備えることが社会にとって重要である。 このようなプロジェクションを作成するための物理ベースのシミュレーションは非常に計算コストが高い。 本研究は,低分解能シミュレーションデータに基づくイギリスにおいてより安価に高分解能の降雨サンプルを生成するための,深層生成モデルの一形態である拡散モデルの有効性を示す。 我々は,大雨の背後にある重要なプロセスである大気対流を解決する物理モデルに基づいて,高分解能降雨の現実的なサンプルを生成できる機械学習モデルが初めて示す。 自己学習型位置情報を低分解能の相対渦性, 量子および試料の時間平均に付加することにより, 高分解能シミュレーションとよく一致した。

Climate change is causing the intensification of rainfall extremes. Precipitation projections with high spatial resolution are important for society to prepare for these changes, e.g. to model flooding impacts. Physics-based simulations for creating such projections are very computationally expensive. This work demonstrates the effectiveness of diffusion models, a form of deep generative models, for generating much more cheaply realistic high resolution rainfall samples for the UK conditioned on data from a low resolution simulation. We show for the first time a machine learning model that is able to produce realistic samples of high-resolution rainfall based on a physical model that resolves atmospheric convection, a key process behind extreme rainfall. By adding self-learnt, location-specific information to low resolution relative vorticity, quantiles and time-mean of the samples match well their counterparts from the high-resolution simulation.
翻訳日:2022-11-30 18:02:00 公開日:2022-11-29
# 動的モード分解による最適化学習

Learning to Optimize with Dynamic Mode Decomposition ( http://arxiv.org/abs/2211.16268v1 )

ライセンス: Link先を確認
Petr \v{S}im\'anek, Daniel Va\v{s}ata, Pavel Kord\'ik(参考訳) 高速な最適化アルゴリズムの設計は、ますます関心を集めている。 近年、最適化方法を学ぶための学習は、非常に励みやすい結果を示している。 現在のアプローチは通常、トレーニング中に最適化プロセスのダイナミクスを効果的に含まない。 完全に省略するか、単独パラメータのダイナミクスを暗黙的に仮定するだけです。 本稿では,最適化ダイナミクスに関する情報抽出に動的モード分解法をどのように利用するかを示す。 これらの特徴を利用することで、学習した最適化器が、簡単に見つからない最適化問題を一般化できることが示される。 改良された一般化は、ひとつのニューラルネットワーク上でオプティマイザをトレーニングする複数のタスクで説明され、異なるアーキテクチャと異なるデータセットに一般化される。

Designing faster optimization algorithms is of ever-growing interest. In recent years, learning to learn methods that learn how to optimize demonstrated very encouraging results. Current approaches usually do not effectively include the dynamics of the optimization process during training. They either omit it entirely or only implicitly assume the dynamics of an isolated parameter. In this paper, we show how to utilize the dynamic mode decomposition method for extracting informative features about optimization dynamics. By employing those features, we show that our learned optimizer generalizes much better to unseen optimization problems in short. The improved generalization is illustrated on multiple tasks where training the optimizer on one neural network generalizes to different architectures and distinct datasets.
翻訳日:2022-11-30 18:01:47 公開日:2022-11-29
# BARTSmiles:分子表現のための生成的マスケッド言語モデル

BARTSmiles: Generative Masked Language Models for Molecular Representations ( http://arxiv.org/abs/2211.16349v1 )

ライセンス: Link先を確認
Gayane Chilingaryan, Hovhannes Tamoyan, Ani Tevosyan, Nelly Babayan, Lusine Khondkaryan, Karen Hambardzumyan, Zaven Navoyan, Hrant Khachatrian, Armen Aghajanyan(参考訳) 我々は,生成的マスク言語モデルのための分子表現を指向したロバストな自己教師付き戦略を,一連の調整された深いアブレーションを通じて発見する。 この事前学習戦略を用いて,従来の自己教師あり分子表現よりも桁違いな計算量を持つbartsmilesモデルを訓練した。 詳細な評価では、BARTSmilesは、分類、回帰、および11のタスクに新しい最先端を設定する生成タスクで、他の自己監督的表現を一貫して上回っている。 次に、分子領域に適用すると、BARTの目的が、我々の関心のある下流のタスクを暗黙的に符号化する表現を学ぶことを定量的に示す。 例えば、凍結したBARTSmilesから7つのニューロンを選択することで、タスクClintox上での完全な微調整モデルの2%のパフォーマンスを持つモデルを得ることができる。 最後に、BARTSmilesに適用された標準属性解釈法は、化学者が分子の特定の性質を説明するために使用する部分構造を強調している。 コードと事前訓練されたモデルは公開されている。

We discover a robust self-supervised strategy tailored towards molecular representations for generative masked language models through a series of tailored, in-depth ablations. Using this pre-training strategy, we train BARTSmiles, a BART-like model with an order of magnitude more compute than previous self-supervised molecular representations. In-depth evaluations show that BARTSmiles consistently outperforms other self-supervised representations across classification, regression, and generation tasks setting a new state-of-the-art on 11 tasks. We then quantitatively show that when applied to the molecular domain, the BART objective learns representations that implicitly encode our downstream tasks of interest. For example, by selecting seven neurons from a frozen BARTSmiles, we can obtain a model having performance within two percentage points of the full fine-tuned model on task Clintox. Lastly, we show that standard attribution interpretability methods, when applied to BARTSmiles, highlight certain substructures that chemists use to explain specific properties of molecules. The code and the pretrained model are publicly available.
翻訳日:2022-11-30 18:01:35 公開日:2022-11-29
# 衣装生成とレコメンデーション--実験的検討

Outfit Generation and Recommendation -- An Experimental Study ( http://arxiv.org/abs/2211.16353v1 )

ライセンス: Link先を確認
Marjan Celikik, Matthias Kirmse, Timo Denk, Pierre Gagliardi, Sahar Mbarek, Duy Pham, Ana Peleteiro Ramallo(参考訳) 過去数年間、ファッション関連の課題は研究コミュニティで多くの注目を集めてきた。 衣装の生成と推奨、すなわち、様々な種類のアイテム(トップス、ボトム、シューズ、アクセサリーなど)の組み合わせが、最も難しいもののひとつです。 それは、アイテムが互いに互換性があり、顧客の好みに合わせてパーソナライズされる必要があるからです。 近年,機械学習の文献から様々な技術やアルゴリズムを採用することで,これらの問題に対処する作業が数多く行われている。 しかし、現在までに、衣装生成や推奨のための異なるアルゴリズムの性能について、広範な比較は行われていない。 本稿では,ヨーロッパ最大のファッションストアのオンラインユーザデータを用いて,パーソナライズされたアプローチと非パーソナライズされたアプローチの両方を含む,さまざまなアルゴリズムの幅広い評価と比較を提供することにより,このギャップを埋める。 これらのモデルのいくつかに適応して、パーソナライズされた衣装生成に適したものにした。 さらに,本課題においてまだ評価されていないモデル,特にGPT,BERT,Seq-to-Seq LSTMについて考察を行った。

Over the past years, fashion-related challenges have gained a lot of attention in the research community. Outfit generation and recommendation, i.e., the composition of a set of items of different types (e.g., tops, bottom, shoes, accessories) that go well together, are among the most challenging ones. That is because items have to be both compatible amongst each other and also personalized to match the taste of the customer. Recently there has been a plethora of work targeted at tackling these problems by adopting various techniques and algorithms from the machine learning literature. However, to date, there is no extensive comparison of the performance of the different algorithms for outfit generation and recommendation. In this paper, we close this gap by providing a broad evaluation and comparison of various algorithms, including both personalized and non-personalized approaches, using online, real-world user data from one of Europe's largest fashion stores. We present the adaptations we made to some of those models to make them suitable for personalized outfit generation. Moreover, we provide insights for models that have not yet been evaluated on this task, specifically, GPT, BERT and Seq-to-Seq LSTM.
翻訳日:2022-11-30 18:01:16 公開日:2022-11-29
# ファッションのための再使用型自己注意型レコメンダシステム

Reusable Self-Attention-based Recommender System for Fashion ( http://arxiv.org/abs/2211.16366v1 )

ライセンス: Link先を確認
Marjan Celikik, Jacek Wasilewski, Sahar Mbarek, Pablo Celayes, Pierre Gagliardi, Duy Pham, Nour Karessli, Ana Peleteiro Ramallo(参考訳) レコメンダシステムのドメインにセルフアテンションモデルを適用するための多くの実証研究は、これらのモデルが実際のシナリオでどのように機能するかについての洞察なしに、標準データセットで計算されたオフライン評価とメトリクスに基づいている。 さらに、商品や顧客のメタデータなどの情報を考慮しないことが多いが、ディープラーニングの推奨者は、多種多様なタイプの特徴が多数含まれている場合にのみ、その潜在能力を最大限に発揮している。 また、一般的にレコメンデーションモデルは、モデリングの複雑さとメンテナンスコストを増大させ、一貫性のない顧客エクスペリエンスをもたらす、単一のユースケースのみにうまく機能するように設計されています。 本研究では,様々なファッションエンティティ(シャツ,衣装,インフルエンサーなど)とのさまざまなインタラクション型と,それらの不均一な特徴を利用する,再利用可能な注意型ファッションレコメンデーションアルゴリズム(afra)を提案する。 さらに,短期的および長期的な顧客嗜好に対応するために,時間的および文脈的情報を活用する。 特に衣料品推薦の事例において有効性を示す。 1)パーソナライズされたランク付けフィード 2 服装の推奨は様式により行う。 3)類似商品の推薦等 4) 最新の顧客行動にインスパイアされたインセッションレコメンデーション。 顧客維持とエンゲージメントを大幅に改善したオフラインとオンラインの両方の実験結果を示す。

A large number of empirical studies on applying self-attention models in the domain of recommender systems are based on offline evaluation and metrics computed on standardized datasets, without insights on how these models perform in real life scenarios. Moreover, many of them do not consider information such as item and customer metadata, although deep-learning recommenders live up to their full potential only when numerous features of heterogeneous types are included. Also, typically recommendation models are designed to serve well only a single use case, which increases modeling complexity and maintenance costs, and may lead to inconsistent customer experience. In this work, we present a reusable Attention-based Fashion Recommendation Algorithm (AFRA), that utilizes various interaction types with different fashion entities such as items (e.g., shirt), outfits and influencers, and their heterogeneous features. Moreover, we leverage temporal and contextual information to address both short and long-term customer preferences. We show its effectiveness on outfit recommendation use cases, in particular: 1) personalized ranked feed; 2) outfit recommendations by style; 3) similar item recommendation and 4) in-session recommendations inspired by most recent customer actions. We present both offline and online experimental results demonstrating substantial improvements in customer retention and engagement.
翻訳日:2022-11-30 18:00:56 公開日:2022-11-29
# 時間反転による自己監督型精神障害分類器

Self-Supervised Mental Disorder Classifiers via Time Reversal ( http://arxiv.org/abs/2211.16398v1 )

ライセンス: Link先を確認
Zafar Iqbal, Usman Mehmood, Zening Fu, Sergey Plis(参考訳) データ不足は、特に医療分野において、患者データ法によって顕著な問題である。 したがって、効率的な事前訓練技術は、この問題に対処するのに役立つ。 本稿では,機能的神経画像データの時間方向を訓練したモデルが,fmriデータにおける健全な制御から疾患を分類するなどの下流課題に有用であることを示す。 我々は、独立成分分析(ICA)技術を用いて、fMRIデータから派生した独立成分のディープニューラルネットワークを訓練する。 ICAベースのデータで時間方向を学習する。 この事前訓練されたモデルは、異なるデータセットで脳障害を分類するためにさらに訓練される。 様々な実験を通して,fMRIデータにおける因果関係の学習を支援する学習時間方向が,より高速な収束に役立つことを示し,その結果,少ないデータ記録でも下流分類タスクにおいてよく一般化されることを示した。

Data scarcity is a notable problem, especially in the medical domain, due to patient data laws. Therefore, efficient Pre-Training techniques could help in combating this problem. In this paper, we demonstrate that a model trained on the time direction of functional neuro-imaging data could help in any downstream task, for example, classifying diseases from healthy controls in fMRI data. We train a Deep Neural Network on Independent components derived from fMRI data using the Independent component analysis (ICA) technique. It learns time direction in the ICA-based data. This pre-trained model is further trained to classify brain disorders in different datasets. Through various experiments, we have shown that learning time direction helps a model learn some causal relation in fMRI data that helps in faster convergence, and consequently, the model generalizes well in downstream classification tasks even with fewer data records.
翻訳日:2022-11-30 18:00:12 公開日:2022-11-29
# 合成データが原子論的機械学習の実験を可能にする

Synthetic data enable experiments in atomistic machine learning ( http://arxiv.org/abs/2211.16443v1 )

ライセンス: Link先を確認
John L. A. Gardner and Zo\'e Faure Beaulieu and Volker L. Deringer(参考訳) 機械学習モデルは、化学系の原子の性質を予測するためにますます使われている。 このタスクのディスクリプタや回帰フレームワークの開発には大きな進歩があり、典型的には(相対的に)量子力学的参照データの小さなセットから始まる。 この種の大規模なデータセットが利用可能になっているが、生成には高価である。 ここでは、既存のMLポテンシャルモデルから、原子単位のエネルギーをラベル付けした“合成”された大規模なデータセットの使用を実演する。 このプロセスの安価さは、量子力学的基盤の真理と比較して、何百万ものデータポイントを生成し、その結果、小規模から大規模までの原子論的mlモデルの迅速な実験を可能にします。 このアプローチにより、回帰フレームワークを深く比較し、学習した表現に基づいて視覚化を探索することができる。 また,合成データラベルの学習は,小規模データセットの微調整に有用な事前学習課題であることを示す。 将来的には、私たちのオープンソースデータセットや、同様のデータセットが、豊富な化学データに限りなく、ディープラーニングモデルの迅速な探索に役立ちそうです。

Machine-learning models are increasingly used to predict properties of atoms in chemical systems. There have been major advances in developing descriptors and regression frameworks for this task, typically starting from (relatively) small sets of quantum-mechanical reference data. Larger datasets of this kind are becoming available, but remain expensive to generate. Here we demonstrate the use of a large dataset that we have "synthetically" labelled with per-atom energies from an existing ML potential model. The cheapness of this process, compared to the quantum-mechanical ground truth, allows us to generate millions of datapoints, in turn enabling rapid experimentation with atomistic ML models from the small- to the large-data regime. This approach allows us here to compare regression frameworks in depth, and to explore visualisation based on learned representations. We also show that learning synthetic data labels can be a useful pre-training task for subsequent fine-tuning on small datasets. In the future, we expect that our open-sourced dataset, and similar ones, will be useful in rapidly exploring deep-learning models in the limit of abundant chemical data.
翻訳日:2022-11-30 17:59:50 公開日:2022-11-29
# AdsorbML: 機械学習による吸着エネルギー計算の高速化

AdsorbML: Accelerating Adsorption Energy Calculations with Machine Learning ( http://arxiv.org/abs/2211.16486v1 )

ライセンス: Link先を確認
Janice Lan, Aini Palizhati, Muhammed Shuaibi, Brandon M. Wood, Brook Wander, Abhishek Das, Matt Uyttendaele, C. Lawrence Zitnick, Zachary W. Ulissi(参考訳) 計算触媒は、幅広い応用における触媒の設計において、ますます重要な役割を担っている。 多くの計算方法において共通の課題は、吸着物と触媒表面の最小結合エネルギー(吸着エネルギー)を正確に計算することである。 伝統的に、低エネルギー吸着面配置の同定はヒューリスティックな方法と研究者の直観に依存する。 高スループットのスクリーニングを行うという欲求が高まるにつれ、ヒューリスティックと直観だけでは使用が困難になる。 本稿では,低エネルギー吸着面の構成をより正確に効率的に識別するために,機械学習のポテンシャルを活用できることを実証する。 我々のアルゴリズムは精度と効率のトレードオフのスペクトルを提供し、1つのバランスの取れたオプションは、0.1eVの閾値で、86.63%の時間内で、計算の1387倍のスピードアップを達成する。 ベンチマークの標準化のために,我々は,約1,000の多様な表面と87,045のユニークな構成を含むopen catalyst denseデータセットを導入する。

Computational catalysis is playing an increasingly significant role in the design of catalysts across a wide range of applications. A common task for many computational methods is the need to accurately compute the minimum binding energy - the adsorption energy - for an adsorbate and a catalyst surface of interest. Traditionally, the identification of low energy adsorbate-surface configurations relies on heuristic methods and researcher intuition. As the desire to perform high-throughput screening increases, it becomes challenging to use heuristics and intuition alone. In this paper, we demonstrate machine learning potentials can be leveraged to identify low energy adsorbate-surface configurations more accurately and efficiently. Our algorithm provides a spectrum of trade-offs between accuracy and efficiency, with one balanced option finding the lowest energy configuration, within a 0.1 eV threshold, 86.63% of the time, while achieving a 1387x speedup in computation. To standardize benchmarking, we introduce the Open Catalyst Dense dataset containing nearly 1,000 diverse surfaces and 87,045 unique configurations.
翻訳日:2022-11-30 17:59:33 公開日:2022-11-29
# 個人不公平に対する解毒剤データの学習

Learning Antidote Data to Individual Unfairness ( http://arxiv.org/abs/2211.15897v1 )

ライセンス: Link先を確認
Peizhao Li, Ethan Xia, Hongfu Liu(参考訳) フェアネスは、ハイテイクアプリケーションにデプロイされる機械学習システムにとって重要な要素である。 すべての公正概念の中で、「類似した個人も同様に扱われるべき」という意見の一致に従えば、個々の事件に対する公平な扱いを保証する上で不可欠な概念である。 従来の手法では、感度特性を摂動する際の予測不変問題として個々の公正性を特徴付け、分散ロバスト最適化(DRO)パラダイムを採用して解決する。 しかし、センシティブな情報をカバーする方向に沿った逆摂動は、固有の特徴相関や生来のデータ制約を考慮せず、オフマニフォールドと非現実的なサンプルで最適化するようにモデルを誤解する。 そこで本研究では, 個人不公平を緩和するために, データ分布をほぼ追従する解毒剤データを学習し, 生成する手法を提案する。 これらのon-manifoldアンチドテデータは、元のトレーニングデータによる汎用的な最適化手順によって利用することができ、結果として個々の不公平性に対する純粋な前処理アプローチが実現される。 広範囲な実験を通じて、我々の解毒剤データは、モデルの予測ユーティリティに対して最小またはゼロのコストで個々の不公平さに抵抗することを示した。

Fairness is an essential factor for machine learning systems deployed in high-stake applications. Among all fairness notions, individual fairness, following a consensus that `similar individuals should be treated similarly,' is a vital notion to guarantee fair treatment for individual cases. Previous methods typically characterize individual fairness as a prediction-invariant problem when perturbing sensitive attributes, and solve it by adopting the Distributionally Robust Optimization (DRO) paradigm. However, adversarial perturbations along a direction covering sensitive information do not consider the inherent feature correlations or innate data constraints, and thus mislead the model to optimize at off-manifold and unrealistic samples. In light of this, we propose a method to learn and generate antidote data that approximately follows the data distribution to remedy individual unfairness. These on-manifold antidote data can be used through a generic optimization procedure with original training data, resulting in a pure pre-processing approach to individual unfairness, or can also fit well with the in-processing DRO paradigm. Through extensive experiments, we demonstrate our antidote data resists individual unfairness at a minimal or zero cost to the model's predictive utility.
翻訳日:2022-11-30 17:53:35 公開日:2022-11-29
# 安定カーネルとグループ畳み込みによるSE(3)同変ネットワークの等価性

Equivalence Between SE(3) Equivariant Networks via Steerable Kernels and Group Convolution ( http://arxiv.org/abs/2211.15903v1 )

ライセンス: Link先を確認
Adrien Poulenard, Maks Ovsjanikov, Leonidas J. Guibas(参考訳) 近年, 入力の回転と変換において等価な3次元データに対して, ニューラルネットワークを設計するための幅広い手法が提案されている。 ユークリッド群$\mathrm{SE}(3)$の回転と変換の同値性に対するほとんどのアプローチは、2つの主要な圏の1つに該当する。 最初のカテゴリは、$\mathrm{se}(3)$-convolutionを使用して、$\mathrm{se}(3)$で信号の古典的な$\mathbb{r}^3$-convolutionを一般化する手法で構成されている。 あるいは、テンソル場の$\mathbb{R}^3$-畳み込みに制約を課すことで、$\mathrm{SE}(3)$-equivarianceを達成できる \textit{steerable convolution} を使用することもできる。 この分野の専門家によって、2つのアプローチが同値であることは知られ、ステアブル畳み込みは$\mathrm{se}(3)$畳み込みのフーリエ変換である。 残念ながら、これらの結果は広く知られておらず、さらにこれら2つのアプローチに基づいて構築されたディープラーニングアーキテクチャ間の正確な関係は、同変深層学習に関する文献に正確に記述されていない。 本研究では,両手法とその等価性を詳細に解析し,その2つの構成を多視点畳み込みネットワークに関連付ける。 さらに、最近のアプローチの適用性と成功を説明するために、$\mathrm{SE}(3)$ group convolution の分離性の理論的正当化を与える。 最後に、単一のコヒーレント形式を用いて異なる手法を表現し、異なる方法によって学習されたカーネルを関連付ける明示的な公式を提供する。 このようにして、我々の研究は、ロト翻訳の同値性を達成するために、これまで提案された様々な技術を統合するのに役立ち、様々な代替品の実用性と正確な違いの両方に光を当てるのに役立ちます。 また、同値原理から新しいTFN非線形性を導き、実用的なベンチマークデータセット上でテストする。

A wide range of techniques have been proposed in recent years for designing neural networks for 3D data that are equivariant under rotation and translation of the input. Most approaches for equivariance under the Euclidean group $\mathrm{SE}(3)$ of rotations and translations fall within one of the two major categories. The first category consists of methods that use $\mathrm{SE}(3)$-convolution which generalizes classical $\mathbb{R}^3$-convolution on signals over $\mathrm{SE}(3)$. Alternatively, it is possible to use \textit{steerable convolution} which achieves $\mathrm{SE}(3)$-equivariance by imposing constraints on $\mathbb{R}^3$-convolution of tensor fields. It is known by specialists in the field that the two approaches are equivalent, with steerable convolution being the Fourier transform of $\mathrm{SE}(3)$ convolution. Unfortunately, these results are not widely known and moreover the exact relations between deep learning architectures built upon these two approaches have not been precisely described in the literature on equivariant deep learning. In this work we provide an in-depth analysis of both methods and their equivalence and relate the two constructions to multiview convolutional networks. Furthermore, we provide theoretical justifications of separability of $\mathrm{SE}(3)$ group convolution, which explain the applicability and success of some recent approaches. Finally, we express different methods using a single coherent formalism and provide explicit formulas that relate the kernels learned by different methods. In this way, our work helps to unify different previously-proposed techniques for achieving roto-translational equivariance, and helps to shed light on both the utility and precise differences between various alternatives. We also derive new TFN non-linearities from our equivalence principle and test them on practical benchmark datasets.
翻訳日:2022-11-30 17:53:12 公開日:2022-11-29
# 機械学習モデルの構築と取引戦略の改善によるストックオプション予測の最適化

Optimizing Stock Option Forecasting with the Assembly of Machine Learning Models and Improved Trading Strategies ( http://arxiv.org/abs/2211.15912v1 )

ライセンス: Link先を確認
Zheng Cao, Raymond Guo, Wenyu Du, Jiayi Gao, Kirill V. Golubnichiy(参考訳) 本稿では、機械学習(ML)モデルの適用、取引戦略の改善、ストックオプション予測と取引結果の最適化のための準可逆法(QRM)について紹介する。 本研究は,「準可逆性を用いた畳み込みニューラルネットワークのオプション予測への応用」という研究のフォローアッププロジェクトの成果を提示した。 まず、プロジェクトは、ストックオプショントレンドを予測する新しい方法を提供するために、リカレントニューラルネットワーク(rnn)とlong short-term memory(lstm)ネットワークの応用を含む。 さらに、複数のMLモデルを組み合わせて予測結果と意思決定を改善する実験手法の評価により、MLモデルの依存度を検討した。 最後に、2つの改良された取引戦略とシミュレーション投資結果が提示された。 離散時間確率過程分析とポートフォリオヘッジを用いた二項資産価格モデルを適用し,最適化投資期待の提案を行った。 これらの結果は、実生活におけるトレーディング戦略において、過去のデータに基づくストックオプション投資結果の最適化に利用することができる。

This paper introduced key aspects of applying Machine Learning (ML) models, improved trading strategies, and the Quasi-Reversibility Method (QRM) to optimize stock option forecasting and trading results. It presented the findings of the follow-up project of the research "Application of Convolutional Neural Networks with Quasi-Reversibility Method Results for Option Forecasting". First, the project included an application of Recurrent Neural Networks (RNN) and Long Short-Term Memory (LSTM) networks to provide a novel way of predicting stock option trends. Additionally, it examined the dependence of the ML models by evaluating the experimental method of combining multiple ML models to improve prediction results and decision-making. Lastly, two improved trading strategies and simulated investing results were presented. The Binomial Asset Pricing Model with discrete time stochastic process analysis and portfolio hedging was applied and suggested an optimized investment expectation. These results can be utilized in real-life trading strategies to optimize stock option investment results based on historical data.
翻訳日:2022-11-30 17:52:22 公開日:2022-11-29
# ReRAMに基づくニューラルネットワークシミュレーションにおけるデバイスモデリングバイアス

Device Modeling Bias in ReRAM-based Neural Network Simulations ( http://arxiv.org/abs/2211.15925v1 )

ライセンス: Link先を確認
Osama Yousuf, Imtiaz Hossen, Matthew W. Daniels, Martin Lueker-Boden, Andrew Dienstfrey, Gina C. Adam(参考訳) ジャンプテーブルのようなデータ駆動モデリングアプローチは、ハードウェアニューラルネットワークシミュレーションのための抵抗性ランダムアクセスメモリ(reram)や他の新興メモリデバイスの集団をモデル化するための有望な手法である。 これらのテーブルはデータの補間に依存しているため、この研究は、それらがモデル化する確率的デバイス動作に関連して、それらの忠実性に関するオープンな質問を探索する。 本研究では,様々なジャンプテーブルデバイスモデルが達成したネットワーク性能推定に与える影響について検討する。 ジャンプテーブルデバイスモデリングの2つの手法であるbinningとoptimized binningをベンチマークのために既知の分布を持つ合成データと、tiox reramデバイスから得られた実験データを用いて検討した。 mnistでトレーニングされた多層パーセプトロンの結果、binningに基づくデバイスモデルは、デバイスデータセットの低点において特に予測不能に振る舞うことができ、時には過剰に予測され、時としてターゲットネットワークの精度が過小評価される。 また,ネットワークレベルでのモデリングバイアスの指標と類似した傾向を示すデバイスレベルの指標を提案する。 提案されたアプローチは、パフォーマンスが向上した統計デバイスモデルに関する将来の調査の可能性を広げ、異なるインメモリコンピューティングとニューラルネットワークアーキテクチャにおけるモデリングバイアスを実験的に検証する。

Data-driven modeling approaches such as jump tables are promising techniques to model populations of resistive random-access memory (ReRAM) or other emerging memory devices for hardware neural network simulations. As these tables rely on data interpolation, this work explores the open questions about their fidelity in relation to the stochastic device behavior they model. We study how various jump table device models impact the attained network performance estimates, a concept we define as modeling bias. Two methods of jump table device modeling, binning and Optuna-optimized binning, are explored using synthetic data with known distributions for benchmarking purposes, as well as experimental data obtained from TiOx ReRAM devices. Results on a multi-layer perceptron trained on MNIST show that device models based on binning can behave unpredictably particularly at low number of points in the device dataset, sometimes over-promising, sometimes under-promising target network accuracy. This paper also proposes device level metrics that indicate similar trends with the modeling bias metric at the network level. The proposed approach opens the possibility for future investigations into statistical device models with better performance, as well as experimentally verified modeling bias in different in-memory computing and neural network architectures.
翻訳日:2022-11-30 17:52:07 公開日:2022-11-29
# 訓練型ディープラーニングモデルにおけるバックドア脆弱性

Backdoor Vulnerabilities in Normally Trained Deep Learning Models ( http://arxiv.org/abs/2211.15929v1 )

ライセンス: Link先を確認
Guanhong Tao, Zhenting Wang, Siyuan Cheng, Shiqing Ma, Shengwei An, Yingqi Liu, Guangyu Shen, Zhuo Zhang, Yunshu Mao, Xiangyu Zhang(参考訳) 通常訓練されたディープラーニングモデルにおけるバックドア脆弱性の系統的研究を行う。 どちらも同じように悪用できるので、データ中毒によって注入されるバックドアと同じくらい危険です。 文献では20種類のバックドア攻撃をガイダンスとして利用し、通常訓練されたモデルでそれらの対応について研究している。 ナチュラルバックドアは広く存在し、ほとんどのインジェクションバックドア攻撃には自然な対応がある。 我々はこれらの自然のバックドアを分類し、一般的な検出フレームワークを提案する。 インターネットからダウンロードされた56モデルのうち、自然のバックドアは315種類あり、あらゆるカテゴリをカバーしている。 自然のバックドアの根本原因と防御についても検討する。

We conduct a systematic study of backdoor vulnerabilities in normally trained Deep Learning models. They are as dangerous as backdoors injected by data poisoning because both can be equally exploited. We leverage 20 different types of injected backdoor attacks in the literature as the guidance and study their correspondences in normally trained models, which we call natural backdoor vulnerabilities. We find that natural backdoors are widely existing, with most injected backdoor attacks having natural correspondences. We categorize these natural backdoors and propose a general detection framework. It finds 315 natural backdoors in the 56 normally trained models downloaded from the Internet, covering all the different categories, while existing scanners designed for injected backdoors can at most detect 65 backdoors. We also study the root causes and defense of natural backdoors.
翻訳日:2022-11-30 17:51:46 公開日:2022-11-29
# 低データ不均衡クラスレジームによる損傷評価のためのバランス付き半スーパーバイザ・ジェネレーション・ディバイザ・ネットワーク

Balanced Semi-Supervised Generative Adversarial Network for Damage Assessment from Low-Data Imbalanced-Class Regime ( http://arxiv.org/abs/2211.15961v1 )

ライセンス: Link先を確認
Yuqing Gao, Pengyuan Zhai, Khalid M. Mosalam(参考訳) 近年,視覚に基づく構造健康モニタリング(shm)において,構造損傷を評価するための深層学習(dl)が注目されている。 しかし、データ不足とクラス不均衡は、SHMの実用化においてDLの普及を妨げている。 一般的な緩和戦略としては、転送学習、オーバーサンプリング、アンダーサンプリングがあるが、これらのアドホックな手法は、あるケースによって異なる限られたパフォーマンス向上しか提供しない。 本稿では,GAN(Generative Adversarial Network, GAN)の1つの変種を紹介し, バランス付き半教師付きGAN(BSS-GAN)について述べる。 半教師付き学習の概念を採用し、低データと不均衡クラスの問題を解決するためにトレーニングにバランストバッチサンプリングを適用している。 コンクリートのひび割れとスポーリングの分類に関する一連のコンピュータ実験は、計算能力に制限のある低データ不均衡クラスで実施された。 以上の結果から,BSS-GANは従来手法よりも,リコールやF_\beta$スコアにおいて,損傷検出の精度が向上していることが示唆された。

In recent years, applying deep learning (DL) to assess structural damages has gained growing popularity in vision-based structural health monitoring (SHM). However, both data deficiency and class-imbalance hinder the wide adoption of DL in practical applications of SHM. Common mitigation strategies include transfer learning, over-sampling, and under-sampling, yet these ad-hoc methods only provide limited performance boost that varies from one case to another. In this work, we introduce one variant of the Generative Adversarial Network (GAN), named the balanced semi-supervised GAN (BSS-GAN). It adopts the semi-supervised learning concept and applies balanced-batch sampling in training to resolve low-data and imbalanced-class problems. A series of computer experiments on concrete cracking and spalling classification were conducted under the low-data imbalanced-class regime with limited computing power. The results show that the BSS-GAN is able to achieve better damage detection in terms of recall and $F_\beta$ score than other conventional methods, indicating its state-of-the-art performance.
翻訳日:2022-11-30 17:51:36 公開日:2022-11-29
# 変圧器で中国全国の空気質を予測するairformer

AirFormer: Predicting Nationwide Air Quality in China with Transformers ( http://arxiv.org/abs/2211.15979v1 )

ライセンス: Link先を確認
Yuxuan Liang, Yutong Xia, Songyu Ke, Yiwei Wang, Qingsong Wen, Junbo Zhang, Yu Zheng, Roger Zimmermann(参考訳) 大気汚染は人間の健康や生活に影響を及ぼす重要な問題であり、経済や社会の成長の障壁の一つでもある。 空気質の予測は、特に中国のような新興国において、社会的影響をもたらす重要な取り組みとしてますます重要になっている。 本稿では,中国における空気質を総合的に予測するための新しい変圧器アーキテクチャであるairformerについて紹介する。 AirFormerは学習プロセスを2段階に分離する。 1) 時空間表現を効率的に学習する2つの新しい自己認識機構を含むボトムアップ決定段階 2) 大気質データの本質的不確かさを捉えるための潜在変数を用いたトップダウン確率段階。 中国本土の1,085駅から4年間のデータでエアフォーマーを評価した。 最先端モデルと比較して、AirFormerは72時間の予測で予測エラーを5%~8%削減する。 ソースコードはhttps://github.com/yoshall/airformerから入手できます。

Air pollution is a crucial issue affecting human health and livelihoods, as well as one of the barriers to economic and social growth. Forecasting air quality has become an increasingly important endeavor with significant social impacts, especially in emerging countries like China. In this paper, we present a novel Transformer architecture termed AirFormer to collectively predict nationwide air quality in China, with an unprecedented fine spatial granularity covering thousands of locations. AirFormer decouples the learning process into two stages -- 1) a bottom-up deterministic stage that contains two new types of self-attention mechanisms to efficiently learn spatio-temporal representations; 2) a top-down stochastic stage with latent variables to capture the intrinsic uncertainty of air quality data. We evaluate AirFormer with 4-year data from 1,085 stations in the Chinese Mainland. Compared to the state-of-the-art model, AirFormer reduces prediction errors by 5%~8% on 72-hour future predictions. Our source code is available at https://github.com/yoshall/airformer.
翻訳日:2022-11-30 17:51:14 公開日:2022-11-29
# ACE:双方向行動依存型協調型マルチエージェントQ-ラーニング

ACE: Cooperative Multi-agent Q-learning with Bidirectional Action-Dependency ( http://arxiv.org/abs/2211.16068v1 )

ライセンス: Link先を確認
Chuming Li, Jie Liu, Yinmin Zhang, Yuhong Wei, Yazhe Niu, Yaodong Yang, Yu Liu, Wanli Ouyang(参考訳) マルチエージェント強化学習(MARL)は、複数のエージェントが同時にポリシーを更新するたびに常に変化する目標である非定常性問題に悩まされる。 本稿では,第一原理から,双方向行動依存型q-learning(ace)を提案することにより,非定常問題を解決する。 ACEの開発の中心は、一度に1人のエージェントだけが行動を起こすという、シーケンシャルな意思決定プロセスである。 このプロセスの中で、各エージェントは、推論段階で前のエージェントが取るアクションを考慮すれば、その値関数を最大化する。 学習フェーズでは、各エージェントは、選択されたアクションに対して後続のエージェントがどのように反応したかに依存するTDエラーを最小化する。 双方向依存の設計を考えると、ACE は事実上マルチエージェント MDP を単一エージェント MDP に変換する。 我々は、アクション依存を定式化するために適切なネットワーク表現を識別してACEフレームワークを実装し、シーケンシャルな決定プロセスが1つのフォワードパスで暗黙的に計算されるようにする。 ACEを検証するために、2つのMARLベンチマークの強いベースラインと比較する。 実証実験によれば、aceはgoogle research footballやstarcraft multi-agent challengeで最先端のアルゴリズムを上回る。 特に SMAC のタスクでは、ACE はほとんど全てのハードマップと超ハードマップで100%の成功率を達成する。 さらに,拡張性,一般化性,実践性など,ACEに関する広範な研究課題について検討する。 コードはさらなる研究を促進するために提供されている。

Multi-agent reinforcement learning (MARL) suffers from the non-stationarity problem, which is the ever-changing targets at every iteration when multiple agents update their policies at the same time. Starting from first principle, in this paper, we manage to solve the non-stationarity problem by proposing bidirectional action-dependent Q-learning (ACE). Central to the development of ACE is the sequential decision-making process wherein only one agent is allowed to take action at one time. Within this process, each agent maximizes its value function given the actions taken by the preceding agents at the inference stage. In the learning phase, each agent minimizes the TD error that is dependent on how the subsequent agents have reacted to their chosen action. Given the design of bidirectional dependency, ACE effectively turns a multiagent MDP into a single-agent MDP. We implement the ACE framework by identifying the proper network representation to formulate the action dependency, so that the sequential decision process is computed implicitly in one forward pass. To validate ACE, we compare it with strong baselines on two MARL benchmarks. Empirical experiments demonstrate that ACE outperforms the state-of-the-art algorithms on Google Research Football and StarCraft Multi-Agent Challenge by a large margin. In particular, on SMAC tasks, ACE achieves 100% success rate on almost all the hard and super-hard maps. We further study extensive research problems regarding ACE, including extension, generalization, and practicability. Code is made available to facilitate further research.
翻訳日:2022-11-30 17:50:57 公開日:2022-11-29
# オフライン強化学習のための多元データからの行動推定

Behavior Estimation from Multi-Source Data for Offline Reinforcement Learning ( http://arxiv.org/abs/2211.16078v1 )

ライセンス: Link先を確認
Guoxi Zhang and Hisashi Kashima(参考訳) オフライン強化学習(RL)はその魅力あるデータ効率のために関心が高まっている。 本研究では,多くのオフラインRLアルゴリズムの基礎となる行動推定について述べる。 行動推定は、トレーニングデータを生成するポリシーを推定することを目的としている。 特に本研究では,複数のソースからデータを収集するシナリオについて考察する。 この場合、データの不均一性を無視して、行動推定のための既存のアプローチは行動の特定に悩まされる。 この欠点を克服するために,本研究では,データから一連のポリシーを推測する潜在変数モデルを提案する。 このモデルは、マルチソースデータに対するきめ細かいキャラクタリゼーションをエージェントに提供し、振舞いの特定を克服するのに役立つ。 この研究は、このモデルの学習アルゴリズムも提案し、既存のオフラインRLアルゴリズムを拡張してその実用性を示す。 最後に,本研究は,行動の誤特定の存在と提案モデルの有効性を確認した。

Offline reinforcement learning (RL) have received rising interest due to its appealing data efficiency. The present study addresses behavior estimation, a task that lays the foundation of many offline RL algorithms. Behavior estimation aims at estimating the policy with which training data are generated. In particular, this work considers a scenario where the data are collected from multiple sources. In this case, neglecting data heterogeneity, existing approaches for behavior estimation suffers from behavior misspecification. To overcome this drawback, the present study proposes a latent variable model to infer a set of policies from data, which allows an agent to use as behavior policy the policy that best describes a particular trajectory. This model provides with a agent fine-grained characterization for multi-source data and helps it overcome behavior misspecification. This work also proposes a learning algorithm for this model and illustrates its practical usage via extending an existing offline RL algorithm. Lastly, with extensive evaluation this work confirms the existence of behavior misspecification and the efficacy of the proposed model.
翻訳日:2022-11-30 17:50:36 公開日:2022-11-29
# グラフベースアプローチを用いたテキスト表現の豊かさ:株式市場技術分析事例スタディ

Text Representation Enrichment Utilizing Graph based Approaches: Stock Market Technical Analysis Case Study ( http://arxiv.org/abs/2211.16103v1 )

ライセンス: Link先を確認
Sara Salamat, Nima Tavassoli, Behnam Sabeti, Reza Fahmi(参考訳) グラフニューラルネットワーク(GNN)は近年,自然言語処理(NLP)タスクに利用されている。 グラフ表現におけるコーパスワイド機能をエンコードする能力により、GNNモデルは文書分類などの様々なタスクで人気を得た。 このようなモデルの大きな欠点の1つは、主に均質なグラフに取り組んでおり、グラフとしてテキストデータセットを表現するには、複数のノードタイプが必要であり、ヘテロジニアスなスキーマに繋がる。 本稿では,教師なしノード表現学習モデルとノード分類/エッジ予測モデルを組み合わせたトランスダクティブハイブリッド手法を提案する。 提案モデルは異種グラフを処理して統一ノード埋め込みを生成することができ、ノード分類やリンク予測に下流タスクとして利用される。 提案手法は,この分野における最初の研究である株式市場の技術分析報告を分類するために開発された。 構築されたデータセットを使用して実行された実験は、モデルが抽出と下流タスクを埋め込む能力を示す。

Graph neural networks (GNNs) have been utilized for various natural language processing (NLP) tasks lately. The ability to encode corpus-wide features in graph representation made GNN models popular in various tasks such as document classification. One major shortcoming of such models is that they mainly work on homogeneous graphs, while representing text datasets as graphs requires several node types which leads to a heterogeneous schema. In this paper, we propose a transductive hybrid approach composed of an unsupervised node representation learning model followed by a node classification/edge prediction model. The proposed model is capable of processing heterogeneous graphs to produce unified node embeddings which are then utilized for node classification or link prediction as the downstream task. The proposed model is developed to classify stock market technical analysis reports, which to our knowledge is the first work in this domain. Experiments, which are carried away using a constructed dataset, demonstrate the ability of the model in embedding extraction and the downstream tasks.
翻訳日:2022-11-30 17:50:22 公開日:2022-11-29
# 平均治療効果に対する二重ロバストベイズ推定

Double Robust Bayesian Inference on Average Treatment Effects ( http://arxiv.org/abs/2211.16298v1 )

ライセンス: Link先を確認
Christoph Breunig, Ruixuan Liu, Zhengfei Yu(参考訳) 平均治療効果 (ate) に対する二重ロバストベイズ推定法について検討した。 我々のベイズ的アプローチは、確率スコアによって調整された事前分布の補正項を含む。 二重ロバスト性の下で新しい半パラメトリックなベルンシュタイン・ヴォン・ミセスの定理を定式化することにより,我々のベイズ推定器と効率的な頻繁な推定器の漸近同値を証明する。 その結果、ベイズ点推定器はバイアス補正を頻繁な2倍頑健な推定器として内部化し、ベイズ集合は漸近的に正確なカバレッジ確率で信頼区間を形成する。 シミュレーションでは、この補正されたベイズ法は、特に共変量の次元がサンプルサイズに対して大きく、基礎関数が複雑になるとき、点推定のかなりのバイアス低減と信頼区間の正確なカバレッジをもたらす。 本手法は,全国支援労働デモテーションへの適用例を示す。

We study a double robust Bayesian inference procedure on the average treatment effect (ATE) under unconfoundedness. Our Bayesian approach involves a correction term for prior distributions adjusted by the propensity score. We prove asymptotic equivalence of our Bayesian estimator and efficient frequentist estimators by establishing a new semiparametric Bernstein-von Mises theorem under double robustness; i.e., the lack of smoothness of conditional mean functions can be compensated by high regularity of the propensity score and vice versa. Consequently, the resulting Bayesian point estimator internalizes the bias correction as the frequentist-type doubly robust estimator, and the Bayesian credible sets form confidence intervals with asymptotically exact coverage probability. In simulations, we find that this corrected Bayesian procedure leads to significant bias reduction of point estimation and accurate coverage of confidence intervals, especially when the dimensionality of covariates is large relative to the sample size and the underlying functions become complex. We illustrate our method in an application to the National Supported Work Demonstration.
翻訳日:2022-11-30 17:44:43 公開日:2022-11-29
# パッシブ設計における回帰関数の最小値と最小値の推定

Estimating the minimizer and the minimum value of a regression function under passive design ( http://arxiv.org/abs/2211.16457v1 )

ライセンス: Link先を確認
Arya Akhavan, Davit Gogolashvili, Alexandre B. Tsybakov(参考訳) 本稿では,最小値$\boldsymbol{x}^*$と最小値$f^*$を,ランダムノイズで汚染された観測値から,滑らかで強い凸回帰関数$f$と推定する手法を提案する。 最小値である$\boldsymbol{x}^*$ の推定値 $\boldsymbol{z}_n$ は、正規化された局所多項式アルゴリズムによって推定される勾配を持つ投影勾配降下のバージョンに基づいている。 次に,回帰関数 $f$ の最小値 $f^*$ を推定するための2段階の手順を提案する。 最初の段階では、$\boldsymbol{x}^*$の正確な推定器を構築し、例えば$\boldsymbol{z}_n$とすることができる。 第2段階では、最適非パラメトリック法を用いて第1段階で得られた点における関数値を推定する。 我々は、$\boldsymbol{z}_n$の二次リスクと最適化誤差の非漸近上限と、$f^*$を推定するリスクを導出する。 パラメータの特定の選択の下で、提案アルゴリズムが滑らかかつ強い凸関数のクラス上で収束するミニマックス最適速度を達成することを示すミニマックス下限を定式化する。

We propose a new method for estimating the minimizer $\boldsymbol{x}^*$ and the minimum value $f^*$ of a smooth and strongly convex regression function $f$ from the observations contaminated by random noise. Our estimator $\boldsymbol{z}_n$ of the minimizer $\boldsymbol{x}^*$ is based on a version of the projected gradient descent with the gradient estimated by a regularized local polynomial algorithm. Next, we propose a two-stage procedure for estimation of the minimum value $f^*$ of regression function $f$. At the first stage, we construct an accurate enough estimator of $\boldsymbol{x}^*$, which can be, for example, $\boldsymbol{z}_n$. At the second stage, we estimate the function value at the point obtained in the first stage using a rate optimal nonparametric procedure. We derive non-asymptotic upper bounds for the quadratic risk and optimization error of $\boldsymbol{z}_n$, and for the risk of estimating $f^*$. We establish minimax lower bounds showing that, under certain choice of parameters, the proposed algorithms achieve the minimax optimal rates of convergence on the class of smooth and strongly convex functions.
翻訳日:2022-11-30 17:44:24 公開日:2022-11-29
# 平均アンサンブルを超える - サブシーズン予測のための気候モデルアンサンブルの活用

Beyond Ensemble Averages: Leveraging Climate Model Ensembles for Subseasonal Forecasting ( http://arxiv.org/abs/2211.15856v1 )

ライセンス: Link先を確認
Elena Orlova, Haokun Liu, Raphael Rossellini, Benjamin Cash, Rebecca Willett(参考訳) 温暖化や降水などの重要な気候変数の季節下時間スケールにおける高品質な予測は、長年にわたって運用予測のギャップであった。 最近の研究では、機械学習(ML)モデルを用いて、サブシーズン予測(SSF)を推し進める有望な結果が示されているが、いくつかのオープンな疑問が残っている。 第一に、いくつかの過去のアプローチでは、これらのモデルの入力特徴として物理学に基づく予測のアンサンブル平均を用いる。 しかし、アンサンブル予測にはアンサンブル平均以上の予測に役立つ情報が含まれている。 第二に、過去の手法は平均的な性能に焦点を当ててきたが、極端な事象の予測は計画や緩和のためにはるかに重要である。 第三に、気候予測は空間的に変化する予測の集合に対応し、異なる手法は応答の空間的変動を異なる方法で説明する。 異なるアプローチ間のトレードオフは、モデル積み重ねによって緩和される可能性がある。 本稿では, 月平均降水量と2メートル温度を予測するためのML手法を, 物理に基づく予測(アンサンブル予測)と, 相対湿度, 海面圧力, 地磁気高度などの観測データを用いて, 大陸全体の2週間前から適用した。 線形モデル,ランダムフォレスト,畳み込みニューラルネットワーク,重ね合わせモデルを用いた回帰,質的回帰,三次分類タスクについて考察した。 提案手法は, 歴史的平均値(quantiles)やアンサンブル平均値(quantiles)など, 一般的なベースラインを上回っている。 本稿ではさらに,特徴量の重要性,全アンサンブルの使用とアンサンブル平均のみの使用のトレードオフ,空間変動の計算方法の相違について検討する。

Producing high-quality forecasts of key climate variables such as temperature and precipitation on subseasonal time scales has long been a gap in operational forecasting. Recent studies have shown promising results using machine learning (ML) models to advance subseasonal forecasting (SSF), but several open questions remain. First, several past approaches use the average of an ensemble of physics-based forecasts as an input feature of these models. However, ensemble forecasts contain information that can aid prediction beyond only the ensemble mean. Second, past methods have focused on average performance, whereas forecasts of extreme events are far more important for planning and mitigation purposes. Third, climate forecasts correspond to a spatially-varying collection of forecasts, and different methods account for spatial variability in the response differently. Trade-offs between different approaches may be mitigated with model stacking. This paper describes the application of a variety of ML methods used to predict monthly average precipitation and two meter temperature using physics-based predictions (ensemble forecasts) and observational data such as relative humidity, pressure at sea level, or geopotential height, two weeks in advance for the whole continental United States. Regression, quantile regression, and tercile classification tasks using linear models, random forests, convolutional neural networks, and stacked models are considered. The proposed models outperform common baselines such as historical averages (or quantiles) and ensemble averages (or quantiles). This paper further includes an investigation of feature importance, trade-offs between using the full ensemble or only the ensemble average, and different modes of accounting for spatial variability.
翻訳日:2022-11-30 17:42:15 公開日:2022-11-29
# 記号発見のためのベイズ実験設計

Bayesian Experimental Design for Symbolic Discovery ( http://arxiv.org/abs/2211.15860v1 )

ライセンス: Link先を確認
Kenneth L. Clarkson and Cristina Cornelio and Sanjeeb Dash and Joao Goncalves and Lior Horesh and Nimrod Megiddo(参考訳) 本研究は,一般関数型を考慮した予測モデルの観測データからの推測である記号探索へのベイズ最適実験設計の定式化と応用に関するものである。 制約付き一階法を適用して適切な選択基準を最適化し,ハミルトニアンモンテカルロを用いて前者からサンプルを採取する。 畳み込みを含む予測分布を計算するステップは、数値積分または高速変換法によって計算される。

This study concerns the formulation and application of Bayesian optimal experimental design to symbolic discovery, which is the inference from observational data of predictive models taking general functional forms. We apply constrained first-order methods to optimize an appropriate selection criterion, using Hamiltonian Monte Carlo to sample from the prior. A step for computing the predictive distribution, involving convolution, is computed via either numerical integration, or via fast transform methods.
翻訳日:2022-11-30 17:41:45 公開日:2022-11-29
# ホップフィールドモデルのミラー降下

Mirror descent of Hopfield model ( http://arxiv.org/abs/2211.15880v1 )

ライセンス: Link先を確認
Hyungjoon Soh, Dongyeob Kim, Juno Hwang, Junghyo Jo(参考訳) ミラー降下はパラメトリックモデルの双対空間を利用する勾配降下法である。 この素晴らしいアイデアは凸最適化で開発されているが、機械学習にはまだ広く適用されていない。 本研究では,ミラー降下がニューラルネットワークのデータ駆動パラメータ初期化に役立つ可能性を示す。 本稿では,ニューラルネットワークのプロトタイプとしてhopfieldモデルを採用し,ミラー降下がランダムパラメータ初期化を伴う通常の勾配降下よりも効果的にモデルを訓練できることを実証する。

Mirror descent is a gradient descent method that uses a dual space of parametric models. The great idea has been developed in convex optimization, but not yet widely applied in machine learning. In this study, we provide a possible way that the mirror descent can help data-driven parameter initialization of neural networks. We adopt the Hopfield model as a prototype of neural networks, we demonstrate that the mirror descent can train the model more effectively than the usual gradient descent with random parameter initialization.
翻訳日:2022-11-30 17:41:37 公開日:2022-11-29
# 深層学習を用いた材料の組成に基づく酸化状態予測

Composition based oxidation state prediction of materials using deep learning ( http://arxiv.org/abs/2211.15895v1 )

ライセンス: Link先を確認
Nihang Fu, Jeffrey Hu, Ying Feng, Gregory Morrison, Hans-Conrad zur Loye, Jianjun Hu(参考訳) 酸化状態は、それらの結合のイオン近似後の原子の電荷であり、電荷-中立性検証、結晶構造決定、反応推定に広く用いられている。 現在、多くの例外がある化合物の酸化状態を予測するためのヒューリスティックな規則が存在する。 近年,金属イオンの酸化状態を予測するためのヒューリスティック構造に基づく機械学習モデルが開発されている。 しかし, 組成に基づく酸化状態予測はいまだ解明されていないため, 構造が得られない新しい材料発見において, より重要である。 本研究は, 化学組成のみを付与した無機化合物の全元素の酸化状態を予測するための, 深層学習に基づく BERT 変換言語モデル BERTOS を提案する。 本モデルでは, クリーン化ICSDデータセット上でベンチマークした全元素酸化状態予測の精度96.82 %, 酸化物材料の精度97.61 %を実現している。 また, 材料発見のための仮定的材料組成の大規模スクリーニングにも利用できることを示す。

Oxidation states are the charges of atoms after their ionic approximation of their bonds, which have been widely used in charge-neutrality verification, crystal structure determination, and reaction estimation. Currently only heuristic rules exist for guessing the oxidation states of a given compound with many exceptions. Recent work has developed machine learning models based on heuristic structural features for predicting the oxidation states of metal ions. However, composition based oxidation state prediction still remains elusive so far, which is more important in new material discovery for which the structures are not even available. This work proposes a novel deep learning based BERT transformer language model BERTOS for predicting the oxidation states of all elements of inorganic compounds given only their chemical composition. Our model achieves 96.82\% accuracy for all-element oxidation states prediction benchmarked on the cleaned ICSD dataset and achieves 97.61\% accuracy for oxide materials. We also demonstrate how it can be used to conduct large-scale screening of hypothetical material compositions for materials discovery.
翻訳日:2022-11-30 17:41:29 公開日:2022-11-29
# 教師なし深層学習による新しい皮質形成パターンの同定

Identification of Rare Cortical Folding Patterns using Unsupervised Deep Learning ( http://arxiv.org/abs/2211.16213v1 )

ライセンス: Link先を確認
Louise Guillon, Jo\"el Chavas, Audrey B\'en\'ezit, Marie-Laure Moutard, Denis Rivi\`ere and Jean-Fran\c{c}ois Mangin(参考訳) 指紋と同様に、皮質の折りたたみパターンは、一般的な種固有の組織に従っていても、それぞれの脳に固有のものである。 いくつかの折りたたみパターンは神経発達障害と関連している。 しかし, 個体間変動が大きいため, バイオマーカーとなる稀な折りたたみパターンの同定は非常に複雑な課題である。 本稿では,稀な折りたたみパターンを識別し,検出可能な偏差の程度を評価するための,教師なし深層学習手法を提案する。 この目的のために、我々は脳MRI画像の事前処理を行い、折り畳み形態の学習に集中し、折り畳みの個人間変動をモデル化するためにβ-VAEを訓練する。 そこで本研究では, 合成ベンチマークと中心溝に関する実際の稀な構成を用いて, 潜在空間の検出力と再構成誤差を比較した。 最後に,他の地域に位置する発達異常に対する手法の一般化を評価する。 提案手法は,β-VAEの生成力に基づいて,啓発され,より解釈しやすい折りたたみ特性の符号化を可能にする。 潜在空間と再構成誤差は相補的な情報をもたらし、異なる性質の稀なパターンの識別を可能にする。 この方法は別のデータセット上の別の領域によく一般化する。 コードはhttps://github.com/neurospin-projects/2022_lguillon_rare_folding_detectionで入手できる。

Like fingerprints, cortical folding patterns are unique to each brain even though they follow a general species-specific organization. Some folding patterns have been linked with neurodevelopmental disorders. However, due to the high inter-individual variability, the identification of rare folding patterns that could become biomarkers remains a very complex task. This paper proposes a novel unsupervised deep learning approach to identify rare folding patterns and assess the degree of deviations that can be detected. To this end, we preprocess the brain MR images to focus the learning on the folding morphology and train a beta-VAE to model the inter-individual variability of the folding. We compare the detection power of the latent space and of the reconstruction errors, using synthetic benchmarks and one actual rare configuration related to the central sulcus. Finally, we assess the generalization of our method on a developmental anomaly located in another region. Our results suggest that this method enables encoding relevant folding characteristics that can be enlightened and better interpreted based on the generative power of the beta-VAE. The latent space and the reconstruction errors bring complementary information and enable the identification of rare patterns of different nature. This method generalizes well to a different region on another dataset. Code is available at https://github.com/neurospin-projects/2022_lguillon_rare_folding_detection.
翻訳日:2022-11-30 17:35:46 公開日:2022-11-29
# CBCTプロジェクション塗布用金属意識埋め込み

Metal-conscious Embedding for CBCT Projection Inpainting ( http://arxiv.org/abs/2211.16219v1 )

ライセンス: Link先を確認
Fuxin Fan, Yangkong Wang, Ludwig Ritschl, Ramyar Biniazan, Marcel Beister, Bj\"orn Kreher, Yixing Huang, Steffen Kappler, and Andreas Maier(参考訳) コーンビームct(cbct)の投影画像における金属インプラントの存在は、再構成画像の品質を低下させる望ましくないアーティファクトを導入する。 金属アーチファクトを減らすため、プロジェクション塗装は多くの金属アーティファクト低減アルゴリズムにおいて必須のステップである。 本研究では,視覚変換器(ViT)と畳み込みニューラルネットワークを組み合わせたハイブリッドネットワークを,塗装作業のベースラインネットワークとして提案する。 Swin ViTをベースとしたエンコーダに金属情報を組み込むため, 金属を意識した自己埋め込み法と近傍埋め込み法を検討した。 どちらの手法もベースラインネットワークの性能を改善した。 さらに、適切なウィンドウサイズを選択することで、近傍埋め込みモデルでは金属領域の0.079の平均絶対誤差が最小となり、CBCT投影では最高信号対雑音比が42.346となる。 最後に、ベースラインネットワークのインパインティング能力が向上したシミュレーションデータと実際のキャダバーcbctデータの両方に金属を意識した埋め込みの効率が実証されている。

The existence of metallic implants in projection images for cone-beam computed tomography (CBCT) introduces undesired artifacts which degrade the quality of reconstructed images. In order to reduce metal artifacts, projection inpainting is an essential step in many metal artifact reduction algorithms. In this work, a hybrid network combining the shift window (Swin) vision transformer (ViT) and a convolutional neural network is proposed as a baseline network for the inpainting task. To incorporate metal information for the Swin ViT-based encoder, metal-conscious self-embedding and neighborhood-embedding methods are investigated. Both methods have improved the performance of the baseline network. Furthermore, by choosing appropriate window size, the model with neighborhood-embedding could achieve the lowest mean absolute error of 0.079 in metal regions and the highest peak signal-to-noise ratio of 42.346 in CBCT projections. At the end, the efficiency of metal-conscious embedding on both simulated and real cadaver CBCT data has been demonstrated, where the inpainting capability of the baseline network has been enhanced.
翻訳日:2022-11-30 17:35:24 公開日:2022-11-29
# patchmatch-stereo-panorama - 360{\deg}ビデオ画像からの高速高密度再構成

PatchMatch-Stereo-Panorama, a fast dense reconstruction from 360{\deg} video images ( http://arxiv.org/abs/2211.16266v1 )

ライセンス: Link先を確認
Hartmut Surmann, Marc Thurow, Dominik Slomma(参考訳) 本研究は,USARミッション中に小型偵察UAVに搭載可能な,360{\deg}アクションカムのリアルタイム高密度3d再構成手法を提案する。 提案手法は,PatchMatch-Stereo-approach を用いた局所鍵フレーム近傍について,任意の鍵フレームに対して密度の高い対応を演算する付加的なデシフィケーションスレッドを追加することにより,等角ビデオ入力の長期的ローカライズを堅牢にするための特徴ベースの Visual monocular SLAM (OpenVSLAM ) を拡張した。 PatchMatch-Stereo型アルゴリズムは大規模なMutli-View-Stereoの最先端技術と考えられているが、リアルタイムの高密度3D再構成には適用されなかった。 本研究はpatchmatch-stereo-algorithmの大規模並列版について述べるもので、現在のアプローチとは2つの点で異なる: まずは等角カメラモデルをサポートし、他の解決策はピンホールカメラモデルに限定されている。 次に、高いレベルの完全性と精度を維持しながら、低レイテンシに最適化されている。 これを実現するために、キーフレームの小さなシーケンスでのみ動作するが、フレーム数が限られているため、精度の低下を補う技術を採用している。 その結果,最近のモバイルGPUを搭載したコンシューマグレードのラップトップでは高密度な3D再構成が可能であり,同等品質のオフラインMVSソリューションよりも精度と完全性が向上した。

This work proposes a new method for real-time dense 3d reconstruction for common 360{\deg} action cams, which can be mounted on small scouting UAVs during USAR missions. The proposed method extends a feature based Visual monocular SLAM (OpenVSLAM, based on the popular ORB-SLAM) for robust long-term localization on equirectangular video input by adding an additional densification thread that computes dense correspondences for any given keyframe with respect to a local keyframe-neighboorhood using a PatchMatch-Stereo-approach. While PatchMatch-Stereo-types of algorithms are considered state of the art for large scale Mutli-View-Stereo they had not been adapted so far for real-time dense 3d reconstruction tasks. This work describes a new massively parallel variant of the PatchMatch-Stereo-algorithm that differs from current approaches in two ways: First it supports the equirectangular camera model while other solutions are limited to the pinhole camera model. Second it is optimized for low latency while keeping a high level of completeness and accuracy. To achieve this it operates only on small sequences of keyframes, but employs techniques to compensate for the potential loss of accuracy due to the limited number of frames. Results demonstrate that dense 3d reconstruction is possible on a consumer grade laptop with a recent mobile GPU and that it is possible with improved accuracy and completeness over common offline-MVS solutions with comparable quality settings.
翻訳日:2022-11-30 17:35:06 公開日:2022-11-29
# finer-Grained correlations: Anseen Object Pose Estimationのための位置優先

Finer-Grained Correlations: Location Priors for Unseen Object Pose Estimation ( http://arxiv.org/abs/2211.16290v1 )

ライセンス: Link先を確認
Chen Zhao, Yinlin Hu, Mathieu Salzmann(参考訳) 未確認のオブジェクト6Dのポーズ推定に対象位置を予め設定する手法を提案する。 既存のアプローチはテンプレートマッチング戦略に基づいて構築され、クエリで参照イメージのセットを畳み込む。 残念ながら、それらのパフォーマンスは、参照とクエリ間のオブジェクトスケールのミスマッチの影響を受けます。 この問題に対処するために,調整可能な受容場との相関を計算し,オブジェクトスケールのミスマッチを処理する粒度相関推定モジュールを提案する。 また,オブジェクトの位置とサイズを推定するために,相関関係をスケールロバスト表現とスケールアウェア表現に分離することを提案する。 提案手法は, LINEMOD および GenMOP 上で, 最先端の未確認物体の局所化と6次元ポーズ推定結果を実現する。 さらに,提案手法は,背景,照度,オブジェクトサイズ,参照-クエリ領域のギャップに対して,より堅牢であることを示す,困難な合成データセットを構築している。

We present a new method which provides object location priors for previously unseen object 6D pose estimation. Existing approaches build upon a template matching strategy and convolve a set of reference images with the query. Unfortunately, their performance is affected by the object scale mismatches between the references and the query. To address this issue, we present a finer-grained correlation estimation module, which handles the object scale mismatches by computing correlations with adjustable receptive fields. We also propose to decouple the correlations into scale-robust and scale-aware representations to estimate the object location and size, respectively. Our method achieves state-of-the-art unseen object localization and 6D pose estimation results on LINEMOD and GenMOP. We further construct a challenging synthetic dataset, where the results highlight the better robustness of our method to varying backgrounds, illuminations, and object sizes, as well as to the reference-query domain gap.
翻訳日:2022-11-30 17:34:34 公開日:2022-11-29
# 軽量Deep-Wiener-Networkに基づくリアルタイムブラインドデブロワーリング

Real-time Blind Deblurring Based on Lightweight Deep-Wiener-Network ( http://arxiv.org/abs/2211.16356v1 )

ライセンス: Link先を確認
Runjia Li, Yang Yu, Charlie Haywood(参考訳) 本稿では,視覚障害者の視覚障害を高効率で解決する。 本稿では,リアルタイムの速度でタスクを完了するための,軽量なディープワイナーネットワークを提案する。 このネットワークは、ウィナーネットワークのパラメータを推定するためのディープニューラルネットワークと、デブラリングのためのウィナーネットワークを含む。 実験結果から,提案手法は推論時間とパラメータ数において最先端の技術であることがわかった。 私たちのモデルのうち2つは毎秒100イメージの速度に到達でき、リアルタイムの遅延に適しています。 さらなる研究は、我々のモデルによるデブロアリングの現実的な応用に焦点を当てるかもしれない。

In this paper, we address the problem of blind deblurring with high efficiency. We propose a set of lightweight deep-wiener-network to finish the task with real-time speed. The Network contains a deep neural network for estimating parameters of wiener networks and a wiener network for deblurring. Experimental evaluations show that our approaches have an edge on State of the Art in terms of inference times and numbers of parameters. Two of our models can reach a speed of 100 images per second, which is qualified for real-time deblurring. Further research may focus on some real-world applications of deblurring with our models.
翻訳日:2022-11-30 17:34:17 公開日:2022-11-29
# POLCOVID:多施設間胸部X線データベース(Poland, 2020-2021)

POLCOVID: a multicenter multiclass chest X-ray database (Poland, 2020-2021) ( http://arxiv.org/abs/2211.16359v1 )

ライセンス: Link先を確認
Aleksandra Suwalska, Joanna Tobiasz, Wojciech Prazuch, Marek Socha, Pawel Foszner, Jerzy Jaroszewicz, Katarzyna Gruszczynska, Magdalena Sliwinska, Jerzy Walecki, Tadeusz Popiela, Grzegorz Przybylski, Mateusz Nowak, Piotr Fiedor, Malgorzata Pawlowska, Robert Flisiak, Krzysztof Simon, Gabriela Zapolska, Barbara Gizycka, Edyta Szurowska (for the POLCOVID Study Group), Michal Marczyk, Andrzej Cieszanowski, Joanna Polanska(参考訳) sars-cov-2パンデミックの勃発により、世界中の医療システムは限界に達し、診断の待ち時間の増加と医療支援が求められている。 胸部X線写真(CXR)が最も一般的な新型コロナウイルスの診断方法の1つであり、画像ベースの新型コロナウイルス検出のための多くの人工知能ツールが開発され、新型コロナウイルス陽性患者の少数の画像に基づいて訓練されている。 これにより,高品質なCXR画像データベースの必要性が高まった。 本稿では,15のポーランドの病院から集められた,新型コロナウイルスなどの肺炎患者の胸部X線(CXR)画像を含むPOLCOVIDデータセットについて紹介する。 元のx線写真には、肺領域に制限された前処理画像と、セグメンテーションモデルで得られた対応する肺マスクとが付随する。 さらに、手動で作成した肺マスクは、POLCOVIDデータセットの一部と、他の4つの公開されたCXRイメージコレクションに提供される。 POLCOVIDデータセットは肺炎や新型コロナウイルスの診断に役立つが、一致した画像と肺マスクのセットは肺分画ソリューションの開発に役立つ可能性がある。

The outbreak of the SARS-CoV-2 pandemic has put healthcare systems worldwide to their limits, resulting in increased waiting time for diagnosis and required medical assistance. With chest radiographs (CXR) being one of the most common COVID-19 diagnosis methods, many artificial intelligence tools for image-based COVID-19 detection have been developed, often trained on a small number of images from COVID-19-positive patients. Thus, the need for high-quality and well-annotated CXR image databases increased. This paper introduces POLCOVID dataset, containing chest X-ray (CXR) images of patients with COVID-19 or other-type pneumonia, and healthy individuals gathered from 15 Polish hospitals. The original radiographs are accompanied by the preprocessed images limited to the lung area and the corresponding lung masks obtained with the segmentation model. Moreover, the manually created lung masks are provided for a part of POLCOVID dataset and the other four publicly available CXR image collections. POLCOVID dataset can help in pneumonia or COVID-19 diagnosis, while the set of matched images and lung masks may serve for the development of lung segmentation solutions.
翻訳日:2022-11-30 17:34:08 公開日:2022-11-29
# rgb no more:jpeg視覚トランスフォーマーの最小デコード化

RGB no more: Minimally-decoded JPEG Vision Transformers ( http://arxiv.org/abs/2211.16421v1 )

ライセンス: Link先を確認
Jeongsoo Park, Justin Johnson(参考訳) コンピュータビジョンのためのほとんどのニューラルネットワークは、RGB画像を使って推論するように設計されている。 しかしながら、これらのRGBイメージはディスクに保存する前にJPEGでエンコードされることが多い。 その代わりに、JPEGの符号化機能から直接ViT(Vision Transformers)をトレーニングすることに重点を置いています。 こうすることで、デコードオーバーヘッドのほとんどを回避し、データのロードを加速できます。 既存の研究はこの側面を研究しているが、それらはCNNに焦点を当てている。 これらの符号化された機能は構造化されているため、CNNはそのようなデータを受け入れるためにアーキテクチャに大幅な変更を必要とする。 ここでは、ViTではそうではないことを示す。 また、これらの符号化された特徴に直接データ拡張に取り組むことで、我々の知る限り、この環境でのトレーニングの深みを探求していない。 これらの2つの改善 -- ViTとデータ拡張 -- により、我々のViT-Tiモデルは、最大39.2%の高速トレーニングと17.9%の高速推論を実現し、RGBと比較して精度が低下することを示した。

Most neural networks for computer vision are designed to infer using RGB images. However, these RGB images are commonly encoded in JPEG before saving to disk; decoding them imposes an unavoidable overhead for RGB networks. Instead, our work focuses on training Vision Transformers (ViT) directly from the encoded features of JPEG. This way, we can avoid most of the decoding overhead, accelerating data load. Existing works have studied this aspect but they focus on CNNs. Due to how these encoded features are structured, CNNs require heavy modification to their architecture to accept such data. Here, we show that this is not the case for ViTs. In addition, we tackle data augmentation directly on these encoded features, which to our knowledge, has not been explored in-depth for training in this setting. With these two improvements -- ViT and data augmentation -- we show that our ViT-Ti model achieves up to 39.2% faster training and 17.9% faster inference with no accuracy loss compared to the RGB counterpart.
翻訳日:2022-11-30 17:33:48 公開日:2022-11-29
# 品質制約最適化問題に対する完全確率的信頼関係系列計画法

Fully Stochastic Trust-Region Sequential Quadratic Programming for Equality-Constrained Optimization Problems ( http://arxiv.org/abs/2211.15943v1 )

ライセンス: Link先を確認
Yuchen Fang, Sen Na, Michael W. Mahoney, Mladen Kolar(参考訳) 確率的目的と決定論的等式制約による非線形最適化問題を解くために,信頼領域確率的二次計画アルゴリズム(tr-stosqp)を提案する。 各イテレーションで1つのサンプルを生成して客観的な勾配を推定する、完全に確率的な設定を考える。 アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して、SQPサブプロブレムに不確定なヘッセン行列(すなわち修正なしヘッセン行列)を適用できる。 制約付き最適化のための信頼領域法として、線形化等式制約と信頼領域制約は、実現不可能なSQPサブプロブレムをもたらす可能性がある。 そこで本研究では,通常のステップと接ステップからなる試行ステップを計算するための \textit{adaptive relax technique}を提案する。 両ステップの長さを制御するため,全KKT残差に対する有効性と最適性残差の比率に基づいて,信頼領域半径を2つのセグメントに適応的に分解する。 通常のステップはクローズドな形式を持ち、信頼領域のサブプロブレムから接するステップを解き、コーシーの低減を保証するソリューションが研究に十分である。 我々は, TR-StoSQP の収束保証を大域的に確立し, CUTEst テストセットにおける問題のサブセットと LIBSVM コレクションのデータを用いたロジスティック回帰問題の両方に対する経験的性能を示す。

We propose a trust-region stochastic sequential quadratic programming algorithm (TR-StoSQP) to solve nonlinear optimization problems with stochastic objectives and deterministic equality constraints. We consider a fully stochastic setting, where in each iteration a single sample is generated to estimate the objective gradient. The algorithm adaptively selects the trust-region radius and, compared to the existing line-search StoSQP schemes, allows us to employ indefinite Hessian matrices (i.e., Hessians without modification) in SQP subproblems. As a trust-region method for constrained optimization, our algorithm needs to address an infeasibility issue -- the linearized equality constraints and trust-region constraints might lead to infeasible SQP subproblems. In this regard, we propose an \textit{adaptive relaxation technique} to compute the trial step that consists of a normal step and a tangential step. To control the lengths of the two steps, we adaptively decompose the trust-region radius into two segments based on the proportions of the feasibility and optimality residuals to the full KKT residual. The normal step has a closed form, while the tangential step is solved from a trust-region subproblem, to which a solution ensuring the Cauchy reduction is sufficient for our study. We establish the global almost sure convergence guarantee for TR-StoSQP, and illustrate its empirical performance on both a subset of problems in the CUTEst test set and constrained logistic regression problems using data from the LIBSVM collection.
翻訳日:2022-11-30 17:33:29 公開日:2022-11-29
# 一般化ラベル付きマルチベルヌーリフィルタのための線形複雑gibbsサンプリング

Linear Complexity Gibbs Sampling for Generalized Labeled Multi-Bernoulli Filtering ( http://arxiv.org/abs/2211.16041v1 )

ライセンス: Link先を確認
Changbeom Shim, Ba-Tuong Vo, Ba-Ngu Vo, Jonah Ong, Diluka Moratuwage(参考訳) GLMB(Generalized Labeled Multi-Bernoulli)の密度は、単一対象フィルタリングにおいてガウスに類似した多対象系アプリケーションのホストに現れる。 しかし、GLMBフィルタリング密度の計算にはNPハード問題を解く必要がある。 この計算ボトルネックを緩和するために,glmb密度計算のための線形複雑gibbsサンプリングフレームワークを開発した。 具体的には、glmbフィルタリング密度の構造を利用して$\mathcal{o}(t(p+m))$ の複雑性を達成する、温和なギブス・サンプラーを提案し、ここで$t$はアルゴリズムの反復数、$p$と$m$は仮説のオブジェクトと測定値である。 この革新により、GLMBフィルタの複雑さの実装を$\mathcal{O}(T(P+M+\log(T))+PMで実現できる。 提案したGibsサンプルの収束性を確立し,提案したGLMBフィルタの実装を検証するために数値解析を行った。

Generalized Labeled Multi-Bernoulli (GLMB) densities arise in a host of multi-object system applications analogous to Gaussians in single-object filtering. However, computing the GLMB filtering density requires solving NP-hard problems. To alleviate this computational bottleneck, we develop a linear complexity Gibbs sampling framework for GLMB density computation. Specifically, we propose a tempered Gibbs sampler that exploits the structure of the GLMB filtering density to achieve an $\mathcal{O}(T(P+M))$ complexity, where $T$ is the number of iterations of the algorithm, $P$ and $M$ are the number hypothesized objects and measurements. This innovation enables an $\mathcal{O}(T(P+M+\log(T))+PM)$ complexity implementation of the GLMB filter. Convergence of the proposed Gibbs sampler is established and numerical studies are presented to validate the proposed GLMB filter implementation.
翻訳日:2022-11-30 17:32:58 公開日:2022-11-29
# Triadic Temporal Exponential Random Graph Models (TTERGM)

Triadic Temporal Exponential Random Graph Models (TTERGM) ( http://arxiv.org/abs/2211.16229v1 )

ライセンス: Link先を確認
Yifan Huang, Clayton Barham, Eric Page, Pamela K Douglas(参考訳) 時間指数乱数グラフモデル (TERGM) は、複雑なネットワーク(例えばソーシャルネットワーク)におけるエッジ形成と除去の時間パターンを推測するために用いられる強力な統計モデルである。 TERGMは、これらの進化するグラフの時系列データを予測するために、生成能力としても使用できる。 しかし、この枠組みにおけるパラメータ推定は、三進的関係、小さな世界特性、そして二進的共変量の確率論的推定を制限するのに使用できる社会学習理論など、ソーシャルネットワークの現実的な特性を捉えることができない。 本稿では,この空白を埋めるために,グラフモデル内の階層的ネットワーク関係を含む三進時間指数的ランダムグラフモデル(ttergm)を提案する。 我々は,グラフベクトル空間におけるマルコフ連鎖を最適化する追加確率分布として,ソーシャルネットワーク学習理論を表現する。 新しいパラメータはモンテカルロの最大確率推定によって近似される。 ttergmモデルは,githubネットワークデータにおける複数のベンチマーク手法と比較して,精度の向上と予測精度の向上を実現している。

Temporal exponential random graph models (TERGM) are powerful statistical models that can be used to infer the temporal pattern of edge formation and elimination in complex networks (e.g., social networks). TERGMs can also be used in a generative capacity to predict longitudinal time series data in these evolving graphs. However, parameter estimation within this framework fails to capture many real-world properties of social networks, including: triadic relationships, small world characteristics, and social learning theories which could be used to constrain the probabilistic estimation of dyadic covariates. Here, we propose triadic temporal exponential random graph models (TTERGM) to fill this void, which includes these hierarchical network relationships within the graph model. We represent social network learning theory as an additional probability distribution that optimizes Markov chains in the graph vector space. The new parameters are then approximated via Monte Carlo maximum likelihood estimation. We show that our TTERGM model achieves improved fidelity and more accurate predictions compared to several benchmark methods on GitHub network data.
翻訳日:2022-11-30 17:32:43 公開日:2022-11-29
# 超解像高能率化のための特徴量適応型コントラスト蒸留法

Feature-based Adaptive Contrastive Distillation for Efficient Single Image Super-Resolution ( http://arxiv.org/abs/2211.15951v1 )

ライセンス: Link先を確認
HyeonCheol Moon, JinWoo Jeong, SungJei Kim(参考訳) 畳み込みニューラルネットワーク(CNN)は様々な分野で使われており、特にSingle-Image Super Resolution(SISR)において優れた性能を示している。 しかし、近年、CNNベースのSISRには多くのパラメータと計算コストがあり、性能が向上している。 ネットワークを効率的にする方法の1つとして、既存のネットワークアーキテクチャに損失項を追加することで性能トレードオフを最適化する知識蒸留(KD)が現在研究されている。 kd for sisrは主に教師と学生ネットワーク間の特徴マップのl1距離損失を最小限に抑えるための機能蒸留(fd)として提案されているが、学生が受け入れる情報量と重要性を十分に考慮していない。 本稿では,軽量SISRネットワークを効率的にトレーニングするための特徴量に基づく適応型コントラスト蒸留(FACD)手法を提案する。 既存の機能拡張(FD)とL1距離損失の限界を示すとともに,教師と学生のネットワークの特徴マップ間の相互情報を最大化する特徴に基づくコントラスト損失を提案する。 実験の結果,提案したFACDは,ベンチマークデータセット全体のPSNR性能だけでなく,従来のFD手法と比較して主観的画質も向上していることがわかった。

Convolution Neural Networks (CNNs) have been used in various fields and are showing demonstrated excellent performance, especially in Single-Image Super Resolution (SISR). However, recently, CNN-based SISR has numerous parameters and computational costs for obtaining better performance. As one of the methods to make the network efficient, Knowledge Distillation (KD) which optimizes the performance trade-off by adding a loss term to the existing network architecture is currently being studied. KD for SISR is mainly proposed as a feature distillation (FD) to minimize L1-distance loss of feature maps between teacher and student networks, but it does not fully take into account the amount and importance of information that the student can accept. In this paper, we propose a feature-based adaptive contrastive distillation (FACD) method for efficiently training lightweight SISR networks. We show the limitations of the existing feature-distillation (FD) with L1-distance loss, and propose a feature-based contrastive loss that maximizes the mutual information between the feature maps of the teacher and student networks. The experimental results show that the proposed FACD improves not only the PSNR performance of the entire benchmark datasets and scales but also the subjective image quality compared to the conventional FD approach.
翻訳日:2022-11-30 17:26:30 公開日:2022-11-29
# Realistic LiDARによるインフラストラクチャLiDAR配置の解析

Analyzing Infrastructure LiDAR Placement with Realistic LiDAR ( http://arxiv.org/abs/2211.15975v1 )

ライセンス: Link先を確認
Xinyu Cai, Wentao Jiang, Runsheng Xu, Wenquan Zhao, Jiaqi Ma, Si Liu, Yikang Li(参考訳) 近年,V2Xの協調認識が注目されている。 インフラストラクチャセンサは、この研究分野において重要な役割を果たすが、インフラストラクチャセンサの最適な配置を見つける方法はほとんど研究されていない。 本稿では,インフラセンサ配置の問題点を調査し,現実的なシミュレーション環境において,インフラセンサの最適設置位置を効果的かつ効果的に求めるパイプラインを提案する。 CARLAシミュレータにおいて,LiDARの配置をより良くシミュレーションし,評価するために,様々なLiDARのユニークな特性をシミュレートし,高忠実度LiDAR点雲を生成できるRealistic LiDAR Simulationライブラリを構築した。 異なるlidar配置における点雲データのシミュレーションにより,複数の検出モデルを用いてこれらの配置の知覚精度を評価できる。 そして,関心領域の密度と均一性を計算することにより,点雲分布と知覚精度の相関関係を解析した。 実験により、LiDARのインフラ配置が知覚の精度に大きな影響を与えることが示された。 また,関心領域における知覚性能とライダーポイントクラウド分布の相関関係を分析し,その密度と均一性が性能指標となることを検証した。

Recently, Vehicle-to-Everything(V2X) cooperative perception has attracted increasing attention. Infrastructure sensors play a critical role in this research field, however, how to find the optimal placement of infrastructure sensors is rarely studied. In this paper, we investigate the problem of infrastructure sensor placement and propose a pipeline that can efficiently and effectively find optimal installation positions for infrastructure sensors in a realistic simulated environment. To better simulate and evaluate LiDAR placement, we establish a Realistic LiDAR Simulation library that can simulate the unique characteristics of different popular LiDARs and produce high-fidelity LiDAR point clouds in the CARLA simulator. Through simulating point cloud data in different LiDAR placements, we can evaluate the perception accuracy of these placements using multiple detection models. Then, we analyze the correlation between the point cloud distribution and perception accuracy by calculating the density and uniformity of regions of interest. Experiments show that the placement of infrastructure LiDAR can heavily affect the accuracy of perception. We also analyze the correlation between perception performance in the region of interest and LiDAR point cloud distribution and validate that density and uniformity can be indicators of performance.
翻訳日:2022-11-30 17:26:10 公開日:2022-11-29
# MoDA: エンボディエージェントの自己教師型ドメイン適応のためのマップスタイル転送

MoDA: Map style transfer for self-supervised Domain Adaptation of embodied agents ( http://arxiv.org/abs/2211.15992v1 )

ライセンス: Link先を確認
Eun Sun Lee, Junho Kim, SangWon Park, and Young Min Kim(参考訳) そこで本研究では,事前学習したエンボディエージェントを,地味の監督なしに新しい雑音環境に適応させるドメイン適応手法MoDAを提案する。 マップベースのメモリは視覚ナビゲーションに重要なコンテキスト情報を提供し、主に平らな壁と長方形の障害物からなる独特の空間構造を示す。 提案手法は,推定地図上の固有正則性を助長し,エージェントを誘導し,新しい環境下で広く分布する領域の不一致を克服する。 具体的には,スタイル転送ネットワークによって生成された疑似クリーンマップを用いて,視覚的・動的汚職をオンライン的に処理する効率的な学習カリキュラムを提案する。 マップベースの表現はエージェントのポリシーに空間的知識を提供するため、新しい設定でシミュレータから事前訓練されたポリシーネットワークを展開することができる。 我々は,MoDAを様々な実践シナリオで評価し,提案手法により,ローカライゼーション,マッピング,探索,ポイントゴールナビゲーションなどの下流タスクにおけるエージェントの性能が向上することを示す。

We propose a domain adaptation method, MoDA, which adapts a pretrained embodied agent to a new, noisy environment without ground-truth supervision. Map-based memory provides important contextual information for visual navigation, and exhibits unique spatial structure mainly composed of flat walls and rectangular obstacles. Our adaptation approach encourages the inherent regularities on the estimated maps to guide the agent to overcome the prevalent domain discrepancy in a novel environment. Specifically, we propose an efficient learning curriculum to handle the visual and dynamics corruptions in an online manner, self-supervised with pseudo clean maps generated by style transfer networks. Because the map-based representation provides spatial knowledge for the agent's policy, our formulation can deploy the pretrained policy networks from simulators in a new setting. We evaluate MoDA in various practical scenarios and show that our proposed method quickly enhances the agent's performance in downstream tasks including localization, mapping, exploration, and point-goal navigation.
翻訳日:2022-11-30 17:25:49 公開日:2022-11-29
# 速さを学べる:高画質カメラの限界を、画像の露出不足で押し上げる

Learn to See Faster: Pushing the Limits of High-Speed Camera with Deep Underexposed Image Denoising ( http://arxiv.org/abs/2211.16034v1 )

ライセンス: Link先を確認
Weihao Zhuang, Tristan Hascoet, Ryoichi Takashima, Tetsuya Takiguchi(参考訳) 高精細度動画を高い取得率で記録する能力は、高速移動現象の研究の中心である。 高速移動シーンの撮影の難しさは、動きのぼやけと露出音とのトレードオフにある:一方、長時間露光した記録は、記録されたシーン内の動きによって引き起こされる動きのぼやけ効果に悩まされる。 一方、カメラ光センサに届く光の量は露光時間とともに減少し、短露光記録が低露光ノイズに悩まされる。 本稿では,高速画像化の問題点を未公開画像デニュージング問題として扱うことで,このトレードオフに対処することを提案する。 深層学習を用いた非露出画像復調の最近の進歩と,これらの手法を高速撮像問題の特異性に適用する。 センサ固有のノイズモデルを用いて大規模な外部データセットを活用することで,画像品質を維持しながら,高速カメラの取得速度を1桁以上高速化することができる。

The ability to record high-fidelity videos at high acquisition rates is central to the study of fast moving phenomena. The difficulty of imaging fast moving scenes lies in a trade-off between motion blur and underexposure noise: On the one hand, recordings with long exposure times suffer from motion blur effects caused by movements in the recorded scene. On the other hand, the amount of light reaching camera photosensors decreases with exposure times so that short-exposure recordings suffer from underexposure noise. In this paper, we propose to address this trade-off by treating the problem of high-speed imaging as an underexposed image denoising problem. We combine recent advances on underexposed image denoising using deep learning and adapt these methods to the specificity of the high-speed imaging problem. Leveraging large external datasets with a sensor-specific noise model, our method is able to speedup the acquisition rate of a High-Speed Camera over one order of magnitude while maintaining similar image quality.
翻訳日:2022-11-30 17:25:30 公開日:2022-11-29
# マインド・ザ・ギャップ:スキャンナーによるドメインシフトは病理学における表現学習に挑戦する

Mind the Gap: Scanner-induced domain shifts pose challenges for representation learning in histopathology ( http://arxiv.org/abs/2211.16141v1 )

ライセンス: Link先を確認
Frauke Wilm, Marco Fragoso, Christof A. Bertram, Nikolas Stathonikos, Mathias \"Ottl, Jingna Qiu, Robert Klopfleisch, Andreas Maier, Marc Aubreville, Katharina Breininger(参考訳) 病理組織学におけるコンピュータ支援システムは、これらのアルゴリズムの性能に大きな影響を与える様々な領域シフトの源によってしばしば挑戦される。 腫瘍セグメンテーションの下流タスクにおいて, スキャナによるドメインシフトを克服するために, 自己教師付きプレトレーニングを併用する可能性を検討した。 そこで本研究では,ローカル画像対応付きマルチスキャナデータセットから,スキャナ不変表現を学習するためのBarlow Tripletを提案する。 自己教師付き事前学習が様々なスキャナー表現の整列に成功し、興味深いことに、下流タスクに限られた利益をもたらすことが示される。 これにより、下流アプリケーションにおけるスキャナー特性の影響に関する知見を提供し、確立された自己監督手法が自然画像の病理学的データでまだ成功していない理由をよりよく理解する。

Computer-aided systems in histopathology are often challenged by various sources of domain shift that impact the performance of these algorithms considerably. We investigated the potential of using self-supervised pre-training to overcome scanner-induced domain shifts for the downstream task of tumor segmentation. For this, we present the Barlow Triplets to learn scanner-invariant representations from a multi-scanner dataset with local image correspondences. We show that self-supervised pre-training successfully aligned different scanner representations, which, interestingly only results in a limited benefit for our downstream task. We thereby provide insights into the influence of scanner characteristics for downstream applications and contribute to a better understanding of why established self-supervised methods have not yet shown the same success on histopathology data as they have for natural images.
翻訳日:2022-11-30 17:25:11 公開日:2022-11-29
# ウェーブレット拡散モデルは高速でスケーラブルな画像生成器である

Wavelet Diffusion Models are fast and scalable Image Generators ( http://arxiv.org/abs/2211.16152v1 )

ライセンス: Link先を確認
Hao Phung, Quan Dao, Anh Tran(参考訳) 拡散モデルは高忠実度画像生成の強力なソリューションとして増加しており、多くの状況においてGANを超える。 しかし、彼らの遅いトレーニングと推論速度は大きなボトルネックであり、リアルタイムアプリケーションでの使用を妨げている。 最近のDiffusionGAN法では、サンプリングステップの数を数千から数に削減することで、モデルの実行時間を大幅に短縮するが、その速度はGANよりもかなり遅れている。 本稿では,新しいウェーブレット拡散構造を提案することにより,速度ギャップを低減することを目的とする。 ウェーブレット分解によって画像と特徴レベルの両方から低周波数と高周波数のコンポーネントを抽出し、これらのコンポーネントを適応的に処理し、優れた生成品質を維持しつつ処理を高速化する。 さらに,モデルトレーニングの収束を効果的に促進する再構築項の使用を提案する。 CelebA-HQ, CIFAR-10, LSUN-Church, STL-10データセットによる実験結果から, 実時間および高忠実拡散モデルを提供するための基盤となる。 私たちのコードと事前トレーニングされたチェックポイントは、 \url{https://github.com/VinAIResearch/WaveDiff.git}で利用可能です。

Diffusion models are rising as a powerful solution for high-fidelity image generation, which exceeds GANs in quality in many circumstances. However, their slow training and inference speed is a huge bottleneck, blocking them from being used in real-time applications. A recent DiffusionGAN method significantly decreases the models' running time by reducing the number of sampling steps from thousands to several, but their speeds still largely lag behind the GAN counterparts. This paper aims to reduce the speed gap by proposing a novel wavelet-based diffusion structure. We extract low-and-high frequency components from both image and feature levels via wavelet decomposition and adaptively handle these components for faster processing while maintaining good generation quality. Furthermore, we propose to use a reconstruction term, which effectively boosts the model training convergence. Experimental results on CelebA-HQ, CIFAR-10, LSUN-Church, and STL-10 datasets prove our solution is a stepping-stone to offering real-time and high-fidelity diffusion models. Our code and pre-trained checkpoints will be available at \url{https://github.com/VinAIResearch/WaveDiff.git}.
翻訳日:2022-11-30 17:24:55 公開日:2022-11-29
# 病理組織像におけるアーティファクト除去

Artifact Removal in Histopathology Images ( http://arxiv.org/abs/2211.16161v1 )

ライセンス: Link先を確認
Cameron Dahan, Stergios Christodoulidis, Maria Vakalopoulou, Joseph Boyd(参考訳) 病理組織学的には,wsi(whole-slide image)アーティファクトが頻繁に出現し,興味領域が歪められ,wsi分析に悪影響を及ぼす。 CycleGANのような画像から画像への変換ネットワークは、原則として、未使用のデータからアーティファクト削除関数を学習することができる。 しかし,アーティファクト除去に関する全射問題を特定し,それに対処するためにcycleganの弱い教師付き拡張を提案する。 TCGAデータベースからアーティファクトとクリーンタイルからなるパン缶データセットを作成した。 提案手法は,提案手法の音質を推定する。

In the clinical setting of histopathology, whole-slide image (WSI) artifacts frequently arise, distorting regions of interest, and having a pernicious impact on WSI analysis. Image-to-image translation networks such as CycleGANs are in principle capable of learning an artifact removal function from unpaired data. However, we identify a surjection problem with artifact removal, and propose an weakly-supervised extension to CycleGAN to address this. We assemble a pan-cancer dataset comprising artifact and clean tiles from the TCGA database. Promising results highlight the soundness of our method.
翻訳日:2022-11-30 17:24:33 公開日:2022-11-29
# 4ビット入力処理のための低コストDAC/ADC動作付きチャージドメインP-8T SRAMコンピュートインメモリ

A Charge Domain P-8T SRAM Compute-In-Memory with Low-Cost DAC/ADC Operation for 4-bit Input Processing ( http://arxiv.org/abs/2211.16008v1 )

ライセンス: Link先を確認
Joonhyung Kim, Kyeongho Lee and Jongsun Park(参考訳) 本稿では,4ビット入力アクティベーションと8ビット重みのマルチプリアキュムレート(mac)演算を効率的に行う,低コストなpmosベースの8t (p-8t) sramコンピューティング・イン・メモリ(cim)アーキテクチャを提案する。 まず、帯電領域アナログ演算により可変耐性および線形mac出力を提供するsram cimにおいて、4ビット入力アクティベーションの低コストで信頼性の高いデジタル-アナログ変換を設計するために、ビットライン(bl)チャージシェアリング技術を用いる。 16個のローカルアレイも有効に活用され、4ビットの入力アクティベーションと1ビットの重みの間の16個の乗算カチオンを同時に生成するアナログmul-tiplication Unit (AMU)を実装している。 DNN精度を犠牲にすることなく、アナログ・デジタルコンバータ(ADC)のハードウェアコスト削減のために、提案したCIMマクロのADCビット解像度とアクティベート行数を決定するハードウェア・アウェア・サイステンプ・シミュレーションを行う。 また、ADC動作には、AMUベースの参照コロンを用いて、低コストで4ビットの粗いフラッシュADCを設計したADC基準電圧を生成する。 28nm CMOSプロセスを用いた256X80 P-8T SRAM CIMマクロ実装では、CIMはCIFAR-10とCIFAR-100データセットでそれぞれ91.46%と66.67%の精度を示し、エネルギー効率は50.07-TOPS/Wである。

This paper presents a low cost PMOS-based 8T (P-8T) SRAM Compute-In-Memory (CIM) architecture that efficiently per-forms the multiply-accumulate (MAC) operations between 4-bit input activations and 8-bit weights. First, bit-line (BL) charge-sharing technique is employed to design the low-cost and reliable digital-to-analog conversion of 4-bit input activations in the pro-posed SRAM CIM, where the charge domain analog computing provides variation tolerant and linear MAC outputs. The 16 local arrays are also effectively exploited to implement the analog mul-tiplication unit (AMU) that simultaneously produces 16 multipli-cation results between 4-bit input activations and 1-bit weights. For the hardware cost reduction of analog-to-digital converter (ADC) without sacrificing DNN accuracy, hardware aware sys-tem simulations are performed to decide the ADC bit-resolutions and the number of activated rows in the proposed CIM macro. In addition, for the ADC operation, the AMU-based reference col-umns are utilized for generating ADC reference voltages, with which low-cost 4-bit coarse-fine flash ADC has been designed. The 256X80 P-8T SRAM CIM macro implementation using 28nm CMOS process shows that the proposed CIM shows the accuracies of 91.46% and 66.67% with CIFAR-10 and CIFAR-100 dataset, respectively, with the energy efficiency of 50.07-TOPS/W.
翻訳日:2022-11-30 17:18:13 公開日:2022-11-29
# ReAssigner: 異種リクエストのためのプラグインとプレイの仮想マシンスケジューリングインテンシ

ReAssigner: A Plug-and-Play Virtual Machine Scheduling Intensifier for Heterogeneous Requests ( http://arxiv.org/abs/2211.16227v1 )

ライセンス: Link先を確認
Haochuan Cui, Junjie Sheng, Bo Jin, Yiqiu Hu, Li Su, Lei Zhu, Wenli Zhou, Xiangfeng Wang(参考訳) クラウドコンピューティングの急速な発展に伴い、仮想マシンスケジューリングは、クラウドコンピューティングコミュニティ、特に実用的な異種要求シーケンスにおいて、最も重要かつ困難な問題の一つとなっている。 リクエストヘテロジニティが一般的なヒューリスティックスケジューラに与える影響を分析することで、既存のスケジューリングアルゴリズムではリクエストヘテロジニティを適切に効率的に処理できないことが分かる。 本稿では,異種要求に対する任意のスケジューラのスケジューリング効率を向上させるために,リソース割当器(reassigner)と呼ばれる仮想機械スケジューリングインテンサを提案する。 reassignerの重要な考え方は、ロールを物理リソースにプリアサインし、同じロールのリソースが均質なリクエストを処理する仮想クラスタを形成することです。 reassignerは、スケジュールスペースを仮想クラスタに制限することで、任意のスケジューラと連携することができる。 huawei cloudによる実際のデータセットの評価により、提案されたreassignerは、いくつかの最先端のスケジューリング方法と比較して、大幅にスケジューリング性能が向上する。

With the rapid development of cloud computing, virtual machine scheduling has become one of the most important but challenging issues for the cloud computing community, especially for practical heterogeneous request sequences. By analyzing the impact of request heterogeneity on some popular heuristic schedulers, it can be found that existing scheduling algorithms can not handle the request heterogeneity properly and efficiently. In this paper, a plug-and-play virtual machine scheduling intensifier, called Resource Assigner (ReAssigner), is proposed to enhance the scheduling efficiency of any given scheduler for heterogeneous requests. The key idea of ReAssigner is to pre-assign roles to physical resources and let resources of the same role form a virtual cluster to handle homogeneous requests. ReAssigner can cooperate with arbitrary schedulers by restricting their scheduling space to virtual clusters. With evaluations on the real dataset from Huawei Cloud, the proposed ReAssigner achieves significant scheduling performance improvement compared with some state-of-the-art scheduling methods.
翻訳日:2022-11-30 17:17:42 公開日:2022-11-29
# DCDetector: ソースコード表現に基づく分散深層アンサンブル学習に基づくIoT端末脆弱性マイニングシステム

DCDetector: An IoT terminal vulnerability mining system based on distributed deep ensemble learning under source code representation ( http://arxiv.org/abs/2211.16235v1 )

ライセンス: Link先を確認
Wen Zhou(参考訳) コンテキスト: IoTシステムインフラストラクチャプラットフォーム機能脆弱性攻撃は、ネットワークセキュリティ攻撃の主要な戦場となっている。 従来の脆弱性マイニング手法のほとんどは、脆弱性発見を実現するための脆弱性検出ツールに依存している。 しかし、ツールの柔軟性の欠如とファイルサイズが制限されているため、スケーラビリティは比較的低く、大規模なビッグデータフィールドには適用できない。 目的:研究の目的は、C/C++のような高レベルの言語のソースコードの脆弱性をインテリジェントに検出することである。 これにより、ソースコードのセンシティブな文関連スライスをコード表現し、分散深層学習モデルの設計により脆弱性を検出することができる。 方法:本稿では,大規模データ脆弱性マイニングの課題を解決するために,並列アンサンブル学習による指向性脆弱性マイニング手法を提案する。 センシティブな関数とステートメントを抽出することにより、脆弱なコードのセンシティブなステートメントライブラリを形成する。 高粒度ASTストリームベースの脆弱性コードスライスは、ランダムサンプリングモジュールを介してソースコード上でdoc2vec文ベクトル化を行い、Bi-LSTMトレーナーを介して分散トレーニングにより異なる分類結果を取得し、投票により最終分類結果を得る。 結果: 本手法はDCDetectorと呼ばれる分散深層アンサンブル学習システムソフトウェア脆弱性マイニングシステムの設計と実装を行う。 コードの構文情報を用いて正確な予測を行うことができ、大規模な脆弱性データを分析する効果的な方法である。 結論: この手法は従来の静的解析の偽陽性率を減少させ、機械学習の性能と精度を向上させることができる。

Context: The IoT system infrastructure platform facility vulnerability attack has become the main battlefield of network security attacks. Most of the traditional vulnerability mining methods rely on vulnerability detection tools to realize vulnerability discovery. However, due to the inflexibility of tools and the limitation of file size, its scalability It is relatively low and cannot be applied to large-scale power big data fields. Objective: The goal of the research is to intelligently detect vulnerabilities in source codes of high-level languages such as C/C++. This enables us to propose a code representation of sensitive sentence-related slices of source code, and to detect vulnerabilities by designing a distributed deep ensemble learning model. Method: In this paper, a new directional vulnerability mining method of parallel ensemble learning is proposed to solve the problem of large-scale data vulnerability mining. By extracting sensitive functions and statements, a sensitive statement library of vulnerable codes is formed. The AST stream-based vulnerability code slice with higher granularity performs doc2vec sentence vectorization on the source code through the random sampling module, obtains different classification results through distributed training through the Bi-LSTM trainer, and obtains the final classification result by voting. Results: This method designs and implements a distributed deep ensemble learning system software vulnerability mining system called DCDetector. It can make accurate predictions by using the syntactic information of the code, and is an effective method for analyzing large-scale vulnerability data. Conclusion: Experiments show that this method can reduce the false positive rate of traditional static analysis and improve the performance and accuracy of machine learning.
翻訳日:2022-11-30 17:17:25 公開日:2022-11-29
# 抽象群の共通知識

Common Knowledge of Abstract Groups ( http://arxiv.org/abs/2211.16284v1 )

ライセンス: Link先を確認
Merlin Humml, Lutz Schr\"oder(参考訳) 疫学の論理学は通常、個々のエージェントの知識や、明示されたエージェントのグループについて話す。 しかし、しばしば「経済学者の間で共通の知識である」というように、与えられた資産によって指定されたエージェントのグループの知識を表現したいと願う。 本稿では,抽象群疫学論理(AGEL)と呼ばれる共通知識の論理を導入する。 すなわち、AGELは概念によって与えられるエージェントのグループに対する共通知識演算子を、私たちがジェネリックを維持している別のエージェント論理で特徴付ける。 本稿では,AGEL は EXPTIME 完全であり,標準群エピステミック論理からの還元により下界が確立され,上界がフル$\mu$-calculus に埋め込まれることを示す。 その他の主な結果は、有限モデルの性質(フル$\mu$-計算では楽しめない)と完全公理化である。

Epistemic logics typically talk about knowledge of individual agents or groups of explicitly listed agents. Often, however, one wishes to express knowledge of groups of agents specified by a given property, as in `it is common knowledge among economists'. We introduce such a logic of common knowledge, which we term abstract-group epistemic logic (AGEL). That is, AGEL features a common knowledge operator for groups of agents given by concepts in a separate agent logic that we keep generic, with one possible agent logic being ALC. We show that AGEL is EXPTIME-complete, with the lower bound established by reduction from standard group epistemic logic, and the upper bound by a satisfiability-preserving embedding into the full $\mu$-calculus. Further main results include a finite model property (not enjoyed by the full $\mu$-calculus) and a complete axiomatization.
翻訳日:2022-11-30 17:16:59 公開日:2022-11-29
# 時間マルコフ論理ネットワークにおける推論のパラメータ化

Parameterisation of Reasoning on Temporal Markov Logic Networks ( http://arxiv.org/abs/2211.16414v1 )

ライセンス: Link先を確認
Victor David, Rapha\"el Fournier-S'niehotta, Nicolas Travers(参考訳) 不整合と不確実性に関する推論を改善することを目指す。 歴史科学で定期的に見られるように,知識グラフデータに着目し,その妥当性を時間間隔で指定する。 本稿では,マルコフ論理ネットワーク(MLN)を時間的事実や規則によって拡張する新しい時間的マルコフ論理ネットワーク(TMLN)について,効率的なA-Posteriori推論のためのセマンティクスの原理を提案する。 時間式集合間の全時間的(部分的)整合性関係について検討する。 次に,複数の部分関数を結合し,異なる評価戦略を適用できる新たな時間的パラメトリック意味論を提案する。 最後に、私たちの原則を満たすために意味論が尊重しなければならない制約を明らかにします。

We aim at improving reasoning on inconsistent and uncertain data. We focus on knowledge-graph data, extended with time intervals to specify their validity, as regularly found in historical sciences. We propose principles on semantics for efficient Maximum A-Posteriori inference on the new Temporal Markov Logic Networks (TMLN) which extend the Markov Logic Networks (MLN) by uncertain temporal facts and rules. We examine total and partial temporal (in)consistency relations between sets of temporal formulae. Then we propose a new Temporal Parametric Semantics, which may combine several sub-functions, allowing to use different assessment strategies. Finally, we expose the constraints that semantics must respect to satisfy our principles.
翻訳日:2022-11-30 17:16:43 公開日:2022-11-29
# AIを考慮に入れる - 医療における信頼できるAIの提供への挑戦

Holding AI to Account: Challenges for the Delivery of Trustworthy AI in Healthcare ( http://arxiv.org/abs/2211.16444v1 )

ライセンス: Link先を確認
Rob Procter, Peter Tolmie, Mark Rouncefield(参考訳) 振る舞いの説明を提供するAIシステムの必要性は、その採用の鍵として広く認識されている。 本稿では、信頼に値するAIの問題点を考察し、医療アプリケーションに焦点をあてて、実際にこれを実現する意味を探求する。 この領域での作業は通常、個人ユーザとAIシステムを含む人間とコンピュータのインタラクションの問題として、信頼できるAIを扱う。 しかし、ここでは、社会技術的環境でAIを推論し、信頼する方法において、組織の説明責任が果たす重要な部分を見落としていると論じる。 組織的説明責任の重要性を明らかにするため,複数学際的なチームミーティングにおいて,乳がん検診とがん治療計画のエスノグラフィー的研究から,参加者が相互に,また,そのメンバーである組織に対して,どのように自己責任を負わせたかを示す。 我々はこれらの知見を用いて、信頼できるaiの要件に対する既存の理解を深め、aiを個人ユーザと組織の両方に責任を負わせる問題に対するいくつかの候補ソリューションを概説する。 最後に、信頼できるaiの開発に関する今後の作業において、提案するソリューションが異なるアプリケーション設定で再利用される方法を含む、この意味を概説する。

The need for AI systems to provide explanations for their behaviour is now widely recognised as key to their adoption. In this paper, we examine the problem of trustworthy AI and explore what delivering this means in practice, with a focus on healthcare applications. Work in this area typically treats trustworthy AI as a problem of Human-Computer Interaction involving the individual user and an AI system. However, we argue here that this overlooks the important part played by organisational accountability in how people reason about and trust AI in socio-technical settings. To illustrate the importance of organisational accountability, we present findings from ethnographic studies of breast cancer screening and cancer treatment planning in multidisciplinary team meetings to show how participants made themselves accountable both to each other and to the organisations of which they are members. We use these findings to enrich existing understandings of the requirements for trustworthy AI and to outline some candidate solutions to the problems of making AI accountable both to individual users and organisationally. We conclude by outlining the implications of this for future work on the development of trustworthy AI, including ways in which our proposed solutions may be re-used in different application settings.
翻訳日:2022-11-30 17:16:30 公開日:2022-11-29
# マルチオミックデータを用いたベイズ同時因子分解と予測

Bayesian Simultaneous Factorization and Prediction Using Multi-Omic Data ( http://arxiv.org/abs/2211.16403v1 )

ライセンス: Link先を確認
Sarah Samorodnitsky, Chris H. Wendt, Eric F. Lock(参考訳) 閉塞性肺疾患(OLD)の病態の理解は、多系統分子現象と臨床結果との関係を調べるために利用可能な方法によって制限されている。 マルチオミックデータの積分分解法は、重要な生物学的信号を記述する変異の潜在パターンを明らかにすることができる。 しかし、ほとんどの方法は推定された因子分解の推論の枠組みを提供しておらず、同時に重要な疾患の表現型や臨床結果を予測することも、複数のインプテーションを許容することもない。 これらのギャップに対処するため,ベイズ同時因子化(BSF)を提案する。 共役正規前置法を用い、このモデルの後方モードは、ランク選択を達成し、ハイパーパラメータの選択を動機づける構造化核ノルムペナライズ目標を解決することによって推定できることを示した。 次に、BSFを拡張して連続的または二分的応答を同時に予測し、ベイズ同時因子化予測(BSFP)と呼ぶ。 BSFPとBSFPは、"ブロックワイド"の欠如を含む、欠落データに対する同時計算と完全な後部推論を許容し、BSFPは未観測結果の予測を提供する。 我々は,BSFPが潜在変動構造を回復する上での競争力を示すとともに,推定因子化から予測への不確実性の伝播の重要性を示す。 また,非ランダムおよび非ランダム仮定下でのシミュレーションによるbsfのインプテーション性能についても検討した。 最後に,BSFPを用いて気管支肺胞洗浄メタボロームとプロテオームに基づいて肺機能を予測する。 メタボロミクスおよびプロテオミクス発現パターンの共有による高齢患者群と,肺機能低下に関連する複数のオミズムパターンについて検討した。 ソフトウェアはhttps://github.com/sarahsamorodnitsky/BSFPで無料で入手できる。

Understanding of the pathophysiology of obstructive lung disease (OLD) is limited by available methods to examine the relationship between multi-omic molecular phenomena and clinical outcomes. Integrative factorization methods for multi-omic data can reveal latent patterns of variation describing important biological signal. However, most methods do not provide a framework for inference on the estimated factorization, simultaneously predict important disease phenotypes or clinical outcomes, nor accommodate multiple imputation. To address these gaps, we propose Bayesian Simultaneous Factorization (BSF). We use conjugate normal priors and show that the posterior mode of this model can be estimated by solving a structured nuclear norm-penalized objective that also achieves rank selection and motivates the choice of hyperparameters. We then extend BSF to simultaneously predict a continuous or binary response, termed Bayesian Simultaneous Factorization and Prediction (BSFP). BSF and BSFP accommodate concurrent imputation and full posterior inference for missing data, including "blockwise" missingness, and BSFP offers prediction of unobserved outcomes. We show via simulation that BSFP is competitive in recovering latent variation structure, as well as the importance of propagating uncertainty from the estimated factorization to prediction. We also study the imputation performance of BSF via simulation under missing-at-random and missing-not-at-random assumptions. Lastly, we use BSFP to predict lung function based on the bronchoalveolar lavage metabolome and proteome from a study of HIV-associated OLD. Our analysis reveals a distinct cluster of patients with OLD driven by shared metabolomic and proteomic expression patterns, as well as multi-omic patterns related to lung function decline. Software is freely available at https://github.com/sarahsamorodnitsky/BSFP .
翻訳日:2022-11-30 17:16:09 公開日:2022-11-29
# ニューラルトランスデューサトレーニング:サンプルワイド計算によるメモリ消費削減

Neural Transducer Training: Reduced Memory Consumption with Sample-wise Computation ( http://arxiv.org/abs/2211.16270v1 )

ライセンス: Link先を確認
Stefan Braun, Erik McDermott, Roger Hsiao(参考訳) ニューラルトランスデューサは自動音声認識(ASR)のためのエンドツーエンドモデルである。 モデルはストリーミングASRに適しているが、トレーニングプロセスは依然として難しい。 トレーニング中、メモリ要件は最先端のGPUの容量を急速に超過し、バッチサイズとシーケンス長を制限できる。 本研究では,典型的なトランスデューサ学習装置の時間と空間の複雑さを解析する。 本稿では,トランスデューサの損失と勾配をサンプル毎に計算するメモリ効率のトレーニング手法を提案する。 サンプルワイド手法の効率性と並列性を向上させる最適化を提案する。 徹底的なベンチマークでは,本手法はメモリ使用量を大幅に削減し,デフォルトのバッチ計算と比較して競合速度で実行可能であることを示す。 その結果,1024のバッチサイズと40秒のオーディオ長のトランスデューサ損失と勾配を,わずか6GBのメモリで計算することができた。

The neural transducer is an end-to-end model for automatic speech recognition (ASR). While the model is well-suited for streaming ASR, the training process remains challenging. During training, the memory requirements may quickly exceed the capacity of state-of-the-art GPUs, limiting batch size and sequence lengths. In this work, we analyze the time and space complexity of a typical transducer training setup. We propose a memory-efficient training method that computes the transducer loss and gradients sample by sample. We present optimizations to increase the efficiency and parallelism of the sample-wise method. In a set of thorough benchmarks, we show that our sample-wise method significantly reduces memory usage, and performs at competitive speed when compared to the default batched computation. As a highlight, we manage to compute the transducer loss and gradients for a batch size of 1024, and audio length of 40 seconds, using only 6 GB of memory.
翻訳日:2022-11-30 17:15:39 公開日:2022-11-29
# CBCTを用いた高次人工知能診断 : 上顎洞における真菌球,副鼻腔炎および正常症例の識別に関する臨床的検証

Enhanced artificial intelligence-based diagnosis using CBCT with internal denoising: Clinical validation for discrimination of fungal ball, sinusitis, and normal cases in the maxillary sinus ( http://arxiv.org/abs/2211.15950v1 )

ライセンス: Link先を確認
Kyungsu Kim, Chae Yeon Lim, Joong Bo Shin, Myung Jin Chung, Yong Gi Jung(参考訳) 本発明のcone-beam Computed Tomography (CBCT) は, 従来のCTと比較して低線量, 低コストで標的の3次元容積像を提供し, 副鼻腔疾患の検出に広く用いられている。 しかし,再建の制約により軟部組織病変の検出感度が低下する。 したがって、cbctの読解を専門とする医師だけが、内在するアーティファクトまたはノイズと疾患を区別することができ、このイメージモダリティの使用が制限される。 経験豊富な医師の不足を克服するために,人工知能を用いたCBCTのコンピュータ支援診断手法の開発が注目されている。 しかし、CBCTの内在雑音に対処する高度なAIベースの診断は考案されておらず、CBCTにAIソリューションが実用化されることを防いでいる。 そこで本研究では,CBCTとデノナイジングモジュールを用いたAIによるコンピュータ支援診断手法を提案する。 このモジュールは、診断前に実装され、入力されたcbct画像に対応する内部基底フルドーススキャンを再構築し、診断性能を向上させる。 洞真菌球,慢性副鼻腔炎,および正常症例の統一診断に対する外的検証の結果,本法は,ヒト診断の精度を11%(71.7から83.0%)向上させ,技術的分化と臨床効果を実証しながら,それぞれ7.4,5.6,9.6%(86.2,87.0,73.4,93.6,92.6,83.0%)の精度を向上することが示された。 CBCTを用いたAIベースの診断の先駆的な研究は、鼻腔領域の画像の診断性能と読取性を向上させることを示し、AIベースの診断ソリューションの開発に関する新しいアプローチと方向を提供する。

The cone-beam computed tomography (CBCT) provides 3D volumetric imaging of a target with low radiation dose and cost compared with conventional computed tomography, and it is widely used in the detection of paranasal sinus disease. However, it lacks the sensitivity to detect soft tissue lesions owing to reconstruction constraints. Consequently, only physicians with expertise in CBCT reading can distinguish between inherent artifacts or noise and diseases, restricting the use of this imaging modality. The development of artificial intelligence (AI)-based computer-aided diagnosis methods for CBCT to overcome the shortage of experienced physicians has attracted substantial attention. However, advanced AI-based diagnosis addressing intrinsic noise in CBCT has not been devised, discouraging the practical use of AI solutions for CBCT. To address this issue, we propose an AI-based computer-aided diagnosis method using CBCT with a denoising module. This module is implemented before diagnosis to reconstruct the internal ground-truth full-dose scan corresponding to an input CBCT image and thereby improve the diagnostic performance. The external validation results for the unified diagnosis of sinus fungal ball, chronic rhinosinusitis, and normal cases show that the proposed method improves the micro-, macro-average AUC, and accuracy by 7.4, 5.6, and 9.6% (from 86.2, 87.0, and 73.4 to 93.6, 92.6, and 83.0%), respectively, compared with a baseline while improving human diagnosis accuracy by 11% (from 71.7 to 83.0%), demonstrating technical differentiation and clinical effectiveness. This pioneering study on AI-based diagnosis using CBCT indicates denoising can improve diagnostic performance and reader interpretability in images from the sinonasal area, thereby providing a new approach and direction to radiographic image reconstruction regarding the development of AI-based diagnostic solutions.
翻訳日:2022-11-30 17:15:11 公開日:2022-11-29
# 複数ラベル分類のためのクロスコンフォーマル予測器

A Cross-Conformal Predictor for Multi-label Classification ( http://arxiv.org/abs/2211.16238v1 )

ライセンス: Link先を確認
Harris Papadopoulos(参考訳) 各インスタンスが1つのクラスに関連付けられる典型的な分類設定とは異なり、マルチラベル学習では、各インスタンスは複数のクラスに同時に関連付けられる。 したがって、この設定の学習タスクは、各インスタンスが属するクラスのサブセットを予測することである。 本研究では,最近開発された Conformal Prediction (CP) というフレームワークを多言語学習環境に適用する。 CPは、信頼性の信頼できる尺度で機械学習アルゴリズムの予測を補完する。 その結果、提案されたアプローチは、新しいunseenインスタンスの最も可能性の高いクラスのサブセットを予測するだけでなく、予測された各サブセットが正しい可能性を示す。 この追加情報は、全体的な不確実性が極めて高いマルチラベル環境で特に有用である。

Unlike the typical classification setting where each instance is associated with a single class, in multi-label learning each instance is associated with multiple classes simultaneously. Therefore the learning task in this setting is to predict the subset of classes to which each instance belongs. This work examines the application of a recently developed framework called Conformal Prediction (CP) to the multi-label learning setting. CP complements the predictions of machine learning algorithms with reliable measures of confidence. As a result the proposed approach instead of just predicting the most likely subset of classes for a new unseen instance, also indicates the likelihood of each predicted subset being correct. This additional information is especially valuable in the multi-label setting where the overall uncertainty is extremely high.
翻訳日:2022-11-30 17:08:00 公開日:2022-11-29
# 強化学習における隠れパラメータのアンタングル特徴表現の学習と理解

Learning and Understanding a Disentangled Feature Representation for Hidden Parameters in Reinforcement Learning ( http://arxiv.org/abs/2211.16315v1 )

ライセンス: Link先を確認
Christopher Reale and Rebecca Russell(参考訳) 隠れパラメータは、軌道上で一定となる強化学習(RL)環境における潜伏変数である。 隠されたパラメータが特定の環境に影響を与える場合、RLシステムの開発と適切な利用の両方に役立つ。 本稿では,RL軌道を距離が隠れパラメータによるシステム挙動の相対的な差を表す特徴空間にマッピングする教師なし手法を提案する。 本稿では,モデルベースrlにおけるrecurrent neural network(rnn)世界モデルを用いて,隠れたパラメータの影響を解消する。 まず、標準世界モデル学習アルゴリズムを変更し、世界モデルメモリに隠されたパラメータ情報を分離する。 次に,RNNメモリを空間にマッピングするための距離学習手法を用いて,隠れパラメータに関する2次元メトリックを近似する距離メトリックを提案する。 結果として生じる歪んだ特徴空間は、軌跡を相互に有意に関連付け、隠れたパラメータを分析するために使用できる。 3つのRL環境にまたがる4つの隠れパラメータに対するアプローチを示す。 最後に,隠れパラメータがシステムに与える影響を識別し,理解する2つの方法を提案する。

Hidden parameters are latent variables in reinforcement learning (RL) environments that are constant over the course of a trajectory. Understanding what, if any, hidden parameters affect a particular environment can aid both the development and appropriate usage of RL systems. We present an unsupervised method to map RL trajectories into a feature space where distance represents the relative difference in system behavior due to hidden parameters. Our approach disentangles the effects of hidden parameters by leveraging a recurrent neural network (RNN) world model as used in model-based RL. First, we alter the standard world model training algorithm to isolate the hidden parameter information in the world model memory. Then, we use a metric learning approach to map the RNN memory into a space with a distance metric approximating a bisimulation metric with respect to the hidden parameters. The resulting disentangled feature space can be used to meaningfully relate trajectories to each other and analyze the hidden parameter. We demonstrate our approach on four hidden parameters across three RL environments. Finally we present two methods to help identify and understand the effects of hidden parameters on systems.
翻訳日:2022-11-30 17:07:49 公開日:2022-11-29
# A3T: 正当性に配慮した対人訓練

A3T: Accuracy Aware Adversarial Training ( http://arxiv.org/abs/2211.16316v1 )

ライセンス: Link先を確認
Enes Altinisik, Safa Messaoud, Husrev Taha Sencar, Sanjay Chawla(参考訳) 敵対的なトレーニングは、標準的なトレーニングよりも過度にフィットしやすいことが実証的に示されている。 正確な理由はまだ完全に理解する必要がある。 本稿では,誤分類されたサンプルから逆行的なサンプルを生成する現在の慣行と過剰適合の原因の1つを明らかにする。 そこで本研究では,過度に適合する問題を軽減するために,誤分類されたサンプルを活用する代替手法を提案する。 本手法は,コンピュータビジョン,自然言語処理,表的なタスクにおいて,最先端の対向学習法に匹敵する堅牢性を持ちながら,よりよい一般化を実現する。

Adversarial training has been empirically shown to be more prone to overfitting than standard training. The exact underlying reasons still need to be fully understood. In this paper, we identify one cause of overfitting related to current practices of generating adversarial samples from misclassified samples. To address this, we propose an alternative approach that leverages the misclassified samples to mitigate the overfitting problem. We show that our approach achieves better generalization while having comparable robustness to state-of-the-art adversarial training methods on a wide range of computer vision, natural language processing, and tabular tasks.
翻訳日:2022-11-30 17:07:33 公開日:2022-11-29
# メタモデルに基づく歩行者橋の概念設計における条件付き変分オートエンコーダによる設計空間探索と説明

Design Space Exploration and Explanation via Conditional Variational Autoencoders in Meta-model-based Conceptual Design of Pedestrian Bridges ( http://arxiv.org/abs/2211.16406v1 )

ライセンス: Link先を確認
Vera M. Balmer and Sophia V. Kuhn and Rafael Bischof and Luis Salamanca and Walter Kaufmann and Fernando Perez-Cruz and Michael A. Kraus(参考訳) 概念設計では、エンジニアは従来の反復的(しばしば手動)技術に依存している。 新たに出現するパラメトリックモデルは、定量化可能なパフォーマンスメトリクスに基づく設計空間の探索を促進するが、時間と計算コストは依然としてかかる。 しかし、純粋な最適化法は質的な側面(例えば美学や構成法)を無視している。 本稿では,条件付き変分オートエンコーダ(cvae)により,人間設計者を支援するための性能駆動設計探索フレームワークを提案する。 CVAEはスイスの歩行者橋の合成例18万件で訓練されている。 感性分析は、説明可能性とデザイナーに伝えるために使われる 一 特徴及び/又はパフォーマンスのモデルの関係 (ii)ユーザ定義による構造改善。 歩行者用橋梁等の概念設計研究における将来の共同パイロットとしての枠組みの可能性が実証された。

For conceptual design, engineers rely on conventional iterative (often manual) techniques. Emerging parametric models facilitate design space exploration based on quantifiable performance metrics, yet remain time-consuming and computationally expensive. Pure optimisation methods, however, ignore qualitative aspects (e.g. aesthetics or construction methods). This paper provides a performance-driven design exploration framework to augment the human designer through a Conditional Variational Autoencoder (CVAE), which serves as forward performance predictor for given design features as well as an inverse design feature predictor conditioned on a set of performance requests. The CVAE is trained on 18'000 synthetically generated instances of a pedestrian bridge in Switzerland. Sensitivity analysis is employed for explainability and informing designers about (i) relations of the model between features and/or performances and (ii) structural improvements under user-defined objectives. A case study proved our framework's potential to serve as a future co-pilot for conceptual design studies of pedestrian bridges and beyond.
翻訳日:2022-11-30 17:07:06 公開日:2022-11-29
# マルチエージェント強化学習を用いた歩行者環境におけるマルチロボットソーシャルアウェア協調計画

Multi-robot Social-aware Cooperative Planning in Pedestrian Environments Using Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2211.15901v1 )

ライセンス: Link先を確認
Zichen He and Chunwei Song and Lu Dong(参考訳) 歩行者参加環境における複数ロボットの安全かつ効率的な協調計画は、応用に有望である。 本研究では,部分的次元変動観測と不完全な知覚条件下でのマルチエージェント強化学習(marl)に基づく,新しいマルチロボットソーシャルアウェアな協調プランナーを提案する。 本研究では、時間空間グラフに基づくソーシャルエンコーダを用いて、各ロボットと歩行者の視点(FOV)における社会的関係の重要性をよりよく抽出する。 また,ロボットによる攻撃的,侵入的,近視的,不自然な動作決定を回避するため,マルチロボットRLフレームワークにKステップのルックアヘッド報酬設定を導入する。 さらに,マルチヘッドグローバルアテンションモジュールによる従来型の中央集権的批評家ネットワークを改善し,各ロボット間の局所的な観察情報をよりよく集約し,個別ポリシー更新のプロセスを導く。 最後に, 多群実験により, 提案する協調運動プランナーの有効性を検証した。

Safe and efficient co-planning of multiple robots in pedestrian participation environments is promising for applications. In this work, a novel multi-robot social-aware efficient cooperative planner that on the basis of off-policy multi-agent reinforcement learning (MARL) under partial dimension-varying observation and imperfect perception conditions is proposed. We adopt temporal-spatial graph (TSG)-based social encoder to better extract the importance of social relation between each robot and the pedestrians in its field of view (FOV). Also, we introduce K-step lookahead reward setting in multi-robot RL framework to avoid aggressive, intrusive, short-sighted, and unnatural motion decisions generated by robots. Moreover, we improve the traditional centralized critic network with multi-head global attention module to better aggregates local observation information among different robots to guide the process of individual policy update. Finally, multi-group experimental results verify the effectiveness of the proposed cooperative motion planner.
翻訳日:2022-11-30 17:06:23 公開日:2022-11-29
# 深部強化学習を用いた実環境における離散制御

Discrete Control in Real-World Driving Environments using Deep Reinforcement Learning ( http://arxiv.org/abs/2211.15920v1 )

ライセンス: Link先を確認
Avinash Amballa, Advaith P., Pradip Sasmal, and Sumohana Channappayya(参考訳) 自動運転車の訓練は、複数の実世界のコンテキストにおいて大量のラベル付きデータを必要とするため、しばしば困難である。 研究者はしばしばシミュレーターを駆動してエージェントを訓練し、知識を現実世界の環境に移す。 シミュレータには現実的な振る舞いがないため、これらの手法は非常に非効率である。 この問題に対処するため,実世界の環境をゲーム環境に移行させるフレームワーク(知覚,計画,制御)を導入し,信頼性の高いマルコフ決定プロセス(MDP)を構築した。 実環境における離散制御を学習し,実行するために,既存の強化学習(RL)アルゴリズムを多エージェント設定で提案する。 実験の結果、マルチエージェント設定はすべてのシナリオでシングルエージェント設定よりも優れていた。 また,エージェントが最小限の入力ビデオデータと最小限のトレーニングで実環境を学習・一般化することのできる,信頼性の高い初期化,データ拡張,トレーニング技術を提案する。 さらに,提案アルゴリズムの有効性を示すため,仮想運転環境 TORCS に本手法をデプロイする。

Training self-driving cars is often challenging since they require a vast amount of labeled data in multiple real-world contexts, which is computationally and memory intensive. Researchers often resort to driving simulators to train the agent and transfer the knowledge to a real-world setting. Since simulators lack realistic behavior, these methods are quite inefficient. To address this issue, we introduce a framework (perception, planning, and control) in a real-world driving environment that transfers the real-world environments into gaming environments by setting up a reliable Markov Decision Process (MDP). We propose variations of existing Reinforcement Learning (RL) algorithms in a multi-agent setting to learn and execute the discrete control in real-world environments. Experiments show that the multi-agent setting outperforms the single-agent setting in all the scenarios. We also propose reliable initialization, data augmentation, and training techniques that enable the agents to learn and generalize to navigate in a real-world environment with minimal input video data, and with minimal training. Additionally, to show the efficacy of our proposed algorithm, we deploy our method in the virtual driving environment TORCS.
翻訳日:2022-11-30 17:06:09 公開日:2022-11-29
# オフライン監視学習V.S.オンライン直接政策最適化:ニューラルネットワークに基づく最適フィードバック制御のための比較研究と統一学習パラダイム

Offline Supervised Learning V.S. Online Direct Policy Optimization: A Comparative Study and A Unified Training Paradigm for Neural Network-Based Optimal Feedback Control ( http://arxiv.org/abs/2211.15930v1 )

ライセンス: Link先を確認
Yue Zhao, Jiequn Han(参考訳) この研究は、最適制御問題に対してニューラルネットワークベースのフィードバックコントローラを効率的に解くことを目的としている。 まず,オフライン教師付き学習とオンライン直接政策最適化の2つのアプローチの比較研究を行った。 教師付き学習アプローチの学習部は比較的容易であるが、この手法の成功はオープンループ最適制御ソルバによって生成される最適制御データセットに大きく依存する。 対照的に、直接最適化は、最適制御問題を事前計算の必要なしに直接最適化問題に変換するが、ダイナミクスに関連した目的は、問題を複雑にしたときの最適化が困難である。 本研究は,オフライン教師付き学習の優先度を,最適性と訓練時間という観点で強調する。 これらの課題,データセット,最適化を克服するために,これらを補完し,最適フィードバック制御のための統一トレーニングパラダイムとして事前訓練と微調整戦略を提案し,パフォーマンスとロバスト性をさらに向上させる。 私たちのコードはhttps://github.com/yzhao98/DeepOptimalControlで利用可能です。

This work is concerned with solving neural network-based feedback controllers efficiently for optimal control problems. We first conduct a comparative study of two mainstream approaches: offline supervised learning and online direct policy optimization. Albeit the training part of the supervised learning approach is relatively easy, the success of the method heavily depends on the optimal control dataset generated by open-loop optimal control solvers. In contrast, direct optimization turns the optimal control problem into an optimization problem directly without any requirement of pre-computing, but the dynamics-related objective can be hard to optimize when the problem is complicated. Our results highlight the priority of offline supervised learning in terms of both optimality and training time. To overcome the main challenges, dataset, and optimization, in the two approaches respectively, we complement them and propose the Pre-train and Fine-tune strategy as a unified training paradigm for optimal feedback control, which further improves the performance and robustness significantly. Our code is available at https://github.com/yzhao98/DeepOptimalControl.
翻訳日:2022-11-30 17:05:50 公開日:2022-11-29
# セグメンテーションに基づくマルチセンサマルチスケール衛星土壌水分検索の融合

Segment-based fusion of multi-sensor multi-scale satellite soil moisture retrievals ( http://arxiv.org/abs/2211.15938v1 )

ライセンス: Link先を確認
Reza Attarzadeh, Hossein Bagheri, Iman Khosravi, Saeid Niazmardi, Davood Akbarid(参考訳) 土壌水分検索のためのセンサーの相乗効果は、異なるセンサーの利点のためにかなりの関心を集めている。 アクティブ、パッシブ、光学データの統合は、土壌水分マップの作成を目的とした様々なセンサーの利点を利用するための包括的なソリューションになり得る。 通常、ピクセルベースの方法はマルチセンサー融合に使用される。 異なるアプリケーションでは異なる土壌水分マップを必要とするため、ピクセルベースのアプローチはこの目的のために制限されている。 ピクセルの代わりにイメージオブジェクトを使用するオブジェクトベースの画像解析は、このニーズを満たすのに役立ちます。 本稿では,Sentinel-1,Sentinel-2,Soil Moisture Active Passive (SMAP)データを統合してマルチスケールの土壌水分マップを作成する可能性を評価するためのセグメントベース画像融合フレームワークを提案する。 以上の結果から, 提案手法は, ピクセル型融合法と比較して, 異なるスケールで土壌水分の推定を最大20%改善できることを確認した。

Synergetic use of sensors for soil moisture retrieval is attracting considerable interest due to the different advantages of different sensors. Active, passive, and optic data integration could be a comprehensive solution for exploiting the advantages of different sensors aimed at preparing soil moisture maps. Typically, pixel-based methods are used for multi-sensor fusion. Since, different applications need different scales of soil moisture maps, pixel-based approaches are limited for this purpose. Object-based image analysis employing an image object instead of a pixel could help us to meet this need. This paper proposes a segment-based image fusion framework to evaluate the possibility of preparing a multi-scale soil moisture map through integrated Sentinel-1, Sentinel-2, and Soil Moisture Active Passive (SMAP) data. The results confirmed that the proposed methodology was able to improve soil moisture estimation in different scales up to 20% better compared to pixel-based fusion approach.
翻訳日:2022-11-30 17:05:30 公開日:2022-11-29
# SGDにおける不規則化のメカニズムの解明

Disentangling the Mechanisms Behind Implicit Regularization in SGD ( http://arxiv.org/abs/2211.15853v1 )

ライセンス: Link先を確認
Zachary Novack, Simran Kaur, Tanya Marwah, Saurabh Garg, Zachary C. Lipton(参考訳) 多くの競合する仮説が提案され、SGDがフルバッチ体制の一般化を後押しする理由を説明し、最近の研究はトレーニングを通して様々な量の暗黙の規則化を信用している。 しかし、今日までこれらの仮説の説明力を評価する実証的な証拠は乏しい。 本稿では,小規模から大規模までのバッチ一般化ギャップを埋める様々な理論的メカニズムの能力に着目し,広範な実証評価を行う。 さらに、sgdが(簡単に)トレーニングの過程で変化を規則化すると主張されている量を特徴付ける。 各ミニバッチの小さな部分集合を分離するマイクロバッチを使用することで、マイクロバッチ上で平均される勾配ノルムやフィッシャー情報行列トレースを、ジャコビアンベースの正規化がそうしないのに対して、大規模バッチでは小さなバッチsgd一般化を回復することを示す。 この一般化性能は、正規化モデルの勾配ノルムがいかにスモールバッチsgdによく似ているかに相関することがしばしば示されている。 さらに,マイクロバッチサイズがバッチサイズに近づくと,この挙動が崩壊することを示す。 最後に、この一連の調査において、CIFAR10の肯定的な実験結果は、CIFAR100のような他のデータセットでしばしば逆転され、より広いデータセットの集合で仮説をテストする必要性が強調される。

A number of competing hypotheses have been proposed to explain why small-batch Stochastic Gradient Descent (SGD)leads to improved generalization over the full-batch regime, with recent work crediting the implicit regularization of various quantities throughout training. However, to date, empirical evidence assessing the explanatory power of these hypotheses is lacking. In this paper, we conduct an extensive empirical evaluation, focusing on the ability of various theorized mechanisms to close the small-to-large batch generalization gap. Additionally, we characterize how the quantities that SGD has been claimed to (implicitly) regularize change over the course of training. By using micro-batches, i.e. disjoint smaller subsets of each mini-batch, we empirically show that explicitly penalizing the gradient norm or the Fisher Information Matrix trace, averaged over micro-batches, in the large-batch regime recovers small-batch SGD generalization, whereas Jacobian-based regularizations fail to do so. This generalization performance is shown to often be correlated with how well the regularized model's gradient norms resemble those of small-batch SGD. We additionally show that this behavior breaks down as the micro-batch size approaches the batch size. Finally, we note that in this line of inquiry, positive experimental findings on CIFAR10 are often reversed on other datasets like CIFAR100, highlighting the need to test hypotheses on a wider collection of datasets.
翻訳日:2022-11-30 16:58:33 公開日:2022-11-29
# 物理インフォームドニューラル演算子における厳密な導関数計算のためのフーリエ継続

Fourier Continuation for Exact Derivative Computation in Physics-Informed Neural Operators ( http://arxiv.org/abs/2211.15960v1 )

ライセンス: Link先を確認
Haydn Maust, Zongyi Li, Yixuan Wang, Daniel Leibovici, Oscar Bruno, Thomas Hou, Anima Anandkumar(参考訳) physics-informed neural operator (pino) は、偏微分方程式の学習に有望な経験的結果を示す機械学習アーキテクチャである。 PINOは、物理インフォームドニューラルネットワークが直面する最適化課題を克服するために、フーリエニューラルネットワーク(FNO)アーキテクチャを使用している。 PINOの畳み込み作用素はフーリエ級数表現を使用するので、その勾配はフーリエ空間上で正確に計算できる。 フーリエ級数は非周期関数を表現できないが、ピノとfnoはパディングを通じてフーリエ拡大を持つ非周期問題を学ぶ表現性を持っている。 しかし、フーリエ拡張の計算は、不適切なシステムを解く必要があり、結果として、効果的な最適化を妨げる不正確な導関数が生じる。 本研究では,フーリエ継続(fc)を活用し,非周期問題に対するピノに正確な勾配法を適用するアーキテクチャを提案する。 本論文では, fcをピノに組み込むための3つの方法を検討した。 実験により、fc-pinoはパディングピノよりも優れており、方程式損失を数桁改善し、非スムース解関数の3階微分を正確に捉えることができることが示されている。

The physics-informed neural operator (PINO) is a machine learning architecture that has shown promising empirical results for learning partial differential equations. PINO uses the Fourier neural operator (FNO) architecture to overcome the optimization challenges often faced by physics-informed neural networks. Since the convolution operator in PINO uses the Fourier series representation, its gradient can be computed exactly on the Fourier space. While Fourier series cannot represent nonperiodic functions, PINO and FNO still have the expressivity to learn nonperiodic problems with Fourier extension via padding. However, computing the Fourier extension in the physics-informed optimization requires solving an ill-conditioned system, resulting in inaccurate derivatives which prevent effective optimization. In this work, we present an architecture that leverages Fourier continuation (FC) to apply the exact gradient method to PINO for nonperiodic problems. This paper investigates three different ways that FC can be incorporated into PINO by testing their performance on a 1D blowup problem. Experiments show that FC-PINO outperforms padded PINO, improving equation loss by several orders of magnitude, and it can accurately capture the third order derivatives of nonsmooth solution functions.
翻訳日:2022-11-30 16:58:03 公開日:2022-11-29
# 量子化・アウェア区間境界伝播による頑健な量子化ニューラルネットワークの訓練

Quantization-aware Interval Bound Propagation for Training Certifiably Robust Quantized Neural Networks ( http://arxiv.org/abs/2211.16187v1 )

ライセンス: Link先を確認
Mathias Lechner, {\DJ}or{\dj}e \v{Z}ikeli\'c, Krishnendu Chatterjee, Thomas A. Henzinger, Daniela Rus(参考訳) 本稿では,逆ロバスト量子化ニューラルネットワーク(qnns)の学習と検証の問題について検討する。 量子化(quantization)は、低ビット整数演算を用いてニューラルネットワークを効率的に実行する技術であり、産業で一般的に採用されている。 近年の研究では、ロバストであることが証明された浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱になることが示されており、ロバスト性を保証するためには量子化表現の認証が必要である。 本稿では,頑健なqnnの学習法であるqa-ibp(quantization-aware interval bound propagation)を提案する。 非量子化ネットワークの堅牢な学習に触発されて、トレーニングアルゴリズムは実際のネットワークの抽象表現の勾配を計算する。 既存の手法とは異なり、本手法はQNNの個別意味論を処理できる。 また,QA-IBPに基づいて,QNNの対角ロバスト性を検証するための完全検証手法を開発した。 既存のアプローチと比較して、検証手順の重要な利点は、GPUや他のアクセラレータデバイスで完全に動作することです。 我々は,本手法が既存の手法を大幅に上回り,QNNの堅牢性をトレーニングし,証明するための新たな最先端技術を確立することを実験的に実証した。

We study the problem of training and certifying adversarially robust quantized neural networks (QNNs). Quantization is a technique for making neural networks more efficient by running them using low-bit integer arithmetic and is therefore commonly adopted in industry. Recent work has shown that floating-point neural networks that have been verified to be robust can become vulnerable to adversarial attacks after quantization, and certification of the quantized representation is necessary to guarantee robustness. In this work, we present quantization-aware interval bound propagation (QA-IBP), a novel method for training robust QNNs. Inspired by advances in robust learning of non-quantized networks, our training algorithm computes the gradient of an abstract representation of the actual network. Unlike existing approaches, our method can handle the discrete semantics of QNNs. Based on QA-IBP, we also develop a complete verification procedure for verifying the adversarial robustness of QNNs, which is guaranteed to terminate and produce a correct answer. Compared to existing approaches, the key advantage of our verification procedure is that it runs entirely on GPU or other accelerator devices. We demonstrate experimentally that our approach significantly outperforms existing methods and establish the new state-of-the-art for training and certifying the robustness of QNNs.
翻訳日:2022-11-30 16:57:42 公開日:2022-11-29
# 勾配分割によるSVRGとTD-SVRGのギャップの解消

Closing the gap between SVRG and TD-SVRG with Gradient Splitting ( http://arxiv.org/abs/2211.16237v1 )

ライセンス: Link先を確認
Arsenii Mustafin, Alex Olshevsky, Ioannis Ch. Paschalidis(参考訳) 時間差学習は、強化学習における政策評価のための単純なアルゴリズムである。 TD学習の性能は高分散の影響を受けており、SVRG(Stochastic Variance Reduced Gradient)法のような分散低減技術によって自然に向上することができる。 近年,SVRGによるTD学習を融合させ,幾何学的収束率を持つ政策評価手法の確立が試みられている。 しかし、収束速度は凸最適化の設定においてSVRGが達成したものよりも著しく弱い。 本研究では,TD-ラーニングの最近の解釈を,適切に選択された関数の勾配の分割として利用し,アルゴリズムの簡素化とSVRGとの融合を図る。 本研究では,SVRGの凸設定で利用可能な収束値と同一の1/8の学習速度で有界な幾何収束を証明した。

Temporal difference (TD) learning is a simple algorithm for policy evaluation in reinforcement learning. The performance of TD learning is affected by high variance and it can be naturally enhanced with variance reduction techniques, such as the Stochastic Variance Reduced Gradient (SVRG) method. Recently, multiple works have sought to fuse TD learning with SVRG to obtain a policy evaluation method with a geometric rate of convergence. However, the resulting convergence rate is significantly weaker than what is achieved by SVRG in the setting of convex optimization. In this work we utilize a recent interpretation of TD-learning as the splitting of the gradient of an appropriately chosen function, thus simplifying the algorithm and fusing TD with SVRG. We prove a geometric convergence bound with predetermined learning rate of 1/8, that is identical to the convergence bound available for SVRG in the convex setting.
翻訳日:2022-11-30 16:56:46 公開日:2022-11-29
# 3dポイントクラウド登録のための深層モデルの普遍表現への挑戦

Challenging the Universal Representation of Deep Models for 3D Point Cloud Registration ( http://arxiv.org/abs/2211.16301v1 )

ライセンス: Link先を確認
David Bojani\'c, Kristijan Bartol, Josep Forest, Stefan Gumhold, Tomislav Petkovi\'c, Tomislav Pribani\'c(参考訳) 異なるアプリケーションドメインにまたがって普遍表現を学ぶことは、オープンリサーチの問題である。 実際、同じアプリケーション内で、異なるタイプのデータセットにまたがるユニバーサルアーキテクチャを見つけることは、特に3Dポイントクラウドを処理するアプリケーションではまだ未解決の問題である。 本研究では,提案する非学習ベースライン登録法に対して,最先端の3dポイントクラウド登録手法を実験的にテストした。 提案手法は, 学習に基づく手法よりも優れ, あるいは同等の結果が得られる。 さらに,学習に基づく手法の一般化に苦慮するデータセットを提案する。 提案手法とデータセットは,提案した実験とともに,汎用表現の効率的な解の研究に利用することができる。 ソースコードはgithub.com/davidboja/greedy-grid-searchから入手できます。

Learning universal representations across different applications domain is an open research problem. In fact, finding universal architecture within the same application but across different types of datasets is still unsolved problem too, especially in applications involving processing 3D point clouds. In this work we experimentally test several state-of-the-art learning-based methods for 3D point cloud registration against the proposed non-learning baseline registration method. The proposed method either outperforms or achieves comparable results w.r.t. learning based methods. In addition, we propose a dataset on which learning based methods have a hard time to generalize. Our proposed method and dataset, along with the provided experiments, can be used in further research in studying effective solutions for universal representations. Our source code is available at: github.com/DavidBoja/greedy-grid-search.
翻訳日:2022-11-30 16:51:00 公開日:2022-11-29
# 言語駆動型オープン語彙3次元シーン理解

Language-driven Open-Vocabulary 3D Scene Understanding ( http://arxiv.org/abs/2211.16312v1 )

ライセンス: Link先を確認
Runyu Ding, Jihan Yang, Chuhui Xue, Wenqing Zhang, Song Bai, Xiaojuan Qi(参考訳) open-vocabulary scene understandingは、無意味なカテゴリを注釈付きラベル空間を超えてローカライズし、認識することを目的としている。 最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって大きく推進されている。 しかし、大規模な3dテキストペアが使えないため、この成功は直接3dシナリオに転送できない。 そこで本研究では,3Dから多視点画像をキャプションすることで,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。 さらに, キャプションからの粗大な視覚的セマンティック表現学習を容易にするため, 階層型3次元キャプションペアを設計し, 3次元シーンとマルチビュー画像間の幾何的制約を利用する。 最後に、コントラスト学習を用いることで、3dとテキストを繋ぐ言語認識埋め込みを学習し、オープンボキャブラリタスクを行う。 我々のメソッドは、ベースラインメソッドを25.8%$\sim$44.7% hIoU、14.5%$\sim$50.4% hAP$_{50}$のオープンボキャブラリーセマンティクスとインスタンスセグメンテーションで著しく上回るだけでなく、ゼロショットドメイン転送タスクにおいて堅牢な転送可能性を示す。 コードはhttps://github.com/CVMI-Lab/PLAで入手できる。

Open-vocabulary scene understanding aims to localize and recognize unseen categories beyond the annotated label space. The recent breakthrough of 2D open-vocabulary perception is largely driven by Internet-scale paired image-text data with rich vocabulary concepts. However, this success cannot be directly transferred to 3D scenarios due to the inaccessibility of large-scale 3D-text pairs. To this end, we propose to distill knowledge encoded in pre-trained vision-language (VL) foundation models through captioning multi-view images from 3D, which allows explicitly associating 3D and semantic-rich captions. Further, to facilitate coarse-to-fine visual-semantic representation learning from captions, we design hierarchical 3D-caption pairs, leveraging geometric constraints between 3D scenes and multi-view images. Finally, by employing contrastive learning, the model learns language-aware embeddings that connect 3D and text for open-vocabulary tasks. Our method not only remarkably outperforms baseline methods by 25.8% $\sim$ 44.7% hIoU and 14.5% $\sim$ 50.4% hAP$_{50}$ on open-vocabulary semantic and instance segmentation, but also shows robust transferability on challenging zero-shot domain transfer tasks. Code will be available at https://github.com/CVMI-Lab/PLA.
翻訳日:2022-11-30 16:50:49 公開日:2022-11-29
# tf-net: 夜間uav検出のためのディープラーニング機能ネットワーク

TF-Net: Deep Learning Empowered Tiny Feature Network for Night-time UAV Detection ( http://arxiv.org/abs/2211.16317v1 )

ライセンス: Link先を確認
Maham Misbah and Misha Urooj Khan and Zhaohui Yang and Zeeshan Kaleem(参考訳) 技術進歩により、軍用から商業用まで、あらゆる分野における無人航空機(uav)の使用は標準化されているが、機能強化と民間および高度に安全である地域への容易なアクセスにより、深刻なセキュリティ上の懸念も生じている。 UAVに関連するいくつかの事例がセキュリティ上の懸念を提起し、UAV検出研究に繋がった。 視覚技術はUAV検出に広く採用されているが、夜間、複雑な背景、悪天候環境では性能が良くない。 したがって、この問題に効果的に取り組むためには、堅牢な夜間視覚に基づくドローン検知システムが必要である。 赤外線カメラは、夜間監視装置に広く応用されているため、夜間監視にますます利用されている。 本稿では, 夜間のUAVを赤外線(IR)画像で正確に検出するために, YOLOv5sの改良版である深層学習ベースのTinyFeatureNet(TF-Net)を用いる。 提案するTF-Netでは、YOLOv5sのネックとバックボーンのアーキテクチャ変更を紹介する。 また,4種類の YOLOv5 モデル (s,m,n,l) と TF-Net を公平に比較した。 その結果, 提案したTF-Netの精度, IoU, GFLOPS, モデルサイズ, FPSにおいて, YOLOv5sと比較して優れた性能を示した。 TF-Netは95.7\%の精度、84\%のmAp、44.8\%のIoU$で最高の結果を得た。

Technological advancements have normalized the usage of unmanned aerial vehicles (UAVs) in every sector, spanning from military to commercial but they also pose serious security concerns due to their enhanced functionalities and easy access to private and highly secured areas. Several instances related to UAVs have raised security concerns, leading to UAV detection research studies. Visual techniques are widely adopted for UAV detection, but they perform poorly at night, in complex backgrounds, and in adverse weather conditions. Therefore, a robust night vision-based drone detection system is required to that could efficiently tackle this problem. Infrared cameras are increasingly used for nighttime surveillance due to their wide applications in night vision equipment. This paper uses a deep learning-based TinyFeatureNet (TF-Net), which is an improved version of YOLOv5s, to accurately detect UAVs during the night using infrared (IR) images. In the proposed TF-Net, we introduce architectural changes in the neck and backbone of the YOLOv5s. We also simulated four different YOLOv5 models (s,m,n,l) and proposed TF-Net for a fair comparison. The results showed better performance for the proposed TF-Net in terms of precision, IoU, GFLOPS, model size, and FPS compared to the YOLOv5s. TF-Net yielded the best results with 95.7\% precision, 84\% mAp, and 44.8\% $IoU$.
翻訳日:2022-11-30 16:50:23 公開日:2022-11-29
# Fourier-Net:バンド制限変形による高速画像登録

Fourier-Net: Fast Image Registration with Band-limited Deformation ( http://arxiv.org/abs/2211.16342v1 )

ライセンス: Link先を確認
Xi Jia, Joseph Bartlett, Wei Chen, Siyang Song, Tianyang Zhang, Xinxing Cheng, Wenqi Lu, Zhaowen Qiu, Jinming Duan(参考訳) 教師なし画像登録では、全解像度空間領域における密度変位場を予測するためにU-Netスタイルのネットワークが一般的である。 高解像度のボリューム画像データの場合、このプロセスはリソース集約的で時間を要する。 そこで本研究では,u-net方式ネットワークにおける拡張パスをパラメータフリーモデル駆動デコーダに置き換え,フーリエネットを提案する。 具体的には,空間領域内のフルレゾリューション変位場を出力するフーリエネット学習の代わりに,その低次元表現を帯域制限フーリエ領域で学習する。 この表現は、我々が考案したモデル駆動デコーダ(ゼロパディング層と逆離散フーリエ変換層)によって空間領域内の密度の高い全解像度変位場にデコードされる。 これらの変更により、教師なしのfourier-netは、パラメータと計算操作が少なくなり、推論速度が速くなります。 fourier-netは、さまざまな最先端のアプローチに対して、2つの公開3d脳データセットで評価される。 例えば、最近の変換器ベースの手法であるTransMorphと比較して、我々のフーリエネットはパラメータの0.22$\%とmult-addsの6.66$\%しか使用せず、Diceスコアが0.6\%、推論速度が11.48$\times$である。 コードは \url{https://github.com/xi-jia/fourier-net} で入手できる。

Unsupervised image registration commonly adopts U-Net style networks to predict dense displacement fields in the full-resolution spatial domain. For high-resolution volumetric image data, this process is however resource intensive and time-consuming. To tackle this problem, we propose the Fourier-Net, replacing the expansive path in a U-Net style network with a parameter-free model-driven decoder. Specifically, instead of our Fourier-Net learning to output a full-resolution displacement field in the spatial domain, we learn its low-dimensional representation in a band-limited Fourier domain. This representation is then decoded by our devised model-driven decoder (consisting of a zero padding layer and an inverse discrete Fourier transform layer) to the dense, full-resolution displacement field in the spatial domain. These changes allow our unsupervised Fourier-Net to contain fewer parameters and computational operations, resulting in faster inference speeds. Fourier-Net is then evaluated on two public 3D brain datasets against various state-of-the-art approaches. For example, when compared to a recent transformer-based method, i.e., TransMorph, our Fourier-Net, only using 0.22$\%$ of its parameters and 6.66$\%$ of the mult-adds, achieves a 0.6\% higher Dice score and an 11.48$\times$ faster inference speed. Code is available at \url{https://github.com/xi-jia/Fourier-Net}.
翻訳日:2022-11-30 16:49:56 公開日:2022-11-29
# 体積放射場を1MBに圧縮する

Compressing Volumetric Radiance Fields to 1 MB ( http://arxiv.org/abs/2211.16386v1 )

ライセンス: Link先を確認
Lingzhi Li, Zhen Shen, Zhongshu Wang, Li Shen, Liefeng Bo(参考訳) 超高速なトレーニング収束とリアルタイムレンダリングを実現する Plenoxels や DVGO などの手法で表現された NeRF を改善する上で, 体積格子による放射界の近似は有望な方向の1つである。 しかし、これらのメソッドは通常、巨大なストレージオーバーヘッドを必要とし、単一のシーンで数百メガバイトのディスク空間とランタイムメモリを消費する。 本稿では,ベクトル量子化放射場(vector quantized radiance fields, vqrf)と呼ばれる簡易かつ有効なフレームワークを導入することで,この問題に対処した。 まず、グリッドモデルの冗長性を推定し、ボリュームレンダリングの中間出力をよりよく探索することでボクセルプラニングを行うためのロバストで適応的なメトリックを提案する。 訓練可能なベクトル量子化はグリッドモデルのコンパクト性を改善するためにさらに提案される。 提案手法は,効率的なジョイントチューニング戦略と後処理を組み合わせることで,全体のモデルサイズを1MBに減らし,視覚的品質を損なうことなく,100$\times$の圧縮比を達成できる。 大規模実験により,提案フレームワークは,異なる体積構造を持つ複数の手法にまたがって,非分散性能と高い一般化を実現し,実世界の応用における体積放射場法を広く活用できることが実証された。 コードは \url{https://github.com/algohunt/vqrf} で利用可能

Approximating radiance fields with volumetric grids is one of promising directions for improving NeRF, represented by methods like Plenoxels and DVGO, which achieve super-fast training convergence and real-time rendering. However, these methods typically require a tremendous storage overhead, costing up to hundreds of megabytes of disk space and runtime memory for a single scene. We address this issue in this paper by introducing a simple yet effective framework, called vector quantized radiance fields (VQRF), for compressing these volume-grid-based radiance fields. We first present a robust and adaptive metric for estimating redundancy in grid models and performing voxel pruning by better exploring intermediate outputs of volumetric rendering. A trainable vector quantization is further proposed to improve the compactness of grid models. In combination with an efficient joint tuning strategy and post-processing, our method can achieve a compression ratio of 100$\times$ by reducing the overall model size to 1 MB with negligible loss on visual quality. Extensive experiments demonstrate that the proposed framework is capable of achieving unrivaled performance and well generalization across multiple methods with distinct volumetric structures, facilitating the wide use of volumetric radiance fields methods in real-world applications. Code Available at \url{https://github.com/AlgoHunt/VQRF}
翻訳日:2022-11-30 16:49:29 公開日:2022-11-29
# neurallift-360: 360{\deg}ビューで3dオブジェクトに2d写真を持ち上げる

NeuralLift-360: Lifting An In-the-wild 2D Photo to A 3D Object with 360{\deg} Views ( http://arxiv.org/abs/2211.16431v1 )

ライセンス: Link先を確認
Dejia Xu, Yifan Jiang, Peihao Wang, Zhiwen Fan, Yi Wang, Zhangyang Wang(参考訳) 仮想現実と拡張現実(XR)は、3Dコンテンツの需要を増大させる。 しかし、高品質な3Dコンテンツを作成するには、人間の専門家がしなければならない面倒な作業が必要です。 本研究では,1枚の画像を1枚の3Dオブジェクトに持ち上げるという課題について検討し,360{\deg}ビューを持つ可視3Dオブジェクトを与えられた参照画像とよく一致する形で生成できることを初めて実証する。 参照画像に条件を付けることで,画像から物体の新しい視点を合成する,永遠の好奇心を満たすことができる。 私たちの技術は、3DアーティストやXRデザイナーのワークフローを緩和する有望な方向性に光を当てています。 我々は,NeuralLift-360という,深度認識型ニューラル放射率表現(NeRF)を利用した新しいフレームワークを提案する。 我々のNeuralLift-360は、ランキングの損失を発生させることで、荒々しい深さを推定できる。 また,コヒーレントガイダンスを提供する前に,CLIP誘導サンプリング戦略を採用した。 大規模な実験により、我々のNeuralLift-360は既存の最先端のベースラインを大幅に上回っていることが示された。 プロジェクトページ: https://vita-group.github.io/neurallift-360/

Virtual reality and augmented reality (XR) bring increasing demand for 3D content. However, creating high-quality 3D content requires tedious work that a human expert must do. In this work, we study the challenging task of lifting a single image to a 3D object and, for the first time, demonstrate the ability to generate a plausible 3D object with 360{\deg} views that correspond well with the given reference image. By conditioning on the reference image, our model can fulfill the everlasting curiosity for synthesizing novel views of objects from images. Our technique sheds light on a promising direction of easing the workflows for 3D artists and XR designers. We propose a novel framework, dubbed NeuralLift-360, that utilizes a depth-aware neural radiance representation (NeRF) and learns to craft the scene guided by denoising diffusion models. By introducing a ranking loss, our NeuralLift-360 can be guided with rough depth estimation in the wild. We also adopt a CLIP-guided sampling strategy for the diffusion prior to provide coherent guidance. Extensive experiments demonstrate that our NeuralLift-360 significantly outperforms existing state-of-the-art baselines. Project page: https://vita-group.github.io/NeuralLift-360/
翻訳日:2022-11-30 16:49:04 公開日:2022-11-29
# diffpose:拡散モデルを用いたマルチハイポテーゼ人のポーズ推定

DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models ( http://arxiv.org/abs/2211.16487v1 )

ライセンス: Link先を確認
Karl Holmquist and Bastian Wandt(参考訳) 伝統的に、単眼の3Dポーズ推定は機械学習モデルを用いて、与えられた入力画像に対する最も可能性の高い3Dポーズを予測する。 しかし、単一の画像は極めて曖昧であり、2D-3D昇降ステップに対して複数の可視解を誘導し、3Dポーズ予測器を過度に確信させる。 この目的のために,与えられた入力画像に対して複数の仮説を予測する条件拡散モデルである \emph{DiffPose} を提案する。 同様のアプローチに比べて拡散モデルは単純であり、集中型ハイパーパラメータチューニング、複雑なネットワーク構造、モード崩壊、不安定なトレーニングを避ける。 さらに, 2次元関節位置の分布を, ジョイントワイズヒートマップを用いて推定し, 1次あるいは2次モーメント統計に基づいて連続的に近似する, 共通2段階法の問題にも対処した。 このようなヒートマップの単純化により、おそらく正しいと思われる情報が削除されるが、ありそうにないジョイントの位置を示すため、ヒートマップを2次元ジョイント候補のセットとして表現することを提案する。 これらのサンプルから元の分布に関する情報を抽出するために,拡散モデルを条件としたemph{embedding transformer}を提案する。 実験により, diffpose は, 単純なポーズに対するマルチハイポテーゼのポーズ推定の技術を多少改善し, 高いあいまいなポーズに対して大きなマージンで上回ることを示した。

Traditionally, monocular 3D human pose estimation employs a machine learning model to predict the most likely 3D pose for a given input image. However, a single image can be highly ambiguous and induces multiple plausible solutions for the 2D-3D lifting step which results in overly confident 3D pose predictors. To this end, we propose \emph{DiffPose}, a conditional diffusion model, that predicts multiple hypotheses for a given input image. In comparison to similar approaches, our diffusion model is straightforward and avoids intensive hyperparameter tuning, complex network structures, mode collapse, and unstable training. Moreover, we tackle a problem of the common two-step approach that first estimates a distribution of 2D joint locations via joint-wise heatmaps and consecutively approximates them based on first- or second-moment statistics. Since such a simplification of the heatmaps removes valid information about possibly correct, though labeled unlikely, joint locations, we propose to represent the heatmaps as a set of 2D joint candidate samples. To extract information about the original distribution from these samples we introduce our \emph{embedding transformer} that conditions the diffusion model. Experimentally, we show that DiffPose slightly improves upon the state of the art for multi-hypothesis pose estimation for simple poses and outperforms it by a large margin for highly ambiguous poses.
翻訳日:2022-11-30 16:48:33 公開日:2022-11-29
# 生成モデルを改ざんする

Taming a Generative Model ( http://arxiv.org/abs/2211.16488v1 )

ライセンス: Link先を確認
Shimon Malnick, Shai Avidan, Ohad Fried(参考訳) 生成モデルはさらに強力になり、非常にリアルな画像を合成できるようになった。 本稿では,モデルが特定の画像や画像のカテゴリを生成する確率を変化させるアルゴリズムを提案する。 流れの正規化を動力とする生成モデルを考えることで、与えられた画像の正確な生成確率を推定することができる。 本手法は汎用的であり,多くの興味深いプライバシーとバイアスを考慮したサブドメインである人間の顔を生成するモデルを用いて実演する。 本手法は,プライバシの文脈,例えば,モデルの出力から特定の人物を取り除いたり,特定の対象分布に応じて特定の画像カテゴリを出力させたりすることで脱バイアスの文脈で利用することができる。 本手法は,スクラッチからモデルを再学習することなく高速な微調整プロセスを用いて,生成モデルの訓練に要する時間のうち1%以下で目標を達成する。 我々は,味付けプロセスの成功と出力品質を質的,定量的に評価した。

Generative models are becoming ever more powerful, being able to synthesize highly realistic images. We propose an algorithm for taming these models - changing the probability that the model will produce a specific image or image category. We consider generative models that are powered by normalizing flows, which allows us to reason about the exact generation probability likelihood for a given image. Our method is general purpose, and we exemplify it using models that generate human faces, a subdomain with many interesting privacy and bias considerations. Our method can be used in the context of privacy, e.g., removing a specific person from the output of a model, and also in the context of de-biasing by forcing a model to output specific image categories according to a given target distribution. Our method uses a fast fine-tuning process without retraining the model from scratch, achieving the goal in less than 1% of the time taken to initially train the generative model. We evaluate qualitatively and quantitatively, to examine the success of the taming process and output quality.
翻訳日:2022-11-30 16:47:56 公開日:2022-11-29
# 行列点過程を用いた多解探索

Diverse Multi-Answer Retrieval with Determinantal Point Processes ( http://arxiv.org/abs/2211.16029v1 )

ライセンス: Link先を確認
Poojitha Nandigam, Nikhil Rayaprolu, Manish Shrivastava(参考訳) オープンドメインの質問応答システムに提供される質問は曖昧であることが多い。 一つの答えを提供する従来のQAシステムは、いくつかの方法で解釈され、複数の異なる答えを持つため、曖昧な質問に答えることができない。 本稿では,質問に対する多種多様な回答の大多数をキャプチャできる節を検索するマルチアンワー検索について述べる。 本稿では,BERTをカーネルとして利用する決定点プロセスを用いた再ランク付け手法を提案する。 本手法では,問合せ関係と問合せ関係の相関関係を共同で考慮し,問合せ関係の多様かつ多様な問合せを検索する。 その結果,本手法はAmbigQAデータセットの最先端手法よりも優れていた。

Often questions provided to open-domain question answering systems are ambiguous. Traditional QA systems that provide a single answer are incapable of answering ambiguous questions since the question may be interpreted in several ways and may have multiple distinct answers. In this paper, we address multi-answer retrieval which entails retrieving passages that can capture majority of the diverse answers to the question. We propose a re-ranking based approach using Determinantal point processes utilizing BERT as kernels. Our method jointly considers query-passage relevance and passage-passage correlation to retrieve passages that are both query-relevant and diverse. Results demonstrate that our re-ranking technique outperforms state-of-the-art method on the AmbigQA dataset.
翻訳日:2022-11-30 16:47:40 公開日:2022-11-29
# 低資源言語における技術介入から学ぶ:ゴンディにおける情報アクセスの促進

Learnings from Technological Interventions in a Low Resource Language: Enhancing Information Access in Gondi ( http://arxiv.org/abs/2211.16172v1 )

ライセンス: Link先を確認
Devansh Mehta, Harshita Diddee, Ananya Saxena, Anurag Shukla, Sebastin Santy, Ramaravind Kommiya Mothilal, Brij Mohan Lal Srivastava, Alok Sharma, Vishnu Prasad, Venkanna U, Kalika Bali(参考訳) 低リソース言語のための技術を開発する上での最大の障害は、代表的なデータがないことだ。 本稿では,ヒンディー語からゴンディ語への6万以上の翻訳コーパスを作成するための技術主導型データ収集手法の展開について報告する。 この過程で、ゴンディにおける情報アクセスを2つの異なる次元に広げる手助けをする。 a) 辞書,子どもの物語,複数の情報源からのゴンディ訳,対話型音声応答(ivr)に基づく集団認知プラットフォームなど,コミュニティが使用できる言語資源の創造 b)Hindi-Gondi機械翻訳モデルを4倍近く圧縮し,低リソースエッジデバイスやインターネット接続のほとんどない領域にエッジを配置可能にすることにより,デジタルドメインにおけるその利用を実現する。 また,対象言語に対するより多くのデータ収集に携わるボランティアを支援するため,開発した機械翻訳モデルを利用した予備評価を行った。 これらの介入を通じて,26,240個のヒンディー語訳のコーパスを作成・評価し,翻訳モデルの構築に用いただけでなく,インターネット上でgondiを活用できるコミュニティメンバー850人近くを雇用した。

The primary obstacle to developing technologies for low-resource languages is the lack of representative, usable data. In this paper, we report the deployment of technology-driven data collection methods for creating a corpus of more than 60,000 translations from Hindi to Gondi, a low-resource vulnerable language spoken by around 2.3 million tribal people in south and central India. During this process, we help expand information access in Gondi across 2 different dimensions (a) The creation of linguistic resources that can be used by the community, such as a dictionary, children's stories, Gondi translations from multiple sources and an Interactive Voice Response (IVR) based mass awareness platform; (b) Enabling its use in the digital domain by developing a Hindi-Gondi machine translation model, which is compressed by nearly 4 times to enable it's edge deployment on low-resource edge devices and in areas of little to no internet connectivity. We also present preliminary evaluations of utilizing the developed machine translation model to provide assistance to volunteers who are involved in collecting more data for the target language. Through these interventions, we not only created a refined and evaluated corpus of 26,240 Hindi-Gondi translations that was used for building the translation model but also engaged nearly 850 community members who can help take Gondi onto the internet.
翻訳日:2022-11-30 16:47:29 公開日:2022-11-29
# コンテキスト対応ロバストファインチューニング

Context-Aware Robust Fine-Tuning ( http://arxiv.org/abs/2211.16175v1 )

ライセンス: Link先を確認
Xiaofeng Mao, Yuefeng Chen, Xiaojun Jia, Rong Zhang, Hui Xue, Zhao Li(参考訳) コントラスト言語-画像事前訓練(CLIP)モデルは、画像と[CLASS]の[CONTEXT]のプロンプト文との類似性を利用して、”[CLASS]”に属する画像を分類するゼロショット能力を有する。 CONTEXT]の徹底的なテキストキューに基づいて、CLIPモデルは背景、スタイル、視点などの異なるコンテキストを認識し、広範囲の分散シフトに対して前例のない堅牢性を示す。 しかし、最近の研究ではCLIPモデルのさらなる微調整により精度は向上するが、下流タスクの堅牢性は犠牲になる。 訓練済みのCLIP特徴の文脈認識能力が低下することを示すための実証的研究を行った。 そこで本研究では,CAR-FT(Context-Aware Robust Fine-tuning)を提案する。 CAR-FTは、微調整中にモデルを正規化し、コンテキスト情報をキャプチャする。 具体的には、画像に含まれる文脈分布を得るためにゼロショットプロンプト重み付けを用いる。 CAR-FTは、オリジナル/ファインチューニングCLIPモデルによって誘導されるコンテキスト分布間のKullback-Leibler Divergence(KLD)を最小化することにより、CLIPのコンテキスト認識能力を下流タスクに継承し、より高いIn-Distribution(ID)とOut-Of-Distribution(OOD)の精度を達成する。 実験の結果,5つのoodテストデータセットにおいてcar-ftが優れたロバスト性を達成し,同時に9つの下流タスクにおいて精度が向上した。 さらに、CAR-FTは以前のDomain Generalization (DG) メソッドを超え、DomainBedベンチマークで78.5%の精度で新しい最先端技術を構築している。

Contrastive Language-Image Pre-trained (CLIP) models have zero-shot ability of classifying an image belonging to "[CLASS]" by using similarity between the image and the prompt sentence "a [CONTEXT] of [CLASS]". Based on exhaustive text cues in "[CONTEXT]", CLIP model is aware of different contexts, e.g. background, style, viewpoint, and exhibits unprecedented robustness against a wide range of distribution shifts. However, recent works find further fine-tuning of CLIP models improves accuracy but sacrifices the robustness on downstream tasks. We conduct an empirical investigation to show fine-tuning will corrupt the context-aware ability of pre-trained CLIP features. To solve this problem, we propose Context-Aware Robust Fine-tuning (CAR-FT). CAR-FT regularizes the model during fine-tuning to capture the context information. Specifically, we use zero-shot prompt weights to get the context distribution contained in the image. By minimizing the Kullback-Leibler Divergence (KLD) between context distributions induced by original/fine-tuned CLIP models, CAR-FT makes the context-aware ability of CLIP inherited into downstream tasks, and achieves both higher In-Distribution (ID) and Out-Of-Distribution (OOD) accuracy. The experimental results show CAR-FT achieves superior robustness on five OOD test datasets of ImageNet, and meanwhile brings accuracy gains on nine downstream tasks. Additionally, CAR-FT surpasses previous Domain Generalization (DG) methods and gets 78.5% averaged accuracy on DomainBed benchmark, building the new state-of-the-art.
翻訳日:2022-11-30 16:42:04 公開日:2022-11-29
# 情報ボトルネックを用いた小数点学習のための絡み合った生成

Disentangled Generation with Information Bottleneck for Few-Shot Learning ( http://arxiv.org/abs/2211.16185v1 )

ライセンス: Link先を確認
Zhuohang Dang, Jihong Wang, Minnan Luo, Chengyou Jia, Caixia Yan, Qinghua Zheng(参考訳) サンプルの少ない未確認クラスを分類することを目的としたFew-shot Learning(FSL)は、データ不足のため難しい。 FSLの様々な生成法が検討されているが、これらの手法の絡み合った生成過程はFSLの分布シフトを悪化させ、生成した試料の品質を著しく制限する。 これらの課題に対して、我々は、生成したサンプルの識別と多様性を同時に保証できる新しい情報ボトルネック(IB)ベースのFSL用ディスタングル生成フレームワーク(DisGenIB)を提案する。 具体的には,異種表現学習とサンプル生成の両方に適用可能な情報ボトルネックを持つ新しい枠組みを定式化する。 従来のISBベースの手法と異なり、DisGenIBは事前の活用を効果的に行え、さらに混乱を促進することができる。 さらに,提案した DisGenIB の一般性を示す DisGenIB の特殊事例として,従来の生成的・非絡合的手法が有効であることを示す。 挑戦的なFSLベンチマークに関する大規模な実験は、我々の理論解析の有効性とともに、DisGenIBの有効性と優位性を確認した。 私たちのコードは受け入れ次第オープンソースになります。

Few-shot learning (FSL), which aims to classify unseen classes with few samples, is challenging due to data scarcity. Although various generative methods have been explored for FSL, the entangled generation process of these methods exacerbates the distribution shift in FSL, thus greatly limiting the quality of generated samples. To these challenges, we propose a novel Information Bottleneck (IB) based Disentangled Generation Framework for FSL, termed as DisGenIB, that can simultaneously guarantee the discrimination and diversity of generated samples. Specifically, we formulate a novel framework with information bottleneck that applies for both disentangled representation learning and sample generation. Different from existing IB-based methods that can hardly exploit priors, we demonstrate our DisGenIB can effectively utilize priors to further facilitate disentanglement. We further prove in theory that some previous generative and disentanglement methods are special cases of our DisGenIB, which demonstrates the generality of the proposed DisGenIB. Extensive experiments on challenging FSL benchmarks confirm the effectiveness and superiority of DisGenIB, together with the validity of our theoretical analyses. Our codes will be open-source upon acceptance.
翻訳日:2022-11-30 16:41:28 公開日:2022-11-29
# 知識リフレッシュと統合による生涯人物再同定

Lifelong Person Re-Identification via Knowledge Refreshing and Consolidation ( http://arxiv.org/abs/2211.16201v1 )

ライセンス: Link先を確認
Chunlin Yu, Ye Shi, Zimo Liu, Shenghua Gao, Jingya Wang(参考訳) 生涯人物再識別(LReID)は、時間とともに様々な場所から大量のReIDデータが取得され、一度にアクセスできないため、現実世界の開発において大きな需要がある。 しかし、LReIDの重要な課題は、古い知識を段階的に保存し、システムに徐々に新しい機能を追加する方法である。 これまでのlreid法とは異なり、従来のlreid法では、過去のタスクの忘れ方を減らすだけでなく、生涯の学習プロセスにおいて、新しいタスクと古いタスクの両方でモデルのパフォーマンスを向上させることを目指すという、より困難な問題に焦点をあてている。 体性感覚性新皮質と海馬が記憶統合において協調して働く認知の生物学的過程に着想を得て,我々は,前向きと後向きの両方の伝達を実現する知識回復・統合(KRC)モデルを構築した。 具体的には、動的メモリモデルと適応作業モデルを導入することにより、双方向の知識伝達を可能にする知識リフレッシュ方式を知識リハーサル機構に組み込む。 さらに、双対空間で動作する知識統合スキームにより、長期にわたってモデルの安定性が向上する。 大規模な評価は、KRCが歩行者ベンチマークにおける最先端のLReID法よりも優れていることを示している。

Lifelong person re-identification (LReID) is in significant demand for real-world development as a large amount of ReID data is captured from diverse locations over time and cannot be accessed at once inherently. However, a key challenge for LReID is how to incrementally preserve old knowledge and gradually add new capabilities to the system. Unlike most existing LReID methods, which mainly focus on dealing with catastrophic forgetting, our focus is on a more challenging problem, which is, not only trying to reduce the forgetting on old tasks but also aiming to improve the model performance on both new and old tasks during the lifelong learning process. Inspired by the biological process of human cognition where the somatosensory neocortex and the hippocampus work together in memory consolidation, we formulated a model called Knowledge Refreshing and Consolidation (KRC) that achieves both positive forward and backward transfer. More specifically, a knowledge refreshing scheme is incorporated with the knowledge rehearsal mechanism to enable bi-directional knowledge transfer by introducing a dynamic memory model and an adaptive working model. Moreover, a knowledge consolidation scheme operating on the dual space further improves model stability over the long term. Extensive evaluations show KRC's superiority over the state-of-the-art LReID methods on challenging pedestrian benchmarks.
翻訳日:2022-11-30 16:40:41 公開日:2022-11-29
# 知識蒸留のためのカリキュラム温度

Curriculum Temperature for Knowledge Distillation ( http://arxiv.org/abs/2211.16231v1 )

ライセンス: Link先を確認
Zheng Li, Xiang Li, Lingfeng Yang, Borui Zhao, Renjie Song, Lei Luo, Jun Li, Jian Yang(参考訳) 既存の蒸留法は、損失関数における温度の柔軟な役割を無視し、非効率なグリッド探索によって決定できる超パラメータとして固定する。 一般に、温度は2つの分布の差を制御し、蒸留作業の難易度を忠実に決定できる。 一定の温度を維持すること、すなわちタスクの難易度は、通常、成長する学生にとって、進歩的な学習段階において、準最適である。 本稿では,学生の学習キャリアにおける課題の難易度を動的かつ学習可能な温度で制御する,知識蒸留のためのカリキュラム温度(CTKD)と呼ばれる簡単なカリキュラムベースの手法を提案する。 具体的には, 難解なカリキュラムに従って, 徐々に蒸留損失が増加し, 反対方向に蒸留困難が増大する。 簡便なプラグイン技術として、CTKDは既存の知識蒸留フレームワークにシームレスに統合することができ、計算コストを無視できるほど高めることができる。 CIFAR-100, ImageNet-2012, MS-COCOの大規模実験により, 本手法の有効性が示された。 私たちのコードはhttps://github.com/zhengli97/ctkdで利用可能です。

Most existing distillation methods ignore the flexible role of the temperature in the loss function and fix it as a hyper-parameter that can be decided by an inefficient grid search. In general, the temperature controls the discrepancy between two distributions and can faithfully determine the difficulty level of the distillation task. Keeping a constant temperature, i.e., a fixed level of task difficulty, is usually sub-optimal for a growing student during its progressive learning stages. In this paper, we propose a simple curriculum-based technique, termed Curriculum Temperature for Knowledge Distillation (CTKD), which controls the task difficulty level during the student's learning career through a dynamic and learnable temperature. Specifically, following an easy-to-hard curriculum, we gradually increase the distillation loss w.r.t. the temperature, leading to increased distillation difficulty in an adversarial manner. As an easy-to-use plug-in technique, CTKD can be seamlessly integrated into existing knowledge distillation frameworks and brings general improvements at a negligible additional computation cost. Extensive experiments on CIFAR-100, ImageNet-2012, and MS-COCO demonstrate the effectiveness of our method. Our code is available at https://github.com/zhengli97/CTKD.
翻訳日:2022-11-30 16:39:35 公開日:2022-11-29
# Ada3Diff:Adaptive Diffusionによる3D逆転点雲に対する防御

Ada3Diff: Defending against 3D Adversarial Point Clouds via Adaptive Diffusion ( http://arxiv.org/abs/2211.16247v1 )

ライセンス: Link先を確認
Kui Zhang, Hang Zhou, Jie Zhang, Qidong Huang, Weiming Zhang, Nenghai Yu(参考訳) ディープ3Dポイントクラウドモデルは敵攻撃に敏感であり、自律運転のような安全クリティカルなアプリケーションに脅威をもたらす。 ロバストトレーニングとデノワーズによる防御は、それぞれ敵意の摂動を防御するための典型的な戦略である。 しかし、それらは膨大な計算オーバーヘッドを誘発するか、特定のノイズ先行に強く依存し、あらゆる種類の攻撃に対する一般的な堅牢性を制限する。 本稿では,多様な雑音を適応的に除去できる拡散モデルに基づく新しい防御機構を提案する。 具体的には,まず,近傍最良平面への点の距離を計算し,逆歪みを推定する。 歪度に応じて、入力点雲の特定の拡散時間ステップを選択し、潜在的な逆向きシフトをディスラプトするための前方拡散を行う。 次に,破壊された点雲をクリーンな分布に戻すために逆消音処理を行う。 このアプローチは、ノイズ予算の異なる適応攻撃に対する効果的な防御を可能にし、既存の3d深層認識モデルの強化された堅牢性を達成する。

Deep 3D point cloud models are sensitive to adversarial attacks, which poses threats to safety-critical applications such as autonomous driving. Robust training and defend-by-denoise are typical strategies for defending adversarial perturbations, including adversarial training and statistical filtering, respectively. However, they either induce massive computational overhead or rely heavily upon specified noise priors, limiting generalized robustness against attacks of all kinds. This paper introduces a new defense mechanism based on denoising diffusion models that can adaptively remove diverse noises with a tailored intensity estimator. Specifically, we first estimate adversarial distortions by calculating the distance of the points to their neighborhood best-fit plane. Depending on the distortion degree, we choose specific diffusion time steps for the input point cloud and perform the forward diffusion to disrupt potential adversarial shifts. Then we conduct the reverse denoising process to restore the disrupted point cloud back to a clean distribution. This approach enables effective defense against adaptive attacks with varying noise budgets, achieving accentuated robustness of existing 3D deep recognition models.
翻訳日:2022-11-30 16:39:16 公開日:2022-11-29
# 軽量構造認識による視覚理解

Lightweight Structure-Aware Attention for Visual Understanding ( http://arxiv.org/abs/2211.16289v1 )

ライセンス: Link先を確認
Heeseung Kwon, Francisco M. Castro, Manuel J. Marin-Jimenez, Nicolas Guil, Karteek Alahari(参考訳) 視覚トランスフォーマー(vits)は自己照準演算子を用いた視覚表現学習において支配的なパラダイムとなっている。 これらの演算子は、調整可能なアテンションカーネルでモデルに柔軟性を提供するが、(1)アテンションカーネルは十分に識別できないため、ViT層の冗長性が高く、(2)計算とメモリの複雑さはシーケンス長で2次的である。 本稿では,より優れた表現力と対数線形複雑性を有する軽量構造認識注意(lisa)と呼ばれる新しい注意演算子を提案する。 演算子は相対的な位置埋め込み(RPE)を用いて構造パターンを学習する。 対数線形複雑性を達成するために、RPEは高速フーリエ変換で近似される。 実験とアブレーション実験により,提案手法に基づくvitsが自己着脱や他の既存演算子を上回り,imagenetで最先端の成果を達成し,coco や something-something-v2 などの視覚理解ベンチマークで競合結果が得られた。 このアプローチのソースコードはオンラインで公開されます。

Vision Transformers (ViTs) have become a dominant paradigm for visual representation learning with self-attention operators. Although these operators provide flexibility to the model with their adjustable attention kernels, they suffer from inherent limitations: (1) the attention kernel is not discriminative enough, resulting in high redundancy of the ViT layers, and (2) the complexity in computation and memory is quadratic in the sequence length. In this paper, we propose a novel attention operator, called lightweight structure-aware attention (LiSA), which has a better representation power with log-linear complexity. Our operator learns structural patterns by using a set of relative position embeddings (RPEs). To achieve log-linear complexity, the RPEs are approximated with fast Fourier transforms. Our experiments and ablation studies demonstrate that ViTs based on the proposed operator outperform self-attention and other existing operators, achieving state-of-the-art results on ImageNet, and competitive results on other visual understanding benchmarks such as COCO and Something-Something-V2. The source code of our approach will be released online.
翻訳日:2022-11-30 16:38:57 公開日:2022-11-29
# 主勾配期待値に基づく伝達可能性推定

Transferability Estimation Based On Principal Gradient Expectation ( http://arxiv.org/abs/2211.16299v1 )

ライセンス: Link先を確認
Huiyan Qi, Lechao Cheng, Jingjing Chen, Yue Yu, Zunlei Feng, Yu-Gang Jiang(参考訳) 近年,知識伝達には深層伝達学習が広く用いられている。 事前学習とその後の微調整の標準的なアプローチは、多くの下流タスクで有効であることが示されている。 自己一貫性を維持しながら、転送結果と互換性のあるクロスタスク転送可能性をどのように定量化するか? 既存の転送可能性メトリクスは、ソースとターゲットタスクを会話することで、特定のモデルに基づいて推定される。 新たな未知のターゲットタスクに遭遇するたびに、既存のすべてのソースタスクで再計算しなければなりません。 本研究は,これらの特性を考慮し,既存の指標を満足させ,評価するものである。 そこで本研究では,タスク間の伝達可能性を評価するための簡易かつ効果的な手法である主勾配期待(pge)を提案する。 具体的には、各重みユニット上の各バッチ勾配を1回以上計算するために再起動スキームを使用し、期待値を得るためにすべての勾配の平均を取ります。 したがって、正規化主勾配距離を計算することにより、ソースとターゲットタスク間の転送可能性の推定を行う。 実験の結果,SOTA法よりも安定で信頼性が高く,効率がよいことがわかった。

Deep transfer learning has been widely used for knowledge transmission in recent years. The standard approach of pre-training and subsequently fine-tuning, or linear probing, has shown itself to be effective in many down-stream tasks. Therefore, a challenging and ongoing question arises: how to quantify cross-task transferability that is compatible with transferred results while keeping self-consistency? Existing transferability metrics are estimated on the particular model by conversing source and target tasks. They must be recalculated with all existing source tasks whenever a novel unknown target task is encountered, which is extremely computationally expensive. In this work, we highlight what properties should be satisfied and evaluate existing metrics in light of these characteristics. Building upon this, we propose Principal Gradient Expectation (PGE), a simple yet effective method for assessing transferability across tasks. Specifically, we use a restart scheme to calculate every batch gradient over each weight unit more than once, and then we take the average of all the gradients to get the expectation. Thus, the transferability between the source and target task is estimated by computing the distance of normalized principal gradients. Extensive experiments show that the proposed transferability metric is more stable, reliable and efficient than SOTA methods.
翻訳日:2022-11-30 16:38:39 公開日:2022-11-29
# 孤立と公平な集約: 干渉のないインクリメンタル学習のパラダイム

Isolation and Impartial Aggregation: A Paradigm of Incremental Learning without Interference ( http://arxiv.org/abs/2211.15969v1 )

ライセンス: Link先を確認
Yabin Wang and Zhiheng Ma and Zhiwu Huang and Yaowei Wang and Zhou Su and Xiaopeng Hong(参考訳) 本稿では,インクリメンタル学習の段階におけるパフォーマンスの不均衡について述べる。 ステージ分離された一連の分類器を活用して,各ステージの学習タスクを他人の干渉なしに実行する。 具体的には、複数のステージ分類器を均等に集約するために、まず、ステージ分類器の信頼度スコアレベルを示す温度制御エネルギーメトリックを導入する。 次に,ステージ分類器が同じエネルギーレベルで動作することを保証するために,アンカー型エネルギー自己正規化戦略を提案する。 最後に,ロバスト推論のための投票に基づく推論拡張戦略を設計する。 提案手法はリハーサルフリーであり,ほぼすべての連続学習シナリオに対して有効である。 提案手法を4つの大規模ベンチマークで評価した。 以上の結果から,提案手法の総合的な性能向上における優位性を示す。 \emph{Code は \url{https://github.com/iamwangyabin/ESN} で利用可能である。

This paper focuses on the prevalent performance imbalance in the stages of incremental learning. To avoid obvious stage learning bottlenecks, we propose a brand-new stage-isolation based incremental learning framework, which leverages a series of stage-isolated classifiers to perform the learning task of each stage without the interference of others. To be concrete, to aggregate multiple stage classifiers as a uniform one impartially, we first introduce a temperature-controlled energy metric for indicating the confidence score levels of the stage classifiers. We then propose an anchor-based energy self-normalization strategy to ensure the stage classifiers work at the same energy level. Finally, we design a voting-based inference augmentation strategy for robust inference. The proposed method is rehearsal free and can work for almost all continual learning scenarios. We evaluate the proposed method on four large benchmarks. Extensive results demonstrate the superiority of the proposed method in setting up new state-of-the-art overall performance. \emph{Code is available at} \url{https://github.com/iamwangyabin/ESN}.
翻訳日:2022-11-30 16:32:56 公開日:2022-11-29
# ひとつは、プログレッシブボリューム蒸留によるニューラルラジアンスフィールドアーキテクチャ間のギャップを埋めること

One is All: Bridging the Gap Between Neural Radiance Fields Architectures with Progressive Volume Distillation ( http://arxiv.org/abs/2211.15977v1 )

ライセンス: Link先を確認
Shuangkang Fang, Weixin Xu, Heng Wang, Yi Yang, Yufeng Wang, Shuchang Zhou(参考訳) neural radiance fields(nerf)メソッドは、3dシーンのコンパクトで高品質で多用途な表現として有効であり、編集、検索、ナビゲーションなどの下流タスクを可能にする。 様々なニューラルアーキテクチャがnerfのコア構造を競い合っており、プレーンマルチ層パーセプトロン(mlp)、スパーステンソル、低ランクテンソル、ハッシュテーブル、それらの構成がある。 これらの表現は、それぞれが特定のトレードオフを持つ。 例えば、ハッシュテーブルベースの表現は、より高速なトレーニングとレンダリングを許容するが、その明確な幾何学的意味の欠如は、空間関係認識編集のような下流のタスクを妨げている。 本稿では, MLP, スパーステンソル, 低ランクテンソル, ハッシュテーブルおよびそれらの構成を含む, 異なるアーキテクチャ間の任意の変換を可能にする, 系統的蒸留法であるプログレッシブボリューム蒸留(PVD)を提案する。 PVDは、ダウンストリームアプリケーションに対して、手元にあるタスクのニューラル表現をポストホック方式で最適に適応させる権限を与える。 蒸留は、浅いものから深いものまで、様々なレベルの体積表現で徐々に行われるため、変換は高速である。 また,その特異な数値不安定問題に対処するために,密度の特殊処理も行う。 NeRF合成, LLFF, TanksAndTemplesデータセット上で, 実験手法の実証実験を行った。 例えば、pvdでは、mlpベースのnerfモデルをハッシュテーブルベースのinstant-ngpモデルから、元のnerfをスクラッチからトレーニングするよりも10倍から20倍の速度で蒸留することができる。 コードはhttps://github.com/megvii-research/aaai2023-pvdで入手できる。

Neural Radiance Fields (NeRF) methods have proved effective as compact, high-quality and versatile representations for 3D scenes, and enable downstream tasks such as editing, retrieval, navigation, etc. Various neural architectures are vying for the core structure of NeRF, including the plain Multi-Layer Perceptron (MLP), sparse tensors, low-rank tensors, hashtables and their compositions. Each of these representations has its particular set of trade-offs. For example, the hashtable-based representations admit faster training and rendering but their lack of clear geometric meaning hampers downstream tasks like spatial-relation-aware editing. In this paper, we propose Progressive Volume Distillation (PVD), a systematic distillation method that allows any-to-any conversions between different architectures, including MLP, sparse or low-rank tensors, hashtables and their compositions. PVD consequently empowers downstream applications to optimally adapt the neural representations for the task at hand in a post hoc fashion. The conversions are fast, as distillation is progressively performed on different levels of volume representations, from shallower to deeper. We also employ special treatment of density to deal with its specific numerical instability problem. Empirical evidence is presented to validate our method on the NeRF-Synthetic, LLFF and TanksAndTemples datasets. For example, with PVD, an MLP-based NeRF model can be distilled from a hashtable-based Instant-NGP model at a 10X~20X faster speed than being trained the original NeRF from scratch, while achieving a superior level of synthesis quality. Code is available at https://github.com/megvii-research/AAAI2023-PVD.
翻訳日:2022-11-30 16:32:41 公開日:2022-11-29
# isometric and equiareal nrsfm における凸緩和

Convex Relaxations for Isometric and Equiareal NRSfM ( http://arxiv.org/abs/2211.16005v1 )

ライセンス: Link先を確認
Agniva Sengupta and Adrien Bartoli(参考訳) 拡張可能なオブジェクトは、ポイントクラウドの十分に制約された拡張可能なモデルがないため、NRSfMにとって難しいケースを形成する。 私たちは提案することで挑戦する 1)等尺模型の準等尺性への凸緩和、及び 2) 局所領域を保存し, NRSfMでは使用されていない等質変形モデルを含む凸緩和 等価モデルは物理的に妥当で広く適用できるので魅力的である。 しかし、2つの大きな困難がある: 1つは、単独で使用するとき、あいまいで、もう1つは、クォートで、したがって非常に非凸な制約である。 本手法は等方性理論と等方性モデルとを混合し,新しい凸緩和法により第2の困難を解消する。 我々は、よく知られたベンチマークを含む複数の実データと合成データでメソッドを検証する。

Extensible objects form a challenging case for NRSfM, owing to the lack of a sufficiently constrained extensible model of the point-cloud. We tackle the challenge by proposing 1) convex relaxations of the isometric model up to quasi-isometry, and 2) convex relaxations involving the equiareal deformation model, which preserves local area and has not been used in NRSfM. The equiareal model is appealing because it is physically plausible and widely applicable. However, it has two main difficulties: first, when used on its own, it is ambiguous, and second, it involves quartic, hence highly nonconvex, constraints. Our approach handles the first difficulty by mixing the equiareal with the isometric model and the second difficulty by new convex relaxations. We validate our methods on multiple real and synthetic data, including well-known benchmarks.
翻訳日:2022-11-30 16:32:04 公開日:2022-11-29
# UDE:人間の運動生成のための統一運転エンジン

UDE: A Unified Driving Engine for Human Motion Generation ( http://arxiv.org/abs/2211.16016v1 )

ライセンス: Link先を確認
Zixiang Zhou, Baoyuan Wang(参考訳) 制御可能で編集可能な人間のモーションシーケンスを生成することは、3Dアバター生成の重要な課題である。 近年, 学習に基づくアプローチが開発され, 適用されるまで, 人間の動作の生成とアニメーション化は, 労働集約的に行われてきた。 しかし、これらのアプローチは依然としてタスク固有またはモダリティ特異的な\cite {ahuja2019language2pose}\cite{ghosh2021 synthesis}\cite{ferreira2021learning}\cite{li2021ai}である。 本稿では,自然言語や音声のシーケンスから人間の動作シーケンスを生成するための,最初の統合駆動エンジンである `UDE を提案する(図参照)。 ~\ref{fig:teaser})。 具体的には、UDEは以下のキーコンポーネントから構成される。 1) vqvaeに基づく動き量子化モジュールは,連続的な動き列を離散的潜在コードとして表現する。 2)モダリティ非依存なトランスフォーマーエンコーダ\cite{vaswani2017attention}は、モダリティを認識できる駆動信号をジョイント空間にマッピングすることを学び、そして、 3) 量子化潜在コードインデックスを自動回帰的に予測する統一トークントランスフォーマー(GPT-like\cite{radford2019 languages})ネットワーク。 4) 移動トークンを入力として、高度に多様性のある動きシーケンスに復号する拡散運動復号器。 我々は,HumanML3D\cite{Guo_2022_CVPR} と AIST++\cite{li2021learn} ベンチマークを用いて評価を行い,本手法が最先端の性能を達成することを示す実験結果を得た。 プロジェクトウェブサイト: \url{https://github.com/zixiangzhou916/UDE/

Generating controllable and editable human motion sequences is a key challenge in 3D Avatar generation. It has been labor-intensive to generate and animate human motion for a long time until learning-based approaches have been developed and applied recently. However, these approaches are still task-specific or modality-specific\cite {ahuja2019language2pose}\cite{ghosh2021synthesis}\cite{ferreira2021learning}\cite{li2021ai}. In this paper, we propose ``UDE", the first unified driving engine that enables generating human motion sequences from natural language or audio sequences (see Fig.~\ref{fig:teaser}). Specifically, UDE consists of the following key components: 1) a motion quantization module based on VQVAE that represents continuous motion sequence as discrete latent code\cite{van2017neural}, 2) a modality-agnostic transformer encoder\cite{vaswani2017attention} that learns to map modality-aware driving signals to a joint space, and 3) a unified token transformer (GPT-like\cite{radford2019language}) network to predict the quantized latent code index in an auto-regressive manner. 4) a diffusion motion decoder that takes as input the motion tokens and decodes them into motion sequences with high diversity. We evaluate our method on HumanML3D\cite{Guo_2022_CVPR} and AIST++\cite{li2021learn} benchmarks, and the experiment results demonstrate our method achieves state-of-the-art performance. Project website: \url{https://github.com/zixiangzhou916/UDE/
翻訳日:2022-11-30 16:31:50 公開日:2022-11-29
# 少数ショット学習における因果的特徴の同定のためのpatchmix拡張法

PatchMix Augmentation to Identify Causal Features in Few-shot Learning ( http://arxiv.org/abs/2211.16019v1 )

ライセンス: Link先を確認
Chengming Xu, Chen Liu, Xinwei Sun, Siqian Yang, Yabiao Wang, Chengjie Wang, Yanwei Fu(参考訳) FSL(Few-shot Learning)の課題は、十分なラベル付きデータで学習した知識を、知識の少ない新しいカテゴリに伝達することである。 これは現在、重要な研究課題であり、実世界のアプリケーションにおいて大きな実用的価値を持っている。 FSLシナリオにおけるサンプル選択バイアスによる分布変化を考慮し,既存の手法では考慮しなかったことを強調した。 このような選択バイアスは、クラスラベルに因果的かつ意味的に関係している意味因果的特徴と、他の非因果的特徴との間に急激な相関をもたらす可能性がある。 批判的に、前者は分布の変化にまたがって不変であり、興味のあるクラスと非常に関連しており、したがって新しいクラスに一般化できるが、後者は分布の変化に対して安定ではない。 そこで本研究では,パッチレベルの情報とクエリイメージの監視を,異なるクラスからのランダムなギャラリーイメージに置き換えることで,この急激な依存を解消する,PatchMixと呼ばれる新たなデータ拡張戦略を提案する。 理論的には,このような拡張機構は既存のものと異なり,因果的特徴を識別できることを示す。 さらに、これらの特徴を分類に十分な識別性を持たせるために、類似クラス間の識別を容易にするために相関誘導再構成(CGR)とハードネス・アウェアモジュールを提案する。 さらに、そのようなフレームワークは教師なしのFSLシナリオに適応することができる。

The task of Few-shot learning (FSL) aims to transfer the knowledge learned from base categories with sufficient labelled data to novel categories with scarce known information. It is currently an important research question and has great practical values in the real-world applications. Despite extensive previous efforts are made on few-shot learning tasks, we emphasize that most existing methods did not take into account the distributional shift caused by sample selection bias in the FSL scenario. Such a selection bias can induce spurious correlation between the semantic causal features, that are causally and semantically related to the class label, and the other non-causal features. Critically, the former ones should be invariant across changes in distributions, highly related to the classes of interest, and thus well generalizable to novel classes, while the latter ones are not stable to changes in the distribution. To resolve this problem, we propose a novel data augmentation strategy dubbed as PatchMix that can break this spurious dependency by replacing the patch-level information and supervision of the query images with random gallery images from different classes from the query ones. We theoretically show that such an augmentation mechanism, different from existing ones, is able to identify the causal features. To further make these features to be discriminative enough for classification, we propose Correlation-guided Reconstruction (CGR) and Hardness-Aware module for instance discrimination and easier discrimination between similar classes. Moreover, such a framework can be adapted to the unsupervised FSL scenario.
翻訳日:2022-11-30 16:31:20 公開日:2022-11-29
# NoisyQuant:視覚変換器用ノイズバイアス強化ポストトレーニング活性化量子化

NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization for Vision Transformers ( http://arxiv.org/abs/2211.16056v1 )

ライセンス: Link先を確認
Yijiang Liu, Huanrui Yang, Zhen Dong, Kurt Keutzer, Li Du, Shanghang Zhang(参考訳) 視覚トランスフォーマーの複雑なアーキテクチャと高い訓練コストは、トレーニング後の量子化の探求を促す。 しかしながら、視覚変圧器活性化の重畳分布は、高度な量子化設計であっても、以前の訓練後の量子化法の有効性を阻害する。 本稿では,複雑なアクティベーション分布に適合するように量子化器をチューニングする代わりに,視覚トランスフォーマーのトレーニング後のアクティベーション量子化性能を量子化器に依存しない拡張するノイズ量子antを提案する。 与えられた量子化器では、量子化される値に一定の一様雑音のバイアスを加えることで、証明可能な条件下での量子化誤差を著しく低減できるという驚くべき理論的発見を行う。 理論的な洞察に基づいて、NoisyQuantは、与えられた量子化器に適合するように、加法雑音バイアスで重い尾の活性化分布を積極的に変化させる最初の成功を達成する。 広汎な実験により、NoisyQuantは最小の計算オーバーヘッドを持つビジョントランスのトレーニング後の量子化性能を大幅に改善した。 例えば、線形均一な6ビットのアクティベーション量子化では、NoisyQuantはイメージネット上のSOTAトップ1の精度を最大1.7%、ViT、DeiT、Swin Transformerで1.1%、0.5%向上し、従来の非線形、混合精度の量子化よりもオンパーまたはさらに高いパフォーマンスを達成する。

The complicated architecture and high training cost of vision transformers urge the exploration of post-training quantization. However, the heavy-tailed distribution of vision transformer activations hinders the effectiveness of previous post-training quantization methods, even with advanced quantizer designs. Instead of tuning the quantizer to better fit the complicated activation distribution, this paper proposes NoisyQuant, a quantizer-agnostic enhancement for the post-training activation quantization performance of vision transformers. We make a surprising theoretical discovery that for a given quantizer, adding a fixed Uniform noisy bias to the values being quantized can significantly reduce the quantization error under provable conditions. Building on the theoretical insight, NoisyQuant achieves the first success on actively altering the heavy-tailed activation distribution with additive noisy bias to fit a given quantizer. Extensive experiments show NoisyQuant largely improves the post-training quantization performance of vision transformer with minimal computation overhead. For instance, on linear uniform 6-bit activation quantization, NoisyQuant improves SOTA top-1 accuracy on ImageNet by up to 1.7%, 1.1% and 0.5% for ViT, DeiT, and Swin Transformer respectively, achieving on-par or even higher performance than previous nonlinear, mixed-precision quantization.
翻訳日:2022-11-30 16:30:53 公開日:2022-11-29
# スコアベース生成モデルによる教師なし視覚欠陥検出

Unsupervised Visual Defect Detection with Score-Based Generative Model ( http://arxiv.org/abs/2211.16092v1 )

ライセンス: Link先を確認
Yapeng Teng, Haoyang Li, Fuzhen Cai, Ming Shao, Siyu Xia(参考訳) 重要な問題として,異常検出(AD)が広く議論されている。 本稿では,多くの産業応用において,視覚欠陥検出(VDD)という特定の問題に特化している。 そして実際には、欠陥画像のサンプルは非常に稀で収集が難しい。 そこで我々は,教師なしの視覚的欠陥検出と局所化タスクに着目し,確率微分方程式(SDE)を通して実像を反復分解して合成する,最近のスコアベース生成モデルに基づく新しいフレームワークを提案する。 我々の研究は、元の画像にノイズが注入された場合、欠陥はデノナイジング過程(すなわち再構成)の通常のケースに変化する可能性があるという事実に触発されている。 まず、異常データが正規データ分布の低確率密度領域にあるという仮定に基づいて、再構成に基づくアプローチをVDDに適用した場合に発生する一般的な現象を説明する。 第2に、再構成された画像と元の画像との正常画素の差から、正規データ分布の時間依存勾配値(すなわちスコア)を再構成損失ではなくメトリクスとして活用し、欠陥を計測する。 第3に、新しい$T$scalesアプローチが開発され、必要なイテレーション数を劇的に減らし、推論プロセスが加速される。 これらのプラクティスにより、我々のモデルは、合理的に優れた性能を維持しながら、教師なしの方法でVDDを一般化することができる。 提案手法を複数のデータセット上で評価し,その有効性を実証する。

Anomaly Detection (AD), as a critical problem, has been widely discussed. In this paper, we specialize in one specific problem, Visual Defect Detection (VDD), in many industrial applications. And in practice, defect image samples are very rare and difficult to collect. Thus, we focus on the unsupervised visual defect detection and localization tasks and propose a novel framework based on the recent score-based generative models, which synthesize the real image by iterative denoising through stochastic differential equations (SDEs). Our work is inspired by the fact that with noise injected into the original image, the defects may be changed into normal cases in the denoising process (i.e., reconstruction). First, based on the assumption that the anomalous data lie in the low probability density region of the normal data distribution, we explain a common phenomenon that occurs when reconstruction-based approaches are applied to VDD: normal pixels also change during the reconstruction process. Second, due to the differences in normal pixels between the reconstructed and original images, a time-dependent gradient value (i.e., score) of normal data distribution is utilized as a metric, rather than reconstruction loss, to gauge the defects. Third, a novel $T$ scales approach is developed to dramatically reduce the required number of iterations, accelerating the inference process. These practices allow our model to generalize VDD in an unsupervised manner while maintaining reasonably good performance. We evaluate our method on several datasets to demonstrate its effectiveness.
翻訳日:2022-11-30 16:30:25 公開日:2022-11-29
# 離散ウェーブレット変換と生成逆ネットワークに基づくカラー文書画像の3段階二元化

Three-stage binarization of color document images based on discrete wavelet transform and generative adversarial networks ( http://arxiv.org/abs/2211.16098v1 )

ライセンス: Link先を確認
Yu-Shian Lin, Rui-Yang Ju, Chih-Chia Chen, Ting-Yu Lin, Jen-Shiun Chiang(参考訳) 劣化したカラー文書画像における背景テキスト情報の効率的なセグメンテーションは熱い研究課題である。 古文書の保存が長期にわたって不完全なため、染色、黄化、インクの浸出など様々な種類の劣化が画像二項化の結果に深刻な影響を与えている。 本稿では, 離散ウェーブレット変換 (DWT) とGAN (Generative Adversarial Network) を用いて, 劣化したカラー文書画像の画像強調とバイナライズを行う3段階手法を提案する。 ステージ1では、DWTを用いてLLサブバンド画像を保持し、画像強調を実現する。 ステージ2では、元の入力画像は4つのシングルチャネル画像(赤、緑、青、灰色)に分割され、それぞれが独立した敵ネットワークを訓練する。 トレーニングされた敵ネットワークモデルを用いて、画像から色前景情報を抽出する。 グローバルな特徴とローカルな特徴を組み合わせるために、ステージ2からの出力画像と元の入力画像を用いて、文書バイナライゼーションのための独立した敵ネットワークを訓練する。 実験の結果,提案手法は文書画像二元化コンテスト(DIBCO)データセットにおいて,従来のSOTA法よりも優れていた。 私たちは実装コードをhttps://github.com/abcpp12383/ThreeStageBinarizationでリリースします。

The efficient segmentation of foreground text information from the background in degraded color document images is a hot research topic. Due to the imperfect preservation of ancient documents over a long period of time, various types of degradation, including staining, yellowing, and ink seepage, have seriously affected the results of image binarization. In this paper, a three-stage method is proposed for image enhancement and binarization of degraded color document images by using discrete wavelet transform (DWT) and generative adversarial network (GAN). In Stage-1, we use DWT and retain the LL subband images to achieve the image enhancement. In Stage-2, the original input image is split into four (Red, Green, Blue and Gray) single-channel images, each of which trains the independent adversarial networks. The trained adversarial network models are used to extract the color foreground information from the images. In Stage-3, in order to combine global and local features, the output image from Stage-2 and the original input image are used to train the independent adversarial networks for document binarization. The experimental results demonstrate that our proposed method outperforms many classical and state-of-the-art (SOTA) methods on the Document Image Binarization Contest (DIBCO) dataset. We release our implementation code at https://github.com/abcpp12383/ThreeStageBinarization.
翻訳日:2022-11-30 16:30:02 公開日:2022-11-29
# adaenlight: モバイルデバイス上での省エネ型低光度ビデオストリームエンハンスメント

AdaEnlight: Energy-aware Low-light Video Stream Enhancement on Mobile Devices ( http://arxiv.org/abs/2211.16135v1 )

ライセンス: Link先を確認
Sicong Liu (Northwestern Polytechnical University, China), Xiaochen Li (Northwestern Polytechnical University, China), Zimu Zhou (City University of Hong Kong, China), Bin Guo (Northwestern Polytechnical University, China), Meng Zhang (Northwestern Polytechnical University, China), Haochen Shen (Northwestern Polytechnical University, China) and Zhiwen Yu (Northwestern Polytechnical University, China)(参考訳) カメラ埋め込みデバイスの普及とディープラーニングの進歩は、さまざまなインテリジェントなモバイルビデオ応用を刺激している。 これらのアプリケーションは、しばしば、プライバシーと堅牢性に関する懸念に対して、リアルタイムで高品質なサービスを提供するために、ビデオストリームのオンデバイス処理を要求する。 しかし、これらのアプリケーションの性能は生のビデオストリームによって制約されるため、薄暗い場所でユビキタスなモバイルプラットフォームの小型カメラで撮影される傾向にある。 幅広い低照度ビデオエンハンスメントソリューションにもかかわらず、複雑なモデルとエネルギー予算のようなシステムダイナミクスの無知のため、モバイルデバイスへのデプロイには適していない。 本稿では,モバイル端末上での省エネ型低照度映像ストリームエンハンスメントシステムであるAdaEnlightを提案する。 リアルタイムのビデオエンハンスメントと競合する視覚品質を実現し、実行時の動作をプラットフォームが要求する動的エネルギー予算に適応させる。 多様なデータセット、シナリオ、プラットフォームに関する広範な実験を報告し、最先端の低照度画像やビデオエンハンスメントソリューションと比較してAdaEnlightの優位性を実証する。

The ubiquity of camera-embedded devices and the advances in deep learning have stimulated various intelligent mobile video applications. These applications often demand on-device processing of video streams to deliver real-time, high-quality services for privacy and robustness concerns. However, the performance of these applications is constrained by the raw video streams, which tend to be taken with small-aperture cameras of ubiquitous mobile platforms in dim light. Despite extensive low-light video enhancement solutions, they are unfit for deployment to mobile devices due to their complex models and and ignorance of system dynamics like energy budgets. In this paper, we propose AdaEnlight, an energy-aware low-light video stream enhancement system on mobile devices. It achieves real-time video enhancement with competitive visual quality while allowing runtime behavior adaptation to the platform-imposed dynamic energy budgets. We report extensive experiments on diverse datasets, scenarios, and platforms and demonstrate the superiority of AdaEnlight compared with state-of-the-art low-light image and video enhancement solutions.
翻訳日:2022-11-30 16:29:39 公開日:2022-11-29
# アラビア語 Maghrib{\=i} 写本のテキスト認識の新しい結果 -- アンダーリソーススクリプトの管理-

New Results for the Text Recognition of Arabic Maghrib{\=i} Manuscripts -- Managing an Under-resourced Script ( http://arxiv.org/abs/2211.16147v1 )

ライセンス: Link先を確認
Lucas No\"emie, Cl\'ement Salah (SU, UNIL), Chahan Vidal-Gor\`ene (ENC)(参考訳) htrモデルの開発は、デジタル人文科学プロジェクトの従来のステップとなった。 これらのモデルの性能は、しばしば非常に高く、手書きの書き起こしと多くの手書き文書に依存している。 この手法はラテン文字で成功したが、アラビア文字のような貧弱とされるスクリプトでは、同様の量のデータがまだ達成できない。 その点に関して、我々はアラビア語のmaghrib{\=i}スクリプト専用のhtrモデルの開発と微調整のための新しいmodus operandiを導入し、評価する。 いくつかの最先端のhtrの比較は、アラビア語に特化した単語ベースのニューラルアプローチが、手作業で10ページの書き起こしだけで5%未満のエラー率を達成できることを示す。 これらの結果は、アラビア語のスクリプト処理とより一般的に貧弱な言語処理の新しい視点を開く。 この研究は、GIS MOMMとBULACと連携してRASAMデータセットの開発の一部である。

HTR models development has become a conventional step for digital humanities projects. The performance of these models, often quite high, relies on manual transcription and numerous handwritten documents. Although the method has proven successful for Latin scripts, a similar amount of data is not yet achievable for scripts considered poorly-endowed, like Arabic scripts. In that respect, we are introducing and assessing a new modus operandi for HTR models development and fine-tuning dedicated to the Arabic Maghrib{\=i} scripts. The comparison between several state-of-the-art HTR demonstrates the relevance of a word-based neural approach specialized for Arabic, capable to achieve an error rate below 5% with only 10 pages manually transcribed. These results open new perspectives for Arabic scripts processing and more generally for poorly-endowed languages processing. This research is part of the development of RASAM dataset in partnership with the GIS MOMM and the BULAC.
翻訳日:2022-11-30 16:29:21 公開日:2022-11-29
# 映像における人文推定のための運動認識階層型注意ネットワーク

Kinematic-aware Hierarchical Attention Network for Human Pose Estimation in Videos ( http://arxiv.org/abs/2211.15868v1 )

ライセンス: Link先を確認
Kyung-Min Jin, Byoung-Sung Lim, Gun-Hee Lee, Tae-Kyung Kang, Seong-Whan Lee(参考訳) 従来の映像に基づく人物ポーズ推定手法では,連続フレームの集約特徴を活用し,有望な結果を示している。 しかし、ほとんどのアプローチはジッタを減らすために精度を損なうか、あるいは人間の動きの時間的側面を十分に理解していない。 さらに、閉塞は連続するフレーム間の不確実性を増大させ、結果として非滑らかな結果をもたらす。 これらの問題に対処するために、キーポイントキネマティック機能を次のコンポーネントで活用するアーキテクチャを設計します。 まず,各キーポイントの速度と加速度を利用して時間的特徴を効果的に捉える。 次に,提案する階層型トランスコーダは時空間依存性を集約し,既存の推定値から推定した2次元または3次元入力ポーズを洗練する。 最後に、エンコーダから生成された洗練された入力ポーズと、デコーダからの最終的なポーズとの間のオンラインクロススーパービジョンを提供し、協調最適化を可能にする。 本研究では,2次元ポーズ推定,3次元ポーズ推定,体メッシュ回復,微少な注釈付きマルチヒューマンポーズ推定など,様々なタスクにおけるモデルの有効性を検証する。 私たちのコードはhttps://github.com/KyungMinJin/HANetで公開されています。

Previous video-based human pose estimation methods have shown promising results by leveraging aggregated features of consecutive frames. However, most approaches compromise accuracy to mitigate jitter or do not sufficiently comprehend the temporal aspects of human motion. Furthermore, occlusion increases uncertainty between consecutive frames, which results in unsmooth results. To address these issues, we design an architecture that exploits the keypoint kinematic features with the following components. First, we effectively capture the temporal features by leveraging individual keypoint's velocity and acceleration. Second, the proposed hierarchical transformer encoder aggregates spatio-temporal dependencies and refines the 2D or 3D input pose estimated from existing estimators. Finally, we provide an online cross-supervision between the refined input pose generated from the encoder and the final pose from our decoder to enable joint optimization. We demonstrate comprehensive results and validate the effectiveness of our model in various tasks: 2D pose estimation, 3D pose estimation, body mesh recovery, and sparsely annotated multi-human pose estimation. Our code is available at https://github.com/KyungMinJin/HANet.
翻訳日:2022-11-30 16:22:49 公開日:2022-11-29
# インスタンス固有のイメージ目標ナビゲーション: オブジェクトインスタンスを見つけるための具体化エージェントのトレーニング

Instance-Specific Image Goal Navigation: Training Embodied Agents to Find Object Instances ( http://arxiv.org/abs/2211.15876v1 )

ライセンス: Link先を確認
Jacob Krantz, Stefan Lee, Jitendra Malik, Dhruv Batra, Devendra Singh Chaplot(参考訳) エージェントが未知の環境で初期化され、画像によって「記述された」位置へナビゲートされるイメージゴーアル(imagenav)が与えられた場合、具体化されたビジュアルナビゲーションの問題を考える。 関連するナビゲーションタスクとは異なり、ImageNavはメソッド間の比較が難しい標準化されたタスク定義を持っていない。 さらに、既存の定式化は、(1)曖昧性(例えば壁を見る)につながるランダムな場所から画像ゴールをサンプリングし、(2)画像ゴールは、カメラ仕様とエージェントの具体化と一致し、この剛性は、ユーザ主導の下流アプリケーションを考える際に制限される。 これらの制限に対処するために、インスタンス固有のImageNavタスク(インスタンスImageNav)を提示します。 具体的には、ゴールイメージはシーン内の特定のオブジェクトインスタンスに'フォーカス'され、エージェントに依存しないカメラパラメータで撮影される。 habitat-matterport3d dataset(hm3d)のシーンを使用して、habitat simulatorのインスタンスimagenavをインスタンス化し、コミュニティの進捗を測定するための標準ベンチマークをリリースします。

We consider the problem of embodied visual navigation given an image-goal (ImageNav) where an agent is initialized in an unfamiliar environment and tasked with navigating to a location 'described' by an image. Unlike related navigation tasks, ImageNav does not have a standardized task definition which makes comparison across methods difficult. Further, existing formulations have two problematic properties; (1) image-goals are sampled from random locations which can lead to ambiguity (e.g., looking at walls), and (2) image-goals match the camera specification and embodiment of the agent; this rigidity is limiting when considering user-driven downstream applications. We present the Instance-specific ImageNav task (InstanceImageNav) to address these limitations. Specifically, the goal image is 'focused' on some particular object instance in the scene and is taken with camera parameters independent of the agent. We instantiate InstanceImageNav in the Habitat Simulator using scenes from the Habitat-Matterport3D dataset (HM3D) and release a standardized benchmark to measure community progress.
翻訳日:2022-11-30 16:22:30 公開日:2022-11-29
# 複数のオープンソースデータセットの有効利用によるポイントクラウドセグメンテーションモデルの一般化性能の向上

Effective Utilisation of Multiple Open-Source Datasets to Improve Generalisation Performance of Point Cloud Segmentation Models ( http://arxiv.org/abs/2211.15877v1 )

ライセンス: Link先を確認
Matthew Howe, Boris Repasky, Timothy Payne(参考訳) 航空点雲データのセマンティックセグメンテーションは、地面、建物、植生などのクラスに属するポイントを区別するために利用することができる。 ドローンや飛行機に搭載された空中センサーから発生する点雲は、LIDARセンサーやカメラと光度計を利用することができる。 データ収集の各方法は、最先端のクラウドセグメンテーションモデルと独立して学習できるユニークな特徴を含んでいる。 単一ポイントクラウドセグメンテーションモデルを利用することは、ポイントクラウドセンサ、品質、構造が変化する可能性がある場合に望ましい。 これらの状況では、セグメンテーションモデルが予測可能かつ一貫した結果でこれらのバリエーションを処理できることが望ましい。 ディープラーニングは、正確にポイントクラウドをセグメンテーションすることができるが、一般化に苦しむことが多く、トレーニングデータとは異なるデータに適応できない。 この問題に対処するために,複数の利用可能な完全アノテーション付きデータセットを活用して,より一般化可能なモデルをトレーニングし,テストすることを提案する。 本稿では、これらのデータセットを単純なトレーニングセットと挑戦的なテストセットに組み合わせることについて議論する。 データセットを組み合わせることで、ポイントクラウドデータの既知のバリエーションの一般化パフォーマンスを評価することができます。 データセットのナイーブな組み合わせは、期待したほど一般化性能が向上したモデルを生成する。 さらに,サンプリング変動を低減させるサンプリング戦略の改善により,一般化性能が大幅に向上することを示す。 このパフォーマンスを向上させるサンプルのバリエーションを見つける実験では、一貫性のある密度が最も重要であることがわかった。

Semantic segmentation of aerial point cloud data can be utilised to differentiate which points belong to classes such as ground, buildings, or vegetation. Point clouds generated from aerial sensors mounted to drones or planes can utilise LIDAR sensors or cameras along with photogrammetry. Each method of data collection contains unique characteristics which can be learnt independently with state-of-the-art point cloud segmentation models. Utilising a single point cloud segmentation model can be desirable in situations where point cloud sensors, quality, and structures can change. In these situations it is desirable that the segmentation model can handle these variations with predictable and consistent results. Although deep learning can segment point clouds accurately it often suffers in generalisation, adapting poorly to data which is different than the training data. To address this issue, we propose to utilise multiple available open source fully annotated datasets to train and test models that are better able to generalise. In this paper we discuss the combination of these datasets into a simple training set and challenging test set. Combining datasets allows us to evaluate generalisation performance on known variations in the point cloud data. We show that a naive combination of datasets produces a model with improved generalisation performance as expected. We go on to show that an improved sampling strategy which decreases sampling variations increases the generalisation performance substantially on top of this. Experiments to find which sample variations give this performance boost found that consistent densities are the most important.
翻訳日:2022-11-30 16:22:09 公開日:2022-11-29
# HashEncoding: マルチスケールのコーディネートハッシュによる自動エンコーディング

HashEncoding: Autoencoding with Multiscale Coordinate Hashing ( http://arxiv.org/abs/2211.15894v1 )

ライセンス: Link先を確認
Lukas Zhornyak, Zhengjie Xu, Haoran Tang, Jianbo Shi(参考訳) 我々は、非パラメトリックなマルチスケール座標ハッシュ関数を利用して、畳み込みのない画素単位のデコーダを容易にする新しい自動符号化アーキテクチャであるHashEncodingを提案する。 ハッシュ関数の空間フォールディング挙動を利用することで、hashencodingは本質的には元の画像よりもずっと小さいマルチスケールの埋め込み空間を可能にする。 結果として、デコーダは従来のオートエンコーダのデコーダと比較して非常に少ないパラメータを必要とし、元のイメージの非パラメトリックな再構成に近づき、より一般化可能となる。 最後に、座標空間に直接バックプロパゲーションを許すことで、ハゼンコーディングを光学フローなどの幾何学的タスクに活用できることを示す。

We present HashEncoding, a novel autoencoding architecture that leverages a non-parametric multiscale coordinate hash function to facilitate a per-pixel decoder without convolutions. By leveraging the space-folding behaviour of hashing functions, HashEncoding allows for an inherently multiscale embedding space that remains much smaller than the original image. As a result, the decoder requires very few parameters compared with decoders in traditional autoencoders, approaching a non-parametric reconstruction of the original image and allowing for greater generalizability. Finally, by allowing backpropagation directly to the coordinate space, we show that HashEncoding can be exploited for geometric tasks such as optical flow.
翻訳日:2022-11-30 16:21:46 公開日:2022-11-29
# 局所勾配アライメントによるよりロバストな解釈に向けて

Towards More Robust Interpretation via Local Gradient Alignment ( http://arxiv.org/abs/2211.15900v1 )

ライセンス: Link先を確認
Sunghwan Joo, Seokhyeon Jeong, Juyeon Heo, Adrian Weller and Taesup Moon(参考訳) ニューラルネットワーク解釈法、特に特徴属性法は、逆入力摂動に関して脆弱であることが知られている。 これを解決するために, 学習中の勾配の局所的滑らかさを高めるためのいくつかの手法が提案されている。 しかし、それらの視覚化に不可欠な属性の正規化を考慮していないことは、特徴属性法の堅牢性を理解し改善する障害となっている。 本稿では,そのような正規化を考慮した新たな洞察を提供する。 まず、全ての非負の同次ニューラルネットワークに対して、勾配に対する素の$\ell_2$-robust criterion は \textit{not} 正規化不変量であり、同じ正規化勾配を持つ2つの関数が異なる値を持つことを意味する。 第二に、正規化不変コサイン距離に基づく基準を定式化し、その上限を導出するので、なぜ単に入力においてヘッセンノルムを最小化すれば、以前の研究でなされたように、ロバストな特徴属性を得るのに十分でないのかが分かる。 最後に,$\ell_2$ と cosine 距離に基づく基準を正規化項として組み合わせ,局所勾配の調整における両者の利点を活用することを提案する。 その結果,CIFAR-10 と ImageNet-100 でトレーニングしたモデルでは,最近のベースラインに比べて精度を著しく損なうことなく,より堅牢な解釈が得られた。 我々の知る限りでは、この手法の計算効率のおかげで、CIFAR-10を超える大規模なデータセットの解釈の堅牢性を検証する最初の試みである。

Neural network interpretation methods, particularly feature attribution methods, are known to be fragile with respect to adversarial input perturbations. To address this, several methods for enhancing the local smoothness of the gradient while training have been proposed for attaining \textit{robust} feature attributions. However, the lack of considering the normalization of the attributions, which is essential in their visualizations, has been an obstacle to understanding and improving the robustness of feature attribution methods. In this paper, we provide new insights by taking such normalization into account. First, we show that for every non-negative homogeneous neural network, a naive $\ell_2$-robust criterion for gradients is \textit{not} normalization invariant, which means that two functions with the same normalized gradient can have different values. Second, we formulate a normalization invariant cosine distance-based criterion and derive its upper bound, which gives insight for why simply minimizing the Hessian norm at the input, as has been done in previous work, is not sufficient for attaining robust feature attribution. Finally, we propose to combine both $\ell_2$ and cosine distance-based criteria as regularization terms to leverage the advantages of both in aligning the local gradient. As a result, we experimentally show that models trained with our method produce much more robust interpretations on CIFAR-10 and ImageNet-100 without significantly hurting the accuracy, compared to the recent baselines. To the best of our knowledge, this is the first work to verify the robustness of interpretation on a larger-scale dataset beyond CIFAR-10, thanks to the computational efficiency of our method.
翻訳日:2022-11-30 16:21:33 公開日:2022-11-29
# 頭部CTにおける頭蓋内出血検出に必要なラベル数について

Weakly Supervised Learning Significantly Reduces the Number of Labels Required for Intracranial Hemorrhage Detection on Head CT ( http://arxiv.org/abs/2211.15924v1 )

ライセンス: Link先を確認
Jacopo Teneggi, Paul H. Yi, Jeremias Sulam(参考訳) 現代の機械学習パイプライン、特にディープラーニング(DL)モデルに基づくパイプラインは、大量のラベル付きデータを必要とする。 分類問題では、最も一般的な学習パラダイムは、トレーニング中にラベル付きサンプルを提示することで、ポジティブなサンプルとネガティブなサンプルを構成するものに対する強い監督を提供する。 これは放射線学におけるdlモデルの開発における大きな障害であり、特に断面イメージング(例えばctスキャン)において、画像やスライスレベルにおける専門家の放射線学者による手動アノテーションによるラベルが必要となる。 これらは、より粗いが安価な検査レベルのアノテーションと異なり、自然言語処理技術を用いて放射線学的レポートから抽出することができる。 本研究は,脳CTにおける頭蓋内出血検出の課題に対して,どのようなラベルを収集すべきかを考察する。 画像レベルのアノテーションが検査レベルのアノテーションよりも望ましいかどうかを検討する。 このタスクを複数のインスタンス学習問題とみなし、現代の注目に基づくDLアーキテクチャを採用することにより、様々なレベルの監視が検出性能を向上する度合いを分析する。 検査レベルの出血検出(出血の兆候を示す検査において画像を選択するタスク)や画像レベルの出血検出(選択された画像内のサインのハイライト)において、強い監督(局所的な画像レベルのアノテーションによる学習)と弱い監督(グローバルな検査レベルのラベルのみでの学習)が同等のパフォーマンスを発揮することがわかった。 さらに,この動作を,トレーニング中に利用可能なラベル数の関数として検討した。 その結果,これらのタスクではローカルラベルは不要であり,データセットの収集とキュレーションに関わる時間とコストを大幅に削減できる可能性が示唆された。

Modern machine learning pipelines, in particular those based on deep learning (DL) models, require large amounts of labeled data. For classification problems, the most common learning paradigm consists of presenting labeled examples during training, thus providing strong supervision on what constitutes positive and negative samples. This constitutes a major obstacle for the development of DL models in radiology--in particular for cross-sectional imaging (e.g., computed tomography [CT] scans)--where labels must come from manual annotations by expert radiologists at the image or slice-level. These differ from examination-level annotations, which are coarser but cheaper, and could be extracted from radiology reports using natural language processing techniques. This work studies the question of what kind of labels should be collected for the problem of intracranial hemorrhage detection in brain CT. We investigate whether image-level annotations should be preferred to examination-level ones. By framing this task as a multiple instance learning problem, and employing modern attention-based DL architectures, we analyze the degree to which different levels of supervision improve detection performance. We find that strong supervision (i.e., learning with local image-level annotations) and weak supervision (i.e., learning with only global examination-level labels) achieve comparable performance in examination-level hemorrhage detection (the task of selecting the images in an examination that show signs of hemorrhage) as well as in image-level hemorrhage detection (highlighting those signs within the selected images). Furthermore, we study this behavior as a function of the number of labels available during training. Our results suggest that local labels may not be necessary at all for these tasks, drastically reducing the time and cost involved in collecting and curating datasets.
翻訳日:2022-11-30 16:21:04 公開日:2022-11-29
# マルチタスク学習と一側メタトリプルトロスによる汎用顔アンチスプーフィング

Generalized Face Anti-Spoofing via Multi-Task Learning and One-Side Meta Triplet Loss ( http://arxiv.org/abs/2211.15955v1 )

ライセンス: Link先を確認
Chu-Chun Chuang, Chien-Yi Wang, Shang-Hong Lai(参考訳) 顔提示攻撃のバリエーションの増加に伴い、モデル一般化は現実的な顔の反偽造システムにとって重要な課題となる。 本稿では, 深度推定, 顔解析, ライブ/スプーフ分類という3つの課題からなる, 汎用的な顔のアンチスプーフフレームワークを提案する。 顔解析や深度推定のタスクからの画素単位の監督により、正規化された特徴はスプーフの顔をよりよく識別することができる。 ドメインシフトをメタラーニング技術でシミュレートしながら、提案された一方の三重項損失により一般化能力がさらに向上する。 4つのパブリックデータセットに関する広範囲な実験により、提案されたフレームワークとトレーニング戦略が、未発見のドメインに対するモデル一般化のための以前の作業よりも効果的であることが示されている。

With the increasing variations of face presentation attacks, model generalization becomes an essential challenge for a practical face anti-spoofing system. This paper presents a generalized face anti-spoofing framework that consists of three tasks: depth estimation, face parsing, and live/spoof classification. With the pixel-wise supervision from the face parsing and depth estimation tasks, the regularized features can better distinguish spoof faces. While simulating domain shift with meta-learning techniques, the proposed one-side triplet loss can further improve the generalization capability by a large margin. Extensive experiments on four public datasets demonstrate that the proposed framework and training strategies are more effective than previous works for model generalization to unseen domains.
翻訳日:2022-11-30 16:20:32 公開日:2022-11-29
# Peano: フォーマルな数学的推論を学ぶ

Peano: Learning Formal Mathematical Reasoning ( http://arxiv.org/abs/2211.15864v1 )

ライセンス: Link先を確認
Gabriel Poesia and Noah D. Goodman(参考訳) 一般的な数学的推論は計算不可能であるが、人間は新しい問題を常に解決している。 また、何世紀にもわたって開発された発見は、後世に迅速に伝えられる。 どのような構造がこれを可能とし、どのようにして自動数学的推論を通知するのか? 両パズルの中心は、数学の基礎となる手続き的抽象の構造である。 このアイデアを,khan academyプラットフォーム上で開始代数の5つのセクションをケーススタディとして検討する。 計算基礎を定義するために,任意の点における有効な作用の集合が有限である定理提示環境 peano を導入する。 我々はpeanoを用いて導入代数学の問題と公理を定式化し,よく定義された探索問題を得る。 シンボル推論のための既存の強化学習手法は,難解な問題解決には不十分である。 独自のソリューションから再利用可能な抽象化("戦術")を誘導する機能を追加することで、エージェントは安定した進歩をし、すべての問題を解決することができる。 さらに、これらの抽象化は、トレーニング中にランダムに見られる問題に対する順序を誘導する。 回収命令は、専門家が設計したカーン・アカデミーのカリキュラムと大きく一致しており、回収されたカリキュラムで訓練された第二世代エージェントは、かなり早く学習する。 これらの結果は、数学の文化伝達における抽象概念とカリキュラムの相乗的役割を示している。

General mathematical reasoning is computationally undecidable, but humans routinely solve new problems. Moreover, discoveries developed over centuries are taught to subsequent generations quickly. What structure enables this, and how might that inform automated mathematical reasoning? We posit that central to both puzzles is the structure of procedural abstractions underlying mathematics. We explore this idea in a case study on 5 sections of beginning algebra on the Khan Academy platform. To define a computational foundation, we introduce Peano, a theorem-proving environment where the set of valid actions at any point is finite. We use Peano to formalize introductory algebra problems and axioms, obtaining well-defined search problems. We observe existing reinforcement learning methods for symbolic reasoning to be insufficient to solve harder problems. Adding the ability to induce reusable abstractions ("tactics") from its own solutions allows an agent to make steady progress, solving all problems. Furthermore, these abstractions induce an order to the problems, seen at random during training. The recovered order has significant agreement with the expert-designed Khan Academy curriculum, and second-generation agents trained on the recovered curriculum learn significantly faster. These results illustrate the synergistic role of abstractions and curricula in the cultural transmission of mathematics.
翻訳日:2022-11-30 16:14:01 公開日:2022-11-29
# web 3.0で量子情報技術がブロックチェーンに出会う

When Quantum Information Technologies Meet Blockchain in Web 3.0 ( http://arxiv.org/abs/2211.15941v1 )

ライセンス: Link先を確認
Minrui Xu, Xiaoxu Ren, Dusit Niyato, Jiawen Kang, Chao Qiu, Zehui Xiong, Xiaofei Wang, and Victor C. M. Leung(参考訳) 分散デジタルエコノミーの推進により、Web 3.0は、コンピューティング力ネットワーク、分散データストレージ、ブロックチェーンに基づいて開発されたデジタルトランスフォーメーションの基盤となっている。 量子デバイスの急速な実現により、Web 3.0は量子クラウドコンピューティングと量子インターネットの展開と並行して開発されている。 この点において、量子コンピューティングは、量子コンピューティングと通信の利点を生かして近代的な暗号を形作りながら、データセキュリティを保護するオリジナルの暗号システムを最初に破壊する。 そこで本稿では,分散データ転送と決済トランザクションのための情報理論セキュリティを提供する,量子ブロックチェーン駆動型Web 3.0フレームワークを提案する。 まず、量子ブロックチェーン駆動型Web 3.0のフレームワークについて、データやトランザクション情報の送信時に、将来的なセキュリティを提供する。 次に、Web 3.0で量子ブロックチェーンを実装する潜在的なアプリケーションと課題について論じる。 最後に,NFT取引における量子非ファンジブルトークン(NFT)の利用事例について述べるとともに,Web 3.0における十分な流動性のための達成可能な収益を最大化するために,NFT取引のための量子深層学習に基づく最適オークションを提案する。 このようにして、提案手法は次世代分散型デジタル社会のセキュリティと持続可能性を証明することができる。

With the drive to create a decentralized digital economy, Web 3.0 has become a cornerstone of digital transformation, developed on the basis of computing-force networking, distributed data storage, and blockchain. With the rapid realization of quantum devices, Web 3.0 is being developed in parallel with the deployment of quantum cloud computing and quantum Internet. In this regard, quantum computing first disrupts the original cryptographic systems that protect data security while reshaping modern cryptography with the advantages of quantum computing and communication. Therefore, in this paper, we introduce a quantum blockchain-driven Web 3.0 framework that provides information-theoretic security for decentralized data transferring and payment transactions. First, we present the framework of quantum blockchain-driven Web 3.0 with future-proof security during the transmission of data and transaction information. Next, we discuss the potential applications and challenges of implementing quantum blockchain in Web 3.0. Finally, we describe a use case for quantum non-fungible tokens (NFTs) and propose a quantum deep learning-based optimal auction for NFT trading to maximize the achievable revenue for sufficient liquidity in Web 3.0. In this way, the proposed framework can achieve proven security and sustainability for the next-generation decentralized digital society.
翻訳日:2022-11-30 16:13:45 公開日:2022-11-29
# MaxSATの局所探索によるマルチアームバンドの導入

Incorporating Multi-armed Bandit with Local Search for MaxSAT ( http://arxiv.org/abs/2211.16011v1 )

ライセンス: Link先を確認
Jiongzhi Zheng and Kun He and Jianrong Zhou and Yan Jin and Chu-Min Li and Felip Many\`a(参考訳) 部分マックスSAT (PMS) と重み付きPSM (WPMS) は、マックスSAT問題の実用的な一般化である。 本稿では,この問題に対する局所探索アルゴリズムであるbandhsを提案する。これは2つの多腕バンディットを適用し,局所オプティマからの脱出時の探索方向を導くものである。 1つのbanditは、すべてのsoft節と組み合わせて、アルゴリズムが適切なsoft節を満たすように支援し、もう1つのbanditは、ハード節のすべてのリテラルを満たし、アルゴリズムがハード節を満たす適切なリテラルを選択するのに役立つ。 これら2つの帯域は、実現不可能かつ実現不可能な解空間において、アルゴリズムの探索能力を向上させることができる。 さらに,初期解を生成する際に,単位節とバイナリ節の両方を優先する(w)pmsの初期化手法を提案する。 提案手法は,最先端の局所探索アルゴリズムSATLike3.0と,最先端のSATベース不完全解法NuWLS-cを大幅に向上させるものである。

Partial MaxSAT (PMS) and Weighted PMS (WPMS) are two practical generalizations of the MaxSAT problem. In this paper, we propose a local search algorithm for these problems, called BandHS, which applies two multi-armed bandits to guide the search directions when escaping local optima. One bandit is combined with all the soft clauses to help the algorithm select to satisfy appropriate soft clauses, and the other bandit with all the literals in hard clauses to help the algorithm select appropriate literals to satisfy the hard clauses. These two bandits can improve the algorithm's search ability in both feasible and infeasible solution spaces. We further propose an initialization method for (W)PMS that prioritizes both unit and binary clauses when producing the initial solutions. Extensive experiments demonstrate the excellent performance and generalization capability of our proposed methods, that greatly boost the state-of-the-art local search algorithm, SATLike3.0, and the state-of-the-art SAT-based incomplete solver, NuWLS-c.
翻訳日:2022-11-30 16:13:28 公開日:2022-11-29
# 直交意味論における攻撃関係の推定

Inferring Attack Relations for Gradual Semantics ( http://arxiv.org/abs/2211.16118v1 )

ライセンス: Link先を確認
Nir Oren and Bruno Yun(参考訳) 段階的意味論は、重み付き議論フレームワークを入力として、各引数に対する最終的な受容度を出力し、異なる意味論が異なる方法で計算を実行する。 本研究では,攻撃推論の問題について考察する。 すなわち、段階的意味論、関連する初期重み付き引数の集合、および各引数に関連付けられた最終的な許容可能性次数を考えると、これらの引数に対する攻撃の集合が存在するかどうかを判断し、これらの許容可能性次数を得る。 我々の研究の主な貢献は、関連する決定問題、すなわち、与えられた初期重みに対して最終許容度を許容する一連の攻撃が存在するかどうかを証明することであり、重み付きh-カテゴリーと濃度に基づく意味論に対してNP完全であり、問題の完全バージョン(全ての初期重みと最終的な受容度が知られている)であっても、重み付き最大ベース意味論に対して多項式である。 次に,この決定問題を,攻撃自体を見つけるためにどのように修正し,すべての初期重みや最終受容度が分かっているわけではない部分的問題を調べることで結論付ける。

A gradual semantics takes a weighted argumentation framework as input and outputs a final acceptability degree for each argument, with different semantics performing the computation in different manners. In this work, we consider the problem of attack inference. That is, given a gradual semantics, a set of arguments with associated initial weights, and the final desirable acceptability degrees associated with each argument, we seek to determine whether there is a set of attacks on those arguments such that we can obtain these acceptability degrees. The main contribution of our work is to demonstrate that the associated decision problem, i.e., whether a set of attacks can exist which allows the final acceptability degrees to occur for given initial weights, is NP-complete for the weighted h-categoriser and cardinality-based semantics, and is polynomial for the weighted max-based semantics, even for the complete version of the problem (where all initial weights and final acceptability degrees are known). We then briefly discuss how this decision problem can be modified to find the attacks themselves and conclude by examining the partial problem where not all initial weights or final acceptability degrees may be known.
翻訳日:2022-11-30 16:13:08 公開日:2022-11-29
# 電気自動車販売戦略研究における粒子群最適化支援ベクトルマシンモデルに基づく

Based on particle swarm optimization support vector machine model of the electric car sales strategy research ( http://arxiv.org/abs/2211.16242v1 )

ライセンス: Link先を確認
Wen Zhou(参考訳) 分類モデルの構築の観点からは、電気自動車の異なるブランドに対する販売の影響を分析し、既存の販売戦略を最適化するために、モデルにおける重量係数(影響要因)を用いる。

From the perspective of constructing the classification model, this paper uses the weight coefficient (influencing factors) in the model to analyze the sales impact on different brands of electric vehicles, and optimizes the existing sales strategy.
翻訳日:2022-11-30 16:12:45 公開日:2022-11-29
# ExpNet: エキスパートレベル分類のための統一ネットワーク

ExpNet: A unified network for Expert-Level Classification ( http://arxiv.org/abs/2211.15672v1 )

ライセンス: Link先を確認
Junde Wu, Huihui Fang, Yehui Yang, Yu Zhang, Haoyi Xiong, Huazhu Fu, Yanwu Xu(参考訳) 一般的な視覚分類とは異なり、画像の専門的な分類を必要とするため、いくつかの分類タスクは困難である。 論文では、専門家レベルの分類と呼ぶ。 従来の細粒度視覚分類(FGVC)は、いくつかの特定のサブタスクに多くの努力を払ってきた。 しかし,部分的相互相関と階層的特徴の相互作用の包括的分析に依存する一般的な事例に拡張することは困難である。 本稿では,統一ネットワークによるエキスパートレベルの分類のユニークな課題に対処するためのエキスパートネットワーク(expnet)を提案する。 ExpNetでは、部分とコンテキストの特徴を階層的に分離し、Gaze-Shiftと呼ばれる新しい注意機構を使って個別に処理します。 各ステージでは、視線シフトはその後の抽象化のために焦点部分機能を生成し、コンテキスト関連の埋め込みを記憶する。 そして、最後の焦点埋め込みを記憶されたコンテキスト関連埋め込みと融合して予測を行う。 このようなアーキテクチャは、部分的および大域的な情報と階層的特徴相互作用の二重トラック処理を実現する。 本研究は、FGVC、疾患分類、アートワーク属性分類の3つの代表的な専門家レベル分類タスクについて実験を行った。 これらの実験では,expnetの有効性と一般化の指標として,幅広い分野の最先端技術と比較し,expnetの優れた性能が観察された。 コードは公開される予定だ。

Different from the general visual classification, some classification tasks are more challenging as they need the professional categories of the images. In the paper, we call them expert-level classification. Previous fine-grained vision classification (FGVC) has made many efforts on some of its specific sub-tasks. However, they are difficult to expand to the general cases which rely on the comprehensive analysis of part-global correlation and the hierarchical features interaction. In this paper, we propose Expert Network (ExpNet) to address the unique challenges of expert-level classification through a unified network. In ExpNet, we hierarchically decouple the part and context features and individually process them using a novel attentive mechanism, called Gaze-Shift. In each stage, Gaze-Shift produces a focal-part feature for the subsequent abstraction and memorizes a context-related embedding. Then we fuse the final focal embedding with all memorized context-related embedding to make the prediction. Such an architecture realizes the dual-track processing of partial and global information and hierarchical feature interactions. We conduct the experiments over three representative expert-level classification tasks: FGVC, disease classification, and artwork attributes classification. In these experiments, superior performance of our ExpNet is observed comparing to the state-of-the-arts in a wide range of fields, indicating the effectiveness and generalization of our ExpNet. The code will be made publicly available.
翻訳日:2022-11-30 16:12:40 公開日:2022-11-29
# 学際的学者のための機械学習の民主化 - NLP+CSSオンラインチュートリアルシリーズの実施レポート

Democratizing Machine Learning for Interdisciplinary Scholars: Report on Organizing the NLP+CSS Online Tutorial Series ( http://arxiv.org/abs/2211.15971v1 )

ライセンス: Link先を確認
Ian Stewart and Katherine Keith(参考訳) 生物学、健康、教育、社会科学を含む多くの科学分野は、機械学習(ML)を使用して、前例のない規模でデータを分析している。 しかし,高度な手法を開発したML研究者は,これらの手法の適用方法を示す詳細なチュートリアルをほとんど提供していない。 既存のチュートリアルは、しばしば参加者に費用がかかり、広範なプログラミング知識を前提としており、特定のアプリケーション分野に合わせたものではない。 ML手法を民主化するために,高度な自然言語処理(NLP)手法を計算社会科学(CSS)研究者に教えることを目的とした,1年間の無料オンラインチュートリアルシリーズを企画した。 2人のオーガナイザが15の課題の専門家と協力して、データ前処理から言語変更の時間的変動の分析に至るまで、さまざまなMLメソッドやユースケースに対して、ハンズオンのPythonコードを使った1時間のプレゼンテーションを開発した。 生の参加は予想より限定的であったが,前と後の比較では7点の類似尺度において,参加者の認識知識がほぼ1点近く増加した。 さらに、参加者はチュートリアル中に思慮深い質問をし、投稿されたチュートリアル記録の10K〜total viewで示されるように、その後すぐにチュートリアルコンテンツに関わった。 本報告では、組織的取り組みをまとめ、ml+xチュートリアルの民主化のための5つの原則を概説する。 今後はこれらの原則を改善し、すべての分野の研究者がMLスキルを開発するための障壁を低くしていきたいと考えています。

Many scientific fields -- including biology, health, education, and the social sciences -- use machine learning (ML) to help them analyze data at an unprecedented scale. However, ML researchers who develop advanced methods rarely provide detailed tutorials showing how to apply these methods. Existing tutorials are often costly to participants, presume extensive programming knowledge, and are not tailored to specific application fields. In an attempt to democratize ML methods, we organized a year-long, free, online tutorial series targeted at teaching advanced natural language processing (NLP) methods to computational social science (CSS) scholars. Two organizers worked with fifteen subject matter experts to develop one-hour presentations with hands-on Python code for a range of ML methods and use cases, from data pre-processing to analyzing temporal variation of language change. Although live participation was more limited than expected, a comparison of pre- and post-tutorial surveys showed an increase in participants' perceived knowledge of almost one point on a 7-point Likert scale. Furthermore, participants asked thoughtful questions during tutorials and engaged readily with tutorial content afterwards, as demonstrated by 10K~total views of posted tutorial recordings. In this report, we summarize our organizational efforts and distill five principles for democratizing ML+X tutorials. We hope future organizers improve upon these principles and continue to lower barriers to developing ML skills for researchers of all fields.
翻訳日:2022-11-30 16:05:31 公開日:2022-11-29
# 対話における終端から終端までのニューラル・ディスコース・ディクシス分解能

End-to-End Neural Discourse Deixis Resolution in Dialogue ( http://arxiv.org/abs/2211.15980v1 )

ライセンス: Link先を確認
Shengjie Li and Vincent Ng(参考訳) 我々はLee et al. (2018) のスパンベースエンティティコア推論モデルを対話におけるエンドツーエンドのディクシス分解のタスクに適用し、特にタスク固有の特徴を生かしたモデルの拡張を提案する。 得られたモデルdd-uttは、codi-crac 2021共有タスクの4つのデータセットについて最先端の結果を得る。

We adapt Lee et al.'s (2018) span-based entity coreference model to the task of end-to-end discourse deixis resolution in dialogue, specifically by proposing extensions to their model that exploit task-specific characteristics. The resulting model, dd-utt, achieves state-of-the-art results on the four datasets in the CODI-CRAC 2021 shared task.
翻訳日:2022-11-30 16:05:08 公開日:2022-11-29
# 汎用オープン情報抽出に向けて

Towards Generalized Open Information Extraction ( http://arxiv.org/abs/2211.15987v1 )

ライセンス: Link先を確認
Bowen Yu, Zhenyu Zhang, Jingyang Li, Haiyang Yu, Tingwen Liu, Jian Sun, Yongbin Li, Bin Wang(参考訳) オープン情報抽出(OpenIE)は、テキスト事実のオープンドメイン発見を容易にする。 しかし、一般的なソリューションは、トレーニングコーパスとは別に、ドメイン内テストセット上でOpenIEモデルを評価する。 本稿では,より現実的なシナリオ,すなわち,ソーストレーニング領域と異なるデータ分布を持つ未確認対象領域を一般化する,一般化されたOpenIEを提案する。 この目的のために,我々はまず,最近のOpenIEモデルのドメインシフトに対する堅牢性を検討するために,大規模な人手によるマルチドメインOpenIEベンチマークであるGLOBEを紹介した。 次に,テキスト事実の最小限のグラフ表現である有向非巡回グラフを探索して,OpenIEの一般化を改善するDragonIEを提案する。 大規模な実験では、DragonIEはドメイン内設定とドメイン外設定の両方で、F1スコアの6.0%を絶対上回っているが、改善の余地は十分にある。

Open Information Extraction (OpenIE) facilitates the open-domain discovery of textual facts. However, the prevailing solutions evaluate OpenIE models on in-domain test sets aside from the training corpus, which certainly violates the initial task principle of domain-independence. In this paper, we propose to advance OpenIE towards a more realistic scenario: generalizing over unseen target domains with different data distributions from the source training domains, termed Generalized OpenIE. For this purpose, we first introduce GLOBE, a large-scale human-annotated multi-domain OpenIE benchmark, to examine the robustness of recent OpenIE models to domain shifts, and the relative performance degradation of up to 70% implies the challenges of generalized OpenIE. Then, we propose DragonIE, which explores a minimalist graph expression of textual fact: directed acyclic graph, to improve the OpenIE generalization. Extensive experiments demonstrate that DragonIE beats the previous methods in both in-domain and out-of-domain settings by as much as 6.0% in F1 score absolutely, but there is still ample room for improvement.
翻訳日:2022-11-30 16:05:00 公開日:2022-11-29
# 数学語問題解決のためのテキスト強化コントラスト学習

Textual Enhanced Contrastive Learning for Solving Math Word Problems ( http://arxiv.org/abs/2211.16022v1 )

ライセンス: Link先を確認
Yibin Shen, Qianying Liu, Zhuoyuan Mao, Fei Cheng and Sadao Kurohashi(参考訳) 数学用語の問題解決は、量の関係を分析し、文脈自然言語情報の正確な理解を必要とするタスクである。 最近の研究では、現在のモデルは解を予測するために浅いヒューリスティックに依存しており、小さなテキストの摂動によって容易に誤解される可能性がある。 そこで本研究では,異なる数学的論理を保持しながら,意味的に類似した例を識別するためのテキスト拡張型コントラスト学習フレームワークを提案する。 テキストの並べ替えや問題再構築による微妙なテキストのばらつきのある例を豊かにする。 次に、最も難しいサンプルを方程式とテキストの両方の観点から区別し、モデルを導き、それらの表現を学ぶ。 実験の結果,本手法は,広く使用されているベンチマークデータセットと,英語と中国語で適切に設計されたチャレンジデータセットの両方において,最先端の成果が得られた。 \footnote{Our code and data is available at \url{https://github.com/yiyunya/Textual_CL_MWP}

Solving math word problems is the task that analyses the relation of quantities and requires an accurate understanding of contextual natural language information. Recent studies show that current models rely on shallow heuristics to predict solutions and could be easily misled by small textual perturbations. To address this problem, we propose a Textual Enhanced Contrastive Learning framework, which enforces the models to distinguish semantically similar examples while holding different mathematical logic. We adopt a self-supervised manner strategy to enrich examples with subtle textual variance by textual reordering or problem re-construction. We then retrieve the hardest to differentiate samples from both equation and textual perspectives and guide the model to learn their representations. Experimental results show that our method achieves state-of-the-art on both widely used benchmark datasets and also exquisitely designed challenge datasets in English and Chinese. \footnote{Our code and data is available at \url{https://github.com/yiyunya/Textual_CL_MWP}
翻訳日:2022-11-30 16:04:43 公開日:2022-11-29
# 教師なし依存構文としての構文置換性

Syntactic Substitutability as Unsupervised Dependency Syntax ( http://arxiv.org/abs/2211.16031v1 )

ライセンス: Link先を確認
Jasper Jian and Siva Reddy(参考訳) 構文は、人間の言語のロバストで構成的な性質を基礎とする潜在階層構造である。 大規模事前学習型言語モデル(LLM)がテキストだけで構文を習得できるかどうか,モデルの構文的能力を理解することは,言語をどのように処理し,活用するかを理解する上で不可欠である。 本稿では,金本位構文解析の監督なしに構文構造を誘導する新たな手法であるSSUDを提案する。 その代わり、構文的関係の性質(構文的置換可能性)を用いて、形式的に依存しないモデル-イントリンシック構文解析を定義する。 我々は,ssudを用いた依存構文解析タスクの定量的・質的向上を実証し,llmと言語表現の明確化を期待する構文構造を誘導する。

Syntax is a latent hierarchical structure which underpins the robust and compositional nature of human language. An active line of inquiry is whether large pretrained language models (LLMs) are able to acquire syntax by training on text alone; understanding a model's syntactic capabilities is essential to understanding how it processes and makes use of language. In this paper, we propose a new method, SSUD, which allows for the induction of syntactic structures without supervision from gold-standard parses. Instead, we seek to define formalism-agnostic, model-intrinsic syntactic parses by using a property of syntactic relations: syntactic substitutability. We demonstrate both quantitative and qualitative gains on dependency parsing tasks using SSUD, and induce syntactic structures which we hope provide clarity into LLMs and linguistic representations, alike.
翻訳日:2022-11-30 16:04:23 公開日:2022-11-29
# 主に摂動した入力に対する自信のある予測のペナルティ化は、質問応答における分散の一般化を改善しない

Penalizing Confident Predictions on Largely Perturbed Inputs Does Not Improve Out-of-Distribution Generalization in Question Answering ( http://arxiv.org/abs/2211.16093v1 )

ライセンス: Link先を確認
Kazutoshi Shinoda, Saku Sugawara, Akiko Aizawa(参考訳) 質問応答(qa)モデルは、入力に対する大きな摂動に影響を受けないことが示されている。つまり、人間が正しく答えを導出できない主に摂動した入力が与えられたとしても、正確で自信のある予測を行う。 さらに、QAモデルは、人間が高い精度を維持する一方で、他のドメインや敵対するテストセットに一般化できない。 これらの結果から,QAモデルでは人間の読解に必要な意図的特徴は使用せず,刺激的特徴に依存し,一般化能力の欠如が示唆された。 したがって、様々な摂動に対するQAモデルの過度な予測が罰せられるならば、アウト・オブ・ディストリビューション(OOD)の一般化は改善されるのだろうか? モデルが摂動入力に対して確実な予測を行うのを防ぐため,既存の研究をまず追従し,摂動入力に対する出力確率のエントロピーを最大化する。 しかし、ある摂動タイプに敏感に訓練されたQAモデルは、しばしば目に見えない摂動タイプに敏感である。 そこで,4種類の摂動型(単語と文レベルのシャッフルと削除)のエントロピーを同時に最大化し,モデルと人間のギャップを埋める。 予測とは対照的に、モデルは4種類の摂動に敏感になるが、OOD一般化は改善されていない。 さらに、OOD一般化はエントロピー最大化後に分解されることがある。 主に混乱した入力に対して不確実な予測を行うことは、人間の信頼を得る上で有益である。 しかし,我々の否定的な結果は,エントロピー最大化の副作用に注意を払うべきであることを示唆している。

Question answering (QA) models are shown to be insensitive to large perturbations to inputs; that is, they make correct and confident predictions even when given largely perturbed inputs from which humans can not correctly derive answers. In addition, QA models fail to generalize to other domains and adversarial test sets, while humans maintain high accuracy. Based on these observations, we assume that QA models do not use intended features necessary for human reading but rely on spurious features, causing the lack of generalization ability. Therefore, we attempt to answer the question: If the overconfident predictions of QA models for various types of perturbations are penalized, will the out-of-distribution (OOD) generalization be improved? To prevent models from making confident predictions on perturbed inputs, we first follow existing studies and maximize the entropy of the output probability for perturbed inputs. However, we find that QA models trained to be sensitive to a certain perturbation type are often insensitive to unseen types of perturbations. Thus, we simultaneously maximize the entropy for the four perturbation types (i.e., word- and sentence-level shuffling and deletion) to further close the gap between models and humans. Contrary to our expectations, although models become sensitive to the four types of perturbations, we find that the OOD generalization is not improved. Moreover, the OOD generalization is sometimes degraded after entropy maximization. Making unconfident predictions on largely perturbed inputs per se may be beneficial to gaining human trust. However, our negative results suggest that researchers should pay attention to the side effect of entropy maximization.
翻訳日:2022-11-30 16:04:08 公開日:2022-11-29
# WMT22総合業務におけるCUNI提出

CUNI Submission in WMT22 General Task ( http://arxiv.org/abs/2211.16174v1 )

ライセンス: Link先を確認
Josef Jon, Martin Popel, Ond\v{r}ej Bojar(参考訳) We present the CUNI-Bergamot submit for the WMT22 General translation task。 私たちは英語$\rightarrow$Czechの方向で競います。 提案はブロックバックトランスレーション技術をさらに探求する。 従来の研究と比較すると、COMETスコアと名前付きエンティティの翻訳精度で性能を測定する。 MBR復号法の性能を従来の混合翻訳訓練と比較して評価し,両手法を同時に使用する場合の相乗効果を示す。 その結果,いずれのアプローチも翻訳品質を向上させる効果的な手段であり,組み合わせるとさらによい結果が得られることがわかった。

We present the CUNI-Bergamot submission for the WMT22 General translation task. We compete in English$\rightarrow$Czech direction. Our submission further explores block backtranslation techniques. Compared to the previous work, we measure performance in terms of COMET score and named entities translation accuracy. We evaluate performance of MBR decoding compared to traditional mixed backtranslation training and we show a possible synergy when using both of the techniques simultaneously. The results show that both approaches are effective means of improving translation quality and they yield even better results when combined.
翻訳日:2022-11-30 16:03:37 公開日:2022-11-29
# 質問応答モデルで学ぶべきショートカットソリューションは何か?

Which Shortcut Solution Do Question Answering Models Prefer to Learn? ( http://arxiv.org/abs/2211.16220v1 )

ライセンス: Link先を確認
Kazutoshi Shinoda, Saku Sugawara, Akiko Aizawa(参考訳) 質問応答(QA)モデルは、QAデータセットが意図したソリューションではなく、ショートカットソリューションを学ぶ傾向がある。 ショートカットソリューションを学習したQAモデルは、ショートカットが有効であるショートカット例では人間レベルの性能を達成することができるが、これらの同じ挙動は、ショートカットが無効である反ショートカット例では一般化ポテンシャルを低下させる。 この問題を軽減するために様々な方法が提案されているが、ショートカットの特性を考慮に入れていない。 ショートカットの学習性、すなわちショートカットの学習がいかに容易かは、問題を緩和するのに有用であると仮定する。 そこで我々はまず,抽出および複数選択QAデータセットにおける代表ショートカットの学習性について検討する。 バイアス付きトレーニングセットを用いた行動テストでは,回答位置と単語ラベル相関を利用したショートカットが,抽出型と複数語型qaでそれぞれ優先的に学習されることが明らかとなった。 ショートカットがより学習しやすいほど、損失の状況はパラメータ空間のショートカットソリューションを中心によりフラットで深くなります。 また,好みのショートカットが利用可能になると,情報理論的な観点からタスクの実行が容易になる傾向がみられた。 最後に,効果的なqaトレーニングセットを構築するために,ショートカットの学習能力を活用できることを実験的に示す。ショートカットがより学習しやすいほど,ショートカットとアンチカットの例で同等のパフォーマンスを達成するのに必要なアンチカット例の割合が小さくなる。 提案手法では,ショートカットの学習性を考慮すべきである。

Question answering (QA) models for reading comprehension tend to learn shortcut solutions rather than the solutions intended by QA datasets. QA models that have learned shortcut solutions can achieve human-level performance in shortcut examples where shortcuts are valid, but these same behaviors degrade generalization potential on anti-shortcut examples where shortcuts are invalid. Various methods have been proposed to mitigate this problem, but they do not fully take the characteristics of shortcuts themselves into account. We assume that the learnability of shortcuts, i.e., how easy it is to learn a shortcut, is useful to mitigate the problem. Thus, we first examine the learnability of the representative shortcuts on extractive and multiple-choice QA datasets. Behavioral tests using biased training sets reveal that shortcuts that exploit answer positions and word-label correlations are preferentially learned for extractive and multiple-choice QA, respectively. We find that the more learnable a shortcut is, the flatter and deeper the loss landscape is around the shortcut solution in the parameter space. We also find that the availability of the preferred shortcuts tends to make the task easier to perform from an information-theoretic viewpoint. Lastly, we experimentally show that the learnability of shortcuts can be utilized to construct an effective QA training set; the more learnable a shortcut is, the smaller the proportion of anti-shortcut examples required to achieve comparable performance on shortcut and anti-shortcut examples. We claim that the learnability of shortcuts should be considered when designing mitigation methods.
翻訳日:2022-11-30 16:03:30 公開日:2022-11-29
# 計測ツールの測定:テキストコーパスにおける意味尺度の自動評価

Measuring the Measuring Tools: An Automatic Evaluation of Semantic Metrics for Text Corpora ( http://arxiv.org/abs/2211.16259v1 )

ライセンス: Link先を確認
George Kour, Samuel Ackerman, Orna Raz, Eitan Farchi, Boaz Carmeli, Ateret Anaby-Tavor(参考訳) テキストコーパス間の意味的類似性を比較する能力は、自然言語処理アプリケーションにおいて重要である。 しかし、これらのメトリクスを評価する標準的な方法はまだ確立されていない。 本稿では,コーパスレベルの意味的類似度指標の特性を評価するための,自動的かつ解釈可能な尺度を提案する。 本研究は,古典的,最先端のメトリクスのコレクション上で評価することで,基本的特性の把握における評価尺度の有効性を示す。 その結果,最近開発された指標は意味的分布ミスマッチの同定に優れており,古典的指標は表層テキストレベルの摂動に敏感であることがわかった。

The ability to compare the semantic similarity between text corpora is important in a variety of natural language processing applications. However, standard methods for evaluating these metrics have yet to be established. We propose a set of automatic and interpretable measures for assessing the characteristics of corpus-level semantic similarity metrics, allowing sensible comparison of their behavior. We demonstrate the effectiveness of our evaluation measures in capturing fundamental characteristics by evaluating them on a collection of classical and state-of-the-art metrics. Our measures revealed that recently-developed metrics are becoming better in identifying semantic distributional mismatch while classical metrics are more sensitive to perturbations in the surface text levels.
翻訳日:2022-11-30 16:03:02 公開日:2022-11-29
# TyDiP:9言語多言語におけるポリテネス分類のためのデータセット

TyDiP: A Dataset for Politeness Classification in Nine Typologically Diverse Languages ( http://arxiv.org/abs/2211.16496v1 )

ライセンス: Link先を確認
Anirudh Srinivasan, Eunsol Choi(参考訳) 類型的多様言語9言語における丁寧さ現象について検討する。 丁寧さはコミュニケーションの重要な側面であり、文化的に特有であるが、既存の計算言語学の研究は英語に限られている。 tydipは、各言語で500例の3方向の丁寧なアノテーションを含むデータセットで、総計4.5k例です。 我々は、多言語モデルが丁寧さのレベルをいかに正確に識別できるかを評価する -- かなり堅牢なゼロショット転送能力を示すが、推定された人間の正確さにかなり不足する。 さらに、英語の丁寧性戦略レキシコンを、自動翻訳と語彙誘導によって9つの言語にマッピングし、各戦略の影響が言語間で一定であるかどうかを解析する。 最後に,伝達実験を通して形式性と丁寧さの複雑な関係を実証的に研究する。 我々は,多言語モデルの評価から丁寧な多言語エージェントの構築に至るまで,我々のデータセットが様々な研究課題や応用をサポートすることを願っている。

We study politeness phenomena in nine typologically diverse languages. Politeness is an important facet of communication and is sometimes argued to be cultural-specific, yet existing computational linguistic study is limited to English. We create TyDiP, a dataset containing three-way politeness annotations for 500 examples in each language, totaling 4.5K examples. We evaluate how well multilingual models can identify politeness levels -- they show a fairly robust zero-shot transfer ability, yet fall short of estimated human accuracy significantly. We further study mapping the English politeness strategy lexicon into nine languages via automatic translation and lexicon induction, analyzing whether each strategy's impact stays consistent across languages. Lastly, we empirically study the complicated relationship between formality and politeness through transfer experiments. We hope our dataset will support various research questions and applications, from evaluating multilingual models to constructing polite multilingual agents.
翻訳日:2022-11-30 16:02:49 公開日:2022-11-29
# 統計的形状モデル間の交点近似と差

Approximating Intersections and Differences Between Statistical Shape Models ( http://arxiv.org/abs/2211.16314v1 )

ライセンス: Link先を確認
Maximilian Weiherer, Finn Klein, Bernhard Egger(参考訳) 現在まで、統計形状モデル(SSM)の比較は単に性能に基づくものであり、コンパクト性、一般化、特異性といった単純な指標を用いて行われることが多い。 実際の形状空間間の類似性や違いは可視化も定量化もできない。 本稿では, 近似交叉空間を計算し, 密接対応における2つのssmを比較する最初の方法と, モデルにまたがるアフィンベクトル空間との集合論的差異について述べる。 この目的のために、マルコフ・チェイン・モンテカルロを用いて交差点空間に横たわる形状の分布を近似し、そのサンプルに主成分分析(PCA)を適用する。 得られた空間を再びSSMとして表現することにより、2つのモデルの形状空間間の類似性を簡単に直感的に解析できる。 同様の方法でSSMの違いを推定するが、結果として得られる形状空間はもはや線型ベクトル空間ではなく、PCAを適用するのではなく、後続サンプルを用いて視覚化する。 提案アルゴリズムは交叉空間の計算と解析により質的に検証され,男女差に着目した公用顔モデルと同一性および表現モデルの違いを示す。 合成および実世界のデータセットから構築したSSMを定量的に評価することにより,提案手法が地絡空間と相違を回復できることを示す。 最後に,提案アルゴリズムは,色空間間の交叉や差の計算にも容易に適用可能であることを示す。

To date, the comparison of Statistical Shape Models (SSMs) is often solely performance-based and carried out by means of simplistic metrics such as compactness, generalization, or specificity. Any similarities or differences between the actual shape spaces can neither be visualized nor quantified. In this paper, we present a first method to compare two SSMs in dense correspondence by computing approximate intersection spaces and set-theoretic differences between the affine vector spaces spanned by the models. To this end, we approximate the distribution of shapes lying in the intersection space using Markov Chain Monte Carlo, and then apply Principal Component Analysis (PCA) to its samples. By representing the resulting spaces again as an SSM, our method enables an easy and intuitive analysis of similarities between two model's shape spaces. We estimate differences between SSMs in a similar manner; here, however, the resulting shape spaces are not linear vector spaces anymore and we do not apply PCA but instead use the posterior samples for visualization. We showcase the proposed algorithm qualitatively by computing and analyzing intersection spaces and differences between publicly available face models focusing on gender-specific male and female as well as identity and expression models. Our quantitative evaluation based on SSMs built from synthetic and real-world data sets provides detailed evidence that the introduced method is able to recover ground-truth intersection spaces and differences. Finally, we demonstrate that the proposed algorithm can be easily adapted to also compute intersections and differences between color spaces.
翻訳日:2022-11-30 15:56:14 公開日:2022-11-29
# 連続データの限界におけるwsindyアルゴリズムの漸近的一貫性

Asymptotic consistency of the WSINDy algorithm in the limit of continuum data ( http://arxiv.org/abs/2211.16000v1 )

ライセンス: Link先を確認
Daniel A. Messenger and David M. Bortz(参考訳) 本研究では, 非線形力学アルゴリズム (WSINDy) の弱形スパース同定の漸近一貫性について, 解の雑音サンプルからの微分方程式の同定について検討する。 ウォシンディ推定器は、ナヴィエ・ストークス方程式や蔵本・シヴァシンスキー方程式を含む幅広い種類のモデルに対して無条件に漸近的に一致することが証明される。 したがって,弱形式方程式学習の雑音に対する観測ロバスト性について数学的に厳密な説明を与える。 逆に、wsindy推定器は条件的に漸近的に一貫性があり、ノイズレベルが臨界しきい値を超え、非線形性が十分に速い成長を示す場合、確率 1 のスプリアス項の発見をもたらす。 ガウスホワイトノイズの場合の臨界雑音閾値の明示的境界を導出し、三角法および多項式モデル非線形性の場合のこれらのスプリアス項の明示的特徴を与える。 しかし、この負の結果を裏打ちする銀は、データが適切に分解された場合(単純な移動平均フィルタで十分)、局所リプシッツ非線形性を持つモデルの無条件漸近一貫性を回復するということである。 以上の結果から,将来のアルゴリズム改善に有効な弱形式方程式学習の重要な側面が明らかになった。 本稿では,ロレンツ系,立方振動子,粘性バーガース成長モデル,倉本-シヴァシンスキー型高次PDEを用いて数値実験を行った。

In this work we study the asymptotic consistency of the weak-form sparse identification of nonlinear dynamics algorithm (WSINDy) in the identification of differential equations from noisy samples of solutions. We prove that the WSINDy estimator is unconditionally asymptotically consistent for a wide class of models which includes the Navier-Stokes equations and the Kuramoto-Sivashinsky equation. We thus provide a mathematically rigorous explanation for the observed robustness to noise of weak-form equation learning. Conversely, we also show that in general the WSINDy estimator is only conditionally asymptotically consistent, yielding discovery of spurious terms with probability one if the noise level is above some critical threshold and the nonlinearities exhibit sufficiently fast growth. We derive explicit bounds on the critical noise threshold in the case of Gaussian white noise and provide an explicit characterization of these spurious terms in the case of trigonometric and/or polynomial model nonlinearities. However, a silver lining to this negative result is that if the data is suitably denoised (a simple moving average filter is sufficient), then we recover unconditional asymptotic consistency on the class of models with locally-Lipschitz nonlinearities. Altogether, our results reveal several important aspects of weak-form equation learning which may be used to improve future algorithms. We demonstrate our results numerically using the Lorenz system, the cubic oscillator, a viscous Burgers growth model, and a Kuramoto-Sivashinsky-type higher-order PDE.
翻訳日:2022-11-30 15:55:50 公開日:2022-11-29
# ヘビーテール分布に対するoutlier-robust sparse平均推定

Outlier-Robust Sparse Mean Estimation for Heavy-Tailed Distributions ( http://arxiv.org/abs/2211.16333v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Jasper C.H. Lee, Ankit Pensia(参考訳) 本研究では,大口径分布における外乱平均推定の基本的な課題について検討する。 特に、$\mu$ の平均がスパースであることが保証される高次元の重尾分布から少数の腐敗したサンプルを与えられた場合、目標は$\mu$ を高い確率で正確に近似する仮説を効率的に計算することである。 以前の研究では、光尾分布のロバストなスパース平均推定のための効率的なアルゴリズムが得られた。 本研究では,軽度モーメント仮定下での重み付き分布に対して,最初のサンプル効率と多項式時間ロバストなスパース平均推定器を与える。 本アルゴリズムは,環境次元と対数的にスケーリングする多数のサンプルを用いて,最適漸近誤差を達成する。 重要なことに、本手法のサンプル複雑性は、付加的な$\log(1/\tau)$依存を持つ失敗確率$\tau$の関数として最適である。 本アルゴリズムは,アルゴリズムのロバストな統計文献からの安定性に基づくアプローチを活用し,決定的(かつ必要)な適応を行う。 この解析は独立な興味を持ち、ある種のスパーシティ特性を満たす正の半定義行列に対する(非スペクトル)分解の繊細な設計を含む。

We study the fundamental task of outlier-robust mean estimation for heavy-tailed distributions in the presence of sparsity. Specifically, given a small number of corrupted samples from a high-dimensional heavy-tailed distribution whose mean $\mu$ is guaranteed to be sparse, the goal is to efficiently compute a hypothesis that accurately approximates $\mu$ with high probability. Prior work had obtained efficient algorithms for robust sparse mean estimation of light-tailed distributions. In this work, we give the first sample-efficient and polynomial-time robust sparse mean estimator for heavy-tailed distributions under mild moment assumptions. Our algorithm achieves the optimal asymptotic error using a number of samples scaling logarithmically with the ambient dimension. Importantly, the sample complexity of our method is optimal as a function of the failure probability $\tau$, having an additive $\log(1/\tau)$ dependence. Our algorithm leverages the stability-based approach from the algorithmic robust statistics literature, with crucial (and necessary) adaptations required in our setting. Our analysis may be of independent interest, involving the delicate design of a (non-spectral) decomposition for positive semi-definite matrices satisfying certain sparsity properties.
翻訳日:2022-11-30 15:55:25 公開日:2022-11-29
# GPT-3によるゼロショットオピニオン要約

Zero-Shot Opinion Summarization with GPT-3 ( http://arxiv.org/abs/2211.15914v1 )

ライセンス: Link先を確認
Adithya Bhaskar, Alexander R. Fabbri and Greg Durrett(参考訳) GPT-3のような非常に大きな言語モデルは、テキストの要約を含む様々なタスクで顕著なパフォーマンスを示している。 本稿では,この強力な性能が意見要約にまで及んでいることを示す。 本稿では,再帰的要約に基づくアプローチや,教師付きクラスタリングや抽出を通じて要約すべきサレントコンテンツの選択など,多数のユーザレビューをゼロショットで要約するためにgpt-3を適用するパイプライン手法について検討する。 ホテルレビューのアスペクト指向要約データセットとAmazonとYelpレビューの汎用要約データセットの2つのデータセットにおいて、GPT-3モデルは人的評価において非常に高い性能を発揮することを示す。 我々は,標準評価指標がこれを反映していないことを論じ,これらの異なる手法を対比するために,忠実さ,事実性,汎用性を標的としたいくつかの新しい尺度に対して評価を行う。

Very large language models such as GPT-3 have shown impressive performance across a wide variety of tasks, including text summarization. In this paper, we show that this strong performance extends to opinion summarization. We explore several pipeline methods for applying GPT-3 to summarize a large collection of user reviews in a zero-shot fashion, notably approaches based on recursive summarization and selecting salient content to summarize through supervised clustering or extraction. On two datasets, an aspect-oriented summarization dataset of hotel reviews and a generic summarization dataset of Amazon and Yelp reviews, we show that the GPT-3 models achieve very strong performance in human evaluation. We argue that standard evaluation metrics do not reflect this, and evaluate against several new measures targeting faithfulness, factuality, and genericity to contrast these different methods.
翻訳日:2022-11-30 15:54:13 公開日:2022-11-29
# botsim:商用タスク指向対話システムのためのエンドツーエンドボットシミュレーションツールキット

BotSIM: An End-to-End Bot Simulation Toolkit for Commercial Task-Oriented Dialog Systems ( http://arxiv.org/abs/2211.15916v1 )

ライセンス: Link先を確認
Guangsen Wang and Shafiq Joty and Junnan Li and Steven Hoi(参考訳) 本稿では,ダイアログ生成,ユーザシミュレーション,会話分析機能を備えたモジュール型オープンソースのBot SIMulation環境であるBotSIMを紹介する。 BotSIMは、商用タスク指向対話(TOD)システムの大規模データ効率評価、診断、修復のためのワンストップソリューションとして機能し、商用ボットの開発と評価を著しく加速し、コスト削減と市場投入までの時間を短縮することを目的としている。 BotSIMはインフラストラクチャ層、アダプタ層、アプリケーション層で構成される層設計を採用する。 インフラストラクチャ層は、BotSIMの主要な機能をサポートするための重要なモデルとコンポーネントを、合理化された"ジェネレーション・シミュレーション・リメディエーション"パイプラインを通じてホストする。 アダプタ層は、新しいボットプラットフォームに対応するためにBotSIMを拡張するために使用される。 アプリケーション層は一連のコマンドラインツールとWebアプリケーションを提供し、ボット管理者や実践者のようなBotSIMユーザのエントリ障壁を著しく低くする。 本報告では,各種システムコンポーネントの技術設計について述べる。 Einstein BotBuilderを用いた詳細なケーススタディも紹介され、ボットの評価と修復にBotSIMパイプラインを適用する方法が示されている。 詳細なシステム説明は,システムデモ論文で確認することができる。 ツールキットは、https://github.com/salesforce/BotSIM で入手できる。

We introduce BotSIM, a modular, open-source Bot SIMulation environment with dialog generation, user simulation and conversation analytics capabilities. BotSIM aims to serve as a one-stop solution for large-scale data-efficient end-to-end evaluation, diagnosis and remediation of commercial task-oriented dialog (TOD) systems to significantly accelerate commercial bot development and evaluation, reduce cost and time-to-market. BotSIM adopts a layered design comprising the infrastructure layer, the adaptor layer and the application layer. The infrastructure layer hosts key models and components to support BotSIM's major functionalities via a streamlined "generation-simulation-remediation" pipeline. The adaptor layer is used to extend BotSIM to accommodate new bot platforms. The application layer provides a suite of command line tools and a Web App to significantly lower the entry barrier for BotSIM users such as bot admins or practitioners. In this report, we focus on the technical designs of various system components. A detailed case study using Einstein BotBuilder is also presented to show how to apply BotSIM pipeline for bot evaluation and remediation. The detailed system descriptions can be found in our system demo paper. The toolkit is available at: https://github.com/salesforce/BotSIM .
翻訳日:2022-11-30 15:54:00 公開日:2022-11-29
# 新しい言語に対する多言語事前学習モデルのサブワードモデルの拡張

Extending the Subwording Model of Multilingual Pretrained Models for New Languages ( http://arxiv.org/abs/2211.15965v1 )

ライセンス: Link先を確認
Kenji Imamura and Eiichiro Sumita(参考訳) 多言語事前学習モデルは、1つのモデルに複数の言語を含むため、機械翻訳や言語間処理に有効である。 しかし、トークン化器が固定された後に事前学習されるため、事前学習後の語彙変更は困難である。 事前訓練されたモデルを新しい言語に拡張する場合、トークン化器を同時に修正する必要があります。 本稿では,SentencePieceトークンに新たなサブワードを追加し,多言語事前学習モデルを新しい言語に適用する(Inuktitut in this paper)。 実験では、すでに訓練済みの言語のセグメンテーションを変更することなく、Inuktitut文をサブワードに分割し、mBART-50事前学習モデルを英語-イヌクティトゥット翻訳に適用した。

Multilingual pretrained models are effective for machine translation and cross-lingual processing because they contain multiple languages in one model. However, they are pretrained after their tokenizers are fixed; therefore it is difficult to change the vocabulary after pretraining. When we extend the pretrained models to new languages, we must modify the tokenizers simultaneously. In this paper, we add new subwords to the SentencePiece tokenizer to apply a multilingual pretrained model to new languages (Inuktitut in this paper). In our experiments, we segmented Inuktitut sentences into subwords without changing the segmentation of already pretrained languages, and applied the mBART-50 pretrained model to English-Inuktitut translation.
翻訳日:2022-11-30 15:53:39 公開日:2022-11-29
# FakeEdge: リンク予測におけるデータセットシフトの軽減

FakeEdge: Alleviate Dataset Shift in Link Prediction ( http://arxiv.org/abs/2211.15899v1 )

ライセンス: Link先を確認
Kaiwen Dong, Yijun Tian, Zhichun Guo, Yang Yang, Nitesh V. Chawla(参考訳) グラフ構造データではリンク予測が重要な問題である。 近年、グラフニューラルネットワーク(GNN)の成功により、リンク予測タスクに取り組むために、さまざまなGNNベースのモデルが提案されている。 具体的には、GNNはメッセージパッシングパラダイムを利用して、リンク接続に依存するノード表現を得る。 しかし、リンク予測タスクでは、トレーニングセット内のリンクは常に存在し、テストセット内のリンクはまだ形成されていないため、接続パターンと学習された表現のバイアスとの相違が生じる。 これは、モデルパフォーマンスを劣化させるデータセットシフトの問題につながる。 本稿では,まず,リンク予測タスクにおけるデータセットシフト問題を特定し,既存のリンク予測手法の脆弱性に関する理論的解析を行う。 次に,モデルに依存しない手法であるfakeedgeを提案し,トレーニングとテストセット間のグラフトポロジ的ギャップを緩和する。 大規模な実験は、さまざまなドメインにわたる複数のデータセットに対するFakeEdgeの適用性と優位性を示している。

Link prediction is a crucial problem in graph-structured data. Due to the recent success of graph neural networks (GNNs), a variety of GNN-based models were proposed to tackle the link prediction task. Specifically, GNNs leverage the message passing paradigm to obtain node representation, which relies on link connectivity. However, in a link prediction task, links in the training set are always present while ones in the testing set are not yet formed, resulting in a discrepancy of the connectivity pattern and bias of the learned representation. It leads to a problem of dataset shift which degrades the model performance. In this paper, we first identify the dataset shift problem in the link prediction task and provide theoretical analyses on how existing link prediction methods are vulnerable to it. We then propose FakeEdge, a model-agnostic technique, to address the problem by mitigating the graph topological gap between training and testing sets. Extensive experiments demonstrate the applicability and superiority of FakeEdge on multiple datasets across various domains.
翻訳日:2022-11-30 15:47:50 公開日:2022-11-29
# マルチプレイヤーバンディットに関する調査

A survey on multi-player bandits ( http://arxiv.org/abs/2211.16275v1 )

ライセンス: Link先を確認
Etienne Boursier, Vianney Perchet(参考訳) 主にコグニティブ・ラジオ・ネットワークへの応用のため、マルチプレイヤー・バンディットは過去10年間、多くの関心を集めてきた。 その理論的な側面でかなりの進歩があった。 しかし、現在のアルゴリズムは適用範囲が遠く、これらの理論的な結果と、実際の認知無線ネットワークにおけるマルチプレイヤーバンディットアルゴリズムの実装との間には多くの障害が残っている。 この調査は、リッチなマルチプレイヤーバンディット文学を文脈化し、整理する。 既存の研究を鑑みると、今後の研究の方向性が明らかになる。 これらの異なる方向のさらなる研究は、現実の状況に適応した理論的なアルゴリズムにつながるかもしれないと考えている。

Due mostly to its application to cognitive radio networks, multiplayer bandits gained a lot of interest in the last decade. A considerable progress has been made on its theoretical aspect. However, the current algorithms are far from applicable and many obstacles remain between these theoretical results and a possible implementation of multiplayer bandits algorithms in real cognitive radio networks. This survey contextualizes and organizes the rich multiplayer bandits literature. In light of the existing works, some clear directions for future research appear. We believe that a further study of these different directions might lead to theoretical algorithms adapted to real-world situations.
翻訳日:2022-11-30 15:47:34 公開日:2022-11-29
# 逐次的タイミングを考慮したベイズ半パラメトリックモデル

Bayesian Semiparametric Model for Sequential Treatment Decisions with Informative Timing ( http://arxiv.org/abs/2211.16393v1 )

ライセンス: Link先を確認
Arman Oganisian, Kelly D. Getz, Todd A. Alonzo, Richard Aplenc, Jason A. Roy(参考訳) 小児急性骨髄性白血病(AML)患者の生存に対する動的治療規則の影響を推定するためのベイズ半パラメトリックモデルを開発した。 データは、第iii相aaml1031臨床試験に登録された患者のサブセットで構成され、患者は4つの治療コースのシーケンスを経る。 それぞれのコースで、アントラサイクリン(act)を含むか、含まないかの治療法を受ける。 ACTはAMLの治療に有効であることが知られているが、心毒性もあり、一部の患者では早期死亡につながることがある。 本研究の目的は, 動的行動療法における生存確率を推定することであるが, 障害はいくつか存在する。 第一に、ACTは試験でランダム化されなかったため、生存に対する効果は時間の経過とともに確立された。 第二に、被験者は前回のコースから回復した時期に応じて次のコースを開始する。 第3に、患者は完全な治療シーケンスが完了する前に死ぬか退院することがある。 我々はこれらの複雑さに対処するためにガンマ過程に基づくベイズ半パラメトリック生成モデルを開発する。 各治療コースにおいて、モデルは、所定の規則の下で、被験者のその後の治療または死への遷移をキャプチャする。 g-computation(g計算)は、時間変化の共起のために調整された潜在的生存確率の後方を計算するために用いられる。 このアプローチを用いて,心機能発達に基づくactを動的に修飾する仮説的治療規則の有効性を後方推定する。

We develop a Bayesian semi-parametric model for the estimating the impact of dynamic treatment rules on survival among patients diagnosed with pediatric acute myeloid leukemia (AML). The data consist of a subset of patients enrolled in the phase III AAML1031 clinical trial in which patients move through a sequence of four treatment courses. At each course, they undergo treatment that may or may not include anthracyclines (ACT). While ACT is known to be effective at treating AML, it is also cardiotoxic and can lead to early death for some patients. Our task is to estimate the potential survival probability under hypothetical dynamic ACT treatment strategies, but there are several impediments. First, since ACT was not randomized in the trial, its effect on survival is confounded over time. Second, subjects initiate the next course depending on when they recover from the previous course, making timing potentially informative of subsequent treatment and survival. Third, patients may die or drop out before ever completing the full treatment sequence. We develop a generative Bayesian semi-parametric model based on Gamma Process priors to address these complexities. At each treatment course, the model captures subjects' transition to subsequent treatment or death in continuous time under a given rule. A g-computation procedure is used to compute a posterior over potential survival probability that is adjusted for time-varying confounding. Using this approach, we conduct posterior inference for the efficacy of hypothetical treatment rules that dynamically modify ACT based on evolving cardiac function.
翻訳日:2022-11-30 15:47:26 公開日:2022-11-29
# 私のロボットは私の目標を達成するか? MDPポリシーがユーザ特定行動目標に到達する確率を予測する

Will My Robot Achieve My Goals? Predicting the Probability that an MDP Policy Reaches a User-Specified Behavior Target ( http://arxiv.org/abs/2211.16462v1 )

ライセンス: Link先を確認
Alexander Guyer, Thomas G. Dietterich(参考訳) 自律的なシステムがタスクを実行する場合、ユーザの目標を達成する確率のキャリブレーションされた見積もりを維持する必要がある。 その確率が所望のレベルを下回る場合は、適切な介入ができるようにユーザーに警告する必要がある。 本稿では,ユーザの目標を,固定地平線で測定した累積報酬などの実数値パフォーマンスサマリーの目標区間として指定した設定について考察する。 この手法は,各時間に$t \in \{0, \ldots, H-1\}$で,最終累積報酬がユーザ指定の目標区間$[y^-,y^+]に該当する確率のキャリブレーションされた推定値を生成する。 この推定値を使えば、確率が特定のしきい値を下回れば、自律システムはアラームを鳴らすことができる。 我々は共形予測を反転させて確率推定を計算する。 我々の出発点はロマーノ等による共形分位回帰法(conformalized quantile regression, cqr)法であり、分位回帰の結果に分割共形予測を適用する。 CQR は可逆ではないが、条件付き累積分布関数 (CDF) を非整合度測度として用いることで、可逆な修正を得る方法を示し、それを \textbf{P}robability-space \textbf{C}onformalized \textbf{Q}uantile \textbf{R}egression (PCQR) と呼ぶ。 CQRと同様に、PCQRは有限サンプル境界保証付き条件付き予測区間を生成する。 PCQRを反転させることにより、自律システムの累積報酬が任意のユーザ指定対象区間に収まる確率の限界保証を得る。 2つの領域の実験は、これらの確率が十分に校正されていることを確認した。

As an autonomous system performs a task, it should maintain a calibrated estimate of the probability that it will achieve the user's goal. If that probability falls below some desired level, it should alert the user so that appropriate interventions can be made. This paper considers settings where the user's goal is specified as a target interval for a real-valued performance summary, such as the cumulative reward, measured at a fixed horizon $H$. At each time $t \in \{0, \ldots, H-1\}$, our method produces a calibrated estimate of the probability that the final cumulative reward will fall within a user-specified target interval $[y^-,y^+].$ Using this estimate, the autonomous system can raise an alarm if the probability drops below a specified threshold. We compute the probability estimates by inverting conformal prediction. Our starting point is the Conformalized Quantile Regression (CQR) method of Romano et al., which applies split-conformal prediction to the results of quantile regression. CQR is not invertible, but by using the conditional cumulative distribution function (CDF) as the non-conformity measure, we show how to obtain an invertible modification that we call \textbf{P}robability-space \textbf{C}onformalized \textbf{Q}uantile \textbf{R}egression (PCQR). Like CQR, PCQR produces well-calibrated conditional prediction intervals with finite-sample marginal guarantees. By inverting PCQR, we obtain marginal guarantees for the probability that the cumulative reward of an autonomous system will fall within an arbitrary user-specified target intervals. Experiments on two domains confirm that these probabilities are well-calibrated.
翻訳日:2022-11-30 15:47:03 公開日:2022-11-29
# 自己教師型音声モデルに対するモデル抽出攻撃

Model Extraction Attack against Self-supervised Speech Models ( http://arxiv.org/abs/2211.16044v1 )

ライセンス: Link先を確認
Tsu-Yuan Hsu, Chen-An Li, Tung-Yu Wu, Hung-yi Lee(参考訳) 自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成し、様々な下流タスクで素晴らしいパフォーマンスを達成する。 モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。 本研究では,少数のクエリを持つSSL音声モデルに対するMEA問題について検討する。 モデル抽出のための2段階フレームワークを提案する。 第1段階では、SSLは大規模未ラベルコーパス上で実施され、小さな音声モデルを事前訓練する。 第2に,ラベルのないコーパスから少数のクリップを積極的にサンプリングし,これらのクリップでターゲットモデルを照会し,その表現をラベルとして取得し,第2段階のトレーニングを行う。 実験の結果,本手法はモデル構造に関する情報を知らずに対象モデルを効果的に抽出できることがわかった。

Self-supervised learning (SSL) speech models generate meaningful representations of given clips and achieve incredible performance across various downstream tasks. Model extraction attack (MEA) often refers to an adversary stealing the functionality of the victim model with only query access. In this work, we study the MEA problem against SSL speech model with a small number of queries. We propose a two-stage framework to extract the model. In the first stage, SSL is conducted on the large-scale unlabeled corpus to pre-train a small speech model. Secondly, we actively sample a small portion of clips from the unlabeled corpus and query the target model with these clips to acquire their representations as labels for the small model's second-stage training. Experiment results show that our sampling methods can effectively extract the target model without knowing any information about its model architecture.
翻訳日:2022-11-30 15:46:29 公開日:2022-11-29
# 自律型ドローンシステムの探索と検出:設計から実装へ

A Search and Detection Autonomous Drone System: from Design to Implementation ( http://arxiv.org/abs/2211.15866v1 )

ライセンス: Link先を確認
Mohammadjavad Khosravi, Rushiv Arora, Saeede Enayati, and Hossein Pishro-Nik(参考訳) 無人ドローンや無人航空機(UAV)を利用することは、捜索救助(SAR)や山火事検出といった緊急シナリオをサポートする上で、以前の方法よりも大きな利点を示している。 これらの運用では,行方不明者の生存可能性の低下や,悲惨な結果によって野火の管理が難しくなるため,目標発見に要する時間量という観点での探索効率が重要である。 本研究は、ドローンが行方不明者(例えば、ハイカーや登山家)や、ある地域にある潜在的な火災箇所を捜索し、発見することを意図したシナリオであると考えられている。 ターゲットへの最短経路を得るため、ターゲットの位置が確率的に知られている場合にターゲット検出の問題をモデル化する汎用フレームワークを提供する。 この目的のために、経路計画と目標検出という2つのアルゴリズムが提案されている。 経路計画アルゴリズムはベイズ推定に基づいており、ターゲット検出は、ドローンがキャプチャした画像データセットとWeb上の既存の画像およびデータセットに基づいて訓練された残留ニューラルネットワーク(ResNet)によって達成される。 シミュレーションと実験により,提案する経路計画アルゴリズムを2つのベンチマークアルゴリズムと比較した。 その結果,提案アルゴリズムはミッションの平均時間を大幅に短縮することがわかった。

Utilizing autonomous drones or unmanned aerial vehicles (UAVs) has shown great advantages over preceding methods in support of urgent scenarios such as search and rescue (SAR) and wildfire detection. In these operations, search efficiency in terms of the amount of time spent to find the target is crucial since with the passing of time the survivability of the missing person decreases or wildfire management becomes more difficult with disastrous consequences. In this work, it is considered a scenario where a drone is intended to search and detect a missing person (e.g., a hiker or a mountaineer) or a potential fire spot in a given area. In order to obtain the shortest path to the target, a general framework is provided to model the problem of target detection when the target's location is probabilistically known. To this end, two algorithms are proposed: Path planning and target detection. The path planning algorithm is based on Bayesian inference and the target detection is accomplished by means of a residual neural network (ResNet) trained on the image dataset captured by the drone as well as existing pictures and datasets on the web. Through simulation and experiment, the proposed path planning algorithm is compared with two benchmark algorithms. It is shown that the proposed algorithm significantly decreases the average time of the mission.
翻訳日:2022-11-30 15:45:34 公開日:2022-11-29
# 継続的学習の脆弱性を狙う学習時間対向攻撃

Training Time Adversarial Attack Aiming the Vulnerability of Continual Learning ( http://arxiv.org/abs/2211.15875v1 )

ライセンス: Link先を確認
Gyojin Han, Jaehyun Choi, Hyeong Gwon Hong, Junmo Kim(参考訳) 一般に、正規化に基づく連続学習モデルは、メモリとプライバシの問題のある現実世界の設定を模倣するために、以前のタスクデータへのアクセスを制限する。 しかし、これは各タスクのパフォーマンスを追跡できないことで、これらのモデルに問題をもたらす。 言い換えれば、現在の連続学習方法は、前回のタスクで行われる攻撃に対して脆弱である。 新しいタスクの学習プロセスで使用できる単純なタスク固有の訓練時間対逆攻撃を提示することにより、正規化に基づく連続学習手法の脆弱性を実証する。 提案した攻撃によって生成されたトレーニングデータは、攻撃者がターゲットとする特定のタスクのパフォーマンス劣化を引き起こす。 実験結果は,本論文で提案する脆弱性を正当化し,敵の攻撃に頑健な連続学習モデルの開発の重要性を実証する。

Generally, regularization-based continual learning models limit access to the previous task data to imitate the real-world setting which has memory and privacy issues. However, this introduces a problem in these models by not being able to track the performance on each task. In other words, current continual learning methods are vulnerable to attacks done on the previous task. We demonstrate the vulnerability of regularization-based continual learning methods by presenting simple task-specific training time adversarial attack that can be used in the learning process of a new task. Training data generated by the proposed attack causes performance degradation on a specific task targeted by the attacker. Experiment results justify the vulnerability proposed in this paper and demonstrate the importance of developing continual learning models that are robust to adversarial attack.
翻訳日:2022-11-30 15:45:14 公開日:2022-11-29
# 解釈は信頼できない: 解釈可能な深層学習に対するステルス的かつ効果的な敵対的摂動

Interpretations Cannot Be Trusted: Stealthy and Effective Adversarial Perturbations against Interpretable Deep Learning ( http://arxiv.org/abs/2211.15926v1 )

ライセンス: Link先を確認
Eldor Abdukhamidov, Mohammed Abuhamad, Simon S. Woo, Eric Chan-Tin, Tamer Abuhmed(参考訳) ディープラーニングの方法は、その優れたパフォーマンスのために、さまざまなアプリケーションで注目を集めています。 この高いパフォーマンスがデータアーチファクトの適切な使用と与えられたタスクの正確な問題定式化にどのように関係しているかを調べるために、解釈モデルはディープラーニングベースのシステムの開発において重要な要素となっている。 解釈モデルは、ディープラーニングモデルの内部動作の理解を可能にし、入力データ内のアーティファクトの誤用を検出するためのセキュリティの感覚を提供する。 予測モデルと同様に、解釈モデルは逆入力にも影響を受けやすい。 この研究は、ターゲットとなるディープラーニングモデルと結合解釈モデルの両方を欺く、advedgeとadvedge$^{+}$という2つの攻撃を導入している。 本研究では,2つのディープラーニングモデルアーキテクチャに対する攻撃の有効性を,異なる解釈モデルのカテゴリを表す4つの解釈モデルと組み合わせて評価する。 実験は様々な攻撃フレームワークを用いた攻撃実装を含む。 このような攻撃に対する潜在的な対策についても検討する。 本分析は,深層学習モデルとそのインタプリタを欺くことによる攻撃の有効性を示し,攻撃の改善と回避のための洞察を強調する。

Deep learning methods have gained increased attention in various applications due to their outstanding performance. For exploring how this high performance relates to the proper use of data artifacts and the accurate problem formulation of a given task, interpretation models have become a crucial component in developing deep learning-based systems. Interpretation models enable the understanding of the inner workings of deep learning models and offer a sense of security in detecting the misuse of artifacts in the input data. Similar to prediction models, interpretation models are also susceptible to adversarial inputs. This work introduces two attacks, AdvEdge and AdvEdge$^{+}$, that deceive both the target deep learning model and the coupled interpretation model. We assess the effectiveness of proposed attacks against two deep learning model architectures coupled with four interpretation models that represent different categories of interpretation models. Our experiments include the attack implementation using various attack frameworks. We also explore the potential countermeasures against such attacks. Our analysis shows the effectiveness of our attacks in terms of deceiving the deep learning models and their interpreters, and highlights insights to improve and circumvent the attacks.
翻訳日:2022-11-30 15:45:01 公開日:2022-11-29
# 事前学習と意味損失を用いたシンボリック予測のためのニューラル特徴適応

Neural Feature-Adaptation for Symbolic Predictions Using Pre-Training and Semantic Loss ( http://arxiv.org/abs/2211.16047v1 )

ライセンス: Link先を確認
Vedant Shah, Aditya Agrawal, Lovekesh Vig, Ashwin Srinivasan, Gautam Shroff, Tanmay Verlekar(参考訳) 我々は,人間の理解不能な概念から説明可能な予測を行う高レベルなシンボル層と,その説明を生成するために必要なシンボルを抽出する低レベルなニューラル層とからなるニューロシンボリックシステムに興味を持っている。 実データはしばしば不完全であり、たとえ記号理論が変わらずであっても、データ取得環境や機器に変化があるたびに、生データを高レベルなシンボルにマッピングする問題に対処する必要がある。 これが起こるたびに生データを手動で(再)注釈付けすることは面倒で高価であり、特に複雑な問題に対して自動ラベリング手法は不完全であることが多い。 NEUROLOGは、'abduction'を使って、既存の特徴ベースのシンボルモデルで生データから特徴値の抽出をガイドできる意味損失関数の使用を提案した。 しかし, 減量による意味的損失の活用を実証する実験は, 原データ中の特徴位置の事前記述を可能にする, ドメイン固有の前処理ステップに大きく依存しているように見える。 このような前処理が不可能あるいは明確でない領域における意味的損失の使用について検討する。 NEUROLOGの手法は,機能に関する事前情報がないと,実質的に不正確な特徴予測であっても,正確な予測を継続できることを示す。 また,不完全な事前学習という形での機能に関する事前情報は,この状況の修正に役立つことを示す。 これらの知見は,NEUROLOGが特徴記述を用いることなく,元の問題を再現した。 このことは、帰納的フィードバックに制約された意味的損失関数を用いて、事前学習された神経抽出器の「機能適応」によって、ドメイン内のデータのために構築された記号的説明を関連ドメインで再利用できることを示唆している。

We are interested in neurosymbolic systems consisting of a high-level symbolic layer for explainable prediction in terms of human-intelligible concepts; and a low-level neural layer for extracting symbols required to generate the symbolic explanation. Real data is often imperfect meaning that even if the symbolic theory remains unchanged, we may still need to address the problem of mapping raw data to high-level symbols, each time there is a change in the data acquisition environment or equipment. Manual (re-)annotation of the raw data each time this happens is laborious and expensive; and automated labelling methods are often imperfect, especially for complex problems. NEUROLOG proposed the use of a semantic loss function that allows an existing feature-based symbolic model to guide the extraction of feature-values from raw data, using `abduction'. However, the experiments demonstrating the use of semantic loss through abduction appear to rely heavily on a domain-specific pre-processing step that enables a prior delineation of feature locations in the raw data. We examine the use of semantic loss in domains where such pre-processing is not possible, or is not obvious. We show that without any prior information about the features, the NEUROLOG approach can continue to predict accurately even with substantially incorrect feature predictions. We show also that prior information about the features in the form of even imperfect pre-training can help correct this situation. These findings are replicated on the original problem considered by NEUROLOG, without the use of feature-delineation. This suggests that symbolic explanations constructed for data in a domain could be re-used in a related domain, by `feature-adaptation' of pre-trained neural extractors using the semantic loss function constrained by abductive feedback.
翻訳日:2022-11-30 15:39:19 公開日:2022-11-29
# 時系列相関予測のためのジョイントニューラルアーキテクチャとハイパーパラメータ探索

Joint Neural Architecture and Hyperparameter Search for Correlated Time Series Forecasting ( http://arxiv.org/abs/2211.16126v1 )

ライセンス: Link先を確認
Xinle Wu, Dalin Zhang, Miao Zhang, Chenjuan Guo, Bin Yang, Christian S. Jensen(参考訳) サイバー物理システムのセンサーは、しばしば相互接続されたプロセスをキャプチャし、相関時系列(CTS)を出力する。 CTS予測の成功の鍵は、時系列の時間的ダイナミクスと時系列間の空間的相関を明らかにすることである。 ディープラーニングベースのソリューションは、これらの側面を認識する上で、素晴らしいパフォーマンスを示します。 特に、最適なディープラーニングアーキテクチャの設計が自動化される自動cts予測は、手動アプローチによって達成されたものを超える精度を予測することができる。 しかし、自動化されたCTSソリューションは、まだ初期段階にあり、事前定義されたハイパーパラメーターのための最適なアーキテクチャを見つけることができ、大規模CTSにはあまりスケールしない。 これらの制約を克服するため,我々は,効率的なcts予測モデルを自動的に考案する統合型スケーラブルなフレームワークである検索を提案する。 具体的には,各候補アーキテクチャとそれに伴うハイパーパラメータを結合グラフ表現に符号化する。 アーキテクチャ-ハイパーパラメータ比較器(AHC)を導入して,全てのアーキテクチャ-ハイパーパラメータのペアをランク付けし,さらに上位のペアを評価して最終結果を選択する。 6つのベンチマークデータセットの大規模な実験により、SEARCHは手動の労力を排除しただけでなく、手動設計や既存の自動設計のCTSモデルよりも優れたパフォーマンスを実現している。 さらに、大規模なCTSに対して優れたスケーラビリティを示している。

Sensors in cyber-physical systems often capture interconnected processes and thus emit correlated time series (CTS), the forecasting of which enables important applications. The key to successful CTS forecasting is to uncover the temporal dynamics of time series and the spatial correlations among time series. Deep learning-based solutions exhibit impressive performance at discerning these aspects. In particular, automated CTS forecasting, where the design of an optimal deep learning architecture is automated, enables forecasting accuracy that surpasses what has been achieved by manual approaches. However, automated CTS solutions remain in their infancy and are only able to find optimal architectures for predefined hyperparameters and scale poorly to large-scale CTS. To overcome these limitations, we propose SEARCH, a joint, scalable framework, to automatically devise effective CTS forecasting models. Specifically, we encode each candidate architecture and accompanying hyperparameters into a joint graph representation. We introduce an efficient Architecture-Hyperparameter Comparator (AHC) to rank all architecture-hyperparameter pairs, and we then further evaluate the top-ranked pairs to select a final result. Extensive experiments on six benchmark datasets demonstrate that SEARCH not only eliminates manual efforts but also is capable of better performance than manually designed and existing automatically designed CTS models. In addition, it shows excellent scalability to large CTS.
翻訳日:2022-11-30 15:38:45 公開日:2022-11-29
# Multi-Server Over-the-Air Federated Learning

Multi-Server Over-the-Air Federated Learning ( http://arxiv.org/abs/2211.16162v1 )

ライセンス: Link先を確認
Seyed Mohammad Azimi-Abarghouyi, Viktoria Fodor(参考訳) 本研究では,コアサーバや複数のエッジサーバを含む分散セットアップのための通信効率の高い2層フェデレーション学習アルゴリズムを提案する。 異なる学習タスクを仮定すると、同じタスクを持つクラスタが協力する。 このアルゴリズムを無線リンク上で実装するには,エッジサーバやデバイス数によらず,アルゴリズムイテレーション毎に2つの単一のリソースブロックしか必要としないダウンリンク用の帯域制限されたブロードキャストスキームを備えたアップリンクのためのスケーラブルなクラスタ型無線アグリゲーションスキームを提案する。 このセットアップは、アップリンク内のデバイスの干渉と、厳密にモデル化されるダウンリンク内のエッジサーバの干渉に直面します。 まず,エッジサーバ上のpoissonクラスタプロセスとしてデバイスをモデル化し,その干渉によるアップリンクとダウンリンクのエラー項を定量化することにより,セットアップのための空間モデルを構築した。 そこで本研究では,提案アルゴリズムの収束限界を導出するための包括的数学的手法を提案する。 最後に,提案したアップリンクおよびダウンリンク方式の干渉にもかかわらず,提案アルゴリズムは様々なパラメータに対して高い学習精度を実現することを示す。

In this work, we propose a communication-efficient two-layer federated learning algorithm for distributed setups including a core server and multiple edge servers with clusters of devices. Assuming different learning tasks, clusters with a same task collaborate. To implement the algorithm over wireless links, we propose a scalable clustered over-the-air aggregation scheme for the uplink with a bandwidth-limited broadcast scheme for the downlink that requires only two single resource blocks for each algorithm iteration, independent of the number of edge servers and devices. This setup is faced with interference of devices in the uplink and interference of edge servers in the downlink that are to be modeled rigorously. We first develop a spatial model for the setup by modeling devices as a Poisson cluster process over the edge servers and quantify uplink and downlink error terms due to the interference. Accordingly, we present a comprehensive mathematical approach to derive the convergence bound for the proposed algorithm including any number of collaborating clusters in the setup and provide important special cases and design remarks. Finally, we show that despite the interference in the proposed uplink and downlink schemes, the proposed algorithm achieves high learning accuracy for a variety of parameters.
翻訳日:2022-11-30 15:38:24 公開日:2022-11-29
# 深部生成モデルを用いた条件器による因果推論

Causal Inference with Conditional Instruments using Deep Generative Models ( http://arxiv.org/abs/2211.16246v1 )

ライセンス: Link先を確認
Debo Cheng, Ziqi Xu, Jiuyong Li, Lin Liu, Jixue Liu and Thuc Duy Le(参考訳) インストゥルメンタル変数(IV)アプローチは、潜伏した共同設立者との観察データから興味の結果に対する治療の因果効果を推定するために広く用いられている方法である。 標準ivは処理変数と関連しており、システム内の他の全ての変数とは独立である。 しかし、厳密な条件のため、データから直接標準IVを検索することは困難である。 conditional iv (civ) 法は、変数を変数の集合上の計器コンディショニングとすることを可能にし、可能な ivs をより広く選択し、iv アプローチのより広い実用的応用を可能にするために提案されている。 それでも、データからCIVとその条件セットを直接発見するためのデータ駆動手法は存在しない。 このギャップを埋めるために,本論文では,CIVの情報と条件セットの表現を,潜伏した共同設立者とのデータから学習し,平均因果効果を推定する。 深層生成モデルを利用して,測定変数からCIVの表現を同時に学習し,与えられた条件セットの表現を生成する新しいデータ駆動型手法を開発した。 合成および実世界のデータセットに対する大規模な実験により,本手法は既存のIV法よりも優れた性能を示した。

The instrumental variable (IV) approach is a widely used way to estimate the causal effects of a treatment on an outcome of interest from observational data with latent confounders. A standard IV is expected to be related to the treatment variable and independent of all other variables in the system. However, it is challenging to search for a standard IV from data directly due to the strict conditions. The conditional IV (CIV) method has been proposed to allow a variable to be an instrument conditioning on a set of variables, allowing a wider choice of possible IVs and enabling broader practical applications of the IV approach. Nevertheless, there is not a data-driven method to discover a CIV and its conditioning set directly from data. To fill this gap, in this paper, we propose to learn the representations of the information of a CIV and its conditioning set from data with latent confounders for average causal effect estimation. By taking advantage of deep generative models, we develop a novel data-driven approach for simultaneously learning the representation of a CIV from measured variables and generating the representation of its conditioning set given measured variables. Extensive experiments on synthetic and real-world datasets show that our method outperforms the existing IV methods.
翻訳日:2022-11-30 15:38:02 公開日:2022-11-29
# NCTV:ニューラルネットワークキャリブレーションのためのニューラルネットワーククランプツールキットと可視化

NCTV: Neural Clamping Toolkit and Visualization for Neural Network Calibration ( http://arxiv.org/abs/2211.16274v1 )

ライセンス: Link先を確認
Lei Hsiung, Yung-Chen Tang, Pin-Yu Chen, Tsung-Yi Ho(参考訳) ディープラーニング技術の進歩により、ニューラルネットワークは多くのタスクで正確な予測を提供する優れた能力を示した。 しかし、ニューラルネットワークキャリブレーションに対する考慮の欠如は、高精度なモデルであっても、人間から信頼を得ることはない。 この点において、モデルの予測の信頼性と実際の正確性の間のギャップは、よく校正されたモデルを引き出すために橋渡しされなければならない。 本稿では,neural clamping toolkitを紹介する。これは,開発者が最先端のモデル非依存の校正モデルを採用するための,最初のオープンソースフレームワークである。 さらに,ニューラルネットワークのキャリブレーションを研究者に知らしめるために,実演中のアニメーションやインタラクティブなセクションも提供する。 ツールキットの利用に関するColabチュートリアルも紹介されている。

With the advancement of deep learning technology, neural networks have demonstrated their excellent ability to provide accurate predictions in many tasks. However, a lack of consideration for neural network calibration will not gain trust from humans, even for high-accuracy models. In this regard, the gap between the confidence of the model's predictions and the actual correctness likelihood must be bridged to derive a well-calibrated model. In this paper, we introduce the Neural Clamping Toolkit, the first open-source framework designed to help developers employ state-of-the-art model-agnostic calibrated models. Furthermore, we provide animations and interactive sections in the demonstration to familiarize researchers with calibration in neural networks. A Colab tutorial on utilizing our toolkit is also introduced.
翻訳日:2022-11-30 15:37:39 公開日:2022-11-29
# 微分可能なユーザモデル

Differentiable User Models ( http://arxiv.org/abs/2211.16277v1 )

ライセンス: Link先を確認
Alex H\"am\"al\"ainen (1), Mustafa Mert \c{C}elikok (1), Samuel Kaski (1, 2) ((1) Department of Computer Science, Aalto University, (2) Department of Computer Science, University of Manchester)(参考訳) 確率的ユーザモデリングは、確率的フレームワーク内で協調的なAIシステムを構築するために不可欠である。 しかし、現代の高度なユーザーモデルは、認知行動シミュレータとしてしばしば設計されており、協調AIアシスタントにおけるインタラクティブな使用を計算的に禁止している。 本稿では,この計算ボトルネックを回避するために広く適用可能な微分サロゲートを導入することで,この問題に対処する。 確率自由推論法に匹敵するモデリング能力が実現可能であり、8桁以上の計算時間を短縮できることを実験的に示す。 最後に,これまで研究されてきたメニュー検索タスクにおいて,AIアシスタントが認知モデルをどのように活用できるかを示す。

Probabilistic user modeling is essential for building collaborative AI systems within probabilistic frameworks. However, modern advanced user models, often designed as cognitive behavior simulators, are computationally prohibitive for interactive use in cooperative AI assistants. In this extended abstract, we address this problem by introducing widely-applicable differentiable surrogates for bypassing this computational bottleneck; the surrogates enable using modern behavioral models with online computational cost which is independent of their original computational cost. We show experimentally that modeling capabilities comparable to likelihood-free inference methods are achievable, with over eight orders of magnitude reduction in computational time. Finally, we demonstrate how AI-assistants can computationally feasibly use cognitive models in a previously studied menu-search task.
翻訳日:2022-11-30 15:37:26 公開日:2022-11-29
# より有意義な強化学習表現のための軌道データの対称性検出

Symmetry Detection in Trajectory Data for More Meaningful Reinforcement Learning Representations ( http://arxiv.org/abs/2211.16381v1 )

ライセンス: Link先を確認
Marissa D'Alonzo and Rebecca Russell(参考訳) 強化学習(RL)システムの対称性の知識は、低レベル状態空間の圧縮された意味論的意味のある表現を作成するのに利用できる。 本稿では,システムのアクティブな制御を必要とせず,原軌道データから直接rl対称性を検出する手法を提案する。 本手法は, 候補対称性を生成し, リカレントニューラルネットワーク(rnn)を訓練し, 候補対称性ごとに元の軌道と変換された軌道を判別する。 各候補に対するRNN判別器の精度は、その変換の下でシステムがどのように対称であるかを明らかにする。 この情報は、データセットレベルですべての対称性に不変な高レベル表現を作成し、rl動作の特性をユーザに伝えるために使うことができる。 本研究では, 風上を飛ぶ推進ロボットとUAVの2つの実例を用いて, 環境物理と訓練されたRL政策の両方の基礎となる対称性を判定する実験を行った。

Knowledge of the symmetries of reinforcement learning (RL) systems can be used to create compressed and semantically meaningful representations of a low-level state space. We present a method of automatically detecting RL symmetries directly from raw trajectory data without requiring active control of the system. Our method generates candidate symmetries and trains a recurrent neural network (RNN) to discriminate between the original trajectories and the transformed trajectories for each candidate symmetry. The RNN discriminator's accuracy for each candidate reveals how symmetric the system is under that transformation. This information can be used to create high-level representations that are invariant to all symmetries on a dataset level and to communicate properties of the RL behavior to users. We show in experiments on two simulated RL use cases (a pusher robot and a UAV flying in wind) that our method can determine the symmetries underlying both the environment physics and the trained RL policy.
翻訳日:2022-11-30 15:37:14 公開日:2022-11-29
# マイクロプロセッサ設計空間探索のためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration ( http://arxiv.org/abs/2211.16385v1 )

ライセンス: Link先を確認
Srivatsan Krishnan, Natasha Jaques, Shayegan Omidshafiei, Dan Zhang, Izzeddin Gur, Vijay Janapa Reddi, Aleksandra Faust(参考訳) マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。 システムが複雑化するにつれて、複数のサブシステム(例えば、データパス、異なる階層のメモリブロック、相互接続、コンパイラ最適化など)にまたがる微調整のアーキテクチャパラメータが急速に設計空間を爆発させる。 これにより、ドメイン固有のカスタマイズが極めて難しいタスクになります。 従来の研究では、大規模な設計空間を自動探索するために強化学習(RL)やその他の最適化手法が用いられていた。 しかし、これらの手法は伝統的に単一エージェントRL/MLの定式化に依存してきた。 設計空間の複雑さ(フルスタックのSystem-on-Chip設計など)が増大するにつれて、シングルエージェントの定式化がどの程度スケーラブルであるかは不明である。 そこで本研究では,マルチエージェントrl (marl) を利用した代替定式化を提案する。 marlを使用する背景にある重要なアイデアは、異なるサブシステム間のパラメータが多かれ少なかれ独立したものであるという観察である。 この仮説は、ドメイン固有のDRAMメモリコントローラを複数のワークロードトレース用に設計することで検証する。 評価の結果、MARLの定式化は、低消費電力や遅延といった異なる目標に対して、プロキシポリシー最適化やソフトアクタクリティカルといった単一エージェントRLのベースラインを一貫して上回ります。 この目的のために,本研究は,ハードウェアアーキテクチャ探索のためのMARLソリューションの新しい,そして有望な研究の道を開く。

Microprocessor architects are increasingly resorting to domain-specific customization in the quest for high-performance and energy-efficiency. As the systems grow in complexity, fine-tuning architectural parameters across multiple sub-systems (e.g., datapath, memory blocks in different hierarchies, interconnects, compiler optimization, etc.) quickly results in a combinatorial explosion of design space. This makes domain-specific customization an extremely challenging task. Prior work explores using reinforcement learning (RL) and other optimization methods to automatically explore the large design space. However, these methods have traditionally relied on single-agent RL/ML formulations. It is unclear how scalable single-agent formulations are as we increase the complexity of the design space (e.g., full stack System-on-Chip design). Therefore, we propose an alternative formulation that leverages Multi-Agent RL (MARL) to tackle this problem. The key idea behind using MARL is an observation that parameters across different sub-systems are more or less independent, thus allowing a decentralized role assigned to each agent. We test this hypothesis by designing domain-specific DRAM memory controller for several workload traces. Our evaluation shows that the MARL formulation consistently outperforms single-agent RL baselines such as Proximal Policy Optimization and Soft Actor-Critic over different target objectives such as low power and latency. To this end, this work opens the pathway for new and promising research in MARL solutions for hardware architecture search.
翻訳日:2022-11-30 15:36:58 公開日:2022-11-29
# 線形時間におけるフロントドア調整セットの探索

Finding Front-Door Adjustment Sets in Linear Time ( http://arxiv.org/abs/2211.16468v1 )

ライセンス: Link先を確認
Marcel Wien\"obst, Benito van der Zander, Maciej Li\'skiewicz(参考訳) フロントドア調整は、特定の有向非巡回グラフ(DAG)と観測データから因果効果を推定する古典的な手法である。 このアプローチの利点は、観測されたメディエーターを使用して因果効果を識別することであり、これは観測されていないコンファウンディングの存在においても可能である。 フロントドア推定の統計的特性はかなりよく理解されているが、アルゴリズム的な側面は長い間解明されていない。 最近、Jeong, Tian, Barenboim [NeurIPS 2022] は、与えられたDAGのフロントドア基準を満たす集合を見つけるための最初の多項式時間アルゴリズムを提示し、$O(n^3(n+m))$ run time で、$n$は変数の数を表し、$m$はグラフのエッジの数を表す。 私たちの研究では、このタスクに最初の線形時間、すなわち$o(n+m)$というアルゴリズムを与え、入力のサイズが$\omega(n+m)$であるので漸近的に最適な時間複雑性に達する。 また、与えられたDAGのすべてのフロントドア調整セットを遅延$O(n(n + m))$で列挙するアルゴリズムも提供する。 これらの結果はjeongらによるアルゴリズムを改善する。 [2022] の2つのタスクはそれぞれ$n^3$ である。

Front-door adjustment is a classic technique to estimate causal effects from a specified directed acyclic graph (DAG) and observed data. The advantage of this approach is that it uses observed mediators to identify causal effects, which is possible even in the presence of unobserved confounding. While the statistical properties of the front-door estimation are quite well understood, its algorithmic aspects remained unexplored for a long time. Recently, Jeong, Tian, and Barenboim [NeurIPS 2022] have presented the first polynomial-time algorithm for finding sets satisfying the front-door criterion in a given DAG, with an $O(n^3(n+m))$ run time, where $n$ denotes the number of variables and $m$ the number of edges of the graph. In our work, we give the first linear-time, i.e. $O(n+m)$, algorithm for this task, which thus reaches the asymptotically optimal time complexity, as the size of the input is $\Omega(n+m)$. We also provide an algorithm to enumerate all front-door adjustment sets in a given DAG with delay $O(n(n + m))$. These results improve the algorithms by Jeong et al. [2022] for the two tasks by a factor of $n^3$, respectively.
翻訳日:2022-11-30 15:36:18 公開日:2022-11-29
# 表現学習のための手続き型画像プログラム

Procedural Image Programs for Representation Learning ( http://arxiv.org/abs/2211.16412v1 )

ライセンス: Link先を確認
Manel Baradad, Chun-Fu Chen, Jonas Wulff, Tongzhou Wang, Rogerio Feris, Antonio Torralba, Phillip Isola(参考訳) 合成データを使って画像表現を学習することで、プライバシやバイアスなど、実際のイメージに関係のないニューラルネットワークのトレーニングが可能になる。 既存の作業は、設計に専門家の知識を必要とする、少数のキュレートされた生成プロセスに焦点を当てています。 そこで本研究では,21万のプログラムからなる大規模データセットを用いて,多様な合成画像を生成するトレーニングを提案する。 これらのプログラムは短いコードスニペットで、修正が容易で、openglを使って高速に実行できます。 提案するデータセットは教師なし表現学習と教師なし表現学習の両方に使用可能であり、実画像と手続き的生成画像との事前学習のギャップを38%削減できる。

Learning image representations using synthetic data allows training neural networks without some of the concerns associated with real images, such as privacy and bias. Existing work focuses on a handful of curated generative processes which require expert knowledge to design, making it hard to scale up. To overcome this, we propose training with a large dataset of twenty-one thousand programs, each one generating a diverse set of synthetic images. These programs are short code snippets, which are easy to modify and fast to execute using OpenGL. The proposed dataset can be used for both supervised and unsupervised representation learning, and reduces the gap between pre-training with real and procedurally generated images by 38%.
翻訳日:2022-11-30 15:29:52 公開日:2022-11-29
# 合成音声と実音声間の距離の評価と低減

Evaluating and reducing the distance between synthetic and real speech distributions ( http://arxiv.org/abs/2211.16049v1 )

ライセンス: Link先を確認
Christoph Minixhofer, Ond\v{r}ej Klejch, Peter Bell(参考訳) 現代のtts(text-to-speech)システムは、主観的評価の観点から高い評価を受けた音声を生成することができるが、実際の音声分布と合成音声分布との間の距離は未検討のままであり、ここでは、与えられた話者のセットから可能な全ての実音声記録のサンプル空間、または同じ話者のセットで生成された合成音声のサンプル空間を「\textit{distribution}」という用語を用いる。 本研究では, 音響環境, 話者特性, 韻律の次元における実音声分布と合成音声分布の距離を, 各種音声処理法および各分布のwasserstein距離を用いて評価する。 我々は,これらの分布距離を,その測度から得られた発話レベル情報をモデルに提供することにより削減し,推論時に生成可能であることを示す。 これらの次元の改善は、合成データの適合度をトレーニングデータとして評価することにより、ASR(Automatic Speech Recognition)を用いて近似した全体の分布距離削減に寄与する。

While modern Text-to-Speech (TTS) systems can produce speech rated highly in terms of subjective evaluation, the distance between real and synthetic speech distributions remains understudied, where we use the term \textit{distribution} to mean the sample space of all possible real speech recordings from a given set of speakers; or of the synthetic samples that could be generated for the same set of speakers. We evaluate the distance of real and synthetic speech distributions along the dimensions of the acoustic environment, speaker characteristics and prosody using a range of speech processing measures and the respective Wasserstein distances of their distributions. We reduce these distribution distances along said dimensions by providing utterance-level information derived from the measures to the model and show they can be generated at inference time. The improvements to the dimensions translate to overall distribution distance reduction approximated using Automatic Speech Recognition (ASR) by evaluating the fitness of the synthetic data as training data.
翻訳日:2022-11-30 15:29:39 公開日:2022-11-29
# 離散音素レベル韻律表現の学習による可制御音声合成

Controllable speech synthesis by learning discrete phoneme-level prosodic representations ( http://arxiv.org/abs/2211.16307v1 )

ライセンス: Link先を確認
Nikolaos Ellinas, Myrsini Christidou, Alexandra Vioni, June Sig Sung, Aimilios Chalamandaris, Pirros Tsiakoulis, Paris Mastorocostas(参考訳) 本稿では,F0の音素レベルの韻律制御と持続時間について,直感的な離散ラベルを用いた新しい手法を提案する。 複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。 これらの特徴は、韻律ラベルの入力シーケンスとして、自己回帰的注意に基づく音声合成モデルを拡張する韻律エンコーダモジュールに供給される。 本研究では,韻律的制御範囲と範囲の改善,強化,f0正規化,持続時間に対するバランスの取れたクラスタリング,話者非依存クラスタリングなどを行う。 最終モデルは、話者のアイデンティティを維持しながら、トレーニングセットに含まれるすべての話者に対して、きめ細かい音素レベルの韻律制御を可能にする。 提案手法では,参照音声に頼らず,各話者のスタイルを学習し,参照音声を必要とせずに音声合成が可能な先行韻律エンコーダを導入する。 また,実際のアプリケーションシナリオとして,限られたデータ量で話者を認識できないようにマルチスピーカモデルを微調整し,韻律制御能力が維持されていることを示すことで,話者非依存の韻律クラスタリングが有効であることを検証した。 実験の結果,本モデルは高い出力音声品質を有し,マルチスピーカー設定による変動にもかかわらず,各話者の範囲内で効率的な韻律制御が可能となった。

In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
翻訳日:2022-11-30 15:29:18 公開日:2022-11-29
# Coder Reviewerがコード生成に昇格

Coder Reviewer Reranking for Code Generation ( http://arxiv.org/abs/2211.16490v1 )

ライセンス: Link先を確認
Tianyi Zhang, Tao Yu, Tatsunori B. Hashimoto, Mike Lewis, Wen-tau Yih, Daniel Fried, Sida I. Wang(参考訳) コード言語モデルから多様なプログラムをサンプリングし、モデルの可能性を再評価することは、コード生成の一般的な方法であるが、退化したソリューションを好む傾向にある。 協調プログラミングにインスパイアされた我々は,Coder-Reviewerの再評価を提案する。 我々は,プログラムに与えられた命令を生成するコーダ言語モデルと,生成されたプログラムが与えた命令の可能性を評価するレビュアーモデルの拡張を行った。 3つのモデルファミリーの8つのモデルを持つ6つのデータセットにわたる広範な研究を行う。 実験結果から、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善(最大17%の精度向上)をもたらすことが示された。 実行可能性フィルタリングと組み合わせると、coder-reviewer再ランク付けが最小ベイズリスクメソッドを上回ることが少なくない。 Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既製のハイパーパラメータとうまく機能する。

Sampling diverse programs from a code language model and reranking with model likelihood is a popular method for code generation but it is prone to preferring degenerate solutions. Inspired by collaborative programming, we propose Coder-Reviewer reranking. We augment Coder language models from past work, which generate programs given language instructions, with Reviewer models, which evaluate the likelihood of the instruction given the generated programs. We perform an extensive study across six datasets with eight models from three model families. Experimental results show that Coder-Reviewer reranking leads to consistent and significant improvement (up to 17% absolute accuracy gain) over reranking with the Coder model only. When combined with executability filtering, Coder-Reviewer reranking can often outperform the minimum Bayes risk method. Coder-Reviewer reranking is easy to implement by prompting, can generalize to different programming languages, and works well with off-the-shelf hyperparameters.
翻訳日:2022-11-30 15:28:53 公開日:2022-11-29
# 深層学習のための近隣補正を用いたクラス内適応強化

Intra-class Adaptive Augmentation with Neighbor Correction for Deep Metric Learning ( http://arxiv.org/abs/2211.16264v1 )

ライセンス: Link先を確認
Zheren Fu, Zhendong Mao, Bo Hu, An-An Liu, Yongdong Zhang(参考訳) deep metric learningは、意味的に類似したサンプルが接近し、類似したサンプルが撃退される埋め込み空間を学ぶことを目的としている。 拡張と一般化のためのより硬く情報的な訓練信号を探るため、近年の手法は、メートル法学習損失を高めるための合成サンプルの生成に焦点を当てている。 しかし、これらの手法は、決定論的およびクラス非依存世代(例えば、単純な線形補間)のみを使用し、元のサンプルの周りの分布空間の限られた部分しかカバーできない。 彼らは異なるクラスの幅広い特性変化を見落としており、世代ごとに多くのクラス内変異をモデル化することはできない。 したがって、生成されたサンプルは、特定のクラス内でリッチなセマンティクスを欠いているだけでなく、トレーニングを妨げるノイズ信号でもある。 本稿では,深層メトリック学習のための新しいクラス内適応拡張(iaa)フレームワークを提案する。 各クラスのクラス内変動を合理的に推定し、ハードサンプルマイニングをサポートし、メトリック学習損失を増加させるために適応的な合成サンプルを生成する。 さらに、クラス内にいくつかのサンプルを持つほとんどのデータセットに対して、類似のクラスが概して類似の変動分布を持つ相関発見に基づいて、不正確な推定を修正するための近傍補正を提案する。 5つのベンチマークを用いた広範囲な実験により,検索性能における最先端の手法を3%-6%向上させた。 私たちのコードはhttps://github.com/darkpromise98/IAAで利用可能です。

Deep metric learning aims to learn an embedding space, where semantically similar samples are close together and dissimilar ones are repelled against. To explore more hard and informative training signals for augmentation and generalization, recent methods focus on generating synthetic samples to boost metric learning losses. However, these methods just use the deterministic and class-independent generations (e.g., simple linear interpolation), which only can cover the limited part of distribution spaces around original samples. They have overlooked the wide characteristic changes of different classes and can not model abundant intra-class variations for generations. Therefore, generated samples not only lack rich semantics within the certain class, but also might be noisy signals to disturb training. In this paper, we propose a novel intra-class adaptive augmentation (IAA) framework for deep metric learning. We reasonably estimate intra-class variations for every class and generate adaptive synthetic samples to support hard samples mining and boost metric learning losses. Further, for most datasets that have a few samples within the class, we propose the neighbor correction to revise the inaccurate estimations, according to our correlation discovery where similar classes generally have similar variation distributions. Extensive experiments on five benchmarks show our method significantly improves and outperforms the state-of-the-art methods on retrieval performances by 3%-6%. Our code is available at https://github.com/darkpromise98/IAA
翻訳日:2022-11-30 15:28:38 公開日:2022-11-29
# BBOBインスタンス分析:問題インスタンス間のランドスケープ特性とアルゴリズム性能

BBOB Instance Analysis: Landscape Properties and Algorithm Performance across Problem Instances ( http://arxiv.org/abs/2211.16318v1 )

ライセンス: Link先を確認
Fu Xing Long and Diederick Vermetten and Bas van Stein and Anna V. Kononova(参考訳) ベンチマークは最適化アルゴリズムの研究の重要な側面であり、最も人気のあるベンチマークスイートが暗黙的にアルゴリズム設計の一部を導く方法で設計されている。 これらのスイートの1つは、ブラックボックス最適化ベンチマーク(BBOB)スイートで、24個の単目的ノイズレス関数が10年以上にわたって標準であった。 この問題スイートでは、単一の問題の異なるインスタンスが作成できるため、変換下のアルゴリズムの安定性と不変性をテストするのに有用である。 本稿では,各BBOB問題に対する500インスタンスの集合を考慮したBBOBインスタンス生成プロトコルについて検討する。 探索ランドスケープ解析を用いて,BBOBインスタンスにまたがる景観特徴の分布は,多くの問題に対して非常に多様であることを示す。 さらに,これら500インスタンスにわたって8つのアルゴリズムセットを実行し,どのケースでパフォーマンスに有意な差が生じたかを調査した。 BBOBのインスタンスに適用される変換は、関数の高レベルな性質を実際に保持しているように見えるが、特に制約のない問題ではなく、ボックスに制限された問題として扱う場合、それらの実践上の違いは見過ごされるべきではない。

Benchmarking is a key aspect of research into optimization algorithms, and as such the way in which the most popular benchmark suites are designed implicitly guides some parts of algorithm design. One of these suites is the black-box optimization benchmarking (BBOB) suite of 24 single-objective noiseless functions, which has been a standard for over a decade. Within this problem suite, different instances of a single problem can be created, which is beneficial for testing the stability and invariance of algorithms under transformations. In this paper, we investigate the BBOB instance creation protocol by considering a set of 500 instances for each BBOB problem. Using exploratory landscape analysis, we show that the distribution of landscape features across BBOB instances is highly diverse for a large set of problems. In addition, we run a set of eight algorithms across these 500 instances, and investigate for which cases statistically significant differences in performance occur. We argue that, while the transformations applied in BBOB instances do indeed seem to preserve the high-level properties of the functions, their difference in practice should not be overlooked, particularly when treating the problems as box-constrained instead of unconstrained.
翻訳日:2022-11-30 15:28:15 公開日:2022-11-29
# MegaBlocks:Mixture-of-Expertsによる効率的なスパーストレーニング

MegaBlocks: Efficient Sparse Training with Mixture-of-Experts ( http://arxiv.org/abs/2211.15841v1 )

ライセンス: Link先を確認
Trevor Gale, Deepak Narayanan, Cliff Young, Matei Zaharia(参考訳) 我々は,GPU上でのMixture-of-Experts (MoE) トレーニングを効率的に行うシステムであるMegaBlocksを提案する。 我々のシステムは,既存のソフトウェアやハードウェアの制約を満たすため,MoE層の動的ルーティングを制限する現行フレームワークの制限によって動機付けられている。 これらの定式化は、ユーザーが計算からトークンをドロップするか、またはパッド上の計算とメモリを浪費するかを選択する必要があるため、モデル品質とハードウェア効率のトレードオフを引き起こす。 これらの制限に対処するため、ブロックスパース演算の観点からMoE計算を再構成し、MoEのダイナミズムを効率的に処理する新しいブロックスパースGPUカーネルを開発する。 最先端のtutelライブラリでトレーニングされたmoeの最大40%、高度に最適化されたmegatron-lmフレームワークでトレーニングされたdnnの2.4倍のスピードアップを実現しています。

We present MegaBlocks, a system for efficient Mixture-of-Experts (MoE) training on GPUs. Our system is motivated by the limitations of current frameworks, which restrict the dynamic routing in MoE layers to satisfy the constraints of existing software and hardware. These formulations force a tradeoff between model quality and hardware efficiency, as users must choose between dropping tokens from the computation or wasting computation and memory on padding. To address these limitations, we reformulate MoE computation in terms of block-sparse operations and develop new block-sparse GPU kernels that efficiently handle the dynamism present in MoEs. Our approach never drops tokens and maps efficiently to modern hardware, enabling end-to-end training speedups of up to 40% over MoEs trained with the state-of-the-art Tutel library and 2.4x over DNNs trained with the highly-optimized Megatron-LM framework.
翻訳日:2022-11-30 15:27:13 公開日:2022-11-29
# ランダム化ポリシーネットワークを用いたグラデーションのない連続アクションゲームの混合戦略平衡の探索

Finding mixed-strategy equilibria of continuous-action games without gradients using randomized policy networks ( http://arxiv.org/abs/2211.15936v1 )

ライセンス: Link先を確認
Carlos Martin, Tuomas Sandholm(参考訳) グラデーションにアクセスせずに連続アクションゲームのナッシュ平衡を近似計算する問題について検討する。 このようなゲームアクセスは、環境がブラックボックスとして扱われる強化学習設定で一般的である。 この問題に対処するために,滑らかな勾配推定器と平衡探索ダイナミクスを組み合わせたゼロ次最適化手法を適用する。 ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。 特に、ランダム化されたポリシーネットワークを使用して混合戦略をモデル化する。 これらは入力として観測に加えてノイズを取り、任意の観測依存の連続的な分布を柔軟に表現することができる。 このような混合戦略をモデル化できることは、純粋なストラテジー均衡が欠如している連続アクションゲームに取り組む上で重要である。 本手法は,ゲーム理論から得られるnash収束メトリックの近似を用いて,一方的に戦略を変更することによってプレイヤーがどれだけの利益を得られるかを評価する。 本稿では,Blotto連続型ゲーム,シングルイットとマルチイットのオークション,可視性ゲームに適用する。 実験の結果,提案手法は高品質な近似平衡を迅速に発見できることがわかった。 さらに,入力雑音の次元性が性能に重要であることを示した。 本論文は,無拘束混合戦略を用いて,勾配情報のない一般的な連続的なゲームを解く最初の方法である。

We study the problem of computing an approximate Nash equilibrium of continuous-action game without access to gradients. Such game access is common in reinforcement learning settings, where the environment is typically treated as a black box. To tackle this problem, we apply zeroth-order optimization techniques that combine smoothed gradient estimators with equilibrium-finding dynamics. We model players' strategies using artificial neural networks. In particular, we use randomized policy networks to model mixed strategies. These take noise in addition to an observation as input and can flexibly represent arbitrary observation-dependent, continuous-action distributions. Being able to model such mixed strategies is crucial for tackling continuous-action games that lack pure-strategy equilibria. We evaluate the performance of our method using an approximation of the Nash convergence metric from game theory, which measures how much players can benefit from unilaterally changing their strategy. We apply our method to continuous Colonel Blotto games, single-item and multi-item auctions, and a visibility game. The experiments show that our method can quickly find high-quality approximate equilibria. Furthermore, they show that the dimensionality of the input noise is crucial for performance. To our knowledge, this paper is the first to solve general continuous-action games with unrestricted mixed strategies and without any gradient information.
翻訳日:2022-11-30 15:26:54 公開日:2022-11-29
# 比較階層クラスタリングのための収益関数

A Revenue Function for Comparison-Based Hierarchical Clustering ( http://arxiv.org/abs/2211.16459v1 )

ライセンス: Link先を確認
Aishik Mandal, Micha\"el Perrot, Debarghya Ghoshdastidar(参考訳) 比較ベースの学習は、明示的な特徴やペアの類似性の代わりに、形式の比較へのアクセスしかできない場合に、学習の問題に対処する。 近年,階層クラスタリングでは,そのような比較のみを用いて単一リンクと完全リンクを直接実装でき,平均リンクの挙動をエミュレートするアルゴリズムがいくつか提案されている。 したがって、比較のみを用いて階層(あるいはデンドログラム)を見つけることはよく理解された問題である。 しかし、根拠や明示的な類似性がない場合の有意義性の評価は未解決の問題である。 本稿では,このギャップを,比較のみを用いてデンドログラムの良さを計測できる新たな収益関数を提案することによって埋める。 この関数は,ペアワイズ類似性を用いた階層的クラスタリングにおけるdasguptaのコストと密接に関連していることを示す。 理論的には,提案した収益関数を用いて,三重項比較の少ない潜在階層をおよそ復元できるかどうかというオープンな問題を解く。 実用面では,収益の最大化に基づく比較ベース階層クラスタリングの原則アルゴリズムを提案し,既存の手法と実証的に比較する。

Comparison-based learning addresses the problem of learning when, instead of explicit features or pairwise similarities, one only has access to comparisons of the form: \emph{Object $A$ is more similar to $B$ than to $C$.} Recently, it has been shown that, in Hierarchical Clustering, single and complete linkage can be directly implemented using only such comparisons while several algorithms have been proposed to emulate the behaviour of average linkage. Hence, finding hierarchies (or dendrograms) using only comparisons is a well understood problem. However, evaluating their meaningfulness when no ground-truth nor explicit similarities are available remains an open question. In this paper, we bridge this gap by proposing a new revenue function that allows one to measure the goodness of dendrograms using only comparisons. We show that this function is closely related to Dasgupta's cost for hierarchical clustering that uses pairwise similarities. On the theoretical side, we use the proposed revenue function to resolve the open problem of whether one can approximately recover a latent hierarchy using few triplet comparisons. On the practical side, we present principled algorithms for comparison-based hierarchical clustering based on the maximisation of the revenue and we empirically compare them with existing methods.
翻訳日:2022-11-30 15:20:34 公開日:2022-11-29
# 介入による線形因果連接

Linear Causal Disentanglement via Interventions ( http://arxiv.org/abs/2211.16467v1 )

ライセンス: Link先を確認
Anna Seigal, Chandler Squires, Caroline Uhler(参考訳) 因果解離は因果モデルを通して相互に関連する潜伏変数を含むデータの表現を求める。 表現は、潜在モデルと潜在変数から観測変数への変換が一意であるときに識別できる。 本稿では,線形潜在因果モデルの線形変換である観測変数について検討する。 1つの潜在変数が介入を欠いている場合、識別できない異なるモデルが存在することを示す。 逆に,各潜在変数に対する単一の介入は識別性に十分であることを示す。 我々の証明は行列のRQ分解の一般化を用いて、通常の直交条件と上三角条件を行列の行上の部分順序に依存するアナログに置き換え、潜在因果モデルにより部分順序を決定する。 我々は,潜伏因果モデルを正確に復元する因果解離法を用いて理論的結果を相関づける。

Causal disentanglement seeks a representation of data involving latent variables that relate to one another via a causal model. A representation is identifiable if both the latent model and the transformation from latent to observed variables are unique. In this paper, we study observed variables that are a linear transformation of a linear latent causal model. Data from interventions are necessary for identifiability: if one latent variable is missing an intervention, we show that there exist distinct models that cannot be distinguished. Conversely, we show that a single intervention on each latent variable is sufficient for identifiability. Our proof uses a generalization of the RQ decomposition of a matrix that replaces the usual orthogonal and upper triangular conditions with analogues depending on a partial order on the rows of the matrix, with partial order determined by a latent causal model. We corroborate our theoretical results with a method for causal disentanglement that accurately recovers a latent causal model.
翻訳日:2022-11-30 15:20:16 公開日:2022-11-29
# lumix: モデリングラベルの不確実性向上によるミックスアップの改善

LUMix: Improving Mixup by Better Modelling Label Uncertainty ( http://arxiv.org/abs/2211.15846v1 )

ライセンス: Link先を確認
Shuyang Sun, Jie-Neng Chen, Ruifei He, Alan Yuille, Philip Torr, Song Bai(参考訳) 最新のディープネットワークは、ノイズの多いサンプルと正規化技術で訓練するとより一般化できる。 MixupとCutMixは、オーバーフィッティングを避けるためにデータ拡張に有効であることが証明されている。 以前のmixupベースの手法では、画像とラベルを線形に組み合わせてトレーニングデータを生成する。 しかし、図1で示すように、オブジェクトが全体像を占有しない場合、これは問題となる。 ラベルの重みを正しく割り当てるのは人間にとっても困難であり、測定する明確な基準はない。 本稿では,学習中にラベルの摂動を追加することによって,そのような不確実性をモデル化するLUMixを提案する。 lumixは、ほんの数行のコードで実装でき、計算コストを最小限に抑えて、cnnやvision transformersといったディープネットワークに普遍的に適用できるため、シンプルである。 広範な実験によって、我々のlumixは、imagenet上で幅広い多様性とキャパシティを持つネットワークのパフォーマンスを一貫して向上させ、小さなモデルdeit-sでは$+0.7\%$、大きなxcit-lでは$+0.6\%$という結果が得られた。 また, ImageNet-O と ImageNet-A で評価すると,LUMix がより堅牢性を示すことを示す。 ソースコードは \href{https://github.com/kevin-ssy/LUMix}{here} にある。

Modern deep networks can be better generalized when trained with noisy samples and regularization techniques. Mixup and CutMix have been proven to be effective for data augmentation to help avoid overfitting. Previous Mixup-based methods linearly combine images and labels to generate additional training data. However, this is problematic if the object does not occupy the whole image as we demonstrate in Figure 1. Correctly assigning the label weights is hard even for human beings and there is no clear criterion to measure it. To tackle this problem, in this paper, we propose LUMix, which models such uncertainty by adding label perturbation during training. LUMix is simple as it can be implemented in just a few lines of code and can be universally applied to any deep networks \eg CNNs and Vision Transformers, with minimal computational cost. Extensive experiments show that our LUMix can consistently boost the performance for networks with a wide range of diversity and capacity on ImageNet, \eg $+0.7\%$ for a small model DeiT-S and $+0.6\%$ for a large variant XCiT-L. We also demonstrate that LUMix can lead to better robustness when evaluated on ImageNet-O and ImageNet-A. The source code can be found \href{https://github.com/kevin-ssy/LUMix}{here}
翻訳日:2022-11-30 15:19:28 公開日:2022-11-29
# 雑音ラベルからのロバスト学習について:置換層アプローチ

On Robust Learning from Noisy Labels: A Permutation Layer Approach ( http://arxiv.org/abs/2211.15890v1 )

ライセンス: Link先を確認
Salman Alsubaihi, Mohammed Alkhrashi, Raied Aljadaany, Fahad Albalawi, Bernard Ghanem(参考訳) ラベルノイズの存在は、ディープニューラルネットワーク(dnn)のトレーニングプロセスに重大な課題(例えば、不十分な一般化)を課す。 本稿では,インスタンス依存およびインスタンス非依存のラベルノイズに対するdnnのトレーニングプロセスを動的に校正するために,permllと呼ばれる置換層学習手法を提案する。 提案手法は,従来のDNNのアーキテクチャをインスタンス依存の置換層で拡張する。 この層は本質的に、各サンプルに対して動的に調整される置換行列の凸結合である。 置換層の主な目的は、ラベルノイズの影響を緩和するノイズサンプルの損失を補正することである。 本稿では,PermLLの2つの変種について述べる。一方はモデルの予測に置換層を適用し,他方は与えられた雑音ラベルに直接適用する。 さらに, 2つの変種間の理論的比較を行い, 従来の方法が変種の一つと見なせることを示す。 最後に,permllを実験的に検証し,実データと合成データの両方において最先端のパフォーマンスを実現することを示す。

The existence of label noise imposes significant challenges (e.g., poor generalization) on the training process of deep neural networks (DNN). As a remedy, this paper introduces a permutation layer learning approach termed PermLL to dynamically calibrate the training process of the DNN subject to instance-dependent and instance-independent label noise. The proposed method augments the architecture of a conventional DNN by an instance-dependent permutation layer. This layer is essentially a convex combination of permutation matrices that is dynamically calibrated for each sample. The primary objective of the permutation layer is to correct the loss of noisy samples mitigating the effect of label noise. We provide two variants of PermLL in this paper: one applies the permutation layer to the model's prediction, while the other applies it directly to the given noisy label. In addition, we provide a theoretical comparison between the two variants and show that previous methods can be seen as one of the variants. Finally, we validate PermLL experimentally and show that it achieves state-of-the-art performance on both real and synthetic datasets.
翻訳日:2022-11-30 15:19:01 公開日:2022-11-29
# CRAFTアルゴリズムのテキスト検出性能向上における画像の自動分類とブラインドデコンボリューションの影響

Impact of Automatic Image Classification and Blind Deconvolution in Improving Text Detection Performance of the CRAFT Algorithm ( http://arxiv.org/abs/2211.15999v1 )

ライセンス: Link先を確認
Clarisa V. Albarillo and Proceso L. Fernandez Jr(参考訳) 自然場面におけるテキスト検出は、ロバストな読解競争の出現によって証明された幅広い応用により、コンピュータビジョンや文書分析において重要かつ活発な研究対象となっている。 このコンペティションで優れたテキスト検出性能を持つアルゴリズムの1つは、テキスト検出のための文字領域認識(craft)である。 本研究は,icdar 2013データセットを用いて,画像の前処理ステップとして自動画像分類とブラインドデコンボリューションの影響を調査し,クラフトのテキスト検出性能をさらに向上させる。 提案手法は,100のラプラシアン演算子をしきい値として利用することにより,シーン画像を自動的に2つのカテゴリに分類する。 CRAFTアルゴリズムを適用する前に、ぼかしとして分類された画像は、さらにブラインドデコンボリューションを用いて前処理され、ぼかしを減らす。 その結果、CRAFTの91.42%のH平均よりも94.47%のIoU h平均で示されるように、提案手法はCRAFTの検知性能を大幅に向上させ、その結果、93.62%のSenseTimeよりも優れていた。

Text detection in natural scenes has been a significant and active research subject in computer vision and document analysis because of its wide range of applications as evidenced by the emergence of the Robust Reading Competition. One of the algorithms which has good text detection performance in the said competition is the Character Region Awareness for Text Detection (CRAFT). Employing the ICDAR 2013 dataset, this study investigates the impact of automatic image classification and blind deconvolution as image pre-processing steps to further enhance the text detection performance of CRAFT. The proposed technique automatically classifies the scene images into two categories, blurry and non-blurry, by utilizing of a Laplacian operator with 100 as threshold. Prior to applying the CRAFT algorithm, images that are categorized as blurry are further pre-processed using blind deconvolution to reduce the blur. The results revealed that the proposed method significantly enhanced the detection performance of CRAFT, as demonstrated by its IoU h-mean of 94.47% compared to the original 91.42% h-mean of CRAFT and this even outperformed the top-ranked SenseTime, whose h-mean is 93.62%.
翻訳日:2022-11-30 15:18:44 公開日:2022-11-29
# 次元変化拡散過程

Dimensionality-Varying Diffusion Process ( http://arxiv.org/abs/2211.16032v1 )

ライセンス: Link先を確認
Han Zhang, Ruili Feng, Zhantao Yang, Lianghua Huang, Yu Liu, Yifei Zhang, Yujun Shen, Deli Zhao, Jingren Zhou, Fan Cheng(参考訳) 拡散モデルは、信号破壊過程を逆転して新しいデータを生成することを学習するが、通常、各ステップで同じ次元の信号を必要とする。 我々は,画像信号の空間的冗長性を考慮すると,特に初期発生段階において,進化過程の高次元性を維持する必要はないと主張する。 この目的のために,信号分解による前方拡散過程の理論的一般化を行う。 具体的には、画像を複数の直交成分に分解し、画像を摂動する際に各成分の減衰を制御する。 このようにして、ノイズ強度の増大とともに、これらの不連続成分を減らし、低次元信号を用いて音源を表現し、ほとんど情報を失う。 このような再構成は拡散モデルのトレーニングと推論の両方において次元を変えることができる。 一連のデータセットに対する大規模な実験により,本手法は計算コストを大幅に削減し,ベースライン法に比べてオンパーあるいはさらに優れた合成性能を実現することが示唆された。 また,この戦略は高分解能画像合成を促進し,FFHQで訓練された拡散モデルのFIDを52.40から10.46までの1024\times1024$解像度で改善することを示す。 コードとモデルは公開される予定だ。

Diffusion models, which learn to reverse a signal destruction process to generate new data, typically require the signal at each step to have the same dimension. We argue that, considering the spatial redundancy in image signals, there is no need to maintain a high dimensionality in the evolution process, especially in the early generation phase. To this end, we make a theoretical generalization of the forward diffusion process via signal decomposition. Concretely, we manage to decompose an image into multiple orthogonal components and control the attenuation of each component when perturbing the image. That way, along with the noise strength increasing, we are able to diminish those inconsequential components and thus use a lower-dimensional signal to represent the source, barely losing information. Such a reformulation allows to vary dimensions in both training and inference of diffusion models. Extensive experiments on a range of datasets suggest that our approach substantially reduces the computational cost and achieves on-par or even better synthesis performance compared to baseline methods. We also show that our strategy facilitates high-resolution image synthesis and improves FID of diffusion model trained on FFHQ at $1024\times1024$ resolution from 52.40 to 10.46. Code and models will be made publicly available.
翻訳日:2022-11-30 15:18:20 公開日:2022-11-29
# simcs: online domain-incremental continual segmentation のシミュレーション

SimCS: Simulation for Online Domain-Incremental Continual Segmentation ( http://arxiv.org/abs/2211.16234v1 )

ライセンス: Link先を確認
Motasem Alfarra, Zhipeng Cai, Adel Bibi, Bernard Ghanem, Matthias M\"uller(参考訳) 継続学習は、モデルが過去の知識を忘れずに最近収集されたデータから継続的に学習する、生涯的知性へのステップである。 既存の連続学習アプローチは主に、明確なタスク境界と無制限の計算予算を持つクラス増分設定における画像分類に焦点を当てている。 この研究は、多くのアプリケーションで発生する現実的な問題であるオンラインドメイン・インクリメンタル連続セグメンテーション(ODICS)を探求する。 ODICSでは、モデルは異なるドメインから高密度にラベル付けされた画像のバッチで継続的に表示され、計算は限られており、タスク境界に関する情報は得られない。 自律運転では、これは複数の都市で時間をかけてセグメンテーションモデルを訓練する現実的なシナリオに対応しているかもしれない。 本研究では,既存の連続学習手法を解析し,クラス増分法ではうまく機能しないことを示す。 シミュレーションデータを連続学習正規化器として活用するパラメータフリー手法であるSimCSを提案する。 広範な実験では、レギュラライザやリプレイを用いた、さまざまなタイプの連続学習方法に対して一貫した改善が示されている。

Continual Learning is a step towards lifelong intelligence where models continuously learn from recently collected data without forgetting previous knowledge. Existing continual learning approaches mostly focus on image classification in the class-incremental setup with clear task boundaries and unlimited computational budget. This work explores Online Domain-Incremental Continual Segmentation~(ODICS), a real-world problem that arises in many applications, \eg, autonomous driving. In ODICS, the model is continually presented with batches of densely labeled images from different domains; computation is limited and no information about the task boundaries is available. In autonomous driving, this may correspond to the realistic scenario of training a segmentation model over time on a sequence of cities. We analyze several existing continual learning methods and show that they do not perform well in this setting despite working well in class-incremental segmentation. We propose SimCS, a parameter-free method complementary to existing ones that leverages simulated data as a continual learning regularizer. Extensive experiments show consistent improvements over different types of continual learning methods that use regularizers and even replay.
翻訳日:2022-11-30 15:17:58 公開日:2022-11-29
# 複数のバッチノルムとマルチターゲット逆数例によるディープメトリック学習の促進

Advancing Deep Metric Learning Through Multiple Batch Norms And Multi-Targeted Adversarial Examples ( http://arxiv.org/abs/2211.16253v1 )

ライセンス: Link先を確認
Inderjeet Singh, Kazuya Kakizaki, Toshinori Araki(参考訳) ディープ・メトリック・ラーニング(Deep Metric Learning, DML)は、視覚的類似性を学ぶことに集中する幅広い実践的応用を持つ機械学習の分野である。 クリーンデータとは異なる分布に従うadversarial examples(axs)のような入力は、dmlシステムからの誤った予測をもたらすことが知られている。 本稿では,DMLモデルの性能をクリーンデータと複数分布の入力で同時に向上するMDPropを提案する。 mdpropは、dmlモデルのトレーニング中に、複数のバッチ正規化層による不連続学習を活用しながら、ax生成プロセスを通じてマルチ分散データを利用する。 mdpropは、トレーニングモデルのより密な埋め込み空間領域をターゲットとした正規化を行うために、機能空間を多目的軸に生成した最初の例であり、訓練モデルの一般化に寄与する埋め込み空間密度の改善に寄与した。 総合的な実験結果から,mdpropはクリーンデータリコール@1スコアを最大2.95%向上させ,従来の方法と比較して,異なる入力分布に対する頑健度を最大2.12倍向上させることを示した。

Deep Metric Learning (DML) is a prominent field in machine learning with extensive practical applications that concentrate on learning visual similarities. It is known that inputs such as Adversarial Examples (AXs), which follow a distribution different from that of clean data, result in false predictions from DML systems. This paper proposes MDProp, a framework to simultaneously improve the performance of DML models on clean data and inputs following multiple distributions. MDProp utilizes multi-distribution data through an AX generation process while leveraging disentangled learning through multiple batch normalization layers during the training of a DML model. MDProp is the first to generate feature space multi-targeted AXs to perform targeted regularization on the training model's denser embedding space regions, resulting in improved embedding space densities contributing to the improved generalization in the trained models. From a comprehensive experimental analysis, we show that MDProp results in up to 2.95% increased clean data Recall@1 scores and up to 2.12 times increased robustness against different input distributions compared to the conventional methods.
翻訳日:2022-11-30 15:17:40 公開日:2022-11-29
# 予測モニタリングにおける接尾辞予測のためのエンコーダ・デコーダモデル

Encoder-Decoder Model for Suffix Prediction in Predictive Monitoring ( http://arxiv.org/abs/2211.16106v1 )

ライセンス: Link先を確認
Efr\'en Rama-Maneiro, Pablo Monteagudo-Lago, Juan C. Vidal, Manuel Lama(参考訳) 予測監視はプロセスマイニングのサブフィールドであり、今後の実行ケースの展開を予測することを目的としている。 その主な課題のひとつは、与えられた時点から発生するアクティビティのシーケンス -- 接尾辞予測 -- を予測することだ。 サフィックス予測問題に対するほとんどのアプローチは、トレーニングフェーズ中にサフィックス全体からではなく、次のアクティビティのみを予測する方法を学ぶことによってサフィックスを予測することを学ぶ。 本稿では,プレフィックスの表現学習を推論フェーズから分離し,接尾辞のアクティビティのみを予測する注意機構を備えたエンコーダ・デコーダモデルに基づく新しいアーキテクチャを提案する。 推論フェーズにおいて、このアーキテクチャは、接尾辞の各インデックスに対するアクティビティの選択を改善するヒューリスティック検索アルゴリズムによって拡張される。 我々のアプローチは、12の公開イベントログを使って、6つの異なる最先端の提案に対してテストされています。

Predictive monitoring is a subfield of process mining that aims to predict how a running case will unfold in the future. One of its main challenges is forecasting the sequence of activities that will occur from a given point in time -- suffix prediction -- . Most approaches to the suffix prediction problem learn to predict the suffix by learning how to predict the next activity only, not learning from the whole suffix during the training phase. This paper proposes a novel architecture based on an encoder-decoder model with an attention mechanism that decouples the representation learning of the prefixes from the inference phase, predicting only the activities of the suffix. During the inference phase, this architecture is extended with a heuristic search algorithm that improves the selection of the activity for each index of the suffix. Our approach has been tested using 12 public event logs against 6 different state-of-the-art proposals, showing that it significantly outperforms these proposals.
翻訳日:2022-11-30 15:11:34 公開日:2022-11-29
# g-cmp: センサベースリモートヘルスモニタリングにおける教師なし異常検出のためのグラフ強調コンテキストマトリックスプロファイル

G-CMP: Graph-enhanced Contextual Matrix Profile for unsupervised anomaly detection in sensor-based remote health monitoring ( http://arxiv.org/abs/2211.16122v1 )

ライセンス: Link先を確認
Nivedita Bijlani, Oscar Mendez Maldonado, Samaneh Kouchaki(参考訳) センサベースの遠隔健康モニタリングは、産業、都市、医療の環境において、機器と人間の健康の継続的な運用を監視するために使用される。 重要な目的は、異常事象や有害な健康が検出された場合に早期に介入することである。 野生では、これらの異常検出アプローチは、ノイズ、ラベル不足、高次元、説明可能性、運用環境における幅広い変動性によって挑戦される。 文脈行列プロファイル (Contextual Matrix Profile, CMP) は、時系列のすべてのサブシーケンスの距離行列を用いてパターンや異常を発見する構成可能な2次元の行列プロファイル(MP)である。 CMPは、異なる領域の雑音の多い実世界データ中の真の異常を検出し、可視化し、解釈するMPや他のSOTA手法の有効性を高める。 設定可能な時間スケールでの時間パターンのズームアウトと識別に優れています。 しかし、cmpはセンサ間情報に対応せず、高次元データにスケールすることができない。 本研究では,cmp距離行列から生成する文脈グラフに基づく時間的異常検出のための,新しい自己教師付きグラフベースアプローチを提案する。 学習グラフ埋め込みは、時間コンテキストの異常な性質を符号化する。 また、同じタスクに対して他のグラフ外乱アルゴリズムを評価する。 私たちのパイプラインはモジュール化されており、グラフ構築、グラフ埋め込みの生成、パターン認識ロジックはすべて、特定のパターン検出アプリケーションに基づいて選択することができます。 グラフに基づく異常検出の有効性を検証し,異常の異なる2つの実世界の医療データセットにおいて,cmpと3つの最先端手法と比較した。 提案手法により,リコール,警告率,汎用性が向上した。

Sensor-based remote health monitoring is used in industrial, urban and healthcare settings to monitor ongoing operation of equipment and human health. An important aim is to intervene early if anomalous events or adverse health is detected. In the wild, these anomaly detection approaches are challenged by noise, label scarcity, high dimensionality, explainability and wide variability in operating environments. The Contextual Matrix Profile (CMP) is a configurable 2-dimensional version of the Matrix Profile (MP) that uses the distance matrix of all subsequences of a time series to discover patterns and anomalies. The CMP is shown to enhance the effectiveness of the MP and other SOTA methods at detecting, visualising and interpreting true anomalies in noisy real world data from different domains. It excels at zooming out and identifying temporal patterns at configurable time scales. However, the CMP does not address cross-sensor information, and cannot scale to high dimensional data. We propose a novel, self-supervised graph-based approach for temporal anomaly detection that works on context graphs generated from the CMP distance matrix. The learned graph embeddings encode the anomalous nature of a time context. In addition, we evaluate other graph outlier algorithms for the same task. Given our pipeline is modular, graph construction, generation of graph embeddings, and pattern recognition logic can all be chosen based on the specific pattern detection application. We verified the effectiveness of graph-based anomaly detection and compared it with the CMP and 3 state-of-the art methods on two real-world healthcare datasets with different anomalies. Our proposed method demonstrated better recall, alert rate and generalisability.
翻訳日:2022-11-30 15:11:16 公開日:2022-11-29
# Rewardを入力として設定可能なエージェント:プレイスタイル連続生成

Configurable Agent With Reward As Input: A Play-Style Continuum Generation ( http://arxiv.org/abs/2211.16221v1 )

ライセンス: Link先を確認
Pierre Le Pelletier de Woillemont, R\'emi Labory and Vincent Corruble(参考訳) 現代のビデオゲームは、ゲームメカニズムの面でより豊かで複雑なものになりつつある。 この複雑さは、プレイヤー間でゲームをプレイする様々な方法の出現を可能にする。 ゲームデザイナーの観点では、ゲームがプレイできる多くの異なる方法を予想する必要があることを意味する。 機械学習(ML)はこの問題を解決するのに役立つ。 より正確に言えば、強化学習はビデオゲームのテストを自動化する必要性に対する有望な答えである。 本稿では,複数のプレイスタイルを定義可能なゲーム環境を提案する。 次に、RewardをInputとして設定可能なエージェントであるCARIを紹介します。 幅広いプレイスタイルの連続体範囲をシミュレートできるエージェント。 報酬シェーピングを用いた現在の方法のような極端な元型行動には制限されない。 さらに、通常のプレイスタイルの1ループではなく、1つのトレーニングループでこれを実現する。 我々はこの新しいトレーニング手法と古典的な報酬形成手法を比較し、CARIはアーチェタイプ生成のベースラインを上回りうると結論づける。 本発明の新規エージェントは,ゲーム製作時の動作やバランスを,現実的なトレーニング時間で調査することができる。

Modern video games are becoming richer and more complex in terms of game mechanics. This complexity allows for the emergence of a wide variety of ways to play the game across the players. From the point of view of the game designer, this means that one needs to anticipate a lot of different ways the game could be played. Machine Learning (ML) could help address this issue. More precisely, Reinforcement Learning is a promising answer to the need of automating video game testing. In this paper we present a video game environment which lets us define multiple play-styles. We then introduce CARI: a Configurable Agent with Reward as Input. An agent able to simulate a wide continuum range of play-styles. It is not constrained to extreme archetypal behaviors like current methods using reward shaping. In addition it achieves this through a single training loop, instead of the usual one loop per play-style. We compare this novel training approach with the more classic reward shaping approach and conclude that CARI can also outperform the baseline on archetypes generation. This novel agent could be used to investigate behaviors and balancing during the production of a video game with a realistic amount of training time.
翻訳日:2022-11-30 15:10:37 公開日:2022-11-29
# 基礎モデルの力について

On the power of foundation models ( http://arxiv.org/abs/2211.16327v1 )

ライセンス: Link先を確認
Yang Yuan(参考訳) 無限に多くの高品質なデータポイント、無限の計算力、完璧なトレーニングアルゴリズムを備えた無限大の基礎モデル、プレテキストタスクにおけるゼロ一般化誤差を保証することで、モデルはあらゆることに利用できるだろうか? この問題は、それらが主に調査する問題はここでは存在しないと仮定されるため、既存の表現理論、最適化理論、一般化理論によっては答えられない。 本稿では,カテゴリ理論がこの問題に答える強力な機械を提供することを示す。 3つの結果が得られた。 最初の1つは、プロンプトベースの学習のパワーを制限し、そのモデルは、そのタスクが表現可能であれば、プロンプトで下流のタスクを解決できる、と言う。 2つ目は、最小限のパワー(対称性まで)を持つ基礎モデルが、微調整と十分なリソースで理論上下流のタスクを解くことができるからである。 我々の最終結果は新たな一般化定理と見なすことができ、基礎モデルが対象のカテゴリ(例えば画像)から、ソースのカテゴリ(例えばテキスト)の構造情報を使って、未発見のオブジェクトを生成できることを示します。 その過程で私たちは,独立した関心を持つ可能性のある,教師付きおよび自己教師型学習のための分類的枠組みを提供する。

With infinitely many high-quality data points, infinite computational power, an infinitely large foundation model with a perfect training algorithm and guaranteed zero generalization error on the pretext task, can the model be used for everything? This question cannot be answered by the existing theory of representation, optimization or generalization, because the issues they mainly investigate are assumed to be nonexistent here. In this paper, we show that category theory provides powerful machinery to answer this question. We have proved three results. The first one limits the power of prompt-based learning, saying that the model can solve a downstream task with prompts if and only if the task is representable. The second one says fine tuning does not have this limit, as a foundation model with the minimum power (up to symmetry) can theoretically solve downstream tasks with fine tuning and enough resources. Our final result can be seen as a new type of generalization theorem, showing that the foundation model can generate unseen objects from the target category (e.g., images) using the structural information from the source category (e.g., texts). Along the way, we provide a categorical framework for supervised and self-supervised learning, which might be of independent interest.
翻訳日:2022-11-30 15:10:24 公開日:2022-11-29
# 連続環境のための後方サンプリング

Posterior Sampling for Continuing Environments ( http://arxiv.org/abs/2211.15931v1 )

ライセンス: Link先を確認
Wanqiao Xu, Shi Dong, Benjamin Van Roy(参考訳) 我々は, エージェント環境インタフェースに適合し, 複雑な環境にスケールするエージェント設計に自然に統合される強化学習のための後部サンプリング(PSRL)の拡張を開発する。 このアプローチは、統計的に妥当な環境モデルを維持し、予測される$\gamma$-discounted returnを最大化するポリシーに従う。 確率が1-\gamma$の場合、モデルは環境上の後部分布からのサンプルに置き換えられる。 ここで、$S$は環境状態の数、$A$はアクションの数、$\tau$は報酬平均時間を表し、任意のポリシーの平均報酬を正確に見積もるのに必要な時間に制限される。

We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach maintains a statistically plausible model of the environment and follows a policy that maximizes expected $\gamma$-discounted return in that model. At each time, with probability $1-\gamma$, the model is replaced by a sample from the posterior distribution over environments. For a suitable schedule of $\gamma$, we establish an $\tilde{O}(\tau S \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $\tau$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy.
翻訳日:2022-11-30 15:09:09 公開日:2022-11-29
# 帯域問題に対するPAC-Bayes境界:調査と実験的比較

PAC-Bayes Bounds for Bandit Problems: A Survey and Experimental Comparison ( http://arxiv.org/abs/2211.16110v1 )

ライセンス: Link先を確認
Hamish Flynn, David Reeb, Melih Kandemir, Jan Peters(参考訳) PAC-Bayesは最近、厳密な性能保証を伴う原則付き学習アルゴリズムを導出できる効果的な理論として再浮上した。 しかし,バンドイト問題へのPAC-Bayesの適用は比較的稀であり,大きな不幸である。 医療、金融、自然科学における多くの意思決定問題は、盗賊問題としてモデル化できる。 これらのアプリケーションの多くは、強力な性能保証を持つ原則付きアルゴリズムを非常に高く評価している。 本調査では,バンドイット問題に対するPAC-Bayes性能境界の概説と,これらの境界の実験的比較について述べる。 実験の結果, 累積的後悔に対するPAC-Bayes上限は緩く, 期待される報酬に対するPAC-Bayes下限は驚くほど厳密であることがわかった。 PAC-Bayes境界を最適化することでポリシーを学習するオフラインコンテキスト帯域幅アルゴリズムは、競合する期待報酬と非空き性能保証を持つランダム化されたニューラルネットワーク警察を学習できることがわかった。

PAC-Bayes has recently re-emerged as an effective theory with which one can derive principled learning algorithms with tight performance guarantees. However, applications of PAC-Bayes to bandit problems are relatively rare, which is a great misfortune. Many decision-making problems in healthcare, finance and natural sciences can be modelled as bandit problems. In many of these applications, principled algorithms with strong performance guarantees would be very much appreciated. This survey provides an overview of PAC-Bayes performance bounds for bandit problems and an experimental comparison of these bounds. Our experimental comparison has revealed that available PAC-Bayes upper bounds on the cumulative regret are loose, whereas available PAC-Bayes lower bounds on the expected reward can be surprisingly tight. We found that an offline contextual bandit algorithm that learns a policy by optimising a PAC-Bayes bound was able to learn randomised neural network polices with competitive expected reward and non-vacuous performance guarantees.
翻訳日:2022-11-30 15:08:54 公開日:2022-11-29
# 入力最適化とモデルファインタニングによる分布外視覚データに対するレジリエンスの構築

Building Resilience to Out-of-Distribution Visual Data via Input Optimization and Model Finetuning ( http://arxiv.org/abs/2211.16228v1 )

ライセンス: Link先を確認
Christopher J. Holder, Majid Khonji, Jorge Dias, Muhammad Shafique(参考訳) 機械学習における大きな課題は、モデルのトレーニングデータの配布外に存在するデータである、配布外データに対するレジリエンスである。 トレーニングはしばしば、限定的かつ慎重にキュレートされたデータセットを使用して実行されるため、モデルがデプロイされると、エッジケースやトレーニングデータに含まれない異常が発生して、大きな分散シフトが発生することが多い。 そこで我々は,特定の目標視モデルに対して入力データを最適化する画像前処理モデルである入力最適化ネットワークを提案する。 本研究では,自律走行車におけるセマンティクスセグメンテーションの文脈において,目標モデルを拡張トレーニングデータと敵対的に訓練された前処理モデルで微調整する既存の手法と比較した。 提案手法は, 微調整モデルに匹敵するデータの性能を実現できることを示すとともに, 入力最適化ネットワークを最適化して細調整モデルに最適化することにより, いずれの手法よりも優れた性能が得られることを示す。 最後に,入力最適化ネットワークとターゲットモデルを同時にトレーニングし,特にエッジケースのシナリオにおいて,さらなる性能向上を実現する共同最適化手法を提案する。 また、我々のアーキテクチャはパフォーマンスに大きな影響を与えずに比較的コンパクトなサイズに縮小でき、リアルタイムの組み込みアプリケーションを容易にすることができることを実証しています。

A major challenge in machine learning is resilience to out-of-distribution data, that is data that exists outside of the distribution of a model's training data. Training is often performed using limited, carefully curated datasets and so when a model is deployed there is often a significant distribution shift as edge cases and anomalies not included in the training data are encountered. To address this, we propose the Input Optimisation Network, an image preprocessing model that learns to optimise input data for a specific target vision model. In this work we investigate several out-of-distribution scenarios in the context of semantic segmentation for autonomous vehicles, comparing an Input Optimisation based solution to existing approaches of finetuning the target model with augmented training data and an adversarially trained preprocessing model. We demonstrate that our approach can enable performance on such data comparable to that of a finetuned model, and subsequently that a combined approach, whereby an input optimization network is optimised to target a finetuned model, delivers superior performance to either method in isolation. Finally, we propose a joint optimisation approach, in which input optimization network and target model are trained simultaneously, which we demonstrate achieves significant further performance gains, particularly in challenging edge-case scenarios. We also demonstrate that our architecture can be reduced to a relatively compact size without a significant performance impact, potentially facilitating real time embedded applications.
翻訳日:2022-11-30 15:03:11 公開日:2022-11-29
# DATID-3D:3次元生成モデルのためのテキスト・画像拡散を用いた多様性保存領域適応

DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image Diffusion for 3D Generative Model ( http://arxiv.org/abs/2211.16374v1 )

ライセンス: Link先を確認
Gwanghyun Kim and Se Young Chun(参考訳) 近年の3次元生成モデルは、高分解能フォトリアリスティック画像の表示一貫性と詳細な3d形状による合成において顕著な性能を発揮しているが、大量のトレーニング画像とそのカメラ分布情報を必要とするため、多様な領域での訓練は困難である。 テキスト誘導型ドメイン適応法は,CLIP(Contrastive Language- Image Pre-training)を活用して,あるドメインの2次元生成モデルを他のドメインのモデルに変換するという,優れた性能を示している。 しかし、その欠点の一つは、CLIPテキストエンコーダの決定論的性質のため、元の生成モデルにおけるサンプルの多様性がドメイン適応生成モデルでは十分に保存されていないことである。 テキスト誘導ドメイン適応は、破滅的な多様性の喪失だけでなく、テキスト画像の対応の劣りや画像品質の低下により、3D生成モデルにとってさらに困難になる。 本稿では,テキスト間拡散モデルを用いた3次元生成モデルに適したドメイン適応手法であるDATID-3Dを提案する。 従来のテキスト誘導ドメイン適応手法の3D拡張とは異なり、我々の新しいパイプラインはソースドメインの最先端の3Dジェネレータを微調整し、テキスト誘導ターゲットドメインの高解像度で多視点一貫した画像を追加データなしで合成することができ、既存のテキスト誘導ドメイン適応手法よりも多様性とテキストイメージ対応性が高い。 さらに,テキストの多様性を十分に享受するために,ワンショットのインスタンス選択適応やシングルビューの3D再構成などの多様な3D画像操作を提案する。

Recent 3D generative models have achieved remarkable performance in synthesizing high resolution photorealistic images with view consistency and detailed 3D shapes, but training them for diverse domains is challenging since it requires massive training images and their camera distribution information. Text-guided domain adaptation methods have shown impressive performance on converting the 2D generative model on one domain into the models on other domains with different styles by leveraging the CLIP (Contrastive Language-Image Pre-training), rather than collecting massive datasets for those domains. However, one drawback of them is that the sample diversity in the original generative model is not well-preserved in the domain-adapted generative models due to the deterministic nature of the CLIP text encoder. Text-guided domain adaptation will be even more challenging for 3D generative models not only because of catastrophic diversity loss, but also because of inferior text-image correspondence and poor image quality. Here we propose DATID-3D, a domain adaptation method tailored for 3D generative models using text-to-image diffusion models that can synthesize diverse images per text prompt without collecting additional images and camera information for the target domain. Unlike 3D extensions of prior text-guided domain adaptation methods, our novel pipeline was able to fine-tune the state-of-the-art 3D generator of the source domain to synthesize high resolution, multi-view consistent images in text-guided targeted domains without additional data, outperforming the existing text-guided domain adaptation methods in diversity and text-image correspondence. Furthermore, we propose and demonstrate diverse 3D image manipulations such as one-shot instance-selected adaptation and single-view manipulated 3D reconstruction to fully enjoy diversity in text.
翻訳日:2022-11-30 15:02:35 公開日:2022-11-29
# ClueWeb22:豊富な情報を持つ100億のWebドキュメント

ClueWeb22: 10 Billion Web Documents with Rich Information ( http://arxiv.org/abs/2211.15848v1 )

ライセンス: Link先を確認
Arnold Overwijk, Chenyan Xiong, Xiao Liu, Cameron VandenBerg, Jamie Callan(参考訳) ClueWeb22は、ClueWebデータセットの最新バージョンで、豊富な情報を扱う100億のWebページを提供する。 その設計は、情報システム、検索型aiシステム、モデルの事前学習など、様々な学術的および産業的な研究をサポートするために、高品質で大規模なウェブコーパスの必要性に影響された。 以前の ClueWeb コーパスと比較すると、ClueWeb22 コーパスはより大きく、より多様性があり、高品質であり、商用ウェブ検索におけるドキュメントの配布と一致している。 clueweb22は生のhtmlに加えて、webブラウザでレンダリングされたページを視覚的に表現したり、ニューラルネットワークパーサからhtml構造情報を解析したりするなど、業界標準のドキュメント理解システムによって提供されるwebページに関する豊富な情報を含んでいる。 これらの信号の多くは業界で広く使われているが、この規模で初めて研究コミュニティで利用可能である。

ClueWeb22, the newest iteration of the ClueWeb line of datasets, provides 10 billion web pages affiliated with rich information. Its design was influenced by the need for a high quality, large scale web corpus to support a range of academic and industry research, for example, in information systems, retrieval-augmented AI systems, and model pretraining. Compared with earlier ClueWeb corpora, the ClueWeb22 corpus is larger, more varied, of higher-quality, and aligned with the document distributions in commercial web search. Besides raw HTML, ClueWeb22 includes rich information about the web pages provided by industry-standard document understanding systems, including the visual representation of pages rendered by a web browser, parsed HTML structure information from a neural network parser, and pre-processed cleaned document text to lower the barrier to entry. Many of these signals have been widely used in industry but are available to the research community for the first time at this scale.
翻訳日:2022-11-30 15:01:45 公開日:2022-11-29
# 連続神経アルゴリズムプランナー

Continuous Neural Algorithmic Planners ( http://arxiv.org/abs/2211.15839v1 )

ライセンス: Link先を確認
Yu He, Petar Veli\v{c}kovi\'c, Pietro Li\`o, Andreea Deac(参考訳) ニューラルネットワーク推論は、ニューラルネットワーク、特にグラフアーキテクチャによる学習アルゴリズムの問題を研究する。 最近の提案であるXLVINは、深層強化学習エージェントの値反復アルゴリズムをシミュレートするグラフニューラルネットワークを使用することのメリットを享受している。 これは、通常利用できない環境に関する特権情報にアクセスせずに、モデルフリーの計画を可能にする。 しかし、xlvin は離散作用空間のみをサポートし、従って実世界の関心のあるほとんどのタスクに非自明に適用できる。 我々は,xlvinを離散化により連続的な行動空間に拡張し,大規模計画グラフを扱うためのいくつかの選択的拡張ポリシーを評価する。 我々の提案であるCNAPは、MuJoCoのような高次元連続制御設定において、ニューラルネットワーク推論が測定可能な影響をいかに生み出すかを示し、低データ設定やモデルフリーベースラインよりも優れている。

Neural algorithmic reasoning studies the problem of learning algorithms with neural networks, especially with graph architectures. A recent proposal, XLVIN, reaps the benefits of using a graph neural network that simulates the value iteration algorithm in deep reinforcement learning agents. It allows model-free planning without access to privileged information about the environment, which is usually unavailable. However, XLVIN only supports discrete action spaces, and is hence nontrivially applicable to most tasks of real-world interest. We expand XLVIN to continuous action spaces by discretization, and evaluate several selective expansion policies to deal with the large planning graphs. Our proposal, CNAP, demonstrates how neural algorithmic reasoning can make a measurable impact in higher-dimensional continuous control settings, such as MuJoCo, bringing gains in low-data settings and outperforming model-free baselines.
翻訳日:2022-11-30 15:01:00 公開日:2022-11-29
# 確率強化LSTMニューラルネットワークに基づく極適応時系列予測モデル

An Extreme-Adaptive Time Series Prediction Model Based on Probability-Enhanced LSTM Neural Networks ( http://arxiv.org/abs/2211.15891v1 )

ライセンス: Link先を確認
Yanhong Li and Jack Xu and David C. Anastasiu(参考訳) 極端な事象による時系列の予測は、特に水文学的予測のような複雑な不確定な要因によって時系列データが影響を受ける場合において、挑戦的で一般的な研究課題である。 様々な従来型およびディープラーニングモデルを用いて、非線形関係を発見し、これらのタイプのデータの複雑なパターンを認識する。 しかし、既存の手法は通常、モデルトレーニングに対する不均衡データや深刻な事象の影響を無視する。 さらに、手法は通常、一般化する能力を示しない少数の一般によく理解された時系列で評価される。 これらの問題に対処するために、我々はNEC+と呼ばれる新しい確率強調型ニューラルネットワークモデルを提案し、これは極端および正常な予測関数を同時に学習し、選択されたバック伝搬によってそれらの中から選択する方法である。 カリフォルニアの9つの貯水池に適用した3日間前水位予測課題について,提案モデルを評価した。 実験結果は,提案モデルが最先端ベースラインを著しく上回り,分布の異なるデータに対して優れた一般化能力を示すことを示した。

Forecasting time series with extreme events has been a challenging and prevalent research topic, especially when the time series data are affected by complicated uncertain factors, such as is the case in hydrologic prediction. Diverse traditional and deep learning models have been applied to discover the nonlinear relationships and recognize the complex patterns in these types of data. However, existing methods usually ignore the negative influence of imbalanced data, or severe events, on model training. Moreover, methods are usually evaluated on a small number of generally well-behaved time series, which does not show their ability to generalize. To tackle these issues, we propose a novel probability-enhanced neural network model, called NEC+, which concurrently learns extreme and normal prediction functions and a way to choose among them via selective back propagation. We evaluate the proposed model on the difficult 3-day ahead hourly water level prediction task applied to 9 reservoirs in California. Experimental results demonstrate that the proposed model significantly outperforms state-of-the-art baselines and exhibits superior generalization ability on data with diverse distributions.
翻訳日:2022-11-30 15:00:45 公開日:2022-11-29
# 持続的強化学習における潜在世界モデルの驚くべき効果

The Surprising Effectiveness of Latent World Models for Continual Reinforcement Learning ( http://arxiv.org/abs/2211.15944v1 )

ライセンス: Link先を確認
Samuel Kessler, Piotr Mi{\l}o\'s, Jack Parker-Holder, and Stephen J. Roberts(参考訳) モデルベース強化学習手法,特に世界モデルを用いた連続強化学習について検討した。 連続的な強化学習では、エージェントは、性能を維持し、過去のタスクを忘れないようにしながら、あるタスクと別のタスクを順次解決する必要がある。 世界モデルはタスクに依存しないソリューションを提供する。 世界モデルは3つの主な理由から、継続的な強化学習のためのストレートフォワードベースラインである。 第一に、既存のタスク間のバッファを持続させることで、世界モデルを忘れないようにし、以前のタスクからの経験を世界モデルを学ぶために再生する。 第二に、サンプル効率が良い。 第三に、世界モデルが生み出す軌道の不確実性を通じて、タスクに依存しない探索戦略を提供する。 我々は,世界モデルが単純かつ効果的な強化学習ベースラインであることを示す。 本研究は,MinigridおよびMinihack継続強化学習ベンチマークにおいて,その効果を検証し,タスク非依存連続強化学習手法の状況よりも優れていることを示す。

We study the use of model-based reinforcement learning methods, in particular, world models for continual reinforcement learning. In continual reinforcement learning, an agent is required to solve one task and then another sequentially while retaining performance and preventing forgetting on past tasks. World models offer a task-agnostic solution: they do not require knowledge of task changes. World models are a straight-forward baseline for continual reinforcement learning for three main reasons. Firstly, forgetting in the world model is prevented by persisting existing experience replay buffers across tasks, experience from previous tasks is replayed for learning the world model. Secondly, they are sample efficient. Thirdly and finally, they offer a task-agnostic exploration strategy through the uncertainty in the trajectories generated by the world model. We show that world models are a simple and effective continual reinforcement learning baseline. We study their effectiveness on Minigrid and Minihack continual reinforcement learning benchmarks and show that it outperforms state of the art task-agnostic continual reinforcement learning methods.
翻訳日:2022-11-30 15:00:27 公開日:2022-11-29
# クローズドフォームポリシー改善オペレータによるオフライン強化学習

Offline Reinforcement Learning with Closed-Form Policy Improvement Operators ( http://arxiv.org/abs/2211.15956v1 )

ライセンス: Link先を確認
Jiachen Li, Edwin Zhang, Ming Yin, Qinxun Bai, Yu-Xiang Wang, William Yang Wang(参考訳) 行動制約付きポリシー最適化は、オフライン強化学習に取り組むための成功パラダイムであることが示されている。 歴史的遷移を利用することによって、政策は、重要な分布シフトを避けるために行動ポリシーによって制約されながら、学習価値関数を最大化するように訓練される。 本稿では,閉形式政策改善演算子を提案する。 本稿では, 行動制約が一階テイラー近似の利用を自然に動機付け, 政策目標の線形近似に繋がる新規な観察を行う。 さらに,実用的なデータセットは通常,異種ポリシによって収集されるため,ガウス混合として行動ポリシーをモデル化し,logsumsumexpの下限とjensenの不等式を活用して誘導された最適化の困難を克服し,クローズドフォームな政策改善オペレーターを創出する。 オフラインRLアルゴリズムを新しいポリシー改善演算子でインスタンス化し、標準D4RLベンチマークにおける最先端アルゴリズムに対する有効性を実証的に示す。

Behavior constrained policy optimization has been demonstrated to be a successful paradigm for tackling Offline Reinforcement Learning. By exploiting historical transitions, a policy is trained to maximize a learned value function while constrained by the behavior policy to avoid a significant distributional shift. In this paper, we propose our closed-form policy improvement operators. We make a novel observation that the behavior constraint naturally motivates the use of first-order Taylor approximation, leading to a linear approximation of the policy objective. Additionally, as practical datasets are usually collected by heterogeneous policies, we model the behavior policies as a Gaussian Mixture and overcome the induced optimization difficulties by leveraging the LogSumExp's lower bound and Jensen's Inequality, giving rise to a closed-form policy improvement operator. We instantiate offline RL algorithms with our novel policy improvement operators and empirically demonstrate their effectiveness over state-of-the-art algorithms on the standard D4RL benchmark.
翻訳日:2022-11-30 15:00:11 公開日:2022-11-29
# 概念に基づくモデルのロバスト性理解と強化

Understanding and Enhancing Robustness of Concept-based Models ( http://arxiv.org/abs/2211.16080v1 )

ライセンス: Link先を確認
Sanchit Sinha, Mengdi Huai, Jianhui Sun, Aidong Zhang(参考訳) 医療診断や財務分析といった重要な応用において、決定を行うためにディープニューラルネットワークの使用が増加し、信頼性と信頼性に関する懸念が高まっている。 自動化システムがより主流になるにつれて、その決定は透明性があり、信頼性があり、人間によって理解され、より良い信頼と信頼が得られます。 この効果のために、概念ボトルネックモデル(cbms)や自己説明ニューラルネットワーク(senn)といった概念に基づくモデルが提案されており、この分野のドメインエキスパートが理解しやすいハイレベルな概念を表現するためにモデルの潜在空間を制約している。 概念に基づくモデルは、説明可能性の向上と信頼性の向上の両方に優れたアプローチを約束するが、それらが体系的な摂動の下で堅牢性を示し、一貫した概念を出力するかどうかはまだ明らかになっていない。 本稿では,悪意のあるサンプルに対する概念ベースモデルの性能をよりよく理解するために,攻撃者が概念ベースモデルを騙すために作成した入力データに対する不可避な変化としても知られる,敵の摂動に対するロバスト性について検討することを目的とする。 具体的には、概念に基づくモデルのセキュリティ脆弱性を評価するために、まず異なる悪意のある攻撃を提案し分析する。 続いて,提案する悪意攻撃に対するシステムの頑健性を高めるための,一般的な攻撃訓練に基づく防御機構を提案する。 1つの合成データセットと2つの実世界のデータセットに関する広範な実験は、提案された攻撃と防御アプローチの有効性を示している。

Rising usage of deep neural networks to perform decision making in critical applications like medical diagnosis and financial analysis have raised concerns regarding their reliability and trustworthiness. As automated systems become more mainstream, it is important their decisions be transparent, reliable and understandable by humans for better trust and confidence. To this effect, concept-based models such as Concept Bottleneck Models (CBMs) and Self-Explaining Neural Networks (SENN) have been proposed which constrain the latent space of a model to represent high level concepts easily understood by domain experts in the field. Although concept-based models promise a good approach to both increasing explainability and reliability, it is yet to be shown if they demonstrate robustness and output consistent concepts under systematic perturbations to their inputs. To better understand performance of concept-based models on curated malicious samples, in this paper, we aim to study their robustness to adversarial perturbations, which are also known as the imperceptible changes to the input data that are crafted by an attacker to fool a well-learned concept-based model. Specifically, we first propose and analyze different malicious attacks to evaluate the security vulnerability of concept based models. Subsequently, we propose a potential general adversarial training-based defense mechanism to increase robustness of these systems to the proposed malicious attacks. Extensive experiments on one synthetic and two real-world datasets demonstrate the effectiveness of the proposed attacks and the defense approach.
翻訳日:2022-11-30 14:59:51 公開日:2022-11-29
# 数値推論のための連鎖同時思考

Chaining Simultaneous Thoughts for Numerical Reasoning ( http://arxiv.org/abs/2211.16482v1 )

ライセンス: Link先を確認
Zhihong Shao, Fei Huang, Minlie Huang(参考訳) リッチな情報がユビキタスな数字の裏側に隠れていることを考えると、テキストによる数値推論はAIシステムにとって不可欠なスキルであるはずだ。 数値推論問題を解くための正確な方程式を導出するため、以前の研究は方程式の構造をモデル化することに焦点を当て、様々な構造的デコーダを提案している。 構造モデリングは有効であることが証明されているが、これらの構造化デコーダは、事前定義された自己回帰順序で単一の方程式を構築し、モデルが推論プロセスをどのように把握すべきかに不必要な制限を課す可能性がある。 直感的には、人間は事前定義された順序で浮かび上がってくる多くの思考を持っているかもしれない;思考は目の前の問題に限らず、他の関連する問題にも関係している。 多様な考えを比較し、関連する要素を連鎖させることで、人間はエラーに弱い。 本稿では,この着想を得て,非循環有向グラフを用いて推論ステップをモデル化する数値推論器cantorを提案する。 広範囲にわたる実験は、完全な教師付きおよび弱い教師付き環境下でのCANTORの有効性を示した。

Given that rich information is hidden behind ubiquitous numbers in text, numerical reasoning over text should be an essential skill of AI systems. To derive precise equations to solve numerical reasoning problems, previous work focused on modeling the structures of equations, and has proposed various structured decoders. Though structure modeling proves to be effective, these structured decoders construct a single equation in a pre-defined autoregressive order, potentially placing an unnecessary restriction on how a model should grasp the reasoning process. Intuitively, humans may have numerous pieces of thoughts popping up in no pre-defined order; thoughts are not limited to the problem at hand, and can even be concerned with other related problems. By comparing diverse thoughts and chaining relevant pieces, humans are less prone to errors. In this paper, we take this inspiration and propose CANTOR, a numerical reasoner that models reasoning steps using a directed acyclic graph where we produce diverse reasoning steps simultaneously without pre-defined decoding dependencies, and compare and chain relevant ones to reach a solution. Extensive experiments demonstrated the effectiveness of CANTOR under both fully-supervised and weakly-supervised settings.
翻訳日:2022-11-30 14:53:39 公開日:2022-11-29
# 転送学習を用いた光行列乗算器のデータ効率モデリング

Data-efficient Modeling of Optical Matrix Multipliers Using Transfer Learning ( http://arxiv.org/abs/2211.16038v1 )

ライセンス: Link先を確認
Ali Cem, Ognjen Jovanovic, Siqi Yan, Yunhong Ding, Darko Zibar, Francesco Da Ros(参考訳) 本稿では,光学行列乗算器の伝送学習支援ニューラルネットワークモデルについて述べる。 提案手法では,Mach-Zehnder干渉計メッシュの解析モデルの性能向上と性能向上に要する実験データを<10\%とする。

We demonstrate transfer learning-assisted neural network models for optical matrix multipliers with scarce measurement data. Our approach uses <10\% of experimental data needed for best performance and outperforms analytical models for a Mach-Zehnder interferometer mesh.
翻訳日:2022-11-30 14:53:19 公開日:2022-11-29
# RNNにおけるカウント行動の長期的一般化の探索

Exploring the Long-Term Generalization of Counting Behavior in RNNs ( http://arxiv.org/abs/2211.16429v1 )

ライセンス: Link先を確認
Nadine El-Naggar, Pranava Madhyastha, Tillman Weyde(参考訳) 本研究では,LSTM,ReLU,GRUモデルの長い列上のタスク数に対する一般化について検討する。 これまでの理論的研究により、ReLUアクティベートされたRNNとLSTMは適切な構成でカウントできる能力を持つのに対し、GRUは長いシーケンスの正しいカウントを防ぐ制限があることがわかった。 これとDyck-1言語上でのLSTMの実証的な結果にもかかわらず、実験の結果、LSTMはトレーニングデータよりもかなり長いシーケンスの正確なカウント動作を学習できないことがわかった。 ReLUは挙動のばらつきが大きく、ほとんどの場合、より悪い一般化を示す。 ロングシーケンスの一般化は検証損失と経験的関係があるが、信頼性の高いロングシーケンスの一般化は、現在の手法によるバックプロパゲーションによって実現不可能に思える。 LSTM, GRU, ReLUの異なる障害モードを示す。 特に、LSTMにおける活性化関数の飽和と、ReLUがカウント動作を一般化するための正しい重み設定は、標準訓練制度では達成されない。 要約すると、一般化可能な数え方行動の学習はまだ未解決の問題であり、さらなる研究のための潜在的なアプローチについて議論する。

In this study, we investigate the generalization of LSTM, ReLU and GRU models on counting tasks over long sequences. Previous theoretical work has established that RNNs with ReLU activation and LSTMs have the capacity for counting with suitable configuration, while GRUs have limitations that prevent correct counting over longer sequences. Despite this and some positive empirical results for LSTMs on Dyck-1 languages, our experimental results show that LSTMs fail to learn correct counting behavior for sequences that are significantly longer than in the training data. ReLUs show much larger variance in behavior and in most cases worse generalization. The long sequence generalization is empirically related to validation loss, but reliable long sequence generalization seems not practically achievable through backpropagation with current techniques. We demonstrate different failure modes for LSTMs, GRUs and ReLUs. In particular, we observe that the saturation of activation functions in LSTMs and the correct weight setting for ReLUs to generalize counting behavior are not achieved in standard training regimens. In summary, learning generalizable counting behavior is still an open problem and we discuss potential approaches for further research.
翻訳日:2022-11-30 14:53:13 公開日:2022-11-29
# 等級での言語横断型マルチタスクモデル圧縮

Compressing Cross-Lingual Multi-Task Models at Qualtrics ( http://arxiv.org/abs/2211.15927v1 )

ライセンス: Link先を確認
Daniel Campos, Daniel Perry, Samir Joshi, Yashmeet Gambhir, Wei Du, Zhengzheng Xing, Aaron Colak(参考訳) エクスペリエンス管理は、エンドツーエンドのエクスペリエンスを改善するために、顧客と従業員のフィードバックを理解することに集中する、新たなビジネス領域です。 この結果、人々がどう感じているのかを理解し、関心のある問題を発見し、従来のNLPドメインと異なるコンテンツや分散データにどのアクションを取らなければならないかを見つけるのに役立ちます。 本稿では,経験管理の新たなビジネス領域において,12言語で複数の分類タスクを効率的に行うテキスト解析アプリケーションを構築するケーススタディを提案する。 経験データに基づいて最新のMLメソッドをスケールアップするために、クロス言語およびマルチタスクモデリング技術を活用して、モデルを単一デプロイメントに統合し、オーバーヘッドを回避する。 また、モデル圧縮とモデル蒸留を利用して、全体的な推論遅延とハードウェアコストを、モデル予測品質を維持しながらビジネスニーズに許容できるレベルまで削減します。 マルチタスクモデリングは,XLM-RおよびmBertアーキテクチャにおける経験管理タスクのサブセットにおけるタスク性能を向上することを示した。 私たちが調査した圧縮アーキテクチャのうち、MiniLMは最高の圧縮/性能トレードオフを達成した。 ケーススタディでは,最大15.61倍,平均タスク劣化率2.60% (3.29倍,1.71%) ,最大44%の削減率を示した。 これらの結果は、経験管理のためのMLの新しい領域において、テキスト分類のスケールアップに成功したことを示す。

Experience management is an emerging business area where organizations focus on understanding the feedback of customers and employees in order to improve their end-to-end experiences. This results in a unique set of machine learning problems to help understand how people feel, discover issues they care about, and find which actions need to be taken on data that are different in content and distribution from traditional NLP domains. In this paper, we present a case study of building text analysis applications that perform multiple classification tasks efficiently in 12 languages in the nascent business area of experience management. In order to scale up modern ML methods on experience data, we leverage cross lingual and multi-task modeling techniques to consolidate our models into a single deployment to avoid overhead. We also make use of model compression and model distillation to reduce overall inference latency and hardware cost to the level acceptable for business needs while maintaining model prediction quality. Our findings show that multi-task modeling improves task performance for a subset of experience management tasks in both XLM-R and mBert architectures. Among the compressed architectures we explored, we found that MiniLM achieved the best compression/performance tradeoff. Our case study demonstrates a speedup of up to 15.61x with 2.60% average task degradation (or 3.29x speedup with 1.71% degradation) and estimated savings of 44% over using the original full-size model. These results demonstrate a successful scaling up of text classification for the challenging new area of ML for experience management.
翻訳日:2022-11-30 14:52:54 公開日:2022-11-29
# PiggyBack: 深層学習専門職を支援するための事前学習型視覚質問応答環境

PiggyBack: Pretrained Visual Question Answering Environment for Backing up Non-deep Learning Professionals ( http://arxiv.org/abs/2211.15940v1 )

ライセンス: Link先を確認
Zhihao Zhang, Siwen Luo, Junyi Chen, Sijia Lai, Siqu Long, Hyunsuk Chung, Soyeon Caren Han(参考訳) 我々は,最先端のビジュアル言語事前学習モデルを容易に適用できるビジュアル質問応答プラットフォーム piggyback を提案する。 PiggyBackは、視覚的な質問応答タスクのフルスタック、特にデータ処理、モデル微調整、結果の可視化をサポートする。 ディープラーニング技術のオープンソースAPIプラットフォームであるHuggingFaceによって事前訓練された視覚言語モデルを統合していますが、プログラミングスキルやディープラーニングの理解なしには実行できません。 したがって、私たちのpiggybackは、一般ユーザやドメインの専門家のために、いくつかのディープラーニングビジュアル言語を事前学習したモデルを備えた、使いやすいブラウザベースのユーザインターフェースをサポートします。 このPiggyBackには,次のようなメリットがある。MITライセンス下での無償提供,Webベースによる移植性,ほぼすべてのプラットフォームで動作すること,包括的なデータ生成と処理技術,ディープラーニングベースのビジュアル言語事前トレーニングモデルでの使いやすさ。 デモビデオはYouTubeで公開されており、https://youtu.be/iz44RZ1lF4sで見ることができる。

We propose a PiggyBack, a Visual Question Answering platform that allows users to apply the state-of-the-art visual-language pretrained models easily. The PiggyBack supports the full stack of visual question answering tasks, specifically data processing, model fine-tuning, and result visualisation. We integrate visual-language models, pretrained by HuggingFace, an open-source API platform of deep learning technologies; however, it cannot be runnable without programming skills or deep learning understanding. Hence, our PiggyBack supports an easy-to-use browser-based user interface with several deep learning visual language pretrained models for general users and domain experts. The PiggyBack includes the following benefits: Free availability under the MIT License, Portability due to web-based and thus runs on almost any platform, A comprehensive data creation and processing technique, and ease of use on deep learning-based visual language pretrained models. The demo video is available on YouTube and can be found at https://youtu.be/iz44RZ1lF4s.
翻訳日:2022-11-30 14:51:54 公開日:2022-11-29
# AdvMask:画像分類のためのスパース・アタックに基づくデータ拡張手法

AdvMask: A Sparse Adversarial Attack Based Data Augmentation Method for Image Classification ( http://arxiv.org/abs/2211.16040v1 )

ライセンス: Link先を確認
Suorong Yang, Jinqiao Li, Jian Zhao, Furao Shen(参考訳) データ拡張は、画像分類タスクにおける畳み込みニューラルネットワーク(CNN)の一般化能力を高めるために広く用いられているテクニックである。 咬合は画像分類モデルの一般化能力に影響を与える重要な因子である。 新しいサンプルを生成するために、情報削除に基づく既存のデータ拡張手法は、画像内のいくつかの領域をランダムに除去することにより、隠蔽されたサンプルをシミュレートする。 しかし,これらの手法では画像の構造的特徴に応じて画像の領域を削除することはできない。 これらの問題を解決するために,画像分類タスクのための新しいデータ拡張手法AdvMaskを提案する。 画像内の領域をランダムに除去する代わりに、AdvMaskは、エンドツーエンドのスパース攻撃モジュールを通じて分類結果に最も大きな影響を与えるキーポイントを取得する。 したがって,興味対象の様々な画像の外観や形状の多様性を考慮せずに,分類結果の最も敏感な点を見つけることができる。 また、キーポイントに基づいて構造化マスクを生成するためにデータ拡張モジュールを用い、最も識別性の高いコンテンツが隠されている場合に、cnn分類モデルに他の関連コンテンツを求めるよう強制する。 advmaskは、テストプロセスにおける分類モデルのパフォーマンスを効果的に改善できる。 様々なデータセットとCNNモデルによる実験結果から,提案手法が画像分類タスクにおいて,他のデータ拡張手法よりも優れていることを確認した。

Data augmentation is a widely used technique for enhancing the generalization ability of convolutional neural networks (CNNs) in image classification tasks. Occlusion is a critical factor that affects on the generalization ability of image classification models. In order to generate new samples, existing data augmentation methods based on information deletion simulate occluded samples by randomly removing some areas in the images. However, those methods cannot delete areas of the images according to their structural features of the images. To solve those problems, we propose a novel data augmentation method, AdvMask, for image classification tasks. Instead of randomly removing areas in the images, AdvMask obtains the key points that have the greatest influence on the classification results via an end-to-end sparse adversarial attack module. Therefore, we can find the most sensitive points of the classification results without considering the diversity of various image appearance and shapes of the object of interest. In addition, a data augmentation module is employed to generate structured masks based on the key points, thus forcing the CNN classification models to seek other relevant content when the most discriminative content is hidden. AdvMask can effectively improve the performance of classification models in the testing process. The experimental results on various datasets and CNN models verify that the proposed method outperforms other previous data augmentation methods in image classification tasks.
翻訳日:2022-11-30 14:51:38 公開日:2022-11-29
# 合成データを用いた訓練対象検出モデルの解析

Analysis of Training Object Detection Models with Synthetic Data ( http://arxiv.org/abs/2211.16066v1 )

ライセンス: Link先を確認
Bram Vanherle, Steven Moonen, Frank Van Reeth, Nick Michiels(参考訳) 近年,正確なラベル付きデータセットを低コストで提供するため,合成トレーニングデータの利用が増加している。 この手法の欠点は、実際の対象画像と合成トレーニングデータとの間のいわゆるドメインギャップが、パフォーマンスの低下につながることだ。 本稿では,オブジェクト検出のための合成データの使い方に関する総括的概要を提供する。 私たちは、データ生成の側面と、モデルのトレーニングに使用されるテクニックを分析します。 私たちは、多くの実験を考案し、産業金属オブジェクトのデータセット(DIMO)でモデルをトレーニングします。 このデータセットは、実画像と合成画像の両方を含んでいる。 合成部は、実データの正確な合成コピーである、あるいは特定のアスペクトをランダム化したコピーである、異なるサブセットを有する。 これにより、合成トレーニングデータにどのようなバリエーションが良いのか、ターゲットデータと密にマッチするようにどのアスペクトをモデル化すべきかを分析できる。 さらに,実データへの一般化にどのような訓練手法が有用か,その利用方法について検討した。 さらに,合成画像のトレーニングにおいて実画像をどのように活用できるかを分析する。 これらの実験はすべて実データ上で検証され、実データでトレーニングされたモデルにベンチマークされる。 この結果は、オブジェクト検出に合成データを使用するための基本的なガイドラインとして役立つ、興味深い多くのテイクアウトを提供する。 結果を再現するコードはhttps://github.com/EDM-Research/DIMO_ObjectDetectionで公開されている。

Recently, the use of synthetic training data has been on the rise as it offers correctly labelled datasets at a lower cost. The downside of this technique is that the so-called domain gap between the real target images and synthetic training data leads to a decrease in performance. In this paper, we attempt to provide a holistic overview of how to use synthetic data for object detection. We analyse aspects of generating the data as well as techniques used to train the models. We do so by devising a number of experiments, training models on the Dataset of Industrial Metal Objects (DIMO). This dataset contains both real and synthetic images. The synthetic part has different subsets that are either exact synthetic copies of the real data or are copies with certain aspects randomised. This allows us to analyse what types of variation are good for synthetic training data and which aspects should be modelled to closely match the target data. Furthermore, we investigate what types of training techniques are beneficial towards generalisation to real data, and how to use them. Additionally, we analyse how real images can be leveraged when training on synthetic images. All these experiments are validated on real data and benchmarked to models trained on real data. The results offer a number of interesting takeaways that can serve as basic guidelines for using synthetic data for object detection. Code to reproduce results is available at https://github.com/EDM-Research/DIMO_ObjectDetection.
翻訳日:2022-11-30 14:51:17 公開日:2022-11-29
# isingマシンの高速ハイパーパラメータチューニング

Fast Hyperparameter Tuning for Ising Machines ( http://arxiv.org/abs/2211.15869v1 )

ライセンス: Link先を確認
Matthieu Parizy, Norihiro Kakuko and Nozomu Togawa(参考訳) 本稿では, isingマシンのハイパーパラメータチューニングを高速化する新しい手法を提案する。 まず,イジングマシンの性能を定義し,この性能定義に関してハイパーパラメータチューニングの目標を説明する。 第2に、異なる組合せ最適化問題において、乱数サンプリングとTPE(Tree-structured Parzen Estimator)というよく知られたハイパーパラメータチューニング手法を比較した。 第3に、我々は「FastConvergence」と呼ぶTPEの新しい収束加速法を提案する。 最適なハイパーパラメータ値の組み合わせを達成するために、必要なTPEトライアルの数を制限することを目的としている。 我々は、FastConvergenceと、前述の有名なハイパーパラメータチューニング技術を比較し、その効果を示す。 実験では、よく知られたトラベルセールスマン問題(TSP)と擬似アサインメント問題(QAP)が入力として使用される。 使用するイジングマシンは富士通の第3世代デジタルアニーラー(da)である。 その結果、ほとんどのケースで、FastConvergenceはトライアルの半数未満で、TPEと同じような結果が得られることがわかった。

In this paper, we propose a novel technique to accelerate Ising machines hyperparameter tuning. Firstly, we define Ising machine performance and explain the goal of hyperparameter tuning in regard to this performance definition. Secondly, we compare well-known hyperparameter tuning techniques, namely random sampling and Tree-structured Parzen Estimator (TPE) on different combinatorial optimization problems. Thirdly, we propose a new convergence acceleration method for TPE which we call "FastConvergence".It aims at limiting the number of required TPE trials to reach best performing hyperparameter values combination. We compare FastConvergence to previously mentioned well-known hyperparameter tuning techniques to show its effectiveness. For experiments, well-known Travel Salesman Problem (TSP) and Quadratic Assignment Problem (QAP) instances are used as input. The Ising machine used is Fujitsu's third generation Digital Annealer (DA). Results show, in most cases, FastConvergence can reach similar results to TPE alone within less than half the number of trials.
翻訳日:2022-11-30 14:44:23 公開日:2022-11-29
# 単一スパイク制限のないスパイクニューラルネットワークにおけるタイミングベースバックプロパゲーション

Timing-Based Backpropagation in Spiking Neural Networks Without Single-Spike Restrictions ( http://arxiv.org/abs/2211.16113v1 )

ライセンス: Link先を確認
Kakei Yamamoto, Yusuke Sakemi, Kazuyuki Aihara(参考訳) 本研究では,個々のニューロンの相対的多重スパイクタイミングにおける情報を単一スパイク制限なしで符号化する,スパイクニューラルネットワーク(SNN)のトレーニングのための新しいバックプロパゲーションアルゴリズムを提案する。 提案アルゴリズムは、スパイクタイミングに関する正確な勾配を計算し、理想的な時間的符号化を促進するという従来のタイミングに基づく手法の利点を継承する。 各ニューロンが最大1回発火する従来の方法とは異なり、提案アルゴリズムでは各ニューロンが複数回発火することができる。 この拡張により、SNNの計算能力が自然に向上する。 我々のSNNモデルは、SNNモデルに匹敵する性能を示し、非畳み込み人工ニューラルネットワークと同じくらい高い精度で達成した。 ネットワークのスパイクカウント特性はシナプス後電流と膜電位の時間定数によって変化した。 さらに,テスト精度が最大となる最適時間定数が存在することがわかった。 従来のSNNではタイム・トゥ・ファスト・スパイク(TTFS)のコーディングに単一スパイク制限が課されていた。 この結果は、生物学的に情報を個々のニューロンのマルチスパイクタイミングにエンコードするSNNの計算特性を示す。 私たちのコードは公開されます。

We propose a novel backpropagation algorithm for training spiking neural networks (SNNs) that encodes information in the relative multiple spike timing of individual neurons without single-spike restrictions. The proposed algorithm inherits the advantages of conventional timing-based methods in that it computes accurate gradients with respect to spike timing, which promotes ideal temporal coding. Unlike conventional methods where each neuron fires at most once, the proposed algorithm allows each neuron to fire multiple times. This extension naturally improves the computational capacity of SNNs. Our SNN model outperformed comparable SNN models and achieved as high accuracy as non-convolutional artificial neural networks. The spike count property of our networks was altered depending on the time constant of the postsynaptic current and the membrane potential. Moreover, we found that there existed the optimal time constant with the maximum test accuracy. That was not seen in conventional SNNs with single-spike restrictions on time-to-fast-spike (TTFS) coding. This result demonstrates the computational properties of SNNs that biologically encode information into the multi-spike timing of individual neurons. Our code would be publicly available.
翻訳日:2022-11-30 14:44:09 公開日:2022-11-29
# 互換性のあるニューラルネットワークアライメントの誘導

Guiding Neural Entity Alignment with Compatibility ( http://arxiv.org/abs/2211.15833v1 )

ライセンス: Link先を確認
Bing Liu, Harrisen Scells, Wen Hua, Guido Zuccon, Genghong Zhao, Xia Zhang(参考訳) エンティティアライメント(EA)は、2つの知識グラフ(KG)の間に等価なエンティティを見つけることを目的としている。 多数のニューラルEAモデルが考案されているが、主にラベル付きデータのみを使用して学習されている。 本研究では, 1 kg 内の異なるエンティティは,そのエンティティ間の潜在的な依存性から,他の kg と互換性のあるエンティティを持つべきであると主張する。 したがって、互換性のある予測を行うことは、ラベル付きデータを適合させるとともに、EAモデルをトレーニングする目標の1つであるべきです。 ニューラルEAモデルに互換性を持たせるために,(1)EAモデルの互換性を測定する方法,(2)EAモデルに互換性のある特性を注入する方法,(3)互換性モデルのパラメータを最適化する方法,という3つの問題に対処して,トレーニングフレームワークを考案した。 広く使われているデータセットに関する大規模な実験は、EAモデルに互換性を統合する利点を示している。 実際、ラベル付きデータのわずか5\%を使用してトレーニングされた最先端のニューラルネットワークeaモデルは、ラベル付きデータの20\%を使用して教師付きトレーニングと同等の効果を達成できます。

Entity Alignment (EA) aims to find equivalent entities between two Knowledge Graphs (KGs). While numerous neural EA models have been devised, they are mainly learned using labelled data only. In this work, we argue that different entities within one KG should have compatible counterparts in the other KG due to the potential dependencies among the entities. Making compatible predictions thus should be one of the goals of training an EA model along with fitting the labelled data: this aspect however is neglected in current methods. To power neural EA models with compatibility, we devise a training framework by addressing three problems: (1) how to measure the compatibility of an EA model; (2) how to inject the property of being compatible into an EA model; (3) how to optimise parameters of the compatibility model. Extensive experiments on widely-used datasets demonstrate the advantages of integrating compatibility within EA models. In fact, state-of-the-art neural EA models trained within our framework using just 5\% of the labelled data can achieve comparable effectiveness with supervised training using 20\% of the labelled data.
翻訳日:2022-11-30 14:43:53 公開日:2022-11-29
# 成長する知識グラフのための生涯埋め込み学習と伝達

Lifelong Embedding Learning and Transfer for Growing Knowledge Graphs ( http://arxiv.org/abs/2211.15845v1 )

ライセンス: Link先を確認
Yuanning Cui and Yuxin Wang and Zequn Sun and Wenqiang Liu and Yiqiao Jiang and Kexin Han and Wei Hu(参考訳) 既存の知識グラフ(KG)埋め込みモデルは、主に静的KGに焦点を当てている。 しかし、現実世界のKGは静的にとどまらず、KGアプリケーションの開発とともに進化し成長する。 その結果、新しい事実とそれまで見つからなかった実体と関係が継続的に出現し、成長を通じて新しい知識を素早く学び、伝達できる埋め込みモデルが必要となる。 そこで本論文では,KG 埋め込みの領域拡大,すなわち寿命の長い KG 埋め込みについて検討する。 我々は,KGのスナップショットをスクラッチから学習することなく,学習の知識伝達と保持を考察する。 提案モデルでは,学習と更新のマスク付きKGオートエンコーダと,学習知識を新たなエンティティや関係埋め込みに注入するための埋め込み転送戦略と,破滅的忘れを避けるための埋め込み正規化手法を備える。 KG成長の異なる側面が与える影響を調べるために, 寿命の長いKG埋め込みの性能を評価するために, 4つのデータセットを構築した。 実験結果から,提案モデルが最先端のインダクティブおよび寿命の埋込みベースラインより優れていることが示された。

Existing knowledge graph (KG) embedding models have primarily focused on static KGs. However, real-world KGs do not remain static, but rather evolve and grow in tandem with the development of KG applications. Consequently, new facts and previously unseen entities and relations continually emerge, necessitating an embedding model that can quickly learn and transfer new knowledge through growth. Motivated by this, we delve into an expanding field of KG embedding in this paper, i.e., lifelong KG embedding. We consider knowledge transfer and retention of the learning on growing snapshots of a KG without having to learn embeddings from scratch. The proposed model includes a masked KG autoencoder for embedding learning and update, with an embedding transfer strategy to inject the learned knowledge into the new entity and relation embeddings, and an embedding regularization method to avoid catastrophic forgetting. To investigate the impacts of different aspects of KG growth, we construct four datasets to evaluate the performance of lifelong KG embedding. Experimental results show that the proposed model outperforms the state-of-the-art inductive and lifelong embedding baselines.
翻訳日:2022-11-30 14:43:36 公開日:2022-11-29
# DiffG-RL: 状態と常識の違いを活用

DiffG-RL: Leveraging Difference between State and Common Sense ( http://arxiv.org/abs/2211.16002v1 )

ライセンス: Link先を確認
Tsunehiko Tanaka, Daiki Kimura, Michiaki Tatsubori(参考訳) 背景知識をコンテキストとして考慮することは、自然言語に関わるタスクを解決する上で、常に重要な部分である。 そのようなタスクの代表的な例はテキストベースのゲームであり、プレイヤーは以前ゲームに表示された記述テキストと、言語と常識に関する自身のバックグラウンド知識の両方に基づいて決定を行う必要がある。 本研究では,従来の研究で見られるように,単に常識を与えるだけではなく,その有効利用も検討する。 共通の意味と異なる環境状態の一部が、行動選択の根拠の1つを構成するべきであると仮定する。 本稿では,対話型オブジェクトと専用のグラフエンコーダを用いて,環境状態と常識を整理する差分グラフを構築する新しいエージェントDiffG-RLを提案する。 DiffG-RLはまた、グラフの構築を支援するために、ソースから共通感覚の適切な量と表現を抽出するフレームワークを含んでいる。 DiffG-RLは、常識を必要とするテキストベースのゲームの実験で検証し、ベースラインを17%上回ることを示す。 コードはhttps://github.com/ibm/diffg-rlで入手できる。

Taking into account background knowledge as the context has always been an important part of solving tasks that involve natural language. One representative example of such tasks is text-based games, where players need to make decisions based on both description text previously shown in the game, and their own background knowledge about the language and common sense. In this work, we investigate not simply giving common sense, as can be seen in prior research, but also its effective usage. We assume that a part of the environment states different from common sense should constitute one of the grounds for action selection. We propose a novel agent, DiffG-RL, which constructs a Difference Graph that organizes the environment states and common sense by means of interactive objects with a dedicated graph encoder. DiffG-RL also contains a framework for extracting the appropriate amount and representation of common sense from the source to support the construction of the graph. We validate DiffG-RL in experiments with text-based games that require common sense and show that it outperforms baselines by 17% of scores. The code is available at https://github.com/ibm/diffg-rl
翻訳日:2022-11-30 14:43:10 公開日:2022-11-29
# エンティティアライメントのための依存性を意識した自己学習

Dependency-aware Self-training for Entity Alignment ( http://arxiv.org/abs/2211.16101v1 )

ライセンス: Link先を確認
Bing Liu, Tiancheng Lan, Wen Hua, Guido Zuccon(参考訳) エンティティアライメント(EA)は、異なる知識グラフ(KG)内のエンティティマッピング(同等のエンティティペア)を検出することを目的としており、KGの融合には不可欠である。 ニューラルEA法は現在のEA研究を支配しているが、ラベル付きマッピングに依存している。 この問題を解決するために、いくつかの研究が自己学習によるEAモデルのトレーニングの強化を試みており、トレーニングデータに確実に予測されたマッピングを反復的に追加している。 自己学習の有効性は、いくつかの特定の設定で垣間見ることができるが、それに関する知識は非常に限られている。 ひとつの理由は、既存の作業がEAモデルを設計することに集中し、補助的なツールとして自己学習のみを扱います。 この知識ギャップを埋めるために、自己学習の視点を変えて、光を放つようにします。 さらに、既存の自己学習戦略は、偽の正のノイズが多いか、あるいは真正の擬似マッピングが少ないため、影響が限られている。 EAの自己学習を改善するために,EAの特異性であるエンティティ間の依存関係を利用して,真のポジティブマッピングのリコールを損なうことなくノイズを抑える手法を提案する。 大規模な実験を通じて、依存性の導入によってEAの自己学習戦略が新たなレベルに達することを示す。 アノテーションへの依存を緩和する自己学習の価値は、実際に実現されているものよりもはるかに高い。 さらに、EAパフォーマンスの天井を破るためのスマートデータアノテーションの研究も提案する。

Entity Alignment (EA), which aims to detect entity mappings (i.e. equivalent entity pairs) in different Knowledge Graphs (KGs), is critical for KG fusion. Neural EA methods dominate current EA research but still suffer from their reliance on labelled mappings. To solve this problem, a few works have explored boosting the training of EA models with self-training, which adds confidently predicted mappings into the training data iteratively. Though the effectiveness of self-training can be glimpsed in some specific settings, we still have very limited knowledge about it. One reason is the existing works concentrate on devising EA models and only treat self-training as an auxiliary tool. To fill this knowledge gap, we change the perspective to self-training to shed light on it. In addition, the existing self-training strategies have limited impact because they introduce either much False Positive noise or a low quantity of True Positive pseudo mappings. To improve self-training for EA, we propose exploiting the dependencies between entities, a particularity of EA, to suppress the noise without hurting the recall of True Positive mappings. Through extensive experiments, we show that the introduction of dependency makes the self-training strategy for EA reach a new level. The value of self-training in alleviating the reliance on annotation is actually much higher than what has been realised. Furthermore, we suggest future study on smart data annotation to break the ceiling of EA performance.
翻訳日:2022-11-30 14:42:52 公開日:2022-11-29
# プレフィックスマージを用いたマイナショットクエリ指向要約

Few-shot Query-Focused Summarization with Prefix-Merging ( http://arxiv.org/abs/2211.16164v1 )

ライセンス: Link先を確認
Ruifeng Yuan, Zili Wang, Ziqiang Cao, Wenjie Li(参考訳) クエリ中心の要約は、テキスト要約の重要な拡張と見なされている。 クエリの簡潔なハイライトを生成することを目的としている。 テキスト要約とは異なり、クエリ中心の要約は、高品質な大規模データセットの欠如によって長年悩まされてきた。 本稿では,テキスト要約の知識と質問応答の知識を統合・伝達し,クエリ中心の要約における数発学習を支援することができるかを検討する。 本稿では,クエリ中心の要約において,プレフィックスベースのプレトレーニング戦略であるプレフィックス・マージを提案する。 プレフィックスチューニングからヒントを得て,テキスト要約と質問応答からタスク知識を適切に設計したプレフィックスに統合し,クエリ中心の要約にマージしたプレフィックスを適用する。 少数のトレーニング可能なパラメータだけで、プレフィックスマージはクエリ中心の要約を微調整する。 さらに, 異なるプレフィックス設計の影響について考察し, プレフィックス統合の仕組みを視覚化した説明法を提案する。

Query-focused summarization has been considered as an important extension for text summarization. It aims to generate a concise highlight for a given query. Different from text summarization, query-focused summarization has long been plagued by the problem of lacking high-quality large-scale datasets. In this paper, we investigate the idea that whether we can integrate and transfer the knowledge of text summarization and question answering to assist the few-shot learning in query-focused summarization. Here, we propose prefix-merging, a prefix-based pretraining strategy for few-shot learning in query-focused summarization. Drawn inspiration from prefix-tuning, we are allowed to integrate the task knowledge from text summarization and question answering into a properly designed prefix and apply the merged prefix to query-focused summarization. With only a small amount of trainable parameters, prefix-merging outperforms fine-tuning on query-focused summarization. We further discuss the influence of different prefix designs and propose a visualized explanation for how prefix-merging works.
翻訳日:2022-11-30 14:42:29 公開日:2022-11-29
# AutoCAD:ショートカット学習の軽減のための対物自動生成

AutoCAD: Automatically Generating Counterfactuals for Mitigating Shortcut Learning ( http://arxiv.org/abs/2211.16202v1 )

ライセンス: Link先を確認
Jiaxin Wen, Yeshuang Zhu, Jinchao Zhang, Jie Zhou and Minlie Huang(参考訳) 近年の研究では、NLUモデルが突発的特徴への依存を減らし、一般化性を向上させるために、反実的拡張データ(CAD)の顕著な効果が示されている。 しかしながら、現在の手法は、反事実を生成するための人的努力やタスク固有の設計に大きく依存しているため、CADが幅広いNLUタスクに適用可能であることを妨げている。 本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。 AutoCADはまず分類器を利用して、意味を介入すべきスパンとして教師なしで識別する。 次に、AutoCADは、異種訓練によって強化された制御可能な生成を行い、多様な偽物を生成する。 複数のout-of-domainとchallengeベンチマークの広範な評価は、autocadが、さまざまなnluタスクをまたいだ強力な事前学習モデルの分散性能を一貫して大幅に向上させることを示している。 コードはhttps://github.com/thu-coai/AutoCADで公開されている。

Recent studies have shown the impressive efficacy of counterfactually augmented data (CAD) for reducing NLU models' reliance on spurious features and improving their generalizability. However, current methods still heavily rely on human efforts or task-specific designs to generate counterfactuals, thereby impeding CAD's applicability to a broad range of NLU tasks. In this paper, we present AutoCAD, a fully automatic and task-agnostic CAD generation framework. AutoCAD first leverages a classifier to unsupervisedly identify rationales as spans to be intervened, which disentangles spurious and causal features. Then, AutoCAD performs controllable generation enhanced by unlikelihood training to produce diverse counterfactuals. Extensive evaluations on multiple out-of-domain and challenge benchmarks demonstrate that AutoCAD consistently and significantly boosts the out-of-distribution performance of powerful pre-trained models across different NLU tasks, which is comparable or even better than previous state-of-the-art human-in-the-loop or task-specific CAD methods. The code is publicly available at https://github.com/thu-coai/AutoCAD.
翻訳日:2022-11-30 14:42:17 公開日:2022-11-29
# 教師なしテキスト分類の評価:ゼロショットと類似性に基づくアプローチ

Evaluating Unsupervised Text Classification: Zero-shot and Similarity-based Approaches ( http://arxiv.org/abs/2211.16285v1 )

ライセンス: Link先を確認
Tim Schopf, Daniel Braun, Florian Matthes(参考訳) unseenクラスのテキスト分類は難しい自然言語処理タスクであり、主に2つの異なるアプローチを用いて試みられている。 類似性に基づくアプローチは、テキスト文書表現とクラス記述表現の類似性に基づいてインスタンスを分類しようとする。 ゼロショットテキスト分類手法は、未知クラスの適切なラベルをテキスト文書に割り当てることで、トレーニングタスクから得られる知識を一般化することを目的としている。 既存の研究はこれらのカテゴリーに対する個々のアプローチを既に研究しているが、文献における実験は一貫した比較を提供していない。 本稿では,このギャップに対処するため,異なる類似性に基づくアプローチとゼロショットアプローチの系統的評価を行った。 医学領域の新しいデータセットを含む、さまざまな最先端のアプローチが4つのテキスト分類データセットでベンチマークされている。 さらに、既存の作業で使用される他のベースラインが弱い分類結果をもたらし、容易に上回るため、新しいsimcseとsbertベースのベースラインが提案されている。 最後に、新しい類似性に基づくLbl2TransformerVecアプローチが提示され、教師なしテキスト分類における従来の最先端アプローチよりも優れている。 実験の結果, 類似性に基づくアプローチは, たいていの場合, ゼロショットアプローチを大きく上回っていることがわかった。 さらに、単純なテキスト表現の代わりにSimCSEやSBERTの埋め込みを使用すると、類似性に基づく分類結果はさらに増加する。

Text classification of unseen classes is a challenging Natural Language Processing task and is mainly attempted using two different types of approaches. Similarity-based approaches attempt to classify instances based on similarities between text document representations and class description representations. Zero-shot text classification approaches aim to generalize knowledge gained from a training task by assigning appropriate labels of unknown classes to text documents. Although existing studies have already investigated individual approaches to these categories, the experiments in literature do not provide a consistent comparison. This paper addresses this gap by conducting a systematic evaluation of different similarity-based and zero-shot approaches for text classification of unseen classes. Different state-of-the-art approaches are benchmarked on four text classification datasets, including a new dataset from the medical domain. Additionally, novel SimCSE and SBERT-based baselines are proposed, as other baselines used in existing work yield weak classification results and are easily outperformed. Finally, the novel similarity-based Lbl2TransformerVec approach is presented, which outperforms previous state-of-the-art approaches in unsupervised text classification. Our experiments show that similarity-based approaches significantly outperform zero-shot approaches in most cases. Additionally, using SimCSE or SBERT embeddings instead of simpler text representations increases similarity-based classification results even further.
翻訳日:2022-11-30 14:41:56 公開日:2022-11-29
# 頂点間の相互作用をモデル化するグラフニューラルネットワークの能力について

On the Ability of Graph Neural Networks to Model Interactions Between Vertices ( http://arxiv.org/abs/2211.16494v1 )

ライセンス: Link先を確認
Noam Razin, Tom Verbin, Nadav Cohen(参考訳) グラフニューラルネットワーク(GNN)は、グラフの頂点として表されるエンティティ間の複雑な相互作用をモデル化するために広く使われている。 近年のGNNの表現力を理論的に分析する試みにもかかわらず、相互作用をモデル化する能力の形式的特徴は欠如している。 現在の論文は、このギャップに対処することを目的としている。 分離ランクと呼ばれる確立された尺度による相互作用の形式化強度は、与えられた頂点の部分集合とその補集合の間の相互作用をモデル化する特定のGNNの能力を定量化する。 この結果から, 相互作用をモデル化する能力は, 分割の境界から発するウォークの数によって定義されるグラフ理論特性であるウォーク指数によって決定されることが明らかとなった。 一般的なgnnアーキテクチャを用いた実験はこの発見を裏付ける。 本理論の実用的応用として,入力エッジの除去時にGNNが相互作用をモデル化する能力を保持するWIS(Walk Index Sparsification)というエッジスペーシフィケーションアルゴリズムを設計する。 WISは単純で、計算効率が良く、予測精度で代替手法を著しく上回っている。 より広義には、モデリング可能な相互作用を理論的に分析することで、GNNを改善する可能性を示している。

Graph neural networks (GNNs) are widely used for modeling complex interactions between entities represented as vertices of a graph. Despite recent efforts to theoretically analyze the expressive power of GNNs, a formal characterization of their ability to model interactions is lacking. The current paper aims to address this gap. Formalizing strength of interactions through an established measure known as separation rank, we quantify the ability of certain GNNs to model interaction between a given subset of vertices and its complement, i.e. between sides of a given partition of input vertices. Our results reveal that the ability to model interaction is primarily determined by the partition's walk index -- a graph-theoretical characteristic that we define by the number of walks originating from the boundary of the partition. Experiments with common GNN architectures corroborate this finding. As a practical application of our theory, we design an edge sparsification algorithm named Walk Index Sparsification (WIS), which preserves the ability of a GNN to model interactions when input edges are removed. WIS is simple, computationally efficient, and markedly outperforms alternative methods in terms of induced prediction accuracy. More broadly, it showcases the potential of improving GNNs by theoretically analyzing the interactions they can model.
翻訳日:2022-11-30 14:36:29 公開日:2022-11-29
# タングラム形状を用いた抽象的ビジュアル推論

Abstract Visual Reasoning with Tangram Shapes ( http://arxiv.org/abs/2211.16492v1 )

ライセンス: Link先を確認
Anya Ji and Noriyuki Kojima and Noah Rush and Alane Suhr and Wai Keen Vong and Robert D. Hawkins and Yoav Artzi(参考訳) 我々は,人間と機械の抽象的視覚的推論を研究するための資源であるkilogramを紹介する。 認知科学における刺激としてのタングラムパズルの歴史を考察し、1k以上の異なる刺激を持つ、前の資源よりも桁違いに大きく、多様である、豊富な注釈付きデータセットを構築した。 視覚的にも言語的にも豊かであり、全体形の記述を超えてセグメンテーションマップや部分ラベルを含む。 このリソースを用いて,最近のマルチモーダルモデルの抽象的視覚推論能力を評価する。 事前学習した重みは抽象的推論に制限があり、微調整により劇的に改善する。 また,人間とモデル,特に言語と視覚のインプットを共同でエンコードする場合,明示的な記述が抽象的推論の助けとなることも観察した。 KiloGramはhttps://lil.nlp.cornell.edu/kilogramで入手できる。

We introduce KiloGram, a resource for studying abstract visual reasoning in humans and machines. Drawing on the history of tangram puzzles as stimuli in cognitive science, we build a richly annotated dataset that, with >1k distinct stimuli, is orders of magnitude larger and more diverse than prior resources. It is both visually and linguistically richer, moving beyond whole shape descriptions to include segmentation maps and part labels. We use this resource to evaluate the abstract visual reasoning capacities of recent multi-modal models. We observe that pre-trained weights demonstrate limited abstract reasoning, which dramatically improves with fine-tuning. We also observe that explicitly describing parts aids abstract reasoning for both humans and models, especially when jointly encoding the linguistic and visual inputs. KiloGram is available at https://lil.nlp.cornell.edu/kilogram .
翻訳日:2022-11-30 14:36:08 公開日:2022-11-29
# UQ-ARMED:クラスタ化非イドデータに対する逆正則混合効果深層学習の不確実性定量化

UQ-ARMED: Uncertainty quantification of adversarially-regularized mixed effects deep learning for clustered non-iid data ( http://arxiv.org/abs/2211.15888v1 )

ライセンス: Link先を確認
Alex Treacher, Kevin Nguyen, Dylan Owens, Daniel Heitjan, Albert Montillo(参考訳) この研究は、モデル適合性、固定効果共分散係数、予測信頼度について容易に解釈可能な統計メトリクスを作成する能力を示す。 本研究は,BNN,SWAG,MCドロップアウト,アンサンブルアプローチの4つの適切なUQアプローチと,ARMED MEDLモデルに対するこれらの統計指標の計算能力を比較した。 本実験では,uq法がこれらの利点を提供するだけでなく,いくつかのuq法が元の武装法の性能を保ちながら,控えめな(統計的に有意ではない)性能改善も提供する。 アンサンブルモデル,特に90%のサブサンプリングを用いたアンサンブル法は,(1)非UQ ARMEDモデルに匹敵する高い性能,(2)コンバウンドプローブを適切に重み付け,統計的に重要でないp値を割り当てること,(3)出力予測信頼性の比較的高いキャリブレーションを実現した。 結果から,特に90%のサブサンプリングを用いたアンサンブルアプローチは,予測と不確実性推定において最高の全ラウンド性能を実現し,ARMEDを用いたMEDLのベースライン性能を維持しつつ,モデル適合性,統計的有意な共変量係数,予測信頼性の統計的意義を提供することを目標とした。

This work demonstrates the ability to produce readily interpretable statistical metrics for model fit, fixed effects covariance coefficients, and prediction confidence. Importantly, this work compares 4 suitable and commonly applied epistemic UQ approaches, BNN, SWAG, MC dropout, and ensemble approaches in their ability to calculate these statistical metrics for the ARMED MEDL models. In our experiment for AD prognosis, not only do the UQ methods provide these benefits, but several UQ methods maintain the high performance of the original ARMED method, some even provide a modest (but not statistically significant) performance improvement. The ensemble models, especially the ensemble method with a 90% subsampling, performed well across all metrics we tested with (1) high performance that was comparable to the non-UQ ARMED model, (2) properly deweights the confounds probes and assigns them statistically insignificant p-values, (3) attains relatively high calibration of the output prediction confidence. Based on the results, the ensemble approaches, especially with a subsampling of 90%, provided the best all-round performance for prediction and uncertainty estimation, and achieved our goals to provide statistical significance for model fit, statistical significance covariate coefficients, and confidence in prediction, while maintaining the baseline performance of MEDL using ARMED
翻訳日:2022-11-30 14:35:53 公開日:2022-11-29
# 自己監督型マルチモーダル表現学習と基礎モデルに関する調査

Survey on Self-Supervised Multimodal Representation Learning and Foundation Models ( http://arxiv.org/abs/2211.15837v1 )

ライセンス: Link先を確認
Sushil Thapa(参考訳) 近年、深層学習が関心を集めている。 特に、マルチモーダル学習と呼ばれる特定のタイプは、言語、ビジョン、オーディオなど、幅広い領域の問題を解決するための大きな約束を示している。 これを改善するための有望な研究方向の1つは、インターネット上の大規模データセットの助けを借りて、高次元世界のリッチで堅牢な低次元データ表現を学ぶことである。 大規模データセットのアノテートコストを回避する可能性があるため、自己教師型学習は近年、このタスクのデファクトスタンダードとなっている。 本稿では,現代における多目的自己指導型表現学習の基礎構築に直接的あるいは間接的に責任を負うランドマーク研究論文の一部を要約する。 この論文は、過去数年間における各モダリティの表現学習の発展と、それらを組み合わせてマルチモーダルエージェントを得る方法について述べる。

Deep learning has been the subject of growing interest in recent years. Specifically, a specific type called Multimodal learning has shown great promise for solving a wide range of problems in domains such as language, vision, audio, etc. One promising research direction to improve this further has been learning rich and robust low-dimensional data representation of the high-dimensional world with the help of large-scale datasets present on the internet. Because of its potential to avoid the cost of annotating large-scale datasets, self-supervised learning has been the de facto standard for this task in recent years. This paper summarizes some of the landmark research papers that are directly or indirectly responsible to build the foundation of multimodal self-supervised learning of representation today. The paper goes over the development of representation learning over the last few years for each modality and how they were combined to get a multimodal agent later.
翻訳日:2022-11-30 14:35:25 公開日:2022-11-29
# 顔検出におけるロバスト性差

Robustness Disparities in Face Detection ( http://arxiv.org/abs/2211.15937v1 )

ライセンス: Link先を確認
Samuel Dooley, George Z. Wei, Tom Goldstein, John P. Dickerson(参考訳) 顔分析システムは大企業によって展開され、過去10年間、学者や活動家によって批判されてきた。 既存のアルゴリズム監査の多くは、顔認識や年齢、感情、知覚された性別予測といった顔分析システムの後期要素におけるこれらのシステムの性能を検証しているが、これらのシステムのコアコンポーネントは、公正な視点から非常に劣っている。 顔検出は、顔分析システムにおいて必須のステップであるため、顔検出で観察するバイアスは、顔認識や感情予測といった他のコンポーネントに下流に流れます。 加えて、様々な摂動や腐敗の下でこれらのシステムの堅牢性に先行研究は焦点を当てていないため、これらの現象によって様々な人々がどのように影響を受けるのかという疑問が開かれた。 本稿では,その顔検出システムの詳細なベンチマークを初めて提示し,商業モデルと学術モデルのノイズに対する頑健性について検討する。 顔検出のロバスト性に関するトレンドを定量的に分析するために,標準的および最近発表された学術的顔データセットを使用する。 すべてのデータセットとシステムで、一般的に、$\textit{masculine presented}$、$\textit{older}$、$\textit{darker skin type}$、$\textit{dim lighting}$を持つ個人の写真は、他のidよりもエラーに影響を受けやすい。

Facial analysis systems have been deployed by large companies and critiqued by scholars and activists for the past decade. Many existing algorithmic audits examine the performance of these systems on later stage elements of facial analysis systems like facial recognition and age, emotion, or perceived gender prediction; however, a core component to these systems has been vastly understudied from a fairness perspective: face detection, sometimes called face localization. Since face detection is a pre-requisite step in facial analysis systems, the bias we observe in face detection will flow downstream to the other components like facial recognition and emotion prediction. Additionally, no prior work has focused on the robustness of these systems under various perturbations and corruptions, which leaves open the question of how various people are impacted by these phenomena. We present the first of its kind detailed benchmark of face detection systems, specifically examining the robustness to noise of commercial and academic models. We use both standard and recently released academic facial datasets to quantitatively analyze trends in face detection robustness. Across all the datasets and systems, we generally find that photos of individuals who are $\textit{masculine presenting}$, $\textit{older}$, of $\textit{darker skin type}$, or have $\textit{dim lighting}$ are more susceptible to errors than their counterparts in other identities.
翻訳日:2022-11-30 14:35:11 公開日:2022-11-29
# ベースデータなしでもより汎用的な少数ショット学習

Better Generalized Few-Shot Learning Even Without Base Data ( http://arxiv.org/abs/2211.16095v1 )

ライセンス: Link先を確認
Seongwoong Kim and Dong-Wan Choi(参考訳) 本稿では,ゼロベース一般化されたゼロショット学習 (zero-base gfsl) について紹介・検討する。 プライバシーや倫理上の問題からベースデータが入手できない場合の動機として、ゼロベースGFSLの目的は、新しいクラスのサンプルのほとんどをベースクラスのサンプルなしで事前訓練されたモデルに組み込むことである。 分析の結果,新規クラスの重み分布の平均と分散が,基礎クラスの重み分布と比較して適切に確立されていないことが明らかとなった。 既存のgfsl法は重み規範のバランスを保とうとしているが、これは分散部分のみに寄与するが、特に新しいクラスでは重みの平均の重要性は捨て、ベースデータにおいてもgfsl問題の性能が限られている。 本稿では,新規クラスの重み分布の平均と分散をベースサンプルを用いずに効果的に制御できる簡易かつ効果的な正規化手法を提案することで,この限界を克服し,新規クラスとベースクラスの双方で満足できる性能を実現する。 実験結果から,提案したゼロベースGFSL法は,ベースデータを最大限に活用する既存のGFSL法よりも優れていることがわかった。

This paper introduces and studies zero-base generalized few-shot learning (zero-base GFSL), which is an extreme yet practical version of few-shot learning problem. Motivated by the cases where base data is not available due to privacy or ethical issues, the goal of zero-base GFSL is to newly incorporate the knowledge of few samples of novel classes into a pretrained model without any samples of base classes. According to our analysis, we discover the fact that both mean and variance of the weight distribution of novel classes are not properly established, compared to those of base classes. The existing GFSL methods attempt to make the weight norms balanced, which we find helps only the variance part, but discard the importance of mean of weights particularly for novel classes, leading to the limited performance in the GFSL problem even with base data. In this paper, we overcome this limitation by proposing a simple yet effective normalization method that can effectively control both mean and variance of the weight distribution of novel classes without using any base samples and thereby achieve a satisfactory performance on both novel and base classes. Our experimental results somewhat surprisingly show that the proposed zero-base GFSL method that does not utilize any base samples even outperforms the existing GFSL methods that make the best use of base data.
翻訳日:2022-11-30 14:34:43 公開日:2022-11-29
# Out-Of-Distribution Detectionは必要なものすべてではない

Out-Of-Distribution Detection Is Not All You Need ( http://arxiv.org/abs/2211.16158v1 )

ライセンス: Link先を確認
Joris Gu\'erin (IRD), Kevin Delmas, Raul Sena Ferreira (LAAS), J\'er\'emie Guiochet (LAAS)(参考訳) 安全クリティカルシステムにおけるディープニューラルネットワークの利用は、その正しい振る舞いを保証する能力によって制限される。 実行時モニタは、安全でない予測を特定し、破滅的な結果をもたらす前に破棄するコンポーネントである。 ランタイムモニタリングに関する最近の研究は、アウト・オブ・ディストリビューション(OOD)検出、すなわちトレーニングデータとは異なる入力を特定することに焦点を当てている。 本研究では,OOD検出が効率的なランタイムモニタの設計に適したフレームワークではないこと,不正確な予測を破棄する能力に基づいてモニタを評価することが重要であることを論じる。 我々はこれをモデル外検出と呼び、OODの概念的差異について議論する。 我々はまた、OOD設定におけるモニタの研究が誤解を招く可能性があることを示すため、文献からの一般的なデータセットに関する広範な実験を行った。 非常に良いOODの結果は、安全性の虚偽の印象を与える。 2. ood設定下での比較では、最良のモニターがエラーを検出することができない。 最後に、誤ったトレーニングデータサンプルを削除することで、より良いモニターをトレーニングできることも示します。

The usage of deep neural networks in safety-critical systems is limited by our ability to guarantee their correct behavior. Runtime monitors are components aiming to identify unsafe predictions and discard them before they can lead to catastrophic consequences. Several recent works on runtime monitoring have focused on out-of-distribution (OOD) detection, i.e., identifying inputs that are different from the training data. In this work, we argue that OOD detection is not a well-suited framework to design efficient runtime monitors and that it is more relevant to evaluate monitors based on their ability to discard incorrect predictions. We call this setting out-ofmodel-scope detection and discuss the conceptual differences with OOD. We also conduct extensive experiments on popular datasets from the literature to show that studying monitors in the OOD setting can be misleading: 1. very good OOD results can give a false impression of safety, 2. comparison under the OOD setting does not allow identifying the best monitor to detect errors. Finally, we also show that removing erroneous training data samples helps to train better monitors.
翻訳日:2022-11-30 14:34:20 公開日:2022-11-29
# フェザートラストの鳥たち:適応的近隣集合による分類器の信頼の時を知る

Birds of a Feather Trust Together: Knowing When to Trust a Classifier via Adaptive Neighborhood Aggregation ( http://arxiv.org/abs/2211.16466v1 )

ライセンス: Link先を確認
Miao Xiong, Shen Li, Wenjie Feng, Ailin Deng, Jihai Zhang, Bryan Hooi(参考訳) 分類器による予測がいつ信頼できるのか、どうやってわかるのか? これは、特に医療や自動運転といった安全上重要な分野において、非常に実用的な適用性を持つ基本的な問題である。 分類器のソフトマックス出力を信頼性の代理人として使用するというデファクトなアプローチは、信頼性の過剰な問題に苦しめられている。 本研究では,サンプルに対する分類器の予測の信頼性は,サンプルの近傍情報と分類器の出力の2つの要因と高い相関関係にあると主張する。 両世界のベストを組み合わせるために,我々は,適応型近傍アグリゲーションによる2つの必須情報を活用するために,モデル非依存なneighneagg アプローチを設計した。 理論的には、NeighborAggはワンホップグラフ畳み込みネットワークの一般化版であり、各クラス内のサンプル間の様々な類似性を捉える強力なモデリング能力を継承している。 また,誤ラベル検出の密接なタスクにもアプローチを拡張し,偽陰性のバウンドに関する理論的カバレッジを提供する。 画像および表のベンチマークに関する広範な実験は、我々の理論を検証し、NeighborAggが他の手法よりも優れ、最先端の信頼性性能を達成することを示唆している。

How do we know when the predictions made by a classifier can be trusted? This is a fundamental problem that also has immense practical applicability, especially in safety-critical areas such as medicine and autonomous driving. The de facto approach of using the classifier's softmax outputs as a proxy for trustworthiness suffers from the over-confidence issue; while the most recent works incur problems such as additional retraining cost and accuracy versus trustworthiness trade-off. In this work, we argue that the trustworthiness of a classifier's prediction for a sample is highly associated with two factors: the sample's neighborhood information and the classifier's output. To combine the best of both worlds, we design a model-agnostic post-hoc approach NeighborAgg to leverage the two essential information via an adaptive neighborhood aggregation. Theoretically, we show that NeighborAgg is a generalized version of a one-hop graph convolutional network, inheriting the powerful modeling ability to capture the varying similarity between samples within each class. We also extend our approach to the closely related task of mislabel detection and provide a theoretical coverage guarantee to bound the false negative. Empirically, extensive experiments on image and tabular benchmarks verify our theory and suggest that NeighborAgg outperforms other methods, achieving state-of-the-art trustworthiness performance.
翻訳日:2022-11-30 14:34:04 公開日:2022-11-29
# 数値シミュレーションによる変圧器と共振器の差分探索

Finding Differences Between Transformers and ConvNets Using Counterfactual Simulation Testing ( http://arxiv.org/abs/2211.16499v1 )

ライセンス: Link先を確認
Nataniel Ruiz, Sarah Adel Bargal, Cihang Xie, Kate Saenko, Stan Sclaroff(参考訳) 現代のディープニューラルネットワークは静的テストセットで評価される傾向がある。 この欠点の1つは、特定のシーンのバリエーションに関して、これらのディープニューラルネットワークが堅牢性の問題に対して容易に評価できないという事実である。 例えば、これらのネットワークの堅牢性について、オブジェクトスケール、オブジェクトポーズ、シーンライティング、および3Dオクルージョンのバリエーションについて研究することは困難である。 主な理由は、十分なスケールのきめ細かい自然主義的なバリエーションを持つ実際のデータセットを集めるのに非常に時間がかかり、コストがかかるためである。 In this work, we present Counterfactual Simulation Testing, a counterfactual framework that allows us to study the robustness of neural networks with respect to some of these naturalistic variations by building realistic synthetic scenes that allow us to ask counterfactual questions to the models, ultimately providing answers to questions such as "Would your classification still be correct if the object were viewed from the top?" or "Would your classification still be correct if the object were partially occluded by another object?". 提案手法は,最近リリースされた,最先端の畳み込みニューラルネットワークと視覚変換器の強靭性を,これらの自然的変動に対して公平に比較することができる。 我々は、ConvNextはSwinよりもポーズとスケールのばらつきが強く、ConvNextは我々のシミュレートされたドメインをより一般化し、SwinはConvNextよりも部分的なオクルージョンを扱うという証拠を発見した。 また、すべてのネットワークに対するロバスト性は、ネットワークスケールとデータスケールと多様性によって改善される。 対象のポーズやスケール,視点,照明,オクルージョンといった自然的変動を伴う,日常オブジェクトの272k画像の大規模シミュレーションデータセットである naturalistic variation object dataset (nvd) をリリースする。 プロジェクトページ: https://counterfactualsimulation.github.io

Modern deep neural networks tend to be evaluated on static test sets. One shortcoming of this is the fact that these deep neural networks cannot be easily evaluated for robustness issues with respect to specific scene variations. For example, it is hard to study the robustness of these networks to variations of object scale, object pose, scene lighting and 3D occlusions. The main reason is that collecting real datasets with fine-grained naturalistic variations of sufficient scale can be extremely time-consuming and expensive. In this work, we present Counterfactual Simulation Testing, a counterfactual framework that allows us to study the robustness of neural networks with respect to some of these naturalistic variations by building realistic synthetic scenes that allow us to ask counterfactual questions to the models, ultimately providing answers to questions such as "Would your classification still be correct if the object were viewed from the top?" or "Would your classification still be correct if the object were partially occluded by another object?". Our method allows for a fair comparison of the robustness of recently released, state-of-the-art Convolutional Neural Networks and Vision Transformers, with respect to these naturalistic variations. We find evidence that ConvNext is more robust to pose and scale variations than Swin, that ConvNext generalizes better to our simulated domain and that Swin handles partial occlusion better than ConvNext. We also find that robustness for all networks improves with network scale and with data scale and variety. We release the Naturalistic Variation Object Dataset (NVD), a large simulated dataset of 272k images of everyday objects with naturalistic variations such as object pose, scale, viewpoint, lighting and occlusions. Project page: https://counterfactualsimulation.github.io
翻訳日:2022-11-30 14:33:38 公開日:2022-11-29
# 知識グラフを用いた視覚言語モデルの常識化

Improving Commonsense in Vision-Language Models via Knowledge Graph Riddles ( http://arxiv.org/abs/2211.16504v1 )

ライセンス: Link先を確認
Shuquan Ye and Yujia Xie and Dongdong Chen and Yichong Xu and Lu Yuan and Chenguang Zhu and Jing Liao(参考訳) 本稿では,近年普及している視覚言語モデル(VL)のコモンセンス能力の解析と改善に焦点をあてる。 大きな成功にもかかわらず、既存のVLモデルは、人工知能にとって重要な要素である常識的知識/推論能力(例:「レモンは酸っぱい」)が欠けている。 分析の結果,既存の大規模VLデータセットにはコモンセンスの知識があまり含まれておらず,データの観点からVLモデルのコモンセンスを改善する動機となっていることが判明した。 新たなVLトレーニングデータセットを収集する代わりに、よりスケーラブルな戦略として、"KNowledge graph linearization for CommonsensE capabilities"(DANCE)を提案する。 これは、トレーニング中に既存のvlデータセットに共通知識をオンザフライで注入できる、データ拡張技術の一種と見なすことができる。 具体的には、Commonsenseナレッジグラフ(ConceptNetなど)を活用し、双方向サブグラフシーケンシャル化によるVLデータセットにおけるテキスト記述の変種を生成する。 より優れたコモンセンス評価のために,検索に基づく最初のコモンセンス診断ベンチマークを提案する。 代表的なVLモデルについて広範な実験を行うことで,本手法がバニラ検索タスクの性能を維持しつつ,コモンセンス能力を大幅に向上できることを示す。 コードとデータはhttps://github.com/pleaseconnectwifi/danceで入手できる。

This paper focuses on analyzing and improving the commonsense ability of recent popular vision-language (VL) models. Despite the great success, we observe that existing VL-models still lack commonsense knowledge/reasoning ability (e.g., "Lemons are sour"), which is a vital component towards artificial general intelligence. Through our analysis, we find one important reason is that existing large-scale VL datasets do not contain much commonsense knowledge, which motivates us to improve the commonsense of VL-models from the data perspective. Rather than collecting a new VL training dataset, we propose a more scalable strategy, i.e., "Data Augmentation with kNowledge graph linearization for CommonsensE capability" (DANCE). It can be viewed as one type of data augmentation technique, which can inject commonsense knowledge into existing VL datasets on the fly during training. More specifically, we leverage the commonsense knowledge graph (e.g., ConceptNet) and create variants of text description in VL datasets via bidirectional sub-graph sequentialization. For better commonsense evaluation, we further propose the first retrieval-based commonsense diagnostic benchmark. By conducting extensive experiments on some representative VL-models, we demonstrate that our DANCE technique is able to significantly improve the commonsense ability while maintaining the performance on vanilla retrieval tasks. The code and data are available at https://github.com/pleaseconnectwifi/DANCE
翻訳日:2022-11-30 14:33:06 公開日:2022-11-29
# 制約付き確率連続体型バンディットの正則悲観的最適学習

Rectified Pessimistic-Optimistic Learning for Stochastic Continuum-armed Bandit with Constraints ( http://arxiv.org/abs/2211.14720v2 )

ライセンス: Link先を確認
Hengquan Guo, Qi Zhu, and Xin Liu(参考訳) 本稿では,制約付き確率連続体型バンディット問題(scbwc)について検討し,ブラックボックスの報酬関数 $f(x)$ を,連続空間 $\mathcal x$ 上のブラックボックス制約関数 $g(x)\leq 0$ に対して最適化する。 我々はガウス過程(GP)を介して報酬関数と制約関数をモデル化し、それぞれ報酬関数と制約関数に楽観的および悲観的なGPバンディット学習を取り入れたペナルティベースのフレームワークRPOL(Rectified Pessimistic-Optimistic Learning framework)を提案する。 累積制約違反の計量である$\sum_{t=1}^t(g(x_t))^{+},$は従来の長期制約違反である$\sum_{t=1}^tg(x_t)よりも厳密に強い。 $ ペナルティ更新の修正設計とRPOLの制約関数の悲観的な学習により、累積的制約違反は最小限である。 RPOLは、SCBwCとその変種(例えば遅延フィードバックや非定常環境下で)に対するサブ線形後悔と累積的制約違反を達成できる。 これらの理論結果は制約のない結果と一致する。 我々の実験は、RPOLが既存のベースラインアルゴリズムより優れていることを正当化する。

This paper studies the problem of stochastic continuum-armed bandit with constraints (SCBwC), where we optimize a black-box reward function $f(x)$ subject to a black-box constraint function $g(x)\leq 0$ over a continuous space $\mathcal X$. We model reward and constraint functions via Gaussian processes (GPs) and propose a Rectified Pessimistic-Optimistic Learning framework (RPOL), a penalty-based method incorporating optimistic and pessimistic GP bandit learning for reward and constraint functions, respectively. We consider the metric of cumulative constraint violation $\sum_{t=1}^T(g(x_t))^{+},$ which is strictly stronger than the traditional long-term constraint violation $\sum_{t=1}^Tg(x_t).$ The rectified design for the penalty update and the pessimistic learning for the constraint function in RPOL guarantee the cumulative constraint violation is minimal. RPOL can achieve sublinear regret and cumulative constraint violation for SCBwC and its variants (e.g., under delayed feedback and non-stationary environment). These theoretical results match their unconstrained counterparts. Our experiments justify RPOL outperforms several existing baseline algorithms.
翻訳日:2022-11-30 12:23:32 公開日:2022-11-29
# トレーニング不足でグラフニューラルネットワークを改良:訓練されていないGNNのチケットを見つける

You Can Have Better Graph Neural Networks by Not Training Weights at All: Finding Untrained GNNs Tickets ( http://arxiv.org/abs/2211.15335v2 )

ライセンス: Link先を確認
Tianjin Huang, Tianlong Chen, Meng Fang, Vlado Menkovski, Jiaxu Zhao, Lu Yin, Yulong Pei, Decebal Constantin Mocanu, Zhangyang Wang, Mykola Pechenizkiy, Shiwei Liu(参考訳) 近年の研究では、ネットワークの重みを最適化することなく、完全に訓練された高密度ネットワークの性能に匹敵する、ランダムに初期化された畳み込みニューラルネットワーク(CNN)にサブネットワークが存在することが顕著に示されている。 しかし、グラフニューラルネットワーク(GNN)におけるそのような訓練されていないサブネットワークの存在は、いまだに謎のままである。 本稿では,未学習のGNNを探索する第一種探索を行う。 sparsityをコアツールとして、初期化時に \textit{untrained sparse subnetworks} を見つけることができ、これは \textit{fully trained dense} gnnのパフォーマンスにマッチする。 このことに加えて、未学習のサブネットワークがGNNのオーバースムース化問題を大幅に軽減し、ベルやホイッスルを使わずにより深いGNNを可能にする強力なツールとなることを示す。 また,そのようなスパースな未学習サブネットワークは,分布外検出や入力摂動のロバスト性において,優れた性能を有することが観察された。 提案手法は,Open Graph Benchmark (OGB) など,広く使用されているGNNアーキテクチャを用いて評価する。

Recent works have impressively demonstrated that there exists a subnetwork in randomly initialized convolutional neural networks (CNNs) that can match the performance of the fully trained dense networks at initialization, without any optimization of the weights of the network (i.e., untrained networks). However, the presence of such untrained subnetworks in graph neural networks (GNNs) still remains mysterious. In this paper we carry out the first-of-its-kind exploration of discovering matching untrained GNNs. With sparsity as the core tool, we can find \textit{untrained sparse subnetworks} at the initialization, that can match the performance of \textit{fully trained dense} GNNs. Besides this already encouraging finding of comparable performance, we show that the found untrained subnetworks can substantially mitigate the GNN over-smoothing problem, hence becoming a powerful tool to enable deeper GNNs without bells and whistles. We also observe that such sparse untrained subnetworks have appealing performance in out-of-distribution detection and robustness of input perturbations. We evaluate our method across widely-used GNN architectures on various popular datasets including the Open Graph Benchmark (OGB).
翻訳日:2022-11-30 12:23:07 公開日:2022-11-29
# 未知の介入下でのガウス構造因果モデルのキャラクタリゼーションと欲望学習

Characterization and Greedy Learning of Gaussian Structural Causal Models under Unknown Interventions ( http://arxiv.org/abs/2211.14897v2 )

ライセンス: Link先を確認
Juan L. Gamella, Armeen Taeb, Christina Heinze-Deml, Peter B\"uhlmann(参考訳) 我々は,各実験における介入対象が不明な場合,異なる実験条件からの観測結果に基づく因果構造回復の問題を考える。 付加的なガウス雑音を伴う線形構造因果モデルを仮定し、システム内の因果関係を維持しながら目標を乱す介入を検討する。 異なるモデルは同じ分布を伴い、与えられた観測に対して競合する因果説明を提供する。 我々は、この同値クラスを完全に特徴付け、GnIESと呼ばれる欲求アルゴリズムを導出し、介入対象を知らずにデータ生成モデルの同値クラスを復元する。 さらに,既知な因果的基底真理を持つ半合成的データセットを生成する新しい手法を開発した。 我々は,この手法を活用し,合成,実,半合成データセット上でのGnIESの性能を評価する。 ガウス分布の強い仮定にもかかわらず、GnIESはモデル違反の配列に対して堅牢であり、小さなから大きなサンプル設定で因果構造を復元する競争力がある。 我々は,Pythonパッケージの"gnies"と"sempler"において,GnIESの実装と半合成データ生成手順を提供する。

We consider the problem of recovering the causal structure underlying observations from different experimental conditions when the targets of the interventions in each experiment are unknown. We assume a linear structural causal model with additive Gaussian noise and consider interventions that perturb their targets while maintaining the causal relationships in the system. Different models may entail the same distributions, offering competing causal explanations for the given observations. We fully characterize this equivalence class and offer identifiability results, which we use to derive a greedy algorithm called GnIES to recover the equivalence class of the data-generating model without knowledge of the intervention targets. In addition, we develop a novel procedure to generate semi-synthetic data sets with known causal ground truth but distributions closely resembling those of a real data set of choice. We leverage this procedure and evaluate the performance of GnIES on synthetic, real, and semi-synthetic data sets. Despite the strong Gaussian distributional assumption, GnIES is robust to an array of model violations and competitive in recovering the causal structure in small- to large-sample settings. We provide, in the Python packages "gnies" and "sempler", implementations of GnIES and our semi-synthetic data generation procedure.
翻訳日:2022-11-30 12:22:43 公開日:2022-11-29
# batmannet:分子表現のためのバイブランチマスクグラフトランスフォーマーオートエンコーダ

BatmanNet: Bi-branch Masked Graph Transformer Autoencoder for Molecular Representation ( http://arxiv.org/abs/2211.13979v2 )

ライセンス: Link先を確認
Zhen Wang, Zheng Feng, Yanjun Li, Bowen Li, Yongrui Wang, Chulin Sha, Min He, Xiaolin Li(参考訳) グラフニューラルネットワーク(GNN)をAIDD(AI-driven drug discovery)に応用する試みが盛んに行われているが、特にラベル付き分子が不十分な場合には、効果的な分子表現学習は未解決の課題である。 近年の研究では、ラベルなしデータセットの自己教師付き学習によって事前訓練された大きなGNNモデルにより、下流の分子特性予測タスクにおける転送性能が向上することが示唆されている。 しかし、それらはしばしば大規模なデータセットとかなりの計算資源を必要とし、それは時間消費、計算コスト、環境にやさしいものである。 これらの制約を緩和するために,分子表現学習のための新しい事前学習モデル,バイブランチマスクグラフトランスフォーマーオートエンコーダ(batmannet)を提案する。 BatmanNetは、マスクされた分子グラフから欠落したノードとエッジを再構築する2つの調整された補足グラフオートエンコーダを備えている。 驚いたことに、BatmanNetは、原子と結合の非常に隠蔽された割合(60%)が最高の性能を達成したことに気づいた。 さらに,ノードやエッジに対して非対称なグラフベースのエンコーダ-デコーダアーキテクチャを提案する。トランスフォーマベースのエンコーダはノードやエッジの可視サブセットのみを取り,軽量デコーダは潜在表現とマスクトークンから元の分子を再構築する。 この単純かつ効果的な非対称設計により、我々のバットマンネットは、分子表現学習のための現在のディープニューラルネットワークの大きな制限を克服し、基礎となる構造的および意味的情報をキャプチャするために、ずっと小さなラベルのない分子データセットからでも効率的に学習することができる。 例えば、250Kの未標識分子を事前学習データとして使うと、2.575Mのパラメータを持つBatmanNetは、1100Mの分子に事前学習された100Mのパラメータを持つ現在の最先端の手法と比較して平均AUCの0.5%の改善を達成する。

Although substantial efforts have been made using graph neural networks (GNNs) for AI-driven drug discovery (AIDD), effective molecular representation learning remains an open challenge, especially in the case of insufficient labeled molecules. Recent studies suggest that big GNN models pre-trained by self-supervised learning on unlabeled datasets enable better transfer performance in downstream molecular property prediction tasks. However, they often require large-scale datasets and considerable computational resources, which is time-consuming, computationally expensive, and environmentally unfriendly. To alleviate these limitations, we propose a novel pre-training model for molecular representation learning, Bi-branch Masked Graph Transformer Autoencoder (BatmanNet). BatmanNet features two tailored and complementary graph autoencoders to reconstruct the missing nodes and edges from a masked molecular graph. To our surprise, BatmanNet discovered that the highly masked proportion (60%) of the atoms and bonds achieved the best performance. We further propose an asymmetric graph-based encoder-decoder architecture for either nodes and edges, where a transformer-based encoder only takes the visible subset of nodes or edges, and a lightweight decoder reconstructs the original molecule from the latent representation and mask tokens. With this simple yet effective asymmetrical design, our BatmanNet can learn efficiently even from a much smaller-scale unlabeled molecular dataset to capture the underlying structural and semantic information, overcoming a major limitation of current deep neural networks for molecular representation learning. For instance, using only 250K unlabelled molecules as pre-training data, our BatmanNet with 2.575M parameters achieves a 0.5% improvement on the average AUC compared with the current state-of-the-art method with 100M parameters pre-trained on 11M molecules.
翻訳日:2022-11-30 12:22:21 公開日:2022-11-29
# 天文学における効果的な機械学習データセットの要素

Elements of effective machine learning datasets in astronomy ( http://arxiv.org/abs/2211.14401v2 )

ライセンス: Link先を確認
Bernie Boscoe, Tuan Do, Evan Jones, Yunqi Li, Kevin Alfaro, Christy Ma(参考訳) 本研究では、天文学における効果的な機械学習データセットの要素を特定し、その設計と作成について提案する。 機械学習は、天文学における大規模なデータの洪水を分析し理解するための、ますます重要なツールになりつつある。 これらのツールを利用するには、トレーニングとテストにデータセットが必要である。 しかし、天文学のための機械学習データセットの構築は困難である。 天文学的データは、機械学習を行うのではなく、伝統的な方法で科学的な疑問を探求するために作られた機器から収集される。 したがって、生データ、あるいは下流の処理データでさえ、機械学習に対処可能な形式になっていない場合が多い。 機械学習データセットの構築について検討し、次のような質問をする: 効果的な機械学習データセットを定義する要素は何か? 天文学における効果的な機械学習データセットを、明確に定義されたデータポイント、構造、メタデータで形成するように定義する。 これらの要素が天文学的な応用に重要である理由と、それを実現する方法について議論する。 これらの品質が機械学習に適合するだけでなく、有用で再利用可能な、複製可能な科学プラクティスの育成にも役立ちます。

In this work, we identify elements of effective machine learning datasets in astronomy and present suggestions for their design and creation. Machine learning has become an increasingly important tool for analyzing and understanding the large-scale flood of data in astronomy. To take advantage of these tools, datasets are required for training and testing. However, building machine learning datasets for astronomy can be challenging. Astronomical data is collected from instruments built to explore science questions in a traditional fashion rather than to conduct machine learning. Thus, it is often the case that raw data, or even downstream processed data is not in a form amenable to machine learning. We explore the construction of machine learning datasets and we ask: what elements define effective machine learning datasets? We define effective machine learning datasets in astronomy to be formed with well-defined data points, structure, and metadata. We discuss why these elements are important for astronomical applications and ways to put them in practice. We posit that these qualities not only make the data suitable for machine learning, they also help to foster usable, reusable, and replicable science practices.
翻訳日:2022-11-30 12:21:45 公開日:2022-11-29
# 2つは1つより優れている:補完的な製品推奨のためのデュアル埋め込み

Two Is Better Than One: Dual Embeddings for Complementary Product Recommendations ( http://arxiv.org/abs/2211.14982v2 )

ライセンス: Link先を確認
Giorgi Kvernadze, Putu Ayu G. Sudyanti, Nishan Subedi, Mohammad Hajiaghayi(参考訳) 近年,大規模なシステムに容易に統合でき,近隣の検索をリアルタイムに行えるため,埋め込みベースの製品レコメンデーションが人気を集めている。 この領域における多くの研究は、主に類似の項目の推薦に焦点を当てている。 一方,相補的項目推薦の研究は,まだ未検討のままである。 類似の項目を,有用性の観点から交換可能な項目と定義し,異なる目的に適合するが,相互に使用する場合には互換性を持つ項目として補完的項目を定義した。 本稿では,製品に対する二重埋め込み表現を活用し,補完的項目を見つけるための新しい手法を提案する。 本研究では,NLP におけるスキップグラム陰性サンプリング (SGNS) モデルにおける関連性の概念が,共購入データを用いてアイテム表現を訓練する際の相補性の概念に有効であることを示す。 実際のシナリオでは,購入データの分散が大きな課題となるため,包括範囲を拡大するために合成サンプルを用いたモデルをさらに強化する。 これにより、画像、テキスト、クリックなどの豊富なデータモダリティを活用することで、共購入データを共有しない項目に対して補完的なレコメンデーションを提供することができる。 我々は,大手オンライン小売企業において,実世界のデータに対するレコメンデーションのカバレッジと品質を向上させるためのアプローチの有効性を確立した。 さらに,SGNS訓練におけるタスク特化ハイパーパラメータチューニングの重要性を示す。 我々のモデルは実装が簡単であり、あらゆるeコマースウェブサイトで補完的なアイテムレコメンデーションを生成するための優れた候補となる。

Embedding based product recommendations have gained popularity in recent years due to its ability to easily integrate to large-scale systems and allowing nearest neighbor searches in real-time. The bulk of studies in this area has predominantly been focused on similar item recommendations. Research on complementary item recommendations, on the other hand, still remains considerably under-explored. We define similar items as items that are interchangeable in terms of their utility and complementary items as items that serve different purposes, yet are compatible when used with one another. In this paper, we apply a novel approach to finding complementary items by leveraging dual embedding representations for products. We demonstrate that the notion of relatedness discovered in NLP for skip-gram negative sampling (SGNS) models translates effectively to the concept of complementarity when training item representations using co-purchase data. Since sparsity of purchase data is a major challenge in real-world scenarios, we further augment the model using synthetic samples to extend coverage. This allows the model to provide complementary recommendations for items that do not share co-purchase data by leveraging other abundantly available data modalities such as images, text, clicks etc. We establish the effectiveness of our approach in improving both coverage and quality of recommendations on real world data for a major online retail company. We further show the importance of task specific hyperparameter tuning in training SGNS. Our model is effective yet simple to implement, making it a great candidate for generating complementary item recommendations at any e-commerce website.
翻訳日:2022-11-30 12:21:29 公開日:2022-11-29
# 画像整合型変換による脳組織のロバストワンショットセグメンテーション

Robust One-shot Segmentation of Brain Tissues via Image-aligned Style Transformation ( http://arxiv.org/abs/2211.14521v2 )

ライセンス: Link先を確認
Jinxin Lv, Xiaoyu Zeng, Sheng Wang, Ran Duan, Zhiwei Wang, and Qiang Li(参考訳) 登録モデル(reg-model)は、慎重にラベル付けされたアトラスを未ラベルの画像にワープして、セグメンテーションモデル(seg-model)をトレーニングするための擬似マスクを初期化する。 しかし、このような二重モデル反復において重要な弱点は、レグモデルによって必然的に引き起こされる空間的ミスアライメントがセグモデルを誤る可能性があることである。 本稿では,脳組織の高機能なワンショットセグメンテーションのための2モデル反復学習を強化するために,新しい画像整列型変換を提案する。 具体的には,まずreg-modelを用いてアラスを非ラベル画像にワープし,次にフーリエ型振幅交換器を用いて非ラベル画像のスタイルをアラスに移植する。 これにより、後続のsegモデルはラベル付き画像ではなくアトラスのアライメントおよびスタイル変換されたコピーで学習することができ、ラベル付き画像が持つ強度パターンの多様性を犠牲にすることなく、画像マスクトレーニングペアの正しい空間対応を自然に保証する。 さらに,画像レベルの類似性に加えて,機能対応型コンテンツ一貫性を導入し,最初のイテレーションで画像整合型変換の崩壊を回避し,期待できる初期化のためにregモデルを制約する。 2つの公開データセットの実験結果 1)本手法の完全教師あり方式と比較した競合セグメンテーション性能、及び 2) 平均diceが最大4.67%増加する他の最先端技術よりも優れた性能を示す。 ソースコードは、https://github.com/JinxLv/One-shot-segmentation-via-IST.comで入手できる。

One-shot segmentation of brain tissues is typically a dual-model iterative learning: a registration model (reg-model) warps a carefully-labeled atlas onto unlabeled images to initialize their pseudo masks for training a segmentation model (seg-model); the seg-model revises the pseudo masks to enhance the reg-model for a better warping in the next iteration. However, there is a key weakness in such dual-model iteration that the spatial misalignment inevitably caused by the reg-model could misguide the seg-model, which makes it converge on an inferior segmentation performance eventually. In this paper, we propose a novel image-aligned style transformation to reinforce the dual-model iterative learning for robust one-shot segmentation of brain tissues. Specifically, we first utilize the reg-model to warp the atlas onto an unlabeled image, and then employ the Fourier-based amplitude exchange with perturbation to transplant the style of the unlabeled image into the aligned atlas. This allows the subsequent seg-model to learn on the aligned and style-transferred copies of the atlas instead of unlabeled images, which naturally guarantees the correct spatial correspondence of an image-mask training pair, without sacrificing the diversity of intensity patterns carried by the unlabeled images. Furthermore, we introduce a feature-aware content consistency in addition to the image-level similarity to constrain the reg-model for a promising initialization, which avoids the collapse of image-aligned style transformation in the first iteration. Experimental results on two public datasets demonstrate 1) a competitive segmentation performance of our method compared to the fully-supervised method, and 2) a superior performance over other state-of-the-art with an increase of average Dice by up to 4.67%. The source code is available at: https://github.com/JinxLv/One-shot-segmentation-via-IST.
翻訳日:2022-11-30 12:18:22 公開日:2022-11-29
# ドメイン適応意味セグメンテーションのためのクロスドメイントランスフォーマの一貫性の探求

Exploring Consistency in Cross-Domain Transformer for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2211.14703v2 )

ライセンス: Link先を確認
Kaihong Wang and Donghyun Kim and Rogerio Feris and Kate Saenko and Margrit Betke(参考訳) セマンティックセグメンテーションにおけるトランスフォーマーの性能は大幅に向上しているが、ドメイン適応トランスフォーマーはまだ十分に研究されていない。 ドメインギャップが自己注意の相違を引き起こす可能性があることを確認します。 このギャップのため、変圧器は、ターゲット領域の精度を低下させる刺激領域または画素に付随する。 対象領域とソース領域間で特徴を共有するクロスドメインアテンション層を用いてアテンションマップに適応する手法を提案する。 具体的には、クロスドメインアテンションと自己アテンションモジュールからの予測の一貫性を課し、アテンションレベルとアウトプットレベルのアライメントといったドメイン間のモデルのアテンションとアウトプットにおける同様の分散を促進する。 また,異なるアテンションビュー間のアテンションマップの一貫性を強制し,アテンションに基づくアライメントをさらに強化する。 これら2つのコンポーネントを組み合わせることで、ドメイン間の注意マップの相違を緩和し、教師なしドメイン適応設定下での変換器の性能をさらに向上する。 gtav-to-cityscapes by 1.3% point (pp) , synthia-to-cityscapes by 0.6 pp, cityscapes-to-acdc by 1.1 pp である。 また,本手法の有効性と一般化性を広範囲な実験により検証した。 私たちのコードは公開されます。

While transformers have greatly boosted performance in semantic segmentation, domain adaptive transformers are not yet well explored. We identify that the domain gap can cause discrepancies in self-attention. Due to this gap, the transformer attends to spurious regions or pixels, which deteriorates accuracy on the target domain. We propose to perform adaptation on attention maps with cross-domain attention layers that share features between the source and the target domains. Specifically, we impose consistency between predictions from cross-domain attention and self-attention modules to encourage similar distribution in the attention and output of the model across domains, i.e., attention-level and output-level alignment. We also enforce consistency in attention maps between different augmented views to further strengthen the attention-based alignment. Combining these two components, our method mitigates the discrepancy in attention maps across domains and further boosts the performance of the transformer under unsupervised domain adaptation settings. Our model outperforms the existing state-of-the-art baseline model on three widely used benchmarks, including GTAV-to-Cityscapes by 1.3 percent point (pp), Synthia-to-Cityscapes by 0.6 pp, and Cityscapes-to-ACDC by 1.1 pp, on average. Additionally, we verify the effectiveness and generalizability of our method through extensive experiments. Our code will be publicly available.
翻訳日:2022-11-30 12:17:49 公開日:2022-11-29
# BALF:シンプルで効率的な局所特徴検出器

BALF: Simple and Efficient Blur Aware Local Feature Detector ( http://arxiv.org/abs/2211.14731v2 )

ライセンス: Link先を確認
Zhenjun Zhao and Yu Zhai and Ben M. Chen and Peidong Liu(参考訳) 局所特徴検出は、視覚計測や局所化など、多くの画像処理やコンピュータビジョンアプリケーションの主要な要素である。 既存のアルゴリズムのほとんどは、シャープな画像からの特徴検出に焦点を当てている。 したがって、画像がぼやけば性能が低下し、低照度条件下では容易に起こりうる。 この問題に対処するために,不明瞭な画像中の有意なキーポイントを正確にローカライズできる,効率的かつ効果的なキーポイント検出法を提案する。 本手法は, 新たな多層パーセプトロン(MLP)アーキテクチャの利点を生かし, ぼやけた画像の検出再現性を著しく向上させる。 ネットワークは軽量でリアルタイムに動作し、時間制限のあるアプリケーションへのデプロイを可能にする。 広範な実験結果から,シャープ画像に対する既存の最先端検出装置と同等の性能を維持しつつ,ぼやけた画像による検出再現性の向上が期待できることがわかった。

Local feature detection is a key ingredient of many image processing and computer vision applications, such as visual odometry and localization. Most existing algorithms focus on feature detection from a sharp image. They would thus have degraded performance once the image is blurred, which could happen easily under low-lighting conditions. To address this issue, we propose a simple yet both efficient and effective keypoint detection method that is able to accurately localize the salient keypoints in a blurred image. Our method takes advantages of a novel multi-layer perceptron (MLP) based architecture that significantly improve the detection repeatability for a blurred image. The network is also light-weight and able to run in real-time, which enables its deployment for time-constrained applications. Extensive experimental results demonstrate that our detector is able to improve the detection repeatability with blurred images, while keeping comparable performance as existing state-of-the-art detectors for sharp images.
翻訳日:2022-11-30 12:17:21 公開日:2022-11-29
# ニューラルフォントのレンダリング

Neural Font Rendering ( http://arxiv.org/abs/2211.14802v2 )

ライセンス: Link先を確認
Daniel Anderson, Ariel Shamir and Ohad Fried(参考訳) 近年のディープラーニング技術や応用の進歩は、多くの領域(テキスト、画像、音楽)における芸術的創造と操作に革命をもたらしたが、フォントは、そのマルチスケールな性質をサポートする方法で、まだディープラーニングアーキテクチャと統合されていない。 本研究は,複数サイズのグリフをラスタ化可能なネットワークアーキテクチャを提案し,フォントの作成と操作を容易にすることを目的としている。

Recent advances in deep learning techniques and applications have revolutionized artistic creation and manipulation in many domains (text, images, music); however, fonts have not yet been integrated with deep learning architectures in a manner that supports their multi-scale nature. In this work we aim to bridge this gap, proposing a network architecture capable of rasterizing glyphs in multiple sizes, potentially paving the way for easy and accessible creation and manipulation of fonts.
翻訳日:2022-11-30 12:17:04 公開日:2022-11-29
# Meet-in-the-middle: クロスレゾリューション顔認識のためのマルチスケールアップサンプリングとマッチング

Meet-in-the-middle: Multi-scale upsampling and matching for cross-resolution face recognition ( http://arxiv.org/abs/2211.15225v2 )

ライセンス: Link先を確認
Klemen Grm, Berk Kemal \"Ozata, Vitomir \v{S}truc, Haz{\i}m Kemal Ekenel(参考訳) 本稿では,プロのポートレート写真からの高解像度顔画像と,セキュリティカメラからの低画質監視画像との間の大きな領域ギャップに対処することを目的とする。 このような異なる情報源間のアイデンティティマッチングを確立することは、古典的な顔認証シナリオであり、現代の顔認識技術では難しい問題である。 そこで本研究では,顔の超解像,解像度マッチング,マルチスケールテンプレート蓄積を組み合わせ,低品質ソースを含む長距離監視映像から顔を確実に認識する手法を提案する。 提案手法は、実際の監視画像のターゲットデータセットのトレーニングや微調整を必要としない。 広範な実験により,提案手法はscfaceデータセットに微調整された既存手法よりも優れることを示した。

In this paper, we aim to address the large domain gap between high-resolution face images, e.g., from professional portrait photography, and low-quality surveillance images, e.g., from security cameras. Establishing an identity match between disparate sources like this is a classical surveillance face identification scenario, which continues to be a challenging problem for modern face recognition techniques. To that end, we propose a method that combines face super-resolution, resolution matching, and multi-scale template accumulation to reliably recognize faces from long-range surveillance footage, including from low quality sources. The proposed approach does not require training or fine-tuning on the target dataset of real surveillance images. Extensive experiments show that our proposed method is able to outperform even existing methods fine-tuned to the SCFace dataset.
翻訳日:2022-11-30 12:16:56 公開日:2022-11-29
# RankDNN: 少しの学習でランク付けを学ぶ

RankDNN: Learning to Rank for Few-shot Learning ( http://arxiv.org/abs/2211.15320v2 )

ライセンス: Link先を確認
Qianyu Guo, Hongtong Gong, Xujun Wei, Yanwei Fu, Weifeng Ge, Yizhou Yu, Wenqiang Zhang(参考訳) 本稿では、画像検索の関連性ランキングをバイナリランキング関係分類として活用する、新しい数ショット学習パイプラインを提案する。 画像分類と比較して、ランキング関係分類は標本効率が高く、領域非依存である。 さらに、少数の学習に対する新しい視点を提供し、最先端の手法を補完する。 我々のディープニューラルネットワークのコアコンポーネントは単純なMLPで、2つのベクトルクロネッカー積の差分として符号化された画像三重項を入力として、バイナリ関連ランキングを出力する。 提案された rankmlp は最先端の機能抽出器の上に構築することができ、我々のディープニューラルネットワーク全体を ranking deep neural network または rankdnn と呼ぶ。 一方 RankDNN は他の後処理手法と柔軟に融合することができる。 メタテスト中、RandDNNは、クエリサンプルと類似度に応じてサポートイメージをランク付けし、各クエリサンプルは、隣人のクラスラベルを割り当てる。 実験により、rankdnnは様々なバックボーンに基づくベースラインのパフォーマンスを効果的に改善できることが示され、miniimagenet、tieredimagenet、caltech-ucsd birds、cifar-fsを含む複数のマイナショット学習ベンチマークで、以前の最先端アルゴリズムを上回っている。 さらに、クロスドメインチャレンジに関する実験では、rankdnnの優れた転送性が実証されている。

This paper introduces a new few-shot learning pipeline that casts relevance ranking for image retrieval as binary ranking relation classification. In comparison to image classification, ranking relation classification is sample efficient and domain agnostic. Besides, it provides a new perspective on few-shot learning and is complementary to state-of-the-art methods. The core component of our deep neural network is a simple MLP, which takes as input an image triplet encoded as the difference between two vector-Kronecker products, and outputs a binary relevance ranking order. The proposed RankMLP can be built on top of any state-of-the-art feature extractors, and our entire deep neural network is called the ranking deep neural network, or RankDNN. Meanwhile, RankDNN can be flexibly fused with other post-processing methods. During the meta test, RankDNN ranks support images according to their similarity with the query samples, and each query sample is assigned the class label of its nearest neighbor. Experiments demonstrate that RankDNN can effectively improve the performance of its baselines based on a variety of backbones and it outperforms previous state-of-the-art algorithms on multiple few-shot learning benchmarks, including miniImageNet, tieredImageNet, Caltech-UCSD Birds, and CIFAR-FS. Furthermore, experiments on the cross-domain challenge demonstrate the superior transferability of RankDNN.The code is available at: https://github.com/guoqianyu-alberta/RankDNN.
翻訳日:2022-11-30 12:16:41 公開日:2022-11-29
# エッジスパース埋め込みを用いた教師なしスーパーピクセル生成

Unsupervised Superpixel Generation using Edge-Sparse Embedding ( http://arxiv.org/abs/2211.15474v2 )

ライセンス: Link先を確認
Jakob Geusen, Gustav Bredell, Tianfei Zhou, Ender Konukoglu(参考訳) ピクセルの類似性に基づいて、画像をスーパーピクセルに分割することで、色や空間的位置などの特徴から、データの複雑さを大幅に削減し、その後の画像処理タスクを改善することができる。 教師なしスーパーピクセル生成の初期アルゴリズムは、任意のものよりも重要なエッジを優先することなく、局所的なキューにのみ依存していた。 一方で、教師なし深層学習に基づく最近の手法では、スーパーピクセルエッジの付着とコンパクト性の間のトレードオフを適切に解決できなかったり、生成されたスーパーピクセル数を制御できなかったりしている。 非畳み込み画像デコーダでは、強い空間相関を持つランダムな画像を入力として使用することにより、期待されるコントラスト数を削減し、再構成された画像にスムーズで接続されたエッジを強制することができる。 デコーダの最後の隠れ層から断片的なスムースアクティベーションマップに追加の空間情報をエンコードしてエッジスパース画素埋め込みを生成し、標準クラスタリングアルゴリズムを用いて高品質のスーパーピクセルを抽出する。 提案手法はbsds500,pascal-context,顕微鏡データセットにおいて最先端の性能を実現する。

Partitioning an image into superpixels based on the similarity of pixels with respect to features such as colour or spatial location can significantly reduce data complexity and improve subsequent image processing tasks. Initial algorithms for unsupervised superpixel generation solely relied on local cues without prioritizing significant edges over arbitrary ones. On the other hand, more recent methods based on unsupervised deep learning either fail to properly address the trade-off between superpixel edge adherence and compactness or lack control over the generated number of superpixels. By using random images with strong spatial correlation as input, \ie, blurred noise images, in a non-convolutional image decoder we can reduce the expected number of contrasts and enforce smooth, connected edges in the reconstructed image. We generate edge-sparse pixel embeddings by encoding additional spatial information into the piece-wise smooth activation maps from the decoder's last hidden layer and use a standard clustering algorithm to extract high quality superpixels. Our proposed method reaches state-of-the-art performance on the BSDS500, PASCAL-Context and a microscopy dataset.
翻訳日:2022-11-30 12:16:15 公開日:2022-11-29
# Pseudo-multi-view Optimization による高忠実度3D GANインバージョン

High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization ( http://arxiv.org/abs/2211.15662v2 )

ライセンス: Link先を確認
Jiaxin Xie, Hao Ouyang, Jingtan Piao, Chenyang Lei, Qifeng Chen(参考訳) 入力画像の特定の詳細を保存しながら、フォトリアリスティックな新規ビューを合成できる高忠実な3D生成逆ネットワーク(GAN)インバージョンフレームワークを提案する。 高忠実度3D GANインバージョンは、3Dインバージョンにおける幾何学的・テクスチャ的トレードオフのため本質的に困難である。 この課題を解決するために,視覚分析を用いた擬似マルチビュー推定に基づく新しいパイプラインを提案する。 目に見える部分の原文のテクスチャを保ち、隠された部分の生成前文を利用する。 広範な実験により,本手法は分散テクスチャを有する画像においても,最先端手法よりも有利な再構成と新しいビュー合成品質を実現することが示された。 提案するパイプラインでは、反転した潜在コードと3d対応テクスチャによるイメージ属性編集も可能である。 提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。

We present a high-fidelity 3D generative adversarial network (GAN) inversion framework that can synthesize photo-realistic novel views while preserving specific details of the input image. High-fidelity 3D GAN inversion is inherently challenging due to the geometry-texture trade-off in 3D inversion, where overfitting to a single view input image often damages the estimated geometry during the latent optimization. To solve this challenge, we propose a novel pipeline that builds on the pseudo-multi-view estimation with visibility analysis. We keep the original textures for the visible parts and utilize generative priors for the occluded parts. Extensive experiments show that our approach achieves advantageous reconstruction and novel view synthesis quality over state-of-the-art methods, even for images with out-of-distribution textures. The proposed pipeline also enables image attribute editing with the inverted latent code and 3D-aware texture modification. Our approach enables high-fidelity 3D rendering from a single image, which is promising for various applications of AI-generated 3D content.
翻訳日:2022-11-30 12:15:57 公開日:2022-11-29
# GPT-3による子どもの興味ある質問応答スキルの育成

GPT-3-driven pedagogical agents for training children's curious question-asking skills ( http://arxiv.org/abs/2211.14228v2 )

ライセンス: Link先を確認
Rania Abdelghani, Yen-Hsiang Wang, Xingdi Yuan, Tong Wang, H\'el\`ene Sauz\'eon and Pierre-Yves Oudeyer(参考訳) 興味ある質問をする学生の能力は、学習プロセスを改善する重要なスキルである。 このスキルを訓練するために、従来の研究では、学習中の子供の好奇心を促進するために特定の手がかりを提案する会話エージェントを使用していた。 教育的効率を示すにもかかわらず、この方法は教育資源ごとに手動でプロンプトを生成することに依存しているため、非常に長くコストのかかるプロセスである。 この文脈では、自然言語処理分野の進歩を活用し、大きな言語モデル(GPT-3)を用いて、このエージェントの好奇心を刺激する手がかりを自動生成し、子どもたちがより深く問いかけるのを助ける。 この研究は、エージェントに対する異なる好奇心を喚起する行動を調べるために使用しました。 対象は9歳から10歳までの75名の学生であった。 彼らは手作りの会話エージェントと対話し、手動で抽出した手がかりを提案、事前定義された質問に繋がる「閉じた」手がかり、同じ種類の手がかりを提案できるgpt-3駆動のエージェント、あるいはいくつかの可能な質問につながる「オープンな」手がかりを提案できるgpt-3駆動のエージェントと対話した。 その結果,2つの「閉じた」エージェントを持つ子どもの間で同様の質問行動がみられたが,「開けた」エージェントの参加者の方が有意に良好であった。 最初の結果から,好奇心刺激学習技術の実装を容易にするため,GPT-3の有効性が示唆された。 第2のステップでは、GPT-3は、子どもに好奇心を表現させる自律性を持たせるための、関連するオープンな手がかりを提案する上で、効果的であることも示している。

Students' ability to ask curious questions is a crucial skill that improves their learning processes. To train this skill, previous research has used a conversational agent that propose specific cues to prompt children's curiosity during learning. Despite showing pedagogical efficiency, this method is still limited since it relies on generating the said prompts by hand for each educational resource, which can be a very long and costly process. In this context, we leverage the advances in the natural language processing field and explore using a large language model (GPT-3) to automate the generation of this agent's curiosity-prompting cues to help children ask more and deeper questions. We then used this study to investigate a different curiosity-prompting behavior for the agent. The study was conducted with 75 students aged between 9 and 10. They either interacted with a hand-crafted conversational agent that proposes "closed" manually-extracted cues leading to predefined questions, a GPT-3-driven one that proposes the same type of cues, or a GPT-3-driven one that proposes "open" cues that can lead to several possible questions. Results showed a similar question-asking performance between children who had the two "closed" agents, but a significantly better one for participants with the "open" agent. Our first results suggest the validity of using GPT-3 to facilitate the implementation of curiosity-stimulating learning technologies. In a second step, we also show that GPT-3 can be efficient in proposing the relevant open cues that leave children with more autonomy to express their curiosity.
翻訳日:2022-11-30 12:15:36 公開日:2022-11-29
# 綿花現象の季節内推定のためのファジィクラスタリング

Fuzzy clustering for the within-season estimation of cotton phenology ( http://arxiv.org/abs/2211.14099v2 )

ライセンス: Link先を確認
Vasileios Sitokonstantinou, Alkiviadis Koukos, Ilias Tsoumas, Nikolaos S. Bartsotas, Charalampos Kontoes, Vassilia Karathanassi(参考訳) 作物表現学は作物収量の推定と農業管理にとって重要な情報である。 伝統的に、フェノロジーは地上から観測されてきたが、地球観測、気象観測、土壌データを用いて作物の生理的成長を捉えている。 本研究では,綿花のフィールドレベルでの季節内表現学推定のための新しい手法を提案する。 本研究では,地球観測植生指標(センチネル-2由来)と大気・土壌パラメータの数値シミュレーションを応用した。 提案手法は,実世界のシナリオにおいて最も教師あり代替手段が実用的でないような,粗末で希少な事実データを扱うため,教師なしである。 ファジィc-meansクラスタリングを用いて綿の主な表現学的段階を同定し,クラスターメンバーシップ重みを用いて隣接する段階間の遷移相を更に予測した。 モデルを評価するため,ギリシャのオルコメノスで1,285回の作物生育地観測を行った。 そこで我々は,フィールドの一次成長段階と二次成長段階を表す2つの表現学ラベルを割り当て,段階遷移の時期を示す新しい収集プロトコルを導入した。 我々のモデルは,ランダムな合意を分離し,その真の能力を評価するベースラインモデルに対してテストされた。 その結果,本モデルがベースラインモデルよりもかなり優れており,教師なしのアプローチの性質を考慮すると有望であることがわかった。 限界と今後の課題を徹底的に議論する。 地上観測は、利用可能なデータセットでフォーマットされ、公開時にhttps://github.com/Agri-Hub/cotton-phenology-datasetで利用可能になる。

Crop phenology is crucial information for crop yield estimation and agricultural management. Traditionally, phenology has been observed from the ground; however Earth observation, weather and soil data have been used to capture the physiological growth of crops. In this work, we propose a new approach for the within-season phenology estimation for cotton at the field level. For this, we exploit a variety of Earth observation vegetation indices (derived from Sentinel-2) and numerical simulations of atmospheric and soil parameters. Our method is unsupervised to address the ever-present problem of sparse and scarce ground truth data that makes most supervised alternatives impractical in real-world scenarios. We applied fuzzy c-means clustering to identify the principal phenological stages of cotton and then used the cluster membership weights to further predict the transitional phases between adjacent stages. In order to evaluate our models, we collected 1,285 crop growth ground observations in Orchomenos, Greece. We introduced a new collection protocol, assigning up to two phenology labels that represent the primary and secondary growth stage in the field and thus indicate when stages are transitioning. Our model was tested against a baseline model that allowed to isolate the random agreement and evaluate its true competence. The results showed that our model considerably outperforms the baseline one, which is promising considering the unsupervised nature of the approach. The limitations and the relevant future work are thoroughly discussed. The ground observations are formatted in an ready-to-use dataset and will be available at https://github.com/Agri-Hub/cotton-phenology-dataset upon publication.
翻訳日:2022-11-30 12:15:06 公開日:2022-11-29
# AWTE-BERT:共同入力分類とスロットフィリングのためのBERTによるワードピースのトークン化

AWTE-BERT:Attending to Wordpiece Tokenization Explicitly on BERT for Joint Intent Classification and SlotFilling ( http://arxiv.org/abs/2211.14829v2 )

ライセンス: Link先を確認
Yu Guo, Zhilong Xie, Xingyan Chen, Leilei Wang, Yu Zhao and Gang Wu(参考訳) インテント分類とスロットフィリングは、自然言語理解(NLU)における2つの中核的なタスクである。 2つのタスクの相互作用の性質は、ジョイントモデルが単一設計よりも優れている。 BERT(Bidirectional Encoder Representations from Transformers)と呼ばれる有望なソリューションの1つは、2つのタスクを共同で最適化する。 bertはワードピースを採用し、各入力トークンを複数のサブトークンにトークン化することで、トークンとラベルの長さのミスマッチを引き起こす。 従来の方法では、分類器への入力として第1サブソートに対応する隠れた状態を使用するが、隠れた意味情報の一部が微調整プロセスで破棄されるため、性能改善が制限される。 本稿では,単語ピースのトークン化後の複数のサブトークン特徴を明示的にモデル化し,スロットフィリングに寄与するコンテキスト特徴を生成する,BERTに基づく新しいジョイントモデルを提案する。 具体的には,複数のサブトークンに対応する隠蔽状態を,アテンション機構を介してコンテキストベクトルに符号化する。 そして,各文脈ベクトルをスロット充填エンコーダに入力し,文の完全性を維持する。 実験の結果,提案モデルは2つのベンチマークデータセットにおいて,意図分類精度,スロット充填f1,文レベルの意味フレーム精度において有意な改善が得られた。 特にスロット充填のf1スコアは、atisデータセットの96.1から98.2(絶対値2.1%)に向上した。

Intent classification and slot filling are two core tasks in natural language understanding (NLU). The interaction nature of the two tasks makes the joint models often outperform the single designs. One of the promising solutions, called BERT (Bidirectional Encoder Representations from Transformers), achieves the joint optimization of the two tasks. BERT adopts the wordpiece to tokenize each input token into multiple sub-tokens, which causes a mismatch between the tokens and the labels lengths. Previous methods utilize the hidden states corresponding to the first sub-token as input to the classifier, which limits performance improvement since some hidden semantic informations is discarded in the fine-tune process. To address this issue, we propose a novel joint model based on BERT, which explicitly models the multiple sub-tokens features after wordpiece tokenization, thereby generating the context features that contribute to slot filling. Specifically, we encode the hidden states corresponding to multiple sub-tokens into a context vector via the attention mechanism. Then, we feed each context vector into the slot filling encoder, which preserves the integrity of the sentence. Experimental results demonstrate that our proposed model achieves significant improvement on intent classification accuracy, slot filling F1, and sentence-level semantic frame accuracy on two public benchmark datasets. The F1 score of the slot filling in particular has been improved from 96.1 to 98.2 (2.1% absolute) on the ATIS dataset.
翻訳日:2022-11-30 12:09:13 公開日:2022-11-29
# コンテキスト内学習はどのような学習アルゴリズムか? 線形モデルによる研究

What learning algorithm is in-context learning? Investigations with linear models ( http://arxiv.org/abs/2211.15661v2 )

ライセンス: Link先を確認
Ekin Aky\"urek, Dale Schuurmans, Jacob Andreas, Tengyu Ma, Denny Zhou(参考訳) ニューラルシーケンスモデル、特にトランスフォーマーは、文脈内学習において顕著な能力を示す。 ラベル付き例のシーケンスから新しい予測器を構築することができ、追加のパラメータ更新なしに入力に$(x, f(x))$が表示される。 本稿では,トランスフォーマーをベースとしたインコンテキスト学習者が,より小さなモデルをアクティベーションに符号化することで,暗黙的な学習アルゴリズムを暗黙的に実装する仮説について検討する。 線形回帰を原型問題として用いることで,この仮説の証拠を3つ提示する。 まず, 勾配降下と閉形式リッジ回帰に基づく線形モデルのための学習アルゴリズムをトランスフォーマーが実装できることを示す。 第2に, 学習者は, 勾配降下, リッジ回帰, および完全最小二乗回帰によって計算された予測器と密接に一致し, トランスフォーマタ深さやデータセットノイズが変化するため, 予測器間の遷移が変化し, 広い幅と深さのベイズ推定器に収束することを示した。 第3に,学習者の後期層が重みベクトルやモーメント行列を非線形にエンコードする,文脈内学習者がアルゴリズム的特徴をこれらの予測器と共有する,予備的証拠を示す。 これらの結果は,文脈内学習がアルゴリズム的に理解可能であり,(少なくとも線形の場合)学習者が標準推定アルゴリズムを再発見できることを示唆している。 コードと参照の実装はhttps://github.com/ekinakyurek/google-research/blob/master/incontextでリリースされる。

Neural sequence models, especially transformers, exhibit a remarkable capacity for in-context learning. They can construct new predictors from sequences of labeled examples $(x, f(x))$ presented in the input without further parameter updates. We investigate the hypothesis that transformer-based in-context learners implement standard learning algorithms implicitly, by encoding smaller models in their activations, and updating these implicit models as new examples appear in the context. Using linear regression as a prototypical problem, we offer three sources of evidence for this hypothesis. First, we prove by construction that transformers can implement learning algorithms for linear models based on gradient descent and closed-form ridge regression. Second, we show that trained in-context learners closely match the predictors computed by gradient descent, ridge regression, and exact least-squares regression, transitioning between different predictors as transformer depth and dataset noise vary, and converging to Bayesian estimators for large widths and depths. Third, we present preliminary evidence that in-context learners share algorithmic features with these predictors: learners' late layers non-linearly encode weight vectors and moment matrices. These results suggest that in-context learning is understandable in algorithmic terms, and that (at least in the linear case) learners may rediscover standard estimation algorithms. Code and reference implementations are released at https://github.com/ekinakyurek/google-research/blob/master/incontext.
翻訳日:2022-11-30 12:08:49 公開日:2022-11-29
# Landsat-8画像の深部セグメンテーションモデルの性能評価

Performance evaluation of deep segmentation models on Landsat-8 imagery ( http://arxiv.org/abs/2211.14851v2 )

ライセンス: Link先を確認
Akshat Bhandari and Sriya Rallabandi and Sanchit Singhal and Aditya Kasliwal aand Pratinav Seth(参考訳) コントラル(Contrail)は、冷たく湿った空気を飛ぶ際に航空機のエンジンの排気によって生じる線状の氷雲である。 放射される長波の約33%を地球に吸収または誘導することで温室効果を発生させる。 それらは航空活動による気候変動の半分以上を占める。 コントラルの回避と飛行経路の調整は、その影響を減らすための安価で効果的な方法である可能性がある。 違反回避戦略の開発と評価には,正確で自動化された信頼性の高い検出アルゴリズムが必要である。 コントラル検出の進歩は、いくつかの要因により、主に品質ラベル付きデータの欠如により、著しく制限されている。 近年,大型のLandsat-8コントラルデータセットが提案されている。 各コントラルには、ランドサット8衛星画像の様々な場面で様々な入力が慎重にラベル付けされている。 本研究では,様々な損失関数とエンコーダのバックボーンを組み合わせたセグメンテーションモデルをベンチマークする。 この研究は、低軌道衛星画像の反則を検出するために最先端のセグメンテーション技術を適用した最初のものである。 私たちの作品は、反則セグメンテーションのオープンベンチマークとしても使用でき、公開されています。

Contrails, short for condensation trails, are line-shaped ice clouds produced by aircraft engine exhaust when they fly through cold and humid air. They generate a greenhouse effect by absorbing or directing back to Earth approximately 33% of emitted outgoing longwave radiation. They account for over half of the climate change resulting from aviation activities. Avoiding contrails and adjusting flight routes could be an inexpensive and effective way to reduce their impact. An accurate, automated, and reliable detection algorithm is required to develop and evaluate contrail avoidance strategies. Advancement in contrail detection has been severely limited due to several factors, primarily due to a lack of quality-labeled data. Recently, proposed a large human-labeled Landsat-8 contrails dataset. Each contrail is carefully labeled with various inputs in various scenes of Landsat-8 satellite imagery. In this work, we benchmark several popular segmentation models with combinations of different loss functions and encoder backbones. This work is the first to apply state-of-the-art segmentation techniques to detect contrails in low-orbit satellite imagery. Our work can also be used as an open benchmark for contrail segmentation and is publicly available.
翻訳日:2022-11-30 12:08:21 公開日:2022-11-29
# 最適計算予算割当アルゴリズムの収束率解析

Convergence Rate Analysis for Optimal Computing Budget Allocation Algorithms ( http://arxiv.org/abs/2211.14722v2 )

ライセンス: Link先を確認
Yanwen Li, Siyang Gao(参考訳) 順序最適化 (ordinal optimization, oo) は離散事象動的システム (deds) を最適化するための広く研究された手法である。 有限集合におけるシステム設計の性能をサンプリングにより評価し、設計の順序的比較を正しく行うことを目的とする。 OOのよく知られた方法は、最適計算予算配分(OCBA)である。 各設計に割り当てられたサンプル数に対する最適性条件を構築し、最適性条件を満たすサンプル割り当ては、最適な設計のための正しい選択の確率を漸近的に最大化する。 本稿では,2つのOCBAアルゴリズムについて検討する。 各設計のサンプルに対する既知の分散により、それぞれの収束率を異なる性能指標で特徴付ける。 まず2つのOCBAアルゴリズムが正しい選択の確率と期待される機会コストで最適収束率を達成することを実証した。 これはocbaアルゴリズムの収束解析の空白を埋める。 次に、機械学習の分野で研究されている主要な尺度である累積後悔の尺度に分析を拡張する。 2つのOCBAアルゴリズムは,小さな修正を加えれば,累積後悔の下で最適収束率に達することを示す。 これはOCBA最適条件に基づいて設計されたアルゴリズムの幅広い利用の可能性を示している。

Ordinal optimization (OO) is a widely-studied technique for optimizing discrete-event dynamic systems (DEDS). It evaluates the performance of the system designs in a finite set by sampling and aims to correctly make ordinal comparison of the designs. A well-known method in OO is the optimal computing budget allocation (OCBA). It builds the optimality conditions for the number of samples allocated to each design, and the sample allocation that satisfies the optimality conditions is shown to asymptotically maximize the probability of correct selection for the best design. In this paper, we investigate two popular OCBA algorithms. With known variances for samples of each design, we characterize their convergence rates with respect to different performance measures. We first demonstrate that the two OCBA algorithms achieve the optimal convergence rate under measures of probability of correct selection and expected opportunity cost. It fills the void of convergence analysis for OCBA algorithms. Next, we extend our analysis to the measure of cumulative regret, a main measure studied in the field of machine learning. We show that with minor modification, the two OCBA algorithms can reach the optimal convergence rate under cumulative regret. It indicates the potential of broader use of algorithms designed based on the OCBA optimality conditions.
翻訳日:2022-11-30 12:08:04 公開日:2022-11-29
# SKDBERT:確率的知識蒸留によるBERT圧縮

SKDBERT: Compressing BERT via Stochastic Knowledge Distillation ( http://arxiv.org/abs/2211.14466v2 )

ライセンス: Link先を確認
Zixiang Ding, Guoqing Jiang, Shuai Zhang, Lin Guo, Wei Lin(参考訳) 本稿では、SKDBERTと呼ばれるコンパクトなBERTスタイル言語モデルを得るための確率的知識蒸留(SKD)を提案する。 各イテレーションにおいて、SKDは、複数の教師モデルと複数レベルの能力からなる教師アンサンブルから教師モデルをサンプリングし、1対1で生徒モデルに知識を伝達する。 サンプリング分布はSKDにおいて重要な役割を果たす。 我々は,多段階教師モデルに適切な確率を割り当てるための3種類のサンプリング分布をヒューリスティックに提示する。 SKDには2つの利点がある。 1)複数レベルの教師モデルの多様性を各イテレーションで確率的にサンプリングすることで保存し、 2) 教員モデルと生徒モデルとの間に大きなキャパシティギャップが存在する場合, 多段階教員モデルによる知識蒸留の有効性も向上できる。 GLUEベンチマークの実験結果によると、SKDBERT は BERT$_{\rm BASE}$ モデルのサイズを 40% 削減し、言語理解の99.5% のパフォーマンスを維持し、100%高速である。

In this paper, we propose Stochastic Knowledge Distillation (SKD) to obtain compact BERT-style language model dubbed SKDBERT. In each iteration, SKD samples a teacher model from a pre-defined teacher ensemble, which consists of multiple teacher models with multi-level capacities, to transfer knowledge into student model in an one-to-one manner. Sampling distribution plays an important role in SKD. We heuristically present three types of sampling distributions to assign appropriate probabilities for multi-level teacher models. SKD has two advantages: 1) it can preserve the diversities of multi-level teacher models via stochastically sampling single teacher model in each iteration, and 2) it can also improve the efficacy of knowledge distillation via multi-level teacher models when large capacity gap exists between the teacher model and the student model. Experimental results on GLUE benchmark show that SKDBERT reduces the size of a BERT$_{\rm BASE}$ model by 40% while retaining 99.5% performances of language understanding and being 100% faster.
翻訳日:2022-11-30 12:07:49 公開日:2022-11-29
# stage: アスペクト感情三重項抽出のためのスパンタグとグリーディ推論法

STAGE: Span Tagging and Greedy Inference Scheme for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2211.15003v2 )

ライセンス: Link先を確認
Shuo Liang, Wei Wei, Xian-Ling Mao, Yuanyuan Fu, Rui Fang, Dangyang Chen(参考訳) Aspect Sentiment Triplet extract (ASTE) は感情分析研究において新たな課題となり、ある文からアスペクト項とその対応する意見項とその関連する感情極性を抽出することを目指している。 近年、異なるタグ付けスキームを持つ多くのニューラルネットワークベースのモデルが提案されているが、ほとんどすべてのモデルには制限がある。 1) 各単語が1つの役割(アスペクト項や意見項など)にのみ関連しているという事前仮定 2) 単語レベルの相互作用と各意見/アスペクトを独立した単語の集合として扱う。 したがって、複数の役割に関連する単語や複数の単語を持つアスペクト/オピニオン項など、複雑なasteタスクではパフォーマンスが低下する。 そこで我々は,Span TAgging と Greedy infErence (STAGE) という新たなアプローチを提案し,複数の単語から構成され,同時に異なる役割を演じることができる。 そこで本稿では,ASTEタスクを多クラススパン分類問題として定式化する。 具体的には、スパンレベルの情報と制約、すなわちスパンタグスキームとグリーディ推論戦略の2つのコンポーネントを探索することで、より正確なアスペクト感情三重項抽出を生成する。 前者のタグは、新しく定義されたタグセットに基づいて、可能な候補すべてにまたがる。 後者は、候補感情スニペットから最大長のアスペクト/オピニオン項を取得し、感情三重項を出力する。 さらに,このステージに基づく簡易かつ効果的なモデルを提案する。これは4つの広く使用されているデータセットにおいて,最先端を大きなマージンで上回っている。 さらに,STAGE を他のペア/トリップレット抽出タスクに簡単に一般化することができ,提案方式の STAGE の優位性を示す。

Aspect Sentiment Triplet Extraction (ASTE) has become an emerging task in sentiment analysis research, aiming to extract triplets of the aspect term, its corresponding opinion term, and its associated sentiment polarity from a given sentence. Recently, many neural networks based models with different tagging schemes have been proposed, but almost all of them have their limitations: heavily relying on 1) prior assumption that each word is only associated with a single role (e.g., aspect term, or opinion term, etc. ) and 2) word-level interactions and treating each opinion/aspect as a set of independent words. Hence, they perform poorly on the complex ASTE task, such as a word associated with multiple roles or an aspect/opinion term with multiple words. Hence, we propose a novel approach, Span TAgging and Greedy infErence (STAGE), to extract sentiment triplets in span-level, where each span may consist of multiple words and play different roles simultaneously. To this end, this paper formulates the ASTE task as a multi-class span classification problem. Specifically, STAGE generates more accurate aspect sentiment triplet extractions via exploring span-level information and constraints, which consists of two components, namely, span tagging scheme and greedy inference strategy. The former tag all possible candidate spans based on a newly-defined tagging set. The latter retrieves the aspect/opinion term with the maximum length from the candidate sentiment snippet to output sentiment triplets. Furthermore, we propose a simple but effective model based on the STAGE, which outperforms the state-of-the-arts by a large margin on four widely-used datasets. Moreover, our STAGE can be easily generalized to other pair/triplet extraction tasks, which also demonstrates the superiority of the proposed scheme STAGE.
翻訳日:2022-11-30 12:07:30 公開日:2022-11-29
# 文化的に無知なAIモデルの神話

The Myth of Culturally Agnostic AI Models ( http://arxiv.org/abs/2211.15271v2 )

ライセンス: Link先を確認
Eva Cetinic(参考訳) 本稿では,経験的文化研究の目的として,大規模視覚言語モデルの可能性について考察する。 dall-e 2とstable diffusionという2つの一般的なテキストから画像への合成モデルからの出力の比較分析に注目し,文化に無依存なaiモデルに対する努力の長所と短所について考察した。 本稿では、リスク緩和と文化的特異性とのトレードオフを示す出力の記憶とバイアスの例と、文化的非依存モデルの開発における全体的な不可能性について論じる。

The paper discusses the potential of large vision-language models as objects of interest for empirical cultural studies. Focusing on the comparative analysis of outputs from two popular text-to-image synthesis models, DALL-E 2 and Stable Diffusion, the paper tries to tackle the pros and cons of striving towards culturally agnostic vs. culturally specific AI models. The paper discusses several examples of memorization and bias in generated outputs which showcase the trade-off between risk mitigation and cultural specificity, as well as the overall impossibility of developing culturally agnostic models.
翻訳日:2022-11-30 12:06:58 公開日:2022-11-29
# XKD:ビデオ表現学習のためのドメインアライメントを用いたクロスモーダル知識蒸留

XKD: Cross-modal Knowledge Distillation with Domain Alignment for Video Representation Learning ( http://arxiv.org/abs/2211.13929v2 )

ライセンス: Link先を確認
Pritam Sarkar and Ali Etemad(参考訳) ビデオクリップから意味のある表現を学習するための,新しい自己教師型フレームワーク XKD を提案する。 XKDは2つの擬似タスクで訓練される。 まず、マスクデータ再構成を行い、モダリティ固有の表現を学習する。 次に,教師/学生が補完的な情報を学ぶためのセットアップを通じて,2つのモダリティ間で自己指導型クロスモーダルな知識蒸留を行う。 転送に最も有効な情報を特定するとともに,知識伝達を妨げる音声と視覚の領域ギャップに対処するために,効果的なクロスモーダル蒸留のためのドメインアライメント戦略を導入する。 最後に,オーディオとビジュアルの両方のストリームを処理可能な汎用ソリューションを開発するために,提案するフレームワークのモダリティ非依存の変種を導入し,オーディオとビジュアルの両方のモダリティに同じバックボーンを使用する。 提案するクロスモーダル知識蒸留は, ucf101では8.4%, hmdb51では8.1%, キネティクス音では13.8%, キネティクス400では14.2%, ビデオアクション分類の線形評価top-1精度を向上させる。 さらに、モーダリティ非依存の変異は、異なるデータストリームを処理できる汎用ネットワークを開発する上で有望な結果を示す。 コードはプロジェクトのWebサイトで公開されている。

We present XKD, a novel self-supervised framework to learn meaningful representations from unlabelled video clips. XKD is trained with two pseudo tasks. First, masked data reconstruction is performed to learn modality-specific representations. Next, self-supervised cross-modal knowledge distillation is performed between the two modalities through teacher-student setups to learn complementary information. To identify the most effective information to transfer and also to tackle the domain gap between audio and visual modalities which could hinder knowledge transfer, we introduce a domain alignment strategy for effective cross-modal distillation. Lastly, to develop a general-purpose solution capable of handling both audio and visual streams, a modality-agnostic variant of our proposed framework is introduced, which uses the same backbone for both audio and visual modalities. Our proposed cross-modal knowledge distillation improves linear evaluation top-1 accuracy of video action classification by 8.4% on UCF101, 8.1% on HMDB51, 13.8% on Kinetics-Sound, and 14.2% on Kinetics400. Additionally, our modality-agnostic variant shows promising results in developing a general-purpose network capable of handling different data streams. The code is released on the project website.
翻訳日:2022-11-30 12:06:47 公開日:2022-11-29
# CLIP-ReID:コンクリートのテキストラベルを使わずに画像再同定のための視覚言語モデルの構築

CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification without Concrete Text Labels ( http://arxiv.org/abs/2211.13977v2 )

ライセンス: Link先を確認
Siyuan Li, Li Sun, Qingli Li(参考訳) CLIPのような事前訓練された視覚言語モデルは、画像分類やセグメンテーションなど、さまざまな下流タスクで優れたパフォーマンスを示している。 しかし、詳細な画像再識別(ReID)では、ラベルはインデックスであり、具体的なテキスト記述がない。 したがって、これらのタスクにどのようなモデルを適用するかは未定である。 本稿ではまず,クリップ内の画像エンコーダによって初期化される視覚モデルの微調整により,様々なreidタスクにおける競合性能が得られていることを示す。 次に,より良い視覚的表現を促進するための二段階戦略を提案する。 鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じてCLIPのクロスモーダル記述能力をフル活用し、テキストエンコーダに与え、あいまいな記述を形成することである。 最初のトレーニング段階では、CLIPのイメージエンコーダとテキストエンコーダが固定され、バッチ内で計算された対照的な損失によってテキストトークンだけがゼロから最適化される。 第2段階では、ID固有のテキストトークンとそのエンコーダが静的になり、イメージエンコーダを微調整するための制約を提供する。 下流タスクにおける設計された損失の助けを借りて、イメージエンコーダはデータをベクタとして正確に表現することができる。 提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。 コードはhttps://github.com/Syliz517/CLIP-ReIDで入手できる。

Pre-trained vision-language models like CLIP have recently shown superior performances on various downstream tasks, including image classification and segmentation. However, in fine-grained image re-identification (ReID), the labels are indexes, lacking concrete text descriptions. Therefore, it remains to be determined how such models could be applied to these tasks. This paper first finds out that simply fine-tuning the visual model initialized by the image encoder in CLIP, has already obtained competitive performances in various ReID tasks. Then we propose a two-stage strategy to facilitate a better visual representation. The key idea is to fully exploit the cross-modal description ability in CLIP through a set of learnable text tokens for each ID and give them to the text encoder to form ambiguous descriptions. In the first training stage, image and text encoders from CLIP keep fixed, and only the text tokens are optimized from scratch by the contrastive loss computed within a batch. In the second stage, the ID-specific text tokens and their encoder become static, providing constraints for fine-tuning the image encoder. With the help of the designed loss in the downstream task, the image encoder is able to represent data as vectors in the feature embedding accurately. The effectiveness of the proposed strategy is validated on several datasets for the person or vehicle ReID tasks. Code is available at https://github.com/Syliz517/CLIP-ReID.
翻訳日:2022-11-30 12:06:16 公開日:2022-11-29
# 不整合トレーニングペアを用いた単一画像デフォーカスデブラリングの学習

Learning Single Image Defocus Deblurring with Misaligned Training Pairs ( http://arxiv.org/abs/2211.14502v2 )

ライセンス: Link先を確認
Yu Li, Dongwei Ren, Xinya Shu, Wangmeng Zuo(参考訳) 一般的なピクセル単位の損失を採用することで、デフォーカスデブロリングの既存の方法は、整列したトレーニングイメージペアに大きく依存する。 DPDDデータセットのような地上の真実とぼやけたイメージのトレーニングペアは慎重に収集されるが、トレーニングペア間のミスアライメントは避けられないため、既存の手法は変形アーチファクトに悩まされる可能性がある。 本稿では,不整合トレーニングペアを用いた単一画像デフォーカスデブロリングのためのJDRL(Joint Deblurring and Reblurring Learning)フレームワークを提案する。 一般にjdrlは、デブラリングモジュールと空間不変リブラリングモジュールからなり、デブラリング結果は地中画像により適応的に教師付けされ、ぼやけた画像との空間的一貫性を維持しながらシャープなテクスチャを回復できる。 まず、デブラリングモジュールにおいて、デブラリング画像と地中画像との空間的不一致を許容する双方向光フローベース変形を導入する。 第2に、リブラリングモジュールでは、一連の等方的ボケカーネルと重み付けマップを予測することにより、デブラリング結果がボケ画像と空間的に整合するようにリブラリングされる。 さらに,sdd(single image defocus deblurling)データセットを新たに確立し,jdrlをさらに検証し,今後の研究に資する。 我々のJDRLは、DPDD、RealDOF、およびSDDデータセットにおける定量的メトリクスと視覚的品質の両方の観点から、デフォーカスデブロリングネットワークを向上するために適用することができる。

By adopting popular pixel-wise loss, existing methods for defocus deblurring heavily rely on well aligned training image pairs. Although training pairs of ground-truth and blurry images are carefully collected, e.g., DPDD dataset, misalignment is inevitable between training pairs, making existing methods possibly suffer from deformation artifacts. In this paper, we propose a joint deblurring and reblurring learning (JDRL) framework for single image defocus deblurring with misaligned training pairs. Generally, JDRL consists of a deblurring module and a spatially invariant reblurring module, by which deblurred result can be adaptively supervised by ground-truth image to recover sharp textures while maintaining spatial consistency with the blurry image. First, in the deblurring module, a bi-directional optical flow-based deformation is introduced to tolerate spatial misalignment between deblurred and ground-truth images. Second, in the reblurring module, deblurred result is reblurred to be spatially aligned with blurry image, by predicting a set of isotropic blur kernels and weighting maps. Moreover, we establish a new single image defocus deblurring (SDD) dataset, further validating our JDRL and also benefiting future research. Our JDRL can be applied to boost defocus deblurring networks in terms of both quantitative metrics and visual quality on DPDD, RealDOF and our SDD datasets.
翻訳日:2022-11-30 12:05:52 公開日:2022-11-29