このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230925となっている論文です。

PDF登録状況(公開日: 20230925)

TitleAuthorsAbstract論文公表日・翻訳日
# キーボードによるアコースティックサイドチャネルアタックに関する調査

A Survey on Acoustic Side Channel Attacks on Keyboards ( http://arxiv.org/abs/2309.11012v2 )

ライセンス: Link先を確認
Alireza Taheritajar, Zahra Mahmoudpour Harris, Reza Rahaeimehr, (参考訳) ほとんどの電子機器は、機械式キーボードを使用して、認証認証情報、個人および個人データ、電子メール、計画などの機密情報を含む入力を受け取る。 しかし,これらのシステムはアコースティックサイドチャネル攻撃の影響を受けやすい。 研究者らは、周囲の騒音からタイプされたキーストロークを抽出する手法を開発した。 キーボードベースの入力システムが様々なコンピューティングプラットフォームで普及し続け、マイクロホン技術の改善により、アコースティックサイドチャネル攻撃に対する潜在的な脆弱性も増大する。 本調査では,これらの攻撃がなぜ可能か,適用可能な脅威モデル,これらの攻撃の発射・増強に使用される手法について,既存の研究を徹底的にレビューする。

Most electronic devices utilize mechanical keyboards to receive inputs, including sensitive information such as authentication credentials, personal and private data, emails, plans, etc. However, these systems are susceptible to acoustic side-channel attacks. Researchers have successfully developed methods that can extract typed keystrokes from ambient noise. As the prevalence of keyboard-based input systems continues to expand across various computing platforms, and with the improvement of microphone technology, the potential vulnerability to acoustic side-channel attacks also increases. This survey paper thoroughly reviews existing research, explaining why such attacks are feasible, the applicable threat models, and the methodologies employed to launch and enhance these attacks.
翻訳日:2024-03-19 04:20:31 公開日:2023-09-25
# PA-iMFL:改良型多層フェデレーション学習におけるデータ再構成攻撃に対する通信効率の良いプライバシ増幅法

PA-iMFL: Communication-Efficient Privacy Amplification Method against Data Reconstruction Attack in Improved Multi-Layer Federated Learning ( http://arxiv.org/abs/2309.13864v1 )

ライセンス: Link先を確認
Jianhua Wang, Xiaolin Chang, Jelena Mišić, Vojislav B. Mišić, Zhi Chen, Junchao Fan, (参考訳) 最近、ビッグデータはIoT(Internet of Things)で爆発的な成長を遂げている。 クラウドエッジアーキテクチャに基づくマルチレイヤFL(MFL)は、IoTデータのプライバシを保持しながら、モデルのトレーニング効率とモデルの精度を促進する。 本稿では、エッジ層デバイスがプライベートデータを所有し、トレーニングプロセスに参加可能な改善されたMFLについて考察する。 iMFLは、エッジリソースの利用を改善し、エンドデバイスの厳格な要件を緩和するが、データ再構成攻撃(DRA)の問題と許容できない通信オーバーヘッドに悩まされる。 本稿は、iMFLによるこれらの問題に対処することを目的としている。 iMFL (PA-iMFL) のプライバシ増幅方式を提案する。 標準のMFLと異なり、我々は3つのシーケンシャルなコンポーネント、Laplace機構によるローカルな差分プライバシー、プライバシー増幅サブサンプル、勾配標識リセットを含む、ローカルトレーニング後のエンドデバイスとエッジデバイスにおけるプライバシ操作を設計する。 プライバシ操作の恩恵を受け、PA-iMFLは通信オーバーヘッドを減らし、プライバシ保護を実現する。 PA-iMFLは,SOTAディフェンスモデルと同等の保護レベルに達することにより,個人データ漏洩を効果的に軽減できることを示す。 さらに、エッジデバイスにおけるプライバシ操作の採用により、PA-iMFLはモデル精度を損なうことなく、SOTA圧縮法よりも最大2.8倍の通信効率を向上する。

Recently, big data has seen explosive growth in the Internet of Things (IoT). Multi-layer FL (MFL) based on cloud-edge-end architecture can promote model training efficiency and model accuracy while preserving IoT data privacy. This paper considers an improved MFL, where edge layer devices own private data and can join the training process. iMFL can improve edge resource utilization and also alleviate the strict requirement of end devices, but suffers from the issues of Data Reconstruction Attack (DRA) and unacceptable communication overhead. This paper aims to address these issues with iMFL. We propose a Privacy Amplification scheme on iMFL (PA-iMFL). Differing from standard MFL, we design privacy operations in end and edge devices after local training, including three sequential components, local differential privacy with Laplace mechanism, privacy amplification subsample, and gradient sign reset. Benefitting from privacy operations, PA-iMFL reduces communication overhead and achieves privacy-preserving. Extensive results demonstrate that against State-Of-The-Art (SOTA) DRAs, PA-iMFL can effectively mitigate private data leakage and reach the same level of protection capability as the SOTA defense model. Moreover, due to adopting privacy operations in edge devices, PA-iMFL promotes up to 2.8 times communication efficiency than the SOTA compression method without compromising model accuracy.
翻訳日:2024-03-19 03:51:14 公開日:2023-09-25
# メタベリア群における同時共役探索問題を用いたプロトコルのクリプトアナリシス

Cryptanalysis of protocols using (Simultaneous) Conjugacy Search Problem in certain Metabelian Platform Groups ( http://arxiv.org/abs/2309.13928v1 )

ライセンス: Link先を確認
Delaram Kahrobaei, Carmine Monetta, Ludovic Perret, Maria Tota, Martina Vigorito, (参考訳) セキュリティは、基盤となるプラットフォームグループにおいて、共役検索問題(CSP)と同時共役検索問題(SCSP)を解決することの難しさに依存しているグループベースの暗号システムが多い。 本稿では、アーベル群のある種の半直積を用いたこれらのシステムの暗号解析を行う。

There are many group-based cryptosystems in which the security relies on the difficulty of solving Conjugacy Search Problem (CSP) and Simultaneous Conjugacy Search Problem (SCSP) in their underlying platform groups. In this paper we give a cryptanalysis of these systems which use certain semidirect product of abelian groups.
翻訳日:2024-03-19 03:51:14 公開日:2023-09-25
# LRPC復号器の復号故障確率に関する一考察

An Upper-Bound on the Decoding Failure Probability of the LRPC Decoder ( http://arxiv.org/abs/2309.14028v1 )

ライセンス: Link先を確認
Étienne Burle, Ayoub Otmani, (参考訳) 低ランクパリティチェック(LRPC)符号は、意図的に公開鍵暗号方式の設計に導入されたランクメトリックの誤り訂正符号のクラスである。 LRPCコードは、大きな有限体の比較的低次元ベクトル部分空間に属するパリティチェック行列から定義される。 この特定の代数的特徴は、パラメータが適切に選択されたときに高い確率ランク誤差で修正することができる。 本稿では,LRPC復号アルゴリズムが失敗する確率に関する理論的上限について述べる。

Low Rank Parity Check (LRPC) codes form a class of rank-metric error-correcting codes that was purposely introduced to design public-key encryption schemes. An LRPC code is defined from a parity check matrix whose entries belong to a relatively low dimensional vector subspace of a large finite field. This particular algebraic feature can then be exploited to correct with high probability rank errors when the parameters are appropriately chosen. In this paper, we present theoretical upper-bounds on the probability that the LRPC decoding algorithm fails.
翻訳日:2024-03-19 03:51:14 公開日:2023-09-25
# 極限シナジーによるランダムエネルギー秘密共有

Random-Energy Secret Sharing via Extreme Synergy ( http://arxiv.org/abs/2309.14047v1 )

ライセンス: Link先を確認
Vudtiwat Ngampruetikorn, David J. Schwab, (参考訳) 可溶性スピングラスモデルであるランダムエネルギーモデル(REM)は、タンパク質の折り畳みから組合せ最適化、多体局在に至るまで、驚くほど多様な問題に影響を与えている。 ここでは、シークレット共有に対する新たなつながりを探求する。 我々はREMに基づいて秘密共有スキームを定式化し、その情報理論特性を解析する。 分析の結果,REMのサブシステム間の相関は非常に相乗的であり,セキュアな秘密共有スキームの基礎を形成していることがわかった。 我々は、REMがセキュアな秘密共有の必要性を満たす温度と秘密長の範囲を導出する。 さらに、情報符号化においてREMに基づくスキームが最適である位相図に特別な点が存在することを示す。 熱力学限界の解析結果は有限系の数値シミュレーションと良好に一致しており、厳密なセキュリティ要件は機密性と回復性の間のトレードオフに置き換えられる。 我々の研究は、情報理論のさらなる例を統一概念として提供し、統計物理学における問題と計算上の問題とを結びつける。

The random-energy model (REM), a solvable spin-glass model, has impacted an incredibly diverse set of problems, from protein folding to combinatorial optimization to many-body localization. Here, we explore a new connection to secret sharing. We formulate a secret-sharing scheme, based on the REM, and analyze its information-theoretic properties. Our analyses reveal that the correlations between subsystems of the REM are highly synergistic and form the basis for secure secret-sharing schemes. We derive the ranges of temperatures and secret lengths over which the REM satisfies the requirement of secure secret sharing. We show further that a special point in the phase diagram exists at which the REM-based scheme is optimal in its information encoding. Our analytical results for the thermodynamic limit are in good qualitative agreement with numerical simulations of finite systems, for which the strict security requirement is replaced by a tradeoff between secrecy and recoverability. Our work offers a further example of information theory as a unifying concept, connecting problems in statistical physics to those in computation.
翻訳日:2024-03-19 03:51:14 公開日:2023-09-25
# ターゲットの攻撃:スパイのフィッシングとビジネスメールの妥協を再定義

Targeted Attacks: Redefining Spear Phishing and Business Email Compromise ( http://arxiv.org/abs/2309.14166v1 )

ライセンス: Link先を確認
Sarah Wassermann, Maxime Meyer, Sébastien Goutal, Damien Riquet, (参考訳) 今日のデジタル世界では、サイバー犯罪は、財政的損失、運用上の混乱、知的財産の盗難など、組織に大きな損害を与える。 サイバー攻撃は、企業コミュニケーションの主要な手段であるメールから始まることが多い。 スピアフィッシングやビジネスメールの妥協(Business Email Compromise)と呼ばれる、稀で深刻な被害を受けたメールの脅威が出現した。 しかし、この文献はその定義に異を唱え、セキュリティベンダーや研究者が標的とする攻撃を緩和することを妨げている。 そこで本研究では,標的攻撃について紹介する。 詐欺師が使用する社会工学手法と同様に、標的攻撃検出技術について述べる。 さらに、テキストコンテンツが悪意のあるペイロードであるテキストベースの攻撃を提示し、ターゲット外およびターゲット対象の変種を比較します。

In today's digital world, cybercrime is responsible for significant damage to organizations, including financial losses, operational disruptions, or intellectual property theft. Cyberattacks often start with an email, the major means of corporate communication. Some rare, severely damaging email threats - known as spear phishing or Business Email Compromise - have emerged. However, the literature disagrees on their definition, impeding security vendors and researchers from mitigating targeted attacks. Therefore, we introduce targeted attacks. We describe targeted-attack-detection techniques as well as social-engineering methods used by fraudsters. Additionally, we present text-based attacks - with textual content as malicious payload - and compare non-targeted and targeted variants.
翻訳日:2024-03-19 03:51:14 公開日:2023-09-25
# 最大抽出可能値の理論に向けてII:不確実性

Towards a Theory of Maximal Extractable Value II: Uncertainty ( http://arxiv.org/abs/2309.14201v1 )

ライセンス: Link先を確認
Tarun Chitra, (参考訳) 最大抽出可能値(英: Maximal Extractable Value、MEV)は、分散システムで一般的に見られる一時的な独占力によって抽出できる値である。 この抽出は、トランザクションの提出時のユーザのプライバシの欠如と、トランザクションの再注文、追加、および/または検閲を行う独占バリデーターの能力に起因している。 MEVの削減には2つの主な方向がある: 注文規則を強制して取引をリオーダーするマイナーの柔軟性を低下させるか、または、取引をリオーダー、追加、および/または検閲する権利のための競争市場を導入する。 本研究では、調和解析や物理学で見られるものと同様に、これらのアプローチを 'emph{uncertainty principles} を通じて統一する。 これにより、トランザクションをリオーダする自由と、分散ネットワーク内のユーザに対する経済的なペイオフの複雑さとの間の定量的なトレードオフが提供される。 このトレードオフは、Nyquist-Shannonサンプリングの定理に類似しており、ブロックチェーンにおけるシーケンシングルールをアプリケーション固有のものにする必要があることを証明している。 以上の結果から,いわゆる公正順序付け手法も経済メカニズムも,MEVを任意のペイオフ関数に対して個別に緩和することができないことが示唆された。

Maximal Extractable Value (MEV) is value extractable by temporary monopoly power commonly found in decentralized systems. This extraction stems from a lack of user privacy upon transaction submission and the ability of a monopolist validator to reorder, add, and/or censor transactions. There are two main directions to reduce MEV: reduce the flexibility of the miner to reorder transactions by enforcing ordering rules and/or introduce a competitive market for the right to reorder, add, and/or censor transactions. In this work, we unify these approaches via \emph{uncertainty principles}, akin to those found in harmonic analysis and physics. This provides a quantitative trade-off between the freedom to reorder transactions and the complexity of an economic payoff to a user in a decentralized network. This trade off is analogous to the Nyquist-Shannon sampling theorem and demonstrates that sequencing rules in blockchains need to be application specific. Our results suggest that neither so-called fair ordering techniques nor economic mechanisms can individually mitigate MEV for arbitrary payoff functions.
翻訳日:2024-03-19 03:51:14 公開日:2023-09-25
# ADESS:double-Spend攻撃を防止するためのプロトコル

ADESS: A Proof-of-Work Protocol to Deter Double-Spend Attacks ( http://arxiv.org/abs/2309.14551v1 )

ライセンス: Link先を確認
Daniel Aronoff, Isaac Ardis, (参考訳) ブロックチェーンのプルーフ・オブ・ワーク(PoW)の主な脆弱性は、アタッカーが以前に公開されたブロックをフォークし、異なるトランザクションシーケンスを含む新しいチェーンセグメントを構築することで、トランザクション履歴を書き換えることができることである。 攻撃者のチェーンが最も累積的なマイニングパズルの難しさを持っている場合、ノードはそれを正則であると認識する。 本稿では2つの新しい特徴を含むPOWプロトコルであるADESSを提案する。 最初の修正は、ノードが競合するチェーン上のブロックの時間的シーケンスを比較して攻撃者のチェーンを識別することを可能にする。 第2の修正は、チェーンの正準化のために指数関数的に増加するハッシュレートを適用することを要求することで攻撃者を罰する。 私たちは2つのことを示します。 (i)現在のPoWプロトコルと比較してADESSでは、二重攻撃の予想コストが弱い。 (ii) トランザクションの値に対して、ADESS には、二重スレッド攻撃の期待利益を負にするペナルティ設定がある。

A principal vulnerability of a proof-of-work ("PoW") blockchain is that an attacker can re-write the history of transactions by forking a previously published block and build a new chain segment containing a different sequence of transactions. If the attacker's chain has the most cumulative mining puzzle difficulty, nodes will recognize it as canonical. We propose a modification to PoW protocols, called ADESS, that contains two novel features. The first modification enables a node to identify the attacker chain by comparing the temporal sequence of blocks on competing chains. The second modification penalizes the attacker by requiring it to apply exponentially increasing hashrate in order to make its chain canonical. We demonstrate two things; (i) the expected cost of carrying out a double-spend attack is weakly higher under ADESS compared to the current PoW protocols and (ii) for any value of transaction, there is a penalty setting in ADESS that renders the expected profit of a double-spend attack negative.
翻訳日:2024-03-19 03:41:25 公開日:2023-09-25
# モバイルアプリケーション開発教育のためのソフトウェアプロセスにおけるアジャイル、ユーザ中心設計、品質

Agile, User-Centered Design and Quality in Software Processes for Mobile Application Development Teaching ( http://arxiv.org/abs/2311.03361v1 )

ライセンス: Link先を確認
Manuel Ignacio Castillo L\'opez, Ana Libia Eslava Cervantes, Gustavo de la Cruz Mart\'inez and Jorge Luis Ortega Arjona(参考訳) 学部におけるアジャイルメソッドは、業界と専門職のプロファイルのギャップを埋めるために研究されてきた。 教育用デジタルツール開発のためのユーザ中心のアジャイルプロセスに基づいて,androidアプリケーション開発コースを構築しました。 このプロセスは、ユーザエクスペリエンス(UX)アプローチと組み合わせて、スクラムとエクストリームプログラミングに基づいています。 コースは2つのフェーズで実行される: 学期前半はアジャイルとモバイルアプリケーション開発に関する理論を提示し、後半は学生が実際のクライアントのために開発するワークショップとして管理される。 アジャイルプロセスから期待される利害関係者との密接な関係を利用したUXとユーザ中心の設計の導入は、異なる品質機能開発を可能にします。 2019年以降、2つのプロジェクトが拡張され、1つのプロジェクトが記述されたプロセスとコースの卒業生で開発されている。 学生と利害関係者は、生成した製品とプロセスに価値を見出した。

Agile methods in undergraduate courses have been explored in an effort to close the gap between industry and professional profiles. We have structured an Android application development course based on a tailored user-centered Agile process for development of educational digital tools. This process is based on Scrum and Extreme Programming in combination with User Experience (UX) approaches. The course is executed in two phases: the first half of the semester presents theory on Agile and mobile applications development, the latter half is managed as a workshop where students develop for an actual client. The introduction of UX and user-centered design exploiting the close relationship with stakeholders expected from Agile processes allows for different quality features development. Since 2019 two of the projects have been extended and one project has been developed with the described process and course alumni. Students and stakeholders have found value in the generated products and process.
翻訳日:2024-01-15 16:30:53 公開日:2023-09-25
# Face-StyleSpeech:自然ゼロショット音声合成のためのFace-to-Voice潜時マッピングの改良

Face-StyleSpeech: Improved Face-to-Voice latent mapping for Natural Zero-shot Speech Synthesis from a Face Image ( http://arxiv.org/abs/2311.05844v1 )

ライセンス: Link先を確認
Minki Kang, Wooseok Han, Eunho Yang(参考訳) 顔画像から音声を生成することは、予め録音された人間の音声に頼ることなく、独自の声を使って対話できる仮想人間を開発する上で重要である。 本稿では,参照音声ではなく顔画像に基づく自然音声を生成する,ゼロショットテキストから音声への合成モデルであるface-stylespeechを提案する。 我々は、顔画像から話者のアイデンティティと韻律の両方を学ぶことが大きな課題となると仮定する。 この問題に対処するため、ttsモデルはフェイスエンコーダとプロソディエンコーダの両方を組み込んでいます。 プロソディエンコーダは、顔画像でのみキャプチャされない韻律的特徴をモデル化するように設計されており、顔画像から話者のアイデンティティをキャプチャすることのみに集中することができる。 実験結果から,モデルが訓練していない顔画像であっても,顔画像からより自然な音声を効果的に生成できることが確認された。 サンプルはデモページ https://face-stylespeech.github.io.com にある。

Generating a voice from a face image is crucial for developing virtual humans capable of interacting using their unique voices, without relying on pre-recorded human speech. In this paper, we propose Face-StyleSpeech, a zero-shot Text-To-Speech (TTS) synthesis model that generates natural speech conditioned on a face image rather than reference speech. We hypothesize that learning both speaker identity and prosody from a face image poses a significant challenge. To address the issue, our TTS model incorporates both a face encoder and a prosody encoder. The prosody encoder is specifically designed to model prosodic features that are not captured only with a face image, allowing the face encoder to focus solely on capturing the speaker identity from the face image. Experimental results demonstrate that Face-StyleSpeech effectively generates more natural speech from a face image than baselines, even for the face images the model has not trained. Samples are at our demo page https://face-stylespeech.github.io.
翻訳日:2024-01-15 16:18:47 公開日:2023-09-25
# 人工知能のサイバーセキュリティ危機: 制限のない採用と自然言語による攻撃

The Cybersecurity Crisis of Artificial Intelligence: Unrestrained Adoption and Natural Language-Based Attacks ( http://arxiv.org/abs/2311.09224v1 )

ライセンス: Link先を確認
Andreas Tsamados, Luciano Floridi, Mariarosaria Taddeo(参考訳) ChatGPTのような自動回帰言語モデル(AR-LLM)が、検索エンジンのような確立したアプリケーションに広く統合され、ユニークな拡張性を持つ重要な脆弱性が導入された。 本稿では,これらの脆弱性,攻撃ベクトルとしての自然言語への依存,サイバーセキュリティのベストプラクティスへの挑戦について分析する。 これらの課題を軽減するためのレコメンデーションを提供します。

The widespread integration of autoregressive-large language models (AR-LLMs), such as ChatGPT, across established applications, like search engines, has introduced critical vulnerabilities with uniquely scalable characteristics. In this commentary, we analyse these vulnerabilities, their dependence on natural language as a vector of attack, and their challenges to cybersecurity best practices. We offer recommendations designed to mitigate these challenges.
翻訳日:2024-01-15 16:07:56 公開日:2023-09-25
# AIと民主主義のデジタルアイデンティティ危機

AI and Democracy's Digital Identity Crisis ( http://arxiv.org/abs/2311.16115v1 )

ライセンス: Link先を確認
Shrey Jain, Connor Spelliscy, Samuel Vance-Law, Scott Moore(参考訳) AI対応ツールは、少数の個人が前例のない規模の偽情報キャンペーンを実行できるほど洗練されている。 プライバシー保護のアイデンティティ証明は、偽造の事例を大幅に減らし、偽情報を識別しやすくし、潜在的に妨げる可能性がある。 アイデンティティの証明が分散化のスペクトルにわたってどのように位置づけられているかを理解することで、さまざまな証明のコストとメリットをよりよく理解することができる。 本稿では,e-Estonia,中国の社会信用システム,Worldcoin,OAuth,X(旧Twitter),Gitcoin Passport,EASなど,政府,バイオメトリック,フェデレーション,信頼に基づくWebなど,認証のタイプについて議論する。 最もレジリエントなシステムは、進化し、互いに検証する同様に進化するアイデンティティのネットワークに接続されたアイデンティティを生み出すと信じています。 このタイプのシステムでは、各エンティティがそれぞれの信頼性を検証プロセスに貢献し、より大きく包括的な検証セットを作成する。 これらのシステムは、アイデンティティを認証し、aiが悪意のある俳優の手に持つ民主主義に対する脅威から保護するための最善のアプローチだと考えています。 しかし、政府は集中型id認証システムを実装することでこれらのリスクを軽減しようとする可能性が高い。 したがって、政策立案者は、アイデンティティのための標準設定組織の開発を支援し、分散ツールの構築者に対して法的明確性を提供し、効果的なid認証システムにとって重要な研究に資金を提供することを推奨する。

AI-enabled tools have become sophisticated enough to allow a small number of individuals to run disinformation campaigns of an unprecedented scale. Privacy-preserving identity attestations can drastically reduce instances of impersonation and make disinformation easy to identify and potentially hinder. By understanding how identity attestations are positioned across the spectrum of decentralization, we can gain a better understanding of the costs and benefits of various attestations. In this paper, we discuss attestation types, including governmental, biometric, federated, and web of trust-based, and include examples such as e-Estonia, China's social credit system, Worldcoin, OAuth, X (formerly Twitter), Gitcoin Passport, and EAS. We believe that the most resilient systems create an identity that evolves and is connected to a network of similarly evolving identities that verify one another. In this type of system, each entity contributes its respective credibility to the attestation process, creating a larger, more comprehensive set of attestations. We believe these systems could be the best approach to authenticating identity and protecting against some of the threats to democracy that AI can pose in the hands of malicious actors. However, governments will likely attempt to mitigate these risks by implementing centralized identity authentication systems; these centralized systems could themselves pose risks to the democratic processes they are built to defend. We therefore recommend that policymakers support the development of standards-setting organizations for identity, provide legal clarity for builders of decentralized tooling, and fund research critical to effective identity authentication systems.
翻訳日:2024-01-15 15:24:28 公開日:2023-09-25
# NuzzleBug: Scratchでブロックベースのプログラムをデバッグする

NuzzleBug: Debugging Block-Based Programs in Scratch ( http://arxiv.org/abs/2309.14465v1 )

ライセンス: Link先を確認
Adina Deiner and Gordon Fraser(参考訳) プロフェッショナルな統合プログラミング環境は、高度なデバッグ機能を持つ開発者をサポートするが、若い学習者のためのブロックベースのプログラミング環境は、デバッグをまったくサポートしないことが多い。 本稿では,人気のあるブロックベースのプログラミング環境であるscratchの拡張であるnuzzlebugを紹介する。 NuzzleBugは、ステップやブレークポイントといった古典的なデバッグ機能を備えたScratchプログラムの実行を制御することができる。 NuzzleBugは,デバッグをガイドする仮説の導出を支援するために,実行に関する質問と,問題の動作を説明する回答を提供するための質問型デバッガである。 NuzzleBugを評価するために,教師の意見を調査し,デバッグの有効性と効率性の観点から学習者に与える影響を検討する。 教師はNuzzleBugが有用であると考えており、子どもたちはプログラムの欠陥を効果的にデバッグすることができる。 しかし、システマティックデバッギングには専用のトレーニングが必要であり、たとえNuzzleBugが正しい回答を提供することができたとしても、学習者は欠陥と必要な修正を理解するのにさらなる助けを必要とする可能性がある。

While professional integrated programming environments support developers with advanced debugging functionality, block-based programming environments for young learners often provide no support for debugging at all, thus inhibiting debugging and preventing debugging education. In this paper we introduce NuzzleBug, an extension of the popular block-based programming environment Scratch that provides the missing debugging support. NuzzleBug allows controlling the executions of Scratch programs with classical debugging functionality such as stepping and breakpoints, and it is an omniscient debugger that also allows reverse stepping. To support learners in deriving hypotheses that guide debugging, NuzzleBug is an interrogative debugger that enables to ask questions about executions and provides answers explaining the behavior in question. In order to evaluate NuzzleBug, we survey the opinions of teachers, and study the effects on learners in terms of debugging effectiveness and efficiency. We find that teachers consider NuzzleBug to be useful, and children can use it to debug faulty programs effectively. However, systematic debugging requires dedicated training, and even when NuzzleBug can provide correct answers learners may require further help to comprehend faults and necessary fixes, thus calling for further research on improving debugging techniques and the information they provide.
翻訳日:2023-10-23 06:28:02 公開日:2023-09-25
# 認知バイアスが建築的技術的負債に及ぼす影響

The Influence of Cognitive Biases on Architectural Technical Debt ( http://arxiv.org/abs/2309.14175v1 )

ライセンス: Link先を確認
Klara Borowa, Andrzej Zalewski, Szymon Kijas(参考訳) 認知バイアスは人間の思考と意思決定に大きな影響を及ぼす。 アーキテクチャ的技術的負債の発生にどのように影響するかを特定するために、ソフトウェアアーキテクトとの一連の半構造化されたインタビューが行われた。 その結果、アーキテクチャ的技術的負債のどのクラスが認知バイアスに由来するかを示し、バイアスを通じて技術的負債項目(クラス)の前兆を明らかにする。 このようにして、認知バイアスが技術的負債を生み出す方法と時期を分析しました。 また,認知バイアスの負の影響を抑えるために使用可能なデバイアス手法のセットも同定した。 不注意な技術的負債の回避における組織文化の役割の観察は、この問題に新たな光を投げかけます。

Cognitive biases exert a significant influence on human thinking and decision-making. In order to identify how they influence the occurrence of architectural technical debt, a series of semi-structured interviews with software architects was performed. The results show which classes of architectural technical debt originate from cognitive biases, and reveal the antecedents of technical debt items (classes) through biases. This way, we analysed how and when cognitive biases lead to the creation of technical debt. We also identified a set of debiasing techniques that can be used in order to prevent the negative influence of cognitive biases. The observations of the role of organisational culture in the avoidance of inadvertent technical debt throw a new light on that issue.
翻訳日:2023-10-23 06:27:40 公開日:2023-09-25
# アーキテクチャ判断の根拠は何でしょう? 経験的な調査

What rationales drive architectural decisions? An empirical inquiry ( http://arxiv.org/abs/2309.14164v1 )

ライセンス: Link先を確認
Klara Borowa, Rafa{\l} Lewanczyk, Klaudia Stpiczy\'nska, Patryk Stradomski, Andrzej Zalewski(参考訳) アーキテクチャ上の意思決定は、研究者や実践者にとっても重要な関心事です。 アーキテクトが選択肢の集合から1つのアーキテクチャソリューションを選択する動機となるすべてのアーキテクチャ上の決定には根拠がある。 本研究は,アーキテクチャ決定に最も頻繁に影響を及ぼす合理的なカテゴリを特定し,それが実践者にとって重要である理由を検討することを目的とする。 本研究は,質問紙調査(63名)と質問紙調査(13名)の2段階からなる。 その結果、我々はアーキテクトの意思決定を実際に動機づける一連の根拠を得た。 その中で私たちは,実践者が最も関心を持っていたソフトウェア品質特性のリストを抽出しました。 全体として、アーキテクトは、慣れ親しんだソリューションや、迅速なソフトウェア実装を保証するソリューションを選択することを好みます。 中級アーキテクト(5歳から15歳)は、シニアやジュニアよりも新しいソリューションにオープンです。 さらに、ほとんどの実践者は、特定の標準の使用頻度や仮想化/コンテナ化など、現代のソフトウェア開発プラクティスによる互換性と移植性の品質特性を気にしていません。

Architectural decision-making is a crucial concern for researchers and practitioners alike. There is a rationale behind every architectural decision that motivates an architect to choose one architectural solution out of a set of options. This study aims to identify which categories of rationale most frequently impact architectural decisions and investigates why these are important to practitioners. Our research comprises two steps of empirical inquiry: a questionnaire (63 participants) and 13 interviews. As a result, we obtained a set of rationales that motivated architects' decisions in practice. Out of them, we extracted a list of software quality attributes that practitioners were the most concerned about. We found that, overall, architects prefer to choose solutions which are familiar to them or that guarantee fast software implementation. Mid-career architects (5 to 15 years of experience) are more open to new solutions than senior and junior practitioners. Additionally, we found that most practitioners are not concerned about the quality attributes of compatibility and portability due to modern software development practices, such as the prevalence of using specific standards and virtualisation/containerization.
翻訳日:2023-10-23 06:27:30 公開日:2023-09-25
# 製品ライン要件の導出:RED-PLガイダンスアプローチ

Deriving Product Line Requirements: the RED-PL Guidance Approach ( http://arxiv.org/abs/2309.13974v1 )

ライセンス: Link先を確認
Olfa Djebbi (CRI), Camille Salinesi (CRI), Daniel Diaz (CRI)(参考訳) 製品ライン(PL)モデリングは,ソフトウェア開発における再利用に有効な手法であることが証明されている。要件の再利用を計画するために,各変数のアプローチが開発されたが,実際に製品要求の導出の問題に対処する手法は少ない。この記事では,要件の導出を支援するためのRED-PLを提案する。 提案されたアプローチの独創性は (i)ユーザ指向である。 (ii)製品要件の明確化・導出を意思決定活動として指導し、 (iii)要求に関する意思決定を支援する体系的かつインタラクティブなガイダンスを提供する。 RED-PL法は, 血液分析装置の製品ラインの要求工学段階を考慮した産業環境の検証を行った。

Product lines (PL) modeling have proven to be an effective approach to reuse in software development.Several variability approaches were developed to plan requirements reuse, but only little of them actuallyaddress the issue of deriving product requirements.This paper presents a method, RED-PL that intends to support requirements derivation. The originality ofthe proposed approach is that (i) it is user-oriented, (ii) it guides product requirements elicitation andderivation as a decision making activity, and (iii) it provides systematic and interactive guidance assistinganalysts in taking decisions about requirements. The RED-PL methodological process was validatedin an industrial setting by considering the requirement engineering phase of a product line of blood analyzers.
翻訳日:2023-10-23 06:27:15 公開日:2023-09-25
# 区間分析によるスマートコントラクトの脆弱性同定

Identifying Vulnerabilities in Smart Contracts using Interval Analysis ( http://arxiv.org/abs/2309.13805v1 )

ライセンス: Link先を確認
\c{S}tefan-Claudiu Susan, Andrei Arusoaie(参考訳) 本稿では,スマートコントラクトの脆弱性検出のための既存の静的解析手法である interval analysis の利用に着目し,本研究の進捗報告を行う。 我々は,脆弱なスマートコントラクトを特徴とするモチベーションの高い例を選定し,既存の各種検出ツールを用いて実施した実験結果を共有する。 以上の結果から,これらのツールでは脆弱性の検出が困難であることが判明した。 検出能力を向上させるため,既存の検出ツールであるslither [3]上に間隔解析を実装し,他のツールでは検出できない脆弱性を特定する上での有効性を実証する。

This paper serves as a progress report on our research, specifically focusing on utilizing interval analysis, an existing static analysis method, for detecting vulnerabilities in smart contracts. We present a selection of motivating examples featuring vulnerable smart contracts and share the results from our experiments conducted with various existing detection tools. Our findings reveal that these tools were unable to detect the vulnerabilities in our examples. To enhance detection capabilities, we implement interval analysis on top of Slither [3], an existing detection tool, and demonstrate its effectiveness in identifying certain vulnerabilities that other tools fail to detect.
翻訳日:2023-10-23 06:27:02 公開日:2023-09-25
# 酵素数値Pシステムを用いたロボット制御系のモデリングと探索に基づくテスト

Modelling and Search-Based Testing of Robot Controllers Using Enzymatic Numerical P Systems ( http://arxiv.org/abs/2309.13795v1 )

ライセンス: Link先を確認
Radu Traian Bobe, Florentin Ipate, Ionu\c{t} Mihai Niculescu(参考訳) ソフトウェアによって制御されるシステムの安全性は、自動化プロセスの数が増えるにつれて、デジタル化社会において非常に重要な領域である。 本稿では,教育用ロボットの車線保持制御器の精度を検証した結果について述べる。 本手法では,ロボットは数値Pシステムと酵素数値Pシステムを用いて制御される。 テスト生成には、検索ベースのソフトウェアテストアプローチを実装するオープンソースツールを使用しました。

The safety of the systems controlled by software is a very important area in a digitalized society, as the number of automated processes is increasing. In this paper, we present the results of testing the accuracy of different lane keeping controllers for an educational robot. In our approach, the robot is controlled using numerical P systems and enzymatic numerical P systems. For tests generation, we used an open-source tool implementing a search-based software testing approach.
翻訳日:2023-10-23 06:26:51 公開日:2023-09-25
# JUNOオフラインソフトウェアのための最新のソフトウェア開発

Modern Software Development for JUNO offline software ( http://arxiv.org/abs/2309.13780v1 )

ライセンス: Link先を確認
Tao Lin (on behalf of the JUNO collaboration)(参考訳) 中国南部で建設中の地下ニュートリノ天文台(juno)は、主にニュートリノ質量階層の決定とニュートリノ振動パラメータの精密測定を目的としている。 データ取得は2024年に開始される予定で、検出器は20年以上稼働する予定である。 JUNOオフラインソフトウェア(JUNOSW)の開発は2012年に始まり、長い間JUNOSWを維持することは極めて困難である。 過去10年間、subversion、trac、cmtといったツールがソフトウェア開発に採用されてきた。 しかし、プロジェクト全体のビルド時間を削減する方法、オフラインアルゴリズムをオンライン環境にデプロイする方法、コードレビューと継続的インテグレーションによってコード品質を改善する方法など、新たな厳しい要件が生まれました。 ソフトウェア開発のさらなる要件を満たすため、現代的な開発ツールは、Git、GitLab、CMake、Docker、KubernetesといったJUNOSWで評価されている。 This contribution will present the software development system based on these modern tools for JUNOSW and the functionalities achieved: CMake macros are developed to simplify the build instructions for users; CMake generator expressions are used to control the build flags for the online and offline environments; a tool named git-junoenv is developed to help users partially checkout and build the software; a script is used to build and deploy the software on the CVMFS server; a Docker image with CVMFS client installed is created for continuous integration; a GitLab agent is set up to manage GitLab runners in Kubernetes with all the configurations in a GitLab repository.

The Jiangmen Underground Neutrino Observatory (JUNO), under construction in South China, primarily aims to determine the neutrino mass hierarchy and to precise measure the neutrino oscillation parameters. The data-taking is expected to start in 2024 and the detector plans to run for more than 20 years. The development of the JUNO offline software (JUNOSW) started in 2012, and it is quite challenging to maintain the JUNOSW for such a long time. In the last ten years, tools such as Subversion, Trac, and CMT had been adopted for software development. However, new stringent requirements came out, such as how to reduce the building time for the whole project, how to deploy offline algorithms to an online environment, and how to improve the code quality with code review and continuous integration. To meet the further requirements of software development, modern development tools are evaluated for JUNOSW, such as Git, GitLab, CMake, Docker, and Kubernetes. This contribution will present the software development system based on these modern tools for JUNOSW and the functionalities achieved: CMake macros are developed to simplify the build instructions for users; CMake generator expressions are used to control the build flags for the online and offline environments; a tool named git-junoenv is developed to help users partially checkout and build the software; a script is used to build and deploy the software on the CVMFS server; a Docker image with CVMFS client installed is created for continuous integration; a GitLab agent is set up to manage GitLab runners in Kubernetes with all the configurations in a GitLab repository.
翻訳日:2023-10-23 06:26:43 公開日:2023-09-25
# 非線形力学系のクラスに対する定常フォッカー・プランク方程式の物理インフォームド解:評価研究

Physics-Informed Solution of The Stationary Fokker-Plank Equation for a Class of Nonlinear Dynamical Systems: An Evaluation Study ( http://arxiv.org/abs/2309.16725v1 )

ライセンス: Link先を確認
Hussam Alhussein, Mohammed Khasawneh, Mohammed F. Daqaq(参考訳) フォッカー・プランク方程式(英: fokker-planck equation)は、確率密度関数(pdf)の時間的・空間的発展を確率力学系の応答に関連づけた線形偏微分方程式である。 FP方程式の正確な解析解は、力学系の限られた部分集合に対してのみ利用できる。 半解析的手法は、より大きいが、それでもシステムの小さな部分集合として利用可能であるが、従来の計算方法(例えば、有限要素と有限差分)では、計算領域を離散点の格子に分割する必要がある。 物理インフォームドラーニングは、従来の計算スキームに代わる強力な代替手段を提供する。 その可能性を評価するために,非線形確率力学系に対するfp方程式を解くために,データフリーな物理インフォームドニューラルネットワーク(pinn)フレームワークを提案する。 特に, Duffing, Van der Pol, Duffing-Van der Pol 発振器の確率応答に関するいくつかの例を通して, PINN フレームワークの性能と精度を$i)$ 加法的および乗法的ノイズの組み合わせによる PDF の予測,$ii)$ PDF の P-bifurcations の捕捉,$iii)$ で効果的に処理する。 モンテカルロシミュレーションと利用可能な文献との比較により、PINNは前述のすべての点を効果的に扱うことができることを示す。 また、転送学習を用いることで、PINNソリューションに関連する計算時間を大幅に削減できることを示す。

The Fokker-Planck (FP) equation is a linear partial differential equation which governs the temporal and spatial evolution of the probability density function (PDF) associated with the response of stochastic dynamical systems. An exact analytical solution of the FP equation is only available for a limited subset of dynamical systems. Semi-analytical methods are available for larger, yet still a small subset of systems, while traditional computational methods; e.g. Finite Elements and Finite Difference require dividing the computational domain into a grid of discrete points, which incurs significant computational costs for high-dimensional systems. Physics-informed learning offers a potentially powerful alternative to traditional computational schemes. To evaluate its potential, we present a data-free, physics-informed neural network (PINN) framework to solve the FP equation for a class of nonlinear stochastic dynamical systems. In particular, through several examples concerning the stochastic response of the Duffing, Van der Pol, and the Duffing-Van der Pol oscillators, we assess the ability and accuracy of the PINN framework in $i)$ predicting the PDF under the combined effect of additive and multiplicative noise, $ii)$ capturing P-bifurcations of the PDF, and $iii)$ effectively treating high-dimensional systems. Through comparisons with Monte-Carlo simulations and the available literature, we show that PINN can effectively address all of the afore-described points. We also demonstrate that the computational time associated with the PINN solution can be substantially reduced by using transfer learning.
翻訳日:2023-10-23 05:36:58 公開日:2023-09-25
# マルチテリトリービデオレコメンデーションにおける人気バイアス低減のためのマルチタスク学習

Multi-Task Learning For Reduced Popularity Bias In Multi-Territory Video Recommendations ( http://arxiv.org/abs/2310.03148v1 )

ライセンス: Link先を確認
Phanideep Gampa, Farnoosh Javadi, Belhassen Bayar, Ainur Yessenalina(参考訳) 多分野のパーソナライズドレコメンデーションシステムで自然に発生するさまざまなデータ不均衡は、グローバルに広く普及している項目に対して重要な項目バイアスをもたらす可能性がある。 地元で人気のあるアイテムは、世界的に普及しているアイテムによって覆い隠すことができる。 さらに、ユーザのビューアシップパターンや統計は、特定のユーザの埋め込みを学ぶことを示唆する地理的な場所から別の場所へと劇的に変化する可能性がある。 本稿では,マルチタスク・ラーニング(mtl)手法と,マルチテリトリー・レコメンデーションにおける人気バイアスを軽減する適応的なアップサンプリング手法を提案する。 提案フレームワークは,アップサンプリングによるアクティブユーザ表現によるトレーニング例の強化と,mtlを活用した地理的ユーザ埋め込みの学習を可能にする。 実験により,提案手法を取り入れないベースラインと比較して,複数の領域におけるフレームワークの有効性を示す。 可逆的に、PR-AUC 測定値で65.27 % まで改善された相対的利得を示す。 本手法の利点を実証するために,グローバルアイテムの人気バイアスを緩和するケーススタディを行った。

Various data imbalances that naturally arise in a multi-territory personalized recommender system can lead to a significant item bias for globally prevalent items. A locally popular item can be overshadowed by a globally prevalent item. Moreover, users' viewership patterns/statistics can drastically change from one geographic location to another which may suggest to learn specific user embeddings. In this paper, we propose a multi-task learning (MTL) technique, along with an adaptive upsampling method to reduce popularity bias in multi-territory recommendations. Our proposed framework is designed to enrich training examples with active users representation through upsampling, and capable of learning geographic-based user embeddings by leveraging MTL. Through experiments, we demonstrate the effectiveness of our framework in multiple territories compared to a baseline not incorporating our proposed techniques.~Noticeably, we show improved relative gain of up to $65.27\%$ in PR-AUC metric. A case study is presented to demonstrate the advantages of our methods in attenuating the popularity bias of global items.
翻訳日:2023-10-23 04:34:42 公開日:2023-09-25
# EOGによるヘルスケアの強化:睡眠段階分類の新しいアプローチ

Enhancing Healthcare with EOG: A Novel Approach to Sleep Stage Classification ( http://arxiv.org/abs/2310.03757v1 )

ライセンス: Link先を確認
Suvadeep Maiti, Shivam Kumar Sharma, Raju S. Bapi(参考訳) EOG信号を用いた自動睡眠ステージ分類に革新的アプローチを導入し、脳波データ取得に伴う不快感と非現実性に対処する。 さらに、このアプローチはこの分野では未実装であり、新しい洞察と貢献の可能性を強調している点にも注意が必要だ。 提案するSE-Resnet-Transformerモデルは,生のEOG信号から5つの異なる睡眠ステージを正確に分類する。 一般に利用可能なデータベース(SleepEDF-20、SleepEDF-78、SHHS)の大規模な検証は、それぞれ74.72、70.63、69.26のマクロF1スコアで注目すべきパフォーマンスを示している。 我々のモデルは、睡眠障害研究の重要な側面であるREM睡眠の同定に優れている。 また,1D-GradCAMやt-SNEプロットなどの手法を用いて,モデルの内部メカニズムについて考察する。 脳波モダリティの必要性を低減しつつ、睡眠段階分類のアクセシビリティを向上させる。 この開発は、医療と睡眠研究へのウェアラブル技術の導入に有望な意味を持ち、診断と患者の快適性を高めるための分野の可能性を前進させる。

We introduce an innovative approach to automated sleep stage classification using EOG signals, addressing the discomfort and impracticality associated with EEG data acquisition. In addition, it is important to note that this approach is untapped in the field, highlighting its potential for novel insights and contributions. Our proposed SE-Resnet-Transformer model provides an accurate classification of five distinct sleep stages from raw EOG signal. Extensive validation on publically available databases (SleepEDF-20, SleepEDF-78, and SHHS) reveals noteworthy performance, with macro-F1 scores of 74.72, 70.63, and 69.26, respectively. Our model excels in identifying REM sleep, a crucial aspect of sleep disorder investigations. We also provide insight into the internal mechanisms of our model using techniques such as 1D-GradCAM and t-SNE plots. Our method improves the accessibility of sleep stage classification while decreasing the need for EEG modalities. This development will have promising implications for healthcare and the incorporation of wearable technology into sleep studies, thereby advancing the field's potential for enhanced diagnostics and patient comfort.
翻訳日:2023-10-15 14:59:58 公開日:2023-09-25
# 流路による無訓練線形画像インバージョン

Training-free Linear Image Inversion via Flows ( http://arxiv.org/abs/2310.04432v1 )

ライセンス: Link先を確認
Ashwini Pokle, Matthew J. Muckley, Ricky T. Q. Chen, Brian Karrer(参考訳) トレーニングフリーの線形反転は、事前訓練された生成モデルの使用と、生成過程を適切に修正することで、生成モデルの微調整なしに逆問題を解くことを伴う。 最近の手法では拡散モデルの利用が検討されているが、異なる逆問題に対して多くのハイパーパラメータを手動でチューニングする必要がある。 そこで本研究では,事前学習フローモデルを用いた画像インバージョンのためのトレーニングフリーな手法を提案し,フローマッチングモデルの単純さと効率を活かし,理論的な重み付けスキームを用い,手作業によるチューニング量を大幅に削減する。 特に、フローレシエーションに事前勾配補正法を採用することと、条件付き最適輸送経路に基づく解法スキームの2つの主要な情報源からインスピレーションを得ている。 また, 事前学習した拡散モデルが広く利用できるため, 拡散モデルを効果的に適用する方法を示す。 提案手法は,高次元データセットであるImageNet-64/128とAFHQ-256において,広範にノイズの多い線形画像インバージョン問題に対して,問題固有のチューニングを必要としない。

Training-free linear inversion involves the use of a pretrained generative model and -- through appropriate modifications to the generation process -- solving inverse problems without any finetuning of the generative model. While recent prior methods have explored the use of diffusion models, they still require the manual tuning of many hyperparameters for different inverse problems. In this work, we propose a training-free method for image inversion using pretrained flow models, leveraging the simplicity and efficiency of Flow Matching models, using theoretically-justified weighting schemes and thereby significantly reducing the amount of manual tuning. In particular, we draw inspiration from two main sources: adopting prior gradient correction methods to the flow regime, and a solver scheme based on conditional Optimal Transport paths. As pretrained diffusion models are widely accessible, we also show how to practically adapt diffusion models for our method. Empirically, our approach requires no problem-specific tuning across an extensive suite of noisy linear image inversion problems on high-dimensional datasets, ImageNet-64/128 and AFHQ-256, and we observe that our flow-based method for image inversion significantly improves upon closely-related diffusion-based linear inversion methods.
翻訳日:2023-10-15 14:48:55 公開日:2023-09-25
# ニューラルネットワークは桁数を数えられるか?

Can neural networks count digit frequency? ( http://arxiv.org/abs/2310.04431v1 )

ライセンス: Link先を確認
Padmaksh Khandelwal(参考訳) 本研究では,異なる古典的機械学習モデルとニューラルネットワークの性能を比較し,与えられた数値における各桁の発生頻度を同定することを目的とする。 機械学習やコンピュータビジョンにおいて、例えば視覚シーンにおける対象オブジェクトの周波数を取得するために様々な応用がある。 我々はこの問題を分類タスクと回帰タスクのハイブリッドとみなした。 異なる方法間の系統的な違いを観察するために、慎重に独自のデータセットを作成します。 提案手法は,複数のデータセットにまたがって異なる測定値を用いて評価し,その評価基準はルート平均二乗誤差と平均絶対誤差,分類性能評価の精度であった。 決定木や無作為林は、その固有のバイアスのためにデータセットに過度に適合し、うまく一般化できないことを観察する。 また、ニューラルネットワークは6桁と10桁の数値データセットの回帰と分類の両方の観点から、従来の機械学習モデルよりも大幅に優れています。 データセットとコードはgithubから入手できる。

In this research, we aim to compare the performance of different classical machine learning models and neural networks in identifying the frequency of occurrence of each digit in a given number. It has various applications in machine learning and computer vision, e.g. for obtaining the frequency of a target object in a visual scene. We considered this problem as a hybrid of classification and regression tasks. We carefully create our own datasets to observe systematic differences between different methods. We evaluate each of the methods using different metrics across multiple datasets.The metrics of performance used were the root mean squared error and mean absolute error for regression evaluation, and accuracy for classification performance evaluation. We observe that decision trees and random forests overfit to the dataset, due to their inherent bias, and are not able to generalize well. We also observe that the neural networks significantly outperform the classical machine learning models in terms of both the regression and classification metrics for both the 6-digit and 10-digit number datasets. Dataset and code are available on github.
翻訳日:2023-10-15 14:48:34 公開日:2023-09-25
# 1D-CycleGANを用いた胎児心電図抽出のための新しい深層学習法

A Novel Deep Learning Technique for Morphology Preserved Fetal ECG Extraction from Mother ECG using 1D-CycleGAN ( http://arxiv.org/abs/2310.03759v1 )

ライセンス: Link先を確認
Promit Basak, A.H.M Nazmus Sakib, Muhammad E. H. Chowdhury, Nasser Al-Emadi, Huseyin Cagatay Yalcin, Shona Pedersen, Sakib Mahmud, Serkan Kiranyaz, Somaya Al-Maadeed(参考訳) 非侵襲性胎児心電図(fECG)による胎児心臓の電気パルスのモニタリングは、発達期心臓の異常を容易に検出し、乳児死亡率と産後合併症を著しく減少させる。 母体と胎児のRピークが重なり合うため、適応フィルタ、独立成分分析、経験的モード分解などの典型的な信号抽出法である、系統的および環境的ノイズであるfECGの低振幅は、良好なfECGを生成できない。 いくつかの技術は正確なQRS波を生成することができるが、ECGの他の重要な側面を無視することが多い。 本手法は1次元サイクガンを基盤とし, 広範な前処理と適切な枠組みにより形態を維持しつつ, mecg信号からfecg信号を再構成することができる。 心電図と心電図と心電図を併用し, 平均心電図値88.4%, スペクトル相関スコア89.4%を得た。 信号のfqrsを精度、精度、リコール、f1スコアの92.6%、97.6%、94.8%、96.4%で検出する。 また、胎児心拍数とr-r間隔をそれぞれ 0.25% と 0.27% の誤差で正確に推定することができる。 我々の研究の主な貢献は、同様の研究とは異なり、ECG信号のモルフォロジーを高い忠実度で保持できることである。 胎児の心拍数とR-R間隔長に対するソリューションの精度は,既存の最先端技術と同等である。 これにより、胎児の心臓疾患の早期診断や胎児の定期的な健康診断に極めて有効なツールとなる。

Monitoring the electrical pulse of fetal heart through a non-invasive fetal electrocardiogram (fECG) can easily detect abnormalities in the developing heart to significantly reduce the infant mortality rate and post-natal complications. Due to the overlapping of maternal and fetal R-peaks, the low amplitude of the fECG, systematic and ambient noises, typical signal extraction methods, such as adaptive filters, independent component analysis, empirical mode decomposition, etc., are unable to produce satisfactory fECG. While some techniques can produce accurate QRS waves, they often ignore other important aspects of the ECG. Our approach, which is based on 1D CycleGAN, can reconstruct the fECG signal from the mECG signal while maintaining the morphology due to extensive preprocessing and appropriate framework. The performance of our solution was evaluated by combining two available datasets from Physionet, "Abdominal and Direct Fetal ECG Database" and "Fetal electrocardiograms, direct and abdominal with reference heartbeat annotations", where it achieved an average PCC and Spectral-Correlation score of 88.4% and 89.4%, respectively. It detects the fQRS of the signal with accuracy, precision, recall and F1 score of 92.6%, 97.6%, 94.8% and 96.4%, respectively. It can also accurately produce the estimation of fetal heart rate and R-R interval with an error of 0.25% and 0.27%, respectively. The main contribution of our work is that, unlike similar studies, it can retain the morphology of the ECG signal with high fidelity. The accuracy of our solution for fetal heart rate and R-R interval length is comparable to existing state-of-the-art techniques. This makes it a highly effective tool for early diagnosis of fetal heart diseases and regular health checkups of the fetus.
翻訳日:2023-10-15 14:45:24 公開日:2023-09-25
# 構築前の回帰:ポイントクラウドによる自己教師型学習のための回帰オートエンコーダ

Regress Before Construct: Regress Autoencoder for Point Cloud Self-supervised Learning ( http://arxiv.org/abs/2310.03670v1 )

ライセンス: Link先を確認
Yang Liu, Chen Chen, Can Wang, Xulin King, Mengyuan Liu(参考訳) マスク付きオートエンコーダ(mae)は、2dおよび3dコンピュータビジョンの自己教師あり学習において有望な性能を示している。 それにもかかわらず、既存のmaeベースの手法には一定の欠点がある。 まず、エンコーダとデコーダの間の関数的デカップリングは不完全であり、エンコーダの表現学習能力を制限する。 次に、ダウンストリームタスクはエンコーダのみを使用し、プリテキストタスクでエンコーダ-デコーダアーキテクチャによって得られる知識を十分に活用できない。 本稿では,ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しい手法であるPoint Regress AutoEncoder (Point-RAE)を提案する。 提案手法は,エンコーダが符号化した可視パッチ表現からマスクパッチ表現を予測し,デコーダが予測したマスクパッチ表現からターゲットを再構成するマスクレグレッサーを導入することで,デコーダとエンコーダとの間の機能を分離する。 これにより、エンコーダの表現空間に対するデコーダ更新の影響を最小限に抑えることができる。 さらに,可視パッチの符号化表現から予測されるマスクパッチの表現が,エンコーダから計算されたマスクパッチの表現と一致していることを保証するためにアライメント制約を導入する。 事前学習段階で学習した知識をフル活用するために,提案したポイント-RAEのためのファインチューンモードを設計する。 広範な実験により,我々のアプローチは事前学習時に効率的であり,様々な下流タスクをうまく一般化できることが証明された。 具体的には、事前学習されたモデルは、scanobjectnn hardest split における \textbf{90.28\%} と modelnet40 における \textbf{94.1\%} の精度を高い精度で達成し、他の全ての自己教師付き学習方法を超える。 私たちのコードと事前訓練されたモデルは、以下の通り公開されている。

Masked Autoencoders (MAE) have demonstrated promising performance in self-supervised learning for both 2D and 3D computer vision. Nevertheless, existing MAE-based methods still have certain drawbacks. Firstly, the functional decoupling between the encoder and decoder is incomplete, which limits the encoder's representation learning ability. Secondly, downstream tasks solely utilize the encoder, failing to fully leverage the knowledge acquired through the encoder-decoder architecture in the pre-text task. In this paper, we propose Point Regress AutoEncoder (Point-RAE), a new scheme for regressive autoencoders for point cloud self-supervised learning. The proposed method decouples functions between the decoder and the encoder by introducing a mask regressor, which predicts the masked patch representation from the visible patch representation encoded by the encoder and the decoder reconstructs the target from the predicted masked patch representation. By doing so, we minimize the impact of decoder updates on the representation space of the encoder. Moreover, we introduce an alignment constraint to ensure that the representations for masked patches, predicted from the encoded representations of visible patches, are aligned with the masked patch presentations computed from the encoder. To make full use of the knowledge learned in the pre-training stage, we design a new finetune mode for the proposed Point-RAE. Extensive experiments demonstrate that our approach is efficient during pre-training and generalizes well on various downstream tasks. Specifically, our pre-trained models achieve a high accuracy of \textbf{90.28\%} on the ScanObjectNN hardest split and \textbf{94.1\%} accuracy on ModelNet40, surpassing all the other self-supervised learning methods. Our code and pretrained model are public available at: \url{https://github.com/liuyyy111/Point-RAE}.
翻訳日:2023-10-08 11:01:03 公開日:2023-09-25
# 交通信号認識のための高精度二元ニューラルネットワークの局所ロバスト性ベンチマーク

Benchmarking Local Robustness of High-Accuracy Binary Neural Networks for Enhanced Traffic Sign Recognition ( http://arxiv.org/abs/2310.03033v1 )

ライセンス: Link先を確認
Andreea Postovan, M\u{a}d\u{a}lina Era\c{s}cu(参考訳) 交通標識は自動運転システムの道路安全と交通管理において重要な役割を果たしている。 正確な交通標識の分類は不可欠であるが、逆例や閉塞のような現実世界の複雑さのために困難である。 これらの問題に対処するため、バイナリニューラルネットワークはリソース制約のあるデバイスに適した分類器の構築を約束する。 前報では,限られた計算量とエネルギー資源のコンパクト化に着目し,交通信号認識のための高精度BNNモデルを提案する。 本稿では,その局所的ロバスト性を評価するために,最先端の検証ツールに挑戦するレイヤを特徴とするベンチマーク問題を紹介する。 これらのレイヤには、二元化畳み込み、最大プーリング、バッチ正規化、完全接続が含まれる。 検証問題の難易度は、入力次元 (2.7k-12k) のネットワークパラメータ (905k - 1.7m) と領域数 (43) と、ニューラルネットワークがスパースしていないという事実によって与えられる。 提案されたBNNモデルと局所ロバスト性特性はhttps://github.com/ChristopherBrix/vnncomp2023_benchmarks/tree/main/benchmarks/traffic_signs_recogni tionで確認できる。 第4回国際ニューラルネットワークコンペティション(VNN-COMP'23)の結果,7つ中4つが,多数のベンチマークをランダムに選択できる(最小値6,最大値45,最大値36,最大値45)という事実が明らかになった。 驚いたことに、ツールは間違った結果や逆例(1から4に並べてある)を出力する。 現在、割り当てられた時間(以前は8分に設定されていた)を延長することで、より多くの解決されたインスタンスを達成する可能性を模索しています。 さらに、特定のベンチマークのツールが提供する誤った結果の背後にある理由にも興味があります。

Traffic signs play a critical role in road safety and traffic management for autonomous driving systems. Accurate traffic sign classification is essential but challenging due to real-world complexities like adversarial examples and occlusions. To address these issues, binary neural networks offer promise in constructing classifiers suitable for resource-constrained devices. In our previous work, we proposed high-accuracy BNN models for traffic sign recognition, focusing on compact size for limited computation and energy resources. To evaluate their local robustness, this paper introduces a set of benchmark problems featuring layers that challenge state-of-the-art verification tools. These layers include binarized convolutions, max pooling, batch normalization, fully connected. The difficulty of the verification problem is given by the high number of network parameters (905k - 1.7 M), of the input dimension (2.7k-12k), and of the number of regions (43) as well by the fact that the neural networks are not sparse. The proposed BNN models and local robustness properties can be checked at https://github.com/ChristopherBrix/vnncomp2023_benchmarks/tree/main/benchmarks/traffic_signs_recogni tion. The results of the 4th International Verification of Neural Networks Competition (VNN-COMP'23) revealed the fact that 4, out of 7, solvers can handle many of our benchmarks randomly selected (minimum is 6, maximum is 36, out of 45). Surprisingly, tools output also wrong results or missing counterexample (ranging from 1 to 4). Currently, our focus lies in exploring the possibility of achieving a greater count of solved instances by extending the allotted time (previously set at 8 minutes). Furthermore, we are intrigued by the reasons behind the erroneous outcomes provided by the tools for certain benchmarks.
翻訳日:2023-10-08 10:59:52 公開日:2023-09-25
# 教師なし学習を用いたQM7bとQM9量子メカニカルデータセットの構造理解

Understanding the Structure of QM7b and QM9 Quantum Mechanical Datasets Using Unsupervised Learning ( http://arxiv.org/abs/2309.15130v1 )

ライセンス: Link先を確認
Julio J. Vald\'es and Alain B. Tchagang(参考訳) 本稿では, 数千個の有機分子からなる2つの量子力学データセット (QM7b, QM9) の内部構造について検討し, 電子的性質の観点から述べる。 この種のデータの構造と特性を理解することは、逆分子設計における特性から原子組成を予測する際に重要である。 本研究は内在次元解析,クラスタリング,異常検出法を用いて行った。 両データセットについて、内在次元は記述次元よりも数倍小さいことが判明した。 QM7bデータは、原子組成に関連する明確に定義されたクラスタで構成されている。 QM9データは、主に外れ値からなる外側領域と、クラスタ化されたインライナーオブジェクトに集中する内側コア領域で構成されている。 分子中の原子の数と外層/内層の性質の間に有意な関係がある。 構造的差異にもかかわらず、逆分子設計における関心変数の予測可能性が高い。 これは、元の性質と低次元埋め込み空間の両方から分子の原子数を推定するモデルで例示される。

This paper explores the internal structure of two quantum mechanics datasets (QM7b, QM9), composed of several thousands of organic molecules and described in terms of electronic properties. Understanding the structure and characteristics of this kind of data is important when predicting the atomic composition from the properties in inverse molecular designs. Intrinsic dimension analysis, clustering, and outlier detection methods were used in the study. They revealed that for both datasets the intrinsic dimensionality is several times smaller than the descriptive dimensions. The QM7b data is composed of well defined clusters related to atomic composition. The QM9 data consists of an outer region predominantly composed of outliers, and an inner core region that concentrates clustered, inliner objects. A significant relationship exists between the number of atoms in the molecule and its outlier/inner nature. Despite the structural differences, the predictability of variables of interest for inverse molecular design is high. This is exemplified with models estimating the number of atoms of the molecule from both the original properties, and from lower dimensional embedding spaces.
翻訳日:2023-09-28 18:29:37 公開日:2023-09-25
# CogEvalを用いた大規模言語モデルにおける認知地図と計画の評価

Evaluating Cognitive Maps and Planning in Large Language Models with CogEval ( http://arxiv.org/abs/2309.15129v1 )

ライセンス: Link先を確認
Ida Momennejad, Hosein Hasanbeig, Felipe Vieira, Hiteshi Sharma, Robert Osazuwa Ness, Nebojsa Jojic, Hamid Palangi, Jonathan Larson(参考訳) 近年,大規模言語モデル(llm)における創発的認知能力に関する研究が流入している。 しかし、ほとんどは逸話、トレーニングセットの汚染を見落としたり、複数のタスク、制御条件、複数のイテレーション、統計ロバストネステストに関する体系的な評価を欠いている。 ここでは2つの大きな貢献をします。 まず,大規模言語モデルにおける認知能力の体系的評価のための認知科学に着想を得たプロトコルであるCogEvalを提案する。 CogEvalプロトコルは、様々な能力の評価に従うことができる。 第2に,認知地図と計画能力の体系的評価をCogEvalに従って行う(OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, Alpaca-7B)。 我々は、計画を評価するための確立された構成的妥当性とLLMトレーニングセットの欠如の両方を提供する、人間の実験に基づくタスクプロンプトを定めている。 LLMは単純な構造を持ついくつかの計画タスクにおいて明らかな能力を示すが、体系的な評価は、不正な軌道の幻覚やループに閉じ込められるなど、計画タスクにおいて顕著な障害モードを示す。 これらの発見は、llmにおける創発的な計画能力の考え方を支持していない。 LLMは、認知地図として知られる計画問題の根底にある潜在関係構造を理解しておらず、基礎構造に基づく目標指向軌道の展開に失敗するためかもしれない。 応用と今後の方向性について論じる。

Recently an influx of studies claim emergent cognitive abilities in large language models (LLMs). Yet, most rely on anecdotes, overlook contamination of training sets, or lack systematic Evaluation involving multiple tasks, control conditions, multiple iterations, and statistical robustness tests. Here we make two major contributions. First, we propose CogEval, a cognitive science-inspired protocol for the systematic evaluation of cognitive capacities in Large Language Models. The CogEval protocol can be followed for the evaluation of various abilities. Second, here we follow CogEval to systematically evaluate cognitive maps and planning ability across eight LLMs (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B, and Alpaca-7B). We base our task prompts on human experiments, which offer both established construct validity for evaluating planning, and are absent from LLM training sets. We find that, while LLMs show apparent competence in a few planning tasks with simpler structures, systematic evaluation reveals striking failure modes in planning tasks, including hallucinations of invalid trajectories and getting trapped in loops. These findings do not support the idea of emergent out-of-the-box planning ability in LLMs. This could be because LLMs do not understand the latent relational structures underlying planning problems, known as cognitive maps, and fail at unrolling goal-directed trajectories based on the underlying structure. Implications for application and future directions are discussed.
翻訳日:2023-09-28 18:29:21 公開日:2023-09-25
# ゼロ次リーマン平均確率近似アルゴリズム

Zeroth-order Riemannian Averaging Stochastic Approximation Algorithms ( http://arxiv.org/abs/2309.14506v1 )

ライセンス: Link先を確認
Jiaxiang Li, Krishnakumar Balasubramanian and Shiqian Ma(参考訳) リーマン多様体上の確率最適化のためのゼロ階リーマン平均確率近似 (\texttt{Zo-RASA}) アルゴリズムを提案する。 各イテレーションで1つのサンプルまたは定数のバッチのみを使用して、$\epsilon$-approximation 1-order stationary solutionを生成するための最適なサンプル複素性が得られることを示す。 本手法はリーマン移動平均確率勾配推定器と新しいリーマン-リャプノフ解析手法を用いた収束解析を行う。 指数写像や並列トランスポートの代わりに、引き算とベクトル輸送を用いてアルゴリズムの実用性を向上させることにより、イテレーション毎の複雑性を低減できる。 さらに,ベクトル輸送による並列輸送を近似するための新しい誤差境界を実現するため, 2次基本形式が有界な多様体で満たされる新しい幾何学的条件を導入する。

We present Zeroth-order Riemannian Averaging Stochastic Approximation (\texttt{Zo-RASA}) algorithms for stochastic optimization on Riemannian manifolds. We show that \texttt{Zo-RASA} achieves optimal sample complexities for generating $\epsilon$-approximation first-order stationary solutions using only one-sample or constant-order batches in each iteration. Our approach employs Riemannian moving-average stochastic gradient estimators, and a novel Riemannian-Lyapunov analysis technique for convergence analysis. We improve the algorithm's practicality by using retractions and vector transport, instead of exponential mappings and parallel transports, thereby reducing per-iteration complexity. Additionally, we introduce a novel geometric condition, satisfied by manifolds with bounded second fundamental form, which enables new error bounds for approximating parallel transport with vector transport.
翻訳日:2023-09-28 18:28:05 公開日:2023-09-25
# LM-Emulated SandboxによるLM剤の危険性の同定

Identifying the Risks of LM Agents with an LM-Emulated Sandbox ( http://arxiv.org/abs/2309.15817v1 )

ライセンス: Link先を確認
Yangjun Ruan, Honghua Dong, Andrew Wang, Silviu Pitis, Yongchao Zhou, Jimmy Ba, Yann Dubois, Chris J. Maddison, Tatsunori Hashimoto(参考訳) chatgptプラグインのようなアプリケーションによって例示される、言語モデル(lm)エージェントとツール使用の最近の進歩は、豊富な機能セットを可能にするだけでなく、プライベートデータの漏洩や財務損失などの潜在的なリスクを増幅する。 これらのリスクを特定するには、ツールの実装、テストシナリオ毎に手動で環境を設定すること、リスクのあるケースを見つける必要がある。 ツールやエージェントの複雑さが増すにつれ、これらのエージェントをテストするコストが高くなると、高いリスクや長いリスクを見つけるのがますます難しくなります。 ツール実行をエミュレートするためにLMを使用するフレームワークであるToolEmuを導入し、手動でインスタンス化することなく、さまざまなツールやシナリオに対してLMエージェントのテストを可能にする。 エミュレータとともに,エージェントの故障を調査し,関連するリスクを定量化するLMベースの自動安全評価器を開発した。 ツールエミュレータと評価器の両方を人体評価によりテストし,ToolEmuで特定されたエラーの68.8%が実世界のエージェントの失敗であることを確認した。 36個のハイテイクツールと144個のテストケースからなるキュレートされた初期ベンチマークを用いて、現在のLMエージェントの定量的リスク分析を行い、潜在的に深刻な結果を伴う多数の障害を同定する。 特に、最も安全なLMエージェントでさえ23.9%の時間障害を示しており、より安全なLMエージェントの開発の必要性を強調している。

Recent advances in Language Model (LM) agents and tool use, exemplified by applications like ChatGPT Plugins, enable a rich set of capabilities but also amplify potential risks - such as leaking private data or causing financial losses. Identifying these risks is labor-intensive, necessitating implementing the tools, manually setting up the environment for each test scenario, and finding risky cases. As tools and agents become more complex, the high cost of testing these agents will make it increasingly difficult to find high-stakes, long-tailed risks. To address these challenges, we introduce ToolEmu: a framework that uses an LM to emulate tool execution and enables the testing of LM agents against a diverse range of tools and scenarios, without manual instantiation. Alongside the emulator, we develop an LM-based automatic safety evaluator that examines agent failures and quantifies associated risks. We test both the tool emulator and evaluator through human evaluation and find that 68.8% of failures identified with ToolEmu would be valid real-world agent failures. Using our curated initial benchmark consisting of 36 high-stakes tools and 144 test cases, we provide a quantitative risk analysis of current LM agents and identify numerous failures with potentially severe outcomes. Notably, even the safest LM agent exhibits such failures 23.9% of the time according to our evaluator, underscoring the need to develop safer LM agents for real-world deployment.
翻訳日:2023-09-28 12:33:32 公開日:2023-09-25
# 偽情報検出 : LLM時代の進化的課題

Disinformation Detection: An Evolving Challenge in the Age of LLMs ( http://arxiv.org/abs/2309.15847v1 )

ライセンス: Link先を確認
Bohan Jiang, Zhen Tan, Ayushi Nirmal, Huan Liu(参考訳) chatgptのようなジェネレーティブ大言語モデル(llm)の出現は、複数のドメインにわたるトランスフォーメーションの進歩を触媒している。 しかし、これらの進歩とともに、潜在的な脅威も導入されている。 一つの重要な懸念は、偽情報スプレッダーによるllmの誤用であり、これらのモデルを利用して、偽情報検出システムに挑戦する非常に説得力があるが誤解を招くコンテンツを生成する。 本研究の目的は,(1)現在の偽情報検出技術では,llmが生成する偽情報を確実に検出できるのか,という3つの研究課題に答えることである。 2) 従来の手法が効果が低かった場合, LLMは, 先進的偽情報に対する堅牢な防御として利用することができるか? そして、(3)これらの戦略は、この急成長する脅威を効果的に対処するために、どのような新しいアプローチを提案するべきか? 偽情報の形成と検出を総合的に探究し、この研究を育成する。

The advent of generative Large Language Models (LLMs) such as ChatGPT has catalyzed transformative advancements across multiple domains. However, alongside these advancements, they have also introduced potential threats. One critical concern is the misuse of LLMs by disinformation spreaders, leveraging these models to generate highly persuasive yet misleading content that challenges the disinformation detection system. This work aims to address this issue by answering three research questions: (1) To what extent can the current disinformation detection technique reliably detect LLM-generated disinformation? (2) If traditional techniques prove less effective, can LLMs themself be exploited to serve as a robust defense against advanced disinformation? and, (3) Should both these strategies falter, what novel approaches can be proposed to counter this burgeoning threat effectively? A holistic exploration for the formation and detection of disinformation is conducted to foster this line of research.
翻訳日:2023-09-28 12:25:12 公開日:2023-09-25
# Schr\odinger方程式に対するノイマンおよびロビン境界条件の物理的意味

Physical Meaning of Neumann and Robin Boundary Conditions for the Schr\"odinger Equation ( http://arxiv.org/abs/2309.15835v1 )

ライセンス: Link先を確認
Roderich Tumulka(参考訳) 境界を持つ領域 $\omega\subset \mathbb{r}^n$ 上の非相対論的schr\"odinger方程式は、しばしば均質なディリクレ境界条件 (\psi(x)=0$ for $x$ on the boundary) または均質なノイマン境界条件 (\partial_n \psi(x)=0$ for $x$ on the boundary and $\partial_n$ the normal derivative) あるいはロビン境界条件 (\partial_n\psi(x)=\alpha\psi(x)$ for $x$ on the boundary and $\alpha$ a real parameter) と共に考慮される。 物理的に、ディリクレ条件は、$\Omega$ の外側のポテンシャルが内側よりもはるかに高い場合に適用される(`potential well'')。 ノイマンやロビンの状態はいつ物理的に当てはまるのか? 我々の答えは、ポテンシャルがポテンシャル井戸よりも薄い層において(適切なレベルで)はるかに低いとき、または、適切な強度の負のデルタ電位が電位井戸に近く加わったときである。

The non-relativistic Schr\"odinger equation on a domain $\Omega\subset \mathbb{R}^n$ with boundary is often considered with homogeneous Dirichlet boundary conditions ($\psi(x)=0$ for $x$ on the boundary) or homogeneous Neumann boundary conditions ($\partial_n \psi(x)=0$ for $x$ on the boundary and $\partial_n$ the normal derivative) or Robin boundary conditions ($\partial_n\psi(x)=\alpha\psi(x)$ for $x$ on the boundary and $\alpha$ a real parameter). Physically, the Dirichlet condition applies if outside of $\Omega$ the potential is much higher than inside (``potential well''). We ask, when does the Neumann or Robin condition apply physically? Our answer is, when the potential is much lower (at the appropriate level) in a thin layer before a potential well, or when a negative delta potential of the appropriate strength is added close to the potential well.
翻訳日:2023-09-28 12:22:52 公開日:2023-09-25
# ピクセルからの混合交通制御と協調

Mixed Traffic Control and Coordination from Pixels ( http://arxiv.org/abs/2302.09167v3 )

ライセンス: Link先を確認
Michael Villarreal, Bibek Poudel, Jia Pan, Weizi Li(参考訳) 交通渋滞は社会の永続的な問題である。 既存の交通制御手法は、現在の渋滞レベルを緩和する上で無駄であることが証明されており、道路上での自律性の異なる車両の出現が増加するにつれて、研究者はロボットによるアイデアを探求するようになる。 これにより、ロボット車両が強化学習(RL)を通じて人間駆動車両を規制する交通制御が混在する。 しかし、既存の研究の多くは、環境流出や局所的な情報、すなわち車両の位置や速度などのグローバルな情報を含む正確な観測を用いている。 この情報を得るには、既存の道路インフラを巨大なセンサー環境で更新し、潜在的に望ましくない人間ドライバーと通信する必要がある。 画像観察をrlによる混合交通制御の代替として検討する。 1) 画像は,衛星画像,車載カメラシステム,交通監視システムを通じてユビキタスである。 2)画像は,環境から環境への観測空間の完全な再表示を必要としない。 3)画像は機器への通信のみを必要とする。 本研究では,画像観測を用いたロボット車両が,リング,フィギュア8,交差点,マージ,ボトルネックといった環境の正確な情報を用いて,同様の性能を実現することを示す。 あるシナリオでは、グローバルな交通情報とは対照的に、局所的な交通情報のみを使用しながら、マージ環境における平均車両速度が最大26%増加し、ボトルネック環境におけるアウトフローが6%上昇するなど、高精度な観測を用いて、アプローチがさらに優れています。

Traffic congestion is a persistent problem in our society. Existing methods for traffic control have proven futile in alleviating current congestion levels leading researchers to explore ideas with robot vehicles given the increased emergence of vehicles with different levels of autonomy on our roads. This gives rise to mixed traffic control, where robot vehicles regulate human-driven vehicles through reinforcement learning (RL). However, most existing studies use precise observations that involve global information, such as environment outflow, and local information, i.e., vehicle positions and velocities. Obtaining this information requires updating existing road infrastructure with vast sensor environments and communication to potentially unwilling human drivers. We consider image observations as the alternative for mixed traffic control via RL: 1) images are ubiquitous through satellite imagery, in-car camera systems, and traffic monitoring systems; 2) images do not require a complete re-imagination of the observation space from environment to environment; and 3) images only require communication to equipment. In this work, we show robot vehicles using image observations can achieve similar performance to using precise information on environments, including ring, figure eight, intersection, merge, and bottleneck. In certain scenarios, our approach even outperforms using precision observations, e.g., up to 26% increase in average vehicle velocity in the merge environment and a 6% increase in outflow in the bottleneck environment, despite only using local traffic information as opposed to global traffic information.
翻訳日:2023-09-27 20:54:56 公開日:2023-09-25
# gpuを用いたオンデバイス機械学習推論のためのプライベート情報検索

GPU-based Private Information Retrieval for On-Device Machine Learning Inference ( http://arxiv.org/abs/2301.10904v3 )

ライセンス: Link先を確認
Maximilian Lam, Jeff Johnson, Wenjie Xiong, Kiwan Maeng, Udit Gupta, Yang Li, Liangzhen Lai, Ilias Leontiadis, Minsoo Rhu, Hsien-Hsin S. Lee, Vijay Janapa Reddi, Gu-Yeon Wei, David Brooks, G. Edward Suh(参考訳) オンデバイス機械学習(ML)推論は、リモートサーバに公開することなく、ユーザデバイス上でプライベートなユーザデータを使用できる。 しかし、プライベートML推論に対する純粋なオンデバイスソリューションは、デバイス上に格納するには大きすぎる埋め込みテーブルに依存する多くのアプリケーションにとって実用的ではない。 特にレコメンデーションモデルは、通常、1-10gbのデータの順番で複数の埋め込みテーブルを使用しており、デバイスに格納するのは現実的ではない。 この障壁を克服するために,プライベート情報検索(PIR)を用いて,プライベート情報を共有することなく,サーバからの埋め込みを効率的にかつプライベートに検索する手法を提案する。 オフザシェルフのPIRアルゴリズムは、通常計算量が多く、遅延に敏感な推論タスクに直接使用することができないので、我々はそうする。 1)新しいGPUによるPIR加速の提案,及び 2) 下流MLアプリケーションとPIRを併用してさらなる高速化を実現する。 当社のgpuアクセラレーション戦略は、最適化されたcpu pir実装よりも20 \times$以上システムスループットを改善し、pir-mlは、固定されたモデル品質で5 \times$以上のスループット改善を提供します。 共に、レコメンデーションや言語モデリングなど、さまざまなデバイス上のMLアプリケーションに対して、単一のV100 GPU上のシステムは、毎秒最大100,000ドルのクエリを処理できます -- CPUベースのベースラインよりも100 \times$スループットの改善 -- モデル精度を維持しながら。

On-device machine learning (ML) inference can enable the use of private user data on user devices without revealing them to remote servers. However, a pure on-device solution to private ML inference is impractical for many applications that rely on embedding tables that are too large to be stored on-device. In particular, recommendation models typically use multiple embedding tables each on the order of 1-10 GBs of data, making them impractical to store on-device. To overcome this barrier, we propose the use of private information retrieval (PIR) to efficiently and privately retrieve embeddings from servers without sharing any private information. As off-the-shelf PIR algorithms are usually too computationally intensive to directly use for latency-sensitive inference tasks, we 1) propose novel GPU-based acceleration of PIR, and 2) co-design PIR with the downstream ML application to obtain further speedup. Our GPU acceleration strategy improves system throughput by more than $20 \times$ over an optimized CPU PIR implementation, and our PIR-ML co-design provides an over $5 \times$ additional throughput improvement at fixed model quality. Together, for various on-device ML applications such as recommendation and language modeling, our system on a single V100 GPU can serve up to $100,000$ queries per second -- a $>100 \times$ throughput improvement over a CPU-based baseline -- while maintaining model accuracy.
翻訳日:2023-09-27 20:54:34 公開日:2023-09-25
# ベイズネットワークの辺独立構造に関する組合せ的および代数的観点

Combinatorial and algebraic perspectives on the marginal independence structure of Bayesian networks ( http://arxiv.org/abs/2210.00822v2 )

ライセンス: Link先を確認
Danai Deligeorgaki, Alex Markham, Pratik Misra, Liam Solus(参考訳) 非条件依存グラフと呼ばれる非方向グラフの形で観測データからベイズネットワークの限界独立構造を推定する問題を考察する。 ベイズネットワークの非条件依存グラフは、同じ独立性および交叉数を持つグラフに対応することを示す。 この観察を用いて、ベイズネットワークの無条件依存グラフに付随するトーリックイデアルのgr\"obner基底が与えられ、そのようなすべてのグラフの空間を接続するための追加の双項関係によって拡張される。 GrUES (Gr\-obner-based Unconditional Equivalence Search) と呼ばれるMCMC法は、その結果に基づいて実装され、合成ガウスデータに適用される。 gruesは、単純な独立性テストよりも高いレートでペナルティ化された最大確率またはマップ推定値を介して真の辺独立性構造を回復し、また、後部の推定値も与え、この20〜%のhpd信頼できる集合は、密度が0.5$以上のデータ生成グラフに対して高いレートで真の構造を含む。

We consider the problem of estimating the marginal independence structure of a Bayesian network from observational data in the form of an undirected graph called the unconditional dependence graph. We show that unconditional dependence graphs of Bayesian networks correspond to the graphs having equal independence and intersection numbers. Using this observation, a Gr\"obner basis for a toric ideal associated to unconditional dependence graphs of Bayesian networks is given and then extended by additional binomial relations to connect the space of all such graphs. An MCMC method, called GrUES (Gr\"obner-based Unconditional Equivalence Search), is implemented based on the resulting moves and applied to synthetic Gaussian data. GrUES recovers the true marginal independence structure via a penalized maximum likelihood or MAP estimate at a higher rate than simple independence tests while also yielding an estimate of the posterior, for which the $20\%$ HPD credible sets include the true structure at a high rate for data-generating graphs with density at least $0.5$.
翻訳日:2023-09-27 20:53:17 公開日:2023-09-25
# 強化学習に基づく編集による安全批判シナリオ生成

Safety-Critical Scenario Generation Via Reinforcement Learning Based Editing ( http://arxiv.org/abs/2306.14131v2 )

ライセンス: Link先を確認
Haolan Liu, Liangjun Zhang, Siva Kumar Sastry Hari, Jishen Zhao(参考訳) 安全クリティカルシナリオの生成は、自動運転車の安全性のテストと検証に不可欠である。 従来の最適化手法は次元の呪いに苦しめられ、探索空間を固定パラメータ空間に制限する。 これらの課題に対処するため,我々は,新しいエージェントの追加や既存エージェントのトラジェクタの変更など,逐次編集によってシナリオを生成する深層強化学習手法を提案する。 我々のフレームワークはリスクと可能性の両方の目的からなる報酬機能を採用している。 妥当性の目標は、変分オートエンコーダのような生成モデルを利用して、トレーニングデータセットから生成されたパラメータの可能性を学習する。 われわれのアプローチは次元的課題を克服し、幅広い安全クリティカルシナリオを探求する。 提案手法は, 従来手法と比較して, 品質の高い安全クリティカルなシナリオを生成することを示す。

Generating safety-critical scenarios is essential for testing and verifying the safety of autonomous vehicles. Traditional optimization techniques suffer from the curse of dimensionality and limit the search space to fixed parameter spaces. To address these challenges, we propose a deep reinforcement learning approach that generates scenarios by sequential editing, such as adding new agents or modifying the trajectories of the existing agents. Our framework employs a reward function consisting of both risk and plausibility objectives. The plausibility objective leverages generative models, such as a variational autoencoder, to learn the likelihood of the generated parameters from the training datasets; It penalizes the generation of unlikely scenarios. Our approach overcomes the dimensionality challenge and explores a wide range of safety-critical scenarios. Our evaluation demonstrates that the proposed method generates safety-critical scenarios of higher quality compared with previous approaches.
翻訳日:2023-09-27 20:44:32 公開日:2023-09-25
# 一般相対論における可観測物の不完全性理論

Incompleteness Theorems for Observables in General Relativity ( http://arxiv.org/abs/2305.04818v2 )

ライセンス: Link先を確認
Aristotelis Panagiotopoulos, George Sparling, Marios Christodoulou(参考訳) 一般相対性理論における完全な観測可能性の探求は長年の未解決問題であった。 記述的集合論の手法を用いて、十分にリッチな時空の集合上の完備観測可能がボレル定義可能でないことを示す。 実際、それはツェルメロ・フレンケルと従属選択公理と一致しており、リッチな時空の集合に対する完全な可観測性は存在しない。 簡単に言うと、可観測性の問題とは、ディリアン問題が何であったのかを「分析」することである。 我々の結果は、真空溶液への解の空間を制限した後でも正しいままである。 言い換えれば、この問題は地域の自由度の存在にさかのぼることができる。 本稿では,理論物理学と記述集合論の新たな関係を明らかにすることを目的とした研究プログラムの次のステップについて論じる。

The quest for complete observables in general relativity has been a longstanding open problem. We employ methods from descriptive set theory to show that no complete observable on rich enough collections of spacetimes is Borel definable. In fact, we show that it is consistent with the Zermelo-Fraenkel and Dependent Choice axioms that no complete observable for rich collections of spacetimes exists whatsoever. In a nutshell, this implies that the Problem of Observables is to 'analysis' what the Delian Problem was to 'straightedge and compass'. Our results remain true even after restricting the space of solutions to vacuum solutions. In other words, the issue can be traced to the presence of local degrees of freedom. We discuss the next steps in a research program that aims to further uncover this novel connection between theoretical physics and descriptive set theory.
翻訳日:2023-09-27 20:44:04 公開日:2023-09-25
# クリフォード代数における中心電荷異常のオクタニオンと量子重力

Octonions and Quantum Gravity through the Central Charge Anomaly in the Clifford Algebra ( http://arxiv.org/abs/2304.14830v2 )

ライセンス: Link先を確認
Lucas Kocia Kovalsky(参考訳) 我々は、AdS$_3$等距離/量子ビット双対性を含む量子重力の理論を導出する。 この理論は、均質なads$_3$時空等長群の包絡代数の超代数的一般化(英語版)(superalgebra generalization)に基づいている。 最初の3つの四元数生成器は$\hbar$-quantized ads$_3$ embedded spacetime に対応し、残りの4つの四元数生成器は$g$-quantized embedded $2+2$ minkowski spacetime に対応する。 複素化クリフォード代数への単射の後の四元環の式は、中心電荷異常を伴う2次元共形作用素積の拡大を生じさせ、その結果、面積法則$\hbar G$がホログラフィックの原理を満足し、「時間の幅」を定義する。 この関係により、埋め込みの超対称性および共形破壊$\mathcal O(G)$変換を通じて理論を拡張し、摂動AdS$_3$時空を生成し、明示的な機構でブラックホール情報パラドックスへの分解を導くことができる。

We derive a theory of quantum gravity containing an AdS$_3$ isometry/qubit duality. The theory is based on a superalgebra generalization of the enveloping algebra of the homogeneous AdS$_3$ spacetime isometry group and is isomorphic to the complexified octonion algebra through canonical quantization. Its first three quaternion generators correspond to an $\hbar$-quantized AdS$_3$ embedded spacetime and its remaining four non-quaternion generators to a $G$-quantized embedding $2+2$ Minkowski spacetime. The quaternion algebra's expression after a monomorphism into the complexified Clifford algebra produces a two-dimensional conformal operator product expansion with a central charge anomaly, which results in an area-law $\hbar G$ scaling satisfying the holographic principle and defines an "arrow of time". This relationship allows us to extend the theory through supersymmetry- and conformal-breaking $\mathcal O(G)$ transformations of the embedding to produce perturbed AdS$_3$ spacetimes and derive a resolution to the black hole information paradox with an explicit mechanism.
翻訳日:2023-09-27 20:43:49 公開日:2023-09-25
# ボソニック双極子状態分子の衝突安定ガス

Collisionally Stable Gas of Bosonic Dipolar Ground State Molecules ( http://arxiv.org/abs/2303.16845v2 )

ライセンス: Link先を確認
Niccol\`o Bigagli, Claire Warner, Weijun Yuan, Siwei Zhang, Ian Stevenson, Tijs Karman, and Sebastian Will(参考訳) 双極子分子の安定な超低温アンサンブルは多体量子物理学にとって大きな期待を抱いているが、高い非弾性損失率は長年の課題である。 近年, フェルミオン分子のガスは外部磁場によって効果的に安定化できることが示されている。 しかし、多くの量子応用はボゾン統計を持つ分子アンサンブルの恩恵を受ける。 ここでは、マイクロ波遮蔽による非弾性損失に対して、強双極性nacs分子のボソニックガスを安定化し、損失を200倍以上減少させ、1秒スケールで寿命に達する。 また,強い双極子相互作用の結果である高い弾性散乱速度を測定し,双極子衝突の異方性を観察した。 最後に, ボゾン分子ガスの36(5)nK温度への蒸発冷却を実証し, 相空間密度を20倍に向上させた。 この研究は、双極子分子のボース=アインシュタイン凝縮体を作るための重要なステップである。

Stable ultracold ensembles of dipolar molecules hold great promise for many-body quantum physics, but high inelastic loss rates have been a long-standing challenge. Recently, it was shown that gases of fermionic molecules can be effectively stabilized through external fields. However, many quantum applications will benefit from molecular ensembles with bosonic statistics. Here, we stabilize a bosonic gas of strongly dipolar NaCs molecules against inelastic losses via microwave shielding, decreasing losses by more than a factor of 200 and reaching lifetimes on the scale of 1 second. We also measure high elastic scattering rates, a result of strong dipolar interactions, and observe the anisotropic nature of dipolar collisions. Finally, we demonstrate evaporative cooling of a bosonic molecular gas to a temperature of 36(5) nK, increasing its phase-space density by a factor of 20. This work is a critical step towards the creation of a Bose-Einstein condensate of dipolar molecules.
翻訳日:2023-09-27 20:42:55 公開日:2023-09-25
# フーリエ変換とソフトしきい値付き領域一般化

Domain Generalization with Fourier Transform and Soft Thresholding ( http://arxiv.org/abs/2309.09866v2 )

ライセンス: Link先を確認
Hongyi Pan, Bin Wang, Zheyuan Zhang, Xin Zhu, Debesh Jha, Ahmet Enis Cetin, Concetto Spampinato, Ulas Bagci(参考訳) ドメインの一般化は、複数のソースドメインでモデルをトレーニングすることを目的としている。 多くの領域一般化法の中で、フーリエ変換に基づく領域一般化法は、主にフーリエ変換のパワーを利用してデータの本質的なパターンや規則性を捉え、モデルがドメインシフトに対してより堅牢になるために人気を得ている。 主流のフーリエ変換に基づく領域一般化は、ソースとターゲット画像の間の位相スペクトルを保持しながらフーリエスペクトルを置き換える。 しかし、振幅スペクトルの背景干渉を無視する。 この制限を克服するために、フーリエ領域にソフトスレッディング関数を導入する。 このアルゴリズムを眼疾患の診断に重要な網膜眼底画像分割に適用するが,神経回路の性能は領域シフトによって異なる源をまたがって劣化する可能性がある。 提案手法は,フーリエ領域の小さな値を除去し,より優れた一般化を提供することにより,基礎画像の強化を実現する。 フーリエ変換に基づく領域一般化と融合したソフトしきい値の革新的な性質は、ターゲット画像の背景干渉を著しく減らし、ニューラルネットワークモデルの性能を向上させる。 公開データ実験は,従来の手法や最先端手法よりも優れたセグメンテーション指標を用いた手法の有効性を検証する。

Domain generalization aims to train models on multiple source domains so that they can generalize well to unseen target domains. Among many domain generalization methods, Fourier-transform-based domain generalization methods have gained popularity primarily because they exploit the power of Fourier transformation to capture essential patterns and regularities in the data, making the model more robust to domain shifts. The mainstream Fourier-transform-based domain generalization swaps the Fourier amplitude spectrum while preserving the phase spectrum between the source and the target images. However, it neglects background interference in the amplitude spectrum. To overcome this limitation, we introduce a soft-thresholding function in the Fourier domain. We apply this newly designed algorithm to retinal fundus image segmentation, which is important for diagnosing ocular diseases but the neural network's performance can degrade across different sources due to domain shifts. The proposed technique basically enhances fundus image augmentation by eliminating small values in the Fourier domain and providing better generalization. The innovative nature of the soft thresholding fused with Fourier-transform-based domain generalization improves neural network models' performance by reducing the target images' background interference significantly. Experiments on public data validate our approach's effectiveness over conventional and state-of-the-art methods with superior segmentation metrics.
翻訳日:2023-09-27 20:35:19 公開日:2023-09-25
# フラクソニウム量子ビット間の高忠実度ゲートに対する可変インダクティブカプラ

Tunable inductive coupler for high fidelity gates between fluxonium qubits ( http://arxiv.org/abs/2309.05720v2 )

ライセンス: Link先を確認
Helin Zhang, Chunyang Ding, D. K. Weiss, Ziwen Huang, Yuwei Ma, Charles Guinn, Sara Sussman, Sai Pavan Chitta, Danyang Chen, Andrew A. Houck, Jens Koch, David I. Schuster(参考訳) fluxonium qubitはその長いコヒーレンス時間と大きな非調和性のために量子計算の有望な候補である。 2つの重フルクソニウム量子ビット間の強い帰納結合を実現し,それぞれが$\sim50$MHz周波数と$\sim5$GHzアンハーモニシティを持つチューナブルカプラを提案する。 このカプラにより、qubitsは$\textit{xx}$ coupling strengths (-35$から75$ mhz)という大きなチューニング範囲を持つことができる。 $\textit{ZZ}$結合強度は、カプラバイアス範囲全体で$<3$kHz、カプラオフポジションでは$<100$Hzである。 これらの性質は高速で高忠実なシングルビットと2ビットのゲートにつながる。 2つの量子ビットの差分周波数で運転することで、99.72 %$の忠実度を持つ$258$nsの$\sqrt{i\mathrm{SWAP}}$ゲートと、2つの量子ビットの合計周波数で運転することで、99.91 %$の忠実度を持つ$102$nsの$ゲートを実現する。 後者のゲートは、長さが5キュービットのラルモア期間である。 クロスエントロピーベンチマークを20ドル以上連続して実行し、安定したゲート忠実度を測定します。$\sqrt{b\mathrm{SWAP}}$ drift$2 \sigma$) $<0.02\%$および$\sqrt{i\mathrm{SWAP}}$ drift$<08\%$です。

The fluxonium qubit is a promising candidate for quantum computation due to its long coherence times and large anharmonicity. We present a tunable coupler that realizes strong inductive coupling between two heavy-fluxonium qubits, each with $\sim50$MHz frequencies and $\sim5$ GHz anharmonicities. The coupler enables the qubits to have a large tuning range of $\textit{XX}$ coupling strengths ($-35$ to $75$ MHz). The $\textit{ZZ}$ coupling strength is $<3$kHz across the entire coupler bias range, and $<100$Hz at the coupler off-position. These qualities lead to fast, high-fidelity single- and two-qubit gates. By driving at the difference frequency of the two qubits, we realize a $\sqrt{i\mathrm{SWAP}}$ gate in $258$ns with fidelity $99.72\%$, and by driving at the sum frequency of the two qubits, we achieve a $\sqrt{b\mathrm{SWAP}}$ gate in $102$ns with fidelity $99.91\%$. This latter gate is only 5 qubit Larmor periods in length. We run cross-entropy benchmarking for over $20$ consecutive hours and measure stable gate fidelities, with $\sqrt{b\mathrm{SWAP}}$ drift ($2 \sigma$) $< 0.02\%$ and $\sqrt{i\mathrm{SWAP}}$ drift $< 0.08\%$.
翻訳日:2023-09-27 20:34:52 公開日:2023-09-25
# NN2Poly:ディープフィードフォワード人工ニューラルネットワークの多項式表現

NN2Poly: A polynomial representation for deep feed-forward artificial neural networks ( http://arxiv.org/abs/2112.11397v4 )

ライセンス: Link先を確認
Pablo Morala (1 and 2), Jenny Alexandra Cifuentes (3), Rosa E. Lillo (1 and 2), I\~naki Ucar (1 and 2) ((1) uc3m-Santander Big Data Institute, Universidad Carlos III de Madrid. Spain., (2) Department of Statistics, Universidad Carlos III de Madrid. Spain., (3) ICADE, Department of Quantitative Methods, Faculty of Economics and Business Administration, Universidad Pontificia Comillas. Spain.)(参考訳) ニューラルネットワークの解釈可能性とその基礎となる理論的振る舞いは、特にディープラーニングの出現において、実践的応用の大きな成功の後でも、研究のオープンフィールドのままである。 NN2Polyは、すでに訓練済みの完全接続フィードフォワード人工ニューラルネットワーク(多層パーセプトロンまたはMLP)の正確な表現を提供する明示的な多項式モデルを得るための理論的アプローチである。 このアプローチは、レグレッションタスクと分類タスクの両方で任意に深いMLPを扱うために、単一の隠れ層ネットワークに限定された文献で提案された以前のアイデアを拡張している。 NN2Polyは各層における活性化関数のテイラー展開を使い、次にいくつかの組合せ特性を適用して所望の多項式の係数を計算する。 本手法の主な計算上の課題と,訓練段階で一定の制約を課すことで克服する方法について考察を行った。 最後に,提案手法の有効性を示すため,シミュレーション実験および実表データセットへの適用について述べる。

Interpretability of neural networks and their underlying theoretical behavior remain an open field of study even after the great success of their practical applications, particularly with the emergence of deep learning. In this work, NN2Poly is proposed: a theoretical approach to obtain an explicit polynomial model that provides an accurate representation of an already trained fully-connected feed-forward artificial neural network (a multilayer perceptron or MLP). This approach extends a previous idea proposed in the literature, which was limited to single hidden layer networks, to work with arbitrarily deep MLPs in both regression and classification tasks. NN2Poly uses a Taylor expansion on the activation function, at each layer, and then applies several combinatorial properties to calculate the coefficients of the desired polynomials. Discussion is presented on the main computational challenges of this method, and the way to overcome them by imposing certain constraints during the training phase. Finally, simulation experiments as well as applications to real tabular data sets are presented to demonstrate the effectiveness of the proposed method.
翻訳日:2023-09-27 18:46:31 公開日:2023-09-25
# Brainstorming Generative Adversarial Networks (BGANs):分散プライベートデータセットを用いたマルチエージェント生成モデルを目指して

Brainstorming Generative Adversarial Networks (BGANs): Towards Multi-Agent Generative Models with Distributed Private Datasets ( http://arxiv.org/abs/2002.00306v3 )

ライセンス: Link先を確認
Aidin Ferdowsi and Walid Saad(参考訳) 高い学習精度を達成するには、データ空間を適切に表現する大規模なデータセットによってGAN(Generative Adversarial Network)を供給しなければならない。 しかしながら、多くのシナリオでは、利用可能なデータセットは制限され、複数のエージェントに分散される可能性がある。 このようなシナリオでは、エージェントは大きなデータセットの通信オーバーヘッドを引き起こす可能性があるため、ローカルデータを共有したくないことが多い。 本稿では, このマルチエージェントGAN問題に対処するため, マルチエージェントがリアルタイムなデータサンプルを生成しながら, 完全に分散的に動作可能な新しいブレインストーミングGAN(BGAN)アーキテクチャを提案する。 bganは、エージェントが実際のデータセットを共有することなく、生成されたデータサンプルを共有することで、他のエージェントから情報を得ることができる。 既存の分散GANソリューションとは対照的に、提案したBGANアーキテクチャは完全に分散するように設計されており、集中型コントローラは不要である。 さらに、BGANは拡張性があり、エージェントのディープニューラルネットワーク(DNN)のハイパーパラメータに依存しないことが示され、エージェントは異なるDNNアーキテクチャを持つことができる。 理論的には、BGANエージェント間の相互作用は、ユニークなナッシュ平衡が導出されるゲームとして解析される。 実験の結果、BGANは、他の分散GANアーキテクチャと比較して、高品質でJensen-Shannon分散(JSD)とFr\echetインセプション距離(FID)の低い実データサンプルを生成することができた。

To achieve a high learning accuracy, generative adversarial networks (GANs) must be fed by large datasets that adequately represent the data space. However, in many scenarios, the available datasets may be limited and distributed across multiple agents, each of which is seeking to learn the distribution of the data on its own. In such scenarios, the agents often do not wish to share their local data as it can cause communication overhead for large datasets. In this paper, to address this multi-agent GAN problem, a novel brainstorming GAN (BGAN) architecture is proposed using which multiple agents can generate real-like data samples while operating in a fully distributed manner. BGAN allows the agents to gain information from other agents without sharing their real datasets but by ``brainstorming'' via the sharing of their generated data samples. In contrast to existing distributed GAN solutions, the proposed BGAN architecture is designed to be fully distributed, and it does not need any centralized controller. Moreover, BGANs are shown to be scalable and not dependent on the hyperparameters of the agents' deep neural networks (DNNs) thus enabling the agents to have different DNN architectures. Theoretically, the interactions between BGAN agents are analyzed as a game whose unique Nash equilibrium is derived. Experimental results show that BGAN can generate real-like data samples with higher quality and lower Jensen-Shannon divergence (JSD) and Fr\`echet Inception distance (FID) compared to other distributed GAN architectures.
翻訳日:2023-09-27 18:44:50 公開日:2023-09-25
# ワンステップQ-ラーニングによるアクタークリティカルメソッドにおけるオフポリシィバイアスの緩和:新しい補正手法

Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step Q-learning: A Novel Correction Approach ( http://arxiv.org/abs/2208.00755v4 )

ライセンス: Link先を確認
Baturay Saglam, Dogan C. Cicek, Furkan B. Mutlu, Suleyman S. Kozat(参考訳) オンポリシーと比べ、オフポリシーモデルフリーのディープ強化学習は、予め収集したデータを繰り返し使用することで、データ効率を向上させることができる。 しかし,エージェントの方針の下位分布と収集データとの差が大きくなると,オフ・ポリティカル・ラーニングが困難になる。 この相違を補うために、よく研究された重要度サンプリングと非政治政策勾配技術が提案されたが、通常は長い軌跡の収集を必要とし、勾配の消滅や多くの有用な経験の破棄といった追加の問題を誘発し、最終的には計算複雑性を増大させる。 さらに、連続的なアクションドメインや決定論的ディープニューラルネットワークによって近似されるポリシーへの一般化は厳密に制限されている。 これらの制約を克服するため,我々は,連続制御における不一致の影響を軽減するための新しい政策類似性尺度を提案する。 本手法は,決定論的政策ネットワークに適用可能な適切な一段階オフポリシー補正を提供する。 理論的および実証的研究は、Q-ラーニングと政策最適化における学習率の効果的なスケジュールにより、競合する手法よりも少ないステップで高いリターンを達成し、安全なオフ・ポリシー学習を実現し、最先端の技術を改善することを実証している。

Compared to on-policy counterparts, off-policy model-free deep reinforcement learning can improve data efficiency by repeatedly using the previously gathered data. However, off-policy learning becomes challenging when the discrepancy between the underlying distributions of the agent's policy and collected data increases. Although the well-studied importance sampling and off-policy policy gradient techniques were proposed to compensate for this discrepancy, they usually require a collection of long trajectories and induce additional problems such as vanishing/exploding gradients or discarding many useful experiences, which eventually increases the computational complexity. Moreover, their generalization to either continuous action domains or policies approximated by deterministic deep neural networks is strictly limited. To overcome these limitations, we introduce a novel policy similarity measure to mitigate the effects of such discrepancy in continuous control. Our method offers an adequate single-step off-policy correction that is applicable to deterministic policy networks. Theoretical and empirical studies demonstrate that it can achieve a "safe" off-policy learning and substantially improve the state-of-the-art by attaining higher returns in fewer steps than the competing methods through an effective schedule of the learning rate in Q-learning and policy optimization.
翻訳日:2023-09-27 18:38:02 公開日:2023-09-25
# EfficientViT:高分解能Dense予測のためのマルチスケールリニアアテンション

EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction ( http://arxiv.org/abs/2205.14756v4 )

ライセンス: Link先を確認
Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han(参考訳) 高分解能高密度予測は、計算写真や自動運転など、多くの現実世界の応用を可能にする。 しかし、計算コストが大きいため、最先端の高解像度の予測モデルをハードウェアデバイスに展開することは困難である。 この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。 従来のソフトマックス, ハードウェア非効率大カーネル畳み込み, 複雑なトポロジ構造に依存した高分解能高密度予測モデルとは異なり, マルチスケール線形注意は, 軽量かつハードウェア効率の高い操作のみで, グローバル受容場とマルチスケール学習(高分解能高密度予測の2つの望ましい特徴)を実現する。 そのため、EfficientViTは、モバイルCPU、エッジGPU、クラウドGPUなど、さまざまなハードウェアプラットフォーム上での大幅なスピードアップによって、これまでの最先端モデルよりも、顕著なパフォーマンス向上を実現している。 Cityscapesのパフォーマンスを損なうことなく、当社のEfficientViTは、SegFormerとSegNeXtでそれぞれ最大13.9xと6.2xのGPUレイテンシを削減します。 超高解像度では、EfficientViTはRestormer上で最大6.4倍のスピードアップを実現し、PSNRでは0.11dBのゲインを提供する。 コード:https://github.com/mit-han-lab/efficientvit。

High-resolution dense prediction enables many appealing real-world applications, such as computational photography, autonomous driving, etc. However, the vast computational cost makes deploying state-of-the-art high-resolution dense prediction models on hardware devices difficult. This work presents EfficientViT, a new family of high-resolution vision models with novel multi-scale linear attention. Unlike prior high-resolution dense prediction models that rely on heavy softmax attention, hardware-inefficient large-kernel convolution, or complicated topology structure to obtain good performances, our multi-scale linear attention achieves the global receptive field and multi-scale learning (two desirable features for high-resolution dense prediction) with only lightweight and hardware-efficient operations. As such, EfficientViT delivers remarkable performance gains over previous state-of-the-art models with significant speedup on diverse hardware platforms, including mobile CPU, edge GPU, and cloud GPU. Without performance loss on Cityscapes, our EfficientViT provides up to 13.9x and 6.2x GPU latency reduction over SegFormer and SegNeXt, respectively. For super-resolution, EfficientViT delivers up to 6.4x speedup over Restormer while providing 0.11dB gain in PSNR. Code: https://github.com/mit-han-lab/efficientvit.
翻訳日:2023-09-27 18:36:56 公開日:2023-09-25
# 歩行認識のためのトランスフォーマを用いたマルチスケールコンテキストアウェアネットワーク

Multi-scale Context-aware Network with Transformer for Gait Recognition ( http://arxiv.org/abs/2204.03270v3 )

ライセンス: Link先を確認
Duowang Zhu, Xiaohu Huang, Xinggang Wang, Bo Yang, Botao He, Wenyu Liu, and Bin Feng(参考訳) 歩行認識は近年,空間領域ではシルエット差が非常に微妙であるため,歩行認識には時間的特徴表現が不可欠である。 様々な時間スケールのクリップに適応的に焦点を合わせることで、人間が異なる被験者の歩行を区別できるという観察に刺激されて、歩行認識のためのトランスフォーマー(MCAT)を備えたマルチスケールコンテキスト認識ネットワークを提案する。 MCATは3つの尺度にまたがって時間的特徴を生成し、局所的・グローバル的な視点からコンテキスト情報を用いて適応的に集約する。 具体的には、MCATは、局所関係モデリングを行い、その後グローバル関係モデリングを行い、マルチスケールの特徴を融合する適応時間アグリゲーション(ATA)モジュールを含む。 また、時間的操作による空間的特徴の腐敗を改善するため、mcatはssfl(salient spatial feature learning)モジュールを組み込んで、識別的空間的特徴の群を選択する。 3つのデータセットで広範な実験が行われ、最先端のパフォーマンスが実証された。 具体的には,CASIA-Bの歩行,バッグ搬送,着衣条件が98.7%,96.2%,88.7%,OU-MVLPが97.5%,GREWが50.6%であった。 ソースコードはhttps://github.com/zhuduowang/MCAT.gitで入手できる。

Although gait recognition has drawn increasing research attention recently, since the silhouette differences are quite subtle in spatial domain, temporal feature representation is crucial for gait recognition. Inspired by the observation that humans can distinguish gaits of different subjects by adaptively focusing on clips of varying time scales, we propose a multi-scale context-aware network with transformer (MCAT) for gait recognition. MCAT generates temporal features across three scales, and adaptively aggregates them using contextual information from both local and global perspectives. Specifically, MCAT contains an adaptive temporal aggregation (ATA) module that performs local relation modeling followed by global relation modeling to fuse the multi-scale features. Besides, in order to remedy the spatial feature corruption resulting from temporal operations, MCAT incorporates a salient spatial feature learning (SSFL) module to select groups of discriminative spatial features. Extensive experiments conducted on three datasets demonstrate the state-of-the-art performance. Concretely, we achieve rank-1 accuracies of 98.7%, 96.2% and 88.7% under normal walking, bag-carrying and coat-wearing conditions on CASIA-B, 97.5% on OU-MVLP and 50.6% on GREW. The source code will be available at https://github.com/zhuduowang/MCAT.git.
翻訳日:2023-09-27 18:35:46 公開日:2023-09-25
# Q-learningによる継続的制御の解決

Solving Continuous Control via Q-learning ( http://arxiv.org/abs/2210.12566v2 )

ライセンス: Link先を確認
Tim Seyde, Peter Werner, Wilko Schwarting, Igor Gilitschenski, Martin Riedmiller, Daniela Rus, Markus Wulfmeier(参考訳) アクタークリティカルな手法による継続的制御の解決には大きな成功があるが、Qラーニングのようなより単純な批判のみの手法は、関連する高次元のアクション空間において限定的な応用しか見つからない。 しかし、ほとんどのアクター-批判的手法は、安定化のためのヒューリスティック、計算要件、より広い超パラメータ探索空間といった複雑さのコストが伴う。 深層q学習の簡単な修正が,これらの問題を軽減していることを示す。 バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、この単純な批判のみのアプローチは、特徴や画素から学ぶ際に、最先端の連続アクター批判手法のパフォーマンスと一致する。 我々は、協力的なMARLから古典的バンディットの例を拡張し、分離された批評家が状態情報を利用して共同最適化を調整する方法の直観を提供し、様々な連続制御タスクにおいて驚くほど強い性能を示す。

While there has been substantial success for solving continuous control with actor-critic methods, simpler critic-only methods such as Q-learning find limited application in the associated high-dimensional action spaces. However, most actor-critic methods come at the cost of added complexity: heuristics for stabilisation, compute requirements and wider hyperparameter search spaces. We show that a simple modification of deep Q-learning largely alleviates these issues. By combining bang-bang action discretization with value decomposition, framing single-agent control as cooperative multi-agent reinforcement learning (MARL), this simple critic-only approach matches performance of state-of-the-art continuous actor-critic methods when learning from features or pixels. We extend classical bandit examples from cooperative MARL to provide intuition for how decoupled critics leverage state information to coordinate joint optimization, and demonstrate surprisingly strong performance across a variety of continuous control tasks.
翻訳日:2023-09-27 18:26:58 公開日:2023-09-25
# 貯留層計算のキャッチ22

Catch-22s of reservoir computing ( http://arxiv.org/abs/2210.10211v3 )

ライセンス: Link先を確認
Yuanzhao Zhang and Sean P. Cornelius(参考訳) Reservoir Computing(RC)は、データから非線形力学系の挙動を予測するための、シンプルで効率的なモデルフリーフレームワークである。 ここでは,基盤となるシステムに関する重要な情報がない限り,先導的なRCフレームワークが動的学習に苦慮する,よく研究されるシステムが存在することを示す。 我々は,システムの初期状態からどのアトラクタが収束するかを決定する,流域予測の重要な問題に焦点をあてる。 まず、標準rcモデル(echo状態ネットワーク)の予測はウォームアップ時間に依存しており、正しいアトラクタを特定するためにほぼ全てのトランジェントを含むウォームアップ軌道を必要とする。 したがって、我々は、無視できるウォームアップ時間を必要とするRCの魅力的な変種であるNGRC(Next-Generation Reservoir Computing)に目を向ける。 元の方程式に正確な非線形性を組み込むことにより、NGRCはスパーストレーニングデータ(例えば、一過性軌道)であっても、複雑で高次元のアトラクションの流域を正確に再構築できることを示す。 しかし、正確な非線形性に小さな不確実性があれば、予測精度は偶然に劣らない。 本稿は,マルチスタブルシステムのダイナミクスを学習する上で,データ駆動手法が直面する課題を強調し,これらのアプローチをより堅牢にするための潜在的方法を提案する。

Reservoir Computing (RC) is a simple and efficient model-free framework for forecasting the behavior of nonlinear dynamical systems from data. Here, we show that there exist commonly-studied systems for which leading RC frameworks struggle to learn the dynamics unless key information about the underlying system is already known. We focus on the important problem of basin prediction -- determining which attractor a system will converge to from its initial conditions. First, we show that the predictions of standard RC models (echo state networks) depend critically on warm-up time, requiring a warm-up trajectory containing almost the entire transient in order to identify the correct attractor. Accordingly, we turn to Next-Generation Reservoir Computing (NGRC), an attractive variant of RC that requires negligible warm-up time. By incorporating the exact nonlinearities in the original equations, we show that NGRC can accurately reconstruct intricate and high-dimensional basins of attraction, even with sparse training data (e.g., a single transient trajectory). Yet, a tiny uncertainty in the exact nonlinearity can render prediction accuracy no better than chance. Our results highlight the challenges faced by data-driven methods in learning the dynamics of multistable systems and suggest potential avenues to make these approaches more robust.
翻訳日:2023-09-27 18:26:39 公開日:2023-09-25
# Polar Encoding: 欠落値の分類のためのシンプルなベースラインアプローチ

Polar Encoding: A Simple Baseline Approach for Classification with Missing Values ( http://arxiv.org/abs/2210.01905v2 )

ライセンス: Link先を確認
Oliver Urs Lenz, Daniel Peralta, Chris Cornelis(参考訳) 分類文脈で使用する値の欠如を伴う分類的および数値的な$[0,1]$値属性の表現である極符号化を提案する。 これは良いベースラインアプローチであり、どんな分類アルゴリズムでも使用でき、不足情報を保存でき、非常に簡単に適用でき、優れた性能を提供するからである。 特に、既存の欠落指標のアプローチとは異なり、計算を必要とせず、欠落した値が非欠落値と等価であることを保証し、決定木アルゴリズムが欠落した値を分割する方法を選択して、"属性に組み込まれた欠落"(MIA)提案を実践的に実現できるようにする。 さらに、分類的および$[0,1]$値の属性は、バリ中心座標の古典的な概念に対応する単一属性型の特別な場合と見なせることを示し、これは1ホット符号化のファジファイド形式として極符号化の自然な解釈を提供する。 値の欠落した20の実生活データセットに基づく実験では、結果の分類性能の観点から、極性エンコーディングが最先端の戦略 \e{multiple imputation by chained equation} (mice) や \e{multiple imputation with denoising autoencoders} (midas) や ----------------------または---indicator による平均/モードインプテーションよりも優れていることが示されている。

We propose polar encoding, a representation of categorical and numerical $[0,1]$-valued attributes with missing values to be used in a classification context. We argue that this is a good baseline approach, because it can be used with any classification algorithm, preserves missingness information, is very simple to apply and offers good performance. In particular, unlike the existing missing-indicator approach, it does not require imputation, ensures that missing values are equidistant from non-missing values, and lets decision tree algorithms choose how to split missing values, thereby providing a practical realisation of the "missingness incorporated in attributes" (MIA) proposal. Furthermore, we show that categorical and $[0,1]$-valued attributes can be viewed as special cases of a single attribute type, corresponding to the classical concept of barycentric coordinates, and that this offers a natural interpretation of polar encoding as a fuzzified form of one-hot encoding. With an experiment based on twenty real-life datasets with missing values, we show that, in terms of the resulting classification performance, polar encoding performs better than the state-of-the-art strategies \e{multiple imputation by chained equations} (MICE) and \e{multiple imputation with denoising autoencoders} (MIDAS) and -- depending on the classifier -- about as well or better than mean/mode imputation with missing-indicators.
翻訳日:2023-09-27 18:25:51 公開日:2023-09-25
# NU-AIR -- 歩行者と車両の検出と位置決定のためのニューロモルフィックな都市空域データセット

NU-AIR -- A Neuromorphic Urban Aerial Dataset for Detection and Localization of Pedestrians and Vehicles ( http://arxiv.org/abs/2302.09429v2 )

ライセンス: Link先を確認
Craig Iaboni, Thomas Kelly, Pramod Abichandani(参考訳) 本稿では,都市環境を走行する歩行者や車両を捕捉する,オープンソースの空中ニューロモルフィックデータセットを提案する。 NU-AIRと題されたこのデータセットは、70.75分間のイベント映像を640 x 480の分解能ニューロモルフィックセンサーで取得し、都市環境で動作している四極子に装着する。 歩行者の群衆、様々な種類の車両、都市環境を特徴とするストリートシーンは、異なる標高と照明条件で撮影される。 記録に含まれる車両及び歩行者の手動バウンディングボックスアノテーションを30hzの周波数で提供し、合計93,204のラベルを付与する。 データセットの忠実性の評価は、3つのスパイクニューラルネットワーク(snn)に対する包括的アブレーション研究と、10のディープニューラルネットワーク(dnn)を訓練し、データセットと対応するアノテーションの質と信頼性を検証する。 データをVoxelizeし、SNN/DNNをトレーニングするすべてのデータとPythonコードがオープンソース化された。

This paper presents an open-source aerial neuromorphic dataset that captures pedestrians and vehicles moving in an urban environment. The dataset, titled NU-AIR, features 70.75 minutes of event footage acquired with a 640 x 480 resolution neuromorphic sensor mounted on a quadrotor operating in an urban environment. Crowds of pedestrians, different types of vehicles, and street scenes featuring busy urban environments are captured at different elevations and illumination conditions. Manual bounding box annotations of vehicles and pedestrians contained in the recordings are provided at a frequency of 30 Hz, yielding 93,204 labels in total. Evaluation of the dataset's fidelity is performed through comprehensive ablation study for three Spiking Neural Networks (SNNs) and training ten Deep Neural Networks (DNNs) to validate the quality and reliability of both the dataset and corresponding annotations. All data and Python code to voxelize the data and subsequently train SNNs/DNNs has been open-sourced.
翻訳日:2023-09-27 18:18:02 公開日:2023-09-25
# どこにいるか:位置情報からオフラインのアクティビティを推測する

Where You Are Is What You Do: On Inferring Offline Activities From Location Data ( http://arxiv.org/abs/2301.13537v2 )

ライセンス: Link先を確認
Alameen Najjar, Kyle Mede(参考訳) 本稿では,現代の機械学習アルゴリズムが位置データからオフライン活動(ショッピングやダイニングなど)を推定する能力について検討する。 著名な位置情報ベースのソーシャルネットワークの数千人のユーザーによる匿名データを用いて、最先端の機械学習が手作業で優れているだけでなく、表型モデルも優れたパフォーマーであることを示す。 ここでは、文献の既存のギャップを埋めるだけでなく、位置情報の多様さや、表型機械学習モデルのアクセシビリティが高いことから、そのような能力の潜在的なリスクを浮き彫りにする。

In this paper we investigate the ability of modern machine learning algorithms in inferring basic offline activities,~e.g., shopping and dining, from location data. Using anonymized data of thousands of users of a prominent location-based social network, we empirically demonstrate that not only state-of-the-art machine learning excels at the task at hand~(F1 score>0.9) but also tabular models are among the best performers. The findings we report here not only fill an existing gap in the literature, but also highlight the potential risks of such capabilities given the ubiquity of location data and the high accessibility of tabular machine learning models.
翻訳日:2023-09-27 18:17:13 公開日:2023-09-25
# 情景認識エゴセントリックな3次元ポーズ推定

Scene-aware Egocentric 3D Human Pose Estimation ( http://arxiv.org/abs/2212.11684v3 )

ライセンス: Link先を確認
Jian Wang, Lingjie Liu, Weipeng Xu, Kripasindhu Sarkar, Diogo Luvizon, Christian Theobalt(参考訳) 頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により近年注目を集めている。 既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。 この問題に対処するために,シーン制約を伴う自我中心姿勢の予測を導く,情景対応自我中心姿勢推定手法を提案する。 そこで本研究では,広視野の魚眼カメラからシーン深度マップを推定するエゴセントリック深度推定ネットワークを提案する。 次に,2次元画像の特徴と推定深度マップをボクセル空間に投影し,V2Vネットワークで3次元ポーズを回帰するシーン対応ポーズ推定ネットワークを提案する。 ボクセルに基づく特徴表現は、2次元画像特徴とシーン幾何学との間の直接幾何学的接続を提供し、さらにV2Vネットワークにより推定されたシーン幾何学に基づいて予測されたポーズを制約する。 上記のネットワークのトレーニングを可能にするために、egogtaと呼ばれる合成データセットと、egopw-sceneと呼ばれるegopwベースのインザワイルドデータセットも作成しました。 新しい評価シーケンスの実験結果から,予測された3次元自我中心のポーズは人間とシーンの相互作用において正確かつ物理的に妥当であることが示され,本手法が最先端の手法よりも定量的かつ質的に優れていることが示された。

Egocentric 3D human pose estimation with a single head-mounted fisheye camera has recently attracted attention due to its numerous applications in virtual and augmented reality. Existing methods still struggle in challenging poses where the human body is highly occluded or is closely interacting with the scene. To address this issue, we propose a scene-aware egocentric pose estimation method that guides the prediction of the egocentric pose with scene constraints. To this end, we propose an egocentric depth estimation network to predict the scene depth map from a wide-view egocentric fisheye camera while mitigating the occlusion of the human body with a depth-inpainting network. Next, we propose a scene-aware pose estimation network that projects the 2D image features and estimated depth map of the scene into a voxel space and regresses the 3D pose with a V2V network. The voxel-based feature representation provides the direct geometric connection between 2D image features and scene geometry, and further facilitates the V2V network to constrain the predicted pose based on the estimated scene geometry. To enable the training of the aforementioned networks, we also generated a synthetic dataset, called EgoGTA, and an in-the-wild dataset based on EgoPW, called EgoPW-Scene. The experimental results of our new evaluation sequences show that the predicted 3D egocentric poses are accurate and physically plausible in terms of human-scene interaction, demonstrating that our method outperforms the state-of-the-art methods both quantitatively and qualitatively.
翻訳日:2023-09-27 18:16:21 公開日:2023-09-25
# ぼんやりした画像から人間を追跡できる「Blur」

Human from Blur: Human Pose Tracking from Blurry Images ( http://arxiv.org/abs/2303.17209v3 )

ライセンス: Link先を確認
Yiming Zhao, Denys Rozumnyi, Jie Song, Otmar Hilliges, Marc Pollefeys, Martin R. Oswald(参考訳) ほぼぼやけた画像から3次元人間のポーズを推定する手法を提案する。 鍵となるアイデアは、3次元の人間モデル、テクスチャマップ、および人間の動きを記述するポーズの列で前方問題をモデル化することで、画像デブラリングの逆問題に取り組むことである。 そして、そのぼやけた過程を時間画像集約ステップでモデル化する。 微分可能なレンダラを用いることで、画素毎の再投影誤差をバックプロパゲーションし、1つまたは複数の入力画像を説明する最高の人間の動き表現を復元することで、逆問題を解くことができる。 画像再構成損失だけでは不十分であるため,追加の正規化条件を示す。 私たちの知る限りでは、この問題に取り組む最初の方法を紹介します。 提案手法は,サブフレーム精度と非剛性動作の明示的な3次元モデリングをともなう画像デブラリングを1つまたは複数の主要機能に欠くため,不明瞭な入力に対する他の手法を一貫して上回っている。

We propose a method to estimate 3D human poses from substantially blurred images. The key idea is to tackle the inverse problem of image deblurring by modeling the forward problem with a 3D human model, a texture map, and a sequence of poses to describe human motion. The blurring process is then modeled by a temporal image aggregation step. Using a differentiable renderer, we can solve the inverse problem by backpropagating the pixel-wise reprojection error to recover the best human motion representation that explains a single or multiple input images. Since the image reconstruction loss alone is insufficient, we present additional regularization terms. To the best of our knowledge, we present the first method to tackle this problem. Our method consistently outperforms other methods on significantly blurry inputs since they lack one or multiple key functionalities that our method unifies, i.e. image deblurring with sub-frame accuracy and explicit 3D modeling of non-rigid human motion.
翻訳日:2023-09-27 18:07:29 公開日:2023-09-25
# EgoTV: 自然言語タスク記述からエゴセントリックなタスク検証

EgoTV: Egocentric Task Verification from Natural Language Task Descriptions ( http://arxiv.org/abs/2303.16975v5 )

ライセンス: Link先を確認
Rishi Hazra, Brian Chen, Akshara Rai, Nitin Kamra, Ruta Desai(参考訳) 自然言語で特定された日常的なタスクを理解可能なエゴセントリックエージェントへの進歩を実現するために,egocentric task verification(egotv)と呼ばれるベンチマークと合成データセットを提案する。 egotvの目標は、これらのタスクの自然言語記述に基づいて、エゴセントリックビデオからタスクの実行を検証することである。 タスクには、複数のサブタスクの分解、状態の変更、オブジェクトのインタラクション、サブタスクの順序付けの制約が含まれている。 さらに、egotvはタスクの達成方法に関する部分的な詳細だけを含む抽象化されたタスク記述も提供する。 そのため、egotvは、既存のデータセットに欠けているビデオと言語モダリティの因果的、時間的、構成的推論を必要とする。 また、既存のビジョン言語モデルは、egotvのタスク検証に必要なラウンド推論に苦労していることも分かりました。 EgoTVのニーズに触発されて,記号表現を利用してタスクの構成構造と時間構造を捉える新しいニューロシンボリックグラウンド(NSG)アプローチを提案する。 EgoTVデータセットとCTV(CrossTask)から派生した実世界のデータセット上で,タスクトラッキングと検証に対するNSGの機能を示す。 egotv と ctv データセットと nsg モデルをオープンソースとして公開し,今後の egocentric assistive agents について検討する。

To enable progress towards egocentric agents capable of understanding everyday tasks specified in natural language, we propose a benchmark and a synthetic dataset called Egocentric Task Verification (EgoTV). The goal in EgoTV is to verify the execution of tasks from egocentric videos based on the natural language description of these tasks. EgoTV contains pairs of videos and their task descriptions for multi-step tasks -- these tasks contain multiple sub-task decompositions, state changes, object interactions, and sub-task ordering constraints. In addition, EgoTV also provides abstracted task descriptions that contain only partial details about ways to accomplish a task. Consequently, EgoTV requires causal, temporal, and compositional reasoning of video and language modalities, which is missing in existing datasets. We also find that existing vision-language models struggle at such all round reasoning needed for task verification in EgoTV. Inspired by the needs of EgoTV, we propose a novel Neuro-Symbolic Grounding (NSG) approach that leverages symbolic representations to capture the compositional and temporal structure of tasks. We demonstrate NSG's capability towards task tracking and verification on our EgoTV dataset and a real-world dataset derived from CrossTask (CTV). We open-source the EgoTV and CTV datasets and the NSG model for future research on egocentric assistive agents.
翻訳日:2023-09-27 18:07:11 公開日:2023-09-25
# 一般化線形デュリングバンディットに対するボルダ後悔最小化

Borda Regret Minimization for Generalized Linear Dueling Bandits ( http://arxiv.org/abs/2303.08816v2 )

ライセンス: Link先を確認
Yue Wu and Tao Jin and Hao Lou and Farzad Farnoud and Quanquan Gu(参考訳) デュエルバンディットは、レコメンデーションシステムやランキングなど、多くのアプリケーションで一般的な優先的なフィードバックをモデル化するために広く使用されている。 本稿では,ボルダの残忍度を最小化しつつ,最も高いボルダスコアの項目を識別することを目的とした,デュエルバンディットに対するボルダ後悔最小化問題について検討する。 本稿では,多くの既存モデルをカバーする一般化線形デュエルバンドモデルのリッチクラスを提案する。 まず、ボルダの後悔最小化問題に対して、次数$\Omega(d^{2/3} T^{2/3})$の後悔の低い境界を証明し、$d$は文脈ベクトルの次元、$T$は時間地平線である。 この下限を達成するために、確率的設定のためのexplore-then-commit型アルゴリズムを提案し、ほぼ一致する上限$\tilde{o}(d^{2/3} t^{2/3})$を持つ。 また,各ラウンド毎にモデルパラメータを変更可能な逆線形設定のためのEXP3型アルゴリズムを提案する。 我々のアルゴリズムは、$\tilde{O}(d^{2/3} T^{2/3})$ regretを達成し、これも最適である。 合成データとシミュレーション実環境の両方に関する実証的な評価を行い, 理論的解析を裏付ける。

Dueling bandits are widely used to model preferential feedback prevalent in many applications such as recommendation systems and ranking. In this paper, we study the Borda regret minimization problem for dueling bandits, which aims to identify the item with the highest Borda score while minimizing the cumulative regret. We propose a rich class of generalized linear dueling bandit models, which cover many existing models. We first prove a regret lower bound of order $\Omega(d^{2/3} T^{2/3})$ for the Borda regret minimization problem, where $d$ is the dimension of contextual vectors and $T$ is the time horizon. To attain this lower bound, we propose an explore-then-commit type algorithm for the stochastic setting, which has a nearly matching regret upper bound $\tilde{O}(d^{2/3} T^{2/3})$. We also propose an EXP3-type algorithm for the adversarial linear setting, where the underlying model parameter can change at each round. Our algorithm achieves an $\tilde{O}(d^{2/3} T^{2/3})$ regret, which is also optimal. Empirical evaluations on both synthetic data and a simulated real-world environment are conducted to corroborate our theoretical analysis.
翻訳日:2023-09-27 18:05:42 公開日:2023-09-25
# エイリアス付き観測による潜在グラフの高速探索と学習

Fast exploration and learning of latent graphs with aliased observations ( http://arxiv.org/abs/2303.07397v4 )

ライセンス: Link先を確認
Miguel Lazaro-Gredilla, Ishan Deshpande, Sivaramakrishnan Swaminathan, Meet Dave, Dileep George(参考訳) 我々は各ノードの観測値が \emph{aliased} であり、遷移が確率的である潜在グラフを復元する問題を考える。 観察は、グラフを横切るエージェントによって収集されます。 エイリアスとは、複数のノードが同じ観測を行うことを意味するため、エージェントはそのノードがどこにあるかを知ることができない。 エージェントは、隠れたトポロジーを可能な限り正確に、最小限のステップで発見する必要があります。 これは、観測確率が知られている部分観測可能なマルコフ決定過程(POMDP)の遷移確率の効率的な回復と等価である。 潜在グラフを効率的に探索(そして最終的に回復)するアルゴリズムを提供する。 我々のアプローチは、無知な体制における既存のベースラインと競合しながらも、観測可能な様々な難解なトポロジにおいて、素早い探索よりも指数関数的に速い。

We consider the problem of recovering a latent graph where the observations at each node are \emph{aliased}, and transitions are stochastic. Observations are gathered by an agent traversing the graph. Aliasing means that multiple nodes emit the same observation, so the agent can not know in which node it is located. The agent needs to uncover the hidden topology as accurately as possible and in as few steps as possible. This is equivalent to efficient recovery of the transition probabilities of a partially observable Markov decision process (POMDP) in which the observation probabilities are known. An algorithm for efficiently exploring (and ultimately recovering) the latent graph is provided. Our approach is exponentially faster than naive exploration in a variety of challenging topologies with aliased observations while remaining competitive with existing baselines in the unaliased regime.
翻訳日:2023-09-27 18:05:18 公開日:2023-09-25
# 深層学習に基づく時系列因果推論による北極増幅の定量化

Quantifying Causes of Arctic Amplification via Deep Learning based Time-series Causal Inference ( http://arxiv.org/abs/2303.07122v5 )

ライセンス: Link先を確認
Sahara Ali, Omar Faruque, Yiyi Huang, Md. Osman Gani, Aneesh Subramanian, Nicole-Jienne Shchlegel, Jianwu Wang(参考訳) 北極の温暖化、または北極の増幅は、いくつかの大気と海洋のドライバーによって導かれる。 しかし、その根底にある熱力学的原因の詳細はまだ不明である。 固定処理効果戦略を用いた海氷融解に対する大気プロセスの因果効果の推算は非現実的な反事実推定につながる。 このようなモデルは、時間的な混乱によってバイアスになりがちである。 さらに、地球科学データの複雑な非線形性は、既存の限界構造技術を用いて因果推論を行うことができない。 これらの課題に取り組むために,反復型ニューラルネットワークと新しい確率的バランス手法を用いて,連続処理中の因果関係を推測する時系列因果推論モデルtcinetを提案する。 合成および観測データに関する実験を通じて、我々の研究は北極海氷融解の原因の定量化能力を大幅に向上し、観測地球科学における因果推論の経路をさらに深めることができることを示す。

The warming of the Arctic, also known as Arctic amplification, is led by several atmospheric and oceanic drivers. However, the details of its underlying thermodynamic causes are still unknown. Inferring the causal effects of atmospheric processes on sea ice melt using fixed treatment effect strategies leads to unrealistic counterfactual estimations. Such models are also prone to bias due to time-varying confoundedness. Further, the complex non-linearity in Earth science data makes it infeasible to perform causal inference using existing marginal structural techniques. In order to tackle these challenges, we propose TCINet - time-series causal inference model to infer causation under continuous treatment using recurrent neural networks and a novel probabilistic balancing technique. Through experiments on synthetic and observational data, we show how our research can substantially improve the ability to quantify leading causes of Arctic sea ice melt, further paving paths for causal inference in observational Earth science.
翻訳日:2023-09-27 18:05:05 公開日:2023-09-25
# 簡易データ拡張によるエルボとしての拡散目標の理解

Understanding Diffusion Objectives as the ELBO with Simple Data Augmentation ( http://arxiv.org/abs/2303.00848v7 )

ライセンス: Link先を確認
Diederik P. Kingma and Ruiqi Gao(参考訳) 最も高い知覚品質を達成するために、最先端拡散モデルは、通常最大可能性とエビデンス下界(ELBO)の目的とは大きく異なる目的によって最適化される。 本研究では,拡散モデルの目的がELBOと密接に関連していることを明らかにする。 具体的には,様々な騒音レベルにおけるelboの重み付き積分に共通に使用される拡散モデルがすべて等価であることを示し,その重み付けが使用する特定の目的に依存することを示した。 単調な重み付けの条件下では、接続はさらに近くなり、拡散の目的はELBOと等しくなり、単純なデータ拡張、すなわちガウス雑音摂動と結合する。 この条件は、多くの最先端拡散モデルに当てはまることを示す。 実験では、新しい単調重み付けを探索し、その効果を実証し、高分解能imagenetベンチマークで最先端のfidスコアを得る。

To achieve the highest perceptual quality, state-of-the-art diffusion models are optimized with objectives that typically look very different from the maximum likelihood and the Evidence Lower Bound (ELBO) objectives. In this work, we reveal that diffusion model objectives are actually closely related to the ELBO. Specifically, we show that all commonly used diffusion model objectives equate to a weighted integral of ELBOs over different noise levels, where the weighting depends on the specific objective used. Under the condition of monotonic weighting, the connection is even closer: the diffusion objective then equals the ELBO, combined with simple data augmentation, namely Gaussian noise perturbation. We show that this condition holds for a number of state-of-the-art diffusion models. In experiments, we explore new monotonic weightings and demonstrate their effectiveness, achieving state-of-the-art FID scores on the high-resolution ImageNet benchmark.
翻訳日:2023-09-27 18:04:48 公開日:2023-09-25
# SENDD: 組織追跡における神経深度と変形

SENDD: Sparse Efficient Neural Depth and Deformation for Tissue Tracking ( http://arxiv.org/abs/2305.06477v2 )

ライセンス: Link先を確認
Adam Schmidt, Omid Mohareri, Simon DiMaio, Septimiu E. Salcudean(参考訳) 3次元組織運動の変形追跡とリアルタイム推定は、ロボット支援手術における自動化と画像誘導の応用を可能にするために不可欠である。 SENDD(Sparse Efficient Neural Depth and deformation)モデルでは,従来の2次元追跡作業を拡張して3次元空間内の流れを推定する。 SENDDは、学習された検出の新たなコントリビューションを導入し、ポイント毎の深さと3Dフローの推定を、すべて50万パラメータ未満で行う。 SENDDは、スパースキーポイントマッチのグラフニューラルネットワークを使用して、どこでも深さと3Dフローを推定する。 包括的にラベル付けされた組織データセット上でSENDDを定量化し、ベンチマークし、2Dフローモデルと比較する。 SENDDは2次元フローができないアプリケーションを実現しながら、コンパラブルに動作します。 senddは1280のトラック(クエリ)ポイントに対してnvidia rtx 4000で10fpsでポイントを追跡し、そのコストはポイント数の増加/減少とともに線形にスケールする。 SENDDは立体内視鏡で3次元運動を推定する必要がある複数の下流アプリケーションを可能にする。

Deformable tracking and real-time estimation of 3D tissue motion is essential to enable automation and image guidance applications in robotically assisted surgery. Our model, Sparse Efficient Neural Depth and Deformation (SENDD), extends prior 2D tracking work to estimate flow in 3D space. SENDD introduces novel contributions of learned detection, and sparse per-point depth and 3D flow estimation, all with less than half a million parameters. SENDD does this by using graph neural networks of sparse keypoint matches to estimate both depth and 3D flow anywhere. We quantify and benchmark SENDD on a comprehensively labelled tissue dataset, and compare it to an equivalent 2D flow model. SENDD performs comparably while enabling applications that 2D flow cannot. SENDD can track points and estimate depth at 10fps on an NVIDIA RTX 4000 for 1280 tracked (query) points and its cost scales linearly with an increasing/decreasing number of points. SENDD enables multiple downstream applications that require estimation of 3D motion in stereo endoscopy.
翻訳日:2023-09-27 17:56:10 公開日:2023-09-25
# FMG-NetとW-Net:医療画像セグメンテーションのためのマルチグリッド型ディープラーニングアーキテクチャ

FMG-Net and W-Net: Multigrid Inspired Deep Learning Architectures For Medical Imaging Segmentation ( http://arxiv.org/abs/2304.02725v2 )

ライセンス: Link先を確認
Adrian Celaya, Beatrice Riviere, David Fuentes(参考訳) 正確な医療画像分割は、正確かつ効果的な医療介入に不可欠である。 しかしながら、医療画像分割における畳み込みニューラルネットワーク(cnns)の成功にもかかわらず、微細な特徴や画像スケールのバリエーションを扱う上での課題に直面している。 これらの課題は、brats multi-label brain tumor segmentation challengeのような複雑で挑戦的なセグメンテーションタスクにおいて特に顕著である。 この課題では、様々な腫瘍サブコンポーネントを正確に区分けし、サイズや形状が大きく異なるが、最先端の手法でさえ重大な誤りを生じさせる。 そこで本稿では,方程式の線形系をcnnに解くための幾何学的マルチグリッド法の原理を取り入れたfmg-netとw-netの2つのアーキテクチャを提案する。 BraTS 2020データセットに対する実験により,FMG-NetとW-Netはともに,腫瘍のサブコンポーネントセグメンテーション精度とトレーニング効率に関して,広く使用されているU-Netアーキテクチャを上回る性能を示した。 これらの知見は,医療画像セグメンテーションの精度と効率を向上させるために,マルチグリッド法の原理をCNNに取り入れる可能性を示している。

Accurate medical imaging segmentation is critical for precise and effective medical interventions. However, despite the success of convolutional neural networks (CNNs) in medical image segmentation, they still face challenges in handling fine-scale features and variations in image scales. These challenges are particularly evident in complex and challenging segmentation tasks, such as the BraTS multi-label brain tumor segmentation challenge. In this task, accurately segmenting the various tumor sub-components, which vary significantly in size and shape, remains a significant challenge, with even state-of-the-art methods producing substantial errors. Therefore, we propose two architectures, FMG-Net and W-Net, that incorporate the principles of geometric multigrid methods for solving linear systems of equations into CNNs to address these challenges. Our experiments on the BraTS 2020 dataset demonstrate that both FMG-Net and W-Net outperform the widely used U-Net architecture regarding tumor subcomponent segmentation accuracy and training efficiency. These findings highlight the potential of incorporating the principles of multigrid methods into CNNs to improve the accuracy and efficiency of medical imaging segmentation.
翻訳日:2023-09-27 17:55:10 公開日:2023-09-25
# ChatGPTは可能なのか? 強化学習による混在交通制御の事例

Can ChatGPT Enable ITS? The Case of Mixed Traffic Control via Reinforcement Learning ( http://arxiv.org/abs/2306.08094v2 )

ライセンス: Link先を確認
Michael Villarreal, Bibek Poudel, Weizi Li(参考訳) インテリジェントトランスポーテーションシステム(ITS)における強化学習(RL)アプリケーションの増加は、その成長に寄与し、重要な課題を強調している。 しかし、交通制御と管理タスクにおけるRLエージェントの目的の定義や、マルコフ決定プロセス(MDP)の効果的な定式化によるポリシーの整合は困難であり、RLとITSの両方のドメインエキスパートを必要とすることが多い。 gpt-4のような大規模言語モデル(llm)の最近の進歩は、その幅広い一般的な知識、推論能力、様々なドメインにおける共通性優先性を強調している。 そこで本研究では,70名の参加者を対象とした大規模ユーザ調査を行い,初心者が複雑な混合交通制御問題に対してchatgptを活用できるかどうかを検討する。 リングロード、ボトルネック、交差点を含む3つの環境がテストされている。 ChatGPTには様々な結果がある。 交点とボトルネックのために、chatgptは、初心者の能力よりも150%と136%の成功ポリシーの数を増加させ、そのうちのいくつかは専門家を上回っている。 しかし、ChatGPTはすべてのシナリオで一貫した改善を提供していない。

The surge in Reinforcement Learning (RL) applications in Intelligent Transportation Systems (ITS) has contributed to its growth as well as highlighted key challenges. However, defining objectives of RL agents in traffic control and management tasks, as well as aligning policies with these goals through an effective formulation of Markov Decision Process (MDP), can be challenging and often require domain experts in both RL and ITS. Recent advancements in Large Language Models (LLMs) such as GPT-4 highlight their broad general knowledge, reasoning capabilities, and commonsense priors across various domains. In this work, we conduct a large-scale user study involving 70 participants to investigate whether novices can leverage ChatGPT to solve complex mixed traffic control problems. Three environments are tested, including ring road, bottleneck, and intersection. We find ChatGPT has mixed results. For intersection and bottleneck, ChatGPT increases number of successful policies by 150% and 136% compared to solely beginner capabilities, with some of them even outperforming experts. However, ChatGPT does not provide consistent improvements across all scenarios.
翻訳日:2023-09-27 17:47:26 公開日:2023-09-25
# レジリエントな制約付き学習

Resilient Constrained Learning ( http://arxiv.org/abs/2306.02426v2 )

ライセンス: Link先を確認
Ignacio Hounie, Alejandro Ribeiro, Luiz F. O. Chamon(参考訳) 機械学習ソリューションをデプロイする際には、公正性、堅牢性、安全性など、正確性を超えた複数の要件を満たす必要がある。 これらの要件は、トレーニング中にペナルティを使用して、あるいはラグランジュ双対性に基づく制約付き最適化メソッドを使用して、暗黙のうちに課される。 いずれにせよ、要求の特定は妥協の存在とデータに関する事前知識の制限によって妨げられる。 さらに、パフォーマンスへの影響は、実際に学習問題を解決することでのみ評価されることが多い。 本稿では,学習課題を同時に解決しながら要求に適応する制約付き学習手法を提案する。 そのために、リラックスから得られるパフォーマンスゲインと、その緩和のユーザ定義コストとのバランスをとることで、そのタスクにどの程度影響するかを考えることによって、学習制約を緩和する。 我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。 このバランスが達成できる条件を示し,それを計算するための実用的なアルゴリズムを導入し,近似と一般化の保証を導出する。 本稿では,多重ポテンシャル不変性を含む画像分類課題とヘテロジニアス連関学習におけるレジリエント学習手法の利点を示す。

When deploying machine learning solutions, they must satisfy multiple requirements beyond accuracy, such as fairness, robustness, or safety. These requirements are imposed during training either implicitly, using penalties, or explicitly, using constrained optimization methods based on Lagrangian duality. Either way, specifying requirements is hindered by the presence of compromises and limited prior knowledge about the data. Furthermore, their impact on performance can often only be evaluated by actually solving the learning problem. This paper presents a constrained learning approach that adapts the requirements while simultaneously solving the learning task. To do so, it relaxes the learning constraints in a way that contemplates how much they affect the task at hand by balancing the performance gains obtained from the relaxation against a user-defined cost of that relaxation. We call this approach resilient constrained learning after the term used to describe ecological systems that adapt to disruptions by modifying their operation. We show conditions under which this balance can be achieved and introduce a practical algorithm to compute it, for which we derive approximation and generalization guarantees. We showcase the advantages of this resilient learning method in image classification tasks involving multiple potential invariances and in heterogeneous federated learning.
翻訳日:2023-09-27 17:46:18 公開日:2023-09-25
# 逆浄化用予習変圧器

Pre-trained transformer for adversarial purification ( http://arxiv.org/abs/2306.01762v3 )

ライセンス: Link先を確認
Kai Wu, Yujian Betterest Li, Jian Lou, Xiaoyu Zhang, Handing Wang, Jing Liu(参考訳) さまざまな日次サービスとしてデプロイされるディープニューラルネットワークがますます多くなっているため、信頼性が不可欠である。 ディープニューラルネットワークが敵の攻撃に対して脆弱で敏感であることは恐ろしいことです。 最近の研究は、通常、敵の訓練や大量のクリーンデータの知識の活用によって堅牢性を強化する。 しかし、モデルの再訓練と再デプロイには膨大な計算予算が必要であるため、オンラインサービスに大きな損失が生じる。 加えて、トレーニングを行う場合、サービスプロバイダには限られた敵例のみが利用可能であり、多くのクリーンなデータがアクセスできない可能性がある。 デプロイされたモデルに対する防御に関する分析から、RaPiD(Rapid Plug-in Defender)という名称のクリーンで敵対的な例がほとんどない、凍結したオリジナルのサービスモデルの特定の攻撃に対して迅速に防御する方法が本当に重要であることが分かります。 プレトレーニング変圧器モデルの一般化と普遍的計算能力に動機づけられ,プリトレーニング変圧器をディフェンダーとして考慮した新しいディフェンダー手法cetadを考案した。 特に,CeTaDの1ショット対逆例における有効性と伝達性を評価し,CeTaDの異なる部分の影響とトレーニングデータ条件について検討した。 CeTaDはさまざまな異なるサービスモデルに柔軟で、さまざまなタイプの攻撃に適しています。

With more and more deep neural networks being deployed as various daily services, their reliability is essential. It is frightening that deep neural networks are vulnerable and sensitive to adversarial attacks, the most common one of which for the services is evasion-based. Recent works usually strengthen the robustness by adversarial training or leveraging the knowledge of an amount of clean data. However, retraining and redeploying the model need a large computational budget, leading to heavy losses to the online service. In addition, when training, it is likely that only limited adversarial examples are available for the service provider, while much clean data may not be accessible. Based on the analysis on the defense for deployed models, we find that how to rapidly defend against a certain attack for a frozen original service model with limitations of few clean and adversarial examples, which is named as RaPiD (Rapid Plug-in Defender), is really important. Motivated by the generalization and the universal computation ability of pre-trained transformer models, we come up with a new defender method, CeTaD, which stands for Considering Pretrained Transformers as Defenders. In particular, we evaluate the effectiveness and the transferability of CeTaD in the case of one-shot adversarial examples and explore the impact of different parts of CeTaD as well as training data conditions. CeTaD is flexible for different differentiable service models, and suitable for various types of attacks.
翻訳日:2023-09-27 17:45:57 公開日:2023-09-25
# Med-UniC: バイアを駆使した言語横断型医療ビジョン学習

Med-UniC: Unifying Cross-Lingual Medical Vision-Language Pre-Training by Diminishing Bias ( http://arxiv.org/abs/2305.19894v2 )

ライセンス: Link先を確認
Zhongwei Wan, Che Liu, Mi Zhang, Jie Fu, Benyou Wang, Sibo Cheng, Lei Ma, C\'esar Quilodr\'an-Casas, Rossella Arcucci(参考訳) データ不足は、医用視覚言語事前訓練(VLP)の有効性にとって重要な障害となる。 潜在的な解決策は、さまざまな言語コミュニティのデータセットの組み合わせにある。 それにもかかわらず、主な課題は、多様な構文と意味論、言語固有の医学用語、文化固有の暗黙の知識を統合する複雑さにある。 したがって、考慮すべき重要な側面は、異なる言語によって引き起こされるコミュニティバイアスの存在である。 本稿では、英語とスペイン語の2言語で広く使われているマルチモーダル医療データを統合するために、Unifying Cross-Lingual Medical Vision-Language Pre-Training(Med-UniC)という新しいフレームワークを提案する。 具体的には、多言語コミュニティに由来する医療報告の言語間セマンティックな表現を明確に統一するために、言語間テキストアライメント規則化(CTR)を提案する。 CTRは潜時言語不整合により最適化され, 最適化対象は陰性標本に依存しないよう最適化され, 類似医療報告における正負サンプル対の決定からバイアスを著しく軽減する。 さらに、言語間の表現が特定の言語コミュニティに偏らないことを保証する。 Med-UniCは、5つの医療画像タスクと30以上の疾患を含む10のデータセットで優れたパフォーマンスを達成し、多様な言語コミュニティ内でマルチモーダル医療データを統一するための汎用的なフレームワークを提供する。 実験結果は、言語間VLPにおけるコミュニティバイアスの存在を強調している。 このバイアスを減らすことで、視覚言語タスクだけでなく、一様視覚タスクでもパフォーマンスが向上する。

The scarcity of data presents a critical obstacle to the efficacy of medical visionlanguage pre-training (VLP). A potential solution lies in the combination of datasets from various language communities. Nevertheless, the main challenge stems from the complexity of integrating diverse syntax and semantics, language-specific medical terminology, and culture-specific implicit knowledge. Therefore, one crucial aspect to consider is the presence of community bias caused by different languages. This paper presents a novel framework named Unifying Cross-Lingual Medical Vision-Language Pre-Training (Med-UniC), designed to integrate multimodal medical data from the two most prevalent languages, English and Spanish. Specifically, we propose Cross-lingual Text Alignment Regularization (CTR) to explicitly unify cross-lingual semantic representations of medical reports originating from diverse language communities. CTR is optimized through latent language disentanglement, rendering our optimization objective to not depend on negative samples, thereby significantly mitigating the bias from determining positive-negative sample pairs within analogous medical reports. Furthermore, it ensures that the cross-lingual representation is not biased toward any specific language community. Med-UniC reaches superior performance across 5 medical image tasks and 10 datasets encompassing over 30 diseases, offering a versatile framework for unifying multi-modal medical data within diverse linguistic communities. The experimental outcomes highlight the presence of community bias in cross-lingual VLP. Reducing this bias enhances the performance not only in vision-language tasks but also in uni-modal visual tasks.
翻訳日:2023-09-27 17:45:32 公開日:2023-09-25
# 強化学習における解釈可能な報酬再分配:因果的アプローチ

Interpretable Reward Redistribution in Reinforcement Learning: A Causal Approach ( http://arxiv.org/abs/2305.18427v2 )

ライセンス: Link先を確認
Yudi Zhang, Yali Du, Biwei Huang, Ziyan Wang, Jun Wang, Meng Fang, Mykola Pechenizkiy(参考訳) 強化学習における大きな課題は、将来の報酬にどの状態-作用ペアが責任を持つかを決定することである。 リワード再分配は、観測されたシーケンスから各ステップごとにクレジットを割り当てる解決策として機能する。 現状のアプローチの大部分は, 報酬再分配を解釈不能な方法で構築するが, 因果的観点から, 状態と行動の貢献を明示的にモデル化し, 解釈不能な報酬再分配と政策不変性を維持することを提案する。 本稿では,報酬再分配における因果生成モデルの役割について,マルコフ報酬の生成とトラジェクティブ・ワイド・リターンを特徴付けることによって検討することから始め,遅延報酬シナリオにおける政策最適化のために,GRD(Generative Return Decomposition)と呼ばれるフレームワークを提案する。 具体的には、GRDはまず、生成過程における観測不可能なマルコフ報酬と因果関係を識別する。 そして、GRDは同定された因果生成モデルを用いて、エージェントの状態空間の最も好ましい部分空間上のポリシーを訓練するためのコンパクトな表現を形成する。 理論的には、観測不能なマルコフ報酬関数は、基礎となる因果構造や因果モデルと同様に識別可能である。 実験結果から,本手法は最先端の手法よりも優れており,その可視化によりさらに解釈性が示された。 ソースコードは \href{https://github.com/ReedZyd/GRD_NeurIPS2023}{https://github.com/ReedZyd/GRD\_NeurIPS2023} で公開される。

A major challenge in reinforcement learning is to determine which state-action pairs are responsible for future rewards that are delayed. Reward redistribution serves as a solution to re-assign credits for each time step from observed sequences. While the majority of current approaches construct the reward redistribution in an uninterpretable manner, we propose to explicitly model the contributions of state and action from a causal perspective, resulting in an interpretable reward redistribution and preserving policy invariance. In this paper, we start by studying the role of causal generative models in reward redistribution by characterizing the generation of Markovian rewards and trajectory-wise long-term return and further propose a framework, called Generative Return Decomposition (GRD), for policy optimization in delayed reward scenarios. Specifically, GRD first identifies the unobservable Markovian rewards and causal relations in the generative process. Then, GRD makes use of the identified causal generative model to form a compact representation to train policy over the most favorable subspace of the state space of the agent. Theoretically, we show that the unobservable Markovian reward function is identifiable, as well as the underlying causal structure and causal models. Experimental results show that our method outperforms state-of-the-art methods and the provided visualization further demonstrates the interpretability of our method. The source code will be released at \href{https://github.com/ReedZyd/GRD_NeurIPS2023}{https://github.com/ReedZyd/GRD\_NeurIPS2023}.
翻訳日:2023-09-27 17:45:05 公開日:2023-09-25
# CompanyKG: 企業類似性定量化のための大規模不均一グラフ

CompanyKG: A Large-Scale Heterogeneous Graph for Company Similarity Quantification ( http://arxiv.org/abs/2306.10649v2 )

ライセンス: Link先を確認
Lele Cao, Vilhelm von Ehrenheim, Mark Granroth-Wilding, Richard Anselmo Stahl, Andrew McCornack, Armin Catovic and Dhiana Deva Cavacanti Rocha(参考訳) 投資業界では、市場マッピング、競合分析、合併や買収など、様々な目的のために細かな会社の類似度定量化を行うことが不可欠であることが多い。 企業の特徴と関係を表現・学習するために,企業kgという知識グラフを提案し,公開する。 具体的には、117万の企業が企業記述の埋め込みに富んだノードとして表現され、15の異なる企業間関係によって51.06百万のエッジが生成される。 企業の類似度定量化手法の包括的評価を可能にするために,類似度予測,競合検索,類似度ランキングという3つの評価タスクをアノテートした。 本稿では,11個の再現可能な予測手法について,ノードのみ,エッジのみ,ノード+エッジの3つのグループに分類した。 私たちの知る限りでは、企業間類似性を定量化するのに適した、実世界の投資プラットフォームから派生した、最初の大規模な異種グラフデータセットである。

In the investment industry, it is often essential to carry out fine-grained company similarity quantification for a range of purposes, including market mapping, competitor analysis, and mergers and acquisitions. We propose and publish a knowledge graph, named CompanyKG, to represent and learn diverse company features and relations. Specifically, 1.17 million companies are represented as nodes enriched with company description embeddings; and 15 different inter-company relations result in 51.06 million weighted edges. To enable a comprehensive assessment of methods for company similarity quantification, we have devised and compiled three evaluation tasks with annotated test sets: similarity prediction, competitor retrieval and similarity ranking. We present extensive benchmarking results for 11 reproducible predictive methods categorized into three groups: node-only, edge-only, and node+edge. To the best of our knowledge, CompanyKG is the first large-scale heterogeneous graph dataset originating from a real-world investment platform, tailored for quantifying inter-company similarity.
翻訳日:2023-09-27 17:35:55 公開日:2023-09-25
# 暗黒物質は普通の物質に結びついているのか? 観測可能な量子効果を生成できるのか?

Is there charged dark matter bound to ordinary matter? Can it produce observable quantum effects? ( http://arxiv.org/abs/2309.04812v2 )

ライセンス: Link先を確認
Muhammad Asjad and Paolo Tombesi(参考訳) 単一トラップ場と帯電したリング電極の静電場を有するファブリペロキャビティに光学的に閉じ込められたシリカのナノ球は、無限小電荷のダークマター粒子の存在を推測するために用いられる。 これらの粒子は、原始宇宙の遺物としてバルク物質に存在すると推定される。 選択されたナノ球内に無限小の荷電粒子が存在しない場合、この装置の出力光は熱となる。 しかし、これらの粒子が存在する場合、キャビティの出力光は室温でも硬化することが期待され、光とナノ球の質量の中心との間の絡み合いを観測できる。

Levitated nano-spheres of silica, optically trapped in a Fabry-Perot cavity with a single trapping field and the electrostatic field of a charged ring electrode, are used to infer the potential existence of dark matter particles with infinitesimal charge. These particles are presumed to exist in bulk matter as relics of the primordial Universe. In the absence of infinitesimally charged particles within the chosen nano-sphere, the output light in this setup should be thermal. However, if these particles do exist, the cavity's output light is expected to be squeezed even at room temperature, and one could observe entanglement between light and the nano-sphere's center of mass.
翻訳日:2023-09-27 17:27:27 公開日:2023-09-25
# 対称および反対称状態からの集合放出としての単一光子超放射とサブ放射

Single Photon Superradiance and Subradiance as Collective Emission From Symmetric and Antisymmetric States ( http://arxiv.org/abs/2307.14667v3 )

ライセンス: Link先を確認
Nicola Piovella and Stefano Olivares(参考訳) 最近の研究では、N$共振2レベル原子のアンサンブルからの集合的な単一光子自然放出が豊富な研究分野であることが示されている。 超放射能は、例えば外部レーザーによって印加された1つの励起原子で、N$原子の完全に対称な状態からの放出を記述する。 代わりに、サブラジオアンスは残りの$N-1$非対称状態からの放出に関連付けられ、単一の原子値よりも集団崩壊率が低い。 本稿では,対称および非対称状態の正規直交基底の性質と超ラジアントおよび亜ラジアント状態の絡み合い特性について考察する。 一方、対称超ラジカル状態とサブラジアント状態とを分離することにより、レーザーによってシステム内で誘導されるサブラジアント分画を決定することができる。 一方, 外部レーザーをオフにし, 原子励起が崩壊すると, 超ラジアント分率がしきい値1/n以下になると, 原子アンサンブルの絡み合いが現れる。

Recent works have shown that collective single photon spontaneous emission from an ensemble of $N$ resonant two-level atoms is a rich field of study. Superradiance describes emission from a completely symmetric state of $N$ atoms, with a single excited atom prepared with a given phase, for instance imprinted by an external laser. Instead, subradiance is associated with the emission from the remaining $N-1$ asymmetric states, with a collective decay rate less than the single-atom value. Here, we discuss the properties of the orthonormal basis of symmetric and asymmetric states and the entanglement properties of superradiant and subradiant states. On the one hand, by separating the symmetric superradiant state from the subradiant ones, we are able to determine the subradiant fraction induced in the system by the laser. On the other hand, we show that, as the external laser is switched off and the atomic excitation decays, entanglement in the atomic ensemble appears when the superradiant fraction falls below the threshold 1/N.
翻訳日:2023-09-27 17:24:24 公開日:2023-09-25
# BANSAC:適応型SAmple Consensusのための動的BAyesian Network

BANSAC: A dynamic BAyesian Network for adaptive SAmple Consensus ( http://arxiv.org/abs/2309.08690v2 )

ライセンス: Link先を確認
Valter Piedade and Pedro Miraldo(参考訳) RANSACベースのアルゴリズムはコンピュータビジョンにおけるロバストな推定の標準手法である。 これらのアルゴリズムは反復的かつ計算的に高価であり、データのランダムサンプリング、仮説の計算、異常数計算とを交互に行う。 多くの著者は効率を改善するために異なるアプローチを試した。 主な改善点の1つは、RANSACサイクルを早く停止させるガイド付きサンプリングを行うことである。 本稿では,RANSACの新しい適応サンプリング法を提案する。 以前の方法は、データポイントの異常値/外れ値の分類に関する事前情報を仮定しないか、サンプリングに計算済みのスコアを使うかのどちらかである。 本稿では、RANSACを反復しながら個々のデータポイントのインレージスコアを更新する動的ベイズネットワークを導出する。 各イテレーションで、更新スコアを使用して重み付けサンプリングを適用します。 本手法は,事前データ点採点の有無に関わらず動作する。 さらに,RANSACループの新しい停止基準を導出するために,更新されたインリア/アウトリアスコアを用いる。 本手法を複数の実世界データセットでテストし,最新の結果を得た。 本手法は,計算時間が少なくとも,精度が向上する。

RANSAC-based algorithms are the standard techniques for robust estimation in computer vision. These algorithms are iterative and computationally expensive; they alternate between random sampling of data, computing hypotheses, and running inlier counting. Many authors tried different approaches to improve efficiency. One of the major improvements is having a guided sampling, letting the RANSAC cycle stop sooner. This paper presents a new adaptive sampling process for RANSAC. Previous methods either assume no prior information about the inlier/outlier classification of data points or use some previously computed scores in the sampling. In this paper, we derive a dynamic Bayesian network that updates individual data points' inlier scores while iterating RANSAC. At each iteration, we apply weighted sampling using the updated scores. Our method works with or without prior data point scorings. In addition, we use the updated inlier/outlier scoring for deriving a new stopping criterion for the RANSAC loop. We test our method in multiple real-world datasets for several applications and obtain state-of-the-art results. Our method outperforms the baselines in accuracy while needing less computational time.
翻訳日:2023-09-27 17:16:58 公開日:2023-09-25
# AIGCによる革新的デジタルストーリーテリング:最近の進歩の探求と考察

Innovative Digital Storytelling with AIGC: Exploration and Discussion of Recent Advances ( http://arxiv.org/abs/2309.14329v1 )

ライセンス: Link先を確認
Rongzhang Gu, Hui Li, Changyue Su, Wenyan Wu(参考訳) デジタルストーリーテリングは、アート形式として、コストと品質のバランスに苦戦している。 AIGC(AI- generated Content)の出現は、効率的なデジタルストーリーテリング生産の潜在的な解決策と考えられている。 しかし、この融合の特定の形態、効果、影響は未だ不明であり、aigcの境界とストーリーテリングは未定義のままである。 この研究は、AIGCとデジタルストーリーテリングの現在の統合状況を調査し、サンプルプロジェクトにおける融合の芸術的価値を調査し、インタビューを通じて一般的な問題に対処する。 本研究を通じて,AIGCは画像生成,音声合成,音楽合成に長けているが,人間の創造性や審美的感性,特に複雑なキャラクタアニメーション,表情,音響効果において,人間の代替には至っていないと結論づけた。 研究の目的は、AIGCとデジタルストーリーテリングの組み合わせによる現在の状況、制限、課題に対する大衆の認識を高めることである。

Digital storytelling, as an art form, has struggled with cost-quality balance. The emergence of AI-generated Content (AIGC) is considered as a potential solution for efficient digital storytelling production. However, the specific form, effects, and impacts of this fusion remain unclear, leaving the boundaries of AIGC combined with storytelling undefined. This work explores the current integration state of AIGC and digital storytelling, investigates the artistic value of their fusion in a sample project, and addresses common issues through interviews. Through our study, we conclude that AIGC, while proficient in image creation, voiceover production, and music composition, falls short of replacing humans due to the irreplaceable elements of human creativity and aesthetic sensibilities at present, especially in complex character animations, facial expressions, and sound effects. The research objective is to increase public awareness of the current state, limitations, and challenges arising from combining AIGC and digital storytelling.
翻訳日:2023-09-27 17:06:09 公開日:2023-09-25
# MoDem-V2:実世界ロボットマニピュレーションのためのVisuo-Motor World Model

MoDem-V2: Visuo-Motor World Models for Real-World Robot Manipulation ( http://arxiv.org/abs/2309.14236v1 )

ライセンス: Link先を確認
Patrick Lancaster, Nicklas Hansen, Aravind Rajeswaran, Vikash Kumar(参考訳) 現実の環境での運用を目指すロボットシステムは、オンボードセンシングを通じて世界を直接認識する必要がある。 視覚に基づく学習システムは、生の画素に基づく暗黙的な世界理解を構築することで環境計測の必要性を解消することを目的としているが、単にスパースな視覚報酬信号から接触に富んだ高次元検索空間をナビゲートすることは、探索の課題を大幅に悪化させる。 このようなシステムの適用性は通常、明示的な状態推定や厳密な報酬を伴わずに現実世界でのエージェント探索が、破滅的な不安全行動や安全性の欠陥を引き起こす可能性があるため、シミュレーションされた環境や高機能な環境に制限される。 本研究では,これらの制約の背後にある根本原因を分離し,非構造化現実世界で直接コンタクトリッチな操作を学習できるMoDem-V2システムを開発した。 モデルベース強化学習(MBRL)、デモブートストレッピング、効果的な探索のアルゴリズムによる最新の進歩に基づいて、MoDem-V2は、実世界で直接、接触に富むデキスタス操作技術を取得することができる。 我々は,実世界の安全性を尊重しながら,モデル学習のデモンストレーションを活用する上で重要な要素である探索センタ,エージェントハンドオーバ,アクタ-クリティックアンサンブルを特定する。 シミュレーションと実世界における4つの複雑なビジュオモータ操作問題におけるこれらの成分の寄与を実証的に示す。 我々の知る限り、我々の研究は実世界で直接訓練されたデモ強化視覚的MBRLの最初の成功システムを示す。 ビデオや詳細はhttps://sites.google.com/view/modem-v2を参照。

Robotic systems that aspire to operate in uninstrumented real-world environments must perceive the world directly via onboard sensing. Vision-based learning systems aim to eliminate the need for environment instrumentation by building an implicit understanding of the world based on raw pixels, but navigating the contact-rich high-dimensional search space from solely sparse visual reward signals significantly exacerbates the challenge of exploration. The applicability of such systems is thus typically restricted to simulated or heavily engineered environments since agent exploration in the real-world without the guidance of explicit state estimation and dense rewards can lead to unsafe behavior and safety faults that are catastrophic. In this study, we isolate the root causes behind these limitations to develop a system, called MoDem-V2, capable of learning contact-rich manipulation directly in the uninstrumented real world. Building on the latest algorithmic advancements in model-based reinforcement learning (MBRL), demo-bootstrapping, and effective exploration, MoDem-V2 can acquire contact-rich dexterous manipulation skills directly in the real world. We identify key ingredients for leveraging demonstrations in model learning while respecting real-world safety considerations -- exploration centering, agency handover, and actor-critic ensembles. We empirically demonstrate the contribution of these ingredients in four complex visuo-motor manipulation problems in both simulation and the real world. To the best of our knowledge, our work presents the first successful system for demonstration-augmented visual MBRL trained directly in the real world. Visit https://sites.google.com/view/modem-v2 for videos and more details.
翻訳日:2023-09-27 17:05:51 公開日:2023-09-25
# 科学画像解釈のためのマルチモーダル深層学習

Multimodal Deep Learning for Scientific Imaging Interpretation ( http://arxiv.org/abs/2309.12460v2 )

ライセンス: Link先を確認
Abdulelah S. Alshehri, Franklin L. Lee, Shihu Wang(参考訳) 科学イメージングの分野では、視覚データの解釈は、しばしば人間の専門知識と被写体の深い理解の複雑な組み合わせを必要とする。 本研究では,SEM(Scanning Electron Microscopy)画像,特にガラス材料との人間的相互作用を言語的にエミュレートし,評価する新しい手法を提案する。 マルチモーダル・ディープラーニング・フレームワークを活用することで、ピアレビュー記事から収集したテキストデータとビジュアルデータの両方から洞察を抽出し、改良されたデータ合成と評価のためのGPT-4の機能によりさらに強化する。 ニュアンス解釈や特殊なデータセットの可用性の制限など、固有の課題にもかかわらず、正確な解釈、重要な特徴の特定、これまで目にしたことのないsem画像の欠陥の検出に優れています。 さらに,様々な科学的イメージング応用に適した多彩な評価指標を導入し,研究対象の回答に対するベンチマークを行う。 現代の大規模言語モデルの頑健さから、我々のモデルは研究論文の洞察と密接に一致している。 この進歩は、科学的画像における人間と機械の解釈のギャップを埋める上で大きな進歩を示すだけでなく、将来の研究と幅広い応用のための拡大の道のりを示唆している。

In the domain of scientific imaging, interpreting visual data often demands an intricate combination of human expertise and deep comprehension of the subject materials. This study presents a novel methodology to linguistically emulate and subsequently evaluate human-like interactions with Scanning Electron Microscopy (SEM) images, specifically of glass materials. Leveraging a multimodal deep learning framework, our approach distills insights from both textual and visual data harvested from peer-reviewed articles, further augmented by the capabilities of GPT-4 for refined data synthesis and evaluation. Despite inherent challenges--such as nuanced interpretations and the limited availability of specialized datasets--our model (GlassLLaVA) excels in crafting accurate interpretations, identifying key features, and detecting defects in previously unseen SEM images. Moreover, we introduce versatile evaluation metrics, suitable for an array of scientific imaging applications, which allows for benchmarking against research-grounded answers. Benefiting from the robustness of contemporary Large Language Models, our model adeptly aligns with insights from research papers. This advancement not only underscores considerable progress in bridging the gap between human and machine interpretation in scientific imaging, but also hints at expansive avenues for future research and broader application.
翻訳日:2023-09-27 17:05:10 公開日:2023-09-25
# Fairness Hub Technical Briefs: AUC Gap

Fairness Hub Technical Briefs: AUC Gap ( http://arxiv.org/abs/2309.12371v2 )

ライセンス: Link先を確認
Jinsook Lee, Chris Brooks, Renzhe Yu, Rene Kizilcec(参考訳) 偏見を測るために、私たちはAUC Gapの使用を検討することを奨励する: サブグループ(例えば、性別、人種、SES、事前知識)のAUCの最高と最低のテストの絶対差。 使用するAI/MLアルゴリズムとは無関係であり、任意のサブグループのモデル性能の相違を捉え、交差アイデンティティグループなどの非バイナリフェアネスアセスメントを可能にする。 チームは、低所得の中学校で数学の達成を2倍にするという共通の目標を追求するために、幅広いAI/MLモデルを使用している。 さまざまなコンテキストで収集されたデータセットに基づいてトレーニングされたモデルがバイアスの導入や増幅を行わないことを保証することは、目標を達成する上で重要である。 ここでは、共通ベンチマークを作成するために、すべてのチームに対して、モデルバイアスの多様で簡単に計算可能な尺度を提供し、異なるチームでどのような戦略がうまくいったかを共有する分析ベースを提供します。

To measure bias, we encourage teams to consider using AUC Gap: the absolute difference between the highest and lowest test AUC for subgroups (e.g., gender, race, SES, prior knowledge). It is agnostic to the AI/ML algorithm used and it captures the disparity in model performance for any number of subgroups, which enables non-binary fairness assessments such as for intersectional identity groups. The teams use a wide range of AI/ML models in pursuit of a common goal of doubling math achievement in low-income middle schools. Ensuring that the models, which are trained on datasets collected in many different contexts, do not introduce or amplify biases is important for achieving the goal. We offer here a versatile and easy-to-compute measure of model bias for all the teams in order to create a common benchmark and an analytical basis for sharing what strategies have worked for different teams.
翻訳日:2023-09-27 17:04:44 公開日:2023-09-25
# 深層学習型脳MRIにおけるフェアネスバイアスの検討

Unveiling Fairness Biases in Deep Learning-Based Brain MRI Reconstruction ( http://arxiv.org/abs/2309.14392v1 )

ライセンス: Link先を確認
Yuning Du, Yuyang Xue, Rohan Dharmakumar, Sotirios A. Tsaftaris(参考訳) MRIの深層学習(DL)再建は画像の忠実度の向上と取得時間の短縮につながった。 ニューロイメージングでは、DL法はアンダーサンプルデータから高品質な画像を再構成することができる。 しかし、特に人口統計学的特徴の観点から、DLアルゴリズムの公平性を考えることが不可欠である。 本研究は, DLを用いた脳MRI再構成モデルにおける最初の公平性解析である。 このモデルは、U-Netアーキテクチャを画像再構成に利用し、ベースラインの経験的リスク最小化(ERM)と再バランス戦略を実装することにより、不公平の存在と源泉を探究する。 モデル性能は画像再構成指標を用いて評価する。 以上の結果から,性別群と年齢群間に有意なパフォーマンスバイアスが認められた。 驚くべきことに、データの不均衡とトレーニングの差別はバイアスの主な原因ではない。 この分析は、DLベースの画像再構成における公正性の洞察を提供し、医療AIアプリケーションにおける公平性の向上を目的としている。

Deep learning (DL) reconstruction particularly of MRI has led to improvements in image fidelity and reduction of acquisition time. In neuroimaging, DL methods can reconstruct high-quality images from undersampled data. However, it is essential to consider fairness in DL algorithms, particularly in terms of demographic characteristics. This study presents the first fairness analysis in a DL-based brain MRI reconstruction model. The model utilises the U-Net architecture for image reconstruction and explores the presence and sources of unfairness by implementing baseline Empirical Risk Minimisation (ERM) and rebalancing strategies. Model performance is evaluated using image reconstruction metrics. Our findings reveal statistically significant performance biases between the gender and age subgroups. Surprisingly, data imbalance and training discrimination are not the main sources of bias. This analysis provides insights of fairness in DL-based image reconstruction and aims to improve equity in medical AI applications.
翻訳日:2023-09-27 16:46:53 公開日:2023-09-25
# サービス指向システムの深層強化学習決定を説明するAIチャットボット

An AI Chatbot for Explaining Deep Reinforcement Learning Decisions of Service-oriented Systems ( http://arxiv.org/abs/2309.14391v1 )

ライセンス: Link先を確認
Andreas Metzger, Jone Bartel, Jan Laufer(参考訳) 深層強化学習(deep rl)は、サービス指向システムにおけるオープンワールドの仮定に対処するためにますます使われています。 Deep RLは、動的サービス構成、ジョブスケジューリング、オフロード、およびサービス適応といった問題にうまく適用されました。 Deep RLは多くの利点を提供しているが、Deep RLの意思決定を理解することは難しい。 しかし、Deep RLの意思決定を理解することが、サービス開発者がデバッグを実行し、サービスプロバイダが関連する法的フレームワークに準拠することをサポートし、サービスユーザが信頼を構築するのを手助けする鍵となります。 自然言語による説明を提供することで,Deep RLの意思決定の理解を容易にするためにChat4XAIを導入する。 視覚的な説明と比較して、自然言語による説明の利点は、非技術的ユーザーの理解性の向上、ユーザの受け入れと信頼の向上、より効率的な説明などである。 Chat4XAIは、現代のAIチャットボット技術と専用のプロンプトエンジニアリングを活用している。 従来のソフトウェアベースの対話システムを用いた自然言語説明の以前の作業と比較すると、aiチャットボットを使用すると、潜在的な質問や回答を先取りして定義する必要がなくなる。 OpenAIのChatGPT APIを用いてChat4XAIをプロトタイプで実現し、適応型サービス例を用いてその説明の忠実さと安定性を評価する。

Deep Reinforcement Learning (Deep RL) is increasingly used to cope with the open-world assumption in service-oriented systems. Deep RL was successfully applied to problems such as dynamic service composition, job scheduling, and offloading, as well as service adaptation. While Deep RL offers many benefits, understanding the decision-making of Deep RL is challenging because its learned decision-making policy essentially appears as a black box. Yet, understanding the decision-making of Deep RL is key to help service developers perform debugging, support service providers to comply with relevant legal frameworks, and facilitate service users to build trust. We introduce Chat4XAI to facilitate the understanding of the decision-making of Deep RL by providing natural-language explanations. Compared with visual explanations, the reported benefits of natural-language explanations include better understandability for non-technical users, increased user acceptance and trust, as well as more efficient explanations. Chat4XAI leverages modern AI chatbot technology and dedicated prompt engineering. Compared to earlier work on natural-language explanations using classical software-based dialogue systems, using an AI chatbot eliminates the need for eliciting and defining potential questions and answers up-front. We prototypically realize Chat4XAI using OpenAI's ChatGPT API and evaluate the fidelity and stability of its explanations using an adaptive service exemplar.
翻訳日:2023-09-27 16:46:39 公開日:2023-09-25
# 大規模ユーザ製品インタラクション時系列からの早期チャーン予測

Early Churn Prediction from Large Scale User-Product Interaction Time Series ( http://arxiv.org/abs/2309.14390v1 )

ライセンス: Link先を確認
Shamik Bhattacharjee, Utkarsh Thukral, Nilesh Patil(参考訳) ユーザチャーンは、顧客とビジネスの関係を終わらせることによって特徴づけられ、さまざまなビジネス・ツー・カスタマーのシナリオで大きな経済的結果をもたらす。 プロモーションディスカウントや保持キャンペーンなど、多くのシステム対ユーザアクションにおいて、潜在的なチャーナーの予測が主要な目的である。 ファンタジースポーツのような不安定な分野では、国際スポーツイベントのような予測できない要因が定期的な消費習慣にも影響を及ぼす可能性がある。 結果として、トランザクション履歴とユーザと製品間のインタラクションは、チャーンを予測する上で価値がある一方で、深いドメイン知識と複雑な機能エンジニアリングを必要とします。 さらに、チャーン予測システムの機能開発は、特に200m以上のユーザを対象とする運用環境では、機能エンジニアリングに重点を置いている。 本稿では,履歴データを用いたユーザのチャーン予測を徹底的に検討する。 我々は,顧客満足度予測モデルを作成し,企業の誘惑傾向の理解と効果的な保留計画の策定を促進することを目的とする。 提案手法はチャーン予測を多変量時系列分類として扱い,ユーザアクティビティとディープニューラルネットワークを組み合わせることで,複雑なビジネス・ユーザ・コンテキストにおけるチャーン予測に顕著な結果をもたらすことを示す。

User churn, characterized by customers ending their relationship with a business, has profound economic consequences across various Business-to-Customer scenarios. For numerous system-to-user actions, such as promotional discounts and retention campaigns, predicting potential churners stands as a primary objective. In volatile sectors like fantasy sports, unpredictable factors such as international sports events can influence even regular spending habits. Consequently, while transaction history and user-product interaction are valuable in predicting churn, they demand deep domain knowledge and intricate feature engineering. Additionally, feature development for churn prediction systems can be resource-intensive, particularly in production settings serving 200m+ users, where inference pipelines largely focus on feature engineering. This paper conducts an exhaustive study on predicting user churn using historical data. We aim to create a model forecasting customer churn likelihood, facilitating businesses in comprehending attrition trends and formulating effective retention plans. Our approach treats churn prediction as multivariate time series classification, demonstrating that combining user activity and deep neural networks yields remarkable results for churn prediction in complex business-to-customer contexts.
翻訳日:2023-09-27 16:46:15 公開日:2023-09-25
# 画像による質問応答に対するLCMのみのアプローチの有効性の分析

Analyzing the Efficacy of an LLM-Only Approach for Image-based Document Question Answering ( http://arxiv.org/abs/2309.14389v1 )

ライセンス: Link先を確認
Nidhi Hegde, Sujoy Paul, Gagan Madan, Gaurav Aggarwal(参考訳) 最近の文書質問応答モデルは、画像のレイアウトと視覚要素をキャプチャする視覚エンコーダと、画像に対する質問を文脈化して、それらを外部の知識で補って正確な回答を生成するLarge Language Model(LLM)の2つの重要なコンポーネントから構成されている。 しかし、視覚エンコーダの相対的な寄与とこれらのタスクにおける言語モデルはまだ不明である。 これは、新しいタスクに顕著な適応性を示す命令調整llmの有効性を考えると特に興味深い。 本研究の目的は,(1)文書質問応答タスクにおけるLCMのみのアプローチの有効性,(2)文書イメージ内のテキスト情報をシリアライズし,命令調整されたLCMに直接供給する戦略,(3)明示的な視覚エンコーダの必要性を回避し,その実現可能性に関する詳細な定量的分析を行うことである。 当社の総合分析は,さまざまなスケールのllmを活用した,6つの多様なベンチマークデータセットを包含する。 以上の結果から, LLMにのみ依存する戦略が, さまざまなデータセットにまたがって, 最先端のパフォーマンスに極めて近い結果をもたらすことが明らかとなった。 我々は,この評価フレームワークが,レイアウトと画像コンテンツ情報の基本的な重要性を強調した将来の研究目的のために適切なデータセットを選択するための指針となることを示唆する。

Recent document question answering models consist of two key components: the vision encoder, which captures layout and visual elements in images, and a Large Language Model (LLM) that helps contextualize questions to the image and supplements them with external world knowledge to generate accurate answers. However, the relative contributions of the vision encoder and the language model in these tasks remain unclear. This is especially interesting given the effectiveness of instruction-tuned LLMs, which exhibit remarkable adaptability to new tasks. To this end, we explore the following aspects in this work: (1) The efficacy of an LLM-only approach on document question answering tasks (2) strategies for serializing textual information within document images and feeding it directly to an instruction-tuned LLM, thus bypassing the need for an explicit vision encoder (3) thorough quantitative analysis on the feasibility of such an approach. Our comprehensive analysis encompasses six diverse benchmark datasets, utilizing LLMs of varying scales. Our findings reveal that a strategy exclusively reliant on the LLM yields results that are on par with or closely approach state-of-the-art performance across a range of datasets. We posit that this evaluation framework will serve as a guiding resource for selecting appropriate datasets for future research endeavors that emphasize the fundamental importance of layout and image content information.
翻訳日:2023-09-27 16:45:54 公開日:2023-09-25
# Breadth-First Searchとランダム検索によるロボット形態空間の探索

Exploring Robot Morphology Spaces through Breadth-First Search and Random Query ( http://arxiv.org/abs/2309.14387v1 )

ライセンス: Link先を確認
Jie Luo(参考訳) 進化ロボティクスは、特にモジュラーロボットの文脈において、ロボットの形態を設計および進化するための強力なフレームワークを提供する。 しかし、ジェノタイプからフェノタイプへのマッピングプロセスにおけるクエリメカニズムの役割は概ね見過ごされている。 本研究は,モジュールロボットの脳内共進化におけるクエリ機構の比較解析により,このギャップを解消する。 BFS(Breadth-First Search)とRandom Query(Random Query)の2つの異なるクエリメカニズムを用いて、CPPNとロボットコントローラを用いてテンソルを用いてロボット形態を進化させ、それらをラマルク系とダーウィン系の2つの進化的フレームワークでテストする。 その結果,2つの問合せ機構が,形態的知性,多様性,形態的特徴を含むモジュール型ロボット体の進化と性能に与える影響が示された。 本研究は,高性能ロボットの製作において,BFSの方が効率的かつ効率的であることが示唆された。 当初、ロボットの多様性はRandom QueryよりもBFSの方が高かったが、ラマルクのシステムではより速く低下し、優れた設計に収束し、一方ダーウィンのシステムでは、BFSはプロセスの多様性が向上した。

Evolutionary robotics offers a powerful framework for designing and evolving robot morphologies, particularly in the context of modular robots. However, the role of query mechanisms during the genotype-to-phenotype mapping process has been largely overlooked. This research addresses this gap by conducting a comparative analysis of query mechanisms in the brain-body co-evolution of modular robots. Using two different query mechanisms, Breadth-First Search (BFS) and Random Query, within the context of evolving robot morphologies using CPPNs and robot controllers using tensors, and testing them in two evolutionary frameworks, Lamarckian and Darwinian systems, this study investigates their influence on evolutionary outcomes and performance. The findings demonstrate the impact of the two query mechanisms on the evolution and performance of modular robot bodies, including morphological intelligence, diversity, and morphological traits. This study suggests that BFS is both more effective and efficient in producing highly performing robots. It also reveals that initially, robot diversity was higher with BFS compared to Random Query, but in the Lamarckian system, it declines faster, converging to superior designs, while in the Darwinian system, BFS led to higher end-process diversity.
翻訳日:2023-09-27 16:45:28 公開日:2023-09-25
# サンプリング - 変分自動エンコーダ - 要約: 説明可能な人工知能の探求

Sampling - Variational Auto Encoder - Ensemble: In the Quest of Explainable Artificial Intelligence ( http://arxiv.org/abs/2309.14385v1 )

ライセンス: Link先を確認
Sarit Maitra, Vivek Mishra, Pratima Verma, Manav Chopra, Priyanka Nath(参考訳) 説明可能な人工知能(xai)モデルは最近、さまざまなアプリケーション分野から多くの関心を集めています。 この分野での大きな発展にもかかわらず、AIモデルのアウトプットを理解するための標準化された方法やアプローチはまだ存在しない。 区別モデルや生成モデルのような新しいテクニックを組み込んでギャップを埋めるためには、体系的かつ凝集的なフレームワークもますます必要である。 本稿では,Samping - Variational Auto Encoder (VAE) - Ensemble Anomaly Detection (SVEAD) という新しいフレームワークに基づく実験的な評価を行うことで,XAIに関する議論に寄与する。 これは、vaeとアンサンブルの積み重ねとシャプレーの加法説明が組み合わされて不均衡な分類に用いられるハイブリッドアーキテクチャである。 この発見は、アンサンブルの積み重ね、VAE、SHAPの組み合わせが可能であることを示している。 モデルパフォーマンスの向上につながるだけでなく、簡単に説明可能なフレームワークを提供する。 この研究は、モデルの強力な解釈可能性を生み出すために、SHAPとPermutation ImportanceとPersonal Conditional expectationsを組み合わせています。 この発見は、AIアプリケーションの信頼性を高めるために、XAIの必要性が最重要である現実世界において重要な意味を持つ。

Explainable Artificial Intelligence (XAI) models have recently attracted a great deal of interest from a variety of application sectors. Despite significant developments in this area, there are still no standardized methods or approaches for understanding AI model outputs. A systematic and cohesive framework is also increasingly necessary to incorporate new techniques like discriminative and generative models to close the gap. This paper contributes to the discourse on XAI by presenting an empirical evaluation based on a novel framework: Sampling - Variational Auto Encoder (VAE) - Ensemble Anomaly Detection (SVEAD). It is a hybrid architecture where VAE combined with ensemble stacking and SHapley Additive exPlanations are used for imbalanced classification. The finding reveals that combining ensemble stacking, VAE, and SHAP can. not only lead to better model performance but also provide an easily explainable framework. This work has used SHAP combined with Permutation Importance and Individual Conditional Expectations to create a powerful interpretability of the model. The finding has an important implication in the real world, where the need for XAI is paramount to boost confidence in AI applications.
翻訳日:2023-09-27 16:45:02 公開日:2023-09-25
# pLMFPPred : 事前学習されたタンパク質言語モデルと不均衡学習を組み込んだ機能性ペプチドの正確な予測法

pLMFPPred: a novel approach for accurate prediction of functional peptides integrating embedding from pre-trained protein language model and imbalanced learning ( http://arxiv.org/abs/2309.14404v1 )

ライセンス: Link先を確認
Zebin Ma, Yonglin Zou, Xiaobin Huang, Wenjin Yan, Hao Xu, Jiexin Yang, Ying Zhang, Jinqi Huang(参考訳) 機能性ペプチドは様々な疾患を治療する可能性がある。 優れた治療効果と低い毒性は、理想的な治療剤となる。 人工知能に基づく計算戦略は,タンパク質配列の集合から新たな機能ペプチドを素早く同定し,それらの機能を見出すのに役立つ。タンパク質言語モデルに基づく埋め込み (ESM-2) を用いて,機能ペプチドの予測と毒性ペプチドの同定のための pLMFPPred (Protein Language Model-based Functional Peptide Predictor) と呼ばれるツールを開発した。 また,smote-tomekデータ合成サンプリングとshapley値に基づく特徴選択手法を導入し,データの不均衡を緩和し,計算コストを削減する。 検証された独立テストセットでは、plmfppredは精度、曲線下領域、受信機動作特性、f1-score値それぞれ0.974、0.999、0.974を達成した。 比較実験により,pLMFPPredは機能ペプチドの予測における現在の手法よりも優れており,提案手法(pLMFPPred)は既存手法よりも精度,曲線下面積,F1スコアにおいて優れた性能が得られることが示された。 pLMFPPredは機能ペプチドの予測に優れており、機能ペプチドの予測のための新しい計算方法を示している。

Functional peptides have the potential to treat a variety of diseases. Their good therapeutic efficacy and low toxicity make them ideal therapeutic agents. Artificial intelligence-based computational strategies can help quickly identify new functional peptides from collections of protein sequences and discover their different functions.Using protein language model-based embeddings (ESM-2), we developed a tool called pLMFPPred (Protein Language Model-based Functional Peptide Predictor) for predicting functional peptides and identifying toxic peptides. We also introduced SMOTE-TOMEK data synthesis sampling and Shapley value-based feature selection techniques to relieve data imbalance issues and reduce computational costs. On a validated independent test set, pLMFPPred achieved accuracy, Area under the curve - Receiver Operating Characteristics, and F1-Score values of 0.974, 0.99, and 0.974, respectively. Comparative experiments show that pLMFPPred outperforms current methods for predicting functional peptides.The experimental results suggest that the proposed method (pLMFPPred) can provide better performance in terms of Accuracy, Area under the curve - Receiver Operating Characteristics, and F1-Score than existing methods. pLMFPPred has achieved good performance in predicting functional peptides and represents a new computational method for predicting functional peptides.
翻訳日:2023-09-27 16:39:30 公開日:2023-09-25
# 言語モデルの物理:その3.2, 知識操作

Physics of Language Models: Part 3.2, Knowledge Manipulation ( http://arxiv.org/abs/2309.14402v1 )

ライセンス: Link先を確認
Zeyuan Allen-Zhu and Yuanzhi Li(参考訳) 言語モデルは膨大な事実知識を格納することができるが、論理的推論にこの知識を使用する能力は疑問の余地がある。 本稿では,言語モデルが推論中に記憶された知識を操作する能力について考察する。 検索(例: "what is person a's attribute x")、分類(例: "is a's attribute x even or odd?")、比較(例: "is greater than b in attribute x?")、逆探索(例: "who person's attribute x equals t?")の4つの操作型に注目し、gpt2/3/4のような事前学習済み言語モデルは知識検索において優れているが、思考連鎖(cots)がトレーニングと推論の両方で採用されない限り、単純な分類や比較タスクに苦しむことを観察する。 また、プロンプトに関係なく、逆知識探索では不十分である。 言語モデルは、その知識がモデルに完全に保存され、完全に抽出可能で、適切に指示された微調整にもかかわらず、事前訓練されたデータから知識を効率的に操作することはできない。

Language models can store vast amounts of factual knowledge, but their ability to use this knowledge for logical reasoning remains questionable. This paper explores a language model's ability to manipulate its stored knowledge during inference. We focus on four manipulation types: retrieval (e.g., "What is person A's attribute X"), classification (e.g., "Is A's attribute X even or odd?"), comparison (e.g., "Is A greater than B in attribute X?") and inverse search (e.g., "Which person's attribute X equals T?") We observe that pre-trained language models like GPT2/3/4 excel in knowledge retrieval but struggle with simple classification or comparison tasks unless Chain of Thoughts (CoTs) are employed during both training and inference. They also perform poorly in inverse knowledge search, irrespective of the prompts. Our primary contribution is a synthetic dataset for a controlled experiment that confirms these inherent weaknesses: a language model cannot efficiently manipulate knowledge from pre-training data, even when such knowledge is perfectly stored and fully extractable in the models, and despite adequate instruct fine-tuning.
翻訳日:2023-09-27 16:39:04 公開日:2023-09-25
# DECORAIT -- AIトレーニングのためのdeCentralized Opt-in/out Registry

DECORAIT -- DECentralized Opt-in/out Registry for AI Training ( http://arxiv.org/abs/2309.14400v1 )

ライセンス: Link先を確認
Kar Balan, Alex Black, Simon Jenni, Andrew Gilbert, Andy Parsons, John Collomosse(参考訳) 我々は、コンテンツクリエーターがAIトレーニングをオプトインまたはアウトし、貢献に対して報酬を受け取る権利を主張する、分散レジストリであるDECORAITを提示する。 Generative AI(GenAI)は、公開ソースから抽出された大量のデータに基づいてトレーニングされたAIモデルを使用して、画像の合成を可能にする。 トレーニングの使用を許可することなく、自分の作品をオープンに共有したいモデルやコンテンツのクリエーターは、データガバナンスの課題を提示される。 また、その利用に対する公正な認識と報酬を確保するためには、創造者にとってGenAIトレーニングデータの確立が重要である。 我々は、階層的なクラスタリングとオン/オフチェーンストレージの組み合わせを探求し、GenAIトレーニングデータの実績をトレースするスケーラブルな分散レジストリを作成し、トレーニング同意を決定し、そのデータに貢献するクリエイティブに報いるDECORAITのプロトタイプを報告する。 DECORAITは分散台帳技術(DLT)とビジュアルフィンガープリントを統合し、新たなC2PA(Coalition for Content Provenance and Authenticity)標準を活用して、クリエイティブがGenAIの同意とデータ所有権を表現できるセキュアでオープンなレジストリを作成する。

We present DECORAIT; a decentralized registry through which content creators may assert their right to opt in or out of AI training as well as receive reward for their contributions. Generative AI (GenAI) enables images to be synthesized using AI models trained on vast amounts of data scraped from public sources. Model and content creators who may wish to share their work openly without sanctioning its use for training are thus presented with a data governance challenge. Further, establishing the provenance of GenAI training data is important to creatives to ensure fair recognition and reward for their such use. We report a prototype of DECORAIT, which explores hierarchical clustering and a combination of on/off-chain storage to create a scalable decentralized registry to trace the provenance of GenAI training data in order to determine training consent and reward creatives who contribute that data. DECORAIT combines distributed ledger technology (DLT) with visual fingerprinting, leveraging the emerging C2PA (Coalition for Content Provenance and Authenticity) standard to create a secure, open registry through which creatives may express consent and data ownership for GenAI.
翻訳日:2023-09-27 16:38:36 公開日:2023-09-25
# 血液透析患者の状態同定のための日付駆動アプローチ--エントロピー・コンプレキシティと形式的概念分析

Date-Driven Approach for Identifying State of Hemodialysis Fistulas: Entropy-Complexity and Formal Concept Analysis ( http://arxiv.org/abs/2309.14399v1 )

ライセンス: Link先を確認
Vasilii A. Gromov, E.I. Zvorykina, Yurii N. Beschastnov, and Majid Sohrabi(参考訳) 本論文は, 正常時系列とカオス時系列を区別する数学的手法について検討する。 本研究は,正常および病理機能障害の応答列を分類するための耐雑音性手法を提案する。 このアプローチは、層流が正常な機能を示し、乱流が病理を表わすという仮説に基づいている。 この研究は、通常の時系列とカオスを区別する2つの異なる方法を探究した。 最初の方法は、時系列をエントロピー-複素平面にマッピングし、その後、確立されたクラスタと比較することである。 第2の方法は、著者らが導入した、形式的概念分析を用いた概念対象グラフである。 いずれの方法も,fistulaの状態を決定する上で高い効率を示す。

The paper explores mathematical methods that differentiate regular and chaotic time series, specifically for identifying pathological fistulas. It proposes a noise-resistant method for classifying responding rows of normally and pathologically functioning fistulas. This approach is grounded in the hypothesis that laminar blood flow signifies normal function, while turbulent flow indicates pathology. The study explores two distinct methods for distinguishing chaotic from regular time series. The first method involves mapping the time series onto the entropy-complexity plane and subsequently comparing it to established clusters. The second method, introduced by the authors, constructs a concepts-objects graph using formal concept analysis. Both of these methods exhibit high efficiency in determining the state of the fistula.
翻訳日:2023-09-27 16:38:12 公開日:2023-09-25
# 話の聞き取りと聞き取り : 解釈可能な融合による動機付け面接におけるマルチモーダルクライアント行動分類器

Seeing and hearing what has not been said; A multimodal client behavior classifier in Motivational Interviewing with interpretable fusion ( http://arxiv.org/abs/2309.14398v1 )

ライセンス: Link先を確認
Lucie Galland, Catherine Pelachaud and Florian Pecune(参考訳) モチベーション・インタヴュー(英: Motivational Interviewing、MI)は、協調を重視し、行動の変化を促すセラピーのアプローチである。 MI会話の品質を評価するために、MISCコードを用いてクライアント発話を変更トーク、継続トーク、フォロー/ニュートラルトークのいずれかとして分類することができる。 MI会話における変化話の割合はセラピーの結果と正に相関しており、クライアント発話の正確な分類が不可欠である。 本稿では,テキスト,韻律,表情表現性,身体表現性といったマルチモーダルな特徴を活用し,三つのmiscクラス(チェンジトーク,維持トーク,フォロー/ニュートラルトーク)を正確に区別する分類器を提案する。 モデルをトレーニングするために、公開されたannomiデータセットにアノテーションを実行して、テキスト、オーディオ、表情表現性、身体表現性などのマルチモーダル情報を収集します。 さらに、意思決定プロセスにおいて最も重要なモダリティを特定し、MI会話中の様々なモダリティの相互作用に関する貴重な洞察を提供する。

Motivational Interviewing (MI) is an approach to therapy that emphasizes collaboration and encourages behavioral change. To evaluate the quality of an MI conversation, client utterances can be classified using the MISC code as either change talk, sustain talk, or follow/neutral talk. The proportion of change talk in a MI conversation is positively correlated with therapy outcomes, making accurate classification of client utterances essential. In this paper, we present a classifier that accurately distinguishes between the three MISC classes (change talk, sustain talk, and follow/neutral talk) leveraging multimodal features such as text, prosody, facial expressivity, and body expressivity. To train our model, we perform annotations on the publicly available AnnoMI dataset to collect multimodal information, including text, audio, facial expressivity, and body expressivity. Furthermore, we identify the most important modalities in the decision-making process, providing valuable insights into the interplay of different modalities during a MI conversation.
翻訳日:2023-09-27 16:38:00 公開日:2023-09-25
# 機械学習による乳癌の環境影響予測

Predicting environment effects on breast cancer by implementing machine learning ( http://arxiv.org/abs/2309.14397v1 )

ライセンス: Link先を確認
Muhammad Shoaib Farooq, Mehreen Ilyas(参考訳) 最大の乳癌は、心臓病を克服する女性死亡率の主要な要因となっている。 乳がんの成長には遺伝的要因が重要であるが、新しい研究は、その発生と進行に環境要因が重要な役割を果たすことも示唆している。 本研究は, 乳がんのリスク, 発症率, 予後に影響を及ぼす様々な環境要因に関する文献を徹底的に検討する。 この研究は、食事習慣、運動習慣、アルコール摂取といったライフスタイルの決定が、ホルモンの不均衡と炎症にどのように影響するかを考察することから始まる。 さらに、農薬、内分泌分解化学物質(edc)、産業排出などの環境汚染物質によって引き起こされる部分を調査し、これら全てはホルモンのシグナル伝達とdna損傷による乳がん発症のリスクが高いことに関連している。 機械学習のアルゴリズムは予測を表現するために使われる。 Logistic Regression、Random Forest、KNN Algorithm、SVCおよび追加ツリー分類器。 モデル評価には,混乱行列相関係数,f1-score,精度,リコール,roc曲線などの指標を用いた。 すべての分類器の中で最良の精度は、0.91%の精度とロジスティック回帰のroc曲線 0.901%のランダムフォレストである。 本研究で活用されている機械学習の複数アルゴリズムの精度は良好であり,特にアジア地域での乳癌生存率解析における代替予測手法として有用であることが示唆された。

The biggest Breast cancer is increasingly a major factor in female fatalities, overtaking heart disease. While genetic factors are important in the growth of breast cancer, new research indicates that environmental factors also play a substantial role in its occurrence and progression. The literature on the various environmental factors that may affect breast cancer risk, incidence, and outcomes is thoroughly reviewed in this study report. The study starts by looking at how lifestyle decisions, such as eating habits, exercise routines, and alcohol consumption, may affect hormonal imbalances and inflammation, two important factors driving the development of breast cancer. Additionally, it explores the part played by environmental contaminants such pesticides, endocrine-disrupting chemicals (EDCs), and industrial emissions, all of which have been linked to a higher risk of developing breast cancer due to their interference with hormone signaling and DNA damage. Algorithms for machine learning are used to express predictions. Logistic Regression, Random Forest, KNN Algorithm, SVC and extra tree classifier. Metrics including the confusion matrix correlation coefficient, F1-score, Precision, Recall, and ROC curve were used to evaluate the models. The best accuracy among all the classifiers is Random Forest with 0.91% accuracy and ROC curve 0.901% of Logistic Regression. The accuracy of the multiple algorithms for machine learning utilized in this research was good, which is important and indicates that these techniques could serve as replacement forecasting techniques in breast cancer survival analysis, notably in the Asia region.
翻訳日:2023-09-27 16:37:39 公開日:2023-09-25
# guess & sketch: 言語モデルによるトランスパイル

Guess & Sketch: Language Model Guided Transpilation ( http://arxiv.org/abs/2309.14396v1 )

ライセンス: Link先を確認
Celine Lee, Abdulrahman Mahmoud, Michal Kurek, Simone Campanoni, David Brooks, Stephen Chong, Gu-Yeon Wei, Alexander M. Rush(参考訳) レガシーソフトウェアを維持するには、多くのソフトウェアとシステムエンジニアリングが必要となる。 コンピュータマシンの状態の低レベルな制御を要求され、変数名を持たないアセンブリコードプログラムは、人間にとって特に分析が難しい。 既存のプログラムトランスレータは正確性を保証するが、対象とするプログラミング言語とソースのために手作業で設計されている。 learn transpilation(コードの自動翻訳)は、手作業による書き直しとエンジニアリング作業の代替手段を提供する。 自動シンボリックプログラム翻訳のアプローチは正確性を保証するが、指数関数的に大きい検索空間のため、長いプログラムにスケールするのに苦労する。 彼らの厳格なルールベースのシステムは表現性も制限するので、プログラムのスペースが減っただけである。 確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。 本研究は,組立符号に対する学習的トランスパイル化のためのニューロシンボリックアプローチにおいて,LMとシンボリックソルバの強みを利用する。 アセンブリコードは、シンボリックメソッドの使用に適応可能な短い非分岐基本ブロックに分割することができるため、ニューロシンボリックアプローチに適した設定である。 Guess & SketchはLMの特徴からアライメントと信頼性情報を抽出し、それをシンボルソルバに渡して、トランスパイレーション入力と出力の意味的等価性を解決する。 我々は、Gues & Sketchを3つの異なる組立トランスパイラの試験セットでテストし、GPT-4よりも57.6%、エンジニアリングされたトランスパイラよりも39.6%のサンプルをトランスパイラにトランスパイラさせることに成功した。 このタスクのトレーニングと評価のデータセットも共有しています。

Maintaining legacy software requires many software and systems engineering hours. Assembly code programs, which demand low-level control over the computer machine state and have no variable names, are particularly difficult for humans to analyze. Existing conventional program translators guarantee correctness, but are hand-engineered for the source and target programming languages in question. Learned transpilation, i.e. automatic translation of code, offers an alternative to manual re-writing and engineering efforts. Automated symbolic program translation approaches guarantee correctness but struggle to scale to longer programs due to the exponentially large search space. Their rigid rule-based systems also limit their expressivity, so they can only reason about a reduced space of programs. Probabilistic neural language models (LMs) produce plausible outputs for every input, but do so at the cost of guaranteed correctness. In this work, we leverage the strengths of LMs and symbolic solvers in a neurosymbolic approach to learned transpilation for assembly code. Assembly code is an appropriate setting for a neurosymbolic approach, since assembly code can be divided into shorter non-branching basic blocks amenable to the use of symbolic methods. Guess & Sketch extracts alignment and confidence information from features of the LM then passes it to a symbolic solver to resolve semantic equivalence of the transpilation input and output. We test Guess & Sketch on three different test sets of assembly transpilation tasks, varying in difficulty, and show that it successfully transpiles 57.6% more examples than GPT-4 and 39.6% more examples than an engineered transpiler. We also share a training and evaluation dataset for this task.
翻訳日:2023-09-27 16:36:56 公開日:2023-09-25
# 交通最適化における暗黙のセンシング:高度強化学習技術

Implicit Sensing in Traffic Optimization: Advanced Deep Reinforcement Learning Techniques ( http://arxiv.org/abs/2309.14395v1 )

ライセンス: Link先を確認
Emanuel Figetakis, Yahuza Bello, Ahmed Refaey, Lei Lei, Medhat Moussa(参考訳) 道路の整備、事故、自動車の修理など多くの理由で高速道路の突然の道路遮断は、我々がほぼ毎日直面する一般的な状況である。 自動運転車(AV)は、速度、加速度、位置などの車両のダイナミクスを取得できるセンサーを備えており、道路封鎖に達する前に車線を変更するインテリジェントな決定を下すことができる。 多くの文献研究が車追従モデルと車線変更モデルを調査している。 しかし、実用的な運転操作をモデル化する可能性を秘めた車追従・車線変更モデルを提案した研究はわずかであった。 そこで本稿では,Deep Reinforcement Learning(DRL)に基づく車追従と車線変更による意思決定制御システムについて述べる。 具体的には,高速道路に沿って突然工事を行うシナリオについて考察する。 シナリオをマルコフ決定プロセス(MDP)としてモデル化し、よく知られたDQNアルゴリズムを用いてRLエージェントを訓練し、適切な決定を行う(すなわち、同じ車線に留まるか、車線を変更する)。 DRLアルゴリズムの遅延と計算要求を克服するため、我々はMECサーバ上でRLエージェントをトレーニングするMEC支援アーキテクチャを採用する。 我々は高信頼性SUMOシミュレータとOPENAI GYMを用いて,提案モデルの性能評価を行う。 この結果は、"epsilon"-greedyポリシーを用いて訓練されたdqnエージェントがボルツマンポリシーで訓練されたエージェントを著しく上回っていることを明らかにしている。

A sudden roadblock on highways due to many reasons such as road maintenance, accidents, and car repair is a common situation we encounter almost daily. Autonomous Vehicles (AVs) equipped with sensors that can acquire vehicle dynamics such as speed, acceleration, and location can make intelligent decisions to change lanes before reaching a roadblock. A number of literature studies have examined car-following models and lane-changing models. However, only a few studies proposed an integrated car-following and lane-changing model, which has the potential to model practical driving maneuvers. Hence, in this paper, we present an integrated car-following and lane-changing decision-control system based on Deep Reinforcement Learning (DRL) to address this issue. Specifically, we consider a scenario where sudden construction work will be carried out along a highway. We model the scenario as a Markov Decision Process (MDP) and employ the well-known DQN algorithm to train the RL agent to make the appropriate decision accordingly (i.e., either stay in the same lane or change lanes). To overcome the delay and computational requirement of DRL algorithms, we adopt an MEC-assisted architecture where the RL agents are trained on MEC servers. We utilize the highly reputable SUMO simulator and OPENAI GYM to evaluate the performance of the proposed model under two policies; {\epsilon}-greedy policy and Boltzmann policy. The results unequivocally demonstrate that the DQN agent trained using the {\epsilon}-greedy policy significantly outperforms the one trained with the Boltzmann policy.
翻訳日:2023-09-27 16:35:55 公開日:2023-09-25
# 半教師付きマルチドメイン翻訳のための拡散モデルにおける多重雑音

Multiple Noises in Diffusion Model for Semi-Supervised Multi-Domain Translation ( http://arxiv.org/abs/2309.14394v1 )

ライセンス: Link先を確認
Tsiry Mayet and Simon Bernard and Clement Chatelain and Romain Herault(参考訳) ドメイン間変換では、ソースドメインの条件が与えられたターゲットドメインサンプルを生成する。 既存のほとんどのメソッドは固定入力領域と出力領域に焦点を合わせており、特定の構成(つまり、$D_1\rightarrow{}D_2$または$D_2\rightarrow{}D_1$)でのみ動作する。 半教師付き文脈における多ドメイン翻訳のための条件付き拡散フレームワークであるMulti-Domain Diffusion (MDD)を提案する。 以前の方法とは異なり、MDDは入力と出力のドメインを定義する必要はなく、各ドメインの構成ごとに別々のモデルを訓練することなく、($(D_1, D_2)\rightarrow{}D_3$, $D_2\rightarrow{}(D_1, D_3)$, $D_3\rightarrow{}D_1$など)集合内の任意のドメイン間の変換を可能にする。 MDDの背景にある重要な考え方は、拡散モデルのノイズ定式化を1つの領域に1つのノイズレベルを組み込むことで活用することである。 これにより、トレーニングタスクを単純なリコンストラクションタスクからドメイン変換タスクに変換し、モデルではよりノイズの多いドメインを再構築するために、よりノイズの少ないドメインに依存する。 本稿では,複数のドメインにまたがる合成画像翻訳データセットについて,意味領域の変換に挑戦した結果を示す。

Domain-to-domain translation involves generating a target domain sample given a condition in the source domain. Most existing methods focus on fixed input and output domains, i.e. they only work for specific configurations (i.e. for two domains, either $D_1\rightarrow{}D_2$ or $D_2\rightarrow{}D_1$). This paper proposes Multi-Domain Diffusion (MDD), a conditional diffusion framework for multi-domain translation in a semi-supervised context. Unlike previous methods, MDD does not require defining input and output domains, allowing translation between any partition of domains within a set (such as $(D_1, D_2)\rightarrow{}D_3$, $D_2\rightarrow{}(D_1, D_3)$, $D_3\rightarrow{}D_1$, etc. for 3 domains), without the need to train separate models for each domain configuration. The key idea behind MDD is to leverage the noise formulation of diffusion models by incorporating one noise level per domain, which allows missing domains to be modeled with noise in a natural way. This transforms the training task from a simple reconstruction task to a domain translation task, where the model relies on less noisy domains to reconstruct more noisy domains. We present results on a multi-domain (with more than two domains) synthetic image translation dataset with challenging semantic domain inversion.
翻訳日:2023-09-27 16:35:23 公開日:2023-09-25
# llmcarbon: 大規模言語モデルのエンドツーエンドカーボンフットプリントのモデリング

LLMCarbon: Modeling the end-to-end Carbon Footprint of Large Language Models ( http://arxiv.org/abs/2309.14393v1 )

ライセンス: Link先を確認
Ahmad Faiz, Sotaro Kaneda, Ruhan Wang, Rita Osi, Parteek Sharma, Fan Chen, Lei Jiang(参考訳) 大規模言語モデル(llms)に関連するカーボンフットプリントは、その訓練、推論、実験、貯蔵プロセスから排出される二酸化炭素(運用および具体化炭素排出量を含む)を含む重要な関心事である。 重要な側面は、GPUの使用量に大きく依存するトレーニング前であっても、新興LLMのカーボンインパクトを正確に見積もることである。 既存の研究では、LLMトレーニングの炭素フットプリントが報告されているが、物理的なトレーニングの前に新しいニューラルネットワークの炭素フットプリントを予測するツールはmlco2のみである。 しかし、mlco2にはいくつかの重大な制限がある。 評価を高密度または混合専門家(MoE)のLLMに拡張することはできず、重要なアーキテクチャパラメータを無視し、GPUにのみ焦点を合わせ、具体化された炭素フットプリントをモデル化することはできない。 これらのギャップに対処するために、高密度およびMoE LLMの両方のために設計されたエンドツーエンドの炭素フットプリントプロジェクションモデルである \textit{LLMCarbon} を導入する。 mlco2と比較して、LLMCarbonは様々なLLMの炭素フットプリント推定精度を大幅に向上させる。

The carbon footprint associated with large language models (LLMs) is a significant concern, encompassing emissions from their training, inference, experimentation, and storage processes, including operational and embodied carbon emissions. An essential aspect is accurately estimating the carbon impact of emerging LLMs even before their training, which heavily relies on GPU usage. Existing studies have reported the carbon footprint of LLM training, but only one tool, mlco2, can predict the carbon footprint of new neural networks prior to physical training. However, mlco2 has several serious limitations. It cannot extend its estimation to dense or mixture-of-experts (MoE) LLMs, disregards critical architectural parameters, focuses solely on GPUs, and cannot model embodied carbon footprints. Addressing these gaps, we introduce \textit{LLMCarbon}, an end-to-end carbon footprint projection model designed for both dense and MoE LLMs. Compared to mlco2, LLMCarbon significantly enhances the accuracy of carbon footprint estimations for various LLMs.
翻訳日:2023-09-27 16:34:46 公開日:2023-09-25
# 量子メモリ: 量子コンピューティングユニットの欠落部分

Quantum Memory: A Missing Piece in Quantum Computing Units ( http://arxiv.org/abs/2309.14432v1 )

ライセンス: Link先を確認
Chenxu Liu, Meng Wang, Samuel A. Stein, Yufei Ding, Ang Li(参考訳) メモリは古典コンピューティングシステムにおいて必須のコンポーネントである。 量子コンピューティングの開発はまだ初期段階だが、現在の量子処理ユニットは主に量子レジスタとして機能する。 したがって、将来の量子コンピューティングアーキテクチャにおける量子メモリの実際の役割は未だ不明である。 量子ビットの急速なスケーリングにより、異なる基板デバイス技術とアプリケーションシナリオにわたる量子メモリの可能性と実現可能性を探ることが必須である。 本稿では、量子メモリの完全な設計スタックビューを提供する。 まず、量子メモリデバイス、量子メモリセルの基本コンポーネントから始めます。 量子メモリセルへの抽象化を提供し、物理プラットフォームのパフォーマンスを測定するためのメトリクスを定義します。 アドレス指定機能と組み合わせることで、ランダムアクセス量子メモリ(raqm)と量子ランダムアクセスメモリ(qram)の2種類の量子メモリデバイスをレビューする。 これらのデバイス上に構築された量子メモリユニットは、量子メモリユニットの構築、量子キャッシュ、量子バッファ、量子入出力モジュールのQRAMの使用など、コンピューティングアーキテクチャにおける量子メモリユニットである。 さらに,量子メモリユニットのプログラミングモデルを提案し,その応用可能性について考察する。 本研究は、量子情報科学(QIS)と古典記憶コミュニティの両方の研究者を惹きつけ、この新興でエキサイティングな分野に参入させることを目的としている。

Memory is an indispensable component in classical computing systems. While the development of quantum computing is still in its early stages, current quantum processing units mainly function as quantum registers. Consequently, the actual role of quantum memory in future advanced quantum computing architectures remains unclear. With the rapid scaling of qubits, it is opportune to explore the potential and feasibility of quantum memory across different substrate device technologies and application scenarios. In this paper, we provide a full design stack view of quantum memory. We start from the elementary component of a quantum memory device, quantum memory cells. We provide an abstraction to a quantum memory cell and define metrics to measure the performance of physical platforms. Combined with addressing functionality, we then review two types of quantum memory devices: random access quantum memory (RAQM) and quantum random access memory (QRAM). Building on top of these devices, quantum memory units in the computing architecture, including building a quantum memory unit, quantum cache, quantum buffer, and using QRAM for the quantum input-output module, are discussed. We further propose the programming model for the quantum memory units and discuss their possible applications. By presenting this work, we aim to attract more researchers from both the Quantum Information Science (QIS) and classical memory communities to enter this emerging and exciting area.
翻訳日:2023-09-27 16:25:57 公開日:2023-09-25
# 量子回路としてのBethe Ansatz

The Bethe Ansatz as a Quantum Circuit ( http://arxiv.org/abs/2309.14430v1 )

ライセンス: Link先を確認
Roberto Ruiz, Alejandro Sopena, Max Hunter Gordon, Germ\'an Sierra, Esperanza L\'opez(参考訳) ベーテ・アンサッツ(bethe ansatz)は、凝縮物物理学や統計力学における多くのモデルの厳密な解法を可能にする分析手法である。 大域的対称性が存在するとき、ベーテ・アンサッツの試行波関数は平面波重ね合わせからなる。 これまで、Bethe ansatzは決定論的量子回路として再キャスト可能であることが示されている。 しかし、回路を形成する量子ゲートの分析的導出は不足していた。 ここでは、Betheアンザッツを量子回路に導入する変換について包括的な研究を行い、回路ゲートの解析的表現を決定する。 導出の重要なステップとして,Bethe波動関数を構成する新しいマトリックス製品状態ネットワークを定義するための簡単な図式規則を提案する。 驚くべきことに、これはbethe ansatzの座標と代数的バージョンの間の等価性に関する新しい視点を与える。

The Bethe ansatz represents an analytical method enabling the exact solution of numerous models in condensed matter physics and statistical mechanics. When a global symmetry is present, the trial wavefunctions of the Bethe ansatz consist of plane wave superpositions. Previously, it has been shown that the Bethe ansatz can be recast as a deterministic quantum circuit. An analytical derivation of the quantum gates that form the circuit was lacking however. Here we present a comprehensive study of the transformation that brings the Bethe ansatz into a quantum circuit, which leads us to determine the analytical expression of the circuit gates. As a crucial step of the derivation, we present a simple set of diagrammatic rules that define a novel Matrix Product State network building Bethe wavefunctions. Remarkably, this provides a new perspective on the equivalence between the coordinate and algebraic versions of the Bethe ansatz.
翻訳日:2023-09-27 16:25:36 公開日:2023-09-25
# ロングベースライン量子クロック干渉計における有限パルス時間効果

Finite Pulse-Time Effects in Long-Baseline Quantum Clock Interferometry ( http://arxiv.org/abs/2309.14426v1 )

ライセンス: Link先を確認
Gregor Janson, Alexander Friedrich, Richard Lopp(参考訳) 量子時計干渉計は、自由落下(UFF)の普遍性と重力赤方偏移(UGR)の普遍性をテストする量子プローブとして提案されている。 典型的な実験的スキームでは、ドップラーのないE1-M1遷移を用いるのが有利に思える。 ここでは、完全に量子化された原子自由度を考察し、内部時計遷移とともに非局在化された$-$となる量子中心質量(COM)$-$の相互作用を研究する。 特に、有限時間E1-M1遷移の原子内外結合と任意の位置依存レーザー強度のモデルから導出する。 さらに,摂動型無反動クロックパルスの理想表現への一般化も提供する。 最後に、ガウスレーザービームの例として、提案する量子時計干渉計は、原子量コムの十分に小さな量子非局在化のために、様々な光学場からの摂動に対して安定であることを示す。

Quantum-clock interferometry has been suggested as a quantum probe to test the universality of free fall (UFF) and the universality of gravitational redshift (UGR). In typical experimental schemes it seems advantageous to employ Doppler-free E1-M1 transitions which have so far been investigated in quantum gases at rest. Here, we consider the fully quantized atomic degrees of freedom and study the interplay of the quantum center-of-mass (COM) $-$ that can become delocalized $-$ together with the internal clock transitions. In particular, we derive a model for finite-time E1-M1 transitions with atomic intern-extern coupling and arbitrary position-dependent laser intensities. We further provide generalizations to the ideal expressions for perturbed recoilless clock pulses. Finally, we show at the example of a Gaussian laser beam that the proposed quantum-clock interferometers are stable against perturbations from varying optical fields for a sufficiently small quantum delocalization of the atomic COM.
翻訳日:2023-09-27 16:25:23 公開日:2023-09-25
# 自己回復プロンプト:基礎モデルと自己回復機能を備えた簡易型汎用サービスロボットシステム

Self-Recovery Prompting: Promptable General Purpose Service Robot System with Foundation Models and Self-Recovery ( http://arxiv.org/abs/2309.14425v1 )

ライセンス: Link先を確認
Mimo Shirasaka, Tatsuya Matsushima, Soshi Tsunashima, Yuya Ikeda, Aoi Horo, So Ikoma, Chikaha Tsuji, Hikaru Wada, Tsunekazu Omija, Dai Komukai, Yutaka Matsuo Yusuke Iwasawa(参考訳) 様々な環境において多様なタスクを実行できる汎用サービスロボット(GPSR)は、タスクや環境に高い汎用性と適応性を持つシステムを必要とする。 本稿では,複数の基礎モデルに基づく世界競争のためのトップレベルGPSRシステム(RoboCup@Home 2023)を最初に開発した。 このシステムは変分に一般化可能であり、各モデルに適応する。 そして,本システムの性能解析により,より現実的なGPSRアプリケーション設定において,不十分な情報,誤った計画生成,計画実行失敗の3種類の障害が見つかった。 次に,必要な情報を探索し,障害から回復するためのプロンプトを変更する自己回復型プロンプトパイプラインを提案する。 自己回復機構を有するシステムが様々な障害事例を解決してタスクを遂行できることを実験的に確認した。 補足ビデオはhttps://sites.google.com/view/srgpsrで閲覧できる。

A general-purpose service robot (GPSR), which can execute diverse tasks in various environments, requires a system with high generalizability and adaptability to tasks and environments. In this paper, we first developed a top-level GPSR system for worldwide competition (RoboCup@Home 2023) based on multiple foundation models. This system is both generalizable to variations and adaptive by prompting each model. Then, by analyzing the performance of the developed system, we found three types of failure in more realistic GPSR application settings: insufficient information, incorrect plan generation, and plan execution failure. We then propose the self-recovery prompting pipeline, which explores the necessary information and modifies its prompts to recover from failure. We experimentally confirm that the system with the self-recovery mechanism can accomplish tasks by resolving various failure cases. Supplementary videos are available at https://sites.google.com/view/srgpsr .
翻訳日:2023-09-27 16:25:08 公開日:2023-09-25
# 埋め込み量子核の表現性について

On the expressivity of embedding quantum kernels ( http://arxiv.org/abs/2309.14419v1 )

ライセンス: Link先を確認
Elies Gil-Fuster, Jens Eisert, Vedran Dunjko(参考訳) 量子と古典的機械学習の最も自然な関係の1つは、カーネルメソッドの文脈で確立されている。 カーネル法は、大きな特徴空間に存在する特徴ベクトルの内部積であるカーネルに依存している。 量子カーネルは通常、量子特徴状態を明示的に構築し、内部積(埋め込み量子カーネル)を取ることで評価される。 古典的カーネルは通常、特徴ベクトルを明示的に使わずに評価されるので、量子カーネルの表現的埋め込みはどの程度か疑問である。 この研究において、我々は基本的な疑問を提起する: すべての量子核は、量子的特徴状態の内積として表現できるのか? 計算の普遍性を呼び出すと、任意のカーネル関数に対して常に対応する量子特徴写像と埋め込み量子核が存在することが分かる。 しかし、問題のより操作的な読み出しは効率的な構成に関係している。 第2部では、効率的な埋め込み量子核の普遍性の問題を定式化する。 シフト不変なカーネルでは、ランダムフーリエ特徴の技法を用いて、効率的フーリエサンプリングの変種を可能にする全てのカーネルの広いクラス内で普遍的であることを示す。 次に、この結果をいわゆる合成カーネルの新たなクラスに拡張し、近年の研究で導入された投影量子カーネルも含むことを示した。 シフト不変および合成カーネルの両方に量子カーネルを埋め込むことの普遍性を証明した後、新しい、よりエキゾチックで、探索されていない量子カーネルファミリーへの方向を同定する。

One of the most natural connections between quantum and classical machine learning has been established in the context of kernel methods. Kernel methods rely on kernels, which are inner products of feature vectors living in large feature spaces. Quantum kernels are typically evaluated by explicitly constructing quantum feature states and then taking their inner product, here called embedding quantum kernels. Since classical kernels are usually evaluated without using the feature vectors explicitly, we wonder how expressive embedding quantum kernels are. In this work, we raise the fundamental question: can all quantum kernels be expressed as the inner product of quantum feature states? Our first result is positive: Invoking computational universality, we find that for any kernel function there always exists a corresponding quantum feature map and an embedding quantum kernel. The more operational reading of the question is concerned with efficient constructions, however. In a second part, we formalize the question of universality of efficient embedding quantum kernels. For shift-invariant kernels, we use the technique of random Fourier features to show that they are universal within the broad class of all kernels which allow a variant of efficient Fourier sampling. We then extend this result to a new class of so-called composition kernels, which we show also contains projected quantum kernels introduced in recent works. After proving the universality of embedding quantum kernels for both shift-invariant and composition kernels, we identify the directions towards new, more exotic, and unexplored quantum kernel families, for which it still remains open whether they correspond to efficient embedding quantum kernels.
翻訳日:2023-09-27 16:24:53 公開日:2023-09-25
# ガウス複雑性幾何学の物理的動機付け概念に向けて

Towards a physically motivated notion of Gaussian complexity geometry ( http://arxiv.org/abs/2309.14418v1 )

ライセンス: Link先を確認
Bruno de S. L. Torres, Eduardo Mart\'in-Mart\'inez(参考訳) リーマン幾何学の観点から、ガウス状態(ボゾン状態とフェルミオン状態の両方)に対する回路複雑性の幾何学的概念の一般的な構成を示す。 我々は、ガウス状態の空間上のリーマン計量関数が複雑性の物理的に妥当な測度を得るために満足すべきという一般的な条件を定めている。 この一般形式論は、局所状態と各点の回路空間上の方向に非自明に依存するコスト関数から生じる複雑性ジオメトリへの修正を自然に適応することができる。 これらの修正を探索し、特に、実験的な(および熱力学的な)観点ではしばしば自然であるが、一般的に研究されている複雑性測度では欠落している複雑性測度における時間-逆対称性の破れを説明する。 これは、物理的に動機づけられた観点から実験室で実装する「容易」または「ハード」として経験されるものを忠実に模倣する、複雑性の定量的で幾何学的な概念を構築するための第一歩となる。

We present a general construction of a geometric notion of circuit complexity for Gaussian states (both bosonic and fermionic) in terms of Riemannian geometry. We lay out general conditions that a Riemannian metric function on the space of Gaussian states should satisfy in order for it to yield a physically reasonable measure of complexity. This general formalism can naturally accommodate modifications to complexity geometries that arise from cost functions that depend nontrivially on the instantaneous state and on the direction on circuit space at each point. We explore these modifications and, as a particular case, we show how to account for time-reversal symmetry breaking in measures of complexity, which is often natural from an experimental (and thermodynamical) perspective, but is absent in commonly studied complexity measures. This establishes a first step towards building a quantitative, geometric notion of complexity that faithfully mimics what is experienced as "easy" or "hard" to implement in a lab from a physically motivated point of view.
翻訳日:2023-09-27 16:24:29 公開日:2023-09-25
# ホモトピー, 対称性, 非エルミートバンドトポロジー

Homotopy, Symmetry, and Non-Hermitian Band Topology ( http://arxiv.org/abs/2309.14416v1 )

ライセンス: Link先を確認
Kang Yang, Zhi Li, J. Lukas K. K\"onig, Lukas R{\o}dland, Marcus St{\aa}lhammar, Emil J. Bergholtz(参考訳) 非エルミート行列は、光学、電気、機械的なメタマテリアルを含む古典的な散逸系から波の散乱や量子多体系まで、自然の記述において普遍的である。 対称の存在下での直線と点のギャップに基づく非エルミート系のセナル k-理論の分類は、幅広い物理現象の理解を深めた。 基準点と線は一般に、複数の非エルミートバンドがバンド交差とブレイドを示すかどうかを区別できない。 これを解決するために、非エルミートバンドギャップと分離ギャップの補完的な概念を考慮し、多バンドシナリオの幅広いクラスを含むことを重要視し、対称性を持つ総称バンド構造の記述を可能にする。 これらの概念により、ホモトピー理論を用いた物理的に関連するパリティ時間($\mathcal{PT}$)と擬エルミート対称性の存在下で、ギャップ付きおよびノルム非エルミート系の統一的かつ体系的な分類を提供する。 これは新しい脆弱な位相を明らかにし、また驚くべきことに、固有値と固有ベクトルの両方の位相から生じる新しい安定な現象を暗示する。 特に、フレームおよびブレイド位相によって記述された$\mathcal{PT}$-対称系において、アベリア位相と非アベリア位相が異なる。 対応する不変量は、バンドギャップを閉じない対称性保存摂動に頑健であり、また、節相の変形規則も予測する。 さらに、$\mathcal{PT}$-symmetric系における自発対称性の破れはチャーン・オイラーの記述によって捉えられることを示した。 これらの結果は、様々な物理プラットフォームで様々な新しい位相現象を理論的、実験的に探索するための扉を開く。

Non-Hermitian matrices are ubiquitous in the description of nature ranging from classical dissipative systems, including optical, electrical, and mechanical metamaterials, to scattering of waves and open quantum many-body systems. Seminal K-theory classifications of non-Hermitian systems based on line and point gaps in the presence of symmetry have deepened the understanding of a wide range of physical phenomena. However, ample systems remain beyond this description; reference points and lines are in general unable to distinguish whether multiple non-Hermitian bands exhibit band crossings and braids. To remedy this we consider the complementary notions of non-Hermitian band gaps and separation gaps that crucially include a broad class of multi-band scenarios, enabling the description of generic band structures with symmetries. With these concepts, we provide a unified and systematic classification of both gapped and nodal non-Hermitian systems in the presence of physically relevant parity-time ($\mathcal{PT}$) and pseudo-Hermitian symmetries using homotopy theory. This uncovers new fragile phases and, remarkably, also implies new stable phenomena stemming from the topology of both eigenvalues and eigenvectors. In particular, we reveal different Abelian and non-Abelian phases in $\mathcal{PT}$-symmetric systems, described by frame and braid topology. The corresponding invariants are robust to symmetry-preserving perturbations that do not close band gaps, and they also predict the deformation rules of nodal phases. We further demonstrate that spontaneous symmetry breaking in $\mathcal{PT}$-symmetric systems is captured by a Chern-Euler description. These results open the door for theoretical and experimental exploration of a rich variety of novel topological phenomena in a wide range of physical platforms.
翻訳日:2023-09-27 16:24:11 公開日:2023-09-25
# 分数量子ホール超伝導ヘテロ構造のパラフェミオン零モードのシグナチャ

Signatures of Parafermion Zero Modes in Fractional Quantum Hall-Superconductor Heterostructures ( http://arxiv.org/abs/2309.14411v1 )

ライセンス: Link先を確認
Junyi Cao, Angela Kou, Eduardo Fradkin(参考訳) パラフェルミオンゼロモードは、s波超伝導体と近似した$\nu=1/m$分数量子ホールエッジからなるハイブリッド構造で生じる。 ここでは、パラフェミオンとクーパー対トンネル、およびそのようなハイブリッド構造に形成される接合における後方散乱について考察する。 パラフェルミオンのみのトンネルによる4\pi m$周期性は、後方散乱の存在下、ゼロ温度では4\pi$周期性、フェルミオンパリティが固定されない限り有限温度では2\pi$周期性に低下する。 それにもかかわらず、パラフェルミオントンネルの明確なサインは現在の位相関係の形に残っている。

Parafermion zero modes can arise in hybrid structures composed of $\nu=1/m$ fractional quantum Hall edges proximitized with an s-wave superconductor. Here we consider parafermion and Cooper pair tunneling, and backscattering in a junction formed in such hybrid structures. We find that the $4\pi m$ periodicity due to parafermion-only tunneling reduces, in the presence of backscattering, to $4\pi$-periodic at zero temperature and $2\pi$-periodic at finite temperature unless the fermion parity is fixed. Nevertheless, a clear signature of parafermion tunneling remains in the shape of the current-phase relation.
翻訳日:2023-09-27 16:23:38 公開日:2023-09-25
# カーネルベースの量子学習とGroverアルゴリズムに基づく量子前処理の利点

Provable advantages of kernel-based quantum learners and quantum preprocessing based on Grover's algorithm ( http://arxiv.org/abs/2309.14406v1 )

ライセンス: Link先を確認
Till Muser, Elias Zapusek, Vasilis Belis, Florentin Reiter(参考訳) 学習問題の量子スピードアップを見つけるための努力が進行中である。 最近[Y]。 Liu et al., Nat. Phys $\textbf{17}$, 1013--1017 (2021)] は、ショアのアルゴリズムの高速化を利用して量子支援ベクトルマシンの指数的高速化を証明した。 我々はこの結果を拡張し,サポートベクターマシンのカーネル内でgroverのアルゴリズムを利用した速度アップを同定する。 カーネル構造の実用性を示すために、パターンマッチングに関連する問題に適用し、実用的かつ証明可能な利点を提供する。 さらに,前処理段階における量子計算と古典的な分類法を組み合わせることにより,分類器の性能が向上することを示す。

There is an ongoing effort to find quantum speedups for learning problems. Recently, [Y. Liu et al., Nat. Phys. $\textbf{17}$, 1013--1017 (2021)] have proven an exponential speedup for quantum support vector machines by leveraging the speedup of Shor's algorithm. We expand upon this result and identify a speedup utilizing Grover's algorithm in the kernel of a support vector machine. To show the practicality of the kernel structure we apply it to a problem related to pattern matching, providing a practical yet provable advantage. Moreover, we show that combining quantum computation in a preprocessing step with classical methods for classification further improves classifier performance.
翻訳日:2023-09-27 16:23:26 公開日:2023-09-25
# 共同音声と音声の理解

Joint Audio and Speech Understanding ( http://arxiv.org/abs/2309.14405v1 )

ライセンス: Link先を確認
Yuan Gong, Alexander H. Liu, Hongyin Luo, Leonid Karlinsky, James Glass(参考訳) 人間は音声と非音声の両方を含む音声信号に囲まれている。 音声および非音声音声イベントの認識と理解は、両者の関係を深く理解すると共に、基本的な認知能力を構成する。 概念的に類似した普遍的なオーディオ知覚と高度な推論能力を持つ、ltu-asと呼ばれる機械学習モデルが初めて構築されました。 具体的には、Whisperを知覚モジュールとして、LLaMAを推論モジュールとして統合することにより、LTU-ASは音声テキスト、音声パラ言語学、非音声音声イベントを同時に認識し、共同理解することができる。

Humans are surrounded by audio signals that include both speech and non-speech sounds. The recognition and understanding of speech and non-speech audio events, along with a profound comprehension of the relationship between them, constitute fundamental cognitive capabilities. For the first time, we build a machine learning model, called LTU-AS, that has a conceptually similar universal audio perception and advanced reasoning ability. Specifically, by integrating Whisper as a perception module and LLaMA as a reasoning module, LTU-AS can simultaneously recognize and jointly understand spoken text, speech paralinguistics, and non-speech audio events - almost everything perceivable from audio signals.
翻訳日:2023-09-27 16:23:14 公開日:2023-09-25
# FARSEC:交通カメラを用いたリアルタイム車速自動推定のための再現可能なフレームワーク

FARSEC: A Reproducible Framework for Automatic Real-Time Vehicle Speed Estimation Using Traffic Cameras ( http://arxiv.org/abs/2309.14468v1 )

ライセンス: Link先を確認
Lucas Liebe, Franz Sauerwald, Sylwester Sawicki, Matthias Schneider, Leo Schuhmann, Tolga Buz, Paul Boes, Ahmad Ahmadov, Gerard de Melo(参考訳) 交通カメラを用いた車両の速度推定は、交通監視と管理にとって重要な課題であり、より最適な交通の流れ、道路安全の改善、環境への影響の低減を可能にする。 ナビゲーションやロジスティクスなどの輸送依存システムは、信頼性の高い速度推定の恩恵を受ける可能性がある。 この分野には、競争力のある正確性レベルを報告する先行研究があるが、そのソリューションには、さまざまなデータセットにまたがる再現性と堅牢性が欠如している。 そこで本研究では,よりロバスト性を実現するために,一般の交通カメラから得られるより多様なデータを扱うリアルタイム車両速度計算のための新しいフレームワークを提案する。 本モデルでは、深さマップ予測による道路セグメント長の推定に新しい手法を用いる。 さらに,我々のフレームワークは,カメラの動きや異なるビデオストリーム入力などの現実的な条件を自動で処理できる。 我々のモデルは、ベンチマークデータセットを用いて、この分野でよく知られた3つのモデルと比較する。 本モデルでは,予測性能に関する新たな手法を定めていないが,実際のCCTVビデオと競合する結果が得られた。 同時に、エンドツーエンドパイプラインは、より一貫性のある結果、より簡単な実装、より良い互換性を提供します。 モジュラー構造は再現性と将来の改善を促進する。

Estimating the speed of vehicles using traffic cameras is a crucial task for traffic surveillance and management, enabling more optimal traffic flow, improved road safety, and lower environmental impact. Transportation-dependent systems, such as for navigation and logistics, have great potential to benefit from reliable speed estimation. While there is prior research in this area reporting competitive accuracy levels, their solutions lack reproducibility and robustness across different datasets. To address this, we provide a novel framework for automatic real-time vehicle speed calculation, which copes with more diverse data from publicly available traffic cameras to achieve greater robustness. Our model employs novel techniques to estimate the length of road segments via depth map prediction. Additionally, our framework is capable of handling realistic conditions such as camera movements and different video stream inputs automatically. We compare our model to three well-known models in the field using their benchmark datasets. While our model does not set a new state of the art regarding prediction performance, the results are competitive on realistic CCTV videos. At the same time, our end-to-end pipeline offers more consistent results, an easier implementation, and better compatibility. Its modular structure facilitates reproducibility and future improvements.
翻訳日:2023-09-27 16:17:29 公開日:2023-09-25
# DefGoalNet: 変形可能なオブジェクト操作のためのデモからのコンテキスト目標学習

DefGoalNet: Contextual Goal Learning from Demonstrations For Deformable Object Manipulation ( http://arxiv.org/abs/2309.14463v1 )

ライセンス: Link先を確認
Bao Thach, Tanner Watts, Shing-Hei Ho, Tucker Hermans, Alan Kuntz(参考訳) 形状サーボ(Shape servoing)は、オブジェクトを目的の形状に制御するためのロボットタスクで、変形可能なオブジェクト操作に対する有望なアプローチである。 しかし、ゴール形状の仕様に依存して問題が発生する。 この目的は、退屈なドメイン知識工学プロセスによって達成されたか、または、オブジェクトを所望の形状に手動で操作し、その特定の瞬間に目標形状をキャプチャすることで達成された。 本稿では,変形可能な物体の目標形状を直接学習するニューラルネットワークDefGoalNetを開発することにより,この問題を解決する。 本手法は,シミュレーションと物理ロボットの両方において,様々なロボットタスクにおいて有効であることを示す。 特に外科的リトラクション作業では,10回程度の実演で訓練しても,平均成功率は90%近くであった。 これらの結果は、変形可能なオブジェクト操作を現実の応用に近づけるための形状サーボ法の実現に大きく貢献する。

Shape servoing, a robotic task dedicated to controlling objects to desired goal shapes, is a promising approach to deformable object manipulation. An issue arises, however, with the reliance on the specification of a goal shape. This goal has been obtained either by a laborious domain knowledge engineering process or by manually manipulating the object into the desired shape and capturing the goal shape at that specific moment, both of which are impractical in various robotic applications. In this paper, we solve this problem by developing a novel neural network DefGoalNet, which learns deformable object goal shapes directly from a small number of human demonstrations. We demonstrate our method's effectiveness on various robotic tasks, both in simulation and on a physical robot. Notably, in the surgical retraction task, even when trained with as few as 10 demonstrations, our method achieves a median success percentage of nearly 90%. These results mark a substantial advancement in enabling shape servoing methods to bring deformable object manipulation closer to practical, real-world applications.
翻訳日:2023-09-27 16:17:08 公開日:2023-09-25
# 量子環オリゴマーにおける非ラジカル多光子状態

Non-radiant multiphoton states in quantum ring oligomers ( http://arxiv.org/abs/2309.14461v1 )

ライセンス: Link先を確認
Nikita Ustimenko, Danil Kornovan, Ilya Volkov, Alexandra Sheremet, Roman Savelev, and Mihail Petrov(参考訳) 結合双極子エミッターの配列は、量子励起を保存できる集合的単光子および多光子状態をサポートする。 これらの状態の重要な特徴の1つは、自然放出によって基本的に制限される寿命である。 ここでは、放射連続体を介して2つの状態の外部結合のメカニズムを示し、単一の励起と二重励起の両方の寿命を長くすることができる。 実例として、量子エミッターの環のようなアンサンブルを考えると、構造幾何学のわずかな最適化により、高軌道運動量で単独で2倍の励起状態の寿命を数桁で増加させることができる。

Arrays of coupled dipole emitters support collective single- and multiphoton states that can preserve quantum excitations. One of the crucial characteristics of these states is the lifetime, which is fundamentally limited due to spontaneous emission. Here, we present a mechanism of external coupling of two states via a radiative continuum, which allows for an increase in the lifetime of both single and double excitations. As an illustrative example, we consider a ring-like ensemble of quantum emitters, demonstrating that upon slight optimization of the structure geometry, one can increase the lifetime of singly and doubly excited states with high orbital momentum by several orders of magnitude.
翻訳日:2023-09-27 16:16:50 公開日:2023-09-25
# 音声イベント検出のためのオンラインアクティブラーニング

Online Active Learning For Sound Event Detection ( http://arxiv.org/abs/2309.14460v1 )

ライセンス: Link先を確認
Mark Lindsey, Ankit Shah, Francis Kubala, Richard M. Stern(参考訳) データ収集とアノテーションは、教師付き機械学習タスクのための手間のかかる時間を要する前提条件である。 オンラインアクティブラーニング(オンラインアクティブラーニング、OAL)は、分類器の訓練に必要なアノテーションの量を最小化し、データ収集プロセスの期間にわたってデータの変化に適応することにより、この問題に対処するパラダイムである。 以前の研究は、OALでは依然として変動するクラス分布とデータドリフトが一般的な問題であることを示している。 本研究は,oalを音響イベント検出(sed)に適用した場合の課題に対処する新たな損失関数を提案する。 sonycデータセットと2つのvoice-type discrimination(vtd)コーポラによる実験の結果は、oalはsed分類器の訓練に要する時間と労力をソニーcの5倍に削減でき、新しい手法は既存のoal法に存在する問題を解決するのに成功していることを示している。

Data collection and annotation is a laborious, time-consuming prerequisite for supervised machine learning tasks. Online Active Learning (OAL) is a paradigm that addresses this issue by simultaneously minimizing the amount of annotation required to train a classifier and adapting to changes in the data over the duration of the data collection process. Prior work has indicated that fluctuating class distributions and data drift are still common problems for OAL. This work presents new loss functions that address these challenges when OAL is applied to Sound Event Detection (SED). Experimental results from the SONYC dataset and two Voice-Type Discrimination (VTD) corpora indicate that OAL can reduce the time and effort required to train SED classifiers by a factor of 5 for SONYC, and that the new methods presented here successfully resolve issues present in existing OAL methods.
翻訳日:2023-09-27 16:16:37 公開日:2023-09-25
# Skilog:スキージャンプにおけるパフォーマンス分析とバイオフィードバックのためのスマートセンサシステム

Skilog: A Smart Sensor System for Performance Analysis and Biofeedback in Ski Jumping ( http://arxiv.org/abs/2309.14455v1 )

ライセンス: Link先を確認
Lukas Schulthess, Thorir Mar Ingolfsson, Marc N\"olke, Michele Magno, Luca Benini, Christoph Leitner(参考訳) スキージャンプでは、ジャンプの低繰り返し率がトレーニングの有効性を制限する。 したがって、ジャンプごとに学習率を上げることが成功の鍵となる。 アスリートのトレーニングの重要な要素は運動学習であり、フィードバックによって加速されることが示されている。 特に、インランにおける重力の中心のきめ細かい制御が不可欠である。 これは、実際の離陸が目の一点($300ms)内で行われるため、走行中の体姿勢が飛行に影響を与えるためである。 本稿では,スキージャンプ時の実時間性能解析とバイオフィードバックのためのスマートでコンパクトでエネルギー効率の良いワイヤレスセンサシステムを提案する。 このシステムは、スキーブーツのインソールを100Hzで3つの異なる地点で足圧を計る。 足圧データを直接コーチに送ってフィードバックを改善するか、あるいはMLモデルに入力して選手にスキーブーツの振動モーターを使って瞬時にインアクションフィードバックを与える。 バイオフィードバックのシナリオでは、足圧が最適化されたXGBoostモデルの入力変数として機能する。 質量予測の中心(背位シフト、中性スタンド、腹側シフト)に対する予測精度は92.7%と高い。 その後、PULPアーキテクチャに基づいたRISC-Vベースの低消費電力並列プロセッサ(GAP9)のXGBoostモデルを並列化し、微調整した。 オンチップデプロイメントによるリアルタイム検出とフィードバック(0.0109ms/inference)を実演します。 提案するスマートシステムは、スリムなフォームファクタ(13mmのベースボード、3.2mmのアンテナ)と軽量なビルド(26g)を備える。 電力消費分析により、システムのエネルギー効率の良い設計により、チャージを必要とせず、複数日間(最大300時間)の持続的な運転が可能であることが判明した。

In ski jumping, low repetition rates of jumps limit the effectiveness of training. Thus, increasing learning rate within every single jump is key to success. A critical element of athlete training is motor learning, which has been shown to be accelerated by feedback methods. In particular, a fine-grained control of the center of gravity in the in-run is essential. This is because the actual takeoff occurs within a blink of an eye ($\sim$300ms), thus any unbalanced body posture during the in-run will affect flight. This paper presents a smart, compact, and energy-efficient wireless sensor system for real-time performance analysis and biofeedback during ski jumping. The system operates by gauging foot pressures at three distinct points on the insoles of the ski boot at 100Hz. Foot pressure data can either be directly sent to coaches to improve their feedback, or fed into a ML model to give athletes instantaneous in-action feedback using a vibration motor in the ski boot. In the biofeedback scenario, foot pressures act as input variables for an optimized XGBoost model. We achieve a high predictive accuracy of 92.7% for center of mass predictions (dorsal shift, neutral stand, ventral shift). Subsequently, we parallelized and fine-tuned our XGBoost model for a RISC-V based low power parallel processor (GAP9), based on the PULP architecture. We demonstrate real-time detection and feedback (0.0109ms/inference) using our on-chip deployment. The proposed smart system is unobtrusive with a slim form factor (13mm baseboard, 3.2mm antenna) and a lightweight build (26g). Power consumption analysis reveals that the system's energy-efficient design enables sustained operation over multiple days (up to 300 hours) without requiring recharge.
翻訳日:2023-09-27 16:16:19 公開日:2023-09-25
# 波動行列リンドブラディゼーションii:一般リンドブラジアン、線形結合、多項式

Wave Matrix Lindbladization II: General Lindbladians, Linear Combinations, and Polynomials ( http://arxiv.org/abs/2309.14453v1 )

ライセンス: Link先を確認
Dhrumil Patel and Mark M. Wilde(参考訳) 本稿では,よく知られたlindblad master方程式によって制御されるオープンシステムのダイナミクスをシミュレートする問題を考察する。 本論文では,リンドブラッド作用素をプログラム状態と呼ぶ純粋量子状態に符号化する入力モデルを導入し,また,リンドブラッド系をプログラム状態と相互作用させることでリンドブラッド系の進化をシミュレートする波動行列リンドブラド化法も導入した。 そこで、リンドブラディアンは1つのリンドブラッド作用素と1つのハミルトニアンからなる単純なケースに焦点を当てた。 ここでは、一般的なリンドブラジアンや、リンドブラド作用素がプログラムの状態にエンコードされた演算子の線形結合または多項式として表現される他のケースをシミュレートする手法を拡張する。 これらの全てのケースに対して量子アルゴリズムを提案し,そのサンプル複雑性,すなわち与えられたリンドブラジアン進化を概ねシミュレートするために必要なプログラム状態について検討する。 最後に、我々の量子アルゴリズムは、トモグラフィーのサンプルの複雑さが系の寸法に依存するのに対して、波動行列のサンプルの複雑さは次元に依存しないことを証明し、符号化された作用素のフルトモグラフィーと比較してリンドブラディアン進化をシミュレートする効率的な経路を提供することを示した。

In this paper, we investigate the problem of simulating open system dynamics governed by the well-known Lindblad master equation. In our prequel paper, we introduced an input model in which Lindblad operators are encoded into pure quantum states, called program states, and we also introduced a method, called wave matrix Lindbladization, for simulating Lindbladian evolution by means of interacting the system of interest with these program states. Therein, we focused on a simple case in which the Lindbladian consists of only one Lindblad operator and a Hamiltonian. Here, we extend the method to simulating general Lindbladians and other cases in which a Lindblad operator is expressed as a linear combination or a polynomial of the operators encoded into the program states. We propose quantum algorithms for all these cases and also investigate their sample complexity, i.e., the number of program states needed to simulate a given Lindbladian evolution approximately. Finally, we demonstrate that our quantum algorithms provide an efficient route for simulating Lindbladian evolution relative to full tomography of encoded operators, by proving that the sample complexity for tomography is dependent on the dimension of the system, whereas the sample complexity of wave matrix Lindbladization is dimension independent.
翻訳日:2023-09-27 16:15:52 公開日:2023-09-25
# 大規模mdシミュレーションによる転位運動則の学習

Learning dislocation dynamics mobility laws from large-scale MD simulations ( http://arxiv.org/abs/2309.14450v1 )

ライセンス: Link先を確認
Nicolas Bertin, Vasily V. Bulatov, Fei Zhou(参考訳) 格子変位の真の原子動力学の粗粒度モデルとして使用される離散転位力学(DDD)の計算方法は、転位の集合的挙動から生じる金属の塑性を研究する強力なツールとなった。 メソスケールアプローチでは、DDDモデルにおける転位の動きは移動法則によって規定され、転位線が駆動力にどう反応するかを規定する関数である。 しかし、伝統的な手作りの移動法の開発は面倒な作業であり、有害な単純化を伴う可能性がある。 本稿では,結晶塑性の大規模分子動力学シミュレーションに基づいて学習したグラフニューラルネットワーク(GNN)としてモデル化されたデータ駆動型モビリティ法則の開発を効率化する機械学習(ML)フレームワークを提案する。 我々は,bccタングステンへのアプローチを例示し,大規模dddシミュレーションで実装したgnnモビリティが,地中mdシミュレーションで観測される挑戦的張力・圧縮非対称性を正確に再現し,トレーニング中に低いひずみ速度条件における流れ応力を正確に予測し,関連する転位物理学を学習できることを示す。 私たちのddd+mlアプローチでは、dddモデルの忠実性を改善し、より複雑な転位動作を自動化して、地中mdシミュレーションよりも数桁早い転位ダイナミクスの忠実なプロキシを提供します。

The computational method of discrete dislocation dynamics (DDD), used as a coarse-grained model of true atomistic dynamics of lattice dislocations, has become of powerful tool to study metal plasticity arising from the collective behavior of dislocations. As a mesoscale approach, motion of dislocations in the DDD model is prescribed via the mobility law; a function which specifies how dislocation lines should respond to the driving force. However, the development of traditional hand-crafted mobility laws can be a cumbersome task and may involve detrimental simplifications. Here we introduce a machine-learning (ML) framework to streamline the development of data-driven mobility laws which are modeled as graph neural networks (GNN) trained on large-scale Molecular Dynamics (MD) simulations of crystal plasticity. We illustrate our approach on BCC tungsten and demonstrate that our GNN mobility implemented in large-scale DDD simulations accurately reproduces the challenging tension/compression asymmetry observed in ground-truth MD simulations while correctly predicting the flow stress at lower straining rate conditions unseen during training, thereby demonstrating the ability of our method to learn relevant dislocation physics. Our DDD+ML approach opens new promising avenues to improve fidelity of the DDD model and to incorporate more complex dislocation motion behaviors in an automated way, providing a faithful proxy for dislocation dynamics several orders of magnitude faster than ground-truth MD simulations.
翻訳日:2023-09-27 16:15:24 公開日:2023-09-25
# スペクトル非周期単色化における量子及び古典的二量体モデルの厳密解

Exact Solution to the Quantum and Classical Dimer Models on the Spectre Aperiodic Monotiling ( http://arxiv.org/abs/2309.14447v1 )

ライセンス: Link先を確認
Shobhna Singh, Felix Flicker(参考訳) 何十年もの間、平面を並進する形は、最近は「スペクトル」の非周期的なモノタイルの発見で終わった。 この設定では、各頂点が正確に1つのディマーと一致するように、ディマーをタイルエッジに沿って配置するディマーモデルについて研究する。 タイリングの複雑さはモデルを正確に解けるように二量体制約と結合する。 パーティション関数は $\mathcal{Z}=2^{N_{\textrm{Mystic}}+1}$ ここで $N_{\textrm{Mystic}}$ は `Mystic' タイルの数である。 量子二量体 (Rokhsar Kivelson) モデルは、すべての相互作用強度において固有基底を同定することで、同じ条件で正確に解ける。 テストモノマーが生成されると、全ての$v/t$ に対してゼロエネルギーコストで無限に分離でき、2+1次元の2部量子ダイマーモデルにおいて解圧相を構成する。

The decades-long search for a shape that tiles the plane only aperiodically under translations and rotations recently ended with the discovery of the `spectre' aperiodic monotile. In this setting we study the dimer model, in which dimers are placed along tile edges such that each vertex meets precisely one dimer. The complexity of the tiling combines with the dimer constraint to allow an exact solution to the model. The partition function is $\mathcal{Z}=2^{N_{\textrm{Mystic}}+1}$ where $N_{\textrm{Mystic}}$ is the number of `Mystic' tiles. We exactly solve the quantum dimer (Rokhsar Kivelson) model in the same setting by identifying an eigenbasis at all interaction strengths $V/t$. We find that test monomers, once created, can be infinitely separated at zero energy cost for all $V/t$, constituting a deconfined phase in a 2+1D bipartite quantum dimer model.
翻訳日:2023-09-27 16:14:56 公開日:2023-09-25
# 普遍的ロバスト量子制御

Universally Robust Quantum Control ( http://arxiv.org/abs/2309.14437v1 )

ライセンス: Link先を確認
Pablo M. Poggi, Gabriele De Chiara, Steve Campbell, Anthony Kiely(参考訳) 我々は、ハミルトニアンのパラメータの小さな制御不能な変動に対する量子系の進化のロバスト性について研究する。 摂動誤差を先行順に定量化するフィデリティ・サセプティビリティを超演算型で表現し,この手法を用いて,任意の系統的未知の誤差に対して頑健な制御パルスを導出できることを示す。 提案された最適制御プロトコルは、ハール分布の1次モーメントを模倣するユニタリの列、すなわち1-デザインを構成する。 誤差耐性を有する単一および2量子ゲートに対する結果のパワーを強調した。

We study the robustness of the evolution of a quantum system against small uncontrolled variations in parameters in the Hamiltonian. We show that the fidelity susceptibility, which quantifies the perturbative error to leading order, can be expressed in superoperator form and use this to derive control pulses which are robust to any class of systematic unknown errors. The proposed optimal control protocol is equivalent to searching for a sequence of unitaries that mimics the first-order moments of the Haar distribution, i.e. it constitutes a 1-design. We highlight the power of our results for error resistant single- and two-qubit gates.
翻訳日:2023-09-27 16:14:36 公開日:2023-09-25
# ブロッホに基づく半導体中の高調波発生の量子光学解析

A Bloch-based quantum optical analysis of high-harmonic generation in semiconductors ( http://arxiv.org/abs/2309.14435v1 )

ライセンス: Link先を確認
Javier Rivera Dean, Philipp Stammer, Andrew S. Maxwell, Theocharis Lamprou, Andr\'es F. Ord\'o\~nez, Emilio Pisanty, Paraskevas Tzallas, Maciej Lewenstein, Marcelo F. Ciappina(参考訳) 高調波発生は強磁場物理学において中心的な過程として現れ、極端紫外線とアト秒パルスを広範囲に応用する。 さらに、量子光学の分野との創発的な関係は、非古典的な光状態を生成する可能性を明らかにしている。 本稿では,ブロッホ系固体記述を用いて半導体中の高調波発生過程を量子光学的に検討する。 高次高調波測定に基づく量子演算の実装を通じて、原子系を駆動する際に見られるような古典的でない光状態の生成を実証する。 これらの状態は様々な量子光学観測器と量子情報測度を用いて特徴づけられ、電子力学がそれらの性質に与える影響を示す。 さらに, 脱落時間や結晶方位などの固体特性に対する特性の影響を解析するとともに, 駆動磁場強度の変化に対する感度の評価を行った。 本研究は半導体中のHHGとその非古典光源発生の可能性に関する知見を提供する。

High-harmonic generation has emerged as a pivotal process in strong-field physics, yielding extreme ultraviolet radiation and attosecond pulses with a wide range of applications. Furthermore, its emergent connection with the field of quantum optics has revealed its potential for generating non-classical states of light. Here, we investigate the process of high-harmonic generation in semiconductors under a quantum optical perspective while using a Bloch-based solid-state description. Through the implementation of quantum operations based on the measurement of high-order harmonics, we demonstrate the generation of non-classical light states similar to those found when driving atomic systems. These states are characterized using diverse quantum optical observables and quantum information measures, showing the influence of electron dynamics on their properties. Additionally, we analyze the dependence of their features on solid characteristics such as the dephasing time and crystal orientation, while also assessing their sensitivity to changes in driving field strength. This study provides insights into HHG in semiconductors and its potential for generating non-classical light sources.
翻訳日:2023-09-27 16:14:26 公開日:2023-09-25
# AiAReSeg:変換器を用いたインターベンショナル超音波のカテーテル検出とセグメンテーション

AiAReSeg: Catheter Detection and Segmentation in Interventional Ultrasound using Transformers ( http://arxiv.org/abs/2309.14492v1 )

ライセンス: Link先を確認
Alex Ranne, Yordanka Velikova, Nassir Navab, Ferdinando Rodriguez y Baena(参考訳) 現在までに、電離放射線を用いてカテーテルや血管を可視化するFluoroscopyの黄金標準を用いて血管内手術が行われている。 長期のフルオロスコープ曝露は、患者や臨床医にとって有害であり、がんの発生など術後の重篤なセコイアを引き起こす可能性がある。 一方、介入超音波の使用は、小さな空間的フットプリント、高速なデータ取得、より高い組織コントラスト画像の利点により、人気が高まっている。 しかし,超音波画像の解釈は困難であり,血管,カテーテル,ガイドワイヤのローカライズが困難である。 本研究では,最先端の機械学習トランスフォーマアーキテクチャを応用し,軸方向干渉超音波画像のカテーテルを検出・セグメント化する方法を提案する。 ネットワークアーキテクチャはアテンション・イン・アテンション・メカニズム、時間追跡ネットワークにインスパイアされ、時間をかけて3Dデコンボリューションを行う新しい3Dセグメンテーションヘッドを導入した。 このような深層学習ネットワークの訓練を容易にするために,物理ベースのカテーテル挿入シミュレーションと畳み込み型超音波シミュレータを用いて血管内干渉の合成超音波画像を生成する新しいデータ合成パイプラインを提案する。 提案手法はホールドアウトバリデーションデータセット上で検証され,超音波雑音に対するロバスト性と幅広い走査角が得られた。 シリコンベースのaorta phantomsから収集したデータでもテストされ、simから現実への翻訳の可能性を示した。 この研究は、干渉超音波を用いたより安全で効率的な血管内手術への重要な一歩である。

To date, endovascular surgeries are performed using the golden standard of Fluoroscopy, which uses ionising radiation to visualise catheters and vasculature. Prolonged Fluoroscopic exposure is harmful for the patient and the clinician, and may lead to severe post-operative sequlae such as the development of cancer. Meanwhile, the use of interventional Ultrasound has gained popularity, due to its well-known benefits of small spatial footprint, fast data acquisition, and higher tissue contrast images. However, ultrasound images are hard to interpret, and it is difficult to localise vessels, catheters, and guidewires within them. This work proposes a solution using an adaptation of a state-of-the-art machine learning transformer architecture to detect and segment catheters in axial interventional Ultrasound image sequences. The network architecture was inspired by the Attention in Attention mechanism, temporal tracking networks, and introduced a novel 3D segmentation head that performs 3D deconvolution across time. In order to facilitate training of such deep learning networks, we introduce a new data synthesis pipeline that used physics-based catheter insertion simulations, along with a convolutional ray-casting ultrasound simulator to produce synthetic ultrasound images of endovascular interventions. The proposed method is validated on a hold-out validation dataset, thus demonstrated robustness to ultrasound noise and a wide range of scanning angles. It was also tested on data collected from silicon-based aorta phantoms, thus demonstrated its potential for translation from sim-to-real. This work represents a significant step towards safer and more efficient endovascular surgery using interventional ultrasound.
翻訳日:2023-09-27 16:07:23 公開日:2023-09-25
# 自律運転用2次元ビジョンランゲージ蒸留による教師なし3次元知覚

Unsupervised 3D Perception with 2D Vision-Language Distillation for Autonomous Driving ( http://arxiv.org/abs/2309.14491v1 )

ライセンス: Link先を確認
Mahyar Najibi, Jingwei Ji, Yin Zhou, Charles R. Qi, Xinchen Yan, Scott Ettinger, Dragomir Anguelov(参考訳) 事前定義されたオブジェクトカテゴリのみに基づいてトレーニングされたクローズドセット3d知覚モデルは、デプロイ後に新しいオブジェクトタイプに遭遇できる自動運転のような安全上重要な応用には不十分である。 本稿では,3次元ラベルを使わずに,オープンなカテゴリのモデルにアモーダルな3Dバウンディングボックスとトラックレットを生成するマルチモーダル自動ラベリングパイプラインを提案する。 当社のパイプラインでは,ポイントクラウドシーケンスに固有なモーションキューと,利用可能な2dイメージテキストペアを組み合わせて,すべてのトラフィック参加者を特定し追跡する。 移動対象に限定したクラス非依存のオートラベルしか提供できないこの領域の最近の研究と比較すると、この手法は静的オブジェクトと移動オブジェクトの両方を教師なしの方法で処理でき、視覚言語知識蒸留によりオープンボキャブラリーセマンティクスラベルを出力できる。 Waymo Open Datasetの実験によると、我々のアプローチは、教師なしの様々な3D知覚タスクにおいて、これまでの作業よりも大幅に向上している。

Closed-set 3D perception models trained on only a pre-defined set of object categories can be inadequate for safety critical applications such as autonomous driving where new object types can be encountered after deployment. In this paper, we present a multi-modal auto labeling pipeline capable of generating amodal 3D bounding boxes and tracklets for training models on open-set categories without 3D human labels. Our pipeline exploits motion cues inherent in point cloud sequences in combination with the freely available 2D image-text pairs to identify and track all traffic participants. Compared to the recent studies in this domain, which can only provide class-agnostic auto labels limited to moving objects, our method can handle both static and moving objects in the unsupervised manner and is able to output open-vocabulary semantic labels thanks to the proposed vision-language knowledge distillation. Experiments on the Waymo Open Dataset show that our approach outperforms the prior work by significant margins on various unsupervised 3D perception tasks.
翻訳日:2023-09-27 16:06:54 公開日:2023-09-25
# 自動評価が自動コンテンツ生成を満たすとき: gpt時代のテキスト品質の検討

When Automated Assessment Meets Automated Content Generation: Examining Text Quality in the Era of GPTs ( http://arxiv.org/abs/2309.14488v1 )

ライセンス: Link先を確認
Marialena Bevilacqua, Kezia Oketch, Ruiyang Qin, Will Stamey, Xinyuan Zhang, Yi Gan, Kai Yang, Ahmed Abbasi(参考訳) 自然言語処理や情報検索,検索とレコメンデーション,オンラインコンテンツの信頼性評価など,さまざまなコンテキストにおいて,テキストデータの評価と評価に機械学習(ML)モデルが普及している。 mlとテキストの交点における大きな混乱は、ジェネレーティブ事前学習トランスフォーマー(gpts)のようなテキスト生成大言語モデルである。 人間のコンテンツにトレーニングされたmlベースのスコアリングモデルが、ヒトとgptによって生成されたコンテンツの品質を評価する方法の違いを実証的に評価する。 そこで本研究では,mlモデル評価のためのエッセイ,人間およびml生成エッセイ,および評価モデルに使用される応答者の種類,プロンプトジャンル,mlモデルの影響を概ね考慮した統計モデルを含む分析フレームワークを提案する。 18,460個の人間生成エッセイとgptに基づくエッセイを含む豊かなテストベッドを利用する。 ベンチマーク分析の結果,トランスフォーマー事前学習言語モデル(PLM)は,CNN/RNNや特徴ベースML手法と比較して,人間のエッセイ品質をより正確に評価できることがわかった。 興味深いことに、トランスフォーマー PLM は、人為的な文書に比べて、平均で10~15倍高い GPT 生成テキストをスコアする傾向にある。 逆に、従来のディープラーニングと機能ベースのMLモデルは、人間のテキストをかなり高く評価する。 さらなる分析により、トランスフォーマーplmは人間のテキストでのみ微調整されているものの、gptで生成されたテキストにのみ現れる特定のトークンに、より顕著に対応することが判明した。 我々のフレームワークと結果は、テキストの自動スコアリングが生成AIによって破壊されがちなテキスト分類設定に影響を及ぼす。

The use of machine learning (ML) models to assess and score textual data has become increasingly pervasive in an array of contexts including natural language processing, information retrieval, search and recommendation, and credibility assessment of online content. A significant disruption at the intersection of ML and text are text-generating large-language models such as generative pre-trained transformers (GPTs). We empirically assess the differences in how ML-based scoring models trained on human content assess the quality of content generated by humans versus GPTs. To do so, we propose an analysis framework that encompasses essay scoring ML-models, human and ML-generated essays, and a statistical model that parsimoniously considers the impact of type of respondent, prompt genre, and the ML model used for assessment model. A rich testbed is utilized that encompasses 18,460 human-generated and GPT-based essays. Results of our benchmark analysis reveal that transformer pretrained language models (PLMs) more accurately score human essay quality as compared to CNN/RNN and feature-based ML methods. Interestingly, we find that the transformer PLMs tend to score GPT-generated text 10-15\% higher on average, relative to human-authored documents. Conversely, traditional deep learning and feature-based ML models score human text considerably higher. Further analysis reveals that although the transformer PLMs are exclusively fine-tuned on human text, they more prominently attend to certain tokens appearing only in GPT-generated text, possibly due to familiarity/overlap in pre-training. Our framework and results have implications for text classification settings where automated scoring of text is likely to be disrupted by generative AI.
翻訳日:2023-09-27 16:06:34 公開日:2023-09-25
# 音声アシスタントのための説明可能で正確な自然言語理解

Explainable and Accurate Natural Language Understanding for Voice Assistants and Beyond ( http://arxiv.org/abs/2309.14485v1 )

ライセンス: Link先を確認
Kalpa Gunaratna, Vijay Srinivasan, Hongxia Jin(参考訳) 自然言語理解(joint language understanding)とも呼ばれる統合意図検出とスロット充填は、スマートボイスアシスタントにとって非常に有用である。 近年,様々な手法による精度向上に重点が置かれている。 説明可能性は、共同NLUモデルを含むディープラーニングベースのモデルにとって、間違いなく重要な側面である。 説明ができないと、彼らの決定は外界に不透明であり、従ってユーザーの信頼を欠く傾向がある。 したがって, このギャップを埋めるために, 完全関節型NLUモデルを, 精度を損なうことなく, 粒度レベルで「直感的に」説明可能なモデルに変換する。 さらに, 完全関節型NLUモデルの説明を可能にすることにより, 拡張が他の一般的な分類タスクでうまく利用できることを示す。 感情分析とエンティティ認識を用いてこれを実証する。

Joint intent detection and slot filling, which is also termed as joint NLU (Natural Language Understanding) is invaluable for smart voice assistants. Recent advancements in this area have been heavily focusing on improving accuracy using various techniques. Explainability is undoubtedly an important aspect for deep learning-based models including joint NLU models. Without explainability, their decisions are opaque to the outside world and hence, have tendency to lack user trust. Therefore to bridge this gap, we transform the full joint NLU model to be `inherently' explainable at granular levels without compromising on accuracy. Further, as we enable the full joint NLU model explainable, we show that our extension can be successfully used in other general classification tasks. We demonstrate this using sentiment analysis and named entity recognition.
翻訳日:2023-09-27 16:06:06 公開日:2023-09-25
# 近辺領域における太陽フレア予測のための深層学習モデルの可能性

Unveiling the Potential of Deep Learning Models for Solar Flare Prediction in Near-Limb Regions ( http://arxiv.org/abs/2309.14483v1 )

ライセンス: Link先を確認
Chetraj Pandey, Rafal A. Angryk, Berkay Aydin(参考訳) 本研究の目的は、24時間の予測窓を持つ$$$geq$M級太陽フレアの予測における深層学習モデルの性能を評価することであり、特に近縁領域(太陽円板の$$$$$$70$^{\circ}を超える)に対応する視認できないフレア現象に焦点をあてた時差フルディスク(LoS)磁気グラム画像を用いている。 トランスファー・ラーニングを用いて、alexnet、vgg16、resnet34の3つの有名なディープラーニングアーキテクチャをトレーニングし、true skill statistics (tss) とheidke skill score (hss) を用いてモデル全体のパフォーマンスを比較し評価し、xクラスとmクラスのフレアの中央および近辺の領域における予測感度を理解するためにリコールスコアを算出した。 1) 平均 TSS$\sim$0.53 と HSS$\sim$0.37 を達成した AlexNet モデルでは, 平均 TSS$\sim$0.53 と HSS$\sim$0.37 が得られた。 しかし,resnet34ベースのモデルでは平均リコールが約 0.59 (xクラスとmクラスのリコールはそれぞれ 0.81 と 0.56 である) であり,(3) 実験の結果から,本モデルでは全方位磁図から複雑な空間パターンを識別でき,近辺の領域でも太陽フレアを予測できることがわかった。 この能力は運用上のフレア予測システムにおいて極めて重要である。

This study aims to evaluate the performance of deep learning models in predicting $\geq$M-class solar flares with a prediction window of 24 hours, using hourly sampled full-disk line-of-sight (LoS) magnetogram images, particularly focusing on the often overlooked flare events corresponding to the near-limb regions (beyond $\pm$70$^{\circ}$ of the solar disk). We trained three well-known deep learning architectures--AlexNet, VGG16, and ResNet34 using transfer learning and compared and evaluated the overall performance of our models using true skill statistics (TSS) and Heidke skill score (HSS) and computed recall scores to understand the prediction sensitivity in central and near-limb regions for both X- and M-class flares. The following points summarize the key findings of our study: (1) The highest overall performance was observed with the AlexNet-based model, which achieved an average TSS$\sim$0.53 and HSS$\sim$0.37; (2) Further, a spatial analysis of recall scores disclosed that for the near-limb events, the VGG16- and ResNet34-based models exhibited superior prediction sensitivity. The best results, however, were seen with the ResNet34-based model for the near-limb flares, where the average recall was approximately 0.59 (the recall for X- and M-class was 0.81 and 0.56 respectively) and (3) Our research findings demonstrate that our models are capable of discerning complex spatial patterns from full-disk magnetograms and exhibit skill in predicting solar flares, even in the vicinity of near-limb regions. This ability holds substantial importance for operational flare forecasting systems.
翻訳日:2023-09-27 16:05:53 公開日:2023-09-25
# LogGPT: GPTによるログ異常検出

LogGPT: Log Anomaly Detection via GPT ( http://arxiv.org/abs/2309.14482v1 )

ライセンス: Link先を確認
Xiao Han, Shuhan Yuan, Mohamed Trabelsi(参考訳) ログデータに基づくシステム異常の検出は,コンピュータシステムのセキュリティと信頼性を確保する上で重要である。 近年,ディープラーニングモデルがログ異常検出に広く利用されている。 中心となるアイデアは、ログシーケンスを自然言語としてモデル化し、lstmやtransformerといった深いシーケンシャルモデルを採用して、言語モデリングを通じてログシーケンスの通常のパターンをエンコードすることだ。 しかし、言語モデリング損失による逐次モデルのトレーニングの目的は、異常検出に直接関連しないため、言語モデリングと異常検出との間にはギャップがある。 このギャップを埋めるため,ログ異常検出にGPTを用いた新しいフレームワークであるLogGPTを提案する。 LogGPTは、まず前回のシーケンスに基づいて次のログエントリを予測するように訓練される。 本稿では,loggptの性能をさらに高めるために,ログ異常検出タスクに特有なモデルを微調整する新しい強化学習戦略を提案する。 3つのデータセットの実験結果は、LogGPTが既存の最先端アプローチを著しく上回っていることを示している。

Detecting system anomalies based on log data is important for ensuring the security and reliability of computer systems. Recently, deep learning models have been widely used for log anomaly detection. The core idea is to model the log sequences as natural language and adopt deep sequential models, such as LSTM or Transformer, to encode the normal patterns in log sequences via language modeling. However, there is a gap between language modeling and anomaly detection as the objective of training a sequential model via a language modeling loss is not directly related to anomaly detection. To fill up the gap, we propose LogGPT, a novel framework that employs GPT for log anomaly detection. LogGPT is first trained to predict the next log entry based on the preceding sequence. To further enhance the performance of LogGPT, we propose a novel reinforcement learning strategy to finetune the model specifically for the log anomaly detection task. The experimental results on three datasets show that LogGPT significantly outperforms existing state-of-the-art approaches.
翻訳日:2023-09-27 16:05:15 公開日:2023-09-25
# エンサンブルとトランスファー学習を組み込んだ自動色付き画像検出モデル

Incorporating Ensemble and Transfer Learning For An End-To-End Auto-Colorized Image Detection Model ( http://arxiv.org/abs/2309.14478v1 )

ライセンス: Link先を確認
Ahmed Samir Ragab, Shereen Aly Taie, Howida Youssry Abdelnaby(参考訳) イメージカラー化(英: image colorization)は、グレースケールのイメージを着色したり、既にカラーのイメージを塗り替えたりするプロセスである。 この画像操作は、グレースケールの衛星、医療、歴史的画像に使用することができ、より表現力がある。 深層学習技術の計算能力の増大により、人間の目が自然画像と着色画像とを区別できないように、色分けアルゴリズムの結果はより現実的なものになりつつある。 しかし、偽造または違法に操作された画像は違法に使用できるため、これは潜在的なセキュリティ上の懸念をもたらす。 自然色とコンピュータカラー画像の識別に有効な検出方法の必要性が高まっている。 本稿では,自然色とコンピュータ彩色画像を分類するモデルを提案しながら,学習時間と資源要求を削減するために,転送学習とアンサンブル学習の利点を組み合わせた新しいアプローチを提案する。 提案モデルは、事前訓練された分岐 vgg16 と resnet50 とモバイルネット v2 または efficientnet feature vector を使用する。 提案したモデルでは,94.55%から99.13%,半誤差率が非常に低い精度で有望な結果を示した。 提案モデルは分類性能と一般化能力に関する既存の最先端モデルよりも優れていた。

Image colorization is the process of colorizing grayscale images or recoloring an already-color image. This image manipulation can be used for grayscale satellite, medical and historical images making them more expressive. With the help of the increasing computation power of deep learning techniques, the colorization algorithms results are becoming more realistic in such a way that human eyes cannot differentiate between natural and colorized images. However, this poses a potential security concern, as forged or illegally manipulated images can be used illegally. There is a growing need for effective detection methods to distinguish between natural color and computer-colorized images. This paper presents a novel approach that combines the advantages of transfer and ensemble learning approaches to help reduce training time and resource requirements while proposing a model to classify natural color and computer-colorized images. The proposed model uses pre-trained branches VGG16 and Resnet50, along with Mobile Net v2 or Efficientnet feature vectors. The proposed model showed promising results, with accuracy ranging from 94.55% to 99.13% and very low Half Total Error Rate values. The proposed model outperformed existing state-of-the-art models regarding classification performance and generalization capabilities.
翻訳日:2023-09-27 16:04:58 公開日:2023-09-25
# 説明可能な3D Unet を用いた胃腸管切開術

Gastro-Intestinal Tract Segmentation Using an Explainable 3D Unet ( http://arxiv.org/abs/2309.14474v1 )

ライセンス: Link先を確認
Kai Li, Jonathan Chan(参考訳) 放射線治療による消化器癌の治療において、放射線腫瘍学者の役割は、胃や腸を避けながら、x線ビームを通して腫瘍に対して高線量放射線を投与することである。 MR-Linacのような正確な放射線治療技術の出現により、腫瘍や腸の日々の位置を可視化することができる。 放射線を照射する前に、放射線腫瘍学者はX線ビームの位置と方向を決定するために、手動で消化管の位置を概説する必要がある。 これは、患者の治療を著しく延長する時間と労働集約的なプロセスである。 ディープラーニング(DL)メソッドはプロセスの自動化と高速化を可能にする。 しかし、現在使われているディープニューラルネットワークアプローチの多くは、解釈可能性に欠けるブラックボックスであり、医療環境では信頼できない、実用的ではない。 これを解決するために、Explainable AI(XAI)として知られるAIの創発的な分野が組み込まれて、モデルの透明性と生存性を改善することができる。 本稿では,臓器セグメンテーションの課題に対処するために,XAIを組み込んだディープラーニングパイプラインを提案する。

In treating gastrointestinal cancer using radiotherapy, the role of the radiation oncologist is to administer high doses of radiation, through x-ray beams, toward the tumor while avoiding the stomach and intestines. With the advent of precise radiation treatment technology such as the MR-Linac, oncologists can visualize the daily positions of the tumors and intestines, which may vary day to day. Before delivering radiation, radio oncologists must manually outline the position of the gastrointestinal organs in order to determine position and direction of the x-ray beam. This is a time consuming and labor intensive process that may substantially prolong a patient's treatment. A deep learning (DL) method can automate and expedite the process. However, many deep neural networks approaches currently in use are black-boxes which lack interpretability which render them untrustworthy and impractical in a healthcare setting. To address this, an emergent field of AI known as Explainable AI (XAI) may be incorporated to improve the transparency and viability of a model. This paper proposes a deep learning pipeline that incorporates XAI to address the challenges of organ segmentation.
翻訳日:2023-09-27 16:04:38 公開日:2023-09-25
# 連続強化学習へのダブルq学習の適用

Adapting Double Q-Learning for Continuous Reinforcement Learning ( http://arxiv.org/abs/2309.14471v1 )

ライセンス: Link先を確認
Arsenii Kuznetsov(参考訳) 法外強化学習アルゴリズムの多くは過大評価バイアス制御技術を使用している。 これらの技術のほとんどはヒューリスティックスに根ざし、その基本的な起源よりも過大評価の結果に対処した。 本研究は、二重Q-ラーニングと同様のバイアス補正に対する新しいアプローチを提案する。 本稿では,2つの成分を混合したポリシを提案する。 各ポリシーコンポーネントは、個別のネットワークによって最大化・評価され、過大評価バイアスのいかなる根拠も排除される。 提案手法は,少数の MuJoCo 環境上でのSOTA 近傍の結果を示す。

Majority of off-policy reinforcement learning algorithms use overestimation bias control techniques. Most of these techniques rooted in heuristics, primarily addressing the consequences of overestimation rather than its fundamental origins. In this work we present a novel approach to the bias correction, similar in spirit to Double Q-Learning. We propose using a policy in form of a mixture with two components. Each policy component is maximized and assessed by separate networks, which removes any basis for the overestimation bias. Our approach shows promising near-SOTA results on a small set of MuJoCo environments.
翻訳日:2023-09-27 16:04:19 公開日:2023-09-25
# 水素原子による中性子散乱による核子の力範囲検出

Detecting the Force Range of Nucleons through Neutron Scattering with Hydrogen Atom ( http://arxiv.org/abs/2309.14470v1 )

ライセンス: Link先を確認
Mingzhao Xing and Libin Fu(参考訳) 中性子散乱は原子核の基本特性とその相互作用を支配する力を理解する上で重要な役割を果たしている。 本研究では,中性子,陽子,電子を含む三体系の文脈において,中性子と水素原子の散乱を研究するための新しい理論的アプローチを提案する。 半古典的手法を用いて時間依存Schr\"odinger Equation (TDSE)を解くことにより、電離電子の運動量スペクトルを探索し、散乱過程のダイナミクスを明らかにする。 我々のアプローチでは、核力が電子の状態と位置に与える影響を考慮し、基本粒子間の複雑な相互作用に光を遮る。 この結果は中性子散乱過程の性質に関する洞察を与え、3体散乱シナリオにおける核相互作用のより深い理解を与える。

Neutron scattering plays a pivotal role in understanding the fundamental properties of atomic nuclei and the forces that govern their interactions. In this study, we present a novel theoretical approach to investigate the scattering between the neutron and the hydrogen atom within the context of a three-body system involving a neutron, a proton and an electron. By employing a semi-classical methodology and solving the Time Dependent Schr\"odinger Equation (TDSE), we explore the momentum spectrum of ionized electrons and unveil the dynamics of the scattering process. Our approach considers the impact of nuclear forces on the electron's state and position, shedding light on the intricate interplay between the fundamental particles. The results offer insights into the nature of neutron scattering processes and provide a deeper understanding of nuclear interactions in a three-body scattering scenario.
翻訳日:2023-09-27 16:04:12 公開日:2023-09-25
# UniBEV:センサの欠如に対するロバスト性のための一様BEVエンコーダを用いたマルチモーダル3Dオブジェクト検出

UniBEV: Multi-modal 3D Object Detection with Uniform BEV Encoders for Robustness against Missing Sensor Modalities ( http://arxiv.org/abs/2309.14516v1 )

ライセンス: Link先を確認
Shiming Wang, Holger Caesar, Liangliang Nan, Julian F. P. Kooij(参考訳) マルチセンサーオブジェクト検出は、自動走行において活発な研究課題であるが、センサ入力の欠如(モダリティの欠如)に対するそのような検出モデルの堅牢性は、例えば、突然のセンサー故障による、未調査の重大な問題である。 本稿では,lidar+カメラ入力に加えて,lidarオンリーまたはカメラオンリー入力でも再トレーニングすることなく動作可能であることを目的とした,エンド・ツー・エンドのマルチモーダル3dオブジェクト検出フレームワークであるunibevを提案する。 UniBEVは、異なる入力の組み合わせを扱うための検出器ヘッドを容易にするために、利用可能な各モードから、よく整列したBird's Eye View (BEV)機能マップを作成することを目指している。 従来のBEVベースのマルチモーダル検出法とは異なり、全てのセンサモードは、ネイティブセンサー座標系からBEV機能への再サンプリングのための一様アプローチに従う。 さらに, 一般的な特徴連結だけでなく, チャネルワイド平均化, およびチャネル正規化ウェイトと呼ばれる重み付き平均化への一般化など, 様々な融合戦略のロバスト性について検討する。 その有効性を検証するため,UniBEVと最先端のBEVFusionとMetaBEVを,すべてのセンサ入力の組み合わせでnuScenes上で比較した。 この設定では、UniBEVは全ての入力の組み合わせで平均52.5 \%$ mAPを獲得し、ベースライン(BEVFusionでは平均43.5 \%$ mAP、MetaBEVでは平均48.7 \%$ mAP)よりも大幅に改善されている。 アブレーション研究は、正規結合に対する重み付け平均化と各モダリティのbevエンコーダ間のクエリの共有によるロバストネスの利点を示す。 私たちのコードは受理後に公開される。

Multi-sensor object detection is an active research topic in automated driving, but the robustness of such detection models against missing sensor input (modality missing), e.g., due to a sudden sensor failure, is a critical problem which remains under-studied. In this work, we propose UniBEV, an end-to-end multi-modal 3D object detection framework designed for robustness against missing modalities: UniBEV can operate on LiDAR plus camera input, but also on LiDAR-only or camera-only input without retraining. To facilitate its detector head to handle different input combinations, UniBEV aims to create well-aligned Bird's Eye View (BEV) feature maps from each available modality. Unlike prior BEV-based multi-modal detection methods, all sensor modalities follow a uniform approach to resample features from the native sensor coordinate systems to the BEV features. We furthermore investigate the robustness of various fusion strategies w.r.t. missing modalities: the commonly used feature concatenation, but also channel-wise averaging, and a generalization to weighted averaging termed Channel Normalized Weights. To validate its effectiveness, we compare UniBEV to state-of-the-art BEVFusion and MetaBEV on nuScenes over all sensor input combinations. In this setting, UniBEV achieves $52.5 \%$ mAP on average over all input combinations, significantly improving over the baselines ($43.5 \%$ mAP on average for BEVFusion, $48.7 \%$ mAP on average for MetaBEV). An ablation study shows the robustness benefits of fusing by weighted averaging over regular concatenation, and of sharing queries between the BEV encoders of each modality. Our code will be released upon paper acceptance.
翻訳日:2023-09-27 15:58:53 公開日:2023-09-25
# Next-Best-ViewとNext-Best-Trajectory Suggestionを用いた高精度かつインタラクティブなビジュアル慣性センサキャリブレーション

Accurate and Interactive Visual-Inertial Sensor Calibration with Next-Best-View and Next-Best-Trajectory Suggestion ( http://arxiv.org/abs/2309.14514v1 )

ライセンス: Link先を確認
Christopher L. Choi, Binbin Xu, and Stefan Leutenegger(参考訳) Visual-Inertial (VI)センサーは、ロボット工学、自動運転車、拡張現実および仮想現実アプリケーションで人気がある。 コンピュータビジョンや状態推定タスクに使用するためには、適切な校正が必要である。 しかし、キャリブレーションパラメータを観測可能なものにするために情報キャリブレーションデータを集めることは、非専門家にとって容易ではない。 本研究では,VVIセンサの内在性,外在性,時間的ずれを校正するためのNext-Best-ViewとNext-Best-Trajectoryによる情報キャリブレーションデータ収集において,グラフィカルユーザインタフェースと情報理論を用いて非専門家を誘導する新しいVIキャリブレーションパイプラインを提案する。 実験を通して,本手法は最先端の代替手法よりも高速で精度が高く,一貫性が高いことを示す。 具体的には,現状のVIオドメトリーとVI-SLAMを用いた場合のキャリブレーションにより,精度の高い推定結果が得られることを示す。 私たちのソフトウェアのソースコードは以下の通りです。

Visual-Inertial (VI) sensors are popular in robotics, self-driving vehicles, and augmented and virtual reality applications. In order to use them for any computer vision or state-estimation task, a good calibration is essential. However, collecting informative calibration data in order to render the calibration parameters observable is not trivial for a non-expert. In this work, we introduce a novel VI calibration pipeline that guides a non-expert with the use of a graphical user interface and information theory in collecting informative calibration data with Next-Best-View and Next-Best-Trajectory suggestions to calibrate the intrinsics, extrinsics, and temporal misalignment of a VI sensor. We show through experiments that our method is faster, more accurate, and more consistent than state-of-the-art alternatives. Specifically, we show how calibrations with our proposed method achieve higher accuracy estimation results when used by state-of-the-art VI Odometry as well as VI-SLAM approaches. The source code of our software can be found on: https://github.com/chutsu/yac.
翻訳日:2023-09-27 15:58:16 公開日:2023-09-25
# ビザンチン系耐食性PCAと低ランクマトリックス回収

Byzantine-Resilient Federated PCA and Low Rank Matrix Recovery ( http://arxiv.org/abs/2309.14512v1 )

ライセンス: Link先を確認
Ankit Pratap Singh and Namrata Vaswani(参考訳) 本研究では、各ノードがこの行列の推定にアクセスできるとき、対称行列の主部分空間(トップ r 特異ベクトルのスパン)をフェデレートした設定で推定する問題を考察する。 我々はこの問題をビザンツのレジリエントにする方法を研究する。 本稿では,バイザンチン耐性,通信効率,プライベートなアルゴリズムであるSubspace-Medianを提案する。 また, この問題に対する最も自然な解, 幾何的中央値に基づくフェデレーションパワー法の修正について検討し, 有用でない理由を説明する。 本研究では, 弾力的部分空間推定メタプロブレム結合主成分分析(PCA)と, 水平結合型ローランクカラムワイズセンシング(LRCCS)のスペクトル初期化ステップの2つの特殊事例について考察する。 これら2つの問題に対して、Subspace Medianは、通信効率も高いレジリエントなソリューションを提供しています。 両方の問題に対してMeansの拡張が開発された。 大規模なシミュレーション実験は、我々の理論的保証を裏付けるために用いられる。 第2の貢献は、ビザンチン系弾力性並列化RCCSのための完全なAltGDminベースのアルゴリズムであり、その保証である。 我々は,各ノードで計算された偏勾配を集約する平均推定器の幾何学的中央値を開発し,初期化にSubspace Medianを使用する。

In this work we consider the problem of estimating the principal subspace (span of the top r singular vectors) of a symmetric matrix in a federated setting, when each node has access to estimates of this matrix. We study how to make this problem Byzantine resilient. We introduce a novel provably Byzantine-resilient, communication-efficient, and private algorithm, called Subspace-Median, to solve it. We also study the most natural solution for this problem, a geometric median based modification of the federated power method, and explain why it is not useful. We consider two special cases of the resilient subspace estimation meta-problem - federated principal components analysis (PCA) and the spectral initialization step of horizontally federated low rank column-wise sensing (LRCCS) in this work. For both these problems we show how Subspace Median provides a resilient solution that is also communication-efficient. Median of Means extensions are developed for both problems. Extensive simulation experiments are used to corroborate our theoretical guarantees. Our second contribution is a complete AltGDmin based algorithm for Byzantine-resilient horizontally federated LRCCS and guarantees for it. We do this by developing a geometric median of means estimator for aggregating the partial gradients computed at each node, and using Subspace Median for initialization.
翻訳日:2023-09-27 15:57:50 公開日:2023-09-25
# DeepSpeed Ulysses:Extreme Long Sequence Transformer Modelのトレーニング実行のためのシステム最適化

DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models ( http://arxiv.org/abs/2309.14509v1 )

ライセンス: Link先を確認
Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Leon Song, Samyam Rajbhandari, Yuxiong He(参考訳) 典型的な Transformer-based large language model (LLM) の計算は、バッチサイズ、隠れ次元、層数、シーケンス長によって特徴付けられる。 これまで、llmトレーニングを加速するためのシステムは、バッチサイズのデータ並列化、隠れたサイズのテンソル並列化、モデルの深さや層に対するパイプライン並列化という、最初の3次元に焦点を当ててきた。 これらの広く研究されている並列性は、長列トランスフォーマーモデルにターゲットや最適化されていない。 長周期LLMの実用的ニーズを踏まえ、新しい注目がシーケンス並列性に向けられている。 しかし、シーケンス並列性における既存の作品は、メモリ通信の非効率によって制約され、長いシーケンスの大規模モデルに拡張性が制限される。 本稿では,非常に長いシーケンス長を持つ高効率かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な手法であるDeepSpeed-Ulyssesを紹介する。 deepspeed-ulysses at its core partitionsは入力データをシーケンス次元に沿って分割し、より効率的な全対全集団通信を用いて注意の計算を行う。 理論的な通信分析では、シーケンス長が増加するにつれて通信オーバーヘッドが発生するが、DeepSpeed-Ulyssesは、シーケンス長と計算装置が比例的に増加すると、一定の通信量を維持する。 さらに実験により,DeepSpeed-Ulyssesは既存のSOTAベースラインよりも4倍長いシーケンス長で2.5倍高速であることがわかった。

Computation in a typical Transformer-based large language model (LLM) can be characterized by batch size, hidden dimension, number of layers, and sequence length. Until now, system works for accelerating LLM training have focused on the first three dimensions: data parallelism for batch size, tensor parallelism for hidden size and pipeline parallelism for model depth or layers. These widely studied forms of parallelism are not targeted or optimized for long sequence Transformer models. Given practical application needs for long sequence LLM, renewed attentions are being drawn to sequence parallelism. However, existing works in sequence parallelism are constrained by memory-communication inefficiency, limiting their scalability to long sequence large models. In this work, we introduce DeepSpeed-Ulysses, a novel, portable and effective methodology for enabling highly efficient and scalable LLM training with extremely long sequence length. DeepSpeed-Ulysses at its core partitions input data along the sequence dimension and employs an efficient all-to-all collective communication for attention computation. Theoretical communication analysis shows that whereas other methods incur communication overhead as sequence length increases, DeepSpeed-Ulysses maintains constant communication volume when sequence length and compute devices are increased proportionally. Furthermore, experimental evaluations show that DeepSpeed-Ulysses trains 2.5X faster with 4X longer sequence length than the existing method SOTA baseline.
翻訳日:2023-09-27 15:57:23 公開日:2023-09-25
# 粒子加速器のための不確実性認識深層学習

Uncertainty Aware Deep Learning for Particle Accelerators ( http://arxiv.org/abs/2309.14502v1 )

ライセンス: Link先を確認
Kishansingh Rajput and Malachi Schram and Karthik Somayaji(参考訳) 分類および回帰アプリケーションのための標準的なディープラーニングモデルは、複雑なシステムの力学を捉えるのに最適である。 しかし、入力サンプルがトレーニングデータと似ていない場合、その予測は任意に不正確なものとなる。 距離認識の不確実性推定の実装は、これらのシナリオを検出し、その予測に関連する信頼度を提供するために使用できる。 本稿では,スパレーション中性子源加速器(sns)加速器(分類)における乱射ビーム予測にdgpa法(deep gaussian process approximation)を用い,fermi national accelerator lab (fnal) booster accelerator complex (regression) に対する不確実性を考慮したサーロゲートモデル(regression)を提案する。

Standard deep learning models for classification and regression applications are ideal for capturing complex system dynamics. However, their predictions can be arbitrarily inaccurate when the input samples are not similar to the training data. Implementation of distance aware uncertainty estimation can be used to detect these scenarios and provide a level of confidence associated with their predictions. In this paper, we present results from using Deep Gaussian Process Approximation (DGPA) methods for errant beam prediction at Spallation Neutron Source (SNS) accelerator (classification) and we provide an uncertainty aware surrogate model for the Fermi National Accelerator Lab (FNAL) Booster Accelerator Complex (regression).
翻訳日:2023-09-27 15:56:57 公開日:2023-09-25
# 洪水浸水マッピングにおけるIBMとNASAの地理空間基盤モデルの評価

Assessment of IBM and NASA's geospatial foundation model in flood inundation mapping ( http://arxiv.org/abs/2309.14500v1 )

ライセンス: Link先を確認
Wenwen Li, Hyunho Lee, Sizhe Wang, Chia-Yu Hsu, Samantha T. Arundel(参考訳) ビジョンファウンデーションモデルは、膨大な地理空間データから重要な画像の特徴を学習し抽出することで強力な画像解析を可能にする可能性から、GeoAI研究の新たなフロンティアである。 そこで本稿は,IBM-NASAのPrithviによる地空間基盤モデルの性能評価を行い,地空間解析の重要課題である洪水浸水マッピングを支援する。 このモデルは、浸水した地域のマッピング精度の観点から、一般的な畳み込みニューラルネットワークや視覚トランスフォーマーアーキテクチャと比較される。 ベンチマークデータセットであるsen1floods11を実験に使用し、そのモデルによって完全に認識されていないテストデータセットとデータセットの両方に基づいて、モデルの予測可能性、一般化性、転送性を評価する。 以上の結果から,プリスヴィモデルでは,未確認領域のセグメンテーションにおける性能上の優位性が示された。 また,マルチスケール表現学習の導入,高レベル画像解析タスクのためのエンドツーエンドパイプラインの開発,入力データバンドの柔軟性向上など,prithviモデルの改善領域も示唆された。

Vision foundation models are a new frontier in GeoAI research because of their potential to enable powerful image analysis by learning and extracting important image features from vast amounts of geospatial data. This paper evaluates the performance of the first-of-its-kind geospatial foundation model, IBM-NASA's Prithvi, to support a crucial geospatial analysis task: flood inundation mapping. This model is compared with popular convolutional neural network and vision transformer-based architectures in terms of mapping accuracy for flooded areas. A benchmark dataset, Sen1Floods11, is used in the experiments, and the models' predictability, generalizability, and transferability are evaluated based on both a test dataset and a dataset that is completely unseen by the model. Results show the impressive transferability of the Prithvi model, highlighting its performance advantages in segmenting flooded areas in previously unseen regions. The findings also suggest areas for improvement for the Prithvi model in terms of adopting multi-scale representation learning, developing more end-to-end pipelines for high-level image analysis tasks, and offering more flexibility in terms of input data bands.
翻訳日:2023-09-27 15:56:38 公開日:2023-09-25
# 社会心理学的要因を活用した強制合併シナリオにおける自律走行車両の対話型意思決定

Interaction-Aware Decision-Making for Autonomous Vehicles in Forced Merging Scenario Leveraging Social Psychology Factors ( http://arxiv.org/abs/2309.14497v1 )

ライセンス: Link先を確認
Xiao Li, Kaiwen Liu, H. Eric Tseng, Anouck Girard, Ilya Kolmanovsky(参考訳) 周辺交通における車両の意図を理解することは、高速道路の強制合併のような複雑な交通シナリオにおいて、自動運転車がその運転タスクを成功させる上で重要である。 本稿では,相互作用するドライバの社会的行動と個人的目的の両方を取り入れた行動モデルについて考察する。 このモデルを活用することで,ベイジアンフィルタを用いて他のドライバーの意図をオンラインで推定し,不確実な意図の下で近傍車両の挙動を予測する,後退水平制御に基づく意思決定戦略を開発する。 提案する意思決定戦略の有効性をゲーム理論コントローラと実世界のトラヒックデータセットと比較してシミュレーション研究に基づいて実証し,評価した。

Understanding the intention of vehicles in the surrounding traffic is crucial for an autonomous vehicle to successfully accomplish its driving tasks in complex traffic scenarios such as highway forced merging. In this paper, we consider a behavioral model that incorporates both social behaviors and personal objectives of the interacting drivers. Leveraging this model, we develop a receding-horizon control-based decision-making strategy, that estimates online the other drivers' intentions using Bayesian filtering and incorporates predictions of nearby vehicles' behaviors under uncertain intentions. The effectiveness of the proposed decision-making strategy is demonstrated and evaluated based on simulation studies in comparison with a game theoretic controller and a real-world traffic dataset.
翻訳日:2023-09-27 15:56:20 公開日:2023-09-25
# 時代分裂

Era Splitting ( http://arxiv.org/abs/2309.14496v1 )

ライセンス: Link先を確認
Timothy DeLise(参考訳) 実生活機械学習の問題は、ある時間から別の時間、あるいはある場所から別の場所へのデータの分散シフトを示す。 この行動は従来の経験的リスク最小化パラダイムの範囲を超えており、これは時間的および場所的にデータの分散を前提としている。 アウト・オブ・ディストリビューション(OOD)の一般化は、環境情報や時代的な情報をアルゴリズムに組み込んだ新しい理論とアルゴリズムによって、この現実に対処する。 これまで、ほとんどの研究は線形モデルやニューラルネットワークに焦点を当ててきた。 本研究では,決定木に対する2つの新たな分割基準を開発し,OOD一般化研究のアイデアを無作為な森林や勾配決定木などの決定木モデルに適用する。 新たな分割基準では、各データポイントに関連付けられたエラワイズ情報を使用して、ツリーベースのモデルで、データ内のすべての分離期間にわたって最適なスプリットポイントを見つけることができる。 新たな分割基準を詳述し、これらの新しい基準の利点を実証するユニークな実験を開発し、実験のアウトオブサンプルにおけるメトリクスを改善する。 新しい基準は、scikit-learnコードベースの最先端の勾配強化決定木モデルに組み込まれており、自由に利用できる。

Real life machine learning problems exhibit distributional shifts in the data from one time to another or from on place to another. This behavior is beyond the scope of the traditional empirical risk minimization paradigm, which assumes i.i.d. distribution of data over time and across locations. The emerging field of out-of-distribution (OOD) generalization addresses this reality with new theory and algorithms which incorporate environmental, or era-wise information into the algorithms. So far, most research has been focused on linear models and/or neural networks. In this research we develop two new splitting criteria for decision trees, which allow us to apply ideas from OOD generalization research to decision tree models, including random forest and gradient-boosting decision trees. The new splitting criteria use era-wise information associated with each data point to allow tree-based models to find split points that are optimal across all disjoint eras in the data, instead of optimal over the entire data set pooled together, which is the default setting. We describe the new splitting criteria in detail and develop unique experiments to showcase the benefits of these new criteria, which improve metrics in our experiments out-of-sample. The new criteria are incorporated into the a state-of-the-art gradient boosted decision tree model in the Scikit-Learn code base, which is made freely available.
翻訳日:2023-09-27 15:56:07 公開日:2023-09-25
# angular minkowski $p$- distance を用いたトークン周波数の分類

Classifying token frequencies using angular Minkowski $p$-distance ( http://arxiv.org/abs/2309.14495v1 )

ライセンス: Link先を確認
Oliver Urs Lenz, Chris Cornelis(参考訳) Angular Minkowski $p$-distance はユークリッド距離を他の Minkowski $p$-distance の定義に置き換えることで得られる異方性測度である。 cosine dis similarity はトークン周波数を含むデータセットで頻繁に使用され、angular minkowski $p$- distance は特定のタスクにとってさらに良い選択である可能性がある。 20ニューズグループデータセットに基づくケーススタディでは,古典的重み付き近隣住民のクラシファイション性能とファジィに近い近隣住民のクラシファイション性能を評価した。 さらに、ハイパーパラメータの$p$、データセットの次元の$m$、近隣の$k$、ウェイトの選択、分類器の選択との関係を分析する。 我々は,古典的コサインの相似性よりも,p$に対して適切な値を持つ角形Minkowski $p$-distanceを用いて,かなり高い分類性能を得ることができると結論付けた。

Angular Minkowski $p$-distance is a dissimilarity measure that is obtained by replacing Euclidean distance in the definition of cosine dissimilarity with other Minkowski $p$-distances. Cosine dissimilarity is frequently used with datasets containing token frequencies, and angular Minkowski $p$-distance may potentially be an even better choice for certain tasks. In a case study based on the 20-newsgroups dataset, we evaluate clasification performance for classical weighted nearest neighbours, as well as fuzzy rough nearest neighbours. In addition, we analyse the relationship between the hyperparameter $p$, the dimensionality $m$ of the dataset, the number of neighbours $k$, the choice of weights and the choice of classifier. We conclude that it is possible to obtain substantially higher classification performance with angular Minkowski $p$-distance with suitable values for $p$ than with classical cosine dissimilarity.
翻訳日:2023-09-27 15:55:44 公開日:2023-09-25
# フリーブルーム:LDMディレクタとLCMアニメーションを用いたゼロショットテキスト・ビデオ・ジェネレータ

Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator ( http://arxiv.org/abs/2309.14494v1 )

ライセンス: Link先を確認
Hanzhuo Huang, Yufan Feng, Cheng Shi, Lan Xu, Jingyi Yu, Sibei Yang(参考訳) text-to-videoは急速に成長している研究分野であり、テキストプロンプトと正確に一致したフレームの意味的、同一性、時間的コヒーレンス列を生成することを目的としている。 本研究では,データ効率とコスト効率を考慮したゼロショットテキスト対ビデオ生成に着目した。 動画像群よりも花の咲き方全体のような時間的意味論の豊かな描写を示すセマンティックコヒーレント映像を生成するために,大言語モデル(llms)をディレクターとして意味コヒーレンスプロンプトシーケンスを生成するとともに,事前学習された潜在拡散モデル(ldms)をアニメーターとして高忠実フレームを生成する新しいフリーブルームパイプラインを提案する。 さらに, 意味的コヒーレンスを維持しつつ, 時間的かつ同一のコヒーレンスを確保するために, 関節雑音サンプリング, ステップ認識注意シフト, デュアルパス補間など, 逆過程におけるldm適応に対する一連の注釈的修正を提案する。 ビデオデータやトレーニング要件がなければ、free-bloomは鮮明で高品質なビデオを生成する。 さらに、Free-Bloom は LDM ベースの拡張と自然に互換性がある。

Text-to-video is a rapidly growing research area that aims to generate a semantic, identical, and temporal coherence sequence of frames that accurately align with the input text prompt. This study focuses on zero-shot text-to-video generation considering the data- and cost-efficient. To generate a semantic-coherent video, exhibiting a rich portrayal of temporal semantics such as the whole process of flower blooming rather than a set of "moving images", we propose a novel Free-Bloom pipeline that harnesses large language models (LLMs) as the director to generate a semantic-coherence prompt sequence, while pre-trained latent diffusion models (LDMs) as the animator to generate the high fidelity frames. Furthermore, to ensure temporal and identical coherence while maintaining semantic coherence, we propose a series of annotative modifications to adapting LDMs in the reverse process, including joint noise sampling, step-aware attention shift, and dual-path interpolation. Without any video data and training requirements, Free-Bloom generates vivid and high-quality videos, awe-inspiring in generating complex scenes with semantic meaningful frame sequences. In addition, Free-Bloom is naturally compatible with LDMs-based extensions.
翻訳日:2023-09-27 15:55:26 公開日:2023-09-25
# 道路利用者の行動に及ぼすラウンドアバウンド設計の影響:教師なし機械学習の適用によるラウンドアバウンドの事例研究

Effect of roundabout design on the behavior of road users: A case study of roundabouts with application of Unsupervised Machine Learning ( http://arxiv.org/abs/2309.14540v1 )

ライセンス: Link先を確認
Tasnim M. Dwekat, Ayda A. Almsre, and Huthaifa I. Ashqar(参考訳) 本研究の目的は、ローターの性能を評価し、ローターと相互作用する人間のドライバーの挙動を研究することである。 近年、ローターは、安全、キャパシティ、環境上の優位性、そして輸送と統合のための安全で流動的な車両の流れを提供するため、各国間で利用が増えている。 その結果、曲がりくねった交差点の速度、進入速度、そして速度への影響は、道路利用者のレーティングに依存することが判明した。 我々の研究では、(バス、車、トラック)ドライバーに特別な注意が払われ、その行動は(保守的、正常、攻撃的)に分類された。 運転行動の予測と認識は重要な課題である。 そこで本研究では,これらの分類器に対するラウンドアバウンドの影響について検討し,ラウンドアバウンド交差点における道路利用者の行動予測手法を開発することを目的とする。 安全は主にローターの2つの特性に起因する。 第一に、ドライバーの行動の分類と評価のために収集・処理されたデータを比較し、ドライバー(バス、車、トラック)の速度を比較することで、ラウンドアバウンドを横断するモーターの速度はバスやトラックよりも適していた。 車は小さく、ローターのすべての部分が見えるので、私たちは見ました。 そのため、あらゆる方向から来るドライバーは減速し、事故発生時の反応と結果の緩和により多くの時間を割く必要がある。 第二に、衝突の少ない流れ(および衝突点)では、ドライバーは他の車両の左(右利きの交通量)だけを見る必要があり、異なる方向の注意を分ける必要がなくなるため、ラウンドアバウンドを横断する作業が簡単になる。

This research aims to evaluate the performance of the rotors and study the behavior of the human driver in interacting with the rotors. In recent years, rotors have been increasingly used between countries due to their safety, capacity, and environmental advantages, and because they provide safe and fluid flows of vehicles for transit and integration. It turns out that roundabouts can significantly reduce speed at twisting intersections, entry speed and the resulting effect on speed depends on the rating of road users. In our research, (bus, car, truck) drivers were given special attention and their behavior was categorized into (conservative, normal, aggressive). Anticipating and recognizing driver behavior is an important challenge. Therefore, the aim of this research is to study the effect of roundabouts on these classifiers and to develop a method for predicting the behavior of road users at roundabout intersections. Safety is primarily due to two inherent features of the rotor. First, by comparing the data collected and processed in order to classify and evaluate drivers' behavior, and comparing the speeds of the drivers (bus, car and truck), the speed of motorists at crossing the roundabout was more fit than that of buses and trucks. We looked because the car is smaller and all parts of the rotor are visible to it. So drivers coming from all directions have to slow down, giving them more time to react and mitigating the consequences in the event of an accident. Second, with fewer conflicting flows (and points of conflict), drivers only need to look to their left (in right-hand traffic) for other vehicles, making their job of crossing the roundabout easier as there is less need to split attention between different directions.
翻訳日:2023-09-27 15:47:59 公開日:2023-09-25
# 手術ビデオのための動的シーングラフ表現

Dynamic Scene Graph Representation for Surgical Video ( http://arxiv.org/abs/2309.14538v1 )

ライセンス: Link先を確認
Felix Holm, Ghazal Ghazaei, Tobias Czempiel, Ege \"Ozsoy, Stefan Saur, Nassir Navab(参考訳) 顕微鏡または内視鏡画像装置から撮影された手術ビデオは、豊富なが複雑な情報源であり、様々なツールや解剖学的構造が長い時間で利用される。 重要なワークフロー情報を含み、多くの手順で一般的に記録されているにもかかわらず、外科的ワークフロー理解のための外科的ビデオの使用は依然として限られている。 本研究では,すべての解剖学的構造,ツール,およびそれらの相互作用をエンコードしながら,手術ビデオを表現するためのより包括的,意味的に有意義で可読な方法としてシーングラフを利用する。 ソリューションの影響を適切に評価するために、cadisと白内障データセットのセマンティックセグメンテーションからシーングラフデータセットを作成します。 本稿では,グラフ畳み込みネットワーク(gcns)を用いて,手術下下流の作業,例えば外科的ワークフロー認識や競合性能に対処し,シーングラフを活用できることを実証する。 さらに, 臨床現場において重要なモデル決定の説明可能性とロバスト性に関して, 外科的シーングラフの有用性を示す。

Surgical videos captured from microscopic or endoscopic imaging devices are rich but complex sources of information, depicting different tools and anatomical structures utilized during an extended amount of time. Despite containing crucial workflow information and being commonly recorded in many procedures, usage of surgical videos for automated surgical workflow understanding is still limited. In this work, we exploit scene graphs as a more holistic, semantically meaningful and human-readable way to represent surgical videos while encoding all anatomical structures, tools, and their interactions. To properly evaluate the impact of our solutions, we create a scene graph dataset from semantic segmentations from the CaDIS and CATARACTS datasets. We demonstrate that scene graphs can be leveraged through the use of graph convolutional networks (GCNs) to tackle surgical downstream tasks such as surgical workflow recognition with competitive performance. Moreover, we demonstrate the benefits of surgical scene graphs regarding the explainability and robustness of model decisions, which are crucial in the clinical setting.
翻訳日:2023-09-27 15:47:17 公開日:2023-09-25
# 相対論的量子放送チャンネル

A relativistic quantum broadcast channel ( http://arxiv.org/abs/2309.14535v1 )

ライセンス: Link先を確認
Ian Bernardes Barcellos and Andr\'e G. S. Landulfo(参考訳) 量子スカラー場を通信チャネルとして,一般の双曲時空における3つの観測者間の古典的および量子的情報の伝達について検討した。 我々は、あるオブザーバ(ベンダー)が他の2人のオブザーバ(受信者)に(古典的および量子的)情報を送信したいと考える量子放送チャネルのモデルを構築する。 それらはいくつかの局所化された2レベル量子システム(量子ビット)を持ち、入力を準備したり、このチャネルの出力を受け取るために量子場と相互作用することができる。 場は任意の準自由状態にあるはずであり、3つの観測者は任意の運動状態にあるかもしれないし、場の正準可換関係の表現の選択は行われない。 フィールドとキュービットの相互作用は、このチャネルを非摂動的方法で記述する写像を得ることを可能にする。 我々は、このチャネルを通して情報を伝達できるレートを分析し、そのようなレートに対する相対論的因果関係の影響を調べることで結論付ける。

We investigate the transmission of classical and quantum information between three observers in a general globally hyperbolic spacetime using a quantum scalar field as a communication channel. We build a model for a quantum broadcast channel in which one observer (sender) wishes to transmit (classical and quantum) information to two other observers (receivers). They possess some localized two-level quantum system (a qubit) that can interact with the quantum field in order to prepare an input or receive the output of this channel. The field is supposed to be in an arbitrary quasifree state, the three observers may be in arbitrary states of motion, and no choice of representation of the field canonical commutation relations is made. The interaction of the field and qubits is such that it allows us to obtain the map that describes this channel in a non-perturbative manner. We conclude by analyzing the rates at which information can be transmitted through this channel and by investigating relativistic causality effects on such rates.
翻訳日:2023-09-27 15:47:00 公開日:2023-09-25
# 画素を囲むプロトタイプ部品ネットワーク

Pixel-Grounded Prototypical Part Networks ( http://arxiv.org/abs/2309.14531v1 )

ライセンス: Link先を確認
Zachariah Carmichael, Suhas Lohit, Anoop Cherian, Michael Jones, Walter Scheirer(参考訳) 原型部分ニューラルネットワーク(ProtoPartNNs)、すなわちProtoPNETとその派生体は、機械学習に対して本質的に解釈可能なアプローチである。 彼らのプロトタイプの学習方式は、フォームの直感的な説明を可能にする。 しかし、これは実際にそう見えるのでしょうか? 本研究では,過去の作業における対象部分の局所化と関連する熱マップがなぜ誤解を招くのかを考察する。 既存のProtoPartNNは、オブジェクト部分にローカライズするのではなく、画像全体をローカライズする。 これらの根底にある問題からの減退は、可視化の多彩な性質と直観への過度な依存に起因すると我々は主張する。 これらの問題を緩和するため,我々は,有意義な局所化のための新しい受容的場に基づくアーキテクチャ制約と,protopartnnの原理的画素空間マッピングを考案する。 解釈性を向上させるため,分類ヘッドの簡略化など,さらなるアーキテクチャ改善を提案する。 また、トレーニング中の一般化を評価するために、テストセットではなく検証セットの使用など、protopnetとその派生にも追加の修正を加えます。 我々のアプローチであるPIXPNET(Pixel-grounded Prototypeal part Network)は、プロトタイプオブジェクト部品を真に学習し、ローカライズする唯一のProtoPartNNである。 PIXPNETは精度を犠牲にすることなく、定量的に解釈可能性を向上させることを実証した。

Prototypical part neural networks (ProtoPartNNs), namely PROTOPNET and its derivatives, are an intrinsically interpretable approach to machine learning. Their prototype learning scheme enables intuitive explanations of the form, this (prototype) looks like that (testing image patch). But, does this actually look like that? In this work, we delve into why object part localization and associated heat maps in past work are misleading. Rather than localizing to object parts, existing ProtoPartNNs localize to the entire image, contrary to generated explanatory visualizations. We argue that detraction from these underlying issues is due to the alluring nature of visualizations and an over-reliance on intuition. To alleviate these issues, we devise new receptive field-based architectural constraints for meaningful localization and a principled pixel space mapping for ProtoPartNNs. To improve interpretability, we propose additional architectural improvements, including a simplified classification head. We also make additional corrections to PROTOPNET and its derivatives, such as the use of a validation set, rather than a test set, to evaluate generalization during training. Our approach, PIXPNET (Pixel-grounded Prototypical part Network), is the only ProtoPartNN that truly learns and localizes to prototypical object parts. We demonstrate that PIXPNET achieves quantifiably improved interpretability without sacrificing accuracy.
翻訳日:2023-09-27 15:46:44 公開日:2023-09-25
# 医療におけるAIのリスク: 総合的な文献レビューと研究フレームワーク

Risk of AI in Healthcare: A Comprehensive Literature Review and Study Framework ( http://arxiv.org/abs/2309.14530v1 )

ライセンス: Link先を確認
Apoorva Muley, Prathamesh Muzumdar, George Kurian, and Ganga Prasad Basyal(参考訳) 本研究は,医療分野におけるAIリスクに着目した研究の流れを網羅的に検討し,その分野の異なるジャンルを探求することを目的とする。 臨床データリスク、技術的リスク、社会倫理リスクの3つの主要なAIリスクを識別するために、39の論文を慎重に分析するために選択基準が採用された。 選考基準は雑誌のランキングとインパクトファクターに基づいていた。 この研究は、将来のヘルスケア研究者に貴重なリソースを提供し、医療環境におけるAIの実装によって引き起こされる複雑な課題を包括的に理解することを目指している。 この研究は、これらのジャンルを分類し、解明することにより、実証的な質的、定量的研究の発展を促進し、医療におけるAI関連のリスクに効果的に対処するためのエビデンスベースのアプローチを促進することを目的としている。 この取り組みは、リスク軽減戦略の定式化を通知し、医療実践におけるAIテクノロジの安全かつ効率的な統合を保証する、堅牢な知識基盤の構築に寄与する。 したがって、より良い効率的なAIシステムを構築し、リスクを軽減するために、医療におけるAIリスクを研究することが重要である。

This study conducts a thorough examination of the research stream focusing on AI risks in healthcare, aiming to explore the distinct genres within this domain. A selection criterion was employed to carefully analyze 39 articles to identify three primary genres of AI risks prevalent in healthcare: clinical data risks, technical risks, and socio-ethical risks. Selection criteria was based on journal ranking and impact factor. The research seeks to provide a valuable resource for future healthcare researchers, furnishing them with a comprehensive understanding of the complex challenges posed by AI implementation in healthcare settings. By categorizing and elucidating these genres, the study aims to facilitate the development of empirical qualitative and quantitative research, fostering evidence-based approaches to address AI-related risks in healthcare effectively. This endeavor contributes to building a robust knowledge base that can inform the formulation of risk mitigation strategies, ensuring safe and efficient integration of AI technologies in healthcare practices. Thus, it is important to study AI risks in healthcare to build better and efficient AI systems and mitigate risks.
翻訳日:2023-09-27 15:46:20 公開日:2023-09-25
# ファクチュアル強化RLHFによる大規模マルチモーダルモデルのアライメント

Aligning Large Multimodal Models with Factually Augmented RLHF ( http://arxiv.org/abs/2309.14525v1 )

ライセンス: Link先を確認
Zhiqing Sun, Sheng Shen, Shengcao Cao, Haotian Liu, Chunyuan Li, Yikang Shen, Chuang Gan, Liang-Yan Gui, Yu-Xiong Wang, Yiming Yang, Kurt Keutzer, Trevor Darrell(参考訳) 大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「ハロシン化(hallucination)」を引き起こし、コンテキスト内のマルチモーダル情報に基づかないテキスト出力を生成する。 マルチモーダル・ミスアリゲーション問題に対処するために、テキスト領域から人間のフィードバック(rlhf)から視覚言語アライメントのタスクへの強化学習を適応させ、そこでは人間の注釈者が2つの反応を比較し、より幻覚的な反応をピンポイントし、視覚言語モデルはシミュレーションされた人間の報酬を最大化するために訓練される。 本稿では,新たなアライメントアルゴリズムであるFactually Augmented RLHFを提案する。このアルゴリズムは,画像キャプションやグラウンドトルース・マルチチョイスオプションなどの事実情報を付加することで,RLHFにおける報酬ハッキング現象を緩和し,さらに性能を向上させる。 また,従来利用可能な画像テキストペアを用いたgpt-4生成トレーニングデータ(視覚命令チューニング)も強化し,モデルの汎用性を向上させる。 提案手法を実世界のシナリオで評価するために,幻覚の鎮痛に着目した新しい評価ベンチマークMMHAL-BENCHを開発した。 RLHFでトレーニングした最初のLMMとして、テキストのみのGPT-4の94%のパフォーマンスレベルでLLaVA-Benchデータセットに顕著な改善(以前のベストメソッドでは87%しか達成できないが)を達成し、MMHAL-BENCHでは他のベースラインよりも60%改善した。 コード、モデル、データをhttps://llava-rlhf.github.ioでオープンソース化しました。

Large Multimodal Models (LMM) are built across modalities and the misalignment between two modalities can result in "hallucination", generating textual outputs that are not grounded by the multimodal information in context. To address the multimodal misalignment issue, we adapt the Reinforcement Learning from Human Feedback (RLHF) from the text domain to the task of vision-language alignment, where human annotators are asked to compare two responses and pinpoint the more hallucinated one, and the vision-language model is trained to maximize the simulated human rewards. We propose a new alignment algorithm called Factually Augmented RLHF that augments the reward model with additional factual information such as image captions and ground-truth multi-choice options, which alleviates the reward hacking phenomenon in RLHF and further improves the performance. We also enhance the GPT-4-generated training data (for vision instruction tuning) with previously available human-written image-text pairs to improve the general capabilities of our model. To evaluate the proposed approach in real-world scenarios, we develop a new evaluation benchmark MMHAL-BENCH with a special focus on penalizing hallucinations. As the first LMM trained with RLHF, our approach achieves remarkable improvement on the LLaVA-Bench dataset with the 94% performance level of the text-only GPT-4 (while previous best methods can only achieve the 87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We opensource our code, model, data at https://llava-rlhf.github.io.
翻訳日:2023-09-27 15:46:00 公開日:2023-09-25
# スパイクニューラルネットワークにおけるSmooth Exact Gradient Descent Learning

Smooth Exact Gradient Descent Learning in Spiking Neural Networks ( http://arxiv.org/abs/2309.14523v1 )

ライセンス: Link先を確認
Christian Klos, Raoul-Martin Memmesheimer(参考訳) ニューラルネットワークはバックプロパゲーションによって高度に訓練される。 しかし、スパイクニューラルネットワークでは、スパイクの突然の破壊的(非)出現により、同様の勾配降下スキームが禁止されているように思われる。 本稿では,連続的に変化するスパイキングダイナミクスに基づく勾配降下学習について示す。 これらは、他のニューロンに影響を与えない実験の最後にスパイクが消えて現れるニューロンモデルによって生成される。 これにより勾配に基づくスパイクの追加と除去が可能になる。 学習方式を応用して,スパイクを希望する時間,すなわち単一ニューロンや再帰的ネットワークに誘導し,連続的に移動させる。 さらに、深い初期サイレントネットワークを用いて、ベンチマークタスクにおける競合性能を実現する。 離散的なスパイクにもかかわらず,非破壊的学習がいかに可能かを示す。

Artificial neural networks are highly successfully trained with backpropagation. For spiking neural networks, however, a similar gradient descent scheme seems prohibitive due to the sudden, disruptive (dis-)appearance of spikes. Here, we demonstrate exact gradient descent learning based on spiking dynamics that change only continuously. These are generated by neuron models whose spikes vanish and appear at the end of a trial, where they do not influence other neurons anymore. This also enables gradient-based spike addition and removal. We apply our learning scheme to induce and continuously move spikes to desired times, in single neurons and recurrent networks. Further, it achieves competitive performance in a benchmark task using deep, initially silent networks. Our results show how non-disruptive learning is possible despite discrete spikes.
翻訳日:2023-09-27 15:45:24 公開日:2023-09-25
# 標準試験におけるchatgpt性能 -学習者のための戦略の提案-

ChatGPT Performance on Standardized Testing Exam -- A Proposed Strategy for Learners ( http://arxiv.org/abs/2309.14519v1 )

ライセンス: Link先を確認
Umer Farooq, Saira Anwar(参考訳) 本研究は,ChatGPTの問題解決能力とその標準化されたテスト準備への応用について,GRE定量試験を中心に検討する。 先行研究は、様々な分野にまたがる研究へのアプローチを革新する学術的目的にchatgptを利用する大きな可能性を見出している。 GRE定量領域においてChatGPTが様々な質問タイプに対してどのように機能するか,また,質問の修正がその精度に与える影響について検討する。 具体的には、この研究は2つの研究課題に対処した。 1.様々なコンテンツ領域におけるGREに基づく量的質問への回答におけるChatGPTの効果 2.ChatGPTの精度は質問プロンプトの変更によってどう変わるか? ランダムに選択された100のGRE量質問からなるデータセットを,ETSの公式ガイドから収集した。 最初の研究課題に答えるために定量的評価を用い、t-test を用いて即時修正とChatGPT の精度の統計的関連について検討した。 その結果,ChatGPTの精度は,命令プライミングと文脈的プロンプトを適用して統計的に向上した。 ChatGPTは修正プロンプトで84%の精度を示し、元のデータでは69%であった。 この研究は、ChatGPTが特定の疑問に苦しんだ領域と、GREのような標準化されたテストの準備にどのように修正が役立つかを論じ、迅速な修正のための今後の方向性を提供する。

This study explores the problem solving capabilities of ChatGPT and its prospective applications in standardized test preparation, focusing on the GRE quantitative exam. Prior research has shown great potential for the utilization of ChatGPT for academic purposes in revolutionizing the approach to studying across various disciplines. We investigate how ChatGPT performs across various question types in the GRE quantitative domain, and how modifying question prompts impacts its accuracy. More specifically this study addressed two research questions: 1. How does ChatGPT perform in answering GRE-based quantitative questions across various content areas? 2. How does the accuracy of ChatGPT vary with modifying the question prompts? The dataset consisting of 100 randomly selected GRE quantitative questions was collected from the ETS official guide to GRE test preparation. We used quantitative evaluation to answer our first research question, and t-test to examine the statistical association between prompt modification and ChatGPT's accuracy. Results show a statistical improvement in the ChatGPT's accuracy after applying instruction priming and contextual prompts to the original questions. ChatGPT showed 84% accuracy with the modified prompts compared to 69% with the original data. The study discusses the areas where ChatGPT struggled with certain questions and how modifications can be helpful for preparing for standardized tests like GRE and provides future directions for prompt modifications.
翻訳日:2023-09-27 15:45:12 公開日:2023-09-25
# detach-rocket:ランダム畳み込みカーネルを用いた時系列分類のための逐次特徴選択

Detach-ROCKET: Sequential feature selection for time series classification with random convolutional kernels ( http://arxiv.org/abs/2309.14518v1 )

ライセンス: Link先を確認
Gonzalo Uribarri, Federico Barone, Alessio Ansuini, Erik Frans\'en(参考訳) 時系列分類は医学、金融、環境科学、製造業など多くの分野において不可欠であり、疾患診断、異常検出、株価予測などのタスクを可能にする。 Recurrent Neural NetworksやInceptionTimeのような機械学習モデルは、多くのアプリケーションで成功したが、集中的なトレーニング要件のためにスケーラビリティの制限に直面している。 これに対処するために、rocketやその派生といったランダム畳み込みカーネルモデルが登場し、時系列データから多数のランダムに生成された特徴を利用して、トレーニングを簡素化し、最先端のパフォーマンスを達成する。 しかし、そのランダムな性質のため、生成した特徴の多くは冗長あるいは非形式的であり、不要な計算負荷を加え、一般化を促進する。 本稿では、これらの非意味的特徴を識別し、引き起こす方法として、逐次的特徴分離(Sequential Feature Detachment:SFD)を紹介する。 SFDは特徴量の推定にモデル係数を使用し、従来のアルゴリズムとは異なり、複雑なハイパーパラメータチューニングを必要とせずに大きな特徴集合を処理できる。 UCRアーカイブでのテストでは、SFDはオリジナルの機能の10\%$でモデルを生成でき、テストセットの精度は0.2\%$で改善されている。 また,Detach-ROCKETと呼ばれる特徴量とモデル精度の最適バランスを決定するためのエンドツーエンドの手法を提案する。 最大のバイナリucrデータセットに適用すると、detach-rocketはモデルサイズを98.9\%$に削減し、テスト精度を0.6\%$に向上できる。

Time series classification is essential in many fields, such as medicine, finance, environmental science, and manufacturing, enabling tasks like disease diagnosis, anomaly detection, and stock price prediction. Machine learning models like Recurrent Neural Networks and InceptionTime, while successful in numerous applications, can face scalability limitations due to intensive training requirements. To address this, random convolutional kernel models such as Rocket and its derivatives have emerged, simplifying training and achieving state-of-the-art performance by utilizing a large number of randomly generated features from time series data. However, due to their random nature, most of the generated features are redundant or non-informative, adding unnecessary computational load and compromising generalization. Here, we introduce Sequential Feature Detachment (SFD) as a method to identify and prune these non-essential features. SFD uses model coefficients to estimate feature importance and, unlike previous algorithms, can handle large feature sets without the need for complex hyperparameter tuning. Testing on the UCR archive demonstrates that SFD can produce models with $10\%$ of the original features while improving $0.2\%$ the accuracy on the test set. We also present an end-to-end procedure for determining an optimal balance between the number of features and model accuracy, called Detach-ROCKET. When applied to the largest binary UCR dataset, Detach-ROCKET is capable of reduce model size by $98.9\%$ and increases test accuracy by $0.6\%$.
翻訳日:2023-09-27 15:44:50 公開日:2023-09-25
# 言語に注目して - 大規模言語モデルとコンテンツモデレーション

Watch Your Language: Large Language Models and Content Moderation ( http://arxiv.org/abs/2309.14517v1 )

ライセンス: Link先を確認
Deepak Kumar, Yousef AbuHashem, Zakir Durumeric(参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクを実行する能力によって、人気が高まっている。 テキストベースのコンテンツモデレーションは、最近の熱意を受けたllmのユースケースの1つだが、コンテンツモデレーション設定におけるllmのパフォーマンスに関する研究はほとんどない。 本研究では,ルールベースのコミュニティ・モデレーションと有害なコンテンツ検出という2つの共通コンテンツモデレーションタスクに対して,現代の商用LCM (GPT-3, GPT-3.5, GPT-4) のスイートを評価する。 ルールベースのコミュニティモデレーションでは、95のRedditサブコミュニティからルールを誘導される95のLCMモデレーションエンジンを構築し、ルールベースのモデレーションでは多くのコミュニティで有効であり、中央値の精度は64%、中央値の精度は83%である。 毒性検出では、LCMは既存の市販毒性分類器よりも著しく優れていた。 しかし,近年のモデルサイズの増加は毒性検出に限界的な利点しか与えられず,llmによる毒性検出タスクの性能向上の可能性も示唆された。 我々は、LCMとコンテンツモデレーションの研究における今後の研究の道筋を概説する。

Large language models (LLMs) have exploded in popularity due to their ability to perform a wide array of natural language tasks. Text-based content moderation is one LLM use case that has received recent enthusiasm, however, there is little research investigating how LLMs perform in content moderation settings. In this work, we evaluate a suite of modern, commercial LLMs (GPT-3, GPT-3.5, GPT-4) on two common content moderation tasks: rule-based community moderation and toxic content detection. For rule-based community moderation, we construct 95 LLM moderation-engines prompted with rules from 95 Reddit subcommunities and find that LLMs can be effective at rule-based moderation for many communities, achieving a median accuracy of 64% and a median precision of 83%. For toxicity detection, we find that LLMs significantly outperform existing commercially available toxicity classifiers. However, we also find that recent increases in model size add only marginal benefit to toxicity detection, suggesting a potential performance plateau for LLMs on toxicity detection tasks. We conclude by outlining avenues for future work in studying LLMs and content moderation.
翻訳日:2023-09-27 15:44:07 公開日:2023-09-25
# 自動車用ILQR軌道計画への高次ダイナミクスと道路コンプライアンスの統合

Integrating Higher-Order Dynamics and Roadway-Compliance into Constrained ILQR-based Trajectory Planning for Autonomous Vehicles ( http://arxiv.org/abs/2309.14566v1 )

ライセンス: Link先を確認
Hanxiang Li, Jiaqiao Zhang, Sheng Zhu, Dongjian Tang, Donghao Xu(参考訳) 本稿では,自動走行車(APV)の軌道計画の進歩について述べる。 軌道計画は、車両力学、制約、検出された障害物などの様々な要因を考慮して、APVのグローバルな最適経路を作成することを目的としている。 従来の手法はサンプリング法と最適化アルゴリズムを組み合わせており、後者はグローバルな認識を保証し、後者は局所的な最適化を行う。 特に、制約付き反復線形擬似レギュレータ(CILQR)最適化アルゴリズムが最近登場し、APVシステムに適応し、安全性と快適性の向上を強調している。 しかしながら、既存の車両用自転車キネマティックモデルを用いた実装では、制御可能な軌道を保証できない。 我々は、曲率と長手ジャークの1階および2階微分を含む高階項を組み込むことで、このモデルを増強する。 この包含によって、コストと制約設計のリッチな表現が容易になります。 道路のコンプライアンスにも対処し、車線境界と方向への順守を強調しています。 最後に、CILQRが実現可能な初期軌道への依存性に対処するために、緩やかな対数障壁関数を採用する。 提案手法はシミュレーションと実世界の実験によりリアルタイムで検証される。

This paper addresses the advancements in on-road trajectory planning for Autonomous Passenger Vehicles (APV). Trajectory planning aims to produce a globally optimal route for APVs, considering various factors such as vehicle dynamics, constraints, and detected obstacles. Traditional techniques involve a combination of sampling methods followed by optimization algorithms, where the former ensures global awareness and the latter refines for local optima. Notably, the Constrained Iterative Linear Quadratic Regulator (CILQR) optimization algorithm has recently emerged, adapted for APV systems, emphasizing improved safety and comfort. However, existing implementations utilizing the vehicle bicycle kinematic model may not guarantee controllable trajectories. We augment this model by incorporating higher-order terms, including the first and second-order derivatives of curvature and longitudinal jerk. This inclusion facilitates a richer representation in our cost and constraint design. We also address roadway compliance, emphasizing adherence to lane boundaries and directions, which past work often overlooked. Lastly, we adopt a relaxed logarithmic barrier function to address the CILQR's dependency on feasible initial trajectories. The proposed methodology is then validated through simulation and real-world experiment driving scenes in real time.
翻訳日:2023-09-27 15:37:51 公開日:2023-09-25
# 生成エッシャーメッシュ

Generative Escher Meshes ( http://arxiv.org/abs/2309.14564v1 )

ライセンス: Link先を確認
Noam Aigerman and Thibault Groueix(参考訳) 本稿では, 床, モザイク, セラミックス, M.C.エッシャーの作品など, 周期的, 反復的, タイル可能な2Dアートを製作するための, 完全自動, テキスト誘導型生成法を提案する。 従来のシームレスなテクスチャの概念である2乗画像とは対照的に,本手法では,同じオブジェクトのコピーを繰り返すだけで構成される2乗でないタイリングを生成する。 これは、2Dメッシュの幾何学と色の両方を最適化し、望まれる物体の形状と外観の2乗でないタイルを生成する。 任意の対称群に対して、すべての可能なタイル可能な形状の空間の制約なし、微分可能パラメータ化(unconstrained, differentiable parameterization of the space of all possible tileable shapes for a given symmetry group)である。 すなわち、2次元メッシュマッピング技術で用いられるラプラシアンの修正Orbifold Tutte Embeddingは、選択した平面対称群に対して可能な全てのタイリング構成を実現できることを示す。 したがって、メッシュのタイル形状とテクスチャを最適化可能なパラメータとみなし、テクスチャ化されたメッシュを微分可能なレンダラでレンダリングする。 トレーニングされた画像拡散モデルを用いて、得られた画像の損失を定義し、テキストプロンプトと一致する外観に基づいてメッシュのパラメータを更新する。 本手法は,様々な周期的タイリングパターンに対して,非自明なタイルを用いて,妥当で魅力的な結果が得られることを示す。

This paper proposes a fully-automatic, text-guided generative method for producing periodic, repeating, tile-able 2D art, such as the one seen on floors, mosaics, ceramics, and the work of M.C. Escher. In contrast to the standard concept of a seamless texture, i.e., square images that are seamless when tiled, our method generates non-square tilings which comprise solely of repeating copies of the same object. It achieves this by optimizing both geometry and color of a 2D mesh, in order to generate a non-square tile in the shape and appearance of the desired object, with close to no additional background details. We enable geometric optimization of tilings by our key technical contribution: an unconstrained, differentiable parameterization of the space of all possible tileable shapes for a given symmetry group. Namely, we prove that modifying the laplacian used in a 2D mesh-mapping technique - Orbifold Tutte Embedding - can achieve all possible tiling configurations for a chosen planar symmetry group. We thus consider both the mesh's tile-shape and its texture as optimizable parameters, rendering the textured mesh via a differentiable renderer. We leverage a trained image diffusion model to define a loss on the resulting image, thereby updating the mesh's parameters based on its appearance matching the text prompt. We show our method is able to produce plausible, appealing results, with non-trivial tiles, for a variety of different periodic tiling patterns.
翻訳日:2023-09-27 15:37:32 公開日:2023-09-25
# 弱い監督下でのデータ選択の統計理論に向けて

Towards a statistical theory of data selection under weak supervision ( http://arxiv.org/abs/2309.14563v1 )

ライセンス: Link先を確認
Germain Kolossov, Andrea Montanari, Pulkit Tandon(参考訳) サイズが$n$の例を考えると、統計的な推定や学習に使用される小サイズの$n<n$のサブサンプルを選択することがしばしば有用である。 このようなデータ選択ステップは、データラベリングの要件と学習の計算複雑性を減らすのに有用である。 ラベル付けされていないサンプル$\{{\boldsymbol x}_i\}_{i\le N}$を$N$と仮定し、ランダムな推測よりも$y_i$のラベルを予測できる「代理モデル」へのアクセスを与える。 当社の目標は、サンプルのサブセットを$|g|=n<n$というサイズで$\{{\boldsymbol x}_i\}_{i\in g}$で指定することにあります。 次に、このセットのラベルを取得し、正規化された経験的リスク最小化によるモデルのトレーニングに使用します。 実データと合成データに関する数値実験と、低次元および高次元の漸近論に基づく数学的導出の混合を用いて、以下を示す。 (i)$~dataのセレクションは非常に効果的で、特にサンプル全体のトレーニングを打ち負かす場合があります。 (ii)$~あるデータ選択法(例えば、非バイアス付き再重み付きサブサンプリングや影響関数ベースのサブサンプリング)の一般的な選択は、実質的に準最適である。

Given a sample of size $N$, it is often useful to select a subsample of smaller size $n<N$ to be used for statistical estimation or learning. Such a data selection step is useful to reduce the requirements of data labeling and the computational complexity of learning. We assume to be given $N$ unlabeled samples $\{{\boldsymbol x}_i\}_{i\le N}$, and to be given access to a `surrogate model' that can predict labels $y_i$ better than random guessing. Our goal is to select a subset of the samples, to be denoted by $\{{\boldsymbol x}_i\}_{i\in G}$, of size $|G|=n<N$. We then acquire labels for this set and we use them to train a model via regularized empirical risk minimization. By using a mixture of numerical experiments on real and synthetic data, and mathematical derivations under low- and high- dimensional asymptotics, we show that: $(i)$~Data selection can be very effective, in particular beating training on the full sample in some cases; $(ii)$~Certain popular choices in data selection methods (e.g. unbiased reweighted subsampling, or influence function-based subsampling) can be substantially suboptimal.
翻訳日:2023-09-27 15:37:06 公開日:2023-09-25
# マイクロ波単一光子カウンタを用いた量子測定用深冷超低散逸増幅器の設計と測定セル

Design of deeply cooled ultra-low dissipation amplifier and measuring cell for quantum measurements with a microwave single-photon counter ( http://arxiv.org/abs/2309.14559v1 )

ライセンス: Link先を確認
O. G. Turutanov, A. M. Korolev, V. I. Shnyrkov, A. P. Shapovalov, M. Bar\'anek, S. Kern, V. Yu. Lyakhno, P. Neilinger, M. Grajcar(参考訳) 測定セルの設計要件と10mKでの量子計測のための低バックアクション深冷増幅器について述べる。 この装置は超伝導束量子ビットに基づくマイクロ波単光子カウンタの一部である。 増幅器内の高電子移動トランジスタ(HEMT)は不飽和マイクロ電流状態で動作し、トランジスタ当たり1マイクロワットのdc電力しか放出しない。 シミュレートアンプ利得は450mhzで15dbで、高インピーダンス(約5kohm)信号源と標準の50-ohm出力を持つ。

The requirements and details of designing a measuring cell and low-back-action deeply-cooled amplifier for quantum measurements at 10 mK are discussed. This equipment is a part of a microwave single-photon counter based on a superconducting flux qubit. The high electron mobility transistors (HEMTs) in the amplifier operate in unsaturated microcurrent regime and dissipate only 1 microwatt of dc power per transistor. Simulated amplifier gain is 15 dB at 450 MHz with a high-impedance (~5 kOhm signal source and standard 50-Ohm output.
翻訳日:2023-09-27 15:36:38 公開日:2023-09-25
# ハイブリッドディープラーニングを用いた認知的デジタルサプライチェーン双生児の破壊検出

Disruption Detection for a Cognitive Digital Supply Chain Twin Using Hybrid Deep Learning ( http://arxiv.org/abs/2309.14557v1 )

ライセンス: Link先を確認
Mahmoud Ashraf, Amr Eltawil, Islam Ali(参考訳) 目的: 新型コロナウイルスやロシア・ウクライナ紛争などの近年の破壊的な出来事は、世界的なサプライチェーンに大きな影響を及ぼした。 ディジタルサプライチェーン双生児は、破壊的影響を軽減するための効率的かつ効率的なツールを意思決定者に提供するために提案されている。 方法:本論文では,サプライチェーンのレジリエンスを高めるための,認知デジタルサプライチェーンツインフレームワーク内での破壊検出のためのハイブリッドディープラーニング手法を提案する。 提案する破壊検出モジュールは、深層オートエンコーダニューラルネットワークと1クラスサポートベクターマシンアルゴリズムを組み合わせたものである。 さらに,破壊エシュロンを識別し,破壊効果から回復までの時間を予測するために,短期記憶型ニューラルネットワークモデルを開発した。 結果:提案手法から得られた情報により,意思決定者やサプライチェーン実践者が,リアルタイム破壊検出データに基づく破壊事象の負の影響を最小限に抑えるための適切な意思決定を支援する。 その結果,破壊検出モデルの感度,破壊検出の遅延と誤報とのトレードオフが示された。 このアプローチは、この問題に対処する最近の文献ではほとんど使われていない。

Purpose: Recent disruptive events, such as COVID-19 and Russia-Ukraine conflict, had a significant impact of global supply chains. Digital supply chain twins have been proposed in order to provide decision makers with an effective and efficient tool to mitigate disruption impact. Methods: This paper introduces a hybrid deep learning approach for disruption detection within a cognitive digital supply chain twin framework to enhance supply chain resilience. The proposed disruption detection module utilises a deep autoencoder neural network combined with a one-class support vector machine algorithm. In addition, long-short term memory neural network models are developed to identify the disrupted echelon and predict time-to-recovery from the disruption effect. Results: The obtained information from the proposed approach will help decision-makers and supply chain practitioners make appropriate decisions aiming at minimizing negative impact of disruptive events based on real-time disruption detection data. The results demonstrate the trade-off between disruption detection model sensitivity, encountered delay in disruption detection, and false alarms. This approach has seldom been used in recent literature addressing this issue.
翻訳日:2023-09-27 15:36:27 公開日:2023-09-25
# 芸術か芸術か? 大規模言語モデルと創造性の誤った約束

Art or Artifice? Large Language Models and the False Promise of Creativity ( http://arxiv.org/abs/2309.14556v1 )

ライセンス: Link先を確認
Tuhin Chakrabarty, Philippe Laban, Divyansh Agarwal, Smaranda Muresan, Chien-Sheng Wu(参考訳) 研究者は、大きな言語モデル(LLM)はブログからストーリーまで高品質な書き込み能力を示すと主張している。 しかし、書物の創造性を客観的に評価することは困難である。 創造性をプロセスとして測定するTTCT(Torrance Test of Creative Thinking)に触発され,Consensual Assessment Technique[3]を使用し,創造性を製品として評価するTorrance Test of Creative Writing(TTCW)を提案する。 TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。 10人のクリエイティビティライターを募集し、プロの作家やTLCWを用いたLLMによって書かれた48のストーリーの人間評価を実装した。 分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3~10倍少ないことがわかった。 さらに,TLCW評価を自動化するための評価器としてのLCMの利用について検討し,いずれも専門家評価と有意な相関関係がないことを明らかにした。

Researchers have argued that large language models (LLMs) exhibit high-quality writing capabilities from blogs to stories. However, evaluating objectively the creativity of a piece of writing is challenging. Inspired by the Torrance Test of Creative Thinking (TTCT), which measures creativity as a process, we use the Consensual Assessment Technique [3] and propose the Torrance Test of Creative Writing (TTCW) to evaluate creativity as a product. TTCW consists of 14 binary tests organized into the original dimensions of Fluency, Flexibility, Originality, and Elaboration. We recruit 10 creative writers and implement a human assessment of 48 stories written either by professional authors or LLMs using TTCW. Our analysis shows that LLM-generated stories pass 3-10X less TTCW tests than stories written by professionals. In addition, we explore the use of LLMs as assessors to automate the TTCW evaluation, revealing that none of the LLMs positively correlate with the expert assessments.
翻訳日:2023-09-27 15:36:09 公開日:2023-09-25
# 安定配置のための外部接触パッチの触覚推定

Tactile Estimation of Extrinsic Contact Patch for Stable Placement ( http://arxiv.org/abs/2309.14552v1 )

ライセンス: Link先を確認
Kei Ota, Devesh K. Jha, Krishna Murthy Jatavallabhula, Asako Kanezaki, and Joshua B. Tenenbaum(参考訳) ロボットのきめ細かい操作技術には,接触の正確な認識が不可欠である。 本稿では,複雑な物体を積み重ねて積み重ねることを学ぶロボットのためのフィードバックスキルの設計について述べる。 このようなシステムを設計するには、ロボットは非常に穏やかな接触相互作用から配置の安定性を判断できる必要がある。 以上の結果から,物体と環境との接触形成における触覚的読解に基づく物体配置の安定性を推定できることがわかった。 特に, 接点形成時の物体の安定性を推定するために, 力および触覚観測を用いて, 把握対象とその環境間の接触パッチを推定する。 接触パッチを用いて、グリップの解放時の物体の安定性を推定することができる。 提案手法は,非常に人気のあるボードゲームで使用される様々なオブジェクトに対して実証される。

Precise perception of contact interactions is essential for the fine-grained manipulation skills for robots. In this paper, we present the design of feedback skills for robots that must learn to stack complex-shaped objects on top of each other. To design such a system, a robot should be able to reason about the stability of placement from very gentle contact interactions. Our results demonstrate that it is possible to infer the stability of object placement based on tactile readings during contact formation between the object and its environment. In particular, we estimate the contact patch between a grasped object and its environment using force and tactile observations to estimate the stability of the object during a contact formation. The contact patch could be used to estimate the stability of the object upon the release of the grasp. The proposed method is demonstrated on various pairs of objects that are used in a very popular board game.
翻訳日:2023-09-27 15:35:50 公開日:2023-09-25
# MEMO:大または小血管密度差を有するロバスト多モード網膜画像登録のためのデータセットと方法

MEMO: Dataset and Methods for Robust Multimodal Retinal Image Registration with Large or Small Vessel Density Differences ( http://arxiv.org/abs/2309.14550v1 )

ライセンス: Link先を確認
Chiao-Yi Wang, Faranguisse Kakhi Sadrieh, Yi-Ting Shen, Shih-En Chen, Sarah Kim, Victoria Chen, Achyut Raghavendra, Dongyi Wang, Osamah Saeedi, and Yang Tao(参考訳) 毛細血管における網膜血流(RBF)の測定は、眼疾患の早期診断と治療のための強力なバイオマーカーとなる。 しかし, キャピラリーフローレートを高精度に決定できる単一モード性は得られない。 EMAは網膜微小血管の絶対2D RBFを測定することができ、OCTAは毛細血管の3D構造像を提供することができるため、EMAと光コヒーレンス断層血管造影(OCTA)を組み合わせることでこの目標を達成することができる。 しかし、これらの2つのモード間のマルチモーダル網膜画像の登録はほとんど未発見である。 このギャップを埋めるために、最初のパブリックマルチモーダルEMAであるMEMOとOCTA網膜画像データセットを構築した。 これらのモダリティ間のマルチモーダル網膜画像登録におけるユニークな課題は、血管密度(VD)の比較的大きな差である。 この課題に対処するために,分割型ディープラーニングフレームワーク (VDD-Reg) と新しい評価指標 (MSD) を提案する。 VDD-Regはコンテナセグメンテーションモジュールと登録モジュールで構成される。 船体セグメンテーションモジュールを訓練するために,教師なしと教師なしの損失を組み合わせた2段階の半教師付き学習フレームワーク(LVD-Seg)を設計した。 CF-FAデータセットを用いた)小さなVD差と大きなVD差(MEMOデータセットを用いた)の場合に,VDD-Regはベースライン法を定量的かつ質的に上回ることを示す。 さらに、VDD-Regはその精度を維持するために3つの注釈付き容器セグメンテーションマスクを必要とする。

The measurement of retinal blood flow (RBF) in capillaries can provide a powerful biomarker for the early diagnosis and treatment of ocular diseases. However, no single modality can determine capillary flowrates with high precision. Combining erythrocyte-mediated angiography (EMA) with optical coherence tomography angiography (OCTA) has the potential to achieve this goal, as EMA can measure the absolute 2D RBF of retinal microvasculature and OCTA can provide the 3D structural images of capillaries. However, multimodal retinal image registration between these two modalities remains largely unexplored. To fill this gap, we establish MEMO, the first public multimodal EMA and OCTA retinal image dataset. A unique challenge in multimodal retinal image registration between these modalities is the relatively large difference in vessel density (VD). To address this challenge, we propose a segmentation-based deep-learning framework (VDD-Reg) and a new evaluation metric (MSD), which provide robust results despite differences in vessel density. VDD-Reg consists of a vessel segmentation module and a registration module. To train the vessel segmentation module, we further designed a two-stage semi-supervised learning framework (LVD-Seg) combining supervised and unsupervised losses. We demonstrate that VDD-Reg outperforms baseline methods quantitatively and qualitatively for cases of both small VD differences (using the CF-FA dataset) and large VD differences (using our MEMO dataset). Moreover, VDD-Reg requires as few as three annotated vessel segmentation masks to maintain its accuracy, demonstrating its feasibility.
翻訳日:2023-09-27 15:35:37 公開日:2023-09-25
# アルゴリズム的結束または競争:プラットフォームのレコメンデーションシステムの役割

Algorithmic Collusion or Competition: the Role of Platforms' Recommender Systems ( http://arxiv.org/abs/2309.14548v1 )

ライセンス: Link先を確認
Xingchen Xu, Stephanie Lee, Yong Tan(参考訳) 近年の学術研究では、AIに基づく動的価格アルゴリズムの利用によるアルゴリズムの衝突を幅広く研究している。 それでも、eコマースプラットフォームは、様々な製品への露出を割り当てるためにレコメンデーションアルゴリズムを採用しており、この重要な側面は、アルゴリズムの共謀に関する以前の研究でほとんど見過ごされてきた。 我々の研究は、この文献におけるこの重要なギャップを埋め、AIベースの価格アルゴリズムの競合的あるいは共謀的なダイナミクスをレコメンデーションアルゴリズムがどのように決定できるかを調査する。 具体的には,2つの一般的な推奨アルゴリズムについて検討する。 (i)販売者の総利益を最大化することを目的とした推薦システム(営利型推薦システム) (ii)プラットフォーム上で販売される製品の需要を最大化することを目的としたレコメンダシステム(オンデマンドベースのレコメンダシステム)。 販売者が採用する価格アルゴリズムとプラットフォームの推奨システムの両方を組み込んだ繰り返しゲームフレームワークを構築した。 その後,価格変動を観測し,最終平衡を確かめる実験を行う。 実験結果から,販売者の利益最大化目標との一致により,収益ベースレコメンデータシステムにより,販売者間のアルゴリズム的共謀が促進されることが判明した。 逆に,需要ベースのレコメンデーションシステムは,販売者間の価格競争を促進させ,販売者の目標と不一致を理由として価格を下げる。 分析の強化は、様々な市場シナリオにおける我々の発見の堅牢性を示している。 全体として、市場参加者とそれに対応する政策立案者にとって重要な洞察を提供するデジタル市場の競争構造を説明する上で、プラットフォームが推奨するシステムの重要性を強調します。

Recent academic research has extensively examined algorithmic collusion resulting from the utilization of artificial intelligence (AI)-based dynamic pricing algorithms. Nevertheless, e-commerce platforms employ recommendation algorithms to allocate exposure to various products, and this important aspect has been largely overlooked in previous studies on algorithmic collusion. Our study bridges this important gap in the literature and examines how recommendation algorithms can determine the competitive or collusive dynamics of AI-based pricing algorithms. Specifically, two commonly deployed recommendation algorithms are examined: (i) a recommender system that aims to maximize the sellers' total profit (profit-based recommender system) and (ii) a recommender system that aims to maximize the demand for products sold on the platform (demand-based recommender system). We construct a repeated game framework that incorporates both pricing algorithms adopted by sellers and the platform's recommender system. Subsequently, we conduct experiments to observe price dynamics and ascertain the final equilibrium. Experimental results reveal that a profit-based recommender system intensifies algorithmic collusion among sellers due to its congruence with sellers' profit-maximizing objectives. Conversely, a demand-based recommender system fosters price competition among sellers and results in a lower price, owing to its misalignment with sellers' goals. Extended analyses suggest the robustness of our findings in various market scenarios. Overall, we highlight the importance of platforms' recommender systems in delineating the competitive structure of the digital marketplace, providing important insights for market participants and corresponding policymakers.
翻訳日:2023-09-27 15:35:06 公開日:2023-09-25
# クラスターに基づく光学リンクの盗聴同定と位置推定法

Cluster-based Method for Eavesdropping Identification and Localization in Optical Links ( http://arxiv.org/abs/2309.14541v1 )

ライセンス: Link先を確認
Haokun Song, Rui Lin, Andrea Sgambelluri, Filippo Cugini, Yajie Li, Jie Zhang, Paolo Monti(参考訳) 小型電力損失を特徴とする光線システムにおける盗聴イベントの検出と検出のためのクラスタベース手法を提案する。 その結果, 盗聴による微妙な損失の検出は, 受信機で収集したOPMデータによってのみ達成できることが示唆された。 一方, インラインOPMデータを活用することで, イベントの局所化を効果的に行うことができる。

We propose a cluster-based method to detect and locate eavesdropping events in optical line systems characterized by small power losses. Our findings indicate that detecting such subtle losses from eavesdropping can be accomplished solely through optical performance monitoring (OPM) data collected at the receiver. On the other hand, the localization of such events can be effectively achieved by leveraging in-line OPM data.
翻訳日:2023-09-27 15:34:40 公開日:2023-09-25
# hBNブルゼーキャビティにおける単一量子エミッタのモノリシック集積

Monolithic Integration of Single Quantum Emitters in hBN Bullseye Cavities ( http://arxiv.org/abs/2309.14575v1 )

ライセンス: Link先を確認
Lesley Spencer (1 and 2), Jake Horder (1), Sejeong Kim (3), Milos Toth (1 and 2) and Igor Aharonovich (1 and 2) ((1) School of Mathematical and Physical Sciences University of Technology Sydney, (2) ARC Centre of Excellence for Transformative Meta-Optical Systems, (3) Department of Electrical and Electronic Engineering University of Melbourne)(参考訳) 六方晶窒化ホウ素が深層色中心の形で量子エミッタをホストする能力は、量子フォトニクスの応用にとって重要な材料である。 この研究はモノリシックな円形ブラッグ格子装置を用いて、六方晶窒化ホウ素中の量子エミッタから放出される436nm波長の単一光子の収集を強化する。 デバイスに結合した単一光子エミッタの集光強度は,非結合エミッタと比較して6倍に増加し,低温下では例外的なスペクトル安定性を示す。 デバイスは、標準的なフッ素ベースの反応性イオンエッチング以外の多くのエッチング方法を用いて製造され、量子エミッタは、サイト固有の電子線照射技術を用いて作成された。 本研究は,様々な生成オプションを用いて決定論的に配置された量子エミッタに対して,モノリシックな統合システムの可能性を示す。

The ability of hexagonal boron nitride to host quantum emitters in the form of deep-level color centers makes it an important material for quantum photonic applications. This work utilizes a monolithic circular Bragg grating device to enhance the collection of single photons with 436 nm wavelength emitted from quantum emitters in hexagonal boron nitride. We observe a 6- fold increase in collected intensity for a single photon emitter coupled to a device compared to an uncoupled emitter, and show exceptional spectral stability at cryogenic temperature. The devices were fabricated using a number of etching methods, beyond standard fluorine-based reactive ion etching, and the quantum emitters were created using a site-specific electron beam irradiation technique. Our work demonstrates the potential of monolithically-integrated systems for deterministically-placed quantum emitters using a variety of fabrication options.
翻訳日:2023-09-27 15:23:58 公開日:2023-09-25
# DictaLM - 現代ヘブライ語のための大規模生成言語モデル

Introducing DictaLM -- A Large Generative Language Model for Modern Hebrew ( http://arxiv.org/abs/2309.14568v1 )

ライセンス: Link先を確認
Shaltiel Shmidman, Avi Shmidman, Amir David Nissan Cohen, Moshe Koppel(参考訳) 本稿では,現代ヘブライ語に合わせた大規模言語モデルDictaLMを紹介する。 7Bパラメータを焼くと、このモデルは主にヘブライ中心のデータに基づいて訓練される。 ヘブライ語における研究・開発促進の取り組みとして,創造コモンズライセンスの下で基礎モデルと指導モデルの両方をリリースする。 同時に、Rabinic/Historical Hebrewに向けたもう1つの基礎モデルであるDictaLM-Rabを紹介する。 これらの基礎モデルは、指示、Q&A、感情分析など、ヘブライ語固有のタスクを微調整するための理想的な出発点となる。 このリリースは、Hebrew NLPコミュニティが実験するための最初のHebrew LLMモデルを提供する、予備的なステップである。

We present DictaLM, a large-scale language model tailored for Modern Hebrew. Boasting 7B parameters, this model is predominantly trained on Hebrew-centric data. As a commitment to promoting research and development in the Hebrew language, we release both the foundation model and the instruct-tuned model under a Creative Commons license. Concurrently, we introduce DictaLM-Rab, another foundation model geared towards Rabbinic/Historical Hebrew. These foundation models serve as ideal starting points for fine-tuning various Hebrew-specific tasks, such as instruction, Q&A, sentiment analysis, and more. This release represents a preliminary step, offering an initial Hebrew LLM model for the Hebrew NLP community to experiment with.
翻訳日:2023-09-27 15:23:42 公開日:2023-09-25
# 第一ミレニアムラテン文字文の文レベルでの性的内容の検出

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts ( http://arxiv.org/abs/2309.14974v1 )

ライセンス: Link先を確認
Thibault Cl\'erice (ALMAnaCH, CJM)(参考訳) 本研究では,人文・言語学分野におけるコーパス構築のプロセスの促進を図るために,文レベルでの意味分類に深層学習手法を適用することを提案する。 セクシュアリティ・セマンティクス(医学、エロティカなど)を含む、紀元前300年から900年までの約2500文からなる新しいコーパスを紹介する。 様々な文分類手法と異なる入力埋め込み層を評価し,単純なトークンベース検索を一貫して上回っていることを示す。 我々は、慣用的および社会的なメタデータ埋め込み(センチュリー、著者、ライティングの種類)の統合について検討するが、それが過剰に適合することがわかった。 提案手法の有効性を実証し,HANを用いてそれぞれ70.60%,86.33%の精度と真正率(TPR)を達成した。 モデル性能に対するデータセットサイズの影響 (2013年より420) を評価し, モデルの性能は悪いが, MLMなしでも高い精度とTPRを提供し, それぞれ69%, 51%を示した。 この結果から,人文主義者がより多くのデータを生成するための補助的な付加価値として,注意機構の分析を行う。

In this study, we propose to evaluate the use of deep learning methods for semantic classification at the sentence level to accelerate the process of corpus building in the field of humanities and linguistics, a traditional and time-consuming task. We introduce a novel corpus comprising around 2500 sentences spanning from 300 BCE to 900 CE including sexual semantics (medical, erotica, etc.). We evaluate various sentence classification approaches and different input embedding layers, and show that all consistently outperform simple token-based searches. We explore the integration of idiolectal and sociolectal metadata embeddings (centuries, author, type of writing), but find that it leads to overfitting. Our results demonstrate the effectiveness of this approach, achieving high precision and true positive rates (TPR) of respectively 70.60% and 86.33% using HAN. We evaluate the impact of the dataset size on the model performances (420 instead of 2013), and show that, while our models perform worse, they still offer a high enough precision and TPR, even without MLM, respectively 69% and 51%. Given the result, we provide an analysis of the attention mechanism as a supporting added value for humanists in order to produce more data.
翻訳日:2023-09-27 13:23:07 公開日:2023-09-25
# インベントリ制御のための深層制御学習

Deep Controlled Learning for Inventory Control ( http://arxiv.org/abs/2011.15122v5 )

ライセンス: Link先を確認
Tarkan Temiz\"oz, Christina Imdahl, Remco Dijkman, Douniel Lamghari-Idrissi, Willem van Jaarsveld(参考訳) 問題定義: 従来の深層強化学習(drl)アルゴリズムは、在庫管理に最適な機械学習アルゴリズムであるゲームプレイやロボティクスなど、幅広い目的のために開発されたものなのだろうか? 在庫管理問題の特徴に合わせたDRLアルゴリズムは、DRLや従来のベンチマークよりも優れた性能を提供できるだろうか? 方法論/再帰性:我々は在庫問題に対処するために設計された近似ポリシーの反復に基づく新しいDRLフレームワークであるDeep Controlled Learning (DCL)を提案し研究する。 比較評価の結果、DCLは、失われた在庫管理、分かりやすい在庫システム、在庫システムにおいて、ランダムなリードタイムで既存の最先端のヒューリスティックを上回り、全てのテストインスタンスの平均コストを低くし、0.1\%未満の最適性ギャップを維持していることがわかった。 特に、同じハイパーパラメータ集合を全ての実験で利用し、提案手法の頑健性と一般化性を裏付ける。 経営上の意味: これらの実質的なパフォーマンスと堅牢性の改善は、在庫管理問題に適合したDRLアルゴリズムを効果的に適用する方法を舗装し、意思決定者にストックレベルを最適化し、コストを最小化し、様々な産業における応答性を高める。

Problem Definition: Are traditional deep reinforcement learning (DRL) algorithms, developed for a broad range of purposes including game-play and robotics, the most suitable machine learning algorithms for applications in inventory control? To what extent would DRL algorithms tailored to the unique characteristics of inventory control problems provide superior performance compared to DRL and traditional benchmarks? Methodology/results: We propose and study Deep Controlled Learning (DCL), a new DRL framework based on approximate policy iteration specifically designed to tackle inventory problems. Comparative evaluations reveal that DCL outperforms existing state-of-the-art heuristics in lost sales inventory control, perishable inventory systems, and inventory systems with random lead times, achieving lower average costs across all test instances and maintaining an optimality gap of no more than 0.1\%. Notably, the same hyperparameter set is utilized across all experiments, underscoring the robustness and generalizability of the proposed method. Managerial implications: These substantial performance and robustness improvements pave the way for the effective application of tailored DRL algorithms to inventory management problems, empowering decision-makers to optimize stock levels, minimize costs, and enhance responsiveness across various industries.
翻訳日:2023-09-27 05:30:33 公開日:2023-09-25
# 教師なし領域適応におけるマイニングラベル分布ドリフト

Mining Label Distribution Drift in Unsupervised Domain Adaptation ( http://arxiv.org/abs/2006.09565v2 )

ライセンス: Link先を確認
Peizhao Li, Zhengming Ding, Hongfu Liu(参考訳) 教師なしドメイン適応ターゲットはラベル付きソースドメインからラベルなしのターゲットドメインへタスク関連の知識を転送する。 ドメインのばらつきを最小限にするために多大な努力がなされてきたが、既存のほとんどのメソッドは、さまざまなドメインの特徴表現を調整することで部分的に管理されている。 データ分布の相違を超えて、ラベル分布のドリフトとして認識されるソースとターゲットのラベル分布のギャップは、ドメインのばらつきを高める重要な要因であり、調査が不十分である。 この観点から,まずラベル分布のドリフトが負の影響をもたらすことを明らかにする。 次に,データ分布シフトとラベル分布ドリフトを同時処理するラベル分布マッチングドメイン逆ネットワーク(lmdan)を提案する。 LMDANでは、ラベル分布のドリフトはソースサンプル重み付け戦略によって対処され、正の適応に寄与するサンプルを選択し、ミスマッチしたサンプルによる有害な影響を避ける。 実験により, LMDANはラベル分布のドリフトに優れた性能を示すことが示された。

Unsupervised domain adaptation targets to transfer task-related knowledge from labeled source domain to unlabeled target domain. Although tremendous efforts have been made to minimize domain divergence, most existing methods only partially manage by aligning feature representations from diverse domains. Beyond the discrepancy in data distribution, the gap between source and target label distribution, recognized as label distribution drift, is another crucial factor raising domain divergence, and has been under insufficient exploration. From this perspective, we first reveal how label distribution drift brings negative influence. Next, we propose Label distribution Matching Domain Adversarial Network (LMDAN) to handle data distribution shift and label distribution drift jointly. In LMDAN, label distribution drift is addressed by a source sample weighting strategy, which selects samples that contribute to positive adaptation and avoid adverse effects brought by the mismatched samples. Experiments show that LMDAN delivers superior performance under considerable label distribution drift.
翻訳日:2023-09-27 05:30:11 公開日:2023-09-25
# 交通信号制御最適化のための待ち時間と注意機構の活用

Leveraging Queue Length and Attention Mechanisms for Enhanced Traffic Signal Control Optimization ( http://arxiv.org/abs/2201.00006v3 )

ライセンス: Link先を確認
Liang Zhang, Shubin Xie, Jianming Deng(参考訳) 近年,交通信号制御(TSC)のための強化学習(RL)技術が普及している。 しかしながら、既存のRLベースのTSC手法のほとんどは、適切なトラフィック状態表現の重要性を無視しながら、主にRLモデル構造にフォーカスする傾向にある。 さらに、一部のRLベースの手法は、専門家が設計した信号位相の競合に大きく依存している。 本稿では,待ち行列長を効率的な状態表現として活用する新しいTSC手法を提案する。 提案手法は,(1)最大待ち行列長(m-ql),(2)位相関係の人間知識を必要とせずに信号位相相関を捕捉する自己アテンション機構を用いたrlモデルである attentionlight である。 1) m-ql法は最新のrlベースの手法を上回り, (2) attentionlightは新しい最先端性能を達成し,(3)本研究では,tsc法におけるニューラルネットワーク設計と同じくらい重要な適切な状態表現の重要性を強調する。 本研究は,より効率的かつ効率的なTSC法の開発に重要な意味を持つ。 私たちのコードはgithubでリリースされています(https://github.com/liangzhang1996/attentionlight)。

Reinforcement learning (RL) techniques for traffic signal control (TSC) have gained increasing popularity in recent years. However, most existing RL-based TSC methods tend to focus primarily on the RL model structure while neglecting the significance of proper traffic state representation. Furthermore, some RL-based methods heavily rely on expert-designed traffic signal phase competition. In this paper, we present a novel approach to TSC that utilizes queue length as an efficient state representation. We propose two new methods: (1) Max Queue-Length (M-QL), an optimization-based traditional method designed based on the property of queue length; and (2) AttentionLight, an RL model that employs the self-attention mechanism to capture the signal phase correlation without requiring human knowledge of phase relationships. Comprehensive experiments on multiple real-world datasets demonstrate the effectiveness of our approach: (1) the M-QL method outperforms the latest RL-based methods; (2) AttentionLight achieves a new state-of-the-art performance; and (3) our results highlight the significance of proper state representation, which is as crucial as neural network design in TSC methods. Our findings have important implications for advancing the development of more effective and efficient TSC methods. Our code is released on Github (https://github. com/LiangZhang1996/AttentionLight).
翻訳日:2023-09-27 05:24:35 公開日:2023-09-25
# 相互作用するRydberg-atom量子シミュレータのためのランダム化測定ツールボックス

A randomized measurement toolbox for an interacting Rydberg-atom quantum simulator ( http://arxiv.org/abs/2112.11046v2 )

ライセンス: Link先を確認
Simone Notarnicola, Andreas Elben, Thierry Lahaye, Antoine Browaeys, Simone Montangero, Benoit Vermersch(参考訳) 本稿では,rydberg-atoms量子ハードウェア上に実装された量子多体状態をランダム化測定により探索するツールボックスを提案する。 本稿では,この測定ツールボックスの有効性を,純度を推定し,ハミルトン分散の測定値を用いて基底状態の準備を検証することで,絡み合いの予測の文脈で説明する。 この目的を達成するため、我々は独立で局所的なユニタリ回転を実現するプロトコルを開発し、詳細に議論する。 我々は、最近Rydberg原子の鎖上で実現された1次元SSHモデルの基底状態と、停滞したXY鎖の急激なクエンチ後の状態を調べることで、プロトコルをベンチマークする。 パルス揺らぎや測定誤差などの実験的な欠陥を考慮し,ツールボックスの頑健さを検証した。

We present a toolbox to probe quantum many-body states implemented on Rydberg-atoms quantum hardware via randomized measurements. We illustrate the efficacy of this measurement toolbox in the context of probing entanglement, via the estimation of the purity, and of verifying a ground-state preparation using measurements of the Hamiltonian variance. To achieve this goal, we develop and discuss in detail a protocol to realize independent, local unitary rotations. We benchmark the protocol by investigating the ground state of the one-dimensional SSH model, recently realized on a chain of Rydberg atom, and the state resulting after a sudden quench in a staggered XY chain. We probe the robustness of our toolbox by taking into account experimental imperfections, such as pulse fluctuations and measurement errors.
翻訳日:2023-09-27 05:23:22 公開日:2023-09-25
# 静止画像における流体要素の制御可能なアニメーション

Controllable Animation of Fluid Elements in Still Images ( http://arxiv.org/abs/2112.03051v3 )

ライセンス: Link先を確認
Aniruddha Mahapatra and Kuldeep Kulkarni(参考訳) 静止画中の流体要素のアニメーションをインタラクティブに制御し,シネマグラフを生成する手法を提案する。 具体的には,繰り返し発生するテクスチャと連続する流体運動の特性を有する水,煙,火などの流体要素のアニメーションに焦点を当てる。 先行研究からインスピレーションを得て、画像中のそのような流体要素の運動を、一定の2次元光フローマップの形で表現する。 この目的のために、ユーザは、ユーザがアニメーションしたい領域のマスクとともに、任意の矢印方向とその関連速度を提供することができる。 ユーザが入力した矢印方向、対応する速度値、マスクは、一定の光学フローマップ(fd)を表す密集したフローマップに変換される。 単純な指数演算を用いて得られるFDは、画像中の要素の可視運動を近似することができる。 さらに,計算された高密度光フローマップfdを生成-逆ネットワーク(gan)を用いて洗練し,より現実的なフローマップを得る。 我々は,新しいunetベースのアーキテクチャを考案し,入力画像の特徴を異なる解像度で前方に反動させることにより,改良された光フローマップを用いて,将来のフレームを自己回帰的に生成する。 我々は,公開データセット上で広範囲に実験を行い,定性的,定量的な指標から,本手法がベースラインよりも優れていることを示す。 また、トレーニングセットに存在しない方向の物体の質的アニメーションを示し、それ以外の現実世界に存在しない映像を合成する方法を提供する。

We propose a method to interactively control the animation of fluid elements in still images to generate cinemagraphs. Specifically, we focus on the animation of fluid elements like water, smoke, fire, which have the properties of repeating textures and continuous fluid motion. Taking inspiration from prior works, we represent the motion of such fluid elements in the image in the form of a constant 2D optical flow map. To this end, we allow the user to provide any number of arrow directions and their associated speeds along with a mask of the regions the user wants to animate. The user-provided input arrow directions, their corresponding speed values, and the mask are then converted into a dense flow map representing a constant optical flow map (FD). We observe that FD, obtained using simple exponential operations can closely approximate the plausible motion of elements in the image. We further refine computed dense optical flow map FD using a generative-adversarial network (GAN) to obtain a more realistic flow map. We devise a novel UNet based architecture to autoregressively generate future frames using the refined optical flow map by forward-warping the input image features at different resolutions. We conduct extensive experiments on a publicly available dataset and show that our method is superior to the baselines in terms of qualitative and quantitative metrics. In addition, we show the qualitative animations of the objects in directions that did not exist in the training set and provide a way to synthesize videos that otherwise would not exist in the real world.
翻訳日:2023-09-27 05:23:06 公開日:2023-09-25
# 包括的単眼深度推定に向けて: 複数の頭部は1つより優れている

Towards Comprehensive Monocular Depth Estimation: Multiple Heads Are Better Than One ( http://arxiv.org/abs/2111.08313v2 )

ライセンス: Link先を確認
Shuwei Shao, Ran Li, Zhongcai Pei, Zhong Liu, Weihai Chen, Wentao Zhu, Xingming Wu and Baochang Zhang(参考訳) 深さ推定はコンピュータビジョンコミュニティで広く注目を集めている。 しかし,単一のrgb画像のみを用いて正確な深度マップを復元することは困難である。 ネットワークアーキテクチャの違いや損失関数などによって,既存手法が異なるケースでフェールする傾向にある現象を観察する。 本研究では,この現象を解明し,複数の弱い深さ予測器の強みを統合し,包括的かつ正確な深さ予測器を構築することを提案する。 具体的には、異なるTransformerベースおよび畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを用いて、複数のベース(弱)深さ予測器を構築する。 トランスフォーマーは長距離相関を確立し、CNNは空間誘導バイアスによりトランスフォーマーによって無視される局所情報を保存する。 そのため,TransformerとCNNの結合は,包括的深度予測器の実現に不可欠である相補的深度推定の生成に寄与する。 そして,複数の弱予測から学習するためにミキサーを設計し,それらを適応的に深い深さ推定に融合する。 その結果,トランスフォーマー支援深度アンサンブル (TEDepth) と呼ばれるモデルが得られた。 標準のNYU-Depth-v2とKITTIデータセットでは、ニューラルアンサンブルが深度推定にどのように影響するかを徹底的に検討し、TEDepthが従来の最先端アプローチよりも優れた結果をもたらすことを示す。 カメラ間の一般化性を検証するために、nyu-depth-v2でトレーニングされたモデルをsun rgb-dデータセットに微調整することなく直接適用する。

Depth estimation attracts widespread attention in the computer vision community. However, it is still quite difficult to recover an accurate depth map using only one RGB image. We observe a phenomenon that existing methods tend to fail in different cases, caused by differences in network architecture, loss function and so on. In this work, we investigate into the phenomenon and propose to integrate the strengths of multiple weak depth predictor to build a comprehensive and accurate depth predictor, which is critical for many real-world applications, e.g., 3D reconstruction. Specifically, we construct multiple base (weak) depth predictors by utilizing different Transformer-based and convolutional neural network (CNN)-based architectures. Transformer establishes long-range correlation while CNN preserves local information ignored by Transformer due to the spatial inductive bias. Therefore, the coupling of Transformer and CNN contributes to the generation of complementary depth estimates, which are essential to achieve a comprehensive depth predictor. Then, we design mixers to learn from multiple weak predictions and adaptively fuse them into a strong depth estimate. The resultant model, which we refer to as Transformer-assisted depth ensembles (TEDepth). On the standard NYU-Depth-v2 and KITTI datasets, we thoroughly explore how the neural ensembles affect the depth estimation and demonstrate that our TEDepth achieves better results than previous state-of-the-art approaches. To validate the generalizability across cameras, we directly apply the models trained on NYU-Depth-v2 to the SUN RGB-D dataset without any fine-tuning, and the superior results emphasize its strong generalizability.
翻訳日:2023-09-27 05:22:42 公開日:2023-09-25
# ワッサーシュタイン距離を用いたタンジェント空間と次元推定

Tangent Space and Dimension Estimation with the Wasserstein Distance ( http://arxiv.org/abs/2110.06357v4 )

ライセンス: Link先を確認
Uzu Lim, Harald Oberhauser, Vidit Nanda(参考訳) ユークリッド空間の滑らかなコンパクト部分多様体の近くで独立にサンプリングされた点の集合を考える。 我々は、その多様体の次元と接空間の両方を高い信頼性で推定するために必要なサンプル点の数に関する数学的に厳密な境界を与える。 この推定のアルゴリズムは、主成分分析のローカルバージョンであるlocal pcaである。 この結果から, 多様体毎に異なるノイズを持つ雑音非一様データ分布が得られ, 複数点の同時推定が可能となった。 重要なことに、我々の境界に現れる定数はすべて明示的に記述されている。 この証明は行列濃度の不等式を用いて共分散行列とワッサーシュタイン距離を推定し、基礎多様体の非線形性と確率測度の非均一性を定量化する。

Consider a set of points sampled independently near a smooth compact submanifold of Euclidean space. We provide mathematically rigorous bounds on the number of sample points required to estimate both the dimension and the tangent spaces of that manifold with high confidence. The algorithm for this estimation is Local PCA, a local version of principal component analysis. Our results accommodate for noisy non-uniform data distribution with the noise that may vary across the manifold, and allow simultaneous estimation at multiple points. Crucially, all of the constants appearing in our bound are explicitly described. The proof uses a matrix concentration inequality to estimate covariance matrices and a Wasserstein distance bound for quantifying nonlinearity of the underlying manifold and non-uniformity of the probability measure.
翻訳日:2023-09-27 05:21:46 公開日:2023-09-25
# 階層型パーソナライズモデルによる疎結合学習

Sparse Federated Learning with Hierarchical Personalized Models ( http://arxiv.org/abs/2203.13517v3 )

ライセンス: Link先を確認
Xiaofeng Liu, Qing Wang, Yunfeng Shao, Yinchuan Li(参考訳) フェデレーション学習(fl)は、ユーザのプライベートデータを収集することなく、プライバシセーフで信頼性の高いコラボレーショントレーニングを実現することができる。 その優れたプライバシーセキュリティポテンシャルは、IoT(Internet-of-Things)、無線ネットワーク、モバイルデバイス、自動運転車、クラウド医療における幅広いFLアプリケーションを促進する。 しかし、FL法は、非単位のデータと過剰なトラフィック量に対するモデル性能の低下に悩まされている。 そこで本稿では,階層型パーソナライズモデル (sFedHP) を用いたスパース・フェデレーション・ラーニング(sparse federated learning) という,モロー包絡に基づく階層型近位写像を用いたパーソナライズされたFLアルゴリズムを提案する。 また、連続的に微分可能なL1ノルムをスパース制約として使用して通信コストを低減する。 収束解析により、sFedHPの収束速度は線形スピードアップによる最先端であり、スパース制約は、通信コストを著しく低減しつつ、収束率をわずかに低下させる。 実験では,FedAMP,FedProx,Per-FedAvg,pFedMe,pFedGPなどの局所的なカスタマイズに基づくFL法と,FedAvg,HierFAVG(階層的FedAvg)と比較してsFedHPの利点を実証した。

Federated learning (FL) can achieve privacy-safe and reliable collaborative training without collecting users' private data. Its excellent privacy security potential promotes a wide range of FL applications in Internet-of-Things (IoT), wireless networks, mobile devices, autonomous vehicles, and cloud medical treatment. However, the FL method suffers from poor model performance on non-i.i.d. data and excessive traffic volume. To this end, we propose a personalized FL algorithm using a hierarchical proximal mapping based on the moreau envelop, named sparse federated learning with hierarchical personalized models (sFedHP), which significantly improves the global model performance facing diverse data. A continuously differentiable approximated L1-norm is also used as the sparse constraint to reduce the communication cost. Convergence analysis shows that sFedHP's convergence rate is state-of-the-art with linear speedup and the sparse constraint only reduces the convergence rate to a small extent while significantly reducing the communication cost. Experimentally, we demonstrate the benefits of sFedHP compared with the FedAvg, HierFAVG (hierarchical FedAvg), and personalized FL methods based on local customization, including FedAMP, FedProx, Per-FedAvg, pFedMe, and pFedGP.
翻訳日:2023-09-27 05:14:44 公開日:2023-09-25
# 高次元におけるグラニュラーインストゥルメンタル変数の推論理論

Inferential Theory for Granular Instrumental Variables in High Dimensions ( http://arxiv.org/abs/2201.06605v2 )

ライセンス: Link先を確認
Saman Banafti and Tae-Hwy Lee(参考訳) グラニュラーインストゥルメンタル変数 (giv) の手法は、因子誤差構造を持つパネルを利用して、潜在因子の制御後も内在性を持つ構造時系列モデルの推定を行う。 我々はgiv方法論を数次元に拡張する。 まず、識別手順を大きな$N$および大きな$T$フレームワークに拡張し、これは、N$断面単位のサイズ分布の漸近的なHerfindahl指数に依存する。 第2に, パラメータと負荷の双方を未知として扱い, 構造パラメータの限定分布を考慮した場合, 推定器と要素のサンプリング誤差が無視可能であることを示す。 第3に,高次元精度行列におけるサンプリング誤差は推定アルゴリズムでは無視できることを示した。 第4に、構造パラメータを付加的な構成機器で過度に同定し、効率性の向上につながる。 モンテカルロの証拠は、我々の漸近的理論と世界の原油市場への応用を支え、新たな結果をもたらす。

The Granular Instrumental Variables (GIV) methodology exploits panels with factor error structures to construct instruments to estimate structural time series models with endogeneity even after controlling for latent factors. We extend the GIV methodology in several dimensions. First, we extend the identification procedure to a large $N$ and large $T$ framework, which depends on the asymptotic Herfindahl index of the size distribution of $N$ cross-sectional units. Second, we treat both the factors and loadings as unknown and show that the sampling error in the estimated instrument and factors is negligible when considering the limiting distribution of the structural parameters. Third, we show that the sampling error in the high-dimensional precision matrix is negligible in our estimation algorithm. Fourth, we overidentify the structural parameters with additional constructed instruments, which leads to efficiency gains. Monte Carlo evidence is presented to support our asymptotic theory and application to the global crude oil market leads to new results.
翻訳日:2023-09-27 05:12:05 公開日:2023-09-25
# 大規模ハイパーパラメータ最適化のための非同期分散ベイズ最適化

Asynchronous Decentralized Bayesian Optimization for Large Scale Hyperparameter Optimization ( http://arxiv.org/abs/2207.00479v3 )

ライセンス: Link先を確認
Romain Egele, Isabelle Guyon, Venkatram Vishwanath, Prasanna Balaprakash(参考訳) ベイズ最適化(bayesian optimization、bo)は、ディープニューラルネットワーク(dnn)のハイパーパラメータ最適化において、各モデルのトレーニングに数分から数時間を要す有望なアプローチである。 BOでは、パラメータ構成と精度などの性能の関係を学習するために、計算的に安価な代理モデルを用いる。 並列boメソッドは、複数のハイパーパラメータの設定を同時に評価するために、シングルマネージャ/マルチプルワーカー戦略を採用することが多い。 かなりのハイパーパラメータ評価時間にもかかわらず、このような集中型スキームのオーバーヘッドは、これらの方法が多数のワーカーにスケールすることを妨げている。 我々は、各ワーカがシーケンシャルなboを実行し、その結果を共有ストレージを通じて非同期に通信する非同期分散boを提案する。 提案手法は,1,920人の並列作業者(ポーラリス・スーパーコンピュータのフル生産キュー)に対する作業者の利用率の95%以上で計算効率を損なうことなくスケールし,モデルの精度の向上と,exascale computing project によるろうそくベンチマークの収束率の向上を実証する。

Bayesian optimization (BO) is a promising approach for hyperparameter optimization of deep neural networks (DNNs), where each model training can take minutes to hours. In BO, a computationally cheap surrogate model is employed to learn the relationship between parameter configurations and their performance such as accuracy. Parallel BO methods often adopt single manager/multiple workers strategies to evaluate multiple hyperparameter configurations simultaneously. Despite significant hyperparameter evaluation time, the overhead in such centralized schemes prevents these methods to scale on a large number of workers. We present an asynchronous-decentralized BO, wherein each worker runs a sequential BO and asynchronously communicates its results through shared storage. We scale our method without loss of computational efficiency with above 95% of worker's utilization to 1,920 parallel workers (full production queue of the Polaris supercomputer) and demonstrate improvement in model accuracy as well as faster convergence on the CANDLE benchmark from the Exascale computing project.
翻訳日:2023-09-27 05:04:01 公開日:2023-09-25
# MapReduceおよび適応複雑度モデルにおけるサイズ制約付き部分モジュラ最大化のためのスケーラブル分散アルゴリズム

Scalable Distributed Algorithms for Size-Constrained Submodular Maximization in the MapReduce and Adaptive Complexity Models ( http://arxiv.org/abs/2206.09563v4 )

ライセンス: Link先を確認
Tonmoy Dey, Yixin Chen, Alan Kuhnle(参考訳) MapReduceモデルにおける部分モジュラ関数の分散最大化は注目されており、標準的なグリージーアルゴリズムと連続グリージーアルゴリズムで満たされていたような一定の一貫性特性を満たさない限り、近似を失うことなくMR設定で一元的アルゴリズムを動作させることができる2つのフレームワークで決定されている。 適応的複雑性モデルにおいて、各スレッドが基底集合全体にアクセス可能な部分モジュラー最大化の並列化性について研究した。 モノトーンおよびサブモジュラー関数のサイズ制約による最大化について, MR設定における動作に必要な整合性を満たす部分線形適応アルゴリズムがいくつか存在することを示す。 また, この問題に対して, MRラウンドを一定とした最初の線形時間分散アルゴリズムを開発した。 最後に,追加のMRラウンドを犠牲にして,MRアルゴリズムの最大濃度制約を増大させる手法を提案する。

Distributed maximization of a submodular function in the MapReduce model has received much attention, culminating in two frameworks that allow a centralized algorithm to be run in the MR setting without loss of approximation, as long as the centralized algorithm satisfies a certain consistency property - which had only been shown to be satisfied by the standard greedy and continous greedy algorithms. A separate line of work has studied parallelizability of submodular maximization in the adaptive complexity model, where each thread may have access to the entire ground set. For the size-constrained maximization of a monotone and submodular function, we show that several sublinearly adaptive algorithms satisfy the consistency property required to work in the MR setting, which yields highly practical parallelizable and distributed algorithms. Also, we develop the first linear-time distributed algorithm for this problem with constant MR rounds. Finally, we provide a method to increase the maximum cardinality constraint for MR algorithms at the cost of additional MR rounds.
翻訳日:2023-09-27 05:02:43 公開日:2023-09-25
# 変圧器を用いた自然言語処理のアクタリカル応用:アクタリカルコンテキストにおけるテキスト特徴の活用を事例として

Actuarial Applications of Natural Language Processing Using Transformers: Case Studies for Using Text Features in an Actuarial Context ( http://arxiv.org/abs/2206.02014v3 )

ライセンス: Link先を確認
Andreas Troxler (AT Analytics) and J\"urg Schelldorfer (Swiss Re)(参考訳) このチュートリアルでは、テキストデータをアクチュアリ分類と回帰タスクに組み込むワークフローをデモする。 主な焦点はトランスフォーマーモデルを用いた手法である。 英語とドイツ語で利用可能な平均400ワードの自動車事故記述のデータセットと、短い不動産保険請求記述のデータセットを使用して、これらのテクニックを実証する。 ケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。 彼らはまた、モデルの出力を解釈する方法を示し、モデルのドメインや特定の予測タスクに微調整することで、モデルの性能を評価し、改善する。 最後に、このチュートリアルはChatGPTに限らずラベル付きデータが少ない状況下での分類タスクを扱うための実践的なアプローチを提供する。 先行処理や微調整を最小限に抑えた自然言語処理(nlp)モデルの言語理解能力を用いて,実践的応用におけるトランスファー学習の能力を明確に示す。

This tutorial demonstrates workflows to incorporate text data into actuarial classification and regression tasks. The main focus is on methods employing transformer-based models. A dataset of car accident descriptions with an average length of 400 words, available in English and German, and a dataset with short property insurance claims descriptions are used to demonstrate these techniques. The case studies tackle challenges related to a multi-lingual setting and long input sequences. They also show ways to interpret model output, to assess and improve model performance, by fine-tuning the models to the domain of application or to a specific prediction task. Finally, the tutorial provides practical approaches to handle classification tasks in situations with no or only few labeled data, including but not limited to ChatGPT. The results achieved by using the language-understanding skills of off-the-shelf natural language processing (NLP) models with only minimal pre-processing and fine-tuning clearly demonstrate the power of transfer learning for practical applications.
翻訳日:2023-09-27 05:01:56 公開日:2023-09-25
# コンパイラマッピングにおける効率的な実時間誤差に基づくヒューリスティックスの導入による量子回路の至近忠実性

Near-Optimal Fidelity in Quantum Circuits through Incorporating Efficient Real-time Error Based Heuristics in Compiler Mappings ( http://arxiv.org/abs/2204.10199v2 )

ライセンス: Link先を確認
Md Nurul Muttakin(参考訳) 実際のデバイスで量子プログラムを実行するために、コンパイラは論理量子ビットを物理量子ビットにマッピングする。 これは量子回路をコンパイルする上で最も重要なステップである。 量子回路の忠実度はこの写像過程に大きく依存するためである。 しかし、この量子ビットマッピング問題はnp完全である。 したがって、高忠実度マッピングを見つけるためにヒューリスティックスに頼るべきである。 本稿では,量子回路の高忠実度マッピングを実現するために,リアルタイムエラーフィードバックとデバイス接続情報を組み込む効率的なヒューリスティック手法の探索に着目する。 2つのベースラインアルゴリズムに基づく広範な解析と実験を行った。 我々は,様々な誤差率とヒューリスティック手法の組み合わせで実験を行った。 その結果、リアルタイムエラーフィードバックと接続情報の両方を考慮するための非常にエレガントな手法を設計した。 我々の最善のヒューリスティックなアプローチは、ランダムベンチマークの他のベースラインよりも1つのベースラインよりも、(平均で) \textbf{1.62x} と(平均で) \textbf{1.934x} (平均で) であることを示した。 最後に、最高のヒューリスティック(caes)と最先端のヒューリスティックベースのマッピングアルゴリズムを代表ベンチマークで比較した。 その結果、caesは成功率の面では、アートの状態を上回って、平均値で \textbf{1.7x} を実行した。

To run a quantum program in the real device, the compiler maps the logical qubits to physical qubits. This is the most crucial step of compiling a quantum circuit. Because the fidelity of a quantum circuit depends heavily on this mapping process. However, this qubit mapping problem is NP-complete. Therefore, we should resort to heuristics to find high-fidelity mappings. In this paper, we focused on finding efficient heuristic techniques to incorporate real-time error feedback and device connectivity information in order to achieve high fidelity mapping of the quantum circuits. We performed extensive analysis and experimental study based on two baseline algorithms. We performed our experimentation on various combinations of different error rates and heuristic techniques. Consequently, we designed very elegant techniques to consider both all types of real-time error feedback and connectivity information. We showed that our best heuristic approach performs \textbf{1.62x} ( on average) better than one baseline and \textbf{1.934x} ( on average ) better than the other baseline on random benchmarks. Finally, we compared our best heuristic ( CAES ) with the state-of-the-art heuristic-based mapping algorithm on representative benchmarks. We found that CAES performed \textbf{1.7x} ( on average ) better than the state of the art in terms of success rate.
翻訳日:2023-09-27 05:01:28 公開日:2023-09-25
# ビュー合成のための局所統一3次元点雲の学習

Learning A Locally Unified 3D Point Cloud for View Synthesis ( http://arxiv.org/abs/2209.05013v2 )

ライセンス: Link先を確認
Meng You, Mantang Guo, Xianqiang Lyu, Hui Liu, and Junhui Hou(参考訳) 本稿では,分散ソースビューのセットから3次元ポイントクラウド表現に基づくビュー合成の問題を検討する。 この課題に対処するために、ソースビューから局所的に統一された3Dポイントクラウドを学ぶディープラーニングベースのビュー合成パラダイムを提案する。 具体的には、まずソースビューを3次元空間に投影し、深度マップに基づいてサブポイントクラウドを構築する。 そして、局所的に統一された3次元点雲を、部分点雲の結合上に定義された局所近傍の点を適応的に融合させることで学習する。 また、3次元形状誘導画像復元モジュールを提案し、穴を埋め、描画された新規ビューの高周波詳細を復元する。 3つのベンチマークデータセットによる実験結果から,提案手法は4dB以上の平均PSNRを向上し,より正確な視覚的詳細を保存できることを示した。

In this paper, we explore the problem of 3D point cloud representation-based view synthesis from a set of sparse source views. To tackle this challenging problem, we propose a new deep learning-based view synthesis paradigm that learns a locally unified 3D point cloud from source views. Specifically, we first construct sub-point clouds by projecting source views to 3D space based on their depth maps. Then, we learn the locally unified 3D point cloud by adaptively fusing points at a local neighborhood defined on the union of the sub-point clouds. Besides, we also propose a 3D geometry-guided image restoration module to fill the holes and recover high-frequency details of the rendered novel views. Experimental results on three benchmark datasets demonstrate that our method can improve the average PSNR by more than 4 dB while preserving more accurate visual details, compared with state-of-the-art view synthesis methods.
翻訳日:2023-09-27 04:55:58 公開日:2023-09-25
# 高速・低速なミトーシス検出:ミトーシス図のロバストかつ効率的な検出

Mitosis Detection, Fast and Slow: Robust and Efficient Detection of Mitotic Figures ( http://arxiv.org/abs/2208.12587v2 )

ライセンス: Link先を確認
Mostafa Jahanifar, Adam Shephard, Neda Zamanitajeddin, Simon Graham, Shan E Ahmed Raza, Fayyaz Minhas, Nasir Rajpoot(参考訳) 分裂図形の数え上げは、いくつかのがんの分類と予後の基本的なステップである。 しかし、手動のミトーシスカウントは退屈で時間を要する。 さらに、ミオティックな図形の外観の変化は、病理学者の間で高い不一致を引き起こす。 深層学習モデルの進歩により、いくつかの自動有糸分裂検出アルゴリズムが提案されているが、しばしば組織像に見られる領域シフトに敏感である。 本研究では,mitosis candidate segmentation ({\em detection fast}) と candidate refined ({\em detection slow}) の2段階からなるロバストで効率的な2段階mitosis detection frameworkを提案する。 提案された候補セグメンテーションモデルは \textit{eunet} と呼ばれ、そのアーキテクチャ設計のため高速で正確である。 EUNetは、候補を低い解像度で正確にセグメント化して、候補検出を大幅に高速化することができる。 候補は第2段階でより深い分類器ネットワークであるEfficientNet-B7を使って洗練される。 ドメイン一般化手法を取り入れることで、両方のステージがドメインシフトに対して堅牢であることを確認する。 本稿では,mitosis domain generalization challengeコンテスト(midog21とmidog22)で優勝した3大mitosisデータセット上で,提案モデルの最先端性能と一般化可能性を示す。 最後に,TCGA乳がんコホート(全スライディング画像1,125枚)を処理し,620K以上の有糸分裂像を生成・リリースすることで,提案アルゴリズムの有用性を示す。

Counting of mitotic figures is a fundamental step in grading and prognostication of several cancers. However, manual mitosis counting is tedious and time-consuming. In addition, variation in the appearance of mitotic figures causes a high degree of discordance among pathologists. With advances in deep learning models, several automatic mitosis detection algorithms have been proposed but they are sensitive to {\em domain shift} often seen in histology images. We propose a robust and efficient two-stage mitosis detection framework, which comprises mitosis candidate segmentation ({\em Detecting Fast}) and candidate refinement ({\em Detecting Slow}) stages. The proposed candidate segmentation model, termed \textit{EUNet}, is fast and accurate due to its architectural design. EUNet can precisely segment candidates at a lower resolution to considerably speed up candidate detection. Candidates are then refined using a deeper classifier network, EfficientNet-B7, in the second stage. We make sure both stages are robust against domain shift by incorporating domain generalization methods. We demonstrate state-of-the-art performance and generalizability of the proposed model on the three largest publicly available mitosis datasets, winning the two mitosis domain generalization challenge contests (MIDOG21 and MIDOG22). Finally, we showcase the utility of the proposed algorithm by processing the TCGA breast cancer cohort (1,125 whole-slide images) to generate and release a repository of more than 620K mitotic figures.
翻訳日:2023-09-27 04:55:20 公開日:2023-09-25
# ニューロシンボリック学習における含意バイアス論理損失の低減

Reduced Implication-bias Logic Loss for Neuro-Symbolic Learning ( http://arxiv.org/abs/2208.06838v2 )

ライセンス: Link先を確認
Haoyuan He, Wangzhou Dai, Ming Li(参考訳) 論理推論を微分演算子に近似することで論理推論と機械学習を統合することは、ニューロシンボリックシステムにおいて広く使われているテクニックである。 しかし、いくつかの微分演算子は、バックプロパゲーション中に大きなバイアスをもたらし、神経シンボリック学習の性能を低下させる可能性がある。 本稿では、ファジィ論理演算子から導かれる損失関数において、textit{Implication Bias} と呼ばれるこのバイアスが一般的であることを明らかにする。 さらに,上記の問題に対処するために,バイアス付き損失関数を \textit{reduced impliation-bias logic loss (rill) に変換する簡易かつ効果的な手法を提案する。 経験的研究によれば、rillは偏りのある論理損失関数と比較して、特に知識ベースが不完全である場合には大幅に改善でき、ラベル付きデータが不十分である場合には比較方法よりも頑健である。

Integrating logical reasoning and machine learning by approximating logical inference with differentiable operators is a widely used technique in Neuro-Symbolic systems. However, some differentiable operators could bring a significant bias during backpropagation and degrade the performance of Neuro-Symbolic learning. In this paper, we reveal that this bias, named \textit{Implication Bias} is common in loss functions derived from fuzzy logic operators. Furthermore, we propose a simple yet effective method to transform the biased loss functions into \textit{Reduced Implication-bias Logic Loss (RILL)} to address the above problem. Empirical study shows that RILL can achieve significant improvements compared with the biased logic loss functions, especially when the knowledge base is incomplete, and keeps more robust than the compared methods when labelled data is insufficient.
翻訳日:2023-09-27 04:53:43 公開日:2023-09-25
# EgPDE-Net: 外部変数を用いた時系列予測のための連続ニューラルネットワークの構築

EgPDE-Net: Building Continuous Neural Networks for Time Series Prediction with Exogenous Variables ( http://arxiv.org/abs/2208.01913v2 )

ライセンス: Link先を確認
Penglei Gao, Xi Yang, Rui Zhang, Ping Guo, John Y. Goulermas, and Kaizhu Huang(参考訳) 外因性変数は時系列解析における性能改善に大きな影響を与えるが, 時系列間の相関や時間依存性は, 連続的手法ではほとんど考慮されない。 多変量時系列の力学系は複素未知偏微分方程式 (PDE) でモデル化され、科学や工学の多くの分野において顕著な役割を果たす。 本稿では,自己アテンションとゲートリカレントニューラルネットワークによって支配方程式がパラメータ化される多変量時系列において,未知のPDEシステムを学習するための任意のステップ予測のための連続時間モデルを提案する。 提案したモデルである \underline{E}xogenous-\underline{g}uided \underline{P}artial \underline{D}ifferential \underline{E}quation Network (EgPDE-Net) は、外生変数間の関係と対象系列への影響を考慮に入れている。 重要なことに、このモデルは特別設計の正規化誘導による正規化常微分方程式(ODE)問題に還元することができ、PDE問題は数値解を得ることができ、任意の時点において対象系列の複数の将来の値を予測することができる。 実験の結果,提案モデルが強いベースラインよりも高い精度を達成できることが示された。平均すると,RMSEでは9.85 %,MAEでは13.98 %である。

While exogenous variables have a major impact on performance improvement in time series analysis, inter-series correlation and time dependence among them are rarely considered in the present continuous methods. The dynamical systems of multivariate time series could be modelled with complex unknown partial differential equations (PDEs) which play a prominent role in many disciplines of science and engineering. In this paper, we propose a continuous-time model for arbitrary-step prediction to learn an unknown PDE system in multivariate time series whose governing equations are parameterised by self-attention and gated recurrent neural networks. The proposed model, \underline{E}xogenous-\underline{g}uided \underline{P}artial \underline{D}ifferential \underline{E}quation Network (EgPDE-Net), takes account of the relationships among the exogenous variables and their effects on the target series. Importantly, the model can be reduced into a regularised ordinary differential equation (ODE) problem with special designed regularisation guidance, which makes the PDE problem tractable to obtain numerical solutions and feasible to predict multiple future values of the target series at arbitrary time points. Extensive experiments demonstrate that our proposed model could achieve competitive accuracy over strong baselines: on average, it outperforms the best baseline by reducing $9.85\%$ on RMSE and $13.98\%$ on MAE for arbitrary-step prediction.
翻訳日:2023-09-27 04:53:26 公開日:2023-09-25
# 動的拡散凝集法による深部残留GCNの重なり合うコミュニティ検出

Overlapping Community Detection using Dynamic Dilated Aggregation in Deep Residual GCN ( http://arxiv.org/abs/2210.11174v2 )

ライセンス: Link先を確認
Md Nurul Muttakin, Md Iqbal Hossain, Md Saidur Rahman(参考訳) 重複するコミュニティ検出は、グラフマイニングの重要な問題である。 グラフ畳み込みネットワーク(GCN)を用いてこの問題に取り組む研究もある。 しかし、一般的な不規則グラフの場合、深いグラフ畳み込みネットワークを組み込むことは依然として困難である。 本研究では,新しい動的拡張アグリゲーション機構と,ネットワーク内の重複するコミュニティを検出するためのエンドツーエンドエンコーダ・デコーダ・フレームワークを統一した動的残差グラフ畳み込みネットワーク(DynaResGCN)を設計する。 ディープDynaResGCNモデルはエンコーダとして、一方Bernoulli-Poisson(BP)モデルはデコーダとして使用される。 そこで,我々は,基礎的真理を持たない研究トピックスデータセット,信頼できる(ラベル付き)基盤真理を持つfacebookのネットワーク群,経験的(ラベル付きではない)基礎的真理を持つ,非常に大規模な共著者ネットワーク群に,重なり合ったコミュニティ検出フレームワークを適用する。 これらのデータセットを用いた実験により,ネットワーク上の重なり合うコミュニティを検出するための最先端手法よりも,はるかに優れた性能を示した。

Overlapping community detection is a key problem in graph mining. Some research has considered applying graph convolutional networks (GCN) to tackle the problem. However, it is still challenging to incorporate deep graph convolutional networks in the case of general irregular graphs. In this study, we design a deep dynamic residual graph convolutional network (DynaResGCN) based on our novel dynamic dilated aggregation mechanisms and a unified end-to-end encoder-decoder-based framework to detect overlapping communities in networks. The deep DynaResGCN model is used as the encoder, whereas we incorporate the Bernoulli-Poisson (BP) model as the decoder. Consequently, we apply our overlapping community detection framework in a research topics dataset without having ground truth, a set of networks from Facebook having a reliable (hand-labeled) ground truth, and in a set of very large co-authorship networks having empirical (not hand-labeled) ground truth. Our experimentation on these datasets shows significantly superior performance over many state-of-the-art methods for the detection of overlapping communities in networks.
翻訳日:2023-09-27 04:43:25 公開日:2023-09-25
# p$^3$vae:物理積分生成モデル。 航空機搭載ハイパースペクトル画像の画素ワイズ分類への応用

p$^3$VAE: a physics-integrated generative model. Application to the pixel-wise classification of airborne hyperspectral images ( http://arxiv.org/abs/2210.10418v4 )

ライセンス: Link先を確認
Romain Thoreau, Laurent Risser, V\'eronique Achard, B\'eatrice Berthelot and Xavier Briottet(参考訳) 機械学習モデルと物理モデルの組み合わせは、堅牢なデータ表現を学ぶための最近の研究パスである。 本稿では,データの変化の真の要因を決定論的にモデル化する物理モデルを統合する生成モデルであるp$^3$VAEを紹介する。 ハイブリッド設計を完全に活用するため,既存の半教師付き最適化手法を強化し,有意義な不確実性推定に沿う新しい推論手法を導入する。 p$^3$VAE を空中ハイパースペクトル画像の画素単位での分類に適用する。 シミュレーションおよび実データを用いた実験は、外挿能力と解釈可能性の観点から従来の機械学習モデルに対するハイブリッドモデルの利点を実証する。 特に、p$^3$vae は自然に高い等角性を持つことを示す。 私たちのコードとデータはhttps://github.com/Romain3Ch216/p3VAEで公開されています。

The combination of machine learning models with physical models is a recent research path to learn robust data representations. In this paper, we introduce p$^3$VAE, a generative model that integrates a physical model which deterministically models some of the true underlying factors of variation in the data. To fully leverage our hybrid design, we enhance an existing semi-supervised optimization technique and introduce a new inference scheme that comes along meaningful uncertainty estimates. We apply p$^3$VAE to the pixel-wise classification of airborne hyperspectral images. Our experiments on simulated and real data demonstrate the benefits of our hybrid model against conventional machine learning models in terms of extrapolation capabilities and interpretability. In particular, we show that p$^3$VAE naturally has high disentanglement capabilities. Our code and data have been made publicly available at https://github.com/Romain3Ch216/p3VAE.
翻訳日:2023-09-27 04:43:05 公開日:2023-09-25
# 画像と映像のパノプティブ・セグメンテーションのための一般フレームワーク

A Generalist Framework for Panoptic Segmentation of Images and Videos ( http://arxiv.org/abs/2210.06366v3 )

ライセンス: Link先を確認
Ting Chen, Lala Li, Saurabh Saxena, Geoffrey Hinton, David J. Fleet(参考訳) panoptic segmentationはイメージの各ピクセルにセマンティックidとインスタンスidラベルを割り当てる。 インスタンスIDの置換も有効な解であるため、タスクは高次元の1対多マッピングの学習を必要とする。 その結果、最先端のアプローチはカスタマイズされたアーキテクチャとタスク固有の損失関数を使用する。 我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティックセグメンテーションを定式化する。 単純な構造と一般的な損失関数を持つパノスコープマスクをモデル化するための拡散モデルを提案する。 条件付け信号として過去の予測を加えるだけで、ビデオ(ストリーミング設定)をモデル化し、オブジェクトのインスタンスを自動的に追跡することが可能になる。 広範な実験により,我々のアプローチが類似した環境で最先端のスペシャリストメソッドと競合することを実証した。

Panoptic segmentation assigns semantic and instance ID labels to every pixel of an image. As permutations of instance IDs are also valid solutions, the task requires learning of high-dimensional one-to-many mapping. As a result, state-of-the-art approaches use customized architectures and task-specific loss functions. We formulate panoptic segmentation as a discrete data generation problem, without relying on inductive bias of the task. A diffusion model is proposed to model panoptic masks, with a simple architecture and generic loss function. By simply adding past predictions as a conditioning signal, our method is capable of modeling video (in a streaming setting) and thereby learns to track object instances automatically. With extensive experiments, we demonstrate that our simple approach can perform competitively to state-of-the-art specialist methods in similar settings.
翻訳日:2023-09-27 04:42:53 公開日:2023-09-25
# 濃厚水素に対する深い変分自由エネルギーアプローチ

Deep Variational Free Energy Approach to Dense Hydrogen ( http://arxiv.org/abs/2209.06095v2 )

ライセンス: Link先を確認
Hao Xie, Zi-Hang Li, Han Wang, Linfeng Zhang, Lei Wang(参考訳) 我々は高密度水素の状態方程式に対するモデルに基づく変分自由エネルギーアプローチを開発した。 陽子ボルツマン分布をモデル化するために正規化フローネットワークと、与えられた陽子位置における電子波動関数をモデル化するフェルミオンニューラルネットワークを用いる。 2つのニューラルネットワークを共同最適化することで、以前の結合電子イオンモンテカルロ計算に匹敵する変動自由エネルギーに達した。 惑星条件下での高密度水素状態の予測式は、ab initio分子動力学計算と経験的化学モデルの結果よりも密度が高い。 さらに、高密度水素のエントロピーと自由エネルギーへの直接アクセスは、惑星モデリングと高圧物理学研究の新しい機会を開く。

We developed a deep generative model-based variational free energy approach to the equations of state of dense hydrogen. We employ a normalizing flow network to model the proton Boltzmann distribution and a fermionic neural network to model the electron wave function at given proton positions. By jointly optimizing the two neural networks we reached a comparable variational free energy to the previous coupled electron-ion Monte Carlo calculation. The predicted equation of state of dense hydrogen under planetary conditions is denser than the findings of ab initio molecular dynamics calculation and empirical chemical model. Moreover, direct access to the entropy and free energy of dense hydrogen opens new opportunities in planetary modeling and high-pressure physics research.
翻訳日:2023-09-27 04:41:12 公開日:2023-09-25
# リモートセンシング画像のマルチラベル分類のための深層能動学習

Deep Active Learning for Multi-Label Classification of Remote Sensing Images ( http://arxiv.org/abs/2212.01165v3 )

ライセンス: Link先を確認
Lars M\"ollenbrok, Gencer Sumbul, Beg\"um Demir(参考訳) 本稿では,リモートセンシング(RS)におけるマルチラベル分類(MLC)問題に対する深層能動学習(AL)を紹介する。 特に,RS画像のMLCに対する複数のALクエリ関数の有効性を検討した。 既存のalクエリ関数(単一ラベル分類やセマンティクスセグメンテーション問題で定義されている)とは異なり、各クエリ関数は2つの基準の評価に基づいている。 一 複数ラベルの不確実性 ii)マルチラベルの多様性。 マルチラベルの不確実性基準は、ディープニューラルネットワーク(DNN)の信頼度に関連付けられ、各画像に複数のラベルを正しく割り当てる。 この基準を評価するために,我々は3つの戦略を検討する。 一 複数レーベルの損失発注の学習 二 複数ラベル予測の時間的不一致の測定、及び 三 近似勾配埋め込みの大きさを測定すること。 マルチラベル多様性基準は、冗長性を防止するために互いに可能な限り多様な画像のセットを選択することに関連している。 この基準を評価するために、クラスタリングベースの戦略を利用する。 上記の不確実性戦略とクラスタリングに基づく多様性戦略をそれぞれ組み合わせ、3つの異なるクエリ関数を生成する。 すべての考慮されたクエリ関数は、rsのmlc問題のフレームワークで初めて導入された。 2つのベンチマークアーカイブで得られた実験結果は、これらのクエリ関数がalプロセスの各イテレーションで非常に有益なサンプルセットを選択する結果をもたらすことを示している。

In this letter, we introduce deep active learning (AL) for multi-label classification (MLC) problems in remote sensing (RS). In particular, we investigate the effectiveness of several AL query functions for MLC of RS images. Unlike the existing AL query functions (which are defined for single-label classification or semantic segmentation problems), each query function in this paper is based on the evaluation of two criteria: i) multi-label uncertainty; and ii) multi-label diversity. The multi-label uncertainty criterion is associated to the confidence of the deep neural networks (DNNs) in correctly assigning multi-labels to each image. To assess this criterion, we investigate three strategies: i) learning multi-label loss ordering; ii) measuring temporal discrepancy of multi-label predictions; and iii) measuring magnitude of approximated gradient embeddings. The multi-label diversity criterion is associated to the selection of a set of images that are as diverse as possible to each other that prevents redundancy among them. To assess this criterion, we exploit a clustering based strategy. We combine each of the above-mentioned uncertainty strategies with the clustering based diversity strategy, resulting in three different query functions. All the considered query functions are introduced for the first time in the framework of MLC problems in RS. Experimental results obtained on two benchmark archives show that these query functions result in the selection of a highly informative set of samples at each iteration of the AL process.
翻訳日:2023-09-27 04:35:19 公開日:2023-09-25
# 今どこにいるの? 知覚密度ローバーの局所的不確かさを最小化する最適センサ状態の動的探索

Where Am I Now? Dynamically Finding Optimal Sensor States to Minimize Localization Uncertainty for a Perception-Denied Rover ( http://arxiv.org/abs/2211.16721v2 )

ライセンス: Link先を確認
Troi Williams, Po-Lun Chen, Sparsh Bhogavilli, Vaibhav Sanjay, Pratap Tokekar(参考訳) 我々は,障害や閉塞を避けつつ,局所化の不確実性を最小限に抑えるために,動的に最適な状態を見つける能動的知覚法DyFOSを提案する。 本研究では, ロボットの位置と不確実性を測定し, 障害物に満たされた経路に沿って位置決めを行う。 視聴者のセンサからの位置の不確かさは、センサー自体、ローバー、周囲の環境の状態の関数である。 ローバーの局所化不確実性を最小化する最適センサ状態を見つけるために、DyFOSは最適化探索に局在化不確実性予測パイプラインを使用する。 上記の状態の多くのサンプルが与えられた場合、パイプラインは、訓練された複雑な状態依存センサー計測モデル(確率的ニューラルネットワーク)の助けを借りて、ローバーの局在の不確実性を予測する。 また, 閉塞や障害物衝突を予測し, 望ましくない視聴状態を除去し, 不要な計算量を削減する。 提案手法を数値的およびシミュレーション的に評価する。 以上の結果から,DyFOSはブルート力よりも高速であることがわかった。 DyFOSはまた、高速なランダム検索やヒューリスティック検索よりもローカライゼーションの不確かさが低い。

We present DyFOS, an active perception method that dynamically finds optimal states to minimize localization uncertainty while avoiding obstacles and occlusions. We consider the scenario where a perception-denied rover relies on position and uncertainty measurements from a viewer robot to localize itself along an obstacle-filled path. The position uncertainty from the viewer's sensor is a function of the states of the sensor itself, the rover, and the surrounding environment. To find an optimal sensor state that minimizes the rover's localization uncertainty, DyFOS uses a localization uncertainty prediction pipeline in an optimization search. Given numerous samples of the states mentioned above, the pipeline predicts the rover's localization uncertainty with the help of a trained, complex state-dependent sensor measurement model (a probabilistic neural network). Our pipeline also predicts occlusion and obstacle collision to remove undesirable viewer states and reduce unnecessary computations. We evaluate the proposed method numerically and in simulation. Our results show that DyFOS is faster than brute force yet performs on par. DyFOS also yielded lower localization uncertainties than faster random and heuristic-based searches.
翻訳日:2023-09-27 04:34:21 公開日:2023-09-25
# saga: 3dメッシュに対するスペクトル逆幾何攻撃

SAGA: Spectral Adversarial Geometric Attack on 3D Meshes ( http://arxiv.org/abs/2211.13775v2 )

ライセンス: Link先を確認
Tomer Stolik, Itai Lang, Shai Avidan(参考訳) 三角形メッシュは最も人気のある3Dデータ表現の1つである。 このように、メッシュ処理のためのディープニューラルネットワークの展開が広く普及し、ますます注目を集めている。 しかし、ニューラルネットワークは敵の攻撃を受けやすいため、慎重に入力を行うとモデルの機能を損なう。 これらの脆弱性を探る必要性は、3Dベースのアプリケーションの開発における基本的な要素である。 近年,セマンティクスレベルでメッシュ攻撃が研究され,分類器を誤認して誤った予測を生じさせている。 それにもかかわらず、メッシュ表面は意味的な意味を超えた複雑な幾何学的属性を持ち、それらの分析にはしばしば形状の幾何学をエンコードし再構成する必要がある。 3次元メッシュオートエンコーダに対する幾何学的対角攻撃のための新しいフレームワークを提案する。 この設定において、逆入力メッシュは、出力時に異なる幾何学形状を再構成させ、オートエンコーダを欺く。 スペクトル領域の清潔な形状を摂動させて悪質な入力を生成する。 本手法は,メッシュのスペクトル分解とメッシュ関連特性を利用して,表面歪みの妥当性を考慮した視覚的信頼性のある結果を得る。 私たちのコードはhttps://github.com/StolikTomer/SAGAで公開されています。

A triangular mesh is one of the most popular 3D data representations. As such, the deployment of deep neural networks for mesh processing is widely spread and is increasingly attracting more attention. However, neural networks are prone to adversarial attacks, where carefully crafted inputs impair the model's functionality. The need to explore these vulnerabilities is a fundamental factor in the future development of 3D-based applications. Recently, mesh attacks were studied on the semantic level, where classifiers are misled to produce wrong predictions. Nevertheless, mesh surfaces possess complex geometric attributes beyond their semantic meaning, and their analysis often includes the need to encode and reconstruct the geometry of the shape. We propose a novel framework for a geometric adversarial attack on a 3D mesh autoencoder. In this setting, an adversarial input mesh deceives the autoencoder by forcing it to reconstruct a different geometric shape at its output. The malicious input is produced by perturbing a clean shape in the spectral domain. Our method leverages the spectral decomposition of the mesh along with additional mesh-related properties to obtain visually credible results that consider the delicacy of surface distortions. Our code is publicly available at https://github.com/StolikTomer/SAGA.
翻訳日:2023-09-27 04:34:02 公開日:2023-09-25
# Ego4D Moment Queries Challenge 2022へのReLER@ZJUの提出

ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022 ( http://arxiv.org/abs/2211.09558v2 )

ライセンス: Link先を確認
Jiayi Shao and Xiaohan Wang and Yi Yang(参考訳) 本稿では,ECCV 2022におけるEgo4D Moment Queries ChallengeへのReLER@ZJU1の提出について述べる。 このタスクでは、エゴセントリックビデオで可能なアクティビティのすべてのインスタンスを検索し、ローカライズすることが目標です。 ego4dデータセットは、ビデオの時間的持続時間がかなり長く、各ビデオがきめ細かいアクションクラスを持つ複数のアクションインスタンスを含んでいるため、時間的アクションローカライズタスクに挑戦する。 これらの問題に対処するために,マルチスケールトランスフォーマを使用して異なるアクションカテゴリを分類し,各インスタンスの境界を予測する。 さらに,長いビデオの時間的依存性をよりよく捉えるために,セグメントレベルの再帰機構を提案する。 提案するセグメントレベルの再帰機構は,全ての映像特徴をトランスフォーマエンコーダに直接供給することに比べ,最適化の難しさを軽減し,良好な性能を実現する。 Recall@1,tIoU=0.5スコア37.24、平均mAPスコア17.67、そして3位となった。

In this report, we present the ReLER@ZJU1 submission to the Ego4D Moment Queries Challenge in ECCV 2022. In this task, the goal is to retrieve and localize all instances of possible activities in egocentric videos. Ego4D dataset is challenging for the temporal action localization task as the temporal duration of the videos is quite long and each video contains multiple action instances with fine-grained action classes. To address these problems, we utilize a multi-scale transformer to classify different action categories and predict the boundary of each instance. Moreover, in order to better capture the long-term temporal dependencies in the long videos, we propose a segment-level recurrence mechanism. Compared with directly feeding all video features to the transformer encoder, the proposed segment-level recurrence mechanism alleviates the optimization difficulties and achieves better performance. The final submission achieved Recall@1,tIoU=0.5 score of 37.24, average mAP score of 17.67 and took 3-rd place on the leaderboard.
翻訳日:2023-09-27 04:33:08 公開日:2023-09-25
# REPAIR:補間修復のための置換活性化の正規化

REPAIR: REnormalizing Permuted Activations for Interpolation Repair ( http://arxiv.org/abs/2211.08403v3 )

ライセンス: Link先を確認
Keller Jordan, Hanie Sedghi, Olga Saukh, Rahim Entezari, Behnam Neyshabur(参考訳) 本稿では, ニューラルネットワークの置換不変性を考慮した場合, sgd 解間の線形補間に対する損失障壁が存在しないことを示唆する entezari et al. (2021) の予想を考察する。 まず、ニューロンアライメント法だけでは、分散崩壊と呼ばれる現象により、SGD溶液間の低バリアリニア接続を確立するには不十分であることが観察された。 次に、これらの補間ネットワークの事前動作を再スケーリングすることにより分散崩壊を緩和するREPAIR(Renormalizing Permuted Activations for Interpolation repair)を提案する。 本手法と正規化層,ネットワーク幅,深さの選択との相互作用について検討し,ニューロンアライメント法上でREPAIRを用いることで,多種多様なアーキテクチャファミリやタスクに対する相対障壁の60%-100%低減が達成できることを示す。 特に,imagenetではresnet50の74%,cifar10ではresnet18では90%のバリア低減が報告されている。

In this paper we look into the conjecture of Entezari et al. (2021) which states that if the permutation invariance of neural networks is taken into account, then there is likely no loss barrier to the linear interpolation between SGD solutions. First, we observe that neuron alignment methods alone are insufficient to establish low-barrier linear connectivity between SGD solutions due to a phenomenon we call variance collapse: interpolated deep networks suffer a collapse in the variance of their activations, causing poor performance. Next, we propose REPAIR (REnormalizing Permuted Activations for Interpolation Repair) which mitigates variance collapse by rescaling the preactivations of such interpolated networks. We explore the interaction between our method and the choice of normalization layer, network width, and depth, and demonstrate that using REPAIR on top of neuron alignment methods leads to 60%-100% relative barrier reduction across a wide variety of architecture families and tasks. In particular, we report a 74% barrier reduction for ResNet50 on ImageNet and 90% barrier reduction for ResNet18 on CIFAR10.
翻訳日:2023-09-27 04:32:29 公開日:2023-09-25
# 自然言語処理における論理的誤りのロバストかつ説明可能な同定

Robust and Explainable Identification of Logical Fallacies in Natural Language Arguments ( http://arxiv.org/abs/2212.07425v3 )

ライセンス: Link先を確認
Zhivar Sourati, Vishnu Priya Prasanna Venkatesh, Darshan Deshpande, Himanshu Rawlani, Filip Ilievski, H\^ong-\^An Sandlin, Alain Mermoud(参考訳) 偽情報、プロパガンダ、欠陥のある議論の拡散はインターネット時代に増幅されている。 データの量と議論規範の違反を識別する微妙さを考えると、コンテンツモデレーションのような情報分析タスクをサポートし、論理的誤りを識別する信頼できる方法が不可欠である。 本稿では,従来の論理的誤りに関する理論的研究を,検出,粗粒度,きめ細かい分類の総合的な3段階評価フレームワークに定式化する。 既存の評価データセットを評価の各段階に適用する。 我々は,プロトタイプ推論,インスタンスベースの推論,知識注入に基づく,堅牢で説明可能な3つの手法を取り入れている。 これらの手法は、言語モデルと背景知識と説明可能なメカニズムを組み合わせる。 さらに,データ拡張とカリキュラム学習の戦略により,データの分散性に対処する。 当社の3段階フレームワークは,プロパガンダ検出などの既存のタスクから,事前データセットとメソッドをネイティブに統合し,総合的な評価テストベッドとして機能します。 これらの手法をデータセット上で広範囲に評価し,堅牢性と説明可能性に注目した。 本研究は,異なる構成要素と誤認クラスにおける手法の強みと弱みについて考察し,誤認同定は様々なクラスを捉えるのに特別な推論を必要とする困難な課題であることを示す。 私たちはオープンソースコードとデータをgithubで共有し、論理的な誤った識別に関するさらなる作業を支援しています。

The spread of misinformation, propaganda, and flawed argumentation has been amplified in the Internet era. Given the volume of data and the subtlety of identifying violations of argumentation norms, supporting information analytics tasks, like content moderation, with trustworthy methods that can identify logical fallacies is essential. In this paper, we formalize prior theoretical work on logical fallacies into a comprehensive three-stage evaluation framework of detection, coarse-grained, and fine-grained classification. We adapt existing evaluation datasets for each stage of the evaluation. We employ three families of robust and explainable methods based on prototype reasoning, instance-based reasoning, and knowledge injection. The methods combine language models with background knowledge and explainable mechanisms. Moreover, we address data sparsity with strategies for data augmentation and curriculum learning. Our three-stage framework natively consolidates prior datasets and methods from existing tasks, like propaganda detection, serving as an overarching evaluation testbed. We extensively evaluate these methods on our datasets, focusing on their robustness and explainability. Our results provide insight into the strengths and weaknesses of the methods on different components and fallacy classes, indicating that fallacy identification is a challenging task that may require specialized forms of reasoning to capture various classes. We share our open-source code and data on GitHub to support further work on logical fallacy identification.
翻訳日:2023-09-27 04:21:57 公開日:2023-09-25
# オブジェクトポップアップのためのソースフリー深さ

Source-free Depth for Object Pop-out ( http://arxiv.org/abs/2212.05370v3 )

ライセンス: Link先を確認
Zongwei Wu, Danda Pani Paudel, Deng-Ping Fan, Jingjing Wang, Shuo Wang, C\'edric Demonceaux, Radu Timofte, Luc Van Gool(参考訳) 奥行きは視覚知覚に有用であることが知られている。 しかし、しばしば深度を直接測定することは不可能である。 しかし幸いなことに、現代の学習ベースの手法は、野放しの推論によって有望な深度マップを提供する。 本研究では,3次元に先行するオブジェクトの「ポップアウト」を用いて,オブジェクトセグメンテーションの深度推定モデルを適用する。 pop-out" は、オブジェクトがバックグラウンド面に存在すると仮定した単純な構成である。 このような合成前もって、3d空間のオブジェクトについて推論できる。 より具体的には、3次元情報のみを用いて物体を局所化できるように、推定深度マップを適応させる。 しかし、そのような分離には、セグメンテーションマスクの弱い監督を用いて学習する接触面に関する知識が必要である。 接触面の中間表現と、3Dで純粋に物体を推論することで、深度知識をよりセマンティクスに伝達することができる。 提案手法は,訓練に使用するソースデータを必要とせず,深度モデルのみを用いて学習プロセスを効率的かつ実用的なものにする。 提案手法は,2つの課題,すなわちcamouflaged object detectionとsalient object detectionの8つのデータセットを対象とした実験により,性能と汎用性の両方において,その利点を一貫して証明した。

Depth cues are known to be useful for visual perception. However, direct measurement of depth is often impracticable. Fortunately, though, modern learning-based methods offer promising depth maps by inference in the wild. In this work, we adapt such depth inference models for object segmentation using the objects' "pop-out" prior in 3D. The "pop-out" is a simple composition prior that assumes objects reside on the background surface. Such compositional prior allows us to reason about objects in the 3D space. More specifically, we adapt the inferred depth maps such that objects can be localized using only 3D information. Such separation, however, requires knowledge about contact surface which we learn using the weak supervision of the segmentation mask. Our intermediate representation of contact surface, and thereby reasoning about objects purely in 3D, allows us to better transfer the depth knowledge into semantics. The proposed adaptation method uses only the depth model without needing the source data used for training, making the learning process efficient and practical. Our experiments on eight datasets of two challenging tasks, namely camouflaged object detection and salient object detection, consistently demonstrate the benefit of our method in terms of both performance and generalizability.
翻訳日:2023-09-27 04:21:23 公開日:2023-09-25
# 位相、モーダリティ、時間的および空間的局所性:グラフ分析の高速化のためのドメイン固有mlプリフェッチャー

Phases, Modalities, Temporal and Spatial Locality: Domain Specific ML Prefetcher for Accelerating Graph Analytics ( http://arxiv.org/abs/2212.05250v2 )

ライセンス: Link先を確認
Pengmiao Zhang, Rajgopal Kannan, Viktor K. Prasanna(参考訳) メモリパフォーマンスは、グラフ分析アクセラレーションのボトルネックである。 既存の機械学習(ml)プリフェッチは、グラフ処理における相転移と不規則なメモリアクセスに苦しむ。 ドメイン固有モデルを用いたグラフ解析のためのMLベースのPrefetcherであるMPGraphを提案する。 MPGraphは、位相遷移のソフト検出、アクセスデルタとページ予測のためのフェーズ固有多モードモデル、プリフェッチ制御のためのチェーン時空間プレフェッチ(CSTP)という3つの新しい最適化を導入している。 遷移検出器はコルモゴロフ-スミルノフウィンドウと決定木と比較して34.17-82.15%高い精度を達成した。 我々の予測器は、デルタのF1スコアが6.80-16.02%高く、ページ予測の精度が11.68-15.41%高い。 CSTPを使用して、MPGraphは12.52-21.23%のIPC改善を実現し、最先端の非MLプレフェッチャーBOを7.58-12.03%、MLベースのプレフェッシャーVoyagerとTransFetchを3.27-4.58%上回った。 実際の実装では,圧縮モデルを用いたMPGraphの低レイテンシ化により,BOに比べて精度とカバレッジが著しく向上し,IPCの改善率が3.58%向上した。

Memory performance is a bottleneck in graph analytics acceleration. Existing Machine Learning (ML) prefetchers struggle with phase transitions and irregular memory accesses in graph processing. We propose MPGraph, an ML-based Prefetcher for Graph analytics using domain specific models. MPGraph introduces three novel optimizations: soft detection for phase transitions, phase-specific multi-modality models for access delta and page predictions, and chain spatio-temporal prefetching (CSTP) for prefetch control. Our transition detector achieves 34.17-82.15% higher precision compared with Kolmogorov-Smirnov Windowing and decision tree. Our predictors achieve 6.80-16.02% higher F1-score for delta and 11.68-15.41% higher accuracy-at-10 for page prediction compared with LSTM and vanilla attention models. Using CSTP, MPGraph achieves 12.52-21.23% IPC improvement, outperforming state-of-the-art non-ML prefetcher BO by 7.58-12.03% and ML-based prefetchers Voyager and TransFetch by 3.27-4.58%. For practical implementation, we demonstrate MPGraph using compressed models with reduced latency shows significantly superior accuracy and coverage compared with BO, leading to 3.58% higher IPC improvement.
翻訳日:2023-09-27 04:21:04 公開日:2023-09-25
# ワッフル鉄を用いた自動車点雲セマンティックセグメンテーション

Using a Waffle Iron for Automotive Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2301.10100v2 )

ライセンス: Link先を確認
Gilles Puy, Alexandre Boulch, Renaud Marlet(参考訳) 自律運転データセットにおける点雲のセマンティックセグメンテーションは、多数の点を効率的に処理できる技術を必要とする。 スパース3d畳み込み(sparse 3d convolutions)は、このタスクのためにディープニューラルネットワークを構築するためのデファクトツールになっている。 本稿では,スパース畳み込みを必要とせず,最先端の手法に到達する代替手法を提案する。 このようなレベルのパフォーマンスは,大規模かつ高性能な3D知覚に適さないツールに依存して達成可能であることを示す。 特に,MLPと高密度2Dコンボリューションを主成分とする新規な3DバックボーンWaffleIronを提案し,SemanticKITTIとnuScenesで高い性能を達成するためのトレーニング方法を提案する。 waffleironは、スパースな3d畳み込みを使用するバックボーンに対して、特にその畳み込みが容易に利用できないフレームワークやハードウェアにおいて、魅力的な代替手段であると考えています。

Semantic segmentation of point clouds in autonomous driving datasets requires techniques that can process large numbers of points efficiently. Sparse 3D convolutions have become the de-facto tools to construct deep neural networks for this task: they exploit point cloud sparsity to reduce the memory and computational loads and are at the core of today's best methods. In this paper, we propose an alternative method that reaches the level of state-of-the-art methods without requiring sparse convolutions. We actually show that such level of performance is achievable by relying on tools a priori unfit for large scale and high-performing 3D perception. In particular, we propose a novel 3D backbone, WaffleIron, made almost exclusively of MLPs and dense 2D convolutions and present how to train it to reach high performance on SemanticKITTI and nuScenes. We believe that WaffleIron is a compelling alternative to backbones using sparse 3D convolutions, especially in frameworks and on hardware where those convolutions are not readily available.
翻訳日:2023-09-27 04:15:19 公開日:2023-09-25
# 多体局在相間の共鳴拡散の正規化

Renormalization view on resonance proliferation between many-body localized phases ( http://arxiv.org/abs/2301.08738v3 )

ライセンス: Link先を確認
Jared Jeyaretnam, Christopher J. Turner, Arijeet Pal(参考訳) 位相と多体局在(MBL)は、有限エネルギー密度で量子情報を保存するための新しい道を開いた。 共鳴脱局在化はこれらの現象の不安定化に重要な役割を果たしている。 本研究では,波動関数の共振特性を効率的に特徴付ける実空間再正規化群を符号化するクリフォード回路を用いて,対称性を保護した位相秩序をホストする不規則相互作用イジングモデルにおける多体共鳴の統計的性質について検討する。 以上の結果から, 自明なmbl相と位相的に順序付けられたmbl相は共振に対して安定なままであるが, 共振増殖により局所化近傍では不安定であることが示された。 雪崩不安定性の発達への感受性の分散は、間欠的なエルゴード相を示唆する。 また、mbl相における運動の局所積分にアクセスし、秩序相における位相的エッジモード作用素を同定することができる。 以上の結果から,MBLの安定性と,MBL相間の相転移の対称性および非対称性が示唆された。

Topology and many-body localization (MBL) have opened new avenues for preserving quantum information at finite energy density. Resonant delocalization plays a crucial role in destabilizing these phenomena. In this work, we study the statistical properties of many-body resonances in a disordered interacting Ising model - which can host symmetry protected topological order - using a Clifford circuit encoding of the real space renormalization group which allows the resonant properties of the wave functions to be efficiently characterized. Our findings show that both the trivial and topologically ordered MBL phases remain stable to the resonances, but in the vicinity of the transition between them localization is destabilized by resonance proliferation. Diverging susceptibility towards the development of an avalanche instability suggests an intervening ergodic phase. We are also able to access the local integrals of motion in the MBL phases and identify the topological edge-mode operators in the ordered phase. Our results have important implications for the stability of MBL and phase transitions between distinct MBL phases with and without symmetries.
翻訳日:2023-09-27 04:14:30 公開日:2023-09-25
# 限定注文書市場における取引信号実行のための非同期深層デュエルQラーニング

Asynchronous Deep Double Duelling Q-Learning for Trading-Signal Execution in Limit Order Book Markets ( http://arxiv.org/abs/2301.08688v2 )

ライセンス: Link先を確認
Peer Nagy, Jan-Peter Calliess and Stefan Zohren(参考訳) 我々は、エージェントを訓練するために深層強化学習(RL)を使用し、高周波取引信号を個々のリミット注文を配置するトレーディング戦略にうまく翻訳する。 abides limit order book simulatorに基づき、強化学習openaiジム環境を構築し、歴史的な注文帳メッセージに基づいてnasdaq株の現実的な取引環境をシミュレートする。 この環境でのトレーディングリターンの最大化を学習するトレーディングエージェントのトレーニングには、APEX(asynchronous prioritised Experience replay)アーキテクチャを使用したDeep Duelling Double Q-learningを使用します。 エージェントは、現在のリミットオーダーの帳簿状態、その最近の歴史、および短期的な方向性予測を観察する。 具体的な予測アルゴリズムから独立して適応的トレーディングを行うためのRLの性能について検討するため,ノイズレベルの異なる前方方向のリターンを摂動することで得られる合成アルファ信号を用いた手法の性能について検討した。 ここでは,RLエージェントが在庫管理の効果的なトレーディング戦略を学習し,それらが同一信号にアクセス可能なヒューリスティックなベンチマークトレーディング戦略より優れていることを示す。

We employ deep reinforcement learning (RL) to train an agent to successfully translate a high-frequency trading signal into a trading strategy that places individual limit orders. Based on the ABIDES limit order book simulator, we build a reinforcement learning OpenAI gym environment and utilise it to simulate a realistic trading environment for NASDAQ equities based on historic order book messages. To train a trading agent that learns to maximise its trading return in this environment, we use Deep Duelling Double Q-learning with the APEX (asynchronous prioritised experience replay) architecture. The agent observes the current limit order book state, its recent history, and a short-term directional forecast. To investigate the performance of RL for adaptive trading independently from a concrete forecasting algorithm, we study the performance of our approach utilising synthetic alpha signals obtained by perturbing forward-looking returns with varying levels of noise. Here, we find that the RL agent learns an effective trading strategy for inventory management and order placing that outperforms a heuristic benchmark trading strategy having access to the same signal.
翻訳日:2023-09-27 04:14:13 公開日:2023-09-25
# 混合ロボットチームにおける動的役割配置と協調作業計画のための統一アーキテクチャ

A Unified Architecture for Dynamic Role Allocation and Collaborative Task Planning in Mixed Human-Robot Teams ( http://arxiv.org/abs/2301.08038v2 )

ライセンス: Link先を確認
Edoardo Lamon (1,2), Fabio Fusaro (1,3), Elena De Momi (1,3), Arash Ajoudani (1) ((1) Human-Robot Interfaces and Interaction, Istituto Italiano di Tecnologia, Genoa, Italy, (2) Department of Information Engineering and Computer Science, Universit\`a di Trento, Trento, Italy, (3) Department of Electronics, Information and Bioengineering, Politecnico di Milano, Milan, Italy)(参考訳) ハンドリング、溶接、組み立てなど、いくつかの産業アプリケーションにおける人間とロボットの協調プロセスの展開は、大規模な異種チームを管理することができるシステムの追求を拡大すると同時に、複雑なタスクの実行を監視します。 本稿では,任意のサイズの混合ロボットチームにおいて,動的役割割り当てと協調作業計画のための新しいアーキテクチャを提案する。 このアーキテクチャは、行動計画(BT)に基づく集中型リアクティブでモジュール化されたタスク非依存の計画手法を利用しており、割り込み問題はMILP(Mixed-Integer Linear Program)によって定式化され、チームのエージェントに動的に個々の役割やコラボレーションを割り当てる。 milpコストとして使用されるさまざまなメトリクスにより、アーキテクチャはコラボレーションのさまざまな側面(例えば、makespan、人間工学、人間選好)を好むことができる。 交渉段階を通じて人間の嗜好を識別し、人間エージェントが割り当てられたタスクを受理/再結合し、さらに、異なるアクションフェーズで作業者の支援と調整を行うための直感的な機能を提供する拡張現実(ar)カスタムユーザインタフェースにより、人間とシステム間の双方向通信を実現する。 提案手法の計算複雑性は、産業規模の仕事やチーム(最大50のアクションと20のエージェントが1秒以内で解決される)における文学的アプローチよりも優れている。 コスト関数が変化するにつれて、割り当てられたさまざまな役割は、アーキテクチャの柔軟性をいくつかのプロダクション要件に強調する。 最後に,対象シナリオに対する高いユーザビリティレベルと適合性を示す主観評価を行った。

The growing deployment of human-robot collaborative processes in several industrial applications, such as handling, welding, and assembly, unfolds the pursuit of systems which are able to manage large heterogeneous teams and, at the same time, monitor the execution of complex tasks. In this paper, we present a novel architecture for dynamic role allocation and collaborative task planning in a mixed human-robot team of arbitrary size. The architecture capitalizes on a centralized reactive and modular task-agnostic planning method based on Behavior Trees (BTs), in charge of actions scheduling, while the allocation problem is formulated through a Mixed-Integer Linear Program (MILP), that assigns dynamically individual roles or collaborations to the agents of the team. Different metrics used as MILP cost allow the architecture to favor various aspects of the collaboration (e.g. makespan, ergonomics, human preferences). Human preference are identified through a negotiation phase, in which, an human agent can accept/refuse to execute the assigned task.In addition, bilateral communication between humans and the system is achieved through an Augmented Reality (AR) custom user interface that provides intuitive functionalities to assist and coordinate workers in different action phases. The computational complexity of the proposed methodology outperforms literature approaches in industrial sized jobs and teams (problems up to 50 actions and 20 agents in the team with collaborations are solved within 1 s). The different allocated roles, as the cost functions change, highlights the flexibility of the architecture to several production requirements. Finally, the subjective evaluation demonstrating the high usability level and the suitability for the targeted scenario.
翻訳日:2023-09-27 04:13:49 公開日:2023-09-25
# LinkGAN:制御可能な画像合成のためのGANラテントと画素のリンク

LinkGAN: Linking GAN Latents to Pixels for Controllable Image Synthesis ( http://arxiv.org/abs/2301.04604v2 )

ライセンス: Link先を確認
Jiapeng Zhu, Ceyuan Yang, Yujun Shen, Zifan Shi, Bo Dai, Deli Zhao, Qifeng Chen(参考訳) この研究はganトレーニングのための使いやすい正規化子を提供しており、潜在空間の軸を合成画像内のピクセルの集合に明示的にリンクするのに役立つ。 このような接続を確立することでgan生成のより便利なローカル制御が容易になり、潜在コードを部分的に再サンプリングするだけで、ユーザーは空間内でのみ画像内容を変更することができる。 実験の結果,LinkGANと呼ばれる正則化器の4つの魅力特性が確認された。 1) 潜在画素連鎖は、固定領域(すべてのインスタンスで同じ)か、空のような特定の意味圏(インスタンス間で変化する)のいずれかに適用できる。 2) 2領域または複数の領域は異なる潜伏軸と独立にリンクでき、さらに関節制御をサポートする。 3) 正規化器は2次元モデルと3次元モデルの両方の空間制御性を向上し, 合成性能をほとんど損なわない。 (4)正規化器で訓練されたモデルはganインバージョン技術と互換性があり,実画像の編集性が維持できる。

This work presents an easy-to-use regularizer for GAN training, which helps explicitly link some axes of the latent space to a set of pixels in the synthesized image. Establishing such a connection facilitates a more convenient local control of GAN generation, where users can alter the image content only within a spatial area simply by partially resampling the latent code. Experimental results confirm four appealing properties of our regularizer, which we call LinkGAN. (1) The latent-pixel linkage is applicable to either a fixed region (\textit{i.e.}, same for all instances) or a particular semantic category (i.e., varying across instances), like the sky. (2) Two or multiple regions can be independently linked to different latent axes, which further supports joint control. (3) Our regularizer can improve the spatial controllability of both 2D and 3D-aware GAN models, barely sacrificing the synthesis performance. (4) The models trained with our regularizer are compatible with GAN inversion techniques and maintain editability on real images.
翻訳日:2023-09-27 04:12:40 公開日:2023-09-25
# ルールベース透明モデルとソフトラベル相関学習とラベル雑音抵抗を組み合わせたロバストマルチラベル法

A Robust Multilabel Method Integrating Rule-based Transparent Model, Soft Label Correlation Learning and Label Noise Resistance ( http://arxiv.org/abs/2301.03283v3 )

ライセンス: Link先を確認
Qiongdan Lou, Zhaohong Deng, Kup-Sze Choi, Shitong Wang(参考訳) モデル透明性、ラベル相関学習、ラベルノイズに対する堅牢性は、マルチラベル学習に不可欠である。 しかし,これら3つの特徴を同時に研究する手法はほとんどない。 この課題に対処するために,3つの機構を持つロバストな多ラベル高木スゲノカンファジィシステム(R-MLTSK-FS)を提案する。 まず,ラベル間の相互作用を明示的に測定することでラベルノイズの影響を低減し,他の2つのメカニズムの基礎となるソフトラベル学習機構を設計する。 第二に、規則に基づくTSK FSは、既存の多くのマルチラベルモデルよりも透過的な方法で、推論の関係を効率的にモデル化するためにベースモデルとして使用される。 第3に,マルチラベル学習の性能をさらに高めるために,ソフトラベル空間とファジィ特徴空間に基づく相関強化学習機構を構築する。 提案手法の優越性を示すため,広範な実験を行った。

Model transparency, label correlation learning and the robust-ness to label noise are crucial for multilabel learning. However, few existing methods study these three characteristics simultaneously. To address this challenge, we propose the robust multilabel Takagi-Sugeno-Kang fuzzy system (R-MLTSK-FS) with three mechanisms. First, we design a soft label learning mechanism to reduce the effect of label noise by explicitly measuring the interactions between labels, which is also the basis of the other two mechanisms. Second, the rule-based TSK FS is used as the base model to efficiently model the inference relationship be-tween features and soft labels in a more transparent way than many existing multilabel models. Third, to further improve the performance of multilabel learning, we build a correlation enhancement learning mechanism based on the soft label space and the fuzzy feature space. Extensive experiments are conducted to demonstrate the superiority of the proposed method.
翻訳日:2023-09-27 04:12:05 公開日:2023-09-25
# flag aggregator: convex最適化による障害と損失拡大時のスケーラブルな分散トレーニング

Flag Aggregator: Scalable Distributed Training under Failures and Augmented Losses using Convex Optimization ( http://arxiv.org/abs/2302.05865v2 )

ライセンス: Link先を確認
Hamidreza Almasi, Harsh Mishra, Balajee Vamanan, Sathya N. Ravi(参考訳) 現代のMLアプリケーションは、ますます複雑なディープラーニングモデルと大規模なデータセットに依存している。 最大のモデルを訓練するために必要な計算量が指数関数的に増加した。 したがって、計算とデータをスケールするために、これらのモデルはノードのクラスタ内で分散的に訓練され、それらの更新はモデルに適用される前に集約される。 しかし、分散セットアップは個々のノード、コンポーネント、ソフトウェアのビザンチン障害を引き起こす。 これらの設定にデータ拡張を加えることで、堅牢で効率的なアグリゲーションシステムが必要である。 労働者の質を$\in (0,1]$の再構成比として定義し、ベータ密度を用いた最大確率推定手順としてアグリゲーションを定式化する。 本稿では, 最小二乗解法を用いて, 正規化した対数類似部分空間を近似的に解くことができ, 最新の凸最適化ランドスケープ結果を用いて収束保証を提供する。 実験の結果,我々のアプローチは最先端のビザンツ系レジリエントアグリゲータの堅牢性を大幅に向上させることが示された。 本手法をパラメータサーバを用いて分散構成で評価し,様々なタスクにおける通信効率と精度の同時向上を示す。 コードはhttps://github.com/hamidralmasi/FlagAggregatorで公開されている。

Modern ML applications increasingly rely on complex deep learning models and large datasets. There has been an exponential growth in the amount of computation needed to train the largest models. Therefore, to scale computation and data, these models are inevitably trained in a distributed manner in clusters of nodes, and their updates are aggregated before being applied to the model. However, a distributed setup is prone to Byzantine failures of individual nodes, components, and software. With data augmentation added to these settings, there is a critical need for robust and efficient aggregation systems. We define the quality of workers as reconstruction ratios $\in (0,1]$, and formulate aggregation as a Maximum Likelihood Estimation procedure using Beta densities. We show that the Regularized form of log-likelihood wrt subspace can be approximately solved using iterative least squares solver, and provide convergence guarantees using recent Convex Optimization landscape results. Our empirical findings demonstrate that our approach significantly enhances the robustness of state-of-the-art Byzantine resilient aggregators. We evaluate our method in a distributed setup with a parameter server, and show simultaneous improvements in communication efficiency and accuracy across various tasks. The code is publicly available at https://github.com/hamidralmasi/FlagAggregator
翻訳日:2023-09-27 04:03:35 公開日:2023-09-25
# 還元されたgr\"obner基底の濃度と最大次数の推定

Predicting the cardinality and maximum degree of a reduced Gr\"obner basis ( http://arxiv.org/abs/2302.05364v2 )

ライセンス: Link先を確認
Shahrzad Jamshidi, Eric Kang, and Sonja Petrovi\'c(参考訳) ニューラルネットワーク回帰モデルを構築し、二項イデアルの「オブナーベース」の複雑性の重要な指標を予測する。 この研究は、gr\"obner計算によるニューラルネットワークによる予測が単純なプロセスではない理由を説明している。 ランダムな二項イデアルのための2つの確率モデルを用いて、gr\"obner複雑性において十分な可変性をキャプチャできる大きなデータセットを生成し、利用可能にする。 このデータを用いて、ニューラルネットワークをトレーニングし、Gr\"オブナー基底の濃度と、その要素の最大総次数を予測します。 基数予測問題は、機械学習が取り組んだ古典的な問題とは違っているが、シミュレーションによれば、r^2 = 0.401$のようなパフォーマンス統計を提供するニューラルネットワークや、r^2 = 0.180$の複数の回帰モデルよりも優れている。

We construct neural network regression models to predict key metrics of complexity for Gr\"obner bases of binomial ideals. This work illustrates why predictions with neural networks from Gr\"obner computations are not a straightforward process. Using two probabilistic models for random binomial ideals, we generate and make available a large data set that is able to capture sufficient variability in Gr\"obner complexity. We use this data to train neural networks and predict the cardinality of a reduced Gr\"obner basis and the maximum total degree of its elements. While the cardinality prediction problem is unlike classical problems tackled by machine learning, our simulations show that neural networks, providing performance statistics such as $r^2 = 0.401$, outperform naive guess or multiple regression models with $r^2 = 0.180$.
翻訳日:2023-09-27 04:03:00 公開日:2023-09-25
# 画像解析検証におけるメトリクス関連落とし穴の理解

Understanding metric-related pitfalls in image analysis validation ( http://arxiv.org/abs/2302.01790v3 )

ライセンス: Link先を確認
Annika Reinke, Minu D. Tizabi, Michael Baumgartner, Matthias Eisenmann, Doreen Heckmann-N\"otzel, A. Emre Kavur, Tim R\"adsch, Carole H. Sudre, Laura Acion, Michela Antonelli, Tal Arbel, Spyridon Bakas, Arriel Benis, Matthew Blaschko, Florian Buettner, M. Jorge Cardoso, Veronika Cheplygina, Jianxu Chen, Evangelia Christodoulou, Beth A. Cimini, Gary S. Collins, Keyvan Farahani, Luciana Ferrer, Adrian Galdran, Bram van Ginneken, Ben Glocker, Patrick Godau, Robert Haase, Daniel A. Hashimoto, Michael M. Hoffman, Merel Huisman, Fabian Isensee, Pierre Jannin, Charles E. Kahn, Dagmar Kainmueller, Bernhard Kainz, Alexandros Karargyris, Alan Karthikesalingam, Hannes Kenngott, Jens Kleesiek, Florian Kofler, Thijs Kooi, Annette Kopp-Schneider, Michal Kozubek, Anna Kreshuk, Tahsin Kurc, Bennett A. Landman, Geert Litjens, Amin Madani, Klaus Maier-Hein, Anne L. Martel, Peter Mattson, Erik Meijering, Bjoern Menze, Karel G.M. Moons, Henning M\"uller, Brennan Nichyporuk, Felix Nickel, Jens Petersen, Susanne M. Rafelski, Nasir Rajpoot, Mauricio Reyes, Michael A. Riegler, Nicola Rieke, Julio Saez-Rodriguez, Clara I. S\'anchez, Shravya Shetty, Maarten van Smeden, Ronald M. Summers, Abdel A. Taha, Aleksei Tiulpin, Sotirios A. Tsaftaris, Ben Van Calster, Ga\"el Varoquaux, Manuel Wiesenfarth, Ziv R. Yaniv, Paul F. J\"ager, Lena Maier-Hein(参考訳) 検証メトリクスは、科学的進歩の信頼できる追跡と、人工知能(AI)研究とその実践への翻訳の間の現在の亀裂をブリッジするための鍵である。 しかし、画像解析において、基礎となる研究問題に関してメトリクスが不十分に選択されることが証明されている。 個々の強み、弱点、バリデーションメトリクスの制限を考慮に入れることは、教育的な選択を行う上で重要な前提条件であるが、関連する知識は現在分散しており、個々の研究者にはアクセスできない。 本研究は,多分野の専門家コンソーシアムによる多段階Delphiプロセスと広範なコミュニティフィードバックに基づいて,画像解析における検証メトリクスに関連する落とし穴に関する情報への信頼性と包括的な共通点を提供する。 生物医学的な画像解析に焦点をあてるが、他の分野に転移する可能性があり、アドレス付き落とし穴はアプリケーションドメイン全体に一般化し、新しく作成されたドメインに依存しない分類法に従って分類される。 各落とし穴に付随する理解、イラスト、具体例を容易にする。 あらゆるレベルの専門知識を持つ研究者がアクセス可能な構造化された情報体系として、この研究は、画像分析バリデーションにおける重要なトピックのグローバル理解を強化する。

Validation metrics are key for the reliable tracking of scientific progress and for bridging the current chasm between artificial intelligence (AI) research and its translation into practice. However, increasing evidence shows that particularly in image analysis, metrics are often chosen inadequately in relation to the underlying research problem. This could be attributed to a lack of accessibility of metric-related knowledge: While taking into account the individual strengths, weaknesses, and limitations of validation metrics is a critical prerequisite to making educated choices, the relevant knowledge is currently scattered and poorly accessible to individual researchers. Based on a multi-stage Delphi process conducted by a multidisciplinary expert consortium as well as extensive community feedback, the present work provides the first reliable and comprehensive common point of access to information on pitfalls related to validation metrics in image analysis. Focusing on biomedical image analysis but with the potential of transfer to other fields, the addressed pitfalls generalize across application domains and are categorized according to a newly created, domain-agnostic taxonomy. To facilitate comprehension, illustrations and specific examples accompany each pitfall. As a structured body of information accessible to researchers of all levels of expertise, this work enhances global comprehension of a key topic in image analysis validation.
翻訳日:2023-09-27 04:02:14 公開日:2023-09-25
# ジョイントMAE:3Dポイントクラウド事前トレーニング用2D-3Dジョイントマスク付きオートエンコーダ

Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training ( http://arxiv.org/abs/2302.14007v3 )

ライセンス: Link先を確認
Ziyu Guo, Renrui Zhang, Longtian Qiu, Xianzhi Li, Pheng-Ann Heng(参考訳) Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンの両方において、自己教師型学習において有望な性能を示した。 しかし、既存のmaeスタイルの手法は、2dと3dの暗黙的な意味と幾何学的相関を無視するイメージやポイントクラウドといった単一のモダリティのデータからのみ学習することができる。 本稿では,2次元モダリティが3次元マスクによる自動エンコーディングにどのように役立つかを検討し,自己教師付き3次元ポイントクラウドプリトレーニングのための2d-3dジョイントmaeフレームワークであるjoint-maeを提案する。 ジョイントMAEは入力された3Dポイントクラウドとその投影された2Dイメージをランダムにマスキングし、2つのモードのマスキング情報を再構成する。 2つの階層的な2D-3D埋め込みモジュール、ジョイントエンコーダ、およびモーダルシェードおよびモデル固有デコーダを用いたジョイントデコーダにより、より優れたクロスモーダル相互作用を実現する。 さらに,2次元3次元のセマンティックキューに対する局所的アテンション機構である3次元表現学習の促進と,2次元3次元の幾何制約に対するクロスコンストラクション損失の2つのクロスモーダル戦略を導入する。 トレーニング前のパラダイムにより、Joint-MAEは、ModelNet40上の線形SVMの92.4%の精度、ScanObjectNNの最も難しい分割における86.07%の精度など、複数のダウンストリームタスクにおいて優れたパフォーマンスを達成する。

Masked Autoencoders (MAE) have shown promising performance in self-supervised learning for both 2D and 3D computer vision. However, existing MAE-style methods can only learn from the data of a single modality, i.e., either images or point clouds, which neglect the implicit semantic and geometric correlation between 2D and 3D. In this paper, we explore how the 2D modality can benefit 3D masked autoencoding, and propose Joint-MAE, a 2D-3D joint MAE framework for self-supervised 3D point cloud pre-training. Joint-MAE randomly masks an input 3D point cloud and its projected 2D images, and then reconstructs the masked information of the two modalities. For better cross-modal interaction, we construct our JointMAE by two hierarchical 2D-3D embedding modules, a joint encoder, and a joint decoder with modal-shared and model-specific decoders. On top of this, we further introduce two cross-modal strategies to boost the 3D representation learning, which are local-aligned attention mechanisms for 2D-3D semantic cues, and a cross-reconstruction loss for 2D-3D geometric constraints. By our pre-training paradigm, Joint-MAE achieves superior performance on multiple downstream tasks, e.g., 92.4% accuracy for linear SVM on ModelNet40 and 86.07% accuracy on the hardest split of ScanObjectNN.
翻訳日:2023-09-27 03:55:04 公開日:2023-09-25
# HLデータセット - シーン、アクション、合理性の視覚的な説明

HL Dataset: Visually-grounded Description of Scenes, Actions and Rationales ( http://arxiv.org/abs/2302.12189v3 )

ライセンス: Link先を確認
Michele Cafagna, Kees van Deemter, Albert Gatt(参考訳) 現在のキャプションデータセットはオブジェクト中心のキャプションに焦点を合わせ、「公園で食べ物を食べる人」など、画像中の可視なオブジェクトを記述する。 これらのデータセットは視覚的コンテンツを認識・記述するビジョン&言語モデルの能力を評価するのに有用であるが、モデルテストや微調整を含む制御された実験をサポートしない。 例えば、自分の描写する場面の種類(「休暇場の人々」)や行動(「ピクニックをする人」)に基づいてイメージを記述することが多い。 このような記述は個人的な経験や常識的な前提に基づいている。 我々は、COCOデータセットから14997の画像を拡張したデータセットを提示し、シーン、アクション、合理性という3つの軸に沿って収集された134,973の人称(高レベル)キャプションを新たにセットした。 さらに、このデータセットを、独立した読者の集合から収集した信頼度スコアと、3つの軸をそれぞれ組み合わせて合成的に生成された物語キャプションのセットで拡張する。 このデータセットを記述し、広範囲に分析する。 また,高レベルキャプションタスクのベースライン結果も提示する。

Current captioning datasets focus on object-centric captions, describing the visible objects in the image, e.g. "people eating food in a park". Although these datasets are useful to evaluate the ability of Vision & Language models to recognize and describe visual content, they do not support controlled experiments involving model testing or fine-tuning, with more high-level captions, which humans find easy and natural to produce. For example, people often describe images based on the type of scene they depict ('people at a holiday resort') and the actions they perform ('people having a picnic'). Such descriptions draw on personal experience and commonsense assumptions. We present the High-Level Dataset a dataset extending 14997 images from the COCO dataset, aligned with a new set of 134,973 human-annotated (high-level) captions collected along three axes: scenes, actions, and rationales. We further extend this dataset with confidence scores collected from an independent set of readers, as well as a set of narrative captions generated synthetically, by combining each of the three axes. We describe this dataset and analyse it extensively. We also present baseline results for the High-Level Captioning task.
翻訳日:2023-09-27 03:54:10 公開日:2023-09-25
# 日頭負荷予測のためのディープラーニングモデルの比較評価:鍵精度ドライバの検討

A comparative assessment of deep learning models for day-ahead load forecasting: Investigating key accuracy drivers ( http://arxiv.org/abs/2302.12168v2 )

ライセンス: Link先を確認
Sotiris Pelekis, Ioannis-Konstantinos Seisopoulos, Evangelos Spiliotis, Theodosios Pountridis, Evangelos Karakolis, Spiros Mouzakitis, Dimitris Askounis(参考訳) 短期負荷予測(STLF)は電力グリッドとエネルギー市場の効果的かつ経済的な運用に不可欠である。 しかし、電力需要の非線形性と非定常性は、様々な外部要因に依存しているため、STLFは難しい課題である。 そのために、STLFの文献にいくつかのディープラーニングモデルが提案され、有望な結果を報告している。 本報告では, 日頭予測設定におけるこれらのモデルの精度を評価するため, ポルトガルの国別ネット集約STLFに着目し, 多層パーセプトロン(MLP), 長期記憶ネットワーク(LSTM), ニューラルベース展開係数解析(N-BEATS), 時間的畳み込みネットワーク(TCN), 時間的融合トランスフォーマ(TFT)といった, 適応的で確立された深層自己回帰モデルについて比較検討する。 さらに,需要に大きく影響する要因を特定し,各モデルの精度に与える影響について検討する。 以上の結果から,N-BEATSは試験対象モデルの他のモデルよりも一貫して優れていたことが示唆された。 mlpは、比較的洗練されたアーキテクチャよりもフィードフォワードネットワークを使うためのさらなる証拠を提供する。 最後に、日中の時間や温度といった特定のカレンダーや天気の特徴を重要な精度ドライバとして識別し、ケース毎に使用されるべき予測アプローチに関する洞察を提供する。

Short-term load forecasting (STLF) is vital for the effective and economic operation of power grids and energy markets. However, the non-linearity and non-stationarity of electricity demand as well as its dependency on various external factors renders STLF a challenging task. To that end, several deep learning models have been proposed in the literature for STLF, reporting promising results. In order to evaluate the accuracy of said models in day-ahead forecasting settings, in this paper we focus on the national net aggregated STLF of Portugal and conduct a comparative study considering a set of indicative, well-established deep autoregressive models, namely multi-layer perceptrons (MLP), long short-term memory networks (LSTM), neural basis expansion coefficient analysis (N-BEATS), temporal convolutional networks (TCN), and temporal fusion transformers (TFT). Moreover, we identify factors that significantly affect the demand and investigate their impact on the accuracy of each model. Our results suggest that N-BEATS consistently outperforms the rest of the examined models. MLP follows, providing further evidence towards the use of feed-forward networks over relatively more sophisticated architectures. Finally, certain calendar and weather features like the hour of the day and the temperature are identified as key accuracy drivers, providing insights regarding the forecasting approach that should be used per case.
翻訳日:2023-09-27 03:53:26 公開日:2023-09-25
# gecco:幾何条件点拡散モデル

GECCO: Geometrically-Conditioned Point Diffusion Models ( http://arxiv.org/abs/2303.05916v2 )

ライセンス: Link先を確認
Micha{\l} J. Tyszkiewicz, Pascal Fua, Eduard Trulls(参考訳) Dall-E 2やStable Diffusionのようなテキストで条件付き画像を生成する拡散モデルは、最近コンピュータビジョンのコミュニティをはるかに超えている。 ここでは,無条件および条件条件にともなう点雲生成に関する関連する問題に取り組む。 後者については,点雲にスパース画像特徴を投影し,各点に個別に付加し,その分割過程の各ステップにおいて,新たな幾何学的動機づけ条件付けスキームを導入する。 このアプローチは幾何学的整合性を改善し、非構造的でグローバルな潜在符号に依存する現在の方法よりも忠実性が高い。 さらに,最近の連続時間拡散スキームの適用方法を示す。 本手法は, より高速で, 軽量で, 抽出可能な可能性を提供しつつ, 合成データに対する条件付きおよび無条件の実験を行う。 また、屋内の多様なシーンにも拡大可能である。

Diffusion models generating images conditionally on text, such as Dall-E 2 and Stable Diffusion, have recently made a splash far beyond the computer vision community. Here, we tackle the related problem of generating point clouds, both unconditionally, and conditionally with images. For the latter, we introduce a novel geometrically-motivated conditioning scheme based on projecting sparse image features into the point cloud and attaching them to each individual point, at every step in the denoising process. This approach improves geometric consistency and yields greater fidelity than current methods relying on unstructured, global latent codes. Additionally, we show how to apply recent continuous-time diffusion schemes. Our method performs on par or above the state of art on conditional and unconditional experiments on synthetic data, while being faster, lighter, and delivering tractable likelihoods. We show it can also scale to diverse indoors scenes.
翻訳日:2023-09-27 03:43:13 公開日:2023-09-25
# 旅行需要予測:公正なAIアプローチ

Travel Demand Forecasting: A Fair AI Approach ( http://arxiv.org/abs/2303.01692v2 )

ライセンス: Link先を確認
Xiaojian Zhang, Qian Ke, Xilei Zhao(参考訳) 人工知能(AI)と機械学習は、旅行需要予測にますます採用されている。 aiベースの旅行需要予測モデルは正確な予測を生成するが、予測バイアスを生成し、公平性の問題を引き起こす可能性がある。 このような偏ったモデルによる意思決定は、社会的不平等を悪化させる輸送政策につながる可能性がある。 しかし、これらのモデルの公平性問題に対処する研究は限られている。 そこで本研究では,公正で高精度な旅行需要予測モデルを開発するための新しい手法を提案する。 特に、提案手法は、複数の保護属性(人種や収入など)に対するAIモデルの公平性を同時に向上することができる。 具体的には、旅行需要予測モデルの損失関数に、予測精度と複数の保護属性の相関性を測定するために明示的に設計された新しいフェアネス正規化項を導入する。 本研究は,シカゴ, IL, オースチン, TXにおける実世界のライドソーシングトリップデータを用いて, 提案手法の性能を評価するためのケーススタディである。 その結果,提案手法は予測精度を維持しつつ,複数の保護属性の公平性を効果的に向上できることがわかった。 さらに,本手法を正規化項アプローチを応用した3つの最先端手法と比較し,予測精度と公平性の向上の両面で,本手法がこれらを著しく上回っていることを示す。 本研究は,交通機関の専門家に対して,公正かつ正確な旅行需要予測を実現するための新しいツールを提供する。

Artificial Intelligence (AI) and machine learning have been increasingly adopted for travel demand forecasting. The AI-based travel demand forecasting models, though generate accurate predictions, may produce prediction biases and raise fairness issues. Using such biased models for decision-making may lead to transportation policies that exacerbate social inequalities. However, limited studies have been focused on addressing the fairness issues of these models. Therefore, in this study, we propose a novel methodology to develop fairness-aware, highly-accurate travel demand forecasting models. Particularly, the proposed methodology can enhance the fairness of AI models for multiple protected attributes (such as race and income) simultaneously. Specifically, we introduce a new fairness regularization term, which is explicitly designed to measure the correlation between prediction accuracy and multiple protected attributes, into the loss function of the travel demand forecasting model. We conduct two case studies to evaluate the performance of the proposed methodology using real-world ridesourcing-trip data in Chicago, IL and Austin, TX, respectively. Results highlight that our proposed methodology can effectively enhance fairness for multiple protected attributes while preserving prediction accuracy. Additionally, we have compared our methodology with three state-of-the-art methods that adopt the regularization term approach, and the results demonstrate that our approach significantly outperforms them in both preserving prediction accuracy and enhancing fairness. This study can provide transportation professionals with a new tool to achieve fair and accurate travel demand forecasting.
翻訳日:2023-09-27 03:41:19 公開日:2023-09-25
# 車両ルーティング問題に対する可変部分モジュラ最大化による決定指向学習

Decision-Oriented Learning with Differentiable Submodular Maximization for Vehicle Routing Problem ( http://arxiv.org/abs/2303.01543v2 )

ライセンス: Link先を確認
Guangyao Shi, Pratap Tokekar(参考訳) 本研究では,文脈観測(インプット)をサブモジュール関数(アウトプット)のパラメータにマッピングする関数の学習問題について検討する。 我々のモチベーションケーススタディは、無人地上車両(UGV)のチームが、永続的な監視タスクを実行する無人地上車両(UAV)のチームを充電するための移動充電ステーションとして機能する、特定の種類の車両ルーティング問題である。 我々は,UAVタスク経路と風速の観測から,UAVの着陸位置の分布を記述するサブモジュラー目的関数のパラメータへのマッピングを学習したい。 従来,このような学習問題は,下流タスク最適化フェーズを考慮せずに,予測フェーズとして独立に解決される。 しかしながら、予測に使用される損失関数は、最終目標、すなわちよいルーティング決定とミスマッチする可能性がある。 分離された予測フェーズでの優れたパフォーマンスは、必ずしも下流のルーティングタスクにおいて良い決定を導くとは限らない。 本稿では,予測フェーズにおいてタスク最適化を微分可能な層として組み込むフレームワークを提案する。 本フレームワークは,予測性能のみを目標とした中間損失処理を使わずに,予測モデルのエンドツーエンドトレーニングを可能にする。 提案手法では,確率的摂動を決定論的アルゴリズム(確率的平滑化)に導入することにより,タスク最適化(部分モジュラー最大化)を微分可能とした。 提案手法の有効性を合成データを用いて実証する。 移動体充電ステーションルーティング問題の実験結果から,提案手法は,予測最適化別アプローチと比較して,UAVの充電回数の平均増加率など,より優れたルーティング決定をもたらすことが示された。

We study the problem of learning a function that maps context observations (input) to parameters of a submodular function (output). Our motivating case study is a specific type of vehicle routing problem, in which a team of Unmanned Ground Vehicles (UGVs) can serve as mobile charging stations to recharge a team of Unmanned Ground Vehicles (UAVs) that execute persistent monitoring tasks. {We want to learn the mapping from observations of UAV task routes and wind field to the parameters of a submodular objective function, which describes the distribution of landing positions of the UAVs .} Traditionally, such a learning problem is solved independently as a prediction phase without considering the downstream task optimization phase. However, the loss function used in prediction may be misaligned with our final goal, i.e., a good routing decision. Good performance in the isolated prediction phase does not necessarily lead to good decisions in the downstream routing task. In this paper, we propose a framework that incorporates task optimization as a differentiable layer in the prediction phase. Our framework allows end-to-end training of the prediction model without using engineered intermediate loss that is targeted only at the prediction performance. In the proposed framework, task optimization (submodular maximization) is made differentiable by introducing stochastic perturbations into deterministic algorithms (i.e., stochastic smoothing). We demonstrate the efficacy of the proposed framework using synthetic data. Experimental results of the mobile charging station routing problem show that the proposed framework can result in better routing decisions, e.g. the average number of UAVs recharged increases, compared to the prediction-optimization separate approach.
翻訳日:2023-09-27 03:40:59 公開日:2023-09-25
# Google USM:100言語を超えて自動音声認識をスケール

Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages ( http://arxiv.org/abs/2303.01037v3 )

ライセンス: Link先を確認
Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai Chen, Nanxin Chen, Bo Li, Vera Axelrod, Gary Wang, Zhong Meng, Ke Hu, Andrew Rosenberg, Rohit Prabhavalkar, Daniel S. Park, Parisa Haghani, Jason Riesa, Ginger Perng, Hagen Soltau, Trevor Strohman, Bhuvana Ramabhadran, Tara Sainath, Pedro Moreno, Chung-Cheng Chiu, Johan Schalkwyk, Fran\c{c}oise Beaufays, Yonghui Wu(参考訳) 我々は,100以上の言語で自動音声認識(asr)を行う単一大規模モデルであるuniversal speech model (usm)を提案する。 これは300以上の言語にまたがる1200万時間(M)の大規模ラベル付き多言語データセットでモデルのエンコーダを事前トレーニングし、より小さなラベル付きデータセットで微調整することで達成される。 我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。 また,Whisperモデルでは,ラベル付きトレーニングセットを1/7の規模で使用しても,ドメイン内およびドメイン外音声認識タスクにおいて,同等あるいは優れた性能を示すことを示す。

We introduce the Universal Speech Model (USM), a single large model that performs automatic speech recognition (ASR) across 100+ languages. This is achieved by pre-training the encoder of the model on a large unlabeled multilingual dataset of 12 million (M) hours spanning over 300 languages, and fine-tuning on a smaller labeled dataset. We use multilingual pre-training with random-projection quantization and speech-text modality matching to achieve state-of-the-art performance on downstream multilingual ASR and speech-to-text translation tasks. We also demonstrate that despite using a labeled training set 1/7-th the size of that used for the Whisper model, our model exhibits comparable or better performance on both in-domain and out-of-domain speech recognition tasks across many languages.
翻訳日:2023-09-27 03:40:31 公開日:2023-09-25
# クラスタリング技術を用いたフレキシブルエネルギーコミュニティの目標需要応答

Targeted demand response for flexible energy communities using clustering techniques ( http://arxiv.org/abs/2303.00186v3 )

ライセンス: Link先を確認
Sotiris Pelekis, Angelos Pipergias, Evangelos Karakolis, Spiros Mouzakitis, Francesca Santori, Mohammad Ghoreishi, Dimitris Askounis(参考訳) 本研究では,商業用および住宅用需要応答(DR)プログラムを設計するためのクラスタリング手法を提案する。 目的は、イタリアの分散エネルギーコミュニティにおける消費者の消費行動を変えることである。 この集約の目的は: イ ローカルグリッドの太陽電池パネルからの発電が消費を超過した場合に発生する一次変電所における逆流を最小限に抑えること。 b) システム全体のピーク需要をシフトし、通常は午後遅くに発生する。 クラスタリングの段階について,毎日のプロシューマー負荷プロファイルを検討し,抽出したクラスタを分割する。 一般的な機械学習アルゴリズムとして、k-means、k-medoids、agglomerative clusteringの3つがある。 本研究では,本研究で提案される新しい指標,すなわちピーク性能スコア(PPS)を含む複数の指標を用いて評価を行う。 14個のクラスターを考慮した動的時間ゆがみ距離を持つk-meansアルゴリズムは, pps 0.689が最も高い性能を示す。 その後、負荷形状、エントロピー、負荷タイプに関して、抽出された各クラスタを解析する。 これらの特徴は、使用時間、臨界ピーク価格、リアルタイム価格などの適切なDRスキームとマッチングすることで、最適化目標を達成する可能性を持つクラスタを識別するために使用される。 提案するクラスタリングアルゴリズムが有意義なフレキシビリティクラスタを生成する際に有効であることを確認し,提案手法はオフピーク時の消費を促進する。 開発した手法は、トレーニングデータセットの可用性と品質の低さに対して堅牢であり、エネルギーコミュニティのセグメンテーションやパーソナライズされたDRポリシーの開発にアグリゲータ企業が利用することができる。

The present study proposes clustering techniques for designing demand response (DR) programs for commercial and residential prosumers. The goal is to alter the consumption behavior of the prosumers within a distributed energy community in Italy. This aggregation aims to: a) minimize the reverse power flow at the primary substation, occuring when generation from solar panels in the local grid exceeds consumption, and b) shift the system wide peak demand, that typically occurs during late afternoon. Regarding the clustering stage, we consider daily prosumer load profiles and divide them across the extracted clusters. Three popular machine learning algorithms are employed, namely k-means, k-medoids and agglomerative clustering. We evaluate the methods using multiple metrics including a novel metric proposed within this study, namely peak performance score (PPS). The k-means algorithm with dynamic time warping distance considering 14 clusters exhibits the highest performance with a PPS of 0.689. Subsequently, we analyze each extracted cluster with respect to load shape, entropy, and load types. These characteristics are used to distinguish the clusters that have the potential to serve the optimization objectives by matching them to proper DR schemes including time of use, critical peak pricing, and real-time pricing. Our results confirm the effectiveness of the proposed clustering algorithm in generating meaningful flexibility clusters, while the derived DR pricing policy encourages consumption during off-peak hours. The developed methodology is robust to the low availability and quality of training datasets and can be used by aggregator companies for segmenting energy communities and developing personalized DR policies.
翻訳日:2023-09-27 03:40:13 公開日:2023-09-25
# 量子チャネルの重ね合わせによる実験的コミュニケーション

Experimental Communication Through Superposition of Quantum Channels ( http://arxiv.org/abs/2302.14820v3 )

ライセンス: Link先を確認
Arthur O. T. Pang, Noah Lupu-Gladstein, Hugo Ferretti, Y. Batuhan Yilmaz, Aharon Brodutch, and Aephraim M. Steinberg(参考訳) チャネルのコヒーレント制御による情報キャパシティの強化は、チャネル因果順序のコヒーレント制御、チャネル重ね合わせ、情報エンコーディングの効果を探求する作業とともに、最近多くの注目を集めている。 コヒーレントに制御するチャネルは、キュービットチャネルを重畳するチャネル記述の非自明な拡張を必要とする。 本稿では,qubitチャネルの非分極化と関連する重畳チャネルとqutritチャネルによる最大コヒーレント情報の比較により,チャネルの重畳化に対するキャパシティエンハンスメントの性質について検討する。 重畳を使わずにキャパシティ・エンハンスメントを説明するには,拡張クォートチャネルの記述自体が十分であることを示す。

Information capacity enhancement through the coherent control of channels has attracted much attention of late, with work exploring the effect of coherent control of channel causal orders, channel superpositions, and information encoding. Coherently controlling channels necessitates a non-trivial expansion of the channel description, which for superposing qubit channels, is equivalent to expanding the channel to act on qutrits. Here we explore the nature of this capacity enhancement for the superposition of channels by comparing the maximum coherent information through depolarizing qubit channels and relevant superposed and qutrit channels. We show that the expanded qutrit channel description in itself is sufficient to explain the capacity enhancement without any use of superposition.
翻訳日:2023-09-27 03:39:47 公開日:2023-09-25
# トポロジカルシバ鎖におけるマヨナ-マグノン相互作用

Majorana-magnon interactions in topological Shiba chains ( http://arxiv.org/abs/2303.13513v2 )

ライセンス: Link先を確認
Pei-Xin Shen, Vivien Perrin, Mircea Trif, Pascal Simon(参考訳) 超伝導体表面に堆積した磁気不純物の連鎖は、マヨラナゼロモードをサポートし、トポロジカル量子コンピューティングの約束を持つトポロジカル・シーババンドを形成することができる。 しかし、これらのゼロモードを精査するほとんどの実験は、局所的な性質のみを捕捉する輸送計測に依存する。 本稿では,磁気不純物の固有ダイナミクスを利用して,その非局所的な性質にアクセスすることを提案する。 線形応答理論を用いて、外部の$ac$の磁場の存在下での一様マグノンモードのダイナミクスを決定し、シバ電子を結合する。 このモードは、原子の鎖全体に広がり、基底状態のパリティとともにインプリントされ、さらに、鎖の端に位置するマヨラナモードと自明なゼロモードを区別できることを実証する。 本手法は,マヨラナ零モードの走査型トンネル顕微鏡技術に代わる非侵襲的な手法である。 逆に、マグノンはトポロジカルシバ鎖におけるマヨラナゼロモードの操作を容易にすることができる。

A chain of magnetic impurities deposited on the surface of a superconductor can form a topological Shiba band that supports Majorana zero modes and holds a promise for topological quantum computing. Yet, most experiments scrutinizing these zero modes rely on transport measurements, which only capture local properties. Here we propose to leverage the intrinsic dynamics of the magnetic impurities to access their non-local character. We use linear response theory to determine the dynamics of the uniform magnonic mode in the presence of external $ac$ magnetic fields and coupling the Shiba electrons. We demonstrate that this mode, which spreads over the entire chain of atoms, becomes imprinted with the parity of the ground state and, moreover, can discriminate between Majorana and trivial zero modes located at the ends of the chain. Our approach offers a non-invasive alternative to the scanning tunneling microscopy techniques used to probe Majorana zero modes. Conversely, the magnons could facilitate the manipulation of Majorana zero modes in topological Shiba chains.
翻訳日:2023-09-27 03:33:22 公開日:2023-09-25
# LOKI:モデル操作によるフェデレーション学習に対する大規模データ再構成攻撃

LOKI: Large-scale Data Reconstruction Attack against Federated Learning through Model Manipulation ( http://arxiv.org/abs/2303.12233v2 )

ライセンス: Link先を確認
Joshua C. Zhao, Atul Sharma, Ahmed Roushdy Elkordy, Yahya H. Ezzeldin, Salman Avestimehr, Saurabh Bagchi(参考訳) フェデレーション学習は、データ共有の必要性をなくし、プライバシを約束しながら、大規模な分散データセット上で機械学習を可能にするために導入された。 それにもかかわらず、以前の研究は共有勾配がしばしばプライベート情報を含んでいることを示しており、攻撃者はアーキテクチャやパラメータの悪意ある修正や、共有勾配からユーザデータを近似するための最適化によって知識を得ることができる。 しかし、多くの作業がFedSGDをターゲットにし、攻撃を単一クライアント勾配に制限するため、事前のデータ再構成攻撃は設定とスケールで制限されている。 これらの攻撃の多くは、fedavgのより実用的な設定や、セキュアアグリゲーションを使用してアップデートを集約した場合に失敗する。 データ再構成が著しく難しくなり、攻撃規模や/または再構築品質が低下する。 FedAVGとセキュアアグリゲーションの両方を使用する場合、連合学習環境で複数のクライアントを同時に攻撃できる現在の方法は存在しない。 この作業では、以前の制限を克服し、漏洩したデータが識別可能で、クライアントに直接結びついているため、アグリゲーションの匿名性を破る攻撃であるLOKIを紹介します。 我々の設計では、クライアントがカスタマイズした畳み込みパラメータを送信し、クライアント間のデータポイントの重み付けは、アグリゲーションを通じても分離される。 FedAVGと100のクライアントの集約により、以前の作業はMNIST、CIFAR-100、Tiny ImageNetのイメージの1%未満をリークすることができる。 lokiは、1回のトレーニングラウンドだけで、全データサンプルの76-86%をリークできる。

Federated learning was introduced to enable machine learning over large decentralized datasets while promising privacy by eliminating the need for data sharing. Despite this, prior work has shown that shared gradients often contain private information and attackers can gain knowledge either through malicious modification of the architecture and parameters or by using optimization to approximate user data from the shared gradients. However, prior data reconstruction attacks have been limited in setting and scale, as most works target FedSGD and limit the attack to single-client gradients. Many of these attacks fail in the more practical setting of FedAVG or if updates are aggregated together using secure aggregation. Data reconstruction becomes significantly more difficult, resulting in limited attack scale and/or decreased reconstruction quality. When both FedAVG and secure aggregation are used, there is no current method that is able to attack multiple clients concurrently in a federated learning setting. In this work we introduce LOKI, an attack that overcomes previous limitations and also breaks the anonymity of aggregation as the leaked data is identifiable and directly tied back to the clients they come from. Our design sends clients customized convolutional parameters, and the weight gradients of data points between clients remain separate even through aggregation. With FedAVG and aggregation across 100 clients, prior work can leak less than 1% of images on MNIST, CIFAR-100, and Tiny ImageNet. Using only a single training round, LOKI is able to leak 76-86% of all data samples.
翻訳日:2023-09-27 03:32:41 公開日:2023-09-25
# 概念に基づく視覚的説明のための教師なし解釈型基底抽出

Unsupervised Interpretable Basis Extraction for Concept-Based Visual Explanations ( http://arxiv.org/abs/2303.10523v2 )

ライセンス: Link先を確認
Alexandros Doumanoglou, Stylianos Asteriadis, Dimitrios Zarpalas(参考訳) CNN画像分類器の予測と中間層表現を人間の理解可能な概念の観点から説明しようとする研究の行である。 本研究では、注釈付き概念データセットを用いて解釈可能な特徴空間方向を抽出する文献において、従来の研究を拡張し、画素アクティベーションのスパースな1ホット閾値変換表現を説明する特徴空間の回転を求めることにより、非教師なしの解釈可能な基礎を抽出するポストホック法を提案する。 我々は既存のcnnを実験し、ネットワークアーキテクチャとデータセットをまたいで解釈可能な基底を抽出する手法の有効性を実証する。 そこで本研究では,本手法で抽出したベースに変換すると,中間層表現が解釈可能になることを示す。 最後に,本手法から抽出したベースと,教師付きアプローチから抽出したベースを比較した結果,教師なしアプローチには,教師付き手法の限界を構成する強度があり,今後の研究の方向性が示唆されることがわかった。

An important line of research attempts to explain CNN image classifier predictions and intermediate layer representations in terms of human understandable concepts. In this work, we expand on previous works in the literature that use annotated concept datasets to extract interpretable feature space directions and propose an unsupervised post-hoc method to extract a disentangling interpretable basis by looking for the rotation of the feature space that explains sparse one-hot thresholded transformed representations of pixel activations. We do experimentation with existing popular CNNs and demonstrate the effectiveness of our method in extracting an interpretable basis across network architectures and training datasets. We make extensions to the existing basis interpretability metrics found in the literature and show that, intermediate layer representations become more interpretable when transformed to the bases extracted with our method. Finally, using the basis interpretability metrics, we compare the bases extracted with our method with the bases derived with a supervised approach and find that, in one aspect, the proposed unsupervised approach has a strength that constitutes a limitation of the supervised one and give potential directions for future research.
翻訳日:2023-09-27 03:31:26 公開日:2023-09-25
# アルゴリズムによる不動点計算の高速化について

On algorithmically boosting fixed-point computations ( http://arxiv.org/abs/2304.04665v2 )

ライセンス: Link先を確認
Ioannis Avramopoulos and Nikolaos Vasiloglou(参考訳) この論文の主なトピックは、ナッシュ平衡の計算アルゴリズムである。 我々は,本手法を一般のアルゴリズム抽象化,すなわち,他の不動点計算問題にも関連する「アルゴリズムブースティング」と呼ぶ手法のインスタンスとしてキャストした。 アルゴリズムブースティングは、反復写像の(長期の)平均を取ることによって固定点を計算する原理であり、指数化の一般化である。 まず, この手法を非線形写像として定義する。 次に、収束線形写像(例えば、ページランクアルゴリズムにおいて支配的固有ベクトルを計算するために)への注意を限定し、アルゴリズム的ブースティング法が収束率の指数的速度アップを運動に設定できることを示す。 第三に、アルゴリズム的ブースティングは(弱)非収束イテレータを(強)収束イテレータに変換することができることを示す。 また,非収束連続流を収束流に変換するためのアルゴリズム的ブースティング支援ツールに対する変分法も検討する。 次に、反復写像の設計に平均の構成を組み込むことで、ナッシュ平衡の存在を構成的に証明する(従ってブラウアー不動点)。 次に、スカラーケースにおいても重要な問題である平均化と指数化の実装について議論する。 最終的に、支配的(PageRank)固有ベクトルとナッシュ平衡の関係について論じる。

The main topic of this paper are algorithms for computing Nash equilibria. We cast our particular methods as instances of a general algorithmic abstraction, namely, a method we call {\em algorithmic boosting}, which is also relevant to other fixed-point computation problems. Algorithmic boosting is the principle of computing fixed points by taking (long-run) averages of iterated maps and it is a generalization of exponentiation. We first define our method in the setting of nonlinear maps. Secondly, we restrict attention to convergent linear maps (for computing dominant eigenvectors, for example, in the PageRank algorithm) and show that our algorithmic boosting method can set in motion {\em exponential speedups in the convergence rate}. Thirdly, we show that algorithmic boosting can convert a (weak) non-convergent iterator to a (strong) convergent one. We also consider a {\em variational approach} to algorithmic boosting providing tools to convert a non-convergent continuous flow to a convergent one. Then, by embedding the construction of averages in the design of the iterated map, we constructively prove the existence of Nash equilibria (and, therefore, Brouwer fixed points). We then discuss implementations of averaging and exponentiation, an important matter even for the scalar case. We finally discuss a relationship between dominant (PageRank) eigenvectors and Nash equilibria.
翻訳日:2023-09-27 03:22:10 公開日:2023-09-25
# 預言者:長大な流通学習を指導する予言教師

Propheter: Prophetic Teacher Guided Long-Tailed Distribution Learning ( http://arxiv.org/abs/2304.04135v2 )

ライセンス: Link先を確認
Wenxiang Xu, Yongcheng Jing, Linyun Zhou, Wenqi Huang, Lechao Cheng, Zunlei Feng, Mingli Song(参考訳) 汎用視覚認識の分野で一般的な課題である深層ロングテール学習の問題は、多くの実世界のアプリケーションで続いている。 ロングテール分類における厳密なデータセット問題に取り組むために、以前の取り組みは、クラスリバランス、データ拡張、モジュールの改善など、精巧なクラスバランス戦略で既存の深層モデルを強化することを目指してきた。 優れたパフォーマンスにもかかわらず、トレーニングデータセット内の尾行クラスに関する限られたクラス知識は、まだ既存のディープモデルのパフォーマンスをボトルネックにしている。 本稿では,深層ネットワークの学習を外部の事前知識で導くことによってボトルネックを解消する,革新的な長尾学習パラダイムを提案する。 これは特に、潜在的なクラス分布を学習することを目的とした、'`Propheter''と呼ばれる、精巧な ``prohetic'' の教師を考案することで達成される。 対象のロングテール予測モデルは、訓練された ``propheter''' の指示に基づいて最適化され、異なるクラスの分布を可能な限り区別することができる。 3つのアーキテクチャにわたる8つのロングテールのベンチマーク実験は、提案された予言パラダイムが、ロングテールのデータセットにおける限られたクラス知識の課題に対する有望な解決策として機能することを示しています。 開発コードは \url{https://github.com/tcmyxc/propheter} で公開されている。

The problem of deep long-tailed learning, a prevalent challenge in the realm of generic visual recognition, persists in a multitude of real-world applications. To tackle the heavily-skewed dataset issue in long-tailed classification, prior efforts have sought to augment existing deep models with the elaborate class-balancing strategies, such as class rebalancing, data augmentation, and module improvement. Despite the encouraging performance, the limited class knowledge of the tailed classes in the training dataset still bottlenecks the performance of the existing deep models. In this paper, we propose an innovative long-tailed learning paradigm that breaks the bottleneck by guiding the learning of deep networks with external prior knowledge. This is specifically achieved by devising an elaborated ``prophetic'' teacher, termed as ``Propheter'', that aims to learn the potential class distributions. The target long-tailed prediction model is then optimized under the instruction of the well-trained ``Propheter'', such that the distributions of different classes are as distinguishable as possible from each other. Experiments on eight long-tailed benchmarks across three architectures demonstrate that the proposed prophetic paradigm acts as a promising solution to the challenge of limited class knowledge in long-tailed datasets. The developed code is publicly available at \url{https://github.com/tcmyxc/propheter}.
翻訳日:2023-09-27 03:21:48 公開日:2023-09-25
# クラスインクリメンタル学習のためのクロスクラス機能拡張

Cross-Class Feature Augmentation for Class Incremental Learning ( http://arxiv.org/abs/2304.01899v2 )

ライセンス: Link先を確認
Taehoon Kim, Jaeyoo Park, Bohyung Han(参考訳) 本稿では,敵対的攻撃を動機とした機能強化手法を取り入れた新しいクラスインクリメンタル学習手法を提案する。 我々は,学習した学習例を補完するために,知識蒸留の教師としての役割を担うのではなく,過去に学んだ分類器を用いている。 提案手法は,事前学習した分類器に対する逆攻撃を通じて,他のクラスでの例を用いて任意の対象クラスの特徴を増強するため,クラスインクリメンタルラーニングにおける従来の知識を活用するというユニークな視点を持つ。 クロスクラス機能拡張を許すことにより、古いタスクの各クラスは、特徴空間にサンプルを都合よく投入し、特に格納された例の数が少ない場合には、前タスクのサンプル不足に起因する決定境界の崩壊を緩和する。 このアイデアは、アーキテクチャを変更することなく、既存のクラスインクリメンタル学習アルゴリズムに簡単に組み込むことができる。 各種シナリオにおいて,特にメモリ予算が極めて限られている環境下では,本手法が既存の段階的学習手法よりはるかに優れていることを示す。

We propose a novel class incremental learning approach by incorporating a feature augmentation technique motivated by adversarial attacks. We employ a classifier learned in the past to complement training examples rather than simply play a role as a teacher for knowledge distillation towards subsequent models. The proposed approach has a unique perspective to utilize the previous knowledge in class incremental learning since it augments features of arbitrary target classes using examples in other classes via adversarial attacks on a previously learned classifier. By allowing the cross-class feature augmentations, each class in the old tasks conveniently populates samples in the feature space, which alleviates the collapse of the decision boundaries caused by sample deficiency for the previous tasks, especially when the number of stored exemplars is small. This idea can be easily incorporated into existing class incremental learning algorithms without any architecture modification. Extensive experiments on the standard benchmarks show that our method consistently outperforms existing class incremental learning methods by significant margins in various scenarios, especially under an environment with an extremely limited memory budget.
翻訳日:2023-09-27 03:20:47 公開日:2023-09-25
# 化学応用のための量子固有ベクトル継続

Quantum Eigenvector Continuation for Chemistry Applications ( http://arxiv.org/abs/2305.00060v2 )

ライセンス: Link先を確認
Carlos Mejuto-Zaera, Alexander F. Kemper(参考訳) 化学における古典的および量子コンピューティングの典型的な課題は、反応座標に沿ってポテンシャルエネルギー表面(PES)を見つけることである。 このタスクを量子コンピュータ上で達成するためのアルゴリズムの開発は発展の活発な領域であるが、反応座標に沿ったすべての関連する固有状態を見つけることは難しい問題であり、PSSを決定することはコストがかかる提案である。 本稿では,数個の固有状態を基礎とする部分空間展開である固有ベクトル継続を,ポテンシャルエネルギー面を高速に探索するためのツールとして用いることを実証する。 これを様々な複雑性を持つ分子の結合性peまたはねじれpesを決定するために応用する。 いずれの場合においても、比較的少ない基底状態を用いてpeを捕獲できることを示し、この方法で既に計算済みの基底状態を使用することで、かなりの量の(量子)計算労力を節約できることを示唆している。

A typical task for classical and quantum computing in chemistry is finding a potential energy surface (PES) along a reaction coordinate, which involves solving the quantum chemistry problem for many points along the reaction path. Developing algorithms to accomplish this task on quantum computers has been an active area of development, yet finding all the relevant eigenstates along the reaction coordinate remains a difficult problem, and determining PESs is thus a costly proposal. In this paper, we demonstrate the use of a eigenvector continuation -- a subspace expansion that uses a few eigenstates as a basis -- as a tool for rapidly exploring potential energy surfaces. We apply this to determining the binding PES or torsion PES for several molecules of varying complexity. In all cases, we show that the PES can be captured using relatively few basis states; suggesting that a significant amount of (quantum) computational effort can be saved by making use of already calculated ground states in this manner.
翻訳日:2023-09-27 03:02:48 公開日:2023-09-25
# 回帰における概念シフトに頑健なシェープリー値に基づく特徴選択法

A feature selection method based on Shapley values robust to concept shift in regression ( http://arxiv.org/abs/2304.14774v3 )

ライセンス: Link先を確認
Carlos Sebasti\'an and Carlos E. Gonz\'alez-Guill\'en(参考訳) 特徴選択は、統計学習モデルを作成するあらゆる方法論において、最も関連するプロセスの1つです。 通常、既存のアルゴリズムは最も影響力のある変数を選択するための基準を確立し、関連する情報を持ってモデルに寄与しない変数を破棄する。 この手法は、データの結合分布が時間とともに変化しない静的な状況において意味がある。 しかし、実際のデータを扱う場合、データセットシフトの問題、具体的には変数間の関係の変化(概念シフト)に遭遇することが一般的である。 この場合、トレーニングフェーズで学んだ関係が現在の状況と一致しない可能性があるため、モデルのレグレッサーとしての品質を示すのは変数の影響だけではない。 この問題に対処するため,本手法では,各変数の個々のバイアスを効果的に検出するために,より局所的なレベルで動作することにより,Shapley値と予測誤差の直接的な関係を確立する。 提案手法は, 突発的, 漸増的なシフトを模倣する合成シナリオや, 概念シフトを特徴とする2つの実世界のケースなど, 様々な例で評価されている。 さらに,標準状態の3つの解析を行い,シフトのない場合のアルゴリズムのロバスト性を評価する。 その結果,提案アルゴリズムは,静的な状況下での既存手法の性能と整合しながら,概念シフトシナリオにおける最先端機能選択手法を著しく上回ることを示した。

Feature selection is one of the most relevant processes in any methodology for creating a statistical learning model. Usually, existing algorithms establish some criterion to select the most influential variables, discarding those that do not contribute to the model with any relevant information. This methodology makes sense in a static situation where the joint distribution of the data does not vary over time. However, when dealing with real data, it is common to encounter the problem of the dataset shift and, specifically, changes in the relationships between variables (concept shift). In this case, the influence of a variable cannot be the only indicator of its quality as a regressor of the model, since the relationship learned in the training phase may not correspond to the current situation. In tackling this problem, our approach establishes a direct relationship between the Shapley values and prediction errors, operating at a more local level to effectively detect the individual biases introduced by each variable. The proposed methodology is evaluated through various examples, including synthetic scenarios mimicking sudden and incremental shift situations, as well as two real-world cases characterized by concept shifts. Additionally, we perform three analyses of standard situations to assess the algorithm's robustness in the absence of shifts. The results demonstrate that our proposed algorithm significantly outperforms state-of-the-art feature selection methods in concept shift scenarios, while matching the performance of existing methodologies in static situations.
翻訳日:2023-09-27 03:02:31 公開日:2023-09-25
# MM-Fi:Versatile Wireless Sensingのためのマルチモーダル非侵入型4Dヒューマンデータセット

MM-Fi: Multi-Modal Non-Intrusive 4D Human Dataset for Versatile Wireless Sensing ( http://arxiv.org/abs/2305.10345v2 )

ライセンス: Link先を確認
Jianfei Yang, He Huang, Yunjiao Zhou, Xinyan Chen, Yuecong Xu, Shenghai Yuan, Han Zou, Chris Xiaoxuan Lu, Lihua Xie(参考訳) 4次元人間の知覚は、ホームオートメーションやメタバースアバターシミュレーションなど、無数の応用において重要な役割を果たす。 しかし、カメラやウェアラブルデバイスに主に依存する既存のソリューションは、プライバシーの侵害的または不便である。 これらの問題に対処するため、無線センシングは有望な代替手段として登場し、LiDAR、mmWaveレーダー、WiFi信号をデバイスフリーの人体センシングに活用している。 本稿では,27のリハビリテーションアクションカテゴリを持つ,初のマルチモーダル非インタラクティブ4d人間データセットmm-fiを提案し,無線センシングとハイレベルな人間知覚タスクのギャップを埋める。 MM-Fiは40人の被験者から5つのモードからなる320k以上の同期フレームで構成されている。 潜在的な検知タスク、例えば人間のポーズ推定や行動認識をサポートする様々なアノテーションが提供されている。 複数のタスクの観点から各モダリティまたは複数のモダリティの感知能力を比較するために、広範囲にわたる実験が行われた。 MM-Fiは,行動認識,ポーズ推定,マルチモーダル学習,クロスモーダル監視,学際的医療研究において,無線センシング研究に寄与すると考えられる。

4D human perception plays an essential role in a myriad of applications, such as home automation and metaverse avatar simulation. However, existing solutions which mainly rely on cameras and wearable devices are either privacy intrusive or inconvenient to use. To address these issues, wireless sensing has emerged as a promising alternative, leveraging LiDAR, mmWave radar, and WiFi signals for device-free human sensing. In this paper, we propose MM-Fi, the first multi-modal non-intrusive 4D human dataset with 27 daily or rehabilitation action categories, to bridge the gap between wireless sensing and high-level human perception tasks. MM-Fi consists of over 320k synchronized frames of five modalities from 40 human subjects. Various annotations are provided to support potential sensing tasks, e.g., human pose estimation and action recognition. Extensive experiments have been conducted to compare the sensing capacity of each or several modalities in terms of multiple tasks. We envision that MM-Fi can contribute to wireless sensing research with respect to action recognition, human pose estimation, multi-modal learning, cross-modal supervision, and interdisciplinary healthcare research.
翻訳日:2023-09-27 02:51:38 公開日:2023-09-25
# MRIにおける振り返り運動補正のための深層学習 : 総合的考察

Deep Learning for Retrospective Motion Correction in MRI: A Comprehensive Review ( http://arxiv.org/abs/2305.06739v2 )

ライセンス: Link先を確認
Veronika Spieker, Hannah Eichhorn, Kerstin Hammernik, Daniel Rueckert, Christine Preibisch, Dimitrios C. Karampinos and Julia A. Schnabel(参考訳) 運動はMRI(MRI)における大きな課題の1つである。 MR信号は周波数空間で取得されるので、撮像された物体の運動は、他のMRイメージングアーチファクトに加えて、再構成された画像の複雑なアーチファクトにつながる。 深層学習は再建過程のいくつかの段階で運動補正のために頻繁に提案されている。 mr取得シーケンス、解剖学、関心の病理、および運動パターン(リギッド対変形可能、ランダム対正則)の幅広い範囲は、包括的解決をあり得ない。 異なるアプリケーション間でのアイデアの伝達を容易にするため、このレビューでは、MRIにおける学習に基づく動き補正手法と、それらの共通の課題と可能性について概説する。 本稿では,基礎となるデータ利用,アーキテクチャ,トレーニング,評価戦略の違いと相乗効果について述べる。 我々は, 異なる応用分野と研究分野との相互作用を強化することを目的として, 一般動向と今後の方向性について批判的に議論する。

Motion represents one of the major challenges in magnetic resonance imaging (MRI). Since the MR signal is acquired in frequency space, any motion of the imaged object leads to complex artefacts in the reconstructed image in addition to other MR imaging artefacts. Deep learning has been frequently proposed for motion correction at several stages of the reconstruction process. The wide range of MR acquisition sequences, anatomies and pathologies of interest, and motion patterns (rigid vs. deformable and random vs. regular) makes a comprehensive solution unlikely. To facilitate the transfer of ideas between different applications, this review provides a detailed overview of proposed methods for learning-based motion correction in MRI together with their common challenges and potentials. This review identifies differences and synergies in underlying data usage, architectures, training and evaluation strategies. We critically discuss general trends and outline future directions, with the aim to enhance interaction between different application areas and research fields.
翻訳日:2023-09-27 02:51:03 公開日:2023-09-25
# 拡散オーダの最大近似推定のための改良手法

Improved Techniques for Maximum Likelihood Estimation for Diffusion ODEs ( http://arxiv.org/abs/2305.03935v3 )

ライセンス: Link先を確認
Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu(参考訳) 拡散モデルは様々な領域で優れた性能を示した。 拡散モデルの確率フロー常微分方程式(英: probability flow normal differential equation, ode)は、連続正規化フロー(cnfs)の特別な場合であり、決定論的推論と正確な確率評価を可能にする。 しかし、拡散ODEによる確率推定結果は、まだ最先端の確率ベース生成モデルとはかけ離れている。 そこで本研究では,実験と評価の両面から,拡散型ODEの最大推定精度を向上する手法を提案する。 学習のために,速度パラメータ化を提案し,より高速な収束のための分散低減手法を検討する。 また, ミスバウンドな高次流れマッチングを微調整の目的とし, ODEの精度を向上し, 軌道の平滑化を図る。 評価のために,拡散オデムに共通に存在するトレーニング評価ギャップを埋めるための,新しいトレーニングフリー・トランケート正規化法を提案する。 これらの手法を用いて,画像データセット(CIFAR-10では2.56,ImageNet-32では3.43/3.69)の変動分数化やデータ拡張を伴わず,最先端の推定結果が得られる。 コードは \url{https://github.com/thu-ml/i-DODE} で入手できる。

Diffusion models have exhibited excellent performance in various domains. The probability flow ordinary differential equation (ODE) of diffusion models (i.e., diffusion ODEs) is a particular case of continuous normalizing flows (CNFs), which enables deterministic inference and exact likelihood evaluation. However, the likelihood estimation results by diffusion ODEs are still far from those of the state-of-the-art likelihood-based generative models. In this work, we propose several improved techniques for maximum likelihood estimation for diffusion ODEs, including both training and evaluation perspectives. For training, we propose velocity parameterization and explore variance reduction techniques for faster convergence. We also derive an error-bounded high-order flow matching objective for finetuning, which improves the ODE likelihood and smooths its trajectory. For evaluation, we propose a novel training-free truncated-normal dequantization to fill the training-evaluation gap commonly existing in diffusion ODEs. Building upon these techniques, we achieve state-of-the-art likelihood estimation results on image datasets (2.56 on CIFAR-10, 3.43/3.69 on ImageNet-32) without variational dequantization or data augmentation. Code is available at \url{https://github.com/thu-ml/i-DODE}.
翻訳日:2023-09-27 02:49:47 公開日:2023-09-25
# 表データによる深部異常検出のための個別入力

Beyond Individual Input for Deep Anomaly Detection on Tabular Data ( http://arxiv.org/abs/2305.15121v4 )

ライセンス: Link先を確認
Hugo Thimonier, Fabrice Popineau, Arpad Rimmel and Bich-Li\^en Doan(参考訳) 異常検出は金融、医療、サイバーセキュリティなど多くの分野において不可欠である。 本稿では,教師付きタスクのために最初に提案された非パラメトリックトランスフォーマ(npts)を利用して,特徴量とサンプル値の両方の依存関係をキャプチャする,新しい深層異常検出法を提案する。 再構成に基づくフレームワークでは,NPTをトレーニングし,通常のサンプルのマスキング特徴を再構築する。 非パラメトリックな方法では、推論中にトレーニングセット全体を活用し、マスクした特徴を再構成して異常スコアを生成するモデルの能力を利用する。 私たちの知る限りでは、グラフデータセット上の異常検出のために、機能機能とサンプルサンプルの依存関係をうまく組み合わせる最初の試みである。 本手法は,31個のベンチマーク表型データセットを用いた広範囲な実験により,f1-scoreとaurocで既存の手法を1.7%,1.2%上回った。 本研究は,両依存のモデル化が表データにおける異常検出に重要であることを示す。

Anomaly detection is vital in many domains, such as finance, healthcare, and cybersecurity. In this paper, we propose a novel deep anomaly detection method for tabular data that leverages Non-Parametric Transformers (NPTs), a model initially proposed for supervised tasks, to capture both feature-feature and sample-sample dependencies. In a reconstruction-based framework, we train the NPT to reconstruct masked features of normal samples. In a non-parametric fashion, we leverage the whole training set during inference and use the model's ability to reconstruct the masked features to generate an anomaly score. To the best of our knowledge, this is the first work to successfully combine feature-feature and sample-sample dependencies for anomaly detection on tabular datasets. Through extensive experiments on 31 benchmark tabular datasets, we demonstrate that our method achieves state-of-the-art performance, outperforming existing methods by 1.7% and 1.2% in terms of F1-score and AUROC, respectively. Our ablation study provides evidence that modeling both types of dependencies is crucial for anomaly detection on tabular data.
翻訳日:2023-09-27 02:43:52 公開日:2023-09-25
# MGL2Rank:マルチグラフフュージョンに基づく道路ネットワークにおけるノードの重要性のランク付けを学ぶ

MGL2Rank: Learning to Rank the Importance of Nodes in Road Networks Based on Multi-Graph Fusion ( http://arxiv.org/abs/2305.14375v2 )

ライセンス: Link先を確認
Ming Xu, Jing Zhang(参考訳) 道路網における伝搬能力の強い重要なノードの同定は都市計画分野において重要な課題である。 しかし,既存の交通ネットワークにおけるノードの重要性を評価する手法では,道路網の特徴,例えば車線数や道路セグメントの平均速度などを無視して,地形情報や交通量のみを考慮し,性能を制限している。 そこで本研究では,道路網の豊富な特性を統合し,ノードの重要度をランク付けするグラフ学習ベースフレームワーク(mgl2rank)を提案する。 本稿では,まず,各道路セグメントの潜在表現を学習するためのサンプリングアルゴリズム(MGWalk)とエンコーダネットワークを含む埋め込みモジュールを開発する。 mgwalkはマルチグラフ融合を利用して道路網のトポロジーを捉え、その属性に基づいて道路セグメント間の関連を確立する。 そして,得られたノード表現を用いて,道路セグメントの重要度を学習する。 最後に,シェニアン市の地域道路網に基づくタスクのランキング作成のための総合データセットを構築し,提案手法の有効性を示す。 MGL2Rankのデータとソースコードはhttps://github.com/ZJ726.comで入手できる。

Identifying important nodes with strong propagation capabilities in road networks is a significant topic in the field of urban planning. However, existing methods for evaluating the importance of nodes in traffic network consider only topological information and traffic volumes, ignoring the diversity of characteristics in road networks, such as the number of lanes and average speed of road segments, limiting their performance. To solve this problem, we propose a graph learning-based framework (MGL2Rank) that integrates the rich characteristics of road network for ranking the importance of nodes. In this framework, we first develop an embedding module that contains a sampling algorithm (MGWalk) and an encoder network to learn latent representation for each road segment. MGWalk utilizes multi-graph fusion to capture the topology of the road network and establish associations among road segments based on their attributes. Then, we use the obtained node representation to learn the importance ranking of road segments. Finally, we construct a synthetic dataset for ranking tasks based on the regional road network of Shenyang city, and our ranking results on this dataset demonstrate the effectiveness of our proposed method. The data and source code of MGL2Rank are available at https://github.com/ZJ726.
翻訳日:2023-09-27 02:43:32 公開日:2023-09-25
# 階層型統合拡散モデルによる実像分解

Hierarchical Integration Diffusion Model for Realistic Image Deblurring ( http://arxiv.org/abs/2305.12966v4 )

ライセンス: Link先を確認
Zheng Chen, Yulun Zhang, Ding Liu, Bin Xia, Jinjin Gu, Linghe Kong, Xin Yuan(参考訳) 拡散モデル (DM) は近年, 画像劣化において導入され, 特に細部再構成において有望な性能を示した。 しかし、拡散モデルは、大量の計算資源を消費する純粋なガウスノイズからクリーンなイメージを復元するために、多数の推論反復を必要とする。 さらに、拡散モデルにより合成された分布は、しばしば対象結果と不一致であり、歪みに基づくメトリクスの制限につながる。 上記の問題に対処するために,実像デブラリングのための階層的統合拡散モデル(hi-diff)を提案する。 具体的には、高いコンパクト化された潜在空間でDMを実行し、デブロアリングプロセスの前の特徴を生成する。 退化処理は回帰法により実施され、歪み精度が向上する。 一方、非常にコンパクトな潜在空間は、DMの効率性を保証する。 さらに,複数スケールの回帰モデルに事前を融合させる階層型統合モジュールを設計し,複雑なぼやけたシナリオにおけるより優れた一般化を実現する。 人工的および実世界のぼかしデータセットに関する総合的な実験は、HI-Diffが最先端の手法より優れていることを示す。 コードとトレーニングされたモデルはhttps://github.com/zhengchen1999/hi-diffで入手できる。

Diffusion models (DMs) have recently been introduced in image deblurring and exhibited promising performance, particularly in terms of details reconstruction. However, the diffusion model requires a large number of inference iterations to recover the clean image from pure Gaussian noise, which consumes massive computational resources. Moreover, the distribution synthesized by the diffusion model is often misaligned with the target results, leading to restrictions in distortion-based metrics. To address the above issues, we propose the Hierarchical Integration Diffusion Model (HI-Diff), for realistic image deblurring. Specifically, we perform the DM in a highly compacted latent space to generate the prior feature for the deblurring process. The deblurring process is implemented by a regression-based method to obtain better distortion accuracy. Meanwhile, the highly compact latent space ensures the efficiency of the DM. Furthermore, we design the hierarchical integration module to fuse the prior into the regression-based model from multiple scales, enabling better generalization in complex blurry scenarios. Comprehensive experiments on synthetic and real-world blur datasets demonstrate that our HI-Diff outperforms state-of-the-art methods. Code and trained models are available at https://github.com/zhengchen1999/HI-Diff.
翻訳日:2023-09-27 02:42:04 公開日:2023-09-25
# readmem:unconstrained video object segmentationにおける多種多様なメモリのためのロバスト埋め込みアソシエーション

READMem: Robust Embedding Association for a Diverse Memory in Unconstrained Video Object Segmentation ( http://arxiv.org/abs/2305.12823v2 )

ライセンス: Link先を確認
St\'ephane Vujasinovi\'c, Sebastian Bullinger, Stefan Becker, Norbert Scherer-Negenborn, Michael Arens and Rainer Stiefelhagen(参考訳) 本稿では,制約のないビデオを扱うための半自動ビデオオブジェクトセグメンテーション(sVOS)のためのモジュールフレームワークであるREADMem(Robust Embedding Association for a Diverse Memory)を提案する。 現代のsVOSは通常、ビデオフレームを拡張可能なメモリに集約し、長期アプリケーションに高いハードウェアリソースを要求する。 メモリ要件を緩和し、(隣接するフレームの情報による)近接オブジェクトの重複を防止するため、従来の手法では、格納可能なフレームの頻度を制御するハイパーパラメータが導入された。 このパラメータは、具体的なビデオ特性(外観変化の速さやビデオの長さなど)に応じて調整されなければならない。 代わりに、新しいフレームのメモリへの埋め込みは、それがメモリコンテンツの多様性を増加させる場合にのみ統合します。 さらに,更新プロセス中にメモリに格納された組込みとクエリ組込みとの堅牢な関連付けを提案する。 我々のアプローチは、冗長なデータの蓄積を回避し、見返りとして、メモリサイズを制限し、長いビデオにおける極端なメモリ要求を防ぐ。 一般的なsVOSベースラインをREADMemで拡張します。 提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。 私たちのコードは公開されています。

We present READMem (Robust Embedding Association for a Diverse Memory), a modular framework for semi-automatic video object segmentation (sVOS) methods designed to handle unconstrained videos. Contemporary sVOS works typically aggregate video frames in an ever-expanding memory, demanding high hardware resources for long-term applications. To mitigate memory requirements and prevent near object duplicates (caused by information of adjacent frames), previous methods introduce a hyper-parameter that controls the frequency of frames eligible to be stored. This parameter has to be adjusted according to concrete video properties (such as rapidity of appearance changes and video length) and does not generalize well. Instead, we integrate the embedding of a new frame into the memory only if it increases the diversity of the memory content. Furthermore, we propose a robust association of the embeddings stored in the memory with query embeddings during the update process. Our approach avoids the accumulation of redundant data, allowing us in return, to restrict the memory size and prevent extreme memory demands in long videos. We extend popular sVOS baselines with READMem, which previously showed limited performance on long videos. Our approach achieves competitive results on the Long-time Video dataset (LV1) while not hindering performance on short sequences. Our code is publicly available.
翻訳日:2023-09-27 02:41:37 公開日:2023-09-25
# ウェーブレットベース拡散モデルによる低光強調

Low-Light Image Enhancement with Wavelet-based Diffusion Models ( http://arxiv.org/abs/2306.00306v3 )

ライセンス: Link先を確認
Hai Jiang, Ao Luo, Songchen Han, Haoqiang Fan, Shuaicheng Liu(参考訳) 拡散モデルは画像復元タスクにおいて有望な結果を得たが、時間的消費、過剰な計算リソース消費、不安定な修復に苦しめられている。 これらの問題に対処するため,DiffLLと呼ばれる拡散型低光画像強調手法を提案する。 具体的には,ウェーブレットに基づく条件拡散モデル(WCDM)を提案する。 さらに、ウェーブレット変換の強みを利用して推論を大幅に加速し、情報を犠牲にすることなく計算資源の使用を減らす。 カオス的な内容や多様性を避けるために,wcdmのトレーニングフェーズにおいて前方拡散と分節の両方を行い,モデルが安定した分節化を達成し,推論中のランダム性を低減する。 さらに、画像の垂直および水平の細部を利用した高周波数復元モジュール(HFRM)を設計し、対角線情報を補完し、よりきめ細かい復元を行う。 公開されている実世界のベンチマーク実験により,本手法は既存の最先端手法よりも定量的かつ視覚的に優れており,従来の拡散法に比べて効率が著しく向上していることが示された。 また,低照度顔検出への応用により,本手法の潜在的な実用的価値も明らかにできることを示す。 コードはhttps://github.com/JianghaiSCU/Diffusion-Low-Lightで入手できる。

Diffusion models have achieved promising results in image restoration tasks, yet suffer from time-consuming, excessive computational resource consumption, and unstable restoration. To address these issues, we propose a robust and efficient Diffusion-based Low-Light image enhancement approach, dubbed DiffLL. Specifically, we present a wavelet-based conditional diffusion model (WCDM) that leverages the generative power of diffusion models to produce results with satisfactory perceptual fidelity. Additionally, it also takes advantage of the strengths of wavelet transformation to greatly accelerate inference and reduce computational resource usage without sacrificing information. To avoid chaotic content and diversity, we perform both forward diffusion and denoising in the training phase of WCDM, enabling the model to achieve stable denoising and reduce randomness during inference. Moreover, we further design a high-frequency restoration module (HFRM) that utilizes the vertical and horizontal details of the image to complement the diagonal information for better fine-grained restoration. Extensive experiments on publicly available real-world benchmarks demonstrate that our method outperforms the existing state-of-the-art methods both quantitatively and visually, and it achieves remarkable improvements in efficiency compared to previous diffusion-based methods. In addition, we empirically show that the application for low-light face detection also reveals the latent practical values of our method. Code is available at https://github.com/JianghaiSCU/Diffusion-Low-Light.
翻訳日:2023-09-27 02:32:34 公開日:2023-09-25
# DaRF:単眼深度適応によるスパース入力からの放射場向上

DaRF: Boosting Radiance Fields from Sparse Inputs with Monocular Depth Adaptation ( http://arxiv.org/abs/2305.19201v2 )

ライセンス: Link先を確認
Jiuhn Song, Seonghoon Park, Honggyu An, Seokju Cho, Min-Seop Kwak, Sungjin Cho, Seungryong Kim(参考訳) ニューラルレイディアンス場(NeRF)は、新しいビュー合成と3次元幾何再構成において強力な性能を示すが、既知の視点の数が劇的に減少すると、重要な性能劣化に悩まされる。 既存の作業は、外部の事前情報を利用することでこの問題を克服しようとするが、その成功は特定のシーンやデータセットに限られる。 大規模rgb-dデータセットで事前学習されたmde(monocular depth estimation)ネットワークを使用することで、強力な一般化能力を備えることが、この問題の鍵となる。 そこで本研究では,NRFの強みと単眼深度推定を相補的学習により組み合わせることで,一握りの現実世界画像と頑健なNeRF再構成を実現する,D\"aRF"と呼ばれる新しいフレームワークを提案する。 提案手法では,nrf表現前のmdeネットワークの強固な幾何構造を,視・視認の両視点で強制し,強固性とコヒーレンス性を高める。 さらに,mdeネットワークを応用し,nrf幾何に正確に整列した深さを生成するパッチワイズ・スケールシフト・フィッティングと幾何蒸留により,単眼深度の曖昧性問題を克服した。 実験により,本フレームワークは室内および屋外の実世界のデータセットにおいて,定量的かつ質的に,一貫した信頼性のある性能を示す。 プロジェクトページはhttps://ku-cvlab.github.io/darf/。

Neural radiance fields (NeRF) shows powerful performance in novel view synthesis and 3D geometry reconstruction, but it suffers from critical performance degradation when the number of known viewpoints is drastically reduced. Existing works attempt to overcome this problem by employing external priors, but their success is limited to certain types of scenes or datasets. Employing monocular depth estimation (MDE) networks, pretrained on large-scale RGB-D datasets, with powerful generalization capability would be a key to solving this problem: however, using MDE in conjunction with NeRF comes with a new set of challenges due to various ambiguity problems exhibited by monocular depths. In this light, we propose a novel framework, dubbed D\"aRF, that achieves robust NeRF reconstruction with a handful of real-world images by combining the strengths of NeRF and monocular depth estimation through online complementary training. Our framework imposes the MDE network's powerful geometry prior to NeRF representation at both seen and unseen viewpoints to enhance its robustness and coherence. In addition, we overcome the ambiguity problems of monocular depths through patch-wise scale-shift fitting and geometry distillation, which adapts the MDE network to produce depths aligned accurately with NeRF geometry. Experiments show our framework achieves state-of-the-art results both quantitatively and qualitatively, demonstrating consistent and reliable performance in both indoor and outdoor real-world datasets. Project page is available at https://ku-cvlab.github.io/DaRF/.
翻訳日:2023-09-27 02:32:09 公開日:2023-09-25
# 細粒度が粗い:効率的なシーングラフ生成のための新しいデータ中心アプローチ

Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient Scene Graph Generation ( http://arxiv.org/abs/2305.18668v2 )

ライセンス: Link先を確認
Neau Ma\"elic, Paulo E. Santos, Anne-Gwenn Bosser and C\'edric Buche(参考訳) シーングラフの形で生画像から視覚的関係を構成することを学ぶことは、文脈依存による非常に困難な課題であるが、シーン理解に依存するコンピュータビジョンアプリケーションには不可欠である。 しかし、現在のシーングラフ生成(sgg)のアプローチは、下流タスクに有用なグラフを提供することを目的としていない。 その代わり、主な焦点は、よりきめ細かい関係を予測するためにデータ分布の偏りを解消することである。 とはいえ、すべてのきめ細かい関係は等しく関係がなく、少なくとも一部は現実世界のアプリケーションには役に立たない。 本稿では,画像生成などの下流タスクにおけるシーングラフの利用を容易にし,関連性の生成を優先する効率的なSGGタスクを提案する。 さらなるアプローチをサポートするために,人気のあるビジュアルゲノムデータセットのアノテーションに基づいて,vg150-curatedという新しいデータセットを提案する。 我々は、このデータセットが通常SGGで使用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。 最後に,シーングラフからの画像生成タスクにおいて,このデータセットの効率性を示す。

Learning to compose visual relationships from raw images in the form of scene graphs is a highly challenging task due to contextual dependencies, but it is essential in computer vision applications that depend on scene understanding. However, no current approaches in Scene Graph Generation (SGG) aim at providing useful graphs for downstream tasks. Instead, the main focus has primarily been on the task of unbiasing the data distribution for predicting more fine-grained relations. That being said, all fine-grained relations are not equally relevant and at least a part of them are of no use for real-world applications. In this work, we introduce the task of Efficient SGG that prioritizes the generation of relevant relations, facilitating the use of Scene Graphs in downstream tasks such as Image Generation. To support further approaches, we present a new dataset, VG150-curated, based on the annotations of the popular Visual Genome dataset. We show through a set of experiments that this dataset contains more high-quality and diverse annotations than the one usually use in SGG. Finally, we show the efficiency of this dataset in the task of Image Generation from Scene Graphs.
翻訳日:2023-09-27 02:31:27 公開日:2023-09-25
# 生成先行したマルチモーダル顔スティル化

Multi-Modal Face Stylization with a Generative Prior ( http://arxiv.org/abs/2305.18009v2 )

ライセンス: Link先を確認
Mengtian Li, Yi Dong, Minxuan Lin, Haibin Huang, Pengfei Wan, Chongyang Ma(参考訳) 本稿では,顔のスタイライゼーションのための新しいアプローチを提案する。 この作業で印象的な成果を上げる既存の方法にもかかわらず、多彩なスタイルと正確な顔再構成を備えた高品質な芸術的顔を生成するには、まだ改善の余地がある。 提案するフレームワークMMFSは,StyleGANの強みを活用し,エンコーダ・デコーダアーキテクチャに統合することで,マルチモーダル顔スタイリングをサポートする。 具体的には、StyleGANの中間分解能層と高分解能層をデコーダとし、その低分解能層をエンコーダと整列させ、入力された顔の詳細を抽出し保存する。 また、第1段階でエンコーダを訓練し、特徴マップをStyleGANと整列させ、入力面の忠実な再構築を可能にする2段階のトレーニング戦略も導入する。 第2段階では、ネットワーク全体をスタイリッシュな顔生成のための芸術データで微調整する。 ゼロショットとワンショットのスタイライゼーションタスクに微調整モデルを適用するために、大規模なコントラスト言語-イメージ-プレトレーニング(clip)空間から、潜在的なw+$の微調整スタイルガン空間まで、追加のマッピングネットワークを訓練する。 質的かつ定量的な実験により, 単発およびゼロショットのフェーススタイライゼーションタスクにおいて, 優れた性能を達成し, 最先端手法を大差で上回った。

In this work, we introduce a new approach for face stylization. Despite existing methods achieving impressive results in this task, there is still room for improvement in generating high-quality artistic faces with diverse styles and accurate facial reconstruction. Our proposed framework, MMFS, supports multi-modal face stylization by leveraging the strengths of StyleGAN and integrates it into an encoder-decoder architecture. Specifically, we use the mid-resolution and high-resolution layers of StyleGAN as the decoder to generate high-quality faces, while aligning its low-resolution layer with the encoder to extract and preserve input facial details. We also introduce a two-stage training strategy, where we train the encoder in the first stage to align the feature maps with StyleGAN and enable a faithful reconstruction of input faces. In the second stage, the entire network is fine-tuned with artistic data for stylized face generation. To enable the fine-tuned model to be applied in zero-shot and one-shot stylization tasks, we train an additional mapping network from the large-scale Contrastive-Language-Image-Pre-training (CLIP) space to a latent $w+$ space of fine-tuned StyleGAN. Qualitative and quantitative experiments show that our framework achieves superior performance in both one-shot and zero-shot face stylization tasks, outperforming state-of-the-art methods by a large margin.
翻訳日:2023-09-27 02:31:09 公開日:2023-09-25
# GenQ: 子どもと物語を読みながら、介護者を支援する自動質問生成

GenQ: Automated Question Generation to Support Caregivers While Reading Stories with Children ( http://arxiv.org/abs/2305.16809v3 )

ライセンス: Link先を確認
Arun Balajiee Lekshmi Narayanan, Ligia E. Gomez, Martha Michelle Soto Fernandez, Tri Nguyen, Chris Blais, M. Adelaida Restrepo, Art Glenberg(参考訳) 介護者が子どもとの対話を動機付けるためにオープンエンドの質問をすると、子どもの読書理解スキルが促進されるが、ここで言う「知的な学習システム」と呼ばれる技術ツールの使用のスコープがあるものの、現在、人間の言語のような質問を生成する既存の知的システムが有用かどうかは不明である。 さらに、これらの自動質問生成システムの開発に使用されるトレーニングデータは通常、人口統計学に注意を払わずにソースされるが、異なる文化的背景を持つ人々は異なる質問をすることができる。 ラテン系子どもたちのためのインテリジェントな読書支援アプリを設計する、より広いプロジェクトの一環として、ラテン系介護者や非介護者、他の人口層からの介護者や非介護者からの質問をクラウドソースしました。 個人的,文化的,文脈的要因を媒介とするデータセットにおける質問行動の多様性について検討し,そのデータからテンプレートを自動的に抽出し,ラテン系介護者の質問に代表されるオープンエンドな質問を生成するシステムを設計する。

When caregivers ask open--ended questions to motivate dialogue with children, it facilitates the child's reading comprehension skills.Although there is scope for use of technological tools, referred here as "intelligent tutoring systems", to scaffold this process, it is currently unclear whether existing intelligent systems that generate human--language like questions is beneficial. Additionally, training data used in the development of these automated question generation systems is typically sourced without attention to demographics, but people with different cultural backgrounds may ask different questions. As a part of a broader project to design an intelligent reading support app for Latinx children, we crowdsourced questions from Latinx caregivers and noncaregivers as well as caregivers and noncaregivers from other demographics. We examine variations in question--asking within this dataset mediated by individual, cultural, and contextual factors. We then design a system that automatically extracts templates from this data to generate open--ended questions that are representative of those asked by Latinx caregivers.
翻訳日:2023-09-27 02:30:38 公開日:2023-09-25
# 適応コアセット選択による効率的な量子化学習

Efficient Quantization-aware Training with Adaptive Coreset Selection ( http://arxiv.org/abs/2306.07215v2 )

ライセンス: Link先を確認
Xijie Huang, Zechun Liu, Shih-Yang Liu, Kwang-Ting Cheng(参考訳) ディープニューラルネットワーク(DNN)のモデルサイズの拡大と計算により,効率的なモデル展開手法の必要性が高まっている。 量子化対応トレーニング(QAT)は、重みとアクティベーションの冗長性を活用するための代表的なモデル圧縮手法である。 しかし、既存のQAT手法の多くはデータセット全体のエンドツーエンドのトレーニングを必要としており、長いトレーニング時間と高エネルギーコストに悩まされている。 トレーニングデータの冗長性を活用したデータ効率向上を目的としたcoreset選択も,効率的なトレーニングに広く利用されている。 本研究では,量子化学習のトレーニング効率を向上させるために,コアセット選択による新しい角度を提案する。 qatの特徴に基づいて,各サンプルの重要性を定量化するために,誤りベクトルスコアと不一致スコアの2つの指標を提案する。 これら2つの重要な指標から導かれ,現在のトレーニングエポックのデータを選択するために,量子化対応コアセット選択法(ACS)を提案した。 各種ネットワーク(ResNet-18, MobileNetV2)、データセット(CIFAR-100, ImageNet-1K)、および異なる量子化設定下で評価を行った。 従来のコアセット選択法と比較して,本手法はデータセット分数が異なるQAT性能を著しく向上させる。 本手法は,imagenet-1kデータセットにおける4ビット量子化resnet-18の68.39%の精度を,ベースラインと比較して絶対利得4.24%の10%のサブセットで達成できる。

The expanding model size and computation of deep neural networks (DNNs) have increased the demand for efficient model deployment methods. Quantization-aware training (QAT) is a representative model compression method to leverage redundancy in weights and activations. However, most existing QAT methods require end-to-end training on the entire dataset, which suffers from long training time and high energy costs. Coreset selection, aiming to improve data efficiency utilizing the redundancy of training data, has also been widely used for efficient training. In this work, we propose a new angle through the coreset selection to improve the training efficiency of quantization-aware training. Based on the characteristics of QAT, we propose two metrics: error vector score and disagreement score, to quantify the importance of each sample during training. Guided by these two metrics of importance, we proposed a quantization-aware adaptive coreset selection (ACS) method to select the data for the current training epoch. We evaluate our method on various networks (ResNet-18, MobileNetV2), datasets(CIFAR-100, ImageNet-1K), and under different quantization settings. Compared with previous coreset selection methods, our method significantly improves QAT performance with different dataset fractions. Our method can achieve an accuracy of 68.39% of 4-bit quantized ResNet-18 on the ImageNet-1K dataset with only a 10% subset, which has an absolute gain of 4.24% compared to the baseline.
翻訳日:2023-09-27 02:23:01 公開日:2023-09-25
# 説明可能な人工知能における敵の攻撃と防御

Adversarial Attacks and Defenses in Explainable Artificial Intelligence: A Survey ( http://arxiv.org/abs/2306.06123v2 )

ライセンス: Link先を確認
Hubert Baniecki and Przemyslaw Biecek(参考訳) 説明可能な人工知能(XAI)手法は、統計的および深層学習モデルのデバッグと信頼、および予測の解釈の方法として描かれる。 しかし、最近の敵機械学習(AdvML)の進歩は、最先端の説明手法の限界と脆弱性を強調し、彼らのセキュリティと信頼性に疑問を呈している。 モデル推論の操作、不正、公正な証拠を操作する可能性は、高い意思決定と知識発見に適用した場合に有害な結果をもたらす。 この調査は、機械学習モデルの説明に対する敵対的攻撃に関する研究と公平度メトリクスに関する総合的な概要を提供する。 本稿では,AdvML と XAI の交差する研究分野の研究者や実践者にとって共通基盤となる手法の統一的な表記法と分類法を紹介する。 攻撃から防御する方法とロバストな解釈方法の設計について論じる。 我々は,XAIにおける既存の不正確性のリストに貢献し,敵のXAI(AdvXAI)における新たな研究方向性を概説する。 今後の課題は、報告された安全問題を考慮した説明方法や評価プロトコルの改善である。

Explainable artificial intelligence (XAI) methods are portrayed as a remedy for debugging and trusting statistical and deep learning models, as well as interpreting their predictions. However, recent advances in adversarial machine learning (AdvML) highlight the limitations and vulnerabilities of state-of-the-art explanation methods, putting their security and trustworthiness into question. The possibility of manipulating, fooling or fairwashing evidence of the model's reasoning has detrimental consequences when applied in high-stakes decision-making and knowledge discovery. This survey provides a comprehensive overview of research concerning adversarial attacks on explanations of machine learning models, as well as fairness metrics. We introduce a unified notation and taxonomy of methods facilitating a common ground for researchers and practitioners from the intersecting research fields of AdvML and XAI. We discuss how to defend against attacks and design robust interpretation methods. We contribute a list of existing insecurities in XAI and outline the emerging research directions in adversarial XAI (AdvXAI). Future work should address improving explanation methods and evaluation protocols to take into account the reported safety issues.
翻訳日:2023-09-27 02:22:06 公開日:2023-09-25
# FedMLSecurity: フェデレーション学習とLLMにおける攻撃と防御のベンチマーク

FedMLSecurity: A Benchmark for Attacks and Defenses in Federated Learning and LLMs ( http://arxiv.org/abs/2306.04959v2 )

ライセンス: Link先を確認
Shanshan Han, Baturalp Buyukates, Zijian Hu, Han Jin, Weizhao Jin, Lichao Sun, Xiaoyang Wang, Wenxuan Wu, Chulin Xie, Yuhang Yao, Kai Zhang, Qifan Zhang, Yuhui Zhang, Salman Avestimehr and Chaoyang He(参考訳) 本稿では,federated learning (fl) における敵の攻撃とその防御機構をシミュレートするベンチマークである fedmlsecurity を提案する。 FLアルゴリズムの開発と性能比較を容易にするオープンソースライブラリであるFedMLの不可欠なモジュールとして、FedMLSecurityは、FLのセキュリティ問題と潜在的な改善を評価するFedMLの機能を強化する。 FedMLSecurityには、FLトレーニング中に注入された攻撃をシミュレートするFedMLAttackerと、攻撃の影響を軽減するための防御メカニズムをシミュレートするFedMLDefenderの2つの主要コンポーネントが含まれている。 FedMLSecurityはオープンソースで、幅広い機械学習モデル(Logistic Regression、ResNet、GANなど)やフェデレーションオプティマイザ(FedAVG、FedOPT、FedNOVAなど)にカスタマイズできる。 FedMLSecurityはLarge Language Models(LLM)にも容易に適用でき、さまざまなシナリオで適応性と適用性を示す。

This paper introduces FedMLSecurity, a benchmark designed to simulate adversarial attacks and corresponding defense mechanisms in Federated Learning (FL). As an integral module of the open-sourced library FedML that facilitates FL algorithm development and performance comparison, FedMLSecurity enhances FedML's capabilities to evaluate security issues and potential remedies in FL. FedMLSecurity comprises two major components: FedMLAttacker that simulates attacks injected during FL training, and FedMLDefender that simulates defensive mechanisms to mitigate the impacts of the attacks. FedMLSecurity is open-sourced and can be customized to a wide range of machine learning models (e.g., Logistic Regression, ResNet, GAN, etc.) and federated optimizers (e.g., FedAVG, FedOPT, FedNOVA, etc.). FedMLSecurity can also be applied to Large Language Models (LLMs) easily, demonstrating its adaptability and applicability in various scenarios.
翻訳日:2023-09-27 02:21:48 公開日:2023-09-25
# rescuespeech: search and rescue domainにおけるドイツ語音声認識コーパス

RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain ( http://arxiv.org/abs/2306.04054v3 )

ライセンス: Link先を確認
Sangeet Sagar, Mirco Ravanelli, Bernd Kiefer, Ivana Kruijff Korbayova, Josef van Genabith(参考訳) 近年の音声認識の進歩にもかかわらず、雑音環境や残響環境において、会話音声や感情音声の正確な書き起こしはいまだに困難である。 これは、救助チームメンバー間の会話を翻訳することが、リアルタイムの意思決定をサポートするために不可欠である、検索と救助(SAR)ドメインにおいて、特に課題となる。 SARシナリオにおける音声データの不足と背景雑音により,ロバスト音声認識システムの展開が困難になる。 この問題に対処するため、RescueSpeechというドイツの音声データセットを作成し公開しました。 本データセットは、模擬救助演習からの実際の音声記録を含む。 さらに、競争力のあるトレーニングレシピと事前トレーニングモデルをリリースしました。 我々の研究は、この困難なシナリオにおいて最先端のメソッドによって達成されたパフォーマンスは、まだ許容できるレベルには程遠いことを強調している。

Despite the recent advancements in speech recognition, there are still difficulties in accurately transcribing conversational and emotional speech in noisy and reverberant acoustic environments. This poses a particular challenge in the search and rescue (SAR) domain, where transcribing conversations among rescue team members is crucial to support real-time decision-making. The scarcity of speech data and associated background noise in SAR scenarios make it difficult to deploy robust speech recognition systems. To address this issue, we have created and made publicly available a German speech dataset called RescueSpeech. This dataset includes real speech recordings from simulated rescue exercises. Additionally, we have released competitive training recipes and pre-trained models. Our study highlights that the performance attained by state-of-the-art methods in this challenging scenario is still far from reaching an acceptable level.
翻訳日:2023-09-27 02:21:26 公開日:2023-09-25
# ニューロン活性化被覆 : 分布外検出と一般化の再考

Neuron Activation Coverage: Rethinking Out-of-distribution Detection and Generalization ( http://arxiv.org/abs/2306.02879v2 )

ライセンス: Link先を確認
Yibing Liu, Chris Xing Tian, Haoliang Li, Lei Ma, Shiqi Wang(参考訳) out-of-distribution(ood)問題は、一般的に、トレーニングデータ分散、すなわちin-distribution(ind)から著しく逸脱するデータにニューラルネットワークが遭遇したときに発生する。 本稿では,ニューロン活性化の観点からOOD問題を考察する。 まず、ニューロンの出力とモデル決定への影響を考慮し、ニューロンの活性化状態を定式化する。 次に、神経細胞とOOD問題との関係を特徴付けるために、InDデータに基づくニューロンの振る舞いの簡易な尺度である‘textit{neuron activation coverage’ (NAC) を導入する。 NACを活用することで、私たちはそれを示します。 1) ind と ood の入力はニューロンの挙動に基づいて大きく分離することができ、これは ood 検出問題を大幅に緩和し、3つのベンチマーク(cifar-10、cifar-100、imagenet-1k)で21の手法を上回った。 2)NACとモデル一般化能力の正の相関関係はアーキテクチャやデータセット間で一貫して保持され,NACに基づくモデルロバスト性の評価基準を実現する。 一般的なInDバリデーション基準と比較して,NACはより堅牢なモデルを選択するだけでなく,OODテスト性能との相関性も強いことを示す。

The out-of-distribution (OOD) problem generally arises when neural networks encounter data that significantly deviates from the training data distribution, i.e., in-distribution (InD). In this paper, we study the OOD problem from a neuron activation view. We first formulate neuron activation states by considering both the neuron output and its influence on model decisions. Then, to characterize the relationship between neurons and OOD issues, we introduce the \textit{neuron activation coverage} (NAC) -- a simple measure for neuron behaviors under InD data. Leveraging our NAC, we show that 1) InD and OOD inputs can be largely separated based on the neuron behavior, which significantly eases the OOD detection problem and beats the 21 previous methods over three benchmarks (CIFAR-10, CIFAR-100, and ImageNet-1K). 2) a positive correlation between NAC and model generalization ability consistently holds across architectures and datasets, which enables a NAC-based criterion for evaluating model robustness. Compared to prevalent InD validation criteria, we show that NAC not only can select more robust models, but also has a stronger correlation with OOD test performance.
翻訳日:2023-09-27 02:21:13 公開日:2023-09-25
# PDT: タイムアウェアなバイパルタイトグラフのための事前訓練されたデュアルトランス

PDT: Pretrained Dual Transformers for Time-aware Bipartite Graphs ( http://arxiv.org/abs/2306.01913v3 )

ライセンス: Link先を確認
Xin Dai, Yujie Fan, Zhongfang Zhuang, Shubham Jain, Chin-Chia Michael Yeh, Junpeng Wang, Liang Wang, Yan Zheng, Prince Osei Aboagye, Wei Zhang(参考訳) 大規模モデルの事前トレーニングは広く普及しており、多くの機械学習アプリケーションカテゴリでユーザー生成コンテンツが増え続けている。 ユーザとコンテンツの相互作用を記述するデータセットから文脈知識を学ぶことは、下流タスクにおいて重要な役割を果たすことが認識されている。 事前学習手法を用いて文脈知識を学習しようとするいくつかの研究にもかかわらず、このようなタスクのための最適な訓練目標と戦略を見つけることは難しい問題である。 本研究では,ユーザとコンテンツの相互作用を2部グラフとして表現できるデータセットに対して,文脈知識には2つの異なる側面,すなわちユーザ側とコンテンツ側があると主張する。 文脈知識を学習するために,ユーザ側とコンテンツ側の空間間の双方向マッピングを学習する事前学習手法を提案する。 学習目標をコントラスト学習タスクとして定式化し、文脈知識を符号化するデュアルトランスフォーマーアーキテクチャを提案する。 提案手法を推薦課題として評価する。 実験の結果,提案手法がすべてのベースラインを上回り,有意な利益を得た。

Pre-training on large models is prevalent and emerging with the ever-growing user-generated content in many machine learning application categories. It has been recognized that learning contextual knowledge from the datasets depicting user-content interaction plays a vital role in downstream tasks. Despite several studies attempting to learn contextual knowledge via pre-training methods, finding an optimal training objective and strategy for this type of task remains a challenging problem. In this work, we contend that there are two distinct aspects of contextual knowledge, namely the user-side and the content-side, for datasets where user-content interaction can be represented as a bipartite graph. To learn contextual knowledge, we propose a pre-training method that learns a bi-directional mapping between the spaces of the user-side and the content-side. We formulate the training goal as a contrastive learning task and propose a dual-Transformer architecture to encode the contextual knowledge. We evaluate the proposed method for the recommendation task. The empirical studies have demonstrated that the proposed method outperformed all the baselines with significant gains.
翻訳日:2023-09-27 02:20:49 公開日:2023-09-25
# 非弾性原子-表面散乱への完全ab initioアプローチ

A fully ab initio approach to inelastic atom-surface scattering ( http://arxiv.org/abs/2306.01892v2 )

ライセンス: Link先を確認
Michelle M. Kelley, Ravishankar Sundararaman, Tom\'as A. Arias(参考訳) 任意の表面からの原子の非弾性散乱に関する普遍的で完全な初期理論を導入し、Nb(100) からのヘリウム散乱にこの理論を適用する。 このアプローチを普遍化する重要な側面は、散乱原子電子頂点の直接第一原理評価である。 現在の最先端理論の誤解を招く結果を修正することで、この完全な初期的アプローチは次世代の非破壊原子ビーム散乱を採用する実験の導出と解釈において重要である。

We introduce a universal and fully ab initio theory for inelastic scattering of any atom from any surface, and apply the theory to helium scattering from Nb(100). The key aspect making our approach universal is a direct first-principles evaluation of the scattering atom-electron vertex. By correcting misleading results from current state-of-the-art theories, this fully ab initio approach will be critical in guiding and interpreting experiments that adopt next-generation, non-destructive atomic beam scattering.
翻訳日:2023-09-27 02:20:32 公開日:2023-09-25
# 人選好スコアv2:テキスト・画像合成の人選好評価のためのソリッドベンチマーク

Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis ( http://arxiv.org/abs/2306.09341v2 )

ライセンス: Link先を確認
Xiaoshi Wu, Yiming Hao, Keqiang Sun, Yixiong Chen, Feng Zhu, Rui Zhao, Hongsheng Li(参考訳) 近年のテキスト画像生成モデルは,テキスト入力から高忠実度画像を生成することができるが,これらの画像の品質は既存の評価指標では正確に評価できない。 この問題に対処するために,多種多様なソースから画像に対して人間の好みをキャプチャする大規模データセットであるhuman preference dataset v2 (hpd v2) を導入する。 HPD v2は、433,760枚の画像に対して798,090個の人間の好みの選択を含む。 テキストプロンプトとイメージは意図的に収集され、潜在的なバイアスを排除します。 我々はHPD v2上でCLIPを微調整することにより、生成した画像の人間の嗜好をより正確に予測できるスコアモデルHPS v2(Human Preference Score v2)を得る。 実験により,HPS v2は様々な画像分布にまたがる従来の指標よりも優れており,テキストから画像への生成モデルのアルゴリズム的改善に応答し,これらのモデルに好適な評価基準となることが示された。 また,テキストから画像への生成モデルに対する評価プロンプトの設計について検討し,評価を安定し,公平かつ使いやすいものにした。 最後に,HPS v2を用いたテキスト・ツー・画像生成モデルのベンチマークを構築した。 コードとデータセットはhttps://github.com/tgxs002/hpsv2で入手できる。

Recent text-to-image generative models can generate high-fidelity images from text inputs, but the quality of these generated images cannot be accurately evaluated by existing evaluation metrics. To address this issue, we introduce Human Preference Dataset v2 (HPD v2), a large-scale dataset that captures human preferences on images from a wide range of sources. HPD v2 comprises 798,090 human preference choices on 433,760 pairs of images, making it the largest dataset of its kind. The text prompts and images are deliberately collected to eliminate potential bias, which is a common issue in previous datasets. By fine-tuning CLIP on HPD v2, we obtain Human Preference Score v2 (HPS v2), a scoring model that can more accurately predict human preferences on generated images. Our experiments demonstrate that HPS v2 generalizes better than previous metrics across various image distributions and is responsive to algorithmic improvements of text-to-image generative models, making it a preferable evaluation metric for these models. We also investigate the design of the evaluation prompts for text-to-image generative models, to make the evaluation stable, fair and easy-to-use. Finally, we establish a benchmark for text-to-image generative models using HPS v2, which includes a set of recent text-to-image models from the academic, community and industry. The code and dataset is available at https://github.com/tgxs002/HPSv2 .
翻訳日:2023-09-27 02:09:46 公開日:2023-09-25
# Ego4D Episodic Memory Challenge 2023における行動感性学習

Action Sensitivity Learning for the Ego4D Episodic Memory Challenge 2023 ( http://arxiv.org/abs/2306.09172v2 )

ライセンス: Link先を確認
Jiayi Shao and Xiaohan Wang and Ruijie Quan and Yi Yang(参考訳) 本稿では,自然言語クエリとモーメントクエリを含むCVPR 2023のEgo4D Episodic Memory Benchmarkの2つのトラックにReLERを提出する。 この手法は提案したASL(Action Sensitivity Learning framework)を継承し,フレームの分散情報をよりよく取得する。 さらに,より強力なビデオ機能と融合戦略が組み込まれている。 提案手法は,モーメントクエリチャレンジでは1位,自然言語クエリチャレンジでは19.79平均r1,29.34の平均マップを達成している。 私たちのコードはリリースされます。

This report presents ReLER submission to two tracks in the Ego4D Episodic Memory Benchmark in CVPR 2023, including Natural Language Queries and Moment Queries. This solution inherits from our proposed Action Sensitivity Learning framework (ASL) to better capture discrepant information of frames. Further, we incorporate a series of stronger video features and fusion strategies. Our method achieves an average mAP of 29.34, ranking 1st in Moment Queries Challenge, and garners 19.79 mean R1, ranking 2nd in Natural Language Queries Challenge. Our code will be released.
翻訳日:2023-09-27 02:09:19 公開日:2023-09-25
# ディープラーニングモデルをトレーニングする際のカーボンフットプリントの推定方法 ガイドとレビュー

How to estimate carbon footprint when training deep learning models? A guide and review ( http://arxiv.org/abs/2306.08323v2 )

ライセンス: Link先を確認
Lucia Bouza Heguerte (MAP5 - UMR 8145), Aur\'elie Bugeau (IUF, LaBRI, UB), Lo\"ic Lannelongue(参考訳) 機械学習とディープラーニングモデルは、最近の社会の多くの分野における人工知能の急速な発展に欠かせないものとなっている。 現在、これらのモデルの開発には多くの研究で分析された環境コストがあることが広く認識されている。 機械学習モデルをトレーニングしながらエネルギー消費を追跡するために、いくつかのオンラインおよびソフトウェアツールが開発されている。 本稿では,これらのツールの包括的導入と比較を行い,その作業の環境影響を推定したいai実践者を対象とした。 特定の語彙、各ツールの技術的な要件をレビューします。 画像処理とサーバの異なる2種類のディープニューラルネットワーク上で,各ツールが推定したエネルギー消費量を比較した。 これらの実験から、適切なツールとインフラを選択するためのアドバイスを提供する。

Machine learning and deep learning models have become essential in the recent fast development of artificial intelligence in many sectors of the society. It is now widely acknowledge that the development of these models has an environmental cost that has been analyzed in many studies. Several online and software tools have been developed to track energy consumption while training machine learning models. In this paper, we propose a comprehensive introduction and comparison of these tools for AI practitioners wishing to start estimating the environmental impact of their work. We review the specific vocabulary, the technical requirements for each tool. We compare the energy consumption estimated by each tool on two deep neural networks for image processing and on different types of servers. From these experiments, we provide some advice for better choosing the right tool and infrastructure.
翻訳日:2023-09-27 02:08:41 公開日:2023-09-25
# CARE-MI:母子保健における誤情報評価のための中国のベンチマーク

CARE-MI: Chinese Benchmark for Misinformation Evaluation in Maternity and Infant Care ( http://arxiv.org/abs/2307.01458v3 )

ライセンス: Link先を確認
Tong Xiang, Liangzhi Li, Wangyue Li, Mingbai Bai, Lu Wei, Bowen Wang, Noa Garcia(参考訳) 自然言語処理(NLP)の最近の進歩は、大規模言語モデル(LLM)を現実のシナリオに適用する新たなトレンドにつながっている。 最新のLSMは、人間と対話するときに驚くほど流動的だが、意図せずに事実を偽造することによって誤情報問題に悩まされる。 これにより、特に医療などのセンシティブなコンテキストで生成された場合、有害な結果が発生する可能性がある。 しかし、LLMの長文(LF)世代における誤情報の評価、特に知識集約的な話題に焦点を当てた以前の研究はほとんどない。 さらに、LLMは様々な言語でうまく機能することが示されているが、誤情報評価は主に英語で行われている。 そこで本研究では,LCM誤情報評価のためのベンチマークCARE-MIを提案する。 1)敏感な話題、具体的には母性及び乳幼児ケア領域 2) 英語以外の言語,すなわち中国語。 最も重要なことは、他の知識集約型ドメインや低リソース言語に転送可能なLF生成評価ベンチマークを構築するための革新的なパラダイムを提供することです。 提案するベンチマークは,LLMの広範利用と,これらのモデルが生成した誤情報を評価するためのデータセットの欠如とのギャップを埋めるものである。 専門家による1,612の質問と、人間による参照が含まれている。 以上の結果から,現在の中国のLSMは母性や乳幼児ケアの分野では完璧とは程遠いことが判明した。 性能評価のための人的資源への依存を最小限に抑えるため,ベンチマーク質問に対するLLMのLF出力を自動評価するオフ・ザ・シェルフ判定モデルを提案する。 さらに、LF生成評価の潜在的なソリューションを比較し、より良い自動メトリクスを構築するための洞察を提供する。

The recent advances in natural language processing (NLP), have led to a new trend of applying large language models (LLMs) to real-world scenarios. While the latest LLMs are astonishingly fluent when interacting with humans, they suffer from the misinformation problem by unintentionally generating factually false statements. This can lead to harmful consequences, especially when produced within sensitive contexts, such as healthcare. Yet few previous works have focused on evaluating misinformation in the long-form (LF) generation of LLMs, especially for knowledge-intensive topics. Moreover, although LLMs have been shown to perform well in different languages, misinformation evaluation has been mostly conducted in English. To this end, we present a benchmark, CARE-MI, for evaluating LLM misinformation in: 1) a sensitive topic, specifically the maternity and infant care domain; and 2) a language other than English, namely Chinese. Most importantly, we provide an innovative paradigm for building LF generation evaluation benchmarks that can be transferred to other knowledge-intensive domains and low-resourced languages. Our proposed benchmark fills the gap between the extensive usage of LLMs and the lack of datasets for assessing the misinformation generated by these models. It contains 1,612 expert-checked questions, accompanied with human-selected references. Using our benchmark, we conduct extensive experiments and found that current Chinese LLMs are far from perfect in the topic of maternity and infant care. In an effort to minimize the reliance on human resources for performance evaluation, we offer off-the-shelf judgment models for automatically assessing the LF output of LLMs given benchmark questions. Moreover, we compare potential solutions for LF generation evaluation and provide insights for building better automated metrics.
翻訳日:2023-09-27 02:02:38 公開日:2023-09-25
# 3D-Speaker: 大規模マルチデバイス, マルチディスタンス, マルチディレクトコーパスによる音声表現遠絡

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement ( http://arxiv.org/abs/2306.15354v3 )

ライセンス: Link先を確認
Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen(参考訳) 発話における非相関情報の拡散は、音声コミュニティにおいて重要な研究課題である。 異なる音声関連タスクは、他の非相関情報の影響を最小限に抑えながら、異なる音声表現を抽出することに焦点を当てる。 本稿では,音声表現のゆがみの研究を容易にするための大規模音声コーパスを提案する。 3D-Speakerには10,000人以上のスピーカーが含まれており、それぞれが複数のデバイスによって同時に記録され、異なる距離に配置されている。 多次元オーディオデータの制御された組み合わせは、多様な音声表現の絡み合いの混合のマトリックスを生じさせ、興味をそそる方法の動機付けとなる。 3D-Speakerのマルチドメインの性質は、ドメイン外学習と自己教師型学習の大規模な普遍的な音声モデルと実験方法を評価するのに適している。 https://3dspeaker.github.io/

Disentangling uncorrelated information in speech utterances is a crucial research topic within speech community. Different speech-related tasks focus on extracting distinct speech representations while minimizing the affects of other uncorrelated information. We present a large-scale speech corpus to facilitate the research of speech representation disentanglement. 3D-Speaker contains over 10,000 speakers, each of whom are simultaneously recorded by multiple Devices, locating at different Distances, and some speakers are speaking multiple Dialects. The controlled combinations of multi-dimensional audio data yield a matrix of a diverse blend of speech representation entanglement, thereby motivating intriguing methods to untangle them. The multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate large universal speech models and experiment methods of out-of-domain learning and self-supervised learning. https://3dspeaker.github.io/
翻訳日:2023-09-27 02:00:56 公開日:2023-09-25
# 偽物シミュレーション

Simulating counterfactuals ( http://arxiv.org/abs/2306.15328v2 )

ライセンス: Link先を確認
Juha Karvanen, Santtu Tikka, Matti Vihola(参考訳) 擬似推論は、現実の世界といくつかの証拠を共有する平行世界における仮説的介入を考察する。 証拠が多様体上の条件分布を明記するなら、反事実は解析的に解析可能である。 離散変数と連続変数の両方に条件を設定できる対実分布から値をシミュレートするアルゴリズムを提案する。 提案アルゴリズムは漸近的に妥当な推論につながる粒子フィルタとして提示できることを示す。 このアルゴリズムは信用スコアリングのフェアネス分析に適用される。

Counterfactual inference considers a hypothetical intervention in a parallel world that shares some evidence with the factual world. If the evidence specifies a conditional distribution on a manifold, counterfactuals may be analytically intractable. We present an algorithm for simulating values from a counterfactual distribution where conditions can be set on both discrete and continuous variables. We show that the proposed algorithm can be presented as a particle filter leading to asymptotically valid inference. The algorithm is applied to fairness analysis in credit scoring.
翻訳日:2023-09-27 02:00:40 公開日:2023-09-25
# データプライバシアルゴリズムのベンチマークのための分散コミュニティデータ

Diverse Community Data for Benchmarking Data Privacy Algorithms ( http://arxiv.org/abs/2306.13216v2 )

ライセンス: Link先を確認
Aniruddha Sen, Christine Task, Dhruv Kapur, Gary Howarth, Karan Bhagat(参考訳) コラボレーティブ・リサーチ・サイクル(collaborative research cycle、crc)は、国立標準技術研究所(nist)のベンチマークプログラムであり、表データ識別技術の理解を強化することを目的としている。 識別アルゴリズムは、他のデータ分析や機械学習アプリケーションに影響を及ぼすのと同じバイアスやプライバシの問題に弱いため、下流のアプリケーションを汚染することでこれらの問題を増幅することもできる。 本論文はCRCの4つのコントリビューションを要約する: 多様な個体群と公平な識別の課題との関係に関する理論的研究、多様な個体群と課題の特徴に焦点を当てた公開ベンチマークデータ、同定されたデータセット評価の包括的なオープンソーススイート、および幅広い技術から450以上の特定データサンプルをアーカイブする。 評価結果の初期セットは,本分野におけるこれらのツールの価値を示すものである。

The Collaborative Research Cycle (CRC) is a National Institute of Standards and Technology (NIST) benchmarking program intended to strengthen understanding of tabular data deidentification technologies. Deidentification algorithms are vulnerable to the same bias and privacy issues that impact other data analytics and machine learning applications, and can even amplify those issues by contaminating downstream applications. This paper summarizes four CRC contributions: theoretical work on the relationship between diverse populations and challenges for equitable deidentification; public benchmark data focused on diverse populations and challenging features; a comprehensive open source suite of evaluation metrology for deidentified datasets; and an archive of more than 450 deidentified data samples from a broad range of techniques. The initial set of evaluation results demonstrate the value of these tools for investigations in this field.
翻訳日:2023-09-27 02:00:33 公開日:2023-09-25
# 効率的な任意スケール画像表現のための動的暗黙的画像関数

Dynamic Implicit Image Function for Efficient Arbitrary-Scale Image Representation ( http://arxiv.org/abs/2306.12321v2 )

ライセンス: Link先を確認
Zongyao He, Zhi Jin(参考訳) 近年では暗黙の神経表現法が顕著に成功している。 最近の研究であるローカルインプリシット画像関数(LIIF)は、連続した空間領域内のニューラルネットワークから画素値を推定する連続的な画像表現に満足できる性能を達成している。 しかし、そのような暗黙的な任意のスケールの超解像法(SR)の計算コストは、スケールファクタが増加するにつれて急速に増加し、任意のスケールのSRが時間がかかる。 本稿では,任意の解像度で画像を表現するための高速かつ効率的な手法である動的暗黙的画像関数(diif)を提案する。 画像座標と最も近い2次元深度特徴を入力として、その画素値を予測する代わりに、ニューラルネットワークが座標スライスから画素値スライスへのデコードを可能にする座標グループ化とスライス戦略を提案する。 さらに,スライス毎の座標数がスケール係数の変動に応じて変化する動的座標スライシングによるデコードを行う粗層対細多層パーセプトロン(c2f-mlp)を提案する。 動的座標スライシングにより、DIIFは任意のスケールのSRに遭遇する際の計算コストを大幅に削減する。 実験により、DIIFは暗黙的な任意のスケールのSR手法と統合でき、計算効率が大幅に向上したSOTA SR性能を実現し、リアルタイムな任意のスケールの画像表現のための経路を開くことが示されている。 私たちのコードはhttps://github.com/hezongyao/diifにあります。

Recent years have witnessed the remarkable success of implicit neural representation methods. The recent work Local Implicit Image Function (LIIF) has achieved satisfactory performance for continuous image representation, where pixel values are inferred from a neural network in a continuous spatial domain. However, the computational cost of such implicit arbitrary-scale super-resolution (SR) methods increases rapidly as the scale factor increases, which makes arbitrary-scale SR time-consuming. In this paper, we propose Dynamic Implicit Image Function (DIIF), which is a fast and efficient method to represent images with arbitrary resolution. Instead of taking an image coordinate and the nearest 2D deep features as inputs to predict its pixel value, we propose a coordinate grouping and slicing strategy, which enables the neural network to perform decoding from coordinate slices to pixel value slices. We further propose a Coarse-to-Fine Multilayer Perceptron (C2F-MLP) to perform decoding with dynamic coordinate slicing, where the number of coordinates in each slice varies as the scale factor varies. With dynamic coordinate slicing, DIIF significantly reduces the computational cost when encountering arbitrary-scale SR. Experimental results demonstrate that DIIF can be integrated with implicit arbitrary-scale SR methods and achieves SOTA SR performance with significantly superior computational efficiency, thereby opening a path for real-time arbitrary-scale image representation. Our code can be found at https://github.com/HeZongyao/DIIF.
翻訳日:2023-09-27 02:00:17 公開日:2023-09-25
# 自然視覚シーンに対する神経反応の時間的コンディショニングスパイク潜在変数モデル

Temporal Conditioning Spiking Latent Variable Models of the Neural Response to Natural Visual Scenes ( http://arxiv.org/abs/2306.12045v3 )

ライセンス: Link先を確認
Gehua Ma, Runhao Jiang, Rui Yan, Huajin Tang(参考訳) 神経応答の計算モデルの開発は、感覚処理と神経計算を理解する上で重要である。 現在の最先端のニューラルネットワーク手法は、時間的依存関係を処理するために時間的フィルタを使用し、非現実的で柔軟な処理パラダイムをもたらす。 一方、これらの方法は試験的な平均射撃率を目標とし、スパイク列車の重要な特徴を捉えられなかった。 本研究は, 時間条件付潜時変動モデル(TeCoS-LVM)を提示し, 自然視覚刺激に対する神経応答をシミュレートする。 我々はスパイキングニューロンを用いて、記録された列車と直接一致するスパイク出力を生成する。 このアプローチは、オリジナルのスパイク列車に埋め込まれた情報を失うのを避けるのに役立つ。 モデルパラメータ空間から時間次元を除外し、時間条件付き操作を導入し、モデルが自然パラダイムにおける刺激配列の時間依存性を適応的に探索し活用できるようにする。 tecos-lvmモデルはより現実的なスパイクアクティビティを生成でき、強力な代替品よりもスパイク統計に正確に適合する。 さらに、学習したTeCoS-LVMモデルは、より長い時間スケールでうまく一般化することができる。 全体として、計算可能でありながら、我々のモデルは、ニューラルネットワークシステムの重要な特徴を効果的に捉えている。 これにより、様々な知覚知覚回路の正確な予測計算アカウントを構築するための有用なツールを提供する。

Developing computational models of neural response is crucial for understanding sensory processing and neural computations. Current state-of-the-art neural network methods use temporal filters to handle temporal dependencies, resulting in an unrealistic and inflexible processing paradigm. Meanwhile, these methods target trial-averaged firing rates and fail to capture important features in spike trains. This work presents the temporal conditioning spiking latent variable models (TeCoS-LVM) to simulate the neural response to natural visual stimuli. We use spiking neurons to produce spike outputs that directly match the recorded trains. This approach helps to avoid losing information embedded in the original spike trains. We exclude the temporal dimension from the model parameter space and introduce a temporal conditioning operation to allow the model to adaptively explore and exploit temporal dependencies in stimuli sequences in a {\it natural paradigm}. We show that TeCoS-LVM models can produce more realistic spike activities and accurately fit spike statistics than powerful alternatives. Additionally, learned TeCoS-LVM models can generalize well to longer time scales. Overall, while remaining computationally tractable, our model effectively captures key features of neural coding systems. It thus provides a useful tool for building accurate predictive computational accounts for various sensory perception circuits.
翻訳日:2023-09-27 01:59:49 公開日:2023-09-25
# MASR:マルチラベル対応音声表現

MASR: Multi-label Aware Speech Representation ( http://arxiv.org/abs/2307.10982v2 )

ライセンス: Link先を確認
Anjali Raj, Shikhar Bharadwaj, Sriram Ganapathy, Min Ma, Shikhar Vashishth(参考訳) 近年,音声表現学習は主に自己教師付き学習(SSL)タスクとして構築され,生音声信号のみを使用しながら,特定の音声記録でしばしば利用できるサイドインフォメーションを無視している。 本稿では,上記の制約に対処するマルチラベル対応音声表現学習フレームワークMASRを提案する。 MASRは、複数の外部知識ソースを組み込むことで、メタデータ情報の利用を促進できる。 外部知識源は、ハードマイニング損失に有用なサンプルレベルのペアワイズ類似度行列の形で組み込まれている。 MASRフレームワークの重要な利点は、SSLメソッドの選択と組み合わせることができることである。 我々は,MASR表現を用いて,言語識別や音声認識,話者認識や感情認識などの非意味的タスクなど,下流タスクの評価を行う。 これらの実験では、他の確立されたベンチマークよりもMASRの大幅な性能向上を示す。 本稿では,言語識別タスクの詳細な解析を行い,提案した損失関数が表現を密接な関係のある言語を分離することを可能にする方法について考察する。

In the recent years, speech representation learning is constructed primarily as a self-supervised learning (SSL) task, using the raw audio signal alone, while ignoring the side-information that is often available for a given speech recording. In this paper, we propose MASR, a Multi-label Aware Speech Representation learning framework, which addresses the aforementioned limitations. MASR enables the inclusion of multiple external knowledge sources to enhance the utilization of meta-data information. The external knowledge sources are incorporated in the form of sample-level pair-wise similarity matrices that are useful in a hard-mining loss. A key advantage of the MASR framework is that it can be combined with any choice of SSL method. Using MASR representations, we perform evaluations on several downstream tasks such as language identification, speech recognition and other non-semantic tasks such as speaker and emotion recognition. In these experiments, we illustrate significant performance improvements for the MASR over other established benchmarks. We perform a detailed analysis on the language identification task to provide insights on how the proposed loss function enables the representations to separate closely related languages.
翻訳日:2023-09-27 01:51:11 公開日:2023-09-25
# オニオン宇宙アルゴリズム:弱い教師付き学習への応用

Onion Universe Algorithm: Applications in Weakly Supervised Learning ( http://arxiv.org/abs/2307.04870v2 )

ライセンス: Link先を確認
Woojoo Na(参考訳) アンサンブル学習の新しい分類法であるオニオンユニバースアルゴリズム(OUA)を紹介する。 特に,弱教師付き学習のためのラベルモデルとして適用可能性を示す。 ouaはデータや弱い信号に対する最小限の仮定で実装をシンプルにする。 このモデルは、完全なラベル付きデータが利用できないシナリオに適している。 本手法は弱信号にまたがる空間の幾何学的解釈に基づいている。 弱信号の一般セットに基づく高次元凸船体構造の解析は,機械学習を用いた幾何学を橋渡しする。 実験の結果、OUAは実践的にうまく機能し、弱教師付き学習のための最良のラベルモデルと比較した。

We introduce Onion Universe Algorithm (OUA), a novel classification method in ensemble learning. In particular, we show its applicability as a label model for weakly supervised learning. OUA offers simplicity in implementation with minimal assumptions on the data or weak signals. The model is well suited for scenarios where fully labeled data is not available. Our method is built upon geometrical interpretation of the space spanned by weak signals. Our analysis of the high dimensional convex hull structure underlying general set of weak signals bridges geometry with machine learning. Empirical results also demonstrate that OUA works well in practice and compares favorably to best existing label models for weakly supervised learning.
翻訳日:2023-09-27 01:49:34 公開日:2023-09-25
# False Sense of Security: コンテキストレスDGA分類器の推論と真のパフォーマンス解析にXAIを活用する

False Sense of Security: Leveraging XAI to Analyze the Reasoning and True Performance of Context-less DGA Classifiers ( http://arxiv.org/abs/2307.04358v2 )

ライセンス: Link先を確認
Arthur Drichel and Ulrike Meyer(参考訳) 利用可能なディープラーニング分類器が99.9%以上の精度を達成することを考えると、ドメイン生成アルゴリズム(DGA)検出によるボットネット活動を明らかにする問題は解決されているようである。 しかし、これらの分類器は偏りが強く、簡単な検出バイパスを可能にするため、誤ったセキュリティ感覚を提供する。 本研究では,深層学習分類器の推論を分析し,そのバイアスを体系的に明らかにするために,説明可能な人工知能(xai)手法を活用する。 DGA分類器からこれらのバイアスを取り除くことは,その性能を著しく低下させることを示す。 それでも、特定バイアスのない文脈認識検出システムを設計でき、最先端のディープラーニング分類器の検出率を維持することができる。 本稿では,分類者の推論をよりよく理解し,検出方法の信頼性と透明性を高め,意思決定を容易にする視覚分析システムを提案する。

The problem of revealing botnet activity through Domain Generation Algorithm (DGA) detection seems to be solved, considering that available deep learning classifiers achieve accuracies of over 99.9%. However, these classifiers provide a false sense of security as they are heavily biased and allow for trivial detection bypass. In this work, we leverage explainable artificial intelligence (XAI) methods to analyze the reasoning of deep learning classifiers and to systematically reveal such biases. We show that eliminating these biases from DGA classifiers considerably deteriorates their performance. Nevertheless we are able to design a context-aware detection system that is free of the identified biases and maintains the detection rate of state-of-the art deep learning classifiers. In this context, we propose a visual analysis system that helps to better understand a classifier's reasoning, thereby increasing trust in and transparency of detection methods and facilitating decision-making.
翻訳日:2023-09-27 01:49:26 公開日:2023-09-25
# 計測誘起臨界はトモグラフィ的に最適である

Measurement-Induced Criticality is Tomographically Optimal ( http://arxiv.org/abs/2308.01653v2 )

ライセンス: Link先を確認
Ahmed A. Akhtar, Hong-Ye Hu, Yi-Zhuang You(参考訳) 単一量子ビットランダム射影計測と混合した2量子ビットランダムユニタリゲートの層からなるハイブリッド量子回路に基づくランダム化計測方式を用いた古典的なシャドウトモグラフィープロトコルを開発した。 ユニタリ進化の終わりまでに全ての測定を行う従来のプロトコルとは異なり、我々のプロトコルは量子進化を通して任意の時空位置で測定を行うことができる。 反復実験によるランダム回路実現を前提とした断続的な測定結果から元の量子状態を近似的に再構成する普遍的古典後処理戦略を提案する。 ハイブリッド量子回路の異なる測定速度で異なる観測値を求めるためのサンプルの複雑さについて検討した。 その結果, ハイブリッド回路が測定誘起遷移を行う場合, 試料複雑性は臨界測定速度において最適スケーリングを示すことがわかった。

We develop a classical shadow tomography protocol utilizing the randomized measurement scheme based on hybrid quantum circuits, which consist of layers of two-qubit random unitary gates mixed with single-qubit random projective measurements. Unlike conventional protocols that perform all measurements by the end of unitary evolutions, our protocol allows measurements to occur at any spacetime position throughout the quantum evolution. We provide a universal classical post-processing strategy to approximately reconstruct the original quantum state from intermittent measurement outcomes given the corresponding random circuit realizations over repeated experiments. We investigated the sample complexity for estimating different observables at different measurement rates of the hybrid quantum circuits. Our result shows that the sample complexity has an optimal scaling at the critical measurement rate when the hybrid circuit undergoes the measurement-induced transition.
翻訳日:2023-09-27 01:42:04 公開日:2023-09-25
# FLARE:Universal Adversarial Masksを用いた深部強化学習エージェントの指紋化

FLARE: Fingerprinting Deep Reinforcement Learning Agents using Universal Adversarial Masks ( http://arxiv.org/abs/2307.14751v3 )

ライセンス: Link先を確認
Buse G. A. Tekgul, N. Asokan(参考訳) 疑わしいDeep Reinforcement Learning(DRL)ポリシーが、他の(被害者)ポリシーの不正コピーであるかどうかを検証するための最初の指紋認証機構であるFLAREを提案する。 まず,非伝達性で普遍的な敵マスク(摂動)を見つけることで,被害者の方針から修正版への移行を成功させるが,個別に訓練された方針には適用できない敵の例を生成できることを示す。 FLAREはこれらのマスクを指紋として使用し、そのようなマスクによって妨害された状態に対するアクション合意値を測定することによって、盗まれたDRLポリシーの真の所有権を検証する。 実験により,FLAREが有効であること(盗難コピーに対する100%のアクション合意)と,独立政策を誤認しないこと(偽陽性)が示唆された。 flareはモデル修正攻撃にも頑健であり、エージェントのパフォーマンスに悪影響を及ぼすことなく、よりインフォームドな敵に簡単に回避できない。 また,drlポリシーの特徴から,すべての普遍的な敵用マスクが指紋の候補であるとは限らない。 DRL問題と逐次決定過程の時空間的ダイナミクスは、DRLポリシーの決定境界をより困難にし、また、その幾何学を捉える普遍マスクを探索する。

We propose FLARE, the first fingerprinting mechanism to verify whether a suspected Deep Reinforcement Learning (DRL) policy is an illegitimate copy of another (victim) policy. We first show that it is possible to find non-transferable, universal adversarial masks, i.e., perturbations, to generate adversarial examples that can successfully transfer from a victim policy to its modified versions but not to independently trained policies. FLARE employs these masks as fingerprints to verify the true ownership of stolen DRL policies by measuring an action agreement value over states perturbed by such masks. Our empirical evaluations show that FLARE is effective (100% action agreement on stolen copies) and does not falsely accuse independent policies (no false positives). FLARE is also robust to model modification attacks and cannot be easily evaded by more informed adversaries without negatively impacting agent performance. We also show that not all universal adversarial masks are suitable candidates for fingerprints due to the inherent characteristics of DRL policies. The spatio-temporal dynamics of DRL problems and sequential decision-making process make characterizing the decision boundary of DRL policies more difficult, as well as searching for universal masks that capture the geometry of it.
翻訳日:2023-09-27 01:41:02 公開日:2023-09-25
# 放射状複素軌道:低レベル安定性と高レベル挙動

Imitating Complex Trajectories: Bridging Low-Level Stability and High-Level Behavior ( http://arxiv.org/abs/2307.14619v3 )

ライセンス: Link先を確認
Adam Block, Daniel Pfrommer, Max Simchowitz(参考訳) 非線形力学系における確率的,非マルコフ的,潜在的マルチモーダル(例えば ``complex' )の専門家による実演に関する理論的枠組みを提案する。 我々のフレームワークは、専門家によるデモンストレーションの模倣を安定化させるために、低レベルのコントローラーセイザーが学習され、あるいは暗黙的に位置コマンド制御を行う。 私たちはそれを示します a) 適切な低レベルの安定保証及び b) "total variation continuity" (tvc) と呼ばれる学習された方針の確率的連続性特性は,演者の状態分布に対する行動を正確に推定する模倣者であり,演者全体の分布と密接に一致する。 次に、一般的なデータ拡張レジームと新しいアルゴリズムのトリックを組み合わせることで、TVCが最小限の精度の劣化で確保できることを示し、実行時に拡張ノイズを追加する。 拡散モデルによりパラメータ化されたポリシーの保証をインスタンス化し、学習者が(雑音増大した)エキスパートポリシーのスコアを正確に推定した場合、擬似軌道の分布は自然の最適輸送距離における演者分布に近くなることを示す。 提案手法は,無関心な手法である雑音提示トラジェクタ間の複雑なカップリングを構成する。 アルゴリズムによる推薦を実証的に検証することで結論づける。

We propose a theoretical framework for studying behavior cloning stochastic, non-Markovian, potentially multi-modal (i.e. ``complex" ) expert demonstrations in nonlinear dynamical systems. Our framework invokes low-level controllers - either learned or implicit in position-command control - to stabilize imitation around expert demonstrations. We show that with (a) a suitable low-level stability guarantee and (b) a stochastic continuity property of the learned policy we call ``total variation continuity" (TVC), an imitator that accurately estimates actions on the demonstrator's state distribution closely matches the demonstrator's distribution over entire trajectories. We then show that TVC can be ensured with minimal degradation of accuracy by combining a popular data-augmentation regimen with a novel algorithmic trick: adding augmentation noise at execution time. We instantiate our guarantees for policies parameterized by diffusion models and prove that if the learner accurately estimates the score of the (noise-augmented) expert policy, then the distribution of imitator trajectories is close to the demonstrator distribution in a natural optimal transport distance. Our analysis constructs intricate couplings between noise-augmented trajectories, a technique that may be of independent interest. We conclude by empirically validating our algorithmic recommendations.
翻訳日:2023-09-27 01:40:39 公開日:2023-09-25
# ヒューマンライクなマルチモーダル推論の強化:新しいチェアリングデータセットと包括的フレームワーク

Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset and Comprehensive Framework ( http://arxiv.org/abs/2307.12626v2 )

ライセンス: Link先を確認
Jingxuan Wei, Cheng Tan, Zhangyang Gao, Linzhuang Sun, Siyuan Li, Bihui Yu, Ruifeng Guo, Stan Z. Li(参考訳) マルチモーダル推論は、特に複雑なタスクに取り組む際に人間のような知性を示す人工知能システムの追求において重要な要素である。 チェーン・オブ・ソート(CoT)技術は注目されているが、既存のScienceQAデータセットは、小・高校の教科書からのマルチモーダルな科学的質問や説明に焦点を当てており、多様なアプローチの包括的な評価は欠いている。 このギャップに対処するために、我々は、cocoから派生したオープンエンドな質問、合理性、回答の集合を包含する新しいデータセットであるcoco multi-modal reasoning(coco-mmr)データセットを提案する。 複数選択の質問に依存する従来のデータセットとは異なり、データセットはマルチモーダルCoTのコンテキストにおけるオープンエンドの質問の使用を先導し、CoTモデルの推論能力を効果的に評価するより困難な問題を導入します。 総合的な評価と詳細な分析を通じて,画像とテキストエンコーダを強化するために,マルチホップクロスモーダル注意と文レベルのコントラスト学習を含む革新的な手法を提案する。 大規模な実験は、提案したデータセットとテクニックの有効性を示し、マルチモーダル推論を推し進めるための新しい視点を提供する。 データとコードは \href{https://github.com/weijingxuan/COCO-MMR}{https://github.com/weijingxuan/COCO-MMR} で公開されている。

Multimodal reasoning is a critical component in the pursuit of artificial intelligence systems that exhibit human-like intelligence, especially when tackling complex tasks. While the chain-of-thought (CoT) technique has gained considerable attention, the existing ScienceQA dataset, which focuses on multimodal scientific questions and explanations from elementary and high school textbooks, lacks a comprehensive evaluation of diverse approaches. To address this gap, we present COCO Multi-Modal Reasoning(COCO-MMR) dataset, a novel dataset that encompasses an extensive collection of open-ended questions, rationales, and answers derived from the large object dataset COCO. Unlike previous datasets that rely on multiple-choice questions, our dataset pioneers the use of open-ended questions in the context of multimodal CoT, introducing a more challenging problem that effectively assesses the reasoning capability of CoT models. Through comprehensive evaluations and detailed analyses, we provide valuable insights and propose innovative techniques, including multi-hop cross-modal attention and sentence-level contrastive learning, to enhance the image and text encoders. Extensive experiments demonstrate the efficacy of the proposed dataset and techniques, offering novel perspectives for advancing multimodal reasoning. The data and code are available at \href{https://github.com/weijingxuan/COCO-MMR}{https://github.com/weijingxuan/COCO-MMR}.
翻訳日:2023-09-27 01:40:15 公開日:2023-09-25
# 新規sr損失関数を用いたhough空間における拡張トランスファー学習による飛行コントライルセグメンテーション

Flight Contrail Segmentation via Augmented Transfer Learning with Novel SR Loss Function in Hough Space ( http://arxiv.org/abs/2307.12032v2 )

ライセンス: Link先を確認
Junzi Sun, Esther Roosenbrand(参考訳) 大気輸送は、特に温暖化の影響の可能性があるため、気候変動における飛行違反の役割に関して重要な環境問題を引き起こす。 従来のコンピュータビジョン技術は、様々なリモートセンシング画像条件下では困難であり、畳み込みニューラルネットワークを用いた機械学習アプローチは、手書きのコントラルデータセットの不足によって制限される。 これらの問題に対処するために,我々は,最小限のラベル付きデータを用いた高精度な対向セグメンテーションのための革新的手法を導入するために,少人数転送学習を用いる。 提案手法は,拡張されたコントライル固有データセットを用いて,広範な画像データセットに事前学習し,微調整したバックボーンセグメンテーションモデルを活用する。 また,画像空間をハフ空間に変換することで対向線検出を促進する新しい損失関数「sr損失」を導入する。 この変換により、一般的な画像セグメント化損失関数よりも大幅に性能が向上する。 本手法は制限されたラベル付きデータによって生じる課題に対するロバストな解決策を提供し,コントラティル検出モデルの状態を著しく向上させる。

Air transport poses significant environmental challenges, particularly regarding the role of flight contrails in climate change due to their potential global warming impact. Traditional computer vision techniques struggle under varying remote sensing image conditions, and conventional machine learning approaches using convolutional neural networks are limited by the scarcity of hand-labeled contrail datasets. To address these issues, we employ few-shot transfer learning to introduce an innovative approach for accurate contrail segmentation with minimal labeled data. Our methodology leverages backbone segmentation models pre-trained on extensive image datasets and fine-tuned using an augmented contrail-specific dataset. We also introduce a novel loss function, termed SR Loss, which enhances contrail line detection by transforming the image space into Hough space. This transformation results in a significant performance improvement over generic image segmentation loss functions. Our approach offers a robust solution to the challenges posed by limited labeled data and significantly advances the state of contrail detection models.
翻訳日:2023-09-27 01:39:46 公開日:2023-09-25
# マルチモーダル視覚行動認識のためのアンサンブルモデリング

Ensemble Modeling for Multimodal Visual Action Recognition ( http://arxiv.org/abs/2308.05430v2 )

ライセンス: Link先を確認
Jyoti Kini, Sarah Fleischer, Ishan Dave, Mubarak Shah(参考訳) 本研究では,マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。 我々は,MECCANO[21]データセットの長期分布に合わせた焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。 尾部(scarce)クラスと予測困難度の関係を捉えた焦点損失の基本原理に基づき,現在のタスクにおいて指数関数的に減衰する焦点損失の変種を提案する。 最初は、過度に分類されたサンプルからの学習を強調し、データセットの全例に徐々に適応する。 このアニーリングプロセスは、より簡単なサンプルによって提供される情報を活用しながら、スパースなサンプルセットにフォーカスする間のバランスを保ちながら、モデルを促進します。 さらに,最終動作予測のためのrgbからの結果確率分布と深さモダリティを組み合わせるために,後期核融合戦略を選択した。 MECCANOデータセットの実験的評価により,本手法の有効性が示された。

In this work, we propose an ensemble modeling approach for multimodal action recognition. We independently train individual modality models using a variant of focal loss tailored to handle the long-tailed distribution of the MECCANO [21] dataset. Based on the underlying principle of focal loss, which captures the relationship between tail (scarce) classes and their prediction difficulties, we propose an exponentially decaying variant of focal loss for our current task. It initially emphasizes learning from the hard misclassified examples and gradually adapts to the entire range of examples in the dataset. This annealing process encourages the model to strike a balance between focusing on the sparse set of hard samples, while still leveraging the information provided by the easier ones. Additionally, we opt for the late fusion strategy to combine the resultant probability distributions from RGB and Depth modalities for final action prediction. Experimental evaluations on the MECCANO dataset demonstrate the effectiveness of our approach.
翻訳日:2023-09-27 01:32:37 公開日:2023-09-25
# 動的シーングラフ生成のためのローカル・グローバル情報インタラクションデバイアス

Local-Global Information Interaction Debiasing for Dynamic Scene Graph Generation ( http://arxiv.org/abs/2308.05274v2 )

ライセンス: Link先を確認
Xinyu Lyu, Jingwei Liu, Yuyu Guo, Lianli Gao(参考訳) ダイナミックシーングラフ生成(DynSGG)の課題は、ビデオ内の空間時間情報をモデル化するシーングラフを作成することである。 しかしながら、データセット内のサンプルのロングテール分布のため、以前のdynsggモデルはテール述語を予測できなかった。 この現象は,局所的な空間的時間的情報にのみ注意を払って,複数のフレームの一貫性を無視する従来の手法によるものである,と我々は主張する。 そこで本研究では,マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。 オブジェクトとフレームの特徴の相互作用により、モデルは単一の画像の視覚的コンテキストをより深く理解する。 長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。 Action Genomeデータセットの大規模な実験は,動的なシーングラフ生成を改善するだけでなく,長期的問題を緩和するフレームワークの有効性を示す。

The task of dynamic scene graph generation (DynSGG) aims to generate scene graphs for given videos, which involves modeling the spatial-temporal information in the video. However, due to the long-tailed distribution of samples in the dataset, previous DynSGG models fail to predict the tail predicates. We argue that this phenomenon is due to previous methods that only pay attention to the local spatial-temporal information and neglect the consistency of multiple frames. To solve this problem, we propose a novel DynSGG model based on multi-task learning, DynSGG-MTL, which introduces the local interaction information and global human-action interaction information. The interaction between objects and frame features makes the model more fully understand the visual context of the single image. Long-temporal human actions supervise the model to generate multiple scene graphs that conform to the global constraints and avoid the model being unable to learn the tail predicates. Extensive experiments on Action Genome dataset demonstrate the efficacy of our proposed framework, which not only improves the dynamic scene graph generation but also alleviates the long-tail problem.
翻訳日:2023-09-27 01:32:21 公開日:2023-09-25
# ケーススタディ: モバイルチームにおけるAI支援コード生成の利用

Case Study: Using AI-Assisted Code Generation In Mobile Teams ( http://arxiv.org/abs/2308.04736v2 )

ライセンス: Link先を確認
Mircea-Serban Vasiliniuc, Adrian Groza(参考訳) 本研究の目的は、KotlinやSwiftのようなネイティブなモバイル言語に焦点を当てた、実際のモバイル開発チームにおけるAI支援プログラミングのパフォーマンスを評価することである。 広範囲にわたるケーススタディでは、16人の参加者と2人のテクニカルレビュアーが参加し、チームの特定のフェーズ、具体的にはテクニカルインボーディングとテクニカルスタックスイッチでコード生成のために訓練されたllmの使用が与える影響を理解するように設計されている。 この研究では、各フェーズに専用の技術的問題を使用し、AI-Codeジェネレータを使用せずに参加者からソリューションを要求する。 マージ要求のコードレビュアーである実際の業界標準から抽出された、論文特有のメトリクスであるReviewerScoreを使用して、時間、正確性、技術的統合を測定する。 アウトプットは参加者からのフィードバックとともに変換され分析され、AI支援プログラミングツールの使用がプロジェクトへの参加や、モバイル開発、Android、iOSの2つのネイティブ開発環境間のスムーズな移行に影響を及ぼすかどうかを判断する。 調査は2023年5月から6月にかけて,ルーマニアの所有権と管理を備えた,cluj-napocaを拠点とするソフトウェア開発会社のモバイル部門で実施された。

The aim of this study is to evaluate the performance of AI-assisted programming in actual mobile development teams that are focused on native mobile languages like Kotlin and Swift. The extensive case study involves 16 participants and 2 technical reviewers, from a software development department designed to understand the impact of using LLMs trained for code generation in specific phases of the team, more specifically, technical onboarding and technical stack switch. The study uses technical problems dedicated to each phase and requests solutions from the participants with and without using AI-Code generators. It measures time, correctness, and technical integration using ReviewerScore, a metric specific to the paper and extracted from actual industry standards, the code reviewers of merge requests. The output is converted and analyzed together with feedback from the participants in an attempt to determine if using AI-assisted programming tools will have an impact on getting developers onboard in a project or helping them with a smooth transition between the two native development environments of mobile development, Android and iOS. The study was performed between May and June 2023 with members of the mobile department of a software development company based in Cluj-Napoca, with Romanian ownership and management.
翻訳日:2023-09-27 01:31:42 公開日:2023-09-25
# 量子と量子にインスパイアされた立体K近傍クラスタリング

Quantum and Quantum-Inspired Stereographic K Nearest-Neighbour Clustering ( http://arxiv.org/abs/2308.03949v2 )

ライセンス: Link先を確認
Alonso Viladomat Jasso, Ark Modi, Roberto Ferrara, Christian Deppe, Janis Noetzel, Fred Fung, Maximilian Schaedler(参考訳) 近距離クラスタリングは、古典的な光ファイバー通信システムにおける信号の復号化に自然に応用できる、シンプルで強力な機械学習アルゴリズムである。 量子k-meansクラスタリングは、古典的なk-meansアルゴリズムよりもスピードアップを約束しているが、古典的データの埋め込みによる光ファイバー信号をデコードするためのこのスピードアップを提供していないことが現在示されている。 nisq実装の指数関数的高速化はまだ達成されていないが、本研究では、k-nearest-neighbourクラスタリングにおける量子距離推定のためのブロッホ球面への埋め込みの改善として一般化された逆立体射影を提案する。 また, 一般化逆ステレオ投影法を用いて, 類似の古典的クラスタリングアルゴリズムを開発し, 実世界実験光ファイバー通信データの復号化のための精度, 実行時間, 収束度をベンチマークする。 提案する量子インスパイアされたアルゴリズムは、k-meansアルゴリズムに対する精度と収束率の両方を改善する。 そのため、本作品は2つの主な貢献をしている。 まず,2次振幅変調光ファイバー信号をクラスタリングする問題を例に挙げ,Bloch球への一般逆ステレオ画像投影を量子機械学習アルゴリズムのより良い埋め込みとして提案する。 第2に,第1の貢献に触発された純粋に古典的な貢献として,光ファイバー信号のクラスタリングに一般的な逆ステレオ投影法と球面遠心法を用いることを提案し,その評価を行い,半径の最適化が精度と収束率の一貫した改善をもたらすことを示した。

Nearest-neighbour clustering is a simple yet powerful machine learning algorithm that finds natural application in the decoding of signals in classical optical-fibre communication systems. Quantum k-means clustering promises a speed-up over the classical k-means algorithm; however, it has been shown to not currently provide this speed-up for decoding optical-fibre signals due to the embedding of classical data, which introduces inaccuracies and slowdowns. Although still not achieving an exponential speed-up for NISQ implementations, this work proposes the generalised inverse stereographic projection as an improved embedding into the Bloch sphere for quantum distance estimation in k-nearest-neighbour clustering, which allows us to get closer to the classical performance. We also use the generalised inverse stereographic projection to develop an analogous classical clustering algorithm and benchmark its accuracy, runtime and convergence for decoding real-world experimental optical-fibre communication data. This proposed 'quantum-inspired' algorithm provides an improvement in both the accuracy and convergence rate with respect to the k-means algorithm. Hence, this work presents two main contributions. Firstly, we propose the general inverse stereographic projection into the Bloch sphere as a better embedding for quantum machine learning algorithms; here, we use the problem of clustering quadrature amplitude modulated optical-fibre signals as an example. Secondly, as a purely classical contribution inspired by the first contribution, we propose and benchmark the use of the general inverse stereographic projection and spherical centroid for clustering optical-fibre signals, showing that optimizing the radius yields a consistent improvement in accuracy and convergence rate.
翻訳日:2023-09-27 01:30:53 公開日:2023-09-25
# 非線形雑音除去のためのハイブリッド量子古典K平均の試験

Testing of Hybrid Quantum-Classical K-Means for Nonlinear Noise Mitigation ( http://arxiv.org/abs/2308.03540v2 )

ライセンス: Link先を確認
Alonso Viladomat Jasso, Ark Modi, Roberto Ferrara, Christian Deppe, Janis Noetzel, Fred Fung, Maximilian Schaedler(参考訳) 近距離クラスタリングは、古典的な光ファイバー通信システムにおける信号の復号化に自然に応用できる、シンプルで強力な機械学習アルゴリズムである。 量子k平均クラスタリングは古典的k平均アルゴリズムの高速化を約束するが、古典的データの埋め込みによる光ファイバー信号の復号化には、不正確さと減速をもたらすため、今のところこのスピードアップは提供されていない。 nisq実装の指数関数的高速化はまだ達成されていないが、本研究では、k-nearest-neighbourクラスタリングにおける量子距離推定のためのブロッホ球面への埋め込みの改善として一般化された逆立体射影を提案する。 また, 一般化逆ステレオ投影法を用いて, 類似の古典的クラスタリングアルゴリズムを開発し, 実世界実験光ファイバー通信データの復号化のための精度, 実行時間, 収束度をベンチマークする。 提案した量子インスパイアされたアルゴリズムは、k-meansアルゴリズムに対する精度と収束率の両方を改善する。 そのため、本作品は2つの主な貢献をしている。 まず,2次振幅変調光ファイバー信号をクラスタリングする問題を例に挙げ,Bloch球への一般逆ステレオ画像投影を量子機械学習アルゴリズムのより良い埋め込みとして提案する。 第2に,第1の貢献に触発された純粋に古典的な貢献として,光ファイバー信号のクラスタリングに一般的な逆ステレオ投影法と球面遠心法を用いることを提案し,その評価を行い,半径の最適化が精度と収束率の一貫した改善をもたらすことを示した。

Nearest-neighbour clustering is a simple yet powerful machine learning algorithm that finds natural application in the decoding of signals in classical optical-fibre communication systems. Quantum k-means clustering promises a speed-up over the classical k-means algorithm; however, it has been shown to currently not provide this speed-up for decoding optical-fibre signals due to the embedding of classical data, which introduces inaccuracies and slowdowns. Although still not achieving an exponential speed-up for NISQ implementations, this work proposes the generalised inverse stereographic projection as an improved embedding into the Bloch sphere for quantum distance estimation in k-nearest-neighbour clustering, which allows us to get closer to the classical performance. We also use the generalised inverse stereographic projection to develop an analogous classical clustering algorithm and benchmark its accuracy, runtime and convergence for decoding real-world experimental optical-fibre communication data. This proposed `quantum-inspired' algorithm provides an improvement in both the accuracy and convergence rate with respect to the k-means algorithm. Hence, this work presents two main contributions. Firstly, we propose the general inverse stereographic projection into the Bloch sphere as a better embedding for quantum machine learning algorithms; here, we use the problem of clustering quadrature amplitude modulated optical-fibre signals as an example. Secondly, as a purely classical contribution inspired by the first contribution, we propose and benchmark the use of the general inverse stereographic projection and spherical centroid for clustering optical-fibre signals, showing that optimizing the radius yields a consistent improvement in accuracy and convergence rate.
翻訳日:2023-09-27 01:29:18 公開日:2023-09-25
# 対話型ロボットの客観的評価に向けて--マルチモーダルユーザ行動による人間類似性の評価

Towards Objective Evaluation of Socially-Situated Conversational Robots: Assessing Human-Likeness through Multimodal User Behaviors ( http://arxiv.org/abs/2308.11020v2 )

ライセンス: Link先を確認
Koji Inoue, Divesh Lala, Keiko Ochi, Tatsuya Kawahara, Gabriel Skantze(参考訳) 本稿では,社会的に立地する対話型ロボットの評価という課題に取り組み,マルチモーダルなユーザ行動に基づく新しい客観的評価手法を提案する。 本研究では,ロボットの人間類似度を主評価指標として評価することに焦点を当てた。 従来の研究はユーザの主観的評価に依存することが多いが、このアプローチは、観察可能なユーザの振る舞いを間接的に評価することで、客観性と再現性を高めることを目的としている。 まず、注意深い対話コーパスに見られるユーザ行動を利用して、人間の類似度スコアの注釈付きデータセットを作成した。 そこで我々は,マルチモーダルユーザ行動と人間類似度スコアの相関関係を解析し,提案手法の有効性を実証した。

This paper tackles the challenging task of evaluating socially situated conversational robots and presents a novel objective evaluation approach that relies on multimodal user behaviors. In this study, our main focus is on assessing the human-likeness of the robot as the primary evaluation metric. While previous research often relied on subjective evaluations from users, our approach aims to evaluate the robot's human-likeness based on observable user behaviors indirectly, thus enhancing objectivity and reproducibility. To begin, we created an annotated dataset of human-likeness scores, utilizing user behaviors found in an attentive listening dialogue corpus. We then conducted an analysis to determine the correlation between multimodal user behaviors and human-likeness scores, demonstrating the feasibility of our proposed behavior-based evaluation method.
翻訳日:2023-09-27 01:22:21 公開日:2023-09-25
# SCANet: 音声と音声の分離のための自律的・横断的ネットワーク

SCANet: A Self- and Cross-Attention Network for Audio-Visual Speech Separation ( http://arxiv.org/abs/2308.08143v2 )

ライセンス: Link先を確認
Kai Li, Runxuan Yang, Xiaolin Hu(参考訳) 音声や視覚情報などの様々なモダリティの統合は、周囲の環境に対する人間の認識において重要な役割を果たす。 最近の研究は、音声と視覚の分離のための融合モジュールの設計に大きな進歩をもたらした。 しかし、主にネットワーク内の様々な階層的な位置におけるマルチモーダル融合を包括的に考慮するのではなく、トップまたはボトム位置に位置するマルチモーダル融合アーキテクチャに焦点を当てた。 本稿では,音声・視覚的特徴融合のためのアテンション機構を活用する,自己・クロスアテンションネットワーク(SCANet)という新しいモデルを提案する。 SCANetは、セルフアテンション(SA)とクロスアテンション(CA)の2つのタイプのアテンションブロックで構成されており、CAブロックは、SCANetの上位(TCA)、中間(MCA)、下部(BCA)に分散されている。 これらのブロックは、モダリティ固有の特徴を学習し、オーディオ視覚的特徴から異なる意味を抽出することができる。 3つの標準オーディオ視覚分離ベンチマーク(LRS2, LRS3, VoxCeleb2)の総合的な実験により、SCANetの有効性が実証された。

The integration of different modalities, such as audio and visual information, plays a crucial role in human perception of the surrounding environment. Recent research has made significant progress in designing fusion modules for audio-visual speech separation. However, they predominantly focus on multi-modal fusion architectures situated either at the top or bottom positions, rather than comprehensively considering multi-modal fusion at various hierarchical positions within the network. In this paper, we propose a novel model called self- and cross-attention network (SCANet), which leverages the attention mechanism for efficient audio-visual feature fusion. SCANet consists of two types of attention blocks: self-attention (SA) and cross-attention (CA) blocks, where the CA blocks are distributed at the top (TCA), middle (MCA) and bottom (BCA) of SCANet. These blocks maintain the ability to learn modality-specific features and enable the extraction of different semantics from audio-visual features. Comprehensive experiments on three standard audio-visual separation benchmarks (LRS2, LRS3, and VoxCeleb2) demonstrate the effectiveness of SCANet, outperforming existing state-of-the-art (SOTA) methods while maintaining comparable inference time.
翻訳日:2023-09-27 01:20:01 公開日:2023-09-25
# FLAMEを用いた多視点3次元顔再構成

FLAME-based Multi-View 3D Face Reconstruction ( http://arxiv.org/abs/2308.07551v2 )

ライセンス: Link先を確認
Wenzhuo Zheng, Junhao Zhao, Xiaohong Liu, Yongyang Pan, Zhenghao Gan, Haozhe Han, Ning Liu(参考訳) 現在,face 3dリコンストラクションは様々な分野で広く応用されているが,その研究はまだ開発段階にある。 本稿では,マルチビュー・トレーニングフレームワークとフェイスパラメトリック・モデル・フレイムを組み合わせることで,より優れた顔3次元再現性の実現を図り,マルチビュー・トレーニング・テストモデルmfnet(multi-view flame network)を提案する。 我々は,自己指導型トレーニングフレームワークを構築し,多視点光フロー損失関数や顔ランドマーク損失などの制約を実装し,最終的に完全なMFNetを得る。 マルチビュー光フロー損失と可視マスクの革新的実装を提案する。 aflwとfacescapeデータセットでモデルをテストし、実際のシナリオを可能な限りシミュレーションしながら、顔の写真を撮って3d顔を再構築します。 本研究は, 顔のパラメトリックモデルと顔の3次元再構成を併用する問題に主に対処し, 顔の3次元再構成に寄与するFlameベースのマルチビュートレーニングおよびテストフレームワークの実装について検討する。

At present, face 3D reconstruction has broad application prospects in various fields, but the research on it is still in the development stage. In this paper, we hope to achieve better face 3D reconstruction quality by combining multi-view training framework with face parametric model Flame, propose a multi-view training and testing model MFNet (Multi-view Flame Network). We build a self-supervised training framework and implement constraints such as multi-view optical flow loss function and face landmark loss, and finally obtain a complete MFNet. We propose innovative implementations of multi-view optical flow loss and the covisible mask. We test our model on AFLW and facescape datasets and also take pictures of our faces to reconstruct 3D faces while simulating actual scenarios as much as possible, which achieves good results. Our work mainly addresses the problem of combining parametric models of faces with multi-view face 3D reconstruction and explores the implementation of a Flame based multi-view training and testing framework for contributing to the field of face 3D reconstruction.
翻訳日:2023-09-27 01:19:36 公開日:2023-09-25
# ステレオタイプストレスによって誘発される感情伝染性脳波の機能的グラフコントラスト学習

Functional Graph Contrastive Learning of Hyperscanning EEG Reveals Emotional Contagion Evoked by Stereotype-Based Stressors ( http://arxiv.org/abs/2308.13546v2 )

ライセンス: Link先を確認
Jingyun Huang, Rachel C. Amey, Mengting Liu, Chad E. Forbes(参考訳) 本研究は、感情伝染の複雑さと、そのダイアド相互作用におけるパフォーマンスへの影響を考察する。 具体的には,女性ペア間の協調問題解決作業におけるステレオタイプに基づくストレス(sbs)の文脈に着目した。 本研究は、感情伝染の解明を通じて、その基盤となるメカニズムと効果を明らかにすることを目的とする。 脳波に基づくハイパースキャン技術を活用して、フィードバックトライアルから神経活動パターンの主題不変表現を抽出する、関数型グラフコントラスト学習(fGCL)と呼ばれる革新的なアプローチを導入した。 これらの表現は、動的グラフ分類(DGC)モデルを用いて分析され、3つの独立した時間段階に沿って感情的伝染の過程を分離することを目的としている。 その結果,sbs条件下での協調作業における参加者の行動の軌跡形成における感情的伝染の実質的役割が示唆された。 全体として、我々の研究は、感情的伝染の神経基盤に関する貴重な洞察をもたらし、それによって社会的相互作用と感情力学の基礎となる複雑さの理解を深める。

This study delves into the intricacies of emotional contagion and its impact on performance within dyadic interactions. Specifically, it focuses on the context of stereotype-based stress (SBS) during collaborative problem-solving tasks among female pairs. Through an exploration of emotional contagion, this study seeks to unveil its underlying mechanisms and effects. Leveraging EEG-based hyperscanning technology, we introduced an innovative approach known as the functional Graph Contrastive Learning (fGCL), which extracts subject-invariant representations of neural activity patterns from feedback trials. These representations are further subjected to analysis using the Dynamic Graph Classification (DGC) model, aimed at dissecting the process of emotional contagion along three independent temporal stages. The results underscore the substantial role of emotional contagion in shaping the trajectories of participants' performance during collaborative tasks in the presence of SBS conditions. Overall, our research contributes invaluable insights into the neural underpinnings of emotional contagion, thereby enriching our comprehension of the complexities underlying social interactions and emotional dynamics.
翻訳日:2023-09-27 01:09:03 公開日:2023-09-25
# 導電円錐の電磁カシミール-ポルダー相互作用

Electromagnetic Casimir-Polder Interaction for a Conducting Cone ( http://arxiv.org/abs/2308.11869v2 )

ライセンス: Link先を確認
Noah Graham(参考訳) 解析的に連続する角運動量の観点から、完全導電性円錐の電磁グリーン関数の定式化を用いて、円錐のカシミール-ポルダー相互作用エネルギーを分極可能な粒子で計算する。 完全導電ウェッジに対する類似のアプローチをまず再検討し、その結果の積分の数値的評価による計算を実演することによって、この形式性を導入する。

Using the formulation of the electromagnetic Green's function of a perfectly conducting cone in terms of analytically continued angular momentum, we compute the Casimir-Polder interaction energy of the cone with a polarizable particle. We introduce this formalism by first reviewing the analogous approach for a perfectly conducting wedge, and then demonstrate the calculation through numerical evaluation of the resulting integrals.
翻訳日:2023-09-27 01:08:43 公開日:2023-09-25
# マルチイベントビデオテキスト検索

Multi-event Video-Text Retrieval ( http://arxiv.org/abs/2308.11551v2 )

ライセンス: Link先を確認
Gengyuan Zhang, Jisen Ren, Jindong Gu, Volker Tresp(参考訳) Video-Text Retrieval(VTR)は、インターネット上の大量のビデオテキストデータの時代において重要なマルチモーダルタスクである。 映像テキスト対の結合表現を学習する2ストリームの視覚言語モデルアーキテクチャを特徴とする多彩な作品がvtrタスクの際立ったアプローチとなっている。 しかしながら、これらのモデルは、客観的なビデオテキスト対応の仮定の下で動作し、ビデオコンテンツが通常複数のイベントを含むというより実践的なシナリオを無視している。 これは、以前のトレーニング目標と実世界のアプリケーションとのギャップを確立し、推論中に以前のモデルのパフォーマンスが低下する可能性がある。 本研究では,従来のビデオテキスト検索タスクのニッチなシナリオとして,各映像が複数の異なるイベントを含むシナリオに対処するマルチイベントビデオテキスト検索タスク(mevtr)を導入する。 本稿では,MeVTRタスクにキーイベント映像表現とMeVTRロスを付加したシンプルなモデルMe-Retrieverを提案する。 包括的な実験により、この簡単なフレームワークは、mevtrタスクの堅牢なベースラインを確立するために、ビデオ対テキストおよびテキスト対ビデオタスクにおいて、他のモデルよりも優れています。 この研究が将来の研究の基盤となると信じている。 コードはhttps://github.com/gengyuanmax/MeVTRで入手できる。

Video-Text Retrieval (VTR) is a crucial multi-modal task in an era of massive video-text data on the Internet. A plethora of work characterized by using a two-stream Vision-Language model architecture that learns a joint representation of video-text pairs has become a prominent approach for the VTR task. However, these models operate under the assumption of bijective video-text correspondences and neglect a more practical scenario where video content usually encompasses multiple events, while texts like user queries or webpage metadata tend to be specific and correspond to single events. This establishes a gap between the previous training objective and real-world applications, leading to the potential performance degradation of earlier models during inference. In this study, we introduce the Multi-event Video-Text Retrieval (MeVTR) task, addressing scenarios in which each video contains multiple different events, as a niche scenario of the conventional Video-Text Retrieval Task. We present a simple model, Me-Retriever, which incorporates key event video representation and a new MeVTR loss for the MeVTR task. Comprehensive experiments show that this straightforward framework outperforms other models in the Video-to-Text and Text-to-Video tasks, effectively establishing a robust baseline for the MeVTR task. We believe this work serves as a strong foundation for future studies. Code is available at https://github.com/gengyuanmax/MeVTR.
翻訳日:2023-09-27 01:08:35 公開日:2023-09-25
# アクションセグメンテーションにどのくらいの時間的長期的コンテキストが必要か?

How Much Temporal Long-Term Context is Needed for Action Segmentation? ( http://arxiv.org/abs/2308.11358v2 )

ライセンス: Link先を確認
Emad Bahrami, Gianpiero Francesca, Juergen Gall(参考訳) ビデオにおける長期コンテキストのモデリングは、時間的アクションセグメンテーションを含む多くのきめ細かいタスクに不可欠である。 まだオープンである興味深い質問は、最適なパフォーマンスにどのくらい長期的な時間的コンテキストが必要なのかである。 トランスフォーマーはビデオの長期的コンテキストをモデル化できるが、長いビデオでは計算が禁じられる。 時間的動作セグメンテーションに関する最近の研究は、時間的畳み込みネットワークと、局所的な時間的ウィンドウに対してのみ計算される自己アテンションを組み合わせたものである。 これらのアプローチは良い結果を示すが、ビデオの全コンテキストをキャプチャできないため、パフォーマンスは制限される。 本研究では,ビデオのフルコンテキストを捉えるために,スパークアテンションを利用するトランスフォーマーモデルを導入することで,時間的動作のセグメンテーションに長時間の時間的コンテキストがどの程度必要かに答えようとする。 このモデルと,50サラド,朝食,アセンブリ101の3つの時間的行動分節化のためのデータセットの現況を比較した。 本実験は,時間的動作セグメンテーションの最適性能を得るためには,ビデオの全コンテキストをモデル化する必要があることを示す。

Modeling long-term context in videos is crucial for many fine-grained tasks including temporal action segmentation. An interesting question that is still open is how much long-term temporal context is needed for optimal performance. While transformers can model the long-term context of a video, this becomes computationally prohibitive for long videos. Recent works on temporal action segmentation thus combine temporal convolutional networks with self-attentions that are computed only for a local temporal window. While these approaches show good results, their performance is limited by their inability to capture the full context of a video. In this work, we try to answer how much long-term temporal context is required for temporal action segmentation by introducing a transformer-based model that leverages sparse attention to capture the full context of a video. We compare our model with the current state of the art on three datasets for temporal action segmentation, namely 50Salads, Breakfast, and Assembly101. Our experiments show that modeling the full context of a video is necessary to obtain the best performance for temporal action segmentation.
翻訳日:2023-09-27 01:08:10 公開日:2023-09-25
# controlmat: 物質捕獲のための制御生成的アプローチ

ControlMat: A Controlled Generative Approach to Material Capture ( http://arxiv.org/abs/2309.01700v2 )

ライセンス: Link先を確認
Giuseppe Vecchio, Rosalie Martin, Arthur Roullier, Adrien Kaiser, Romain Rouffet, Valentin Deschaintre, Tamy Boubekeur(参考訳) 写真からの素材復元は、3dコンテンツ作成の民主化の重要な要素である。 生成深層ネットワークの最近の進歩を生かして、制御された合成問題としてこの不適切な問題を定式化することを提案する。 制御不能な照明を入力とする1枚の写真に拡散モデルを適用し, 可塑性, タイル状, 高解像度の物理ベースデジタル材料を生成する。 マルチチャネル出力に対する拡散モデルの挙動を慎重に解析し,サンプリングプロセスを用いてマルチスケール情報をフューズし,転動拡散を導入し,高解像度出力に対するタイルビリティとパッチ拡散の両立を可能にする。 我々の生成手法により、未知の照明条件を緩和し、入力画像に対応する様々な材料を探索することができる。 提案手法は,近年の推論法や潜在空間最適化法よりも優れており,拡散過程の設計選択を慎重に検証する。 補足資料と追加の詳細は、https://gvecchio.com/controlmat/.com/で確認できる。

Material reconstruction from a photograph is a key component of 3D content creation democratization. We propose to formulate this ill-posed problem as a controlled synthesis one, leveraging the recent progress in generative deep networks. We present ControlMat, a method which, given a single photograph with uncontrolled illumination as input, conditions a diffusion model to generate plausible, tileable, high-resolution physically-based digital materials. We carefully analyze the behavior of diffusion models for multi-channel outputs, adapt the sampling process to fuse multi-scale information and introduce rolled diffusion to enable both tileability and patched diffusion for high-resolution outputs. Our generative approach further permits exploration of a variety of materials which could correspond to the input image, mitigating the unknown lighting conditions. We show that our approach outperforms recent inference and latent-space-optimization methods, and carefully validate our diffusion process design choices. Supplemental materials and additional details are available at: https://gvecchio.com/controlmat/.
翻訳日:2023-09-27 01:00:03 公開日:2023-09-25
# CPSP:音素スーパービジョンによる音声概念の学習

CPSP: Learning Speech Concepts From Phoneme Supervision ( http://arxiv.org/abs/2309.00424v3 )

ライセンス: Link先を確認
Chunyu Qiang, Hao Li, Yixin Tian, Ruibo Fu, Tao Wang, Longbiao Wang, Jianwu Dang(参考訳) 最小教師付きテキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などの微粒化タスクでは、音声から抽出した中間表現は、両モードの情報を含むテキストと音響情報の「ブリッジ」として機能すべきである。 セマンティックな内容は強調され、話者のアイデンティティや音響的詳細といったパラ言語的な情報は強調されなければならない。 しかし,音声から微細な中間表現を抽出する既存の手法は,過剰な冗長性や次元の爆発といった問題に悩まされている。 コントラスト学習は2つのモードから中間表現をモデル化する良い方法である。 しかし、音声分野における既存のコントラスト学習手法は、下流オーディオ分類タスクのグローバル記述情報を抽出することに焦点を当てており、TS、VC、ASRタスクには適さない。 これらの問題に対処するために,2つのエンコーダを用いて音素と音声を連接したマルチモーダル空間に導入し,フレームレベルで音素と音声を接続する方法を学習するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。 CTAPモデルは、210kの音声と音素のテキストペアで訓練され、最小限に制御されたTS、VC、ASRを達成する。 提案手法は,音声処理における下流タスクの細粒度生成と認識のための有望なソリューションを提供する。

For fine-grained generation and recognition tasks such as minimally-supervised text-to-speech (TTS), voice conversion (VC), and automatic speech recognition (ASR), the intermediate representations extracted from speech should serve as a "bridge" between text and acoustic information, containing information from both modalities. The semantic content is emphasized, while the paralinguistic information such as speaker identity and acoustic details should be de-emphasized. However, existing methods for extracting fine-grained intermediate representations from speech suffer from issues of excessive redundancy and dimension explosion. Contrastive learning is a good method for modeling intermediate representations from two modalities. However, existing contrastive learning methods in the audio field focus on extracting global descriptive information for downstream audio classification tasks, making them unsuitable for TTS, VC, and ASR tasks. To address these issues, we propose a method named "Contrastive Token-Acoustic Pretraining (CTAP)", which uses two encoders to bring phoneme and speech into a joint multimodal space, learning how to connect phoneme and speech at the frame level. The CTAP model is trained on 210k speech and phoneme text pairs, achieving minimally-supervised TTS, VC, and ASR. The proposed CTAP method offers a promising solution for fine-grained generation and recognition downstream tasks in speech processing.
翻訳日:2023-09-27 00:58:57 公開日:2023-09-25
# LEyes:合成眼画像を用いた深層学習眼球追跡のための軽量フレームワーク

LEyes: A Lightweight Framework for Deep Learning-Based Eye Tracking using Synthetic Eye Images ( http://arxiv.org/abs/2309.06129v2 )

ライセンス: Link先を確認
Sean Anthony Byrne, Virmarie Maquiling, Marcus Nystr\"om, Enkelejda Kasneci, Diederick C. Niehorster(参考訳) ディープラーニングは視線推定技術を強化しているが、実際のデプロイメントは不適切なトレーニングデータセットによって妨げられている。 この問題は、ハードウェアによって引き起こされる眼像の変化と、記録された参加者間の固有の生物学的差異の両方によって悪化し、特定のデータセットで訓練されたモデルの一般化性を阻害する特徴レベルと画素レベルのばらつきが生じる。 合成データセットはソリューションであり得るが、その生成は時間とリソース集約の両方である。 この問題に対処するために、従来のフォトリアリスティック手法とは異なり、簡単な光分布を用いた映像ベースのアイトラッキングに必要な重要な特徴をモデル化するフレームワーク「ライトアイズ」や「リーズ」を提案する。 LEyesは、さまざまな視線推定タスクにわたるニューラルネットワークのトレーニングを容易にする。 レイを使ってトレーニングされたモデルは、よく知られたデータセットにまたがる瞳孔とcrのローカライズの観点から、常に同じか、他の最先端アルゴリズムよりも優れています。 さらにleyesがトレーニングしたモデルは、業界標準のアイトラッカーをはるかに高いコスト効率のハードウェアで上回っている。 今後、レイズは視線推定モデルのための合成データ生成に革命をもたらし、次世代のビデオベースのアイトラッカーの大幅な改善につながると確信しています。

Deep learning has bolstered gaze estimation techniques, but real-world deployment has been impeded by inadequate training datasets. This problem is exacerbated by both hardware-induced variations in eye images and inherent biological differences across the recorded participants, leading to both feature and pixel-level variance that hinders the generalizability of models trained on specific datasets. While synthetic datasets can be a solution, their creation is both time and resource-intensive. To address this problem, we present a framework called Light Eyes or "LEyes" which, unlike conventional photorealistic methods, only models key image features required for video-based eye tracking using simple light distributions. LEyes facilitates easy configuration for training neural networks across diverse gaze-estimation tasks. We demonstrate that models trained using LEyes are consistently on-par or outperform other state-of-the-art algorithms in terms of pupil and CR localization across well-known datasets. In addition, a LEyes trained model outperforms the industry standard eye tracker using significantly more cost-effective hardware. Going forward, we are confident that LEyes will revolutionize synthetic data generation for gaze estimation models, and lead to significant improvements of the next generation video-based eye trackers.
翻訳日:2023-09-27 00:50:31 公開日:2023-09-25
# chitnet:赤外線と可視画像融合のための調和型情報転送ネットワーク

CHITNet: A Complementary to Harmonious Information Transfer Network for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2309.06118v3 )

ライセンス: Link先を確認
Yafei Zhang, Keying Du, Huafeng Li, Zhengtao Yu, Yu Liu(参考訳) 現在の赤外線および可視画像融合法(IVIF)は、相補的な特徴を発掘し、複雑な融合戦略を設計するのに非常に困難である。 この目的のために、ボックス外でIVIFを再考し、調和した情報伝達ネットワーク(CHITNet)を補完することを提案する。 相補的情報を調和したものに合理的に転送し、2つのモダリティから相補的特徴の両方を統合する。 具体的には、ivifにおける補完情報を巧みに集約するために、2つのモダリティから特徴を相互に表現する相互情報転送(mit)モジュールを設計、補完情報を概ね調和情報に変換する。 そして、ソース画像(HIASSI)モジュールによって管理される調和情報取得を考案し、MIT以降の調和情報伝達の補間をさらに確実にする。 また,ソース画像のエッジ構造情報を融合結果に転送可能であることを保証する構造情報保存(sip)モジュールを提案する。 さらに,MIT,HIASSI,SIPの連携を促進するために,相互促進訓練パラダイム(MPTP)が採用されている。 このようにして,提案手法は,高い品質の融合画像を生成することができる。 大規模な実験により、CHITNetは視覚的品質と定量的評価の点で最先端のアルゴリズムよりも優れていることが示された。

Current infrared and visible image fusion (IVIF) methods go to great lengths to excavate complementary features and design complex fusion strategies, which is extremely challenging. To this end, we rethink the IVIF outside the box, proposing a complementary to harmonious information transfer network (CHITNet). It reasonably transfers complementary information into harmonious one, which integrates both the shared and complementary features from two modalities. Specifically, to skillfully sidestep aggregating complementary information in IVIF, we design a mutual information transfer (MIT) module to mutually represent features from two modalities, roughly transferring complementary information into harmonious one. Then, a harmonious information acquisition supervised by source image (HIASSI) module is devised to further ensure the complementary to harmonious information transfer after MIT. Meanwhile, we also propose a structure information preservation (SIP) module to guarantee that the edge structure information of the source images can be transferred to the fusion results. Moreover, a mutual promotion training paradigm (MPTP) with interaction loss is adopted to facilitate better collaboration among MIT, HIASSI and SIP. In this way, the proposed method is able to generate fused images with higher qualities. Extensive experiments demonstrate that CHITNet is superior to state-of-the-art algorithms in terms of visual quality and quantitative evaluations.
翻訳日:2023-09-27 00:50:09 公開日:2023-09-25
# 視覚言語モデルのためのブラックボックスオプティマイザとしての言語モデル

Language Models as Black-Box Optimizers for Vision-Language Models ( http://arxiv.org/abs/2309.05950v2 )

ライセンス: Link先を確認
Shihong Liu and Samuel Yu and Zhiqiu Lin and Deepak Pathak and Deva Ramanan(参考訳) Webスケールデータセットで事前訓練された視覚言語モデル(VLM)は、様々な視覚とマルチモーダルタスクにまたがる顕著な能力を示している。 現在、VLMの微調整法は主にホワイトボックスで動作しており、バックプロパゲーションのためにモデルパラメータにアクセスする必要がある。 しかしながら、多くのVLMはプロプライエタリなデータに依存しており、オープンソースではない。 chatgptのような一般的なプライベートな大規模言語モデル(llms)が依然として言語ベースのユーザインターフェースを提供していることを考えると、自然言語プロンプトによるvlmの新たな微調整アプローチの開発を目標としています。 そこで本稿では,CLIP を用いた少数の画像分類において,最高のテキストプロンプトを検索するために,チャットベースの LLM をブラックボックスオプティマイザとして採用することを提案する。 具体的には、現在のプロンプトの正確さを評価し、LLMにテキストフィードバックに基づいてそれらを洗練するよう求めることで、効果的なプロンプトに収束する自動「ヒルクライミング」手順を、すべて人間を介さずに会話プロセス内に導入する。 挑戦的な1ショットの学習セットアップでは、ImageNetを含む11データセットの平均1.5%のホワイトボックス連続プロンプトメソッド(CoOp)を、私たちの単純なアプローチで越えています。 当社のアプローチは,OpenAIの手作業によるプロンプトよりも優れています。 さらに,正と負の両方のプロンプトを取り入れた会話フィードバックの利点を強調し,LLMがテキストフィードバックにおける暗黙的な「緩やかな」方向を,より効率的な検索に活用できることを示唆した。 最後に、我々の戦略によって生成されたテキストプロンプトは、解釈可能であるだけでなく、ブラックボックス方式で異なるCLIPアーキテクチャ間でうまく転送されている。

Vision-language models (VLMs) pre-trained on web-scale datasets have demonstrated remarkable capabilities across a variety of vision and multimodal tasks. Currently, fine-tuning methods for VLMs mainly operate in a white-box setting, requiring access to model parameters for backpropagation. However, many VLMs rely on proprietary data and are not open-source, which restricts the use of white-box approaches for fine-tuning. Given that popular private large language models (LLMs) like ChatGPT still offer a language-based user interface, we aim to develop a novel fine-tuning approach for VLMs through natural language prompts, thereby avoiding the need to access model parameters, feature embeddings, or output logits. In this setup, we propose employing chat-based LLMs as black-box optimizers to search for the best text prompt on the illustrative task of few-shot image classification using CLIP. Specifically, we adopt an automatic "hill-climbing" procedure that converges on an effective prompt by evaluating the accuracy of current prompts and asking LLMs to refine them based on textual feedback, all within a conversational process without human-in-the-loop. In a challenging 1-shot learning setup, our simple approach surpasses the white-box continuous prompting method (CoOp) by an average of 1.5% across 11 datasets including ImageNet. Our approach also outperforms OpenAI's manually crafted prompts. Additionally, we highlight the advantage of conversational feedback that incorporates both positive and negative prompts, suggesting that LLMs can utilize the implicit "gradient" direction in textual feedback for a more efficient search. Lastly, we find that the text prompts generated through our strategy are not only more interpretable but also transfer well across different CLIP architectures in a black-box manner.
翻訳日:2023-09-27 00:49:46 公開日:2023-09-25
# ReSimAD:ソース再構成とターゲットシミュレーションによる自律走行のためのゼロショット3Dドメイン転送

ReSimAD: Zero-Shot 3D Domain Transfer for Autonomous Driving with Source Reconstruction and Target Simulation ( http://arxiv.org/abs/2309.05527v2 )

ライセンス: Link先を確認
Bo Zhang, Xinyu Cai, Jiakang Yuan, Donglin Yang, Jianfei Guo, Xiangchao Yan, Renqiu Xia, Botian Shi, Min Dou, Tao Chen, Si Liu, Junchi Yan, Yu Qiao(参考訳) センサタイプの変更や地理的状況の変化といったドメインシフトは、従来のドメイン知識に依存する広告モデルは、追加コストなしで新たなドメインに直接デプロイできないため、自律運転(autonomous driving:ad)では一般的である。 本稿では,再構成・シミュレーション・パーセプション(resimad)スキームを提案することにより,ドメインシフトを緩和する新たな視点とアプローチを提案する。 具体的には、暗黙の再構築プロセスは以前のドメインからの知識に基づいており、ドメイン関連の知識をドメイン不変表現に変換することを目的としている。 また、上記再構成された3dメッシュ上では、複数の新規ドメインのポイントクラウドシミュレーションプロセスが条件付けされ、ターゲット領域ライクなシミュレーションサンプルが得られるため、その後の知覚プロセスのための新しいドメインデータの収集と注釈付けのコストが削減される。 実験では, Waymo-to-KITTI, Waymo-to-nuScenes, Waymo-to-ONCEなど, 異なる領域の状況について検討し, ReSimADを用いたゼロショット目標領域認識の検証を行う。 その結果,本手法は,3次元事前学習を約束する領域一般化能力の向上に有効であることが示された。

Domain shifts such as sensor type changes and geographical situation variations are prevalent in Autonomous Driving (AD), which poses a challenge since AD model relying on the previous-domain knowledge can be hardly directly deployed to a new domain without additional costs. In this paper, we provide a new perspective and approach of alleviating the domain shifts, by proposing a Reconstruction-Simulation-Perception (ReSimAD) scheme. Specifically, the implicit reconstruction process is based on the knowledge from the previous old domain, aiming to convert the domain-related knowledge into domain-invariant representations, e.g., 3D scene-level meshes. Besides, the point clouds simulation process of multiple new domains is conditioned on the above reconstructed 3D meshes, where the target-domain-like simulation samples can be obtained, thus reducing the cost of collecting and annotating new-domain data for the subsequent perception process. For experiments, we consider different cross-domain situations such as Waymo-to-KITTI, Waymo-to-nuScenes, Waymo-to-ONCE, etc, to verify the zero-shot target-domain perception using ReSimAD. Results demonstrate that our method is beneficial to boost the domain generalization ability, even promising for 3D pre-training.
翻訳日:2023-09-27 00:48:57 公開日:2023-09-25
# 線形方程式系の解法:テンソルネットワークスの観点からのhhl

Solving Systems of Linear Equations: HHL from a Tensor Networks Perspective ( http://arxiv.org/abs/2309.05290v2 )

ライセンス: Link先を確認
Alejandro Mata Ali, I\~nigo Perez Delgado, Marina Ristol Roura, Aitor Moreno Fdez. de Leceta and Sebasti\'an V. Romero(参考訳) 本稿では,HHL法に基づく線形方程式系の解法,さらに多くの状態を持つ量子ビットの一般化,適用すべきゲート数と資源量を削減するアルゴリズムを提案する。 この考え方に基づき、プロジェクションなどの非ユニタリ操作の能力を生かして、テンソルネットワーク上で量子インスパイアされたバージョンを実行する。 最後に、このアルゴリズムを用いて、外力を持つ高調波発振器、強制減衰発振器および2次元静的熱方程式微分方程式の解を求める。

We present an algorithm for solving systems of linear equations based on the HHL algorithm with a novel qudits methodology, a generalization of the qubits with more states, to reduce the number of gates to be applied and the amount of resources. Based on this idea, we will perform a quantum-inspired version on tensor networks, taking advantage of their ability to perform non-unitary operations such as projection. Finally, we will use this algorithm to obtain a solution for the harmonic oscillator with an external force, the forced damped oscillator and the 2D static heat equation differential equations.
翻訳日:2023-09-27 00:48:34 公開日:2023-09-25
# 光通信システムにおける量子機械学習の応用

A Review of the Applications of Quantum Machine Learning in Optical Communication Systems ( http://arxiv.org/abs/2309.05205v2 )

ライセンス: Link先を確認
Ark Modi, Alonso Viladomat Jasso, Roberto Ferrara, Christian Deppe, Janis Noetzel, Fred Fung, Maximilian Schaedler(参考訳) 光信号処理の文脈では、量子および量子に触発された機械学習アルゴリズムは、デプロイに多大な可能性がある。 アプリケーションの1つは、受信したノイズ信号の誤り訂正プロトコルである。 一部のシナリオでは、非線形および未知の誤差は、一般に実装される線形誤差訂正プロトコルをバイパスするノイズを引き起こすことがある。 これらの場合、さまざまな推定手順を通じて受信信号から送信信号を回収するために機械学習技術が使用される。 量子機械学習アルゴリズムは古典的アルゴリズムよりも有利であるので、光信号処理がこれらの利点の恩恵を受けることを期待する。 本稿では,提案する量子および量子に着想を得た機械学習アルゴリズムとその光信号処理への応用について検討する。

In the context of optical signal processing, quantum and quantum-inspired machine learning algorithms have massive potential for deployment. One of the applications is in error correction protocols for the received noisy signals. In some scenarios, non-linear and unknown errors can lead to noise that bypasses linear error correction protocols that optical receivers generally implement. In those cases, machine learning techniques are used to recover the transmitted signal from the received signal through various estimation procedures. Since quantum machine learning algorithms promise advantage over classical algorithms, we expect that optical signal processing can benefit from these advantages. In this review, we survey several proposed quantum and quantum-inspired machine learning algorithms and their applicability with current technology to optical signal processing.
翻訳日:2023-09-27 00:48:10 公開日:2023-09-25
# スパイクニューラルネットワーク合同カリキュラム学習戦略の学習

Training of Spiking Neural Network joint Curriculum Learning Strategy ( http://arxiv.org/abs/2309.04737v2 )

ライセンス: Link先を確認
Lingling Tang, Jiangtao Hu, Hua Yu, Surui Liu, Jielei Chu(参考訳) 小さくてシンプルな概念から始まり、徐々に複雑で難しい概念を導入することは、人間の学習の自然なプロセスです。 スパイキングニューラルネットワーク(SNN)は、人間が情報を処理する方法を模倣することを目的としているが、現在のSNNモデルは、すべてのサンプルを平等に扱う。 そこで本研究では,SNNにCurriculum Learning(CL)を導入したCL-SNNモデルを提案する。 clは、より難しいデータを導入する前にモデルに簡単なデータを提示し、人間の学習プロセスを模倣するトレーニング戦略である。 信頼性を意識した損失を使用して、異なる難易度でサンプルを測定し、処理します。 異なるサンプルの信頼性を学習することで、難しいサンプルのパラメータ最適化への寄与を自動で減少させる。 静的画像データセットMNIST, Fashion-MNIST, CIFAR10およびニューロモルフィックデータセットN-MNIST, CIFAR10-DVS, DVS-Gestureについて実験を行った。 結果は有望だ。 我々の知る限り、CLを導入することでSNNの生物学的妥当性を高めるための最初の提案である。

Starting with small and simple concepts, and gradually introducing complex and difficult concepts is the natural process of human learning. Spiking Neural Networks (SNNs) aim to mimic the way humans process information, but current SNNs models treat all samples equally, which does not align with the principles of human learning and overlooks the biological plausibility of SNNs. To address this, we propose a CL-SNN model that introduces Curriculum Learning(CL) into SNNs, making SNNs learn more like humans and providing higher biological interpretability. CL is a training strategy that advocates presenting easier data to models before gradually introducing more challenging data, mimicking the human learning process. We use a confidence-aware loss to measure and process the samples with different difficulty levels. By learning the confidence of different samples, the model reduces the contribution of difficult samples to parameter optimization automatically. We conducted experiments on static image datasets MNIST, Fashion-MNIST, CIFAR10, and neuromorphic datasets N-MNIST, CIFAR10-DVS, DVS-Gesture. The results are promising. To our best knowledge, this is the first proposal to enhance the biologically plausibility of SNNs by introducing CL.
翻訳日:2023-09-27 00:47:59 公開日:2023-09-25
# safety-tuned llamas: 命令に従う大規模言語モデルの安全性向上から学ぶ

Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions ( http://arxiv.org/abs/2309.07875v2 )

ライセンス: Link先を確認
Federico Bianchi, Mirac Suzgun, Giuseppe Attanasio, Paul R\"ottger, Dan Jurafsky, Tatsunori Hashimoto, James Zou(参考訳) 命令に従うように大きな言語モデルをトレーニングすることで、幅広いタスクでパフォーマンスが向上し、一般的には役に立ちます。 しかし、完全に有用なモデルは最も悪意のある指示にも従い、有害なコンテンツを簡単に生成します。 本稿では,教師の指導指導において,安全ではなく,役に立つことのみを強調するモデルの安全性に関する懸念を提起する。 いくつかの一般的な命令調整モデルは非常に安全でないことを示す。 さらに,LLaMAなどのモデルを微調整した場合,トレーニングセットに3%の安全性例(数百のデモ)を追加することで,安全性を大幅に向上できることを示す。 私たちの安全チューニングは、標準ベンチマークによって測定されたモデルの性能や有用性を著しく低下させません。 しかし、過度に安全性を調整しすぎると、モデルが安全でないものに似ているという合理的なプロンプトに反応しないという、誇張された安全性の挙動が見つかります。 本研究は, LLMのトレーニングにおけるトレードオフに光を当て, 指示に従い, 安全な行動を示す。

Training large language models to follow instructions makes them perform better on a wide range of tasks, generally becoming more helpful. However, a perfectly helpful model will follow even the most malicious instructions and readily generate harmful content. In this paper, we raise concerns over the safety of models that only emphasize helpfulness, not safety, in their instruction-tuning. We show that several popular instruction-tuned models are highly unsafe. Moreover, we show that adding just 3% safety examples (a few hundred demonstrations) in the training set when fine-tuning a model like LLaMA can substantially improve their safety. Our safety-tuning does not make models significantly less capable or helpful as measured by standard benchmarks. However, we do find a behavior of exaggerated safety, where too much safety-tuning makes models refuse to respond to reasonable prompts that superficially resemble unsafe ones. Our study sheds light on trade-offs in training LLMs to follow instructions and exhibit safe behavior.
翻訳日:2023-09-27 00:42:00 公開日:2023-09-25
# 確率的ボラティリティモデルの校正へのディープラーニングの適用

Applying Deep Learning to Calibrate Stochastic Volatility Models ( http://arxiv.org/abs/2309.07843v2 )

ライセンス: Link先を確認
Abir Sridi and Paul Bilokon(参考訳) ボラティリティが確率的過程である確率的ボラティリティモデルは、インプリートされたボラティリティ表面の基本的なスタイル化された事実の多くを捉え、ボラティリティの笑顔/スキューのより現実的なダイナミクスを与えることができる。 しかし、彼らは調整に時間がかかりすぎる重大な問題に直面している。 深層学習(dl)技術に基づく代替校正手法は,近年,キャリブレーション問題の高速かつ正確な解法構築に利用されている。 Huge氏とSavin氏は、DML(differial Machine Learning)アプローチを開発した。マシンラーニングモデルは、機能やラベルだけでなく、ラベルから機能への差分もトレーニングする。 本研究の目的は、バニラヨーロッパオプション(キャリブレーション機器)の価格設定にDML技術を適用することであり、より具体的には、基礎となる資産がヘストンモデルに従い、訓練されたネットワーク上でモデルをキャリブレーションすることである。 DMLは高速なトレーニングと正確な価格設定を可能にする。 トレーニングされたニューラルネットワークは、Hestonキャリブレーションの計算時間を劇的に短縮する。 本研究では,異なる正規化手法を導入し,特にDMLの場合に適用する。 オーバーフィッティングを低減し,一般化誤差を改善することで,それらの性能を比較する。 DMLの性能は、フィードフォワードニューラルネットワークの場合の古典的なDLと(差別化せずに)比較される。 DMLはDLよりも優れています。 実験の完全なコードはgithubリポジトリで提供されている。 https://github.com/asridi/dml-calibration-heston-model。

Stochastic volatility models, where the volatility is a stochastic process, can capture most of the essential stylized facts of implied volatility surfaces and give more realistic dynamics of the volatility smile/skew. However, they come with the significant issue that they take too long to calibrate. Alternative calibration methods based on Deep Learning (DL) techniques have been recently used to build fast and accurate solutions to the calibration problem. Huge and Savine developed a Differential Machine Learning (DML) approach, where Machine Learning models are trained on samples of not only features and labels but also differentials of labels to features. The present work aims to apply the DML technique to price vanilla European options (i.e. the calibration instruments), more specifically, puts when the underlying asset follows a Heston model and then calibrate the model on the trained network. DML allows for fast training and accurate pricing. The trained neural network dramatically reduces Heston calibration's computation time. In this work, we also introduce different regularisation techniques, and we apply them notably in the case of the DML. We compare their performance in reducing overfitting and improving the generalisation error. The DML performance is also compared to the classical DL (without differentiation) one in the case of Feed-Forward Neural Networks. We show that the DML outperforms the DL. The complete code for our experiments is provided in the GitHub repository: https://github.com/asridi/DML-Calibration-Heston-Model
翻訳日:2023-09-27 00:41:42 公開日:2023-09-25
# spd行列列のための構造保存トランス

Structure-Preserving Transformers for Sequences of SPD Matrices ( http://arxiv.org/abs/2309.07579v3 )

ライセンス: Link先を確認
Mathieu Seraphim, Alexis Lechervy, Florian Yger, Luc Brun and Olivier Etard(参考訳) 近年,トランスフォーマーをベースとした自動アテンション機構は,テキストから画像まで,非ユークリッド測地データを含む,さまざまなコンテキスト依存データ型の分析に成功している。 本稿では,その解析を通してリーマン幾何学を保存しながら,対称正定値行列の列を分類する機構を提案する。 本手法は,脳波由来の共分散行列を標準データセットからタイムリーに自動睡眠ステージングに応用し,高いステージレベルの性能を得る。

In recent years, Transformer-based auto-attention mechanisms have been successfully applied to the analysis of a variety of context-reliant data types, from texts to images and beyond, including data from non-Euclidean geometries. In this paper, we present such a mechanism, designed to classify sequences of Symmetric Positive Definite matrices while preserving their Riemannian geometry throughout the analysis. We apply our method to automatic sleep staging on timeseries of EEG-derived covariance matrices from a standard dataset, obtaining high levels of stage-wise performance.
翻訳日:2023-09-27 00:41:19 公開日:2023-09-25
# DBLPLink:DBLP Scholarly Knowledge Graph用のエンティティリンカ

DBLPLink: An Entity Linker for the DBLP Scholarly Knowledge Graph ( http://arxiv.org/abs/2309.07545v2 )

ライセンス: Link先を確認
Debayan Banerjee, Arefa, Ricardo Usbeck and Chris Biemann(参考訳) 本稿では,dblpの学術知識グラフ上でエンティティリンクを行う,dblplink という web アプリケーションを提案する。 DBLPLinkは、T5のようなテキストからテキストまでの事前訓練された言語モデルを使用して、入力されたテキスト質問からエンティティラベルスパンを生成する。 エンティティ候補はラベルに基づいてデータベースから取得され、エンティティ再ランカはTransE、DistMult、ComplExなどのエンティティ埋め込みに基づいてそれらをソートする。 結果は、ユーザが使用するT5-small、T5-baseと異なるKG埋め込みの結果を比較、比較できるように表示される。 デモはhttps://ltdemos.informatik.uni-hamburg.de/dblplink/で見ることができる。

In this work, we present a web application named DBLPLink, which performs entity linking over the DBLP scholarly knowledge graph. DBLPLink uses text-to-text pre-trained language models, such as T5, to produce entity label spans from an input text question. Entity candidates are fetched from a database based on the labels, and an entity re-ranker sorts them based on entity embeddings, such as TransE, DistMult and ComplEx. The results are displayed so that users may compare and contrast the results between T5-small, T5-base and the different KG embeddings used. The demo can be accessed at https://ltdemos.informatik.uni-hamburg.de/dblplink/.
翻訳日:2023-09-27 00:41:09 公開日:2023-09-25
# 咬合下の3次元関節物体操作のための学習環境

Learning Environment-Aware Affordance for 3D Articulated Object Manipulation under Occlusions ( http://arxiv.org/abs/2309.07510v2 )

ライセンス: Link先を確認
Kai Cheng, Ruihai Wu, Yan Shen, Chuanruo Ning, Guanqi Zhan, Hao Dong(参考訳) 多様な環境における3次元関節物体の知覚と操作は, ロボットにとって不可欠である。 近年の研究では、ポイントレベルのアフォーダンスが下流操作タスクに実行可能な事前設定を提供していることが示されている。 しかし、既存の研究は主に、環境によって課される現実的な制約やエージェントの形態、例えばオクルージョンや物理的な制限を見渡す、均質なエージェントによる単一対象シナリオに焦点を当てている。 本稿では,オブジェクトレベルの動作可能なプリミティブと環境制約の両方を組み込んだ環境対応アプライアンスフレームワークを提案する。 オブジェクト中心のアフォーダンスアプローチとは異なり、学習環境を意識したアフォーダンスは、様々なオクルージョンの複雑さのために、その量、ジオメトリ、位置、ポーズによって特徴付けられる組合せ爆発の課題に直面している。 そこで本研究では,1つのオクルーダーを含むシーンを訓練し,複雑なオクルーダーの組み合わせを持つシーンに一般化できる,新しいコントラスト・アフォーアンス学習フレームワークを提案する。 環境制約を考慮した学習における提案手法の有効性を示す実験を行った。 プロジェクトページ: https://chengkaiacademycity.github.io/envawareafford/

Perceiving and manipulating 3D articulated objects in diverse environments is essential for home-assistant robots. Recent studies have shown that point-level affordance provides actionable priors for downstream manipulation tasks. However, existing works primarily focus on single-object scenarios with homogeneous agents, overlooking the realistic constraints imposed by the environment and the agent's morphology, e.g., occlusions and physical limitations. In this paper, we propose an environment-aware affordance framework that incorporates both object-level actionable priors and environment constraints. Unlike object-centric affordance approaches, learning environment-aware affordance faces the challenge of combinatorial explosion due to the complexity of various occlusions, characterized by their quantities, geometries, positions and poses. To address this and enhance data efficiency, we introduce a novel contrastive affordance learning framework capable of training on scenes containing a single occluder and generalizing to scenes with complex occluder combinations. Experiments demonstrate the effectiveness of our proposed approach in learning affordance considering environment constraints. Project page at https://chengkaiacademycity.github.io/EnvAwareAfford/
翻訳日:2023-09-27 00:40:56 公開日:2023-09-25
# JSMNetによる自己認識とマルチスケールによる屋内クラウドセマンティックとインスタンスセグメンテーションの改善

JSMNet Improving Indoor Point Cloud Semantic and Instance Segmentation through Self-Attention and Multiscale ( http://arxiv.org/abs/2309.07425v2 )

ライセンス: Link先を確認
Shuochen Xu and Zhenxin Zhang(参考訳) 屋内の3dポイントクラウドデータのセマンティック理解は、屋内サービスロボット、ナビゲーションシステム、デジタルツインエンジニアリングなど、その後のさまざまなアプリケーションにとって重要である。 グローバル機能は、重要な長距離コンテキスト情報を提供するため、屋内ポイントクラウドの高品質なセマンティクスとインスタンスセグメンテーションを達成するために不可欠である。 そこで本研究では,多層ネットワークとグローバル機能自己接続モジュールを組み合わせた3次元ポイントクラウドセマンティクスとインスタンスを共同で分割するjsmnetを提案する。 屋内ターゲットの特性をよりよく表現するために,ターゲットからのスキャナ距離の違いによる点雲密度の違いを考慮したマルチレゾリューション特徴適応融合モジュールを設計した。 さらに,優れた結果を得るために,意味的特徴とインスタンス的特徴を統合することにより,統合的な意味的・インスタンスセグメンテーションのためのフレームワークを提案する。 本研究では,大規模3次元屋内ポイントクラウドデータセットであるs3disについて実験を行う。 提案手法は他の手法と比較して,既存手法のセグメンテーションやインスタンスセグメンテーションよりも優れ,対象局所領域セグメンテーションにおいてより良い結果が得られることを示す。 特に,提案手法は,s3dis (area 5) における意味セグメンテーション miou とインスタンスセグメンテーション mpre において,pointnet (qi et al., 2017a) をそれぞれ16.0%,26.3%上回っている。 さらに,asis (wang et al., 2019) を6.0%,4.6%,jspnet (chen et al., 2022) を3.3%,semantic segmentation miou を0.3%,segmentation mpre をわずかに改善した。

The semantic understanding of indoor 3D point cloud data is crucial for a range of subsequent applications, including indoor service robots, navigation systems, and digital twin engineering. Global features are crucial for achieving high-quality semantic and instance segmentation of indoor point clouds, as they provide essential long-range context information. To this end, we propose JSMNet, which combines a multi-layer network with a global feature self-attention module to jointly segment three-dimensional point cloud semantics and instances. To better express the characteristics of indoor targets, we have designed a multi-resolution feature adaptive fusion module that takes into account the differences in point cloud density caused by varying scanner distances from the target. Additionally, we propose a framework for joint semantic and instance segmentation by integrating semantic and instance features to achieve superior results. We conduct experiments on S3DIS, which is a large three-dimensional indoor point cloud dataset. Our proposed method is compared against other methods, and the results show that it outperforms existing methods in semantic and instance segmentation and provides better results in target local area segmentation. Specifically, our proposed method outperforms PointNet (Qi et al., 2017a) by 16.0% and 26.3% in terms of semantic segmentation mIoU in S3DIS (Area 5) and instance segmentation mPre, respectively. Additionally, it surpasses ASIS (Wang et al., 2019) by 6.0% and 4.6%, respectively, as well as JSPNet (Chen et al., 2022) by a margin of 3.3% for semantic segmentation mIoU and a slight improvement of 0.3% for instance segmentation mPre.
翻訳日:2023-09-27 00:40:37 公開日:2023-09-25
# CCSPNet-Joint:極端条件下での交通信号検出のための効率的な共同訓練法

CCSPNet-Joint: Efficient Joint Training Method for Traffic Sign Detection Under Extreme Conditions ( http://arxiv.org/abs/2309.06902v3 )

ライセンス: Link先を確認
Haoqin Hong, Yue Zhou, Xiangyu Shu and Xiaofang Hu(参考訳) 交通標識検出は知的運転における重要な研究方向である。 残念ながら、既存の手法は、霧や雨、動きのぼやけといった極端な状況を見落としていることが多い。 また,画像のデノイジングと物体検出モデルに対するエンドツーエンドのトレーニング戦略では,モデル間情報を有効に活用できない。 これらの問題に対処するために,我々はccspnetを提案する。ccspnetは,トランスフォーマーとcnnに基づく効率的な特徴抽出モジュールであり,文脈情報を有効に活用し,より高速な推論速度を実現し,より強力な機能拡張機能を提供する。 さらに,オブジェクト検出と画像復号化タスクの相関性を確立し,データ効率と一般化を改善するための共同トレーニングモデルCCSPNet-Jointを提案する。 最後に、我々のアプローチを検証するために、極端なシナリオでトラフィックシグネチャ検出のためのCCTSDB-AUGデータセットを作成します。 CCSPNetは、極端な条件下での交通標識検出において、最先端の性能を達成している。 CCSPNet-Jointはエンドツーエンドの手法と比較して精度が5.32%向上し、mAP@.5では18.09%向上した。

Traffic sign detection is an important research direction in intelligent driving. Unfortunately, existing methods often overlook extreme conditions such as fog, rain, and motion blur. Moreover, the end-to-end training strategy for image denoising and object detection models fails to utilize inter-model information effectively. To address these issues, we propose CCSPNet, an efficient feature extraction module based on Transformers and CNNs, which effectively leverages contextual information, achieves faster inference speed and provides stronger feature enhancement capabilities. Furthermore, we establish the correlation between object detection and image denoising tasks and propose a joint training model, CCSPNet-Joint, to improve data efficiency and generalization. Finally, to validate our approach, we create the CCTSDB-AUG dataset for traffic sign detection in extreme scenarios. Extensive experiments have shown that CCSPNet achieves state-of-the-art performance in traffic sign detection under extreme conditions. Compared to end-to-end methods, CCSPNet-Joint achieves a 5.32% improvement in precision and an 18.09% improvement in mAP@.5.
翻訳日:2023-09-27 00:39:59 公開日:2023-09-25
# フェルミオンの相関フロント伝播におけるランダム行列統計

Random Matrix Statistics in Propagating Correlation Fronts of Fermions ( http://arxiv.org/abs/2309.06716v2 )

ライセンス: Link先を確認
Kazuya Fujimoto, Tomohiro Sasamoto(参考訳) 交互状態から始まった一次元格子上の非相互作用フェルミオンにおける相関前線の伝播を理論的に検討する。 長期の漸近的状態においては, 相関面周辺の動的変動のすべてのモーメントは, ソフトエッジにおけるガウス直交行列とシンプレクティックランダム行列の普遍的相関関数によって記述される。 ここでの発見は、ランダム行列理論と量子力学における相関伝播の間の未知の接続に光を当てている。

We theoretically study propagating correlation fronts in non-interacting fermions on a one-dimensional lattice starting from an alternating state, where the fermions occupy every other site. We find that, in the long-time asymptotic regime, all the moments of dynamical fluctuations around the correlation fronts are described by the universal correlation functions of Gaussian orthogonal and symplectic random matrices at the soft edge. Our finding here sheds light on a hitherto unknown connection between random matrix theory and correlation propagation in quantum dynamics.
翻訳日:2023-09-27 00:39:40 公開日:2023-09-25
# テンソル化ニューラルネットワークの効率的な有限初期化

Efficient Finite Initialization for Tensorized Neural Networks ( http://arxiv.org/abs/2309.06577v2 )

ライセンス: Link先を確認
Alejandro Mata Ali, I\~nigo Perez Delgado, Marina Ristol Roura and Aitor Moreno Fdez. de Leceta(参考訳) 本稿では,テンソル化ニューラルネットワークの層をエミュレートする行列のパラメータの爆発を回避する方法で初期化する新しい手法を提案する。 この方法は、全てのノードまたはほとんどのノードの入力または出力への接続があるノード数の多い層を対象としている。 この方法の核心は、この層のフロベニウスノルムを反復的な部分形式で使うことである。 この規範は計算が効率的で、ほとんどの場合、あるいは部分的には計算が容易である。 この手法を異なる層に適用し,その性能を確認した。 https://github.com/i3BQuantumTeam/Q4Real/blob/e07c827651ef16bcf74590ab965ea3985143f891/Quantum-Inspi red%20Variational%20Methods/Normalization_process.ipynb。

We present a novel method for initializing layers of tensorized neural networks in a way that avoids the explosion of the parameters of the matrix it emulates. The method is intended for layers with a high number of nodes in which there is a connection to the input or output of all or most of the nodes. The core of this method is the use of the Frobenius norm of this layer in an iterative partial form, so that it has to be finite and within a certain range. This norm is efficient to compute, fully or partially for most cases of interest. We apply the method to different layers and check its performance. We create a Python function to run it on an arbitrary layer, available in a Jupyter Notebook in the i3BQuantum repository: https://github.com/i3BQuantumTeam/Q4Real/blob/e07c827651ef16bcf74590ab965ea3985143f891/Quantum-Inspi red%20Variational%20Methods/Normalization_process.ipynb
翻訳日:2023-09-27 00:39:29 公開日:2023-09-25
# linemarknet:バレット駐車のためのラインランドマーク検出

LineMarkNet: Line Landmark Detection for Valet Parking ( http://arxiv.org/abs/2309.10475v2 )

ライセンス: Link先を確認
Zizhang Wu, Yuanzhu Gan, Tianhao Xu, Rui Tang and Jian Pu(参考訳) 自動運転における長年の未解決問題であるvalet parkingの高精度かつ効率的なラインランドマーク検出を目指している。 そこで本研究では,軽量なモジュールを慎重に設計する深線ランドマーク検出システムを提案する。 具体的には、3つの物理的なラインと1つの新しいメンタルラインを含む4つの一般的なラインランドマークを経験的に設計する。 4路線のランドマークはバレット駐車に有効である。 We then develop a deep network (LineMarkNet) to detect line landmarks from surround-view cameras where we, via the pre-calibrated homography, fuse context from four separate cameras into the unified bird-eye-view (BEV) space, specifically we fuse the surroundview features and BEV features, then employ the multi-task decoder to detect multiple line landmarks where we apply the center-based strategy for object detection task, and design our graph transformer to enhance the vision transformer with hierarchical level graph reasoning for semantic segmentation task. 最後に、検出されたラインランドマーク(例えばインターセプト・スロープ形式)をパラメータ化し、新しいフィルタリングバックエンドは時間的・多ビュー整合性を取り入れ、スムーズで安定した検出を実現する。 さらに,提案手法を検証するために,大規模データセットにアノテートする。 実験結果から,本フレームワークは,複数のライン検出手法と比較して性能が向上し,Qualcomm 820Aプラットフォーム上でのリアルタイムラインランドマーク検出におけるマルチタスクネットワークの効率が向上し,一方,精度が向上した。

We aim for accurate and efficient line landmark detection for valet parking, which is a long-standing yet unsolved problem in autonomous driving. To this end, we present a deep line landmark detection system where we carefully design the modules to be lightweight. Specifically, we first empirically design four general line landmarks including three physical lines and one novel mental line. The four line landmarks are effective for valet parking. We then develop a deep network (LineMarkNet) to detect line landmarks from surround-view cameras where we, via the pre-calibrated homography, fuse context from four separate cameras into the unified bird-eye-view (BEV) space, specifically we fuse the surroundview features and BEV features, then employ the multi-task decoder to detect multiple line landmarks where we apply the center-based strategy for object detection task, and design our graph transformer to enhance the vision transformer with hierarchical level graph reasoning for semantic segmentation task. At last, we further parameterize the detected line landmarks (e.g., intercept-slope form) whereby a novel filtering backend incorporates temporal and multi-view consistency to achieve smooth and stable detection. Moreover, we annotate a large-scale dataset to validate our method. Experimental results show that our framework achieves the enhanced performance compared with several line detection methods and validate the multi-task network's efficiency about the real-time line landmark detection on the Qualcomm 820A platform while meantime keeps superior accuracy, with our deep line landmark detection system.
翻訳日:2023-09-27 00:30:37 公開日:2023-09-25
# 非可逆対称性を持つ安定化器符号モデル:ストレンジフラクトン、閉じ込め、非可換および非アベリア核融合規則

A stabilizer code model with non-invertible symmetries: Strange fractons, confinement, and non-commutative and non-Abelian fusion rules ( http://arxiv.org/abs/2309.10037v2 )

ライセンス: Link先を確認
Tanay Kibe, Ayan Mukhopadhyay and Pramod Padmanabhan(参考訳) 正方格子上の各辺にクォートを持つ安定化器符号モデルと非可逆プラケット演算子を導入する。 基底状態の縮退はトーリック符号と同様に位相的であり、また電気電荷と磁気電荷の対からなる通常の分解励起を持つ。 しかし、隣接する顔(欠陥)の集合からなる閉じ込められたフラクトロニック励起には、新しいタイプのフラクトロニック励起が存在する。 それらは閉じこもりを示し、これらのフラクトンのより大きな構成は、創発的な内部自由度を取得するにもかかわらず、完全に不動である。 分解励起は、これらのフラクトロニック欠陥の存在下でその性質を変化させる。 例えば、磁気モノポールはフラクタル欠陥クラスターの格子外部のどこにでも存在でき、電荷は制限された移動性を獲得する。 これはフラクトンを特徴とする我々のモデルはI型でもII型でもないことを示唆している。 さらに、対称性である局所作用素は任意の基底状態および局所摂動の下で基底状態へ崩壊する状態の完全なセクタを消滅させることができる。 これらの性質はすべて、積が結合的であるが可換でない新しいタイプの非可換および非アベル的融合圏を通じて取得することができ、零作用素の値を含む(operator)同値類の和として表すことができる。 このモデルの他の多くの変種を紹介し、量子場理論におけるそれらの関連性について議論する。

We introduce a stabilizer code model with a qutrit at every edge on a square lattice and with non-invertible plaquette operators. The degeneracy of the ground state is topological as in the toric code, and it also has the usual deconfined excitations consisting of pairs of electric and magnetic charges. However, there are novel types of confined fractonic excitations composed of a cluster of adjacent faces (defects) with vanishing flux. They manifest confinement, and even larger configurations of these fractons are fully immobile although they acquire emergent internal degrees of freedom. Deconfined excitations change their nature in presence of these fractonic defects. As for instance, a magnetic monopole can exist anywhere on the lattice exterior to a fractonic defect cluster while electric charges acquire restricted mobility. These imply that our model featuring fractons is neither of type I, nor of type II. Furthermore, local operators which are symmetries can annihilate any ground state and also the full sector of states which can decay to a ground state under local perturbations. All these properties can be captured via a novel type of non-commutative and non-Abelian fusion category in which the product is associative but does not commute, and can be expressed as a sum of (operator) equivalence classes which includes that of the zero operator. We introduce many other variants of this model and discuss their relevance in quantum field theory.
翻訳日:2023-09-27 00:28:54 公開日:2023-09-25
# 結合非線形キャビティマグノニクスにおける高波長および強非相反性

Highly-tunable and strong nonreciprocity in coupled nonlinear cavity magnonics ( http://arxiv.org/abs/2309.09245v2 )

ライセンス: Link先を確認
Wei Xiong, Zhuanxia Li(参考訳) ローレンツの相互性に反する非相互性は、量子情報処理やネットワークにおいて重要な役割を果たす。 それでも、望まれる、かつ高度に調整可能な非相互性のレベルを達成することは、恐ろしい挑戦であることが証明されている。 本稿では,2つのキャビティ,2次非線形要素,およびカーマグノンを支えるイットリウム-鉄-ガーネット球からなる結合型非線形空洞マグノニクスシステムを提案する。 まず,非駆動マグノンによる相互性と非相互性の切り替えに関する臨界条件を導出し,臨界条件を破ることで強いマグノン非相互性が得られることを数値的に示す。 マグノンが駆動されると、強いマグノン非相互性も臨界条件内で達成できることを示す。 前回の研究では、導入された非線形要素は、臨界条件を弱い状態と強い状態の両方に緩和するだけでなく、マグノンの非相互性を調整する代替経路を提供する。 我々の研究は、Kerr Magnonsを用いた高利きの非相互デバイスを実現するための有望な道を提供する。

Nonreciprocity, which violates Lorentz reciprocity, plays a pivotal role in quantum information processing and networks. Nevertheless, achieving a desired and highly-tunable level of nonreciprocity has proven to be a formidable challenge. Here, we propose a coupled nonlinear cavity magnonic system, consisting of two cavities, a second-order nonlinear element, and a yttrium-iron-garnet sphere for supporting Kerr magnons, to realize this sought-after highly-tunable nonreciprocity. We first derive the critical condition for switching between reciprocity and nonreciprocity with undriven magnons, then we numerically demonstrate that a strong magnonic nonreciprocity can be obtained by breaking the critical condition. When magnons are driven, we show that a strong magnonic nonreciprocity can also be attained within the critical condition. Compared to previous study, the introduced nonlinear element not only relaxes the critical condition to both the weak and strong regimes, but also offers an alternative path to adjust the magnonic nonreciprocity. Our work provides a promising avenue to realize highly-tunable nonreciprocal devices with Kerr magnons.
翻訳日:2023-09-27 00:28:32 公開日:2023-09-25
# RGBとイベントカメラを用いた変形性ニューラルラジアンス場

Deformable Neural Radiance Fields using RGB and Event Cameras ( http://arxiv.org/abs/2309.08416v2 )

ライセンス: Link先を確認
Qi Ma, Danda Pani Paudel, Ajad Chhatkuli, Luc Van Gool(参考訳) 視覚データのみから高速に動く変形可能な物体に対するニューラルレージアンスフィールドのモデリングは難しい問題である。 主な問題は、高い変形と低い獲得率のためである。 この問題に対処するため,我々は,視覚的な変化を非同期に高速に取得できるイベントカメラを提案する。 本研究では,RGBとイベントカメラを用いた変形可能なニューラル放射場をモデル化する新しい手法を開発した。 提案手法はイベントの非同期ストリームとキャリブレーションされたスパースRGBフレームを用いる。 我々の設定では、カメラは放射場にそれらを組み込むために必要な個々の事象を撮影する。 本手法はこれらのポーズと放射場を協調的に最適化する。 これは、一度にイベントの収集を活用でき、学習中のイベントを積極的にサンプリングすることで効率よく起こる。 現実的にレンダリングされたグラフィックスと実世界のデータセットの両方で実施された実験は、提案手法が最先端と比較ベースラインに対して有益であることを示す。 これは、実世界の動的シーンにおける変形可能な神経放射フィールドのモデリングに有望な方向を示している。

Modeling Neural Radiance Fields for fast-moving deformable objects from visual data alone is a challenging problem. A major issue arises due to the high deformation and low acquisition rates. To address this problem, we propose to use event cameras that offer very fast acquisition of visual change in an asynchronous manner. In this work, we develop a novel method to model the deformable neural radiance fields using RGB and event cameras. The proposed method uses the asynchronous stream of events and calibrated sparse RGB frames. In our setup, the camera pose at the individual events required to integrate them into the radiance fields remains unknown. Our method jointly optimizes these poses and the radiance field. This happens efficiently by leveraging the collection of events at once and actively sampling the events during learning. Experiments conducted on both realistically rendered graphics and real-world datasets demonstrate a significant benefit of the proposed method over the state-of-the-art and the compared baseline. This shows a promising direction for modeling deformable neural radiance fields in real-world dynamic scenes.
翻訳日:2023-09-27 00:27:27 公開日:2023-09-25
# PPD: 自動走行のための歩行者用魚眼データセット

PPD: A New Valet Parking Pedestrian Fisheye Dataset for Autonomous Driving ( http://arxiv.org/abs/2309.11002v2 )

ライセンス: Link先を確認
Zizhang Wu, Xinyuan Chen, Fan Song, Yuanzhu Gan, Tianhao Xu, Jian Pu, Rui Tang(参考訳) バレット駐車シナリオ下での歩行者検出は、自動運転に不可欠である。 しかし, 歩行者の存在は, 不完全な環境条件下での姿勢や様々な方法で現れ, 検出性能に悪影響を及ぼす可能性がある。 さらに、歩行者を含む公共データセットで訓練されたモデルは、一般的にこれらのバレット駐車シナリオに対して最適な結果をもたらす。 本稿では,実世界の歩行者,特に咬合や多様な姿勢に関する研究を支援する大規模魚眼データセットであるppd(parking pedestrian dataset)について紹介する。 PPDは、魚眼カメラで捉えたいくつかの特徴的なタイプの歩行者で構成されている。 さらに,歩行者検出ベースラインをPDDデータセット上に提示し,元のデータセットの多様性を高めてベースラインを改善するための2つのデータ拡張手法を提案する。 大規模な実験により、ベースラインとデータセットの異常な一般化可能性に対する新しいデータ拡張アプローチの有効性が検証された。

Pedestrian detection under valet parking scenarios is fundamental for autonomous driving. However, the presence of pedestrians can be manifested in a variety of ways and postures under imperfect ambient conditions, which can adversely affect detection performance. Furthermore, models trained on publicdatasets that include pedestrians generally provide suboptimal outcomes for these valet parking scenarios. In this paper, wepresent the Parking Pedestrian Dataset (PPD), a large-scale fisheye dataset to support research dealing with real-world pedestrians, especially with occlusions and diverse postures. PPD consists of several distinctive types of pedestrians captured with fisheye cameras. Additionally, we present a pedestrian detection baseline on PPD dataset, and introduce two data augmentation techniques to improve the baseline by enhancing the diversity ofthe original dataset. Extensive experiments validate the effectiveness of our novel data augmentation approaches over baselinesand the dataset's exceptional generalizability.
翻訳日:2023-09-26 22:46:16 公開日:2023-09-25
# 光キャビティにおける多レベル原子の駆動散逸4モードスクイーズ

Driven-dissipative four-mode squeezing of multilevel atoms in an optical cavity ( http://arxiv.org/abs/2309.10717v2 )

ライセンス: Link先を確認
Bhuvanesh Sundar and Diego Barbarena and Ana Maria Rey and Asier Pi\~neiro Orioli(参考訳) 我々は、駆動共振光学キャビティに閉じ込められたマルチレベル原子を用いて、量子センシングとメトロジーのためのスケーラブルなマルチモード圧縮状態を生成する。 超放射能または集合散逸放出は、通常光学キャビティにおける絡み合い発生の有害な効果であるが、追加の駆動が存在する場合は絡み合い資源としても使用できる。 最近の研究 [arxiv:2302.10828] では、1つの関連する分極しか持たない6レベル系の暗く2モードスクイーズを散逸生成するためのプロトコルについて記述した。 そこで、最大2つの四角形を絞ることができることを示した。 そこで本研究では,キャビティ内の2つの偏光モードに光を照射することで原子が集合的に崩壊する多層系におけるスクイージングを計算するための一般化解析法を開発した。 このより一般的なシステムでは、最大4つのスピンスクリュード・クオーチュアが得られることを示す。 有限サイズ効果が到達可能なスクイーズをいかに制限するかを研究し、$N$で解析的に計算する。 本研究はアルカリ土様原子を用いた現在の光学キャビティ実験で容易に検証できる。

We utilize multilevel atoms trapped in a driven resonant optical cavity to produce scalable multi-mode squeezed states for quantum sensing and metrology. While superradiance or collective dissipative emission by itself has been typically a detrimental effect for entanglement generation in optical cavities, in the presence of additional drives it can also be used as an entanglement resource. In a recent work [arXiv:2302.10828], we described a protocol for the dissipative generation of two-mode squeezing in the dark state of a six-level system with only one relevant polarization. There we showed that up to two quadratures can be squeezed. Here, we develop a generalized analytic treatment to calculate the squeezing in any multilevel system where atoms can collectively decay by emitting light into two polarization modes in a cavity. We show that in this more general system up to four spin squeezed quadratures can be obtained. We study how finite-size effects constrain the reachable squeezing, and analytically compute the scaling with $N$. Our findings are readily testable in current optical cavity experiments with alkaline-earth-like atoms.
翻訳日:2023-09-26 22:45:09 公開日:2023-09-25
# 深層学習ネットワークの幾何学的構造とグローバル${\mathcal L}^2$ミニマの構築

Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers ( http://arxiv.org/abs/2309.10639v2 )

ライセンス: Link先を確認
Thomas Chen, Patricia Mu\~noz Ewald(参考訳) 本稿では,l$隠れ層,ランプ活性化関数,${\mathcal l}^2$ schatten クラス (あるいは hilbert-schmidt) コスト関数,入力および出力空間 ${\mathbb r}^q$ と等価次元 $q\geq1$ を特徴とする,ディープラーニング(dl)ネットワークの構造の幾何学的解釈を提案する。 隠れた層は空間 ${\mathbb r}^{q}$ 上でも定義される。 我々は,最近の浅層ニューラルネットワークに関する結果を適用し,l\geq q$の場合のコスト関数の最小最小値に対する最小値の明示的な族を構築する。 ここで示した文脈では、dlネットワークの隠れた層は、トレーニング入力のノイズと信号比を最小化するトランザクションマップの再帰的適用により、トレーニング入力を「キュレート」する。 さらに,コスト関数の縮退型局所最小値の集合を2^Q-1$で決定する。

In this paper, we provide a geometric interpretation of the structure of Deep Learning (DL) networks, characterized by $L$ hidden layers, a ramp activation function, an ${\mathcal L}^2$ Schatten class (or Hilbert-Schmidt) cost function, and input and output spaces ${\mathbb R}^Q$ with equal dimension $Q\geq1$. The hidden layers are defined on spaces ${\mathbb R}^{Q}$, as well. We apply our recent results on shallow neural networks to construct an explicit family of minimizers for the global minimum of the cost function in the case $L\geq Q$, which we show to be degenerate. In the context presented here, the hidden layers of the DL network "curate" the training inputs by recursive application of a truncation map that minimizes the noise to signal ratio of the training inputs. Moreover, we determine a set of $2^Q-1$ distinct degenerate local minima of the cost function.
翻訳日:2023-09-26 22:44:29 公開日:2023-09-25
# 大規模非構造化法文書における階層型ニューラルネットワークの分類とその説明

A Hierarchical Neural Framework for Classification and its Explanation in Large Unstructured Legal Documents ( http://arxiv.org/abs/2309.10563v2 )

ライセンス: Link先を確認
Nishchal Prasad, Mohand Boughanem, Taoufik Dkaki(参考訳) 自動法的判断予測とその説明は、一般に数万語を超える長い判例文書の問題に苦しめられ、一様でない構造を持つ。 このような文書から判断を予測し、その説明を抽出することは、構造的注釈のない文書よりも難しい課題である。 この問題を「注釈付き法的文書」と定義し、構造情報の欠如とその長大さをmesc(multi-stage encoder-based supervised with-clustering)と呼ぶディープラーニングに基づく分類フレームワークを用いて探究し、判断予測を行う。 我々は,多ビリオンパラメータ(GPT-Neo,GPT-J)を用いたLLMの法文への適応性とドメイン内移行学習能力について検討する。 これと同時に、MEScのパフォーマンスと適応性、および最後のレイヤからの埋め込みの組み合わせの影響を比較します。 このような階層モデルに対しては, ORSE (Occlusion sensitivity-based Relevant Sentence Extractor) という説明抽出アルゴリズムも提案する。 これらの手法を探索し,インド,欧州連合,米国からの法的文書に関する広範な実験およびアブレーション研究により,ILDCデータセットとLexGLUEデータセットのサブセットを用いてその有効性を検証した。 mescは、これまでの最先端手法よりも約2ポイントのパフォーマンス向上を達成し、mescに適用されたorseは、ベースライン説明可能性スコアよりも平均50%のゲインを達成している。

Automatic legal judgment prediction and its explanation suffer from the problem of long case documents exceeding tens of thousands of words, in general, and having a non-uniform structure. Predicting judgments from such documents and extracting their explanation becomes a challenging task, more so on documents with no structural annotation. We define this problem as "scarce annotated legal documents" and explore their lack of structural information and their long lengths with a deep-learning-based classification framework which we call MESc; "Multi-stage Encoder-based Supervised with-clustering"; for judgment prediction. We explore the adaptability of LLMs with multi-billion parameters (GPT-Neo, and GPT-J) to legal texts and their intra-domain(legal) transfer learning capacity. Alongside this, we compare their performance and adaptability with MESc and the impact of combining embeddings from their last layers. For such hierarchical models, we also propose an explanation extraction algorithm named ORSE; Occlusion sensitivity-based Relevant Sentence Extractor; based on the input-occlusion sensitivity of the model, to explain the predictions with the most relevant sentences from the document. We explore these methods and test their effectiveness with extensive experiments and ablation studies on legal documents from India, the European Union, and the United States with the ILDC dataset and a subset of the LexGLUE dataset. MESc achieves a minimum total performance gain of approximately 2 points over previous state-of-the-art proposed methods, while ORSE applied on MESc achieves a total average gain of 50% over the baseline explainability scores.
翻訳日:2023-09-26 22:43:47 公開日:2023-09-25
# SPOT: 自動運転のための作業予測によるスケーラブルな3D事前トレーニング

SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous Driving ( http://arxiv.org/abs/2309.10527v2 )

ライセンス: Link先を確認
Xiangchao Yan, Runjian Chen, Bo Zhang, Jiakang Yuan, Xinyu Cai, Botian Shi, Wenqi Shao, Junchi Yan, Ping Luo, Yu Qiao(参考訳) 3Dオブジェクト検出やLiDARセマンティックセグメンテーションを含む知覚タスクのための3D LiDARポイントクラウドの注釈付けは、時間とエネルギーを消費することで知られる。 ラベル付けの負担を軽減するため、大規模な事前トレーニングを行い、さまざまな下流データセットとタスクでトレーニング済みのバックボーンを微調整することを約束している。 本稿では,トランスファー可能な3次元表現を学習するための占有率予測によるスケーラブルな事前学習を提案し,ラベル効率設定下で下流タスクが異なる様々な公開データセットにおいてその効果を示す。 1) 作業予測は汎用表現の学習に有望であることが示され,多くのデータセットやタスクに関する広範な実験によって実証された。 2) SPOTは,ビーム再サンプリング技術を用いて点雲拡大を行い,様々なLiDARセンサによる領域ギャップを克服し,異なるデータセットにおけるアノテーション戦略を適用した。 (3) スケーラブルな事前トレーニング,すなわち,すべての実験におけるダウンストリームのパフォーマンスは,事前トレーニングデータによって向上する。 我々の発見はLiDAR点雲の理解を容易にし、LiDAR事前学習における将来の探索の道を開くことができると信じている。 コードとモデルがリリースされます。

Annotating 3D LiDAR point clouds for perception tasks including 3D object detection and LiDAR semantic segmentation is notoriously time-and-energy-consuming. To alleviate the burden from labeling, it is promising to perform large-scale pre-training and fine-tune the pre-trained backbone on different downstream datasets as well as tasks. In this paper, we propose SPOT, namely Scalable Pre-training via Occupancy prediction for learning Transferable 3D representations, and demonstrate its effectiveness on various public datasets with different downstream tasks under the label-efficiency setting. Our contributions are threefold: (1) Occupancy prediction is shown to be promising for learning general representations, which is demonstrated by extensive experiments on plenty of datasets and tasks. (2) SPOT uses beam re-sampling technique for point cloud augmentation and applies class-balancing strategies to overcome the domain gap brought by various LiDAR sensors and annotation strategies in different datasets. (3) Scalable pre-training is observed, that is, the downstream performance across all the experiments gets better with more pre-training data. We believe that our findings can facilitate understanding of LiDAR point clouds and pave the way for future exploration in LiDAR pre-training. Codes and models will be released.
翻訳日:2023-09-26 22:43:18 公開日:2023-09-25
# テンソルネットワークを用いた三対角 qubo および qudo 問題の多項式時間解法

Polynomial-time Solver of Tridiagonal QUBO and QUDO problems with Tensor Networks ( http://arxiv.org/abs/2309.10509v2 )

ライセンス: Link先を確認
Alejandro Mata Ali, I\~nigo Perez Delgado, Marina Ristol Roura and Aitor Moreno Fdez. de Leceta(参考訳) 本稿では, テンソルネットワークの量子インスピレーション技術を用いて, 三元対角非拘束二元最適化(QUBO)問題と準拘束非拘束離散最適化(QUDO)問題を解決するアルゴリズムを提案する。 本手法は,仮想時間発展を応用し,最大振幅状態を得るための一連の部分的トレースを行う量子状態のシミュレーションに基づいている。 また、退化したケースに対処し、アルゴリズムの多項式複雑性をチェックする。

We present an algorithm for solving tridiagonal Quadratic Unconstrained Binary Optimization (QUBO) problems and Quadratic Unconstrained Discrete Optimization (QUDO) problems with one-neighbor interactions using the quantum-inspired technology of tensor networks. Our method is based on the simulation of a quantum state to which we will apply an imaginary time evolution and perform a series of partial traces to obtain the state of maximum amplitude, since it will be the optimal state. We will also deal with the degenerate case and check the polynomial complexity of the algorithm.
翻訳日:2023-09-26 22:42:54 公開日:2023-09-25
# 合法的な関心は、iab europe tcf paywallsの大規模測定と法的遵守である。

Legitimate Interest is the New Consent -- Large-Scale Measurement and Legal Compliance of IAB Europe TCF Paywalls ( http://arxiv.org/abs/2309.11625v2 )

ライセンス: Link先を確認
Victor Morel, Cristiana Santos, Viktor Fredholm, Adam Thunberg(参考訳) cookie paywallsは、ウェブサイトの訪問者が料金を支払うかトラッキングを受けるかの選択をした後にのみ、そのコンテンツにアクセスできるようにする。 欧州データ保護機関(dpas)は最近、ペイウォールの合法性に関するガイドラインと決定を下したが、ウェブサイトがそれに従うかどうかはまだ不明である。 本稿では,自動クローラを用いた上位100万サイトにおけるクッキーペイウォールの普及状況について検討する。 我々は431個のcookie paywallsを特定し、すべてtransparency and consent framework (tcf) を用いている。 次に、これらのペイウォールがTCFを通じて通信するデータ、特に個人データの収集に使用される法的根拠と目的を分析します。 我々はクッキー・ペイウォールが合法的な利子関係の法的根拠に広く依存しているのを観察する。 また、ペイウォールの存在と、DPAによる法的決定やガイドラインとの相関関係の欠如も観察する。

Cookie paywalls allow visitors of a website to access its content only after they make a choice between paying a fee or accept tracking. European Data Protection Authorities (DPAs) recently issued guidelines and decisions on paywalls lawfulness, but it is yet unknown whether websites comply with them. We study in this paper the prevalence of cookie paywalls on the top one million websites using an automatic crawler. We identify 431 cookie paywalls, all using the Transparency and Consent Framework (TCF). We then analyse the data these paywalls communicate through the TCF, and in particular, the legal grounds and the purposes used to collect personal data. We observe that cookie paywalls extensively rely on legitimate interest legal basis systematically conflated with consent. We also observe a lack of correlation between the presence of paywalls and legal decisions or guidelines by DPAs.
翻訳日:2023-09-26 22:36:27 公開日:2023-09-25
# 検証の連鎖は大規模言語モデルにおける幻覚を減少させる

Chain-of-Verification Reduces Hallucination in Large Language Models ( http://arxiv.org/abs/2309.11495v2 )

ライセンス: Link先を確認
Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli Celikyilmaz, Jason Weston(参考訳) 幻覚と呼ばれる、確実で誤った事実情報の生成は、大きな言語モデルでは未解決の問題である。 言語モデルが、その誤りを正すために与えた応答を熟考する能力について検討する。 モデルはまず,チェイン・オブ・バリデーション(CoVe)法を開発する。 (i)初期応答を起草し、次に (ii) 原案を事実確認するために検証質問を計画する (iii) 回答が他の回答に偏らないよう、それぞれ独立して回答する。 (iv)最終確認応答を生成する。 実験では、wikidataからリストベースの質問、クローズドブックのmultispanqa、longformテキスト生成など、さまざまなタスクにわたる幻覚の減少を示す。

Generation of plausible yet incorrect factual information, termed hallucination, is an unsolved issue in large language models. We study the ability of language models to deliberate on the responses they give in order to correct their mistakes. We develop the Chain-of-Verification (CoVe) method whereby the model first (i) drafts an initial response; then (ii) plans verification questions to fact-check its draft; (iii) answers those questions independently so the answers are not biased by other responses; and (iv) generates its final verified response. In experiments, we show CoVe decreases hallucinations across a variety of tasks, from list-based questions from Wikidata, closed book MultiSpanQA and longform text generation.
翻訳日:2023-09-26 22:35:45 公開日:2023-09-25
# コード切替チュニジアアラビア語自動音声認識におけるデータ収集と教師なし学習の活用

Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition ( http://arxiv.org/abs/2309.11327v2 )

ライセンス: Link先を確認
Ahmed Amine Ben Abdallah and Ata Kabboudi and Amir Kanoun and Salah Zaiem(参考訳) 方言に対する効果的な自動音声認識(ASR)ソリューションを構築するには、データ不足の問題に対処するだけでなく、言語多様性の複雑さをナビゲートする革新的なアプローチが必要である。 本稿では、チュニジア方言に焦点をあてて、前述のASR課題に対処する。 まず、テキストデータと音声データを収集し、時には注釈をつける。 第2に,自己スーパービジョン,半スーパービジョン,少数ショットのコード切り換えによる,チュニジアの異なるテストセットに対する最先端のプッシュ,音響的,言語的,韻律的条件の相違について検討する。 最後に,従来の綴りの欠如を考慮し,テスト参照中の綴りの誤りから発生する雑音を回避するために,書き起こしの人間的評価を行う。 我々のモデルは、チュニジア語、英語、フランス語を含む言語混合で音声サンプルを転写することができ、トレーニングやテストで使用されるすべてのデータを公開し、さらなる改善を図っている。

Crafting an effective Automatic Speech Recognition (ASR) solution for dialects demands innovative approaches that not only address the data scarcity issue but also navigate the intricacies of linguistic diversity. In this paper, we address the aforementioned ASR challenge, focusing on the Tunisian dialect. First, textual and audio data is collected and in some cases annotated. Second, we explore self-supervision, semi-supervision and few-shot code-switching approaches to push the state-of-the-art on different Tunisian test sets; covering different acoustic, linguistic and prosodic conditions. Finally, and given the absence of conventional spelling, we produce a human evaluation of our transcripts to avoid the noise coming from spelling inadequacies in our testing references. Our models, allowing to transcribe audio samples in a linguistic mix involving Tunisian Arabic, English and French, and all the data used during training and testing are released for public use and further improvements.
翻訳日:2023-09-26 22:33:41 公開日:2023-09-25
# Pose-Conditioned Dataset Updates を用いた言語駆動型物体融合

Language-driven Object Fusion into Neural Radiance Fields with Pose-Conditioned Dataset Updates ( http://arxiv.org/abs/2309.11281v2 )

ライセンス: Link先を確認
Ka Chun Shum, Jaeyeon Kim, Binh-Son Hua, Duc Thanh Nguyen, Sai-Kit Yeung(参考訳) neural radiance fieldは、ニューラルネットワークのシーン表現とボリュームレンダリングから高品質なマルチビュー一貫性画像を生成する、新たなレンダリング手法である。 ニューラル・ラジアンス・フィールドに基づく手法はシーンの再構成に頑健であるが、オブジェクトの追加や削除は限られている。 本稿では,ニューラル・ラミアンス・フィールドを用いたオブジェクト操作のための新しい言語駆動アプローチを提案する。 具体的には、背景放射場に複数ビュー画像の集合で表される新しい前景オブジェクトを挿入するために、テキスト・ツー・イメージ拡散モデルを用いて、対象物を対象の背景に融合させた画像の学習と生成を行う。 これらの合成画像は背景輝度フィールドを洗練するために使用され、オブジェクトと背景の両方を含むビュー一貫性のある画像をレンダリングできます。 映像の一貫性を確保するため,我々は,すでにトレーニング済みのビューに近いカメラビューでのラミアンスフィールドトレーニングを優先し,残りのビューにトレーニングを伝播させるデータセット更新戦略を提案する。 我々は,同じデータセット更新戦略の下で,テキストから3Dモデルへのデータとオブジェクト除去を用いて,オブジェクト挿入のためのメソッドを簡単に適用できることを実証した。 実験結果から,本手法は編集シーンの写実的画像を生成するとともに,3次元再構成や神経放射場ブレンディングにおいて最先端の手法より優れていた。

Neural radiance field is an emerging rendering method that generates high-quality multi-view consistent images from a neural scene representation and volume rendering. Although neural radiance field-based techniques are robust for scene reconstruction, their ability to add or remove objects remains limited. This paper proposes a new language-driven approach for object manipulation with neural radiance fields through dataset updates. Specifically, to insert a new foreground object represented by a set of multi-view images into a background radiance field, we use a text-to-image diffusion model to learn and generate combined images that fuse the object of interest into the given background across views. These combined images are then used for refining the background radiance field so that we can render view-consistent images containing both the object and the background. To ensure view consistency, we propose a dataset updates strategy that prioritizes radiance field training with camera views close to the already-trained views prior to propagating the training to remaining views. We show that under the same dataset updates strategy, we can easily adapt our method for object insertion using data from text-to-3D models as well as object removal. Experimental results show that our method generates photorealistic images of the edited scenes, and outperforms state-of-the-art methods in 3D reconstruction and neural radiance field blending.
翻訳日:2023-09-26 22:33:11 公開日:2023-09-25
# StructChart: 視覚チャート理解のための知覚、構造化、推論

StructChart: Perception, Structuring, Reasoning for Visual Chart Understanding ( http://arxiv.org/abs/2309.11268v2 )

ライセンス: Link先を確認
Renqiu Xia, Bo Zhang, Haoyang Peng, Ning Liao, Peng Ye, Botian Shi, Junchi Yan, Yu Qiao(参考訳) チャートは様々な科学分野の文献で一般的であり、読者に簡単にアクセス可能なリッチな情報を伝える。 現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識、あるいはグラフ形式で抽出されたデータに対して推論を実行することに焦点を当てている。 本稿では,ピアワークに特有な質問応答タスクを超えて,異なる下流タスクに広く適用可能な,統合的かつラベル効率の高い共同知覚と推論タスクの学習パラダイムを確立することを目的とする。 具体的には、structchartはまず、チャート情報を人気のある管状形式(特に線形化されたcsv)から提案されている構造化三重項表現(str)に再構成する。 次に、チャート認識タスクの性能を定量的に評価する構造化チャート指向表現尺度(SCRM)を提案する。 学習用データセットを充実させるためには,Large Language Model (LLM)を活用する可能性をさらに検討し,チャートの視覚的スタイルと統計情報の両方の観点からチャートの多様性を高める。 様々なチャート関連タスクに関する広範囲な実験が行われ、チャート理解のフロンティアを推進するために統一されたチャート知覚-合理化パラダイムの有効性と可能性を示している。

Charts are common in literature across different scientific fields, conveying rich information easily accessible to readers. Current chart-related tasks focus on either chart perception which refers to extracting information from the visual charts, or performing reasoning given the extracted data, e.g. in a tabular form. In this paper, we aim to establish a unified and label-efficient learning paradigm for joint perception and reasoning tasks, which can be generally applicable to different downstream tasks, beyond the question-answering task as specifically studied in peer works. Specifically, StructChart first reformulates the chart information from the popular tubular form (specifically linearized CSV) to the proposed Structured Triplet Representations (STR), which is more friendly for reducing the task gap between chart perception and reasoning due to the employed structured information extraction for charts. We then propose a Structuring Chart-oriented Representation Metric (SCRM) to quantitatively evaluate the performance for the chart perception task. To enrich the dataset for training, we further explore the possibility of leveraging the Large Language Model (LLM), enhancing the chart diversity in terms of both chart visual style and its statistical information. Extensive experiments are conducted on various chart-related tasks, demonstrating the effectiveness and promising potential for a unified chart perception-reasoning paradigm to push the frontier of chart understanding.
翻訳日:2023-09-26 22:32:47 公開日:2023-09-25
# 衛星画像に対する自己教師付きドメイン非依存ドメイン適応

Self-supervised Domain-agnostic Domain Adaptation for Satellite Images ( http://arxiv.org/abs/2309.11109v2 )

ライセンス: Link先を確認
Fahong Zhang, Yilei Shi, and Xiao Xiang Zhu(参考訳) 例えば、異なる地理的領域や取得条件によって引き起こされるドメインシフトは、グローバルスケールの衛星画像処理における機械学習において一般的な問題である。 この問題を解決する有望な方法は、トレーニングとテストデータセットが分布に応じて2つまたは複数のドメインに分割されるドメイン適応であり、テストデータセットにおけるモデルの一般化性を改善するために適応方法が適用される。 しかし、各衛星画像が属する領域を定義することは、特に複数のデータソースから単一の画像モザイクを生成できる大規模なマルチテンポラリ・マルチ感覚シナリオにおいて、簡単ではない。 本稿では,ドメイン定義なしでドメイン適応を行うための自己教師付きドメイン非依存ドメイン適応(SS(DA)2)手法を提案する。 そこで我々はまず,2つの衛星画像パッチ間で画像と画像の変換を行うために生成ネットワークを訓練するために,対照的な生成逆損失を設計する。 そして,テストスペクトル特性の異なるトレーニングデータを拡張することにより,下流モデルの一般化性を向上させる。 公開ベンチマーク実験の結果,SS(DA)2の有効性が検証された。

Domain shift caused by, e.g., different geographical regions or acquisition conditions is a common issue in machine learning for global scale satellite image processing. A promising method to address this problem is domain adaptation, where the training and the testing datasets are split into two or multiple domains according to their distributions, and an adaptation method is applied to improve the generalizability of the model on the testing dataset. However, defining the domain to which each satellite image belongs is not trivial, especially under large-scale multi-temporal and multi-sensory scenarios, where a single image mosaic could be generated from multiple data sources. In this paper, we propose an self-supervised domain-agnostic domain adaptation (SS(DA)2) method to perform domain adaptation without such a domain definition. To achieve this, we first design a contrastive generative adversarial loss to train a generative network to perform image-to-image translation between any two satellite image patches. Then, we improve the generalizability of the downstream models by augmenting the training data with different testing spectral characteristics. The experimental results on public benchmarks verify the effectiveness of SS(DA)2.
翻訳日:2023-09-26 22:32:23 公開日:2023-09-25
# スパイクニューラルPシステムにおけるプライバシ保護線形計算

Privacy-preserving Linear Computations in Spiking Neural P Systems ( http://arxiv.org/abs/2309.13803v1 )

ライセンス: Link先を確認
Mihail-Iulian Plesa (University of Bucharest), Marian Gheorghe (University of Bradford), Florentin Ipate (University of Bucharest)(参考訳) スパイキングニューラルpシステム(spiking neural p systems)は、生体ニューロンに直接インスパイアされた膜計算モデルの一種である。 この新しい計算モデルにおける理論的な進歩に加えて、形式的検証、人工知能、暗号といった分野におけるPシステムの応用も数多く存在する。 本稿では,sn pシステムのすべての利用事例に動機づけられ,リモートサーバにホストされたsn pシステムを用いて,クライアントが線形関数を計算できる新たなプライバシ保存プロトコルを提案する。 このプロトコルにより,クライアントはt_1,t_2,kを開示することなく,サーバが結果を知らずにt_1k + t_2の形の関数を評価することができる。 また,自然数上の任意の線形関数を実装するためのsn pシステムと,本プロトコルのセキュリティ上の考慮事項を,正直だが厳密なセキュリティモデルで提示する。

Spiking Neural P systems are a class of membrane computing models inspired directly by biological neurons. Besides the theoretical progress made in this new computational model, there are also numerous applications of P systems in fields like formal verification, artificial intelligence, or cryptography. Motivated by all the use cases of SN P systems, in this paper, we present a new privacy-preserving protocol that enables a client to compute a linear function using an SN P system hosted on a remote server. Our protocol allows the client to use the server to evaluate functions of the form t_1k + t_2 without revealing t_1, t_2 or k and without the server knowing the result. We also present an SN P system to implement any linear function over natural numbers and some security considerations of our protocol in the honest-but-curious security model.
翻訳日:2023-09-26 17:33:17 公開日:2023-09-25
# 逆数ロバスト性証明のためのランダムな平滑化

Projected Randomized Smoothing for Certified Adversarial Robustness ( http://arxiv.org/abs/2309.13794v1 )

ライセンス: Link先を確認
Samuel Pfrommer, Brendon G. Anderson, Somayeh Sojoudi(参考訳) ランダム化平滑化は、証明可能な堅牢な分類器を生成する最先端の手法である。 ランダムな平滑化は一般に$\ell_2$-ball証明をもたらすが、最近の研究は異なる標準球と異方性領域に証明可能な堅牢性を一般化した。 この仕事は、まずデータ多様体の低次元近似に投影し、次に標準分類器を適用する分類器アーキテクチャを考える。 低次元射影空間でランダムな平滑化を行うことにより、高次元入力空間において、平滑化複合分類器の認定領域を特徴付け、その体積上の可搬下界を証明した。 CIFAR-10 と SVHN で実験したところ,初期投影のない分類器はデータ多様体に正規な摂動に対して脆弱であり,しかもその証明された領域によって捕捉されることがわかった。 我々は認定領域のボリュームを様々な基準値と比較し、その手法が最先端の精度を桁違いに向上することを示す。

Randomized smoothing is the current state-of-the-art method for producing provably robust classifiers. While randomized smoothing typically yields robust $\ell_2$-ball certificates, recent research has generalized provable robustness to different norm balls as well as anisotropic regions. This work considers a classifier architecture that first projects onto a low-dimensional approximation of the data manifold and then applies a standard classifier. By performing randomized smoothing in the low-dimensional projected space, we characterize the certified region of our smoothed composite classifier back in the high-dimensional input space and prove a tractable lower bound on its volume. We show experimentally on CIFAR-10 and SVHN that classifiers without the initial projection are vulnerable to perturbations that are normal to the data manifold and yet are captured by the certified regions of our method. We compare the volume of our certified regions against various baselines and show that our method improves on the state-of-the-art by many orders of magnitude.
翻訳日:2023-09-26 17:33:03 公開日:2023-09-25
# ReMasker: Masked Autoencodingでタブラルデータを出力する

ReMasker: Imputing Tabular Data with Masked Autoencoding ( http://arxiv.org/abs/2309.13793v1 )

ライセンス: Link先を確認
Tianyu Du, Luca Melis, Ting Wang(参考訳) 本稿では,マスク付き自動エンコーディングフレームワークを拡張し,表データに欠けている値を暗示する新しい手法であるremaskerを提案する。 Compared with prior work, ReMasker is both simple -- besides the missing values (i.e., naturally masked), we randomly ``re-mask'' another set of values, optimize the autoencoder by reconstructing this re-masked set, and apply the trained model to predict the missing values; and effective -- with extensive evaluation on benchmark datasets, we show that ReMasker performs on par with or outperforms state-of-the-art methods in terms of both imputation fidelity and utility under various missingness settings, while its performance advantage often increases with the ratio of missing data. さらに、ReMaskerはグラフデータの欠如と不変表現を学習しがちであることを示す理論的正当性についても検討する。 以上の結果から,マスキングモデリングは表データインプテーションのさらなる研究にとって有望な方向性であることが示唆された。 コードは公開されている。

We present ReMasker, a new method of imputing missing values in tabular data by extending the masked autoencoding framework. Compared with prior work, ReMasker is both simple -- besides the missing values (i.e., naturally masked), we randomly ``re-mask'' another set of values, optimize the autoencoder by reconstructing this re-masked set, and apply the trained model to predict the missing values; and effective -- with extensive evaluation on benchmark datasets, we show that ReMasker performs on par with or outperforms state-of-the-art methods in terms of both imputation fidelity and utility under various missingness settings, while its performance advantage often increases with the ratio of missing data. We further explore theoretical justification for its effectiveness, showing that ReMasker tends to learn missingness-invariant representations of tabular data. Our findings indicate that masked modeling represents a promising direction for further research on tabular data imputation. The code is publicly available.
翻訳日:2023-09-26 17:32:45 公開日:2023-09-25
# LLMによる誤報検出は可能か?

Can LLM-Generated Misinformation Be Detected? ( http://arxiv.org/abs/2309.13788v1 )

ライセンス: Link先を確認
Canyu Chen, Kai Shu(参考訳) 大規模言語モデル(llm)の出現は、変革的な影響をもたらした。 しかし、chatgptのようなllmを悪用して誤った情報を生成する可能性は、オンラインの安全と公共の信頼に深刻な懸念をもたらしている。 LLMが生成した誤報は、人間が書いた誤報よりも有害か? 我々は,検出難易度の観点からこの問題に取り組むことを提案する。 まず LLM 生成の誤情報を分類する。 次に,LLMを用いた誤情報生成手法の分類と検証を行った。 そこで,本研究では,llmが生成した誤情報を人間や検出者に対して,同じ意味を持つ人間の誤情報と比較して検出することが困難であることを示す。 また,llm時代の誤情報対策における発見の意義と対策について考察する。

The advent of Large Language Models (LLMs) has made a transformative impact. However, the potential that LLMs such as ChatGPT can be exploited to generate misinformation has posed a serious concern to online safety and public trust. A fundamental research question is: will LLM-generated misinformation cause more harm than human-written misinformation? We propose to tackle this question from the perspective of detection difficulty. We first build a taxonomy of LLM-generated misinformation. Then we categorize and validate the potential real-world methods for generating misinformation with LLMs. Then, through extensive empirical investigation, we discover that LLM-generated misinformation can be harder to detect for humans and detectors compared to human-written misinformation with the same semantics, which suggests it can have more deceptive styles and potentially cause more harm. We also discuss the implications of our discovery on combating misinformation in the age of LLMs and the countermeasures.
翻訳日:2023-09-26 17:32:30 公開日:2023-09-25
# 表現理論と量子近似最適化アルゴリズム

Of Representation Theory and Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2309.13787v1 )

ライセンス: Link先を確認
Boris Tsvelikhovskiy, Ilya Safro, Yuri Alexeev(参考訳) 本稿では,問題ハミルトニアンに内在する対称性を利用して量子近似最適化アルゴリズム(qaoa)の解析を行う。 我々は、$n$-element $d$-ary stringsの集合上で定義される最適化問題の一般化された定式化に焦点を当てる。 本研究の主な貢献は,当初提案されたQAOAの次元削減である。 これらの還元は元々の QAOA と同じ問題を保っているが、ミキサーの Hamiltonian と初期状態の点で異なる。 広大な QAOA 空間は $n$ の指数スケーリングの余計な次元を持ち、ある減少 QAOA 空間は多項式函数によって支配される次元を示す。 この現象は、対応する部分空間の多項式次元に対応する分割を提供することによって説明される。 その結果、削減されたQAOAパーティションは、他のものにはないユニークな古典解をカプセル化し、初期最適化問題の解数に対する低い境界を確立することができる。 提案手法は,回路の量子シミュレーションや古典シミュレーションといったqaoa手法の高速化や,バレン高原問題に対処するための潜在的なツールとして,実用上有望な利点を秘めている。

In this paper, the Quantum Approximate Optimization Algorithm (QAOA) is analyzed by leveraging symmetries inherent in problem Hamiltonians. We focus on the generalized formulation of optimization problems defined on the sets of $n$-element $d$-ary strings. Our main contribution encompasses dimension reductions for the originally proposed QAOA. These reductions retain the same problem Hamiltonian as the original QAOA but differ in terms of their mixer Hamiltonian, and initial state. The vast QAOA space has a daunting dimension of exponential scaling in $n$, where certain reduced QAOA spaces exhibit dimensions governed by polynomial functions. This phenomenon is illustrated in this paper, by providing partitions corresponding to polynomial dimensions in the corresponding subspaces. As a result, each reduced QAOA partition encapsulates unique classical solutions absent in others, allowing us to establish a lower bound on the number of solutions to the initial optimization problem. Our novel approach opens promising practical advantages in accelerating the class of QAOA approaches, both quantum-based and classical simulation of circuits, as well as a potential tool to cope with barren plateaus problem.
翻訳日:2023-09-26 17:32:15 公開日:2023-09-25
# 社会応用のための分布自由統計分散制御

Distribution-Free Statistical Dispersion Control for Societal Applications ( http://arxiv.org/abs/2309.13786v1 )

ライセンス: Link先を確認
Zhun Deng, Thomas P. Zollo, Jake C. Snell, Toniann Pitassi, Richard Zemel(参考訳) モデル性能に関する有限サンプル統計保証は、責任ある機械学習において重要な要素である。 以前の研究は、主に予測器の期待損失と、個々の予測が特定の範囲で損失値を引き起こす確率とのバウンダリングに重点を置いてきた。 しかし、多くの高度な応用において、損失分布の分散や、集団の異なるメンバーがアルゴリズムによる決定の不平等な影響を経験する程度を理解し制御することが重要である。 我々は,社会的な意味を持つ統計分散測度の分布自由制御の研究を開始し,よりリッチな統計汎関数の扱いを可能にする,単純で柔軟な枠組みを提案する。 本手法は, 毒性コメント検出, 医用画像, フィルムレコメンデーションの実験を通じて検証した。

Explicit finite-sample statistical guarantees on model performance are an important ingredient in responsible machine learning. Previous work has focused mainly on bounding either the expected loss of a predictor or the probability that an individual prediction will incur a loss value in a specified range. However, for many high-stakes applications, it is crucial to understand and control the dispersion of a loss distribution, or the extent to which different members of a population experience unequal effects of algorithmic decisions. We initiate the study of distribution-free control of statistical dispersion measures with societal implications and propose a simple yet flexible framework that allows us to handle a much richer class of statistical functionals beyond previous work. Our methods are verified through experiments in toxic comment detection, medical imaging, and film recommendation.
翻訳日:2023-09-26 17:31:55 公開日:2023-09-25
# マルチモーダル学習の計算的便益について

On the Computational Benefit of Multimodal Learning ( http://arxiv.org/abs/2309.13782v1 )

ライセンス: Link先を確認
Zhou Lu(参考訳) 人間の知覚は本質的に多様である。 同様に、機械は経験的世界を解釈するので、学習プロセスはマルチモーダルでなければならない。 最近の経験的マルチモーダル学習の成功は、このパラダイムを理解することの重要性を強調している。 しかし、マルチモーダル学習の堅固な理論基盤は、しばらくの間この分野を脱却してきた。 Lu (2023) による最近の研究は、マルチモーダル学習の非モーダル学習と比較して、より優れたサンプル複雑さを示しているが、別の基本的な疑問が残る。 この研究は、マルチモーダル学習の計算的利点に関する研究を開始する。 特定の条件下では、マルチモーダル学習は計算量で指数関数的に一助学習を上回ることが示される。 具体的には,マルチモーダルアルゴリズムによって多項式時間で解ける一様学習のためのnpハードな学習タスクを提案する。 我々の構成は、2つの半空間問題の交点に対する新しい修正に基づいている。

Human perception inherently operates in a multimodal manner. Similarly, as machines interpret the empirical world, their learning processes ought to be multimodal. The recent, remarkable successes in empirical multimodal learning underscore the significance of understanding this paradigm. Yet, a solid theoretical foundation for multimodal learning has eluded the field for some time. While a recent study by Lu (2023) has shown the superior sample complexity of multimodal learning compared to its unimodal counterpart, another basic question remains: does multimodal learning also offer computational advantages over unimodal learning? This work initiates a study on the computational benefit of multimodal learning. We demonstrate that, under certain conditions, multimodal learning can outpace unimodal learning exponentially in terms of computation. Specifically, we present a learning task that is NP-hard for unimodal learning but is solvable in polynomial time by a multimodal algorithm. Our construction is based on a novel modification to the intersection of two half-spaces problem.
翻訳日:2023-09-26 17:31:41 公開日:2023-09-25
# ICU受信予測のための説明可能な機械学習

Explainable Machine Learning for ICU Readmission Prediction ( http://arxiv.org/abs/2309.13781v1 )

ライセンス: Link先を確認
Alex de S\'a, Daniel Gould, Anna Fedyukova, Mitchell Nicholas, Lucy Dockrell, Calvin Fletcher, David Pilcher, Daniel Capurro, David Ascher, Khaled El-Khawas, Douglas Pires(参考訳) 集中治療ユニット(ICU)は複雑な病院環境を含み、臨床医による決定は患者の生活に高いリスクをもたらす。 その後、p合併症を減らすために包括的治療経路をたどらなければならない。 この環境における不確かで競合し、計画されていない側面は、ケアパスを均一に実施することの難しさを増大させる。 寛解は、短期間でicuに再入院した患者が死亡率が高く、資源利用率が高い場合に発生する、この経路の難しさに寄与する。 いくつかの研究は患者の医療情報を通じて寛解を予測しようとした。 読み出しを予測しながらある程度成功したが、これらの作品は読み出し予測を適切に評価、特徴付け、理解していない。 本研究は,多心性データベース(eICUコホートが166,355人,200,859人,6,021人)上で患者寛解をモデル化し,単心性(MIMIC IVコホートが382,278人,523,740人,5,984人)と多心性設定で検証する,標準化された説明可能な機械学習パイプラインを提案する。 我々の機械学習パイプラインは、ランダムフォレスト分類モデルを用いて、受信機動作特性曲線(AUC)の面積を最大0.7まで予測し、全体的な校正と検証セットの整合性を実現した。 構築されたモデルによって提供される説明から、主にバイタルサインや血液検査(例えば、アルブミン、血液尿素窒素、ヘモグロビン濃度)、人口動態(例えば、年齢、入場高さと体重)、ICU関連変数(例えば、単位型)に関する、洞察に富んだ結論を導出することができる。 これらの知見は、ICU患者を退院させながら、臨床医の意思決定において貴重な情報源を提供する。

The intensive care unit (ICU) comprises a complex hospital environment, where decisions made by clinicians have a high level of risk for the patients' lives. A comprehensive care pathway must then be followed to reduce p complications. Uncertain, competing and unplanned aspects within this environment increase the difficulty in uniformly implementing the care pathway. Readmission contributes to this pathway's difficulty, occurring when patients are admitted again to the ICU in a short timeframe, resulting in high mortality rates and high resource utilisation. Several works have tried to predict readmission through patients' medical information. Although they have some level of success while predicting readmission, those works do not properly assess, characterise and understand readmission prediction. This work proposes a standardised and explainable machine learning pipeline to model patient readmission on a multicentric database (i.e., the eICU cohort with 166,355 patients, 200,859 admissions and 6,021 readmissions) while validating it on monocentric (i.e., the MIMIC IV cohort with 382,278 patients, 523,740 admissions and 5,984 readmissions) and multicentric settings. Our machine learning pipeline achieved predictive performance in terms of the area of the receiver operating characteristic curve (AUC) up to 0.7 with a Random Forest classification model, yielding an overall good calibration and consistency on validation sets. From explanations provided by the constructed models, we could also derive a set of insightful conclusions, primarily on variables related to vital signs and blood tests (e.g., albumin, blood urea nitrogen and hemoglobin levels), demographics (e.g., age, and admission height and weight), and ICU-associated variables (e.g., unit type). These insights provide an invaluable source of information during clinicians' decision-making while discharging ICU patients.
翻訳日:2023-09-26 17:31:26 公開日:2023-09-25
# ibvc:補間駆動bフレームビデオ圧縮

IBVC: Interpolation-driven B-frame Video Compression ( http://arxiv.org/abs/2309.13835v1 )

ライセンス: Link先を確認
Meiqin Liu and Chenming Xu and Chao Yao and Weisi Lin and Yao Zhao(参考訳) 学習されたBフレームビデオ圧縮は、双方向の動き推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。 しかしながら、従来の学習アプローチでは、双方向の光フロー推定やビデオフレーム補間に依存するbフレームへの神経pフレームコーデックを直接拡張することが多かった。 それらは不正確な量子化運動と非効率な運動補償に苦しむ。 これらの問題に対処するために、補間駆動型Bフレームビデオ圧縮(IBVC)と呼ばれるシンプルだが効果的な構造を提案する。 提案手法は,ビデオフレーム補間とアーティファクトリダクション圧縮の2つの主要な操作に限られる。 IBVCは補間に基づくビットレートフリーMEMCを導入し、光フロー量子化や圧縮歪みの増大を避ける。 その後、重複ビットレートの消費を減らし、非整合アーティファクトに焦点を合わせるために、残差誘導マスクエンコーダを配置し、補間されたマルチスケールの依存関係で意味のあるコンテキストを適応的に選択する。 また,他の手法でMEMC符号化を行う代わりに,位置誤りやアーティファクトを除去する条件付き時空間デコーダを提案する。 Bフレーム符号化実験の結果、ICBVCは関連する最先端手法と比較して大幅に改善されていることが示された。 一方,本手法は,H.266 (VTM) のランダムアクセス (RA) 構成と比較してビットレートを削減できる。 コードはhttps://github.com/ruhig6/ibvcで入手できる。

Learned B-frame video compression aims to adopt bi-directional motion estimation and motion compensation (MEMC) coding for middle frame reconstruction. However, previous learned approaches often directly extend neural P-frame codecs to B-frame relying on bi-directional optical-flow estimation or video frame interpolation. They suffer from inaccurate quantized motions and inefficient motion compensation. To address these issues, we propose a simple yet effective structure called Interpolation-driven B-frame Video Compression (IBVC). Our approach only involves two major operations: video frame interpolation and artifact reduction compression. IBVC introduces a bit-rate free MEMC based on interpolation, which avoids optical-flow quantization and additional compression distortions. Later, to reduce duplicate bit-rate consumption and focus on unaligned artifacts, a residual guided masking encoder is deployed to adaptively select the meaningful contexts with interpolated multi-scale dependencies. In addition, a conditional spatio-temporal decoder is proposed to eliminate location errors and artifacts instead of using MEMC coding in other methods. The experimental results on B-frame coding demonstrate that IBVC has significant improvements compared to the relevant state-of-the-art methods. Meanwhile, our approach can save bit rates compared with the random access (RA) configuration of H.266 (VTM). The code will be available at https://github.com/ruhig6/IBVC.
翻訳日:2023-09-26 17:24:03 公開日:2023-09-25
# 知識グラフ補完のための事前双線形モデル

Prior Bilinear Based Models for Knowledge Graph Completion ( http://arxiv.org/abs/2309.13834v1 )

ライセンス: Link先を確認
Jiayi Li, Ruilin Luo, Jiaqi Sun, Jing Xiao, Yujiu Yang(参考訳) ビリニアベースのモデルは、知識グラフ補完(KGC)のための強力で広く使われているアプローチである。 双線型モデルはかなりの進歩を遂げているが、これらの研究は主に先行特性を無視しながら(例えば対称性パターンに基づく)後続特性に焦点を当てている。 本稿では,KGの特性を包括的にモデル化することを妨げる,双線形モデルでは捕捉できない「アイデンティティの法則」という先行特性について述べる。 この問題に対処するため,Unit Ball Bilinear Model (UniBi) というソリューションを導入する。 このモデルは理論上優位なだけでなく、最小限の制約によって非効率な学習を最小化することで、解釈可能性と性能を向上させる。 実験では、UniBiが先行特性をモデル化し、その解釈可能性と性能を検証する。

Bilinear based models are powerful and widely used approaches for Knowledge Graphs Completion (KGC). Although bilinear based models have achieved significant advances, these studies mainly concentrate on posterior properties (based on evidence, e.g. symmetry pattern) while neglecting the prior properties. In this paper, we find a prior property named "the law of identity" that cannot be captured by bilinear based models, which hinders them from comprehensively modeling the characteristics of KGs. To address this issue, we introduce a solution called Unit Ball Bilinear Model (UniBi). This model not only achieves theoretical superiority but also offers enhanced interpretability and performance by minimizing ineffective learning through minimal constraints. Experiments demonstrate that UniBi models the prior property and verify its interpretability and performance.
翻訳日:2023-09-26 17:23:37 公開日:2023-09-25
# 一般化ゼロショット学習のためのデュアル特徴拡張ネットワーク

Dual Feature Augmentation Network for Generalized Zero-shot Learning ( http://arxiv.org/abs/2309.13833v1 )

ライセンス: Link先を確認
Lei Xiang, Yuan Zhou, Haoran Duan, Yang Long(参考訳) ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。 ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。 しかし、これらの手法は、埋め込み空間における異なる属性の視覚的特徴の間の複雑な絡み合いをしばしば無視する。 さらに,同一カテゴリの画像における属性の多様性を考慮しない分類のための直接属性予測手法も採用している。 これらの課題に対処するために,視覚機能用と意味機能用という2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。 視覚的特徴拡張モジュールは属性の特徴を明示的に学習し、それらを切り離すためにコサイン距離を使用する。 セマンティック機能拡張モジュールでは、データセットの観点から実際の属性値と予測された属性値のギャップを埋めるオフセットを捉えるバイアス学習器を提案する。 さらに,地域的特徴とグローバル的特徴の対立を解消するための予測因子を2つ導入する。 3つのベンチマークによる実験結果から,最先端手法と比較して,提案手法の顕著な進歩が示された。 私たちのコードはhttps://github.com/Sion1/DFAN.comで公開されています。

Zero-shot learning (ZSL) aims to infer novel classes without training samples by transferring knowledge from seen classes. Existing embedding-based approaches for ZSL typically employ attention mechanisms to locate attributes on an image. However, these methods often ignore the complex entanglement among different attributes' visual features in the embedding space. Additionally, these methods employ a direct attribute prediction scheme for classification, which does not account for the diversity of attributes in images of the same category. To address these issues, we propose a novel Dual Feature Augmentation Network (DFAN), which comprises two feature augmentation modules, one for visual features and the other for semantic features. The visual feature augmentation module explicitly learns attribute features and employs cosine distance to separate them, thus enhancing attribute representation. In the semantic feature augmentation module, we propose a bias learner to capture the offset that bridges the gap between actual and predicted attribute values from a dataset's perspective. Furthermore, we introduce two predictors to reconcile the conflicts between local and global features. Experimental results on three benchmarks demonstrate the marked advancement of our method compared to state-of-the-art approaches. Our code is available at https://github.com/Sion1/DFAN.
翻訳日:2023-09-26 17:23:26 公開日:2023-09-25
# 統合情報理論による意識状態の量子重ね合わせの構築

Building a quantum superposition of conscious states with integrated information theory ( http://arxiv.org/abs/2309.13826v1 )

ライセンス: Link先を確認
Kelvin J. McQueen, Ian T. Durham, Markus P. Mueller(参考訳) ウィグナーの友人が考えた実験のように、意識の量子的重ね合わせがあるのだろうか? 意識の統合情報理論(IIT)は、これをよく定義された問題にしている。 IITによると、意識は統合情報(「Phi$」)によって与えられる測定可能な物理的量であり、システム内の意識の量は「Phi$」の量に相当する。 我々は最新のIIT形式(IIT4.0)を用いて、フィードバックダイアドとして知られる最も単純な$\Phi$システムを分析する。 次に、ダイアドを状態の重ね合わせにし、IITによれば意識状態の重ね合わせに対応する回路を提案する。 これを "Schr\"odinger's dyad" と呼ぶ。 したがって、IITが偽か単純なダイアドが意識的であり、意識状態の重畳に容易に適用可能であることを示す。 次に,この重ね合わせが不安定であると予測し,重ね合わせされた意識状態の差の尺度によって決定される確率で崩壊する,最も単純な意識集合モデルを明らかにする。 本分析により,統合情報理論の一般構造(IIT2.0,IIT3.0,IIT4.0,QIIT)と意識崩壊モデルの一般構造について,多くの重要な知見が得られる。

Could there be a quantum superposition of consciousness, as in the Wigner's friend thought experiment? The integrated information theory (IIT) of consciousness has turned this into a well-defined question. According to IIT, consciousness is a measurable physical quantity given by integrated information ($\Phi$), such that the amount of consciousness in a system corresponds to its amount of $\Phi$. We use the most recent IIT formalism (IIT4.0) to analyze the simplest non-zero $\Phi$ system known as a feedback dyad. We then propose a circuit that puts the dyad into a superposition of states which, according to IIT, would correspond to a superposition of conscious states. We refer to this as "Schr\"odinger's dyad". We therefore show that either IIT is false or the simple dyad is conscious and can easily be put into a superposition of conscious states. We then identify the simplest possible consciousness-collapse model, which predicts that this superposition is unstable and collapses at a rate determined by a measure of difference between the superposed conscious states. Our analysis will enable us to make a number of key observations about the general structure of integrated information theory (IIT2.0, IIT3.0, IIT4.0, and QIIT) and the general structure of consciousness-collapse models.
翻訳日:2023-09-26 17:23:07 公開日:2023-09-25
# NSOTree:ニューラルサバイバル斜め木

NSOTree: Neural Survival Oblique Tree ( http://arxiv.org/abs/2309.13825v1 )

ライセンス: Link先を確認
Xiaotong Sun and Peijie Qiu(参考訳) サバイバル分析(英: Survival analysis)は、検閲によって特徴づけられる時間と時間の情報として知られる特定の利害関係の経過を精査するために用いられる統計手法である。 近年,その表現能力と最先端性能により,ディープラーニングに基づく手法がこの分野を支配している。 しかし、ディープニューラルネットワークのブラックボックスの性質は、現実のサバイバルアプリケーションで望まれる解釈可能性を妨げるが、これまではほとんど無視されてきた。 対照的に、従来の木ベースの手法は解釈可能性において有利であるが、欲望拡大によるグローバルオプティマの近似が不可能である。 本稿では,ニューラルネットワークと木に基づく手法の強みを活かし,解釈性を維持しつつ複雑な関数を近似する能力に着目した。 そこで本研究では,生存分析のためのニューラルネットワーク型斜め木(NSOTree)を提案する。 具体的には、NSOTreeはReLUネットワークから派生したもので、プラグアンドプレイ方式で既存のサバイバルモデルに容易に組み込むことができる。 シミュレーションおよび実生存データセットの評価により,提案手法の有効性を性能と解釈可能性の観点から検証した。

Survival analysis is a statistical method employed to scrutinize the duration until a specific event of interest transpires, known as time-to-event information characterized by censorship. Recently, deep learning-based methods have dominated this field due to their representational capacity and state-of-the-art performance. However, the black-box nature of the deep neural network hinders its interpretability, which is desired in real-world survival applications but has been largely neglected by previous works. In contrast, conventional tree-based methods are advantageous with respect to interpretability, while consistently grappling with an inability to approximate the global optima due to greedy expansion. In this paper, we leverage the strengths of both neural networks and tree-based methods, capitalizing on their ability to approximate intricate functions while maintaining interpretability. To this end, we propose a Neural Survival Oblique Tree (NSOTree) for survival analysis. Specifically, the NSOTree was derived from the ReLU network and can be easily incorporated into existing survival models in a plug-and-play fashion. Evaluations on both simulated and real survival datasets demonstrated the effectiveness of the proposed method in terms of performance and interpretability.
翻訳日:2023-09-26 17:22:45 公開日:2023-09-25
# PartICLE: 微粒化認識のための部分発見とコントラスト学習

PARTICLE: Part Discovery and Contrastive Learning for Fine-grained Recognition ( http://arxiv.org/abs/2309.13822v1 )

ライセンス: Link先を確認
Oindrila Saha, Subhransu Maji(参考訳) 我々は,細粒度分類とセグメンテーションタスクのための表現を自己教師あり方式で精錬する手法を開発した。 インスタンス識別型コントラスト学習に基づく微調整手法は, あまり効果的ではないことが判明し, 細かな分類には, 部分特異的な変分認識が不可欠であることが示唆された。 本稿では,部分中心等分散と不変目標を組み込んだ反復学習手法を提案する。 まず、ピクセル表現をクラスタ化して部品を発見する。 この課題に最も適した畳み込みおよび視覚変換器ネットワークからの表現を分析する。 そして、部分中心学習ステップが画像内の部分の表現を集約してコントラストする。 これにより、データセット間の画像分類と部分分割タスクのパフォーマンスが向上することを示す。 例えば、線形評価スキームでは、自己教師付き学習手法であるDetConを使用してImageNetでトレーニングされたResNet50の分類精度が、Caltech-UCSD Birdsで35.4%から42.0%、FGVC Aircraftで35.5%から44.1%、Stanford Carsで29.7%から37.4%に改善されている。 また,本手法を用いた少数ショット部分分割作業では,インスタンス識別学習がそれほど効果的ではなかった。 より小さいが一貫性のある改良は、トランスフォーマーに基づくより強力なネットワークでも見られる。

We develop techniques for refining representations for fine-grained classification and segmentation tasks in a self-supervised manner. We find that fine-tuning methods based on instance-discriminative contrastive learning are not as effective, and posit that recognizing part-specific variations is crucial for fine-grained categorization. We present an iterative learning approach that incorporates part-centric equivariance and invariance objectives. First, pixel representations are clustered to discover parts. We analyze the representations from convolutional and vision transformer networks that are best suited for this task. Then, a part-centric learning step aggregates and contrasts representations of parts within an image. We show that this improves the performance on image classification and part segmentation tasks across datasets. For example, under a linear-evaluation scheme, the classification accuracy of a ResNet50 trained on ImageNet using DetCon, a self-supervised learning approach, improves from 35.4% to 42.0% on the Caltech-UCSD Birds, from 35.5% to 44.1% on the FGVC Aircraft, and from 29.7% to 37.4% on the Stanford Cars. We also observe significant gains in few-shot part segmentation tasks using the proposed technique, while instance-discriminative learning was not as effective. Smaller, yet consistent, improvements are also observed for stronger networks based on transformers.
翻訳日:2023-09-26 17:22:27 公開日:2023-09-25
# mma-net:cobb角自動計測のためのマルチモルフォロジーアウェアネットワーク

MMA-Net: Multiple Morphology-Aware Network for Automated Cobb Angle Measurement ( http://arxiv.org/abs/2309.13817v1 )

ライセンス: Link先を確認
Zhengxuan Qiu, Jie Yang, Jiankun Wang(参考訳) スコリシスの診断と評価は脊椎X線画像のコブ角の測定に大きく依存する。 ランドマーク検出,傾き予測,脊椎セグメンテーションを用いたディープラーニング技術が出現し,コブ角度の自動計測が普及している。 しかし、これらの手法は、高雑音感度、複雑な計算手順、一種類の形態情報への排他的依存などの困難に直面する。 本稿では,多椎骨形態を注意情報として統合することにより,コブ角度計測精度を向上させる新しい枠組みであるmultiple morphology-aware network (mma-net)を提案する。 mma-netでは、まず脊椎x線画像をセグメンテーションネットワークに供給し、複数の形態情報(ピッチ領域、センターライン、バウンダリ)を生成し、その後、回帰モジュールの入力として元のx線画像をセグメンテーションマップに結合して正確なコブ角測定を行う。 さらに,セグメント化と回帰ネットワークトレーニングのための共同損失関数を考案した。 我々は,AASCEチャレンジデータセットを用いて,SMAPEの7.28%,MAEの3.18{\deg}において優れた性能を示し,他の優れた手法と比較して高い競争力を示す。 その結果,自動的,効率的,信頼性の高いコブ角測定が可能となった。

Scoliosis diagnosis and assessment depend largely on the measurement of the Cobb angle in spine X-ray images. With the emergence of deep learning techniques that employ landmark detection, tilt prediction, and spine segmentation, automated Cobb angle measurement has become increasingly popular. However, these methods encounter difficulties such as high noise sensitivity, intricate computational procedures, and exclusive reliance on a single type of morphological information. In this paper, we introduce the Multiple Morphology-Aware Network (MMA-Net), a novel framework that improves Cobb angle measurement accuracy by integrating multiple spine morphology as attention information. In the MMA-Net, we first feed spine X-ray images into the segmentation network to produce multiple morphological information (spine region, centerline, and boundary) and then concatenate the original X-ray image with the resulting segmentation maps as input for the regression module to perform precise Cobb angle measurement. Furthermore, we devise joint loss functions for our segmentation and regression network training, respectively. We evaluate our method on the AASCE challenge dataset and achieve superior performance with the SMAPE of 7.28% and the MAE of 3.18{\deg}, indicating a strong competitiveness compared to other outstanding methods. Consequently, we can offer clinicians automated, efficient, and reliable Cobb angle measurement.
翻訳日:2023-09-26 17:22:03 公開日:2023-09-25
# DVI-SLAM: デュアルビジュアル慣性SLAMネットワーク

DVI-SLAM: A Dual Visual Inertial SLAM Network ( http://arxiv.org/abs/2309.13814v1 )

ライセンス: Link先を確認
Xiongfeng Peng, Zhihua Liu, Weiming Li, Ping Tan, SoonYong Cho, Qiang Wang(参考訳) 近年,slam(deep learning based visual concurrent localization and mapping)法が大きな進歩を遂げている。 しかし、視覚情報を完全に利用する方法や、慣性測定ユニット(IMU)と統合する方法については、潜在的な研究価値がある。 本稿では,双対視覚因子を持つ新しいディープスラムネットワークを提案する。 基本的な考え方は、光度係数と再射影因子の両方を多要素データアソシエーションモジュールを通じてエンドツーエンドの微分可能な構造に統合することである。 提案するネットワークは,両視覚要因の信頼度マップを動的に学習・調整し,さらにIMU因子を含むように拡張可能であることを示す。 大規模な実験により,提案手法は,TartanAir,EuRoC,ETH3D-SLAMなど,いくつかの公開データセットにおいて,最先端の手法よりも優れていた。 具体的には、3つの因子を動的に融合させると、EuRoCデータセット上の単分子およびステレオ構成の絶対軌道誤差がそれぞれ45.3%、36.2%減少する。

Recent deep learning based visual simultaneous localization and mapping (SLAM) methods have made significant progress. However, how to make full use of visual information as well as better integrate with inertial measurement unit (IMU) in visual SLAM has potential research value. This paper proposes a novel deep SLAM network with dual visual factors. The basic idea is to integrate both photometric factor and re-projection factor into the end-to-end differentiable structure through multi-factor data association module. We show that the proposed network dynamically learns and adjusts the confidence maps of both visual factors and it can be further extended to include the IMU factors as well. Extensive experiments validate that our proposed method significantly outperforms the state-of-the-art methods on several public datasets, including TartanAir, EuRoC and ETH3D-SLAM. Specifically, when dynamically fusing the three factors together, the absolute trajectory error for both monocular and stereo configurations on EuRoC dataset has reduced by 45.3% and 36.2% respectively.
翻訳日:2023-09-26 17:21:39 公開日:2023-09-25
# 時間的行動ローカライゼーションのための境界認識型提案生成法

Boundary-Aware Proposal Generation Method for Temporal Action Localization ( http://arxiv.org/abs/2309.13810v1 )

ライセンス: Link先を確認
Hao Zhang, Chunyan Feng, Jiahui Yang, Zheng Li, Caili Guo(参考訳) テンポラル・アクション・ローカライゼーション(TAL)の目的は、ビデオ内のアクションのカテゴリと時間的境界を見つけることである。 ほとんどの TAL 法は時間境界ではなく行動ラベルに敏感な行動認識モデルに大きく依存している。 さらに重要なことに、ピクセルのアクションフレームに似ているが意味的に類似している背景フレームを考える作品はほとんどない。 上記の課題に対処するため,コントラスト学習を伴う境界認識提案生成(BAPG)手法を提案する。 具体的には、上記の背景フレームをハード負のサンプルとして定義する。 BAPGの識別を改善するために, 強い負のマイニングによるコントラスト学習を導入する。 BAPGは既存のTALネットワークアーキテクチャとは独立しているため、主流のTALモデルにプラグイン・アンド・プレイを適用できる。 THUMOS14とActivityNet-1.3の大規模な実験結果から、BAPGはTALの性能を大幅に改善できることが示された。

The goal of Temporal Action Localization (TAL) is to find the categories and temporal boundaries of actions in an untrimmed video. Most TAL methods rely heavily on action recognition models that are sensitive to action labels rather than temporal boundaries. More importantly, few works consider the background frames that are similar to action frames in pixels but dissimilar in semantics, which also leads to inaccurate temporal boundaries. To address the challenge above, we propose a Boundary-Aware Proposal Generation (BAPG) method with contrastive learning. Specifically, we define the above background frames as hard negative samples. Contrastive learning with hard negative mining is introduced to improve the discrimination of BAPG. BAPG is independent of the existing TAL network architecture, so it can be applied plug-and-play to mainstream TAL models. Extensive experimental results on THUMOS14 and ActivityNet-1.3 demonstrate that BAPG can significantly improve the performance of TAL.
翻訳日:2023-09-26 17:21:23 公開日:2023-09-25
# 時系列コレクションの予測:特徴に基づく方法

Forecasting large collections of time series: feature-based methods ( http://arxiv.org/abs/2309.13807v1 )

ライセンス: Link先を確認
Li Li, Feng Li, Yanfei Kang(参考訳) 経済学やその他の多くの予測領域において、現実世界の問題は特定のデータ生成プロセスを想定した単一のモデルでは複雑すぎる。 異なる手法の予測性能は、時系列の性質によって変化する。 時系列の膨大なコレクションを予測する際には,特徴に基づくモデル選択と特徴に基づくモデル組み合わせという時系列特徴を用いた2つのアプローチが開発されている。 本章では,オープンソースソフトウェア実装を参考に,最先端の機能ベース手法について論じる。

In economics and many other forecasting domains, the real world problems are too complex for a single model that assumes a specific data generation process. The forecasting performance of different methods changes depending on the nature of the time series. When forecasting large collections of time series, two lines of approaches have been developed using time series features, namely feature-based model selection and feature-based model combination. This chapter discusses the state-of-the-art feature-based methods, with reference to open-source software implementations.
翻訳日:2023-09-26 17:21:09 公開日:2023-09-25
# ハード領域発見によるビデオオブジェクトセグメンテーションの敵対的攻撃

Adversarial Attacks on Video Object Segmentation with Hard Region Discovery ( http://arxiv.org/abs/2309.13857v1 )

ライセンス: Link先を確認
Ping Li and Yu Zhang and Li Yuan and Jian Zhao and Xianghua Xu and Xiaoqin Zhang(参考訳) ビデオオブジェクトのセグメンテーションは、ビデオ編集、自律運転、人間とロボットの相互作用など、様々なコンピュータビジョンタスクに適用されている。 しかし、深層ニューラルネットワークに基づく手法は、ほぼ人間に受け入れられない摂動によって攻撃される入力である敵の例に対して脆弱であり、敵(すなわち攻撃者)はセグメンテーションモデルを騙して不正確なピクセルレベルの予測を行う。 これは、入力ビデオへの小さな摂動が攻撃リスクをもたらすため、高要求タスクにおけるセキュリティ上の問題を引き起こす。 逆の例は分類に広く用いられているが、ビデオオブジェクトのセグメンテーションではほとんど研究されていない。 コンピュータビジョンにおける既存の関連する手法は、カテゴリの事前知識を必要とするか、特定のタスクの特別な設計のために直接適用できないかのいずれかであり、ピクセル単位の領域攻撃を考慮できない。 したがって、この研究は、ハード領域発見による第1フレーム攻撃によって、VOSに敵対的な影響を及ぼすオブジェクト非依存の敵を開発する。 特にセグメンテーションモデルからの勾配を利用して、フレーム内の背景から画素単位の物体を特定するのが難しく、容易に混乱した領域を発見する。 これは、第1フレームを攻撃するための強力な敵力を持つ摂動を生成するのに役立つ硬度マップを提供する。 3つのベンチマークに関する実証研究は、攻撃者が最先端のビデオオブジェクトセグメンテーションモデルの性能を著しく低下させていることを示している。

Video object segmentation has been applied to various computer vision tasks, such as video editing, autonomous driving, and human-robot interaction. However, the methods based on deep neural networks are vulnerable to adversarial examples, which are the inputs attacked by almost human-imperceptible perturbations, and the adversary (i.e., attacker) will fool the segmentation model to make incorrect pixel-level predictions. This will rise the security issues in highly-demanding tasks because small perturbations to the input video will result in potential attack risks. Though adversarial examples have been extensively used for classification, it is rarely studied in video object segmentation. Existing related methods in computer vision either require prior knowledge of categories or cannot be directly applied due to the special design for certain tasks, failing to consider the pixel-wise region attack. Hence, this work develops an object-agnostic adversary that has adversarial impacts on VOS by first-frame attacking via hard region discovery. Particularly, the gradients from the segmentation model are exploited to discover the easily confused region, in which it is difficult to identify the pixel-wise objects from the background in a frame. This provides a hardness map that helps to generate perturbations with a stronger adversarial power for attacking the first frame. Empirical studies on three benchmarks indicate that our attacker significantly degrades the performance of several state-of-the-art video object segmentation models.
翻訳日:2023-09-26 17:14:07 公開日:2023-09-25
# DISeR:強化学習によるイメージングシステムの設計

DISeR: Designing Imaging Systems with Reinforcement Learning ( http://arxiv.org/abs/2309.13851v1 )

ライセンス: Link先を確認
Tzofi Klinghoffer, Kushagra Tiwary, Nikhil Behari, Bhavya Agrawalla, Ramesh Raskar(参考訳) 撮像システムは、世界の視覚情報をエンコードするカメラと、このエンコーディングを解釈する知覚モデルで構成される。 カメラは(1)照明源、(2)光学素子、(3)センサーを含み、一方で知覚モデルは(4)アルゴリズムを使用する。 これら4つのビルディングブロックの組み合わせを全て直接検索してイメージングシステムを設計することは、探索空間のサイズのため困難である。 さらに、カメラと知覚モデルはしばしば独立して設計され、準最適タスク性能をもたらす。 本稿では,これら4つの構築ブロックを文脈自由文法(CFG)として定式化し,学習カメラデザイナと自動検索することで,タスク固有認識モデルと共同で撮像システムを最適化する。 cfgを状態動作空間に変換することで、カメラデザイナーが強化学習を用いてどのように実装され、可能な撮像システム構成の組合せ空間をインテリジェントに探索できるかを示す。 自動運転車の深度推定とカメラリグ設計という2つの課題に対する我々のアプローチを実証し、我々の手法が業界全体の基準を上回るリグを生み出すことを示した。 提案手法は画像システム設計の自動化に向けた重要なステップであると考えている。

Imaging systems consist of cameras to encode visual information about the world and perception models to interpret this encoding. Cameras contain (1) illumination sources, (2) optical elements, and (3) sensors, while perception models use (4) algorithms. Directly searching over all combinations of these four building blocks to design an imaging system is challenging due to the size of the search space. Moreover, cameras and perception models are often designed independently, leading to sub-optimal task performance. In this paper, we formulate these four building blocks of imaging systems as a context-free grammar (CFG), which can be automatically searched over with a learned camera designer to jointly optimize the imaging system with task-specific perception models. By transforming the CFG to a state-action space, we then show how the camera designer can be implemented with reinforcement learning to intelligently search over the combinatorial space of possible imaging system configurations. We demonstrate our approach on two tasks, depth estimation and camera rig design for autonomous vehicles, showing that our method yields rigs that outperform industry-wide standards. We believe that our proposed approach is an important step towards automating imaging system design.
翻訳日:2023-09-26 17:13:41 公開日:2023-09-25
# トップKスパース・ソフトマックス・ゲーティング・ミックスの統計的展望

Statistical Perspective of Top-K Sparse Softmax Gating Mixture of Experts ( http://arxiv.org/abs/2309.13850v1 )

ライセンス: Link先を確認
Huy Nguyen, Pedram Akbarian, Fanqi Yan, Nhat Ho(参考訳) 計算コストを増大させることなく、大規模なディープラーニングアーキテクチャのスケールアップに広く使用されている。 現実世界の応用で人気があるにもかかわらず、そのゲーティング関数の理論的理解は未解決の問題のままである。 主な課題は、入力空間を異なる振る舞いを持つ複数の領域に分割するトップKスパース・ソフトマックスゲーティング関数の構造である。 専門家のガウス混合に焦点を合わせることにより、トップKスパース・ソフトマックスゲーティング関数が密度およびパラメータ推定に与える影響に関する理論的結果を確立する。 その結果,入力領域の異なる振る舞いを捉えるために,パラメータ間の新規な損失関数を定義した。 実数のエキスパート $k_{\ast}$ が知られている場合、密度とパラメータ推定の収束率の両方がサンプルサイズでパラメトリックであることを示す。 しかし、$k_{\ast}$が未知となり、真のモデルが$k$の専門家の混合によって過剰に特定されると、この結果から、上位Kスパースソフトマックスゲーティング関数から選択された専門家の数は、真のパラメータに関連するボロノイセルの総濃度を超えなければならず、密度推定の収束を保証することが示唆された。 さらに, この条件下では, 密度推定速度はパラメトリックのままであるが, ソフトマックスゲーティングとエキスパート関数の内在的相互作用により, パラメータ推定速度は著しく遅くなる。

Top-K sparse softmax gating mixture of experts has been widely used for scaling up massive deep-learning architectures without increasing the computational cost. Despite its popularity in real-world applications, the theoretical understanding of that gating function has remained an open problem. The main challenge comes from the structure of the top-K sparse softmax gating function, which partitions the input space into multiple regions with distinct behaviors. By focusing on a Gaussian mixture of experts, we establish theoretical results on the effects of the top-K sparse softmax gating function on both density and parameter estimations. Our results hinge upon defining novel loss functions among parameters to capture different behaviors of the input regions. When the true number of experts $k_{\ast}$ is known, we demonstrate that the convergence rates of density and parameter estimations are both parametric on the sample size. However, when $k_{\ast}$ becomes unknown and the true model is over-specified by a Gaussian mixture of $k$ experts where $k > k_{\ast}$, our findings suggest that the number of experts selected from the top-K sparse softmax gating function must exceed the total cardinality of a certain number of Voronoi cells associated with the true parameters to guarantee the convergence of the density estimation. Moreover, while the density estimation rate remains parametric under this setting, the parameter estimation rates become substantially slow due to an intrinsic interaction between the softmax gating and expert functions.
翻訳日:2023-09-26 17:13:21 公開日:2023-09-25
# モーダリティにおけるマルチモードトークンレベルプロンプトアライメントのチューニング

Tuning Multi-mode Token-level Prompt Alignment across Modalities ( http://arxiv.org/abs/2309.13847v1 )

ライセンス: Link先を確認
Dongsheng Wang, Miaoge Li, Xinyang Liu, MingSheng Xu, Bo Chen, Hanwang Zhang(参考訳) 事前訓練された視覚言語モデルのプロンプトチューニングは、オープンワールドの視覚概念理解を改善する大きな可能性を示している。 しかしながら、先行研究は主にシングルモード(各モダリティに対して1つのプロンプトのみ)と全体レベル(画像または文)のセマンティクスアライメントにのみ焦点が当てられ、サンプルの多様性を捉えられず、最適でないプロンプト発見に繋がる。 この制限に対処するために,モダリティ間のプロンプトトークンの集合を学習・調整するために最適な輸送手段を利用するマルチモードトークンレベルチューニングフレームワークを提案する。 具体的には2つの重要な要素に依存しています 1)多モードは多様な意味表現を保証する発見を促す。 2)細かな類似性を探求するトークンレベルのアライメント。 したがって、相似性はモダリティ固有の集合間の階層輸送問題として計算することができる。 一般的な画像認識ベンチマークに関する広範囲な実験は,提案手法の優れた一般化と少ない撮影能力を示している。 質的分析は、学習されたプロンプトトークンが多様な視覚概念をキャプチャする能力を持っていることを示している。

Prompt tuning pre-trained vision-language models have demonstrated significant potential in improving open-world visual concept understanding. However, prior works only primarily focus on single-mode (only one prompt for each modality) and holistic level (image or sentence) semantic alignment, which fails to capture the sample diversity, leading to sub-optimal prompt discovery. To address the limitation, we propose a multi-mode token-level tuning framework that leverages the optimal transportation to learn and align a set of prompt tokens across modalities. Specifically, we rely on two essential factors: 1) multi-mode prompts discovery, which guarantees diverse semantic representations, and 2) token-level alignment, which helps explore fine-grained similarity. Thus, the similarity can be calculated as a hierarchical transportation problem between the modality-specific sets. Extensive experiments on popular image recognition benchmarks show the superior generalization and few-shot abilities of our approach. The qualitative analysis demonstrates that the learned prompt tokens have the ability to capture diverse visual concepts.
翻訳日:2023-09-26 17:12:53 公開日:2023-09-25
# 一次元トポロジカルチェーンにおけるエッジ状態の制御可能な操作

Controllable Operations of Edge States in Cross-One-dimensional Topological Chains ( http://arxiv.org/abs/2309.13846v1 )

ライセンス: Link先を確認
Xian-Liang Lu and Ze-Liang Xiang(参考訳) 位相的エッジ状態は最近、障害や欠陥の存在における強固さから、強い関心を集めている。 しかし、そのような状態を操作するためのほとんどのアプローチは、系のハミルトニアンのグローバルな変調を必要とする。 本研究では,一次元トポロジカル原子鎖間の4ノード接合の局所的相互作用を用いたエッジ状態制御法を開発した。 これらの接合相互作用は、異なる幾何対称性内のハイブリダライズされたエッジ状態間の可変結合を生じさせ、強固な量子状態転移と2つの位相鎖間のスワップゲートを実装できる。 さらに、原子が2つの導波路に正確に位置付けられている場合、環境によって引き起こされる相関減衰により、反対称エッジ状態がサブラジアントダイナミクスを示し、非常に長いコヒーレンス時間を示す。 これらの発見は、将来トポロジカルエッジ状態を持つ量子技術の新たな可能性を開く。

Topological edge states are recently attracting intense interest due to their robustness in the presence of disorder and defects. However, most approaches for manipulating such states require global modulations of the system's Hamiltonian. In this work, we develop a method to control edge states using local interactions of a four-node junction between cross-one-dimensional topological atomic chains. These junction interactions can give rise to tunable couplings between the hybridized edge states within different geometric symmetry, allowing us to implement robust quantum state transfer and SWAP gate between the two topological chains, where the edge states are pair-encoded as a single qubit. Moreover, when the atoms are precisely positioned to couple waveguides, the correlated decay caused by the environment enables the anti-symmetric edge states to present subradiant dynamics and thus show extremely long coherence time. These findings open up new possibilities for quantum technologies with topological edge states in the future.
翻訳日:2023-09-26 17:12:34 公開日:2023-09-25
# Traj-LO: 効果的な連続時間軌道を用いたLiDAR専用オドメトリーの防御

Traj-LO: In Defense of LiDAR-Only Odometry Using an Effective Continuous-Time Trajectory ( http://arxiv.org/abs/2309.13842v1 )

ライセンス: Link先を確認
Xin Zheng, Jianke Zhu(参考訳) LiDAR Odometryは多くのロボットアプリケーションにおいて重要なコンポーネントである。 慣性センサーの追加による精度向上に重点を置く主流のアプローチとは異なり、このレターでは連続時間の観点からLiDARのみの計測能力について検討する。 第一に、LiDARの測定は、高頻度で連続的に捕捉されるストリーミングポイントと見なされる。 第二に、LiDAR運動は単純だが効果的な連続時間軌道によってパラメータ化される。 そこで,提案したTraj-LO手法は,LiDAR点からの幾何情報と運動制約を軌道の滑らかさから密結合することにより,空間的時間的一貫したLiDARの動きを回復しようとする。 このフレームワークは様々な種類のLiDARとマルチLiDARシステム向けに一般化されている。 提案したLiDARのみのアプローチは,運動状態がIMUの測定範囲を超えた場合においても,その堅牢性と有効性を示す。 私たちの実装はgithubでオープンソースです。

LiDAR Odometry is an essential component in many robotic applications. Unlike the mainstreamed approaches that focus on improving the accuracy by the additional inertial sensors, this letter explores the capability of LiDAR-only odometry through a continuous-time perspective. Firstly, the measurements of LiDAR are regarded as streaming points continuously captured at high frequency. Secondly, the LiDAR movement is parameterized by a simple yet effective continuous-time trajectory. Therefore, our proposed Traj-LO approach tries to recover the spatial-temporal consistent movement of LiDAR by tightly coupling the geometric information from LiDAR points and kinematic constraints from trajectory smoothness. This framework is generalized for different kinds of LiDAR as well as multi-LiDAR systems. Extensive experiments on the public datasets demonstrate the robustness and effectiveness of our proposed LiDAR-only approach, even in scenarios where the kinematic state exceeds the IMU's measuring range. Our implementation is open-sourced on GitHub.
翻訳日:2023-09-26 17:12:17 公開日:2023-09-25
# アンサンブル学習型Windows PEマルウェア検出装置に対する対向サンプルの有効性について

On the Effectiveness of Adversarial Samples against Ensemble Learning-based Windows PE Malware Detectors ( http://arxiv.org/abs/2309.13841v1 )

ライセンス: Link先を確認
Trong-Nghia To, Danh Le Kim, Do Thi Thu Hien, Nghi Hoang Khoa, Hien Do Hoang, Phan The Duy, and Van-Hau Pham(参考訳) 近年、特にマルウェアの検出や予防において、機械学習(ml)をサイバーセキュリティの分野に適用することへの関心が高まっている。 マルウェア分析に関するいくつかの研究が提案され、学術的および実践的な双方に有望な結果を提供している。 これらの研究において、GAN(Generative Adversarial Networks)やReinforcement Learning(Reinforcement Learning)は、マルウェアの作者がアンチウイルスソフトウェアを避ける変成マルウェアを作るのを助ける。 本研究では,GANとRLモデルを組み合わせることで,MalGANモデルの限界を克服し,アンサンブル学習に基づく検出に対処する突然変異システムを提案する。 提案するFeaGANモデルは,DQEAF(Deep Q-network anti-malware Engines Attacking Framework)と呼ばれるRLモデルを組み込むことで,MalGANに基づく。 RLモデルは、フォーマットの保存、実行可能性の保存、悪意の保存を含む、Windows Portable Executableマルウェアに対する敵攻撃を行う際の3つの主要な課題に対処する。 FeaGANモデルでは、アンサンブル学習を用いて、生成された対向パターンを用いて、マルウェア検出器の回避能力を高める。 実験の結果,選択した変異株の100\%が実行ファイルの形式を保ちつつ,実行可能性保存と悪意保存の両面で一定の成功を達成し,安定した成功率を達成した。

Recently, there has been a growing focus and interest in applying machine learning (ML) to the field of cybersecurity, particularly in malware detection and prevention. Several research works on malware analysis have been proposed, offering promising results for both academic and practical applications. In these works, the use of Generative Adversarial Networks (GANs) or Reinforcement Learning (RL) can aid malware creators in crafting metamorphic malware that evades antivirus software. In this study, we propose a mutation system to counteract ensemble learning-based detectors by combining GANs and an RL model, overcoming the limitations of the MalGAN model. Our proposed FeaGAN model is built based on MalGAN by incorporating an RL model called the Deep Q-network anti-malware Engines Attacking Framework (DQEAF). The RL model addresses three key challenges in performing adversarial attacks on Windows Portable Executable malware, including format preservation, executability preservation, and maliciousness preservation. In the FeaGAN model, ensemble learning is utilized to enhance the malware detector's evasion ability, with the generated adversarial patterns. The experimental results demonstrate that 100\% of the selected mutant samples preserve the format of executable files, while certain successes in both executability preservation and maliciousness preservation are achieved, reaching a stable success rate.
翻訳日:2023-09-26 17:11:59 公開日:2023-09-25
# K空間の充填と画像の微細化:ダイナミック・マルチコントラストMRI画像再構成のためのプロンプト

Fill the K-Space and Refine the Image: Prompting for Dynamic and Multi-Contrast MRI Reconstruction ( http://arxiv.org/abs/2309.13839v1 )

ライセンス: Link先を確認
Bingyu Xin, Meng Ye, Leon Axel, Dimitris N. Metaxas(参考訳) ダイナミックまたはマルチコントラスト磁気共鳴画像(MRI)再構成の鍵は、フレーム間またはコントラスト間情報を探索することにある。 現在、MRI再構成の反復的なステップと学習可能なニューラルネットワーク層を組み合わせたアンロールモデルが、MRI再構成の最良のパフォーマンス手法となっている。 However, there are two main limitations to overcome: firstly, the unrolled model structure and GPU memory constraints restrict the capacity of each denoising block in the network, impeding the effective extraction of detailed features for reconstruction; secondly, the existing model lacks the flexibility to adapt to variations in the input, such as different contrasts, resolutions or views, necessitating the training of separate models for each input type, which is inefficient and may lead to insufficient reconstruction. 本稿では,これらの制約に対処する2段階MRI再構成パイプラインを提案する。 最初の段階は、物理に基づく再構成問題としてアプローチした、欠落したk空間データを埋めることである。 まず,隣接するフレーム/コントラストとチャネルアテンションを利用して,フレーム/コントラスト間の相関関係を捕捉するシンプルなベースラインモデルを提案する。 そして,異なる視点,コントラスト,隣接型,アクセラレーション因子からオールインワンMRI再構成を行うために,ベースラインモデルをプロンプトベースラーニングアプローチであるPromptMRに拡張する。 第2段階は第1段階から復元を洗練することであり,画像領域の隣接フレーム/コントラストから特徴を融合させる汎用的な映像復元問題として扱う。 以上の結果から,提案手法は従来のMRIの高速化手法よりも有意に優れていた。

The key to dynamic or multi-contrast magnetic resonance imaging (MRI) reconstruction lies in exploring inter-frame or inter-contrast information. Currently, the unrolled model, an approach combining iterative MRI reconstruction steps with learnable neural network layers, stands as the best-performing method for MRI reconstruction. However, there are two main limitations to overcome: firstly, the unrolled model structure and GPU memory constraints restrict the capacity of each denoising block in the network, impeding the effective extraction of detailed features for reconstruction; secondly, the existing model lacks the flexibility to adapt to variations in the input, such as different contrasts, resolutions or views, necessitating the training of separate models for each input type, which is inefficient and may lead to insufficient reconstruction. In this paper, we propose a two-stage MRI reconstruction pipeline to address these limitations. The first stage involves filling the missing k-space data, which we approach as a physics-based reconstruction problem. We first propose a simple yet efficient baseline model, which utilizes adjacent frames/contrasts and channel attention to capture the inherent inter-frame/-contrast correlation. Then, we extend the baseline model to a prompt-based learning approach, PromptMR, for all-in-one MRI reconstruction from different views, contrasts, adjacent types, and acceleration factors. The second stage is to refine the reconstruction from the first stage, which we treat as a general video restoration problem to further fuse features from neighboring frames/contrasts in the image domain. Extensive experiments show that our proposed method significantly outperforms previous state-of-the-art accelerated MRI reconstruction methods.
翻訳日:2023-09-26 17:11:31 公開日:2023-09-25
# Nesterov Smoothing を用いたペナル化主成分分析

Penalized Principal Component Analysis using Nesterov Smoothing ( http://arxiv.org/abs/2309.13838v1 )

ライセンス: Link先を確認
Rebecca M. Hurwitz and Georg Hahn(参考訳) PCA (Principal component analysis) によって計算される主成分は、伝統的にゲノムデータの次元性を減らしたり、集団の成層化を補正するために用いられる。 本稿では,第1の固有ベクトルの計算を最適化問題として再構成し,l1のペナルティ制約を加えるペナルティ化固有値問題(pep)について検討する。 私たちの記事の貢献は3倍です。 まず,元のLASSO型L1ペナルティに対してNesterov平滑化を適用し,PEPを拡張した。 これにより分析勾配を計算でき、最適化問題に関連する目的関数のより高速で効率的な最小化が可能になる。 次に, 特異値分解 (svd) の確立した結果を用いて, pep を用いて高次固有ベクトルを計算できることを示す。 第3に、1000ゲノムプロジェクトデータセットのデータを用いて、提案する平滑化pepにより、数値安定性が向上し、有意義な固有ベクトルが得られることを実証する。 さらに,従来のPCAに対する固有ベクトル法の有用性について検討した。

Principal components computed via PCA (principal component analysis) are traditionally used to reduce dimensionality in genomic data or to correct for population stratification. In this paper, we explore the penalized eigenvalue problem (PEP) which reformulates the computation of the first eigenvector as an optimization problem and adds an L1 penalty constraint. The contribution of our article is threefold. First, we extend PEP by applying Nesterov smoothing to the original LASSO-type L1 penalty. This allows one to compute analytical gradients which enable faster and more efficient minimization of the objective function associated with the optimization problem. Second, we demonstrate how higher order eigenvectors can be calculated with PEP using established results from singular value decomposition (SVD). Third, using data from the 1000 Genome Project dataset, we empirically demonstrate that our proposed smoothed PEP allows one to increase numerical stability and obtain meaningful eigenvectors. We further investigate the utility of the penalized eigenvector approach over traditional PCA.
翻訳日:2023-09-26 17:11:03 公開日:2023-09-25
# 在庫管理における後方予測 : 分類手法とコストの考察

Backorder Prediction in Inventory Management: Classification Techniques and Cost Considerations ( http://arxiv.org/abs/2309.13837v1 )

ライセンス: Link先を確認
Sarit Maitra, Sukanya Kundu(参考訳) 本稿では,在庫管理における後方予測のための高度な分析手法を紹介する。 秩序とは、株式の枯渇により直ちに達成できない命令のこと。 ROC-AUC や PR-AUC などの性能評価指標を用いて, 平衡バッグ分類器, ファジィ論理, 変分オートエンコーダ, 多層パーセプトロン分類器などの複数の分類手法の評価を行った。 さらに、在庫管理や受注処理に関連する金銭的意味やコストを考慮すると、利益関数と誤分類コストが組み込まれている。 その結果,インベントリシステムのサービスレベル向上における予測モデルの有効性が示され,顧客満足度と組織全体のパフォーマンスが得られた。 商業アプリケーションでaiを使用する場合、解釈可能性を考えると、特徴の重要性を決定するために選択されたモデルに置換の重要性が適用される。 本研究は, 予測分析の進歩に寄与し, 後方予測における今後の調査や意思決定のための在庫管理最適化に有用な知見を提供する。

This article introduces an advanced analytical approach for predicting backorders in inventory management. Backorder refers to an order that cannot be immediately fulfilled due to stock depletion. Multiple classification techniques, including Balanced Bagging Classifiers, Fuzzy Logic, Variational Autoencoder - Generative Adversarial Networks, and Multi-layer Perceptron classifiers, are assessed in this work using performance evaluation metrics such as ROC-AUC and PR-AUC. Moreover, this work incorporates a profit function and misclassification costs, considering the financial implications and costs associated with inventory management and backorder handling. The results demonstrate the effectiveness of the predictive model in enhancing inventory system service levels, which leads to customer satisfaction and overall organizational performance. Considering interpretability is a significant aspect of using AI in commercial applications, permutation importance is applied to the selected model to determine the importance of features. This research contributes to the advancement of predictive analytics and offers valuable insights for future investigations in backorder forecasting and inventory control optimization for decision-making.
翻訳日:2023-09-26 17:10:44 公開日:2023-09-25
# TouchUp-G: グラフ中心ファインタニングによる特徴表現の改善

TouchUp-G: Improving Feature Representation through Graph-Centric Finetuning ( http://arxiv.org/abs/2309.13885v1 )

ライセンス: Link先を確認
Jing Zhu, Xiang Song, Vassilis N. Ioannidis, Danai Koutra, Christos Faloutsos(参考訳) ダウンストリームグラフ学習タスクに適合するために、事前訓練モデル(PM)から取得したノード機能をどのように拡張すればよいか? グラフニューラルネットワーク(GNN)は、多くの高度な実世界のグラフアプリケーションにとって最先端のアプローチとなっている。 機能豊富なグラフの場合、一般的なプラクティスはpmを直接利用して、ドメイン適応テクニックを組み込むことなく、機能を生成することである。 しかしながら、PMから抽出されたノード特徴がグラフに依存しず、GNNがグラフ構造とノード特徴の潜在的な相関を完全に活用することを防ぐため、このプラクティスは最適ではない。 本研究では、下流グラフタスクのPMから得られるノード機能を改善し、いくつかの利点を持つTOUCHUP-Gを導入する。 それは (a) 一般: 推奨システムでよく使用されるリンク予測を含む、ダウンストリームグラフタスクに適用可能なもの (b)マルチモーダル:任意のモダリティ(画像、テキスト、音声など)の生機能を改善することができる。 (c) 原理: グラフ構造とノード特徴の間の潜在的な相関を定量化するために提案する特徴ホモフィリーという新しい計量と密接に関連しており、TOUCHUP-Gがグラフ構造とノード特徴との差を効果的に縮小できることを示す。 (d)効果的:異なるタスクとモダリティにまたがる4つの実世界のデータセットで最先端の結果を得る。

How can we enhance the node features acquired from Pretrained Models (PMs) to better suit downstream graph learning tasks? Graph Neural Networks (GNNs) have become the state-of-the-art approach for many high-impact, real-world graph applications. For feature-rich graphs, a prevalent practice involves utilizing a PM directly to generate features, without incorporating any domain adaptation techniques. Nevertheless, this practice is suboptimal because the node features extracted from PM are graph-agnostic and prevent GNNs from fully utilizing the potential correlations between the graph structure and node features, leading to a decline in GNNs performance. In this work, we seek to improve the node features obtained from a PM for downstream graph tasks and introduce TOUCHUP-G, which has several advantages. It is (a) General: applicable to any downstream graph task, including link prediction which is often employed in recommender systems; (b) Multi-modal: able to improve raw features of any modality (e.g. images, texts, audio); (c) Principled: it is closely related to a novel metric, feature homophily, which we propose to quantify the potential correlations between the graph structure and node features and we show that TOUCHUP-G can effectively shrink the discrepancy between the graph structure and node features; (d) Effective: achieving state-of-the-art results on four real-world datasets spanning different tasks and modalities.
翻訳日:2023-09-26 17:04:38 公開日:2023-09-25
# 不均一干渉による治療効果の推定

Estimating Treatment Effects Under Heterogeneous Interference ( http://arxiv.org/abs/2309.13884v1 )

ライセンス: Link先を確認
Xiaofeng Lin, Guoxi Zhang, Xiaotian Lu, Han Bao, Koh Takeuchi, Hisashi Kashima(参考訳) 治療効果の推定は、電子商取引、医療、教育における効果的な意思決定を支援する。 この推定の一般的な応用の一つは、個々の治療効果(ite)として知られる特定の単位(例えば、アイテム)の結果(販売)に対する治療(例えば、プロモーション)の影響を予測することである。 多くのオンラインアプリケーションにおいて、ユニットの結果は、他のユニットの処理によって影響を受けることがある。 例えば、オンラインショッピングウェブサイトでは、商品の販売は共同購入商品の広告に影響される。 以前の研究では、ITEを正確に推定するために干渉をモデル化しようとしたが、それらはしばしば均質な干渉を仮定する。 しかし、現実世界のアプリケーションでは、干渉は多視点関係を持つ異種である。 例えば、商品の販売は、通常、共同購入および共同閲覧のアイテムの扱いによって影響を受ける。 この異種干渉が適切にモデル化されていない場合、ite推定は不正確であると仮定する。 そこで本研究では,異種干渉をモデル化するための新しい手法を提案する。 提案手法は,同一視点情報を集約するグラフニューラルネットワーク,異なる視点から情報を集約する機構,注意機構を含む。 提案手法は,不均一干渉を持つ複数データセットを用いた実験において,既存の ite 推定法を著しく上回り,異種干渉のモデル化の重要性を確認した。

Treatment effect estimation can assist in effective decision-making in e-commerce, medicine, and education. One popular application of this estimation lies in the prediction of the impact of a treatment (e.g., a promotion) on an outcome (e.g., sales) of a particular unit (e.g., an item), known as the individual treatment effect (ITE). In many online applications, the outcome of a unit can be affected by the treatments of other units, as units are often associated, which is referred to as interference. For example, on an online shopping website, sales of an item will be influenced by an advertisement of its co-purchased item. Prior studies have attempted to model interference to estimate the ITE accurately, but they often assume a homogeneous interference, i.e., relationships between units only have a single view. However, in real-world applications, interference may be heterogeneous, with multi-view relationships. For instance, the sale of an item is usually affected by the treatment of its co-purchased and co-viewed items. We hypothesize that ITE estimation will be inaccurate if this heterogeneous interference is not properly modeled. Therefore, we propose a novel approach to model heterogeneous interference by developing a new architecture to aggregate information from diverse neighbors. Our proposed method contains graph neural networks that aggregate same-view information, a mechanism that aggregates information from different views, and attention mechanisms. In our experiments on multiple datasets with heterogeneous interference, the proposed method significantly outperforms existing methods for ITE estimation, confirming the importance of modeling heterogeneous interference.
翻訳日:2023-09-26 17:04:13 公開日:2023-09-25
# 床計画自動生成のためのレイアウトグラフ付きスキップ接続ニューラルネットワーク

Skip-Connected Neural Networks with Layout Graphs for Floor Plan Auto-Generation ( http://arxiv.org/abs/2309.13881v1 )

ライセンス: Link先を確認
Yuntae Jeon, Dai Quoc Tran, Seunghee Park(参考訳) AIとコンピュータビジョン技術の出現により、自動化された効率的なフロアプラン設計の探求が勢いを増している。 本稿では,レイアウトグラフを統合したスキップ接続型ニューラルネットワークを用いた新しい手法を提案する。 スキップ接続層はマルチスケールフロアプラン情報をキャプチャし、GNNを用いたエンコーダデコーダネットワークは画素レベルの確率ベースの生成を容易にする。 ICCV 1st CVAADワークショップでは,MSDデータセットを用いて56.6mIoUのスコアを得た。 コードと事前訓練されたモデルはhttps://github.com/yuntaeJ/SkipNet-FloorPlanGeで公開されている。

With the advent of AI and computer vision techniques, the quest for automated and efficient floor plan designs has gained momentum. This paper presents a novel approach using skip-connected neural networks integrated with layout graphs. The skip-connected layers capture multi-scale floor plan information, and the encoder-decoder networks with GNN facilitate pixel-level probability-based generation. Validated on the MSD dataset, our approach achieved a 56.6 mIoU score in the ICCV 1st CVAAD workshop challenge. Code and pre-trained models are publicly available at https://github.com/yuntaeJ/SkipNet-FloorPlanGe.
翻訳日:2023-09-26 17:03:50 公開日:2023-09-25
# オープンソースツールキットと公開データを用いたウィスパースタイルの再現訓練

Reproducing Whisper-Style Training Using an Open-Source Toolkit and Publicly Available Data ( http://arxiv.org/abs/2309.13876v1 )

ライセンス: Link先を確認
Yifan Peng, Jinchuan Tian, Brian Yan, Dan Berrebbi, Xuankai Chang, Xinjian Li, Jiatong Shi, Siddhant Arora, William Chen, Roshan Sharma, Wangyou Zhang, Yui Sudo, Muhammad Shakeel, Jee-weon Jung, Soumi Maiti, Shinji Watanabe(参考訳) 大量のデータで事前学習した音声モデルは、大きな成功を収めている。 OpenAI Whisperは680k時間の教師付き音声データに基づいてトレーニングされた多言語マルチタスクモデルである。 ゼロショット設定であっても、音声認識や翻訳のベンチマークによく当てはまる。 しかし、そのようなモデルを開発するための完全なパイプライン(データ収集からトレーニングまで)は公開されていないため、研究者がパフォーマンスを改善し、効率性、堅牢性、公正性、バイアスといったトレーニング関連の問題に対処することは困難である。 本研究は,オープンソースツールキットと公開データを用いたWhisperスタイルのトレーニングを再現するOpen Whisperスタイル音声モデル(OWSM)を提案する。 owsmはさらに多くの翻訳方向をサポートし、より効率的にトレーニングできる。 データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、オープンサイエンスを促進するための事前訓練されたモデルとトレーニングログを公開します。

Pre-training speech models on large volumes of data has achieved remarkable success. OpenAI Whisper is a multilingual multitask model trained on 680k hours of supervised speech data. It generalizes well to various speech recognition and translation benchmarks even in a zero-shot setup. However, the full pipeline for developing such models (from data collection to training) is not publicly accessible, which makes it difficult for researchers to further improve its performance and address training-related issues such as efficiency, robustness, fairness, and bias. This work presents an Open Whisper-style Speech Model (OWSM), which reproduces Whisper-style training using an open-source toolkit and publicly available data. OWSM even supports more translation directions and can be more efficient to train. We will publicly release all scripts used for data preparation, training, inference, and scoring as well as pre-trained models and training logs to promote open science.
翻訳日:2023-09-26 17:03:39 公開日:2023-09-25
# 効率的なロバスト目標音声抽出のための拡散条件予測モデル

Diffusion Conditional Expectation Model for Efficient and Robust Target Speech Extraction ( http://arxiv.org/abs/2309.13874v1 )

ライセンス: Link先を確認
Leying Zhang, Yao Qian, Linfeng Yu, Heming Wang, Xinkai Wang, Hemin Yang, Long Zhou, Shujie Liu, Yanmin Qian, Michael Zeng(参考訳) ターゲット音声抽出(TSE)は、複雑な混合物から特定の話者のクリーン音声を分離することに焦点を当てた音声処理において重要な課題である。 TSEでは差別的手法が一般的であるが、音声認識品質の点で歪みを導入することができる。 一方で、生成的手法、特に拡散に基づく手法は、知覚的に音声品質を高めることができるが、推論速度が遅い。 本稿では,TSEのための拡散条件予測モデル (DCEM) という効率的な生成手法を提案する。 ノイズとクリーンな条件の両方で、マルチおよびシングルスピーカーシナリオを処理できる。 さらに、識別モデルから事前処理された音声に基づいて、音声品質を再生し、最適化するRegenerate-DCEM(R-DCEM)を導入する。 提案手法は,侵入的および非侵入的メトリクスの両面で従来の手法を上回り,未知のタスクに対する推論効率とロバスト性において顕著な強みを示す。 オーディオサンプルはオンラインで入手できる(https://vivian556123.github.io/dcem)。

Target Speech Extraction (TSE) is a crucial task in speech processing that focuses on isolating the clean speech of a specific speaker from complex mixtures. While discriminative methods are commonly used for TSE, they can introduce distortion in terms of speech perception quality. On the other hand, generative approaches, particularly diffusion-based methods, can enhance speech quality perceptually but suffer from slower inference speed. We propose an efficient generative approach named Diffusion Conditional Expectation Model (DCEM) for TSE. It can handle multi- and single-speaker scenarios in both noisy and clean conditions. Additionally, we introduce Regenerate-DCEM (R-DCEM) that can regenerate and optimize speech quality based on pre-processed speech from a discriminative model. Our method outperforms conventional methods in terms of both intrusive and non-intrusive metrics and demonstrates notable strengths in inference efficiency and robustness to unseen tasks. Audio examples are available online (https://vivian556123.github.io/dcem).
翻訳日:2023-09-26 17:03:24 公開日:2023-09-25
# 3次元ct画像におけるs状結腸分割の注意とプール化

Attention and Pooling based Sigmoid Colon Segmentation in 3D CT images ( http://arxiv.org/abs/2309.13872v1 )

ライセンス: Link先を確認
Md Akizur Rahman, Sonit Singh, Kuruparan Shanmugalingam, Sankaran Iyer, Alan Blair, Praveen Ravindran, Arcot Sowmya(参考訳) s状結腸の分節は憩室炎治療の重要な要素である。 炎症の正確な同定と局所化を可能にし、医療専門家が最も適切な治療方法に関するインフォームドな判断を行うのに役立つ。 本研究は,CT画像からSigmoid colonを抽出する深層学習アーキテクチャを改良した3次元U-Netアーキテクチャを用いて提案する。 本研究では, 改良型ハイパーパラメータを用いた3次元U-Netモデルの様々なバリエーションについて検討した。 ピラミドプーリング(PyP)とチャネル空間スキューズと励磁(csSE)もモデル性能を向上させるために用いられた。 ネットワークは手動のシグモイド結腸を用いて訓練された。 ネットワークの性能を評価するために、テストデータセットに5倍のクロスバリデーション手順が使用された。 56.92+/-1.42%の最大Dice類似係数(DSC)で示されるように、PyPおよびcsSE技術の適用はセグメンテーション精度を向上させる。 平均化,重み付け平均化,多数決,最大アンサンブルを含むアンサンブル法を検討した。 その結果, しきい値0.5と最上位3モデル間の一貫した重量分布を持つ平均的および多数決的アプローチは, DSC 88.11+/-3.52%と同等かつ最適な結果を得た。 その結果,CT画像のシグモイド結腸の分画には3D U-Net アーキテクチャの応用が有効であることが示唆された。 さらに,セグメンテーション精度を向上させるために,アンサンブル手法を統合することの潜在的メリットを強調する。

Segmentation of the sigmoid colon is a crucial aspect of treating diverticulitis. It enables accurate identification and localisation of inflammation, which in turn helps healthcare professionals make informed decisions about the most appropriate treatment options. This research presents a novel deep learning architecture for segmenting the sigmoid colon from Computed Tomography (CT) images using a modified 3D U-Net architecture. Several variations of the 3D U-Net model with modified hyper-parameters were examined in this study. Pyramid pooling (PyP) and channel-spatial Squeeze and Excitation (csSE) were also used to improve the model performance. The networks were trained using manually annotated sigmoid colon. A five-fold cross-validation procedure was used on a test dataset to evaluate the network's performance. As indicated by the maximum Dice similarity coefficient (DSC) of 56.92+/-1.42%, the application of PyP and csSE techniques improves segmentation precision. We explored ensemble methods including averaging, weighted averaging, majority voting, and max ensemble. The results show that average and majority voting approaches with a threshold value of 0.5 and consistent weight distribution among the top three models produced comparable and optimal results with DSC of 88.11+/-3.52%. The results indicate that the application of a modified 3D U-Net architecture is effective for segmenting the sigmoid colon in Computed Tomography (CT) images. In addition, the study highlights the potential benefits of integrating ensemble methods to improve segmentation precision.
翻訳日:2023-09-26 17:03:08 公開日:2023-09-25
# prism:リレーションアウェアスコアキャリブレーションによる低リソースドキュメントレベルリレーション抽出の強化

PRiSM: Enhancing Low-Resource Document-Level Relation Extraction with Relation-Aware Score Calibration ( http://arxiv.org/abs/2309.13869v1 )

ライセンス: Link先を確認
Minseok Choi, Hyesu Lim, Jaegul Choo(参考訳) ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内のすべてのエンティティペアの関係を抽出することを目的としている。 DocREの重要な課題は、人間の集中的な努力を必要とするデータに注釈をつけるコストである。 そこで我々は,低リソース環境でのDocREの事例を調査し,低データで訓練された既存のモデルがNA(非関係)ラベルを過大評価していることを確認した。 本研究では,コーディレーションの観点から問題にアプローチし,関係意味情報に基づくロジット適応学習を行うPRiSMを提案する。 提案手法を3つのDocREデータセット上で評価し,既存のモデルとPRiSMを統合することにより,最大26.38F1スコアが向上し,キャリブレーション誤差が約3%のトレーニングで最大36倍に低下することを示した。 コードはhttps://github.com/brightjade/PRiSMで公開されている。

Document-level relation extraction (DocRE) aims to extract relations of all entity pairs in a document. A key challenge in DocRE is the cost of annotating such data which requires intensive human effort. Thus, we investigate the case of DocRE in a low-resource setting, and we find that existing models trained on low data overestimate the NA ("no relation") label, causing limited performance. In this work, we approach the problem from a calibration perspective and propose PRiSM, which learns to adapt logits based on relation semantic information. We evaluate our method on three DocRE datasets and demonstrate that integrating existing models with PRiSM improves performance by as much as 26.38 F1 score, while the calibration error drops as much as 36 times when trained with about 3% of data. The code is publicly available at https://github.com/brightjade/PRiSM.
翻訳日:2023-09-26 17:02:42 公開日:2023-09-25
# 現代量子化高効率ニューラルネットワークの校正について

On Calibration of Modern Quantized Efficient Neural Networks ( http://arxiv.org/abs/2309.13866v1 )

ライセンス: Link先を確認
Joey Kuang, Alexander Wong(参考訳) 本稿では,ShuffleNetv2,GhostNet-VGG,MobileOneの3つのアーキテクチャと,CIFAR-100とPathMNISTの2つのデータセットのキャリブレーション特性について検討する。 キャリブレーションの質は, 量子化品質を追跡するために観測され, 精度が低いほど性能が悪化し, より低いキャリブレーションと類似した相関が観察された。 これは4ビットのアクティベーションでは特に顕著である。 GhostNet-VGGは、低い精度で全体的なパフォーマンス低下に対して最も堅牢であることが示されている。 温度スケーリングは量子化ネットワークのキャリブレーションエラーを改善できるが、いくつかの注意点がある。 これらの予備的な洞察が、より説明可能で信頼性の高いEdgeMLの機会に繋がることを期待しています。

We explore calibration properties at various precisions for three architectures: ShuffleNetv2, GhostNet-VGG, and MobileOne; and two datasets: CIFAR-100 and PathMNIST. The quality of calibration is observed to track the quantization quality; it is well-documented that performance worsens with lower precision, and we observe a similar correlation with poorer calibration. This becomes especially egregious at 4-bit activation regime. GhostNet-VGG is shown to be the most robust to overall performance drop at lower precision. We find that temperature scaling can improve calibration error for quantized networks, with some caveats. We hope that these preliminary insights can lead to more opportunities for explainable and reliable EdgeML.
翻訳日:2023-09-26 17:02:24 公開日:2023-09-25
# SuPerPM:物理拘束シミュレーションデータから学習した深部点マッチングに基づく大変形型外科的知覚フレームワーク

SuPerPM: A Large Deformation-Robust Surgical Perception Framework Based on Deep Point Matching Learned from Physical Constrained Simulation Data ( http://arxiv.org/abs/2309.13863v1 )

ライセンス: Link先を確認
Shan Lin, Albert J. Miao, Ali Alabiad, Fei Liu, Kaiyuan Wang, Jingpei Lu, Florian Richter, Michael C. Yip(参考訳) 手術器具による組織の操作は、しばしば、現在のアルゴリズムの追跡と再構築の方法が効果的に対処していない大きな変形をもたらす。 大変形時の追跡誤差の主な原因は、観測されたセンサ測定と予め追跡されたシーンとの誤ったデータ関係にある。 この問題を軽減するために,データアソシエーションのための学習ベースの非剛点クラウドマッチングを利用する外科的知覚フレームワークSuPerPMを提案する。 学習モデルは通常、基底的真理点クラウド対応のトレーニングデータを必要とするが、手術環境での収集には困難または非現実的である。 そこで,学習モデルのチューニングのために,手術ロボットによって操作される軟部組織の内視鏡データを収集し,異なる時点における点雲間の対応関係を確立し,基底的真理として機能する。 これは、位置ベース力学(PBD)シミュレーションを用いて、対応が物理的制約に従うことを保証することで達成された。 提案手法は, 最先端の手術シーン追跡アルゴリズムよりも優れた性能を実現し, 大規模な変形を特徴とする難易度の高い外科用データセット上で実証された。

Manipulation of tissue with surgical tools often results in large deformations that current methods in tracking and reconstructing algorithms have not effectively addressed. A major source of tracking errors during large deformations stems from wrong data association between observed sensor measurements with previously tracked scene. To mitigate this issue, we present a surgical perception framework, SuPerPM, that leverages learning-based non-rigid point cloud matching for data association, thus accommodating larger deformations. The learning models typically require training data with ground truth point cloud correspondences, which is challenging or even impractical to collect in surgical environments. Thus, for tuning the learning model, we gather endoscopic data of soft tissue being manipulated by a surgical robot and then establish correspondences between point clouds at different time points to serve as ground truth. This was achieved by employing a position-based dynamics (PBD) simulation to ensure that the correspondences adhered to physical constraints. The proposed framework is demonstrated on several challenging surgical datasets that are characterized by large deformations, achieving superior performance over state-of-the-art surgical scene tracking algorithms.
翻訳日:2023-09-26 17:02:10 公開日:2023-09-25
# Fast-HuBERT:自己教師型音声表現学習のための効率的な学習フレームワーク

Fast-HuBERT: An Efficient Training Framework for Self-Supervised Speech Representation Learning ( http://arxiv.org/abs/2309.13860v1 )

ライセンス: Link先を確認
Guanrou Yang, Ziyang Ma, Zhisheng Zheng, Yakun Song, Zhikang Niu, Xie Chen(参考訳) 近年,音声処理タスクにおける自己教師付き学習(SSL)手法の進歩が目覚ましい。 様々な音声ベースのSSLモデルを開発し、音声認識を含む下流タスクで有望な性能を示す。 しかし、既存の音声ベースのSSLモデルは計算コストの観点から共通のジレンマに直面しており、その潜在的な応用と詳細な学術研究を妨げる可能性がある。 本稿では,まず,HuBERT事前学習中の異なるモジュールの計算コストを分析し,その上で,Fast-HuBERTと呼ばれる効率最適化のスタックを導入する。 提案されたFast-HuBERTは、Librispeech 960hベンチマークで8つのV100 GPUで1.1日でトレーニングできる。 さらに、Fast-HuBERTの2つのよく研究された手法について検討し、以前の研究で報告されたように一貫した改善を示す。

Recent years have witnessed significant advancements in self-supervised learning (SSL) methods for speech-processing tasks. Various speech-based SSL models have been developed and present promising performance on a range of downstream tasks including speech recognition. However, existing speech-based SSL models face a common dilemma in terms of computational cost, which might hinder their potential application and in-depth academic research. To address this issue, we first analyze the computational cost of different modules during HuBERT pre-training and then introduce a stack of efficiency optimizations, which is named Fast-HuBERT in this paper. The proposed Fast-HuBERT can be trained in 1.1 days with 8 V100 GPUs on the Librispeech 960h benchmark, without performance degradation, resulting in a 5.2x speedup, compared to the original implementation. Moreover, we explore two well-studied techniques in the Fast-HuBERT and demonstrate consistent improvements as reported in previous work.
翻訳日:2023-09-26 17:01:49 公開日:2023-09-25
# 低次元多様体上のポリシー最適化のための神経政策ミラー降下のサンプル複雑性

Sample Complexity of Neural Policy Mirror Descent for Policy Optimization on Low-Dimensional Manifolds ( http://arxiv.org/abs/2309.13915v1 )

ライセンス: Link先を確認
Zhenghao Xu, Xiang Ji, Minshuo Chen, Mengdi Wang, Tuo Zhao(参考訳) ディープニューラルネットワークを備えたポリシベースのアルゴリズムは、強化学習における高次元ポリシー最適化問題の解決に成功している。 しかし、現在の分析ではなぜそれが次元の呪いに抵抗しているのかは説明できない。 本研究では,畳み込みニューラルネットワーク(CNN)を関数近似器として用いたNPMDアルゴリズムのサンプル複雑性について検討する。 多くの高次元環境が、像を状態とするような低次元構造を持つ状態空間を持つという経験的観察に動機づけられ、状態空間は、内在次元 $d\ll d$ を持つ$d$次元ユークリッド空間に埋め込まれた$d$次元多様体であると考える。 NPMDの各イテレーションにおいて、値関数とポリシーの両方がCNNによって適切に近似可能であることを示す。 近似誤差はネットワークのサイズによって制御され、前のネットワークの滑らかさを継承することができる。 その結果、ネットワークサイズとハイパーパラメータを適切に選択することで、npmdは、期待値の$\widetilde{o}(\epsilon^{-\frac{d}{\alpha}-2})$サンプルを持つ$\epsilon$-optimalポリシーを見つけることができ、ここで$\alpha\in(0,1]$は環境の滑らかさを示す。 これまでの研究と比較すると,NPMDは状態空間の低次元構造を利用して次元の呪いから逃れることができ,より深いポリシーに基づくアルゴリズムの有効性を説明できる。

Policy-based algorithms equipped with deep neural networks have achieved great success in solving high-dimensional policy optimization problems in reinforcement learning. However, current analyses cannot explain why they are resistant to the curse of dimensionality. In this work, we study the sample complexity of the neural policy mirror descent (NPMD) algorithm with convolutional neural networks (CNN) as function approximators. Motivated by the empirical observation that many high-dimensional environments have state spaces possessing low-dimensional structures, such as those taking images as states, we consider the state space to be a $d$-dimensional manifold embedded in the $D$-dimensional Euclidean space with intrinsic dimension $d\ll D$. We show that in each iteration of NPMD, both the value function and the policy can be well approximated by CNNs. The approximation errors are controlled by the size of the networks, and the smoothness of the previous networks can be inherited. As a result, by properly choosing the network size and hyperparameters, NPMD can find an $\epsilon$-optimal policy with $\widetilde{O}(\epsilon^{-\frac{d}{\alpha}-2})$ samples in expectation, where $\alpha\in(0,1]$ indicates the smoothness of environment. Compared to previous work, our result exhibits that NPMD can leverage the low-dimensional structure of state space to escape from the curse of dimensionality, providing an explanation for the efficacy of deep policy-based algorithms.
翻訳日:2023-09-26 16:53:05 公開日:2023-09-25
# 熱帯および混合熱帯線形代数における行列分解

Matrix Factorization in Tropical and Mixed Tropical-Linear Algebras ( http://arxiv.org/abs/2309.13914v1 )

ライセンス: Link先を確認
Ioannis Kordonis, Emmanouil Theodosis, George Retsinas, Petros Maragos(参考訳) matrix factorization (mf) は機械学習やデータマイニングにおいて、協調的なフィルタリング推奨システム、次元の削減、データの可視化、コミュニティ検出など多くの応用を見出している。 機械学習における最近のトロピカル代数と幾何の成功に触発され、熱帯代数上の行列分解に関わる2つの問題を考察した。 最初の問題として、既に文献で研究されている熱帯行列因子化(TMF)について、局所最適化の多くを回避する改良アルゴリズムを提案する。 第2の定式化は、与えられた行列の近似分解を、通常の行列積が熱帯積に続く3つの行列の積に近似分解する。 この定式化は、複数のユーザのユーティリティ機能の学習の観点から非常に興味深い解釈を持っている。 また,提案アルゴリズムの有効性を示す数値計算結果と,有望な結果を持つ推薦システムへの適用について述べる。

Matrix Factorization (MF) has found numerous applications in Machine Learning and Data Mining, including collaborative filtering recommendation systems, dimensionality reduction, data visualization, and community detection. Motivated by the recent successes of tropical algebra and geometry in machine learning, we investigate two problems involving matrix factorization over the tropical algebra. For the first problem, Tropical Matrix Factorization (TMF), which has been studied already in the literature, we propose an improved algorithm that avoids many of the local optima. The second formulation considers the approximate decomposition of a given matrix into the product of three matrices where a usual matrix product is followed by a tropical product. This formulation has a very interesting interpretation in terms of the learning of the utility functions of multiple users. We also present numerical results illustrating the effectiveness of the proposed algorithms, as well as an application to recommendation systems with promising results.
翻訳日:2023-09-26 16:52:36 公開日:2023-09-25
# 全電子$\mathrm{\textit{ab-initio}}$ ダイヤモンド中のsi-, ge-, sn-空隙欠陥の超微細構造結合

All-electron $\mathrm{\textit{ab-initio}}$ hyperfine coupling of Si-, Ge- and Sn-vacancy defects in diamond ( http://arxiv.org/abs/2309.13913v1 )

ライセンス: Link先を確認
Akib Karim, Harish H. Vallabhapurapu, Chris Adambukulam, Arne Laucht, Salvy P. Russo and Alberto Peruzzo(参考訳) ダイヤモンドの色中心は、優れた光学特性と長いスピンコヒーレンス時間のため、多くの量子応用の魅力的な候補である。 また、環境における超微細結合核スピンのより長いコヒーレンスへのアクセスも提供する。 NV中心はよく研究されているが、実験と理論の両方において、より新しい中心(SiV、GeV、SnV)における超微細結合はいまだに不明である。 ここでは、ダイヤモンド中のSiV, GeV, SnV欠陥の超微細定数を計算した最初の全電子 \textit{ab-initio} 計算(^{29}$Si, $^{73}$Ge, $^{117}$Sn, $^{119}$Sn)と周囲の$^{13}$C原子について述べる。 さらに,GeV欠陥の核四極子モーメントを計算する。 パーデュー・バーク・エルンツァーホフ(PBE)交換相関関数のハーツリー・フォック混合パラメータを変化させ, 欠陥原子の超微細結合が混合率に線形に依存することを示す。 逆誘電率を計算し, \textit{ab-initio} 混合率を予測する。 最終的な超微細結合予測は、文献で利用可能な実験値に近い。 私たちの結果は、これらの欠陥に関する新しい実験をガイドするのに役立ちます。

Colour centres in diamond are attractive candidates for numerous quantum applications due to their good optical properties and long spin coherence times. They also provide access to the even longer coherence of hyperfine coupled nuclear spins in their environment. While the NV centre is well studied, both in experiment and theory, the hyperfine couplings in the more novel centres (SiV, GeV, and SnV) are still largely unknown. Here we report on the first all-electron \textit{ab-initio} calculations of the hyperfine constants for SiV, GeV, and SnV defects in diamond, both for the respective defect atoms ($^{29}$Si, $^{73}$Ge, $^{117}$Sn, $^{119}$Sn), as well as for the surrounding $^{13}$C atoms. Furthermore, we calculate the nuclear quadrupole moments of the GeV defect. We vary the Hartree-Fock mixing parameter for Perdew-Burke-Ernzerhof (PBE) exchange correlation functional and show that the hyperfine couplings of the defect atoms have a linear dependence on the mixing percentage. We calculate the inverse dielectric constant to predict an \textit{ab-initio} mixing percentage. The final hyperfine coupling predictions are close to the experimental values available in the literature. Our results will help to guide future novel experiments on these defects.
翻訳日:2023-09-26 16:52:20 公開日:2023-09-25
# 任意のロボット形態の制御系と学習機構の比較

A comparison of controller architectures and learning mechanisms for arbitrary robot morphologies ( http://arxiv.org/abs/2309.13908v1 )

ライセンス: Link先を確認
Jie Luo, Jakub Tomczak, Karine Miras, Agoston E. Eiben(参考訳) ロボットコントローラと学習方法の組み合わせは,学習ロボットの形態が事前に分かっていない場合,どのような組み合わせを用いるべきか,という問題に対処する。 我々の関心は、形態的に進化するモジュラーロボットの文脈に根ざしているが、問題は、広く適用可能なソリューションに関心を持つシステムデザイナーにとって、一般的にも関係している。 本稿では, モデル動物移動(中央パターン生成器, CPG)に基づくコントローラと学習者の組み合わせを実験的に比較し, 学習者は進化的アルゴリズムであり, 強化学習(RL)とニューラルネットワークコントローラアーキテクチャを用いた全く異なる手法であり, コントローラがニューラルネットワークであり, 学習者が進化的アルゴリズムである「in-between」の組み合わせである。 これら3つの組み合わせをモジュール型ロボットのテストスイートに適用し,その有効性,効率性,堅牢性を比較した。 驚いたことに、通常のcpgベースのオプションとrlベースのオプションは、他の2つの設定よりも堅牢で効率的である中間の組み合わせに勝っている。

The main question this paper addresses is: What combination of a robot controller and a learning method should be used, if the morphology of the learning robot is not known in advance? Our interest is rooted in the context of morphologically evolving modular robots, but the question is also relevant in general, for system designers interested in widely applicable solutions. We perform an experimental comparison of three controller-and-learner combinations: one approach where controllers are based on modelling animal locomotion (Central Pattern Generators, CPG) and the learner is an evolutionary algorithm, a completely different method using Reinforcement Learning (RL) with a neural network controller architecture, and a combination `in-between' where controllers are neural networks and the learner is an evolutionary algorithm. We apply these three combinations to a test suite of modular robots and compare their efficacy, efficiency, and robustness. Surprisingly, the usual CPG-based and RL-based options are outperformed by the in-between combination that is more robust and efficient than the other two setups.
翻訳日:2023-09-26 16:51:50 公開日:2023-09-25
# 非教師付き異常局在に対する部分空間認識特徴再構成

Subspace-Aware Feature Reconstruction for Unsupervised Anomaly Localization ( http://arxiv.org/abs/2309.13904v1 )

ライセンス: Link先を確認
Katsuya Hotta, Chao Zhang, Yoshihiro Hagihara, Takuya Akashi(参考訳) 産業生産において重要な役割を担う非監督的異常局在は、名目標本からのみ確立されたパターンから逸脱する異常領域を特定することである。 最近の主流手法は、ImageNetモデルからの埋め込みを活用して、ターゲットの特徴分布を近似することに焦点を当てている。 しかし、多くの異常なローカライズ手法で共通する問題は、特定の目標に対する特徴近似の適応性の欠如である。 その結果、異常領域を効果的に識別する能力は、メモリバンク内の有限リソースが提供するデータカバレッジに大きく依存する。 本稿では,異常局所化のための新しいサブスペース認識機能再構築フレームワークを提案する。 適応的特徴近似を実現するために,低次元部分空間の学習を目的とした自己表現モデルを用いて特徴表現を再構成する手法を提案する。 重要なことに、サブスペース表現の空間性は、同じサブスペースから少ないリソースで特徴パターンをカバーすることに寄与し、メモリバンクが減少する。 3つの産業ベンチマークデータセットにわたる広範囲な実験により、少数のサンプルでターゲット特徴を適応的に再構成することで、最先端手法と比較して競合的異常局在化性能を達成できることが証明された。

Unsupervised anomaly localization, which plays a critical role in industrial manufacturing, is to identify anomalous regions that deviate from patterns established exclusively from nominal samples. Recent mainstream methods focus on approximating the target feature distribution by leveraging embeddings from ImageNet models. However, a common issue in many anomaly localization methods is the lack of adaptability of the feature approximations to specific targets. Consequently, their ability to effectively identify anomalous regions relies significantly on the data coverage provided by the finite resources in a memory bank. In this paper, we propose a novel subspace-aware feature reconstruction framework for anomaly localization. To achieve adaptive feature approximation, our proposed method involves the reconstruction of the feature representation through the self-expressive model designed to learn low-dimensional subspaces. Importantly, the sparsity of the subspace representation contributes to covering feature patterns from the same subspace with fewer resources, leading to a reduction in the memory bank. Extensive experiments across three industrial benchmark datasets demonstrate that our approach achieves competitive anomaly localization performance compared to state-of-the-art methods by adaptively reconstructing target features with a small number of samples.
翻訳日:2023-09-26 16:51:28 公開日:2023-09-25
# フォローアップも重要:ポストサービスコンテキストによるコンテキスト帯域の改善

Follow-ups Also Matter: Improving Contextual Bandits via Post-serving Contexts ( http://arxiv.org/abs/2309.13896v1 )

ライセンス: Link先を確認
Chaoqi Wang, Ziyu Ye, Zhe Feng, Ashwinkumar Badanidiyuru, Haifeng Xu(参考訳) 標準的なコンテキストバンドイット問題は、アルゴリズムがアームを選択する前にすべての関連するコンテキストが観測されると仮定する。 このモデリングパラダイムは有用ではあるが、腕の選択後に付加的なコンテキストが観察できる問題を扱う際にしばしば不足する。 例えば、Youtube、Instagram、Tiktokといったコンテンツレコメンデーションプラットフォームは、レコメンデーション後のユーザの報酬に関連する貴重なフォローアップ情報(ユーザの滞在時間、ユーザのウォッチスピードなど)も観察する。 これらの応用におけるオンライン学習効率を向上させるために, 待ち行列を用いた新しい文脈帯域幅問題について検討し, 標準前提下での深い後悔を実現する新しいアルゴリズム, poLinUCB を設計する。 技術的証明の核となるのは、よく知られた楕円ポテンシャル補題(EPL)の堅牢で一般化されたバージョンで、データのノイズを許容できる。 このような堅牢化は私たちの問題に取り組む上で必要であり、一般の関心事でもあると考えています。 合成データと実世界のデータセットの両方に対する広範な実証テストは、保存後のコンテキストを利用するという大きなメリットと、最先端のアプローチよりも優れたアルゴリズムのパフォーマンスを示しています。

Standard contextual bandit problem assumes that all the relevant contexts are observed before the algorithm chooses an arm. This modeling paradigm, while useful, often falls short when dealing with problems in which valuable additional context can be observed after arm selection. For example, content recommendation platforms like Youtube, Instagram, Tiktok also observe valuable follow-up information pertinent to the user's reward after recommendation (e.g., how long the user stayed, what is the user's watch speed, etc.). To improve online learning efficiency in these applications, we study a novel contextual bandit problem with post-serving contexts and design a new algorithm, poLinUCB, that achieves tight regret under standard assumptions. Core to our technical proof is a robustified and generalized version of the well-known Elliptical Potential Lemma (EPL), which can accommodate noise in data. Such robustification is necessary for tackling our problem, and we believe it could also be of general interest. Extensive empirical tests on both synthetic and real-world datasets demonstrate the significant benefit of utilizing post-serving contexts as well as the superior performance of our algorithm over the state-of-the-art approaches.
翻訳日:2023-09-26 16:51:10 公開日:2023-09-25
# シーンインフォーマ:部分観測可能な環境におけるアンカーベースオクルージョン推論と軌道予測

Scene Informer: Anchor-based Occlusion Inference and Trajectory Prediction in Partially Observable Environments ( http://arxiv.org/abs/2309.13893v1 )

ライセンス: Link先を確認
Bernard Lange, Jiachen Li, and Mykel J. Kochenderfer(参考訳) 複雑でダイナミックな環境をナビゲートするには、可視領域と遮蔽領域の両方を判断する自律走行車(avs)が必要である。 これには、観測されたエージェントの将来の動きを予測し、隠蔽されたエージェントを推測し、部分観測可能な環境のベクトル化されたシーン表現に基づいて相互作用をモデル化することが含まれる。 しかし, 前者は簡易なラスタライズ法, 後者は完全な環境観測可能性を想定した, 排他的推測と軌道予測に関する先行研究が独立に展開されている。 我々は,観察対象の軌跡を予測し,観察可能な部分的設定でオクルージョンを推定するための統一的なアプローチであるScene Informerを紹介した。 トランスを使って様々な入力モダリティを集約し、AVの計画された経路と交差するオクルージョンの選択的なクエリを容易にする。 この枠組みは、占有確率を推定し、オクルージョンの軌道や観察されたエージェントの予測運動を推定する。 両ドメインの共通可観測性仮定とパフォーマンスへの影響について検討する。 提案手法は,Waymo Open Motion Datasetの観測可能な部分設定において,占有率予測と軌道予測の両方において既存の手法よりも優れる。

Navigating complex and dynamic environments requires autonomous vehicles (AVs) to reason about both visible and occluded regions. This involves predicting the future motion of observed agents, inferring occluded ones, and modeling their interactions based on vectorized scene representations of the partially observable environment. However, prior work on occlusion inference and trajectory prediction have developed in isolation, with the former based on simplified rasterized methods and the latter assuming full environment observability. We introduce the Scene Informer, a unified approach for predicting both observed agent trajectories and inferring occlusions in a partially observable setting. It uses a transformer to aggregate various input modalities and facilitate selective queries on occlusions that might intersect with the AV's planned path. The framework estimates occupancy probabilities and likely trajectories for occlusions, as well as forecast motion for observed agents. We explore common observability assumptions in both domains and their performance impact. Our approach outperforms existing methods in both occupancy prediction and trajectory prediction in partially observable setting on the Waymo Open Motion Dataset.
翻訳日:2023-09-26 16:50:47 公開日:2023-09-25
# Bitstream-Corruptedビデオリカバリ:新しいベンチマークデータセットと方法

Bitstream-Corrupted Video Recovery: A Novel Benchmark Dataset and Method ( http://arxiv.org/abs/2309.13890v1 )

ライセンス: Link先を確認
Tianyi Liu and Kejun Wu and Yi Wang and Wenyang Liu and Kim-Hui Yap and Lap-Pui Chau(参考訳) 過去10年間、ビデオインペインティング、コンプリート、エラー隠蔽といった専門技術によって、ビデオのリカバリは大きな進歩を遂げてきた。 しかし、通常は手動設計のエラーマスクによって不足したコンテンツをシミュレートし、ビデオ通信(テレプレゼンス、ライブストリーミング、インターネットビデオなど)やマルチメディアの法医学における現実的なビデオ損失を補うことができない。 そこで本研究では,ビットストリーム崩壊ビデオ(BSCV)ベンチマークを導入する。このベンチマークは,28,000本以上のビデオクリップを備えた最初のベンチマークデータセットであり,実世界ではビットストリーム崩壊ビデオリカバリに使用できる。 BSCVはコレクションです 1)ビデオビットストリームのための3パラメータ汚損モデルの提案 2)豊富なエラーパターン、複数の汚職レベル、柔軟なデータセットブランチを含む大規模データセット。 3) ビデオリカバリフレームワークのプラグインモジュールで,ベンチマークとして機能する。 我々は,BSCVデータセット上の最先端ビデオ塗装手法を評価し,既存のアプローチの限界と,ビットストリームの破損したビデオ復元問題の解決におけるフレームワークの利点を実証した。 ベンチマークとデータセットはhttps://github.com/LIUTIGHE/BSCV-Datasetで公開されている。

The past decade has witnessed great strides in video recovery by specialist technologies, like video inpainting, completion, and error concealment. However, they typically simulate the missing content by manual-designed error masks, thus failing to fill in the realistic video loss in video communication (e.g., telepresence, live streaming, and internet video) and multimedia forensics. To address this, we introduce the bitstream-corrupted video (BSCV) benchmark, the first benchmark dataset with more than 28,000 video clips, which can be used for bitstream-corrupted video recovery in the real world. The BSCV is a collection of 1) a proposed three-parameter corruption model for video bitstream, 2) a large-scale dataset containing rich error patterns, multiple corruption levels, and flexible dataset branches, and 3) a plug-and-play module in video recovery framework that serves as a benchmark. We evaluate state-of-the-art video inpainting methods on the BSCV dataset, demonstrating existing approaches' limitations and our framework's advantages in solving the bitstream-corrupted video recovery problem. The benchmark and dataset are released at https://github.com/LIUTIGHE/BSCV-Dataset.
翻訳日:2023-09-26 16:50:29 公開日:2023-09-25
# 特許ネットワーク分析に向けたグラフ表現学習

Graph Representation Learning Towards Patents Network Analysis ( http://arxiv.org/abs/2309.13888v1 )

ライセンス: Link先を確認
Mohammad Heydari and Babak Teimourpour(参考訳) 特許分析は、近年、世界中の大企業が様々な産業の競争の年齢を知るための強力な技術として認識されている。 この手法は、開発途上国のテクノロジー開発を著しく加速することができるため、近道と考えられる。 したがって、避けられないプロセスとして、特許分析を利用してライバル企業や多様な産業を監視することができる。 この研究は、イランの公式ガゼットに登録された特許データの作成、分析、検索にグラフ表現学習アプローチを採用した。 特許記録は取り壊され、イランの公式ガゼットポータルに保管された。 その後、キーエンティティは廃れた特許データセットから抽出され、新しい自然言語処理とエンティティ解決技術に基づいて、スクラッチからイラン特許グラフを作成する。 最後に, 新規なグラフアルゴリズムとテキストマイニング手法の活用により, イランの特許データから新たな産業分野と研究分野を特定し, 重複する特許の防止, 類似した発明に親しみやすいこと, 特定の研究分野における研究者と関係するステークホルダーの特許と知識を支持する法的実体の認識, を広く利用した。

Patent analysis has recently been recognized as a powerful technique for large companies worldwide to lend them insight into the age of competition among various industries. This technique is considered a shortcut for developing countries since it can significantly accelerate their technology development. Therefore, as an inevitable process, patent analysis can be utilized to monitor rival companies and diverse industries. This research employed a graph representation learning approach to create, analyze, and find similarities in the patent data registered in the Iranian Official Gazette. The patent records were scrapped and wrangled through the Iranian Official Gazette portal. Afterward, the key entities were extracted from the scrapped patents dataset to create the Iranian patents graph from scratch based on novel natural language processing and entity resolution techniques. Finally, thanks to the utilization of novel graph algorithms and text mining methods, we identified new areas of industry and research from Iranian patent data, which can be used extensively to prevent duplicate patents, familiarity with similar and connected inventions, Awareness of legal entities supporting patents and knowledge of researchers and linked stakeholders in a particular research field.
翻訳日:2023-09-26 16:50:07 公開日:2023-09-25
# クラスプライアはシングル陽性のマルチラベル学習に役立つか?

Can Class-Priors Help Single-Positive Multi-Label Learning? ( http://arxiv.org/abs/2309.13886v1 )

ライセンス: Link先を確認
Biao Liu, Jie Wang, Ning Xu, Xin Geng(参考訳) SPMLL(Single- positive multi-label learning)は、典型的な弱教師付きマルチラベル学習問題であり、各トレーニング例に1つの正のラベルをアノテートする。 既存のSPMLLメソッドは通常、すべてのクラスの事前確率が同一であると仮定して、注釈付きラベルに擬似ラベルを割り当てる。 しかし、各カテゴリのクラスプライアは現実のシナリオで大きく異なる場合があるため、予測モデルは現実のアプリケーションにおける非現実的な仮定のため、期待通りには機能しない。 この問題を軽減するために,「プロポシド」と呼ばれる新しい枠組み,すなわち,クラスプライアーズによる単陽性マルチラベル学習を提案する。 具体的には、クラスプリアーズ推定器が導入され、理論上はクラスプリアーズに収束することが保証されているクラスプリアーを推定することができる。 また、推定されたクラスプライアーに基づいて、分類のための偏りのないリスク推定器を導出し、全教師データに基づいて、対応するリスク最小化器を最適リスク最小化器に略収束させることを保証できる。 10のMLLベンチマークデータセットに対する実験結果から,既存のSPMLL手法よりも提案手法の有効性と優位性を示した。

Single-positive multi-label learning (SPMLL) is a typical weakly supervised multi-label learning problem, where each training example is annotated with only one positive label. Existing SPMLL methods typically assign pseudo-labels to unannotated labels with the assumption that prior probabilities of all classes are identical. However, the class-prior of each category may differ significantly in real-world scenarios, which makes the predictive model not perform as well as expected due to the unrealistic assumption on real-world application. To alleviate this issue, a novel framework named {\proposed}, i.e., Class-pRiors Induced Single-Positive multi-label learning, is proposed. Specifically, a class-priors estimator is introduced, which could estimate the class-priors that are theoretically guaranteed to converge to the ground-truth class-priors. In addition, based on the estimated class-priors, an unbiased risk estimator for classification is derived, and the corresponding risk minimizer could be guaranteed to approximately converge to the optimal risk minimizer on fully supervised data. Experimental results on ten MLL benchmark datasets demonstrate the effectiveness and superiority of our method over existing SPMLL approaches.
翻訳日:2023-09-26 16:49:47 公開日:2023-09-25
# ビデオ超解像のための軽量リカレントグループ注意ネットワーク

A Lightweight Recurrent Grouping Attention Network for Video Super-Resolution ( http://arxiv.org/abs/2309.13940v1 )

ライセンス: Link先を確認
Yonggui Zhu, Guofang Li(参考訳) 連続フレームの時間情報の効果的な集約は、ビデオ超解像化のコアとなる。 多くの学者はスライディングウインドウやリカレントのような構造を利用してフレームの時空間情報を収集している。 しかしながら、構築されたVSRモデルの性能は改善されているものの、モデルのサイズも増加しており、機器の需要が増している。 そこで本研究では,デバイスへのストレスを軽減するため,新しい軽量グループ化アテンションネットワークを提案する。 このモデルのパラメータは0.878Mのみであり、ビデオ超解像の研究における現在の主流モデルよりもはるかに低い。 2方向から連続するフレーム間の時間情報を集めるために,前方特徴抽出モジュールと後方特徴抽出モジュールを設計した。 さらに,参照フレームとその隣接フレームの時空間情報を効率的に収集する新しいグループ化機構を提案する。 注意補助モジュールは、モデルの情報収集範囲をさらに強化するために提示される。 特徴再構成モジュールは、異なる方向からの情報を集約して高解像度の特徴を再構築することを目的としている。 実験により,本モデルが複数のデータセット上で最先端の性能を達成することを示す。

Effective aggregation of temporal information of consecutive frames is the core of achieving video super-resolution. Many scholars have utilized structures such as sliding windows and recurrent to gather spatio-temporal information of frames. However, although the performance of the constructed VSR models is improving, the size of the models is also increasing, exacerbating the demand on the equipment. Thus, to reduce the stress on the device, we propose a novel lightweight recurrent grouping attention network. The parameters of this model are only 0.878M, which is much lower than the current mainstream model for studying video super-resolution. We design forward feature extraction module and backward feature extraction module to collect temporal information between consecutive frames from two directions. Moreover, a new grouping mechanism is proposed to efficiently collect spatio-temporal information of the reference frame and its neighboring frames. The attention supplementation module is presented to further enhance the information gathering range of the model. The feature reconstruction module aims to aggregate information from different directions to reconstruct high-resolution features. Experiments demonstrate that our model achieves state-of-the-art performance on multiple datasets.
翻訳日:2023-09-26 16:44:00 公開日:2023-09-25
# The Time Traveler's Guide to Semantic Web Research: Analyzing Fictitious Researchmes in the ESWC "Next 20 Years" Track

The Time Traveler's Guide to Semantic Web Research: Analyzing Fictitious Research Themes in the ESWC "Next 20 Years" Track ( http://arxiv.org/abs/2309.13939v1 )

ライセンス: Link先を確認
Irene Celino and Heiko Paulheim(参考訳) semantic web researchは今後20年で何をフォーカスするのか? 我々はこの質問をコミュニティに求め、ESWC 2023の"Next 20 years"トラックで彼らのビジョンを収集しました。 我々は参加者に対して,2043年版の会議に提出するかのように,将来の研究論文を提出するよう呼びかけた。 2040年代後半から2050年代初めにかけての研究計画のアイデアを身につけるため、研究の質問、アートの参照状況、実験結果、将来の研究などを含む完全な科学論文となることが期待された。 10の申し込みを受けましたが、そのうち8つがカンファレンスのプレゼンテーションに受理され、将来の研究テーマと議論トピックの真剣なアイデアと楽しみと皮肉が混ざり合っています。 本稿では,これらの「サイエンスフィクション」論文について,新たな研究テーマや話題を考察し,これらの特別論文において著者が適用した研究手法を分析し,また,最も架空の部分(ネオロジズム,製本参照など)についても検討する。 この特別なトラックがセマンティックウェブコミュニティについて何を教えてくれるかを調査する一方で、今後の研究の実践や方向性についていくつかの洞察を得ることを目標としています。

What will Semantic Web research focus on in 20 years from now? We asked this question to the community and collected their visions in the "Next 20 years" track of ESWC 2023. We challenged the participants to submit "future" research papers, as if they were submitting to the 2043 edition of the conference. The submissions - entirely fictitious - were expected to be full scientific papers, with research questions, state of the art references, experimental results and future work, with the goal to get an idea of the research agenda for the late 2040s and early 2050s. We received ten submissions, eight of which were accepted for presentation at the conference, that mixed serious ideas of potential future research themes and discussion topics with some fun and irony. In this paper, we intend to provide a survey of those "science fiction" papers, considering the emerging research themes and topics, analysing the research methods applied by the authors in these very special submissions, and investigating also the most fictitious parts (e.g., neologisms, fabricated references). Our goal is twofold: on the one hand, we investigate what this special track tells us about the Semantic Web community and, on the other hand, we aim at getting some insights on future research practices and directions.
翻訳日:2023-09-26 16:43:43 公開日:2023-09-25
# ファジィ精度とリコールによるソフトラベル分類システムの評価

Evaluating Classification Systems Against Soft Labels with Fuzzy Precision and Recall ( http://arxiv.org/abs/2309.13938v1 )

ライセンス: Link先を確認
Manu Harju, Annamaria Mesaros(参考訳) 分類システムは、通常、システム出力と参照ラベルの間の交差エントロピーを最小化することで訓練されるため、kullback-leiblerの発散は、システムがどの程度データを追跡できるかを測定するための自然な選択となる。 精度とリコールは、分類システムの性能を測定する別の視点を提供する。 非バイナリ参照は様々なソースから発生しうるため、二項化データの代わりにソフトラベルをトレーニングに使用することは、しばしば有益である。 しかし、既存の精度とリコールの定義ではバイナリ参照ラベルが必要であり、データのバイナライズは誤った解釈を引き起こす可能性がある。 データを定量化せずに精度、リコール、Fスコアを計算する新しい手法を提案する。 提案したメトリクスは、定義がバイナリラベルで使用されるときに一致するため、確立されたメトリクスを拡張します。 測定値の振る舞いを理解するために, ソフトラベルを用いた実データを用いた各種音響事象検出モデルの評価と, 簡単な例を示す。

Classification systems are normally trained by minimizing the cross-entropy between system outputs and reference labels, which makes the Kullback-Leibler divergence a natural choice for measuring how closely the system can follow the data. Precision and recall provide another perspective for measuring the performance of a classification system. Non-binary references can arise from various sources, and it is often beneficial to use the soft labels for training instead of the binarized data. However, the existing definitions for precision and recall require binary reference labels, and binarizing the data can cause erroneous interpretations. We present a novel method to calculate precision, recall and F-score without quantizing the data. The proposed metrics extend the well established metrics as the definitions coincide when used with binary labels. To understand the behavior of the metrics we show simple example cases and an evaluation of different sound event detection models trained on real data with soft labels.
翻訳日:2023-09-26 16:43:17 公開日:2023-09-25
# SPOTS:半自律遠隔操作システムにおける推論を伴う物体の安定配置

SPOTS: Stable Placement of Objects with Reasoning in Semi-Autonomous Teleoperation Systems ( http://arxiv.org/abs/2309.13937v1 )

ライセンス: Link先を確認
Joonhyung Lee, Sangbeom Park, Jeongeun Park, Kyungjae Lee, Sungjoon Choi(参考訳) ピック・アンド・プレイス(Pick-and-place)は、ロボティクス研究の基本課題の一つ。 しかしながら、注意は主に `pick'' タスクに集中しており、 ``place'' タスクは比較的未探索のままである。 本稿では,遠隔操作フレームワークのコンテキストにオブジェクトを置くという問題に対処する。 特に、配置タスクの2つの側面、安定性の堅牢性とオブジェクト配置の文脈的合理性に焦点を当てる。 提案手法は,シミュレーション駆動型物理安定性検証と大規模言語モデルの意味論的推論能力を組み合わせたものである。 言い換えれば,提案手法は,与えられた場所コンテキスト情報(例えば,ユーザの好み,対象場所,現在のシーン情報)を用いて,配置候補に対する確率分布を,その場所タスクの堅牢性と合理的性を考慮して出力する。 提案手法は,2つのシミュレーションと1つの実環境において広範囲に評価され,ユーザの好みを考慮しつつ,配置の物理的可能性と文脈性を大幅に向上できることを示す。

Pick-and-place is one of the fundamental tasks in robotics research. However, the attention has been mostly focused on the ``pick'' task, leaving the ``place'' task relatively unexplored. In this paper, we address the problem of placing objects in the context of a teleoperation framework. Particularly, we focus on two aspects of the place task: stability robustness and contextual reasonableness of object placements. Our proposed method combines simulation-driven physical stability verification via real-to-sim and the semantic reasoning capability of large language models. In other words, given place context information (e.g., user preferences, object to place, and current scene information), our proposed method outputs a probability distribution over the possible placement candidates, considering the robustness and reasonableness of the place task. Our proposed method is extensively evaluated in two simulation and one real world environments and we show that our method can greatly increase the physical plausibility of the placement as well as contextual soundness while considering user preferences.
翻訳日:2023-09-26 16:43:02 公開日:2023-09-25
# アルゴリズム採用における公平性とバイアス

Fairness and Bias in Algorithmic Hiring ( http://arxiv.org/abs/2309.13933v1 )

ライセンス: Link先を確認
Alessandro Fabris, Nina Baranowska, Matthew J. Dennis, Philipp Hacker, Jorge Saldivar, Frederik Zuiderveen Borgesius, Asia J. Biega(参考訳) 雇用者は採用パイプラインを通じてアルゴリズムによる雇用技術を採用しています。 アルゴリズム的公正性は、高い利害関係と構造的不等式のため、この領域で特に適用できる。 残念なことに、この分野のほとんどの仕事は、偏ったリクルーターの決定を楽観的に置き換えたり、差別の自動化を悲観的に指している、2つの競合する物語によって制約される部分的な扱いを提供する。 アルゴリズムによる雇用のバイアスが減り、社会に利益をもたらすかどうか、そしてさらに重要なことは、信頼感の低下に対して、現在のローテクな代替手段は未解決のままだ。 この多分野のサーベイは、システム、バイアス、測定、緩和戦略、データセット、およびアルゴリズムによる雇用と公平性の法的側面のバランスよく統合されたカバレッジを持つ実践者や研究者に提供される。 私たちの仕事は、現在の機会と制限を強調し、すべての利害関係者が共有する利益を確保するための将来の作業のための推奨を提供することで、この技術のコンテキスト化された理解とガバナンスをサポートします。

Employers are adopting algorithmic hiring technology throughout the recruitment pipeline. Algorithmic fairness is especially applicable in this domain due to its high stakes and structural inequalities. Unfortunately, most work in this space provides partial treatment, often constrained by two competing narratives, optimistically focused on replacing biased recruiter decisions or pessimistically pointing to the automation of discrimination. Whether, and more importantly what types of, algorithmic hiring can be less biased and more beneficial to society than low-tech alternatives currently remains unanswered, to the detriment of trustworthiness. This multidisciplinary survey caters to practitioners and researchers with a balanced and integrated coverage of systems, biases, measures, mitigation strategies, datasets, and legal aspects of algorithmic hiring and fairness. Our work supports a contextualized understanding and governance of this technology by highlighting current opportunities and limitations, providing recommendations for future work to ensure shared benefits for all stakeholders.
翻訳日:2023-09-26 16:42:42 公開日:2023-09-25
# SAMN: SVMとNNをひとつのアーキテクチャで結合したサンプルアテンションメモリネットワーク

SAMN: A Sample Attention Memory Network Combining SVM and NN in One Architecture ( http://arxiv.org/abs/2309.13930v1 )

ライセンス: Link先を確認
Qiaoling Yang, Linkai Luo, Haoyu Zhang, Hong Peng, Ziyang Chen(参考訳) サポートベクトルマシン(SVM)とニューラルネットワーク(NN)は強い相補性を持つ。 SVMはサンプル間の内部操作にフォーカスし、NNはサンプル内の機能間の操作にフォーカスする。 したがって、SVMやNN単独よりも強力な機能を提供する可能性があるため、SVMとNNを組み合わせることは有望で魅力的である。 しかし、それらを組み合わせるための現在の作業は、真の統合を欠いている。 そこで本研究では,サンプルアテンションモジュール,クラスプロトタイプ,メモリブロックをNNに組み込むことで,SVMとNNを効果的に組み合わせたサンプルアテンションメモリネットワーク(SAMN)を提案する。 SVMはサンプルアテンションマシンと見なすことができる。 SVMの主な機能を実装するために、NNにサンプルアテンションモジュールを追加することができます。 クラスプロトタイプはすべてのクラスの代表であり、サポートベクターの代替品と見なすことができる。 メモリブロックはクラスプロトタイプのストレージと更新に使用される。 クラスプロトタイプとメモリブロックは、サンプル注意の計算コストを効果的に削減し、SAMNをマルチクラス化タスクに適合させる。 大規模な実験により、SAMNはSVMとNNを組み合わせるための以前の最良のモデルと同様に、類似のパラメータサイズを持つ単一SVMや単一NNよりも優れた分類性能が得られることが示された。 サンプルアテンションメカニズムはフレキシブルモジュールで、それを必要とするようなニューラルネットワークに簡単に深く組み込むことができる。

Support vector machine (SVM) and neural networks (NN) have strong complementarity. SVM focuses on the inner operation among samples while NN focuses on the operation among the features within samples. Thus, it is promising and attractive to combine SVM and NN, as it may provide a more powerful function than SVM or NN alone. However, current work on combining them lacks true integration. To address this, we propose a sample attention memory network (SAMN) that effectively combines SVM and NN by incorporating sample attention module, class prototypes, and memory block to NN. SVM can be viewed as a sample attention machine. It allows us to add a sample attention module to NN to implement the main function of SVM. Class prototypes are representatives of all classes, which can be viewed as alternatives to support vectors. The memory block is used for the storage and update of class prototypes. Class prototypes and memory block effectively reduce the computational cost of sample attention and make SAMN suitable for multi-classification tasks. Extensive experiments show that SAMN achieves better classification performance than single SVM or single NN with similar parameter sizes, as well as the previous best model for combining SVM and NN. The sample attention mechanism is a flexible module that can be easily deepened and incorporated into neural networks that require it.
翻訳日:2023-09-26 16:42:26 公開日:2023-09-25
# 超伝導量子におけるZZ-Interaction-free Single-Qubit-Gate Optimization

ZZ-Interaction-Free Single-Qubit-Gate Optimization in Superconducting Qubits ( http://arxiv.org/abs/2309.13927v1 )

ライセンス: Link先を確認
Shu Watanabe, Yutaka Tabuchi, Kentaro Heya, Shuhei Tamate, Yasunobu Nakamura(参考訳) 量子ビット周波数変動の問題を克服することは、固体量子ビットを用いた安定かつ実用的な量子コンピューティングを実現するために不可欠である。 隣接する量子ビットの状態に応じて量子ビットの周波数シフトを引き起こす静的ZZ相互作用は、固定周波数のトランペット量子ビットを統合する上での大きな障害の1つである。 本稿では、摂動解析に基づく半解析最適化パルスを用いて超伝導トランスモン量子ビット上でのZZ-相互作用のない単一量子ゲート動作を実験的に実証する。 ゲートは、遅いクォービット周波数変動に対して堅牢であるように設計されている。 最適化ゲートのロバスト性は数MHzにわたっており、ZZ相互作用の悪影響を抑制するのに十分である。 私たちの結果は、追加のハードウェアオーバーヘッドなしにzzインタラクションの問題を克服する効率的なアプローチへの道を開くものです。

Overcoming the issue of qubit-frequency fluctuations is essential to realize stable and practical quantum computing with solid-state qubits. Static ZZ interaction, which causes a frequency shift of a qubit depending on the state of neighboring qubits, is one of the major obstacles to integrating fixed-frequency transmon qubits. Here we propose and experimentally demonstrate ZZ-interaction-free single-qubit-gate operations on a superconducting transmon qubit by utilizing a semi-analytically optimized pulse based on a perturbative analysis. The gate is designed to be robust against slow qubit-frequency fluctuations. The robustness of the optimized gate spans a few MHz, which is sufficient for suppressing the adverse effects of the ZZ interaction. Our result paves the way for an efficient approach to overcoming the issue of ZZ interaction without any additional hardware overhead.
翻訳日:2023-09-26 16:42:03 公開日:2023-09-25
# 擬似ラベル選択は決定問題である

Pseudo Label Selection is a Decision Problem ( http://arxiv.org/abs/2309.13926v1 )

ライセンス: Link先を確認
Julian Rodemann(参考訳) 擬似ラベルは半教師付き学習に対する単純かつ効果的なアプローチである。 擬似ラベル付きデータの選定を導く基準が必要である。 後者は擬似ラベルの一般化性能に重大な影響を与えることが示されている。 このような基準がいくつか存在し、実際にうまく機能することが証明された。 しかし、その性能はラベル付きデータに適合する初期モデルに依存することが多い。 早期のオーバーフィッティングは、自信過剰だが誤った予測を持つインスタンスを選択することで最終モデルに伝播することができる。 近年の2つの研究で,疑似ラベル選択 (pls) が決定理論に自然に組み込まれることを実証した。 BPLSは、確認バイアスの問題を緩和するPLSのためのベイズ的フレームワークである。 その中心にある新しい選択基準は、擬似サンプルとラベル付きデータの後方予測に関する解析的近似である。 この選択基準は、この「擬似後続予測」のベイズ最適性を証明することによって導かれる。 シミュレーションおよび実世界データを用いた一般化線形・非パラメトリック一般化加法モデルとベイズニューラルネットワークに対するbplの評価を行った。 データに直面すると過度に適合し、確認バイアスの高い場合、BPLSは従来のPLS法より優れている。 さらに、決定論的埋め込みにより、PSSを関連するモデリング仮定に向けてより堅牢にすることができる。 この目的を達成するために,多目的ユーティリティ関数を導入する。 モデル選択, 誤りの蓄積, 共変量シフトの3つの例を探索し, 異なる不確実性の源を説明するために, 後者を構築できることを実証した。

Pseudo-Labeling is a simple and effective approach to semi-supervised learning. It requires criteria that guide the selection of pseudo-labeled data. The latter have been shown to crucially affect pseudo-labeling's generalization performance. Several such criteria exist and were proven to work reasonably well in practice. However, their performance often depends on the initial model fit on labeled data. Early overfitting can be propagated to the final model by choosing instances with overconfident but wrong predictions, often called confirmation bias. In two recent works, we demonstrate that pseudo-label selection (PLS) can be naturally embedded into decision theory. This paves the way for BPLS, a Bayesian framework for PLS that mitigates the issue of confirmation bias. At its heart is a novel selection criterion: an analytical approximation of the posterior predictive of pseudo-samples and labeled data. We derive this selection criterion by proving Bayes-optimality of this "pseudo posterior predictive". We empirically assess BPLS for generalized linear, non-parametric generalized additive models and Bayesian neural networks on simulated and real-world data. When faced with data prone to overfitting and thus a high chance of confirmation bias, BPLS outperforms traditional PLS methods. The decision-theoretic embedding further allows us to render PLS more robust towards the involved modeling assumptions. To achieve this goal, we introduce a multi-objective utility function. We demonstrate that the latter can be constructed to account for different sources of uncertainty and explore three examples: model selection, accumulation of errors and covariate shift.
翻訳日:2023-09-26 16:41:47 公開日:2023-09-25
# UCF-Crimeアノテーション: 監視ビデオと言語理解のためのベンチマーク

UCF-Crime Annotation: A Benchmark for Surveillance Video-and-Language Understanding ( http://arxiv.org/abs/2309.13925v1 )

ライセンス: Link先を確認
Tongtong Yuan, Xuange Zhang, Kun Liu, Bo Liu, Jian Jin, Zhenzhen Jiao(参考訳) 監視ビデオは日常生活の重要な要素であり、特に公共の安全において様々な重要な応用がなされている。 しかしながら、現在の監視ビデオタスクは、主に異常事象の分類とローカライズに焦点を当てている。 既存の方法は、十分な性能を得たにもかかわらず、満足のいく一般化能力と意味理解を備えた事前定義された事象の検出と分類に限られている。 この問題に対処するために,実世界の監視データセットUCF-Crimeに詳細なイベント内容とタイミングを手動でアノテートすることで,最初のマルチモーダル監視ビデオデータセットを構築することを提案する。 我々の新たに注釈付きデータセットであるUCF-Crime Annotationは、マルチモーダル監視ビデオ分析のための新しいベンチマークを提供する。 詳細な記述にイベントを記述するだけでなく、0.1秒間隔のイベントの正確な時間的接地を提供する。 ucaには20,822の文があり、平均の長さは23語、注釈付きビデオは102時間である。 さらに,今回新たに作成したデータセット上で,複数のマルチモーダルタスクの最先端モデルについて,ビデオのテンポラル・センテンス・グラウンド,ビデオキャプション,高密度ビデオキャプションなどのベンチマークを行った。 実験の結果,これまで公開されているデータセットで使用されていた主流モデルは,マルチモーダル監視ビデオのシナリオでは不十分であることが判明した。 データセットとコードへのリンクは以下の通りです。

Surveillance videos are an essential component of daily life with various critical applications, particularly in public security. However, current surveillance video tasks mainly focus on classifying and localizing anomalous events. Existing methods are limited to detecting and classifying the predefined events with unsatisfactory generalization ability and semantic understanding, although they have obtained considerable performance. To address this issue, we propose constructing the first multimodal surveillance video dataset by manually annotating the real-world surveillance dataset UCF-Crime with fine-grained event content and timing. Our newly annotated dataset, UCA (UCF-Crime Annotation), provides a novel benchmark for multimodal surveillance video analysis. It not only describes events in detailed descriptions but also provides precise temporal grounding of the events in 0.1-second intervals. UCA contains 20,822 sentences, with an average length of 23 words, and its annotated videos are as long as 102 hours. Furthermore, we benchmark the state-of-the-art models of multiple multimodal tasks on this newly created dataset, including temporal sentence grounding in videos, video captioning, and dense video captioning. Through our experiments, we found that mainstream models used in previously publicly available datasets perform poorly on multimodal surveillance video scenarios, which highlights the necessity of constructing this dataset. The link to our dataset and code is provided at: https://github.com/Xuange923/UCA-dataset.
翻訳日:2023-09-26 16:41:26 公開日:2023-09-25
# オブジェクト認識のための再帰的因果分解

Recursive Counterfactual Deconfounding for Object Recognition ( http://arxiv.org/abs/2309.13924v1 )

ライセンス: Link先を確認
Jiayin Sun, Hong Wang and Qiulei Dong(参考訳) 画像認識はコンピュータビジョン分野において古典的で一般的なタスクであり、この10年間広く適用されてきた。 文献における既存のほとんどの方法は、ラベル付き画像から識別的特徴を学習することを目的としているが、一般的には、学習した特徴に侵入する共同ファウンダーを無視し、結果としてテスト画像の識別性能が低下する。 この問題に対処するために, RCD と呼ばれる逆ファクト解析に基づく, クローズドセットとオープンセットの両方のシナリオにおけるオブジェクト認識のための再帰的反事実分解モデルを提案する。 提案手法は, 画像特徴量, モデル予測, コンビネータ間の関係を, より識別的な特徴を学習するために再帰的に構築し, 更新する, 事実グラフと反事実グラフからなる。 この手法は再帰的に動作し,より微妙な反事実的特徴を学習し,段階的に排除し,提案モデルの識別性と一般化の両方を改善することができる。 また、モデル訓練段階における反事実的特徴の負の効果を緩和するために負相関制約が設計されている。 クローズドセット認識タスクとオープンセット認識タスクの両方の広範な実験結果から,提案するrcdモデルは,ほとんどの場合,11の最先端ベースラインよりも優れた性能を示す。

Image recognition is a classic and common task in the computer vision field, which has been widely applied in the past decade. Most existing methods in literature aim to learn discriminative features from labeled images for classification, however, they generally neglect confounders that infiltrate into the learned features, resulting in low performances for discriminating test images. To address this problem, we propose a Recursive Counterfactual Deconfounding model for object recognition in both closed-set and open-set scenarios based on counterfactual analysis, called RCD. The proposed model consists of a factual graph and a counterfactual graph, where the relationships among image features, model predictions, and confounders are built and updated recursively for learning more discriminative features. It performs in a recursive manner so that subtler counterfactual features could be learned and eliminated progressively, and both the discriminability and generalization of the proposed model could be improved accordingly. In addition, a negative correlation constraint is designed for alleviating the negative effects of the counterfactual features further at the model training stage. Extensive experimental results on both closed-set recognition task and open-set recognition task demonstrate that the proposed RCD model performs better than 11 state-of-the-art baselines significantly in most cases.
翻訳日:2023-09-26 16:41:00 公開日:2023-09-25
# ニュートン法に基づく部分空間支援ベクトルデータ記述

Newton Method-based Subspace Support Vector Data Description ( http://arxiv.org/abs/2309.13960v1 )

ライセンス: Link先を確認
Fahad Sohrab, Firas Laakom, Moncef Gabbouj(参考訳) 本稿では,S-SVDD(Subspace Support Vector Data Description)の最適化のためのNewton法の適用について述べる。 S-SVDDの目的は、元のデータを一級分類に最適化された部分空間にマッピングすることであり、S-SVDDにおけるデータマッピングと記述の反復的最適化プロセスは勾配勾配に依存する。 しかし、勾配降下は1次情報のみを利用するため、最適以下の結果につながる可能性がある。 この制限に対処するために,newton法を利用してデータマッピングとデータ記述を強化し,サブスペース学習に基づく1クラス分類の最適化を改善した。 この補助情報を組み込むことで、ニュートンの手法は勾配に基づく最適化と比較して、一クラス分類における部分空間学習をより効率的な戦略を提供する。 本稿では, 勾配降下の限界と, サブスペース学習におけるニュートン法の利用の利点について論じる。 S-SVDDに対するニュートン法に基づく最適化の線形および非線形な定式化を提供する。 実験では,目標の最小化戦略と最大化戦略の両方を検討した。 提案手法は,ほとんどの場合,勾配に基づくS-SVDDよりも優れていることを示す。

In this paper, we present an adaptation of Newton's method for the optimization of Subspace Support Vector Data Description (S-SVDD). The objective of S-SVDD is to map the original data to a subspace optimized for one-class classification, and the iterative optimization process of data mapping and description in S-SVDD relies on gradient descent. However, gradient descent only utilizes first-order information, which may lead to suboptimal results. To address this limitation, we leverage Newton's method to enhance data mapping and data description for an improved optimization of subspace learning-based one-class classification. By incorporating this auxiliary information, Newton's method offers a more efficient strategy for subspace learning in one-class classification as compared to gradient-based optimization. The paper discusses the limitations of gradient descent and the advantages of using Newton's method in subspace learning for one-class classification tasks. We provide both linear and nonlinear formulations of Newton's method-based optimization for S-SVDD. In our experiments, we explored both the minimization and maximization strategies of the objective. The results demonstrate that the proposed optimization strategy outperforms the gradient-based S-SVDD in most cases.
翻訳日:2023-09-26 16:32:30 公開日:2023-09-25
# ビーム列挙: 自己調和型分子設計における確率的説明可能性

Beam Enumeration: Probabilistic Explainability For Sample Efficient Self-conditioned Molecular Design ( http://arxiv.org/abs/2309.13957v1 )

ライセンス: Link先を確認
Jeff Guo, Philippe Schwaller(参考訳) 生成的分子設計は概念実証から実世界に適用可能へと移行しており、実験検証を報告した最近の論文の急増が特徴である。 説明可能性とサンプル効率における重要な課題は、高価な高忠実度オラクルを直接最適化し、ドメインエキスパートに実行可能な洞察を提供する生成設計を強化する機会を提供する。 本稿では、言語に基づく分子生成モデルから最も確率の高いサブシーケンスを包括的に列挙し、分子サブ構造を抽出できることを示すビーム列挙法を提案する。 強化学習と組み合わせると、抽出されたサブ構造が意味を持ち、説明可能性の源となり、自己条件生成によるサンプル効率を向上させる。 ビーム列挙法は一般に任意の言語に基づく分子生成モデルに適用でき、特に最近報告されたAugmented Memoryアルゴリズムの性能を向上させる。 この組み合わせアルゴリズムは、oracleの予算を固定することで、より高い報酬分子とより高速なものを生成する。 ビーム列挙は分子設計のための説明可能性とサンプル効率を共同で扱う最初の方法である。

Generative molecular design has moved from proof-of-concept to real-world applicability, as marked by the surge in very recent papers reporting experimental validation. Key challenges in explainability and sample efficiency present opportunities to enhance generative design to directly optimize expensive high-fidelity oracles and provide actionable insights to domain experts. Here, we propose Beam Enumeration to exhaustively enumerate the most probable sub-sequences from language-based molecular generative models and show that molecular substructures can be extracted. When coupled with reinforcement learning, extracted substructures become meaningful, providing a source of explainability and improving sample efficiency through self-conditioned generation. Beam Enumeration is generally applicable to any language-based molecular generative model and notably further improves the performance of the recently reported Augmented Memory algorithm, which achieved the new state-of-the-art on the Practical Molecular Optimization benchmark for sample efficiency. The combined algorithm generates more high reward molecules and faster, given a fixed oracle budget. Beam Enumeration is the first method to jointly address explainability and sample efficiency for molecular design.
翻訳日:2023-09-26 16:32:06 公開日:2023-09-25
# 忠実な再構成と編集性のためのドメイン内GANインバージョン

In-Domain GAN Inversion for Faithful Reconstruction and Editability ( http://arxiv.org/abs/2309.13956v1 )

ライセンス: Link先を確認
Jiapeng Zhu, Yujun Shen, Yinghao Xu, Deli Zhao, Qifeng Chen, Bolei Zhou(参考訳) GAN(Generative Adversarial Networks)は、ランダムにサンプリングされた潜在符号を高忠実な合成画像にマッピングすることで、画像合成を著しく進歩させる。 しかし、よく訓練されたGANを実際の画像編集に適用することは依然として困難である。 一般的な解決策は、入力画像を適切に復元して編集できる近似潜在コードを見つけることである。 GANモデルを逆転させるには、通常、画素レベルでのターゲット画像の再構成に焦点をあてるが、反転した結果が意味レベルでの操作をうまく支援できるかどうかについてはほとんど研究されていない。 この作業は、ドメイン誘導エンコーダとドメイン正規化オプティマイザからなるドメイン内GANインバージョンを提案し、事前訓練されたGANモデルのネイティブ潜在空間における反転コードを正規化することで、このギャップを埋める。 このようにして、画像再構成のためにGANが学んだ知識を十分に再利用し、リトレーニングなしに広範囲の編集アプリケーションを容易にする。 さらに,エンコーダ構造,開始反転点,反転パラメータ空間の影響を包括的に解析し,復元品質と編集特性とのトレードオフを観察した。 このようなトレードオフは、学習された潜伏分布に符号化された様々なセマンティクスで、GANモデルがどのようにイメージを表現するかを示す。 コード、モデル、デモはプロジェクトのページで公開されている。

Generative Adversarial Networks (GANs) have significantly advanced image synthesis through mapping randomly sampled latent codes to high-fidelity synthesized images. However, applying well-trained GANs to real image editing remains challenging. A common solution is to find an approximate latent code that can adequately recover the input image to edit, which is also known as GAN inversion. To invert a GAN model, prior works typically focus on reconstructing the target image at the pixel level, yet few studies are conducted on whether the inverted result can well support manipulation at the semantic level. This work fills in this gap by proposing in-domain GAN inversion, which consists of a domain-guided encoder and a domain-regularized optimizer, to regularize the inverted code in the native latent space of the pre-trained GAN model. In this way, we manage to sufficiently reuse the knowledge learned by GANs for image reconstruction, facilitating a wide range of editing applications without any retraining. We further make comprehensive analyses on the effects of the encoder structure, the starting inversion point, as well as the inversion parameter space, and observe the trade-off between the reconstruction quality and the editing property. Such a trade-off sheds light on how a GAN model represents an image with various semantics encoded in the learned latent distribution. Code, models, and demo are available at the project page: https://genforce.github.io/idinvert/.
翻訳日:2023-09-26 16:31:33 公開日:2023-09-25
# パルス衝突噴流の熱伝達制御のための深部強化学習

Deep Reinforcement Learning for the Heat Transfer Control of Pulsating Impinging Jets ( http://arxiv.org/abs/2309.13955v1 )

ライセンス: Link先を確認
Sajad Salavatidezfouli, Giovanni Stabile and Gianluigi Rozza(参考訳) 本研究では,数値流体力学に基づく熱制御における深部強化学習(DRL)の適用性について検討する。 そこで, 推進冷却ジェットに対する高温板上の強制対流の速度変化について検討した。 熱制御のためのバニラ深部Q-Network(DQN)法の有効性と効率を評価することから始める。 その後、DRLの異なる変種間の包括的比較を行う。 ソフトダブルとデュエルDQNは、効率的な学習と行動優先順位付け能力により、全ての変種で優れた熱制御性能を達成した。 その結果,ソフトダブルDQNはハードダブルDQNよりも優れていた。 さらに、ソフトダブルとデュエルは、制御サイクルの98%以上で所望の閾値の温度を維持することができる。 これらの結果は、DRLが熱制御システムに効果的に対処する可能性を示している。

This research study explores the applicability of Deep Reinforcement Learning (DRL) for thermal control based on Computational Fluid Dynamics. To accomplish that, the forced convection on a hot plate prone to a pulsating cooling jet with variable velocity has been investigated. We begin with evaluating the efficiency and viability of a vanilla Deep Q-Network (DQN) method for thermal control. Subsequently, a comprehensive comparison between different variants of DRL is conducted. Soft Double and Duel DQN achieved better thermal control performance among all the variants due to their efficient learning and action prioritization capabilities. Results demonstrate that the soft Double DQN outperforms the hard Double DQN. Moreover, soft Double and Duel can maintain the temperature in the desired threshold for more than 98% of the control cycle. These findings demonstrate the promising potential of DRL in effectively addressing thermal control systems.
翻訳日:2023-09-26 16:31:09 公開日:2023-09-25
# vidchapters-7m: 大規模ビデオチャプタ

VidChapters-7M: Video Chapters at Scale ( http://arxiv.org/abs/2309.13952v1 )

ライセンス: Link先を確認
Antoine Yang, Arsha Nagrani, Ivan Laptev, Josef Sivic, Cordelia Schmid(参考訳) 長いビデオを章に分割することで、ユーザーは興味のある情報を素早くナビゲートできる。 この重要なトピックは、公開データセットの欠如のために検討されている。 この問題に対処するために,vidchapters-7mという,合計7m章を含む817kのユーザチャプタビデオのデータセットを提案する。 VidChapters-7Mは、ユーザーが注釈付けした章を削り取ることで、オンラインビデオから自動的にスケーラブルな方法で作成される。 このデータに基づいて以下の3つのタスクを紹介する。 まず、映像章生成タスクは、映像を時間的に分割し、各セグメントの章タイトルを生成する。 さらにこの問題をさらに整理するため,本課題の2つの変種を定式化している: 地上境界を付与するビデオチャプタ生成, 注釈付きビデオセグメントを付与するチャプタタイトルの生成, 注釈付きタイトルを付与するチャプタを時間的ローカライズするビデオチャプタグラウンドニング。 これら3つのタスクに対して,単純なベースラインと最先端のビデオ言語モデルの両方をベンチマークする。 また、VidChapters-7Mの事前トレーニングは、ゼロショットと微調整の両方で高密度な動画キャプションタスクによく対応し、YouCook2とViTTベンチマークの精度を大幅に向上させることを示した。 最後に、実験の結果、ダウンストリームのパフォーマンスは事前トレーニングデータセットのサイズとよく一致していることがわかった。 私たちのデータセット、コード、モデルはhttps://antoyang.github.io/vidchapters.htmlで公開されている。

Segmenting long videos into chapters enables users to quickly navigate to the information of their interest. This important topic has been understudied due to the lack of publicly released datasets. To address this issue, we present VidChapters-7M, a dataset of 817K user-chaptered videos including 7M chapters in total. VidChapters-7M is automatically created from videos online in a scalable manner by scraping user-annotated chapters and hence without any additional manual annotation. We introduce the following three tasks based on this data. First, the video chapter generation task consists of temporally segmenting the video and generating a chapter title for each segment. To further dissect the problem, we also define two variants of this task: video chapter generation given ground-truth boundaries, which requires generating a chapter title given an annotated video segment, and video chapter grounding, which requires temporally localizing a chapter given its annotated title. We benchmark both simple baselines and state-of-the-art video-language models for these three tasks. We also show that pretraining on VidChapters-7M transfers well to dense video captioning tasks in both zero-shot and finetuning settings, largely improving the state of the art on the YouCook2 and ViTT benchmarks. Finally, our experiments reveal that downstream performance scales well with the size of the pretraining dataset. Our dataset, code, and models are publicly available at https://antoyang.github.io/vidchapters.html.
翻訳日:2023-09-26 16:30:58 公開日:2023-09-25
# 局所的および世界的傾向ベイズ指数平滑化モデル

Local and Global Trend Bayesian Exponential Smoothing Models ( http://arxiv.org/abs/2309.13950v1 )

ライセンス: Link先を確認
Slawek Smyl, Christoph Bergmeir, Alexander Dokumentov, Erwin Wibowo, Daniel Schmidt(参考訳) 本稿では,加法的および乗法的指数的平滑化モデルの一般化と見なすことのできる,季節的および非季節的時系列モデルのファミリについて述べる。 彼らの発展は、急速な成長と揮発性の時系列によって動機付けられ、最先端のベイズフィッティング技術によって促進される。 m3コンペティションデータセットに適用すると、コンペティションの最高のアルゴリズムや他のベンチマークよりも優れており、私たちの知識の最良の結果が、このデータセット上の不平等なメソッドの最高の結果となる。

This paper describes a family of seasonal and non-seasonal time series models that can be viewed as generalisations of additive and multiplicative exponential smoothing models. Their development is motivated by fast-growing, volatile time series, and facilitated by state-of-the-art Bayesian fitting techniques. When applied to the M3 competition data set, they outperform the best algorithms in the competition as well as other benchmarks, thus achieving to the best of our knowledge the best results of univariate methods on this dataset in the literature.
翻訳日:2023-09-26 16:30:31 公開日:2023-09-25
# 産業資源変動におけるユーザ移動の特徴:ベイズ的非パラメトリックアプローチ

Characterising User Transfer Amid Industrial Resource Variation: A Bayesian Nonparametric Approach ( http://arxiv.org/abs/2309.13949v1 )

ライセンス: Link先を確認
Dongxu Lei, Xiaotian Lin, Xinghu Yu, Zhan Li, Weichao Sun, Jianbin Qiu, Songlin Zhuang, Huijun Gao(参考訳) 多くの産業分野において、重要な目的は、ユーザ要求を満たしながらリソース管理を最適化することである。 産業従事者による資源管理は、正確な性格化が困難かつ重要な現象である、リソース提供者間でのユーザ負荷の受動的移動をもたらす可能性がある。 本研究では,リソース変動時にマクロレベルのユーザ転送パターンをキャプチャするユーザクラスタの存在を明らかにする。 次に、クラスタ識別を自動化し、リソースの変動に応じてユーザ転送を予測することができる解釈可能な階層型ベイズ非パラメトリックモデルであるCLUSTERを提案する。 さらに、CLUSTERはより信頼性の高い意思決定のための不確実性定量化を促進する。 本手法は個人識別情報とは独立してプライバシー保護を可能にする。 コミュニケーション産業のシミュレーションおよび実世界のデータを用いた実験は、予測結果と様々な資源管理シナリオにおける経験的観察との明確な一致を明らかにしている。 本研究は,資源管理戦略開発を進めるための強固な基礎研究である。

In a multitude of industrial fields, a key objective entails optimising resource management whilst satisfying user requirements. Resource management by industrial practitioners can result in a passive transfer of user loads across resource providers, a phenomenon whose accurate characterisation is both challenging and crucial. This research reveals the existence of user clusters, which capture macro-level user transfer patterns amid resource variation. We then propose CLUSTER, an interpretable hierarchical Bayesian nonparametric model capable of automating cluster identification, and thereby predicting user transfer in response to resource variation. Furthermore, CLUSTER facilitates uncertainty quantification for further reliable decision-making. Our method enables privacy protection by functioning independently of personally identifiable information. Experiments with simulated and real-world data from the communications industry reveal a pronounced alignment between prediction results and empirical observations across a spectrum of resource management scenarios. This research establishes a solid groundwork for advancing resource management strategy development.
翻訳日:2023-09-26 16:30:20 公開日:2023-09-25
# 光電子の量子状態の測定

Measuring the quantum state of photoelectrons ( http://arxiv.org/abs/2309.13945v1 )

ライセンス: Link先を確認
Hugo Laurell, Sizuo Luo, Robin Weissenbilder, Mattias Ammitzb\"oll, Shahnawaz Ahmed, Hugo S\"oderberg, C. Leon M. Petersson, V\'enus Poulain, Chen Guo, Christoph Dittel, Daniel Finkelstein-Shapiro, Richard J. Squibb, Raimund Feifel, Mathieu Gisselbrecht, Cord L. Arnold, Andreas Buchleitner, Eva Lindroth, Anton Frisk Kockum, Anne L'Huillier, David Busto(参考訳) 光電効果によって説明される光量子の吸収によって放出される光電子はしばしば古典的な量、その運動量によって実験的に特徴づけられる。 しかし、光電子は量子物体であるため、その厳密な性質は完全な量子状態、光電子の密度行列の再構築を必要とする。 ここでは、量子状態トモグラフィーを用いて、超短波長極端紫外光パルスの吸収によりヘリウムとアルゴン原子から放出される光電子を完全に特徴づける。 ヘリウムでは純粋な光電子状態を測定するが、アルゴンではスピン軌道相互作用によってイオンと光電子の絡み合いが生じ、光電子状態の純度は低下する。 本研究は、光誘起電子過程の基礎的量子的側面に対する新たな洞察を与え、光電子分光法と量子情報分野を橋渡し、量子技術に対する新しい分光学的可能性を提供するものである。

A photoelectron, emitted due to the absorption of light quanta as described by the photoelectric effect, is often characterized experimentally by a classical quantity, its momentum. However, since the photoelectron is a quantum object, its rigorous characterization requires the reconstruction of the complete quantum state, the photoelectron's density matrix. Here, we use quantum state tomography to fully characterize photoelectrons emitted from helium and argon atoms upon absorption of ultrashort, extreme ultraviolet light pulses. While in helium we measure a pure photoelectronic state, in argon, spin-orbit interaction induces entanglement between the ion and the photoelectron, leading to a reduced purity of the photoelectron state. Our work shows how state tomography gives new insights into the fundamental quantum aspects of light-induced electronic processes in matter, bridging the fields of photoelectron spectroscopy and quantum information, and offering new spectroscopic possibilities for quantum technology.
翻訳日:2023-09-26 16:30:06 公開日:2023-09-25
# グラフコントラスト学習のための確率的学習

Provable Training for Graph Contrastive Learning ( http://arxiv.org/abs/2309.13944v1 )

ライセンス: Link先を確認
Yue Yu, Xiao Wang, Mengmei Zhang, Nian Liu, Chuan Shi(参考訳) グラフコントラスト学習(gcl)はラベルのない拡張グラフからノード埋め込みを学ぶための一般的なトレーニングアプローチとして登場した。 正のノード対間の類似性を最大化しつつ、負のノード対間の類似性を最小化するという鍵原理は確立されているが、いくつかの根本的な問題はいまだ不明である。 複雑なグラフ構造を考えると、いくつかのノードは一貫してよく訓練されているか? あるいは、グラフを拡張せずに原則に違反しているノードがあるのでしょうか? これらのノードを区別し、GCLのトレーニングをさらにガイドする方法? これらの疑問に答えるために、まず、GCLのトレーニングがすべてのノードで実際に不均衡であることを示す実験的な証拠を提示する。 この問題に対処するために、ノードが拡張範囲に関連するgclの原理に従う方法の下界である計量「ノードコンパクト性」を提案する。 さらに,正規化として二元クロスエントロピーに積分できるバウンド伝搬によって,理論的にノードコンパクト性の形式を導出する。 そこで本稿では,GCL の原則に従うノード埋め込みを符号化するための GCL のトレーニングを正規化するための PrOvable Training (POT) を提案する。 さまざまなベンチマークに関する広範な実験を通じて、POTは既存のGCLアプローチを一貫して改善し、フレンドリーなプラグインとして機能する。

Graph Contrastive Learning (GCL) has emerged as a popular training approach for learning node embeddings from augmented graphs without labels. Despite the key principle that maximizing the similarity between positive node pairs while minimizing it between negative node pairs is well established, some fundamental problems are still unclear. Considering the complex graph structure, are some nodes consistently well-trained and following this principle even with different graph augmentations? Or are there some nodes more likely to be untrained across graph augmentations and violate the principle? How to distinguish these nodes and further guide the training of GCL? To answer these questions, we first present experimental evidence showing that the training of GCL is indeed imbalanced across all nodes. To address this problem, we propose the metric "node compactness", which is the lower bound of how a node follows the GCL principle related to the range of augmentations. We further derive the form of node compactness theoretically through bound propagation, which can be integrated into binary cross-entropy as a regularization. To this end, we propose the PrOvable Training (POT) for GCL, which regularizes the training of GCL to encode node embeddings that follows the GCL principle better. Through extensive experiments on various benchmarks, POT consistently improves the existing GCL approaches, serving as a friendly plugin.
翻訳日:2023-09-26 16:29:48 公開日:2023-09-25
# 教師なし映像事前学習の高速化

Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training ( http://arxiv.org/abs/2309.13942v1 )

ライセンス: Link先を確認
Jiangliu Wang, Jianbo Jiao, Yibing Song, Stephen James, Zhan Tong, Chongjian Ge, Pieter Abbeel, Yun-hui Liu(参考訳) この研究は教師なしの視聴覚前訓練を改善することを目的としている。 視覚的コントラスト学習におけるデータ拡張の有効性に着想を得て,音声とビデオデータの再生速度をランダムに変化させる新しい高速化手法を提案する。 1)音声と視覚のペアの多様性を増大させ、負のペアのサイズを2倍にし、学習表現の大幅な向上を実現し、(2)音声と視覚のペア間の厳密な相関性を変化させると同時に、提案したSoftInfoNCE損失によってモデル化された拡張ペア間の部分的関係を導入し、パフォーマンスをさらに向上させる。 実験の結果,提案手法は,バニラ音声・視覚コントラスト学習と比較して,学習表現を著しく改善することがわかった。

This work aims to improve unsupervised audio-visual pre-training. Inspired by the efficacy of data augmentation in visual contrastive learning, we propose a novel speed co-augmentation method that randomly changes the playback speeds of both audio and video data. Despite its simplicity, the speed co-augmentation method possesses two compelling attributes: (1) it increases the diversity of audio-visual pairs and doubles the size of negative pairs, resulting in a significant enhancement in the learned representations, and (2) it changes the strict correlation between audio-visual pairs but introduces a partial relationship between the augmented pairs, which is modeled by our proposed SoftInfoNCE loss to further boost the performance. Experimental results show that the proposed method significantly improves the learned representations when compared to vanilla audio-visual contrastive learning.
翻訳日:2023-09-26 16:29:25 公開日:2023-09-25
# 人間・動物・知能機械における認知の論理としての形態コンピューティング

Morphological Computing as Logic Underlying Cognition in Human, Animal, and Intelligent Machine ( http://arxiv.org/abs/2309.13979v1 )

ライセンス: Link先を確認
Gordana Dodig-Crnkovic(参考訳) この研究は、自然主義の伝統の中で論理学、認識学、科学の相互関係を調べる。 論理学、数学、物理学、化学、生物学、認知を結びつけるスキームで、スケール不変の自己組織的ダイナミクスを自然の組織階層にわたって強調する。 エージェンシーの固有の論理は、情報交換の下で様々なレベルの自然プロセスに存在する。 人間、動物、人工物に適用される。 共通の人間中心の自然言語に基づく論理は、単細胞生物の基底認識のレベルで既に最も単純な形で現れる生物によって進化した複雑な論理の例である。 認知論理は、物理的、化学的、生物学的論理の進化に由来する。 自己組織型機関を持つ計算自然フレームワークでは、形態的・物理的・自然的計算を基礎とした革新的な計算フレームワークが、組織の低レベルにおける自然化論理プロセスのステップを通じて、人間中心論理の発生を説明するのに使うことができる。 リビングエージェントの広範な進化的合成は、人間レベルの論理の出現と論理と情報処理/計算認識学の関係を理解するのに不可欠である。 自然現象と自然の機関の論理を結びつけるメカニズムの詳細を明らかにするには、さらなる研究が必要であると結論づける。

This work examines the interconnections between logic, epistemology, and sciences within the Naturalist tradition. It presents a scheme that connects logic, mathematics, physics, chemistry, biology, and cognition, emphasizing scale-invariant, self-organizing dynamics across organizational tiers of nature. The inherent logic of agency exists in natural processes at various levels, under information exchanges. It applies to humans, animals, and artifactual agents. The common human-centric, natural language-based logic is an example of complex logic evolved by living organisms that already appears in the simplest form at the level of basal cognition of unicellular organisms. Thus, cognitive logic stems from the evolution of physical, chemical, and biological logic. In a computing nature framework with a self-organizing agency, innovative computational frameworks grounded in morphological/physical/natural computation can be used to explain the genesis of human-centered logic through the steps of naturalized logical processes at lower levels of organization. The Extended Evolutionary Synthesis of living agents is essential for understanding the emergence of human-level logic and the relationship between logic and information processing/computational epistemology. We conclude that more research is needed to elucidate the details of the mechanisms linking natural phenomena with the logic of agency in nature.
翻訳日:2023-09-26 16:23:12 公開日:2023-09-25
# スタイルコードを用いたディバース・セマンティック画像編集

Diverse Semantic Image Editing with Style Codes ( http://arxiv.org/abs/2309.13975v1 )

ライセンス: Link先を確認
Hakan Sivuk, Aysegul Dundar(参考訳) セマンティック画像編集には、セマンティックマップに従うピクセルを塗り替える必要がある。 これはコンテキストとの調和とセマンティックマップの厳密なコンプライアンスの両方を必要とするため、難しい作業である。 このタスクのために提案された手法の大半は、消去された画像から全情報をエンコードしようとするものである。 しかし、車などのシーンにオブジェクトを追加する場合、そのスタイルはコンテキストのみからエンコードすることはできない。 一方, 多様な世代を出力できるモデルでは, 生成部と未発生部のシームレスな境界を持つ画像を出力することが困難である。 さらに、従来のメソッドは、より良いパフォーマンスのために、可視および部分可視オブジェクトのスタイルを異なる方法でエンコードするメカニズムを持っていません。 本稿では,スタイルエンコーディングと最終世代における一貫性を実現するための新しいメカニズムを用いて,可視および部分可視オブジェクトをエンコードできるフレームワークを提案する。 従来の条件付き画像生成と意味的画像編集アルゴリズムとの比較を行った。 広範な実験により,本手法は最先端よりも大幅に改善することが示された。 本手法は, 定量的な結果を得るだけでなく, 多様な結果を提供する。 リリース済みのコードとデモについては、プロジェクトのWebページを参照してください。

Semantic image editing requires inpainting pixels following a semantic map. It is a challenging task since this inpainting requires both harmony with the context and strict compliance with the semantic maps. The majority of the previous methods proposed for this task try to encode the whole information from erased images. However, when an object is added to a scene such as a car, its style cannot be encoded from the context alone. On the other hand, the models that can output diverse generations struggle to output images that have seamless boundaries between the generated and unerased parts. Additionally, previous methods do not have a mechanism to encode the styles of visible and partially visible objects differently for better performance. In this work, we propose a framework that can encode visible and partially visible objects with a novel mechanism to achieve consistency in the style encoding and final generations. We extensively compare with previous conditional image generation and semantic image editing algorithms. Our extensive experiments show that our method significantly improves over the state-of-the-art. Our method not only achieves better quantitative results but also provides diverse results. Please refer to the project web page for the released code and demo: https://github.com/hakansivuk/DivSem.
翻訳日:2023-09-26 16:22:50 公開日:2023-09-25
# 学習可能な間隔による拡張畳み込みによる音声分類

Audio classification with Dilated Convolution with Learnable Spacings ( http://arxiv.org/abs/2309.13972v1 )

ライセンス: Link先を確認
Ismail Khalfaoui-Hassani, Timoth\'ee Masquelier and Thomas Pellegrini(参考訳) 学習可能な間隔による拡張畳み込み(DCLS)は、バックプロパゲーションによるトレーニングを通じてカーネル要素の位置を学習する最近の畳み込み法である。 その関心は最近コンピュータビジョン(イメージネット分類と下流タスク)で実証されている。 本稿では,dcl が audioset classification benchmark を用いた音声タグ付けにも有効であることを示す。 我々は,Deepwise Separable Convolutions (DSC), ConvNeXt, ConvFormerの2つの最先端の畳み込みアーキテクチャと,FastViTとDrop-inを併用したハイブリッドアーキテクチャをDCLSで置き換えた。 これにより、3つのアーキテクチャで平均平均精度(mAP)が大幅に向上し、パラメータの数が増加せず、スループットのコストも低くなった。 メソッドコードはPyTorchをベースにしており、https://github.com/K-H-Ismail/DCLS-Audioで利用可能である。

Dilated convolution with learnable spacings (DCLS) is a recent convolution method in which the positions of the kernel elements are learned throughout training by backpropagation. Its interest has recently been demonstrated in computer vision (ImageNet classification and downstream tasks). Here we show that DCLS is also useful for audio tagging using the AudioSet classification benchmark. We took two state-of-the-art convolutional architectures using depthwise separable convolutions (DSC), ConvNeXt and ConvFormer, and a hybrid one using attention in addition, FastViT, and drop-in replaced all the DSC layers by DCLS ones. This significantly improved the mean average precision (mAP) with the three architectures without increasing the number of parameters and with only a low cost on the throughput. The method code is based on PyTorch and is available at https://github.com/K-H-Ismail/DCLS-Audio
翻訳日:2023-09-26 16:22:33 公開日:2023-09-25
# a {\lambda}型原子をもつ導波路における多光子散乱と絡み合い

Many-photon scattering and entangling in a waveguide with a {\Lambda}-type atom ( http://arxiv.org/abs/2309.13969v1 )

ライセンス: Link先を確認
Denis Ilin and Alexander V. Poshakinskiy(参考訳) 我々は、$\lambda$型原子に結合した導波路による複数の光子の同時透過を記述する解析理論を開発した。 短い数光子パルスを送信した後、原子と全ての光子の最終的な状態は、wクラスに属する真の多成分の絡み合った状態であることを示す。 入力パルスのパラメータは、3部および4部W状態生成の効率を最大化するために最適化される。

We develop the analytical theory that describes simultaneous transmission of several photons through a waveguide coupled to a $\Lambda$-type atom. We show that after transmission of a short few-photon pulse, the final state of the atom and all the photons is a genuine multipartite entangled state belonging to the W class. The parameters of the input pulse are optimized to maximize the efficiency of three- and four-partite W-state production.
翻訳日:2023-09-26 16:22:13 公開日:2023-09-25
# 古典的サンプリングと生成モデルにおける資源としての量子状態測定のための自由ランチ定理

No free lunch theorems for quantum state measurements as resources in classical sampling and generative modelling ( http://arxiv.org/abs/2309.13967v1 )

ライセンス: Link先を確認
Steven Herbert(参考訳) 量子状態$\textit{almost all}$ がユニタリ群上のハール測度に従ってサンプリングされた場合、次の性質を持つことを証明している: 古典的生成モデルやサンプリングアルゴリズムにおいて入力として取られる潜時確率変数を、状態のコピーが測定された場合、同じターゲット分布の集合を生成することができる任意の代替状態は、同じ全体のコストでそれを行う。 ここでは、入力分布から準備できる全ての可能な分布からサンプリングする際の総コストを総和計算複雑性として定義する。 この結果は入力ビットストリングと出力ビットストリングの任意の長さを保ち、任意の長さのランダムビットストリングを任意に追加資源として提供する。 一対の代替候補状態が、一方のケースでは古典的シミュレーションが容易で他方では困難であるようなシナリオを構築するのが容易であるため、その結果が潜在確率変数を得るのがいかに難しいか、また、古典的サンプリングや生成モデルにおいて資源として有用であるかを分離することができる。

We prove that $\textit{almost all}$ quantum states, when sampled according to the Haar measure over the unitary group, have the following property: if copies of the state are measured to provide latent random variables which are taken as an input in a classical generative model or sampling algorithm, then any alternative state whose measurements can generate the same set of target distributions will do so with the same overall cost. Here, we define the overall cost as the aggregate computational complexity of sampling from all possible distributions that can be prepared from the given input distribution. Our result holds for any length of input and output bitstring and when a uniformly random bitstring of any length is optionally provided as an additional resource. As it is easy to construct scenarios where a pair of alternative candidate states are such that classical simulation of the preparation thereof is easy in one case and hard in the other, the result can be viewed as decoupling how hard it is to obtain a latent random variable, and how useful it is as a resource in classical sampling and generative modelling.
翻訳日:2023-09-26 16:22:04 公開日:2023-09-25
# $\mathcal{C}^\star$-Algebrasにおける半定値最適化の階層性

Hierarchies for Semidefinite Optimization in $\mathcal{C}^\star$-Algebras ( http://arxiv.org/abs/2309.13966v1 )

ライセンス: Link先を確認
Gereon Ko{\ss}mann, Ren\'e Schwonnek and Jonathan Steinberg(参考訳) 半有限最適化は、有限次元量子情報理論に多くの応用がある数学的プログラミングのランドスケープにおける標準技術となっている。 本稿では、通常のコーンプログラムと構造的に類似した性質を持つ$\mathcal{C}^\star$-algebras上での一般コーンプログラムの有限次元緩和法を提案する。 我々は NPA や Lasserre の階層構造のような一般化された問題に対するよく知られた階層性や de-Klerk 等による一般 SDP の対称性の低下が、最適化問題と組み合わせて$\mathcal{C}^\star$-algebras の一般的な視点から考えることができることを示した。

Semidefinite Optimization has become a standard technique in the landscape of Mathematical Programming that has many applications in finite dimensional Quantum Information Theory. This paper presents a way for finite-dimensional relaxations of general cone programs on $\mathcal{C}^\star$-algebras which have structurally similar properties to ordinary cone programs, only putting the notion of positivity at the core of optimization. We show that well-known hierarchies for generalized problems like NPA but also Lasserre's hierarchy and to some extend symmetry reductions of generic SDPs by de-Klerk et al. can be considered from a general point of view of $\mathcal{C}^\star$-algebras in combination to optimization problems.
翻訳日:2023-09-26 16:21:39 公開日:2023-09-25
# フォローアップの質問をしてもいいですか。 ニューラルネットワークの説明可能性における会話のメリットの理解

May I Ask a Follow-up Question? Understanding the Benefits of Conversations in Neural Network Explainability ( http://arxiv.org/abs/2309.13965v1 )

ライセンス: Link先を確認
Tong Zhang, X. Jessie Yang, Boyang Li(参考訳) 説明可能なAI(XAI)の研究は、不透明なAIモデルの意思決定プロセスに関する洞察を提供することを目的としている。 現在、ほとんどのXAIメソッドは、多様な背景やユーザの理解レベルに適応できない、一対一で静的な説明を提供する。 本稿では,自由形式の会話が静的な説明の理解を高め,説明手法の受容と信頼を高め,人とAIのコラボレーションを促進するかを検討する。 参加者は静的な説明を行い、続いて人間の専門家と説明について会話する。 我々は,会話が参加者の選択能力に与える影響を,説明と自己報告による理解,受容,信頼に基づいて,最も正確な3つの機械学習モデルから測定した。 実験の結果,会話は理解,受容,信頼,コラボレーションを著しく改善することがわかった。 本研究は,自由形式の会話形式におけるモデル説明のカスタマイズの重要性を強調し,対話説明の今後の設計について考察する。

Research in explainable AI (XAI) aims to provide insights into the decision-making process of opaque AI models. To date, most XAI methods offer one-off and static explanations, which cannot cater to the diverse backgrounds and understanding levels of users. With this paper, we investigate if free-form conversations can enhance users' comprehension of static explanations, improve acceptance and trust in the explanation methods, and facilitate human-AI collaboration. Participants are presented with static explanations, followed by a conversation with a human expert regarding the explanations. We measure the effect of the conversation on participants' ability to choose, from three machine learning models, the most accurate one based on explanations and their self-reported comprehension, acceptance, and trust. Empirical results show that conversations significantly improve comprehension, acceptance, trust, and collaboration. Our findings highlight the importance of customized model explanations in the format of free-form conversations and provide insights for the future design of conversational explanations.
翻訳日:2023-09-26 16:21:21 公開日:2023-09-25
# ASR音声エンコーダと大言語モデルとの接続

Connecting Speech Encoder and Large Language Model for ASR ( http://arxiv.org/abs/2309.13963v1 )

ライセンス: Link先を確認
Wenyi Yu and Changli Tang and Guangzhi Sun and Xianzhao Chen and Tian Tan and Wei Li and Lu Lu and Zejun Ma and Chao Zhang(参考訳) 大規模言語モデル(LLM)の印象的な能力と汎用性は、音声認識(ASR)において注目を集めており、音声エンコーダとLLMを接続して統合されたASRモデルを構築しようとする先駆的な研究がいくつかある。 本稿では,完全連結層,マルチヘッドクロスアテンション,Q-Formerを含むコネクタとしてよく使用される3つの構造について比較検討する。 Whisperモデルシリーズの音声エンコーダと,モデルサイズが異なるVicunaモデルシリーズのLLMについて検討した。 一般的なLibriSpeech、Common Voice、GigaSpeechのデータセットで実験を行い、Q-Formers を用いた LLM は、他のコネクタ構造を持つ LLM よりも一貫した、相当なワードエラー率 (WER) を減少させることを示した。 Q-FormerベースのLLMはドメイン外のデータセットによく応用でき、WhisperベースラインのASRモデルに対する相対的なWER削減は、Switchboardのドメイン内トレーニングデータを使用しないEval2000テストセットで達成されている。 さらに、LLMがエンコーダの制限時間を超える音声セグメントを認識できるように、新しいセグメントレベルのQ-Formerを提案し、90秒長の音声データ上での他のコネクタ構造よりも17%のWER削減を実現した。

The impressive capability and versatility of large language models (LLMs) have aroused increasing attention in automatic speech recognition (ASR), with several pioneering studies attempting to build integrated ASR models by connecting a speech encoder with an LLM. This paper presents a comparative study of three commonly used structures as connectors, including fully connected layers, multi-head cross-attention, and Q-Former. Speech encoders from the Whisper model series as well as LLMs from the Vicuna model series with different model sizes were studied. Experiments were performed on the commonly used LibriSpeech, Common Voice, and GigaSpeech datasets, where the LLMs with Q-Formers demonstrated consistent and considerable word error rate (WER) reductions over LLMs with other connector structures. Q-Former-based LLMs can generalise well to out-of-domain datasets, where 12% relative WER reductions over the Whisper baseline ASR model were achieved on the Eval2000 test set without using any in-domain training data from Switchboard. Moreover, a novel segment-level Q-Former is proposed to enable LLMs to recognise speech segments with a duration exceeding the limitation of the encoders, which results in 17% relative WER reductions over other connector structures on 90-second-long speech data.
翻訳日:2023-09-26 16:21:06 公開日:2023-09-25
# 産業風環境における自我中心RGB+深度行動認識

Egocentric RGB+Depth Action Recognition in Industry-Like Settings ( http://arxiv.org/abs/2309.13962v1 )

ライセンス: Link先を確認
Jyoti Kini, Sarah Fleischer, Ishan Dave, Mubarak Shah(参考訳) エゴセントリックな視点からの行動認識はロボットにおける重要な認識課題であり、幅広い人間とロボットの相互作用を可能にする。 ほとんどのコンピュータビジョンのアプローチはRGBカメラを優先するが、エゴセントリックな視点から行動の微妙さをさらに増幅するDepthモダリティは未解明のままである。 本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。 そこで本研究では,近年のMECCANOデータセットについて考察する。 提案手法は,rgb と depth modality の両方を効果的にエンコードする 3d ビデオ swin transformer に基づいている。 実世界のマルチモーダル行動発生における固有歪に対処するために,焦点損失変調係数の指数的に減衰する変種を用いたトレーニング戦略を提案する。 さらに,RGBとDepthの両モダリティの情報を活用するために,各モダリティからの予測を組み合わせるために,遅延融合を選択する。 提案手法をMECCANOデータセットの動作認識タスクに対して徹底的に評価し,先行研究よりも優れていた。 また,本手法はICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて第1位を獲得した。

Action recognition from an egocentric viewpoint is a crucial perception task in robotics and enables a wide range of human-robot interactions. While most computer vision approaches prioritize the RGB camera, the Depth modality - which can further amplify the subtleties of actions from an egocentric perspective - remains underexplored. Our work focuses on recognizing actions from egocentric RGB and Depth modalities in an industry-like environment. To study this problem, we consider the recent MECCANO dataset, which provides a wide range of assembling actions. Our framework is based on the 3D Video SWIN Transformer to encode both RGB and Depth modalities effectively. To address the inherent skewness in real-world multimodal action occurrences, we propose a training strategy using an exponentially decaying variant of the focal loss modulating factor. Additionally, to leverage the information in both RGB and Depth modalities, we opt for late fusion to combine the predictions from each modality. We thoroughly evaluate our method on the action recognition task of the MECCANO dataset, and it significantly outperforms the prior work. Notably, our method also secured first place at the multimodal action recognition challenge at ICIAP 2023.
翻訳日:2023-09-26 16:20:38 公開日:2023-09-25
# ウォームスタート最適化へのハイブリッド量子古典的アプローチ

A hybrid quantum-classical approach to warm-starting optimization ( http://arxiv.org/abs/2309.13961v1 )

ライセンス: Link先を確認
Vanessa Dehn and Thomas Wellens(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、従来のコンピュータよりも効率的に組合せ最適化問題を解くための有望な候補である。 最近の研究では、標準アルゴリズムのウォームスタートが性能を向上させることが示されている。 本稿では、ポートフォリオ最適化の文脈における標準QAOAとウォームスタートQAOAのパフォーマンスを比較し、異なる問題インスタンスに対するウォームスタートアプローチについて検討する。 特に、ウォームスタートQAOAの性能改善が量子効果によるものであるかを分析し、元の問題を純粋に古典的に前処理し、次に標準QAOAによって結果が再現されるか、さらに超えるかを示す。

The Quantum Approximate Optimization Algorithm (QAOA) is a promising candidate for solving combinatorial optimization problems more efficiently than classical computers. Recent studies have shown that warm-starting the standard algorithm improves the performance. In this paper we compare the performance of standard QAOA with that of warm-start QAOA in the context of portfolio optimization and investigate the warm-start approach for different problem instances. In particular, we analyze the extent to which the improved performance of warm-start QAOA is due to quantum effects, and show that the results can be reproduced or even surpassed by a purely classical preprocessing of the original problem followed by standard QAOA.
翻訳日:2023-09-26 16:20:17 公開日:2023-09-25
# LORD:ワンショット圧縮のためのモノリンガルコードLLMの低ランク分解

LORD: Low Rank Decomposition Of Monolingual Code LLMs For One-Shot Compression ( http://arxiv.org/abs/2309.14021v1 )

ライセンス: Link先を確認
Ayush Kaushal, Tejas Vaidhya, Irina Rish(参考訳) 行列の低ランク分解 - 大きな行列を2つの小さな行列の積に分割することで、スペース化せずにモデルのパラメータを減らし、現代のハードウェアでより多くのスピードアップをもたらす圧縮手段を提供する。 さらに量子化とは異なり、圧縮線形層は完全に微分可能であり、全てのパラメータは訓練可能であるが、浮動小数点行列上で既存の高効率カーネルを活用できる。 低階分解(lord)による単言語コード生成のための大言語モデル(llms)の圧縮の可能性について検討し、これらのモデルの線形層に対するランクを最大39.58%削減でき、パープレキシティは1%未満である。 次に、ローランク分解(LoRD)を使用して、StarCoder 16B から 13.2B パラメータをドロップなしで圧縮し、HumanEval Pass@1 スコアを最小値で 12.3B に圧縮します。 圧縮されたモデルは、pytorchバックエンドによるhughingfaceの実装よりも1行のコード変更だけで、推論を最大22.35%高速化する。 低ランク分解(LoRD)モデルは、SpQRのような最先端の量子化手法と互換性があり、量子化のさらなる圧縮ゲインを活用することができる。 最後に、低ランク分解(LoRD)モデル上のQLoRAにより、バニラQLoRAよりも最大21.2%のメモリ要求が削減され、パラメータ効率の良い微調整による同様の利得が提供される。 我々の研究は、LLM圧縮の新しいパラダイムとして低ランク分解(LoRD)を示す。

Low Rank Decomposition of matrix - splitting a large matrix into a product of two smaller matrix offers a means for compression that reduces the parameters of a model without sparsification, and hence delivering more speedup on modern hardware. Moreover, unlike quantization, the compressed linear layers remain fully differentiable and all the parameters trainable, while being able to leverage the existing highly efficient kernels over floating point matrices. We study the potential to compress Large Language Models (LLMs) for monolingual Code generation via Low Rank Decomposition (LoRD) and observe that ranks for the linear layers in these models can be reduced by upto 39.58% with less than 1% increase in perplexity. We then use Low Rank Decomposition (LoRD) to compress StarCoder 16B to 13.2B parameter with no drop and to 12.3B with minimal drop in HumanEval Pass@1 score, in less than 10 minutes on a single A100. The compressed models speeds up inference by up to 22.35% with just a single line of change in code over huggingface's implementation with pytorch backend. Low Rank Decomposition (LoRD) models remain compatible with state of the art near-lossless quantization method such as SpQR, which allows leveraging further compression gains of quantization. Lastly, QLoRA over Low Rank Decomposition (LoRD) model further reduces memory requirements by as much as 21.2% over vanilla QLoRA while offering similar gains from parameter efficient fine tuning. Our work shows Low Rank Decomposition (LoRD) as a promising new paradigm for LLM compression.
翻訳日:2023-09-26 16:12:27 公開日:2023-09-25
# スケーラブルな3次元オブジェクト中心学習のための変分推論

Variational Inference for Scalable 3D Object-centric Learning ( http://arxiv.org/abs/2309.14010v1 )

ライセンス: Link先を確認
Tianyu Wang, Kee Siong Ng, Miaomiao Liu(参考訳) 3次元シーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。 オブジェクト中心表現学習への既存のアプローチは、学習プロセスが固定されたグローバル座標系に依存するため、より大きなシーンに一般化する際の限界を示す。 対照的に、局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。 この目的のために、オブジェクトのポーズと外観表現を別々に推定し、オブジェクトのアイデンティティを維持しながら、ビューをまたいでオブジェクト表現を明示的にマッピングする。 我々は、逐次入力を処理し、オブジェクトの潜伏分布をオンラインで急激に更新できる償却変分推論パイプラインを採用する。 さらに,大規模シーンを多種多様なオブジェクトで処理するために,シーンごとのグローバルマップ上のオブジェクトの登録とクエリにより,スケーラブルな表現学習を実現するコグニティブマップを導入する。 対象中心神経放射場(NeRF)を3次元シーン表現として探索し、教師なしの物体中心学習フレームワーク内で共同でモデル化する。 合成および実データを用いた実験結果から,提案手法は3次元シーンのオブジェクト中心表現を推定・維持し,先行モデルより優れていた。

We tackle the task of scalable unsupervised object-centric representation learning on 3D scenes. Existing approaches to object-centric representation learning show limitations in generalizing to larger scenes as their learning processes rely on a fixed global coordinate system. In contrast, we propose to learn view-invariant 3D object representations in localized object coordinate systems. To this end, we estimate the object pose and appearance representation separately and explicitly map object representations across views while maintaining object identities. We adopt an amortized variational inference pipeline that can process sequential input and scalably update object latent distributions online. To handle large-scale scenes with a varying number of objects, we further introduce a Cognitive Map that allows the registration and query of objects on a per-scene global map to achieve scalable representation learning. We explore the object-centric neural radiance field (NeRF) as our 3D scene representation, which is jointly modeled within our unsupervised object-centric learning framework. Experimental results on synthetic and real datasets show that our proposed method can infer and maintain object-centric representations of 3D scenes and outperforms previous models.
翻訳日:2023-09-26 16:11:56 公開日:2023-09-25
# 世界の言語で同一の子音回避を形作る複数の進化的圧力

Multiple evolutionary pressures shape identical consonant avoidance in the world's languages ( http://arxiv.org/abs/2309.14006v1 )

ライセンス: Link先を確認
Chundra A. Cathcart(参考訳) 言語は、このようなパターンによって生じる生体力学的および認知的困難のために、類似または同一の子音の列を含む単語形式を嫌う。 しかし、この現象にかかわる特定の進化過程は、完全には理解されていない。 単語形変異の過程は、単語形に同一の子音のシーケンスを生成するよりも除去される傾向があり、最後に、同一の子音を含む単語は、それらが存在しないものよりも頻繁に消滅する可能性がある。 相同的な単語形態の進化に関する系統解析は、同一の子音を持つ単語が無音である単語よりも頻度が低いことを示し、単語形態を変える過程は、それらを導入するよりも同一の子音の列を取り除く傾向にあることを示している。 しかし、同じ子音を持つ単語は、そうでない単語ほど頻繁には死なない。 さらなる分析により、同じ子音を持つ形は、言葉のないものよりも頻度の高い基本的な意味関数に置き換えられることが判明した。 その結果、同一子音の系列のアンダー表現は、単語形式硬貨に対する制約の副産物として圧倒的に多いことが示唆されるが、単語の使用に関するプロセスは、これらのパターンがより厳格な語彙項目では不十分であることを保証するのに役立つ。 これらの知見は、言語変化の過程で起こる語彙進化と競争のプロセスのこれまで未知の側面を明らかにし、コミュニケーションシステムを最適化する。

Languages disfavor word forms containing sequences of similar or identical consonants, due to the biomechanical and cognitive difficulties posed by patterns of this sort. However, the specific evolutionary processes responsible for this phenomenon are not fully understood. Words containing sequences of identical consonants may be more likely to arise than those without; processes of word form mutation may be more likely to remove than create sequences of identical consonants in word forms; finally, words containing identical consonants may die out more frequently than those without. Phylogenetic analyses of the evolution of homologous word forms indicate that words with identical consonants arise less frequently than those without, and processes which mutate word forms are more likely to remove sequences of identical consonants than introduce them. However, words with identical consonants do not die out more frequently than those without. Further analyses reveal that forms with identical consonants are replaced in basic meaning functions more frequently than words without. Taken together, results suggest that the under representation of sequences of identical consonants is overwhelmingly a byproduct of constraints on word form coinage, though processes related to word usage also serve to ensure that such patterns are infrequent in more salient vocabulary items. These findings clarify previously unknown aspects of processes of lexical evolution and competition that take place during language change, optimizing communicative systems.
翻訳日:2023-09-26 16:11:35 公開日:2023-09-25
# 量子力学のための集合論的メタ物理

A Set-Theoretic Metaphysics for Quantum Mechanics ( http://arxiv.org/abs/2309.14004v1 )

ライセンス: Link先を確認
Paul Tappenden(参考訳) 集合論は数学哲学に革命をもたらしたし、物理学哲学にも革命をもたらした。 物理的対象の集合が物理的対象であることができないという直観は、定性的に同一の精神状態にある数値的に異なる観察者が存在するというユビキタスな仮定に依存しているように見える。 その仮定を覆すと、一定の状態のオブジェクトの集合としてオブザーバー環境の重ね合わせでオブジェクトを構成する方法が開かれる。 重ね合わせの成分は、すべての元が同じ一定の状態にある部分集合である。 したがって、環境性zスピンアップ電子は、それぞれが一方向に対して一定のスピンを持つが、他の向きに対して不定スピンを持たない元素電子の集合となる。 環境zスピンアップ電子は、すべての配向に元素電子のサブセットを持つが、サブセットのすべての要素が同じ値、すなわちスピンアップを持つz軸上のスピンを持つサブセットである。 x軸上のスピンを持つ元素電子のサブセットは、等尺のスピンアップ電子とスピンダウン電子のサブセットを持つ。 観測者は、元素電子ではなく環境電子のスピンのみを検出する。

Set theory brought revolution to philosophy of mathematics and it can bring revolution to philosophy of physics too. All that stands in the way is the intuition that sets of physical objects cannot themselves be physical objects, which appears to depend on the ubiquitous assumption that it is possible for there to exist numerically distinct observers in qualitatively identical mental states. Overturning that assumption opens the way to construing an object in superposition in an observers environment as a set of objects in definite states. The components of the superposition are subsets for which all the elements are in the same definite state. So an environmental z-spin-up electron becomes a set of elemental electrons each of which has definite spin for one orientation but lacks indefinite spin for other orientations. The environmental z-spin-up electron has subsets of elemental electrons for every orientation but it is only the subset with spins on the z-axis for which all the elements of the subset have the same value, namely spin-up. The subset of elemental electrons with spins on the x-axis has subsets of spin-up and spin-down elemental electrons of equal measure. Observers only detect the spins of environmental electrons, not those of elemental electrons.
翻訳日:2023-09-26 16:11:08 公開日:2023-09-25
# 確率環境における階層的模倣学習

Hierarchical Imitation Learning for Stochastic Environments ( http://arxiv.org/abs/2309.14003v1 )

ライセンス: Link先を確認
Maximilian Igl, Punit Shah, Paul Mougin, Sirish Srinivasan, Tarun Gupta, Brandyn White, Kyriacos Shiarlis, Shimon Whiteson(参考訳) 模倣学習の多くの応用は、エージェントがトレーニングデータで観察される行動の完全な分布を生成する必要がある。 例えば、シミュレーションにおける自動運転車の安全性を評価するために、他の道路利用者の正確で多様な行動モデルが最重要である。 この分布的リアリズムを改善する既存の方法は通常階層的なポリシーに依存している。 これらの条件は、目標やペルソナといった、マルチモーダルな行動を引き起こすタイプのポリシーを規定する。 しかし、このような方法は、エージェントが外部要因に反応しなければならない確率的環境に不適切であることが多い: エージェントの型は、トレーニング中に観察された将来の軌道から推測されるため、これらの環境は、エージェントの振る舞いに対する内部および外部要因の寄与が切り離され、エージェントの制御下にある要素だけが型にコードされる必要がある。 外部要因に関する将来の情報をエンコードすると、テスト中に不適切なエージェント反応が起こり、将来が不明で、型が実際の未来から独立して引き出されなければならない。 この課題を,環境確率下におけるエージェントタイプの条件分布の変化として定式化する。 本稿では,ランダムなサンプル型の下での対数学習において,このシフトを排除したRobust Type Conditioning (RTC)を提案する。 大規模なwaymo open motionデータセットを含む2つのドメインの実験では、最先端のベースラインと比較して、タスクパフォーマンスを維持したり改善したりしながら、分散リアリズムを改善している。

Many applications of imitation learning require the agent to generate the full distribution of behaviour observed in the training data. For example, to evaluate the safety of autonomous vehicles in simulation, accurate and diverse behaviour models of other road users are paramount. Existing methods that improve this distributional realism typically rely on hierarchical policies. These condition the policy on types such as goals or personas that give rise to multi-modal behaviour. However, such methods are often inappropriate for stochastic environments where the agent must also react to external factors: because agent types are inferred from the observed future trajectory during training, these environments require that the contributions of internal and external factors to the agent behaviour are disentangled and only internal factors, i.e., those under the agent's control, are encoded in the type. Encoding future information about external factors leads to inappropriate agent reactions during testing, when the future is unknown and types must be drawn independently from the actual future. We formalize this challenge as distribution shift in the conditional distribution of agent types under environmental stochasticity. We propose Robust Type Conditioning (RTC), which eliminates this shift with adversarial training under randomly sampled types. Experiments on two domains, including the large-scale Waymo Open Motion Dataset, show improved distributional realism while maintaining or improving task performance compared to state-of-the-art baselines.
翻訳日:2023-09-26 16:10:47 公開日:2023-09-25
# 回帰モデルにおける相互作用効果推定のためのリンク収縮

Linked shrinkage to improve estimation of interaction effects in regression models ( http://arxiv.org/abs/2309.13998v1 )

ライセンス: Link先を確認
Mark A. van de Wiel, Matteo Amestoy, Jeroen Hoogland(参考訳) 統計学における古典的な問題である回帰モデルに双方向相互作用項を追加する。 共変次元が二次的に増加すると、我々は正確な推定と適切な推論を提供しながら、この増加にうまく適応する推定器を開発する。 既存の戦略は、関連する主効果間の相互作用のみを許すことで次元問題を克服する。 この哲学に基づいて、局所収縮モデルを用いて2種類の効果の間のよりソフトなリンクを実装する。 主効果の収縮量とその相互作用の間の借り受け強度が回帰係数の推定を強く改善できることを実証的に示す。 さらに,選択戦略では難しい推論モデルの可能性を評価する。 大規模なコホートデータは、現実的なイラストや評価を提供するために使用される。 他の方法と比較する。 変数の重要性の評価は、多くの相互作用項を持つ回帰モデルでは自明ではない。 そこで我々は,個別変数の重要度スコアとその不確かさの迅速評価を可能にする,シェープリー値の新しい解析式を導出する。 最後に、予測の対象にはなっていないが、我々のモデルは、かなり大きなサンプルサイズであっても、ランダムフォレストのようなより高度な機械学習者に対して非常に競争力があることを示します。 RStanにおける本手法の実装は比較的単純であり,特定のニーズに適応できる。

We address a classical problem in statistics: adding two-way interaction terms to a regression model. As the covariate dimension increases quadratically, we develop an estimator that adapts well to this increase, while providing accurate estimates and appropriate inference. Existing strategies overcome the dimensionality problem by only allowing interactions between relevant main effects. Building on this philosophy, we implement a softer link between the two types of effects using a local shrinkage model. We empirically show that borrowing strength between the amount of shrinkage for main effects and their interactions can strongly improve estimation of the regression coefficients. Moreover, we evaluate the potential of the model for inference, which is notoriously hard for selection strategies. Large-scale cohort data are used to provide realistic illustrations and evaluations. Comparisons with other methods are provided. The evaluation of variable importance is not trivial in regression models with many interaction terms. Therefore, we derive a new analytical formula for the Shapley value, which enables rapid assessment of individual-specific variable importance scores and their uncertainties. Finally, while not targeting for prediction, we do show that our models can be very competitive to a more advanced machine learner, like random forest, even for fairly large sample sizes. The implementation of our method in RStan is fairly straightforward, allowing for adjustments to specific needs.
翻訳日:2023-09-26 16:10:23 公開日:2023-09-25
# 準最適サンプルおよび時間複雑度における離散積分布の混合の同定

Identification of Mixtures of Discrete Product Distributions in Near-Optimal Sample and Time Complexity ( http://arxiv.org/abs/2309.13993v1 )

ライセンス: Link先を確認
Spencer L. Gordon, Erik Jahn, Bijan Mazaheri, Yuval Rabani, Leonard J. Schulman(参考訳) 統計から、k$ の積分布の混合である離散確率変数 $x_1,\ldots,x_n$ の分布を識別する問題を考える。 n \in o(k)$ の以前の最良のサンプル複雑性は$(1/\zeta)^{o(k^2 \log k)}$であった。 最もよく知られた下界は$\exp(\Omega(k))$である。 n\geq 2k-1$ は識別に必要で十分であることが知られている。 任意の$n\geq 2k-1$に対して、サンプルの複雑さと実行時の複雑さを$(1/\zeta)^{O(k)}$にする方法を示す。 また、既知の下限である$e^{\Omega(k)}$を拡張して、より広い範囲の$\zeta$と一致させる。 私たちの結果は組み合わせることで得られます (a)強靭なテンソル分解の古典的方法 (b)ハダマール拡大と呼ばれるキー行列の条件数を制限する新しい方法は、それらの作用を平坦化ランク1テンソルにのみ研究することである。

We consider the problem of identifying, from statistics, a distribution of discrete random variables $X_1,\ldots,X_n$ that is a mixture of $k$ product distributions. The best previous sample complexity for $n \in O(k)$ was $(1/\zeta)^{O(k^2 \log k)}$ (under a mild separation assumption parameterized by $\zeta$). The best known lower bound was $\exp(\Omega(k))$. It is known that $n\geq 2k-1$ is necessary and sufficient for identification. We show, for any $n\geq 2k-1$, how to achieve sample complexity and run-time complexity $(1/\zeta)^{O(k)}$. We also extend the known lower bound of $e^{\Omega(k)}$ to match our upper bound across a broad range of $\zeta$. Our results are obtained by combining (a) a classic method for robust tensor decomposition, (b) a novel way of bounding the condition number of key matrices called Hadamard extensions, by studying their action only on flattened rank-1 tensors.
翻訳日:2023-09-26 16:10:03 公開日:2023-09-25
# 情報理論を考慮した効果的なマルチビュークラスタリング手法の提案

A Novel Approach for Effective Multi-View Clustering with Information-Theoretic Perspective ( http://arxiv.org/abs/2309.13989v1 )

ライセンス: Link先を確認
Chenhang Cui, Yazhou Ren, Jingyu Pu, Jiawei Li, Xiaorong Pu, Tianyi Wu, Yutao Shi, Lifang He(参考訳) マルチビュークラスタリング(MVC)は、様々なデータソースを用いてクラスタリング性能を改善するための一般的な手法である。 しかし、既存の手法は主に一貫性のある情報を取得することに焦点を当て、複数のビューにまたがる冗長性の問題を無視することが多い。 本研究では,多視点クラスタリングフレームワークを情報理論の観点から検討する,SUMVC(Sufficient Multi-View Clustering)と呼ばれる新しい手法を提案する。 提案手法は2つの部分からなる。 まず, 簡易かつ信頼性の高いマルチビュークラスタリング手法であるSCMVC(Ssimple consistent multi-view clustering)を開発し, 変動解析を用いて一貫した情報を生成する。 第2に,一貫性情報を強化し,ビュー間の不要情報を最小限に抑えるための,十分な表現下限を提案する。 提案手法は,マルチビュークラスタリング問題に対する有望な解決策を提供し,マルチビューデータを解析するための新たな視点を提供する。 本モデルの有効性を検証するため,ベイズ誤差率に基づく理論的解析を行い,SUMVCの優れた性能を示すマルチビューデータセットの実験を行った。

Multi-view clustering (MVC) is a popular technique for improving clustering performance using various data sources. However, existing methods primarily focus on acquiring consistent information while often neglecting the issue of redundancy across multiple views. This study presents a new approach called Sufficient Multi-View Clustering (SUMVC) that examines the multi-view clustering framework from an information-theoretic standpoint. Our proposed method consists of two parts. Firstly, we develop a simple and reliable multi-view clustering method SCMVC (simple consistent multi-view clustering) that employs variational analysis to generate consistent information. Secondly, we propose a sufficient representation lower bound to enhance consistent information and minimise unnecessary information among views. The proposed SUMVC method offers a promising solution to the problem of multi-view clustering and provides a new perspective for analyzing multi-view data. To verify the effectiveness of our model, we conducted a theoretical analysis based on the Bayes Error Rate, and experiments on multiple multi-view datasets demonstrate the superior performance of SUMVC.
翻訳日:2023-09-26 16:09:48 公開日:2023-09-25
# 物理駆動mlモデルによる逆推定の補正

Physics-Driven ML-Based Modelling for Correcting Inverse Estimation ( http://arxiv.org/abs/2309.13985v1 )

ライセンス: Link先を確認
Ruiyuan Kang, Tingting Mu, Panos Liatsis, Dimitrios C. Kyritsis(参考訳) 科学と工学(SAE)領域に機械学習推定器を配置する際には、エアロエンジンの設計など、悲惨な結果をもたらす可能性のある推定失敗を避けることが重要である。 本研究は, 物理法則に基づくシミュレーションと性能指標を用いて, sae逆問題に適用する前に, 故障状態推定の検出と修正に焦点をあてる。 我々は,物理モデル誤差が実現可能なしきい値を超えた場合の機械学習推定をフラグアップすることを提案し,低エラーと高効率の両方を実現することを目的とした,最適化による修正のための新しいアプローチであるGEESEを提案する。 GEESEの鍵となる設計は,(1)シミュレーションコストを削減し,誤差フィードバックの勾配に基づくバックプロパゲーションを可能にするハイブリッド・サロゲート・エラーモデル,(2)評価と探索の振る舞いをシミュレートするための候補状態の確率分布を近似する2つの生成モデルである。 3つのモデルはいずれもニューラルネットワークとして構築されている。 GEESEは3つの実世界のSAE逆問題でテストされ、最先端の最適化/探索手法と比較される。 結果は、実現可能な状態補正を見つけるのに最低でも失敗することを示し、一般的には物理的評価をあまり必要としないことを示している。

When deploying machine learning estimators in science and engineering (SAE) domains, it is critical to avoid failed estimations that can have disastrous consequences, e.g., in aero engine design. This work focuses on detecting and correcting failed state estimations before adopting them in SAE inverse problems, by utilizing simulations and performance metrics guided by physical laws. We suggest to flag a machine learning estimation when its physical model error exceeds a feasible threshold, and propose a novel approach, GEESE, to correct it through optimization, aiming at delivering both low error and high efficiency. The key designs of GEESE include (1) a hybrid surrogate error model to provide fast error estimations to reduce simulation cost and to enable gradient based backpropagation of error feedback, and (2) two generative models to approximate the probability distributions of the candidate states for simulating the exploitation and exploration behaviours. All three models are constructed as neural networks. GEESE is tested on three real-world SAE inverse problems and compared to a number of state-of-the-art optimization/search approaches. Results show that it fails the least number of times in terms of finding a feasible state correction, and requires physical evaluations less frequently in general.
翻訳日:2023-09-26 16:09:31 公開日:2023-09-25
# 大規模残留ブートストラップによる任意データセットへの白色物質トラクトセグメンテーションの最適化

Better Generalization of White Matter Tract Segmentation to Arbitrary Datasets with Scaled Residual Bootstrap ( http://arxiv.org/abs/2309.13980v1 )

ライセンス: Link先を確認
Wan Liu and Chuyang Ye(参考訳) ホワイトマター(WM)トラクションセグメンテーションは脳接続研究において重要なステップである。 拡散磁気共鳴イメージング(dMRI)で行われ、ディープニューラルネットワーク(DNN)は有望なセグメンテーション精度を達成した。 既存のDNNベースのメソッドは、モデルトレーニングにアノテーション付きデータセットを使用する。 しかし、異なるテストデータセット上で訓練されたモデルの性能は分布シフトのため最適ではなく、任意のテストデータセットへのセグメンテーションモデルのより良い一般化を可能にするwmパスセグメンテーションアプローチの設計が望ましい。 本研究では, スケールド残余ブートストラップを用いた一般化を改良したwm路分節法を提案する。 トレーニングにおけるdMRIスキャンとテストデータセットの違いは、拡散勾配とノイズレベルの違いによって最も顕著に生じる。 どちらもトレーニングデータとテストデータの間に異なる信号対雑音比(SNR)をもたらすため,ノイズの大きさを調整してトレーニングスキャンを増強し,拡張のための適応された残留ブートストラップ戦略を開発することを提案する。 提案手法の有効性を検証するため, 2つのdMRIデータセットを用い, 実験結果から, WMトラクションセグメンテーションの様々な条件下での一般化を一貫して改善したことを示す。

White matter (WM) tract segmentation is a crucial step for brain connectivity studies. It is performed on diffusion magnetic resonance imaging (dMRI), and deep neural networks (DNNs) have achieved promising segmentation accuracy. Existing DNN-based methods use an annotated dataset for model training. However, the performance of the trained model on a different test dataset may not be optimal due to distribution shift, and it is desirable to design WM tract segmentation approaches that allow better generalization of the segmentation model to arbitrary test datasets. In this work, we propose a WM tract segmentation approach that improves the generalization with scaled residual bootstrap. The difference between dMRI scans in training and test datasets is most noticeably caused by the different numbers of diffusion gradients and noise levels. Since both of them lead to different signal-to-noise ratios (SNRs) between the training and test data, we propose to augment the training scans by adjusting the noise magnitude and develop an adapted residual bootstrap strategy for the augmentation. To validate the proposed approach, two dMRI datasets were used, and the experimental results show that our method consistently improved the generalization of WM tract segmentation under various settings.
翻訳日:2023-09-26 16:09:07 公開日:2023-09-25
# adapt then unlearn: 生成型adversarial networkにおけるunlearningのためのパラメータ空間セマンティクスの利用

Adapt then Unlearn: Exploiting Parameter Space Semantics for Unlearning in Generative Adversarial Networks ( http://arxiv.org/abs/2309.14054v1 )

ライセンス: Link先を確認
Piyush Tiwary, Atri Guha, Subhodip Panda, Prathosh A.P(参考訳) プライバシーや規制の遵守に関する懸念が高まる中、深層生成モデルのアウトプットの規制への注意が高まり、これらのモデルに対する効果的な制御の必要性が強調されている。 この必要性は、生成モデルが望ましくない、攻撃的、潜在的に有害な内容を含む出力を生成する事例から生じる。 この課題に取り組むために、特定の学習情報を忘れたり、訓練されたモデルから望ましくないデータサブセットの影響を消すことを目的とした、機械学習の概念が登場した。 本研究の目的は、基礎となるトレーニングデータセットがアクセスできない事前学習されたGANから、望ましくない特徴を含む出力の発生を防止することである。 GANのパラメータ空間は、特定の望ましくない特徴を抑えるために活用できる有意義な方向を示す。 しかし、そのような方向は通常、生成されたサンプルの品質が劣化する。 提案手法は,「adapt-then-unlearn」として知られ,望ましくない特徴を学習すると同時に,生成したサンプルの品質を維持する。 本手法は,初期段階において,ユーザが提供した負のサンプルを用いて事前学習したGANを適応させ,その後段階において,望ましくない特徴を学習することに集中する。 後者の段階では、正サンプルを用いて事前訓練したGANをトレーニングし、反発正則化器を組み込んだ。 この正規化器は、モデルパラメータを適応モデルに関連するパラメータから第一段階から遠ざけ、生成したサンプルの品質を維持します。 私たちの知る限りでは、私たちのアプローチはganで未学習を扱う最初の方法です。 本手法の有効性を総合実験により検証した。

The increased attention to regulating the outputs of deep generative models, driven by growing concerns about privacy and regulatory compliance, has highlighted the need for effective control over these models. This necessity arises from instances where generative models produce outputs containing undesirable, offensive, or potentially harmful content. To tackle this challenge, the concept of machine unlearning has emerged, aiming to forget specific learned information or to erase the influence of undesired data subsets from a trained model. The objective of this work is to prevent the generation of outputs containing undesired features from a pre-trained GAN where the underlying training data set is inaccessible. Our approach is inspired by a crucial observation: the parameter space of GANs exhibits meaningful directions that can be leveraged to suppress specific undesired features. However, such directions usually result in the degradation of the quality of generated samples. Our proposed method, known as 'Adapt-then-Unlearn,' excels at unlearning such undesirable features while also maintaining the quality of generated samples. This method unfolds in two stages: in the initial stage, we adapt the pre-trained GAN using negative samples provided by the user, while in the subsequent stage, we focus on unlearning the undesired feature. During the latter phase, we train the pre-trained GAN using positive samples, incorporating a repulsion regularizer. This regularizer encourages the model's parameters to be away from the parameters associated with the adapted model from the first stage while also maintaining the quality of generated samples. To the best of our knowledge, our approach stands as first method addressing unlearning in GANs. We validate the effectiveness of our method through comprehensive experiments.
翻訳日:2023-09-26 16:03:03 公開日:2023-09-25
# ニューラルネットワークの大規模バッチトレーニング一般化のためのlarsの再訪

Revisiting LARS for Large Batch Training Generalization of Neural Networks ( http://arxiv.org/abs/2309.14053v1 )

ライセンス: Link先を確認
Khoi Do, Duong Nguyen, Hoa Nguyen, Long Tran-Thanh, and Quoc-Viet Pham(参考訳) LARSとLAMBはLBL(Large Batch Learning)において、AIトレーニングの安定性を保証する重要なテクニックとして登場した。 LBLの主な課題の1つは収束安定性であり、AIエージェントは通常、鋭い最小化器に閉じ込められる。 この課題に対処するため、ウォームアップとして知られる比較的最近の技術が採用されている。 しかしウォームアップには強力な理論基盤がなく、より効率的なアルゴリズムを探究するための扉が開いている。 このような状況を踏まえ、我々はLARSファミリーの2つの最も人気のあるオプティマイザ(LARS)とLAMB(LAMB)の動作をウォームアップ戦略なしで分析する実験を行った。 我々の分析により, ラース, ラム, およびlblにおけるウォームアップ技術の必要性の理解が得られた。 これらの知見に基づいて,ウォームアップを必要とせず,初期段階におけるロバストなトレーニングを容易にする時間変化lars(tvlars)と呼ばれる新しいアルゴリズムを提案する。 実験により,TVLARSはウォームアップ手法を使わずに性能を上回りながら,LARSやLAMBと競合する結果が得られることが示された。

LARS and LAMB have emerged as prominent techniques in Large Batch Learning (LBL), ensuring the stability of AI training. One of the primary challenges in LBL is convergence stability, where the AI agent usually gets trapped into the sharp minimizer. Addressing this challenge, a relatively recent technique, known as warm-up, has been employed. However, warm-up lacks a strong theoretical foundation, leaving the door open for further exploration of more efficacious algorithms. In light of this situation, we conduct empirical experiments to analyze the behaviors of the two most popular optimizers in the LARS family: LARS and LAMB, with and without a warm-up strategy. Our analyses give us a comprehension of the novel LARS, LAMB, and the necessity of a warm-up technique in LBL. Building upon these insights, we propose a novel algorithm called Time Varying LARS (TVLARS), which facilitates robust training in the initial phase without the need for warm-up. Experimental evaluation demonstrates that TVLARS achieves competitive results with LARS and LAMB when warm-up is utilized while surpassing their performance without the warm-up technique.
翻訳日:2023-09-26 16:02:34 公開日:2023-09-25
# セグメンテーションのための単一画像テスト時間適応

Single Image Test-Time Adaptation for Segmentation ( http://arxiv.org/abs/2309.14052v1 )

ライセンス: Link先を確認
Klara Janouskova, Tamir Shor, Chaim Baskin, Jiri Matas(参考訳) テスト時間適応(TTA)手法は、ディープニューラルネットワークの堅牢性を改善し、画像分類やセグメンテーションといったさまざまなタスクにおけるドメインシフトを改善する。 この研究は、セグメンテーションモデルを、テスト時に利用可能な他のデータなしで、単一のラベルのないイメージに適応することを検討する。 特に、テスト時の自己監督的損失を最適化することで適応に焦点を当てる。 異なる原理に基づく複数のベースラインを多種多様な条件下で評価し,マスクリファインメントに適応するための新たな対戦訓練を導入する。 我々のベースラインへの追加は、非適応ベースラインよりも3.51と3.28%増加し、これらの改善がなければ1.7と2.16%の増加となる。

Test-Time Adaptation (TTA) methods improve the robustness of deep neural networks to domain shift on a variety of tasks such as image classification or segmentation. This work explores adapting segmentation models to a single unlabelled image with no other data available at test-time. In particular, this work focuses on adaptation by optimizing self-supervised losses at test-time. Multiple baselines based on different principles are evaluated under diverse conditions and a novel adversarial training is introduced for adaptation with mask refinement. Our additions to the baselines result in a 3.51 and 3.28 % increase over non-adapted baselines, without these improvements, the increase would be 1.7 and 2.16 % only.
翻訳日:2023-09-26 16:02:13 公開日:2023-09-25
# 多様化とコンカー : 電子商取引ホームページを充実させるバンドと多様性

Diversify and Conquer: Bandits and Diversity for an Enhanced E-commerce Homepage Experience ( http://arxiv.org/abs/2309.14046v1 )

ライセンス: Link先を確認
Sangeet Jaiswal, Korah T Malayil, Saif Jawaid, Sreekanth Vempati(参考訳) eコマースの分野では、人気のあるプラットフォームはウィジェットを使って広告や製品をユーザーに推薦する。 しかし、これらのプラットフォームにおけるモバイルデバイスの利用頻度は、限られた画面領域で利用できるため、ユニークな課題をもたらす。 その結果、顧客エンゲージメントの獲得と維持において、関連するウィジェットの位置決めが重要となる。 モバイル端末の画面サイズが制限されているため、インターフェースの上部に配置されたウィジェットはより目立つように表示され、ユーザーの注目を集める。 逆に、ページをさらに下に配置するウィジェットでは、ユーザがスクロールする必要があるため、視認性が低下し、インプレッション率が低下する。 そのため、関連するウィジェットを上部に置くことが必須となる。 しかし、関連するウィジェットを選択することは難しい作業であり、ウィジェットは異種であり、ウィジェットはプラットフォームからいつでも導入または削除できる。 本研究では,垂直ウィジェットの並べ替えを,バッチフィードバックの遅延を伴うコンテキスト的マルチアームバンディット問題としてモデル化する。 目的は、垂直ウィジェットをパーソナライズされた方法でランク付けすることである。 本稿では,コンテキストバンディットと多様性層を組み合わせた2段階のランク付けフレームワークを提案する。 インドの主要なファッションeコマースプラットフォームであるmyntraのプロプライエタリなデータに基づいて、オフラインおよびオンラインa/b結果を通じてその効果を実証する。

In the realm of e-commerce, popular platforms utilize widgets to recommend advertisements and products to their users. However, the prevalence of mobile device usage on these platforms introduces a unique challenge due to the limited screen real estate available. Consequently, the positioning of relevant widgets becomes pivotal in capturing and maintaining customer engagement. Given the restricted screen size of mobile devices, widgets placed at the top of the interface are more prominently displayed and thus attract greater user attention. Conversely, widgets positioned further down the page require users to scroll, resulting in reduced visibility and subsequent lower impression rates. Therefore it becomes imperative to place relevant widgets on top. However, selecting relevant widgets to display is a challenging task as the widgets can be heterogeneous, widgets can be introduced or removed at any given time from the platform. In this work, we model the vertical widget reordering as a contextual multi-arm bandit problem with delayed batch feedback. The objective is to rank the vertical widgets in a personalized manner. We present a two-stage ranking framework that combines contextual bandits with a diversity layer to improve the overall ranking. We demonstrate its effectiveness through offline and online A/B results, conducted on proprietary data from Myntra, a major fashion e-commerce platform in India.
翻訳日:2023-09-26 16:02:02 公開日:2023-09-25
# トポロジカルに自明な非エルミート系をゲージ場を介して非自明にする

Making topologically trivial non-Hermitian systems non-trivial via gauge fields ( http://arxiv.org/abs/2309.14042v1 )

ライセンス: Link先を確認
W. B. Rui, Y. X. Zhao, and Z. D. Wang(参考訳) 非エルミキシー性は、物理学における対称性とトポロジーの概念を著しく強化する。 特に非ハーミティー性は、非ハーミティアンハミルトニアン$H$が$H^\dagger$に変換されるような分岐対称性をもたらす。 時間反転(T$)および超格子対称性については、様々な非エルミート皮膚効果を持つ新しいトポロジカル分類につながる6つの有理対称性クラスが存在する。 人工結晶は6つの分岐対称性クラスにおいて位相物理学を実現するための対称性障壁が存在する: 人工結晶は、スピンレスクラスで$t^2=1$であるが、非自明な分類は$t^2=-1$のスピンフルクラスで支配的に現れる。 ここでは、対称性障壁を横断する一般的なメカニズムを示す。 内部パリティ対称性 $p$ により、$\tilde{t}=pt$ の組み合わせの平方形は適切なゲージフラックスによって修正できる。 一般的な機構を用いて、1次元および2次元の非エルミートスピニング位相のスピンレスモデルを構築し、実験的に実現する。 我々の研究はゲージ構造が基本レベルで非エルミート物理学を著しく豊かにすることができることを示唆している。

Non-Hermiticity significantly enriches the concepts of symmetry and topology in physics. Particularly, non-Hermiticity gives rise to the ramified symmetries, where the non-Hermitian Hamiltonian $H$ is transformed to $H^\dagger$. For time-reversal ($T$) and sublattice symmetries, there are six ramified symmetry classes leading to novel topological classifications with various non-Hermitian skin effects. As artificial crystals are the main experimental platforms for non-Hermitian physics, there exists the symmetry barrier for realizing topological physics in the six ramified symmetry classes: While artificial crystals are in spinless classes with $T^2=1$, nontrivial classifications dominantly appear in spinful classes with $T^2=-1$. Here, we present a general mechanism to cross the symmetry barrier. With an internal parity symmetry $P$, the square of the combination $\tilde{T}=PT$ can be modified by appropriate gauge fluxes. Using the general mechanism, we systematically construct spinless models for all non-Hermitian spinful topological phases in one and two dimensions, which are experimentally realizable. Our work suggests that gauge structures may significantly enrich non-Hermitian physics at the fundamental level.
翻訳日:2023-09-26 16:01:42 公開日:2023-09-25
# プロセスダイナミクスモデリングのための最適リカレントニューラルネットワークアーキテクチャの自動選択

An automatic selection of optimal recurrent neural network architecture for processes dynamics modelling purposes ( http://arxiv.org/abs/2309.14037v1 )

ライセンス: Link先を確認
Krzysztof Laddach, Rafa{\l} {\L}angowski, Tomasz A. Rutkowski, Bartosz Puchalski(参考訳) 本稿では,選択された動的プロセスの挙動(ブラックボックス)モデリングに使用されるニューラルネットワークの構造を見つけるために設計されたアルゴリズムの開発に関わる課題について述べる。 この研究には、ニューラルネットワークアーキテクチャ検索専用のアルゴリズムの提案が4つ含まれている。 アルゴリズムは進化的アルゴリズムや勾配降下法のようなよく知られた最適化手法に基づいている。 本研究では,上記のアルゴリズムに基づいて,アーキテクチャを最適化した方法で選択したリカレント型ニューラルネットワークについて述べる。 この最適性は、学習された数学的モデルの応答を捉える上で、ニューラルネットワークのサイズと精度とのトレードオフを達成することが理解されている。 最適化の間、独自の特殊進化演算子が提案されている。 この研究は、加圧水型原子炉で発生する高速過程の数学的モデルから生成されたデータに基づく拡張検証研究を含んでいた。

A problem related to the development of algorithms designed to find the structure of artificial neural network used for behavioural (black-box) modelling of selected dynamic processes has been addressed in this paper. The research has included four original proposals of algorithms dedicated to neural network architecture search. Algorithms have been based on well-known optimisation techniques such as evolutionary algorithms and gradient descent methods. In the presented research an artificial neural network of recurrent type has been used, whose architecture has been selected in an optimised way based on the above-mentioned algorithms. The optimality has been understood as achieving a trade-off between the size of the neural network and its accuracy in capturing the response of the mathematical model under which it has been learnt. During the optimisation, original specialised evolutionary operators have been proposed. The research involved an extended validation study based on data generated from a mathematical model of the fast processes occurring in a pressurised water nuclear reactor.
翻訳日:2023-09-26 16:01:18 公開日:2023-09-25
# DeepACO: 組合せ最適化のためのニューラルネットワークAntシステム

DeepACO: Neural-enhanced Ant Systems for Combinatorial Optimization ( http://arxiv.org/abs/2309.14032v1 )

ライセンス: Link先を確認
Haoran Ye, Jiarui Wang, Zhiguang Cao, Helan Liang, Yong Li(参考訳) Ant Colony Optimization (ACO) は、様々な組合せ最適化問題(COP)に適用されたメタヒューリスティックアルゴリズムである。 伝統的に、特定の問題に対してACOをカスタマイズするには、知識駆動ヒューリスティックスの専門家設計が必要である。 本稿では,深層強化学習を用いてヒューリスティック設計を自動化する汎用フレームワークdeepacoを提案する。 DeepACOは、既存のACOアルゴリズムのヒューリスティックな対策を強化し、将来のACOアプリケーションにおける厳しい手動設計を不要にする。 ニューラル強化されたメタヒューリスティックとして、DeepACOは1つのニューラルモデルと1セットのハイパーパラメータを使用して、8つのCOPでACOよりも一貫して優れている。 Neural Combinatorial Optimization法として、DeepACOは標準ルーティング問題における問題固有の手法と同等以上の性能を発揮する。 私たちのコードはhttps://github.com/henry-yeh/DeepACO.comで公開されています。

Ant Colony Optimization (ACO) is a meta-heuristic algorithm that has been successfully applied to various Combinatorial Optimization Problems (COPs). Traditionally, customizing ACO for a specific problem requires the expert design of knowledge-driven heuristics. In this paper, we propose DeepACO, a generic framework that leverages deep reinforcement learning to automate heuristic designs. DeepACO serves to strengthen the heuristic measures of existing ACO algorithms and dispense with laborious manual design in future ACO applications. As a neural-enhanced meta-heuristic, DeepACO consistently outperforms its ACO counterparts on eight COPs using a single neural model and a single set of hyperparameters. As a Neural Combinatorial Optimization method, DeepACO performs better than or on par with problem-specific methods on canonical routing problems. Our code is publicly available at https://github.com/henry-yeh/DeepACO.
翻訳日:2023-09-26 16:01:07 公開日:2023-09-25
# 時系列解析のための微分型変換:非線形ワープへの効率的なアプローチ

Diffeomorphic Transformations for Time Series Analysis: An Efficient Approach to Nonlinear Warping ( http://arxiv.org/abs/2309.14029v1 )

ライセンス: Link先を確認
I\~nigo Martinez(参考訳) 多くの分野にまたがる時間データの増殖と普及は、時系列データを扱うために特別に設計された類似性、分類、クラスタリングの方法への関心を喚起した。 時系列を扱う際の中核的な問題は、そのペアワイドな類似性、すなわちある時系列が他の時系列に類似する程度を決定することである。 ユークリッドのような伝統的な距離測度は、時間に依存したデータの性質のため適していない。 dynamic time warping(dtw)のような弾力性のあるメトリクスは有望なアプローチだが、計算の複雑さ、非微分可能性、ノイズや異常値に対する感度によって制限される。 この論文は、DTWベースのメトリクスの欠点を克服する手段として、パラメトリック \&微分型ワープ変換を用いる新しい弾性アライメント手法を提案する。 提案手法は微分可能で可逆性があり、ディープラーニングアーキテクチャに適しており、ノイズや異常値に頑健であり、計算効率が高く、複雑なパターンをキャプチャできるほど表現力が高く柔軟性がある。 さらに、これらの微分同相変換の勾配に対して閉形式解が開発され、パラメータ空間の効率的な探索が可能となり、収束時のより良い解が得られる。 これらの閉形式微分同相変換の利点を活用して、この論文は以下の一連の進歩を提案する。 (a)時系列アライメントと平均化のための拡張時間変換器ネットワーク (b)高精度に信号の調整と分類を行う深層学習に基づく時系列分類モデル。 c)ワーピング不変でスケーラブルで,限られた計算資源と時間資源の下で動作可能で,最後に,逐次時系列クラスタリングアルゴリズム (d) 結合層および自己回帰層におけるアフィン変換の柔軟性を高める正規化フローモデル。

The proliferation and ubiquity of temporal data across many disciplines has sparked interest for similarity, classification and clustering methods specifically designed to handle time series data. A core issue when dealing with time series is determining their pairwise similarity, i.e., the degree to which a given time series resembles another. Traditional distance measures such as the Euclidean are not well-suited due to the time-dependent nature of the data. Elastic metrics such as dynamic time warping (DTW) offer a promising approach, but are limited by their computational complexity, non-differentiability and sensitivity to noise and outliers. This thesis proposes novel elastic alignment methods that use parametric \& diffeomorphic warping transformations as a means of overcoming the shortcomings of DTW-based metrics. The proposed method is differentiable \& invertible, well-suited for deep learning architectures, robust to noise and outliers, computationally efficient, and is expressive and flexible enough to capture complex patterns. Furthermore, a closed-form solution was developed for the gradient of these diffeomorphic transformations, which allows an efficient search in the parameter space, leading to better solutions at convergence. Leveraging the benefits of these closed-form diffeomorphic transformations, this thesis proposes a suite of advancements that include: (a) an enhanced temporal transformer network for time series alignment and averaging, (b) a deep-learning based time series classification model to simultaneously align and classify signals with high accuracy, (c) an incremental time series clustering algorithm that is warping-invariant, scalable and can operate under limited computational and time resources, and finally, (d) a normalizing flow model that enhances the flexibility of affine transformations in coupling and autoregressive layers.
翻訳日:2023-09-26 16:00:52 公開日:2023-09-25
# TomOpt:ミューオントモグラフィーにおける粒子検出器のタスク・制約認識設計のための微分最適化

TomOpt: Differential optimisation for task- and constraint-aware design of particle detectors in the context of muon tomography ( http://arxiv.org/abs/2309.14027v1 )

ライセンス: Link先を確認
Giles C. Strong, Maxime Lagrange, Aitor Orio, Anna Bordignon, Tommaso Dorigo, Andrea Giammanco, Mariam Heikal, Max Lamparth, Federico Nardi, Pietro Vischia, Haitham Zaraket(参考訳) 宇宙線ミューオンの散乱によりトモグラフィー用に設計された検出器の幾何学的レイアウトと仕様を最適化するために開発されたソフトウェアパッケージTomOptについて述べる。 このソフトウェアは、ミューオンと検出器およびスキャンされたボリュームとの相互作用のモデリング、ボリューム特性の推論、損失最小化を実行する最適化サイクルのために微分可能プログラミングを利用する。 そこで我々は,素粒子物理機器のエンド・ツー・エンド微分可能・推論対応最適化の実証実験を行った。 ソフトウェアの性能を関連するベンチマークシナリオで検討し,その可能性について考察する。

We describe a software package, TomOpt, developed to optimise the geometrical layout and specifications of detectors designed for tomography by scattering of cosmic-ray muons. The software exploits differentiable programming for the modeling of muon interactions with detectors and scanned volumes, the inference of volume properties, and the optimisation cycle performing the loss minimisation. In doing so, we provide the first demonstration of end-to-end-differentiable and inference-aware optimisation of particle physics instruments. We study the performance of the software on a relevant benchmark scenarios and discuss its potential applications.
翻訳日:2023-09-26 16:00:25 公開日:2023-09-25
# 空間時間における多重残差を用いたハッシングニューラルビデオ分解

Hashing Neural Video Decomposition with Multiplicative Residuals in Space-Time ( http://arxiv.org/abs/2309.14022v1 )

ライセンス: Link先を確認
Cheng-Hung Chan, Cheng-Yang Yuan, Cheng Sun, and Hwann-Tzong Chen(参考訳) 本稿では,時空間的に異なる照明と動作効果を持つ映像の階層的編集を容易にする映像分解手法を提案する。 ニューラルネットワークは,入力映像を2次元テクスチャマップ,オリジナルビデオ用マスク,照明条件の時空間変動を特徴付ける乗法的残差からなる複数の階層化表現に分解する。 テクスチャマップ上の単一の編集は、他のコンテンツのコンピテンシーを保ちながら、ビデオフレーム全体の対応する場所に伝播することができる。 本手法は,1フレームあたり25秒の1080pビデオの階層ベースのニューラル表現を座標ハッシュにより効率的に学習し,71fpsのリアルタイムレンダリングを可能にする。 質的に,高品質な編集効果の生成に有効性を示すため,様々なビデオで提案手法を実行する。 本稿では,映像編集の一貫性を客観的に評価するための特徴追跡評価指標を提案する。 プロジェクトページ: https://lightbulb12294.github.io/hashing-nvd/

We present a video decomposition method that facilitates layer-based editing of videos with spatiotemporally varying lighting and motion effects. Our neural model decomposes an input video into multiple layered representations, each comprising a 2D texture map, a mask for the original video, and a multiplicative residual characterizing the spatiotemporal variations in lighting conditions. A single edit on the texture maps can be propagated to the corresponding locations in the entire video frames while preserving other contents' consistencies. Our method efficiently learns the layer-based neural representations of a 1080p video in 25s per frame via coordinate hashing and allows real-time rendering of the edited result at 71 fps on a single GPU. Qualitatively, we run our method on various videos to show its effectiveness in generating high-quality editing effects. Quantitatively, we propose to adopt feature-tracking evaluation metrics for objectively assessing the consistency of video editing. Project page: https://lightbulb12294.github.io/hashing-nvd/
翻訳日:2023-09-26 16:00:12 公開日:2023-09-25
# 名前付きエンティティ認識の包括的概要:モデル、ドメイン固有応用、挑戦

Comprehensive Overview of Named Entity Recognition: Models, Domain-Specific Applications and Challenges ( http://arxiv.org/abs/2309.14084v1 )

ライセンス: Link先を確認
Kalyani Pakhale(参考訳) 自然言語処理(NLP)分野において、名前付きエンティティ認識(NER)は構造化されていないテキストから構造化された洞察を抽出するための重要なメカニズムである。 この写本は、NER方法論の進化する風景を徹底的に探求し、基礎原理と現代のAIの進歩を融合させたものである。 NERの初歩的な概念から始まったこの研究は、従来のルールベースの戦略から、トランスフォーマーアーキテクチャの現代的な驚異まで、幅広い技術、特にBERTとLSTMやCNNとの統合を強調している。 この物語は、金融、法律、医療といった複雑な分野に適したドメイン固有のNERモデルをアクセントし、特殊適応性を強調している。 さらに、この研究は強化学習、E-NERのような革新的な構造、およびNER能力を増強する光学文字認識(OCR)の相互作用を含む最先端のパラダイムを掘り下げている。 この論文は、実践的な領域における洞察に基づいて、金融やバイオメディシンといった分野におけるNERの役割に光を当て、彼らが提示するユニークな課題に対処する。 結論は、オープンな課題と道のりを概説し、この研究はnerの研究と応用にこだわる人々のための包括的なガイドである。

In the domain of Natural Language Processing (NLP), Named Entity Recognition (NER) stands out as a pivotal mechanism for extracting structured insights from unstructured text. This manuscript offers an exhaustive exploration into the evolving landscape of NER methodologies, blending foundational principles with contemporary AI advancements. Beginning with the rudimentary concepts of NER, the study spans a spectrum of techniques from traditional rule-based strategies to the contemporary marvels of transformer architectures, particularly highlighting integrations such as BERT with LSTM and CNN. The narrative accentuates domain-specific NER models, tailored for intricate areas like finance, legal, and healthcare, emphasizing their specialized adaptability. Additionally, the research delves into cutting-edge paradigms including reinforcement learning, innovative constructs like E-NER, and the interplay of Optical Character Recognition (OCR) in augmenting NER capabilities. Grounding its insights in practical realms, the paper sheds light on the indispensable role of NER in sectors like finance and biomedicine, addressing the unique challenges they present. The conclusion outlines open challenges and avenues, marking this work as a comprehensive guide for those delving into NER research and applications.
翻訳日:2023-09-26 15:51:42 公開日:2023-09-25
# Dunkl-Pauli方程式

Dunkl-Pauli Equation ( http://arxiv.org/abs/2309.14081v1 )

ライセンス: Link先を確認
H. Bouguerne, B. Hamil, B. C. L\"utf\"uo\u{g}lu and M. Merad(参考訳) パウリ方程式は量子力学の重要な方程式であり、スピン-1/2$粒子の動力学を研究することができる。 通常の微分の代わりにダンケル誘導体を用いると、パリティ依存解が得られる。 本研究では,外部磁場の存在下での2次元非相対論的スピン-1/2$粒子系を考察し,ダンケル形式論におけるポーリ方程式を解析的に解いて系のダイナミクスを考察する。 そこで,本システムは熱平衡状態にあると仮定し,様々な熱量について検討する。

The Pauli equation, an important equation of quantum mechanics, allows us to study the dynamics of spin-$1/2$ particles. The Dunkl derivative, when used instead of the ordinary derivative, allows us to obtain parity-dependent solutions. In this work, we consider a two-dimensional nonrelativistic spin-$1/2$ particle system in the presence of an external magnetic field, and we explore the system's dynamics by solving the Pauli equation in the Dunkl formalism analytically. Then, we assume the system to be in thermal equilibrium, so that, we examine various thermal quantities of the system.
翻訳日:2023-09-26 15:51:18 公開日:2023-09-25
# 声門音源特徴を用いた病理音声の分析と検出

Analysis and Detection of Pathological Voice using Glottal Source Features ( http://arxiv.org/abs/2309.14080v1 )

ライセンス: Link先を確認
Sudarsana Reddy Kadiri and Paavo Alku(参考訳) 音声病理の自動検出は客観的な評価と早期診断を可能にする。 本研究は声門源の特徴を体系的に分析し,その音声病理検出効果について検討する。 擬似閉位相(qcp)声門逆フィルタリング法で推定される声門流れを用いて声門源の特徴を抽出し、ゼロ周波数フィルタリング(zff)法で算出した近似声門源信号を用いて音響音声信号を直接使用する。 さらに,QCPとZFFによって計算された声門音源波形からメリー周波数ケプストラム係数(MFCC)を導出し,声門音源スペクトルの変動を効果的に捉えることを提案する。 実験は,hupa(universitario principe de asturias)データベースとsaarbrucken voice disorder(svd)データベースの2つのデータベースを用いて行った。 特徴分析の結果,声門源は正常声と病的声を識別する情報を含んでいることが明らかとなった。 支持ベクトルマシン(SVM)を用いて病理診断実験を行った。 検出実験から,調査した声門音源特性で得られた性能は,従来のmfccおよび知覚線形予測(plp)特性と同等かそれ以上であることがわかった。 この特徴の相補的な性質を示す従来のMFCCとLPの特徴を組み合わせることで,最も優れた検出性能が得られた。

Automatic detection of voice pathology enables objective assessment and earlier intervention for the diagnosis. This study provides a systematic analysis of glottal source features and investigates their effectiveness in voice pathology detection. Glottal source features are extracted using glottal flows estimated with the quasi-closed phase (QCP) glottal inverse filtering method, using approximate glottal source signals computed with the zero frequency filtering (ZFF) method, and using acoustic voice signals directly. In addition, we propose to derive mel-frequency cepstral coefficients (MFCCs) from the glottal source waveforms computed by QCP and ZFF to effectively capture the variations in glottal source spectra of pathological voice. Experiments were carried out using two databases, the Hospital Universitario Principe de Asturias (HUPA) database and the Saarbrucken Voice Disorders (SVD) database. Analysis of features revealed that the glottal source contains information that discriminates normal and pathological voice. Pathology detection experiments were carried out using support vector machine (SVM). From the detection experiments it was observed that the performance achieved with the studied glottal source features is comparable or better than that of conventional MFCCs and perceptual linear prediction (PLP) features. The best detection performance was achieved when the glottal source features were combined with the conventional MFCCs and PLP features, which indicates the complementary nature of the features.
翻訳日:2023-09-26 15:51:07 公開日:2023-09-25
# ODE-based Recurrent Model-free Reinforcement Learning for POMDPs

ODE-based Recurrent Model-free Reinforcement Learning for POMDPs ( http://arxiv.org/abs/2309.14078v1 )

ライセンス: Link先を確認
Xuanle Zhao, Duzhen Zhang, Liyuan Han, Tielin Zhang, Bo Xu(参考訳) ニューラル常微分方程式(ODE)は、未知の物理的または生物学的環境において近似推論を行うのに役立つ物理機構をモデル化するための標準として広く認識されている。 部分的に観測可能な(PO)環境では、生の観測から見えない情報を推測する方法がエージェントを困惑させた。 コンテクストに基づく強化学習は, コンテクストがコンパクトなリカレントポリシを用いることで, 歴史的遷移から観測不可能な情報を抽出する柔軟な方法を提供する。 エージェントがよりダイナミックな情報を引き出すのを助けるために,新しいODEベースのリカレントモデルとモデルレス強化学習(RL)フレームワークを組み合わせて,部分的に観測可能なマルコフ決定プロセス(POMDP)を解く。 様々なPO連続制御タスクとメタRLタスクにまたがる手法の有効性を実験的に実証した。 さらに,本手法は不規則にサンプリングされた時系列をモデル化できるため,不規則な観測に対して頑健であることを示す。

Neural ordinary differential equations (ODEs) are widely recognized as the standard for modeling physical mechanisms, which help to perform approximate inference in unknown physical or biological environments. In partially observable (PO) environments, how to infer unseen information from raw observations puzzled the agents. By using a recurrent policy with a compact context, context-based reinforcement learning provides a flexible way to extract unobservable information from historical transitions. To help the agent extract more dynamics-related information, we present a novel ODE-based recurrent model combines with model-free reinforcement learning (RL) framework to solve partially observable Markov decision processes (POMDPs). We experimentally demonstrate the efficacy of our methods across various PO continuous control and meta-RL tasks. Furthermore, our experiments illustrate that our method is robust against irregular observations, owing to the ability of ODEs to model irregularly-sampled time series.
翻訳日:2023-09-26 15:50:41 公開日:2023-09-25
# 潜在変数構造方程式モデルの最大確率推定:ニューラルネットワークによるアプローチ

Maximum Likelihood Estimation of Latent Variable Structural Equation Models: A Neural Network Approach ( http://arxiv.org/abs/2309.14073v1 )

ライセンス: Link先を確認
Mehrzad Saremi(参考訳) 線形性とガウス性仮定の下での限界化下で安定な構造方程式モデルのグラフィカル構造を提案する。 このモデルの最大確率推定の計算は、ニューラルネットワークのトレーニングと等価であることを示す。 これらのモデルの最大確率推定を計算するgpuベースのアルゴリズムを実装した。

We propose a graphical structure for structural equation models that is stable under marginalization under linearity and Gaussianity assumptions. We show that computing the maximum likelihood estimation of this model is equivalent to training a neural network. We implement a GPU-based algorithm that computes the maximum likelihood estimation of these models.
翻訳日:2023-09-26 15:50:25 公開日:2023-09-25
# BoIR:マルチパーソン・ポーズ推定のためのBox-Supervised Instance Representation

BoIR: Box-Supervised Instance Representation for Multi-Person Pose Estimation ( http://arxiv.org/abs/2309.14072v1 )

ライセンス: Link先を確認
Uyoung Jeong, Seungryul Baek, Hyung Jin Chang, Kwang In Kim(参考訳) 単段階多対人ポーズ推定(MPPE)手法は,性能が向上したが,既存の手法では,混み合ったシーン下での個々のインスタンスによる特徴の絡み合わせに失敗した。 本稿では,BoIRと呼ばれる境界ボックスレベルのインスタンス表現学習を提案する。 新しいインスタンス埋め込み損失は、バウンディングボックスアノテーションでイメージ全体の学習シグナルを提供し、グローバルに一貫性があり、不整合なインスタンス表現を実現します。 提案手法は,ボトムアップキーポイント推定,境界ボックス回帰,コントラスト型インスタンス埋め込み学習のマルチタスク学習を,推論中に計算コストを増すことなく活用する。 BoIR は、COCO val (0.8 AP)、COCO test-dev (0.5 AP)、CrowdPose (4.9 AP)、OCHuman (3.5 AP) において、最先端のCOCO val (0.8 AP) よりも優れている。 コードはhttps://github.com/uyoung-jeong/BoIRで入手できる。

Single-stage multi-person human pose estimation (MPPE) methods have shown great performance improvements, but existing methods fail to disentangle features by individual instances under crowded scenes. In this paper, we propose a bounding box-level instance representation learning called BoIR, which simultaneously solves instance detection, instance disentanglement, and instance-keypoint association problems. Our new instance embedding loss provides a learning signal on the entire area of the image with bounding box annotations, achieving globally consistent and disentangled instance representation. Our method exploits multi-task learning of bottom-up keypoint estimation, bounding box regression, and contrastive instance embedding learning, without additional computational cost during inference. BoIR is effective for crowded scenes, outperforming state-of-the-art on COCO val (0.8 AP), COCO test-dev (0.5 AP), CrowdPose (4.9 AP), and OCHuman (3.5 AP). Code will be available at https://github.com/uyoung-jeong/BoIR
翻訳日:2023-09-26 15:50:20 公開日:2023-09-25
# ソフト混合分別:拡散モデルの表現的ボトルネックを超えて

Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion Models ( http://arxiv.org/abs/2309.14068v1 )

ライセンス: Link先を確認
Yangming Li, Boris van Breugel, Mihaela van der Schaar(参考訳) 拡散モデルは画像合成などの多くのタスクで印象的な性能を示しているため、これらのモデルが強い近似能力を持っていることを(ある仮定で)証明する最近の研究のトレンドがある。 本稿では,現行の拡散モデルが後方認知における表現的ボトルネックを実際に有しており,既存の理論的保証による仮定が強すぎることを示す。 この結果から,拡散モデルが局所解法と大域近似の両方において非有界誤差を持つことを示す。 理論的研究を踏まえ, 後方復調のための表現的かつ効率的なモデルであるソフトミキシング(SMD)を導入する。 SMDは拡散モデルに理論上の任意のガウス混合分布をうまく近似させるだけでなく、実装にもシンプルで効率的である。 複数の画像データセットを用いた実験により、smdは様々な種類の拡散モデル(例えばddpm)を著しく改善していることが明らかとなった。

Because diffusion models have shown impressive performances in a number of tasks, such as image synthesis, there is a trend in recent works to prove (with certain assumptions) that these models have strong approximation capabilities. In this paper, we show that current diffusion models actually have an expressive bottleneck in backward denoising and some assumption made by existing theoretical guarantees is too strong. Based on this finding, we prove that diffusion models have unbounded errors in both local denoising and global approximation. In light of our theoretical studies, we introduce soft mixture denoising (SMD), an expressive and efficient model for backward denoising. SMD not only permits diffusion models to well approximate any Gaussian mixture distributions in theory, but also is simple and efficient for implementation. Our experiments on multiple image datasets show that SMD significantly improves different types of diffusion models (e.g., DDPM), especially in the situation of few backward iterations.
翻訳日:2023-09-26 15:49:57 公開日:2023-09-25
# asymformer:モバイルプラットフォームリアルタイムrgb-dセマンティクスセグメンテーションのための非対称クロスモーダル表現学習

AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile Platform Real-Time RGB-D Semantic Segmentation ( http://arxiv.org/abs/2309.14065v1 )

ライセンス: Link先を確認
Siqi Du, Weixi Wang, Renzhong Guo and Shengjun Tang(参考訳) ロボットインテリジェンスの世界では、効率的で正確なRGB-Dセマンティックセグメンテーションを実現することが鍵となる。 最先端のマルチモーダルセマンティクスセグメンテーション手法は、主に対称スケルトンネットワークに根ざしており、計算効率と精度の調和が困難である。 本研究では,実時間rgb-d意味セグメンテーションのための新しいネットワークであるasymformerを提案する。計算資源の分散を最適化することで超流動パラメータの最小化を目標とし,マルチモーダル特徴の効果的な融合を可能にする非対称バックボーンを導入する。 さらに,パラメータ数を大幅に増加させることなく,特徴選択を再定義し,マルチモーダルな自己相似特徴を抽出することにより,ネットワークの精度を高める手法を検討する。 さらに、LAFS(Local Attention-Guided Feature Selection)モジュールは、依存関係を活用することで、異なるモダリティから機能を選択的にフューズするために使用される。 その後、CMA(Cross-Modal Attention-Guided Feature correlation Embedding)モジュールを導入し、クロスモーダル表現をさらに抽出する。 この手法はNYUv2およびSUNRGBDデータセットで評価され、AsymFormerはNYUv2では52.0\% mIoU、SUNRGBDでは49.1\% mIoUと競合する結果を示した。 特に、AsymFormerは65 FPSの推論速度を達成し、混合精度量子化を実装した後、RTX3090上で79 FPSの予測速度を得る。 これは既存のマルチモーダル法を大きく上回り、asymformerはrgb-dセマンティクスセグメンテーションの精度と効率のバランスを取ることができる。

In the realm of robotic intelligence, achieving efficient and precise RGB-D semantic segmentation is a key cornerstone. State-of-the-art multimodal semantic segmentation methods, primarily rooted in symmetrical skeleton networks, find it challenging to harmonize computational efficiency and precision. In this work, we propose AsymFormer, a novel network for real-time RGB-D semantic segmentation, which targets the minimization of superfluous parameters by optimizing the distribution of computational resources and introduces an asymmetrical backbone to allow for the effective fusion of multimodal features. Furthermore, we explore techniques to bolster network accuracy by redefining feature selection and extracting multi-modal self-similarity features without a substantial increase in the parameter count, thereby ensuring real-time execution on robotic platforms. Additionally, a Local Attention-Guided Feature Selection (LAFS) module is used to selectively fuse features from different modalities by leveraging their dependencies. Subsequently, a Cross-Modal Attention-Guided Feature Correlation Embedding (CMA) module is introduced to further extract cross-modal representations. This method is evaluated on NYUv2 and SUNRGBD datasets, with AsymFormer demonstrating competitive results with 52.0\% mIoU on NYUv2 and 49.1\% mIoU on SUNRGBD. Notably, AsymFormer achieves an inference speed of 65 FPS and after implementing mixed precision quantization, it attains an impressive inference speed of 79 FPS on RTX3090. This significantly outperforms existing multi-modal methods, thereby demonstrating that AsymFormer can strike a balance between high accuracy and efficiency for RGB-D semantic segmentation.
翻訳日:2023-09-26 15:49:39 公開日:2023-09-25
# FeCAM: 連続学習におけるクラス分布の不均一性の爆発

FeCAM: Exploiting the Heterogeneity of Class Distributions in Exemplar-Free Continual Learning ( http://arxiv.org/abs/2309.14062v1 )

ライセンス: Link先を確認
Dipam Goswami, Yuyang Liu, Bart{\l}omiej Twardowski, Joost van de Weijer(参考訳) exemplar-free class-incremental learning (cil)は、以前のタスクからのデータのリハーサルを禁止し、破滅的な忘れに苦しむため、いくつかの課題を提起する。 最初のタスクの後に特徴抽出器を凍結することで分類器を段階的に学習する最近のアプローチが注目を集めている。 本稿では,凍結した特徴抽出器を用いて新しいクラスプロトタイプを生成するCILのプロトタイプネットワークを探索し,プロトタイプとのユークリッド距離に基づいて特徴を分類する。 授業の特徴分布の分析において、ユークリッド指標に基づく分類が共同で訓練された特徴に対して成功することを示す。 しかし、非定常データから学習すると、ユークリッド計量は最適以下であり、特徴分布は不均一である。 この課題に対処するために、CILに対する異方性マハラノビス距離を再検討する。 さらに,特徴共分散関係のモデル化は,正規分布から特徴をサンプリングし線形分類器を訓練する以前の試みよりも優れていることを示す。 既存の方法とは異なり、当社のアプローチでは多点および少数ショットのcil設定とドメインインクリメンタル設定の両方に一般化しています。 興味深いことに、backboneネットワークを更新せずに、いくつかの標準連続学習ベンチマークで最先端の結果を得る。 コードはhttps://github.com/dipamgoswami/FeCAMで入手できる。

Exemplar-free class-incremental learning (CIL) poses several challenges since it prohibits the rehearsal of data from previous tasks and thus suffers from catastrophic forgetting. Recent approaches to incrementally learning the classifier by freezing the feature extractor after the first task have gained much attention. In this paper, we explore prototypical networks for CIL, which generate new class prototypes using the frozen feature extractor and classify the features based on the Euclidean distance to the prototypes. In an analysis of the feature distributions of classes, we show that classification based on Euclidean metrics is successful for jointly trained features. However, when learning from non-stationary data, we observe that the Euclidean metric is suboptimal and that feature distributions are heterogeneous. To address this challenge, we revisit the anisotropic Mahalanobis distance for CIL. In addition, we empirically show that modeling the feature covariance relations is better than previous attempts at sampling features from normal distributions and training a linear classifier. Unlike existing methods, our approach generalizes to both many- and few-shot CIL settings, as well as to domain-incremental settings. Interestingly, without updating the backbone network, our method obtains state-of-the-art results on several standard continual learning benchmarks. Code is available at https://github.com/dipamgoswami/FeCAM.
翻訳日:2023-09-26 15:49:02 公開日:2023-09-25
# 知識グラフ推論による弱教師付きセマンティックセグメンテーション

Weakly Supervised Semantic Segmentation by Knowledge Graph Inference ( http://arxiv.org/abs/2309.14057v1 )

ライセンス: Link先を確認
Jia Zhang, Bo Peng, Xi Wu(参考訳) 現在、畳み込みニューラルネットワーク(CNN)に基づくWSSS(Weakly Supervised Semantic Segmentation)における既存の取り組みは、同様に重要な下流セグメンテーションネットワークに限定して、マルチラベル分類ネットワークステージの強化に重点を置いている。 さらに、CNNベースのローカルコンボリューションには、広範なカテゴリ間の依存関係をモデル化する能力がない。 そこで本稿では,wsss 強化のためのグラフ推論に基づくアプローチを提案する。 マルチラベル分類とセグメンテーションネットワークの段階を同時に拡張することにより,WSSSの全体的改善を図る。 マルチラベル分類ネットワークセグメントでは、外部知識とgcnを組み合わせることで、クラス間の依存関係をグローバルに推論する。 これによりネットワークは、画像の不十分な領域の特徴を解明し、生成された擬似ラベルの完全性を改善することができる。 セグメント化ネットワークセグメントにおいて,提案するグラフ推論マッピング(GRM)モジュールを用いてテキストデータベースから得られた知識を活用し,画像領域内のクラス表現の文脈的推論を容易にする。 このgrmモジュールは、個々のサンプルに対するセマンティックコヒーレンスを動的に学習しながら、セグメンテーションネットワークの局所畳み込みの高レベル意味論における特徴表現を強化する。 画像レベルの監視のみを用いて、PASCAL VOC 2012およびMS-COCOデータセット上でWSSSの最先端のパフォーマンスを達成した。 マルチラベル分類とセグメンテーションネットワークの段階における広範な実験により,WSSSの進展に対するグラフ推論手法の有効性が示された。

Currently, existing efforts in Weakly Supervised Semantic Segmentation (WSSS) based on Convolutional Neural Networks (CNNs) have predominantly focused on enhancing the multi-label classification network stage, with limited attention given to the equally important downstream segmentation network. Furthermore, CNN-based local convolutions lack the ability to model the extensive inter-category dependencies. Therefore, this paper introduces a graph reasoning-based approach to enhance WSSS. The aim is to improve WSSS holistically by simultaneously enhancing both the multi-label classification and segmentation network stages. In the multi-label classification network segment, external knowledge is integrated, coupled with GCNs, to globally reason about inter-class dependencies. This encourages the network to uncover features in non-salient regions of images, thereby refining the completeness of generated pseudo-labels. In the segmentation network segment, the proposed Graph Reasoning Mapping (GRM) module is employed to leverage knowledge obtained from textual databases, facilitating contextual reasoning for class representation within image regions. This GRM module enhances feature representation in high-level semantics of the segmentation network's local convolutions, while dynamically learning semantic coherence for individual samples. Using solely image-level supervision, we have achieved state-of-the-art performance in WSSS on the PASCAL VOC 2012 and MS-COCO datasets. Extensive experimentation on both the multi-label classification and segmentation network stages underscores the effectiveness of the proposed graph reasoning approach for advancing WSSS.
翻訳日:2023-09-26 15:48:39 公開日:2023-09-25
# 半抽象値に基づく議論フレームワーク

Semi-Abstract Value-Based Argumentation Framework ( http://arxiv.org/abs/2309.14112v1 )

ライセンス: Link先を確認
Jovan Jeromela(参考訳) phan minh dung (1995) は独創的な論文で抽象的議論フレームワークを提案し、無構造な引数がノードであり、引数間の攻撃がエッジである有向グラフを用いて議論をモデル化した。 その後、このフレームワークの多くの拡張が導入された。 これらの拡張は通常、引数にある種の構造を加える。 この論文では、Trevor Bench-Capon (2002) による値ベースの議論フレームワークと、Esther Anna Corsi と Christian Ferm\"uller (2017) による半抽象的な議論フレームワークの2つの拡張が紹介されている。 前者は、個々の引数を順序付けられた値の集合にリンクするマッピング関数を導入し、客観的および主観的に許容される引数の区別を可能にする。 後者は、個々の議論の主張を命題の定式化と結びつけ、新たに導入された攻撃原理を適用して暗黙的な攻撃を明示し、真理値や通常の意味での解釈に依存しない帰結関係の定義を可能にする。 この論文の貢献は2つある。 まず、新しい半減値に基づく議論フレームワークを導入する。 このフレームワークは、個々の引数に関連する命題式を順序付けられた値の集合にマッピングする。 第二に、複雑な道徳的ジレンマは、これらの形式主義の表現性を示す値ベースの議論フレームワークを用いて定式化される。

In his seminal paper, Phan Minh Dung (1995) proposed abstract argumentation framework, which models argumentation using directed graphs where structureless arguments are the nodes and attacks among the arguments are the edges. In the following years, many extensions of this framework were introduced. These extensions typically add a certain form of structure to the arguments. This thesis showcases two such extensions -- value-based argumentation framework by Trevor Bench-Capon (2002) and semi-abstract argumentation framework by Esther Anna Corsi and Christian Ferm\"uller (2017). The former introduces a mapping function that links individual arguments to a set of ordered values, enabling a distinction between objectively and subjectively acceptable arguments. The latter links claims of individual arguments to propositional formulae and then applies newly-introduced attack principles in order to make implicit attacks explicit and to enable a definition of a consequence relation that relies on neither the truth values nor the interpretations in the usual sense. The contribution of this thesis is two-fold. Firstly, the new semi-abstract value-based argumentation framework is introduced. This framework maps propositional formulae associated with individual arguments to a set of ordered values. Secondly, a complex moral dilemma is formulated using the original and the value-based argumentation frameworks showcasing the expressivity of these formalisms.
翻訳日:2023-09-26 15:42:48 公開日:2023-09-25
# 非エルミートモット皮膚効果

Non-Hermitian Mott Skin Effect ( http://arxiv.org/abs/2309.14111v1 )

ライセンス: Link先を確認
Tsuneya Yoshida, Song-Bo Zhang, Titus Neupert, and Norio Kawakami(参考訳) 非エルミート量子多体系において、非エルミートモット皮膚効果を示す新しいタイプの皮膚効果を提案する。 この現象は強い相関と非エルミート点ギャップ位相との相互作用によって引き起こされる。 モット皮膚効果は、スピン度の自由度(すなわち電荷分布は境界条件に敏感ではない)でのみ境界条件に対する極端な感度を誘導し、非相互作用系における通常の非エルミート皮膚効果とは対照的である。 具体的には, ボソニック非エルミタン鎖は, 有効ハミルトニアンをよく調べることで, 強い相関関係にあるモットの皮膚効果を示す。 モット皮膚効果の出現はボゾン鎖の数値対角化によっても支持される。 通常の非エルミート皮膚効果とモット皮膚効果の差は、物理量の時間進化にも反映され、電荷分布が空間的に均一でありながら、時間進化のスピン蓄積が観察される。

We propose a novel type of skin effects in non-Hermitian quantum many-body systems which we dub a non-Hermitian Mott skin effect. This phenomenon is induced by the interplay between strong correlations and the non-Hermitian point-gap topology. The Mott skin effect induces extreme sensitivity to the boundary conditions only in the spin degree of freedom (i.e., the charge distribution is not sensitive to boundary conditions), which is in sharp contrast to the ordinary non-Hermitian skin effect in non-interacting systems. Concretely, we elucidate that a bosonic non-Hermitian chain exhibits the Mott skin effect in the strongly correlated regime by closely examining an effective Hamiltonian. The emergence of the Mott skin effect is also supported by numerical diagonalization of the bosonic chain. The difference between the ordinary non-Hermitian skin effect and the Mott skin effect is also reflected in the time-evolution of physical quantities; under the time-evolution spin accumulation is observed while the charge distribution remains spatially uniform.
翻訳日:2023-09-26 15:42:12 公開日:2023-09-25
# Wav2vecによる発声障害の検出と重症度分類

Wav2vec-based Detection and Severity Level Classification of Dysarthria from Speech ( http://arxiv.org/abs/2309.14107v1 )

ライセンス: Link先を確認
Farhad Javanmardi, Saska Tirronen, Manila Kodali, Sudarsana Reddy Kadiri, Paavo Alku(参考訳) 音響信号からのジステリアの自動検出と重症度レベルの分類は、医療診断のツールとして使用できる。 本研究では, 変形性関節症音声の重度レベル分類システムを構築するための特徴抽出器として, 事前訓練したwav2vec 2.0モデルについて検討した。 実験は広く使われているUA音声データベースを用いて行われた。 検出実験の結果,Wav2vecモデルの第1層からの埋め込みにより,最高性能の基準線特性(スペクトログラム)と比較して1.23%の精度向上が得られた。 その結果, 最終層からの埋め込みは, 最良基線特性 (メル周波数ケプストラル係数) と比較して, 絶対的に10.62%の精度向上が得られた。

Automatic detection and severity level classification of dysarthria directly from acoustic speech signals can be used as a tool in medical diagnosis. In this work, the pre-trained wav2vec 2.0 model is studied as a feature extractor to build detection and severity level classification systems for dysarthric speech. The experiments were carried out with the popularly used UA-speech database. In the detection experiments, the results revealed that the best performance was obtained using the embeddings from the first layer of the wav2vec model that yielded an absolute improvement of 1.23% in accuracy compared to the best performing baseline feature (spectrogram). In the studied severity level classification task, the results revealed that the embeddings from the final layer gave an absolute improvement of 10.62% in accuracy compared to the best baseline features (mel-frequency cepstral coefficients).
翻訳日:2023-09-26 15:41:26 公開日:2023-09-25
# Affective Game Computing: 調査

Affective Game Computing: A Survey ( http://arxiv.org/abs/2309.14104v1 )

ライセンス: Link先を確認
Georgios N. Yannakakis and David Melhart(参考訳) 本稿では,ゲームに適用された情緒的コンピューティングの原理,方法,ツールの現状について調査する。 我々は、この新興分野、すなわち情緒的ゲームコンピューティングを、感情的ループの4つのコアフェーズのレンズを通してレビューする:ゲームは誘惑に影響を与え、ゲームは感覚に影響を与え、ゲームはゲームに影響を及ぼし、ゲームはゲームに影響を与え、ゲームは適応する。 さらに,感情ゲームループの4段階にわたって用いられる用語,方法,アプローチの分類法を提供し,この分類法内でフィールドを配置する。 我々は,ゲームインターフェース,センサ,アノテーションプロトコル,利用可能なコーパスに関して,利用可能な影響データ収集手法の包括的なレビューを継続する。 この論文は、情緒的ゲームコンピューティングの現在の限界と、この分野で最も有望な将来の研究方向に対する我々のビジョンに関する議論で締めくくられている。

This paper surveys the current state of the art in affective computing principles, methods and tools as applied to games. We review this emerging field, namely affective game computing, through the lens of the four core phases of the affective loop: game affect elicitation, game affect sensing, game affect detection and game affect adaptation. In addition, we provide a taxonomy of terms, methods and approaches used across the four phases of the affective game loop and situate the field within this taxonomy. We continue with a comprehensive review of available affect data collection methods with regards to gaming interfaces, sensors, annotation protocols, and available corpora. The paper concludes with a discussion on the current limitations of affective game computing and our vision for the most promising future research directions in the field.
翻訳日:2023-09-26 15:41:10 公開日:2023-09-25
# 多様な学生に対する環境リテラシーとデータリテラシー教育のためのコンピュータサイエンスフレームワーク

Computer Science Framework to Teach Community-Based Environmental Literacy and Data Literacy to Diverse Students ( http://arxiv.org/abs/2309.14098v1 )

ライセンス: Link先を確認
Clare Baek, Dana Saito-Stehberger, Sharin Jacob, Adam Nam, Mark Warschauer(参考訳) 本研究は,環境リテラシー,データリテラシー,コンピュータサイエンスを組み合わせることで,低学力の学生を教育するための総合カリキュラムを提案する。 この枠組みは、文化的持続的なアプローチを用いて、環境意識、データリテラシー、市民のエンゲージメントを促進する。 この統合カリキュラムには、言語開発、技術スキル、そして学生の多様なニーズに対応するためのコーディングスキルをサポートするリソースが組み込まれている。 本カリキュラムの有効性を評価するため,多言語ラテックス学生を対象とした5年生特別教育教室でパイロット実験を行った。 パイロット期間中、学生はブロックベースのコーディング言語であるscratchを使って、ローカルに収集したデータを展示するインタラクティブなプロジェクトを作成し、環境の課題を伝え、コミュニティリーダーに解決策を提案する。 このアプローチにより、学生はより深いレベルの環境リテラシーと関わり、デジタル学習環境における創造性とコミュニティ知識を活用することができる。 さらに、環境の持続可能性に影響を与える政治的・社会文化的要因を批判的に分析する能力を学生に提供する。 学生は教室内で知識を得ただけでなく、その学習をコミュニティ内の実際の環境問題に応用した。 パイロット研究の結果は、この統合アプローチの有効性を裏付けている。

This study introduces an integrated curriculum designed to empower underrepresented students by combining environmental literacy, data literacy, and computer science. The framework promotes environmental awareness, data literacy, and civic engagement using a culturally sustaining approach. This integrated curriculum is embedded with resources to support language development, technology skills, and coding skills to accommodate the diverse needs of students. To evaluate the effectiveness of this curriculum, we conducted a pilot study in a 5th-grade special education classroom with multilingual Latinx students. During the pilot, students utilized Scratch, a block-based coding language, to create interactive projects that showcased locally collected data, which they used to communicate environmental challenges and propose solutions to community leaders. This approach allowed students to engage with environmental literacy at a deeper level, harnessing their creativity and community knowledge in the digital learning environment. Moreover, this curriculum equipped students with the skills to critically analyze political and socio-cultural factors impacting environmental sustainability. Students not only gained knowledge within the classroom but also applied their learning to address real environmental issues within their community. The results of the pilot study underscore the efficacy of this integrated approach.
翻訳日:2023-09-26 15:40:48 公開日:2023-09-25
# カリキュラム強化学習による球形振り子追跡制御

Tracking Control for a Spherical Pendulum via Curriculum Reinforcement Learning ( http://arxiv.org/abs/2309.14096v1 )

ライセンス: Link先を確認
Pascal Klink, Florian Wolf, Kai Ploeger, Jan Peters and Joni Pajarinen(参考訳) 強化学習(RL)は、データから純粋に非自明なロボット制御法を学習することを可能にする。 しかし、RLの多くの成功例は、手作りのカリキュラムのようなアドホックな正規化に頼って学習性能を正規化している。 本稿では,ロボットアームの球形振り子の追従制御を学習するために,超並列シミュレーションにおいて,rlを用いた曲率の自動構築を行う最近のアルゴリズムを組み合わせる。 非ユークリッド的タスク構造をよりよく尊重する改良された最適化手法により、この手法はトラジェクトリのキュリキュラを確実に生成することができ、この形式の構造化学習を活用できないRLベースラインに比べて高速で堅牢な学習が可能となる。 学習方針は実システム上での最適制御ベースラインの性能と一致し、非線形トラッキングタスクの状態推定と制御を共同で学習するカリキュラムRLの可能性を示す。

Reinforcement Learning (RL) allows learning non-trivial robot control laws purely from data. However, many successful applications of RL have relied on ad-hoc regularizations, such as hand-crafted curricula, to regularize the learning performance. In this paper, we pair a recent algorithm for automatically building curricula with RL on massively parallelized simulations to learn a tracking controller for a spherical pendulum on a robotic arm via RL. Through an improved optimization scheme that better respects the non-Euclidean task structure, we allow the method to reliably generate curricula of trajectories to be tracked, resulting in faster and more robust learning compared to an RL baseline that does not exploit this form of structured learning. The learned policy matches the performance of an optimal control baseline on the real system, demonstrating the potential of curriculum RL to jointly learn state estimation and control for non-linear tracking tasks.
翻訳日:2023-09-26 15:40:25 公開日:2023-09-25
# カリキュラム強化学習のための最適輸送の利点について

On the Benefit of Optimal Transport for Curriculum Reinforcement Learning ( http://arxiv.org/abs/2309.14091v1 )

ライセンス: Link先を確認
Pascal Klink, Carlo D'Eramo, Jan Peters, Joni Pajarinen(参考訳) CRL(Curriculum reinforcement learning)は、簡単なタスクから始まり、難易度を高めて、一連の学習タスクを生成することで、複雑なタスクの解決を可能にする。 rlのカリキュラムの可能性は様々な作品に明らかに示されているが、与えられた学習環境に対してどのようにそれを生成するかは明確ではなく、このタスクを自動化するための様々な方法を生み出した。 本研究では,これまでCRLに対する有効なアプローチであったタスク分布の補間として,キュリキュラのフレーミングに着目した。 既存の方法の重要な課題を識別し、タスク分散間の最適輸送問題としてカリキュラムの作成を考察する。 ベンチマークの結果,既存のCRL法により,カリキュラム生成の手法が向上し,異なる特徴を持つタスクにおいて高い性能が得られることが示された。

Curriculum reinforcement learning (CRL) allows solving complex tasks by generating a tailored sequence of learning tasks, starting from easy ones and subsequently increasing their difficulty. Although the potential of curricula in RL has been clearly shown in various works, it is less clear how to generate them for a given learning environment, resulting in various methods aiming to automate this task. In this work, we focus on framing curricula as interpolations between task distributions, which has previously been shown to be a viable approach to CRL. Identifying key issues of existing methods, we frame the generation of a curriculum as a constrained optimal transport problem between task distributions. Benchmarks show that this way of curriculum generation can improve upon existing CRL methods, yielding high performance in various tasks with different characteristics.
翻訳日:2023-09-26 15:40:08 公開日:2023-09-25
# 畳み込みオートエンコーダに基づくマルチモーダルワンクラス分類

Convolutional autoencoder-based multimodal one-class classification ( http://arxiv.org/abs/2309.14090v1 )

ライセンス: Link先を確認
Firas Laakom, Fahad Sohrab, Jenni Raitoharju, Alexandros Iosifidis, Moncef Gabbouj(参考訳) 1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。 本稿では,マルチモーダルデータに適した深層学習型一クラス分類手法を提案する。これは2つの畳み込みオートエンコーダを併用して,潜在空間におけるデータ表現を可能な限りコンパクトにしつつ,正の入力データを再構築する。 推論中は、原点への入力の潜在表現の距離を異常スコアとして用いることができる。 マルチモーダル・マクロ無脊椎動物画像分類データセットを用いた実験結果から, 提案手法は単一モーダル法に比べ, より良い結果が得られることが示された。 さらに,異なる入力画像サイズの影響について検討し,最近提案された特徴量正規化器が提案手法の性能に与える影響について検討した。 このようなレギュラライザがパフォーマンスを向上させることを示す。

One-class classification refers to approaches of learning using data from a single class only. In this paper, we propose a deep learning one-class classification method suitable for multimodal data, which relies on two convolutional autoencoders jointly trained to reconstruct the positive input data while obtaining the data representations in the latent space as compact as possible. During inference, the distance of the latent representation of an input to the origin can be used as an anomaly score. Experimental results using a multimodal macroinvertebrate image classification dataset show that the proposed multimodal method yields better results as compared to the unimodal approach. Furthermore, study the effect of different input image sizes, and we investigate how recently proposed feature diversity regularizers affect the performance of our approach. We show that such regularizers improve performance.
翻訳日:2023-09-26 15:39:53 公開日:2023-09-25
# BiSinger:バイリンガル歌声合成

BiSinger: Bilingual Singing Voice Synthesis ( http://arxiv.org/abs/2309.14089v1 )

ライセンス: Link先を確認
Huali Zhou, Yueqian Lin, Yao Shi, Peng Sun, Ming Li(参考訳) 歌声合成(SVS)はテキスト音声合成(TTS)技術で大きな進歩を遂げているが、多言語歌唱音声モデリングはいまだに研究されていない。 英語と中国語のマンダリンのためのバイリンガルSVSシステムであるBiSingerについて述べる。 現在のシステムは言語ごとに別々のモデルを必要としており、中国語と英語の両方を正確に表現することはできない。 このギャップに対処するため、中国語と英語の歌声の共有表現を設計し、CMU辞書とマッピング規則を用いて実現した。 単言語歌唱データセットと確立された歌唱音声変換手法を融合してバイリンガル音声を生成するとともに,バイリンガル音声データの利用の可能性を探る。 実験により、我々の言語非依存の表現と関連するデータセットの取り込みにより、中国語の歌の演奏を維持しながら、英語とコードスウィッチのSVSの性能を向上した単一モデルが実現可能であることを確認した。 オーディオサンプルはhttps://bisinger-svs.github.ioで入手できる。

Although Singing Voice Synthesis (SVS) has made great strides with Text-to-Speech (TTS) techniques, multilingual singing voice modeling remains relatively unexplored. This paper presents BiSinger, a bilingual SVS system for English and Chinese Mandarin. Current systems require separate models per language and cannot accurately represent both Chinese and English, hindering code-switch SVS. To address this gap, we design a shared representation between Chinese and English singing voices, achieved by using the CMU dictionary with mapping rules. We fuse monolingual singing datasets with established singing voice conversion techniques to generate bilingual singing voices while also exploring the potential use of bilingual speech data. Experiments affirm that our language-independent representation and incorporation of related datasets enable a single model with enhanced performance in English and code-switch SVS while maintaining Chinese song performance. Audio samples are available at https://bisinger-svs.github.io.
翻訳日:2023-09-26 15:39:38 公開日:2023-09-25
# REPA: トレーニングなしのクライアントクラスタリングと非IID環境でのフェデレーション学習改善のためのデータラベル

REPA: Client Clustering without Training and Data Labels for Improved Federated Learning in Non-IID Settings ( http://arxiv.org/abs/2309.14088v1 )

ライセンス: Link先を確認
Boris Radovi\v{c}, Veljko Pejovi\'c(参考訳) 比較的均質なデータ分布を示すグループにクライアントをクラスタリングすることは、非独立かつ同一分散(非iid)データ設定における連合学習(fl)のパフォーマンスを改善する主要な方法の1つである。 しかし、現在の最先端のアプローチの適用性は、ローカルモデルパラメータの進化などの情報に基づいてクラスタクライアントにアプローチしているため、実際のオンクライアントトレーニングによってのみ取得可能である。 一方で、トレーニングに必要な処理能力を持たず、単にトレーニングに参加せずにモデルを使いたくなるため、自分自身でトレーニングを行うことができない顧客には、flモデルを利用可能にする必要がある。 さらに、トレーニングを回避した既存の代替アプローチでは、個々のクライアントには、クラスタリングがベースとなる十分な量のラベル付きデータが必要である。 本稿では,トレーニングやラベル付きデータ収集を必要としない非IIDFL設定におけるクライアントクラスタリング手法REPAを提案する。 REPAは、新しい教師付きオートエンコーダベースのメソッドを使用して、クライアントの基盤となるデータ生成プロセスをサーバに公開せず、ローカルなトレーニングを必要とせずにプロファイリングを生成する。 3つの異なるデータセットに対する実験分析により、REPAは最先端のモデル性能を提供すると同時に、クラスタベースのFLの適用性を、以前に発見されたユースケースにまで拡張することを示した。

Clustering clients into groups that exhibit relatively homogeneous data distributions represents one of the major means of improving the performance of federated learning (FL) in non-independent and identically distributed (non-IID) data settings. Yet, the applicability of current state-of-the-art approaches remains limited as these approaches cluster clients based on information, such as the evolution of local model parameters, that is only obtainable through actual on-client training. On the other hand, there is a need to make FL models available to clients who are not able to perform the training themselves, as they do not have the processing capabilities required for training, or simply want to use the model without participating in the training. Furthermore, the existing alternative approaches that avert the training still require that individual clients have a sufficient amount of labeled data upon which the clustering is based, essentially assuming that each client is a data annotator. In this paper, we present REPA, an approach to client clustering in non-IID FL settings that requires neither training nor labeled data collection. REPA uses a novel supervised autoencoder-based method to create embeddings that profile a client's underlying data-generating processes without exposing the data to the server and without requiring local training. Our experimental analysis over three different datasets demonstrates that REPA delivers state-of-the-art model performance while expanding the applicability of cluster-based FL to previously uncovered use cases.
翻訳日:2023-09-26 15:39:21 公開日:2023-09-25
# IEBins: 単眼深度推定のための反復弾性ビン

IEBins: Iterative Elastic Bins for Monocular Depth Estimation ( http://arxiv.org/abs/2309.14137v1 )

ライセンス: Link先を確認
Shuwei Shao, Zhongcai Pei, Xingming Wu, Zhong Liu, Weihai Chen, Zhengguo Li(参考訳) 単眼深度推定(MDE)は、幾何学的コンピュータビジョンの基本的なトピックであり、多くの下流アプリケーションのためのコア技術である。 近年,MDEを確率分布とビン中心の線形結合を用いて深度を予測する分類回帰問題として再構成する手法がいくつかある。 本稿では,分類回帰に基づくMDEのためのイテレーティブ弾性ビン (IEBins) の概念を提案する。 提案するiebinsは,複数のステージを含む探索範囲を段階的に最適化し,各ステージが前段のターゲットビンで細粒度探索を行うことにより,高品質な深さ探索を目標としている。 反復過程における誤差の蓄積を緩和するため,新しい弾性目標ビンを用いて元の目標ビンを置き換え,その幅は深さの不確実性に基づいて弾性的に調整する。 さらに,GRUアーキテクチャの利点を生かした時間的コンテキストモデリング機能を備えた,特徴抽出器と反復最適化器からなる専用フレームワークを開発する。 KITTI、NYU-Depth-v2、SUN RGB-Dデータセットの大規模な実験により、提案手法が最先端の競合より優れていることが示された。 ソースコードはhttps://github.com/ShuweiShao/IEBinsで公開されている。

Monocular depth estimation (MDE) is a fundamental topic of geometric computer vision and a core technique for many downstream applications. Recently, several methods reframe the MDE as a classification-regression problem where a linear combination of probabilistic distribution and bin centers is used to predict depth. In this paper, we propose a novel concept of iterative elastic bins (IEBins) for the classification-regression-based MDE. The proposed IEBins aims to search for high-quality depth by progressively optimizing the search range, which involves multiple stages and each stage performs a finer-grained depth search in the target bin on top of its previous stage. To alleviate the possible error accumulation during the iterative process, we utilize a novel elastic target bin to replace the original target bin, the width of which is adjusted elastically based on the depth uncertainty. Furthermore, we develop a dedicated framework composed of a feature extractor and an iterative optimizer that has powerful temporal context modeling capabilities benefiting from the GRU-based architecture. Extensive experiments on the KITTI, NYU-Depth-v2 and SUN RGB-D datasets demonstrate that the proposed method surpasses prior state-of-the-art competitors. The source code is publicly available at https://github.com/ShuweiShao/IEBins.
翻訳日:2023-09-26 15:31:05 公開日:2023-09-25
# 深部視覚トランスフォーマー拡大のためのマスク画像残差学習

Masked Image Residual Learning for Scaling Deeper Vision Transformers ( http://arxiv.org/abs/2309.14136v1 )

ライセンス: Link先を確認
Guoxi Huang, Hongtao Fu, Adrian G. Bors(参考訳) より深度の高いビジョントランスフォーマー(ViT)は、より訓練が難しい。 プリトレーニングにマスク画像モデリング(mim)を使用する場合,vitの深層層では劣化問題が発生する。 より深い ViT のトレーニングを容易にするために,我々は,自己教師型学習フレームワークである \textbf{M}asked \textbf{I}mage \textbf{R}esidual \textbf{L}earning (\textbf{MIRL})を導入する。 マスク画像の残像を復元するための学習として,ViTの深い層に対する事前学習目標を再構築する。 我々は,深部 ViT を MIRL を用いて効果的に最適化し,深部 ViT の精度向上を図っている。 ViT-Base や ViT-Large と同じ計算量で 4.5{$\times$} と 2{$\times$} のより深い ViTs をインスタンス化し、ViT-S-54 と ViT-B-48 と呼ぶ。 より深いViT-S-54は、ViT-Largeより3$\times$}安く、ViT-Largeと同等の性能を実現している。 vit-b-48はimagenetで86.2\%top-1精度を達成する。 一方、MIRLで事前訓練された深いViTは、オブジェクト検出やセマンティックセグメンテーションといった下流タスクに優れた一般化能力を示す。 一方、MIRLは事前学習効率が高い。 事前トレーニング時間が少ないため、MIRLは他のアプローチと比較して競争性能が向上する。

Deeper Vision Transformers (ViTs) are more challenging to train. We expose a degradation problem in deeper layers of ViT when using masked image modeling (MIM) for pre-training. To ease the training of deeper ViTs, we introduce a self-supervised learning framework called \textbf{M}asked \textbf{I}mage \textbf{R}esidual \textbf{L}earning (\textbf{MIRL}), which significantly alleviates the degradation problem, making scaling ViT along depth a promising direction for performance upgrade. We reformulate the pre-training objective for deeper layers of ViT as learning to recover the residual of the masked image. We provide extensive empirical evidence showing that deeper ViTs can be effectively optimized using MIRL and easily gain accuracy from increased depth. With the same level of computational complexity as ViT-Base and ViT-Large, we instantiate 4.5{$\times$} and 2{$\times$} deeper ViTs, dubbed ViT-S-54 and ViT-B-48. The deeper ViT-S-54, costing 3{$\times$} less than ViT-Large, achieves performance on par with ViT-Large. ViT-B-48 achieves 86.2\% top-1 accuracy on ImageNet. On one hand, deeper ViTs pre-trained with MIRL exhibit excellent generalization capabilities on downstream tasks, such as object detection and semantic segmentation. On the other hand, MIRL demonstrates high pre-training efficiency. With less pre-training time, MIRL yields competitive performance compared to other approaches.
翻訳日:2023-09-26 15:30:42 公開日:2023-09-25
# 車両ネットワークにおける侵入検知の一級分類

One-Class Classification for Intrusion Detection on Vehicular Networks ( http://arxiv.org/abs/2309.14134v1 )

ライセンス: Link先を確認
Jake Guidry, Fahad Sohrab, Raju Gottumukkala, Satya Katragadda, Moncef Gabbouj(参考訳) 車両網内の制御エリアネットワークバスには、現代のサイバーセキュリティの脅威から身を守るために必要なツールが備わっていない。 機械学習を使用してこれらの攻撃を検出および報告する作業が行われているが、一般的な方法は未知の攻撃に対して堅牢ではない。 これらの方法は、通常、攻撃データの十分な表現があることに依存しているが、それは、その分布を適切に表現するには十分なデータが存在しないか、分布自体が十分に表現できるほど多様すぎるため、利用できない可能性がある。 1つのクラス分類法を用いることで、異常なインスタンスを検出するためにモデルをトレーニングするために通常のデータのみを必要とするため、この問題を軽減できる。 これらの手法の有効性について研究が行われており、特にワンクラスサポートベクトルマシンとサポートベクトルデータ記述が注目されているが、これらの手法の多くの新しい拡張が提案されており、車載ネットワークでのインジェクション攻撃についてはまだテストされていない。 本稿では,制御エリアネットワークバスにおけるインジェクション攻撃を検出するための,最先端の1クラス分類手法の性能について検討する。 通常の運転中および攻撃中の2台の異なる車両からの制御エリアネットワークバスへの攻撃に対するこれらの手法の有効性を検討した。 サブスペースサポートベクターデータ記述手法は,gmeanの約85%で他のすべてのテスト手法よりも優れていた。

Controller Area Network bus systems within vehicular networks are not equipped with the tools necessary to ward off and protect themselves from modern cyber-security threats. Work has been done on using machine learning methods to detect and report these attacks, but common methods are not robust towards unknown attacks. These methods usually rely on there being a sufficient representation of attack data, which may not be available due to there either not being enough data present to adequately represent its distribution or the distribution itself is too diverse in nature for there to be a sufficient representation of it. With the use of one-class classification methods, this issue can be mitigated as only normal data is required to train a model for the detection of anomalous instances. Research has been done on the efficacy of these methods, most notably One-Class Support Vector Machine and Support Vector Data Description, but many new extensions of these works have been proposed and have yet to be tested for injection attacks in vehicular networks. In this paper, we investigate the performance of various state-of-the-art one-class classification methods for detecting injection attacks on Controller Area Network bus traffic. We investigate the effectiveness of these techniques on attacks launched on Controller Area Network buses from two different vehicles during normal operation and while being attacked. We observe that the Subspace Support Vector Data Description method outperformed all other tested methods with a Gmean of about 85%.
翻訳日:2023-09-26 15:30:05 公開日:2023-09-25
# ニューラルトランスデューサにおける内部言語モデルと系列識別訓練の関係について

On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers ( http://arxiv.org/abs/2309.14130v1 )

ライセンス: Link先を確認
Zijian Yang, Wei Zhou, Ralf Schl\"uter, Hermann Ney(参考訳) 内部言語モデル(ILM)サブトラクションは、音声認識のための外部言語モデル(LM)融合を用いたRNN-Transducerの性能向上に広く応用されている。 本研究では, シーケンス判別訓練が, 理論的および経験的観点からのirm減算と強い相関を持つことを示す。 理論的には、最大相互情報(MMI)トレーニングのグローバルな最適化は、ILM減算と類似した公式を共有する。 ILMサブトラクションとシーケンス識別訓練は,MMIおよび最小ベイズリスク(MBR)基準,およびフルコンテキストおよび制限コンテキストにおけるニューラルトランスデューサとLMの両方を含む,幅広い実験で同様の性能を達成できることを実証的に示す。 ILMサブトラクションの利点は、シーケンス判別訓練後にさらに小さくなる。 また, シーケンス判別訓練が, 一般的なゼロエンコーダilm推定に最小限の影響しか及ぼさないが, エンコーダと予測+ジョイントネットワークの両方に, ilmとブランク抑制を含む後方確率再構成のための共同効果があることを示した。

Internal language model (ILM) subtraction has been widely applied to improve the performance of the RNN-Transducer with external language model (LM) fusion for speech recognition. In this work, we show that sequence discriminative training has a strong correlation with ILM subtraction from both theoretical and empirical points of view. Theoretically, we derive that the global optimum of maximum mutual information (MMI) training shares a similar formula as ILM subtraction. Empirically, we show that ILM subtraction and sequence discriminative training achieve similar performance across a wide range of experiments on Librispeech, including both MMI and minimum Bayes risk (MBR) criteria, as well as neural transducers and LMs of both full and limited context. The benefit of ILM subtraction also becomes much smaller after sequence discriminative training. We also provide an in-depth study to show that sequence discriminative training has a minimal effect on the commonly used zero-encoder ILM estimation, but a joint effect on both encoder and prediction + joint network for posterior probability reshaping including both ILM and blank suppression.
翻訳日:2023-09-26 15:29:42 公開日:2023-09-25
# 機械学習を用いた電気自動車の運転行動誘導型バッテリー健康モニタリング

Driving behavior-guided battery health monitoring for electric vehicles using machine learning ( http://arxiv.org/abs/2309.14125v1 )

ライセンス: Link先を確認
Nanhua Jiang, Jiawei Zhang, Weiran Jiang, Yao Ren, Jing Lin, Edwin Khoo, Ziyou Song(参考訳) バッテリーの健康状態(SOH)の正確な推定は、電気自動車(EV)の安全かつ信頼性の高い運転を保証するために重要である。 特徴に基づく機械学習手法は、バッテリーの状態を迅速かつ正確に監視する大きな可能性を秘めている。 しかし、様々な健康指標(HIs)を同時に使用すると、特徴冗長性による推定性能が低下する可能性がある。 さらに、現実の運転行動を無視して推定結果が不正確になる可能性がある。 これらの課題に対処するために,実環境の運転条件下での機能の獲得確率を評価することで,信頼性の高いバッテリヘルスモニタリングを実現する機能ベースの機械学習パイプラインを提案する。 まず, 各種HIを機構関連解釈で要約, 解析し, これらの特徴が電池劣化モードにどのように関係しているかを洞察し, 考察した。 さらに,3つのパブリックバッテリー劣化データセットにおける推定精度と相関解析に基づいて,全ての特徴を慎重に評価,スクリーニングした。 最後に,シナリオに基づく特徴融合と獲得確率に基づく実用性評価手法は,運転行動を考慮した特徴抽出のための有用なツールである。 この研究は、機能ベースのバッテリー健康モニタリングアルゴリズムの開発において、HIの性能と実用性のバランスをとることの重要性を強調している。

An accurate estimation of the state of health (SOH) of batteries is critical to ensuring the safe and reliable operation of electric vehicles (EVs). Feature-based machine learning methods have exhibited enormous potential for rapidly and precisely monitoring battery health status. However, simultaneously using various health indicators (HIs) may weaken estimation performance due to feature redundancy. Furthermore, ignoring real-world driving behaviors can lead to inaccurate estimation results as some features are rarely accessible in practical scenarios. To address these issues, we proposed a feature-based machine learning pipeline for reliable battery health monitoring, enabled by evaluating the acquisition probability of features under real-world driving conditions. We first summarized and analyzed various individual HIs with mechanism-related interpretations, which provide insightful guidance on how these features relate to battery degradation modes. Moreover, all features were carefully evaluated and screened based on estimation accuracy and correlation analysis on three public battery degradation datasets. Finally, the scenario-based feature fusion and acquisition probability-based practicality evaluation method construct a useful tool for feature extraction with consideration of driving behaviors. This work highlights the importance of balancing the performance and practicality of HIs during the development of feature-based battery health monitoring algorithms.
翻訳日:2023-09-26 15:29:21 公開日:2023-09-25
# surrogateprompt: 置換によるテキスト対画像モデルの安全フィルタをバイパスする

SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via Substitution ( http://arxiv.org/abs/2309.14122v1 )

ライセンス: Link先を確認
Zhongjie Ba, Jieming Zhong, Jiachen Lei, Peng Cheng, Qinglong Wang, Zhan Qin, Zhibo Wang, Kui Ren(参考訳) dall-e 2やmidjourneyのような高度なテキスト対画像モデルは、高度に現実的な画像を生成する能力を有しており、安全でないコンテンツの潜在的な増殖に関する重大な懸念を提起している。 これには、大人、暴力的、あるいは政治的人物のイメージが含まれる。 安全でない作業(NSFW)コンテンツの生成を制限するためにこれらのモデルに厳密な安全機構が実装されているにもかかわらず、我々はMidjourneyに対する最初の迅速な攻撃を考案し、その結果、豊富なフォトリアリスティックなNSFW画像を生成することに成功した。 我々は,このような早期攻撃の基本原則を明らかにし,クローズドソース・セーフティ対策を回避しようとする疑似プロンプト内で,戦略的にリスクの高い部分を構成することを示唆する。 我々の新しいフレームワークであるSurrogatePromptは、大規模言語モデル、画像とテキスト、画像と画像のモジュールを利用して、攻撃プロンプトを大規模に自動生成する。 評価の結果、midjourneyの独自安全フィルターを回避して88%の成功率を明らかにし、暴力的なシナリオで政治的人物を描いた偽造画像の生成につながった。 主観的評価も客観的評価も、攻撃によって生成された画像が相当な安全性の危険をもたらすことを検証します。

Advanced text-to-image models such as DALL-E 2 and Midjourney possess the capacity to generate highly realistic images, raising significant concerns regarding the potential proliferation of unsafe content. This includes adult, violent, or deceptive imagery of political figures. Despite claims of rigorous safety mechanisms implemented in these models to restrict the generation of not-safe-for-work (NSFW) content, we successfully devise and exhibit the first prompt attacks on Midjourney, resulting in the production of abundant photorealistic NSFW images. We reveal the fundamental principles of such prompt attacks and suggest strategically substituting high-risk sections within a suspect prompt to evade closed-source safety measures. Our novel framework, SurrogatePrompt, systematically generates attack prompts, utilizing large language models, image-to-text, and image-to-image modules to automate attack prompt creation at scale. Evaluation results disclose an 88% success rate in bypassing Midjourney's proprietary safety filter with our attack prompts, leading to the generation of counterfeit images depicting political figures in violent scenarios. Both subjective and objective assessments validate that the images generated from our attack prompts present considerable safety hazards.
翻訳日:2023-09-26 15:29:01 公開日:2023-09-25
# multimodn-マルチモーダル、マルチタスク、解釈可能なモジュラーネットワーク

MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks ( http://arxiv.org/abs/2309.14118v1 )

ライセンス: Link先を確認
Vinitra Swamy, Malika Satayeva, Jibril Frej, Thierry Bossy, Thijs Vogels, Martin Jaggi, Tanja K\"aser, Mary-Anne Hartley(参考訳) ひとつのモデルで複数の実世界のタスクを予測するには、特に多様な機能領域が必要となることが多い。 マルチモーダル(MM)モデルは、複数のデータ型の相乗的予測ポテンシャルを抽出し、大きく異なるサイズ(画像、テキスト、音声など)の入力に整合した意味を持つ共有特徴空間を作成することを目的としている。 現在のほとんどのMMアーキテクチャはこれらの表現を並列に融合させ、解釈可能性を制限するだけでなく、モダリティの可用性への依存も生み出す。 マルチモーダル・モジュラーネットワークであるMultiModNは,任意の数,組み合わせ,あるいはモダリティの列で潜在表現を融合し,予測タスクの任意の数や組み合わせに対して,より詳細なリアルタイムな予測フィードバックを提供する。 MultiModNのコンポーザブルパイプラインは解釈可能な設計であり、本質的にはマルチタスクであり、偏りの欠如という根本的な問題に対して堅牢である。 実世界の10のタスクを対象としたベンチマークMMデータセット(医療診断,学術的性能,気象予測)の4つの実験を行い,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示した。 MNAR(Not-at-random)の欠如の難解なバイアスをシミュレートすることにより、MNARとは対照的に、並列核融合ベースラインは誤ってMNARを学習し、推論時に異なるMNARパターンに直面すると破滅的な失敗を被ることを示した。 我々の知る限りでは、これはMNARに耐性を持つMMモデリングに対する最初のアプローチである。 結論として、MultiModNはパフォーマンスを損なうことなく、詳細な洞察、堅牢性、柔軟性を提供します。

Predicting multiple real-world tasks in a single model often requires a particularly diverse feature space. Multimodal (MM) models aim to extract the synergistic predictive potential of multiple data types to create a shared feature space with aligned semantic meaning across inputs of drastically varying sizes (i.e. images, text, sound). Most current MM architectures fuse these representations in parallel, which not only limits their interpretability but also creates a dependency on modality availability. We present MultiModN, a multimodal, modular network that fuses latent representations in a sequence of any number, combination, or type of modality while providing granular real-time predictive feedback on any number or combination of predictive tasks. MultiModN's composable pipeline is interpretable-by-design, as well as innately multi-task and robust to the fundamental issue of biased missingness. We perform four experiments on several benchmark MM datasets across 10 real-world tasks (predicting medical diagnoses, academic performance, and weather), and show that MultiModN's sequential MM fusion does not compromise performance compared with a baseline of parallel fusion. By simulating the challenging bias of missing not-at-random (MNAR), this work shows that, contrary to MultiModN, parallel fusion baselines erroneously learn MNAR and suffer catastrophic failure when faced with different patterns of MNAR at inference. To the best of our knowledge, this is the first inherently MNAR-resistant approach to MM modeling. In conclusion, MultiModN provides granular insights, robustness, and flexibility without compromising performance.
翻訳日:2023-09-26 15:28:35 公開日:2023-09-25
# 弱制御セマンティックセグメンテーションにおける微小物体

Small Objects Matters in Weakly-supervised Semantic Segmentation ( http://arxiv.org/abs/2309.14117v1 )

ライセンス: Link先を確認
Cheolhyun Mun, Sanghuk Lee, Youngjung Uh, Junsuk Choe, Hyeran Byun(参考訳) 弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみを訓練用として画素単位で分類する。 この課題の難しさにもかかわらず、研究コミュニティは過去5年間に有望な成果を上げてきた。 しかし、現在のWSSSの文献は、メソッドがオブジェクトの異なるサイズでどのように機能するかという詳細な感覚を見逃している。 そこで本研究では,異なる対象サイズを包括的に評価し,pascal vocを補完するサイズバランス評価集合を収集するための新しい評価指標を提案する。 これら2つのガジェットで、既存のWSSSメソッドが小さなオブジェクトをキャプチャするのに苦労していることを明らかにする。 さらに,適切なトレーニング戦略を組み込んだサイズバランスのクロスエントロピー損失を提案する。 一般的に、既存のWSSSメソッドを改善し、3つの異なるデータセットで10のベースラインで検証する。

Weakly-supervised semantic segmentation (WSSS) performs pixel-wise classification given only image-level labels for training. Despite the difficulty of this task, the research community has achieved promising results over the last five years. Still, current WSSS literature misses the detailed sense of how well the methods perform on different sizes of objects. Thus we propose a novel evaluation metric to provide a comprehensive assessment across different object sizes and collect a size-balanced evaluation set to complement PASCAL VOC. With these two gadgets, we reveal that the existing WSSS methods struggle in capturing small objects. Furthermore, we propose a size-balanced cross-entropy loss coupled with a proper training strategy. It generally improves existing WSSS methods as validated upon ten baselines on three different datasets.
翻訳日:2023-09-26 15:28:01 公開日:2023-09-25
# 2次元幾何学における2つの原子の収束系における放射と角の相関について

On the Radial and Angular Correlations in a Confined System of Two Atoms in Two-Dimensional Geometry ( http://arxiv.org/abs/2309.14116v1 )

ライセンス: Link先を確認
Przemys{\l}aw Ko\'scik(参考訳) 有限範囲ソフトコア相互作用モデルを用いた等方性2次元ハーモニックトラップにおける2つのボゾン原子系の解析を行った。 我々は,このシステムの相関特性を広範囲の制御パラメータ値に対して慎重に検討した。 その結果, 反動の存在下では, 接地状態は, 相互作用範囲に依存しない半径座標と角座標を含む関数の積によってよく表されることがわかった。 その結果、原子間の相関関係は半径と角の相関に分割され、独立してそれらを扱うことができ、それらの挙動に関する貴重な洞察を得ることができる。 その結果,これらの相関はシステムパラメータ値に大きく依存することがわかった。

We analyzed a system of two bosonic atoms in an isotropic two-dimensional harmonic trap with a finite-range soft-core interaction model. We carefully examined the correlation properties of this system across a wide range of control parameter values. Our findings revealed that in the presence of repulsion, the ground state could be well represented by the product of functions involving the radial and angular coordinates, independent of the interaction range. As a result, correlations between atoms divide into radial and angular correlations, which enables us to treat them independently and gain valuable insights into their behaviors. Our results show that these correlations highly depend on system parameter values.
翻訳日:2023-09-26 15:27:47 公開日:2023-09-25
# HyperTrack: 高エネルギー物理学のためのニューラルコンビニティクス

HyperTrack: Neural Combinatorics for High Energy Physics ( http://arxiv.org/abs/2309.14113v1 )

ライセンス: Link先を確認
Mikael Mieskolainen(参考訳) 高エネルギー物理学における組合せ逆問題には、膨大なアルゴリズム上の課題がある。 本稿では,時空非局所学習可能なグラフコンストラクタ,グラフニューラルネットワーク,セットトランスフォーマを用いた,新たなディープラーニング駆動クラスタリングアルゴリズムを提案する。 このモデルは、対照的な学習やメタスーパービジョンを含むグラフノード、エッジ、オブジェクトレベルでの損失関数で訓練される。 このアルゴリズムは荷電粒子追跡、熱量測定、積み上げ識別、ジェット物理などの問題に適用することができる。 本稿では,粒子追跡シミュレーションによる最先端AI手法の有効性を示す。 コードはオンラインで入手できる。

Combinatorial inverse problems in high energy physics span enormous algorithmic challenges. This work presents a new deep learning driven clustering algorithm that utilizes a space-time non-local trainable graph constructor, a graph neural network, and a set transformer. The model is trained with loss functions at the graph node, edge and object level, including contrastive learning and meta-supervision. The algorithm can be applied to problems such as charged particle tracking, calorimetry, pile-up discrimination, jet physics, and beyond. We showcase the effectiveness of this cutting-edge AI approach through particle tracking simulations. The code is available online.
翻訳日:2023-09-26 15:27:37 公開日:2023-09-25
# iotのエンドユーザー開発に向けて:キッチンデバイスの調理レシピのセマンティック解析を事例として

Towards End-User Development for IoT: A Case Study on Semantic Parsing of Cooking Recipes for Programming Kitchen Devices ( http://arxiv.org/abs/2309.14165v1 )

ライセンス: Link先を確認
Filippos Ventirozos, Sarah Clinch and Riza Batista-Navarro(参考訳) エンドユーザがiot(internet of things, モノのインターネット)をプログラムできるように、ユーザが生成したインストラクショナルテキストの意味解析は、未調査領域である。 本研究では,キッチンにおけるIoTデバイスの調理手順から機械的に理解可能なコマンドへの変換を支援することを目的とした,ユニークな注釈付きコーパスを提供する。 これらのコマンドは、"what", "where", "why" および "how" という用語で、キッチンデバイスを含む命令のセマンティクスをキャプチャするタプルである。 このコーパスをベースとして、条件付きランダムフィールド(CRF)とニューラルネットワークモデルという機械学習に基づくシーケンスラベリング手法を開発し、レシピを解析し、興味のあるタプルを抽出した。 その結果,アノテーションに基づく意味的パーサの訓練は可能ではあるが,ほとんどの自然言語命令は不完全であり,形式的意味表現への変換は容易ではないことがわかった。

Semantic parsing of user-generated instructional text, in the way of enabling end-users to program the Internet of Things (IoT), is an underexplored area. In this study, we provide a unique annotated corpus which aims to support the transformation of cooking recipe instructions to machine-understandable commands for IoT devices in the kitchen. Each of these commands is a tuple capturing the semantics of an instruction involving a kitchen device in terms of "What", "Where", "Why" and "How". Based on this corpus, we developed machine learning-based sequence labelling methods, namely conditional random fields (CRF) and a neural network model, in order to parse recipe instructions and extract our tuples of interest from them. Our results show that while it is feasible to train semantic parsers based on our annotations, most natural-language instructions are incomplete, and thus transforming them into formal meaning representation, is not straightforward.
翻訳日:2023-09-26 15:21:43 公開日:2023-09-25
# 画像スーパーレゾリューションのためのデータアップサイクリング知識蒸留

Data Upcycling Knowledge Distillation for Image Super-Resolution ( http://arxiv.org/abs/2309.14162v1 )

ライセンス: Link先を確認
Yun Zhang, Wei Li, Simiao Li, Jie Hu, Hanting Chen, Hailing Wang, Zhijun Tu, Wenjia Wang, Bingyi Jing and Yunhe Wang(参考訳) 知識蒸留(KD)は、高度で計算集約的な教師モデルからコンパクトな学生モデルへの広範な学習表現の伝達を特徴とする、ディープラーニングモデルを圧縮するための挑戦的かつ有望な技術として出現する。 しかし、kdを通してシングルイメージ・スーパーレゾリューション(sisr)のモデルを圧縮しようと努力した研究はごくわずかである。 本稿では,データ活用の効率化,すなわち,事前知識教師による学習モデルを容易にするためのdukd(data upcycling knowledge distillation)について述べる。 このアップサイクリングプロセスは、2つの効率的な画像ズーム操作と、SISRのKDのフィールドにラベル一貫性の正規化を導入し、学生モデルの一般化を大幅に促進する可逆データ拡張によって実現される。 DUKDはその汎用性のため、教師と学生の幅広いアーキテクチャに適用することができる。 様々なベンチマークによる総合的な実験の結果,提案手法は従来の手法よりも優れており,ベースライン法よりも最大0.5dBのPSNRが増加し,67%のパラメータでRCANモデルの性能はRCAN教師モデルと同等に低下した。

Knowledge distillation (KD) emerges as a challenging yet promising technique for compressing deep learning models, characterized by the transmission of extensive learning representations from proficient and computationally intensive teacher models to compact student models. However, only a handful of studies have endeavored to compress the models for single image super-resolution (SISR) through KD, with their effects on student model enhancement remaining marginal. In this paper, we put forth an approach from the perspective of efficient data utilization, namely, the Data Upcycling Knowledge Distillation (DUKD) which facilitates the student model by the prior knowledge teacher provided via upcycled in-domain data derived from their inputs. This upcycling process is realized through two efficient image zooming operations and invertible data augmentations which introduce the label consistency regularization to the field of KD for SISR and substantially boosts student model's generalization. The DUKD, due to its versatility, can be applied across a broad spectrum of teacher-student architectures. Comprehensive experiments across diverse benchmarks demonstrate that our proposed DUKD method significantly outperforms previous art, exemplified by an increase of up to 0.5dB in PSNR over baselines methods, and a 67% parameters reduced RCAN model's performance remaining on par with that of the RCAN teacher model.
翻訳日:2023-09-26 15:21:25 公開日:2023-09-25
# LAPP: Scratchからの圧縮CNNのための層適応プログレッシブプルーニング

LAPP: Layer Adaptive Progressive Pruning for Compressing CNNs from Scratch ( http://arxiv.org/abs/2309.14157v1 )

ライセンス: Link先を確認
Pucheng Zhai, Kailing Guo, Fang Liu, Xiaofen Xing, Xiangmin Xu(参考訳) structured pruningは一般的に使用される畳み込みニューラルネットワーク(cnn)圧縮アプローチである。 プルーニングレート設定は構造化プルーニングの基本的な問題である。 既存の作品の多くは、cnnの異なるレイヤにまたがる異なるpruningレートを割り当てたり、圧縮率を明示的に制御できないために、学習可能なパラメータが多すぎる。 ネットワークが狭すぎると、トレーニングのための情報フローがブロックされるため、自動プルーニングレート設定は特定の層に対して高いプルーニングレートを探索することはできない。 これらの制約を克服するため、我々は、いくつかのエポックをスクラッチから初期訓練中にネットワークを徐々に圧縮するLayer Adaptive Progressive Pruning (LAPP) という新しいフレームワークを提案する。 特にLAPPは,各レイヤの学習可能なしきい値とネットワークのFLOP制約を導入し,効率的かつ効率的なプルーニング戦略を設計する。 タスク損失とフラップ制約の両方に導かれ、学習可能なしきい値が動的に更新され、トレーニング中の重要度の変化に対応する。 したがって、プルーニング戦略は徐々にネットワークを刺激し、各層に対する適切なプルーニング率を自動的に決定することができる。 さらに、刈り込み層の表現力を維持するために、トレーニングを開始する前に、刈り取り対象の各畳み込み層に新たな軽量バイパスを導入する。 提案手法は,各種データセットやバックボーンアーキテクチャにおける従来の圧縮手法よりも優れた性能向上を示す。 例えば、CIFAR-10では、精度低下なしにResNet-20を40.3%まで圧縮する。 ResNet-18 の FLOP の 55.6% は 0.21% のトップ-1 の精度と 0.40% のトップ-5 の精度で削減されている。

Structured pruning is a commonly used convolutional neural network (CNN) compression approach. Pruning rate setting is a fundamental problem in structured pruning. Most existing works introduce too many additional learnable parameters to assign different pruning rates across different layers in CNN or cannot control the compression rate explicitly. Since too narrow network blocks information flow for training, automatic pruning rate setting cannot explore a high pruning rate for a specific layer. To overcome these limitations, we propose a novel framework named Layer Adaptive Progressive Pruning (LAPP), which gradually compresses the network during initial training of a few epochs from scratch. In particular, LAPP designs an effective and efficient pruning strategy that introduces a learnable threshold for each layer and FLOPs constraints for network. Guided by both task loss and FLOPs constraints, the learnable thresholds are dynamically and gradually updated to accommodate changes of importance scores during training. Therefore the pruning strategy can gradually prune the network and automatically determine the appropriate pruning rates for each layer. What's more, in order to maintain the expressive power of the pruned layer, before training starts, we introduce an additional lightweight bypass for each convolutional layer to be pruned, which only adds relatively few additional burdens. Our method demonstrates superior performance gains over previous compression methods on various datasets and backbone architectures. For example, on CIFAR-10, our method compresses ResNet-20 to 40.3% without accuracy drop. 55.6% of FLOPs of ResNet-18 are reduced with 0.21% top-1 accuracy increase and 0.40% top-5 accuracy increase on ImageNet.
翻訳日:2023-09-26 15:20:59 公開日:2023-09-25
# n-of-1試験における運動推奨のためのオンライン強化学習エージェントの設計と評価

Designing and evaluating an online reinforcement learning agent for physical exercise recommendations in N-of-1 trials ( http://arxiv.org/abs/2309.14156v1 )

ライセンス: Link先を確認
Dominik Meier, Ipek Ensari, Stefan Konigorski(参考訳) パーソナライズされた適応型介入は患者の利益を高める機会を提供するが、計画と実施には課題がある。 一旦実施すると、パーソナライズされた適応的介入が、固定金標準介入よりも臨床的に効果的であるかどうかが重要な問題である。 本稿では,オンライン強化学習エージェントによるパーソナライズされた介入の実装が実現可能か,有効かを検証した,革新的なN-of-1トライアルデザインを提案する。 本研究は, 子宮内膜症の痛みを軽減するために, エクササイズレコメンデーションに関する新しい研究を用いている。 本稿では,文脈的包括的推薦エージェントの設計とシミュレーション研究における評価について述べる。 その結果,適応的介入は設計と実装プロセスに複雑さをもたらすが,わずかな観察しか得られなくても患者の便益を改善する可能性を秘めていることがわかった。 期待される利益を定量化するためには、過去の介入研究のデータが必要である。 アプローチは他の介入や臨床介入に移行できるものと期待している。

Personalized adaptive interventions offer the opportunity to increase patient benefits, however, there are challenges in their planning and implementation. Once implemented, it is an important question whether personalized adaptive interventions are indeed clinically more effective compared to a fixed gold standard intervention. In this paper, we present an innovative N-of-1 trial study design testing whether implementing a personalized intervention by an online reinforcement learning agent is feasible and effective. Throughout, we use a new study on physical exercise recommendations to reduce pain in endometriosis for illustration. We describe the design of a contextual bandit recommendation agent and evaluate the agent in simulation studies. The results show that adaptive interventions add complexity to the design and implementation process, but have the potential to improve patients' benefits even if only few observations are available. In order to quantify the expected benefit, data from previous interventional studies is required. We expect our approach to be transferable to other interventions and clinical interventions.
翻訳日:2023-09-26 15:20:32 公開日:2023-09-25
# リーマン変分不等式問題に対する漸進型法

Extragradient Type Methods for Riemannian Variational Inequality Problems ( http://arxiv.org/abs/2309.14155v1 )

ライセンス: Link先を確認
Zihao Hu, Guanghui Wang, Xi Wang, Andre Wibisono, Jacob Abernethy, Molei Tao(参考訳) リーマン凸最適化とミニマックス最適化は近年注目されている。 彼らの魅力は、目的関数の非凸性とユークリッドの意味で実現可能な集合に固有の制約を十分に管理する能力にある。 本研究では, 単調なリーマン変分不等式問題 (RVIP) を探索し, リーマン凸最適化とミニマックス最適化の両方を対象とする。 ユークリッド空間の文脈では、過次(EG)法と過去の過次(PEG)法の両方の最終定式式は、O\left(\frac{1}{\sqrt{T}}\right)$ (Cai et al., 2022) の速度で単調変分不等式問題の解に収束する。 しかし、リーマン多様体上の類似の挙動は未解決の問題である。 このギャップを埋めるために、リーマン・エクストラグラディエント(REG)法とリーマン・パス・エクストラグラディエント(RPEG)法を導入する。 どちらも$O\left(\frac{1}{\sqrt{T}}\right)$ last-iterate convergenceを示す。 さらに、REG と RPEG の双方の平均定位収束は$O\left(\frac{1}{{T}}\right)$であり、ユークリッドの場合(Mokhtari et al., 2020)の観測と一致していることを示す。 これらの結果は、リーマン事件における追加の合併症を減らすためにホロノミー効果を司法的に解決し、性能推定問題(PEP)法や2乗法(SOS)法にインスパイアされたユークリッド証明を再び適用することができる。

Riemannian convex optimization and minimax optimization have recently drawn considerable attention. Their appeal lies in their capacity to adeptly manage the non-convexity of the objective function as well as constraints inherent in the feasible set in the Euclidean sense. In this work, we delve into monotone Riemannian Variational Inequality Problems (RVIPs), which encompass both Riemannian convex optimization and minimax optimization as particular cases. In the context of Euclidean space, it is established that the last-iterates of both the extragradient (EG) and past extragradient (PEG) methods converge to the solution of monotone variational inequality problems at a rate of $O\left(\frac{1}{\sqrt{T}}\right)$ (Cai et al., 2022). However, analogous behavior on Riemannian manifolds remains an open question. To bridge this gap, we introduce the Riemannian extragradient (REG) and Riemannian past extragradient (RPEG) methods. We demonstrate that both exhibit $O\left(\frac{1}{\sqrt{T}}\right)$ last-iterate convergence. Additionally, we show that the average-iterate convergence of both REG and RPEG is $O\left(\frac{1}{{T}}\right)$, aligning with observations in the Euclidean case (Mokhtari et al., 2020). These results are enabled by judiciously addressing the holonomy effect so that additional complications in Riemannian cases can be reduced and the Euclidean proof inspired by the performance estimation problem (PEP) technique or the sum-of-squares (SOS) technique can be applied again.
翻訳日:2023-09-26 15:20:15 公開日:2023-09-25
# 確実確率を持つ最適化量子最小探索アルゴリズムとそのcirqによる実験シミュレーション

An optimized quantum minimum searching algorithm with sure-success probability and its experiment simulation with Cirq ( http://arxiv.org/abs/2309.14153v1 )

ライセンス: Link先を確認
Wenjie Liu, Qingshan Wu, Jiahao Shen, Jiaojiao Zhao, Mohammed Zidan, Lian Tong(参考訳) 最小値を見つけることは数学モデルの重要な部分であり、いくつかの最適化問題において重要な役割を果たす。 durrとhoyerは、一定の成功確率を持つ量子探索アルゴリズム(dha)を提案した。 本稿では,grover-long searchを用いて最適完全探索と動的戦略を実装し,アルゴリズムの反復を減少させる最適化量子最小探索アルゴリズムを提案する。 さらに,簡単なルールでゲート数を削減するために,オラクル回路を最適化する。 理論的成功率と計算複雑性を含む性能評価は,本アルゴリズムがDHAアルゴリズムよりも精度と効率が高いことを示す。 最後に、cirqに基づくシミュレーション実験を行い、その実現可能性を検証する。

Finding a minimum is an essential part of mathematical models, and it plays an important role in some optimization problems. Durr and Hoyer proposed a quantum searching algorithm (DHA), with a certain probability of success, to achieve quadratic speed than classical ones. In this paper, we propose an optimized quantum minimum searching algorithm with sure-success probability, which utilizes Grover-Long searching to implement the optimal exact searching, and the dynamic strategy to reduce the iterations of our algorithm. Besides, we optimize the oracle circuit to reduce the number of gates by the simplified rules. The performance evaluation including the theoretical success rate and computational complexity shows that our algorithm has higher accuracy and efficiency than DHA algorithm. Finally, a simulation experiment based on Cirq is performed to verify its feasibility.
翻訳日:2023-09-26 15:19:41 公開日:2023-09-25
# SPIRT: フォールトトレラントで信頼性の高いピアツーピアサーバレスMLトレーニングアーキテクチャ

SPIRT: A Fault-Tolerant and Reliable Peer-to-Peer Serverless ML Training Architecture ( http://arxiv.org/abs/2309.14148v1 )

ライセンス: Link先を確認
Amine Barrak, Mayssa Jaziri, Ranim Trabelsi, Fehmi Jaafar, Fabio Petrillo(参考訳) サーバーレスコンピューティングの出現は、分散機械学習、特にパラメータサーバベースのアーキテクチャにおける顕著な進歩をもたらした。 しかし、p2p(peer-to-peer)分散ネットワークにおけるサーバレス機能の統合は、いまだにほとんど役に立たない。 本稿では,フォールトトレラントで信頼性が高く,セキュアなサーバレスP2P MLトレーニングアーキテクチャであるSPIRTを紹介する。 このギャップを埋めるために設計されました SPIRTはP2Pシステムに固有の堅牢性と信頼性を生かして、データベース内の操作にRedisAIを採用しており、モデル更新に必要な時間を82倍に削減し、さまざまなモデルやバッチサイズの平均化を実現している。 このアーキテクチャはピア障害に対するレジリエンスを示し、代わりに新しいピアの統合を管理し、フォールトトレラントな特性とスケーラビリティを強調する。 さらに、SPIRTはピア間のセキュアな通信を保証し、分散機械学習タスクの信頼性を高める。 ビザンティン攻撃に直面しても、システムの堅牢な集約アルゴリズムは高いレベルの精度を維持している。 これらの発見は、P2P分散機械学習におけるサーバーレスアーキテクチャの有望な可能性を示し、より効率的でスケーラブルでレジリエントなアプリケーションの開発に向けて大きな一歩を踏み出した。

The advent of serverless computing has ushered in notable advancements in distributed machine learning, particularly within parameter server-based architectures. Yet, the integration of serverless features within peer-to-peer (P2P) distributed networks remains largely uncharted. In this paper, we introduce SPIRT, a fault-tolerant, reliable, and secure serverless P2P ML training architecture. designed to bridge this existing gap. Capitalizing on the inherent robustness and reliability innate to P2P systems, SPIRT employs RedisAI for in-database operations, leading to an 82\% reduction in the time required for model updates and gradient averaging across a variety of models and batch sizes. This architecture showcases resilience against peer failures and adeptly manages the integration of new peers, thereby highlighting its fault-tolerant characteristics and scalability. Furthermore, SPIRT ensures secure communication between peers, enhancing the reliability of distributed machine learning tasks. Even in the face of Byzantine attacks, the system's robust aggregation algorithms maintain high levels of accuracy. These findings illuminate the promising potential of serverless architectures in P2P distributed machine learning, offering a significant stride towards the development of more efficient, scalable, and resilient applications.
翻訳日:2023-09-26 15:19:28 公開日:2023-09-25
# 乱用言語検出における時間バイアスの検討

Examining Temporal Bias in Abusive Language Detection ( http://arxiv.org/abs/2309.14146v1 )

ライセンス: Link先を確認
Mali Jin, Yida Mu, Diana Maynard, Kalina Bontcheva(参考訳) オンラインの虐待的言語の使用は、個人と社会の両方にダメージを与え、心理的危害からエスカレーション、現実の暴力、さらには死に至るまで、ますます広まりつつある問題となっている。 機械学習モデルは乱用言語を自動的に検出するために開発されたが、これらのモデルは時間的バイアス、つまりトピックや言語の使用、社会的規範が時間とともに変化する現象に苦しむ可能性がある。 本研究の目的は,多言語にわたる虐待的言語検出における時間的バイアスの性質と影響を調査し,緩和法を検討することである。 我々は,異なる期間における乱用データセットのモデルの性能を評価する。 その結果,時間的バイアスは乱用言語検出の重要な課題であり,過去のデータに基づいてトレーニングされたモデルが時間とともに大幅なパフォーマンス低下を示すことが示された。 また,これらの乱用データセットをダイアクロニックな視点から広範な言語解析を行い,言語の進化と性能低下の理由を探究する。 本研究は,言語間の虐待的言語検出における時間的バイアスの広範的問題に注目し,言語進化と時間的バイアス軽減に関する重要な洞察を提供する。

The use of abusive language online has become an increasingly pervasive problem that damages both individuals and society, with effects ranging from psychological harm right through to escalation to real-life violence and even death. Machine learning models have been developed to automatically detect abusive language, but these models can suffer from temporal bias, the phenomenon in which topics, language use or social norms change over time. This study aims to investigate the nature and impact of temporal bias in abusive language detection across various languages and explore mitigation methods. We evaluate the performance of models on abusive data sets from different time periods. Our results demonstrate that temporal bias is a significant challenge for abusive language detection, with models trained on historical data showing a significant drop in performance over time. We also present an extensive linguistic analysis of these abusive data sets from a diachronic perspective, aiming to explore the reasons for language evolution and performance decline. This study sheds light on the pervasive issue of temporal bias in abusive language detection across languages, offering crucial insights into language evolution and temporal bias mitigation.
翻訳日:2023-09-26 15:19:06 公開日:2023-09-25
# 量子チャネルの一般化容量

The Generalized Capacity of a Quantum Channel ( http://arxiv.org/abs/2309.14141v1 )

ライセンス: Link先を確認
Zahra Baghali Khanian(参考訳) 古典的チャネル上の古典的情報の伝達は、古典的相互情報の観点から最適な速度を持つ古典的容量定理を生み出した。 古典情報は量子情報のサブセットであるにもかかわらず、量子容量問題の速度はコヒーレント情報を用いて表され、古典的相互情報には数学的に一般化しない。 さらに、ノイズ量子チャネル上での情報伝達を扱うとき、異なる公式を持つ複数の容量定理が存在する。 これは、古典的相互情報の数学的に正確な量子汎化を構成するものと、古典的容量問題を直接拡張する量子タスクが存在するかどうかという問題に繋がる。 本稿では,古典的相互情報とコヒーレント情報の両方を包含する数学的拡張として機能する一般化情報という量を導入することで,これらの疑問に対処する。 本稿では、古典情報と量子情報容量の問題の両方を含む送信タスクを定義し、このタスクの送信能力が一般化された情報によって特徴づけられることを示す。

The transmission of classical information over a classical channel gave rise to the classical capacity theorem with the optimal rate in terms of the classical mutual information. Despite classical information being a subset of quantum information, the rate of the quantum capacity problem is expressed in terms of the coherent information, which does not mathematically generalize the classical mutual information. Additionally, there are multiple capacity theorems with distinct formulas when dealing with transmitting information over a noisy quantum channel. This leads to the question of what constitutes a mathematically accurate quantum generalization of classical mutual information and whether there exists a quantum task that directly extends the classical capacity problem. In this paper, we address these inquiries by introducing a quantity called the generalized information, which serves as a mathematical extension encompassing both classical mutual information and coherent information. We define a transmission task, which includes as specific instances both classical information and quantum information capacity problems, and show that the transmission capacity of this task is characterized by the generalized information.
翻訳日:2023-09-26 15:18:47 公開日:2023-09-25
# サーバレスコンピューティングがピアツーピアトレーニング機械学習に与える影響を探求する

Exploring the Impact of Serverless Computing on Peer To Peer Training Machine Learning ( http://arxiv.org/abs/2309.14139v1 )

ライセンス: Link先を確認
Amine Barral, Ranim Trabelsi, Fehmi Jaafar, Fabio Petrillo(参考訳) ビッグデータと機械学習における計算能力の需要の増加は、分散トレーニング方法論の開発を促した。 これらのうちピアツーピア(P2P)ネットワークは拡張スケーラビリティや耐障害性などの利点を提供する。 しかし、参加する仲間の数が増えるにつれて、リソースの消費、コスト、コミュニケーションのオーバーヘッドといった問題にも直面する。 本稿では,分散トレーニングのためのサーバーレスコンピューティングとp2pネットワークを組み合わせた新しいアーキテクチャを提案し,資源制約下での効率的な並列勾配計算手法を提案する。 従来のP2P分散学習法と比較して, 最大97.34 %の改善がみられた。 コストに関しては、サーバーレスアーキテクチャは、インスタンスベースのアーキテクチャの最大5.4倍の費用を被る可能性があることを確認しました。 これらの高いコストは、特にリソース制約のあるシナリオにおいて、計算時間を大幅に改善することと関連していると考えることが不可欠である。 コストタイムのトレードオフにもかかわらず、サーバーレスのアプローチは依然として有望である。 動的リソース割り当てを利用することで、トレーニング時間の短縮とリソース利用の最適化が可能になり、幅広い機械学習アプリケーションにとって有望な候補となる。

The increasing demand for computational power in big data and machine learning has driven the development of distributed training methodologies. Among these, peer-to-peer (P2P) networks provide advantages such as enhanced scalability and fault tolerance. However, they also encounter challenges related to resource consumption, costs, and communication overhead as the number of participating peers grows. In this paper, we introduce a novel architecture that combines serverless computing with P2P networks for distributed training and present a method for efficient parallel gradient computation under resource constraints. Our findings show a significant enhancement in gradient computation time, with up to a 97.34\% improvement compared to conventional P2P distributed training methods. As for costs, our examination confirmed that the serverless architecture could incur higher expenses, reaching up to 5.4 times more than instance-based architectures. It is essential to consider that these higher costs are associated with marked improvements in computation time, particularly under resource-constrained scenarios. Despite the cost-time trade-off, the serverless approach still holds promise due to its pay-as-you-go model. Utilizing dynamic resource allocation, it enables faster training times and optimized resource utilization, making it a promising candidate for a wide range of machine learning applications.
翻訳日:2023-09-26 15:18:31 公開日:2023-09-25
# マルチモードメディア操作の検出とグラウンド化

Detecting and Grounding Multi-Modal Media Manipulation and Beyond ( http://arxiv.org/abs/2309.14203v1 )

ライセンス: Link先を確認
Rui Shao, Tianxing Wu, Jianlong Wu, Liqiang Nie, Ziwei Liu(参考訳) 誤報は差し迫った問題になっている。 フェイクメディアは、視覚とテキストの両方の形で、ウェブ上で広く普及している。 様々なディープフェイク検出法やテキスト偽ニュース検出法が提案されているが、それらは二項分類に基づく単一のモダリティ偽造のためにのみ設計されている。 本稿では,マルチモーダルメディア操作(dgm^4)の検出と接地という,マルチモーダルメディアに対する新たな研究課題について述べる。 DGM^4は、マルチモーダルメディアの真正性を検出するだけでなく、マルチモーダルメディア操作の深い推論を必要とする操作内容も検出することを目的としている。 大規模な調査を支援するため,画像とテキストのペアを様々なアプローチで操作するDGM^4データセットを構築した。 さらに,HerArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)を提案する。 ハンマー演奏 1)浅い操作推論としての2つのユニモーダルエンコーダ間の操作対応コントラスト学習 2)マルチモーダルアグリゲータによる奥行き操作推論としてのモダリティ認識クロスアテンション 対話型マルチモーダル情報に基づいて、専用操作検出および接地ヘッドを浅層から深層へと統合する。 クロスモーダルなセマンティックアライメントのための,よりきめ細かいコントラスト学習を活用するために,我々はさらに,Manipulation-Aware Contrastive Lossをローカルビューに統合し,より高度なモデルHAMMER++を構築する。 最後に,この新たな研究課題に対する厳密な評価基準を設定した。 包括的な実験は、HAMMERとHAMMER++の優位性を示している。

Misinformation has become a pressing issue. Fake media, in both visual and textual forms, is widespread on the web. While various deepfake detection and text fake news detection methods have been proposed, they are only designed for single-modality forgery based on binary classification, let alone analyzing and reasoning subtle forgery traces across different modalities. In this paper, we highlight a new research problem for multi-modal fake media, namely Detecting and Grounding Multi-Modal Media Manipulation (DGM^4). DGM^4 aims to not only detect the authenticity of multi-modal media, but also ground the manipulated content, which requires deeper reasoning of multi-modal media manipulation. To support a large-scale investigation, we construct the first DGM^4 dataset, where image-text pairs are manipulated by various approaches, with rich annotation of diverse manipulations. Moreover, we propose a novel HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER) to fully capture the fine-grained interaction between different modalities. HAMMER performs 1) manipulation-aware contrastive learning between two uni-modal encoders as shallow manipulation reasoning, and 2) modality-aware cross-attention by multi-modal aggregator as deep manipulation reasoning. Dedicated manipulation detection and grounding heads are integrated from shallow to deep levels based on the interacted multi-modal information. To exploit more fine-grained contrastive learning for cross-modal semantic alignment, we further integrate Manipulation-Aware Contrastive Loss with Local View and construct a more advanced model HAMMER++. Finally, we build an extensive benchmark and set up rigorous evaluation metrics for this new research problem. Comprehensive experiments demonstrate the superiority of HAMMER and HAMMER++.
翻訳日:2023-09-26 15:11:32 公開日:2023-09-25
# 教師なし異常検出における(予測可能な)性能バイアス

(Predictable) Performance Bias in Unsupervised Anomaly Detection ( http://arxiv.org/abs/2309.14198v1 )

ライセンス: Link先を確認
Felix Meissen, Svenja Breuer, Moritz Knolle, Alena Buyx, Ruth M\"uller, Georgios Kaissis, Benedikt Wiestler, Daniel R\"uckert(参考訳) 背景: 医用画像データの増大に伴い, 臨床医を支援するアルゴリズムの需要が増大している。 教師なし異常検出(UAD)モデルは、疾患検出の重要な第1ステップを支援することを約束する。 これまでの研究は、医療における監督されたモデルの公平性を徹底的に研究してきたが、uadにとって、これはまだ未調査である。 方法: 本研究は, 大規模公開胸部X線データセットを用いて, 複数の保護変数に沿って, UADモデルの異なる性能を示すサブグループに関するデータセット構成について検討した。 医用画像に対する2つの最先端UADモデルを用いて実験を行った。 最後に,機械学習におけるフェアネスの定量化を支援する,新しいサブグループAUROC(sAUROC)メトリクスを導入した。 結果: 実験により, 訓練-データセット構成のための経験則である「フェアネス則」(トランスフォーマーのスケーリング則と類似) が明らかにされた。 本研究は, バランスの取れた訓練データにおいても, 成績の相違が明らかとなり, 複数の障害群に合併した被験者の成績低下を悪化させる複合効果が示された。 解釈: 本研究は, ある集団群に対して, UADモデルの異なる性能を定量化した。 重要なことに、バランスの取れた表現だけでは、この不公平さを軽減できない。 代わりに、一部のサブグループの表現は他のサブグループよりも UAD モデルで学ぶのが難しく見える。 本研究で発見された経験的公正性法則は,最も望ましいデータセット構成を推定し,支援することを容易にする。

Background: With the ever-increasing amount of medical imaging data, the demand for algorithms to assist clinicians has amplified. Unsupervised anomaly detection (UAD) models promise to aid in the crucial first step of disease detection. While previous studies have thoroughly explored fairness in supervised models in healthcare, for UAD, this has so far been unexplored. Methods: In this study, we evaluated how dataset composition regarding subgroups manifests in disparate performance of UAD models along multiple protected variables on three large-scale publicly available chest X-ray datasets. Our experiments were validated using two state-of-the-art UAD models for medical images. Finally, we introduced a novel subgroup-AUROC (sAUROC) metric, which aids in quantifying fairness in machine learning. Findings: Our experiments revealed empirical "fairness laws" (similar to "scaling laws" for Transformers) for training-dataset composition: Linear relationships between anomaly detection performance within a subpopulation and its representation in the training data. Our study further revealed performance disparities, even in the case of balanced training data, and compound effects that exacerbate the drop in performance for subjects associated with multiple adversely affected groups. Interpretation: Our study quantified the disparate performance of UAD models against certain demographic subgroups. Importantly, we showed that this unfairness cannot be mitigated by balanced representation alone. Instead, the representation of some subgroups seems harder to learn by UAD models than that of others. The empirical fairness laws discovered in our study make disparate performance in UAD models easier to estimate and aid in determining the most desirable dataset composition.
翻訳日:2023-09-26 15:11:00 公開日:2023-09-25
# 欲望量子探索を用いたボルツマン機械の学習

Learning Restricted Boltzmann Machines with greedy quantum search ( http://arxiv.org/abs/2309.14196v1 )

ライセンス: Link先を確認
Liming Zhao, Aman Agrawal, and Patrick Rebentrost(参考訳) 制限ボルツマンマシン(RBM)は可視および潜在ノードを持つ確率的非指向的グラフィカルモデルとして広く用いられ、統計学や機械学習において重要な役割を果たしている。 rbmsの構造学習のタスクは、可視ノードからのサンプルを使用して基礎となるグラフを推論することである。 具体的には、各可視ノードの2つのホップ近傍を学習することで、グラフ構造の推論が可能になる。 これまでの研究では、強磁性と局所的に一貫したRBMの特定のクラスに対する構造学習の問題に対処してきた。 本稿では、この範囲を量子コンピューティング領域に拡張し、この問題に対する対応する量子アルゴリズムを提案する。 提案する量子アルゴリズムは,これら2種類のrbmsの構造を学習するための古典的アルゴリズムと比較して,多項式の高速化をもたらすことを実証する。

Restricted Boltzmann Machines (RBMs) are widely used probabilistic undirected graphical models with visible and latent nodes, playing an important role in statistics and machine learning. The task of structure learning for RBMs involves inferring the underlying graph by using samples from the visible nodes. Specifically, learning the two-hop neighbors of each visible node allows for the inference of the graph structure. Prior research has addressed the structure learning problem for specific classes of RBMs, namely ferromagnetic and locally consistent RBMs. In this paper, we extend the scope to the quantum computing domain and propose corresponding quantum algorithms for this problem. Our study demonstrates that the proposed quantum algorithms yield a polynomial speedup compared to the classical algorithms for learning the structure of these two classes of RBMs.
翻訳日:2023-09-26 15:10:32 公開日:2023-09-25
# 熱平衡から外れた非相反体の量子トルクと任意の強度の磁場による誘導

Quantum Torque on a Non-Reciprocal Body out of Thermal Equilibrium and Induced by a Magnetic Field of Arbitrary Strength ( http://arxiv.org/abs/2309.14190v1 )

ライセンス: Link先を確認
Gerard Kennedy(参考訳) 定常体は、その環境と熱平衡から外れており、電気感受性が非相互である場合、量子トルクを経験する。 これは、体の空間的に非対称な電気的応答と電磁場の非平衡熱的揺らぎとの相互作用から生じており、熱場の非平衡な性質は、体内を流れる純エネルギーの流れを生じさせ、これらの磁場の揺らぎと相互作用する物体の電気的応答の空間的に非対称な性質は、エネルギーの流れを回転運動に変化させる。 このトルクについて, 環境が真空であり, 物体の材料が減衰振動子モデルによって記述された場合, 磁気光学媒質と同様に, 外部磁場により電気感受性の非相反性が誘導される場合の, 厳密な解析式を定式化する。 また、この表現を体がゆっくりと回転している状況に一般化する。 トルクの高温膨張を探索することにより、非相互電気感受性の連続スペクトル分布と共振モードとの分離した寄与を同定することができる。 特に、共振モードの寄与により、減衰パラメータがゼロである場合にトルクが持続することがわかった。 また,トルクの低温膨張についても考察する。 この研究は、このモデルに関するこれまでの考察を任意の強度の外部磁場に拡張し、非線形磁場効果を含む。

A stationary body that is out of thermal equilibrium with its environment, and for which the electric susceptibility is non-reciprocal, experiences a quantum torque. This arises from the spatially non-symmetric electrical response of the body to its interaction with the non-equilibrium thermal fluctuations of the electromagnetic field: the non-equilibrium nature of the thermal field fluctuations results in a net energy flow through the body, and the spatially non-symmetric nature of the electrical response of the body to its interaction with these field fluctuations causes that energy flow to be transformed into a rotational motion. We establish an exact, closed-form, analytical expression for this torque in the case that the environment is the vacuum and the material of the body is described by a damped oscillator model, where the non-reciprocal nature of the electric susceptibility is induced by an external magnetic field, as for magneto-optical media. We also generalise this expression to the context in which the body is slowly rotating. By exploring the high-temperature expansion of the torque, we are able to identify the separate contributions from the continuous spectral distribution of the non-reciprocal electric susceptibility, and from the resonance modes. In particular, we find that the torque persists in the limiting case of zero damping parameter, due to the contribution of the resonance modes. We also consider the low-temperature expansion of the torque. This work extends our previous consideration of this model to an external magnetic field of arbitrary strength, thereby including non-linear magnetic field effects.
翻訳日:2023-09-26 15:10:17 公開日:2023-09-25
# species196: きめ細かな種認識のための100万個の半教師付きデータセット

Species196: A One-Million Semi-supervised Dataset for Fine-grained Species Recognition ( http://arxiv.org/abs/2309.14183v1 )

ライセンス: Link先を確認
Wei He, Kai Han, Ying Nie, Chengcheng Wang, Yunhe Wang(参考訳) 基礎視覚モデルの開発は、一般的な視覚認識を高いレベルに押し上げたが、侵入種分類のような特殊な領域におけるきめ細かい認識にはうまく対応できない。 外来種の同定と管理は、社会的・生態学的価値が強い。 現在、ほとんどの侵入種データセットは規模が限られており、限られた範囲の種をカバーしており、深層学習に基づく侵略バイオメトリックスシステムの開発を制限している。 この領域のギャップを埋めるために,196カテゴリーの侵入種からなる大規模半教師付きデータセットである species196 を導入した。 専門家レベルの正確な注釈種196-l、侵入種種196-uのラベルなし画像1.2mの19k以上の画像を収集する。 データセットは、既存のモデルとアルゴリズムをベンチマークするための4つの実験的な設定、すなわち、教師付き学習、半教師付き学習、自己教師付き事前学習、大規模マルチモーダルモデルのゼロショット推論能力を提供する。 これら4つの学習パラダイムの今後の研究を促進するために,提案したデータセットの代表的な手法を実証研究する。 データセットはhttps://species-dataset.github.io/で公開されている。

The development of foundation vision models has pushed the general visual recognition to a high level, but cannot well address the fine-grained recognition in specialized domain such as invasive species classification. Identifying and managing invasive species has strong social and ecological value. Currently, most invasive species datasets are limited in scale and cover a narrow range of species, which restricts the development of deep-learning based invasion biometrics systems. To fill the gap of this area, we introduced Species196, a large-scale semi-supervised dataset of 196-category invasive species. It collects over 19K images with expert-level accurate annotations Species196-L, and 1.2M unlabeled images of invasive species Species196-U. The dataset provides four experimental settings for benchmarking the existing models and algorithms, namely, supervised learning, semi-supervised learning, self-supervised pretraining and zero-shot inference ability of large multi-modal models. To facilitate future research on these four learning paradigms, we conduct an empirical study of the representative methods on the introduced dataset. The dataset is publicly available at https://species-dataset.github.io/.
翻訳日:2023-09-26 15:09:49 公開日:2023-09-25
# Q-Bench: 低レベルのビジョンに基づく汎用基盤モデルのベンチマーク

Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision ( http://arxiv.org/abs/2309.14181v1 )

ライセンス: Link先を確認
Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Chunyi Li, Wenxiu Sun, Qiong Yan, Guangtao Zhai, Weisi Lin(参考訳) MLLM(Multi-modality Large Language Models)の急速な進化は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを引き起こした。 それでも、低レベルの視覚知覚と理解においてMLLMの能力を評価するにはまだ不十分である。 このギャップに対処するために、我々は3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視覚品質評価)でMLLMの潜在能力を体系的に評価する総合的なベンチマークであるQ-Benchを紹介する。 a) 低レベルの知覚能力を評価するために,2,990個の多様なソース画像からなるLLVisionQAデータセットを構築し,その低レベルの属性に着目した人間に質問する。 次に,これらの質問に対するMLLMの正当性を測定した。 b) MLLMの低レベル情報に基づく記述能力を検討するため, 499 画像上の長大な専門家による黄金の低レベルテキスト記述からなるLLDescribeデータセットと, MLLMの出力と黄金の記述との GPT による比較パイプラインを提案する。 c) この2つの課題に加えて, 人間の意見スコアに合わせる視覚的品質評価能力も測定した。 具体的には、MLLMが定量品質スコアを予測できるソフトマックスベースの戦略を設計し、既存の画像品質評価(IQA)データセットで評価する。 評価の結果,MLLMには基本的な低レベル視覚能力があることがわかった。 しかし、これらのスキルはまだ不安定で比較的不正確であり、これらの能力に対するMLLMの具体的な強化の必要性を示している。 私たちのベンチマークは、MLLMの未解決の可能性を発見し、強化するために、研究コミュニティをより深く掘り下げることを奨励するものです。

The rapid evolution of Multi-modality Large Language Models (MLLMs) has catalyzed a shift in computer vision from specialized models to general-purpose foundation models. Nevertheless, there is still an inadequacy in assessing the abilities of MLLMs on low-level visual perception and understanding. To address this gap, we present Q-Bench, a holistic benchmark crafted to systematically evaluate potential abilities of MLLMs on three realms: low-level visual perception, low-level visual description, and overall visual quality assessment. a) To evaluate the low-level perception ability, we construct the LLVisionQA dataset, consisting of 2,990 diverse-sourced images, each equipped with a human-asked question focusing on its low-level attributes. We then measure the correctness of MLLMs on answering these questions. b) To examine the description ability of MLLMs on low-level information, we propose the LLDescribe dataset consisting of long expert-labelled golden low-level text descriptions on 499 images, and a GPT-involved comparison pipeline between outputs of MLLMs and the golden descriptions. c) Besides these two tasks, we further measure their visual quality assessment ability to align with human opinion scores. Specifically, we design a softmax-based strategy that enables MLLMs to predict quantifiable quality scores, and evaluate them on various existing image quality assessment (IQA) datasets. Our evaluation across the three abilities confirms that MLLMs possess fundamental low-level visual skills. However, these skills are still unstable and relatively imprecise, indicating the need for specific enhancements on MLLMs towards these abilities. We hope that our benchmark can encourage the research community to delve deeper to discover and enhance these untapped potentials of MLLMs.
翻訳日:2023-09-26 15:09:31 公開日:2023-09-25
# 制限付きユーザアベイラビリティ下でのフェデレーション学習

Federated Learning Under Restricted User Availability ( http://arxiv.org/abs/2309.14176v1 )

ライセンス: Link先を確認
Periklis Theodoropoulos, Konstantinos E. Nikolakakis and Dionysis Kalogerias(参考訳) Federated Learning(FL)は、データプライバシを尊重しながら協調的なモデルトレーニングを可能にする分散機械学習フレームワークである。 様々なアプリケーションにおいて、ユーザの不均一な可用性や参加は、悪いあるいは確率的な環境のために避けられない。 本稿では,ランダムアクセスモデル(ram)として提案される,確率的かつ定常的な選択ポリシーを実装する汎用ユーザ選択機構を仮定する。 そこで本研究では,RAM の存在下で,頻度の低いユーザや制限されたユーザからの限られた参加を効果的に捉え,緩和する FL 問題の新たな定式化を提案する。 CVaR(Conditional Value-at-Risk)を(未知の)RAM分布に導入することにより、予測損失FL目標をリスク認識対象に拡張し、RAMに完全に依存せず、基本的にFedAvgと同じ複雑さを持つ効率的なトレーニングアルゴリズムの設計を可能にする。 合成およびベンチマークデータセットを用いた実験により, 提案手法は, 標準FLと比較して, 様々な設定で性能を著しく向上することを示した。

Federated Learning (FL) is a decentralized machine learning framework that enables collaborative model training while respecting data privacy. In various applications, non-uniform availability or participation of users is unavoidable due to an adverse or stochastic environment, the latter often being uncontrollable during learning. Here, we posit a generic user selection mechanism implementing a possibly randomized, stationary selection policy, suggestively termed as a Random Access Model (RAM). We propose a new formulation of the FL problem which effectively captures and mitigates limited participation of data originating from infrequent, or restricted users, at the presence of a RAM. By employing the Conditional Value-at-Risk (CVaR) over the (unknown) RAM distribution, we extend the expected loss FL objective to a risk-aware objective, enabling the design of an efficient training algorithm that is completely oblivious to the RAM, and with essentially identical complexity as FedAvg. Our experiments on synthetic and benchmark datasets show that the proposed approach achieves significantly improved performance as compared with standard FL, under a variety of setups.
翻訳日:2023-09-26 15:09:02 公開日:2023-09-25
# 5\%の注意しか必要としない:効率的な長距離文書レベルのニューラルマシン翻訳

Only 5\% Attention Is All You Need: Efficient Long-range Document-level Neural Machine Translation ( http://arxiv.org/abs/2309.14174v1 )

ライセンス: Link先を確認
Zihan Liu, Zewei Sun, Shanbo Cheng, Shujian Huang, Mingxuan Wang(参考訳) 文書レベルの文脈情報を導入することにより,談話現象を扱う上で,文書レベルのニューラルネットワーク翻訳(DocNMT)が重要であることが証明されている。 最も重要な方向の1つは、ドキュメント全体を標準トランスフォーマーモデルに直接入力することである。 この場合、効率性は注意モジュールの二次的な複雑さのために重要な問題となる。 既存の研究はエンコーダ部分に焦点を当てており、シーケンスからシーケンスへの生成タスク、例えば機械翻訳(mt)にデプロイできないか、大幅なパフォーマンス低下に苦しむかのどちらかである。 本研究では,参加するトークンのごく一部を選択する軽量な注意に基づく追加の選択層を導入することにより,翻訳性能を20%向上させながら維持する。 推論を加速するために、パフォーマンスと次元の削減を保証するために、オリジナルの注意を生かしている。 実験の結果,本手法は最大95\%スパルシティ(5\%トークンのみ)をほぼ達成でき,性能を維持しつつ,アテンションモジュールの計算コストを従来のトランスフォーマと比較して93\%削減できることがわかった。

Document-level Neural Machine Translation (DocNMT) has been proven crucial for handling discourse phenomena by introducing document-level context information. One of the most important directions is to input the whole document directly to the standard Transformer model. In this case, efficiency becomes a critical concern due to the quadratic complexity of the attention module. Existing studies either focus on the encoder part, which cannot be deployed on sequence-to-sequence generation tasks, e.g., Machine Translation (MT), or suffer from a significant performance drop. In this work, we keep the translation performance while gaining 20\% speed up by introducing extra selection layer based on lightweight attention that selects a small portion of tokens to be attended. It takes advantage of the original attention to ensure performance and dimension reduction to accelerate inference. Experimental results show that our method could achieve up to 95\% sparsity (only 5\% tokens attended) approximately, and save 93\% computation cost on the attention module compared with the original Transformer, while maintaining the performance.
翻訳日:2023-09-26 15:08:42 公開日:2023-09-25
# 不可逆性としての誤差と外乱:統一定義、ウィグナー-アーナキ-ヤナーゼ理論および時間外相関器

Error and Disturbance as Irreversibility with Applications: Unified Definition, Wigner--Araki--Yanase Theorem and Out-of-Time-Order Correlator ( http://arxiv.org/abs/2309.14172v1 )

ライセンス: Link先を確認
Haruki Emori and Hiroyasu Tajima(参考訳) 誤差と乱れは量子測定の基本概念である。 ここでは、この2つの概念を量子過程の可逆性の特別な場合として定義できることを示す。 再定義は実りある副産物を提供する: まず、既存の様々なエラーの定義と外乱を不可逆性の特別な側面として統一することができる。 第二に、保存則の下での計測実装に関する普遍的な制限である量的ウィグナー-アラキ-ヤナスの定理を、任意の定義の誤りと乱れに拡張する。 第3に,量子多体系における量子カオスの測定値であるout-of-time-orderd-correlator (otoc) の非可逆性として,その実験的評価法を提案する。

Error and disturbance are fundamental concepts in quantum measurements. Here we show that these two concepts can be defined as special cases of the irreversibility of quantum processes. The re-definitions provide fruitful byproducts: First, we can unify the existing various definitions of error and disturbance as special aspects of irreversibility. Second, we extend the quantitative Wigner--Araki--Yanase theorem -- a universal restriction on measurement implementation under a conservation law -- to error and disturbance of arbitrary definitions. Third, we provide a novel treatment of out-of-time-orderd-correlator (OTOC) -- a measure of quantum chaos in a quantum many-body system -- as irreversibility, and its experimental evaluation method.
翻訳日:2023-09-26 15:08:20 公開日:2023-09-25
# Dual-GSE:資源効率の良い一般化量子サブスペース拡張

Dual-GSE: Resource-efficient Generalized Quantum Subspace Expansion ( http://arxiv.org/abs/2309.14171v1 )

ライセンス: Link先を確認
Bo Yang, Nobuyuki Yoshioka, Hiroyuki Harada, Shigeo Hakkaku, Yuuki Tokunaga, Hideaki Hakoshima, Kaoru Yamamoto, Suguru Endo(参考訳) 量子誤り軽減法(Quantum error mitigation, QEM)は、ハードウェア効率のよい誤り低減法の一種であり、量子演算の追加と測定結果の古典的な後処理によって行われる。 一般化量子部分空間展開(GSE)は、量子部分空間展開(QSE)と純化ベースのQEMという2つの異なるQEM法の統一フレームワークとして最近提案されている。 GSEはこれらの2つの手法の利点を乗っ取り、一貫性と確率的誤差の緩和を実現する。 しかしながら、GSEは精製ベースのQEMに必要なように、複数の量子状態のコピーとコピー間の絡み合った測定を必要とする。 これは、量子ビットの制限数と接続の現在の状況における大きな欠点である。 本研究では,二重状態浄化による誤り緩和量子状態のアンサッツを構築することにより,状態複製の大幅なオーバーヘッドを回避し,gseを資源効率良く実装することを提案する。 注目すべきは、Dual-GSEは量子ハードウェアのサイズを超える大きな量子システムを、古典的に絡み合うような分割とコンカマー法にインスパイアされた適切なアンサッツ構造でシミュレートすることができることである。 これはまた、サブシステムのpauli演算子のみを測定するため、測定オーバーヘッドの大幅な削減にも寄与します。 提案手法は,8量子ビット横磁界イジングモデルの数値シミュレーションにより,ゲートノイズ下での地盤状態エネルギーを高精度に推定し,低緩和オーバーヘッドと実用的なサンプリングコストを実現した。

Quantum error mitigation (QEM) is a class of hardware-efficient error reduction methods through additional modest quantum operations and classical postprocessing on measurement outcomes. The generalized quantum subspace expansion (GSE) has been recently proposed as a unified framework of two distinct QEM methods: quantum subspace expansion (QSE) and purification-based QEM. GSE takes over the advantages of these two methods, achieving the mitigation of both coherent and stochastic errors. However, GSE still requires multiple copies of quantum states and entangled measurements between the copies, as required in purification-based QEM. This is a significant drawback under the current situation of the restricted number and connectivity of qubits. In this work, we propose a resource-efficient implementation of GSE, which we name "Dual-GSE", circumventing significant overheads of state copies by constructing an ansatz of error-mitigated quantum states via dual-state purification. Remarkably, Dual-GSE can further simulate larger quantum systems beyond the size of available quantum hardware with a suitable ansatz construction inspired by those divide-and-conquer methods that forge entanglement classically. This also contributes to a significant reduction of the measurement overhead because we only need to measure subsystems' Pauli operators. The proposed method is demonstrated by numerical simulation of the eight-qubit transverse field Ising model, showing that our method estimates the ground state energy in high precision under gate noise with low mitigation overhead and practical sampling cost.
翻訳日:2023-09-26 15:08:06 公開日:2023-09-25
# 深層学習によるウルドゥー詩の生成

Urdu Poetry Generated by Using Deep Learning Techniques ( http://arxiv.org/abs/2309.14233v1 )

ライセンス: Link先を確認
Muhammad Shoaib Farooq, Ali Abbas(参考訳) 本研究は,異なる深層学習手法とアルゴリズムを用いてウルドゥー詩を生成する。 データはRekhtaのウェブサイトから収集され、1341のテキストファイルといくつかのカップルが含まれている。 詩に関するデータは特定のジャンルや詩人のものではない。 代わりに、ウルドゥー詩とガザルの混成集であった。 LSTM(Long Short-Term Memory Networks)やGated Recurrent Unit(GRU)など、さまざまなディープラーニング技術が使用されている。 自然言語処理(NLP)は機械学習において、人間が使用し、理解する言語を理解し、分析し、生成するために用いられる。 異なる技法を用いて異なる言語で詩を作る作業が数多く行われている。 データの収集と利用も、異なる研究者によって異なる。 このプロジェクトの主な目的は,サンプリングデータではなく,データを完全に使用してウルドゥー詩を生成するモデルを提供することである。 また、この詩はローマのウルドゥー語ではなく純粋なウルドゥー語で詠まれることもある。 その結果, モデルが生成した詩の精度は良好であった。

This study provides Urdu poetry generated using different deep-learning techniques and algorithms. The data was collected through the Rekhta website, containing 1341 text files with several couplets. The data on poetry was not from any specific genre or poet. Instead, it was a collection of mixed Urdu poems and Ghazals. Different deep learning techniques, such as the model applied Long Short-term Memory Networks (LSTM) and Gated Recurrent Unit (GRU), have been used. Natural Language Processing (NLP) may be used in machine learning to understand, analyze, and generate a language humans may use and understand. Much work has been done on generating poetry for different languages using different techniques. The collection and use of data were also different for different researchers. The primary purpose of this project is to provide a model that generates Urdu poems by using data completely, not by sampling data. Also, this may generate poems in pure Urdu, not Roman Urdu, as in the base paper. The results have shown good accuracy in the poems generated by the model.
翻訳日:2023-09-26 15:01:54 公開日:2023-09-25
# update monte carlo tree search (umcts) アルゴリズムによるトラス構造のサイズとレイアウトの複合最適化

Combined sizing and layout optimization of truss structures via update Monte Carlo tree search (UMCTS) algorithm ( http://arxiv.org/abs/2309.14231v1 )

ライセンス: Link先を確認
Fu-Yao Ko, Katsuyuki Suzuki, Kazuo Yonekura(参考訳) 本研究の主な関心事は,サイズ変数とレイアウト変数を同時に考慮したトラス構造の最適設計を求めることである。 純粋に最適化問題と比較すると、関連する2種類の変数は本質的に異なるため、この問題はより困難である。 本稿では,この更新過程とモンテカルロ木探索を組み合わせた拡張学習法である更新モンテカルロ木探索法 (umcts) を適用し,トラス構造のサイズ最適化とレイアウト最適化を組み合わせた解法を提案する。 本研究は2つの特徴を持つnodal座標の新しい更新プロセスを提案する。 1)各座標の許容範囲は各ラウンドによって異なる。 2) 許容範囲のエントリ数と反復数に対する加速器を導入して計算時間を短縮する。 さらに、各ラウンドに1本の探索木のみを同時に結節座標と部材領域を決定する。 UMCTSの検証と効率は、離散サイズ変数と連続レイアウト変数を持つ平面トラスと空間トラスのベンチマーク問題で検証される。 その結果、umctsのcpu時間は分岐およびバウンドメソッドの2倍高速であることが判明した。 その結果,提案手法は従来の手法よりも安定して優れた解が得られることがわかった。

The main concern of this study is to find the optimal design of truss structures considering sizing and layout variables simultaneously. As compared to purely sizing optimization problems, this problem is more challenging since the two types of variables involved are fundamentally different in nature. In this paper, a reinforcement learning method combining the update process and Monte Carlo tree search called the update Monte Carlo tree search (UMCTS) for sizing optimization problems is applied to solve combined sizing and layout optimization for truss structures. This study proposes a novel update process for nodal coordinates with two features. (1) The allowed range of each coordinate varies in each round. (2) Accelerators for the number of entries in the allowed range and iteration numbers are introduced to reduce the computation time. Furthermore, nodal coordinates and member areas are determined at the same time with only one search tree in each round. The validation and efficiency of the UMCTS are tested on benchmark problems of planar and spatial trusses with discrete sizing variables and continuous layout variables. It is shown that the CPU time of the UMCTS is two times faster than the branch and bound method. The numerical results demonstrate that the proposed method stably achieves a better solution than other traditional methods.
翻訳日:2023-09-26 15:01:40 公開日:2023-09-25
# 適応サンプリングによる機械学習アルゴリズムの高速化

Accelerating Machine Learning Algorithms with Adaptive Sampling ( http://arxiv.org/abs/2309.14221v1 )

ライセンス: Link先を確認
Mo Tiwari(参考訳) 巨大なデータの時代は、非常に効率的な機械学習アルゴリズムを必要とする。 しかし、多くの一般的な機械学習アルゴリズムは、大規模なデータセットに制限的に高価な計算集約サブルーチンに依存している。 しばしば、既存の技術は近似誤差を発生させることなく、データをサブサンプリングしたり、他の手法を使って計算効率を向上させる。 この論文は、計算集約型サブルーチンを、品質の低下をほとんど起こさない特殊な種類のランダム化サブルーチンに置き換えるのに十分なことがしばしば示されている。

The era of huge data necessitates highly efficient machine learning algorithms. Many common machine learning algorithms, however, rely on computationally intensive subroutines that are prohibitively expensive on large datasets. Oftentimes, existing techniques subsample the data or use other methods to improve computational efficiency, at the expense of incurring some approximation error. This thesis demonstrates that it is often sufficient, instead, to substitute computationally intensive subroutines with a special kind of randomized counterparts that results in almost no degradation in quality.
翻訳日:2023-09-26 15:01:21 公開日:2023-09-25
# MemDA:メモリベースのドリフト適応による都市時系列予測

MemDA: Forecasting Urban Time Series with Memory-based Drift Adaptation ( http://arxiv.org/abs/2309.14216v1 )

ライセンス: Link先を確認
Zekun Cai, Renhe Jiang, Xinyu Yang, Zhaonan Wang, Diansheng Guo, Hiroki Kobayashi, Xuan Song and Ryosuke Shibasaki(参考訳) 持続可能な開発への重要な貢献を特徴とする都市時系列データ予測はスマートシティの重要な課題として広く研究されている。 しかし、世界環境の劇的かつ急激な変化により、データが独立的独立分布に従うという仮定は、概念ドリフトとして知られるその後のデータ分布の変化によって損なわれ、未知のデータよりもモデルの再現性と転送性が弱くなる。 この問題に対処するため、従来のアプローチではモデルを再トレーニングし、最新の観測データに適合させていた。 しかし、リトレーニングは、モデルラグ、リソースの消費、モデル再有効化につながるため、現実的なシナリオではドリフト問題はうまく解決されない。 本研究では,データ内の周期性を考慮してドリフトを符号化し,メタダイナミックネットワークを用いたドリフトに基づくモデルへのオンザフライ調整を行う,コンセプトドリフト問題のための新しい都市時系列予測モデルを提案する。 実世界のデータセットに関する実験では、我々の設計が最先端の手法を大幅に上回っており、分散変更に対する感度を下げることで、既存の予測バックボーンにうまく一般化できることを示している。

Urban time series data forecasting featuring significant contributions to sustainable development is widely studied as an essential task of the smart city. However, with the dramatic and rapid changes in the world environment, the assumption that data obey Independent Identically Distribution is undermined by the subsequent changes in data distribution, known as concept drift, leading to weak replicability and transferability of the model over unseen data. To address the issue, previous approaches typically retrain the model, forcing it to fit the most recent observed data. However, retraining is problematic in that it leads to model lag, consumption of resources, and model re-invalidation, causing the drift problem to be not well solved in realistic scenarios. In this study, we propose a new urban time series prediction model for the concept drift problem, which encodes the drift by considering the periodicity in the data and makes on-the-fly adjustments to the model based on the drift using a meta-dynamic network. Experiments on real-world datasets show that our design significantly outperforms state-of-the-art methods and can be well generalized to existing prediction backbones by reducing their sensitivity to distribution changes.
翻訳日:2023-09-26 15:01:15 公開日:2023-09-25
# 自動運転車はシステム、サイバーセキュリティ、リスク、問題、そしてこれからの道のりを概観する

Autonomous Vehicles an overview on system, cyber security, risks, issues, and a way forward ( http://arxiv.org/abs/2309.14213v1 )

ライセンス: Link先を確認
Md Aminul Islam (1), Sarah Alqahtani,(2) ((1) Oxford Brookes University, UK, (2) Oxford Brookes University, UK)(参考訳) この章は自動運転車の複雑な領域を探求し、それらの基本的な構成要素と運用特性を分析します。 議論の初期段階は、センサー、人工知能(AI)識別システム、制御メカニズム、およびIoT(Internet of Things)フレームワーク内のクラウドベースのサーバとの統合といった重要な関与を含む、これらの自動車の内部メカニズムの解明である。 自動運転車の実装を実践し、交通パターンの予測や交通のダイナミクスの変化における利用を強調する。 このテキストはまた、タスクの自動化を通じて、自動運転車がさまざまなビジネスに与える影響を説明するロボットプロセス自動化(RPA)のトピックについても説明している。 この調査の主な焦点は、サイバーセキュリティの領域、特に自動運転車のコンテキストにある。 倫理的、環境的、法律的、専門的、社会的次元を含む潜在的な脅威からこれらの車両を保護するための様々なリスク管理ソリューションを総合的に検討し、社会的含意を包括的に考察する。 自動運転車システム、サイバーセキュリティ、ハザードなどの複雑な地形を効果的に横断するための課題と戦略に取り組むための戦略計画は、現代の社会において複雑な自動運転車の領域とその分岐を理解するためのリソースであり、さらなる調査のためのリソースの包括的なまとめによって支えられている。 キーワード: RPA、サイバーセキュリティ、AV、リスク、スマートカー

This chapter explores the complex realm of autonomous cars, analyzing their fundamental components and operational characteristics. The initial phase of the discussion is elucidating the internal mechanics of these automobiles, encompassing the crucial involvement of sensors, artificial intelligence (AI) identification systems, control mechanisms, and their integration with cloud-based servers within the framework of the Internet of Things (IoT). It delves into practical implementations of autonomous cars, emphasizing their utilization in forecasting traffic patterns and transforming the dynamics of transportation. The text also explores the topic of Robotic Process Automation (RPA), illustrating the impact of autonomous cars on different businesses through the automation of tasks. The primary focus of this investigation lies in the realm of cybersecurity, specifically in the context of autonomous vehicles. A comprehensive analysis will be conducted to explore various risk management solutions aimed at protecting these vehicles from potential threats including ethical, environmental, legal, professional, and social dimensions, offering a comprehensive perspective on their societal implications. A strategic plan for addressing the challenges and proposing strategies for effectively traversing the complex terrain of autonomous car systems, cybersecurity, hazards, and other concerns are some resources for acquiring an understanding of the intricate realm of autonomous cars and their ramifications in contemporary society, supported by a comprehensive compilation of resources for additional investigation. Keywords: RPA, Cyber Security, AV, Risk, Smart Cars
翻訳日:2023-09-26 15:00:55 公開日:2023-09-25
# QuadricsNet: ポイントクラウドにおける幾何学的プリミティブの簡潔表現学習

QuadricsNet: Learning Concise Representation for Geometric Primitives in Point Clouds ( http://arxiv.org/abs/2309.14211v1 )

ライセンス: Link先を確認
Ji Wu, Huai Yu, Wen Yang, Gui-Song Xia(参考訳) 本稿では3次元点雲の精密な幾何学的原始表現を学習するための新しい枠組みを提案する。 それぞれのプリミティブを個々に表現するのと異なり、簡潔で均一な表現を堅牢に達成する方法という難題に焦点をあてる。 10個のパラメータを持つ多様なプリミティブを表現するためにquadricsを採用し、ポイントクラウドでquadricsを解析する最初のエンドツーエンド学習ベースのフレームワーク、quadricsnetを提案している。 四次数学の定式化と、タイプ、スケール、ポーズを含む幾何学的属性の関係は、QuidricsNetの効果的な監視のために洞察的に統合される。 さらに、トレーニングと評価のために、二次セグメントとオブジェクトを含む新しいパターン包括的データセットを収集する。 実験は、簡潔な表現の有効性とQuadricsNetの堅牢性を示す。 我々のコードは \url{https://github.com/MichaelWu99-lab/QuadricsNet} で入手できる。

This paper presents a novel framework to learn a concise geometric primitive representation for 3D point clouds. Different from representing each type of primitive individually, we focus on the challenging problem of how to achieve a concise and uniform representation robustly. We employ quadrics to represent diverse primitives with only 10 parameters and propose the first end-to-end learning-based framework, namely QuadricsNet, to parse quadrics in point clouds. The relationships between quadrics mathematical formulation and geometric attributes, including the type, scale and pose, are insightfully integrated for effective supervision of QuaidricsNet. Besides, a novel pattern-comprehensive dataset with quadrics segments and objects is collected for training and evaluation. Experiments demonstrate the effectiveness of our concise representation and the robustness of QuadricsNet. Our code is available at \url{https://github.com/MichaelWu99-lab/QuadricsNet}
翻訳日:2023-09-26 15:00:27 公開日:2023-09-25
# ミューオン原子における核反動効果のQED計算

QED calculations of the nuclear recoil effect in muonic atoms ( http://arxiv.org/abs/2309.14210v1 )

ライセンス: Link先を確認
Vladimir A. Yerokhin and Natalia S. Oreshkina(参考訳) 質量シフトとして知られる核反動効果は、ミューオン原子のエネルギー準位に対する理論的貢献の1つである。 したがって、実験スペクトルから核電荷半径を抽出するために正確な理論予測が必要である。 我々は、原子核結合強度パラメータである$z\alpha$(ここで$z$は核電荷数、$\alpha$は微細構造定数)の全ての順序に対して、原子核反動補正の厳密なqed計算を報告している。 計算は、この効果の以前の近似処理との違いを示しており、最も顕著なのは、最下層境界状態である。 計算されたリコイル補正は、測定されたスペクトルから核パラメータを抽出する際に考慮する必要がある核電荷半径に敏感であることが判明した。

The nuclear recoil effect, known also as the mass shift, is one of theoretical contributions to the energy levels in muonic atoms. Accurate theoretical predictions are therefore needed for extracting e.g. the nuclear charge radii from experimental spectra. We report rigorous QED calculations of the nuclear recoil correction in muonic atoms, carried out to all orders in the nuclear binding strength parameter $Z\alpha$ (where $Z$ is the nuclear charge number and $\alpha$ is the fine structure constant). The calculations show differences with the previous approximate treatment of this effect, most pronounced for the lowest-lying bound states. The calculated recoil correction was found to be sensitive to the nuclear charge radius, which needs to be accounted for when extracting nuclear parameters from the measured spectra.
翻訳日:2023-09-26 15:00:11 公開日:2023-09-25
# 閉ループ個別化曲線を用いた連続運転政策最適化

Continual Driving Policy Optimization with Closed-Loop Individualized Curricula ( http://arxiv.org/abs/2309.14209v1 )

ライセンス: Link先を確認
Haoyi Niu, Yizhou Xu, Xingjian Jiang, Jianming Hu(参考訳) 自動運転車(AV)の安全性は、長い尾の自然主義運転分布において稀で安全に重要なシナリオが欠如していることから、長年の最大の懸念事項となっている。 この課題に取り組むために、高リスク運転シナリオの生成と、avモデルの安全性クリティカルテストの適用に重点を置いた、シナリオベースの自動運転の研究が急増している。 しかし、avモデルを反復的に改善するためにこれらの広範なシナリオを再利用する作業は限られている。 さらに、異なる振る舞いを持つ他のAVモデルから収集された巨大なシナリオライブラリを抽出し、現在のAV改善のために転送可能な情報を抽出することが難しかった。 そこで我々は,CLIC(Crowd-Loop individualized Curricula)を特徴とする連続運転ポリシー最適化フレームワークを開発し,AV評価,シナリオ選択,AVトレーニングなど,フレキシブルな実装選択のための標準化されたサブモジュールのセットに分解する。 CLICは衝突予測タスクとしてAV評価をフレーム化し、各イテレーションでこれらのシナリオでAV障害が起こる確率を見積もる。 その後、これらの障害確率に基づいて過去のシナリオを再サンプリングすることで、CLICは下流トレーニング用に個別化されたキュキュラを調整し、AVの評価能力と整合させる。 したがって、CLICは、クローズドループ駆動ポリシー最適化のための膨大な事前コンパイルされたシナリオライブラリの利用を最大化するだけでなく、トレーニングをこれらの未整理シナリオからより困難なケースで識別することで、AV改善を促進する。 実験結果から,CLICは他のカリキュラムベースのトレーニング戦略を超越し,リスクのあるシナリオの管理が大幅に改善され,単純なケースの処理能力は維持されていることが明らかとなった。

The safety of autonomous vehicles (AV) has been a long-standing top concern, stemming from the absence of rare and safety-critical scenarios in the long-tail naturalistic driving distribution. To tackle this challenge, a surge of research in scenario-based autonomous driving has emerged, with a focus on generating high-risk driving scenarios and applying them to conduct safety-critical testing of AV models. However, limited work has been explored on the reuse of these extensive scenarios to iteratively improve AV models. Moreover, it remains intractable and challenging to filter through gigantic scenario libraries collected from other AV models with distinct behaviors, attempting to extract transferable information for current AV improvement. Therefore, we develop a continual driving policy optimization framework featuring Closed-Loop Individualized Curricula (CLIC), which we factorize into a set of standardized sub-modules for flexible implementation choices: AV Evaluation, Scenario Selection, and AV Training. CLIC frames AV Evaluation as a collision prediction task, where it estimates the chance of AV failures in these scenarios at each iteration. Subsequently, by re-sampling from historical scenarios based on these failure probabilities, CLIC tailors individualized curricula for downstream training, aligning them with the evaluated capability of AV. Accordingly, CLIC not only maximizes the utilization of the vast pre-collected scenario library for closed-loop driving policy optimization but also facilitates AV improvement by individualizing its training with more challenging cases out of those poorly organized scenarios. Experimental results clearly indicate that CLIC surpasses other curriculum-based training strategies, showing substantial improvement in managing risky scenarios, while still maintaining proficiency in handling simpler cases.
翻訳日:2023-09-26 14:59:55 公開日:2023-09-25
# 複雑なネットワークに基づく患者経路のモデル化とマイニング

Framework based on complex networks to model and mine patient pathways ( http://arxiv.org/abs/2309.14208v1 )

ライセンス: Link先を確認
Caroline de Oliveira Costa Souza Rosa and M\'arcia Ito and Alex Borges Vieira and Klaus Wehmuth and Ant\^onio Tadeu Azevedo Gomes(参考訳) 医療システム(いわゆる「患者の道」)を持つ患者の出会いの履歴を表すモデルの自動発見は、提供された治療の質と効率を改善するための臨床および組織的な決定を支援する新しい研究分野である。 慢性疾患患者の経路は、ある人から別の人へ大きく変化し、反復作業を行い、その結果に影響を及ぼす複数の視点(介入、診断、医学的専門性など)の分析を要求する傾向がある。 したがって、これらの経路のモデリングとマイニングは依然として難しい課題である。 本稿では,以下のフレームワークを提案する。 (i)マルチアスペクトグラフに基づく経路モデル (ii)経過時間をとる経路を比較するための新しい相似性測定、及び (iii)経路の最も適切な段階を発見するために、伝統的な中央集権的措置に基づく採鉱方法。 本研究は, 妊娠と糖尿病の研究事例を用いて, 類似経路のクラスターの発見に有用であること, 容易に解釈できる方法で表現できること, および複数の視点で最も顕著なパターンを強調した。

The automatic discovery of a model to represent the history of encounters of a group of patients with the healthcare system -- the so-called ``pathway of patients'' -- is a new field of research that supports clinical and organisational decisions to improve the quality and efficiency of the treatment provided. The pathways of patients with chronic conditions tend to vary significantly from one person to another, have repetitive tasks, and demand the analysis of multiple perspectives (interventions, diagnoses, medical specialities, among others) influencing the results. Therefore, modelling and mining those pathways is still a challenging task. In this work, we propose a framework comprising: (i) a pathway model based on a multi-aspect graph, (ii) a novel dissimilarity measurement to compare pathways taking the elapsed time into account, and (iii) a mining method based on traditional centrality measures to discover the most relevant steps of the pathways. We evaluated the framework using the study cases of pregnancy and diabetes, which revealed its usefulness in finding clusters of similar pathways, representing them in an easy-to-interpret way, and highlighting the most significant patterns according to multiple perspectives.
翻訳日:2023-09-26 14:59:22 公開日:2023-09-25
# スチルポートレート写真におけるヘアブラッシングの自動アニメーション

Automatic Animation of Hair Blowing in Still Portrait Photos ( http://arxiv.org/abs/2309.14207v1 )

ライセンス: Link先を確認
Wenpeng Xiao, Wentao Liu, Yitong Wang, Bernard Ghanem, Bing Li(参考訳) 静止画写真における人間の毛髪をアニメーション化するための新しいアプローチを提案する。 現存する研究は、水や火などの流体要素のアニメーションを研究してきた。 しかし, 髪の構造や動態の複雑さが高いため, 実際の画像のヘアアニメーションは未探索のままであり, 難しい問題である。 毛髪構造の複雑さを考慮し, 毛髪のwisp抽出を事例分割問題として, 毛髪のwisp抽出を事例として扱う。 先進的なインスタンスセグメンテーションネットワークでは,本手法は有意義で自然な毛髪を抽出する。 さらに, 毛髪のさやきを目立たず, 快楽な動きで再現できるwisp対応アニメーションモジュールを提案する。 実験により,本手法の優位性を示した。 本手法は,定性的実験において最も面白く,魅力的な視聴体験を提供し,定量評価において最先端の静止画像アニメーション法より優れる。 プロジェクトurl: \url{https://nevergiveu.github.io/automatichairblowing/}

We propose a novel approach to animate human hair in a still portrait photo. Existing work has largely studied the animation of fluid elements such as water and fire. However, hair animation for a real image remains underexplored, which is a challenging problem, due to the high complexity of hair structure and dynamics. Considering the complexity of hair structure, we innovatively treat hair wisp extraction as an instance segmentation problem, where a hair wisp is referred to as an instance. With advanced instance segmentation networks, our method extracts meaningful and natural hair wisps. Furthermore, we propose a wisp-aware animation module that animates hair wisps with pleasing motions without noticeable artifacts. The extensive experiments show the superiority of our method. Our method provides the most pleasing and compelling viewing experience in the qualitative experiments and outperforms state-of-the-art still-image animation methods by a large margin in the quantitative evaluation. Project url: \url{https://nevergiveu.github.io/AutomaticHairBlowing/}
翻訳日:2023-09-26 14:59:03 公開日:2023-09-25
# OmniEvent: イベント理解のための総合的で公平で使いやすいツールキット

OmniEvent: A Comprehensive, Fair, and Easy-to-Use Toolkit for Event Understanding ( http://arxiv.org/abs/2309.14258v1 )

ライセンス: Link先を確認
Hao Peng, Xiaozhi Wang, Feng Yao, Zimu Wang, Chuzhao Zhu, Kaisheng Zeng, Lei Hou, Juanzi Li(参考訳) イベント理解は、テキスト内のイベントの内容と関連を理解することを目的としており、イベント検出、イベント引数抽出、イベント関係抽出など、複数の複雑な情報抽出タスクをカバーする。 本稿では,関連する研究と応用を容易にするために,3つのデシデラタを特徴とするイベント理解ツールキットomnieventを提案する。 OmniEventは、すべてのイベント理解タスクの主流モデリングパラダイムと、広く使用されている15の英語と中国語のデータセットの処理をサポートする。 (2)フェア。 OmniEvent は Peng et al. (2023) で報告された不明瞭な評価の落とし穴を慎重に処理し、異なるモデル間の公正な比較を保証する。 (3)使い易い。 OmniEventは、さまざまなニーズを持ったユーザが簡単に利用できるように設計されている。 私たちは、Webサービスとして直接デプロイできる既製のモデルを提供しています。 モジュラーフレームワークはまた、omnieventで新しいイベント理解モデルの実装と評価を簡単に行うことができる。 ツールキット(https://github.com/THU-KEG/OmniEvent)とデモサイトとビデオ(https://omnievent.xlore.cn/)が公開されている。

Event understanding aims at understanding the content and relationship of events within texts, which covers multiple complicated information extraction tasks: event detection, event argument extraction, and event relation extraction. To facilitate related research and application, we present an event understanding toolkit OmniEvent, which features three desiderata: (1) Comprehensive. OmniEvent supports mainstream modeling paradigms of all the event understanding tasks and the processing of 15 widely-used English and Chinese datasets. (2) Fair. OmniEvent carefully handles the inconspicuous evaluation pitfalls reported in Peng et al. (2023), which ensures fair comparisons between different models. (3) Easy-to-use. OmniEvent is designed to be easily used by users with varying needs. We provide off-the-shelf models that can be directly deployed as web services. The modular framework also enables users to easily implement and evaluate new event understanding models with OmniEvent. The toolkit (https://github.com/THU-KEG/OmniEvent) is publicly released along with the demonstration website and video (https://omnievent.xlore.cn/).
翻訳日:2023-09-26 14:52:42 公開日:2023-09-25
# ランダム化対照治験における効率的かつ強力な治療効果推定のための重み付き予測型共変量調整法

A Weighted Prognostic Covariate Adjustment Method for Efficient and Powerful Treatment Effect Inferences in Randomized Controlled Trials ( http://arxiv.org/abs/2309.14256v1 )

ライセンス: Link先を確認
Alyssa M. Vanderbeek, Anna A. Vidovszky, Jessica L. Ross, Arman Sabbaghi, Jonathan R. Walsh, Charles K. Fisher, the Critical Path for Alzheimer's Disease, the Alzheimer's Disease Neuroimaging Initiative, the European Prevention of Alzheimer's Disease (EPAD) Consortium, the Alzheimer's Disease Cooperative Study(参考訳) ランダム化制御試験(RCT)の重要な課題は、効率的な推定器と治療効果の強力な試験を得られる統計手法を特定することである。 効率的かつ強力な治療効果推論を得るための新しい効果的な戦略は、生成型人工知能(ai)アルゴリズムからの予測をrctの回帰分析のための共変量調整に組み込むことである。 履歴制御データ上で生成型aiアルゴリズムを訓練することで、参加者のベースライン共変量を利用して潜在的な制御結果の確率分布を生成するrct参加者のためのデジタルツインジェネレータ(dtg)を構築することができる。 DTGからの確率分布の要約は、試験結果の予測が極めて高く、回帰によるこれらの特徴の調整は、RCTの統計分析に関する規制ガイドラインを満たすとともに、治療効果推論の品質を向上させることができる。 しかし、この戦略における批判的な仮定は、共変量上の結果条件の恒等性(homoskedasticity)である。 ヘテロスケルキスティック性の場合、既存の共変量調整法は非効率な推定器と非力なテストをもたらす。 本稿では,dtgから得られた情報を用いて回帰モデルの平均と分散の両方を調節する重み付き予測型共変量調整手法(weighted procova)によるヘテロスケクチュア性に対処することを提案する。 本手法は偏りのない治療効果推定子を生じさせることを実証し, アルツハイマー病の総合的なシミュレーション研究とケーススタディにより, 治療効果推定子のばらつきを低減し, タイプiの誤差率を維持し, テストのパワーを80%から85%から90%に増やし, dtgのばらつきがrct参加者の結果の5%~10%を説明できることを示した。

A crucial task for a randomized controlled trial (RCT) is to specify a statistical method that can yield an efficient estimator and powerful test for the treatment effect. A novel and effective strategy to obtain efficient and powerful treatment effect inferences is to incorporate predictions from generative artificial intelligence (AI) algorithms into covariate adjustment for the regression analysis of a RCT. Training a generative AI algorithm on historical control data enables one to construct a digital twin generator (DTG) for RCT participants, which utilizes a participant's baseline covariates to generate a probability distribution for their potential control outcome. Summaries of the probability distribution from the DTG are highly predictive of the trial outcome, and adjusting for these features via regression can thus improve the quality of treatment effect inferences, while satisfying regulatory guidelines on statistical analyses, for a RCT. However, a critical assumption in this strategy is homoskedasticity, or constant variance of the outcome conditional on the covariates. In the case of heteroskedasticity, existing covariate adjustment methods yield inefficient estimators and underpowered tests. We propose to address heteroskedasticity via a weighted prognostic covariate adjustment methodology (Weighted PROCOVA) that adjusts for both the mean and variance of the regression model using information obtained from the DTG. We prove that our method yields unbiased treatment effect estimators, and demonstrate via comprehensive simulation studies and case studies from Alzheimer's disease that it can reduce the variance of the treatment effect estimator, maintain the Type I error rate, and increase the power of the test for the treatment effect from 80% to 85%~90% when the variances from the DTG can explain 5%~10% of the variation in the RCT participants' outcomes.
翻訳日:2023-09-26 14:52:17 公開日:2023-09-25
# 高ロバスト性を有するワードゲーム結果の予測モデル

Prediction Model For Wordle Game Results With High Robustness ( http://arxiv.org/abs/2309.14250v1 )

ライセンス: Link先を確認
Jiaqi Weng, Chunlin Feng(参考訳) 本研究では,データ解析と機械学習を用いて,Wordleのダイナミクスを探索する。 分析は最初,提出された結果の数と日付の相関に注目した。 初期人気バイアスにより,係数が9,0,2,平日/平日/平日を外生変数とするARIMAXモデルを用いて,安定なデータをモデル化した。 単語属性とハードモード結果との間に有意な相関は認められなかった。 単語難易度を予測するために,我々は,機能工学によるオーバーフィットを克服するバックプロパゲーションニューラルネットワークを用いた。 また,5クラスタに最適化したk-meansクラスタリングを用いて,単語難易度を数値的に分類した。 以上の結果から,2023年3月1日に約12,884件の結果が提出され,平均4.8回,最も難易度の高いクラスタに落下することが示唆された。 さらに,忠実な選手の割合と,日々の課題に取り組む選手の傾向についても検討した。 ADF, ACF, PACF試験, クロスバリデーションなどの厳密な感度解析を行い, その堅牢性を確認した。 全体として、本研究は、日付または所定の5文字単語に基づいて、wordleゲームプレイの予測フレームワークを提供する。 結果はNew York TimesのPuzzle Editorにまとめて提出された。

In this study, we delve into the dynamics of Wordle using data analysis and machine learning. Our analysis initially focused on the correlation between the date and the number of submitted results. Due to initial popularity bias, we modeled stable data using an ARIMAX model with coefficient values of 9, 0, 2, and weekdays/weekends as the exogenous variable. We found no significant relationship between word attributes and hard mode results. To predict word difficulty, we employed a Backpropagation Neural Network, overcoming overfitting via feature engineering. We also used K-means clustering, optimized at five clusters, to categorize word difficulty numerically. Our findings indicate that on March 1st, 2023, around 12,884 results will be submitted and the word "eerie" averages 4.8 attempts, falling into the hardest difficulty cluster. We further examined the percentage of loyal players and their propensity to undertake daily challenges. Our models underwent rigorous sensitivity analyses, including ADF, ACF, PACF tests, and cross-validation, confirming their robustness. Overall, our study provides a predictive framework for Wordle gameplay based on date or a given five-letter word. Results have been summarized and submitted to the Puzzle Editor of the New York Times.
翻訳日:2023-09-26 14:51:19 公開日:2023-09-25
# llmsによるインターネット通信再考:我々はどのくらい近いのか?

Rethinking Internet Communication Through LLMs: How Close Are We? ( http://arxiv.org/abs/2309.14247v1 )

ライセンス: Link先を確認
Sifat Ut Taki, Spyridon Mastorakis(参考訳) 本稿では,インターネット進化の基本的な成果の一つであるインターネット上のユーザ間のコミュニケーションのあり方を再考する。 ユーザがインターネット上で直接通信する代わりに、通信チャネルの反対側のユーザの認識をキャプチャする(クエリ)大規模言語モデル(llm)と通信可能なアーキテクチャを探求する。 我々は、そのようなllmベースの通信を実現するためのアーキテクチャを提示し、技術的観点からの通信アーキテクチャの実現に現在どれだけ近づいたかを評価するために現実のチェックを行う。 最後に,いくつかの研究課題について論じ,今後の研究の方向性を明らかにする。

In this paper, we rethink the way that communication among users over the Internet, one of the fundamental outcomes of the Internet evolution, takes place. Instead of users communicating directly over the Internet, we explore an architecture that enables users to communicate with (query) Large Language Models (LLMs) that capture the cognition of users on the other end of the communication channel. We present an architecture to achieve such LLM-based communication and we perform a reality check to assess how close we are today to realizing such a communication architecture from a technical point of view. Finally, we discuss several research challenges and identify interesting directions for future research.
翻訳日:2023-09-26 14:50:18 公開日:2023-09-25
# 分布強化学習を用いた学習リスクアウェア四足歩行

Learning Risk-Aware Quadrupedal Locomotion using Distributional Reinforcement Learning ( http://arxiv.org/abs/2309.14246v1 )

ライセンス: Link先を確認
Lukas Schneider, Jonas Frey, Takahiro Miki, Marco Hutter(参考訳) 危険な環境での展開では、ロボットは事故を防ぐために行動や動きにかかわるリスクを理解する必要がある。 その重要性にもかかわらず、これらのリスクは足付きロボットに現在配備されているロコモーションコントローラによって明示的にモデル化されていない。 本研究では,分散強化学習を用いて安全性を明示的に考慮し,リスクに敏感なロコモーショントレーニング手法を提案する。 本研究では,ロボットが環境と相互作用する際の不確実性を考慮した完全な値分布を推定する。 値分布はリスクメトリックによって消費され、リスク敏感な値推定を抽出する。 これらをPPO(Proximal Policy Optimization)に統合し,その手法であるDPPO(Distributedal Proximal Policy Optimization)を導出する。 リスク・アバースからリスク・サーキングまで、リスク・プライオリティは単一のパラメータで制御でき、ロボットの動作を動的に調整することができる。 重要なことに、このアプローチはリスク感受性を達成するために追加の報酬関数チューニングの必要性を取り除きます。 シミュレーションおよび四足歩行ロボットanymalにおいて,創発的リスクに敏感な移動行動を示す。

Deployment in hazardous environments requires robots to understand the risks associated with their actions and movements to prevent accidents. Despite its importance, these risks are not explicitly modeled by currently deployed locomotion controllers for legged robots. In this work, we propose a risk sensitive locomotion training method employing distributional reinforcement learning to consider safety explicitly. Instead of relying on a value expectation, we estimate the complete value distribution to account for uncertainty in the robot's interaction with the environment. The value distribution is consumed by a risk metric to extract risk sensitive value estimates. These are integrated into Proximal Policy Optimization (PPO) to derive our method, Distributional Proximal Policy Optimization (DPPO). The risk preference, ranging from risk-averse to risk-seeking, can be controlled by a single parameter, which enables to adjust the robot's behavior dynamically. Importantly, our approach removes the need for additional reward function tuning to achieve risk sensitivity. We show emergent risk sensitive locomotion behavior in simulation and on the quadrupedal robot ANYmal.
翻訳日:2023-09-26 14:50:04 公開日:2023-09-25
# 私たちはどうやって走るのか? OSSコミュニティにおけるガバナンスの形式化と実践

Do We Run How We Say We Run? Formalization and Practice of Governance in OSS Communities ( http://arxiv.org/abs/2309.14245v1 )

ライセンス: Link先を確認
Mahasweta Chakraborti, Curtis Atkisson, Stefan Stanciulescu, Vladimir Filkov, Seth Frey(参考訳) オープンソースソフトウェア(OSS)コミュニティは、伝統的組織の典型的な規制に抵抗することが多い。 しかし、正式なガバナンスシステムは、特に非営利団体のメンター財団を通じて、コミュニティの間でますます採用されている。 私たちの調査では、Apache Software Foundation Incubatorプログラムとサポートする208のプロジェクトについて調べています。 スケーラブルでセマンティックなパイプラインを組み立てて、メーリングリストからプロジェクトのガバナンス行動を発見し、分析します。 次に、コミュニティ間の正式な政策の受容について、独自のガバナンスの優先順位と政策の内部化を通して検討する。 以上の結果から,コミュニティは形式的な要件や政策を定義どおりに広く観察する一方で,その日常的なガバナンスの焦点は,公式な政策決定のトピックに大きく依存していないことが示唆された。 さらに、ガバナンスの焦点を専門とする、あるいはポリシーを採用するといった形式化は、プロジェクトの持続性に制限があります。

Open Source Software (OSS) communities often resist regulation typical of traditional organizations. Yet formal governance systems are being increasingly adopted among communities, particularly through non-profit mentor foundations. Our study looks at the Apache Software Foundation Incubator program and 208 projects it supports. We assemble a scalable, semantic pipeline to discover and analyze the governance behavior of projects from their mailing lists. We then investigate the reception of formal policies among communities, through their own governance priorities and internalization of the policies. Our findings indicate that while communities observe formal requirements and policies as extensively as they are defined, their day-to-day governance focus does not dwell on topics that see most formal policy-making. Moreover formalization, be it dedicating governance focus or adopting policy, has limited association with project sustenance.
翻訳日:2023-09-26 14:49:36 公開日:2023-09-25
# 強化学習におけるデータ効率の向上:メッシュ情報伝達に基づく新しい想像機構

Enhancing data efficiency in reinforcement learning: a novel imagination mechanism based on mesh information propagation ( http://arxiv.org/abs/2309.14243v1 )

ライセンス: Link先を確認
Zihang Wang, Maowei Jiang(参考訳) 強化学習(RL)アルゴリズムは、特に高次元の状態空間や大規模問題を扱う場合、データ効率の限界に直面する。 ほとんどのRLメソッドは、エージェントのCriticを更新する際に、同じエピソード内の状態遷移情報にのみ依存することが多く、これはデータ効率の低下と準最適トレーニング時間の消費につながる。 人間の類似推論能力に触発されて,RLアルゴリズムのデータ効率を大幅に向上させるために,新しいメッシュ情報伝達機構「Imagination Mechanism (IM)」を導入する。 具体的には、単一のサンプルによって生成された情報を、単に同じエピソードを送信するのではなく、異なる状態に効果的にブロードキャストすることができ、モデルが状態間の相互依存性をよりよく理解し、少ないサンプル情報をより効率的に学習することができる。 汎用性を促進するため,他の広く採用されているrlモデルにシームレスに,流動的に統合可能なプラグアンドプレイモジュールとして機能するために,イマジネーション機構を拡張する。 SAC, PPO, DDPG, DQN などの 4 つの主要な SOTA RL アルゴリズムを一定間隔で向上させることで, 従来よりも優れた性能が得られることを示した。 コードとデータにアクセスするには、https://github.com/Zero-coder/FECAMをご覧ください。

Reinforcement learning (RL) algorithms face the challenge of limited data efficiency, particularly when dealing with high-dimensional state spaces and large-scale problems. Most RL methods often rely solely on state transition information within the same episode when updating the agent's Critic, which can lead to low data efficiency and sub-optimal training time consumption. Inspired by human-like analogical reasoning abilities, we introduce a novel mesh information propagation mechanism, termed the 'Imagination Mechanism (IM)', designed to significantly enhance the data efficiency of RL algorithms. Specifically, IM enables information generated by a single sample to be effectively broadcasted to different states, instead of simply transmitting in the same episode and it allows the model to better understand the interdependencies between states and learn scarce sample information more efficiently. To promote versatility, we extend the imagination mechanism to function as a plug-and-play module that can be seamlessly and fluidly integrated into other widely adopted RL models. Our experiments demonstrate that Imagination mechanism consistently boosts four mainstream SOTA RL-algorithms, such as SAC, PPO, DDPG, and DQN, by a considerable margin, ultimately leading to superior performance than before across various tasks. For access to our code and data, please visit https://github.com/Zero-coder/FECAM.
翻訳日:2023-09-26 14:49:22 公開日:2023-09-25
# ワンショットクロスドメインセマンティックセマンティックセグメンテーションのためのインフォーマティブデータマイニング

Informative Data Mining for One-Shot Cross-Domain Semantic Segmentation ( http://arxiv.org/abs/2309.14241v1 )

ライセンス: Link先を確認
Yuxi Wang, Jian Liang, Jun Xiao, Shuqi Mei, Yuran Yang, Zhaoxiang Zhang(参考訳) 現代ドメイン適応は、ラベル付きソースデータとラベルなしターゲットデータ間のセマンティックセグメンテーションのクロスドメイン転送を実現するための実用的なソリューションを提供する。 これらのソリューションは大きな人気を得たが、テスト環境が変わったときにモデルを再トレーニングする必要がある。 これにより、時間のかかるトレーニングプロセスとデータプライバシに関する懸念のために、特定のアプリケーションで耐え難いコストが発生する可能性がある。 ワンショットのドメイン適応手法は、トレーニング済みのソースモデルを1つのターゲットデータのみを使用してターゲットドメインに転送することで、これらの課題を克服しようとする。 それにもかかわらず、参照スタイル転送モジュールは計算コストと過度に適合する問題に直面している。 この問題に対処するために,意味的セグメンテーションのための効率的なワンショットドメイン適応を可能にする,Informative Data Mining (IDM) と呼ばれる新しいフレームワークを提案する。 特に、IDMは、最も情報性の高いサンプルを特定するために、不確実性に基づく選択基準を提供し、迅速に適応し、冗長なトレーニングを減らす。 次に、これらのサンプルを用いて、パッチワイドミキシングとプロトタイプベースの情報最大化を含むモデル適応を行い、モデルを更新する。 このアプローチは適応性を効果的に向上し、オーバーフィッティング問題を緩和する。 一般に、idmの有効性と効率の実証的な証拠を提供する。 提案手法は,既存の手法を上回り,gta5/synthiaから都市景観適応タスクへ,56.7\%/55.4\%の新たなワンショット性能を達成する。 コードは \url{https://github.com/yxiwang/IDM} でリリースされる。

Contemporary domain adaptation offers a practical solution for achieving cross-domain transfer of semantic segmentation between labeled source data and unlabeled target data. These solutions have gained significant popularity; however, they require the model to be retrained when the test environment changes. This can result in unbearable costs in certain applications due to the time-consuming training process and concerns regarding data privacy. One-shot domain adaptation methods attempt to overcome these challenges by transferring the pre-trained source model to the target domain using only one target data. Despite this, the referring style transfer module still faces issues with computation cost and over-fitting problems. To address this problem, we propose a novel framework called Informative Data Mining (IDM) that enables efficient one-shot domain adaptation for semantic segmentation. Specifically, IDM provides an uncertainty-based selection criterion to identify the most informative samples, which facilitates quick adaptation and reduces redundant training. We then perform a model adaptation method using these selected samples, which includes patch-wise mixing and prototype-based information maximization to update the model. This approach effectively enhances adaptation and mitigates the overfitting problem. In general, we provide empirical evidence of the effectiveness and efficiency of IDM. Our approach outperforms existing methods and achieves a new state-of-the-art one-shot performance of 56.7\%/55.4\% on the GTA5/SYNTHIA to Cityscapes adaptation tasks, respectively. The code will be released at \url{https://github.com/yxiwang/IDM}.
翻訳日:2023-09-26 14:48:58 公開日:2023-09-25
# 不正なデータから遠ざかる学習

Learning to Abstain From Uninformative Data ( http://arxiv.org/abs/2309.14240v1 )

ライセンス: Link先を確認
Yikai Zhang, Songzhu Zheng, Mina Dalirrooyfard, Pengxiang Wu, Anderson Schneider, Anant Raj, Yuriy Nevmyvaka, Chao Chen(参考訳) 自然にノイズ/信号比が高いドメイン(例えば、金融やヘルスケアなど)での学習と意思決定は、しばしば困難である。 本稿では,一般の騒音発生過程における学習と行動の問題について検討する。 この問題において,データ分布はラベル中のノイズの多い不均一なサンプルの割合がかなり高いのに対して,データの一部にはラベルノイズを表す有用な情報が含まれている。 この二分法は、トレーニングと推論の両方の間に存在し、トレーニングとテストの両方において、不正なデータの適切な処理を必要とする。 選択学習理論に触発された損失を通じて,これらの条件下で学習する新しいアプローチを提案する。 この損失を最小化することにより、情報的データを非形式的データと区別し、予測を行うことにより、ほぼ最適決定が保証される。 予測器とセレクタの両方を共同で最適化した反復アルゴリズムを記述し,その経験的性能を様々な設定で評価することで,理論的な保証の強みを生かした。

Learning and decision-making in domains with naturally high noise-to-signal ratio, such as Finance or Healthcare, is often challenging, while the stakes are very high. In this paper, we study the problem of learning and acting under a general noisy generative process. In this problem, the data distribution has a significant proportion of uninformative samples with high noise in the label, while part of the data contains useful information represented by low label noise. This dichotomy is present during both training and inference, which requires the proper handling of uninformative data during both training and testing. We propose a novel approach to learning under these conditions via a loss inspired by the selective learning theory. By minimizing this loss, the model is guaranteed to make a near-optimal decision by distinguishing informative data from uninformative data and making predictions. We build upon the strength of our theoretical guarantees by describing an iterative algorithm, which jointly optimizes both a predictor and a selector, and evaluates its empirical performance in a variety of settings.
翻訳日:2023-09-26 14:48:31 公開日:2023-09-25
# シナリオベース閉ループ自動運転における継続的な政策改善のためのStackelbergドライバモデル

Stackelberg Driver Model for Continual Policy Improvement in Scenario-Based Closed-Loop Autonomous Driving ( http://arxiv.org/abs/2309.14235v1 )

ライセンス: Link先を確認
Haoyi Niu, Qimao Chen, Yingyue Li, Jianming Hu(参考訳) 自律走行車(AV)の配備は、運転シナリオの長期分布において稀だが重要なコーナーケースが支配的であり、全体のパフォーマンスに悪影響を及ぼすため、ハードルに直面している。 この課題に対処するために、adversarial generation methodは、avテストの安全性-クリティカルシナリオを合成するための効率的なアプローチのクラスとして登場した。 しかし、これらの生成されたシナリオはしばしばav訓練に未使用であり、それを達成するのに必要なクローズドループ設計の欠如とともに、継続的なavポリシー改善の可能性を秘めている。 そこで我々は,Stackelberg Driver Model (SDM) を用いて,車両相互作用の階層的特性を正確に把握し,背景車両 (BV) とAVを逐次ゲームライクなインタラクションパラダイムで動作させることにより,反復的改善を促進する。 AVがリーダーとして働き、BVがフォロワーとして振る舞うことにより、このリーダー・フォロワー・モデリングは、AVが一貫して政策を洗練させ、常にBVがAVに挑戦する上で最良の対応をする追加情報を考慮する。 広範な実験により,本アルゴリズムは,特に高次元シナリオにおいて,複数のベースラインよりも優れた性能を示し,段階的に挑戦的なシナリオを生成しながら,av能力が大幅に向上することを示した。

The deployment of autonomous vehicles (AVs) has faced hurdles due to the dominance of rare but critical corner cases within the long-tail distribution of driving scenarios, which negatively affects their overall performance. To address this challenge, adversarial generation methods have emerged as a class of efficient approaches to synthesize safety-critical scenarios for AV testing. However, these generated scenarios are often underutilized for AV training, resulting in the potential for continual AV policy improvement remaining untapped, along with a deficiency in the closed-loop design needed to achieve it. Therefore, we tailor the Stackelberg Driver Model (SDM) to accurately characterize the hierarchical nature of vehicle interaction dynamics, facilitating iterative improvement by engaging background vehicles (BVs) and AV in a sequential game-like interaction paradigm. With AV acting as the leader and BVs as followers, this leader-follower modeling ensures that AV would consistently refine its policy, always taking into account the additional information that BVs play the best response to challenge AV. Extensive experiments have shown that our algorithm exhibits superior performance compared to several baselines especially in higher dimensional scenarios, leading to substantial advancements in AV capabilities while continually generating progressively challenging scenarios.
翻訳日:2023-09-26 14:48:12 公開日:2023-09-25
# アナログ計算の非結合性について

On the Non-Associativity of Analog Computations ( http://arxiv.org/abs/2309.14292v1 )

ライセンス: Link先を確認
Lisa Kuhn and Bernhard Klein and Holger Fr\"oning(参考訳) アナログ型のコンピューティングのエネルギー効率は、モバイルや組み込みデバイスのようなリソース制約されたシステムにリソースを消費する機械学習タスクをデプロイする最も有望な候補の1つである。 しかし、アナログ計算では離散化のセーフティネットが欠落していることはよく知られているので、すべてのアナログ計算は対応する実装の様々な不完全さに晒される。 例えば、非線形性、飽和効果、様々なノイズがある。 本稿では、アナログ演算の入力オペランドの順序付けが出力結果にも影響を与え、基礎となる演算が数学的に関連付けられているとしても、アナログ演算は本質的に非結合的であることを観察する。 このような順序付け効果をキャプチャする実アナログプロセッサのモデルを作成することで、簡単なテストを行う。 このモデルを用いて、順序付きモデル、非順序付き変種、および実際のハードウェアに基づいてトレーニングされたキーワードスポッティングのためのニューラルネットワークのテスト精度を比較することにより、順序付けの重要性を評価する。 その結果, 順序効果の存在と高い影響が示され, 順序効果を無視すると精度が低下することがわかった。

The energy efficiency of analog forms of computing makes it one of the most promising candidates to deploy resource-hungry machine learning tasks on resource-constrained system such as mobile or embedded devices. However, it is well known that for analog computations the safety net of discretization is missing, thus all analog computations are exposed to a variety of imperfections of corresponding implementations. Examples include non-linearities, saturation effect and various forms of noise. In this work, we observe that the ordering of input operands of an analog operation also has an impact on the output result, which essentially makes analog computations non-associative, even though the underlying operation might be mathematically associative. We conduct a simple test by creating a model of a real analog processor which captures such ordering effects. With this model we assess the importance of ordering by comparing the test accuracy of a neural network for keyword spotting, which is trained based either on an ordered model, on a non-ordered variant, and on real hardware. The results prove the existence of ordering effects as well as their high impact, as neglecting ordering results in substantial accuracy drops.
翻訳日:2023-09-26 14:42:28 公開日:2023-09-25
# 実写3D撮影のためのタイル付き多面体画像

Tiled Multiplane Images for Practical 3D Photography ( http://arxiv.org/abs/2309.14291v1 )

ライセンス: Link先を確認
Numair Khan, Douglas Lanman, Lei Xiao(参考訳) 単一の画像から新しいビューを合成するタスクは、仮想現実やモバイルコンピューティングに有用な応用であり、近年、この問題に対する多くのアプローチが提案されている。 マルチプレーン画像(mpi)は、シーンをrgba層のスタックと推定し、複雑な外観効果、アンチエイリアス深度誤差をモデル化し、テクスチャメッシュまたはレイヤー深度画像を使用する方法よりもソフトエッジを合成することができる。 神経放射場とは異なり、MPIはグラフィックハードウェア上で効率的にレンダリングできる。 しかし、MPIは非常に冗長であり、妥当な結果を得るためには多くの深さ層を必要とする。 局所的な画像領域の深さの複雑さは画像全体よりも低いという観測に基づいて、mpiを小さなタイルの領域に分割し、それぞれにわずかな深さ平面しか持たない。 この表現を、TMPI (Tiled Multiplane Image) と呼ぶ。 本研究では,野生の単視点3D写真に適応的な深度平面を持つTMPIを生成する手法を提案する。 我々の合成結果は、計算オーバーヘッドを低くしながら、最先端のシングルビューMPI手法に匹敵する。

The task of synthesizing novel views from a single image has useful applications in virtual reality and mobile computing, and a number of approaches to the problem have been proposed in recent years. A Multiplane Image (MPI) estimates the scene as a stack of RGBA layers, and can model complex appearance effects, anti-alias depth errors and synthesize soft edges better than methods that use textured meshes or layered depth images. And unlike neural radiance fields, an MPI can be efficiently rendered on graphics hardware. However, MPIs are highly redundant and require a large number of depth layers to achieve plausible results. Based on the observation that the depth complexity in local image regions is lower than that over the entire image, we split an MPI into many small, tiled regions, each with only a few depth planes. We call this representation a Tiled Multiplane Image (TMPI). We propose a method for generating a TMPI with adaptive depth planes for single-view 3D photography in the wild. Our synthesized results are comparable to state-of-the-art single-view MPI methods while having lower computational overhead.
翻訳日:2023-09-26 14:42:10 公開日:2023-09-25
# CLIP-DIY: CLIP Dense Inferenceがオープンソースでセマンティックセマンティックセグメンテーションを無償で提供

CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic Segmentation For-Free ( http://arxiv.org/abs/2309.14289v1 )

ライセンス: Link先を確認
Monika Wysocza\'nska, Micha\"el Ramamonjisoa, Tomasz Trzci\'nski, Oriane Sim\'eoni(参考訳) CLIPの出現は、オープンワールドイメージ認識の道を開いた。 モデルのゼロショット分類機能は印象的だが、画像セグメンテーションのような密集したタスクには使いづらい。 いくつかの方法で異なる修正と学習スキームを提案し、密集したアウトプットを作り出す。 代わりに、我々はCLIP-DIYと呼ばれるオープン語彙セマンティックセマンティックセマンティクス手法を提案し、これは追加のトレーニングやアノテーションを必要としないが、代わりに既存の教師なしオブジェクトローカライゼーションアプローチを活用する。 特にCLIP-DIYは、CLIP分類能力を異なるサイズのパッチに直接活用し、決定を単一のマップに集約するマルチスケールアプローチである。 さらに,教師なし物体定位法を用いて得られたフォアグラウンド/バックグラウンドスコアを用いたセグメンテーションをガイドする。 提案手法により,PASCAL VOC上での最先端のゼロショットセマンティックセマンティックセマンティックセマンティクス結果を取得し,COCO上でのベストメソッドと同等に実行する。

The emergence of CLIP has opened the way for open-world image perception. The zero-shot classification capabilities of the model are impressive but are harder to use for dense tasks such as image segmentation. Several methods have proposed different modifications and learning schemes to produce dense output. Instead, we propose in this work an open-vocabulary semantic segmentation method, dubbed CLIP-DIY, which does not require any additional training or annotations, but instead leverages existing unsupervised object localization approaches. In particular, CLIP-DIY is a multi-scale approach that directly exploits CLIP classification abilities on patches of different sizes and aggregates the decision in a single map. We further guide the segmentation using foreground/background scores obtained using unsupervised object localization methods. With our method, we obtain state-of-the-art zero-shot semantic segmentation results on PASCAL VOC and perform on par with the best methods on COCO.
翻訳日:2023-09-26 14:41:50 公開日:2023-09-25
# 領域一般化意味セグメンテーションのためのキャリブレーションに基づく双原型的コントラスト学習アプローチ

Calibration-based Dual Prototypical Contrastive Learning Approach for Domain Generalization Semantic Segmentation ( http://arxiv.org/abs/2309.14282v1 )

ライセンス: Link先を確認
Muxin Liao, Shishun Tian, Yuhang Zhang, Guoguang Hua, Wenbin Zou, Xia Li(参考訳) 原型コントラスト学習(PCL)は近年,クラスワイドドメイン不変の特徴を学習するために広く利用されている。 これらの方法は、ある領域において同じクラスの中心値として表されるプロトタイプがドメイン不変であるという仮定に基づいている。 異なるドメインのプロトタイプにも相違があるため、PCLがソースドメインから学んだクラスワイドなドメイン不変機能は、他のドメインのプロトタイプと同時に一致する必要がある。 しかし、異なるドメイン内の同じクラスのプロトタイプは異なるかもしれないが、異なるクラスのプロトタイプは似ているかもしれない。 これらの観察に基づいて,cdpcl(cdpcl)アプローチにより,学習したクラス別特徴量と異なるドメインのプロトタイプ間のドメイン不一致を低減し,ドメイン一般化意味セグメンテーションを実現する。 不確実性誘導PCL(UPCL)とハードウェイトPCL(HPCL)を含んでいる。 異なるクラスのプロトタイプのドメインのばらつきが異なる可能性があるので、全てのクラスのプロトタイプのドメインのばらつきを表す不確実性確率行列を提案する。 UPCLは、不確実確率行列を推定し、PCL中のプロトタイプの重量を校正する。 さらに,異なるクラスのプロトタイプが類似している場合もあるため,これらのプロトタイプはハードアライメントされているため,HPCLはPCL中にハードアライメントされたプロトタイプの重量をキャリブレーションする重み付き行列を生成することを提案する。 拡張実験により,本手法は領域一般化セマンティックセグメンテーションタスクにおける現在の手法よりも優れた性能を発揮することが示された。

Prototypical contrastive learning (PCL) has been widely used to learn class-wise domain-invariant features recently. These methods are based on the assumption that the prototypes, which are represented as the central value of the same class in a certain domain, are domain-invariant. Since the prototypes of different domains have discrepancies as well, the class-wise domain-invariant features learned from the source domain by PCL need to be aligned with the prototypes of other domains simultaneously. However, the prototypes of the same class in different domains may be different while the prototypes of different classes may be similar, which may affect the learning of class-wise domain-invariant features. Based on these observations, a calibration-based dual prototypical contrastive learning (CDPCL) approach is proposed to reduce the domain discrepancy between the learned class-wise features and the prototypes of different domains for domain generalization semantic segmentation. It contains an uncertainty-guided PCL (UPCL) and a hard-weighted PCL (HPCL). Since the domain discrepancies of the prototypes of different classes may be different, we propose an uncertainty probability matrix to represent the domain discrepancies of the prototypes of all the classes. The UPCL estimates the uncertainty probability matrix to calibrate the weights of the prototypes during the PCL. Moreover, considering that the prototypes of different classes may be similar in some circumstances, which means these prototypes are hard-aligned, the HPCL is proposed to generate a hard-weighted matrix to calibrate the weights of the hard-aligned prototypes during the PCL. Extensive experiments demonstrate that our approach achieves superior performance over current approaches on domain generalization semantic segmentation tasks.
翻訳日:2023-09-26 14:41:29 公開日:2023-09-25
# 動的デカップリングを用いたダイヤモンド中の窒素空洞中心に伴う窒素-14スピンの高速コヒーレント制御

Fast coherent control of nitrogen-14 spins associated with nitrogen-vacancy centers in diamonds using dynamical decoupling ( http://arxiv.org/abs/2309.14278v1 )

ライセンス: Link先を確認
Kosuke Mizuno, Ikuya Fujisaki, Hiroyoshi Tomioka, Hitoshi Ishiwata, Shinobu Onoda, Takayuki Iwasaki, Keigo Arai, Mutsuko Hatano(参考訳) ダイヤモンドの窒素空洞(nv)中心は電子スピンへのアクセスが可能であり、高感度の量子センサーが期待されている。 窒素核スピンを利用すると感度が向上するが、共鳴パルスで操作するにはジャイロ磁気比が小さいため長いゲート時間を要する。 核スピンを制御するもう1つの技術は、動的疎結合に基づく条件付き回転ゲートであり、電子スピンとの超微粒子結合の欠如により、より高速だが窒素スピンでは利用できない。 本研究では,弱いオフ軸磁場を印加することにより,有効な逆結合を生成する。 有効結合はオフ軸場に依存するが、nv中心の窒素14スピンの条件回転ゲートは1.8%オフ軸場と約280mの縦磁場の下で4.2 {\mu} 以内で示され、電子から窒素スピンへの人口移動は8.7 {\mu} で実現できると推定した。 本手法は, 単一のNV中心に加えて, NV中心のアンサンブルにも適用可能である。

A nitrogen-vacancy (NV) center in a diamond enables the access to an electron spin, which is expected to present highly sensitive quantum sensors. Although exploiting a nitrogen nuclear spin improves the sensitivity, manipulating it using a resonant pulse requires a long gate time owing to its small gyromagnetic ratio. Another technique to control nuclear spins is a conditional rotation gate based on dynamical decoupling, which is faster but unavailable for nitrogen spins owing to the lack of transverse hyperfine coupling with the electron spin. In this study, we generated effective transverse coupling by applying a weak off-axis magnetic field. An effective coupling depends on the off-axis field; the conditional rotation gate on the nitrogen-14 spins of an NV center was demonstrated within 4.2 {\mu}s under an 1.8% off-axis field and a longitudinal field of approximately 280 mT. We estimated that a population transfer from the electron to nitrogen spins can be implemented with 8.7 {\mu}s. Our method is applicable to an ensemble of NV centers, in addition to a single NV center.
翻訳日:2023-09-26 14:40:57 公開日:2023-09-25
# SINCERE: 情報ノイズコントラスト推定の再検討

SINCERE: Supervised Information Noise-Contrastive Estimation REvisited ( http://arxiv.org/abs/2309.14277v1 )

ライセンス: Link先を確認
Patrick Feeney and Michael C. Hughes(参考訳) information noise-contrastive estimation (infonce) loss functionは、その強い経験的結果と理論的動機から、多くの自己教師付きディープラーニング手法の基礎を提供する。 以前の研究は、利用可能なクラスラベルから学習するためのインフォデンスを拡張するために、教師付きコントラスト(supcon)損失を示唆している。 このSupConの損失は、優れた経験的性能の報告のために広く利用されている。 しかし,本研究では,先行研究によって定式化された特定の超越損失は,同一クラスの画像が学習された埋め込み空間で互いに撃退することを促進できるため,理論的な正当性に疑問が持たれていることを示唆する。 この問題行動は、1つのクラスラベルを共有するインプットの数が増えるにつれて悪化する。 我々は,SINCERE (Supervised InfoNCE Revisited) の損失を治療として提案する。 SINCEREはInfoNCEの教師付き拡張に対する理論的に正当化されたソリューションであり、同じクラスのイメージが互いに撃退されることはない。 さらに,新たな損失の最小化は,クラス条件埋め込み分布間のKL分散の最大化と同値であることを示す。 我々は,SINCEREとSupConの損失を,事前学習時の学習軌跡と微調整後の究極の線形分類器の性能で比較した。 提案したSINCERE損失は,事前トレーニング中に異なるクラスからの埋め込みを分離し,競争精度を向上する。

The information noise-contrastive estimation (InfoNCE) loss function provides the basis of many self-supervised deep learning methods due to its strong empirical results and theoretic motivation. Previous work suggests a supervised contrastive (SupCon) loss to extend InfoNCE to learn from available class labels. This SupCon loss has been widely-used due to reports of good empirical performance. However, in this work we suggest that the specific SupCon loss formulated by prior work has questionable theoretic justification, because it can encourage images from the same class to repel one another in the learned embedding space. This problematic behavior gets worse as the number of inputs sharing one class label increases. We propose the Supervised InfoNCE REvisited (SINCERE) loss as a remedy. SINCERE is a theoretically justified solution for a supervised extension of InfoNCE that never causes images from the same class to repel one another. We further show that minimizing our new loss is equivalent to maximizing a bound on the KL divergence between class conditional embedding distributions. We compare SINCERE and SupCon losses in terms of learning trajectories during pretraining and in ultimate linear classifier performance after finetuning. Our proposed SINCERE loss better separates embeddings from different classes during pretraining while delivering competitive accuracy.
翻訳日:2023-09-26 14:40:34 公開日:2023-09-25
# 不確実性を考慮した学習モデルを用いたUAVの知覚・エネルギー認識運動計画

Perception-and-Energy-aware Motion Planning for UAV using Learning-based Model under Heteroscedastic Uncertainty ( http://arxiv.org/abs/2309.14272v1 )

ライセンス: Link先を確認
Reiya Takemura and Genya Ishigami(参考訳) 地球航法衛星システム(GNSS)は、無人航空機(UAV)がエネルギー効率よく確実に飛行する必要があることを否定した。 そこで本研究では, GNSSを用いた環境下でのUAVの知覚とエネルギーを考慮した運動計画を提案する。 提案したプランナーは、UAVの総エネルギー消費と、UAVに搭載された光検出・測光(LiDAR)センサーの知覚品質の2つの指標からなるコスト関数を最適化することにより、軌道計画問題を解決する。 オンラインナビゲーションの前に、高忠実度シミュレーターは飛行データセットを取得し、UAVの水平速度の関数として、UAVのエネルギー消費とLiDAR測定に関連する不確実性を学ぶ。 学習したモデルにより、オンラインプランナーはエネルギー消費と知覚品質を推定し、UAV電池の使用量とローカライズエラーを低減できる。 光リアリスティック環境におけるシミュレーション実験により,提案するプランナーは,異質な不確実性下でのエネルギー効率と知覚品質のトレードオフに対処できることを確認した。 オープンソースコードはhttps://gitlab.com/rei08/perception-energy-plannerでリリースされている。

Global navigation satellite systems (GNSS) denied environments/conditions require unmanned aerial vehicles (UAVs) to energy-efficiently and reliably fly. To this end, this study presents perception-and-energy-aware motion planning for UAVs in GNSS-denied environments. The proposed planner solves the trajectory planning problem by optimizing a cost function consisting of two indices: the total energy consumption of a UAV and the perception quality of light detection and ranging (LiDAR) sensor mounted on the UAV. Before online navigation, a high-fidelity simulator acquires a flight dataset to learn energy consumption for the UAV and heteroscedastic uncertainty associated with LiDAR measurements, both as functions of the horizontal velocity of the UAV. The learned models enable the online planner to estimate energy consumption and perception quality, reducing UAV battery usage and localization errors. Simulation experiments in a photorealistic environment confirm that the proposed planner can address the trade-off between energy efficiency and perception quality under heteroscedastic uncertainty. The open-source code is released at https://gitlab.com/ReI08/perception-energy-planner.
翻訳日:2023-09-26 14:40:12 公開日:2023-09-25
# 放射線治療のための幾何学的学習とイメージングを組み合わせた教師なし対応

Unsupervised correspondence with combined geometric learning and imaging for radiotherapy applications ( http://arxiv.org/abs/2309.14269v1 )

ライセンス: Link先を確認
Edward G. A. Henderson, Marcel van Herk, Andrew F. Green, Eliana M. Vasquez Osorio(参考訳) 本研究の目的は,放射線治療における異なる患者の臓器分節間の対応点を正確に識別するモデルを開発することである。 3次元形状の同時対応と補間推定のためのモデルとして, 頭部と頸部の臓器の分節をCTスキャンを用いて訓練した。 次に、画像情報を2つのアプローチで組み込むために、元のモデルを拡張した。 1)画像パッチから直接特徴を抽出すること、及び 2) 損失関数の一部としてパッチ間の平均二乗誤差を含める。 対応と補間性能は, 測地誤差, チャンファー距離, 等角歪み測定値, 解剖学的ランドマーク間の距離を用いて評価した。 それぞれのモデルでは、ベースラインの非剛性登録手法よりもはるかに優れた対応が得られた。 オリジナルのモデルは、画像特徴を直接包含するモデルと同様に実行された。 最良のモデル構成は、より解剖学的に妥当な対応を生成する損失関数の一部として画像情報を取り込んだ。 我々は,臓器の解剖学的点を同定し,空間的正規化の改善,結果モデリングにおける重要なステップ,あるいは解剖学的に情報を得た登録の初期化を行う。 すべてのコードはhttps://github.com/rrr-uom-projects/Unsup-RT-Corr-Netで公開されています。

The aim of this study was to develop a model to accurately identify corresponding points between organ segmentations of different patients for radiotherapy applications. A model for simultaneous correspondence and interpolation estimation in 3D shapes was trained with head and neck organ segmentations from planning CT scans. We then extended the original model to incorporate imaging information using two approaches: 1) extracting features directly from image patches, and 2) including the mean square error between patches as part of the loss function. The correspondence and interpolation performance were evaluated using the geodesic error, chamfer distance and conformal distortion metrics, as well as distances between anatomical landmarks. Each of the models produced significantly better correspondences than the baseline non-rigid registration approach. The original model performed similarly to the model with direct inclusion of image features. The best performing model configuration incorporated imaging information as part of the loss function which produced more anatomically plausible correspondences. We will use the best performing model to identify corresponding anatomical points on organs to improve spatial normalisation, an important step in outcome modelling, or as an initialisation for anatomically informed registrations. All our code is publicly available at https://github.com/rrr-uom-projects/Unsup-RT-Corr-Net
翻訳日:2023-09-26 14:39:50 公開日:2023-09-25
# グローバル編集指示と局所調整学習による複数顔属性の識別保存編集

Identity-preserving Editing of Multiple Facial Attributes by Learning Global Edit Directions and Local Adjustments ( http://arxiv.org/abs/2309.14267v1 )

ライセンス: Link先を確認
Najmeh Mohammadbagheri, Fardin Ayar, Ahmad Nickabadi, Reza Safabakhsh(参考訳) 事前訓練されたgans(generative adversarial network)を用いた意味的顔属性編集は、近年研究者から多くの注目を集めている。 StyleGANsが生成する顔画像の品質の高さのため、StyleGANsの潜伏空間と顔画像編集のための提案手法に多くの研究が注がれている。 これらの手法は, ユーザ意図属性を操作するための満足度の高い結果を得たが, アイデンティティの保存という目標を達成できていないため, 重要な課題である。 本稿では属性操作時のID損失に対処できる新しいアーキテクチャID-Styleを提案する。 ID-Styleのキーコンポーネントには、各属性の共有および半スパース方向を検出するLearnable Global Direction(LGD)と、入力インスタンスに応じてグローバル方向を微調整するインスタンス・アウェア・インテンシティ予測器(IAIP)ネットワークがある。 さらに、IAIPとともに入力インスタンスの同一性を保持する半スパースな意味方向を見つけるために、LGDを強制する訓練中に2つの損失を導入する。 類似の最先端技術と比較してネットワークのサイズを約95%削減したにもかかわらず、ベースラインを10%上回り、Identity Preserving metric (FRS) と平均操作精度 (mACC) で7%上回っている。

Semantic facial attribute editing using pre-trained Generative Adversarial Networks (GANs) has attracted a great deal of attention and effort from researchers in recent years. Due to the high quality of face images generated by StyleGANs, much work has focused on the StyleGANs' latent space and the proposed methods for facial image editing. Although these methods have achieved satisfying results for manipulating user-intended attributes, they have not fulfilled the goal of preserving the identity, which is an important challenge. We present ID-Style, a new architecture capable of addressing the problem of identity loss during attribute manipulation. The key components of ID-Style include Learnable Global Direction (LGD), which finds a shared and semi-sparse direction for each attribute, and an Instance-Aware Intensity Predictor (IAIP) network, which finetunes the global direction according to the input instance. Furthermore, we introduce two losses during training to enforce the LGD to find semi-sparse semantic directions, which along with the IAIP, preserve the identity of the input instance. Despite reducing the size of the network by roughly 95% as compared to similar state-of-the-art works, it outperforms baselines by 10% and 7% in Identity preserving metric (FRS) and average accuracy of manipulation (mACC), respectively.
翻訳日:2023-09-26 14:39:34 公開日:2023-09-25
# 自動車内物流における6次元姿勢推定のロボット操作への応用

Industrial Application of 6D Pose Estimation for Robotic Manipulation in Automotive Internal Logistics ( http://arxiv.org/abs/2309.14265v1 )

ライセンス: Link先を確認
Philipp Quentin, Dino Knoll, Daniel Goehring(参考訳) ロボティクスの進歩にもかかわらず、自動車産業の内部ロジスティクスにおけるタスクを扱う部品の大部分は自動化されていないが、人間によって実行されている。 これらのプロセスを競合的に自動化するための重要なコンポーネントは、6Dのポーズ推定で、多数の異なる部分を処理でき、手作業の少ない新しい部分に適応でき、業界の要求に対して十分に正確で堅牢である。 この文脈では、これらの尺度に関して現在の状態クオについて疑問が生じる。 そこで我々は,経済的にスケーラブルな実データ生成から合成データ生成に至るまで,最先端のコンポーネントを用いた代表的6Dポーズ推定パイプラインを構築し,リアルなシークエンシングプロセスに関して自動車部品で評価した。 データ生成手法を用いることで、トレーニング済みの6Dポーズ推定器のパフォーマンスが期待できるが、業界要件を満たしていないことがわかった。 この理由は,十分な正確なポーズを提供する能力ではなく,そのポーズに対して信頼できる不確実性を提供することができないことを明らかにする。 この文脈では、RGBおよびRGB-Dベースのアプローチが、この背景に対してどのように比較されるかをさらに分析し、合成データによって引き起こされるドメインギャップに対して異なる脆弱性を示す。

Despite the advances in robotics a large proportion of the of parts handling tasks in the automotive industry's internal logistics are not automated but still performed by humans. A key component to competitively automate these processes is a 6D pose estimation that can handle a large number of different parts, is adaptable to new parts with little manual effort, and is sufficiently accurate and robust with respect to industry requirements. In this context, the question arises as to the current status quo with respect to these measures. To address this we built a representative 6D pose estimation pipeline with state-of-the-art components from economically scalable real to synthetic data generation to pose estimators and evaluated it on automotive parts with regards to a realistic sequencing process. We found that using the data generation approaches, the performance of the trained 6D pose estimators are promising, but do not meet industry requirements. We reveal that the reason for this is the inability of the estimators to provide reliable uncertainties for their poses, rather than the ability of to provide sufficiently accurate poses. In this context we further analyzed how RGB- and RGB-D-based approaches compare against this background and show that they are differently vulnerable to the domain gap induced by synthetic data.
翻訳日:2023-09-26 14:39:08 公開日:2023-09-25
# 汎用テキスト指示音声変換に向けて

Towards General-Purpose Text-Instruction-Guided Voice Conversion ( http://arxiv.org/abs/2309.14324v1 )

ライセンス: Link先を確認
Chun-Yi Kuan, Chen An Li, Tsu-Yuan Hsu, Tse-Yang Lin, Ho-Lam Chung, Kai-Wei Chang, Shuo-yiin Chang, Hung-yi Lee(参考訳) 本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換(VC)モデルを提案する。 変換音声の属性を決定するために参照発話に依存する従来の手法とは異なり、我々のモデルは音声変換に汎用性と特異性を加える。 提案したVCモデルは、離散コード列を処理するニューラルコーデック言語モデルであり、変換された音声のコード列を生成する。 テキスト命令をスタイルプロンプトとして使用し、与えられた音声の韻律と感情情報を修飾する。 プロソディやコンテントエンコーダといった個別のエンコーダを用いてソース音声のさまざまな側面を処理する従来の手法とは対照的に,我々のモデルはエンドツーエンドで様々な音声情報を処理している。 実験は、理解可能な指示と合理的な結果を提供することで、私たちのモデルの印象的な能力を実証しました。

This paper introduces a novel voice conversion (VC) model, guided by text instructions such as "articulate slowly with a deep tone" or "speak in a cheerful boyish voice". Unlike traditional methods that rely on reference utterances to determine the attributes of the converted speech, our model adds versatility and specificity to voice conversion. The proposed VC model is a neural codec language model which processes a sequence of discrete codes, resulting in the code sequence of converted speech. It utilizes text instructions as style prompts to modify the prosody and emotional information of the given speech. In contrast to previous approaches, which often rely on employing separate encoders like prosody and content encoders to handle different aspects of the source speech, our model handles various information of speech in an end-to-end manner. Experiments have demonstrated the impressive capabilities of our model in comprehending instructions and delivering reasonable results.
翻訳日:2023-09-26 14:31:14 公開日:2023-09-25
# 大規模変圧器訓練用小型プロキシ

Small-scale proxies for large-scale Transformer training instabilities ( http://arxiv.org/abs/2309.14322v1 )

ライセンス: Link先を確認
Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi, Ben Adlam, John D. Co-Reyes, Izzeddin Gur, Abhishek Kumar, Roman Novak, Jeffrey Pennington, Jascha Sohl-dickstein, Kelvin Xu, Jaehoon Lee, Justin Gilmer, Simon Kornblith(参考訳) 大規模なトランスフォーマーベースのモデルをトレーニングしたチームは、同じハイパーパラメータを小さなスケールでトレーニングする場合に現れない大規模なトレーニング不安定性を報告している。 このような不安定の原因は科学的に興味深いが、それらの再生に必要な資源の量は調査を困難にしている。 本研究では,小規模でトレーニングの安定性と不安定性を再現し,研究する方法を模索する。 まず,注意層におけるロジットの成長(Dehghani et al., 2023)と,ログ確率からの出力ロジットのばらつき(Chowdhery et al., 2022)の2つのトレーニング不安定性源に着目した。 学習率と損失の関係を尺度で測定することにより,高い学習率でトレーニングする場合に,これらの不安定性が小モデルにも現れること,大規模で従来採用されていた緩和効果が等しく有効であることを示す。 これにより、他の既知のオプティマイザやモデル介入が学習率の変化に対する最終損失の感度にどの程度影響するかを調べることができる。 この目的のために、ウォームアップ、重量減少、および$\mu$param (yang et al., 2022) のような手法を研究し、学習率の変動の桁にまたがる類似の損失を達成する小さなモデルを訓練する手法を組み合わせる。 最後に, モデルアクティベーションと勾配規範のスケーリング挙動を調べることにより, 不安定性が出現前に予測できる2つの事例について考察した。

Teams that have trained large Transformer-based models have reported training instabilities at large scale that did not appear when training with the same hyperparameters at smaller scales. Although the causes of such instabilities are of scientific interest, the amount of resources required to reproduce them has made investigation difficult. In this work, we seek ways to reproduce and study training stability and instability at smaller scales. First, we focus on two sources of training instability described in previous work: the growth of logits in attention layers (Dehghani et al., 2023) and divergence of the output logits from the log probabilities (Chowdhery et al., 2022). By measuring the relationship between learning rate and loss across scales, we show that these instabilities also appear in small models when training at high learning rates, and that mitigations previously employed at large scales are equally effective in this regime. This prompts us to investigate the extent to which other known optimizer and model interventions influence the sensitivity of the final loss to changes in the learning rate. To this end, we study methods such as warm-up, weight decay, and the $\mu$Param (Yang et al., 2022), and combine techniques to train small models that achieve similar losses across orders of magnitude of learning rate variation. Finally, to conclude our exploration we study two cases where instabilities can be predicted before they emerge by examining the scaling behavior of model activation and gradient norms.
翻訳日:2023-09-26 14:30:56 公開日:2023-09-25
# 基礎モデルを用いた人間支援型連続ロボット学習

Human-Assisted Continual Robot Learning with Foundation Models ( http://arxiv.org/abs/2309.14321v1 )

ライセンス: Link先を確認
Meenal Parakh, Alisha Fong, Anthony Simeonov, Abhishek Gupta, Tao Chen, Pulkit Agrawal(参考訳) 大規模言語モデル(LLM)は、高レベルの命令を実行可能な命令列に分解できるプランナーのように振る舞うことが示されている。 しかし、現在のLSMベースのプランナーは、一定のスキルセットでしか動作できない。 この限界を克服し、llmベースのプランナーを用いて新たなスキルをクエリし、これらのスキルを剛体オブジェクト操作のためのデータと時間効率のよい方法でロボットに教える方法を提案する。 本システムは,新たに獲得したスキルを今後の課題に再利用し,オープンワールドと生涯学習の可能性を示す。 シミュレーションと実世界における複数のタスクに関するフレームワークの評価を行った。 ビデオは以下の通り。 https://sites.google.com/mit.edu/halp-robot-learning。

Large Language Models (LLMs) have been shown to act like planners that can decompose high-level instructions into a sequence of executable instructions. However, current LLM-based planners are only able to operate with a fixed set of skills. We overcome this critical limitation and present a method for using LLM-based planners to query new skills and teach robots these skills in a data and time-efficient manner for rigid object manipulation. Our system can re-use newly acquired skills for future tasks, demonstrating the potential of open world and lifelong learning. We evaluate the proposed framework on multiple tasks in simulation and the real world. Videos are available at: https://sites.google.com/mit.edu/halp-robot-learning.
翻訳日:2023-09-26 14:30:26 公開日:2023-09-25
# 言語モデルの物理:その3.1,知識の蓄積と抽出

Physics of Language Models: Part 3.1, Knowledge Storage and Extraction ( http://arxiv.org/abs/2309.14316v1 )

ライセンス: Link先を確認
Zeyuan Allen Zhu and Yuanzhi Li(参考訳) 大規模な言語モデルは広い世界知識を保存でき、しばしば質問回答によって抽出できる(例:エイブラハム・リンカーンの誕生日は? しかし、モデルがトレーニング中に正確/類似の質問に曝露して質問に答えるかどうか、あるいは情報源(例えばウィキペディアの伝記)から真に知識を抽出するかどうかは不明である。 本稿では,半合成伝記データの制御セットを用いて,この問題を詳細に検討する。 モデルの知識抽出能力とトレーニングデータの多様性の異なる指標との関係を明らかにする。 我々は、(ほぼ)線形探索を行い、この関係と、(ほぼ)モデルが、エンティティ名の隠された埋め込みにおいて、またはトレーニングテキストに他のトークンを埋め込んだ際に、その知識属性を線形に符号化するかどうかを強く関連付ける。

Large language models can store extensive world knowledge, often extractable through question-answering (e.g., "What is Abraham Lincoln's birthday?"). However, it's unclear whether the model answers questions based on exposure to exact/similar questions during training, or if it genuinely extracts knowledge from the source (e.g., Wikipedia biographies). In this paper, we conduct an in-depth study of this problem using a controlled set of semi-synthetic biography data. We uncover a relationship between the model's knowledge extraction ability and different diversity measures of the training data. We conduct (nearly) linear probing, revealing a strong correlation between this relationship and whether the model (nearly) linearly encodes the knowledge attributes at the hidden embedding of the entity names, or across the embeddings of other tokens in the training text.
翻訳日:2023-09-26 14:30:15 公開日:2023-09-25
# 1次元Nagel-Schreckenberg交通モデル並列化

Parallelizing a 1-Dim Nagel-Schreckenberg Traffic Model ( http://arxiv.org/abs/2309.14311v1 )

ライセンス: Link先を確認
Ramses van Zon, Marcelo Ponce(参考訳) nagel-schreckenbergモデルは確率的一次元交通モデルである。 この課題では,このモデルを実装した既存シリアルコードの共有メモリ並列および再現可能なバージョンを実装し,そのスケーリング動作を分析するプロセスを通じて学生を指導する。 この交通モデルにおける重要な要素の1つはランダム性の存在であり、交通渋滞のような現実的な現象を欠く。 そのため、モンテカルロシミュレーションや擬似ランダム数生成(PRNG)に関連する技術が必要である。 PRNGは再現性の要件と組み合わせることで、並列処理が難しいことで知られています。 この課題はトロント大学の大学院でPHY1610 Scientific Computing for Physicistsとして作られ、SciNet HPC Consortiumのトレーニングプログラムに起源を持ち、他の科学分野にも非常に適している。 長年にわたりいくつかのバリエーションが用いられてきた。

The Nagel-Schreckenberg model is a stochastic one-dimensional traffic model. In this assignment, we guide students through the process of implementing a shared-memory parallel and reproducible version of an existing serial code that implements this model, and to analyze its scaling behavior. One of the key elements in this traffic model is the presence of randomness, without which it would lack realistic phenomena such as traffic jams. Its implementation thus requires techniques associated with Monte Carlo simulations and pseudo-random number generation (PRNG). PRNGs are notoriously tricky to deal with in parallel when combined with the requirement of reproducibility. This assignment was created for the graduate course PHY1610 Scientific Computing for Physicists at the University of Toronto, which had its origin in the training program of the SciNet HPC Consortium, and is also very suitable for other scientific disciplines. Several variations of the assignment have been used over the years.
翻訳日:2023-09-26 14:29:57 公開日:2023-09-25
# 画像分類器の多種別説明

Multiple Different Explanations for Image Classifiers ( http://arxiv.org/abs/2309.14309v1 )

ライセンス: Link先を確認
Hana Chockler, David A. Kelly, Daniel Kroening(参考訳) 画像分類器の既存の説明ツールは通常、1つの画像に対して1つの説明しか与えない。 しかし、多くの画像では、人間と画像分類器の両方が複数の画像ラベルの説明を受け入れている。 したがって、説明の数を制限することは、分類器の振る舞いに関する洞察を著しく制限する。 本稿では,与えられた画像に対するブラックボックス画像分類器の出力に関する複数の説明を計算するためのアルゴリズムとツールREXについて述べる。 本アルゴリズムは因果理論に基づく原理的アプローチを用いる。 我々は,その理論上の複雑さを分析し,imagenet-miniベンチマークの7倍のイメージでrexが複数の説明を見いだすことを実験的に示した。

Existing explanation tools for image classifiers usually give only one single explanation for an image. For many images, however, both humans and image classifiers accept more than one explanation for the image label. Thus, restricting the number of explanations to just one severely limits the insight into the behavior of the classifier. In this paper, we describe an algorithm and a tool, REX, for computing multiple explanations of the output of a black-box image classifier for a given image. Our algorithm uses a principled approach based on causal theory. We analyse its theoretical complexity and provide experimental results showing that REX finds multiple explanations on 7 times more images than the previous work on the ImageNet-mini benchmark.
翻訳日:2023-09-26 14:29:42 公開日:2023-09-25
# 動的アンサンブル選択法を改善するポスト選択アルゴリズム

A post-selection algorithm for improving dynamic ensemble selection methods ( http://arxiv.org/abs/2309.14307v1 )

ライセンス: Link先を確認
Paulo R.G. Cordeiro, George D.C. Cavalcanti and Rafael M.O. Cruz(参考訳) Dynamic Ensemble Selection (DES)は、Multiple Classifier Systems(MCS)アプローチであり、選択フェーズ中に各クエリサンプルのアンサンブルを選択することを目的としている。 いくつかのDESアプローチの提案にもかかわらず、特定のDESテクニックは異なる問題に最適な選択ではない。 したがって、クエリインスタンス毎に最適なdesアプローチを選択することで、より良い精度が得られると仮定する。 そこで本研究では,複数のdes手法により選択されたアンサンブルを評価するps-des(post-selection dynamic ensemble selection)手法を提案する。 実験結果から,PS-DESは個々のDES技術よりも精度が高いことがわかった。 PS-DESソースコードはGitHubリポジトリで入手できる

Dynamic Ensemble Selection (DES) is a Multiple Classifier Systems (MCS) approach that aims to select an ensemble for each query sample during the selection phase. Even with the proposal of several DES approaches, no particular DES technique is the best choice for different problems. Thus, we hypothesize that selecting the best DES approach per query instance can lead to better accuracy. To evaluate this idea, we introduce the Post-Selection Dynamic Ensemble Selection (PS-DES) approach, a post-selection scheme that evaluates ensembles selected by several DES techniques using different metrics. Experimental results show that using accuracy as a metric to select the ensembles, PS-DES performs better than individual DES techniques. PS-DES source code is available in a GitHub repository
翻訳日:2023-09-26 14:29:31 公開日:2023-09-25
# DeepMesh:ディープラーニングを用いたメッシュベースの心臓運動追跡

DeepMesh: Mesh-based Cardiac Motion Tracking using Deep Learning ( http://arxiv.org/abs/2309.14306v1 )

ライセンス: Link先を確認
Qingjie Meng and Wenjia Bai and Declan P O'Regan and and Daniel Rueckert(参考訳) cine heart magnetic resonance (cmr) 画像からの3次元運動推定は心機能評価および心血管疾患の診断に重要である。 現在のアート手法では、画像空間におけるピクセル/ボクセル方向の密集した動き場の推定に焦点をあてており、動きの推定は、例えば心臓のような、興味のある解剖学的対象においてのみ適切で有用であるという事実を無視している。 本研究では,心臓を心内膜と心内膜からなる3次元メッシュとしてモデル化する。 本稿では,テンプレート型心臓メッシュを対象空間に伝播させる新しい学習フレームワークDeepMeshを提案し,各被験者のCMR画像から心臓メッシュの3次元運動を推定する。 DeepMeshでは、個々の被験者の末期拡張フレームの心臓メッシュがテンプレートメッシュから最初に再構築される。 次に、2次元短軸cmr画像から、エンドダイアストリックフレームに対するメッシュベースの3次元動き場を推定する。 異なるメッシュ・ツー・イメージラスタライザを開発することで、DeepMeshは複数の解剖学的ビューから2次元形状情報を活用して、3Dメッシュ再構成とメッシュの動き推定を行うことができる。 提案手法は, 頂点方向の変位を推定し, 時間フレーム間の頂点対応を維持できるため, 異なる被験者と集団の心機能の定量的評価に重要である。 英国バイオバンクから取得したcmr画像からdeepmeshを評価する。 本研究では左室の3次元運動推定に焦点をあてる。 実験の結果,提案手法は他の画像ベースおよびメッシュベースの心運動追跡法よりも定量的かつ定性的に優れることがわかった。

3D motion estimation from cine cardiac magnetic resonance (CMR) images is important for the assessment of cardiac function and the diagnosis of cardiovascular diseases. Current state-of-the art methods focus on estimating dense pixel-/voxel-wise motion fields in image space, which ignores the fact that motion estimation is only relevant and useful within the anatomical objects of interest, e.g., the heart. In this work, we model the heart as a 3D mesh consisting of epi- and endocardial surfaces. We propose a novel learning framework, DeepMesh, which propagates a template heart mesh to a subject space and estimates the 3D motion of the heart mesh from CMR images for individual subjects. In DeepMesh, the heart mesh of the end-diastolic frame of an individual subject is first reconstructed from the template mesh. Mesh-based 3D motion fields with respect to the end-diastolic frame are then estimated from 2D short- and long-axis CMR images. By developing a differentiable mesh-to-image rasterizer, DeepMesh is able to leverage 2D shape information from multiple anatomical views for 3D mesh reconstruction and mesh motion estimation. The proposed method estimates vertex-wise displacement and thus maintains vertex correspondences between time frames, which is important for the quantitative assessment of cardiac function across different subjects and populations. We evaluate DeepMesh on CMR images acquired from the UK Biobank. We focus on 3D motion estimation of the left ventricle in this work. Experimental results show that the proposed method quantitatively and qualitatively outperforms other image-based and mesh-based cardiac motion tracking methods.
翻訳日:2023-09-26 14:29:14 公開日:2023-09-25
# 視覚的説明可能性のためのクラス活性化マップの概要

Overview of Class Activation Maps for Visualization Explainability ( http://arxiv.org/abs/2309.14304v1 )

ライセンス: Link先を確認
Anh Pham Thi Minh(参考訳) 近年のディープラーニング手法の研究により、コンピュータビジョン(CV)における様々な複雑なモデリング技術が人間のパフォーマンスに到達または上回る結果となった。 これらのブラックボックス深層学習モデルは驚くべき結果を得たが、その解釈可能性と透明性は限られており、人間の監督を含む繊細な意思決定支援システムに学習マシンを組み込むのに必須である。 コンピュータビジョンのための説明可能な技術(XCV)の開発が近年注目されている。 XCVの領域では、クラスアクティベーションマップ(CAM)が広く認識され、深層学習モデルの意思決定プロセスにおける解釈可能性と洞察を高めるために利用されてきた。 本稿では,クラスアクティベーションマップメソッドの進化を時間とともに総合的に概観する。 また、カムの評価に使用されるメトリクスを探索し、これらの方法の塩分を改善するために補助技術を導入する。 概観は、この発展途上の分野における将来の研究への潜在的な道を提案することで締めくくられる。

Recent research in deep learning methodology has led to a variety of complex modelling techniques in computer vision (CV) that reach or even outperform human performance. Although these black-box deep learning models have obtained astounding results, they are limited in their interpretability and transparency which are critical to take learning machines to the next step to include them in sensitive decision-support systems involving human supervision. Hence, the development of explainable techniques for computer vision (XCV) has recently attracted increasing attention. In the realm of XCV, Class Activation Maps (CAMs) have become widely recognized and utilized for enhancing interpretability and insights into the decision-making process of deep learning models. This work presents a comprehensive overview of the evolution of Class Activation Map methods over time. It also explores the metrics used for evaluating CAMs and introduces auxiliary techniques to improve the saliency of these methods. The overview concludes by proposing potential avenues for future research in this evolving field.
翻訳日:2023-09-26 14:28:48 公開日:2023-09-25
# データセット拡散: ピクセルレベルセマンティックセグメンテーションのための拡散に基づく合成データセット生成

Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation ( http://arxiv.org/abs/2309.14303v1 )

ライセンス: Link先を確認
Quang Nguyen, Truong Vu, Anh Tran, Khoi Nguyen(参考訳) 深部視覚モデルのトレーニングデータの準備は、労働集約的な作業です。 これに対処するために、生成モデルが合成データを生成する効果的なソリューションとして登場した。 現在の生成モデルは画像レベルのカテゴリラベルを生成する一方で、テキストから画像への生成モデル安定拡散(sd)を用いた画素レベルの意味セグメンテーションラベルを生成する新しい手法を提案する。 テキストプロンプト,クロスアテンション,SDの自己アテンションを活用することで,<textit{class-prompt appending},<textit{class-prompt cross-attention},<textit{self-attention exponentiation}の3つの新しいテクニックを導入する。 これらの手法により合成画像に対応するセグメンテーションマップを生成することができる。 これらのマップはセマンティクスセグメンタをトレーニングするための擬似ラベルとして機能する。 擬似ラベルの不完全性を考慮し,不確実領域をセグメンテーションに組み込むことで,これらの領域の損失を無視することができる。 PASCAL VOC と MSCOCO の2つのデータセットで評価を行い,本手法は並列処理を著しく上回っている。 ベンチマークとコードはhttps://github.com/VinAIResearch/Dataset-Diffusionで公開される予定です。

Preparing training data for deep vision models is a labor-intensive task. To address this, generative models have emerged as an effective solution for generating synthetic data. While current generative models produce image-level category labels, we propose a novel method for generating pixel-level semantic segmentation labels using the text-to-image generative model Stable Diffusion (SD). By utilizing the text prompts, cross-attention, and self-attention of SD, we introduce three new techniques: \textit{class-prompt appending}, \textit{class-prompt cross-attention}, and \textit{self-attention exponentiation}. These techniques enable us to generate segmentation maps corresponding to synthetic images. These maps serve as pseudo-labels for training semantic segmenters, eliminating the need for labor-intensive pixel-wise annotation. To account for the imperfections in our pseudo-labels, we incorporate uncertainty regions into the segmentation, allowing us to disregard loss from those regions. We conduct evaluations on two datasets, PASCAL VOC and MSCOCO, and our approach significantly outperforms concurrent work. Our benchmarks and code will be released at https://github.com/VinAIResearch/Dataset-Diffusion
翻訳日:2023-09-26 14:28:34 公開日:2023-09-25
# タイル境界を用いた確率線形帯域のMartingale混合に対する改良アルゴリズム

Improved Algorithms for Stochastic Linear Bandits Using Tail Bounds for Martingale Mixtures ( http://arxiv.org/abs/2309.14298v1 )

ライセンス: Link先を確認
Hamish Flynn, David Reeb, Melih Kandemir, Jan Peters(参考訳) 確率線形バンディット問題に対する最悪の後悔の保証を伴う改良アルゴリズムを提案する。 広く使われている「不確実性に直面した最適主義」原理は、確率的バンディット問題を未知の報酬関数に対する信頼シーケンスの構築に還元する。 結果として得られたbanditアルゴリズムのパフォーマンスは、信頼性シーケンスのサイズに依存するが、より小さな信頼セットは、よりよい経験的パフォーマンスとより強い後悔の保証をもたらす。 本研究では,適応マルティンゲール混合のための新しいテールバインドを用いて,確率的バンドイットに適した信頼度列を構築する。 これらの信頼シーケンスは凸プログラミングによる効率的な行動選択を可能にする。 信頼性シーケンスに基づく線形バンディットアルゴリズムは、競合する最悪の最悪の後悔を実現することが保証されている。 我々は、我々の信頼シーケンスが、経験的にも理論的にも競合より厳密であることを示す。 最後に,より厳密な信頼シーケンスにより,複数のハイパーパラメータチューニングタスクの性能が向上することを示す。

We present improved algorithms with worst-case regret guarantees for the stochastic linear bandit problem. The widely used "optimism in the face of uncertainty" principle reduces a stochastic bandit problem to the construction of a confidence sequence for the unknown reward function. The performance of the resulting bandit algorithm depends on the size of the confidence sequence, with smaller confidence sets yielding better empirical performance and stronger regret guarantees. In this work, we use a novel tail bound for adaptive martingale mixtures to construct confidence sequences which are suitable for stochastic bandits. These confidence sequences allow for efficient action selection via convex programming. We prove that a linear bandit algorithm based on our confidence sequences is guaranteed to achieve competitive worst-case regret. We show that our confidence sequences are tighter than competitors, both empirically and theoretically. Finally, we demonstrate that our tighter confidence sequences give improved performance in several hyperparameter tuning tasks.
翻訳日:2023-09-26 14:28:07 公開日:2023-09-25
# NAS-NeRF:ニューラルラジアンスフィールドのための生成型ニューラルアーキテクチャ探索

NAS-NeRF: Generative Neural Architecture Search for Neural Radiance Fields ( http://arxiv.org/abs/2309.14293v1 )

ライセンス: Link先を確認
Saeejith Nair, Yuhao Chen, Mohammad Javad Shafiee, Alexander Wong(参考訳) neural radiance fields (nerfs)は高品質な新規なビュー合成を可能にするが、その計算複雑性は、特にリソース制約のあるプラットフォームにおいて、デプロイ可能性を制限する。 NeRFを実用化するためには、ビデオゲームにおける調整可能なグラフィック設定と同様に、計算複雑性を低減するために品質調整が不可欠である。 しかし、既存のソリューションは効率を追求する一方で、シーンの複雑さに関係なく全てのアーキテクチャに適合するが、同じアーキテクチャは単純なシーンでは必要以上に大きいが、複雑なシーンでは不十分である。 このように、NeRFが3D視覚化に広く使われるようになるにつれて、計算複雑性と合成品質の特定の目標とのバランスを達成するために、NeRFのニューラルネットワークコンポーネントを動的に最適化する必要がある。 計算予算と最小合成品質の制約を順守しつつ、複雑性と性能のトレードオフを最適化し、一場面ごとにNeRFアーキテクチャを生成するために一意に調整された生成型ニューラルネットワーク探索戦略であるNAS-NeRFを導入する。 Blender の合成データセットを用いた実験により,提案したNAS-NeRF は 5.74$\times$ より小さく,4.19$\times$ FLOPs が小さく,1.93$\times$ がベースライン NeRF よりも高速で,SSIM の低下に悩まされることなく,アーキテクチャを生成可能であることが示された。 さらに,NAS-NeRFは最大23$\times$より小さく,22$\times$より小さいFLOP,4.7$\times$はベースラインのNeRFよりも高速で,平均SSIMドロップは5.3\%であることを示す。 私たちの仕事のソースコードもhttps://saeejithnair.github.io/nas-nerfで公開されています。

Neural radiance fields (NeRFs) enable high-quality novel view synthesis, but their prohibitively high computational complexity limits deployability, especially on resource-constrained platforms. To enable practical usage of NeRFs, quality tuning is essential to reduce computational complexity, akin to adjustable graphics settings in video games. However while existing solutions strive for efficiency, they use one-size-fits-all architectures regardless of scene complexity, although the same architecture may be unnecessarily large for simple scenes but insufficient for complex ones. Thus as NeRFs become more widely used for 3D visualization, there is a need to dynamically optimize the neural network component of NeRFs to achieve a balance between computational complexity and specific targets for synthesis quality. Addressing this gap, we introduce NAS-NeRF: a generative neural architecture search strategy uniquely tailored to generate NeRF architectures on a per-scene basis by optimizing the trade-off between complexity and performance, while adhering to constraints on computational budget and minimum synthesis quality. Our experiments on the Blender synthetic dataset show the proposed NAS-NeRF can generate architectures up to 5.74$\times$ smaller, with 4.19$\times$ fewer FLOPs, and 1.93$\times$ faster on a GPU than baseline NeRFs, without suffering a drop in SSIM. Furthermore, we illustrate that NAS-NeRF can also achieve architectures up to 23$\times$ smaller, 22$\times$ fewer FLOPs, and 4.7$\times$ faster than baseline NeRFs with only a 5.3\% average SSIM drop. The source code for our work is also made publicly available at https://saeejithnair.github.io/NAS-NeRF.
翻訳日:2023-09-26 14:27:54 公開日:2023-09-25
# 足ロボットによるエクストリームパーク

Extreme Parkour with Legged Robots ( http://arxiv.org/abs/2309.14341v1 )

ライセンス: Link先を確認
Xuxin Cheng, Kexin Shi, Ananye Agarwal, Deepak Pathak(参考訳) 人間は、正確な眼筋調整と運動を必要とする非常にダイナミックな方法で障害物を横切ることでパークールを行うことができる。 ロボットに同じ仕事をさせるには、同様の課題を克服する必要がある。 古典的には、これは独立してエンジニアリングの認識、アクティベーション、制御システムを非常に低い許容度にすることで行われる。 これにより、実験室で所定の障害物コースなどの厳密に制御された設定に制限される。 対照的に、人間は基礎となる生物学を大きく変えることなく、実践を通じて公園を学べる。 本稿では,不正確なアクチュエーションを持つ小型低コストロボットと,低周波でジッタ状で人工物に近づいた1つの前面深度カメラを用いたロボットパークアの開発に類似したアプローチを提案する。 大規模RLを用いたシミュレーションで訓練された,カメラ画像から直接動作する単一ニューラルネットポリシが,不正確なセンシングやアクティベーションを克服し,高精度な制御動作をエンドツーエンドに出力する方法を示す。 ロボットは高さ2倍の障害物に対して高いジャンプを行え、長さ2倍の隙間を渡り、逆立ちして傾斜した傾斜路を走り、物理的性質の異なる新しい障害物コースに一般化できることを示す。 Parkour video at https://extreme-parkour.github.io/

Humans can perform parkour by traversing obstacles in a highly dynamic fashion requiring precise eye-muscle coordination and movement. Getting robots to do the same task requires overcoming similar challenges. Classically, this is done by independently engineering perception, actuation, and control systems to very low tolerances. This restricts them to tightly controlled settings such as a predetermined obstacle course in labs. In contrast, humans are able to learn parkour through practice without significantly changing their underlying biology. In this paper, we take a similar approach to developing robot parkour on a small low-cost robot with imprecise actuation and a single front-facing depth camera for perception which is low-frequency, jittery, and prone to artifacts. We show how a single neural net policy operating directly from a camera image, trained in simulation with large-scale RL, can overcome imprecise sensing and actuation to output highly precise control behavior end-to-end. We show our robot can perform a high jump on obstacles 2x its height, long jump across gaps 2x its length, do a handstand and run across tilted ramps, and generalize to novel obstacle courses with different physical properties. Parkour videos at https://extreme-parkour.github.io/
翻訳日:2023-09-26 12:38:02 公開日:2023-09-25
# chop & learn: オブジェクトの状態合成の認識と生成

Chop & Learn: Recognizing and Generating Object-State Compositions ( http://arxiv.org/abs/2309.14339v1 )

ライセンス: Link先を確認
Nirat Saini, Hanyu Wang, Archana Swaminathan, Vinoj Jayasundara, Bo He, Kamal Gupta, Abhinav Shrivastava(参考訳) オブジェクト状態合成の認識と生成は、特に見当たらない合成に一般化する場合、難しい課題だった。 本稿では,異なるスタイルのオブジェクトを切断する作業と,その結果のオブジェクト状態の変化について検討する。 複数の視点から学習対象と異なるカットスタイルのニーズを満たすために,新しいベンチマークスイートChop & Learnを提案する。 また,新しいオブジェクト状態画像を生成することにより,学習したカットスタイルを異なるオブジェクトに転送できる合成画像生成の新しいタスクを提案する。 さらに,映像を合成行動認識に利用し,このデータセットを複数のビデオタスクに有意義に活用することを示す。 プロジェクトウェブサイト: https://chopnlearn.github.io

Recognizing and generating object-state compositions has been a challenging task, especially when generalizing to unseen compositions. In this paper, we study the task of cutting objects in different styles and the resulting object state changes. We propose a new benchmark suite Chop & Learn, to accommodate the needs of learning objects and different cut styles using multiple viewpoints. We also propose a new task of Compositional Image Generation, which can transfer learned cut styles to different objects, by generating novel object-state images. Moreover, we also use the videos for Compositional Action Recognition, and show valuable uses of this dataset for multiple video tasks. Project website: https://chopnlearn.github.io.
翻訳日:2023-09-26 12:37:41 公開日:2023-09-25
# オープンワールドにおける3次元屋内インスタンスセグメンテーション

3D Indoor Instance Segmentation in an Open-World ( http://arxiv.org/abs/2309.14338v1 )

ライセンス: Link先を確認
Mohamed El Amine Boudjoghra, Salwa K. Al Khatib, Jean Lahoud, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Fahad Khan(参考訳) 既存の3Dインスタンスのセグメンテーションメソッドは通常、トレーニング中にセグメンテーションされるすべてのセグメンテーションクラスが利用可能であり、参照されたカテゴリのみが推論時にセグメンテーションされると仮定する。 このようなクローズドワールドの仮定は制約的であり、オープンワールドの3次元屋内インスタンスセグメンテーションにおいて、モデルが既知のクラスを識別し、未知のオブジェクトを未知のものとして識別し、その後、対応するカテゴリラベルが利用可能になった時点で未知のセマンティックカテゴリを漸進的に学習することが許される。 そこで本研究では,学習中に擬似ラベルを生成し,未知のカテゴリラベルと未知のラベルを分離させる自動ラベル方式を用いた,オープンワールドの3d屋内インスタンスセグメンテーション手法を提案する。 対象度スコア分布に基づいて未知のクラス確率を調整することにより、推論時の擬似ラベルの品質をさらに向上する。 また,内在的オブジェクト分布に基づく現実的なシナリオ,地域ベース屋内シーン探索,オープンワールドクラスのランダム性を活用したオープンワールド分割についても紹介する。 広範な実験により、open-world 3dインスタンスのセグメンテーション性能を約束する貢献の有効性が明らかになった。

Existing 3D instance segmentation methods typically assume that all semantic classes to be segmented would be available during training and only seen categories are segmented at inference. We argue that such a closed-world assumption is restrictive and explore for the first time 3D indoor instance segmentation in an open-world setting, where the model is allowed to distinguish a set of known classes as well as identify an unknown object as unknown and then later incrementally learning the semantic category of the unknown when the corresponding category labels are available. To this end, we introduce an open-world 3D indoor instance segmentation method, where an auto-labeling scheme is employed to produce pseudo-labels during training and induce separation to separate known and unknown category labels. We further improve the pseudo-labels quality at inference by adjusting the unknown class probability based on the objectness score distribution. We also introduce carefully curated open-world splits leveraging realistic scenarios based on inherent object distribution, region-based indoor scene exploration and randomness aspect of open-world classes. Extensive experiments reveal the efficacy of the proposed contributions leading to promising open-world 3D instance segmentation performance.
翻訳日:2023-09-26 12:37:29 公開日:2023-09-25
# UnitedHuman:高解像度ヒューマンジェネレーションのためのマルチソースデータ

UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human Generation ( http://arxiv.org/abs/2309.14335v1 )

ライセンス: Link先を確認
Jianglin Fu, Shikai Li, Yuming Jiang, Kwan-Yee Lin, Wayne Wu, Ziwei Liu(参考訳) 人間世代は大きな進歩を遂げた。 それでも、既存の方法は顔や手などの特定の領域の合成に苦慮している。 主な理由はトレーニングデータにあると私たちは主張している。 総合的な人間のデータセットは必然的に、局所的な部分に関する不十分で低解像度な情報を持っている。 そこで我々は,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。 しかし、マルチソースデータは本質的に a)コヒーレントな人間に空間的に整合しない異なる部分を含み、 b) 異なる尺度で表される。 これらの課題に取り組むために,我々は,マルチソースデータを高分解能な人間生成に効果的に活用できる連続ganを付与する,エンドツーエンドのフレームワークであるunitedhumanを提案する。 具体的には 1) マルチソース画像から全身空間に空間的に整合するマルチソース空間トランスを人間のパラメトリックモデルで設計する。 2)次に,グローバル構造ガイダンスとカットミックス一貫性を備えた連続ganを提案する。 異なるデータセットからのパッチをサンプリングして変換し、このスケール不変生成モデルのトレーニングを監督する。 広範な実験により,マルチソースデータから学習したモデルが,総合的なデータセットから得られたモデルよりも優れた品質を達成できることが証明された。

Human generation has achieved significant progress. Nonetheless, existing methods still struggle to synthesize specific regions such as faces and hands. We argue that the main reason is rooted in the training data. A holistic human dataset inevitably has insufficient and low-resolution information on local parts. Therefore, we propose to use multi-source datasets with various resolution images to jointly learn a high-resolution human generative model. However, multi-source data inherently a) contains different parts that do not spatially align into a coherent human, and b) comes with different scales. To tackle these challenges, we propose an end-to-end framework, UnitedHuman, that empowers continuous GAN with the ability to effectively utilize multi-source data for high-resolution human generation. Specifically, 1) we design a Multi-Source Spatial Transformer that spatially aligns multi-source images to full-body space with a human parametric model. 2) Next, a continuous GAN is proposed with global-structural guidance and CutMix consistency. Patches from different datasets are then sampled and transformed to supervise the training of this scale-invariant generative model. Extensive experiments demonstrate that our model jointly learned from multi-source data achieves superior quality than those learned from a holistic dataset.
翻訳日:2023-09-26 12:37:05 公開日:2023-09-25
# tasks makyth model: ティッピングポイントのための機械学習支援サロゲート

Tasks Makyth Models: Machine Learning Assisted Surrogates for Tipping Points ( http://arxiv.org/abs/2309.14334v1 )

ライセンス: Link先を確認
Gianluca Fabiani, Nikolaos Evangelou, Tianqi Cui, Juan M. Bello-Rivas, Cristina P. Martin-Linares, Constantinos Siettos, Ioannis G. Kevrekidis(参考訳) 本稿では,多様体学習,ニューラルネットワーク,ガウス過程,方程式フリーマルチスケールモデリングを橋渡しする機械学習(ml)支援フレームワークを提案する。 (a)複雑系の創発的挙動における先端点を検出して (b)付近の稀な事象(以下、破滅的な変化)の確率を特徴付ける。 私たちの例は、単純な金融市場におけるトレーダーの模倣行動を記述するイベント駆動確率的エージェントベースモデル(ABM)です。 確率的abmによって生成された高次元時空間データを与えると、異なるスケールでの創発的ダイナミクスのための減次モデルを構築する。 (a)メソスコピック積分-部分微分方程式(IPDE)及び b) 平均場型確率微分方程式 (SDE) を低次元潜在空間に埋め込み, 先端点近傍を対象とする。 異なるモデルの使用と、それらを学ぶための努力とは対照的です。

We present a machine learning (ML)-assisted framework bridging manifold learning, neural networks, Gaussian processes, and Equation-Free multiscale modeling, for (a) detecting tipping points in the emergent behavior of complex systems, and (b) characterizing probabilities of rare events (here, catastrophic shifts) near them. Our illustrative example is an event-driven, stochastic agent-based model (ABM) describing the mimetic behavior of traders in a simple financial market. Given high-dimensional spatiotemporal data -- generated by the stochastic ABM -- we construct reduced-order models for the emergent dynamics at different scales: (a) mesoscopic Integro-Partial Differential Equations (IPDEs); and (b) mean-field-type Stochastic Differential Equations (SDEs) embedded in a low-dimensional latent space, targeted to the neighborhood of the tipping point. We contrast the uses of the different models and the effort involved in learning them.
翻訳日:2023-09-26 12:36:45 公開日:2023-09-25
# 絡み合いのない量子エンハンスパラメータ推定

Quantum-Enhanced Parameter Estimation Without Entanglement ( http://arxiv.org/abs/2309.14333v1 )

ライセンス: Link先を確認
Pragati Gupta(参考訳) エンタングルメントは一般に量子力学におけるハイゼンベルク極限を達成するために必要とされている。 我々は、Dicke と GHZ 状態の類似体を 1 つの$N+1$ dimensional qudit 上に構築し、$N$ qubits 上の対称交絡状態と等価な精度を達成する。 我々は,量子フィッシャー情報に基づく非古典性の尺度を定義し,達成可能な精度を推定し,非古典状態とクォーディットの計量的パワーとの密接な関係を示唆する。 我々の研究は、量子化パラメータ推定に必要な物理資源を指数関数的に削減し、高次元ヒルベルト空間を持つ任意の量子システムで利用できるようにする。

Entanglement is generally considered necessary for achieving the Heisenberg limit in quantum metrology. We construct analogues of Dicke and GHZ states on a single $N+1$ dimensional qudit that achieve precision equivalent to symmetrically entangled states on $N$ qubits, showing that entanglement is not necessary for going beyond the standard quantum limit. We define a measure of non-classicality based on quantum Fisher information and estimate the achievable precision, suggesting a close relationship between non-classical states and metrological power of qudits. Our work offers an exponential reduction in the physical resources required for quantum-enhanced parameter estimation, making it accessible on any quantum system with a high-dimensional Hilbert space.
翻訳日:2023-09-26 12:36:30 公開日:2023-09-25
# LinGCN: 同型暗号化推論のための構造線形グラフ畳み込みネットワーク

LinGCN: Structural Linearized Graph Convolutional Network for Homomorphically Encrypted Inference ( http://arxiv.org/abs/2309.14331v1 )

ライセンス: Link先を確認
Hongwu Peng and Ran Ran and Yukui Luo and Jiahui Zhao and Shaoyi Huang and Kiran Thorat and Tong Geng and Chenghong Wang and Xiaolin Xu and Wujie Wen and Caiwen Ding(参考訳) グラフ畳み込みネットワーク(GCN)モデルのサイズの成長は、パーソナルヘルスケアや金融システムといった分野における人的パフォーマンスを上回る多くのアプリケーションに革命をもたらした。 クラウドへのGCNのデプロイは、クライアントデータに対する潜在的敵攻撃によるプライバシー上の懸念を引き起こす。 セキュリティ問題に対処するため、準同型暗号化(he)を使用したプライバシ保存機械学習(ppml)は、機密性の高いクライアントデータを保護する。 しかし、実用的なアプリケーションでは計算のオーバーヘッドが大幅に増大する。 これらの課題に対処するため,乗算深度を低減し,HEに基づくGCN推論の性能を最適化するLinGCNを提案する。 LinGCNは、(1)パラメータ化離散指標関数を補完する微分可能な構造線形化アルゴリズムで、最適化目標を満たすためにモデルの重みと協調して訓練される。 この戦略は細粒度ノードレベルの非線形位置選択を促進し、最小乗算深さのモデルとなる。 2) 完全ReLU型教師モデルを用いた2段階蒸留法により, 2次学習可能活性化関数を用いたコンパクトなノードワイド多項式置換政策を導出する。 (3)ノードの活性化関数に対するよりきめ細かい演算子融合を可能にする拡張HEソリューションにより、HEベースの推論における乗算レベルの消費を低減できる。 NTU-XVIEWスケルトン共同データセットを用いた実験により,LinGCNは,CryptoGCNなど,同型暗号化推論におけるレイテンシ,精度,スケーラビリティに優れることがわかった。 注目すべきは、LinGCNはCryptoGCNと比較して14.2倍のレイテンシ向上を実現し、推論精度は75%、乗算深度は顕著に減少することである。

The growth of Graph Convolution Network (GCN) model sizes has revolutionized numerous applications, surpassing human performance in areas such as personal healthcare and financial systems. The deployment of GCNs in the cloud raises privacy concerns due to potential adversarial attacks on client data. To address security concerns, Privacy-Preserving Machine Learning (PPML) using Homomorphic Encryption (HE) secures sensitive client data. However, it introduces substantial computational overhead in practical applications. To tackle those challenges, we present LinGCN, a framework designed to reduce multiplication depth and optimize the performance of HE based GCN inference. LinGCN is structured around three key elements: (1) A differentiable structural linearization algorithm, complemented by a parameterized discrete indicator function, co-trained with model weights to meet the optimization goal. This strategy promotes fine-grained node-level non-linear location selection, resulting in a model with minimized multiplication depth. (2) A compact node-wise polynomial replacement policy with a second-order trainable activation function, steered towards superior convergence by a two-level distillation approach from an all-ReLU based teacher model. (3) an enhanced HE solution that enables finer-grained operator fusion for node-wise activation functions, further reducing multiplication level consumption in HE-based inference. Our experiments on the NTU-XVIEW skeleton joint dataset reveal that LinGCN excels in latency, accuracy, and scalability for homomorphically encrypted inference, outperforming solutions such as CryptoGCN. Remarkably, LinGCN achieves a 14.2x latency speedup relative to CryptoGCN, while preserving an inference accuracy of 75% and notably reducing multiplication depth.
翻訳日:2023-09-26 12:36:16 公開日:2023-09-25
# ノイズイン, バイアスアウト:バランスとリアルタイムMoCapの解法

Noise-in, Bias-out: Balanced and Real-time MoCap Solving ( http://arxiv.org/abs/2309.14330v1 )

ライセンス: Link先を確認
Georgios Albanis and Nikolaos Zioulis and Spyridon Thermos and Anargyros Chatzitofis and Kostas Kolomvatsos(参考訳) リアルタイム光モーションキャプチャ(MoCap)システムは、現代のデータ駆動モデリングの進歩の恩恵を受けていない。 本研究では,ノイズ非構造化マーカー推定をリアルタイムに解くために機械学習を適用し,比較的安価なセンサを用いた場合であっても頑健なマーカーベースのmocapを提供する。 これを実現するために,モデルのトレーニング,すなわちトレーニングデータのソーシングと,そのロングテール分布に関する多くの課題に焦点を当てた。 表現学習を活用することで、余分なデータやラベルを必要としない不均衡回帰のテクニックを設計し、稀で困難なポーズでモデルの性能を改善する。 統一表現に頼って、そのようなモデルのトレーニングは、ハイエンドなMoCapトレーニングデータ取得に縛られないことを示し、マーカーのないMoCapの進歩を利用して必要なデータを取得する。 最後に,ボディーモデルに基づく逆キネマティックスソリューションを適用し,測定と推論の不確実性を考慮して,さらにパフォーマンスとロバスト性を向上させることで,より豊かで安価なmocapへの一歩を踏み出した。 プロジェクトページ: https://moverseai.github.io/noise-tail

Real-time optical Motion Capture (MoCap) systems have not benefited from the advances in modern data-driven modeling. In this work we apply machine learning to solve noisy unstructured marker estimates in real-time and deliver robust marker-based MoCap even when using sparse affordable sensors. To achieve this we focus on a number of challenges related to model training, namely the sourcing of training data and their long-tailed distribution. Leveraging representation learning we design a technique for imbalanced regression that requires no additional data or labels and improves the performance of our model in rare and challenging poses. By relying on a unified representation, we show that training such a model is not bound to high-end MoCap training data acquisition, and exploit the advances in marker-less MoCap to acquire the necessary data. Finally, we take a step towards richer and affordable MoCap by adapting a body model-based inverse kinematics solution to account for measurement and inference uncertainty, further improving performance and robustness. Project page: https://moverseai.github.io/noise-tail
翻訳日:2023-09-26 12:35:43 公開日:2023-09-25
# DeepSpeed-VisualChat:マルチモーダル因果注意によるマルチラウンドマルチイメージインターリーブチャット

DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention ( http://arxiv.org/abs/2309.14327v1 )

ライセンス: Link先を確認
Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qi, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He(参考訳) 既存のマルチモーダルモデルのほとんどは、マルチイメージ、マルチラウンドの対話において、インターリーブされた画像とテキストの入力を積極的に管理する能力に妨げられ、トレーニングとデータアクセシビリティのためのリソース割り当てにかなりの制約に直面し、様々な相互作用領域にわたる適応性とスケーラビリティに影響を与える。 そこで本研究では,複数モーダル機能を組み込んだ大規模言語モデル(LLM)の最適化を目的としたDeepSpeed-VisualChatフレームワークを提案する。 本フレームワークは,(1)マルチラウンドおよびマルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果的注意機構の導入,(3)既存のデータセットへのデータブレンディング技術を活用したマルチラウンド・マルチイメージ対話におけるシームレスなインタラクションの実現,で注目に値する。 既存のフレームワークと比較して、deepspeed-visualchatは、70bのパラメータ言語モデルサイズまでの優れたスケーラビリティを示し、マルチモーダル言語モデルの大幅な進歩を示し、将来の調査のための確かな基盤を設定する。

Most of the existing multi-modal models, hindered by their incapacity to adeptly manage interleaved image-and-text inputs in multi-image, multi-round dialogues, face substantial constraints in resource allocation for training and data accessibility, impacting their adaptability and scalability across varied interaction realms. To address this, we present the DeepSpeed-VisualChat framework, designed to optimize Large Language Models (LLMs) by incorporating multi-modal capabilities, with a focus on enhancing the proficiency of Large Vision and Language Models in handling interleaved inputs. Our framework is notable for (1) its open-source support for multi-round and multi-image dialogues, (2) introducing an innovative multi-modal causal attention mechanism, and (3) utilizing data blending techniques on existing datasets to assure seamless interactions in multi-round, multi-image conversations. Compared to existing frameworks, DeepSpeed-VisualChat shows superior scalability up to 70B parameter language model size, representing a significant advancement in multi-modal language models and setting a solid foundation for future explorations.
翻訳日:2023-09-26 12:35:24 公開日:2023-09-25
# パウリチャンネル学習における数種のアンシラの有用性と有用性

Futility and utility of a few ancillas for Pauli channel learning ( http://arxiv.org/abs/2309.14326v1 )

ライセンス: Link先を確認
Sitan Chen and Weiyuan Gong(参考訳) 本稿では,量子デバイスにおけるノイズ構造を特徴づけ,$n$-qubit Pauli雑音チャネルの固有値を推定する原型的タスクの1つを再検討する。 先行研究 (chen et al., 2022) は、量子メモリに制限のあるアルゴリズムに対するこのタスクの指数関数的下限を確立した。 1) 量子メモリを持たないアルゴリズムは、誤差$\epsilon$内の各固有値を推定するために$\Omega(2^n/\epsilon^2)$の測定をしなければならない。 これは厳密で、ランダム化されたベンチマークプロトコルが最適であることを示し、(Flammia and Wallman, 2020)のオープンな疑問を解決する。 2)$\le k$ ancilla qubits of quantum memory を持つアルゴリズムは、未知のチャネルへの$\Omega(2^{(n-k)/3})$クエリをしなければならない。 in (chen et al., 2022) とは異なり、任意の適応制御とチャネル結合が許されている場合でも、我々の束縛は成立する。 実際、これらの下界は (Chen et al., 2022) と同様、基礎となるチャネルが完全に非偏極化されているか、全く別の非自明な固有値を持っているかを判断するより簡単な仮説テスト問題でも成り立つ。 意外なことに、 (3) 量子メモリの$k=2$ ancilla qubitsだけで、この仮説テストタスクを1つの測定値を用いて高い確率で解くアルゴリズムが存在する。 (3) は (2) と矛盾しないが、このプロトコルは測定の前に指数関数的に多くのクエリをチャネルに結合する。 この結果は、チャネル結合と$o(1)$ qubitsの量子メモリが、量子状態学習では不可能である量子プロセス学習の驚くべきスピードアップをもたらすための、新たなメカニズムを示唆している。

In this paper we revisit one of the prototypical tasks for characterizing the structure of noise in quantum devices, estimating the eigenvalues of an $n$-qubit Pauli noise channel. Prior work (Chen et al., 2022) established exponential lower bounds for this task for algorithms with limited quantum memory. We first improve upon their lower bounds and show: (1) Any algorithm without quantum memory must make $\Omega(2^n/\epsilon^2)$ measurements to estimate each eigenvalue within error $\epsilon$. This is tight and implies the randomized benchmarking protocol is optimal, resolving an open question of (Flammia and Wallman, 2020). (2) Any algorithm with $\le k$ ancilla qubits of quantum memory must make $\Omega(2^{(n-k)/3})$ queries to the unknown channel. Crucially, unlike in (Chen et al., 2022), our bound holds even if arbitrary adaptive control and channel concatenation are allowed. In fact these lower bounds, like those of (Chen et al., 2022), hold even for the easier hypothesis testing problem of determining whether the underlying channel is completely depolarizing or has exactly one other nontrivial eigenvalue. Surprisingly, we show that: (3) With only $k=2$ ancilla qubits of quantum memory, there is an algorithm that solves this hypothesis testing task with high probability using a single measurement. Note that (3) does not contradict (2) as the protocol concatenates exponentially many queries to the channel before the measurement. This result suggests a novel mechanism by which channel concatenation and $O(1)$ qubits of quantum memory could work in tandem to yield striking speedups for quantum process learning that are not possible for quantum state learning.
翻訳日:2023-09-26 12:35:01 公開日:2023-09-25
# 制約プログラミングと量子アニーリングによる保守を含む車両計画の最適化

Optimising Rolling Stock Planning including Maintenance with Constraint Programming and Quantum Annealing ( http://arxiv.org/abs/2109.07212v3 )

ライセンス: Link先を確認
Patricia Bickert, Cristian Grozea, Ronny Hans, Matthias Koch, Christina Riehn, Armin Wolf(参考訳) 本稿では,CP(Constraint Programming)とQA(Quantum Annealing)のアプローチを用いて,必要なメンテナンスタスクを考慮したストック割り当て最適化を提案する。 CPアプローチでは、全微分制約、要素制約の拡張、論理的含意などを用いて問題をモデル化する。 QA アプローチでは,2次非制約バイナリ最適化 (QUBO) モデルを開発する。 評価には、Deutsche Bahnの実際のデータに基づいてデータセットを使用し、D-Waveの実際の量子コンピュータ上でQAアプローチを実行する。 古典的なコンピュータは cp のアプローチや qubo モデルの tabu 探索を評価するのに使われている。 物理量子アニールの現段階では、両方のアプローチが同等の結果をもたらす傾向がある。

We propose and compare Constraint Programming (CP) and Quantum Annealing (QA) approaches for rolling stock assignment optimisation considering necessary maintenance tasks. In the CP approach, we model the problem with an Alldifferent constraint, extensions of the Element constraint, and logical implications, among others. For the QA approach, we develop a quadratic unconstrained binary optimisation (QUBO) model. For evaluation, we use data sets based on real data from Deutsche Bahn and run the QA approach on real quantum computers from D-Wave. Classical computers are used to evaluate the CP approach as well as tabu search for the QUBO model. At the current development stage of the physical quantum annealers, we find that both approaches tend to produce comparable results.
翻訳日:2023-09-26 10:52:41 公開日:2023-09-25
# 非パラメトリック隠れマルコフモデルを用いたモデルベースクラスタリング

Model-based clustering using non-parametric Hidden Markov Models ( http://arxiv.org/abs/2309.12238v2 )

ライセンス: Link先を確認
Elisabeth Gassiat, Ibrahim Kaddouri, Zacharie Naulet(参考訳) 依存構造のおかげで、非パラメトリックハイデンマルコフモデル(HMM)は群分布を指定せずにモデルベースのクラスタリングを処理できる。 本研究の目的は,HMMを用いたクラスタリングのベイズリスクを調査し,関連するクラスタリング手順を提案することである。 まず,分類のベイズリスクとクラスタリングのベイズリスクを結びつけ,クラスタリングタスクの難易度を決定するキー量を特定する。 我々はまた、この結果が独立した関心を持つかもしれないi.i.d.フレームワークで証明する。 次に,プラグイン分類器の過度なリスクについて検討する。 これらの結果は、観測が順次クラスタ化されるオンライン環境では有効であることが示されている。 シミュレーションは我々の発見を示しています。

Thanks to their dependency structure, non-parametric Hidden Markov Models (HMMs) are able to handle model-based clustering without specifying group distributions. The aim of this work is to study the Bayes risk of clustering when using HMMs and to propose associated clustering procedures. We first give a result linking the Bayes risk of classification and the Bayes risk of clustering, which we use to identify the key quantity determining the difficulty of the clustering task. We also give a proof of this result in the i.i.d. framework, which might be of independent interest. Then we study the excess risk of the plugin classifier. All these results are shown to remain valid in the online setting where observations are clustered sequentially. Simulations illustrate our findings.
翻訳日:2023-09-26 10:48:25 公開日:2023-09-25
# OSNet & MNetO:マルチシナリオにおける線形CTのための2種類の汎用再構成アーキテクチャ

OSNet & MNetO: Two Types of General Reconstruction Architectures for Linear Computed Tomography in Multi-Scenarios ( http://arxiv.org/abs/2309.11858v2 )

ライセンス: Link先を確認
Zhisheng Wang, Zihan Deng, Fenglin Liu, Yixing Huang, Haijun Yu and Junning Cui(参考訳) 近年,線形CTシステム(LCT)が注目されている。 LCTの投射トランケーションを弱め、関心領域(ROI)を画像化するためには、後方投射フィルタリング(BPF)アルゴリズムが有効な解である。 しかし, LCT のBPF では安定した内部再構成が困難であり, LCT の差分後方投影 (DBP) 画像では, ヒルベルト変換 (ヒルベルトフィルタ) 逆回転操作の多重回転有限反転が画像のぼかしとなる。 内部roi,完全物体,外部領域を含むlctの複数の再構成シナリオをfov(field-of-view)で満たし,ヒルベルトフィルタの回転操作を回避すべく,2種類の再構成アーキテクチャを提案する。 1つ目は、複数のDBP画像をオーバーレイして完全なDBP画像を取得し、次にネットワークを使用してオーバーレイ・シング・ネットワーク(OSNet)と呼ばれるオーバーレイヒルベルトフィルタリング関数を学習する。 2つ目は、複数の線形走査のDBP画像に対して異なる方向のヒルベルトフィルタリングモデルをトレーニングするために複数のネットワークを使用し、再構成された結果、すなわちMNetOをオーバーレイする。 2 つのアーキテクチャにおいて,DBP 画像から局所的特徴と大域的特徴を同時に抽出する pix2pixGAN の生成元に Swin Transformer (ST) ブロックを導入する。 本研究では,fovサイズ,画素サイズ,投影数,幾何倍化,処理時間という,ネットワークの異なる2つのアーキテクチャを調査した。 実験の結果,2つのアーキテクチャで画像の復元が可能であった。 OSNetは様々なシナリオでBPFを上回っている。 異なるネットワークでは、ST-pix2pixGANはPix2pixGANとCycleGANより優れている。 MNetOは複数のモデルの違いによっていくつかの人工物を示すが、そのモデルのいずれかが特定の方向に外縁を撮像するのに適している。

Recently, linear computed tomography (LCT) systems have actively attracted attention. To weaken projection truncation and image the region of interest (ROI) for LCT, the backprojection filtration (BPF) algorithm is an effective solution. However, in BPF for LCT, it is difficult to achieve stable interior reconstruction, and for differentiated backprojection (DBP) images of LCT, multiple rotation-finite inversion of Hilbert transform (Hilbert filtering)-inverse rotation operations will blur the image. To satisfy multiple reconstruction scenarios for LCT, including interior ROI, complete object, and exterior region beyond field-of-view (FOV), and avoid the rotation operations of Hilbert filtering, we propose two types of reconstruction architectures. The first overlays multiple DBP images to obtain a complete DBP image, then uses a network to learn the overlying Hilbert filtering function, referred to as the Overlay-Single Network (OSNet). The second uses multiple networks to train different directional Hilbert filtering models for DBP images of multiple linear scannings, respectively, and then overlays the reconstructed results, i.e., Multiple Networks Overlaying (MNetO). In two architectures, we introduce a Swin Transformer (ST) block to the generator of pix2pixGAN to extract both local and global features from DBP images at the same time. We investigate two architectures from different networks, FOV sizes, pixel sizes, number of projections, geometric magnification, and processing time. Experimental results show that two architectures can both recover images. OSNet outperforms BPF in various scenarios. For the different networks, ST-pix2pixGAN is superior to pix2pixGAN and CycleGAN. MNetO exhibits a few artifacts due to the differences among the multiple models, but any one of its models is suitable for imaging the exterior edge in a certain direction.
翻訳日:2023-09-26 10:48:13 公開日:2023-09-25
# 長距離化表面符号

Long-range-enhanced surface codes ( http://arxiv.org/abs/2309.11719v2 )

ライセンス: Link先を確認
Yifan Hong, Matteo Marinelli, Adam M. Kaufman, Andrew Lucas(参考訳) 曲面符号は1つの論理量子ビットに対する量子誤り訂正符号であり、2次元の空間的局所化パリティチェックによって保護される。 空間的局所性からの基本的な制約のため、より論理的な量子ビットを格納するには、エラーに対する表面コードの堅牢さを犠牲にするか、物理的量子ビットの数を増やす必要がある。 エラーに対する堅牢性を維持しつつ、表面コードに論理キュービットを追加するために必要な最小の空間的非局所的パリティチェック数を制限した。 我々は、この境界をハイパーグラフ製品コード群を用いて漸近的に飽和させ、表面コードと定レート低密度パリティチェックコードを補間する。 論理演算のためのフォールトトレラントプロトコルは、通常の曲面符号に基づくこれらの長距離符号に自然に一般化する。 移動光学式ツイーザにおいて,トラップイオンや中性原子をベースとしたハードウェア用コードの実装を短期的に実施する。 長距離拡張曲面符号は、数百の物理量子ビットを用いた従来の曲面符号よりも優れており、短期デバイスにおける論理量子ビットの堅牢性を高めるための実用的な戦略である。

The surface code is a quantum error-correcting code for one logical qubit, protected by spatially localized parity checks in two dimensions. Due to fundamental constraints from spatial locality, storing more logical qubits requires either sacrificing the robustness of the surface code against errors or increasing the number of physical qubits. We bound the minimal number of spatially non-local parity checks necessary to add logical qubits to a surface code while maintaining, or improving, robustness to errors. We asymptotically saturate this bound using a family of hypergraph product codes, interpolating between the surface code and constant-rate low-density parity-check codes. Fault-tolerant protocols for logical operations generalize naturally to these longer-range codes, based on those from ordinary surface codes. We provide near-term practical implementations of this code for hardware based on trapped ions or neutral atoms in mobile optical tweezers. Long-range-enhanced surface codes outperform conventional surface codes using hundreds of physical qubits, and represent a practical strategy to enhance the robustness of logical qubits to errors in near-term devices.
翻訳日:2023-09-26 10:46:42 公開日:2023-09-25
# 金ヨーロ:ゲザ・アンド・ディストビュート機構による効率的な物体検出装置

Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism ( http://arxiv.org/abs/2309.11331v3 )

ライセンス: Link先を確認
Chengcheng Wang, Wei He, Ying Nie, Jianyuan Guo, Chuanjian Liu, Kai Han, Yunhe Wang(参考訳) 近年, リアルタイム物体検出の分野における主要なアプローチとして, YOLOシリーズモデルが登場している。 多くの研究が、アーキテクチャを変更し、データを増やし、新しい損失を設計することで、ベースラインをより高いレベルに押し上げた。 しかし,従来モデルでは,機能ピラミッドネットワーク (fpn) とパスアグリゲーションネットワーク (panet) がこれを緩和しているが,情報融合問題に苦しんでいる。 そこで本研究では,畳み込みと自己アテンション操作によって実現される高度な集合分散機構(gd)機構を提案する。 この新しい設計モデルはGold-YOLOと呼ばれ、マルチスケールの機能融合能力を高め、すべてのモデルスケールでレイテンシと精度の理想的なバランスを実現する。 さらに, YOLOシリーズにMAEスタイルの事前トレーニングを初めて実装し, YOLOシリーズモデルが教師なし事前トレーニングの恩恵を受けられるようにした。 Gold-YOLO-Nは、COCO val2017データセットで39.9%のAP、T4 GPUで1030 FPSを達成した。 PyTorchコードはhttps://github.com/huawei-noah/Efficient-Computing/tree/master/detection/Gold-YOLOで、MindSporeコードはhttps://gitee.com/mindspore/models/tree/master/research/cv/Gold_YOLOで入手できる。

In the past years, YOLO-series models have emerged as the leading approaches in the area of real-time object detection. Many studies pushed up the baseline to a higher level by modifying the architecture, augmenting data and designing new losses. However, we find previous models still suffer from information fusion problem, although Feature Pyramid Network (FPN) and Path Aggregation Network (PANet) have alleviated this. Therefore, this study provides an advanced Gatherand-Distribute mechanism (GD) mechanism, which is realized with convolution and self-attention operations. This new designed model named as Gold-YOLO, which boosts the multi-scale feature fusion capabilities and achieves an ideal balance between latency and accuracy across all model scales. Additionally, we implement MAE-style pretraining in the YOLO-series for the first time, allowing YOLOseries models could be to benefit from unsupervised pretraining. Gold-YOLO-N attains an outstanding 39.9% AP on the COCO val2017 datasets and 1030 FPS on a T4 GPU, which outperforms the previous SOTA model YOLOv6-3.0-N with similar FPS by +2.4%. The PyTorch code is available at https://github.com/huawei-noah/Efficient-Computing/tree/master/Detection/Gold-YOLO, and the MindSpore code is available at https://gitee.com/mindspore/models/tree/master/research/cv/Gold_YOLO.
翻訳日:2023-09-26 10:46:21 公開日:2023-09-25
# BroadBEV:広視野鳥の視線マップ構築のための共同LiDARカメラフュージョン

BroadBEV: Collaborative LiDAR-camera Fusion for Broad-sighted Bird's Eye View Map Construction ( http://arxiv.org/abs/2309.11119v3 )

ライセンス: Link先を確認
Minsu Kim, Giseop Kim, Kyong Hwan Jin, Sunwook Choi(参考訳) 最近のBird's Eye View(BEV)空間におけるセンサ融合は、3D検出やマップセグメンテーションといった様々なタスクでその有用性を示している。 しかし、この手法は、不正確なカメラBEV推定と、LiDAR点の間隔による遠方領域の認識に苦慮している。 本稿では,クロスモダリティの空間同期アプローチによる問題に対処する,broadbev(broadbev fusion)を提案する。 我々の戦略は、広視野認識のためのカメラBEV推定を強化し、同時に、全BEV空間におけるLiDARの空き度を向上することである。 そこで我々は,LiDAR BEV分布をカメラ深度分布に散乱させる点散乱法を提案する。 この手法は,カメラブランチの深度推定の学習を促進し,BEV空間における高密度カメラ特徴の正確な位置を誘導する。 空間的に同期した特徴間の効果的なBEV融合のために,LiDARとカメラBEVの自己注意重みを相互に適用するColFusionを提案する。 広汎な実験により、BroadBEVは目覚ましい性能向上を伴う広視野のBEV知覚を提供することが示された。

A recent sensor fusion in a Bird's Eye View (BEV) space has shown its utility in various tasks such as 3D detection, map segmentation, etc. However, the approach struggles with inaccurate camera BEV estimation, and a perception of distant areas due to the sparsity of LiDAR points. In this paper, we propose a broad BEV fusion (BroadBEV) that addresses the problems with a spatial synchronization approach of cross-modality. Our strategy aims to enhance camera BEV estimation for a broad-sighted perception while simultaneously improving the completion of LiDAR's sparsity in the entire BEV space. Toward that end, we devise Point-scattering that scatters LiDAR BEV distribution to camera depth distribution. The method boosts the learning of depth estimation of the camera branch and induces accurate location of dense camera features in BEV space. For an effective BEV fusion between the spatially synchronized features, we suggest ColFusion that applies self-attention weights of LiDAR and camera BEV features to each other. Our extensive experiments demonstrate that BroadBEV provides a broad-sighted BEV perception with remarkable performance gains.
翻訳日:2023-09-26 10:45:48 公開日:2023-09-25
# マルチラベル画像分類のためのsemantic-aware dual contrastive learning

Semantic-Aware Dual Contrastive Learning for Multi-label Image Classification ( http://arxiv.org/abs/2307.09715v4 )

ライセンス: Link先を確認
Leilei Ma, Dengdi Sun, Lei Wang, Haifeng Zhao and Bin Luo(参考訳) 画像のセマンティクスを効果的に抽出し、対応するラベルを複数のオブジェクトや属性に割り当てることは、複雑なシーンの内容とラベル依存の混乱のために困難である。 最近の研究はグラフとのラベル関係のモデル化とクラスアクティベーションマップ(CAM)を用いたオブジェクト領域の理解に焦点を当てている。 しかし、これらの手法は、特定の意味的特徴間の複雑なカテゴリー内およびカテゴリー間関係を無視し、CAMはノイズの多い情報を生成する傾向にある。 そこで本研究では,サンプルからサンプルへのコントラスト学習 (sscl) とプロトタイプからサンプルへのコントラスト学習 (pscl) を併用した,新しいセマンティクス・アウェア・デュアルコントラスト学習フレームワークを提案する。 具体的には,セマンティクス・アウェア表現学習を用いて,カテゴリー関連局所識別特徴の抽出とカテゴリプロトタイプの構築を行う。 そして、ssclに基づいて、同一カテゴリのラベルレベルの視覚的表現を集約し、異なるカテゴリに属する特徴を分離する。 一方, 正のサンプルとカテゴリのプロトタイプとの距離を狭め, 負のサンプルを対応するカテゴリのプロトタイプから遠ざける新しいpsclモジュールを構築した。 そして、上記3つの部品の合同訓練により、画像内容に関する識別ラベルレベル特徴を正確に取得する。 5つの挑戦的な大規模公開データセットの実験により,提案手法が有効であり,最先端の手法よりも優れていることを示す。 コードと補足資料はhttps://github.com/yu-gi-oh-leilei/SADCLで公開されている。

Extracting image semantics effectively and assigning corresponding labels to multiple objects or attributes for natural images is challenging due to the complex scene contents and confusing label dependencies. Recent works have focused on modeling label relationships with graph and understanding object regions using class activation maps (CAM). However, these methods ignore the complex intra- and inter-category relationships among specific semantic features, and CAM is prone to generate noisy information. To this end, we propose a novel semantic-aware dual contrastive learning framework that incorporates sample-to-sample contrastive learning (SSCL) as well as prototype-to-sample contrastive learning (PSCL). Specifically, we leverage semantic-aware representation learning to extract category-related local discriminative features and construct category prototypes. Then based on SSCL, label-level visual representations of the same category are aggregated together, and features belonging to distinct categories are separated. Meanwhile, we construct a novel PSCL module to narrow the distance between positive samples and category prototypes and push negative samples away from the corresponding category prototypes. Finally, the discriminative label-level features related to the image content are accurately captured by the joint training of the above three parts. Experiments on five challenging large-scale public datasets demonstrate that our proposed method is effective and outperforms the state-of-the-art methods. Code and supplementary materials are released on https://github.com/yu-gi-oh-leilei/SADCL.
翻訳日:2023-09-26 10:45:26 公開日:2023-09-25
# 表現型変分量子回路は連合学習に固有のプライバシを提供する

Expressive variational quantum circuits provide inherent privacy in federated learning ( http://arxiv.org/abs/2309.13002v2 )

ライセンス: Link先を確認
Niraj Kumar, Jamie Heredge, Changhao Li, Shaltiel Eloul, Shree Hari Sureshbabu, and Marco Pistoia(参考訳) フェデレーション学習は、中央アグリゲータとデータを共有する必要なく、マシンラーニングモデルをトレーニングするための実行可能な分散ソリューションとして登場した。 しかし、標準的なニューラルネットワークベースのフェデレーション学習モデルは、サーバと共有される勾配からのデータ漏洩の影響を受けやすいことが示されている。 本研究では,過パラメータans\"atzeを結合した表現型エンコーディングマップを用いて,変動量子回路モデルを用いたフェデレート学習を提案する。 表現型マップは勾配反転攻撃に対して固有のプライバシをもたらし、過剰パラメータ化はモデルのトレーサビリティを保証する。 我々のプライバシーフレームワークは、量子回路の勾配によって生成される高次多変量チェビシェフ多項式のシステムを解く複雑さに焦点を当てている。 我々は,これらの方程式を完全かつ近似的に解くことの難しさを強調する説得力のある議論を行う。 さらに、機械学習に基づく攻撃戦略を考察し、元のフェデレーション学習モデルのオーバーパラメータ化と攻撃モデルのアンダーパラメータ化との直接的な関係を確立する。 さらに,攻撃モデルにおける表現型マップの過度パラメータ化が,指数関数的に多くの局所的最小点を持つ損失景観に繋がることを示すため,攻撃を成功させるのは非常に困難である。 これは、量子機械学習モデルの性質が本質的に連合学習におけるデータの漏洩を防ぐのに役立つという、初めて強い主張を与える。

Federated learning has emerged as a viable distributed solution to train machine learning models without the actual need to share data with the central aggregator. However, standard neural network-based federated learning models have been shown to be susceptible to data leakage from the gradients shared with the server. In this work, we introduce federated learning with variational quantum circuit model built using expressive encoding maps coupled with overparameterized ans\"atze. We show that expressive maps lead to inherent privacy against gradient inversion attacks, while overparameterization ensures model trainability. Our privacy framework centers on the complexity of solving the system of high-degree multivariate Chebyshev polynomials generated by the gradients of quantum circuit. We present compelling arguments highlighting the inherent difficulty in solving these equations, both in exact and approximate scenarios. Additionally, we delve into machine learning-based attack strategies and establish a direct connection between overparameterization in the original federated learning model and underparameterization in the attack model. Furthermore, we provide numerical scaling arguments showcasing that underparameterization of the expressive map in the attack model leads to the loss landscape being swamped with exponentially many spurious local minima points, thus making it extremely hard to realize a successful attack. This provides a strong claim, for the first time, that the nature of quantum machine learning models inherently helps prevent data leakage in federated learning.
翻訳日:2023-09-26 10:39:08 公開日:2023-09-25
# chatprcs: chatgptに基づく英語読解のためのパーソナライズされたサポートシステム

ChatPRCS: A Personalized Support System for English Reading Comprehension based on ChatGPT ( http://arxiv.org/abs/2309.12808v2 )

ライセンス: Link先を確認
Xizhe Wang, Yihua Zhong, Changqin Huang, and Xiaodi Huang(参考訳) 英語を学ぶ一般的なアプローチとして、読解は主に記事を読んで関連する質問に答えることである。 しかし、効果的な演習を設計する複雑さは、標準化された質問に遭遇する結果となり、個別の学習者の読解能力との整合が困難になる。 本稿では,ChatGPTによって実証された大規模言語モデルによって提供される高度な機能を活用することにより,近近開発領域理論に基づく,ChatPRCSと呼ばれる読解支援システムを提案する。 ChatPRCSでは,読解能力予測や質問生成,自動評価などの手法を用いて,読解能力の向上を図る。 まず,難易度の高い質問を生成するための基盤として,履歴データを用いて学習者の読解能力を予測する新しいアルゴリズムを開発した。 第2に,質問生成と自動評価という,理解目的の2つの重要な側面に対処するために,一連の新しいChatGPTプロンプトパターンを提案する。 これらのパターンは、生成した質問の品質をさらに向上させる。 最後に、パーソナライズされた能力と理解プロンプトパターンの統合により、chatprcは実験を通じて体系的に検証される。 実験結果から, 学習者に対して, 統計的レベルにおいて, 専門家による質問に広く適合した, 質の高い読解質問が提供されることがわかった。

As a common approach to learning English, reading comprehension primarily entails reading articles and answering related questions. However, the complexity of designing effective exercises results in students encountering standardized questions, making it challenging to align with individualized learners' reading comprehension ability. By leveraging the advanced capabilities offered by large language models, exemplified by ChatGPT, this paper presents a novel personalized support system for reading comprehension, referred to as ChatPRCS, based on the Zone of Proximal Development theory. ChatPRCS employs methods including reading comprehension proficiency prediction, question generation, and automatic evaluation, among others, to enhance reading comprehension instruction. First, we develop a new algorithm that can predict learners' reading comprehension abilities using their historical data as the foundation for generating questions at an appropriate level of difficulty. Second, a series of new ChatGPT prompt patterns is proposed to address two key aspects of reading comprehension objectives: question generation, and automated evaluation. These patterns further improve the quality of generated questions. Finally, by integrating personalized ability and reading comprehension prompt patterns, ChatPRCS is systematically validated through experiments. Empirical results demonstrate that it provides learners with high-quality reading comprehension questions that are broadly aligned with expert-crafted questions at a statistical level.
翻訳日:2023-09-26 10:38:43 公開日:2023-09-25
# BGF-YOLO:脳腫瘍検出のためのマルチスケール注意機能融合によるYOLOv8の増強

BGF-YOLO: Enhanced YOLOv8 with Multiscale Attentional Feature Fusion for Brain Tumor Detection ( http://arxiv.org/abs/2309.12585v2 )

ライセンス: Link先を確認
Ming Kang, Chee-Ming Ting, Fung Fung Ting, Rapha\"el C.-W. Phan(参考訳) You Only Look Once (YOLO)ベースの物体検出器は、自動脳腫瘍検出に顕著な精度を示している。 本稿では,BRA(Bi-level Routing Attention),一般特徴ピラミッドネットワーク(GFPN),第4検出ヘッドをYOLOv8に組み込んだ新しいBGF-YOLOアーキテクチャを提案する。 BGF-YOLOは、重要な特徴にもっと焦点を合わせるための注意機構と、高レベルのセマンティックな特徴と空間的詳細を融合して特徴表現を豊かにする特徴ピラミッドネットワークを含んでいる。 さらに,脳腫瘍検出精度に異なる注意機構と特徴融合,検出ヘッドアーキテクチャが与える影響について検討した。 実験の結果、BGF-YOLOは、YOLOv8xと比較して4.7%のmAP$_{50}$を絶対的に増加させ、脳腫瘍検出データセットBr35Hの最先端を達成することが示された。 コードはhttps://github.com/mkang315/BGF-YOLOで公開されている。

You Only Look Once (YOLO)-based object detectors have shown remarkable accuracy for automated brain tumor detection. In this paper, we develop a novel BGF-YOLO architecture by incorporating Bi-level Routing Attention (BRA), Generalized feature pyramid networks (GFPN), and Fourth detecting head into YOLOv8. BGF-YOLO contains an attention mechanism to focus more on important features, and feature pyramid networks to enrich feature representation by merging high-level semantic features with spatial details. Furthermore, we investigate the effect of different attention mechanisms and feature fusions, detection head architectures on brain tumor detection accuracy. Experimental results show that BGF-YOLO gives a 4.7% absolute increase of mAP$_{50}$ compared to YOLOv8x, and achieves state-of-the-art on the brain tumor detection dataset Br35H. The code is available at https://github.com/mkang315/BGF-YOLO.
翻訳日:2023-09-26 10:38:19 公開日:2023-09-25
# 大規模言語モデル時代の創造性支援--創発的作家を巻き込んだ実証的研究

Creativity Support in the Age of Large Language Models: An Empirical Study Involving Emerging Writers ( http://arxiv.org/abs/2309.12570v2 )

ライセンス: Link先を確認
Tuhin Chakrabarty, Vishakh Padmakumar, Faeze Brahman, Smaranda Muresan(参考訳) 大規模言語モデル(llm)の開発は、命令に従うことができ、会話的な対話に関与できるようになり、様々なサポートツールへの利用への関心が高まった。 経験的ユーザスタディ (n=30) を通じて, プロのライターを支援するための現代LLMの有用性について検討する。 協調的な筆記インタフェースの設計は、書記を非線形認知活動(計画、翻訳、レビュー)を含む目標志向の思考プロセスとして考えることの認知プロセスモデルに根ざしている。 参加者は、LLMの潜在的および落とし穴に関するフィードバックを共同執筆者として提供するために、完成後調査を提出するよう求められている。 著者とLLMの相互作用を分析すると,LLMが3種類の認知活動にまたがって助けを求める一方で,LLMが翻訳やレビューに有用であることが分かる。 LLMを用いた創造的執筆支援における今後の研究の方向性を明らかにするために,インタラクションと調査回答の両方を分析した。

The development of large language models (LLMs) capable of following instructions and engaging in conversational interactions sparked increased interest in their utilization across various support tools. We investigate the utility of modern LLMs in assisting professional writers via an empirical user study (n=30). The design of our collaborative writing interface is grounded in the cognitive process model of writing that views writing as a goal-oriented thinking process encompassing non-linear cognitive activities: planning, translating, and reviewing. Participants are asked to submit a post-completion survey to provide feedback on the potential and pitfalls of LLMs as writing collaborators. Upon analyzing the writer-LLM interactions, we find that while writers seek LLM's help across all three types of cognitive activities, they find LLMs more helpful in translation and reviewing. Our findings from analyzing both the interactions and the survey responses highlight future research directions in creative writing assistance using LLMs.
翻訳日:2023-09-26 10:37:59 公開日:2023-09-25
# MOSスピン量子ビットにおけるノイズの時空間相関

Spatio-temporal correlations of noise in MOS spin qubits ( http://arxiv.org/abs/2309.12542v2 )

ライセンス: Link先を確認
Amanda E. Seedhouse, Nard Dumoulin Stuyck, Santiago Serrano, Tuomo Tanttu, Will Gilbert, Jonathan Yue Huang, Fay E. Hudson, Kohei M. Itoh, Arne Laucht, Wee Han Lim, Chih Hwan Yang, Andrew S. Dzurak, Andre Saraiva(参考訳) 量子コンピューティングにおいて、量子ビットの完全なノイズプロファイルの特徴付けは、システム内のノイズの種類に特有のエラー緩和技術を作成するか、あるいはノイズ源を完全に取り除くことによって、コヒーレンス時間とフィディリティの増大に寄与する。 MOS量子ドットのスピン量子ビットは、2レベルゆらぎ器の複雑なガラスの挙動から生じるノイズに曝され、空間と時間の両方で量子ビットの性質と非自明な相関が生じる。 近年の工学的な進歩により、典型的なスピンキュービットデバイス実験で大量のデータが収集されており、例えば天体物理学、金融学、気候科学など、大規模なデータセットの管理に経験した研究分野から着想を得たデータ分析の選択肢を探求することが望ましい。 本稿では,ウェーブレットを用いた信号の周波数成分と時間成分を分解し,ノイズの発生源を深く把握するための解析手法を提案する。 一対のSiMOS量子ドットにおける最先端2量子ビットシステム上での長いフィードバック実験に本解析を適用した。 観測された相関は、よりスケーラブルなフィードバックシステムによるマルチキュービット操作のための経路の解明と同様に、ノイズの一般的な顕微鏡的原因を特定するのに役立つ。

In quantum computing, characterising the full noise profile of qubits can aid the efforts towards increasing coherence times and fidelities by creating error mitigating techniques specific to the type of noise in the system, or by completely removing the sources of noise. Spin qubits in MOS quantum dots are exposed to noise originated from the complex glassy behaviour of two-level fluctuators, leading to non-trivial correlations between qubit properties both in space and time. With recent engineering progress, large amounts of data are being collected in typical spin qubit device experiments, and it is beneficiary to explore data analysis options inspired from fields of research that are experienced in managing large data sets, examples include astrophysics, finance and climate science. Here, we propose and demonstrate wavelet-based analysis techniques to decompose signals into both frequency and time components to gain a deeper insight into the sources of noise in our systems. We apply the analysis to a long feedback experiment performed on a state-of-the-art two-qubit system in a pair of SiMOS quantum dots. The observed correlations serve to identify common microscopic causes of noise, as well as to elucidate pathways for multi-qubit operation with a more scalable feedback system.
翻訳日:2023-09-26 10:37:44 公開日:2023-09-25
# 2次元における監視自由フェルミオンの絡み合い相、局在および多重フラクタル性

Entanglement phases, localization and multifractality of monitored free fermions in two dimensions ( http://arxiv.org/abs/2309.12391v2 )

ライセンス: Link先を確認
K. Chahine, M. Buchhold(参考訳) 2次元(2次元)におけるU(1)$対称性を持つ連続監視自由フェルミオンの絡み合い構造と波動関数特性について検討する。 フェルミオンレプリカ・ケルディッシュ場理論とボソニック有効長波長作用を導出し、2次元の監視フェルミオンのエンタングルメント相転移と3次元のアンダーソン型局在遷移の相似性と差異について考察した。 次に、厳密な数値シミュレーションからエンタングルメントエントロピー、相互情報、波動関数の逆参加比を抽出し、2次元における監視フェルミオンの絡み合い遷移の現象を定式化する。 弱いモニタリングでは、特徴的な$L\log L$エンタングルメント成長と多フラクタル次元$D_q=2$が金属フェルミ液体を連想させる。 強いモニタリングのために、指数関数的に局所化された波動関数は、面積法則の絡み合いに対する飽和をもたらす。 その間、臨界点は、創発的共形不変性と強い多重フラクタル性と一致する絡み合いスケーリングの両方を表示する。 計算結果は平均場解析と一ループ再正規化群による場理論の扱いとよく一致している。 これは、絡み合いの内容における金属-絶縁体遷移のモニタリングのイメージを形作り、2次元モニターされたフェルミオンを新しいアリーナとして確立し、D$次元の非単位量子力学と$D+1$次元の量子統計力学のリンクを探索する。

We explore the entanglement structure and wave function properties of continuously monitored free fermions with $U(1)$-symmetry in two spatial dimensions (2D). Deriving the fermion replica-Keldysh field theory, and a bosonic effective long-wavelength action, we discuss similarities and differences between entanglement phase transitions of monitored fermions in two dimensions and Anderson-type localization transitions in three dimensions. We then establish the phenomenology of entanglement transitions of monitored fermions in 2D by extracting the entanglement entropy, mutual information, and wave function inverse participation ratio from exact numerical simulations. At weak monitoring, a characteristic $L\log L$ entanglement growth and a multifractal dimension $D_q=2$ are reminiscent of a metallic Fermi liquid. For strong monitoring, exponentially localized wave functions yield a saturation towards area law entanglement. In between, the critical point displays both an entanglement scaling consistent with an emergent conformal invariance and strong multifractality. The numerical results are in good agreement with a mean-field analysis and a one-loop renormalization group treatment of the field theory. This shapes the picture of a monitoring induced metal-to-insulator transition in the entanglement content and establishes 2D monitored fermions as a novel arena to explore the link between non-unitary quantum dynamics in $D$ dimensions and quantum statistical mechanics in $D+1$ dimensions.
翻訳日:2023-09-26 10:37:21 公開日:2023-09-25
# どこでも運転することを学ぶ

Learning to Drive Anywhere ( http://arxiv.org/abs/2309.12295v2 )

ライセンス: Link先を確認
Ruizhao Zhu, Peng Huang, Eshed Ohn-Bar, Venkatesh Saligrama(参考訳) 人間のドライバーは、道路のさまざまな条件や規則、例えば左と右の交通量で、運転決定を地理的にシームレスに適応させることができる。 対照的に、これまでの自動運転のモデルは、これまで制限された運用領域にのみデプロイされてきた。 本研究では,異種・グローバルな分散データから動的環境,交通,社会特性を効率よく学習できる,地理的に認識可能な単一条件模倣学習(CIL)モデルであるAnyDを提案する。 我々の重要な洞察は、局所的なニュアンスに効果的に適用し、データ駆動方式で地域間の類似性を柔軟にモデル化する高容量なジオロケーションベースのチャネルアテンションメカニズムを導入することである。 対照的な模倣目的を最適化することにより、本提案手法は本質的に不均衡なデータ分布と位置依存イベントを効率的にスケールすることができる。 我々は、複数のデータセット、都市、スケーラブルなデプロイメントパラダイム、すなわち集中型、半教師付き、分散エージェントトレーニングにおけるAnyDエージェントのメリットを実証する。 特にanydは、オープンループ評価で14%、carlaでクローズドループテストで30%以上、cilベースラインを上回っている。

Human drivers can seamlessly adapt their driving decisions across geographical locations with diverse conditions and rules of the road, e.g., left vs. right-hand traffic. In contrast, existing models for autonomous driving have been thus far only deployed within restricted operational domains, i.e., without accounting for varying driving behaviors across locations or model scalability. In this work, we propose AnyD, a single geographically-aware conditional imitation learning (CIL) model that can efficiently learn from heterogeneous and globally distributed data with dynamic environmental, traffic, and social characteristics. Our key insight is to introduce a high-capacity geo-location-based channel attention mechanism that effectively adapts to local nuances while also flexibly modeling similarities among regions in a data-driven manner. By optimizing a contrastive imitation objective, our proposed approach can efficiently scale across inherently imbalanced data distributions and location-dependent events. We demonstrate the benefits of our AnyD agent across multiple datasets, cities, and scalable deployment paradigms, i.e., centralized, semi-supervised, and distributed agent training. Specifically, AnyD outperforms CIL baselines by over 14% in open-loop evaluation and 30% in closed-loop testing on CARLA.
翻訳日:2023-09-26 10:36:28 公開日:2023-09-25