このサイトではarxivで発表された論文のメタデータを翻訳しています。(arxivのメタデータは CC 0です) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。 技術的な詳細は開発者のBlogで紹介します。

下表は最大200件を表示しています。

PDF登録状況(最新200件)


TitleAuthorsAbstract論文公表日・翻訳日
# 信頼度追従検出:リアルタイム追従検出システムの高速化

Confidence-Triggered Detection: Accelerating Real-time Tracking-by-detection Systems ( http://arxiv.org/abs/1902.00615v4 )

ライセンス: Link先を確認
Zhicheng Ding, Zhixin Lai, Siyang Li, Panfeng Li, Qikai Yang, Edward Wong, (参考訳) リアルタイム物体追跡は、ディープラーニング手法の計算要求によってさらに悪化する課題である、速度と精度の微妙なバランスを必要とする。 本稿では,中間状態によく似たフレームに対するオブジェクト検出を戦略的に回避し,トラッカーの信頼度を生かしたCTD(Confidence-Triggered Detection)を提案する。 CTDは追跡速度を向上するだけでなく、既存の追跡アルゴリズムを超越して精度も維持する。 種々のトラッカー信頼度しきい値の広範な評価を通じて,トラッキング速度と精度の最適なトレードオフを特定し,パラメータの微調整と実世界のシナリオにおけるCTDの実用性向上に重要な洞察を与える。 各種検出モデルを用いた実験により,CTDフレームワークの堅牢性と汎用性を実証し,資源制約環境におけるリアルタイムトラッキングの実現の可能性を示した。

Real-time object tracking necessitates a delicate balance between speed and accuracy, a challenge exacerbated by the computational demands of deep learning methods. In this paper, we propose Confidence-Triggered Detection (CTD), an innovative approach that strategically bypasses object detection for frames closely resembling intermediate states, leveraging tracker confidence scores. CTD not only enhances tracking speed but also preserves accuracy, surpassing existing tracking algorithms. Through extensive evaluation across various tracker confidence thresholds, we identify an optimal trade-off between tracking speed and accuracy, providing crucial insights for parameter fine-tuning and enhancing CTD's practicality in real-world scenarios. Our experiments across diverse detection models underscore the robustness and versatility of the CTD framework, demonstrating its potential to enable real-time tracking in resource-constrained environments.
公開日:2024-04-25
翻訳日:2024-04-27 00:45:56
# Maxwell Demon と Einstein-Podolsky-Rosen ステアリング

Maxwell Demon and Einstein-Podolsky-Rosen Steering ( http://arxiv.org/abs/2105.05656v4 )

ライセンス: Link先を確認
Meng-Jun Hu, Xiao-Min Hu, Yong-Sheng Zhang, (参考訳) マクスウェルの悪魔と量子絡み合いの研究は、物理学における基礎的な重要性と量子情報への潜在的な応用のために重要である。 マクスウェルのデーモンに関するこれまでの研究は、主に量子相関を考慮した熱力学に焦点を当てていた。 ここでは、別の観点から考察し、量子非局所性相関が作業によってシミュレートできるかどうかを問う。 このため、マックスウェルの悪魔支援型アインシュタイン・ポドルスキー・ローゼン(EPR)ステアリングが提案され、新しいタイプの抜け穴が示唆された。 ランダウアーの消去原理の適用は、操舵作業中にこの抜け穴を閉じる唯一の方法は、参加者による局所環境の熱変動を継続的に監視することであることを示している。 我々は、超伝導量子コンピュータのような現在のプログラマブル量子プロセッサで実証できる、マックスウェルのデモンアシスト型EPRステアリングの量子回路モデルを構築した。 この量子回路モデルに基づいて、デーモンの作用によるエネルギー散逸と量子非局所性相関の関係を記述する定量的な式を得る。 この結果は、量子非局所性、情報、熱力学の関係を探索し理解する新しい方法を提供するため、非常に物理的に興味深い。

The study of Maxwell demon and quantum entanglement is important because of its foundational significance in physics and its potential applications in quantum information. Previous research on the Maxwell demon has primarily focused on thermodynamics, taking into account quantum correlations. Here we consider from another perspective and ask whether quantum non-locality correlations can be simulated by performing work. The Maxwell demon-assisted Einstein-Podolsky-Rosen (EPR) steering is thus proposed, which implies a new type of loophole. The application of Landauer's erasure principle suggests that the only way to close this loophole during a steering task is by continuously monitoring the heat fluctuation of the local environment by the participant. We construct a quantum circuit model of Maxwell demon-assisted EPR steering, which can be demonstrated by current programmable quantum processors, such as superconducting quantum computers. Based on this quantum circuit model, we obtain a quantitative formula describing the relationship between energy dissipation due to the work of the demon and quantum non-locality correlation. The result is of great physical interest because it provides a new way to explore and understand the relationship between quantum non-locality, information, and thermodynamics.
公開日:2024-04-24
翻訳日:2024-04-27 00:45:56
# FairCMS: 公正な著作権保護を備えたクラウドメディア共有

FairCMS: Cloud Media Sharing with Fair Copyright Protection ( http://arxiv.org/abs/2105.08899v2 )

ライセンス: Link先を確認
Xiangli Xiao, Yushu Zhang, Leo Yu Zhang, Zhongyun Hua, Zhe Liu, Jiwu Huang, (参考訳) この面倒なメディア共有タスクは、リソースに制約のあるメディア所有者に、クラウドプラットフォーム、すなわち、メディアコンテンツをクラウドに保存し、クラウドに共有させる支援を求めるよう促す。 データプライバシの漏洩やクラウドへのアクセス制御,所有者の著作権侵害,ユーザの権利侵害など,3つの重要なセキュリティ/プライバシの問題が,クラウドメディア共有シナリオで解決する必要がある。 本論文では,上記の3つの問題を同時に解決する手法が存在しないことを踏まえ,FairCMS-IとFairCMS-IIという2つのクラウドメディア共有方式を提案する。 FairCMS-IとFairCMS-IIはプロキシ再暗号化技術と非対称フィンガープリント技術を巧みに利用することにより、上記の3つの問題を異なるプライバシー/効率トレードオフで解決する。 中でもFairCMS-Iはクラウド側の効率性に重点を置いており、FairCMS-IIはメディアコンテンツのセキュリティに重点を置いている。 さらに、FairCMS-IとFairCMS-IIは、オプションのIND-CPA(選択された平文攻撃下での識別性)セキュリティと高いクラウド側効率の点で、既存のクラウドメディア共有の取り組みよりも利点がある。 さらに、FairCMS-IとFairCMS-IIは、所有者が重要なローカルリソースの節約を享受できるようにするため、非対称指紋のプライバシー保護のアウトソーシングと見なすことができる。 最後に、FairCMS-IおよびFairCMS-IIの有効性と効率を実験により実証した。

The onerous media sharing task prompts resource-constrained media owners to seek help from a cloud platform, i.e., storing media contents in the cloud and letting the cloud do the sharing. There are three key security/privacy problems that need to be solved in the cloud media sharing scenario, including data privacy leakage and access control in the cloud, infringement on the owner's copyright, and infringement on the user's rights. In view of the fact that no single technique can solve the above three problems simultaneously, two cloud media sharing schemes are proposed in this paper, named FairCMS-I and FairCMS-II. By cleverly utilizing the proxy re-encryption technique and the asymmetric fingerprinting technique, FairCMS-I and FairCMS-II solve the above three problems with different privacy/efficiency trade-offs. Among them, FairCMS-I focuses more on cloud-side efficiency while FairCMS-II focuses more on the security of the media content, which provides owners with flexibility of choice. In addition, FairCMS-I and FairCMS-II also have advantages over existing cloud media sharing efforts in terms of optional IND-CPA (indistinguishability under chosen-plaintext attack) security and high cloud-side efficiency, as well as exemption from needing a trusted third party. Furthermore, FairCMS-I and FairCMS-II allow owners to reap significant local resource savings and thus can be seen as the privacy-preserving outsourcing of asymmetric fingerprinting. Finally, the feasibility and efficiency of FairCMS-I and FairCMS-II are demonstrated by experiments.
公開日:2024-04-25
翻訳日:2024-04-27 00:45:56
# 開量子系における中間時間ジレンマ:精製弱結合限界に対するフィルタ近似

Intermediate Times Dilemma for Open Quantum System: Filtered Approximation to The Refined Weak Coupling Limit ( http://arxiv.org/abs/2106.05776v3 )

ライセンス: Link先を確認
Marek Winczewski, Antonio Mandarino, Gerardo Suarez, Michał Horodecki, Robert Alicki, (参考訳) 有名なデイビー=GKSL世俗マルコフのマスター方程式は、ほんの数パラメータで開量子系の進化を近似することに成功した。 しかし、完全系列のデービス-GKSL方程式は、時間スケールが十分に短く、すなわち、興味ある系に存在する周波数の差の逆数に匹敵するほど正確に記述することができない。 短い時間でうまく機能するが、この短区間が終わると不適当な相補的アプローチは準分子マスター方程式として知られている。 それでも、どちらのアプローチも中間時間間隔で忠実なダイナミクスを持たない。 同時に、前述の「グレーゾーン」に適用される力学の記述は、マスター方程式よりも計算的にはるかに複雑か、数学的には十分に構造化されていないことが多い。 精製弱結合限界に対するフィルタ近似(FA)は、デービーズ-GKSL方程式の単純化された精神を持ち、中間時間状態におけるダイナミクスの捕捉を可能にする。 同時に、我々の非マルコフ方程式は、完全に正のダイナミクスをもたらす。 スピン-ボソン系とクォート-ボソン系では, 2つの距離の時間スケールが現れる場合, FA方程式の性能を例証する。

The famous Davies-GKSL secular Markovian master equation is tremendously successful in approximating the evolution of open quantum systems in terms of just a few parameters. However, the fully-secular Davies-GKSL equation fails to accurately describe time scales short enough, i.e., comparable to the inverse of differences of frequencies present in the system of interest. A complementary approach that works well for short times but is not suitable after this short interval is known as the quasi-secular master equation. Still, both approaches fail to have any faithful dynamics in the intermediate time interval. Simultaneously, descriptions of dynamics that apply to the aforementioned "grey zone" often are computationally much more complex than master equations or are mathematically not well-structured. The filtered approximation (FA) to the refined weak coupling limit has the simplistic spirit of the Davies-GKSL equation and allows capturing the dynamics in the intermediate time regime. At the same time, our non-Markovian equation yields completely positive dynamics. We exemplify the performance of the FA equation in the cases of the spin-boson system and qutrit-boson system in which two distant time scales appear.
公開日:2024-04-25
翻訳日:2024-04-27 00:45:56
# 予測符号化とバックプロパゲーションの関係について

On the relationship between predictive coding and backpropagation ( http://arxiv.org/abs/2106.13082v6 )

ライセンス: Link先を確認
Robert Rosenbaum, (参考訳) ニューラルネットワークはしばしば生物学的ニューラルネットワークの抽象モデルとして解釈されるが、通常は生物学的に非現実的なバックプロパゲーションアルゴリズムとその変種を用いて訓練される。 予測符号化は、ニューラルネットワークのトレーニングのためのバックプロパゲーションに代わる、潜在的に生物学的に現実的な代替物として提案されている。 この原稿は、教師付き学習タスクにおけるフィードフォワード人工ニューラルネットワークのトレーニングにおける予測符号化とバックプロパゲーションの数学的関係に関する最近の研究をレビューし、拡張している。 PyTorchニューラルネットワークモデルを用いて予測符号化を行うために,生物学習のモデルとしての予測符号化と深部ニューラルネットワークの解釈にこれらの結果の意義を,関数のリポジトリであるTorch2PCとともに論じる。

Artificial neural networks are often interpreted as abstract models of biological neuronal networks, but they are typically trained using the biologically unrealistic backpropagation algorithm and its variants. Predictive coding has been proposed as a potentially more biologically realistic alternative to backpropagation for training neural networks. This manuscript reviews and extends recent work on the mathematical relationship between predictive coding and backpropagation for training feedforward artificial neural networks on supervised learning tasks. Implications of these results for the interpretation of predictive coding and deep neural networks as models of biological learning are discussed along with a repository of functions, Torch2PC, for performing predictive coding with PyTorch neural network models.
公開日:2024-04-23
翻訳日:2024-04-27 00:45:56
# 偽のCOVID-19物語が相次ぐ-時相分析

The False COVID-19 Narratives That Keep Being Debunked: A Spatiotemporal Analysis ( http://arxiv.org/abs/2107.12303v3 )

ライセンス: Link先を確認
Iknoor Singh, Kalina Bontcheva, Carolina Scarton, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックが始まり、世界のインフォデミックは市民、メディア、ファクトチェッカーに前例のない挑戦をもたらした。 この課題に対処するため、世界中の100以上のファクトチェックイニシアチブが、彼らの国の情報空間を監視し、新型コロナウイルス(COVID-19)の物語を定期的に公開してきた。 本研究では、さまざまなファクトチェック組織によって複数の言語で公開された新型コロナウイルスに関連する10,381件の文書を含むCoronaVirusFacts Allianceのデータベースを調査した。 我々の時空間分析では、類似またはほぼ重複した偽の新型コロナウイルスの物語が、様々な国の様々なソーシャルメディアプラットフォームで拡散していることが明らかとなり、時にはその物語の最初の一節が国際ファクトチェックネットワーク(IFCN)のファクトチェッカーによって公表されてから数ヶ月も経っている。 また、一般的な医療アドバイスを含む誤報が複数の国に広まっていることもわかりました。 さらに、手動のファクトチェックはそれ自体が厄介な作業であるため、異なる国で同じ物語を繰り返す必要性は、時間とともに、ファクトチェックリソースのかなりの無駄に導かれる。 この目的のために我々は,ファクトチェックパイプラインに多言語デバンク検索ツールを組み込むことを提案し,また,不足するファクトチェックリソースを最大限に活用するために,ソーシャルメディアプラットフォームが大規模に同じ技術を採用する必要があることを強く推奨する。

The onset of the COVID-19 pandemic led to a global infodemic that has brought unprecedented challenges for citizens, media, and fact-checkers worldwide. To address this challenge, over a hundred fact-checking initiatives worldwide have been monitoring the information space in their countries and publishing regular debunks of viral false COVID-19 narratives. This study examines the database of the CoronaVirusFacts Alliance, which contains 10,381 debunks related to COVID-19 published in multiple languages by different fact-checking organisations. Our spatiotemporal analysis reveals that similar or nearly duplicate false COVID-19 narratives have been spreading in multiple modalities and on various social media platforms in different countries, sometimes as much as several months after the first debunk of that narrative has been published by an International Fact-checking Network (IFCN) fact-checker. We also find that misinformation involving general medical advice has spread across multiple countries and hence has the highest proportion of false COVID-19 narratives that keep being debunked. Furthermore, as manual fact-checking is an onerous task in itself, therefore the need to repeatedly debunk the same narrative in different countries is leading, over time, to a significant waste of fact-checker resources. To this end, we propose the idea of including a multilingual debunk search tool in the fact-checking pipeline, in addition to recommending strongly that social media platforms need to adopt the same technology at scale, so as to make the best use of scarce fact-checker resources.
公開日:2024-04-24
翻訳日:2024-04-27 00:45:56
# 単眼3次元物体検出のための投影モデルによる幾何学誘導深度学習

Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection ( http://arxiv.org/abs/2107.13931v2 )

ライセンス: Link先を確認
Yinmin Zhang, Xinzhu Ma, Shuai Yi, Jun Hou, Zhihui Wang, Wanli Ouyang, Dan Xu, (参考訳) 自動運転の重要な課題として、近年3Dオブジェクト検出は大きな進歩を遂げている。 しかし, 深度推定における不満足な性能のため, 単分子3次元物体検出は依然として困難な問題である。 既存のモノクラー法は、通常、シーンの深さを直接回帰するが、深さと様々な幾何学的要素(例えば、境界箱のサイズ、3Dオブジェクトの寸法、オブジェクトのポーズ)の間の重要な関係を無視している。 本稿では,投影モデルを用いて幾何学誘導深度推定を学習し,モノクル3次元物体検出を推し進めることを提案する。 具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。 さらに,提案式の実装と組込みにより,幾何を考慮した深部表現学習が可能となり,深部推定の促進に有効な2次元および3次元インタラクションが可能となった。 さらに,2次元アノテーションと投影ボックスの相違に対処し,幾何学式による頑健な学習を確保することで,強力なベースラインを提供する。 KITTIデータセットを用いた実験により, 適度なテスト設定において, 余分なデータを必要としない最先端単分子法の検出性能を2.80%向上することを確認した。 モデルとコードはhttps://github.com/YinminZhang/MonoGeo.comでリリースされる。

As a crucial task of autonomous driving, 3D object detection has made great progress in recent years. However, monocular 3D object detection remains a challenging problem due to the unsatisfactory performance in depth estimation. Most existing monocular methods typically directly regress the scene depth while ignoring important relationships between the depth and various geometric elements (e.g. bounding box sizes, 3D object dimensions, and object poses). In this paper, we propose to learn geometry-guided depth estimation with projective modeling to advance monocular 3D object detection. Specifically, a principled geometry formula with projective modeling of 2D and 3D depth predictions in the monocular 3D object detection network is devised. We further implement and embed the proposed formula to enable geometry-aware deep representation learning, allowing effective 2D and 3D interactions for boosting the depth estimation. Moreover, we provide a strong baseline through addressing substantial misalignment between 2D annotation and projected boxes to ensure robust learning with the proposed geometric formula. Experiments on the KITTI dataset show that our method remarkably improves the detection performance of the state-of-the-art monocular-based method without extra data by 2.80% on the moderate test setting. The model and code will be released at https://github.com/YinminZhang/MonoGeo.
公開日:2024-04-24
翻訳日:2024-04-27 00:45:56
# 垂直・水平データ分割型マルチティアネットワークにおけるクロスサイロフェデレーション学習

Cross-Silo Federated Learning for Multi-Tier Networks with Vertical and Horizontal Data Partitioning ( http://arxiv.org/abs/2108.08930v4 )

ライセンス: Link先を確認
Anirban Das, Timothy Castiglia, Shiqiang Wang, Stacy Patterson, (参考訳) 連携型通信ネットワークにおける連合学習について考察する。 我々のネットワークモデルはサイロの集合で構成され、それぞれがデータの垂直分割を保持する。 各サイロにはハブとクライアントのセットがあり、サイロの垂直データはクライアント間で水平に分割される。 このような2層ネットワークのための通信効率の高い分散学習アルゴリズムであるTiered Decentralized Coordinate Descent (TDCD)を提案する。 各サイロのクライアントは、通信オーバーヘッドを減らすためにハブと更新を共有する前に、複数のローカルなグラデーションステップを実行する。 各ハブは、労働者の更新を平均して座標を調整し、ハブは中間更新を相互に交換する。 本稿では,本アルゴリズムの理論的解析を行い,垂直分割数と局所更新数に対する収束率の依存性を示す。 さらに、様々なデータセットと目的を用いたシミュレーションベースの実験を通して、我々のアプローチを実証的に検証する。

We consider federated learning in tiered communication networks. Our network model consists of a set of silos, each holding a vertical partition of the data. Each silo contains a hub and a set of clients, with the silo's vertical data shard partitioned horizontally across its clients. We propose Tiered Decentralized Coordinate Descent (TDCD), a communication-efficient decentralized training algorithm for such two-tiered networks. The clients in each silo perform multiple local gradient steps before sharing updates with their hub to reduce communication overhead. Each hub adjusts its coordinates by averaging its workers' updates, and then hubs exchange intermediate updates with one another. We present a theoretical analysis of our algorithm and show the dependence of the convergence rate on the number of vertical partitions and the number of local updates. We further validate our approach empirically via simulation-based experiments using a variety of datasets and objectives.
公開日:2024-04-25
翻訳日:2024-04-27 00:45:56
# 超伝導ニオブの2レベル系損失源としての一酸化ニオブ中の酸素空孔

Oxygen Vacancies in Niobium Pentoxide as a Source of Two-Level System Losses in Superconducting Niobium ( http://arxiv.org/abs/2108.13352v3 )

ライセンス: Link先を確認
Daniel Bafia, Akshay Murthy, Anna Grassellino, Alexander Romanenko, (参考訳) 酸化ニオブからなる3次元超伝導無線周波数共振器と2次元トランスモン量子ビットの量子デコヒーレンスの主源を同定した。 時空二次イオン質量分析法 (ToF-SIMS) を用いて, バルクNb SRF共振器のRF特性および代表Nb試料の酸化物構造に及ぼすシーケンシャル \textit{in situ} 真空焼成処理の影響を調べたところ, Nb\textsubscript{2}O\textsubscript{5} の空隙発生と酸化物厚みの減少に相関する空洞品質係数$Q_0$の非単調進化が認められた。 この効果を酸化膜自体に局在させ, 酸化膜を酸化膜に再成長させることにより, TLS損失の緩和を図り, Nb中での拡散間質酸素の役割を明らかにした。 我々は、一酸化炭素中のこれらの空孔が磁気不純物であり、TLSによるRF損失の原因であると仮定する。

We identify a major source of quantum decoherence in three-dimensional superconducting radio-frequency (SRF) resonators and two-dimensional transmon qubits composed of oxidized niobium: oxygen vacancies in the niobium pentoxide which drive two-level system (TLS) losses. By probing the effect of sequential \textit{in situ} vacuum baking treatments on the RF performance of bulk Nb SRF resonators and on the oxide structure of a representative Nb sample using time-of-flight secondary ion mass spectrometry (ToF-SIMS), we find a non-monotonic evolution of cavity quality factor $Q_0$ which correlates with the interplay of Nb\textsubscript{2}O\textsubscript{5} vacancy generation and oxide thickness reduction. We localize this effect to the oxide itself and present the insignificant role of diffused interstitial oxygen in the underlying Nb by regrowing a new oxide \textit{via} wet oxidation which reveals a mitigation of aggravated TLS losses. We hypothesize that such vacancies in the pentoxide serve as magnetic impurities and are a source of TLS-driven RF loss.
公開日:2024-04-24
翻訳日:2024-04-27 00:45:56
# ICDM 2020 Knowledge Graph Contest: Consumer Event-Cause extract

ICDM 2020 Knowledge Graph Contest: Consumer Event-Cause Extraction ( http://arxiv.org/abs/2110.15722v2 )

ライセンス: Link先を確認
Congqing He, Jie Zhang, Xiangyu Zhu, Huan Liu, Yukun Huang, (参考訳) テキスト中の特定のイベントの背後にある潜在的な原因を抽出するタスクであるConsumer Event-Cause extractは、その幅広い応用により近年注目を集めている。 ICDM 2020は、特定の主題(ブランドや製品)でイベントやイベントの原因を抽出することを目的とした評価コンペを開催する。 このタスクでは、主にエンドツーエンドモデルの構築方法に注目し、複数のイベントタイプとイベント原因を同時に抽出する。 そこで本稿では,イベントタイプやイベント原因を別々に抽出する代わりに,リレーショナルイベント原因抽出タスクを再検討する新たな視点を導入し,新しいシーケンスタギングフレームワークを提案する。 実験では,エンコーダモジュールが初期化事前学習されたBERTエンコーダを使用して,新たなタグ付けフレームワークのパワーを示す場合においても,ベースラインメソッドよりも優れた性能を示す。 この大会では,私たちのチームが第1ステージのリーダーボードで1位,最終ステージのリーダーボードで3位を獲得しました。

Consumer Event-Cause Extraction, the task aimed at extracting the potential causes behind certain events in the text, has gained much attention in recent years due to its wide applications. The ICDM 2020 conference sets up an evaluation competition that aims to extract events and the causes of the extracted events with a specified subject (a brand or product). In this task, we mainly focus on how to construct an end-to-end model, and extract multiple event types and event-causes simultaneously. To this end, we introduce a fresh perspective to revisit the relational event-cause extraction task and propose a novel sequence tagging framework, instead of extracting event types and events-causes separately. Experiments show our framework outperforms baseline methods even when its encoder module uses an initialized pre-trained BERT encoder, showing the power of the new tagging framework. In this competition, our team achieved 1st place in the first stage leaderboard, and 3rd place in the final stage leaderboard.
公開日:2024-04-24
翻訳日:2024-04-27 00:45:56
# BQPのアクロバティックス

The Acrobatics of BQP ( http://arxiv.org/abs/2111.10409v4 )

ライセンス: Link先を確認
Scott Aaronson, DeVon Ingram, William Kretschmer, (参考訳) ランダム化アルゴリズムが使用するランダム性を修正することができるが、量子性アルゴリズムが使用する量子性を修正するという類似概念は存在しない。 この基本的な違いを説明すれば、ブラックボックスの設定では、量子多項式時間($\mathsf{BQP}$)の振舞いは、$\mathsf{NP}$のような古典的な複雑性クラスと著しく分離できることが示される。 具体的には、–あるオラクルが存在し、$\mathsf{NP^{BQP}}\not\subset\mathsf{BQP^{PH}}$は、フォーチュウの2005年の問題を解く。 圏として、$\mathsf{P}=\mathsf{NP}$であるが、$\mathsf{BQP}\neq\mathsf{QCMA}$であるようなオラクルが存在する。 逆に、$\mathsf{BQP^{NP}}\not\subset\mathsf{PH^{BQP}}$であるようなオラクルが存在する。 -ランダムオラクルに対して、$\mathsf{PP}=\mathsf{PostBQP}$は "$\mathsf{QMA}$ hierarchy" $\mathsf{QMA}^{\mathsf{QMA}^{\mathsf{QMA}^{\cdots}}}$には含まれない。 -ランダムオラクルに対して、$\mathsf{\Sigma}_{k+1}^\mathsf{P}\not\subset\mathsf{BQP}^{\mathsf{\Sigma}_{k}^\mathsf{P}}$ for every $k$。 オラクルは、$\mathsf{BQP}=\mathsf{P^{\# P}}$ に対して、$\mathsf{PH}$ は無限である。 -その関係は、$\mathsf{P}=\mathsf{NP}\neq\mathsf{BQP}=\mathsf{P^{\# P}}$である。 これらの結果を達成するために、Raz と Tal による2018 年のオラクルの業績を $\mathsf{BQP}\not \subset \mathsf{PH}$ と比較し、Forrelation 問題に関する関連する結果に基づける。 また、独立した関心を持つかもしれない新しいツールも導入します。 ランダム制限法の「量子認識」バージョン、$\mathsf{AC^0}$回路のブロック感度に対する濃度定理、スパースオラクルに対するアーロンソン・アンバイニス射影の(証明可能な)アナログを含む。

One can fix the randomness used by a randomized algorithm, but there is no analogous notion of fixing the quantumness used by a quantum algorithm. Underscoring this fundamental difference, we show that, in the black-box setting, the behavior of quantum polynomial-time ($\mathsf{BQP}$) can be remarkably decoupled from that of classical complexity classes like $\mathsf{NP}$. Specifically: -There exists an oracle relative to which $\mathsf{NP^{BQP}}\not\subset\mathsf{BQP^{PH}}$, resolving a 2005 problem of Fortnow. As a corollary, there exists an oracle relative to which $\mathsf{P}=\mathsf{NP}$ but $\mathsf{BQP}\neq\mathsf{QCMA}$. -Conversely, there exists an oracle relative to which $\mathsf{BQP^{NP}}\not\subset\mathsf{PH^{BQP}}$. -Relative to a random oracle, $\mathsf{PP}=\mathsf{PostBQP}$ is not contained in the "$\mathsf{QMA}$ hierarchy" $\mathsf{QMA}^{\mathsf{QMA}^{\mathsf{QMA}^{\cdots}}}$. -Relative to a random oracle, $\mathsf{\Sigma}_{k+1}^\mathsf{P}\not\subset\mathsf{BQP}^{\mathsf{\Sigma}_{k}^\mathsf{P}}$ for every $k$. -There exists an oracle relative to which $\mathsf{BQP}=\mathsf{P^{\# P}}$ and yet $\mathsf{PH}$ is infinite. -There exists an oracle relative to which $\mathsf{P}=\mathsf{NP}\neq\mathsf{BQP}=\mathsf{P^{\# P}}$. To achieve these results, we build on the 2018 achievement by Raz and Tal of an oracle relative to which $\mathsf{BQP}\not \subset \mathsf{PH}$, and associated results about the Forrelation problem. We also introduce new tools that might be of independent interest. These include a "quantum-aware" version of the random restriction method, a concentration theorem for the block sensitivity of $\mathsf{AC^0}$ circuits, and a (provable) analogue of the Aaronson-Ambainis Conjecture for sparse oracles.
公開日:2024-04-24
翻訳日:2024-04-27 00:45:56
# 非一様超グラフ確率ブロックモデルにおける部分回復と弱い整合性

Partial recovery and weak consistency in the non-uniform hypergraph Stochastic Block Model ( http://arxiv.org/abs/2112.11671v3 )

ライセンス: Link先を確認
Ioana Dumitriu, Haixiao Wang, Yizhe Zhu, (参考訳) 本研究では,非一様ハイパーグラフ確率ブロックモデル(HSBM)に基づくスパース・ランダム・ハイパーグラフにおけるコミュニティ検出問題について考察する。 ランダムハイパーグラフが有界次数を持つ場合、少なくとも$\gamma$区切りを正しく分類した頂点を出力するスペクトルアルゴリズムを提供し、$\gamma\in (0.5,1)$はモデルの信号-雑音比(SNR)に依存する。 頂点数が無限に近づくにつれてSNRが緩やかに増加すると、我々のアルゴリズムは弱い一貫性を達成し、非一様HSBMに対するGhoshdastidar と Dukkipati (2017) の以前の結果を改善する。 スペクトルアルゴリズムは,(1) ハイパーエッジ選択: 誘導されたサブハイパーグラフに対して最大信号-雑音比を提供するために,特定のサイズのハイパーエッジを選択する; (2) スペクトル分割: 正規化された隣接行列を構築し,特異ベクトルに基づいて近似的な分割を得る; (3) 補正とマージ: 隣接テンソルからのハイパーエッジ情報を組み込んでエラー率保証をアップグレードする。 本アルゴリズムの理論的解析は,非一様非一様ハイパーグラフに対する隣接行列の濃度と正則化に依存する。

We consider the community detection problem in sparse random hypergraphs under the non-uniform hypergraph stochastic block model (HSBM), a general model of random networks with community structure and higher-order interactions. When the random hypergraph has bounded expected degrees, we provide a spectral algorithm that outputs a partition with at least a $\gamma$ fraction of the vertices classified correctly, where $\gamma\in (0.5,1)$ depends on the signal-to-noise ratio (SNR) of the model. When the SNR grows slowly as the number of vertices goes to infinity, our algorithm achieves weak consistency, which improves the previous results in Ghoshdastidar and Dukkipati (2017) for non-uniform HSBMs. Our spectral algorithm consists of three major steps: (1) Hyperedge selection: select hyperedges of certain sizes to provide the maximal signal-to-noise ratio for the induced sub-hypergraph; (2) Spectral partition: construct a regularized adjacency matrix and obtain an approximate partition based on singular vectors; (3) Correction and merging: incorporate the hyperedge information from adjacency tensors to upgrade the error rate guarantee. The theoretical analysis of our algorithm relies on the concentration and regularization of the adjacency matrix for sparse non-uniform random hypergraphs, which can be of independent interest.
公開日:2024-04-24
翻訳日:2024-04-27 00:45:56
# FIRST:FrontrunnIngのレジリエントなスマートコントラクト

FIRST: FrontrunnIng Resilient Smart ConTracts ( http://arxiv.org/abs/2204.00955v3 )

ライセンス: Link先を確認
Emrah Sariboz, Gaurav Panwar, Roopa Vishwanathan, Satyajayant Misra, (参考訳) 暗号通貨の使用量の増加により、貸し出し、借り入れ、マージン取引などの従来の金融応用を暗号通貨の世界に広く浸透させてきた。 一部のケースでは、本質的に透明で規制されていない暗号通貨が、これらのアプリケーションのユーザを攻撃します。 悪意のあるエンティティは、現在処理されていない金融トランザクションの知識を活用し、未処理のトランザクションの前に独自のトランザクションを実行しようとする。 この結果、財務的損失、不正確なトランザクション、さらにはより多くの攻撃にさらされる可能性がある。 本稿では、最前線攻撃を防ぐフレームワークであるFIRSTを提案し、検証遅延関数やアグリゲートシグネチャを含む暗号プロトコルを用いて構築する。 我々の設計では、VDFの公開パラメータを生成するためのフェデレートされたセットアップがあり、単一の信頼できるセットアップの必要性を排除しています。 我々は、FIRSTを正式に分析し、Universal Composabilityフレームワークを用いてセキュリティを証明し、FIRSTの有効性を実験的に実証する。

Owing to the meteoric rise in the usage of cryptocurrencies, there has been a widespread adaptation of traditional financial applications such as lending, borrowing, margin trading, and more, to the cryptocurrency realm. In some cases, the inherently transparent and unregulated nature of cryptocurrencies leads to attacks on users of these applications. One such attack is frontrunning, where a malicious entity leverages the knowledge of currently unprocessed financial transactions submitted by users and attempts to get its own transaction(s) executed ahead of the unprocessed ones. The consequences of this can be financial loss, inaccurate transactions, and even exposure to more attacks. We propose FIRST, a framework that prevents frontrunning attacks, and is built using cryptographic protocols including verifiable delay functions and aggregate signatures. In our design, we have a federated setup for generating the public parameters of the VDF, thus removing the need for a single trusted setup. We formally analyze FIRST, prove its security using the Universal Composability framework and experimentally demonstrate the effectiveness of FIRST.
公開日:2024-04-24
翻訳日:2024-04-27 00:37:16
# 非教師付き異常検出のための二次ニューロンを用いた異種オートエンコーダ

Quadratic Neuron-empowered Heterogeneous Autoencoder for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2204.01707v2 )

ライセンス: Link先を確認
Jing-Xiao Liao, Bo-Jian Hou, Hang-Cheng Dong, Hao Zhang, Xiaoge Zhang, Jinwei Sun, Shiping Zhang, Feng-Lei Fan, (参考訳) 生物学的ニューロンの複雑さと多様性にインスパイアされた二次ニューロンは、現在のニューロンの内部積を単純化された二次関数で置き換えることが提案されている。 このような新しいタイプのニューロンを採用することで、ディープラーニングの開発に新たな視点がもたらされる。 二次ニューロンを解析する際には、不均一ネットワークがニューロンの多項式数とよく近似できる関数が存在するが、純粋に従来的あるいは二次的ネットワークは、同じレベルのエラーを達成するために指数的な数のニューロンを必要とする。 ヘテロジニアスネットワークにおけるこの理論的な結果によって、我々は従来のニューロンと二次ニューロンを直接オートエンコーダに統合し、新しいタイプのヘテロジニアスオートエンコーダを作成する。 我々の知る限りでは、異なる種類のニューロンから構成される最初の異種自己エンコーダである。 次に、提案した異種オートエンコーダを、表データの教師なし異常検出と故障信号の保持に適用する。 異常検出は、データ未知性、異常特徴の不均一性、特徴不明性などの困難に直面し、提案した異種オートエンコーダに適している。 その特徴表現能力は、様々な異常データ(異種性)を特徴付けることができ、異常を正常(通知不能)から識別し、正常サンプル(未知)の分布を正確に学習することができる。 実験により、異種オートエンコーダは他の最先端モデルと比較して競合的に機能することが示された。

Inspired by the complexity and diversity of biological neurons, a quadratic neuron is proposed to replace the inner product in the current neuron with a simplified quadratic function. Employing such a novel type of neurons offers a new perspective on developing deep learning. When analyzing quadratic neurons, we find that there exists a function such that a heterogeneous network can approximate it well with a polynomial number of neurons but a purely conventional or quadratic network needs an exponential number of neurons to achieve the same level of error. Encouraged by this inspiring theoretical result on heterogeneous networks, we directly integrate conventional and quadratic neurons in an autoencoder to make a new type of heterogeneous autoencoders. To our best knowledge, it is the first heterogeneous autoencoder that is made of different types of neurons. Next, we apply the proposed heterogeneous autoencoder to unsupervised anomaly detection for tabular data and bearing fault signals. The anomaly detection faces difficulties such as data unknownness, anomaly feature heterogeneity, and feature unnoticeability, which is suitable for the proposed heterogeneous autoencoder. Its high feature representation ability can characterize a variety of anomaly data (heterogeneity), discriminate the anomaly from the normal (unnoticeability), and accurately learn the distribution of normal samples (unknownness). Experiments show that heterogeneous autoencoders perform competitively compared to other state-of-the-art models.
公開日:2024-04-25
翻訳日:2024-04-27 00:37:16
# 劣化適応を用いた3次元MRI超解像の教師なし表現学習

Unsupervised Representation Learning for 3D MRI Super Resolution with Degradation Adaptation ( http://arxiv.org/abs/2205.06891v5 )

ライセンス: Link先を確認
Jianan Liu, Hao Li, Tao Huang, Euijoon Ahn, Kang Han, Adeel Razi, Wei Xiang, Jinman Kim, David Dagan Feng, (参考訳) 高分解能(HR)磁気共鳴イメージングは、診断や画像誘導治療において医師を支援する上で重要である。 しかし、HR画像の取得には時間と費用がかかる。 その結果、低分解能(LR)画像から超解像(SR)画像を生成するための有望な解決策として、ディープラーニングに基づく超解像再構成(SRR)が登場した。 残念なことに、そのようなニューラルネットワークのトレーニングには、画像取得中と画像取得間の患者の動きのために取得が困難である、整列したHRとLRイメージペアが必要である。 硬組織の硬い動きは画像登録によって補正できるが、変形した軟組織の整列は複雑であり、真正なHRとLRイメージペアでニューラルネットワークを訓練することは不可能である。 従来の研究では、真正なHR画像とダウンサンプリングされた合成LR画像を用いてSRRに焦点を当ててきた。 しかし,合成LR画像と真性LR画像の劣化表現の違いは,真性LR画像から再構成したSR画像の品質を抑制する。 この問題に対処するため,我々は,Unsupervised Degradation Adaptation Network (UDEAN)を提案する。 我々のネットワークは劣化学習ネットワークとSRRネットワークで構成されている。 劣化学習ネットワークは、不整合または不整合LR画像から学習した劣化表現を用いてHR画像をダウンサンプリングする。 SRRネットワークは、ダウンサンプリングされたHR画像から元の画像へのマッピングを学習する。 実験の結果,本手法は最先端ネットワークよりも優れており,臨床現場での課題に対して有望な解決法であることがわかった。

High-resolution (HR) magnetic resonance imaging is critical in aiding doctors in their diagnoses and image-guided treatments. However, acquiring HR images can be time-consuming and costly. Consequently, deep learning-based super-resolution reconstruction (SRR) has emerged as a promising solution for generating super-resolution (SR) images from low-resolution (LR) images. Unfortunately, training such neural networks requires aligned authentic HR and LR image pairs, which are challenging to obtain due to patient movements during and between image acquisitions. While rigid movements of hard tissues can be corrected with image registration, aligning deformed soft tissues is complex, making it impractical to train neural networks with authentic HR and LR image pairs. Previous studies have focused on SRR using authentic HR images and down-sampled synthetic LR images. However, the difference in degradation representations between synthetic and authentic LR images suppresses the quality of SR images reconstructed from authentic LR images. To address this issue, we propose a novel Unsupervised Degradation Adaptation Network (UDEAN). Our network consists of a degradation learning network and an SRR network. The degradation learning network downsamples the HR images using the degradation representation learned from the misaligned or unpaired LR images. The SRR network then learns the mapping from the down-sampled HR images to the original ones. Experimental results show that our method outperforms state-of-the-art networks and is a promising solution to the challenges in clinical settings.
公開日:2024-04-24
翻訳日:2024-04-27 00:37:16
# 量子SWITCHによる情報バックフローの活性化

Activating information backflow with the assistance of quantum SWITCH ( http://arxiv.org/abs/2206.04524v3 )

ライセンス: Link先を確認
Ananda G. Maity, Samyadeb Bhattacharya, (参考訳) マルコフ的でない間は、情報のバックフローを示すことはない。 これら2つの動的マップの適用順序が明確でないシナリオでは,このような動的マップが2つ検討されている場合,有効なチャネルが情報バックフローを示す可能性があることを示す。 特に、そのようなチャネルを活性化するために量子SWITCHを使用する。 対照的に、これらのチャンネルのアクティベートは、連続または並列動作でそのようなチャンネルのコピーを多用しても不可能である。 次に、この量子SWITCH実験の背景となる力学を調べた結果、CP(Complete Positive)-ディバイザビリティとP(Positive)-ディバイザビリティの両方の量子SWITCHが作用した後、情報逆流の活性化とともにチャネルのディバイザビリティが破壊されることが判明した。 本研究では、量子SWITCHの利点を、その動的挙動を調べることによって解明する。

There are certain dynamics while being non-Markovian, do never exhibit information backflow. We show that if two such dynamical maps are considered in a scenario where the order of application of these two dynamical maps are not definite, the effective channel can manifest information backflow. In particular, we use quantum SWITCH to activate such a channel. In contrast, activation of those channels are not possible even if one uses many copies of such channels in series or in parallel action. We then investigate the dynamics behind the quantum SWITCH experiment and find out that after the action of quantum SWITCH both the CP (Complete Positive)- divisibility and P (Positive)- divisibility of the channel breaks down, along with the activation of information backflow. Our study elucidate the advantage of quantum SWITCH by investigating its dynamical behavior.
公開日:2024-04-25
翻訳日:2024-04-27 00:37:16
# 波高予測のための回帰による出力確率予測

Exceedance Probability Forecasting via Regression for Significant Wave Height Prediction ( http://arxiv.org/abs/2206.09821v3 )

ライセンス: Link先を確認
Vitor Cerqueira, Luis Torgo, (参考訳) 波高予測は、海洋データ分析において重要な問題である。 この問題は、船舶の航路を管理したり、波からのエネルギー生産を見積もるなど、いくつかの海上作戦に関係している。 本研究は,沿岸災害の原因となる大きな波高の極端な値の予測に焦点をあてる。 このタスクは、超越確率予測問題としてフレーム化される。 そこで本研究では,有意波高が予め定義された臨界しきい値を超える確率を推定することを目的とする。 この問題は通常確率的二項分類モデルを用いて解決される。 そこで本研究では,予測モデルに基づく新しい手法を提案する。 確率的バイナリ予測は意思決定に関する情報を合理化し、ポイント予測はデータダイナミクスに関するさらなる洞察を与えることができる。 提案手法は, 累積分布関数を用いて, 点予測を超越確率推定に変換する。 カナダ・ハリファックス沿岸のブイから得られたデータを用いて実験を行った。 その結果,提案手法は,超越確率予測のための最先端手法よりも優れていることが示唆された。

Significant wave height forecasting is a key problem in ocean data analytics. This problem is relevant in several maritime operations, such as managing the passage of vessels or estimating the energy production from waves. In this work, we focus on the prediction of extreme values of significant wave height that can cause coastal disasters. This task is framed as an exceedance probability forecasting problem. Accordingly, we aim to estimate the probability that the significant wave height will exceed a predefined critical threshold. This problem is usually solved using a probabilistic binary classification model. Instead, we propose a novel approach based on a forecasting model. A probabilistic binary forecast streamlines information for decision-making, and point forecasts can provide additional insights into the data dynamics. The proposed method works by converting point forecasts into exceedance probability estimates using the cumulative distribution function. We carried out experiments using data from a buoy placed on the coast of Halifax, Canada. The results suggest that the proposed methodology is better than state-of-the-art approaches for exceedance probability forecasting.
公開日:2024-04-25
翻訳日:2024-04-27 00:37:16
# 教師なし時系列異常検出のための校正一級分類

Calibrated One-class Classification for Unsupervised Time Series Anomaly Detection ( http://arxiv.org/abs/2207.12201v2 )

ライセンス: Link先を確認
Hongzuo Xu, Yijie Wang, Songlei Jian, Qing Liao, Yongjun Wang, Guansong Pang, (参考訳) 時系列異常検出は、様々な領域におけるシステム可用性を維持するのに重要である。 この研究ラインにおける現在の研究は、先進的なニューラルネットワーク構造を考案し、新しい再構築・予測学習目標を考案することによって、データの正規性を深く、包括的に学習することに焦点を当てている。 しかし、その一級学習過程は、教師なしパラダイムの下での訓練データ(すなわち異常汚染)の潜伏異常によって誤解されることがある。 彼らの学習プロセスは異常に関する知識も欠如している。 その結果、バイアスのある不正確な正規性境界をしばしば学習する。 これらの問題に対処するために,不確実性モデルに基づく校正とネイティブな異常に基づく校正による汚染耐性,データ正規性の異常情報学習を実現した,異常検出のための校正一級分類を提案する。 具体的には、最適化中に不規則なサンプルを不規則に抑えるための不確実な予測を適応的に適用し、同時に正規サンプルに対する確実な予測を奨励し、効果的な正規性学習を確実にする。 これにより、異常な汚染による悪影響がほとんど軽減される。 また,本手法は時系列異常動作をシミュレートするための摂動による自然異常例も生成する。 これらのダミー異常を識別することで、我々の一級学習はさらに校正され、より正確な正規性境界を形成する。 10の実世界のデータセットに対する大規模な実験により、我々のモデルは16の最先端の競合者よりも大幅に改善されていることが示される。

Time series anomaly detection is instrumental in maintaining system availability in various domains. Current work in this research line mainly focuses on learning data normality deeply and comprehensively by devising advanced neural network structures and new reconstruction/prediction learning objectives. However, their one-class learning process can be misled by latent anomalies in training data (i.e., anomaly contamination) under the unsupervised paradigm. Their learning process also lacks knowledge about the anomalies. Consequently, they often learn a biased, inaccurate normality boundary. To tackle these problems, this paper proposes calibrated one-class classification for anomaly detection, realizing contamination-tolerant, anomaly-informed learning of data normality via uncertainty modeling-based calibration and native anomaly-based calibration. Specifically, our approach adaptively penalizes uncertain predictions to restrain irregular samples in anomaly contamination during optimization, while simultaneously encouraging confident predictions on regular samples to ensure effective normality learning. This largely alleviates the negative impact of anomaly contamination. Our approach also creates native anomaly examples via perturbation to simulate time series abnormal behaviors. Through discriminating these dummy anomalies, our one-class learning is further calibrated to form a more precise normality boundary. Extensive experiments on ten real-world datasets show that our model achieves substantial improvement over sixteen state-of-the-art contenders.
公開日:2024-04-24
翻訳日:2024-04-27 00:37:16
# 非パラメトリック選択モデルのアクティブラーニング

Active Learning for Non-Parametric Choice Models ( http://arxiv.org/abs/2208.03346v2 )

ライセンス: Link先を確認
Fransisca Susan, Negin Golrezaei, Ehsan Emamjomeh-Zadeh, David Kempe, (参考訳) 本研究では,消費者の判断に基づいて,非パラメトリック選択モデルを積極的に学習する問題について検討する。 このような選択モデルが識別できない可能性があることを示す否定的な結果を示す。 識別可能性の問題を克服するために、選択モデルの有向非巡回グラフ(DAG)表現を導入する。 この表現は、すべての選択確率を計算できるという意味で、利用可能なデータから推測できる選択モデルに関する全ての情報を証明的に符号化する。 アイテム集合の集合に対する正確な選択確率が与えられた場合、DAGを再構築することができる。 しかし、この方法論を拡張して、アクティブな学習プロセス中に得られたノイズの多い選択周波数データからDAGを推定しようとすると、不正確になる。 この課題に対処するため,DAGレベルのエラー伝搬を効果的に管理する包含排除手法を提案し,より正確なDAG推定を行う。 この手法を用いて,提案アルゴリズムは基礎となる非パラメトリック選択モデルのDAG表現を推定する。 このアルゴリズムは、頻繁なランクの集合がランダムに一様に描画されたときに(多項式時間で)効率的に動作する。 頻繁な嗜好型の中で最も人気のある項目の分布を積極的に繰り返し提供し、選択した項目を観察することで学習する。 提案アルゴリズムは, 消費者の嗜好に基づく合成データセットと公開データセットの両方において, 対応する非アクティブ学習推定アルゴリズムと比較して, 頻繁な嗜好の集合をより効果的に回収することを示した。 これらの結果は,我々のアルゴリズムの価値と,消費者行動のモデル化におけるアクティブラーニングアプローチの適用性を明らかにするものである。

We study the problem of actively learning a non-parametric choice model based on consumers' decisions. We present a negative result showing that such choice models may not be identifiable. To overcome the identifiability problem, we introduce a directed acyclic graph (DAG) representation of the choice model. This representation provably encodes all the information about the choice model which can be inferred from the available data, in the sense that it permits computing all choice probabilities. We establish that given exact choice probabilities for a collection of item sets, one can reconstruct the DAG. However, attempting to extend this methodology to estimate the DAG from noisy choice frequency data obtained during an active learning process leads to inaccuracies. To address this challenge, we present an inclusion-exclusion approach that effectively manages error propagation across DAG levels, leading to a more accurate estimate of the DAG. Utilizing this technique, our algorithm estimates the DAG representation of an underlying non-parametric choice model. The algorithm operates efficiently (in polynomial time) when the set of frequent rankings is drawn uniformly at random. It learns the distribution over the most popular items among frequent preference types by actively and repeatedly offering assortments of items and observing the chosen item. We demonstrate that our algorithm more effectively recovers a set of frequent preferences on both synthetic and publicly available datasets on consumers' preferences, compared to corresponding non-active learning estimation algorithms. These findings underscore the value of our algorithm and the broader applicability of active-learning approaches in modeling consumer behavior.
公開日:2024-04-25
翻訳日:2024-04-27 00:37:16
# PA-Boot: マルチプロセッサセキュアブートのための形式的に検証された認証プロトコル

PA-Boot: A Formally Verified Authentication Protocol for Multiprocessor Secure Boot ( http://arxiv.org/abs/2209.07936v2 )

ライセンス: Link先を確認
Zhuoruo Zhang, Chenyang Yu, Rui Chang, Mingshuai Chen, Bo Feng, He Huang, Qinming Dai, Wenbo Shen, Yongwang Zhao, (参考訳) ハードウェアサプライチェーン攻撃は、マルチプロセッサシステムのブートプロセスに重大なセキュリティ脅威を引き起こしている。 本稿では,プロセッサ認証機構の欠如により,マルチプロセッサのセキュアブートを回避可能なハードウェアサプライチェーンアタックサーフェスを提案する。 このような攻撃に対する防御として,マルチプロセッサシステムにおけるセキュアブートのためのプロセッサ認証プロトコルとして,PA-Bootを提案する。 PA-Bootは機能的に正しいことが証明され、例えば、プロセッサ置換、man-in-the-middle攻撃、証明書の改ざんなど、複数の敵動作を検出することが保証されている。 PA-Bootの微細な形式化とその完全に機械化されたセキュリティ証明は、306 lemmas/theorems および ~7,100 LoC のIsabelle/HOL定理証明器で実行される。 概念実証実装の実験は、PA-Bootがブートプロセス攻撃をかなり小さなオーバーヘッドで効果的に識別でき、それによってマルチプロセッサシステムのセキュリティが向上することを示している。

Hardware supply-chain attacks are raising significant security threats to the boot process of multiprocessor systems. This paper identifies a new, prevalent hardware supply-chain attack surface that can bypass multiprocessor secure boot due to the absence of processor-authentication mechanisms. To defend against such attacks, we present PA-Boot, the first formally verified processor-authentication protocol for secure boot in multiprocessor systems. PA-Boot is proved functionally correct and is guaranteed to detect multiple adversarial behaviors, e.g., processor replacements, man-in-the-middle attacks, and tampering with certificates. The fine-grained formalization of PA-Boot and its fully mechanized security proofs are carried out in the Isabelle/HOL theorem prover with 306 lemmas/theorems and ~7,100 LoC. Experiments on a proof-of-concept implementation indicate that PA-Boot can effectively identify boot-process attacks with a considerably minor overhead and thereby improve the security of multiprocessor systems.
公開日:2024-04-25
翻訳日:2024-04-27 00:37:16
# 信頼できない教師からの正直な学生:事前学習された言語モデルから解釈可能な質問答えパイプラインを学習する

Honest Students from Untrusted Teachers: Learning an Interpretable Question-Answering Pipeline from a Pretrained Language Model ( http://arxiv.org/abs/2210.02498v3 )

ライセンス: Link先を確認
Jacob Eisenstein, Daniel Andor, Bernd Bohnet, Michael Collins, David Mimno, (参考訳) 説明可能な質問応答システムは、正確な回答だけでなく、推論を正当化し、人間が作業を確認するための合理的な根拠も生み出すべきである。 しかし、どんな理屈が役に立つのか、どうやってシステムをトレーニングして生産できるのか? 本稿では,オープンブックの質問応答に対する新たな論理的手法である「emph{markup-and-mask}」を提案する。 マークアップフェーズでは、節は自由テキストのマークアップで拡張され、各文は談話コンテキストの外側で独立して立つことができる。 マスキングフェーズでは、マークアップ通路のサブスパンが選択される。 アノテーションを使わずにマークアップ・アンド・マスクの合理性を生成するシステムを訓練するには,文脈内学習を活用する。 具体的には,教師として機能する凍結した事前学習言語モデルに一連のプロンプトを送信することで,銀アノテートデータを生成する。 次に、正しい答えをもたらす有理数の部分集合をトレーニングすることで、より小さな学生モデルを微調整する。 生徒は、それがパイプラインであるという意味では「最高」であり、理性は通路と答えの間のボトルネックとして機能し、「信頼できない」教師はそのような制約を受けない。 したがって、エンドタスクアノテーションとフリーズされた事前訓練された言語モデルを組み合わせて、信頼できるパイプラインシステムを構築する新しい方法を提供する。

Explainable question answering systems should produce not only accurate answers but also rationales that justify their reasoning and allow humans to check their work. But what sorts of rationales are useful and how can we train systems to produce them? We propose a new style of rationale for open-book question answering, called \emph{markup-and-mask}, which combines aspects of extractive and free-text explanations. In the markup phase, the passage is augmented with free-text markup that enables each sentence to stand on its own outside the discourse context. In the masking phase, a sub-span of the marked-up passage is selected. To train a system to produce markup-and-mask rationales without annotations, we leverage in-context learning. Specifically, we generate silver annotated data by sending a series of prompts to a frozen pretrained language model, which acts as a teacher. We then fine-tune a smaller student model by training on the subset of rationales that led to correct answers. The student is "honest" in the sense that it is a pipeline: the rationale acts as a bottleneck between the passage and the answer, while the "untrusted" teacher operates under no such constraints. Thus, we offer a new way to build trustworthy pipeline systems from a combination of end-task annotations and frozen pretrained language models.
公開日:2024-04-24
翻訳日:2024-04-27 00:37:16
# スケールにおけるノイズ・ロバストデ複製

Noise-Robust De-Duplication at Scale ( http://arxiv.org/abs/2210.04261v2 )

ライセンス: Link先を確認
Emily Silcock, Luca D'Amico-Wong, Jinglin Yang, Melissa Dell, (参考訳) 大規模でノイズの多いテキストコーパス内の重複のほぼ特定には、トレーニングデータセットの非重複化、プライバシーリスクの低減、テストセットリークの評価、大規模なコーパス内の再生されたニュース記事や文学の特定など、数多くのアプリケーションがある。 これらの多様なアプリケーションの中で、圧倒的な作業はN-gramに依存している。 N-gram法がいかにうまく機能するかを評価するための限定的な努力がなされているが、その理由の一部は、大規模なコーパスに対して、どのように偏りのない評価データセットを作成できるかがはっきりしないためである。 本研究は,27,210個の文書データセットと122,876個の正の重複ペアを作成し,ノイズ・ロバスト重複の除去について検討する。 ニュースのタイムセンシティブさは、コーパスの全体サイズが大きいにも関わらず、短い日付範囲内で重複が発生するため、包括的ハンドラベリングを可能にする。 この研究は、ハッシュとN-gramオーバーラップ(文学において支配的な)、対照的に訓練されたバイエンコーダ、およびバイエンコーダとクロスエンコーダを組み合わせたリランクスタイルアプローチなど、様々な非複製手法を開発し、評価する。 神経アプローチはハッシュとN-gramの重なりを著しく上回る。 バイエンコーダのスケールは良好で、1つのGPUカードに1000万記事のコーパスを数時間で非重複化する。 また、トレーニング済みのモデルをRealNewsやC4(Colossal Clean Crawled Corpus)の特許部分に適用し、ニューラルアプローチは、様々な種類のノイズの存在下で、ハッシュによって欠落した多くのほぼ重複を識別できることを示した。 NEWS-COPYの非重複データセット、コードベース、事前訓練されたモデルのパブリックリリースは、さらなる研究と応用を促進するでしょう。

Identifying near duplicates within large, noisy text corpora has a myriad of applications that range from de-duplicating training datasets, reducing privacy risk, and evaluating test set leakage, to identifying reproduced news articles and literature within large corpora. Across these diverse applications, the overwhelming majority of work relies on N-grams. Limited efforts have been made to evaluate how well N-gram methods perform, in part because it is unclear how one could create an unbiased evaluation dataset for a massive corpus. This study uses the unique timeliness of historical news wires to create a 27,210 document dataset, with 122,876 positive duplicate pairs, for studying noise-robust de-duplication. The time-sensitivity of news makes comprehensive hand labelling feasible - despite the massive overall size of the corpus - as duplicates occur within a narrow date range. The study then develops and evaluates a range of de-duplication methods: hashing and N-gram overlap (which predominate in the literature), a contrastively trained bi-encoder, and a re-rank style approach combining a bi- and cross-encoder. The neural approaches significantly outperform hashing and N-gram overlap. We show that the bi-encoder scales well, de-duplicating a 10 million article corpus on a single GPU card in a matter of hours. We also apply our pre-trained model to the RealNews and patent portions of C4 (Colossal Clean Crawled Corpus), illustrating that a neural approach can identify many near duplicates missed by hashing, in the presence of various types of noise. The public release of our NEWS-COPY de-duplication dataset, codebase, and the pre-trained models will facilitate further research and applications.
公開日:2024-04-24
翻訳日:2024-04-27 00:37:16
# 複数部品の絡み合い生成へのショートカット:ボソン減算へのグラフアプローチ

Shortcut to Multipartite Entanglement Generation: A Graph Approach to Boson Subtractions ( http://arxiv.org/abs/2211.04042v5 )

ライセンス: Link先を確認
Seungbeom Chin, Yong-Su Kim, Marcin Karczewski, (参考訳) 本稿では,線形ボソニック系における多部交絡を生成するスキームを体系的に探索するグラフ手法を提案する。 階層型エンタングルメント生成は、ポストセレクトされたタスクよりも量子タスクに対する許容可能なスキームを提供するが、一般的にはマルチパーティイトシステムのための適切な回路を見つけることは困難である。 ボソンサブトラクションからのグラフマッピングは,回路設計の限界を克服するための便利な手法であることを示す。 本稿では,グラフ手法の実装を通じて限界を緩和する実践的戦略を提案する。 我々の物理的な構成は彫刻プロトコルに基づいており、これは1つのボソンの空間的に重なり合ったサブトラクションを1つのボソンのフォック状態に変換するものである。 キュービットN-パーティイトGHZおよびW状態の一般的なスキームを特定し、従来のスキームよりもはるかに効率的である。 さらに、$N=3$ GHZ と W の絡み合った状態の重ね合わせを生成するためのスキームは、より一般化された絡み合った状態の形式を導出するために我々のアプローチを拡張することができることを示している。 さらに,従来の提案よりもかなり少ない粒子を必要とするN-パーティイトGHZ状態生成方式が発見された。 これらの結果は,厳密な密接な絡み合った状態を生成するための最適化された解を発見する上で,我々のアプローチの力を示すものである。 概念実証として,ベル状態生成のための線形光学スキームを提案する。 我々は本手法が多様な絡み合いを生み出す上で有望なツールになることを期待している。

We propose a graph method for systematically searching for schemes that can generate multipartite entanglement in linear bosonic systems with heralding. While heralded entanglement generation offers more tolerable schemes for quantum tasks than postselected ones, it is generally more challenging to find appropriate circuits for multipartite systems. We show that our graph mapping from boson subtractions provides handy tactics to overcome the limitations in circuit designs. We present a practical strategy to mitigate the limitation through the implementation of our graph technique. Our physical setup is based on the sculpting protocol, which utilizes an $ N$ spatially overlapped subtractions of single bosons to convert Fock states of evenly distributed bosons into entanglement. We have identified general schemes for qubit N-partite GHZ and W states, which are significantly more efficient than previous schemes. In addition, our scheme for generating the superposition of $N=3$ GHZ and W entangled states illustrates that our approach can be extended to derive more generalized forms of entangled states. Furthermore, we have found an N-partite GHZ state generation scheme for qudits, which requires substantially fewer particles than previous proposals. These results demonstrate the power of our approach in discovering optimized solutions for the generation of intricate heralded entangled states. As a proof of concept, we propose a linear optical scheme for the generation of the Bell state by heralding detections. We expect our method to serve as a promising tool in generating diverse entanglement.
公開日:2024-04-24
翻訳日:2024-04-27 00:37:16
# 低精度環境下でのリプシッツ連続損失関数に対するSGDの変動

Variants of SGD for Lipschitz Continuous Loss Functions in Low-Precision Environments ( http://arxiv.org/abs/2211.04655v7 )

ライセンス: Link先を確認
Michael R. Metel, (参考訳) この研究は、低精度算術環境でのニューラルネットワークトレーニングによって動機付けられ、適応的なステップサイズと計算誤差を用いたSGDの変種収束について研究する。 一般確率的リプシッツ連続損失関数を考えると、クラーク定常点への漸近収束と近似定常点への非漸近収束が証明される。 損失関数の確率勾配の近似のみを計算し、SGDステップ自体の誤差を計算できると仮定する。 SGDの異なる変種を経験的にテストし、2つの画像認識タスクに対してSGDと比較してテストセットの精度が改善された。

Motivated by neural network training in low-precision arithmetic environments, this work studies the convergence of variants of SGD using adaptive step sizes with computational error. Considering a general stochastic Lipschitz continuous loss function, an asymptotic convergence result to a Clarke stationary point is proven as well as the non-asymptotic convergence to an approximate stationary point. It is assumed that only an approximation of the loss function's stochastic gradient can be computed in addition to error in computing the SGD step itself. Different variants of SGD are tested empirically, where improved test set accuracy is observed compared to SGD for two image recognition tasks.
公開日:2024-04-24
翻訳日:2024-04-27 00:37:16
# デュアルラベル分布を用いた軽量顔面運動性予測

Lightweight Facial Attractiveness Prediction Using Dual Label Distribution ( http://arxiv.org/abs/2212.01742v2 )

ライセンス: Link先を確認
Shu Liu, Enquan Huang, Ziyu Zhou, Yan Xu, Xiaoyan Kui, Tao Lei, Hongying Meng, (参考訳) 顔の魅力予測(FAP)は、人間の美的知覚に基づいて顔の魅力を自動的に評価することを目的としている。 ディープ畳み込みニューラルネットワークを用いた従来の手法では性能が向上したが、大規模なモデルでは柔軟性が欠如している。 さらに、ほとんどのメソッドはデータセットを完全に活用することができません。 本稿では,デュアルラベル分布と軽量設計を統合した新しいエンドツーエンドFAP手法を提案する。 手動のレーティング、魅力スコア、標準偏差を明示的に集計して、2ラベルの分布を構築し、魅力分布や評価分布を含むデータセットを最大限に活用する。 このような分布は,ラベル分散学習(LDL)パラダイムに基づく共同学習フレームワークで最適化される。 データ処理は軽量な設計では最小限に単純化され、MobileNetV2がバックボーンとして選択されます。 2つのベンチマークデータセットで大規模な実験を行い、提案手法は有望な結果を達成し、性能と効率のバランスをとることに成功した。 アブレーション研究は、繊細に設計された学習モジュールが必須であり、相関していることを示している。 さらに, この手法は, 顔の魅力を知覚し, 魅力ある顔領域を捉え, 意味的予測を容易にすることが示唆された。 コードはhttps://github.com/enquan/2D_FAPで公開されている。

Facial attractiveness prediction (FAP) aims to assess facial attractiveness automatically based on human aesthetic perception. Previous methods using deep convolutional neural networks have improved the performance, but their large-scale models have led to a deficiency in flexibility. In addition, most methods fail to take full advantage of the dataset. In this paper, we present a novel end-to-end FAP approach that integrates dual label distribution and lightweight design. The manual ratings, attractiveness score, and standard deviation are aggregated explicitly to construct a dual-label distribution to make the best use of the dataset, including the attractiveness distribution and the rating distribution. Such distributions, as well as the attractiveness score, are optimized under a joint learning framework based on the label distribution learning (LDL) paradigm. The data processing is simplified to a minimum for a lightweight design, and MobileNetV2 is selected as our backbone. Extensive experiments are conducted on two benchmark datasets, where our approach achieves promising results and succeeds in balancing performance and efficiency. Ablation studies demonstrate that our delicately designed learning modules are indispensable and correlated. Additionally, the visualization indicates that our approach can perceive facial attractiveness and capture attractive facial regions to facilitate semantic predictions. The code is available at https://github.com/enquan/2D_FAP.
公開日:2024-04-24
翻訳日:2024-04-27 00:37:16
# 任意次元における非ブロックバンド理論のアメーバ定式化

Amoeba Formulation of Non-Bloch Band Theory in Arbitrary Dimensions ( http://arxiv.org/abs/2212.11743v2 )

ライセンス: Link先を確認
Hong-Yi Wang, Fei Song, Zhong Wang, (参考訳) 非エルミートスキン効果は、非エルミート系のエネルギーバンドを劇的に再認識し、通常のブロッホ・バンド理論がその特性として根本的に不十分であることを意味する。 ブリルアンゾーンの概念が一般化された非ブロックバンド理論は、1つの空間次元における非エルミート系の研究に広く応用されている。 しかし、高次元への一般化は困難である。 ここでは,アメーバと呼ばれる自然幾何学的対象に基づいて,任意の空間次元における非エルミタンスキン効果と非ブロッホバンド理論の定式化を開発する。 我々の理論は、1次元を超えて非エルミート帯域を研究するための一般的な枠組みを提供する。 エネルギースペクトル、固有状態プロファイル、一般化されたブリルアンゾーンを含む非エルミートバンドの重要な量は、このアプローチから効率的に得ることができる。

The non-Hermitian skin effect dramatically reshapes the energy bands of non-Hermitian systems, meaning that the usual Bloch band theory is fundamentally inadequate as their characterization. The non-Bloch band theory, in which the concept of Brillouin zone is generalized, has been widely applied to investigate non-Hermitian systems in one spatial dimension. However, its generalization to higher dimensions has been challenging. Here, we develop a formulation of the non-Hermitian skin effect and non-Bloch band theory in arbitrary spatial dimensions, which is based on a natural geometrical object known as the amoeba. Our theory provides a general framework for studying non-Hermitian bands beyond one dimension. Key quantities of non-Hermitian bands, including the energy spectrum, eigenstates profiles, and the generalized Brillouin zone, can be efficiently obtained from this approach.
公開日:2024-04-25
翻訳日:2024-04-27 00:37:16
# 操作量子力学と最小スクランブル

Operational Quantum Mereology and Minimal Scrambling ( http://arxiv.org/abs/2212.14340v4 )

ライセンス: Link先を確認
Paolo Zanardi, Emanuel Dallas, Faidon Andreadakis, Seth Lloyd, (参考訳) 本稿では,系の力学則から生じる自然量子サブシステムとは何か,という問いに答える。 この質問に答えるために、まず可観測性の観点から一般化テンソル積構造(gTPS)を作用素部分代数 $\cal A$ とその可換体の双対として定義する。 第2に、gTPSを動的に選択するために、短時間でスクランブルする最小限の情報の運用基準を提案する。 このようにして、創発的なサブシステムは、最も長い情報的アイデンティティを保持するサブシステムである。 この戦略は、時間秩序相関関数(OTOC)の代数版、すなわち$\cal A$-OTOCの短期展開という観点からガウススクランブル率を定義することによって定量化される。 ガウスのスクランブルレートは、サブシステムへの一般分割の物理的に重要なケースに対して解析的に計算され、サブシステム間の相互作用強度の最小化という観点から、直感的で説得力のある物理的解釈を持つことが示されている。

In this paper we will attempt to answer the following question: what are the natural quantum subsystems which emerge out of a system's dynamical laws? To answer this question we first define generalized tensor product structures (gTPS) in terms of observables, as dual pairs of an operator subalgebra $\cal A$ and its commutant. Second, we propose an operational criterion of minimal information scrambling at short time scales to dynamically select gTPS. In this way the emergent subsystems are those which maintain the longest informational identity. This strategy is made quantitative by defining a Gaussian scrambling rate in terms of the short-time expansion of an algebraic version of the Out of Time Order Correlation (OTOC) function i.e., the $\cal A$-OTOC. The Gaussian scrambling rate is computed analytically for physically important cases of general division into subsystems, and is shown to have an intuitive and compelling physical interpretation in terms of minimizing the interaction strength between subsystems.
公開日:2024-04-25
翻訳日:2024-04-27 00:37:16
# 複雑なネットワーク力学のストレッチと計測による神経予測

Stretched and measured neural predictions of complex network dynamics ( http://arxiv.org/abs/2301.04900v4 )

ライセンス: Link先を確認
Vaiva Vasiliauskaite, Nino Antulov-Fantulin, (参考訳) 微分方程式は、物理的システムから複雑なシステムまで、多くのエージェントが非自明な位相的特徴を持つグラフを通して相互作用する、力学を研究するユビキタスなツールである。 微分方程式のデータ駆動近似は、特に明示的な第一原理を欠いた複雑なシステムにおいて、力学系のモデルを明らかにする従来の方法に代わる有望な方法を示す。 最近、ダイナミックスを研究する機械学習ツールとしてニューラルネットワークが採用されている。これは、データ駆動型ソリューションの検出や微分方程式の発見に使用できる。 特に後者のタスクでは、観測されていない状態空間領域や新しいグラフのダイナミクスを予測するような、未知の設定でディープラーニングモデルをデプロイすることは、急激な結果をもたらす可能性がある。 グラフを通して結合された一階微分方程式の系で力学を記述する複雑なシステムに着目し、従来の統計的学習理論の限界を超えてモデルの一般化可能性を拡張することは可能であることを示す。 しかし、この高度な一般化を実現するためには、ニューラルネットワークモデルが力学モデルに関する基本的な仮定に従う必要がある。 さらに、推論中の予測品質を評価するための統計的意義テストを提案し、その予測においてニューラルネットワークの信頼性レベルを識別できるようにする。

Differential equations are a ubiquitous tool to study dynamics, ranging from physical systems to complex systems, where a large number of agents interact through a graph with non-trivial topological features. Data-driven approximations of differential equations present a promising alternative to traditional methods for uncovering a model of dynamical systems, especially in complex systems that lack explicit first principles. A recently employed machine learning tool for studying dynamics is neural networks, which can be used for data-driven solution finding or discovery of differential equations. Specifically for the latter task, however, deploying deep learning models in unfamiliar settings - such as predicting dynamics in unobserved state space regions or on novel graphs - can lead to spurious results. Focusing on complex systems whose dynamics are described with a system of first-order differential equations coupled through a graph, we show that extending the model's generalizability beyond traditional statistical learning theory limits is feasible. However, achieving this advanced level of generalization requires neural network models to conform to fundamental assumptions about the dynamical model. Additionally, we propose a statistical significance test to assess prediction quality during inference, enabling the identification of a neural network's confidence level in its predictions.
公開日:2024-04-24
翻訳日:2024-04-27 00:27:30
# 加速電子からのウンルー放射の測定

Measuring Unruh radiation from accelerated electrons ( http://arxiv.org/abs/2301.06772v5 )

ライセンス: Link先を確認
Gianluca Gregori, Giacomo Marocco, Subir Sarkar, Robert Bingham, Charles Wang, (参考訳) 加速された電子から熱的ウンルー放射を検出することは、技術的な困難だけでなく、実験室で実際に見られるものに関する概念的明瞭さが欠如しているため、非常に難しい課題となっている。 我々は、アンルー効果と2レベル原子系の放射の類似性に基づく、より単純なヒューリスティックな記述とともに、現在の解釈の要約を述べる。 加速電子から熱光子の放出があるかどうかを検証する実験を提案する。

Detecting thermal Unruh radiation from accelerated electrons has presented a formidable challenge due not only to technical difficulties but also for lack of conceptual clarity about what is actually seen by a laboratory observer. We give a summary of the current interpretations along with a simpler heuristic description that draws on the analogy between the Unruh effect and radiation from a two-level atomic system. We propose an experiment to test whether there is emission of thermal photons from an accelerated electron.
公開日:2024-04-24
翻訳日:2024-04-27 00:27:30
# 一般量子ウィーランドの不等式

A generic quantum Wielandt's inequality ( http://arxiv.org/abs/2301.08241v3 )

ライセンス: Link先を確認
Yifan Jia, Angela Capel, (参考訳) 量子ウィランドの不等式は、生成系内の要素の積の長さ-k$が$M_n(\mathbb{C})$であるような最小長$k$の最適上限を与える。 一般に$k$は$\mathcal{O}(n^2)$の次数でなければならないと推測されている。 本稿では、これまでの文献で問題がどのように研究されてきたのか、また線型代数における古典的問題との関係、すなわち代数 $M_n(\mathbb{C})$ の長さについて概説する。 量子ウィーランドの不等式の一般的なバージョンを提供し、確率 1 で最適な長さを与える。 より具体的には、[KS16] に基づいて、$k$ が次数 $\Theta(\log n)$ であることを証明する。 この結果は、ランダムな量子チャネルのプライミティティ指数に新たなバウンダリを与えることを意味する。 さらに、プロジェクテッド・アンタングルド・ペア状態の長年の開問題に新たな光を当て、ほとんどすべての変換不変なPEPS(特に行列積状態)が、辺長が$\Omega( \log n )$ の格子上の周期的境界条件を持つことを結論付ける。 行列リー代数の同様の特性を観察し、ランダムリー生成系に対して数値的な結果を与える。

Quantum Wielandt's inequality gives an optimal upper bound on the minimal length $k$ such that length-$k$ products of elements in a generating system span $M_n(\mathbb{C})$. It is conjectured that $k$ should be of order $\mathcal{O}(n^2)$ in general. In this paper, we give an overview of how the question has been studied in the literature so far and its relation to a classical question in linear algebra, namely the length of the algebra $M_n(\mathbb{C})$. We provide a generic version of quantum Wielandt's inequality, which gives the optimal length with probability one. More specifically, we prove based on [KS16] that $k$ generically is of order $\Theta(\log n)$, as opposed to the general case, in which the best bound to date is $\mathcal O(n^2 \log n)$. Our result implies a new bound on the primitivity index of a random quantum channel. Furthermore, we shed new light on a long-standing open problem for Projected Entangled Pair State, by concluding that almost any translation-invariant PEPS (in particular, Matrix Product State) with periodic boundary conditions on a grid with side length of order $\Omega( \log n )$ is the unique ground state of a local Hamiltonian. We observe similar characteristics for matrix Lie algebras and provide numerical results for random Lie-generating systems.
公開日:2024-04-25
翻訳日:2024-04-27 00:27:30
# 合成負データを用いたハイブリッドオープンセットセグメンテーション

Hybrid Open-set Segmentation with Synthetic Negative Data ( http://arxiv.org/abs/2301.08555v3 )

ライセンス: Link先を確認
Matej Grcić, Siniša Šegvić, (参考訳) 開集合セグメンテーションは、閉集合分類と異常検出を補完することで実現できる。 既存の高密度異常検出器の多くは、正規データの生成モデリングや、負のデータに対する識別によって機能する。 これらの2つのアプローチは、異なる目的を最適化し、異なる障害モードを示す。 そこで本研究では,生成的および識別的手がかりを融合させる新しい異常スコアを提案する。 我々のスコアは、データセット後部および非正規化データの密度の高い推定値を持つ任意のクローズドセットセグメンテーションモデルをアップグレードすることで実現できる。 結果として得られる密集したハイブリッドなオープンセットモデルには、負のトレーニングイメージが必要で、これは正の負のデータセットから、共同で訓練された生成モデルから、あるいは両方のソースの混合からサンプリングすることができる。 我々は,高密度異常検出と開集合セグメンテーションのためのベンチマークへのコントリビューションを評価した。 この実験は、計算オーバーヘッドが無視できないにもかかわらず、強力なオープンセット性能を示す。

Open-set segmentation can be conceived by complementing closed-set classification with anomaly detection. Many of the existing dense anomaly detectors operate through generative modelling of regular data or by discriminating with respect to negative data. These two approaches optimize different objectives and therefore exhibit different failure modes. Consequently, we propose a novel anomaly score that fuses generative and discriminative cues. Our score can be implemented by upgrading any closed-set segmentation model with dense estimates of dataset posterior and unnormalized data likelihood. The resulting dense hybrid open-set models require negative training images that can be sampled from an auxiliary negative dataset, from a jointly trained generative model, or from a mixture of both sources. We evaluate our contributions on benchmarks for dense anomaly detection and open-set segmentation. The experiments reveal strong open-set performance in spite of negligible computational overhead.
公開日:2024-04-24
翻訳日:2024-04-27 00:27:30
# Baggingが見積もり不要の安定性を提供

Bagging Provides Assumption-free Stability ( http://arxiv.org/abs/2301.12600v3 )

ライセンス: Link先を確認
Jake A. Soloff, Rina Foygel Barber, Rebecca Willett, (参考訳) バギングは、機械学習モデルを安定化するための重要なテクニックである。 本稿では,任意のモデルに対するバギングの安定性に関する有限サンプル保証を導出する。 この結果から,データの分布,基本アルゴリズムの特性,あるいは共変数の次元性に関する仮定は得られない。 私たちの保証は、バッグングの多くの変種に適用され、定数まで最適です。 実験結果から, バッグングが高度に不安定なベースアルゴリズムの安定化に成功していることが明らかとなった。

Bagging is an important technique for stabilizing machine learning models. In this paper, we derive a finite-sample guarantee on the stability of bagging for any model. Our result places no assumptions on the distribution of the data, on the properties of the base algorithm, or on the dimensionality of the covariates. Our guarantee applies to many variants of bagging and is optimal up to a constant. Empirical results validate our findings, showing that bagging successfully stabilizes even highly unstable base algorithms.
公開日:2024-04-25
翻訳日:2024-04-27 00:27:30
# マルチアンテナシステムにおける電子オーバー・ザ・エア・フェデレーション学習

Digital Over-the-Air Federated Learning in Multi-Antenna Systems ( http://arxiv.org/abs/2302.14648v3 )

ライセンス: Link先を確認
Sihua Wang, Mingzhe Chen, Cong Shen, Changchuan Yin, Christopher G. Brinton, (参考訳) 本稿では,現実的な無線マルチインプット・マルチアウトプット(MIMO)通信システム上での連系学習(FL)の性能最適化について検討する。 特に、エッジデバイスが(ローカル収集データを用いて訓練された)ローカルFLモデルをビームフォーミングを用いてパラメータサーバ(PS)に送信し、送信予定デバイスの数を最大化するMIMOシステムを考える。 中央コントローラとして機能するPSは、受信したローカルFLモデルを使用してグローバルFLモデルを生成し、それを全デバイスにブロードキャストする。 無線ネットワークの帯域幅が限られているため、効率的な無線データアグリゲーションを実現するためにAirCompが採用されている。 しかし、無線チャネルのフェードはAirCompベースのFLスキームにおいて集約歪みを生じさせる。 この課題に対処するために,デジタル変調とAirCompを組み合わせたFedAvg(FedAvg)アルゴリズムを提案する。 これは、現在のFLモデルパラメータに基づいてビームフォーミング行列を動的に調整し、送信誤差を最小化し、FL性能を確保する最適化問題として定式化されたビームフォーミング設計により達成される。 この目的を達成するために、まずビームフォーミング行列が異なるイテレーションにおけるFedAvgの性能にどのように影響するかを解析的に特徴付ける。 この関係に基づいて、人工知能ニューラルネットワーク(ANN)を用いて、全デバイスの局所FLモデルを推定し、将来のモデル伝送のためにPSのビーム形成行列を調整する。 提案手法のアルゴリズム的優位性と改良性能は,広範囲な数値実験により実証された。

In this paper, the performance optimization of federated learning (FL), when deployed over a realistic wireless multiple-input multiple-output (MIMO) communication system with digital modulation and over-the-air computation (AirComp) is studied. In particular, a MIMO system is considered in which edge devices transmit their local FL models (trained using their locally collected data) to a parameter server (PS) using beamforming to maximize the number of devices scheduled for transmission. The PS, acting as a central controller, generates a global FL model using the received local FL models and broadcasts it back to all devices. Due to the limited bandwidth in a wireless network, AirComp is adopted to enable efficient wireless data aggregation. However, fading of wireless channels can produce aggregate distortions in an AirComp-based FL scheme. To tackle this challenge, we propose a modified federated averaging (FedAvg) algorithm that combines digital modulation with AirComp to mitigate wireless fading while ensuring the communication efficiency. This is achieved by a joint transmit and receive beamforming design, which is formulated as an optimization problem to dynamically adjust the beamforming matrices based on current FL model parameters so as to minimize the transmitting error and ensure the FL performance. To achieve this goal, we first analytically characterize how the beamforming matrices affect the performance of the FedAvg in different iterations. Based on this relationship, an artificial neural network (ANN) is used to estimate the local FL models of all devices and adjust the beamforming matrices at the PS for future model transmission. The algorithmic advantages and improved performance of the proposed methodologies are demonstrated through extensive numerical experiments.
公開日:2024-04-25
翻訳日:2024-04-27 00:27:30
# ハードウェア要件としての説明可能性:説明可能なハードウェア(XHW)の導入

Explainability as a Requirement for Hardware: Introducing Explainable Hardware (XHW) ( http://arxiv.org/abs/2302.14661v2 )

ライセンス: Link先を確認
Timo Speith, Julian Speith, Steffen Becker, Yixin Zou, Asia Biega, Christof Paar, (参考訳) 今日のデジタル技術の時代には、コンピューティングシステムに関する倫理的な懸念が増している。 このような懸念の焦点は現在、ソフトウェアの要件に焦点を当てていますが、この記事では、ハードウェア領域、特にマイクロチップに注目します。 例えば、現代のマイクロチップの不透明さは、悪意のあるアクターがそれらを操作でき、システムの整合性を脅かすため、セキュリティ上の問題を引き起こす。 その結果、政府は安全なマイクロチップのサプライチェーンを促進するために大幅に投資した。 本稿では,ハードウェアの不透明さに対処するために,説明可能なハードウェア(XHW)の概念を紹介する。 説明可能なAI(XAI)と説明可能なソフトウェアシステムに関する以前の研究に触発され、私たちは、関連するステークホルダー、ハードウェアに関する可能性のある要件、これらの要件を満たすための説明可能性アプローチを含むXHWを達成するためのフレームワークを開発しました。 18人のハードウェア専門家による探索的な調査を通じて、このフレームワークの応用を紹介し、潜在的な研究ギャップを発見する。 我々の研究は、XHWに関する今後の研究と構造化された議論の基礎を築いた。

In today's age of digital technology, ethical concerns regarding computing systems are increasing. While the focus of such concerns currently is on requirements for software, this article spotlights the hardware domain, specifically microchips. For example, the opaqueness of modern microchips raises security issues, as malicious actors can manipulate them, jeopardizing system integrity. As a consequence, governments invest substantially to facilitate a secure microchip supply chain. To combat the opaqueness of hardware, this article introduces the concept of Explainable Hardware (XHW). Inspired by and building on previous work on Explainable AI (XAI) and explainable software systems, we develop a framework for achieving XHW comprising relevant stakeholders, requirements they might have concerning hardware, and possible explainability approaches to meet these requirements. Through an exploratory survey among 18 hardware experts, we showcase applications of the framework and discover potential research gaps. Our work lays the foundation for future work and structured debates on XHW.
公開日:2024-04-25
翻訳日:2024-04-27 00:27:30
# リモートセンシング画像を用いた自己教師型学習のためのグローバル・ローカル・ビューアライメントの拡張

Extending global-local view alignment for self-supervised learning with remote sensing imagery ( http://arxiv.org/abs/2303.06670v2 )

ライセンス: Link先を確認
Xinye Wanyan, Sachith Seneviratne, Shuchang Shen, Michael Kirley, (参考訳) 多数の高品質なリモートセンシング画像が容易にアクセス可能であるため、手動によるアノテーションの少ない画像のコーパスを利用すると注目が集まる。 自己教師付きモデルは、大量のラベルのないデータに対して擬似ラベルを生成するプレテキストタスクを定式化し、訓練のための監督を提供することで、一般的な特徴表現を取得する。 従来の研究では、リモートセンシング領域における複数の自己教師付き学習手法が検討されてきたが、自然画像に関する最先端の結果が得られたにもかかわらず、局所的な視点のアライメントに基づくプレテキストタスクは未探索のままである。 グローバル・ローカル・ビューアライメントに基づく知識蒸留による効果的な表現学習構造を取り入れたDINOに着想を得て,リモートセンシング画像(SSLRS)を用いた自己教師型学習のための2つのプレテキストタスクを定式化した。 これらのタスクを用いて、SSLRSのマルチサイズビューと同様に、正の時間的コントラストの有効性について検討する。 我々は,DINOを拡張し,DINO-MCを提案する。DINO-MCは,リモートセンシング画像で観測される物体の大きさの限られた変化を緩和するために,単一の固定サイズではなく,様々な大きさの作物の局所的なビューを使用する。 我々の実験は、データセットの10%しか事前トレーニングしていない場合でも、DINO-MCは計算資源を少ないまま、複数のリモートセンシングタスクにおいて既存の最先端SSLRSメソッドと同等かそれ以上の性能を発揮することを示した。 すべてのコード、モデル、結果はhttps://github.com/WennyXY/DINO-MCで公開される。

Since large number of high-quality remote sensing images are readily accessible, exploiting the corpus of images with less manual annotation draws increasing attention. Self-supervised models acquire general feature representations by formulating a pretext task that generates pseudo-labels for massive unlabeled data to provide supervision for training. While prior studies have explored multiple self-supervised learning techniques in remote sensing domain, pretext tasks based on local-global view alignment remain underexplored, despite achieving state-of-the-art results on natural imagery. Inspired by DINO, which employs an effective representation learning structure with knowledge distillation based on global-local view alignment, we formulate two pretext tasks for self-supervised learning on remote sensing imagery (SSLRS). Using these tasks, we explore the effectiveness of positive temporal contrast as well as multi-sized views on SSLRS. We extend DINO and propose DINO-MC which uses local views of various sized crops instead of a single fixed size in order to alleviate the limited variation in object size observed in remote sensing imagery. Our experiments demonstrate that even when pre-trained on only 10% of the dataset, DINO-MC performs on par or better than existing state-of-the-art SSLRS methods on multiple remote sensing tasks, while using less computational resources. All codes, models, and results are released at https://github.com/WennyXY/DINO-MC.
公開日:2024-04-24
翻訳日:2024-04-27 00:27:30
# GADformer: 軌道上のグループ異常検出のための透過トランスフォーマーモデル

GADformer: A Transparent Transformer Model for Group Anomaly Detection on Trajectories ( http://arxiv.org/abs/2303.09841v2 )

ライセンス: Link先を確認
Andreas Lohrer, Darpan Malik, Claudius Zelenka, Peer Kröger, (参考訳) グループ異常検出(GAD)は、個々のメンバーが異常ではない場合の異常なパターンを特定する。 このタスクは複数の分野において重要な意味を持ち、軌道のような列も群として考えることができる。 群は異質性や大きさの多様性が増すにつれて、特に監督なしに集団異常の検出が困難になる。 リカレントニューラルネットワークはよく確立されたディープシーケンスモデルであるが、シーケンス長の増大に伴い性能が低下する可能性がある。 そこで本稿では,非教師付きおよび半教師付き設定におけるトラジェクトリ上での注意駆動型GADモデルであるGADformerを紹介する。 注意に基づくGADにより集団異常を検出できることを示す。 また,Block-Attention-anomaly-Score (BAS)を導入し,注意パターンを評価することでモデルの透明性を高める。 それに加えて、合成軌道生成は様々なアブレーション研究を可能にする。 広範にわたる実験では,3つの実世界のデータセットと合成データに対するトラジェクティブノイズと新規性に対するロバスト性について,我々のアプローチと関連する研究について検討する。

Group Anomaly Detection (GAD) identifies unusual pattern in groups where individual members might not be anomalous. This task is of major importance across multiple disciplines, in which also sequences like trajectories can be considered as a group. As groups become more diverse in heterogeneity and size, detecting group anomalies becomes challenging, especially without supervision. Though Recurrent Neural Networks are well established deep sequence models, their performance can decrease with increasing sequence lengths. Hence, this paper introduces GADformer, a BERT-based model for attention-driven GAD on trajectories in unsupervised and semi-supervised settings. We demonstrate how group anomalies can be detected by attention-based GAD. We also introduce the Block-Attention-anomaly-Score (BAS) to enhance model transparency by scoring attention patterns. In addition to that, synthetic trajectory generation allows various ablation studies. In extensive experiments we investigate our approach versus related works in their robustness for trajectory noise and novelties on synthetic data and three real world datasets.
公開日:2024-04-25
翻訳日:2024-04-27 00:27:30
# LatentForensics:StyleGAN潜伏空間におけるFragal Deepfake検出に向けて

LatentForensics: Towards frugal deepfake detection in the StyleGAN latent space ( http://arxiv.org/abs/2303.17222v2 )

ライセンス: Link先を確認
Matthieu Delmas, Amine Kacete, Stephane Paquelet, Simon Leglaive, Renaud Seguier, (参考訳) 偽ビデオの分類はここ数年、難しい課題だった。 ディープフェイク分類器は、ビデオフレームが改ざんされたかどうかを確実に予測できる。 しかしながら、それらのパフォーマンスは、トレーニングに使用されるデータセットと、アナリストの計算能力の両方に結びついている。 本稿では,高品質な顔画像で訓練された最先端生成逆数ネットワーク(GAN)の潜時空間で動作するディープフェイク検出手法を提案する。 提案手法は、StyleGANの潜在空間の構造を利用して、軽量な二項分類モデルを学ぶ。 標準データセットに対する実験結果から,提案手法は他の最先端のディープフェイク分類手法よりも優れており,特に新しい操作手法を導入する場合など,モデルのトレーニングに使用可能なデータが稀な状況では,その性能が向上することが明らかとなった。 我々の知る限りでは、この研究はStyleGANの潜伏空間の深い分類への関心を示す最初の研究である。 この潜伏空間の解釈と操作に関する他の最近の研究と組み合わせて、顔画像の解釈可能な高レベル特性に基づくフラジアルディープフェイク分類法をさらに発展させることができると信じている。

The classification of forged videos has been a challenge for the past few years. Deepfake classifiers can now reliably predict whether or not video frames have been tampered with. However, their performance is tied to both the dataset used for training and the analyst's computational power. We propose a deepfake detection method that operates in the latent space of a state-of-the-art generative adversarial network (GAN) trained on high-quality face images. The proposed method leverages the structure of the latent space of StyleGAN to learn a lightweight binary classification model. Experimental results on standard datasets reveal that the proposed approach outperforms other state-of-the-art deepfake classification methods, especially in contexts where the data available to train the models is rare, such as when a new manipulation method is introduced. To the best of our knowledge, this is the first study showing the interest of the latent space of StyleGAN for deepfake classification. Combined with other recent studies on the interpretation and manipulation of this latent space, we believe that the proposed approach can further help in developing frugal deepfake classification methods based on interpretable high-level properties of face images.
公開日:2024-04-24
翻訳日:2024-04-27 00:27:30
# 古典的な量子非シグナリングボックス

Classical-to-quantum non-signalling boxes ( http://arxiv.org/abs/2303.17268v3 )

ライセンス: Link先を確認
Carolina Moreira Ferrera, Robin Simmons, James Purcell, Daniel Collins, Sandu Popescu, (参考訳) ここでは、古典的入力-量子出力(C-Q)非シグナリングボックスの概念、古典的入力-古典的出力(C-C)非シグナリングボックスの一般化を紹介する。 このような対象を研究することで、量子力学を超えた量子非局所性と非局所性との関係をよりよく理解できるようになると論じる。 論文で論じられている主な問題は、既に知られている物体、すなわち、事前に共有された量子粒子に作用するC-Cボックスから、C-Qボックスまたは全てのC-Qボックスを構築することができるかどうかである。 C-Q ボックスの大規模なクラスは非遺伝的であることを示す。 特に、純状態の出力を持つ全ての二部C-Qボックスが非GAであることを示す。 また,解答がまだオープンな混合状態を出力するマルチパーティC-Qボックスなど,一般問題に対処するための様々な戦略も提示する。 最後に、非常に単純なC-Qボックスでさえ、それらをシミュレートするために大量のC-C非局所相関を必要とすることを示す。

Here we introduce the concept of classical input - quantum output (C-Q) non-signalling boxes, a generalisation of the classical input - classical output (C-C) non-signalling boxes. We argue that studying such objects leads to a better understanding of the relation between quantum nonlocality and non-locality beyond quantum mechanics. The main issue discussed in the paper is whether there exist 'genuine' C-Q boxes or all C-Q boxes can be built from objects already known, namely C-C boxes acting on pre-shared entangled quantum particles. We show that large classes of C-Q boxes are non-genuine. In particular, we show that all bi-partite C-Q boxes with outputs that are pure states are non-genuine. We also present various strategies for addressing the general problem, i.e. for multi-partite C-Q boxes which output mixed states, whose answer is still open. Finally, we show that even some very simple non-genuine C-Q boxes require large amounts of C-C nonlocal correlations in order to simulate them.
公開日:2024-04-25
翻訳日:2024-04-27 00:27:30
# 深層学習モデル変換器の故障とリスクの分析:ONNXエコシステムを事例として

Analysis of Failures and Risks in Deep Learning Model Converters: A Case Study in the ONNX Ecosystem ( http://arxiv.org/abs/2303.17708v3 )

ライセンス: Link先を確認
Purvish Jajal, Wenxin Jiang, Arav Tewari, Erik Kocinare, Joseph Woo, Anusha Sarraf, Yung-Hsiang Lu, George K. Thiruvathukal, James C. Davis, (参考訳) ソフトウェアエンジニアは、さまざまな開発フレームワークとランタイム環境を使用して、ディープラーニング(DL)モデルを開発、微調整、デプロイします。 DLモデルコンバータは、フレームワークとランタイム環境の間でモデルを移動します。 変換エラーによってモデルの品質が損なわれ、デプロイメントが破壊される。 しかし、DLモデルコンバータの故障特性は不明であり、DLインターオペラビリティ技術を使用する場合のリスクが増大する。 本稿では,DLモデルコンバータの故障解析を行う。 我々は,DL相互運用性ツール,ユースケース,痛点(N=92)について,ソフトウェアエンジニアを調査した。 次に、メインの相互運用性ツールであるONNX(PyTorchとTensorFlowのN=200問題)に関連するモデルコンバータの障害を特徴付ける。 最後に、我々が研究した失敗の構造的原因に関する2つの仮説を定式化し、検証した。 モデル変換器のノード変換段階が欠陥の75%を占め、報告された障害の33%が意味的に誤りのあるモデルと関連していることがわかった。 意味的に不正確なモデルの原因は解明されているが、振る舞いの不整合のあるモデルは演算子シーケンスを共有する。 我々の成果は、DLインターオペラビリティソフトウェアをメンテナンス、拡張、検証をより簡単にするための将来の研究を動機付けています。 行動寛容とアーキテクチャカバレッジメトリクスの研究は実りあるかもしれない。

Software engineers develop, fine-tune, and deploy deep learning (DL) models using a variety of development frameworks and runtime environments. DL model converters move models between frameworks and to runtime environments. Conversion errors compromise model quality and disrupt deployment. However, the failure characteristics of DL model converters are unknown, adding risk when using DL interoperability technologies. This paper analyzes failures in DL model converters. We survey software engineers about DL interoperability tools, use cases, and pain points (N=92). Then, we characterize failures in model converters associated with the main interoperability tool, ONNX (N=200 issues in PyTorch and TensorFlow). Finally, we formulate and test two hypotheses about structural causes for the failures we studied. We find that the node conversion stage of a model converter accounts for ~75% of the defects and 33% of reported failure are related to semantically incorrect models. The cause of semantically incorrect models is elusive, but models with behaviour inconsistencies share operator sequences. Our results motivate future research on making DL interoperability software simpler to maintain, extend, and validate. Research into behavioural tolerances and architectural coverage metrics could be fruitful.
公開日:2024-04-24
翻訳日:2024-04-27 00:27:30
# 機械学習・アズ・ア・サービス推論の低コスト結果検証のための生成フレームワーク

A Generative Framework for Low-Cost Result Validation of Machine Learning-as-a-Service Inference ( http://arxiv.org/abs/2304.00083v4 )

ライセンス: Link先を確認
Abhinav Kumar, Miguel A. Guirao Aguilera, Reza Tourani, Satyajayant Misra, (参考訳) 機械学習(ML)の人気が高まり、さまざまなセンシティブなドメインにデプロイされるようになり、MLのセキュリティとプライバシを重視した大きな研究がもたらされた。 しかし、Augmented/Virtual Realityのようないくつかのアプリケーションでは、アウトソースされたMLタスクの整合性検証がより重要である。 マルチパーティ計算や証明ベースシステムといった既存のソリューションは、計算オーバーヘッドがかなり大きいため、リアルタイムアプリケーションには適さない。 MLaaS(ML-as-a-Service)推論をリアルタイムに検証するための新しいフレームワークであるFidesを提案する。 Fidesは、信頼された実行環境内で実行中に対応するサービスモデルを検証するための、空間を動的に蒸留し微調整する、新しい、効率的な蒸留技術である、Greedy Distillation Transfer Learningを特徴としている。 Fidesは、統計的分析とばらつき測定を使用して、サービスモデルが攻撃を受けている場合、高い確率で識別するクライアント側攻撃検出モデルを備えている。 Fidesはまた、攻撃が特定されるたびに元のクラスを予測する再分類機能を提供する。 攻撃検出と再分類モデルの訓練のための生成的逆ネットワークフレームワークを考案した。 評価の結果,攻撃検出では98%,再分類では94%の精度が得られた。

The growing popularity of Machine Learning (ML) has led to its deployment in various sensitive domains, which has resulted in significant research focused on ML security and privacy. However, in some applications, such as Augmented/Virtual Reality, integrity verification of the outsourced ML tasks is more critical--a facet that has not received much attention. Existing solutions, such as multi-party computation and proof-based systems, impose significant computation overhead, which makes them unfit for real-time applications. We propose Fides, a novel framework for real-time integrity validation of ML-as-a-Service (MLaaS) inference. Fides features a novel and efficient distillation technique--Greedy Distillation Transfer Learning--that dynamically distills and fine-tunes a space and compute-efficient verification model for verifying the corresponding service model while running inside a trusted execution environment. Fides features a client-side attack detection model that uses statistical analysis and divergence measurements to identify, with a high likelihood, if the service model is under attack. Fides also offers a re-classification functionality that predicts the original class whenever an attack is identified. We devised a generative adversarial network framework for training the attack detection and re-classification models. The evaluation shows that Fides achieves an accuracy of up to 98% for attack detection and 94% for re-classification.
公開日:2024-04-25
翻訳日:2024-04-27 00:27:30
# 胸部CT検診における汎用医用AI

Specialty-Oriented Generalist Medical AI for Chest CT Screening ( http://arxiv.org/abs/2304.02649v4 )

ライセンス: Link先を確認
Chuang Niu, Qing Lyu, Christopher D. Carothers, Parisa Kaviani, Josh Tan, Pingkun Yan, Mannudeep K. Kalra, Christopher T. Whitlow, Ge Wang, (参考訳) 現代の医療記録には、膨大な量のマルチモーダル・フリーテキスト臨床データと、放射線学、心臓学、デジタル病理学からの画像データが含まれている。 このようなビッグデータを完全にマイニングするにはマルチタスクが必要である。そうでなければ、オカルトだが重要な側面は見過ごされ、臨床管理や人口医療に悪影響を及ぼす可能性がある。 単一モーダルデータを用いた個々のタスクにおけるAIの顕著な成功にもかかわらず、データキュレーションとモデルアーキテクチャの2つの課題のために、マルチタスクのためのマルチモーダルデータを組み合わせるための一般の医療AIの開発の進歩は、比較的遅いままである。 データ課題は、マルチモーダルな構造化および非構造化のテキスト、アルファ数値、特にリアルタイム決定のための患者レベルでの3Dトモグラフィースキャンを、人口健康統計を推定するためのスケールでクエリし、キュレートすることである。 このモデル課題は、多様な臨床タスクのためのマルチモーダルデータセットを統合するために、スケーラブルで適応可能なネットワークアーキテクチャを必要とする。 本稿では,肺がん検診および関連する課題に応用したM3FMの基礎モデルを提案する。 163,725個の胸部CTシリーズを含む49種類の臨床データとLCSに関わる17の医療タスクからなる総合マルチモーダルマルチタスクデータセットをキュレートした後,我々は多モーダル情報の相乗化と自由テキストプロンプトによる複数タスク実行のための統一的なトレーニングおよび推論戦略として,多モーダル質問応答フレームワークを開発した。 M3FMは、最先端の単一モーダルタスク固有のモデルより一貫して優れており、臨床タスクに有用なマルチモーダルデータ要素を特定し、小さなアウト・オブ・ディストリビューションデータセットで新しいタスクに柔軟に適応する。 専門的な汎用的な医療AIモデルとして、M3FMは、専門医とジェネラリストのギャップを埋め、他の分野における同様のブレークスルーの道を開く。

Modern medical records include a vast amount of multimodal free text clinical data and imaging data from radiology, cardiology, and digital pathology. Fully mining such big data requires multitasking; otherwise, occult but important aspects may be overlooked, adversely affecting clinical management and population healthcare. Despite remarkable successes of AI in individual tasks with single-modal data, the progress in developing generalist medical AI remains relatively slow to combine multimodal data for multitasks because of the dual challenges of data curation and model architecture. The data challenge involves querying and curating multimodal structured and unstructured text, alphanumeric, and especially 3D tomographic scans on an individual patient level for real-time decisions and on a scale to estimate population health statistics. The model challenge demands a scalable and adaptable network architecture to integrate multimodal datasets for diverse clinical tasks. Here we propose the first-of-its-kind medical multimodal-multitask foundation model (M3FM) with application in lung cancer screening and related tasks. After we curated a comprehensive multimodal multitask dataset consisting of 49 clinical data types including 163,725 chest CT series and 17 medical tasks involved in LCS, we develop a multimodal question-answering framework as a unified training and inference strategy to synergize multimodal information and perform multiple tasks via free-text prompting. M3FM consistently outperforms the state-of-the-art single-modal task-specific models, identifies multimodal data elements informative for clinical tasks and flexibly adapts to new tasks with a small out-of-distribution dataset. As a specialty-oriented generalist medical AI model, M3FM paves the way for similar breakthroughs in other areas of medicine, closing the gap between specialists and the generalist.
公開日:2024-04-24
翻訳日:2024-04-27 00:27:30
# オーバーロード:エッジデバイスのオブジェクト検出における遅延攻撃

Overload: Latency Attacks on Object Detection for Edge Devices ( http://arxiv.org/abs/2304.05370v3 )

ライセンス: Link先を確認
Erh-Chung Chen, Pin-Yu Chen, I-Hsin Chung, Che-rung Lee, (参考訳) 今日では、インテリジェントなサービスに対する需要が高まっているため、ディープラーニングベースのアプリケーションのデプロイが不可欠である。 本稿では,ディープラーニングアプリケーションに対する遅延攻撃について検討する。 誤分類に対する一般的な敵攻撃とは異なり、遅延攻撃の目標は推論時間を増やすことであり、アプリケーションが適切な時間内に要求に応答するのを阻止する可能性がある。 このような攻撃は様々なアプリケーションに広く適用されており、この種の攻撃がどのように動作するかを示すためにオブジェクト検出を使用します。 また、大規模な遅延アタックを生成するOverloadというフレームワークも設計しています。 提案手法は,新たに定式化された最適化問題と空間アテンションと呼ばれる新しい手法に基づく。 この攻撃は、推論時間の間に必要となる計算コストを増大させ、結果としてオブジェクト検出のための推論時間が延長される。 これは特に限られた計算資源を持つシステムに重大な脅威をもたらす。 Nvidia NX上でYOLOv5モデルを用いた実験を行った。 既存の手法と比較して,本手法はよりシンプルで効果的である。 実験の結果, 遅延攻撃では, 単一画像の推測時間は, 通常の設定の10倍長くなることがわかった。 さらに,NMSに依存せず,非最大抑制(NMS)を必要とする全ての物体検出タスクに対して新たな脅威となる可能性が示唆された。

Nowadays, the deployment of deep learning-based applications is an essential task owing to the increasing demands on intelligent services. In this paper, we investigate latency attacks on deep learning applications. Unlike common adversarial attacks for misclassification, the goal of latency attacks is to increase the inference time, which may stop applications from responding to the requests within a reasonable time. This kind of attack is ubiquitous for various applications, and we use object detection to demonstrate how such kind of attacks work. We also design a framework named Overload to generate latency attacks at scale. Our method is based on a newly formulated optimization problem and a novel technique, called spatial attention. This attack serves to escalate the required computing costs during the inference time, consequently leading to an extended inference time for object detection. It presents a significant threat, especially to systems with limited computing resources. We conducted experiments using YOLOv5 models on Nvidia NX. Compared to existing methods, our method is simpler and more effective. The experimental results show that with latency attacks, the inference time of a single image can be increased ten times longer in reference to the normal setting. Moreover, our findings pose a potential new threat to all object detection tasks requiring non-maximum suppression (NMS), as our attack is NMS-agnostic.
公開日:2024-04-24
翻訳日:2024-04-27 00:27:30
# コーディネート変換による勾配法の改善:量子機械学習への応用

Improving Gradient Methods via Coordinate Transformations: Applications to Quantum Machine Learning ( http://arxiv.org/abs/2304.06768v2 )

ライセンス: Link先を確認
Pablo Bermejo, Borja Aizpurua, Roman Orus, (参考訳) 機械学習アルゴリズムは、古典的バージョンと量子的バージョンの両方において、勾配降下などの勾配に基づく最適化アルゴリズムに大きく依存している。 全体的な性能は、局所的なミニマと不毛の高原の出現に依存する。 実際には、これはAIアプリケーションに対する劇的な計算とエネルギーコストをもたらす。 本稿では,これらの手法の全般的な性能向上を図り,バレンプラトー効果と局所ミニマ効果を緩和する汎用戦略を提案する。 我々の手法は座標変換に基づいており、幾らか変動回転に似ており、コスト関数自体に依存するパラメータ空間に余分な方向を追加し、より効率的に構成環境を探索することができる。 提案手法の有効性は,多数の量子機械学習アルゴリズムを高速化し,その性能を著しく向上させることによって評価される。

Machine learning algorithms, both in their classical and quantum versions, heavily rely on optimization algorithms based on gradients, such as gradient descent and alike. The overall performance is dependent on the appearance of local minima and barren plateaus, which slow-down calculations and lead to non-optimal solutions. In practice, this results in dramatic computational and energy costs for AI applications. In this paper we introduce a generic strategy to accelerate and improve the overall performance of such methods, allowing to alleviate the effect of barren plateaus and local minima. Our method is based on coordinate transformations, somehow similar to variational rotations, adding extra directions in parameter space that depend on the cost function itself, and which allow to explore the configuration landscape more efficiently. The validity of our method is benchmarked by boosting a number of quantum machine learning algorithms, getting a very significant improvement in their performance.
公開日:2024-04-25
翻訳日:2024-04-27 00:17:35
# ディープニューラルネットワークの近似と補間

Approximation and interpolation of deep neural networks ( http://arxiv.org/abs/2304.10552v2 )

ライセンス: Link先を確認
Vlad-Raul Constantinescu, Ionel Popescu, (参考訳) 本稿では、過度にパラメータ化された状態において、ディープニューラルネットワークが普遍近似を提供し、アクティベーション関数が局所的に$L^1(\RR)$でありアフィン関数ではない限り、任意のデータセットを補間できることを示す。 さらに、活性化関数が滑らかでそのような補間ネットワークが存在するなら、補間するパラメータの集合は多様体を形成する。 さらに,補間点において評価された損失関数のヘシアン特性について述べる。 最後の節では、活性化関数の一般的な条件下でそのような点を見つけるための実用的な確率的方法を提案する。

In this paper, we prove that in the overparametrized regime, deep neural network provide universal approximations and can interpolate any data set, as long as the activation function is locally in $L^1(\RR)$ and not an affine function. Additionally, if the activation function is smooth and such an interpolation networks exists, then the set of parameters which interpolate forms a manifold. Furthermore, we give a characterization of the Hessian of the loss function evaluated at the interpolation points. In the last section, we provide a practical probabilistic method of finding such a point under general conditions on the activation function.
公開日:2024-04-25
翻訳日:2024-04-27 00:17:35
# 自律運転テストを改善するデジタル兄弟

Two is Better Than One: Digital Siblings to Improve Autonomous Driving Testing ( http://arxiv.org/abs/2305.08060v2 )

ライセンス: Link先を確認
Matteo Biagiola, Andrea Stocco, Vincenzo Riccio, Paolo Tonella, (参考訳) シミュレーションベースのテストは、自律運転ソフトウェアの信頼性を確保するための重要なステップである。 実際には、企業が社内またはアウトソーステストのどちらかで、サードパーティの汎用シミュレータに頼っている場合、実際の自動運転車に対するテスト結果の一般化が重要になっている。 本稿では、異なる技術で構築された複数の汎用シミュレータ上で、与えられた自動運転車をテストするマルチシミュレータアプローチであるデジタルシミュレータの概念を導入し、シミュレーションベースのテストを強化し、テストプロセスにおけるアンサンブルとして一括して動作する。 我々は、自動運転車の車線維持コンポーネントのテストに焦点をあてたケーススタディに、我々のアプローチを例示する。 我々は2つのオープンソースシミュレータをデジタルシグナリングとして使用し、このようなマルチシミュレータアプローチを、大規模なテストケースにおいて物理的にスケールされた自動運転車のディジタルツインに対して実証的に比較する。 提案手法では,各シミュレータのテストケースの生成と実行を,道路点列の形式で行う必要がある。 次に、テストケースをシミュレータ間で移動させ、特徴マップを用いて運動した運転条件を特徴付ける。 最後に、共同予測故障確率を算出し、兄弟間の一致の場合のみ故障を報知する。 実験により,デジタル双子の故障予測において,デジタル兄弟によるアンサンブル故障予測器が個々のシミュレータよりも優れていることが示された。 ケーススタディの成果と,自律走行ソフトウェアの自動テストに関心のある研究者に,我々のアプローチがどのように役立つのかを詳述する。

Simulation-based testing represents an important step to ensure the reliability of autonomous driving software. In practice, when companies rely on third-party general-purpose simulators, either for in-house or outsourced testing, the generalizability of testing results to real autonomous vehicles is at stake. In this paper, we enhance simulation-based testing by introducing the notion of digital siblings, a multi-simulator approach that tests a given autonomous vehicle on multiple general-purpose simulators built with different technologies, that operate collectively as an ensemble in the testing process. We exemplify our approach on a case study focused on testing the lane-keeping component of an autonomous vehicle. We use two open-source simulators as digital siblings, and we empirically compare such a multi-simulator approach against a digital twin of a physical scaled autonomous vehicle on a large set of test cases. Our approach requires generating and running test cases for each individual simulator, in the form of sequences of road points. Then, test cases are migrated between simulators, using feature maps to characterize the exercised driving conditions. Finally, the joint predicted failure probability is computed, and a failure is reported only in cases of agreement among the siblings. Our empirical evaluation shows that the ensemble failure predictor by the digital siblings is superior to each individual simulator at predicting the failures of the digital twin. We discuss the findings of our case study and detail how our approach can help researchers interested in automated testing of autonomous driving software.
公開日:2024-04-24
翻訳日:2024-04-27 00:17:35
# ULIP-2:3次元理解のためのスケーラブルなマルチモーダル事前学習を目指して

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding ( http://arxiv.org/abs/2305.08275v3 )

ライセンス: Link先を確認
Le Xue, Ning Yu, Shu Zhang, Junnan Li, Roberto Martín-Martín, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese, (参考訳) 近年のマルチモーダル事前学習の進歩は, 3次元形状, 2次元形状, 言語記述の多モーダル特徴の整合による3次元表現学習において有望な効果を示した。 しかし, 既存のフレームワークがこのようなマルチモーダルデータ, 特に3次元形状の言語記述をキュレートする手法はスケーラビリティに欠けており, 収集された言語記述は多様ではない。 そこで本研究では,大規模マルチモーダルモデルを利用して3次元形状の全体的言語記述を自動的に生成する,シンプルで効果的な3モーダル事前学習フレームワークULIP-2を紹介する。 入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。 ULIP-2は、より優れたマルチモーダル表現学習のためのスケールアップバックボーンも備えている。 我々は,2つの大規模3DデータセットであるObjaverseとShapeNetで実験を行い,ULIP-2をトレーニングするための3Dポイントクラウド,画像,言語をトリモーダルデータセットで拡張した。 実験の結果, ULIP-2は, ゼロショット3D分類, ファインチューニングによる標準3D分類, 3Dキャプション生成(3D-to-Language generation)の3つのダウンストリームタスクにおいて, 顕著なメリットを示すことがわかった。 ゼロショット分類では、Objaverse-LVISで50.6%(トップ-1)、ModelNet40で84.7%(トップ-1)の新しいSOTAを実現している。 標準微調整のためのScanObjectNNベンチマークでは、ULIP-2は91.5%の精度に達し、パラメータはわずか1.4万である。 ULIP-2は、人間のアノテーションを使わずにスケーラブルなマルチモーダル3D表現学習のための新しいパラダイムに光を当て、既存のベースラインよりも大幅に改善されている。 コードとデータセットはhttps://github.com/salesforce/ULIPで公開されている。

Recent advancements in multimodal pre-training have shown promising efficacy in 3D representation learning by aligning multimodal features across 3D shapes, their 2D counterparts, and language descriptions. However, the methods used by existing frameworks to curate such multimodal data, in particular language descriptions for 3D shapes, are not scalable, and the collected language descriptions are not diverse. To address this, we introduce ULIP-2, a simple yet effective tri-modal pre-training framework that leverages large multimodal models to automatically generate holistic language descriptions for 3D shapes. It only needs 3D data as input, eliminating the need for any manual 3D annotations, and is therefore scalable to large datasets. ULIP-2 is also equipped with scaled-up backbones for better multimodal representation learning. We conduct experiments on two large-scale 3D datasets, Objaverse and ShapeNet, and augment them with tri-modal datasets of 3D point clouds, images, and language for training ULIP-2. Experiments show that ULIP-2 demonstrates substantial benefits in three downstream tasks: zero-shot 3D classification, standard 3D classification with fine-tuning, and 3D captioning (3D-to-language generation). It achieves a new SOTA of 50.6% (top-1) on Objaverse-LVIS and 84.7% (top-1) on ModelNet40 in zero-shot classification. In the ScanObjectNN benchmark for standard fine-tuning, ULIP-2 reaches an overall accuracy of 91.5% with a compact model of only 1.4 million parameters. ULIP-2 sheds light on a new paradigm for scalable multimodal 3D representation learning without human annotations and shows significant improvements over existing baselines. The code and datasets are released at https://github.com/salesforce/ULIP.
公開日:2024-04-24
翻訳日:2024-04-27 00:17:35
# クリーンデータよりも破損データの多いシステム同定のための厳密な復元

Exact Recovery for System Identification with More Corrupt Data than Clean Data ( http://arxiv.org/abs/2305.10506v3 )

ライセンス: Link先を確認
Baturalp Yalcin, Haixiang Zhang, Javad Lavaei, Murat Arcak, (参考訳) 本稿では,2つのラッソ型推定器を用いた線形離散時間系のシステム同定問題について検討する。 本研究では,これらの推定器の漸近特性と非漸近特性を,攻撃時の決定論的モデルと確率論的モデルに対応する2つの異なるシナリオで検討する。 システムから採取したサンプルは相関しているため,既存のラッソに関する結果は適用できない。 システムが安定しており、攻撃が定期的に注入される場合、システムダイナミクスの正確な回復のためのサンプルの複雑さは状態の次元の点で線形であることが証明された。 確率 p のインスタンスごとに逆攻撃が発生したとき、正確な回復に必要なサンプルの複雑さは状態と確率 p の次元で多項式的にスケールする。 この結果は、漸近的状態の下での真の系力学へのほぼ確実な収束を示唆する。 副産物として、データの半分以上が漏洩した場合でも、私たちの推定者はシステムを正しく学習します。 本研究では,攻撃ベクトルが相互に相関することが認められているのに対して,攻撃の発生時期についていくつかの仮定を行う。 本稿では, 汚いデータよりもクリーンなデータが少ない場合に, 動的システムの相関データから学習することに関する文献の中で, 初めての数学的保証を提供する。

This paper investigates the system identification problem for linear discrete-time systems under adversaries and analyzes two lasso-type estimators. We examine both asymptotic and non-asymptotic properties of these estimators in two separate scenarios, corresponding to deterministic and stochastic models for the attack times. Since the samples collected from the system are correlated, the existing results on lasso are not applicable. We prove that when the system is stable and attacks are injected periodically, the sample complexity for exact recovery of the system dynamics is linear in terms of the dimension of the states. When adversarial attacks occur at each time instance with probability p, the required sample complexity for exact recovery scales polynomially in the dimension of the states and the probability p. This result implies almost sure convergence to the true system dynamics under the asymptotic regime. As a by-product, our estimators still learn the system correctly even when more than half of the data is compromised. We highlight that the attack vectors are allowed to be correlated with each other in this work, whereas we make some assumptions about the times at which the attacks happen. This paper provides the first mathematical guarantee in the literature on learning from correlated data for dynamical systems in the case when there is less clean data than corrupt data.
公開日:2024-04-24
翻訳日:2024-04-27 00:17:35
# 差別的拡散モデル : 映像と言語学習者による差別的拡散モデル

Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners ( http://arxiv.org/abs/2305.10722v3 )

ライセンス: Link先を確認
Xuehai He, Weixi Feng, Tsu-Jui Fu, Varun Jampani, Arjun Akula, Pradyumna Narayana, Sugato Basu, William Yang Wang, Xin Eric Wang, (参考訳) 安定拡散のような拡散モデルは、テキスト・画像生成において素晴らしい性能を示している。 テキスト・ツー・イメージ生成は、しばしば、細かな詳細とテキスト・プロンプトで特定された属性で視覚概念を生成するモデルを必要とするため、画像・テキストマッチングのような識別的なタスクに対して、事前学習された拡散モデルによって学習された強力な表現を活用できるだろうか? そこで本研究では,事前学習したテキストと画像の拡散モデルから数ショットの識別学習者へ変換する新たなアプローチとして,DSD(Distriminative Staable Diffusion)を提案する。 提案手法は, 安定拡散モデルの相互注意スコアを用いて, 視覚情報とテキスト情報の相互影響を捉え, より効率的な注意に基づくプロンプト学習により, 画像テキストマッチングを行う。 いくつかのベンチマークデータセット上で、DSDと最先端の手法を比較することで、数ショット画像テキストマッチングにおいて優れた結果が得られる識別的タスクに事前訓練された拡散モデルを使用することの可能性を示す。

Diffusion models, such as Stable Diffusion, have shown incredible performance on text-to-image generation. Since text-to-image generation often requires models to generate visual concepts with fine-grained details and attributes specified in text prompts, can we leverage the powerful representations learned by pre-trained diffusion models for discriminative tasks such as image-text matching? To answer this question, we propose a novel approach, Discriminative Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models into few-shot discriminative learners. Our approach mainly uses the cross-attention score of a Stable Diffusion model to capture the mutual influence between visual and textual information and fine-tune the model via efficient attention-based prompt learning to perform image-text matching. By comparing DSD with state-of-the-art methods on several benchmark datasets, we demonstrate the potential of using pre-trained diffusion models for discriminative tasks with superior results on few-shot image-text matching.
公開日:2024-04-24
翻訳日:2024-04-27 00:17:35
# テキスト・ビデオ生成のための時空間拡散におけるスワップアテンション

Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation ( http://arxiv.org/abs/2305.10874v4 )

ライセンス: Link先を確認
Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu, (参考訳) AI生成コンテンツ(AIGC)の爆発的な人気により、ビデオ生成は近年多くの注目を集めている。 テキスト命令でガイドされたビデオを生成することは、空間と時間の間の複雑な関係をモデル化することや、大規模なテキストとビデオのペアリングデータの欠如など、大きな課題をもたらす。 既存のテキストビデオデータセットは、コンテンツ品質とスケールの両方の制限に悩まされるか、オープンソースではないため、学習や使用にはアクセスできない。 モデル設計においては、ビデオ生成のための時間的1D畳み込み/アテンションモジュールを追加することで、事前訓練されたテキスト・画像生成モデルを拡張する。 しかし、これらのアプローチは空間と時間の共同モデリングの重要性を軽視し、必然的に時間的歪みやテキストとビデオ間の不一致を招きかねない。 本稿では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。 特に,空間ブロックと時間ブロックの「クエリ」ロールを交互に置き換える3次元ウィンドウにおいて,相互強化を実現する。 さらに、高品質なビデオ生成のためのモデル機能を完全にアンロックし、フィールドの開発を促進するために、HD-VG-130Mと呼ばれる大規模かつオープンソースのビデオデータセットをキュレートする。 このデータセットは、オープンドメインから1億3000万のテキストビデオペアで構成され、高精細度、ワイドスクリーン、透かしのない文字を保証する。 より小さく、より精巧に掃除されたサブセットは、データ品質をさらに向上させ、優れたパフォーマンスを達成するためのモデルを支援する。 実験的な定量的および定性的な結果から,フレーム単位の品質,時間的相関,テキスト・ビデオアライメントの面で,明確なマージンを有するアプローチの優位性を示した。

With the explosive popularity of AI-generated content (AIGC), video generation has recently received a lot of attention. Generating videos guided by text instructions poses significant challenges, such as modeling the complex relationship between space and time, and the lack of large-scale text-video paired data. Existing text-video datasets suffer from limitations in both content quality and scale, or they are not open-source, rendering them inaccessible for study and use. For model design, previous approaches extend pretrained text-to-image generation models by adding temporal 1D convolution/attention modules for video generation. However, these approaches overlook the importance of jointly modeling space and time, inevitably leading to temporal distortions and misalignment between texts and videos. In this paper, we propose a novel approach that strengthens the interaction between spatial and temporal perceptions. In particular, we utilize a swapped cross-attention mechanism in 3D windows that alternates the "query" role between spatial and temporal blocks, enabling mutual reinforcement for each other. Moreover, to fully unlock model capabilities for high-quality video generation and promote the development of the field, we curate a large-scale and open-source video dataset called HD-VG-130M. This dataset comprises 130 million text-video pairs from the open-domain, ensuring high-definition, widescreen and watermark-free characters. A smaller-scale yet more meticulously cleaned subset further enhances the data quality, aiding models in achieving superior performance. Experimental quantitative and qualitative results demonstrate the superiority of our approach in terms of per-frame quality, temporal correlation, and text-video alignment, with clear margins.
公開日:2024-04-24
翻訳日:2024-04-27 00:17:35
# 記述に基づくテキストの類似性

Description-Based Text Similarity ( http://arxiv.org/abs/2305.12517v3 )

ライセンス: Link先を確認
Shauli Ravfogel, Valentina Pyatkin, Amir DN Cohen, Avshalom Manevich, Yoav Goldberg, (参考訳) 与えられたセマンティクスでテキストを識別することは、多くの情報検索シナリオの中心である。 ベクトル埋め込みに対する類似性探索は、この能力の中心にあるように見えるが、現在のテキスト埋め込みに反映される類似性はコーパス駆動であり、多くのユースケースでは矛盾し、準最適である。 では、テキストを効果的に検索する上で、類似性のよい概念は何だろうか? 我々は,その内容の抽象的な記述とそれに対応する「emph{description based similarity}」の概念に基づいて,テキストの検索の必要性を特定する。 本稿では,現在のテキスト埋め込みの不適切さを実証し,近隣の標準的な検索で使用する場合の精度を向上する代替モデルを提案する。 モデルはLLMのプロンプトを通じて、正と負のペアを使ってトレーニングされ、LLMからのデータを使って、元のモデルではすぐには不可能な新しい機能を作成する方法を示している。

Identifying texts with a given semantics is central for many information seeking scenarios. Similarity search over vector embeddings appear to be central to this ability, yet the similarity reflected in current text embeddings is corpus-driven, and is inconsistent and sub-optimal for many use cases. What, then, is a good notion of similarity for effective retrieval of text? We identify the need to search for texts based on abstract descriptions of their content, and the corresponding notion of \emph{description based similarity}. We demonstrate the inadequacy of current text embeddings and propose an alternative model that significantly improves when used in standard nearest neighbor search. The model is trained using positive and negative pairs sourced through prompting a LLM, demonstrating how data from LLMs can be used for creating new capabilities not immediately possible using the original model.
公開日:2024-04-25
翻訳日:2024-04-27 00:17:35
# IDEA: グラフ対逆ロバスト性のための不変ディフェンス

IDEA: Invariant Defense for Graph Adversarial Robustness ( http://arxiv.org/abs/2305.15792v2 )

ライセンス: Link先を確認
Shuchang Tao, Qi Cao, Huawei Shen, Yunfan Wu, Bingbing Xu, Xueqi Cheng, (参考訳) グラフニューラルネットワーク(GNN)の成功にもかかわらず、敵攻撃に対するその脆弱性は、実用的なアプリケーションに重大な課題をもたらす。 既存の防御手法は、観測された敵の限られた例または事前に定義されたヒューリスティックのため、目に見えない攻撃の下で深刻な性能低下に悩まされる。 これらの制約に対処するため、我々はグラフ対逆攻撃の因果関係を分析し、グラフ対逆ロバスト性を達成するために因果的特徴が重要であると結論づける。 これらの因果的特徴を学習するために,敵攻撃(IDEA)に対する不変因果解法を革新的に提案する。 我々は,情報理論の観点から,ノードと構造に基づく分散目標を導出する。 IDEAは、ラベルの強い予測可能性と攻撃間の不変性を保証する。 大規模な実験では、IDEAは5つのデータセットすべてに対する5つの攻撃に対して、最先端の防御性能を達成している。 IDEAの実装はhttps://anonymous.4open.science/r/IDEAで公開されている。

Despite the success of graph neural networks (GNNs), their vulnerability to adversarial attacks poses tremendous challenges for practical applications. Existing defense methods suffer from severe performance decline under unseen attacks, due to either limited observed adversarial examples or pre-defined heuristics. To address these limitations, we analyze the causalities in graph adversarial attacks and conclude that causal features are key to achieve graph adversarial robustness, owing to their determinedness for labels and invariance across attacks. To learn these causal features, we innovatively propose an Invariant causal DEfense method against adversarial Attacks (IDEA). We derive node-based and structure-based invariance objectives from an information-theoretic perspective. IDEA ensures strong predictability for labels and invariant predictability across attacks, which is provably a causally invariant defense across various attacks. Extensive experiments demonstrate that IDEA attains state-of-the-art defense performance under all five attacks on all five datasets. The implementation of IDEA is available at https://anonymous.4open.science/r/IDEA.
公開日:2024-04-25
翻訳日:2024-04-27 00:17:35
# LANISTR: 構造化データと非構造化データによるマルチモーダル学習

LANISTR: Multimodal Learning from Structured and Unstructured Data ( http://arxiv.org/abs/2305.16556v3 )

ライセンス: Link先を確認
Sayna Ebrahimi, Sercan O. Arik, Yihe Dong, Tomas Pfister, (参考訳) マルチモーダルな大規模事前学習は,言語や画像などの非構造化データに対して顕著な性能を示した。 しかし、一般的な実世界のシナリオは、構造化データ型、表型、時系列型、非構造化データである。 このようなシナリオは検討されている。 このギャップを埋めるために,LANguage, Image, STRucturedデータから学習する注目ベースのフレームワークLANISTRを提案する。 LANISTRの方法論のコアは、単調なレベルとマルチモーダルなレベルの両方に適用される‘textit{masking-based}トレーニングに根ざしている。 特に,新しい類似性に基づくマルチモーダルマスキングの損失を導入し,モダリティを欠いた大規模マルチモーダルデータからクロスモーダル関係を学習する。 MIMIC-IV(ヘルスケアから)とAmazon Product Review(小売から)の2つの実世界のデータセットにおいて、LANISTRは、最先端の代替品と比較して、それぞれ0.1\%と0.01\%のラベル付きデータで微調整された場合、6.6\%(AUROCで)と14\%(精度で)の顕著な改善を示している。 特に、これらの改善は、全てのモダリティを含まない非常に高い比(それぞれ35.7\%と99.8\%)のサンプルでも観察され、LANISTRの頑丈さを事実上欠落したモダリティの課題に基づけている。 私たちのコードとモデルはhttps://github.com/google-research/lanistrで公開されます。

Multimodal large-scale pretraining has shown impressive performance for unstructured data such as language and image. However, a prevalent real-world scenario involves structured data types, tabular and time-series, along with unstructured data. Such scenarios have been understudied. To bridge this gap, we propose LANISTR, an attention-based framework to learn from LANguage, Image, and STRuctured data. The core of LANISTR's methodology is rooted in \textit{masking-based} training applied across both unimodal and multimodal levels. In particular, we introduce a new similarity-based multimodal masking loss that enables it to learn cross-modal relations from large-scale multimodal data with missing modalities. On two real-world datasets, MIMIC-IV (from healthcare) and Amazon Product Review (from retail), LANISTR demonstrates remarkable improvements, 6.6\% (in AUROC) and 14\% (in accuracy) when fine-tuned with 0.1\% and 0.01\% of labeled data, respectively, compared to the state-of-the-art alternatives. Notably, these improvements are observed even with very high ratio of samples (35.7\% and 99.8\% respectively) not containing all modalities, underlining the robustness of LANISTR to practical missing modality challenge. Our code and models will be available at https://github.com/google-research/lanistr
公開日:2024-04-24
翻訳日:2024-04-27 00:17:35
# 多部グラフ表現によるスパースニューラルネットワークのトポロジからの理解

Understanding Sparse Neural Networks from their Topology via Multipartite Graph Representations ( http://arxiv.org/abs/2305.16886v2 )

ライセンス: Link先を確認
Elia Cunegatti, Matteo Farina, Doina Bucur, Giovanni Iacca, (参考訳) Pruning-at-Initialization (PaI)アルゴリズムは、SNN(Sparse Neural Networks)を提供する。 プルーンに 'emph{how} に重点を置いているが、SNN の \emph{what topological metrics} が \emph{good performance} を特徴づけていることはいまだ分かっていない。 これまでの作業から、SNNのパフォーマンスを予測できるレイヤワイドなトポロジメトリクス(Ramanujanベースのメトリクス)があります。 これらのメトリクスを利用するには、Graph Encodings(GE)を介してネットワーク層を表現する適切な方法が必要であり、BGE(Bipartite Graph Encodings)が現在のemph{de-facto}標準となっている。 それでも既存のBGEは入力の影響を無視し、SNNをエンドツーエンドで特徴づけない。 さらに、ラマヌジャンに基づくメトリクスの徹底的な研究により、BGEと組み合わせた場合、それらが性能予測器と同等に優れていることが判明した。 両方のギャップを埋めるため、線形層と畳み込み層の両方を持つSNNの総合的なトポロジ解析を設計する。 (i)SNNとMGEのための新しい入力対応マルチパートグラフ符号化(MGE) (II) MGE上の新しいエンドツーエンドのトポロジメトリクスの設計。 これらの斬新さから、以下のことが分かる。 (a)提案したMGEは、現在の入力に依存しないBGEから計算した指標よりも、精度低下の予測器としてはるかに優れたトポロジカルメトリクスを抽出することができる。 b) どの指標が、異なる疎度レベルと異なるアーキテクチャにおいて重要であるか。 (c)我々のトポロジカルメトリクスの混合は、ラマヌジャンのメトリクスよりもPaIアルゴリズムを効果的にランク付けすることができる。 コードベースはhttps://github.com/eliacunegatti/mge-snnで公開されている。

Pruning-at-Initialization (PaI) algorithms provide Sparse Neural Networks (SNNs) which are computationally more efficient than their dense counterparts, and try to avoid performance degradation. While much emphasis has been directed towards \emph{how} to prune, we still do not know \emph{what topological metrics} of the SNNs characterize \emph{good performance}. From prior work, we have layer-wise topological metrics by which SNN performance can be predicted: the Ramanujan-based metrics. To exploit these metrics, proper ways to represent network layers via Graph Encodings (GEs) are needed, with Bipartite Graph Encodings (BGEs) being the \emph{de-facto} standard at the current stage. Nevertheless, existing BGEs neglect the impact of the inputs, and do not characterize the SNN in an end-to-end manner. Additionally, thanks to a thorough study of the Ramanujan-based metrics, we discover that they are only as good as the \emph{layer-wise density} as performance predictors, when paired with BGEs. To close both gaps, we design a comprehensive topological analysis for SNNs with both linear and convolutional layers, via (i) a new input-aware Multipartite Graph Encoding (MGE) for SNNs and (ii) the design of new end-to-end topological metrics over the MGE. With these novelties, we show the following: (a) The proposed MGE allows to extract topological metrics that are much better predictors of the accuracy drop than metrics computed from current input-agnostic BGEs; (b) Which metrics are important at different sparsity levels and for different architectures; (c) A mixture of our topological metrics can rank PaI algorithms more effectively than Ramanujan-based metrics. The codebase is publicly available at https://github.com/eliacunegatti/mge-snn.
公開日:2024-04-25
翻訳日:2024-04-27 00:17:35
# 吐き気からのCOVID-19検出

COVID-19 Detection from Exhaled Breath ( http://arxiv.org/abs/2305.19211v2 )

ライセンス: Link先を確認
Nicolo Bellarmino, Giorgio Bozzini, Riccardo Cantoro, Francesco Castelletti, Michele Castelluzzo, Carla Ciricugno, Raffaele Correale, Daniela Dalla Gasperina, Francesco Dentali, Giovanni Poggialini, Piergiorgio Salerno, Giovanni Squillero, Stefano Taborelli, (参考訳) SARS-CoV-2(SARS-CoV-2)は2019年に発生し、新型コロナウイルスのパンデミックを引き起こし、今後4年間で7億7000万件の感染者のうち700万人が死亡した。 世界保健機関(WHO)は感染率の監視と削減に前例のない取り組みを呼び掛け、新たな診断方法の研究を推し進めた。 本稿では,吐き気のみを利用する,安価で高速で非侵襲的な検知システムを提案する。 具体的には、10〜351質量帯の質量スペクトルを、高精度分光計と組み合わせた元のナノサンプリング装置を用いて測定し、その後、原スペクトルをカスタムソフトウェアアルゴリズムで処理し、クリーンで拡張されたデータを最終的に最先端の機械学習アルゴリズムで分類する。 2021年から2022年の間、症状がみられたり、比較的最近病気から回復したために、感染を心配していた約300人の被験者に対して、コントロールされていない臨床試験が実施された。 簡便な使用にもかかわらず,従来のポリメラーゼ鎖反応と抗原検査に匹敵する性能を示した(精度0.95,リコール0.94,特異0.96,F1スコア0.92)。 これらの結果を踏まえて,本システムでは,より迅速で侵襲的でない方法で,最先端の手法に匹敵する結果が得られるため,今後の感染拡大に伴う定期的なスクリーニングや迅速な対応に多大な貢献が期待できると考えている。

The SARS-CoV-2 coronavirus emerged in 2019, causing a COVID-19 pandemic that resulted in 7 million deaths out of 770 million reported cases over the next four years. The global health emergency called for unprecedented efforts to monitor and reduce the rate of infection, pushing the study of new diagnostic methods. In this paper, we introduce a cheap, fast, and non-invasive detection system, which exploits only the exhaled breath. Specifically, provided an air sample, the mass spectra in the 10--351 mass-to-charge range are measured using an original nano-sampling device coupled with a high-precision spectrometer; then, the raw spectra are processed by custom software algorithms; the clean and augmented data are eventually classified using state-of-the-art machine-learning algorithms. An uncontrolled clinical trial was conducted between 2021 and 2022 on some 300 subjects who were concerned about being infected, either due to exhibiting symptoms or having quite recently recovered from illness. Despite the simplicity of use, our system showed a performance comparable to the traditional polymerase-chain-reaction and antigen testing in identifying cases of COVID-19 (that is, 0.95 accuracy, 0.94 recall, 0.96 specificity, and 0.92 F1-score). In light of these outcomes, we think that the proposed system holds the potential for substantial contributions to routine screenings and expedited responses during future epidemics, as it yields results comparable to state-of-the-art methods, providing them in a more rapid and less invasive manner.
公開日:2024-04-25
翻訳日:2024-04-27 00:17:35
# Brainformers: 効率性のためのシンプルさのトレーディング

Brainformers: Trading Simplicity for Efficiency ( http://arxiv.org/abs/2306.00008v2 )

ライセンス: Link先を確認
Yanqi Zhou, Nan Du, Yanping Huang, Daiyi Peng, Chang Lan, Da Huang, Siamak Shakeri, David So, Andrew Dai, Yifeng Lu, Zhifeng Chen, Quoc Le, Claire Cui, James Laudon, Jeff Dean, (参考訳) トランスフォーマーは、自然言語処理とコンピュータビジョンにおける最近の成功の中心である。 トランスフォーマーは、ディープネットワークを構築するために、フィードフォワードとセルフアテンションの間で層が交代する、ほぼ均一なバックボーンを持つ。 ここでは、この設計選択を調査し、異なる層プリミティブの置換を持つより複雑なブロックの方が、より効率的であることが見いだされる。 この知見を用いて,フィードフォワード層,高密度フィードフォワード層,アテンション層,各種層正規化およびアクティベーション関数などの多様な層からなる複雑なブロック,Brainformerを開発した。 Brainformerは、品質と効率の両面で、最先端の高密度でスパースなトランスフォーマーよりも一貫して優れています。 トークンあたり80億のアクティベートパラメータを持つBrainformerモデルは、GLaMと比べ、2倍のトレーニング収束と5倍のステップタイムを示す。 下流タスク評価では、Brainformerは、GLaMと同様の数のアクティベートパラメータを持つよりも、微調整で、3%高いSuperGLUEスコアを示す。 最後に、Brainformerは、スナップショット評価においてトークン毎の同様の計算でNASで導出されたプライマー密度モデルよりも大幅に優れています。

Transformers are central to recent successes in natural language processing and computer vision. Transformers have a mostly uniform backbone where layers alternate between feed-forward and self-attention in order to build a deep network. Here we investigate this design choice and find that more complex blocks that have different permutations of layer primitives can be more efficient. Using this insight, we develop a complex block, named Brainformer, that consists of a diverse sets of layers such as sparsely gated feed-forward layers, dense feed-forward layers, attention layers, and various forms of layer normalization and activation functions. Brainformer consistently outperforms the state-of-the-art dense and sparse Transformers, in terms of both quality and efficiency. A Brainformer model with 8 billion activated parameters per token demonstrates 2x faster training convergence and 5x faster step time compared to its GLaM counterpart. In downstream task evaluation, Brainformer also demonstrates a 3% higher SuperGLUE score with fine-tuning compared to GLaM with a similar number of activated parameters. Finally, Brainformer largely outperforms a Primer dense model derived with NAS with similar computation per token on fewshot evaluations.
公開日:2024-04-25
翻訳日:2024-04-27 00:17:35
# 統計的機械学習を用いた研究全体にわたる不均一処理効果推定のためのマルチスタディRラーナー

Multi-Study R-Learner for Estimating Heterogeneous Treatment Effects Across Studies Using Statistical Machine Learning ( http://arxiv.org/abs/2306.01086v3 )

ライセンス: Link先を確認
Cathy Shyr, Boyu Ren, Prasad Patil, Giovanni Parmigiani, (参考訳) ヘテロジニアス治療効果(HTEs)の推定は、精密医療に不可欠である。 複数の研究が結果の一般化性を改善することができるが、それらを推定に活用することは統計的に困難である。 既存のアプローチでは、研究全体で同じHTEを仮定することが多いが、これは、研究設計の違い、研究人口、データ収集プロトコルなど、研究間の異種性の様々な源泉によって、違反される可能性がある。 そこで本研究では,Nuisance関数と処理効果の相違を考慮したマルチスタディHTE推定のためのフレームワークを提案する。 我々のアプローチであるマルチスタディR-ラーナーは、R-ラーナーを拡張し、マルチスタディ環境における機械学習(ML)を用いた原理的統計的推定値を得る。 これは、研究固有の治療効果と、メンバーシップ確率を通してニュアンス関数をリンクするデータ適応的客観的関数を含んでおり、これにより、潜在的に異種な研究を通じて情報を借りることができる。 マルチスタディなRラーナーフレームワークは、ランダムに制御された試行錯誤、観察研究、あるいは両方の組み合わせからのデータを組み合わせることができる。 HTE、ニュアンス関数、メンバシップ確率を推定するためにMLを組み込むことは、実装が容易でフレキシブルです。 連続推定フレームワークでは、Rラーナーが相似性の下で確率的スコアモデルに相似不均一性が存在する場合、Rラーナーよりも漸近的に正規かつ効率的であることが示される。 提案手法は, 既存手法と比較して, 学際的不均一性が存在する場合と比較して, 有効であることを示す。

Estimating heterogeneous treatment effects (HTEs) is crucial for precision medicine. While multiple studies can improve the generalizability of results, leveraging them for estimation is statistically challenging. Existing approaches often assume identical HTEs across studies, but this may be violated due to various sources of between-study heterogeneity, including differences in study design, study populations, and data collection protocols, among others. To this end, we propose a framework for multi-study HTE estimation that accounts for between-study heterogeneity in the nuisance functions and treatment effects. Our approach, the multi-study R-learner, extends the R-learner to obtain principled statistical estimation with machine learning (ML) in the multi-study setting. It involves a data-adaptive objective function that links study-specific treatment effects with nuisance functions through membership probabilities, which enable information to be borrowed across potentially heterogeneous studies. The multi-study R-learner framework can combine data from randomized controlled trials, observational studies, or a combination of both. It's easy to implement and flexible in its ability to incorporate ML for estimating HTEs, nuisance functions, and membership probabilities. In the series estimation framework, we show that the multi-study R-learner is asymptotically normal and more efficient than the R-learner when there is between-study heterogeneity in the propensity score model under homoscedasticity. We illustrate using cancer data that the proposed method performs favorably compared to existing approaches in the presence of between-study heterogeneity.
公開日:2024-04-24
翻訳日:2024-04-27 00:17:35
# インジェクティブフローのリフティング構造制約

Lifting Architectural Constraints of Injective Flows ( http://arxiv.org/abs/2306.01843v4 )

ライセンス: Link先を確認
Peter Sorrenson, Felix Draxler, Armand Rousselot, Sander Hummerich, Lea Zimmermann, Ullrich Köthe, (参考訳) 正規化フローはトレーニングデータに対して全次元の確率を明示的に最大化する。 しかし、実際のデータは一般に低次元多様体上でのみサポートされ、モデルがモデリングノイズに大きな計算を出力する。 単射フローは、多様体とその上の分布を共同で学習することでこれを解決する。 これまでのところ、制限的なアーキテクチャや高い計算コストによって制限されている。 我々は、自由形式のボトルネックアーキテクチャと互換性のある最大可能性損失を推定する新しい効率的な推定器により、両方の制約を引き上げる。 さらに、データ多様体とそれ上の分布の両方を鼻で学習することで、分岐解がもたらされることを示し、この知見を用いて、安定した最大可能性トレーニング目標を動機付ける。 我々は,玩具,表,画像データについて広範な実験を行い,その結果の競争性能を実証した。

Normalizing Flows explicitly maximize a full-dimensional likelihood on the training data. However, real data is typically only supported on a lower-dimensional manifold leading the model to expend significant compute on modeling noise. Injective Flows fix this by jointly learning a manifold and the distribution on it. So far, they have been limited by restrictive architectures and/or high computational cost. We lift both constraints by a new efficient estimator for the maximum likelihood loss, compatible with free-form bottleneck architectures. We further show that naively learning both the data manifold and the distribution on it can lead to divergent solutions, and use this insight to motivate a stable maximum likelihood training objective. We perform extensive experiments on toy, tabular and image data, demonstrating the competitive performance of the resulting model.
公開日:2024-04-24
翻訳日:2024-04-27 00:17:35
# WOUAF:テキスト・画像拡散モデルにおけるユーザ属性とフィンガープリントの軽量化

WOUAF: Weight Modulation for User Attribution and Fingerprinting in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2306.04744v3 )

ライセンス: Link先を確認
Changhoon Kim, Kyle Min, Maitreya Patel, Sheng Cheng, Yezhou Yang, (参考訳) 生成モデルの急速な進歩は、テキスト記述から超現実的画像の作成を容易にし、誤情報のような社会的な重要な懸念を同時にエスカレートさせてきた。 いくつかの軽減策を提供しているが、従来の指紋認証機構は、悪意ある合成画像の使用に対する責任を負うには不十分である。 本稿では,生成画像に対する責任を負うモデルフィンガープリントの新たなアプローチを提案する。 提案手法は,ユーザ固有のデジタル指紋に基づいて生成モデルを修正し,ユーザへ遡ることができるコンテンツにユニークな識別子を印字する。 安定拡散モデルを用いたテキスト・トゥ・イメージ(T2I)タスクに微調整を取り入れたこのアプローチは、出力品質に最小限の影響を伴って、ほぼ完全な帰属精度を示す。 本手法は,画像後処理の処理効率を平均11倍に向上させ,ベースライン法よりも優れていることを示す。 提案手法は,説明責任のあるモデル分布と責任ある利用のための,有望で斬新な道を示す。 私たちのコードは \url{https://github.com/kylemin/WOUAF} で利用可能です。

The rapid advancement of generative models, facilitating the creation of hyper-realistic images from textual descriptions, has concurrently escalated critical societal concerns such as misinformation. Although providing some mitigation, traditional fingerprinting mechanisms fall short in attributing responsibility for the malicious use of synthetic images. This paper introduces a novel approach to model fingerprinting that assigns responsibility for the generated images, thereby serving as a potential countermeasure to model misuse. Our method modifies generative models based on each user's unique digital fingerprint, imprinting a unique identifier onto the resultant content that can be traced back to the user. This approach, incorporating fine-tuning into Text-to-Image (T2I) tasks using the Stable Diffusion Model, demonstrates near-perfect attribution accuracy with a minimal impact on output quality. Through extensive evaluation, we show that our method outperforms baseline methods with an average improvement of 11\% in handling image post-processes. Our method presents a promising and novel avenue for accountable model distribution and responsible use. Our code is available in \url{https://github.com/kylemin/WOUAF}.
公開日:2024-04-24
翻訳日:2024-04-27 00:07:23
# デコヒーレンス自由部分空間におけるカー効果に基づく量子論理ゲート

Kerr-effect-based quantum logical gates in decoherence-free subspace ( http://arxiv.org/abs/2306.05625v2 )

ライセンス: Link先を確認
Fang-Fang Du, Gang Fan, Xue-Mei Ren, (参考訳) システムと環境のカップリングによるデコヒーレンス効果は、量子情報処理における2つの(または3つの)量子ビット論理ゲートの効率的な実装におけるエラーにつながる。 幸いなことに、decoherence-free subspace (DFS) が導入されたことにより、decoherence効果の影響を効果的に低減することができる。 本稿では,DFSにおけるクロスカー非線形性を用いて,2つないし3つの論理量子ビットに対して,制御NOT(CNOT),トフォリ,フレドキンゲートなどの量子制御ゲートの族を設定する手法を提案する。 これら3つの論理ゲートは複雑な量子計算回路も補助光子(あるいは絡み合った状態)も必要としない。 3つの論理ゲートの成功確率は、X-ホモジン検出器の異なる測定結果に基づいて、対応する古典的フィードフォワード演算を行うことで近似1であり、その忠実度は、現在の技術による光子損失に対して堅牢である。 提案する論理ゲートは, 単純な線形光学素子, 利用可能な単一量子ビット演算, 成熟度測定方法のみに依存しており, 実用上, 有効である。

The decoherence effect caused by the coupling between the system and the environment undoubtedly leads to the errors in efficient implementations of two (or three) qubit logical gates in quantum information processing. Fortunately, decoherence-free subspace (DFS) introduced can effectively decrease the influence of decoherence effect. In this paper, we propose some schemes for setting up a family of quantum control gates, including controlled-NOT (CNOT), Toffoli, and Fredkin gates for two or three logical qubits by means of cross-Kerr nonlinearities in DFS. These three logical gates require neither complicated quantum computational circuits nor auxiliary photons (or entangled states). The success probabilities of three logical gates are approximate 1 by performing the corresponding classical feed-forward operations based on the different measuring results of the X-homodyne detectors, and their fidelities are robust against the photon loss with the current technology. The proposed logical gates rely on only simple linear-optics elements, available single-qubit operations, and mature measurement methods, making our proposed gates be feasible and efficient in practical applications.
公開日:2024-04-24
翻訳日:2024-04-27 00:07:23
# モーダル内およびランク付け型クロスモーダルハードネガティクスとの対比によるビシオ・言語学的構成理解の促進

Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding ( http://arxiv.org/abs/2306.08832v4 )

ライセンス: Link先を確認
Le Zhang, Rabiul Awal, Aishwarya Agrawal, (参考訳) 視覚言語モデル(VLM)は、CLIPのような強力な画像テキスト理解能力を示し、ゼロショット画像分類、画像テキスト検索、テキスト・ツー・イメージ生成などの下流タスクの進歩を促進する。 しかし、既存のVLMの組成推論能力は依然として低いままである。 この制限の根源は、事前訓練データセットのイメージとキャプション間の不適切なアライメントにある。 さらに、現在の対照的な学習目的は、関係、行動、属性のようなきめ細かい基礎的なコンポーネントに焦点を合わせず、結果として"言葉のバグ"表現をもたらす。 本稿では,VLMの合成推論を改善するためのシンプルで効果的な手法を提案する。 本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。 私たちのアプローチでは特定のアノテーションは必要とせず、余分なパラメータを発生させません。 CLIPと統合すると、5つの視覚言語構成ベンチマークで最先端のベースラインよりも顕著な改善が得られます。 ソースコードはhttps://github.com/lezhang7/Enhance-FineGrained.comで公開しています。

Vision-Language Models (VLMs), such as CLIP, exhibit strong image-text comprehension abilities, facilitating advances in several downstream tasks such as zero-shot image classification, image-text retrieval, and text-to-image generation. However, the compositional reasoning abilities of existing VLMs remains subpar. The root of this limitation lies in the inadequate alignment between the images and captions in the pretraining datasets. Additionally, the current contrastive learning objective fails to focus on fine-grained grounding components like relations, actions, and attributes, resulting in "bag-of-words" representations. We introduce a simple and effective method to improve compositional reasoning in VLMs. Our method better leverages available datasets by refining and expanding the standard image-text contrastive learning framework. Our approach does not require specific annotations and does not incur extra parameters. When integrated with CLIP, our technique yields notable improvement over state-of-the-art baselines across five vision-language compositional benchmarks. We open-source our code at https://github.com/lezhang7/Enhance-FineGrained.
公開日:2024-04-25
翻訳日:2024-04-27 00:07:23
# 線形モデルにおけるDropout Regularization Versus $\ell_2$-Penalization

Dropout Regularization Versus $\ell_2$-Penalization in the Linear Model ( http://arxiv.org/abs/2306.10529v2 )

ライセンス: Link先を確認
Gabriel Clara, Sophie Langer, Johannes Schmidt-Hieber, (参考訳) 線形回帰モデルにおける降下を伴う勾配降下の統計的挙動について検討する。 特に、期待と共分散行列の収束に対する非漸近境界が導出される。 その結果、線形モデルにおけるドロップアウトとl2-正則化の間の広く引用される関係についてより光を当てた。 我々は、勾配勾配勾配のダイナミクスと、ドロップアウトによって引き起こされる追加のランダム性の間の相互作用により、より微妙な関係を示す。 さらに、正規化効果を持たず最小二乗推定器に収束する簡易なドロップアウト変種について検討する。

We investigate the statistical behavior of gradient descent iterates with dropout in the linear regression model. In particular, non-asymptotic bounds for the convergence of expectations and covariance matrices of the iterates are derived. The results shed more light on the widely cited connection between dropout and l2-regularization in the linear model. We indicate a more subtle relationship, owing to interactions between the gradient descent dynamics and the additional randomness induced by dropout. Further, we study a simplified variant of dropout which does not have a regularizing effect and converges to the least squares estimator
公開日:2024-04-25
翻訳日:2024-04-27 00:07:23
# Adjusted PageRank Centrality を用いたサイバーキー地形識別

Cyber Key Terrain Identification Using Adjusted PageRank Centrality ( http://arxiv.org/abs/2306.11018v2 )

ライセンス: Link先を確認
Lukáš Sadlek, Pavel Čeleda, (参考訳) サイバー地形には、デバイス、ネットワークサービス、サイバーペルソナ、その他ネットワーク操作に関わるネットワークエンティティが含まれる。 キーネットワークエンティティをネットワーク操作に自動的に識別する手法の設計は困難である。 しかし、サイバー防衛が重視すべきサイバー資産を決定するためには、このような方法が不可欠である。 本稿では,PageRankの集中度計算を機械学習によって調整した手法を用いて,サイバー鍵地形に属するIPアドレスをネットワーク位置に応じて分類する手法を提案する。 我々は、IPフローでキャプチャされたソースポートと宛先ポートに基づいて、PageRankの減衰要因を識別するために、登山アルゴリズムとランダムウォークアルゴリズムを使用した。 静的データサンプルのワンタイム学習フェーズでは、完全なネットワークグラフを維持することなく、IPフローデータからキーホストをほぼリアルタイムに分類することができる。 我々は,サイバー防御演習とキャンパスネットワークのデータから,データセットに対するアプローチを評価した。 その結果, 中央値の調整計算によるサイバー鍵地形の同定は, 元のバージョンよりも精度が高いことがわかった。

The cyber terrain contains devices, network services, cyber personas, and other network entities involved in network operations. Designing a method that automatically identifies key network entities to network operations is challenging. However, such a method is essential for determining which cyber assets should the cyber defense focus on. In this paper, we propose an approach for the classification of IP addresses belonging to cyber key terrain according to their network position using the PageRank centrality computation adjusted by machine learning. We used hill climbing and random walk algorithms to distinguish PageRank's damping factors based on source and destination ports captured in IP flows. The one-time learning phase on a static data sample allows near-real-time stream-based classification of key hosts from IP flow data in operational conditions without maintaining a complete network graph. We evaluated the approach on a dataset from a cyber defense exercise and on data from the campus network. The results show that cyber key terrain identification using the adjusted computation of centrality is more precise than its original version.
公開日:2024-04-24
翻訳日:2024-04-27 00:07:23
# 深層強化学習の構造と課題

Structure in Deep Reinforcement Learning: A Survey and Open Problems ( http://arxiv.org/abs/2306.16021v3 )

ライセンス: Link先を確認
Aditya Mohan, Amy Zhang, Marius Lindauer, (参考訳) 関数近似のためのディープニューラルネットワーク(DNN)の表現能力に支えられた強化学習(RL)は、多くのアプリケーションでかなりの成功を収めている。 しかし、様々な現実のシナリオに対処する実践性は、多様で予測不可能なダイナミクス、ノイズ信号、そして大きな状態と行動空間によって特徴づけられる。 この制限は、データ効率の低下、一般化能力の制限、安全性保証の欠如、解釈可能性の欠如などに起因する。 これらの課題を克服し、これらの重要な指標にまたがるパフォーマンスを改善するために、問題に関する構造的な情報をRL学習プロセスに組み込むことが有望な方法である。 RLの様々なサブフィールドは、そのような誘導バイアスを組み込む方法を提案している。 我々は、これらの多様な方法論を統一的な枠組みの下で融合させ、学習問題における構造の役割に光を当て、これらの手法を構造を取り入れた異なるパターンに分類する。 この包括的フレームワークを活用することで、構造化されたRLの課題に関する貴重な洞察を提供し、RL研究におけるデザインパターンの視点の基礎となる。 この新たな視点は、現実世界のシナリオをよりうまく処理できる、より効率的で効率的なRLアルゴリズムを開発するための、将来の進歩と支援の道を開く。

Reinforcement Learning (RL), bolstered by the expressive capabilities of Deep Neural Networks (DNNs) for function approximation, has demonstrated considerable success in numerous applications. However, its practicality in addressing various real-world scenarios, characterized by diverse and unpredictable dynamics, noisy signals, and large state and action spaces, remains limited. This limitation stems from poor data efficiency, limited generalization capabilities, a lack of safety guarantees, and the absence of interpretability, among other factors. To overcome these challenges and improve performance across these crucial metrics, one promising avenue is to incorporate additional structural information about the problem into the RL learning process. Various sub-fields of RL have proposed methods for incorporating such inductive biases. We amalgamate these diverse methodologies under a unified framework, shedding light on the role of structure in the learning problem, and classify these methods into distinct patterns of incorporating structure. By leveraging this comprehensive framework, we provide valuable insights into the challenges of structured RL and lay the groundwork for a design pattern perspective on RL research. This novel perspective paves the way for future advancements and aids in developing more effective and efficient RL algorithms that can potentially handle real-world scenarios better.
公開日:2024-04-25
翻訳日:2024-04-27 00:07:23
# インスタンス識別手法の視覚表現学習を支援する意味陽性ペア

Semantic Positive Pairs for Enhancing Visual Representation Learning of Instance Discrimination methods ( http://arxiv.org/abs/2306.16122v2 )

ライセンス: Link先を確認
Mohammad Alkhalefi, Georgios Leontidis, Mingjun Zhong, (参考訳) インスタンス識別に基づく自己教師付き学習アルゴリズム(SSL)は、いくつかの下流タスクにおいて、競争力のある結果を示し、教師付き学習アルゴリズムよりも優れています。 このようなアプローチでは、データ拡張を用いて、同じインスタンスの2つのビュー(すなわち、正のペア)を作成し、自明な解に崩壊することなく、埋め込み空間にこれらのビューを引き付けることによって、モデルが良い表現を学ぶように促す。 しかし、データ拡張は正のペアを表す場合に限られており、対照的な学習におけるインスタンス間の反発プロセスは、類似のカテゴリを持つインスタンスにとって重要な特徴を捨てる可能性がある。 そこで本研究では,類似したセマンティックな内容のイメージを識別し,ポジティブな例として扱うアプローチを提案し,表現学習において重要な特徴を破棄する可能性を減らすとともに,潜在表現の豊かさを高める。 私たちのアプローチは汎用的であり、MoCoやSimSiamのような自己管理型のインスタンス識別フレームワークでも機能します。 提案手法を評価するために,ImageNet, STL-10, CIFAR-10の3つのベンチマークデータセットを用いて,異なるインスタンス識別SSLアプローチを用いて実験を行った。 実験の結果, 800エポック以上の線形評価プロトコル下では, バニラMoCo-v2を4.1%改善した。 また、半教師付き学習、下流タスクにおける伝達学習、オブジェクト検出の結果についても報告する。

Self-supervised learning algorithms (SSL) based on instance discrimination have shown promising results, performing competitively or even outperforming supervised learning counterparts in some downstream tasks. Such approaches employ data augmentation to create two views of the same instance (i.e., positive pairs) and encourage the model to learn good representations by attracting these views closer in the embedding space without collapsing to the trivial solution. However, data augmentation is limited in representing positive pairs, and the repulsion process between the instances during contrastive learning may discard important features for instances that have similar categories. To address this issue, we propose an approach to identify those images with similar semantic content and treat them as positive instances, thereby reducing the chance of discarding important features during representation learning and increasing the richness of the latent representation. Our approach is generic and could work with any self-supervised instance discrimination frameworks such as MoCo and SimSiam. To evaluate our method, we run experiments on three benchmark datasets: ImageNet, STL-10 and CIFAR-10 with different instance discrimination SSL approaches. The experimental results show that our approach consistently outperforms the baseline methods across all three datasets; for instance, we improve upon the vanilla MoCo-v2 by 4.1% on ImageNet under a linear evaluation protocol over 800 epochs. We also report results on semi-supervised learning, transfer learning on downstream tasks, and object detection.
公開日:2024-04-25
翻訳日:2024-04-27 00:07:23
# ニューラルネットワークの階層構造

A Hierarchical Architecture for Neural Materials ( http://arxiv.org/abs/2307.10135v3 )

ライセンス: Link先を確認
Bowen Xue, Shuang Zhao, Henrik Wann Jensen, Zahra Montazeri, (参考訳) ニューラルリフレクタンスモデルは、多くの現実世界の物質を異なるスケールで空間的に変化する外観を再現することができる。 残念なことに、NeuMIPのような既存の技術は、強いシャドーイング効果や詳細なスペックハイライトを持つ材料を扱うのに苦労している。 本稿では,新しいレベルの精度を提供するニューラルな外観モデルを提案する。 私たちのモデルの中心は、並列動作カーネルを用いて複数のスケールで素材の外観をキャプチャし、特殊な畳み込み層を通じて多段階の機能を保証する、インセプションベースのコアネットワーク構造である。 さらに、入力を周波数空間に符号化し、勾配に基づく損失を導入し、学習フェーズの進行に適応させる。 提案手法の有効性を, 各種合成例と実例を用いて実証する。

Neural reflectance models are capable of reproducing the spatially-varying appearance of many real-world materials at different scales. Unfortunately, existing techniques such as NeuMIP have difficulties handling materials with strong shadowing effects or detailed specular highlights. In this paper, we introduce a neural appearance model that offers a new level of accuracy. Central to our model is an inception-based core network structure that captures material appearances at multiple scales using parallel-operating kernels and ensures multi-stage features through specialized convolution layers. Furthermore, we encode the inputs into frequency space, introduce a gradient-based loss, and employ it adaptive to the progress of the learning phase. We demonstrate the effectiveness of our method using a variety of synthetic and real examples.
公開日:2024-04-24
翻訳日:2024-04-27 00:07:23
# 時間的結合摂動を考慮したゲーム理論ロバスト強化学習

Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations ( http://arxiv.org/abs/2307.12062v3 )

ライセンス: Link先を確認
Yongyuan Liang, Yanchao Sun, Ruijie Zheng, Xiangyu Liu, Benjamin Eysenbach, Tuomas Sandholm, Furong Huang, Stephen McAleer, (参考訳) 強化学習システム(RL)の展開には、不確実性に対する堅牢性や、不特定性をモデル化する必要があるが、従来のロバストなRL手法は通常、時間にわたって独立して導入されるノイズについてのみ研究する。 しかし、実際的な不確実性の源は、通常は時間をかけて結合される。 我々は時間的に結合した摂動を正式に導入し、既存のロバストなRL法に挑戦する。 この課題に対処するために、時間的に結合されたロバストなRL問題を部分的に観察可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。 このゲーム内で近似平衡を求めることにより、GRADは時間的に結合した摂動に対する一般的な堅牢性を最適化する。 連続制御タスクの実験では、従来の手法と比較して、時間的に結合した摂動と非結合的な摂動の両方において、異なる攻撃領域に対する様々な種類の攻撃に対して高い堅牢性を達成することが示されている。

Deploying reinforcement learning (RL) systems requires robustness to uncertainty and model misspecification, yet prior robust RL methods typically only study noise introduced independently across time. However, practical sources of uncertainty are usually coupled across time. We formally introduce temporally-coupled perturbations, presenting a novel challenge for existing robust RL methods. To tackle this challenge, we propose GRAD, a novel game-theoretic approach that treats the temporally-coupled robust RL problem as a partially observable two-player zero-sum game. By finding an approximate equilibrium within this game, GRAD optimizes for general robustness against temporally-coupled perturbations. Experiments on continuous control tasks demonstrate that, compared with prior methods, our approach achieves a higher degree of robustness to various types of attacks on different attack domains, both in settings with temporally-coupled perturbations and decoupled perturbations.
公開日:2024-04-25
翻訳日:2024-04-27 00:07:23
# TransFusion: 変圧器を用いた拡散モデルを用いた長距離高忠実時系列生成

TransFusion: Generating Long, High Fidelity Time Series using Diffusion Models with Transformers ( http://arxiv.org/abs/2307.12667v2 )

ライセンス: Link先を確認
Md Fahim Sikder, Resmi Ramachandranpillai, Fredrik Heintz, (参考訳) 高品質で時系列の時系列データの生成は、その幅広い応用のために不可欠である。 過去には、時系列データを合成するためにスタンドアロンのRecurrent and Convolutional Neural Network-based Generative Adversarial Networks (GAN) が用いられていた。 しかし、アーキテクチャの制約のため、時系列データの長いシーケンスを生成するには不十分である。 さらに、GANはトレーニングの不安定性とモード崩壊の問題でよく知られている。 そこで本稿では,トランスフュージョン(TransFusion)とトランスフュージョン(TransFusion)をモデルとして,高品質な時系列時系列データを生成する。 配列長を384に拡張し,高品質な合成データを生成した。 また,合成データの品質と予測特性を評価するための2つの評価指標を提案する。 我々はTransFusionを様々な視覚的・経験的な指標で評価し、TransFusionは従来の最先端技術よりも大幅に優れています。

The generation of high-quality, long-sequenced time-series data is essential due to its wide range of applications. In the past, standalone Recurrent and Convolutional Neural Network-based Generative Adversarial Networks (GAN) were used to synthesize time-series data. However, they are inadequate for generating long sequences of time-series data due to limitations in the architecture. Furthermore, GANs are well known for their training instability and mode collapse problem. To address this, we propose TransFusion, a diffusion, and transformers-based generative model to generate high-quality long-sequence time-series data. We have stretched the sequence length to 384, and generated high-quality synthetic data. Also, we introduce two evaluation metrics to evaluate the quality of the synthetic data as well as its predictive characteristics. We evaluate TransFusion with a wide variety of visual and empirical metrics, and TransFusion outperforms the previous state-of-the-art by a significant margin.
公開日:2024-04-24
翻訳日:2024-04-27 00:07:23
# 大規模データ駆動フルウェーブフォームインバージョンに関する実証的研究

An Empirical Study of Large-Scale Data-Driven Full Waveform Inversion ( http://arxiv.org/abs/2307.15388v2 )

ライセンス: Link先を確認
Peng Jin, Yinan Feng, Shihang Feng, Hanchen Wang, Yinpeng Chen, Benjamin Consolvo, Zicheng Liu, Youzuo Lin, (参考訳) 本稿では,ビッグデータがディープラーニングモデルに与える影響について検討し,FWI(Full Waveform Inversion)問題の解法を提案する。 ビッグデータが多くのタスクにおいてディープラーニングモデルの性能を向上させることはよく知られているが、その有効性はFWIでは検証されていない。 このギャップに対処するために、最近出版された大規模で多構造的な合成データセットの集合であるOpenFWIで訓練されたFWIのディープラーニングモデルがどのように振る舞うかを実証研究する。 特に,470万組の地震データと速度マップを含むOpenFWIの10個の2次元サブセットを用いてFWIモデルを訓練し,評価する。 実験の結果,MSEでは平均13.03%,MSEでは7.19%,SSIMでは1.87%,残余一般化テストでは平均28.60%,21.55%,8.22%の改善が得られた。 さらに、モデルキャパシティは最適な改善のためにデータサイズに応じてスケールする必要があることを示し、最も大きなモデルでは、最小モデルに比べて20.06%、13.39%、0.72%の平均的な改善が得られます。

This paper investigates the impact of big data on deep learning models to help solve the full waveform inversion (FWI) problem. While it is well known that big data can boost the performance of deep learning models in many tasks, its effectiveness has not been validated for FWI. To address this gap, we present an empirical study that investigates how deep learning models in FWI behave when trained on OpenFWI, a collection of large-scale, multi-structural, synthetic datasets published recently. In particular, we train and evaluate the FWI models on a combination of 10 2D subsets in OpenFWI that contain 470K pairs of seismic data and velocity maps in total. Our experiments demonstrate that training on the combined dataset yields an average improvement of 13.03% in MAE, 7.19% in MSE and 1.87% in SSIM compared to each split dataset, and an average improvement of 28.60%, 21.55% and 8.22% in the leave-one-out generalization test. We further demonstrate that model capacity needs to scale in accordance with data size for optimal improvement, where our largest model yields an average improvement of 20.06%, 13.39% and 0.72% compared to the smallest one.
公開日:2024-04-24
翻訳日:2024-04-27 00:07:23
# 初期スクリーニング順序問題

The Initial Screening Order Problem ( http://arxiv.org/abs/2307.15398v3 )

ライセンス: Link先を確認
Jose M. Alvarez, Antonio Mastropietro, Salvatore Ruggieri, (参考訳) 本研究は,従業員採用や大学入学など,候補検診プロセスにおける初期検診命令(ISO)の役割について検討する。 ISOは、スクリーニング者が候補プールを評価する順序を指す。 文学では、選択されたセットの最適性と公正性、特にヒトスクリーニングの下での潜在的影響にもかかわらず、ほとんど見過ごされている。 問題の定式化は、$k$、$k$、$k$、$k$という2つを定義します。 ISOの影響を調べるため、人間のようなスクリーニングを導入し、アルゴリズムと比較する。 人型スクリーニング装置は、疲労により時間の経過とともに不整合であると考えられる。 分析の結果、ISOは、特に人間のようなスクリーニングの下では、ミーティンググループレベルの公正さにもかかわらず、個人の公正さを妨げていることがわかった。 これは、候補の評価がISO内の位置によって影響を受ける位置バイアスによるものである。 我々は,アルゴリズムと人型スクリーニングの両方において,ベスト$k$とグッド$k$の問題定式化のパラメータを探索する広範囲なシミュレーション実験を報告する。 この研究は、ヨーロッパの大企業と共同で研究されている実世界の候補者スクリーニング問題によって動機付けられている。

We investigate the role of the initial screening order (ISO) in candidate screening processes, such as employee hiring and academic admissions. The ISO refers to the order in which the screener evaluates the candidate pool. It has been largely overlooked in the literature, despite its potential impact on the optimality and fairness of the chosen set, especially under a human screener. We define two problem formulations: the best-$k$, where the screener selects the $k$ best candidates, and the good-$k$, where the screener selects the $k$ first good-enough candidates. To study the impact of the ISO, we introduce a human-like screener and compare it to its algorithmic counterpart. The human-like screener is conceived to be inconsistent over time due to fatigue. Our analysis shows that the ISO, in particular, under a human-like screener hinders individual fairness despite meeting group level fairness. This is due to the position bias, where a candidate's evaluation is affected by its position within the ISO. We report extensive simulated experiments exploring the parameters of the best-$k$ and good-$k$ problem formulations both for the algorithmic and human-like screeners. This work is motivated by a real world candidate screening problem studied in collaboration with a large European company.
公開日:2024-04-24
翻訳日:2024-04-27 00:07:23
# スワップ演算子の代数構造による量子マックスカットの緩和と厳密解

Relaxations and Exact Solutions to Quantum Max Cut via the Algebraic Structure of Swap Operators ( http://arxiv.org/abs/2307.15661v3 )

ライセンス: Link先を確認
Adam Bene Watts, Anirban Chowdhury, Aidan Epperly, J. William Helton, Igor Klep, (参考訳) 量子マックスカット(QMC)問題は、局所ハミルトン問題に対する近似アルゴリズムを設計するためのテスト確率として登場した。 本稿では、QMCの代数構造、特に量子マックスカットハミルトニアンと対称群の表現理論の関係を用いてこの問題に対処する。 この論文の最初の大きな貢献は、量子マックスカットに緩和の新たな階層を与えるために非可換な正方形最適化手法(ncSoS)の拡張である。 現在の階層は、キュービットスワップ作用素の多項式に対する最適化に基づいている。 これは、パウリ行列の項で表される多項式に基づく「標準的な」量子ラッサール階層とは対照的である。 この階層の正しさを証明するために、キュービットスワップ作用素によって生成される代数の有限表現を利用する。 このプレゼンテーションでは、スワップ演算子の言葉で書かれた多項式を操作・単純化するためのコンピュータ代数的技法が利用可能であり、独立した興味を持つかもしれない。 驚くべきことに、この新しい階層のレベル2は、少なくとも8頂点のグラフ上の一様辺重みを持つ全てのQMCインスタンス上で、数値的に正確である(耐性10^(-7)まで)。 この論文の2つ目の大きな貢献は、あるグラフに対してQMCハミルトンの最大固有値を計算する多項式時間アルゴリズムである。 後者の特別なケースは、一様辺重みを持つ完備二部グラフであり、リーブとマティスの業績から正確な解が知られている。 この手法は対称群の表現論を用いており、リーブ・マティス結果の一般化と見なすことができる。

The Quantum Max Cut (QMC) problem has emerged as a test-problem for designing approximation algorithms for local Hamiltonian problems. In this paper we attack this problem using the algebraic structure of QMC, in particular the relationship between the quantum max cut Hamiltonian and the representation theory of the symmetric group. The first major contribution of this paper is an extension of non-commutative Sum of Squares (ncSoS) optimization techniques to give a new hierarchy of relaxations to Quantum Max Cut. The hierarchy we present is based on optimizations over polynomials in the qubit swap operators. This is in contrast to the "standard" quantum Lasserre Hierarchy, which is based on polynomials expressed in terms of the Pauli matrices. To prove correctness of this hierarchy, we exploit a finite presentation of the algebra generated by the qubit swap operators. This presentation allows for the use of computer algebraic techniques to manipulate and simplify polynomials written in terms of the swap operators, and may be of independent interest. Surprisingly, we find that level-2 of this new hierarchy is numerically exact (up to tolerance 10^(-7)) on all QMC instances with uniform edge weights on graphs with at most 8 vertices. The second major contribution of this paper is a polynomial-time algorithm that computes (in exact arithmetic) the maximum eigenvalue of the QMC Hamiltonian for certain graphs, including graphs that can be "decomposed" as a signed combination of cliques. A special case of the latter are complete bipartite graphs with uniform edge-weights, for which exact solutions are known from the work of Lieb and Mattis. Our methods, which use representation theory of the symmetric group, can be seen as a generalization of the Lieb-Mattis result.
公開日:2024-04-24
翻訳日:2024-04-27 00:07:23
# ネットワーク型マルチエージェントマルコフ決定過程に対する連続時間分散動的計画法

Continuous-Time Distributed Dynamic Programming for Networked Multi-Agent Markov Decision Processes ( http://arxiv.org/abs/2307.16706v6 )

ライセンス: Link先を確認
Donghwan Lee, Han-Dong Lim, Do Wan Kim, (参考訳) 本稿では,ネットワーク型マルチエージェントマルコフ決定問題(MAMDP)に対する連続時間分散動的プログラミング(DP)アルゴリズムについて検討する。 本研究では,個々のエージェントが自身の報酬のみにアクセスできる分散マルチエージェントフレームワークを採用し,他のエージェントの報酬に対する洞察を欠いている。 さらに、各エージェントは、グラフで表される通信ネットワークを介して、そのパラメータを隣接するエージェントと共有することができる。 まず,Wang と Elia の分散最適化手法に着想を得た分散DPを提案する。 次に、デカップリングプロセスを通じて、新しい分散DPを導入する。 DPアルゴリズムの収束はシステムと制御の観点から証明される。 本稿では,分散時間差学習アルゴリズムについて述べる。

The main goal of this paper is to investigate continuous-time distributed dynamic programming (DP) algorithms for networked multi-agent Markov decision problems (MAMDPs). In our study, we adopt a distributed multi-agent framework where individual agents have access only to their own rewards, lacking insights into the rewards of other agents. Moreover, each agent has the ability to share its parameters with neighboring agents through a communication network, represented by a graph. We first introduce a novel distributed DP, inspired by the distributed optimization method of Wang and Elia. Next, a new distributed DP is introduced through a decoupling process. The convergence of the DP algorithms is proved through systems and control perspectives. The study in this paper sets the stage for new distributed temporal different learning algorithms.
公開日:2024-04-24
翻訳日:2024-04-27 00:07:23
# DoDo学習: パブリックな図形をターゲットとした乱用検出のための言語モデルにおけるDomain-Demographic Transfer

DoDo Learning: DOmain-DemOgraphic Transfer in Language Models for Detecting Abuse Targeted at Public Figures ( http://arxiv.org/abs/2307.16811v3 )

ライセンス: Link先を確認
Angus R. Williams, Hannah Rose Kirk, Liam Burke, Yi-Ling Chung, Ivan Debono, Pica Johansson, Francesca Stevens, Jonathan Bright, Scott A. Hale, (参考訳) 市民はソーシャルメディア上で乱暴な乱用を受け、公共生活への積極的な参加に影響を及ぼす。 自動化されたシステムは大規模な不正行為を特定することができるが、トレーニングデータのラベル付けは高価で複雑で、潜在的に有害である。 したがって、システムは効率的で汎用的であり、オンライン虐待の共有と特定の側面の両方を扱うことが望ましい。 我々は、あるドメインや人口統計学で訓練された分類器が、より一般化可能な乱用分類器を構築するために、いかにして他のドメインに移行できるかを理解するために、クロスグループテキスト分類のダイナミクスを探求する。 28,000のラベル付きエントリを含む新しいDODOデータセットを使用して、DOmains(スポーツと政治)とDemOgraphics(女性と男性)のパブリックな人物を対象にしたつぶやきを分類する言語モデルを微調整する。 私たちはそれを見つける。 一 少量の多様なデータは、一般化及びモデル適応に非常に有益である。 (ii) モデルは人口統計学的に容易に伝達できるが、ドメイン間データに基づいて訓練されたモデルはより一般化できる。 三 一般性に寄与する団体、及び (iv)データセットの類似性は転送可能性の信号である。

Public figures receive a disproportionate amount of abuse on social media, impacting their active participation in public life. Automated systems can identify abuse at scale but labelling training data is expensive, complex and potentially harmful. So, it is desirable that systems are efficient and generalisable, handling both shared and specific aspects of online abuse. We explore the dynamics of cross-group text classification in order to understand how well classifiers trained on one domain or demographic can transfer to others, with a view to building more generalisable abuse classifiers. We fine-tune language models to classify tweets targeted at public figures across DOmains (sport and politics) and DemOgraphics (women and men) using our novel DODO dataset, containing 28,000 labelled entries, split equally across four domain-demographic pairs. We find that (i) small amounts of diverse data are hugely beneficial to generalisation and model adaptation; (ii) models transfer more easily across demographics but models trained on cross-domain data are more generalisable; (iii) some groups contribute more to generalisability than others; and (iv) dataset similarity is a signal of transferability.
公開日:2024-04-25
翻訳日:2024-04-27 00:07:23
# SynAuG: データ不均衡問題に対する合成データのエクスプロイト

SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems ( http://arxiv.org/abs/2308.00994v3 )

ライセンス: Link先を確認
Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Nayeong Kim, Suha Kwak, Tae-Hyun Oh, (参考訳) トレーニングデータにおけるデータの不均衡は、しばしば訓練されたモデルからのバイアスのある予測をもたらし、それによって倫理的および社会的問題を引き起こす。 簡単な解決策は、トレーニングデータを慎重にキュレートすることだが、現代のニューラルネットワークの膨大な規模を考えると、これは労働集約的で非現実的だ。 生成モデルの最近の発展に触発された本研究では,データ不均衡問題に対処するための合成データの可能性について検討する。 具体的には、SynAuGと呼ばれる手法は、学習データの不均衡分布を等化するために合成データを利用する。 実験の結果,実データと合成データのドメインギャップはあるものの,SynAuGを用いたトレーニングに続いて,いくつかの実データを用いて微調整を行うことで,データ不均衡の問題に対処し,既存のタスク固有のメソッドを越えながら,多種多様なタスクにおける印象的なパフォーマンスを実現することができた。

Data imbalance in training data often leads to biased predictions from trained models, which in turn causes ethical and social issues. A straightforward solution is to carefully curate training data, but given the enormous scale of modern neural networks, this is prohibitively labor-intensive and thus impractical. Inspired by recent developments in generative models, this paper explores the potential of synthetic data to address the data imbalance problem. To be specific, our method, dubbed SYNAuG, leverages synthetic data to equalize the unbalanced distribution of training data. Our experiments demonstrate that, although a domain gap between real and synthetic data exists, training with SYNAuG followed by fine-tuning with a few real samples allows to achieve impressive performance on diverse tasks with different data imbalance issues, surpassing existing task-specific methods for the same purpose.
公開日:2024-04-25
翻訳日:2024-04-26 23:57:24
# 情緒的核・共感 : EmotionBench を用いた LLM の評価

Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench ( http://arxiv.org/abs/2308.03656v4 )

ライセンス: Link先を確認
Jen-tse Huang, Man Ho Lam, Eric John Li, Shujie Ren, Wenxuan Wang, Wenxiang Jiao, Zhaopeng Tu, Michael R. Lyu, (参考訳) 大規模言語モデル(LLM)の人為的能力の評価は,現代言論においてますます重要になっている。 感情評価理論を心理学から活用し, LLMの共感能力, すなわち, 特定の状況における感情の変化を評価することを提案する。 注意深い総合的な調査の後、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集しました。 状況を36因子に分類し,世界中の1200名以上の被験者を対象に人間による評価を行った。 GPT-4 や LLaMA-2 のような最新のイテレーションを特徴とする,商用モデルとオープンソースモデルの両方をカバーする5つの LLM を参考として評価を行った。 いくつかのミスアライメントにもかかわらず、LLMは一般的に特定の状況に適切に対応できる。 しかしながら、それらは人間の感情的な行動と一致せず、類似した状況間のつながりを確立できない。 EmotionBenchと呼ばれるテストフレームワークは、https://github.com/CUHK-ARISE/EmotionBench.comから公開されています。 我々は,人間の感情行動との整合性を向上し,知的アシスタントとしての有用性と適用性を高めることを目的としている。

Evaluating Large Language Models' (LLMs) anthropomorphic capabilities has become increasingly important in contemporary discourse. Utilizing the emotion appraisal theory from psychology, we propose to evaluate the empathy ability of LLMs, i.e., how their feelings change when presented with specific situations. After a careful and comprehensive survey, we collect a dataset containing over 400 situations that have proven effective in eliciting the eight emotions central to our study. Categorizing the situations into 36 factors, we conduct a human evaluation involving more than 1,200 subjects worldwide. With the human evaluation results as references, our evaluation includes five LLMs, covering both commercial and open-source models, including variations in model sizes, featuring the latest iterations, such as GPT-4 and LLaMA-2. We find that, despite several misalignments, LLMs can generally respond appropriately to certain situations. Nevertheless, they fall short in alignment with the emotional behaviors of human beings and cannot establish connections between similar situations. Our collected dataset of situations, the human evaluation results, and the code of our testing framework, dubbed EmotionBench, is made openly accessible via https://github.com/CUHK-ARISE/EmotionBench. We aspire to contribute to the advancement of LLMs regarding better alignment with the emotional behaviors of human beings, thereby enhancing their utility and applicability as intelligent assistants.
公開日:2024-04-24
翻訳日:2024-04-26 23:57:24
# 1+1D $\mathbb{Z}_2$格子ゲージ理論における有限温度での閉じ込め

Confinement in 1+1D $\mathbb{Z}_2$ Lattice Gauge Theories at Finite Temperature ( http://arxiv.org/abs/2308.08592v2 )

ライセンス: Link先を確認
Matjaž Kebrič, Jad C. Halimeh, Ulrich Schollwöck, Fabian Grusdt, (参考訳) 閉じ込めはゲージ理論のパラダイム的な現象であり、その理解は高エネルギー物理学の最前線にある。 ここでは, 有限温度での1次元$\mathbb{Z}_2$格子ゲージ理論の閉じ込めについて検討する。 行列積状態(MPS)計算を用いることで、有限温度グリーン関数の崩壊を調べ、閉じ込められた状態と分解された状態の間の滑らかな交叉を明らかにする。 さらに,MPSから採取したスナップショットから得られたフリーデル振動と弦長分布を実験により容易に利用でき,任意の有限温度で閉じ込められた中間子が適切に定義されていることを検証した。 この現象学は、メソンのクエンチダイナミクスを正確に対角化することでさらに支持される。 実験結果から, 有限温度における閉じ込めに関する新たな光が得られた。

Confinement is a paradigmatic phenomenon of gauge theories, and its understanding lies at the forefront of high-energy physics. Here, we study confinement in a simple one-dimensional $\mathbb{Z}_2$ lattice gauge theory at finite temperature and filling, which is within the reach of current cold-atom and superconducting-qubit platforms. By employing matrix product states (MPS) calculations, we investigate the decay of the finite-temperature Green's function and uncover a smooth crossover between the confined and deconfined regimes. Furthermore, using the Friedel oscillations and string length distributions obtained from snapshots sampled from MPS, both of which are experimentally readily available, we verify that confined mesons remain well-defined at arbitrary finite temperature. This phenomenology is further supported by probing quench dynamics of mesons with exact diagonalization. Our results shed new light on confinement at finite temperature from an experimentally relevant standpoint.
公開日:2024-04-24
翻訳日:2024-04-26 23:57:24
# I3:インストラクションを前提としたイントロスペクティブ検索

I3: Intent-Introspective Retrieval Conditioned on Instructions ( http://arxiv.org/abs/2308.10025v2 )

ライセンス: Link先を確認
Kaihang Pan, Juncheng Li, Wenjie Wang, Hao Fei, Hongye Song, Wei Ji, Jun Lin, Xiaozhong Liu, Tat-Seng Chua, Siliang Tang, (参考訳) 近年の研究では、厳密な検索モデルは、特定の学習データを持たない広範囲な検索タスクにおいて、異なる検索タスクが、しばしば異なる検索意図を伴っているため、うまく機能し難いことが示されている。 この課題に対処するために,本研究では,検索意図を柔軟に記述する命令を活用するとともに,タスク固有のトレーニングを伴わずにインストラクションに条件付きで,様々なタスクにわたってインテント・イントロスペクティブ検索を行う統合検索システムであるI3を導入する。 I3は、プラグイン可能なイントロスペクタを、入力クエリと命令を共同で推論することで、特定の検索意図を理解するためのパラメータ分離的な方法で革新的に組み込み、イントロスペクタをイントロスペクタ対応検索のための元の検索モデルにシームレスに統合する。 さらに,段階的に学習する意図学習を提案する。 LLM生成データを利用してI3フェーズ・バイ・フェイズを訓練し、プログレッシブ・ストラクチャー・プルーニング(Progress Structure pruning)とデバック・エクスポーレーション・データ・リファインメント(Droback Extrapolation-based data refinement)という2つの重要な設計を具現した。 BEIRベンチマークでは、I3はタスク特化レトリバーで設計されたベースライン手法を著しく上回り、タスク特化チューニングなしで最先端のゼロショット性能を実現している。

Recent studies indicate that dense retrieval models struggle to perform well on a wide variety of retrieval tasks that lack dedicated training data, as different retrieval tasks often entail distinct search intents. To address this challenge, in this work we leverage instructions to flexibly describe retrieval intents and introduce I3, a unified retrieval system that performs Intent-Introspective retrieval across various tasks, conditioned on Instructions without any task-specific training. I3 innovatively incorporates a pluggable introspector in a parameter-isolated manner to comprehend specific retrieval intents by jointly reasoning over the input query and instruction, and seamlessly integrates the introspected intent into the original retrieval model for intent-aware retrieval. Furthermore, we propose progressively-pruned intent learning. It utilizes extensive LLM-generated data to train I3 phase-by-phase, embodying two key designs: progressive structure pruning and drawback extrapolation-based data refinement. Extensive experiments show that in the BEIR benchmark, I3 significantly outperforms baseline methods designed with task-specific retrievers, achieving state-of-the-art zero-shot performance without any task-specific tuning.
公開日:2024-04-25
翻訳日:2024-04-26 23:57:24
# 線形および二次一般化不確実性原理における重力波の共鳴検出器

Resonant detectors of gravitational wave in the linear and quadratic generalized uncertainty principle framework ( http://arxiv.org/abs/2308.11215v2 )

ライセンス: Link先を確認
Sukanta Bhattacharyya, Soham Sen, Sunandan Gangopadhyay, (参考訳) 本研究では,線形および二次運動量不確かさを持つ一般化不確かさ原理(GUP)フレームワークにおける重力波の共振バー検出器について考察する。 これらの検出器のフォノンモードは、入ってくる重力波との相互作用によって振動する。 この不確実性原理の枠組みでは、これらの検出器上での入射重力波によって誘起される共鳴周波数と遷移速度を計算する。 エネルギー固有状態と固有値が GUP パラメータによって修正されるのを観察する。 また、二次GUP解析に存在しない一般化不確実性関係における線形次数モーメント補正の存在により、隣接する2つのエネルギー準位間の非消滅遷移確率も観察する(http://dx.doi.org/10.1088/1361-6382/abac45, Class. Quantum Grav. 37 (2020) 195006]。 この解析で得られた遷移速度の形式を用いて,次元を持たない GUP パラメータの有界値を得る。

In this work, we consider a resonant bar detector of gravitational wave in the generalized uncertainty principle (GUP) framework with linear and quadratic momentum uncertainties. The phonon modes in these detectors vibrate due to the interaction with the incoming gravitational wave. In this uncertainty principle framework, we calculate the resonant frequencies and transition rates induced by the incoming gravitational waves on these detectors. We observe that the energy eigenstates and the eigenvalues get modified by the GUP parameters. We also observe non-vanishing transition probabilities between two adjacent energy levels due to the existence of the linear order momentum correction in the generalized uncertainty relation which was not present in the quadratic GUP analysis [http://dx.doi.org/10.1088/1361-6382/abac45, Class. Quantum Grav. 37 (2020) 195006]. We finally obtain bounds on the dimensionless GUP parameters using the form of the transition rates obtained during this analysis.
公開日:2024-04-25
翻訳日:2024-04-26 23:57:24
# G3Reg:ガウス楕円体モデルを用いたピラミッドグラフによるグローバルレジストレーション

G3Reg: Pyramid Graph-based Global Registration using Gaussian Ellipsoid Model ( http://arxiv.org/abs/2308.11573v2 )

ライセンス: Link先を確認
Zhijian Qiao, Zehuan Yu, Binqian Jiang, Huan Yin, Shaojie Shen, (参考訳) 本研究では,LiDAR点雲の高速かつ堅牢なグローバル登録のための新しいフレームワークであるG3Regを紹介する。 従来の複雑なキーポイントやディスクリプタとは対照的に,原点雲から平面,クラスタ,線(PCL)を含む基本的な幾何学的プリミティブを抽出し,低レベルのセマンティックセグメントを得る。 各セグメントは統一ガウス楕円体モデル (GEM) として表現され、確率楕円体を用いて基底真理中心が一定の確率で包含されることを保証する。 本稿では,これらのGEMを用いて,グローバル登録のためのピラミッド適合性グラフ(PAGOR)に基づく不信・検証方式を提案する。 具体的には、ピラミッドグラフを構築するための互換性テストの信頼性レベルに基づいて、上界を確立する。 そして、ピラミッドグラフの各レベルに対して複数の最大傾き(MAC)を解き、対応する変換候補を生成する。 検証段階では、最適候補を特定するために、幾何学的プリミティブに基づいて構築された点雲のアライメント品質の正確かつ効率的な測定基準を採用する。 アルゴリズムのパフォーマンスは、公開されている3つのデータセットと、自己コンパイルされたマルチセッションデータセットで検証される。 パラメータ設定は実験評価中も変化しなかった。 その結果,G3Regフレームワークの高剛性と実時間性能は最先端の手法と比較して優れていた。 さらに,個々のGEMおよびPAGORコンポーネントを他の登録フレームワークに統合して有効性を高める可能性を示した。 コード:https://github.com/HKUST-Aerial-Robotics/G3Reg

This study introduces a novel framework, G3Reg, for fast and robust global registration of LiDAR point clouds. In contrast to conventional complex keypoints and descriptors, we extract fundamental geometric primitives, including planes, clusters, and lines (PCL) from the raw point cloud to obtain low-level semantic segments. Each segment is represented as a unified Gaussian Ellipsoid Model (GEM), using a probability ellipsoid to ensure the ground truth centers are encompassed with a certain degree of probability. Utilizing these GEMs, we present a distrust-and-verify scheme based on a Pyramid Compatibility Graph for Global Registration (PAGOR). Specifically, we establish an upper bound, which can be traversed based on the confidence level for compatibility testing to construct the pyramid graph. Then, we solve multiple maximum cliques (MAC) for each level of the pyramid graph, thus generating the corresponding transformation candidates. In the verification phase, we adopt a precise and efficient metric for point cloud alignment quality, founded on geometric primitives, to identify the optimal candidate. The algorithm's performance is validated on three publicly available datasets and a self-collected multi-session dataset. Parameter settings remained unchanged during the experiment evaluations. The results exhibit superior robustness and real-time performance of the G3Reg framework compared to state-of-the-art methods. Furthermore, we demonstrate the potential for integrating individual GEM and PAGOR components into other registration frameworks to enhance their efficacy. Code: https://github.com/HKUST-Aerial-Robotics/G3Reg
公開日:2024-04-24
翻訳日:2024-04-26 23:57:24
# 自己注意を考慮した動的適応型構造方程式モデリングに基づく欠落データ計算

Missing Data Imputation Based on Dynamically Adaptable Structural Equation Modeling with Self-Attention ( http://arxiv.org/abs/2308.12388v4 )

ライセンス: Link先を確認
Ou Deng, Qun Jin, (参考訳) 電子健康記録(EHR)を含む複雑なデータセットで欠落したデータに対処することは、医療における正確な分析と意思決定を保証するために重要である。 本稿では,SESA(Self-attention Method)を用いた動的適応型構造方程式モデリング(SEM)を提案する。 SESAは、自己アテンション機構を組み込むことで、従来のSEMベースの手法を超えて革新し、多様なEHRデータセットにおけるモデルの適応性と精度を向上させる。 このような拡張により、SESAはインプットを動的に調整し最適化し、静的SEMフレームワークの制限を克服できる。 実験により,EHRの欠落データを効果的に処理するための,堅牢な予測SESA性能の達成を実証した。 さらに、SESAアーキテクチャは、SEMにおける潜在的な誤特定を正すだけでなく、因果発見アルゴリズムと相乗して、基礎となるデータ構造に基づく計算ロジックを洗練させる。 このような機能は、その能力を強調し、EHRデータ分析などにおけるアプリケーションの可能性を広げ、データ計算分野における合理的な飛躍を象徴している。

Addressing missing data in complex datasets including electronic health records (EHR) is critical for ensuring accurate analysis and decision-making in healthcare. This paper proposes dynamically adaptable structural equation modeling (SEM) using a self-attention method (SESA), an approach to data imputation in EHR. SESA innovates beyond traditional SEM-based methods by incorporating self-attention mechanisms, thereby enhancing model adaptability and accuracy across diverse EHR datasets. Such enhancement allows SESA to dynamically adjust and optimize imputation and overcome the limitations of static SEM frameworks. Our experimental analyses demonstrate the achievement of robust predictive SESA performance for effectively handling missing data in EHR. Moreover, the SESA architecture not only rectifies potential mis-specifications in SEM but also synergizes with causal discovery algorithms to refine its imputation logic based on underlying data structures. Such features highlight its capabilities and broadening applicational potential in EHR data analysis and beyond, marking a reasonable leap forward in the field of data imputation.
公開日:2024-04-25
翻訳日:2024-04-26 23:57:24
# 弱レーザー励起下におけるダイヤモンド中の窒素空孔中心の光磁気共鳴

Optically Detected Magnetic Resonance of Nitrogen-Vacancy Centers in Diamond under Weak Laser Excitation ( http://arxiv.org/abs/2308.13351v2 )

ライセンス: Link先を確認
Yong-Hong Yu, Rui-Zhi Zhang, Yue Xu, Xiu-Qi Chen, Huijie Zheng, Quan Li, Ren-Bao Liu, Xin-Yu Pan, Dmitry Budker, Gang-Qin Liu, (参考訳) 有望な量子センサーとして、ダイヤモンド中の窒素空孔(NV)中心は、凝縮物質物理学、物質科学、生命科学のフロンティア研究に広く用いられている。 実用用途では、レーザー照射の副作用、例えば光毒性や加熱を減らすため、弱いレーザー励起が好ましい。 弱い532nmレーザー励起下でのNV中心アンサンブルの光検出磁気共鳴(ODMR)の理論的および実験的研究を併用して報告する。 この状態において、ODMRスペクトルの幅と分割はレーザーパワーの増加とともに減少する。 この電力依存は、NV--N+対のレーザー誘起電荷中和を考慮したモデルで再現され、局所電界環境が変化する。 これらの結果は、感光性アプリケーションにおけるNVベースの量子センシングの理解と設計に重要である。

As promising quantum sensors, nitrogen-vacancy (NV) centers in diamond have been widely used in frontier studies in condensed matter physics, material sciences, and life sciences. In practical applications, weak laser excitation is favorable as it reduces the side effects of laser irradiation, for example, phototoxicity and heating. Here we report a combined theoretical and experimental study of optically detected magnetic resonance (ODMR) of NV-center ensembles under weak 532-nm laser excitation. In this regime, both the width and splitting of ODMR spectra decrease with increasing laser power. This power dependence is reproduced with a model considering laser-induced charge neutralization of NV--N+ pairs, which alters the local electric field environment. These results are important for understanding and designing NV-based quantum sensing in light-sensitive applications.
公開日:2024-04-24
翻訳日:2024-04-26 23:57:24
# LuViRAデータセットの検証と議論:視覚・無線・音声センサを屋内位置推定に用いる場合の比較

LuViRA Dataset Validation and Discussion: Comparing Vision, Radio, and Audio Sensors for Indoor Localization ( http://arxiv.org/abs/2309.02961v2 )

ライセンス: Link先を確認
Ilayda Yaman, Guoda Tian, Erik Tegler, Jens Gulin, Nikhil Challa, Fredrik Tufvesson, Ove Edfors, Kalle Astrom, Steffen Malkowsky, Liang Liu, (参考訳) 本稿では,視覚,ラジオ,および音声に基づくローカライゼーションアルゴリズムのユニークな比較分析と評価を行う。 我々は、最近発表されたLund University Vision, Radio, and Audio (LuViRA)データセットを使って、上記のセンサーの最初のベースラインを作成します。 屋内のローカライゼーションタスクに各センサを使用する際の課題をいくつか挙げる。 各センサーは、現在の最先端のローカライズアルゴリズムと組み合わせて、ローカライズ精度、環境変化に対する信頼性と感度、キャリブレーション要件、潜在的なシステムの複雑さなど、さまざまな側面で評価される。 具体的には、RGB-Dカメラを用いたビジョンベースローカライゼーションのためのORB-SLAM3アルゴリズム、MIMO技術を用いた無線ベースローカライゼーションのための機械学習アルゴリズム、分散マイクロホンを用いた音声ベースローカライゼーションのためのSFS2アルゴリズムについて述べる。 この結果は、センサフュージョン、コンテキスト、環境に配慮した適応を通じて、堅牢で高精度なマルチセンサローカライゼーションシステムの開発のためのガイドラインおよび基盤として機能する。

We present a unique comparative analysis, and evaluation of vision, radio, and audio based localization algorithms. We create the first baseline for the aforementioned sensors using the recently published Lund University Vision, Radio, and Audio (LuViRA) dataset, where all the sensors are synchronized and measured in the same environment. Some of the challenges of using each specific sensor for indoor localization tasks are highlighted. Each sensor is paired with a current state-of-the-art localization algorithm and evaluated for different aspects: localization accuracy, reliability and sensitivity to environment changes, calibration requirements, and potential system complexity. Specifically, the evaluation covers the ORB-SLAM3 algorithm for vision-based localization with an RGB-D camera, a machine-learning algorithm for radio-based localization with massive MIMO technology, and the SFS2 algorithm for audio-based localization with distributed microphones. The results can serve as a guideline and basis for further development of robust and high-precision multi-sensory localization systems, e.g., through sensor fusion, context, and environment-aware adaptation.
公開日:2024-04-25
翻訳日:2024-04-26 23:57:24
# 光格子における大規模原子配列の高忠実度検出

High-fidelity detection of large-scale atom arrays in an optical lattice ( http://arxiv.org/abs/2309.04717v3 )

ライセンス: Link先を確認
Renhao Tao, Maximilian Ammenwerth, Flavien Gyger, Immanuel Bloch, Johannes Zeiher, (参考訳) 中立原子に基づく量子シミュレーションの最近の進歩は、高分解能で単原子感度のイメージング技術から大きく恩恵を受けている。 光学格子や光ツイーザにおける原子の局所的な検出を実現するために、様々なアプローチが開発されている。 アルカリ-アース原子やアルカリ-アース原子の場合、狭い光学遷移の存在は、冷却機構がトラップ電位の微分光学レベルシフトを空間的に解決する能力から生じる新しいタイプのシホス冷却を行う可能性を開く。 これまでのところ、地上状態のトラップ深さが冷却に関わる励起状態のそれを超える「反発型シシフス」構成で高忠実な画像が達成できるかどうかという未解決の問題があった。 ここでは,高忠実度 (99.971(1)\%$) と高生存率 (99.80(5)\%$) のシィフス冷却によるストロンチウム原子のイメージングを示す。 最大399ドルのツイーザーを持つ大規模ツイーザーアレイの原子のピンニング電位として光学格子を用い、繰り返し、高忠実な格子-ツイーザー-格子転移を示す。 さらに、MOTから直接約10000の原子で格子をロードし、生存確率と分類忠実度を99.2\%$より良く組み合わせた10000ドルの格子サイトをスケーラブルに撮像する。 この格子は将来,光ツイーザアレイの連続的な補充のための局所的にアドレス化可能でソート可能な貯水池として機能する。

Recent advances in quantum simulation based on neutral atoms have largely benefited from high-resolution, single-atom sensitive imaging techniques. A variety of approaches have been developed to achieve such local detection of atoms in optical lattices or optical tweezers. For alkaline-earth and alkaline-earth-like atoms, the presence of narrow optical transitions opens up the possibility of performing novel types of Sisyphus cooling, where the cooling mechanism originates from the capability to spatially resolve the differential optical level shifts in the trap potential. Up to now, it has been an open question whether high-fidelity imaging could be achieved in a "repulsive Sisyphus" configuration, where the trap depth of the ground state exceeds that of the excited state involved in cooling. Here, we demonstrate high-fidelity ($99.971(1)\%$) and high-survival ($99.80(5)\%$) imaging of strontium atoms using repulsive Sisyphus cooling. We use an optical lattice as a pinning potential for atoms in a large-scale tweezer array with up to $399$ tweezers and show repeated, high-fidelity lattice-tweezer-lattice transfers. We furthermore demonstrate loading the lattice with approximately 10000 atoms directly from the MOT and scalable imaging over $>10000$ lattice sites with a combined survival probability and classification fidelity better than $99.2\%$. Our lattice thus serves as a locally addressable and sortable reservoir for continuous refilling of optical tweezer arrays in the future.
公開日:2024-04-25
翻訳日:2024-04-26 23:57:24
# POCKET:特徴選択から見た時系列分類のためのランダム畳み込みカーネル

POCKET: Pruning Random Convolution Kernels for Time Series Classification from a Feature Selection Perspective ( http://arxiv.org/abs/2309.08499v3 )

ライセンス: Link先を確認
Shaowu Chen, Weize Sun, Lei Huang, Xiaopeng Li, Qingyuan Wang, Deepu John, (参考訳) 近年、ROCKETとMINIROCKETという2つの競合時系列分類モデルが、トレーニングコストの低さと高い精度で注目されている。 しかし、リソース制約のあるデバイスと互換性のない機能を包括的にキャプチャするには、多数のランダムな1-D畳み込みカーネルが必要である。 冗長カーネルを認識およびプルークするために設計されたヒューリスティックアルゴリズムの開発にもかかわらず、進化的アルゴリズムの本質的な時間的特性は効率的な評価を妨げている。 そこで本論文では,逐次分類器の接続を不要にすることで,冗長なランダムカーネルを特徴選択の観点から排除する。 2つの革新的なアルゴリズムが提案され、第1のADMMベースのアルゴリズムはグループ弾性ネット分類問題としてプルーニングチャレンジを定式化し、第2のコアアルゴリズムであるPOCKETは問題を2段階に分岐させることで第1のアルゴリズムを大幅に高速化する。 POCKETのステージ1では、動的に異なるペナルティを導入して、冗長カーネルを削除するためにグループレベルの正規化を効率的に実装している。 多様な時系列データセットによる実験結果から、POCKETは精度を著しく低下させることなく最大60%のカーネルを産み出し、それよりも11倍高速に動作していることがわかった。 私たちのコードはhttps://github.com/ShaowuChen/POCKET.comで公開されています。

In recent years, two competitive time series classification models, namely, ROCKET and MINIROCKET, have garnered considerable attention due to their low training cost and high accuracy. However, they require a large number of random 1-D convolutional kernels to comprehensively capture features, which is incompatible with resource-constrained devices. Despite the development of heuristic algorithms designed to recognize and prune redundant kernels, the inherent time-consuming nature of evolutionary algorithms hinders efficient evaluation. To effectively prune models, this paper removes redundant random kernels from a feature selection perspective by eliminating associating connections in the sequential classifier. Two innovative algorithms are proposed, where the first ADMM-based algorithm formulates the pruning challenge as a group elastic net classification problem, and the second core algorithm named POCKET greatly accelerates the first one by bifurcating the problem into two sequential stages. Stage 1 of POCKET introduces dynamically varying penalties to efficiently implement group-level regularization to delete redundant kernels, and Stage 2 employs element-level regularization on the remaining features to refit a linear classifier for better performance. Experimental results on diverse time series datasets show that POCKET prunes up to 60% of kernels without a significant reduction in accuracy and performs 11 times faster than its counterparts. Our code is publicly available at https://github.com/ShaowuChen/POCKET.
公開日:2024-04-24
翻訳日:2024-04-26 23:57:24
# DOMAIN:軽度保存モデルベースオフリン強化学習

DOMAIN: MilDly COnservative Model-BAsed OfflINe Reinforcement Learning ( http://arxiv.org/abs/2309.08925v2 )

ライセンス: Link先を確認
Xiao-Yin Liu, Xiao-Hu Zhou, Xiao-Liang Xie, Shi-Qi Liu, Zhen-Qiu Feng, Hao Li, Mei-Jiang Gui, Tian-Yu Xiang, De-Xing Huang, Zeng-Guang Hou, (参考訳) オフラインデータセットから環境モデルを学習し,より多くのアウト・オブ・ディストリビューションモデルデータを生成するモデルベース強化学習(RL)は,オフラインRLにおける分布シフト問題に対する効果的なアプローチとなっている。 学習環境と実際の環境のギャップのため、正確なオフラインデータと不正確なモデルデータのバランスをとるために、保守性はアルゴリズムに組み込まれるべきである。 現在のアルゴリズムの保守性は、主にモデルの不確実性推定に依存している。 しかし、不確実性推定は信頼性が低く、特定のシナリオでは性能が低下する。 そこで本稿では,モデルの不確実性を推定することなく,MilDly cOnservative Model-bAsed offlINe RLアルゴリズム(DOMAIN)を提案する。 DOMAINはモデルサンプルの適応的なサンプリング分布を導入し、モデルデータペナルティを適応的に調整することができる。 本稿では,領域外においてDOMAINが学習したQ値が真のQ値の下限であること,DOMAINは従来のモデルベースオフラインRLアルゴリズムよりも保守的ではなく,セキュリティポリシーの改善が保証されていることを理論的に示す。 大規模な実験の結果、DOMAINは、D4RLデータセットのベンチマークにおいて、以前のRLアルゴリズムよりも優れており、一般化を必要とするタスクにおいて、他のRLアルゴリズムよりも優れたパフォーマンスを実現している。

Model-based reinforcement learning (RL), which learns environment model from offline dataset and generates more out-of-distribution model data, has become an effective approach to the problem of distribution shift in offline RL. Due to the gap between the learned and actual environment, conservatism should be incorporated into the algorithm to balance accurate offline data and imprecise model data. The conservatism of current algorithms mostly relies on model uncertainty estimation. However, uncertainty estimation is unreliable and leads to poor performance in certain scenarios, and the previous methods ignore differences between the model data, which brings great conservatism. Therefore, this paper proposes a milDly cOnservative Model-bAsed offlINe RL algorithm (DOMAIN) without estimating model uncertainty to address the above issues. DOMAIN introduces adaptive sampling distribution of model samples, which can adaptively adjust the model data penalty. In this paper, we theoretically demonstrate that the Q value learned by the DOMAIN outside the region is a lower bound of the true Q value, the DOMAIN is less conservative than previous model-based offline RL algorithms and has the guarantee of security policy improvement. The results of extensive experiments show that DOMAIN outperforms prior RL algorithms on the D4RL dataset benchmark, and achieves better performance than other RL algorithms on tasks that require generalization.
公開日:2024-04-25
翻訳日:2024-04-26 23:57:24
# SpeechAlign: 音声翻訳アライメント評価のためのフレームワーク

SpeechAlign: a Framework for Speech Translation Alignment Evaluation ( http://arxiv.org/abs/2309.11585v2 )

ライセンス: Link先を確認
Belen Alastruey, Aleix Sant, Gerard I. Gállego, David Dale, Marta R. Costa-jussà, (参考訳) 音声から音声への翻訳と音声からテキストへの翻訳は、現在研究のダイナミックな領域である。 本稿では,これらの分野を推し進めるためのフレームワークであるSpeechAlignについて述べる。 SpeechAlignフレームワークには2つのコアコンポーネントがある。 まず、適切な評価データセットの欠如に対処するため、英独翻訳ゴールドアライメントデータセットに基づく音声ゴールドアライメントデータセットを提案する。 第2に、音声モデル内のアライメント品質を評価するために、音声アライメント誤り率(SAER)と時間重み付き音声アライメント誤り率(TW-SAER)の2つの新しい指標を導入する。 前者は各単語に等しく重みを与えるが、後者は音声信号中の単語の長さに基づいて重みを割り当てる。 SpeechAlignを公開することによって、モデルアセスメントのためのアクセシブルな評価フレームワークを提供し、それをオープンソースの音声翻訳モデルのベンチマークに利用する。 そこで本研究では,音声音声翻訳と音声テキスト翻訳の分野における研究の進展に貢献する。

Speech-to-Speech and Speech-to-Text translation are currently dynamic areas of research. In our commitment to advance these fields, we present SpeechAlign, a framework designed to evaluate the underexplored field of source-target alignment in speech models. The SpeechAlign framework has two core components. First, to tackle the absence of suitable evaluation datasets, we introduce the Speech Gold Alignment dataset, built upon a English-German text translation gold alignment dataset. Secondly, we introduce two novel metrics, Speech Alignment Error Rate (SAER) and Time-weighted Speech Alignment Error Rate (TW-SAER), which enable the evaluation of alignment quality within speech models. While the former gives equal importance to each word, the latter assigns weights based on the length of the words in the speech signal. By publishing SpeechAlign we provide an accessible evaluation framework for model assessment, and we employ it to benchmark open-source Speech Translation models. In doing so, we contribute to the ongoing research progress within the fields of Speech-to-Speech and Speech-to-Text translation.
公開日:2024-04-25
翻訳日:2024-04-26 23:57:24
# オンライングラフ学習のための不確実性駆動探索手法

Uncertainty-driven Exploration Strategies for Online Grasp Learning ( http://arxiv.org/abs/2309.12038v2 )

ライセンス: Link先を確認
Yitian Shi, Philipp Schillinger, Miroslav Gabriel, Alexander Qualmann, Zohar Feldman, Hanna Ziesche, Ngo Anh Vien, (参考訳) 既存の把握予測アプローチは、主にオフライン学習に基づいており、オンライン適応中の探索的把握学習を、新しいピックシナリオ、すなわち、目に見えないオブジェクトや、ドメイン外(OOD)、カメラ、ビンの設定に無視する。 本稿では,ロボットビンピッキングにおける把握予測のオンライン学習における不確実性に基づくアプローチを提案する。 具体的には、効果的な探索戦略を持つオンライン学習アルゴリズムは、目に見えない環境設定への適応性を著しく向上させることができる。 この目的のために,まずオンライン学習をRL問題として定式化することを提案する。 ベイズの不確実性定量化と分布アンサンブルに基づく様々な不確実性推定手法を提案する。 我々は,様々な難易度のある実世界のビンピッキングシーンの評価を行う。 ビン内の物体は、半透明または全透明、不規則または湾曲した表面によって特徴づけられる様々な困難な物理的特徴と知覚的特徴を有する。 実験の結果, ナイーブな探索戦略のみを取り入れた従来のオンライン学習手法と比較して, 把握能力の顕著な向上が示された。 ビデオ:https://youtu.be/fPKOrjC2QrU

Existing grasp prediction approaches are mostly based on offline learning, while, ignoring the exploratory grasp learning during online adaptation to new picking scenarios, i.e., objects that are unseen or out-of-domain (OOD), camera and bin settings, etc. In this paper, we present an uncertainty-based approach for online learning of grasp predictions for robotic bin picking. Specifically, the online learning algorithm with an effective exploration strategy can significantly improve its adaptation performance to unseen environment settings. To this end, we first propose to formulate online grasp learning as an RL problem that will allow us to adapt both grasp reward prediction and grasp poses. We propose various uncertainty estimation schemes based on Bayesian uncertainty quantification and distributional ensembles. We carry out evaluations on real-world bin picking scenes of varying difficulty. The objects in the bin have various challenging physical and perceptual characteristics that can be characterized by semi- or total transparency, and irregular or curved surfaces. The results of our experiments demonstrate a notable improvement of grasp performance in comparison to conventional online learning methods which incorporate only naive exploration strategies. Video: https://youtu.be/fPKOrjC2QrU
公開日:2024-04-24
翻訳日:2024-04-26 23:57:24
# RoleLLM: 大規模言語モデルのベンチマーク、緩和、ロールプレイ能力向上

RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models ( http://arxiv.org/abs/2310.00746v2 )

ライセンス: Link先を確認
Zekun Moore Wang, Zhongyuan Peng, Haoran Que, Jiaheng Liu, Wangchunshu Zhou, Yuhan Wu, Hongcheng Guo, Ruitong Gan, Zehao Ni, Jian Yang, Man Zhang, Zhaoxiang Zhang, Wanli Ouyang, Ke Xu, Stephen W. Huang, Jie Fu, Junran Peng, (参考訳) LLM(Large Language Models)の出現は、ロールプレイングのような複雑なタスクの道を開いた。 しかし、最先端のLCMのクローズソースの性質と、それらの汎用的なトレーニングはロールプレイングの最適化を制限している。 本稿では,LLMにおけるロールプレイング能力をベンチマークし,評価し,拡張するフレームワークであるRoleLLMを紹介する。 RoleLLM は,(1) 役割のロールプロファイル構築,(2) 役割固有の知識抽出のためのコンテキストベースインストラクション生成(Context-Instruction Generation),(3) GPT (RoleGPT) を用いた発話スタイル模倣のためのロールプロンプト,(4) オープンソースモデルの微調整のためのロールコンストラクションインストラクションチューニング (RoCIT) の4段階から構成される。 Context-InstructとRoleGPTによって、168,093サンプルでロールプレイする最初の体系的できめ細かい文字レベルのベンチマークデータセットであるRoleBenchを作成します。 さらに、RoleBench上のRoCITはRoleLLaMA(英語)とRoleGLM(中国語)を生成し、ロールプレイング能力を大幅に向上させ、RoleGPT(GPT-4)と同等の結果を得る。

The advent of Large Language Models (LLMs) has paved the way for complex tasks such as role-playing, which enhances user interactions by enabling models to imitate various characters. However, the closed-source nature of state-of-the-art LLMs and their general-purpose training limit role-playing optimization. In this paper, we introduce RoleLLM, a framework to benchmark, elicit, and enhance role-playing abilities in LLMs. RoleLLM comprises four stages: (1) Role Profile Construction for 100 roles; (2) Context-Based Instruction Generation (Context-Instruct) for role-specific knowledge extraction; (3) Role Prompting using GPT (RoleGPT) for speaking style imitation; and (4) Role-Conditioned Instruction Tuning (RoCIT) for fine-tuning open-source models along with role customization. By Context-Instruct and RoleGPT, we create RoleBench, the first systematic and fine-grained character-level benchmark dataset for role-playing with 168,093 samples. Moreover, RoCIT on RoleBench yields RoleLLaMA (English) and RoleGLM (Chinese), significantly enhancing role-playing abilities and even achieving comparable results with RoleGPT (using GPT-4).
公開日:2024-04-24
翻訳日:2024-04-26 23:57:24
# SEED: 大規模言語モデルによるドメイン特化データキュレーション

SEED: Domain-Specific Data Curation With Large Language Models ( http://arxiv.org/abs/2310.00749v3 )

ライセンス: Link先を確認
Zui Chen, Lei Cao, Sam Madden, Tim Kraska, Zeyuan Shang, Ju Fan, Nan Tang, Zihui Gu, Chunwei Liu, Michael Cafarella, (参考訳) 分析のためにデータを作成するデータキュレーションタスクは、データを実行可能な洞察に変換する上で非常に重要です。 しかし、異なるドメインにおけるアプリケーションの多様な要求のため、一般的なオフザシェルフツールは一般的に不十分である。 その結果、データサイエンティストはデータセットとタスクの両方に適したドメイン固有のソリューションを開発する必要がある。 このプロセスは、非常に難しく、時間がかかります。 本稿では,Large Language Models (LLMs) を通じて,ドメイン固有のデータキュレーションソリューションを自動生成する LLM-as-compiler アプローチのSEEDを提案する。 ユーザがタスクや入力データ、期待される出力を記述すると、SEEDコンパイラは、LLMクエリと、ベクトルベースのキャッシュ、LLM生成コード、LLMアノテーション付きデータに基づいてトレーニングされた小さなモデルといった、よりコスト効率のよい代替品を組み合わせたハイブリッドパイプラインを生成する。 SEEDは4つのLCMアシストモジュールから自動的に選択するオプティマイザを備えており、そのタスクに最も適したハイブリッド実行パイプラインを形成している。 この新しい革命的アプローチを検証するために、私たちは5ドル以上のデータキュレーションタスクにまたがる9ドルのデータセットの実験を行いました。 すべてのデータレコードでLLMを使用するソリューションと比較して、SEEDは最先端または同等の数ショットのパフォーマンスを達成し、LLM呼び出しの数を著しく削減する。

Data curation tasks that prepare data for analytics are critical for turning data into actionable insights. However, due to the diverse requirements of applications in different domains, generic off-the-shelf tools are typically insufficient. As a result, data scientists often have to develop domain-specific solutions tailored to both the dataset and the task, e.g. writing domain-specific code or training machine learning models on a sufficient number of annotated examples. This process is notoriously difficult and time-consuming. We present SEED, an LLM-as-compiler approach that automatically generates domain-specific data curation solutions via Large Language Models (LLMs). Once the user describes a task, input data, and expected output, the SEED compiler produces a hybrid pipeline that combines LLM querying with more cost-effective alternatives, such as vector-based caching, LLM-generated code, and small models trained on LLM-annotated data. SEED features an optimizer that automatically selects from the four LLM-assisted modules and forms a hybrid execution pipeline that best fits the task at hand. To validate this new, revolutionary approach, we conducted experiments on $9$ datasets spanning over $5$ data curation tasks. In comparison to solutions that use the LLM on every data record, SEED achieves state-of-the-art or comparable few-shot performance, while significantly reducing the number of LLM calls.
公開日:2024-04-24
翻訳日:2024-04-26 23:47:37
# リアルタイムでジェネリックなマルチタスクで一度だけ見る

You Only Look at Once for Real-time and Generic Multi-Task ( http://arxiv.org/abs/2310.01641v4 )

ライセンス: Link先を確認
Jiayuan Wang, Q. M. Jonathan Wu, Ning Zhang, (参考訳) 高精度で軽量でリアルタイムな応答性は、自動運転を実装する上で必須の3つの要件である。 本研究では,適応型,リアルタイム,軽量なマルチタスクモデルであるA-YOLOMを導入する。 具体的には、統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発する。 セグメンテーションタスクにおいて,すべてのセグメンテーションタスクに対して同じ損失関数を用いて,ネックとバックボーンの機能を適応的に結合する学習可能なパラメータを提案する。 これにより、カスタマイズの必要性がなくなり、モデルの一般化能力が強化される。 また,一連の畳み込み層のみで構成されたセグメンテーションヘッドを導入し,パラメータ数と推定時間を削減する。 BDD100kデータセット上で、特に視覚化結果の競合的な結果を達成する。 その結果, 物体検出用mAP50は81.1%, 乾燥領域分割用mIoUは91.0%, レーン線分割用IoUは28.8%であった。 さらに、実環境におけるモデルの性能を評価するための現実シナリオを導入し、競争相手を著しく上回ります。 これは、我々のモデルが競争性能を示すだけでなく、既存のマルチタスクモデルよりも柔軟で高速であることを示している。 ソースコードと事前訓練済みモデルはhttps://github.com/JiayuanWang-JW/YOLOv8-multi-taskで公開されている。

High precision, lightweight, and real-time responsiveness are three essential requirements for implementing autonomous driving. In this study, we incorporate A-YOLOM, an adaptive, real-time, and lightweight multi-task model designed to concurrently address object detection, drivable area segmentation, and lane line segmentation tasks. Specifically, we develop an end-to-end multi-task model with a unified and streamlined segmentation structure. We introduce a learnable parameter that adaptively concatenates features between necks and backbone in segmentation tasks, using the same loss function for all segmentation tasks. This eliminates the need for customizations and enhances the model's generalization capabilities. We also introduce a segmentation head composed only of a series of convolutional layers, which reduces the number of parameters and inference time. We achieve competitive results on the BDD100k dataset, particularly in visualization outcomes. The performance results show a mAP50 of 81.1% for object detection, a mIoU of 91.0% for drivable area segmentation, and an IoU of 28.8% for lane line segmentation. Additionally, we introduce real-world scenarios to evaluate our model's performance in a real scene, which significantly outperforms competitors. This demonstrates that our model not only exhibits competitive performance but is also more flexible and faster than existing multi-task models. The source codes and pre-trained models are released at https://github.com/JiayuanWang-JW/YOLOv8-multi-task
公開日:2024-04-24
翻訳日:2024-04-26 23:47:37
# スクラッチから遠ざかる - データ駆動プライオリティを必要とするロングシーケンスモデルの比較

Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors ( http://arxiv.org/abs/2310.02980v3 )

ライセンス: Link先を確認
Ido Amos, Jonathan Berant, Ankit Gupta, (参考訳) シーケンス間の長距離依存関係のモデリングは、機械学習における長年の目標であり、状態空間モデルのようなアーキテクチャに導かれ、長いシーケンス上でトランスフォーマーを劇的に上回っている。 しかし、これらの印象的な経験的利益は、モデルがランダムに初期化され、入力シーケンスからターゲットラベルを予測するために訓練されたベンチマーク(例えばLong Range Arena)において、大きく証明されている。 本稿では, ランダム初期化がアーキテクチャの違いの過大な過大評価につながることを示すとともに, $\textit{only the downstream task data}$を用いることで, トランスフォーマーと状態空間モデル(SSM)の極めて小さなギャップを生じることを示す。 従来の作業とは対照的に,Long Range ArenaにおけるS4の性能に適合するバニラトランスフォーマーが発見され,PathX-256タスクにおけるSSMの最高の報告結果を20絶対点改善する。 次に, 事前学習により得られたデータ駆動初期化の存在下で, 従来提案されていたSSMに対する構造化パラメータ化の有用性を解析し, ほとんど冗長となることを示す。 我々の研究は、教師付きタスク上で異なるアーキテクチャを評価する際に、事前学習によるデータ駆動の事前学習が信頼性の高い性能推定に不可欠であることを示し、効率的に行うことができることを示した。

Modeling long-range dependencies across sequences is a longstanding goal in machine learning and has led to architectures, such as state space models, that dramatically outperform Transformers on long sequences. However, these impressive empirical gains have been by and large demonstrated on benchmarks (e.g. Long Range Arena), where models are randomly initialized and trained to predict a target label from an input sequence. In this work, we show that random initialization leads to gross overestimation of the differences between architectures and that pretraining with standard denoising objectives, using $\textit{only the downstream task data}$, leads to dramatic gains across multiple architectures and to very small gaps between Transformers and state space models (SSMs). In stark contrast to prior works, we find vanilla Transformers to match the performance of S4 on Long Range Arena when properly pretrained, and we improve the best reported results of SSMs on the PathX-256 task by 20 absolute points. Subsequently, we analyze the utility of previously-proposed structured parameterizations for SSMs and show they become mostly redundant in the presence of data-driven initialization obtained through pretraining. Our work shows that, when evaluating different architectures on supervised tasks, incorporation of data-driven priors via pretraining is essential for reliable performance estimation, and can be done efficiently.
公開日:2024-04-24
翻訳日:2024-04-26 23:47:37
# 散乱長と電位形状制御を持つピコケルビンエネルギーへの物質-波の衝突

Matter-wave collimation to picokelvin energies with scattering length and potential shape control ( http://arxiv.org/abs/2310.04383v3 )

ライセンス: Link先を確認
Alexander Herbst, Timothé Estrampes, Henning Albers, Robin Corgier, Knut Stolzenberg, Sebastian Bode, Eric Charron, Ernst M. Rasel, Naceur Gaaloul, Dennis Schlippert, (参考訳) 原子干渉計の感度は、物質波の衝突による原子アンサンブルの膨張を制限することで、長いパルス分離時間を実現し、コントラストの喪失を防ぐ能力に依存する。 ここでは、異なる散乱長で$^{39}$Kボース=アインシュタイン凝縮体にレンズプロトコルを適用することにより、原子間相互作用がコリメーションに与える影響について検討する。 相互作用を表わすため、1方向のエネルギーは340 pm 12$ pKである。 我々の結果は正確なシミュレーションによって支えられ、これによって2次元の弾道膨張エネルギーを438 pm 77$ pKで外挿することができる。 そこで本研究では,パルスデルタキックを付加することにより,PKを1,16ドル以下で3次元展開できる高度なシナリオを提案する。 マイクログラビティや長いベースライン環境を必要とせず, 通常の双極子トラップ装置において, 2桁のpK領域における1時間10^5$以上の原子と3次元エネルギーでアンサンブルを実現する方法について検討した。

The sensitivity of atom interferometers depends on their ability to realize long pulse separation times and prevent loss of contrast by limiting the expansion of the atomic ensemble within the interferometer beam through matter-wave collimation. Here we investigate the impact of atomic interactions on collimation by applying a lensing protocol to a $^{39}$K Bose-Einstein condensate at different scattering lengths. Tailoring interactions, we measure energies corresponding to $340 \pm 12$ pK in one direction. Our results are supported by an accurate simulation, which allows us to extrapolate a 2D ballistic expansion energy of $438 \pm 77$ pK. Based on our findings we propose an advanced scenario, which enables 3D expansion energies below $16$ pK by implementing an additional pulsed delta-kick. Our results pave the way to realize ensembles with more than $1\times10^5$ atoms and 3D energies in the two-digit pK range in typical dipole trap setups without the need for micro-gravity or long baseline environments.
公開日:2024-04-25
翻訳日:2024-04-26 23:47:37
# Lemur: プログラムの自動検証に大規模言語モデルを統合する

Lemur: Integrating Large Language Models in Automated Program Verification ( http://arxiv.org/abs/2310.04870v5 )

ライセンス: Link先を確認
Haoze Wu, Clark Barrett, Nina Narodytska, (参考訳) LLMの実証されたコード理解能力は、検証ツールで難しいプログラムプロパティに関する高度な抽象的推論を必要とするタスクである自動プログラム検証に使用できるかどうかという問題を提起する。 自動プログラム検証のためのLLMと自動推論器のパワーを組み合わせるための一般的な手法を提案する。 我々は、この方法論をトランジションルールの集合として公式に記述し、その健全性を証明する。 本稿では,音声自動検証手法として計算をインスタンス化し,一連の合成および競合ベンチマークの実践的改善を実証する。

The demonstrated code-understanding capability of LLMs raises the question of whether they can be used for automated program verification, a task that demands high-level abstract reasoning about program properties that is challenging for verification tools. We propose a general methodology to combine the power of LLMs and automated reasoners for automated program verification. We formally describe this methodology as a set of transition rules and prove its soundness. We instantiate the calculus as a sound automated verification procedure and demonstrate practical improvements on a set of synthetic and competition benchmarks.
公開日:2024-04-25
翻訳日:2024-04-26 23:47:37
# PST:プログラムスケッチベースのチューニングによる量的トレーディングの改善

PST: Improving Quantitative Trading via Program Sketch-based Tuning ( http://arxiv.org/abs/2310.05551v2 )

ライセンス: Link先を確認
Zhiming Li, Junzhe Jiang, Yushi Cao, Aixin Cui, Bozhi Wu, Bo Li, Yang Liu, Dongning Sun, (参考訳) 深層強化学習(DRL)は、有能な人的知識を伴わずに十分なパフォーマンスを達成し、量的金融に革命をもたらした。 その成果にもかかわらず、現在最先端のDRLモデルは依然として市場の動向を特定するのに効果がなく、良い取引機会を逃したり、市場崩壊に遭遇した場合に大きな損失を被ることになる。 この制限に対処するためには、市場の動向に関する人間の専門知識を組み込むことが自然な考えである。 しかし、そのような知識は抽象的で定量化が難しい。 本稿では,プログラム・スケッチ・ベース・チューニング(PST)と呼ばれる,普遍的なニューロシンボリック・チューニング・フレームワークを提案する。 特に、PSTは、新しい記号プログラムスケッチを使用して、市場動向に関する抽象的人間専門家の知識を埋め込むことを最初に提案する。 そして、プログラムスケッチを利用して、現在の市場動向に応じて訓練されたDRLポリシーをチューニングする。 最後に,このニューラルシンボリックフレームワークを最適化するために,新しいハイブリッド最適化手法を提案する。 2つの一般的な量的トレーディングタスクに対する広範囲な評価は、PSTが非常に軽量でありながら、従来の最先端DRL戦略の性能を大幅に向上させることができることを示している。

Deep reinforcement learning (DRL) has revolutionized quantitative finance by achieving decent performance without significant human expert knowledge. Despite its achievements, we observe that the current state-of-the-art DRL models are still ineffective in identifying the market trend, causing them to miss good trading opportunities or suffer from large drawdowns when encountering market crashes. To tackle this limitation, a natural idea is to embed human expert knowledge regarding the market trend. Whereas, such knowledge is abstract and hard to be quantified. In this paper, we propose a universal neuro-symbolic tuning framework, called program sketch-based tuning (PST). Particularly, PST first proposes using a novel symbolic program sketch to embed the abstract human expert knowledge of market trends. Then we utilize the program sketch to tune a trained DRL policy according to the different market trend of the moment. Finally, in order to optimize this neural-symbolic framework, we propose a novel hybrid optimization method. Extensive evaluations on two popular quantitative trading tasks demonstrate that PST can significantly enhance the performance of previous state-of-the-art DRL strategies while being extremely lightweight.
公開日:2024-04-24
翻訳日:2024-04-26 23:47:37
# 大規模言語モデルはルールを学習できる

Large Language Models can Learn Rules ( http://arxiv.org/abs/2310.07064v2 )

ライセンス: Link先を確認
Zhaocheng Zhu, Yuan Xue, Xinyun Chen, Denny Zhou, Jian Tang, Dale Schuurmans, Hanjun Dai, (参考訳) いくつかの例と中間ステップで促されると、大きな言語モデル(LLM)は、様々な推論タスクにおいて印象的なパフォーマンスを示している。 しかし、LLMにおける暗黙の知識に依存しているメソッドのプロンプトは、暗黙の知識が誤りであったり、そのタスクと矛盾している場合、しばしば誤った答えを生じる。 この問題に対処するために,LLMによる推論のためのルールライブラリを学習するフレームワークであるHtT(Hypotheses-to-Theories)を提案する。 HtTは、誘導段階と推論段階の2つの段階を含む。 誘導段階では、LLMはまず一連のトレーニング例に基づいてルールを生成し検証するように要求される。 出現し、十分な正答につながるルールは、ルールライブラリを形成するために収集されることが多い。 推論段階では、LLMは学習ルールライブラリを使用して、テスト問題に答えるための推論を行うように促される。 リレーショナル推論、数値推論、概念学習に関する実験は、HtTが既存のプロンプト法を改良し、絶対精度が10~30%向上したことを示している。 学習されたルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。

When prompted with a few examples and intermediate steps, large language models (LLMs) have demonstrated impressive performance in various reasoning tasks. However, prompting methods that rely on implicit knowledge in an LLM often generate incorrect answers when the implicit knowledge is wrong or inconsistent with the task. To tackle this problem, we present Hypotheses-to-Theories (HtT), a framework that learns a rule library for reasoning with LLMs. HtT contains two stages, an induction stage and a deduction stage. In the induction stage, an LLM is first asked to generate and verify rules over a set of training examples. Rules that appear and lead to correct answers sufficiently often are collected to form a rule library. In the deduction stage, the LLM is then prompted to employ the learned rule library to perform reasoning to answer test questions. Experiments on relational reasoning, numerical reasoning and concept learning problems show that HtT improves existing prompting methods, with an absolute gain of 10-30% in accuracy. The learned rules are also transferable to different models and to different forms of the same problem.
公開日:2024-04-24
翻訳日:2024-04-26 23:47:37
# 不定量子ダイナミクスによる光回転計測におけるナノラディアンスケール精度

Nanoradian-Scale Precision in Light Rotation Measurement via Indefinite Quantum Dynamics ( http://arxiv.org/abs/2310.07125v3 )

ライセンス: Link先を確認
Binke Xia, Jingzheng Huang, Hongjing Li, Zhongyuan Luo, Guihua Zeng, (参考訳) 光ビームの操作とメロジは光学科学や応用にとって重要な要素である。 特に、光線回転測定における超高精度の達成は、長年にわたる課題である。 絡み合った光子のような量子プローブを利用する代わりに、量子パラメータ推定のパラメータ化プロセスに「不定時間方向」と呼ばれる量子戦略を組み込むことで、この問題に対処する。 パラメータ化力学のこの量子特性を活用することで、ビームプロファイルの極小角回転を測定するためのOAM資源の利用を最大化することができる。 特に、ナノラジアンスケールの光回転測定精度が実験でようやく達成された。 さらに、このスキームは光子によって提供される様々な操作可能な資源のために、様々な光学応用において有望である。

The manipulation and metrology of light beams are pivotal for optical science and applications. In particular, achieving ultra-high precision in the measurement of light beam rotations has been a long-standing challenge. Instead of utilizing quantum probes like entangled photons, we address this challenge by incorporating a quantum strategy called "indefinite time direction" into the parameterizing process of quantum parameter estimation. Leveraging this quantum property of the parameterizing dynamics allows us to maximize the utilization of OAM resources for measuring ultra-small angular rotations of beam profile. Notably, a nanoradian-scale precision of light rotation measurement is finally achieved in the experiment, which is the highest precision by far to our best knowledge. Furthermore, this scheme holds promise in various optical applications due to the diverse range of manipulable resources offered by photons.
公開日:2024-04-24
翻訳日:2024-04-26 23:47:37
# ルート付きベル試験による長距離量子相関の証明

Certifying long-range quantum correlations through routed Bell tests ( http://arxiv.org/abs/2310.07484v4 )

ライセンス: Link先を確認
Edwin Peter Lobo, Jef Pauwels, Stefano Pironio, (参考訳) 透過チャネルの損失は距離とともに増加するが、量子非局所性のフォトニクスの実証とその応用に大きな障害となる。 最近、Chaturvedi, Viola, and Pawlowski (CVP) [arXiv:2211.14231] は、量子非局所性を証明できる範囲を拡張することを目的として、標準ベルの実験のバリエーションを導入した。 と呼ばれるこれらの実験では、Bobは量子粒子を2つの可能な経路に沿ってルートし、それを2つの異なる場所(近距離と遠距離)で測定することができる。 ショートパスにおけるベルの違反は、ロングパスにおける非局所的相関を検出するために必要な条件を弱めるべきである。 実際、CVPはルーティングされたベル実験において、検出効率が任意に低い場合でも、リモートデバイスの結果を古典的に規定できないような量子相関が存在することを示した。 本稿では,CVPが考慮した相関関係を古典的に規定することはできないが,遠隔デバイスへの量子システムの伝送を必要としないことを示す。 これにより、ルート付きベル実験において「短距離」および「長距離」量子相関の概念が定義される。 これらの相関は、非可換多項式最適化のための標準半定値プログラム階層によって特徴づけられることを示す。 次に、短距離量子相関を除外できる条件について検討する。 我々は、遠方装置の臨界検出効率に基本的な低バウンドがあることを指摘し、経路付きベル実験では、任意に大きな距離で長距離量子非局所性を証明できないことを示唆している。 しかし,経路付きベル実験により検出効率の閾値が低下することが判明した。 しかし、改善はCVPの分析によって示唆されるものよりも大幅に小さい。

Losses in the transmission channel, which increase with distance, pose a major obstacle to photonics demonstrations of quantum nonlocality and its applications. Recently, Chaturvedi, Viola, and Pawlowski (CVP) [arXiv:2211.14231] introduced a variation of standard Bell experiments with the goal of extending the range over which quantum nonlocality can be demonstrated. In these experiments, which we call 'routed Bell experiments', Bob can route his quantum particle along two possible paths and measure it at two distinct locations - one near and another far from the source. The idea is that a Bell violation in the short-path should weaken the conditions required to detect nonlocal correlations in the long-path. Indeed, CVP showed that there are quantum correlations in routed Bell experiments such that the outcomes of the remote device cannot be classically predetermined, even when its detection efficiency is arbitrarily low. In this paper, we show that the correlations considered by CVP, though they cannot be classically predetermined, do not require the transmission of quantum systems to the remote device. This leads us to define the concept of 'short-range' and 'long-range' quantum correlations in routed Bell experiments. We show that these correlations can be characterized through standard semidefinite programming hierarchies for non-commutative polynomial optimization. We then explore the conditions under which short-range quantum correlations can be ruled out. We point out that there exist fundamental lower-bounds on the critical detection efficiency of the distant device, implying that routed Bell experiments cannot demonstrate long-range quantum nonlocality at arbitrarily large distances. However, we do find that routed Bell experiments allow for reducing the detection efficiency threshold. The improvements, though, are significantly smaller than those suggested by CVP's analysis.
公開日:2024-04-24
翻訳日:2024-04-26 23:47:37
# 視覚的注意刺激による予測と学習

Visual Attention Prompted Prediction and Learning ( http://arxiv.org/abs/2310.08420v3 )

ライセンス: Link先を確認
Yifei Zhang, Siyi Gu, Bo Pan, Guangji Bai, Meikang Qiu, Xiaofeng Yang, Liang Zhao, (参考訳) 視覚的説明(注意)誘導学習はラベルだけでなく、モデル推論プロセスのガイドにも用いられる。 視覚的注意誘導学習は有望な結果を示しているが、準備に時間を要する多くの説明アノテーションが必要である。 しかし、現実の多くの状況では、モデルの再訓練なしに視覚的注意を喚起することが望まれる。 例えば、医療画像上でAI支援がん分類を行う場合、利用者(例えば臨床医)は、どの領域が必須で、どの領域が除外されているかという視覚的な注意喚起をAIモデルに提供することができる。 その有望な目標にもかかわらず、視覚的な注意を喚起する予測を達成することは、いくつかの大きな課題を提示する。 1) モデル推論プロセスに視覚的プロンプトを効果的に組み込むには,どうすればよいのか? 2) 視覚的なプロンプトを欠いたサンプルをどう扱うべきか? 3)視覚的プロンプトが不完全である場合,モデルのパフォーマンスにどのような影響があるのか? 本稿では,視覚的プロンプトを利用してモデルの推論過程を制御し,注意喚起による予測と学習のための新しい枠組みを提案する。 非プロンプト状況における性能向上と、それに伴うシナリオの調整を目的として、非プロンプトモデルとプロンプトモデルの両方に対する協調学習手法を提案し、同様のパラメータとアクティベーションの共有を保証した。 さらに、視覚的プロンプトが入力画像全体を包含していない場合、革新的な注意喚起プロンプト改善法が開発されている。 これらの手法は、モデルの説明と整合性を維持しながら不完全なプロンプトを補間する。 4つのデータセットに対する大規模な実験により,提案手法の有効性が実証された。

Visual explanation (attention)-guided learning uses not only labels but also explanations to guide model reasoning process. While visual attention-guided learning has shown promising results, it requires a large number of explanation annotations that are time-consuming to prepare. However, in many real-world situations, it is usually desired to prompt the model with visual attention without model retraining. For example, when doing AI-assisted cancer classification on a medical image, users (e.g., clinicians) can provide the AI model with visual attention prompt on which areas are indispensable and which are precluded. Despite its promising objectives, achieving visual attention-prompted prediction presents several major challenges: 1) How can the visual prompt be effectively integrated into the model's reasoning process? 2) How should the model handle samples that lack visual prompts? 3) What is the impact on the model's performance when a visual prompt is imperfect? This paper introduces a novel framework for attention-prompted prediction and learning, utilizing visual prompts to steer the model's reasoning process. To improve performance in non-prompted situations and align it with prompted scenarios, we propose a co-training approach for both non-prompted and prompted models, ensuring they share similar parameters and activations. Additionally, for instances where the visual prompt does not encompass the entire input image, we have developed innovative attention prompt refinement methods. These methods interpolate the incomplete prompts while maintaining alignment with the model's explanations. Extensive experiments on four datasets demonstrate the effectiveness of our proposed framework in enhancing predictions for samples both with and without prompt.
公開日:2024-04-24
翻訳日:2024-04-26 23:47:37
# 脳年齢予測へのボクセルレベルのアプローチ:局所的脳老化評価法

A voxel-level approach to brain age prediction: A method to assess regional brain aging ( http://arxiv.org/abs/2310.11385v2 )

ライセンス: Link先を確認
Neha Gianchandani, Mahsa Dibaji, Johanna Ospel, Fernando Vega, Mariana Bento, M. Ethan MacDonald, Roberto Souza, (参考訳) 脳の老化は局所的な現象であり、機械学習の手法を用いて脳年齢予測研究の領域内では比較的解明されていない。 ボクセルレベルの予測は、局所的な脳年齢推定を提供し、局所的な老化過程に関する詳細な洞察を与えることができる。 これは,健常者と疾患者における老化軌跡の相違を理解するために不可欠である。 本研究では,T1強調磁気共鳴画像からのボクセルレベルの脳年齢予測のために,深層学習に基づくマルチタスクモデルを提案する。 提案モデルは文献に存在するモデルより優れており、健康な人口と病気の人口の両方に適用した場合に貴重な臨床所見が得られる。 脳の既知の解剖学的領域の老化軌跡を理解するために、ボクセルレベルの脳年齢予測を用いて局所分析を行い、認知症やより具体的にはアルツハイマー病のような基礎疾患の患者と比較して、健常者の地域老化軌跡に相違があることが示されている。 私たちのコードはhttps://github.com/nehagianchandani/Voxel-level-brain-age-predictionで公開されています。

Brain aging is a regional phenomenon, a facet that remains relatively under-explored within the realm of brain age prediction research using machine learning methods. Voxel-level predictions can provide localized brain age estimates that can provide granular insights into the regional aging processes. This is essential to understand the differences in aging trajectories in healthy versus diseased subjects. In this work, a deep learning-based multitask model is proposed for voxel-level brain age prediction from T1-weighted magnetic resonance images. The proposed model outperforms the models existing in the literature and yields valuable clinical insights when applied to both healthy and diseased populations. Regional analysis is performed on the voxel-level brain age predictions to understand aging trajectories of known anatomical regions in the brain and show that there exist disparities in regional aging trajectories of healthy subjects compared to ones with underlying neurological disorders such as Dementia and more specifically, Alzheimer's disease. Our code is available at https://github.com/nehagianchandani/Voxel-level-brain-age-prediction.
公開日:2024-04-24
翻訳日:2024-04-26 23:47:37
# ニューラルパーセプション機構を持つ部分観測可能な確率ゲーム

Partially Observable Stochastic Games with Neural Perception Mechanisms ( http://arxiv.org/abs/2310.11566v2 )

ライセンス: Link先を確認
Rui Yan, Gabriel Santos, Gethin Norman, David Parker, Marta Kwiatkowska, (参考訳) 確率ゲームは、不確実性の下でのマルチエージェントシーケンシャル決定のためのよく確立されたモデルである。 しかし、現実的な応用では、エージェントは環境の部分的な観察性しか持たないことが多い。 さらに、エージェントは、継続的データに基づいてトレーニングされたニューラルネットワークのようなデータ駆動アプローチを使用して、環境をますます知覚する。 本稿では,ニューラルシンボリックな部分可観測確率ゲーム(NS-POSG)のモデルを提案する。 我々は、離散的データ駆動観察と、完全インフォームドエージェントを用いた部分インフォームドエージェントによる一方的な設定に焦点を当てた。 本稿では,片側NS-POSGを近似解として,片側NS-HSVIと呼ばれる新しい手法を提案する。 ニューラルネットワークプレイメージ分析を用いて,有限多面体表現と粒子に基づく信念表現を構築し,歩行者車と追従回避シナリオの分析にその実践的適用性を示す。

Stochastic games are a well established model for multi-agent sequential decision making under uncertainty. In practical applications, though, agents often have only partial observability of their environment. Furthermore, agents increasingly perceive their environment using data-driven approaches such as neural networks trained on continuous data. We propose the model of neuro-symbolic partially-observable stochastic games (NS-POSGs), a variant of continuous-space concurrent stochastic games that explicitly incorporates neural perception mechanisms. We focus on a one-sided setting with a partially-informed agent using discrete, data-driven observations and another, fully-informed agent. We present a new method, called one-sided NS-HSVI, for approximate solution of one-sided NS-POSGs, which exploits the piecewise constant structure of the model. Using neural network pre-image analysis to construct finite polyhedral representations and particle-based representations for beliefs, we implement our approach and illustrate its practical applicability to the analysis of pedestrian-vehicle and pursuit-evasion scenarios.
公開日:2024-04-24
翻訳日:2024-04-26 23:47:37
# 二重発色エニグマの解明:学習した特徴空間のレンズによる深部分析

Unraveling the Enigma of Double Descent: An In-depth Analysis through the Lens of Learned Feature Space ( http://arxiv.org/abs/2310.13572v3 )

ライセンス: Link先を確認
Yufei Gu, Xiaoqing Zheng, Tomaso Aste, (参考訳) 二重降下は機械学習領域において直感に反する側面を示し、研究者は様々なモデルやタスクでその現象を観察してきた。 特定の文脈において、この現象に関するいくつかの理論的説明が提案されているが、深層学習における現象を考慮に入れた理論はまだ確立されていない。 本研究では、二重降下現象を再考し、その発生がノイズデータの存在に強く影響されていることを示す。 学習した表現の特徴空間を包括的に解析することにより、ノイズの多いデータで訓練された不完全なモデルに二重降下が生じていることを明らかにする。 二重降下は、まず補間するまでノイズデータを学習し、次に過パラメータ化による暗黙の正規化を加えることによって、ノイズから情報を分離する能力を持つモデルの結果である、と我々は主張する。

Double descent presents a counter-intuitive aspect within the machine learning domain, and researchers have observed its manifestation in various models and tasks. While some theoretical explanations have been proposed for this phenomenon in specific contexts, an accepted theory to account for its occurrence in deep learning remains yet to be established. In this study, we revisit the phenomenon of double descent and demonstrate that its occurrence is strongly influenced by the presence of noisy data. Through conducting a comprehensive analysis of the feature space of learned representations, we unveil that double descent arises in imperfect models trained with noisy data. We argue that double descent is a consequence of the model first learning the noisy data until interpolation and then adding implicit regularization via over-parameterization acquiring therefore capability to separate the information from the noise.
公開日:2024-04-25
翻訳日:2024-04-26 23:47:37
# ZTD$_{JAVA}$:ゼロトラスト依存によるソフトウェアサプライチェーン脆弱性の緩和

ZTD$_{JAVA}$: Mitigating Software Supply Chain Vulnerabilities via Zero-Trust Dependencies ( http://arxiv.org/abs/2310.14117v2 )

ライセンス: Link先を確認
Paschal C. Amusuo, Kyle A. Robinson, Tanmay Singla, Huiyun Peng, Aravind Machiry, Santiago Torres-Arias, Laurent Simon, James C. Davis, (参考訳) Log4Jのようなサードパーティのソフトウェアコンポーネントは、ソフトウェア開発を加速するが、かなりのリスクをもたらす。 これらのコンポーネントは、多くのソフトウェアサプライチェーン攻撃を引き起こしている。 これらの攻撃は、サードパーティのソフトウェアコンポーネントがアプリケーションに暗黙的に信頼されているため、成功する。 サードパーティのソフトウェアコンポーネントからのリスクを軽減するために、いくつかのセキュリティディフェンスが存在するが、いずれも、一般的な攻撃に対して防御するために必要な要件をすべて満たしていない。 個々のソリューションがオペレーティングシステムリソースへの悪意あるアクセスを防ぎ、依存関係を認識し、最小限の特権の発見を可能にする。 そのため、ソフトウェアサプライチェーンの攻撃を防ぐことはできない。 本稿では,NIST Zero Trust Architectureをソフトウェアアプリケーションに適用することを提案する。 我々のゼロトラスト依存性の概念は、NIST ZTAの原則をアプリケーションの依存性に適用します。 まず、サードパーティのソフトウェアコンポーネントとその脆弱性を調査し、ゼロトラスト依存の期待される有効性と実現可能性を評価する。 そして、ソフトウェアアプリケーションへのゼロトラスト依存の適用を可能にするシステム設計であるZTDSYSと、Javaアプリケーションに対するプロトタイプであるZTDJAVAを提案する。 最後に、再現された脆弱性と現実的なアプリケーションの評価から、ZTDJAVAは一般的な脆弱性クラスに対して防御でき、無視可能なコストを導入でき、設定や使用が容易であることを示す。

Third-party software components like Log4J accelerate software application development but introduce substantial risk. These components have led to many software supply chain attacks. These attacks succeed because third-party software components are implicitly trusted in an application. Although several security defenses exist to reduce the risks from third-party software components, none of them fulfills the full set of requirements needed to defend against common attacks. No individual solution prevents malicious access to operating system resources, is dependency-aware, and enables the discovery of least privileges, all with low runtime costs. Consequently, they cannot prevent software supply chain attacks. This paper proposes applying the NIST Zero Trust Architecture to software applications. Our Zero Trust Dependencies concept applies the NIST ZTA principles to an application's dependencies. First, we assess the expected effectiveness and feasibility of Zero Trust Dependencies using a study of third-party software components and their vulnerabilities. Then, we present a system design, ZTDSYS, that enables the application of Zero Trust Dependencies to software applications and a prototype, ZTDJAVA, for Java applications. Finally, with evaluations on recreated vulnerabilities and realistic applications, we show that ZTDJAVA can defend against prevalent vulnerability classes, introduces negligible cost, and is easy to configure and use.
公開日:2024-04-25
翻訳日:2024-04-26 23:47:37
# PopDescentでスケジュールをストラップする

Scrap Your Schedules with PopDescent ( http://arxiv.org/abs/2310.14671v2 )

ライセンス: Link先を確認
Abhinav Pomalapally, Bassel El Mabsout, Renato Mansuco, (参考訳) 現代の機械学習のワークロードでは、多くのハイパーパラメータ探索アルゴリズムが頻繁に使われ、学習や正規化率などのハイパフォーマンスなハイパーパラメータ値を効率的に発見する。 その結果、トレーニング中にハイパーパラメータを調整する能力を活用し、損失性能を向上させるために、パラメータスケジュールの幅が設計された。 しかし、これらのスケジュールは、探索すべき新しいハイパーパラメータを導入し、トレーニング中のモデルの現在の損失値を考慮しない。 これらの課題に対処するため,我々は,人口探索を用いた進捗対応ハイパーパラメータチューニング技術であるPopDescent(PopDescent)を提案する。 PopDescentは進化的および局所的な探索プロセスを統合することで、そのパフォーマンスに基づいてトレーニング中のハイパーパラメータオプションを積極的に探索する。 標準的な機械学習ビジョンタスクの試行では、PopDescentは既存の検索手法よりも高速に収束し、テストロス値が最大18%低いモデルパラメータがスケジュールの利用を考慮しても見つかる。 さらに,PopDescentの強靭さを,その初期訓練パラメータに強調する。

In contemporary machine learning workloads, numerous hyper-parameter search algorithms are frequently utilized to efficiently discover high-performing hyper-parameter values, such as learning and regularization rates. As a result, a range of parameter schedules have been designed to leverage the capability of adjusting hyper-parameters during training to enhance loss performance. These schedules, however, introduce new hyper-parameters to be searched and do not account for the current loss values of the models being trained. To address these issues, we propose Population Descent (PopDescent), a progress-aware hyper-parameter tuning technique that employs a memetic, population-based search. By merging evolutionary and local search processes, PopDescent proactively explores hyper-parameter options during training based on their performance. Our trials on standard machine learning vision tasks show that PopDescent converges faster than existing search methods, finding model parameters with test-loss values up to 18% lower, even when considering the use of schedules. Moreover, we highlight the robustness of PopDescent to its initial training parameters, a crucial characteristic for hyper-parameter search techniques.
公開日:2024-04-24
翻訳日:2024-04-26 23:47:37
# Pix2HDR -- 高速HDRビデオのための画素単位の取得と深層学習に基づく合成アプローチ

Pix2HDR -- A pixel-wise acquisition and deep learning-based synthesis approach for high-speed HDR videos ( http://arxiv.org/abs/2310.16139v2 )

ライセンス: Link先を確認
Caixin Wang, Jie Zhang, Matthew A. Wilson, Ralph Etienne-Cummings, (参考訳) 多くの視覚応用において、広い動きと光の強さで正確なダイナミックシーンを捉えることが不可欠である。 しかし、カメラのフレームレートがダイナミックレンジを制限するため、高速ハイダイナミックレンジ(HDR)ビデオの取得は困難である。 既存の方法はマルチ露光フレームを取得するために速度を犠牲にする。 しかし、これらのフレーム内の不整合運動は、なおもHDR融合アルゴリズムの複雑さを生じさせ、結果としてアーティファクトが生じる。 フレームベースの露光の代わりに、個々のピクセルを様々な露光や位相オフセットでサンプリングする。 モノクロ・ピクセル・ワイド・プログラマブル・イメージセンサに実装したサンプリング・パターンは,高ダイナミックレンジでの高速な動きを同時にキャプチャする。 次に、深層ニューラルネットワークから学習した重みをエンド・ツー・エンドの重み付けでHDRビデオに変換し、動きのぼかしを最小限に抑えて高時空間分解能を実現する。 我々は、1000FPSでエイリアスフリーのHDRビデオの取得を実証し、低照度条件下での高速な動きと明るい背景を解消する。 複雑なシーンをデコードする際の深層ニューラルネットワークの強度と画素ワイドサンプリングパターンの汎用性を組み合わせることにより,動的条件下での視覚システムの適応性と性能を大幅に向上させる。

Accurately capturing dynamic scenes with wide-ranging motion and light intensity is crucial for many vision applications. However, acquiring high-speed high dynamic range (HDR) video is challenging because the camera's frame rate restricts its dynamic range. Existing methods sacrifice speed to acquire multi-exposure frames. Yet, misaligned motion in these frames can still pose complications for HDR fusion algorithms, resulting in artifacts. Instead of frame-based exposures, we sample the videos using individual pixels at varying exposures and phase offsets. Implemented on a monochrome pixel-wise programmable image sensor, our sampling pattern simultaneously captures fast motion at a high dynamic range. We then transform pixel-wise outputs into an HDR video using end-to-end learned weights from deep neural networks, achieving high spatiotemporal resolution with minimized motion blurring. We demonstrate aliasing-free HDR video acquisition at 1000 FPS, resolving fast motion under low-light conditions and against bright backgrounds - both challenging conditions for conventional cameras. By combining the versatility of pixel-wise sampling patterns with the strength of deep neural networks at decoding complex scenes, our method greatly enhances the vision system's adaptability and performance in dynamic conditions.
公開日:2024-04-25
翻訳日:2024-04-26 23:37:50
# MyriadAL: 病理学のためのアクティブショットラーニング

MyriadAL: Active Few Shot Learning for Histopathology ( http://arxiv.org/abs/2310.16161v2 )

ライセンス: Link先を確認
Nico Schiavone, Jingyi Wang, Shuangzhi Li, Roger Zemp, Xingyu Li, (参考訳) アクティブラーニング(AL)とFew Shot Learning(FSL)は,近年,優れた成果を上げているラベル効率のよい2つの手法である。 しかし、両方の学習パラダイムにおけるほとんどの先行技術は、膨大な未学習データの富を探索することができない。 本研究では、アノテーションの予算が非常に限られているが、目的とするタスクに対する大量の不正なデータが利用可能であるシナリオにおいて、この問題に対処する。 この研究は、ラベリングが違法に高価である、病理学の文脈におけるものである。 この目的のために我々は,MAL (Myriad Active Learning) という,対照的な学習エンコーダ,擬似ラベル生成,ループ内の新しいクエリサンプル選択など,活発な数個のショットラーニングフレームワークを導入する。 具体的には、得られたデータ表現とクラスタリング知識が、ALループを活性化する基盤となる、自己管理的な方法で、未学習データをマッサージすることを提案する。 各ALサイクルのオラクルからのフィードバックにより、エンコーダの上の浅いタスク固有ネットを最適化することにより、未ラベルデータの擬似ラベルを洗練する。 これらの更新された擬似ラベルは、アクティブな学習クエリ選択プロセスの通知と改善に役立つ。 さらに、既存の不確実性対策を組み合わせる新しいレシピを導入し、不確実性リスト全体を利用してALのサンプル冗長性を低減した。 2つの公開病理学データセットに対する大規模な実験により、MALは以前の研究よりもテスト精度、マクロF1スコア、ラベルの効率が優れており、データセットの5%しかラベル付けせず、完全に教師付きされたアルゴリズムに匹敵するテスト精度を達成できることが示された。

Active Learning (AL) and Few Shot Learning (FSL) are two label-efficient methods which have achieved excellent results recently. However, most prior arts in both learning paradigms fail to explore the wealth of the vast unlabelled data. In this study, we address this issue in the scenario where the annotation budget is very limited, yet a large amount of unlabelled data for the target task is available. We frame this work in the context of histopathology where labelling is prohibitively expensive. To this end, we introduce an active few shot learning framework, Myriad Active Learning (MAL), including a contrastive-learning encoder, pseudo-label generation, and novel query sample selection in the loop. Specifically, we propose to massage unlabelled data in a self-supervised manner, where the obtained data representations and clustering knowledge form the basis to activate the AL loop. With feedback from the oracle in each AL cycle, the pseudo-labels of the unlabelled data are refined by optimizing a shallow task-specific net on top of the encoder. These updated pseudo-labels serve to inform and improve the active learning query selection process. Furthermore, we introduce a novel recipe to combine existing uncertainty measures and utilize the entire uncertainty list to reduce sample redundancy in AL. Extensive experiments on two public histopathology datasets show that MAL has superior test accuracy, macro F1-score, and label efficiency compared to prior works, and can achieve a comparable test accuracy to a fully supervised algorithm while labelling only 5% of the dataset.
公開日:2024-04-25
翻訳日:2024-04-26 23:37:50
# フリーフォームフロー:任意のアーキテクチャを正規化フローにする

Free-form Flows: Make Any Architecture a Normalizing Flow ( http://arxiv.org/abs/2310.16624v2 )

ライセンス: Link先を確認
Felix Draxler, Peter Sorrenson, Lea Zimmermann, Armand Rousselot, Ullrich Köthe, (参考訳) 正規化フローは、可能性を直接最大化する生成モデルである。 従来, 正規化フローの設計は解析的可逆性の必要性に大きく制約されていた。 この制約を,変数式の変化の勾配を効率的に推定する訓練手法によって克服する。 これにより、任意の次元保存ニューラルネットワークが、最大限のトレーニングを通じて生成モデルとして機能することが可能になる。 当社のアプローチでは,手元にあるタスクに対して,帰納的バイアスを正確に調整することに重点を置くことが可能です。 具体的には、$E(n)$-equivariantネットワークを用いた分子生成ベンチマークにおいて優れた結果を得る。 さらに,本手法は,市販のResNetアーキテクチャを採用しながら,逆問題ベンチマークにおいて競合する。

Normalizing Flows are generative models that directly maximize the likelihood. Previously, the design of normalizing flows was largely constrained by the need for analytical invertibility. We overcome this constraint by a training procedure that uses an efficient estimator for the gradient of the change of variables formula. This enables any dimension-preserving neural network to serve as a generative model through maximum likelihood training. Our approach allows placing the emphasis on tailoring inductive biases precisely to the task at hand. Specifically, we achieve excellent results in molecule generation benchmarks utilizing $E(n)$-equivariant networks. Moreover, our method is competitive in an inverse problem benchmark, while employing off-the-shelf ResNet architectures.
公開日:2024-04-24
翻訳日:2024-04-26 23:37:50
# UWFormer:半監督型マルチスケール変圧器による水中画像強調

UWFormer: Underwater Image Enhancement via a Semi-Supervised Multi-Scale Transformer ( http://arxiv.org/abs/2310.20210v4 )

ライセンス: Link先を確認
Weiwen Chen, Yingtie Lei, Shenghong Luo, Ziyang Zhou, Mingxian Li, Chi-Man Pun, (参考訳) 水中画像は、光、水、物体の複雑な複雑な相互作用のため、品質が悪く、色バランスが歪んだり、コントラストが低かったりすることが多い。 従来の水中強化技術には大きな貢献があったが、さらなる改善を求める問題がいくつかある。 (i)現在のディープラーニング手法は、マルチスケールの強化を欠いた畳み込みニューラルネットワーク(CNN)に依存しており、グローバルな知覚場も制限されている。 (II)実世界の水中データセットの不足は大きな課題となり、合成画像ペアの利用が過度に適合する可能性がある。 上記の問題に対処するため, 半教師付き学習による複数周波数画像の強調を行うUWFormerと呼ばれるマルチスケールトランスフォーマーネットワークを導入し, 低周波数強調のための非線形周波数認識アテンション機構とマルチスケールフュージョンフィードフォワードネットワークを提案する。 さらに,水中における半教師付き訓練戦略を導入し,疑似ラベルを生成するためのサブアキュースパーセプティカルロス関数を提案する。 完全参照型および非参照型水中ベンチマークを用いた実験により,本手法は,量および視覚的品質の両面で最先端の手法より優れていることが示された。

Underwater images often exhibit poor quality, distorted color balance and low contrast due to the complex and intricate interplay of light, water, and objects. Despite the significant contributions of previous underwater enhancement techniques, there exist several problems that demand further improvement: (i) The current deep learning methods rely on Convolutional Neural Networks (CNNs) that lack the multi-scale enhancement, and global perception field is also limited. (ii) The scarcity of paired real-world underwater datasets poses a significant challenge, and the utilization of synthetic image pairs could lead to overfitting. To address the aforementioned problems, this paper introduces a Multi-scale Transformer-based Network called UWFormer for enhancing images at multiple frequencies via semi-supervised learning, in which we propose a Nonlinear Frequency-aware Attention mechanism and a Multi-Scale Fusion Feed-forward Network for low-frequency enhancement. Besides, we introduce a special underwater semi-supervised training strategy, where we propose a Subaqueous Perceptual Loss function to generate reliable pseudo labels. Experiments using full-reference and non-reference underwater benchmarks demonstrate that our method outperforms state-of-the-art methods in terms of both quantity and visual quality.
公開日:2024-04-24
翻訳日:2024-04-26 23:37:50
# 周波数領域におけるNOON状態干渉

NOON-state interference in the frequency domain ( http://arxiv.org/abs/2311.00338v2 )

ライセンス: Link先を確認
Dongjin Lee, Woncheol Shin, Sebae Park, Junyeop Kim, Heedeuk Shin, (参考訳) 様々な自由度にまたがる絡み合いの検証は、基礎物理学の理解を高め、高次元の量子状態にまで拡張し、量子技術のスケーラビリティを約束する上で重要なものである。 本稿では,周波数領域における光子数経路の絡み合いをブラッグ散乱4波混合を用いて50%の確率で1光子周波数を別の周波数に変換する周波数ビームスプリッタにより実証する。 単一モードファイバ内の2光子NOON状態は周波数領域で発生し、単光子干渉と比較して2光子干渉が2倍の高分解能で示され、干渉計の優れた安定性を示す。 この周波数領域における量子状態の翻訳の成功は、魅力的な量子現象の発見とスケーラブルな量子情報処理への道を開くだろう。

The examination of entanglement across various degrees of freedom has been pivotal in augmenting our understanding of fundamental physics, extending to high dimensional quantum states, and promising the scalability of quantum technologies. In this paper, we demonstrate the photon number path entanglement in the frequency domain by implementing a frequency beam splitter that converts the single-photon frequency to another with 50% probability using Bragg scattering four-wave mixing. The two-photon NOON state in a single-mode fiber is generated in the frequency domain, manifesting the two-photon interference with two-fold enhanced resolution compared to that of single-photon interference, showing the outstanding stability of the interferometer. This successful translation of quantum states in the frequency domain will pave the way toward the discovery of fascinating quantum phenomena and scalable quantum information processing.
公開日:2024-04-25
翻訳日:2024-04-26 23:37:50
# 日頭電力価格予測のための適応的標準化手法

An adaptive standardisation methodology for Day-Ahead electricity price forecasting ( http://arxiv.org/abs/2311.02610v2 )

ライセンス: Link先を確認
Carlos Sebastián, Carlos E. González-Guillén, Jesús Juan, (参考訳) 電力市場における日頭価格の研究は、時系列予測において最も一般的な問題の一つである。 これまでの研究は、市場の洗練されたダイナミクスを捉えるために、ますます複雑な学習アルゴリズムを使うことに重点を置いてきた。 しかし、複雑さが増大しても大幅な改善が得られないしきい値が存在する。 本研究では,市場において一般的に発生するデータセットシフトの影響を軽減するために,適応標準化を導入することで,代替手法を提案する。 これにより、学習アルゴリズムは、対象変数と説明変数の真の関係を明らかにすることを優先することができる。 文献に記載されていない2つの新しいデータセットを含む5つの異なる市場を調査した。 これらのデータセットは、従来のデータセットが示さない、現在の市場コンテキストをより現実的な表現を提供する。 その結果、文学(LEAR、DNN)において広く受け入れられている学習アルゴリズムを用いて、5つの市場すべてで大幅な改善が示された。 特に,提案手法と文献に提示された方法論を組み合わせることで,最良の結果が得られる。 この大きな進歩は、この分野での新しい研究ラインを明らかにし、予測モデルの性能を高めるための適応変換の可能性を強調している。

The study of Day-Ahead prices in the electricity market is one of the most popular problems in time series forecasting. Previous research has focused on employing increasingly complex learning algorithms to capture the sophisticated dynamics of the market. However, there is a threshold where increased complexity fails to yield substantial improvements. In this work, we propose an alternative approach by introducing an adaptive standardisation to mitigate the effects of dataset shifts that commonly occur in the market. By doing so, learning algorithms can prioritize uncovering the true relationship between the target variable and the explanatory variables. We investigate five distinct markets, including two novel datasets, previously unexplored in the literature. These datasets provide a more realistic representation of the current market context, that conventional datasets do not show. The results demonstrate a significant improvement across all five markets using the widely accepted learning algorithms in the literature (LEAR and DNN). In particular, the combination of the proposed methodology with the methodology previously presented in the literature obtains the best results. This significant advancement unveils new lines of research in this field, highlighting the potential of adaptive transformations in enhancing the performance of forecasting models.
公開日:2024-04-25
翻訳日:2024-04-26 23:37:50
# Promptキャッシュ: 低レイテンシ推論のためのモジュールアテンション再利用

Prompt Cache: Modular Attention Reuse for Low-Latency Inference ( http://arxiv.org/abs/2311.04934v2 )

ライセンス: Link先を確認
In Gim, Guojun Chen, Seung-seob Lee, Nikhil Sarda, Anurag Khandelwal, Lin Zhong, (参考訳) 本稿では,LLMプロンプト間の注意状態の再利用により,大規模言語モデル(LLM)の推論を高速化する手法であるPrompt Cacheを提案する。 多くの入力プロンプトは、システムメッセージ、プロンプトテンプレート、コンテキスト用のドキュメントなど、重なり合うテキストセグメントを持つ。 我々の重要な洞察は、頻繁に発生するテキストセグメントの注意状態を推論サーバにプリ計算し、保存することで、これらのセグメントがユーザプロンプトに現れると、それらを効率的に再利用できるということである。 Prompt Cacheはスキーマを使用して、プロンプトモジュールと呼ばれる再利用可能なテキストセグメントを明示的に定義する。 このスキーマは、注意状態の再利用中に位置精度を保証し、ユーザにプロンプトでキャッシュされた状態にアクセスするインターフェースを提供する。 プロトタイプ実装を用いて,複数の LLM にまたがる Prompt Cache を評価する。 本稿では,特にドキュメントベースの質問応答やレコメンデーションなどのより長いプロンプトにおいて,Prompt Cacheは遅延を著しく低減することを示す。 改善点は、GPUベースの推論では8倍、CPUベースの推論では60倍まで、出力精度を維持しながら、モデルパラメータの変更を必要としない。

We present Prompt Cache, an approach for accelerating inference for large language models (LLM) by reusing attention states across different LLM prompts. Many input prompts have overlapping text segments, such as system messages, prompt templates, and documents provided for context. Our key insight is that by precomputing and storing the attention states of these frequently occurring text segments on the inference server, we can efficiently reuse them when these segments appear in user prompts. Prompt Cache employs a schema to explicitly define such reusable text segments, called prompt modules. The schema ensures positional accuracy during attention state reuse and provides users with an interface to access cached states in their prompt. Using a prototype implementation, we evaluate Prompt Cache across several LLMs. We show that Prompt Cache significantly reduce latency in time-to-first-token, especially for longer prompts such as document-based question answering and recommendations. The improvements range from 8x for GPU-based inference to 60x for CPU-based inference, all while maintaining output accuracy and without the need for model parameter modifications.
公開日:2024-04-25
翻訳日:2024-04-26 23:37:50
# 量子時空間相関における時間矢印の推定

Inferring the arrow of time in quantum spatiotemporal correlations ( http://arxiv.org/abs/2311.07086v3 )

ライセンス: Link先を確認
Xiangjing Liu, Qian Chen, Oscar Dahlsten, (参考訳) 量子実験から得られた測定データに付随する時間順序を2回および任意の数量子ビットで示す方法について検討する。 時間推定問題の矢印を定義する。 我々は、時間反転の下で対称あるいは非対称な初期状態と最終状態の条件を考える。 擬似密度行列時空間状態を用いて時空間計測データを表現した。 CPTPであるフォワードプロセスと、逆ユニタリディレーションに基づく新しいリカバリマップによって得られるリバースプロセスとがある。 非対称な条件に対して、このプロトコルは、データがユニタリディレーション回復マップと一致しているか、CPTPマップと一致しているかを決定する。 対称条件の場合、リカバリマップは有効なCPTPマップを生成し、実験はどちらの方向にも行われたかもしれない。 また、Leifer-Spekkens あるいは ProcessMatrix の時空状態へのアプローチの適応についても論じる。

We consider how to tell the time-ordering associated with measurement data from quantum experiments at two times and any number of qubits. We define an arrow of time inference problem. We consider conditions on the initial and final states that are symmetric or asymmetric under time reversal. We represent the spatiotemporal measurement data via the pseudo density matrix space-time state. There is a forward process which is CPTP and a reverse process which is obtained via a novel recovery map based on inverting unitary dilations. For asymmetric conditions, the protocol determines whether the data is consistent with the unitary dilation recovery map or the CPTP map. For symmetric conditions, the recovery map yields a valid CPTP map and the experiment may have taken place in either direction. We also discuss adapting the approach to the Leifer-Spekkens or Process matrix space-time states.
公開日:2024-04-25
翻訳日:2024-04-26 23:37:50
# 不規則時系列に対する動的局所的注意を伴う2段階集約

Two-Stage Aggregation with Dynamic Local Attention for Irregular Time Series ( http://arxiv.org/abs/2311.07744v2 )

ライセンス: Link先を確認
Xingyu Chen, Xiaochen Zheng, Amina Mollaysa, Manuel Schürch, Ahmed Allam, Michael Krauthammer, (参考訳) 不規則な多変量時系列データは、測定された変数/信号(特徴)の連続的な観測とこれらの特徴の様々なサンプリングレート(記録/測定)の間の時間間隔を特徴とする。 これらの不規則さを考慮に入れながら時系列をモデル化することは、機械学習手法にとって依然として難しい課題である。 本稿では,動的局所注意を伴う2段階アグリゲーションプロセスであるTADを紹介し,多変量時系列における時間的および特徴的不規則性を調和させる。 第1段階では、不規則な時系列は、各ステップで利用可能なすべての特徴を使用して時間的埋め込み(TE)を行う。 このプロセスは利用可能な各特徴の寄与を保存し、時間ステップ毎に固定次元表現を生成する。 第2段階では、適応的なウィンドウサイズを持つダイナミックローカルアテンション(DLA)機構が導入されている。 DLAは特徴特化ウィンドウを用いて時間記録を集約し、特徴特化サンプリングレートをキャプチャする不規則な時間間隔を調和させる。 その後、階層的なMLPミキサー層がマルチスケールパッチを通してDLAの出力を処理し、下流のタスクに様々なスケールで情報を活用する。 TADAは最新のMIMIC IVデータセットを含む3つの実世界のデータセットで最先端の手法より優れており、不規則な多変量時系列の処理とその様々な実世界の応用の可能性を強調している。

Irregular multivariate time series data is characterized by varying time intervals between consecutive observations of measured variables/signals (i.e., features) and varying sampling rates (i.e., recordings/measurement) across these features. Modeling time series while taking into account these irregularities is still a challenging task for machine learning methods. Here, we introduce TADA, a Two-stageAggregation process with Dynamic local Attention to harmonize time-wise and feature-wise irregularities in multivariate time series. In the first stage, the irregular time series undergoes temporal embedding (TE) using all available features at each time step. This process preserves the contribution of each available feature and generates a fixed-dimensional representation per time step. The second stage introduces a dynamic local attention (DLA) mechanism with adaptive window sizes. DLA aggregates time recordings using feature-specific windows to harmonize irregular time intervals capturing feature-specific sampling rates. Then hierarchical MLP mixer layers process the output of DLA through multiscale patching to leverage information at various scales for the downstream tasks. TADA outperforms state-of-the-art methods on three real-world datasets, including the latest MIMIC IV dataset, and highlights its effectiveness in handling irregular multivariate time series and its potential for various real-world applications.
公開日:2024-04-25
翻訳日:2024-04-26 23:37:50
# 物理インフォームドニューラルネットワークを用いたデータ駆動建築エネルギー効率予測

Data-driven building energy efficiency prediction using physics-informed neural networks ( http://arxiv.org/abs/2311.08035v2 )

ライセンス: Link先を確認
Vasilis Michalakopoulos, Sotiris Pelekis, Giorgos Kormpakis, Vagelis Karakolis, Spiros Mouzakitis, Dimitris Askounis, (参考訳) 個別の封筒成分の熱損失に基づく住宅における建築エネルギー性能の予測は難しい課題である。 この分野はまだ初期段階であり、特にデータ駆動アプローチに関して、この特定領域ではこれまで比較的限られた研究がなされている点に注意が必要だ。 本稿では,この問題に対処するための新しい物理インフォームドニューラルネットワークモデルを提案する。 一般ビルディング情報,監査特性,暖房エネルギー消費を含む未公開データセットの利用を通じて,ディープラーニングモデルに一般ビルディング情報を提供する一方,モデル出力は構造成分と実際にエネルギー性能証明(EPC)の基本要素であるいくつかの熱特性から構成される。 このニューラルネットワークの上に、物理方程式に基づく関数が、熱損失に基づいて建物のエネルギー消費を計算し、ディープラーニングモデルの損失関数を強化する。 この手法は、ラトビアのリガにある256の建物の実例調査で検証されている。 本研究は,人間の主導によるエネルギー効率監査とは対照的に,建物の基本特性に基づいて,予測精度,自動化方法,およびデータ駆動型エネルギー効率性能の予測を行う上で有望な結果が得られた。

The analytical prediction of building energy performance in residential buildings based on the heat losses of its individual envelope components is a challenging task. It is worth noting that this field is still in its infancy, with relatively limited research conducted in this specific area to date, especially when it comes for data-driven approaches. In this paper we introduce a novel physics-informed neural network model for addressing this problem. Through the employment of unexposed datasets that encompass general building information, audited characteristics, and heating energy consumption, we feed the deep learning model with general building information, while the model's output consists of the structural components and several thermal properties that are in fact the basic elements of an energy performance certificate (EPC). On top of this neural network, a function, based on physics equations, calculates the energy consumption of the building based on heat losses and enhances the loss function of the deep learning model. This methodology is tested on a real case study for 256 buildings located in Riga, Latvia. Our investigation comes up with promising results in terms of prediction accuracy, paving the way for automated, and data-driven energy efficiency performance prediction based on basic properties of the building, contrary to exhaustive energy efficiency audits led by humans, which are the current status quo.
公開日:2024-04-25
翻訳日:2024-04-26 23:37:50
# 協調フィルタリングのためのグラフ信号拡散モデル

Graph Signal Diffusion Model for Collaborative Filtering ( http://arxiv.org/abs/2311.08744v3 )

ライセンス: Link先を確認
Yunqin Zhu, Chao Wang, Qi Zhang, Hui Xiong, (参考訳) 協調フィルタリングはレコメンデータシステムにおいて重要な手法である。 ユーザフィードバックデータに対する条件付き生成タスクとして,新たな拡散モデルが大きな可能性を秘めている。 しかし、既存の拡散モデルの研究では、暗黙のフィードバックをモデル化するための効果的な解決策が欠如している。 特に、標準等方拡散過程は、相互作用空間のグラフィカル構造と誤って、アイテム間の相関性を見落としている。 一方、ガウスノイズはユーザのインタラクションベクター内のパーソナライズされた情報を破壊し、その再構築が困難になる。 本稿では,標準拡散モデルを適用し,協調フィルタリングのためのグラフ信号拡散モデル(GiffCF)を提案する。 ユーザ・イテム相互作用の相関分布をよりよく表現するために、アイテム・イテム類似性グラフ上の熱方程式を用いた一般化拡散過程を定義する。 我々のフォワードプロセスは、グラフフィルタの高度なファミリとの相互作用信号を円滑にし、グラフ隣接性を推奨のための有益な事前知識として導入する。 我々のリバースプロセスは、ノイズのない方法で遅延信号を反復的に洗練・シャープし、ユーザの履歴に基づいて更新を条件付け、慎重に設計された2段階のデノイザから計算し、高品質な再構築をもたらす。 最後に、GiffCFは拡散モデルとグラフ信号処理の両方の利点を効果的に活用し、3つのベンチマークデータセットの最先端性能を実現することを示す。

Collaborative filtering is a critical technique in recommender systems. It has been increasingly viewed as a conditional generative task for user feedback data, where newly developed diffusion model shows great potential. However, existing studies on diffusion model lack effective solutions for modeling implicit feedback. Particularly, the standard isotropic diffusion process overlooks correlation between items, misaligned with the graphical structure of the interaction space. Meanwhile, Gaussian noise destroys personalized information in a user's interaction vector, causing difficulty in its reconstruction. In this paper, we adapt standard diffusion model and propose a novel Graph Signal Diffusion Model for Collaborative Filtering (named GiffCF). To better represent the correlated distribution of user-item interactions, we define a generalized diffusion process using heat equation on the item-item similarity graph. Our forward process smooths interaction signals with an advanced family of graph filters, introducing the graph adjacency as beneficial prior knowledge for recommendation. Our reverse process iteratively refines and sharpens latent signals in a noise-free manner, where the updates are conditioned on the user's history and computed from a carefully designed two-stage denoiser, leading to high-quality reconstruction. Finally, through extensive experiments, we show that GiffCF effectively leverages the advantages of both diffusion model and graph signal processing, and achieves state-of-the-art performance on three benchmark datasets.
公開日:2024-04-24
翻訳日:2024-04-26 23:37:50
# CARE:臨床文献から実験的発見を抽出する

CARE: Extracting Experimental Findings From Clinical Literature ( http://arxiv.org/abs/2311.09736v2 )

ライセンス: Link先を確認
Aakanksha Naik, Bailey Kuehl, Erin Bransom, Doug Downey, Tom Hope, (参考訳) 文学からきめ細かい実験結果を抽出することは、科学的応用に劇的な有用性をもたらすことができる。 それまでの作業では、この問題の限られた側面のためのアノテーションスキーマとデータセットが開発され、現実の複雑さとニュアンスをキャプチャできなかった。 バイオメディシンに焦点を当てたこの研究は、臨床所見を抽出するタスクのための新しいIEデータセットであるCAREを提示する。 本研究では,非連続的なエンティティスパン,ネスト関係,可変arity n-ary関係,数値結果など,現在のIEシステムにおいて困難な現象を統一する,エンティティと属性間のn-ary関係として微細な発見をキャプチャーする新しいアノテーションスキーマを開発した。 臨床治験と症例報告の2つの資料から,700件の抄録を広範囲に収集した。 また,コンピュータ科学・材料科学分野へのスキーマの一般化可能性を示す。 私たちはCAREで最新のIEシステムをベンチマークし、GPT4のようなモデルでさえ苦労していることを示した。 文献を抽出・集約する研究を進めるため、我々の資源を解放する。

Extracting fine-grained experimental findings from literature can provide dramatic utility for scientific applications. Prior work has developed annotation schemas and datasets for limited aspects of this problem, failing to capture the real-world complexity and nuance required. Focusing on biomedicine, this work presents CARE -- a new IE dataset for the task of extracting clinical findings. We develop a new annotation schema capturing fine-grained findings as n-ary relations between entities and attributes, which unifies phenomena challenging for current IE systems such as discontinuous entity spans, nested relations, variable arity n-ary relations and numeric results in a single schema. We collect extensive annotations for 700 abstracts from two sources: clinical trials and case reports. We also demonstrate the generalizability of our schema to the computer science and materials science domains. We benchmark state-of-the-art IE systems on CARE, showing that even models such as GPT4 struggle. We release our resources to advance research on extracting and aggregating literature findings.
公開日:2024-04-24
翻訳日:2024-04-26 23:37:50
# 局所平衡仮定を超えた非平衡温度

The non-equilibrium temperature beyond local equilibrium assumption ( http://arxiv.org/abs/2311.11028v2 )

ライセンス: Link先を確認
Zheng-Chuan Wang, (参考訳) 本論文では, 環境貯留層を輸送する荷電粒子に対する温度依存性フラソフ方程式による非平衡温度を提案する。 新しい減衰力と逆減衰緩和時間は、輸送粒子の外部力と緩和時間に明らかな影響を及ぼすフラソフ方程式に基づいて導出される。 輸送粒子の非平衡温度は, 貯留層の平衡温度と異なる平衡関数で定義される。 輸送粒子と貯水池の間には、輸送粒子全体が非平衡状態であるため、熱伝達が存在する。 最後に、外部電界下での1次元荷電粒子輸送の例を例に、私たちによって定義される非平衡温度と減衰力を数値的に示す。

In this manuscript, we propose a non-equilibrium temperature by a temperature dependent Vlasov equation for the charge particles transport through a environmental reservoir. A new damping force and a inverse damping relaxation time are derived based on the Vlasov equation, which have obvious influence on the external force and the relaxation time of transport particles. The non-equilibrium temperature for the transport particles is defined by their distribution function out of equilibrium, which is different from the equilibrium temperature of reservoir. There exists heat transfer between the transport particles and the reservoir, because the whole transport particles are in non-equilibrium state. Finally, we illustrate them by an example of one-dimensional charge particles transport under an external electric field, the non-equilibrium temperature and damping force defined by us are shown numerically.
公開日:2024-04-24
翻訳日:2024-04-26 23:37:50
# ケーラー非線形性の非ガウス動力学の初期状態依存性を解くための行列積状態のシミュレーション

Simulation of Matrix Product States to Unveil the Initial State Dependency of non-Gaussian Dynamics of Kerr Nonlinearity ( http://arxiv.org/abs/2311.11314v2 )

ライセンス: Link先を確認
Souvik Agasti, (参考訳) 時間進化ブロックデシメーション (TEBD) アルゴリズムを用いて, 自由散逸性およびコヒーレントなKerr非線形系をシミュレートし, 初期状態が系の正確な量子力学に与える影響について検討する。 2つのコヒーレント分岐の重ね合わせは、古典的でない時間力学をもたらす。 ウィグナー状態表現は、系が2つの異なる枝に飽和し、異なる軌道を進化させることで、進化を通して非ガス化をもたらすことを確認している。 さらに、時間進化が初期状態の残留的な影響に苦しむことも見いだす。

We simulate a free dissipative and coherent-driven Kerr nonlinear system using a time-evolving block decimation (TEBD) algorithm, to study the impact of the initial state on the exact quantum dynamics of the system. The superposition of two coherent branches results in non-classical time dynamics. The Wigner state representation confirms that the system ends up saturating to two different branches, through evolving different trajectories, resulting in de-Gaussification throughout evolution. Furthermore, we also see that the time evolution suffers a residual effect of the initial state.
公開日:2024-04-25
翻訳日:2024-04-26 23:37:50
# 機械学習における解釈可能性と説明可能性の関係について

On the Relationship Between Interpretability and Explainability in Machine Learning ( http://arxiv.org/abs/2311.11491v2 )

ライセンス: Link先を確認
Benjamin Leblanc, Pascal Germain, (参考訳) 解釈可能性と説明可能性は、高度な意思決定とトラブルシューティングに関して、機械学習の分野でますます注目を集めている。 両者は予測者とその決定プロセスに関する情報を提供するため、単一のエンドに対して2つの独立した手段と見なされることが多い。 複雑なブラックボックスモデル用に設計された説明可能性技術、あるいは多くの説明可能性ツールを無視した解釈可能なアプローチ。 本稿では,解釈可能性と説明可能性が相互に代用されるという共通の考え方に対して,主要な欠点を列挙し,両者の欠点を緩和する方法について論じる。 そこで我々は、解釈可能性と説明可能性に関する新たな視点を求め、それぞれの資産を活用しながら、両方のトピックを同時にターゲットとして作業する。

Interpretability and explainability have gained more and more attention in the field of machine learning as they are crucial when it comes to high-stakes decisions and troubleshooting. Since both provide information about predictors and their decision process, they are often seen as two independent means for one single end. This view has led to a dichotomous literature: explainability techniques designed for complex black-box models, or interpretable approaches ignoring the many explainability tools. In this position paper, we challenge the common idea that interpretability and explainability are substitutes for one another by listing their principal shortcomings and discussing how both of them mitigate the drawbacks of the other. In doing so, we call for a new perspective on interpretability and explainability, and works targeting both topics simultaneously, leveraging each of their respective assets.
公開日:2024-04-25
翻訳日:2024-04-26 23:37:50
# 大規模言語モデルを用いた視覚的ゼロショット学習の強化

Boosting Audio-visual Zero-shot Learning with Large Language Models ( http://arxiv.org/abs/2311.12268v2 )

ライセンス: Link先を確認
Haoxing Chen, Yaohui Li, Yan Hong, Zizheng Huang, Zhuoer Xu, Zhangxuan Gu, Jun Lan, Huijia Zhu, Weiqiang Wang, (参考訳) 音声視覚ゼロショット学習は、ペア化された音声視覚シーケンスに基づいて、目に見えないクラスを認識することを目的としている。 近年の手法は,クラス名に整合したマルチモーダルな特徴の学習に重点を置いており,カテゴリを発見できないような一般化能力の向上に寄与している。 しかし、これらのアプローチはクラス名の不明瞭なイベント概念を無視し、必然的に訓練目的の難しい複雑なネットワーク構造を導入する可能性がある。 本稿では,外部知識ベースを活用することで,新たなイベントコンテンツをより効果的に学習する上で有効なKDA(KnowleDge-Augmented Audio-Viual Learning)という,単純かつ効率的なフレームワークを提案する。 具体的には、まず、大型言語モデル(LLM)に含まれる知識を利用して、イベントクラスの音声・視覚的特徴を識別する重要な記述文を生成することを提案する。 さらに,類似した事象を識別し,未確認クラスへの一般化能力の向上を図るために,知識対応型適応マージン損失を提案する。 広汎な実験結果から,提案したKDAは,一般的な3つのゼロショット学習データセットに対して,最先端の手法より優れており,我々のコードは \url{https://github.com/chenhaoxing/KDA} で検証可能であることがわかった。

Audio-visual zero-shot learning aims to recognize unseen classes based on paired audio-visual sequences. Recent methods mainly focus on learning multi-modal features aligned with class names to enhance the generalization ability to unseen categories. However, these approaches ignore the obscure event concepts in class names and may inevitably introduce complex network structures with difficult training objectives. In this paper, we introduce a straightforward yet efficient framework called KnowleDge-Augmented audio-visual learning (KDA), which aids the model in more effectively learning novel event content by leveraging an external knowledge base. Specifically, we first propose to utilize the knowledge contained in large language models (LLMs) to generate numerous descriptive sentences that include important distinguishing audio-visual features of event classes, which helps to better understand unseen categories. Furthermore, we propose a knowledge-aware adaptive margin loss to help distinguish similar events, further improving the generalization ability towards unseen classes. Extensive experimental results demonstrate that our proposed KDA can outperform state-of-the-art methods on three popular audio-visual zero-shot learning datasets.Our code will be avaliable at \url{https://github.com/chenhaoxing/KDA}.
公開日:2024-04-24
翻訳日:2024-04-26 23:27:32
# グラフの大規模言語モデルに関する調査 - 進展と今後の方向性

A Survey of Graph Meets Large Language Model: Progress and Future Directions ( http://arxiv.org/abs/2311.12399v4 )

ライセンス: Link先を確認
Yuhan Li, Zhixun Li, Peisong Wang, Jia Li, Xiangguo Sun, Hong Cheng, Jeffrey Xu Yu, (参考訳) グラフは、引用ネットワーク、ソーシャルネットワーク、生物学的データといった現実世界のアプリケーションにおける複雑な関係を表現し分析する上で重要な役割を果たしている。 近年,様々な領域で大きな成功を収めたLarge Language Models (LLM) もグラフ関連タスクに活用され,従来のグラフニューラルネットワーク(GNN)ベースの手法を超越し,最先端のパフォーマンスを実現している。 本稿ではまず,LLMとグラフを統合する既存手法の総合的なレビューと分析を行う。 まず,グラフ関連タスクにおいてLLMが果たす役割(エンハンサー,予測,アライメント)に基づいて,既存の手法を3つのカテゴリに分類する手法を提案する。 次に、分類学の3つのカテゴリに沿って、代表的手法を体系的に調査する。 最後に,既存の研究の残余の限界について論じ,今後の研究に期待できる道のりを強調した。 関連する論文は要約され、一貫して更新される。 https://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks。

Graph plays a significant role in representing and analyzing complex relationships in real-world applications such as citation networks, social networks, and biological data. Recently, Large Language Models (LLMs), which have achieved tremendous success in various domains, have also been leveraged in graph-related tasks to surpass traditional Graph Neural Networks (GNNs) based methods and yield state-of-the-art performance. In this survey, we first present a comprehensive review and analysis of existing methods that integrate LLMs with graphs. First of all, we propose a new taxonomy, which organizes existing methods into three categories based on the role (i.e., enhancer, predictor, and alignment component) played by LLMs in graph-related tasks. Then we systematically survey the representative methods along the three categories of the taxonomy. Finally, we discuss the remaining limitations of existing studies and highlight promising avenues for future research. The relevant papers are summarized and will be consistently updated at: https://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks.
公開日:2024-04-24
翻訳日:2024-04-26 23:27:32
# 一次元モット絶縁体における電荷とエネルギー輸送の動的分離

Dynamical separation of charge and energy transport in one-dimensional Mott insulators ( http://arxiv.org/abs/2311.16234v2 )

ライセンス: Link先を確認
Frederik Møller, Botond C. Nagy, Márton Kormos, Gábor Takács, (参考訳) 一次元モット絶縁体はシン・ゴルドンモデル(英語版)を用いて記述できるが、これは積分可能場の理論で、閉じ込められた超低温原子による最近の実現を含む、いくつかの1次元のギャップを持つ凝縮物質系の低エネルギーな効率的な記述を提供する。 一般化流体力学の理論を用いて、このモデルがトポロジカル電荷対エネルギーの輸送の分離を示すことを示した。 準粒子力学の解析により、分離の背後にあるメカニズムは、トポロジカルに荷電したキンク/アンチキンクの間の反射散乱であることが明らかになった。 これらの散乱現象の影響は、強い結合と低温において最も顕著であり、準粒子の分布は反射散乱振幅と比較して狭い。 この効果により、トポロジカル電荷に対する特徴的な形状の「ローヘッド」光円錐が生じる。

One-dimensional Mott insulators can be described using the sine-Gordon model, an integrable quantum field theory that provides the low-energy effective description of several one-dimensional gapped condensed matter systems, including recent realizations with trapped ultra-cold atoms. Employing the theory of Generalized Hydrodynamics, we demonstrate that this model exhibits separation of the transport of topological charge vs. energy. Analysis of the quasiparticle dynamics reveals that the mechanism behind the separation is the reflective scattering between topologically charged kinks/antikinks. The effect of these scattering events is most pronounced at strong coupling and low temperatures, where the distribution of quasiparticles is narrow compared to the reflective scattering amplitude. This effect results in a distinctively shaped "arrowhead" light cone for the topological charge.
公開日:2024-04-24
翻訳日:2024-04-26 23:27:32
# ヴァルシュニ・ヘルマンポテンシャルのエネルギー固有値の決定

Determination of the Energy Eigenvalues of the Varshni-Hellmann Potential ( http://arxiv.org/abs/2401.11151v4 )

ライセンス: Link先を確認
N. Tazimi, (参考訳) 本稿では,バルシュニ・ヘルマンポテンシャルの有界状態問題を有用手法を用いて解く。 本手法では, アンザッツ法によるヴァルシュニ・ヘルマンポテンシャルに対するシュロディンガー方程式の有界解を求める。 エネルギー固有値と対応する固有関数を得る。 また、地中におけるエネルギースペクトルの挙動と、2つの身体系の励起状態について図式的に示す。 この結果と正確な数値との類似性は,本手法の効率性を示すものである。

In this paper, we solve the bound state problem for Varshni-Hellmann potential via a useful technique. In our technique, we obtain the bound state solution of the Schrodinger equation for the Varshni-Hellmann potential via ansatz method. We obtain the energy eigenvalues and the corresponding eigen-functions. Also, the behavior of the energy spectra for both the ground and the excited state of the two body systems is illustrated graphically. The similarity of our results to the accurate numerical values is indicative of the efficiency of our technique.
公開日:2024-04-24
翻訳日:2024-04-26 23:27:32
# スワンソン振動子のフェルミオン拡大の例外点と基底状態絡み合いスペクトル

Exceptional points and ground-state entanglement spectrum of a fermionic extension of the Swanson oscillator ( http://arxiv.org/abs/2401.17189v2 )

ライセンス: Link先を確認
Akash Sinha, Aritra Ghosh, Bijan Bagchi, (参考訳) 二次ハミルトニアンの一般表現からなる非エルミタン量子系のよく知られた例であるスワンソン発振器の構造に触発され、2つのフェルミオン発振器を含むようなスキームのフェルミオン拡張と、粒子数を保存しない双線型カップリング項を提案する。 我々は固有値と固有ベクトルを決定し、固有状態のうち2つが自己直交関係を示す対応する固有ベクトルと結合する例外点の出現を明らかにする。 我々は基底状態の絡み合いスペクトルと絡み合いエントロピーを2つの異なる方法で計算する。 非エルミートハミルトニアンの固有ベクトルの通常の双正規化を含むアプローチに加えて、固有ベクトルがディラックノルムに関して正規化される場合についても論じる。 このモデルは、基底状態の交差が存在するため、量子相転移を示す。

Motivated by the structure of the Swanson oscillator, which is a well-known example of a non-hermitian quantum system consisting of a general representation of a quadratic Hamiltonian, we propose a fermionic extension of such a scheme which incorporates two fermionic oscillators, together with bilinear-coupling terms that do not conserve particle number. We determine the eigenvalues and eigenvectors, and expose the appearance of exceptional points where two of the eigenstates coalesce with the corresponding eigenvectors exhibiting the self-orthogonality relation. We compute the entanglement spectrum and entanglement entropy of the ground state in two different ways, with one of them being via the Gelfand-Naimark-Segal construction. In addition to the approach involving the usual bi-normalization of the eigenvectors of the non-hermitian Hamiltonian, we also discuss the case where the eigenvectors are normalized with respect to the Dirac norms. It is found that the model exhibits a quantum phase transition due to the presence of a ground-state crossing.
公開日:2024-04-25
翻訳日:2024-04-26 23:27:32
# 血圧データから学ぶ:7500万人の患者を対象にしたデモグラフィー

Learning from Two Decades of Blood Pressure Data: Demography-Specific Patterns Across 75 Million Patient Encounters ( http://arxiv.org/abs/2402.01598v3 )

ライセンス: Link先を確認
Seyedeh Somayyeh Mousavi, Yuting Guo, Abeed Sarker, Reza Sameni, (参考訳) 高血圧は世界的な健康上の問題であり、血圧(BP)動態の効果的なモニタリングと分析の必要性が強調されている。 米国ジョージア州のエモリー・ヘルスケアで2000年から2022年の間に収集された2,054,462人の患者75,636,128件のBPデータから,人口統計学的に多様であった。 性別,年齢,人種・民族の2変量BP (SBP) と糖尿病BP (DBP) の2変量変化の個体群別統計を比較検討した。 分析の結果,雄は雌よりもBP濃度が高く,年齢とともにBPプロファイルが異なっていた。 特に、平均的なSBPは年齢とともに常に上昇し、平均的なDBPは40歳以上のグループでピークとなる。 調査された民族集団の中で、黒人はBPが極端に高く、標準偏差が大きい。 また,SBPとDBPの集団レベルでの有意な相関がみられた。 これらの結果は, 臨床診断における画像診断特異的BP分析の重要性を強調し, パーソナライズされた, 画像診断特異的医療介入の開発に有用な知見を提供する。

Hypertension is a global health concern with an increasing prevalence, underscoring the need for effective monitoring and analysis of blood pressure (BP) dynamics. We analyzed a substantial BP dataset comprising 75,636,128 records from 2,054,462 unique patients collected between 2000 and 2022 at Emory Healthcare in Georgia, USA, representing a demographically diverse population. We examined and compared population-wide statistics of bivariate changes in systolic BP (SBP) and diastolic BP (DBP) across sex, age, and race/ethnicity. The analysis revealed that males have higher BP levels than females and exhibit a distinct BP profile with age. Notably, average SBP consistently rises with age, whereas average DBP peaks in the forties age group. Among the ethnic groups studied, Blacks have marginally higher BPs and a greater standard deviation. We also discovered a significant correlation between SBP and DBP at the population level, a phenomenon not previously researched. These results emphasize the importance of demography-specific BP analysis for clinical diagnosis and provide valuable insights for developing personalized, demography-specific healthcare interventions.
公開日:2024-04-24
翻訳日:2024-04-26 23:27:32
# 量子反転:コヒーレント量子吸収器の一般理論

Quantum reversal: a general theory of coherent quantum absorbers ( http://arxiv.org/abs/2402.02502v2 )

ライセンス: Link先を確認
Mankei Tsang, (参考訳) コヒーレント量子吸収器(コヒーレント量子吸収器、英: coherent quantum absorber)は、他の系によって放出される光子を吸収し、その系との絡み合いを保ちながら、様々な意味を持つ。 この研究は、いわゆる逆条件を2つの系に対して提案することで、この概念を一般化する。 逆条件は、ペッツ回収マップとクラウス演算子を含む簡潔な公式に厳密に沸騰させ、既存のコヒーレント吸収体の処理を合理化すると共に一般化する。

The fascinating concept of coherent quantum absorber - which can absorb any photon emitted by another system while maintaining entanglement with that system - has found diverse implications in open quantum system theory and quantum metrology. This work generalizes the concept by proposing the so-called reversal conditions for the two systems, in which a "reverser" coherently reverses any effect of the other system on a field. The reversal conditions are rigorously boiled down to concise formulas involving the Petz recovery map and Kraus operators, thereby generalizing as well as streamlining the existing treatments of coherent absorbers.
公開日:2024-04-24
翻訳日:2024-04-26 23:27:32
# 2次元ライドバーグ原子配列におけるアモルファス量子磁石

Amorphous quantum magnets in a two-dimensional Rydberg atom array ( http://arxiv.org/abs/2402.02852v2 )

ライセンス: Link先を確認
Sergi Julià-Farré, Joseph Vovrosh, Alexandre Dauphin, (参考訳) アモルファス固体(アモルファス固体、すなわち、明確に定義された短距離特性を持つが、長距離秩序を持たない系)は、凝縮物質において重要な研究トピックである。 結晶構造は結晶構造と異なることが知られているが、アモルファス材料における創発的な集団的挙動に関する多くのオープンな疑問がある。 これは、数値シミュレーションが極めて困難である量子状態において特にそうである。 本稿では,アナログ量子シミュレータを用いたアモルファス量子マグネットの探索を提案する。 そこで我々はまず,IsingモデルのRydbergシミュレータに適したアモルファス量子磁石を生成するアルゴリズムを提案する。 その後、半古典的手法を用いて、モデルの物理に関する予備的な知見を得る。 特に強磁性相互作用では平均磁場位相図を計算し、線形スピン波理論を用いて励起の局在特性と動的構造因子を研究する。 反強磁性相互作用では、アモルファス磁石は擬似アニールにより複雑な古典的エネルギー景観を示す。 最後に,プログラム可能なツイーザアレイにおけるRydberg原子に基づく実験的な提案を概説し,古典的にシミュレートが難しい状態におけるアモルファス量子マグネットの研究への道を開く。

Amorphous solids, i.e., systems which feature well-defined short-range properties but lack long-range order, constitute an important research topic in condensed matter. While their microscopic structure is known to differ from their crystalline counterpart, there are still many open questions concerning the emergent collective behavior in amorphous materials. This is particularly the case in the quantum regime, where the numerical simulations are extremely challenging. In this article, we instead propose to explore amorphous quantum magnets with an analog quantum simulator. To this end, we first present an algorithm to generate amorphous quantum magnets, suitable for Rydberg simulators of the Ising model. Subsequently, we use semiclassical approaches to get a preliminary insight of the physics of the model. In particular, for ferromagnetic interactions, we calculate mean-field phase diagrams, and use the linear-spin-wave theory to study localization properties and dynamical structure factors of the excitations. For antiferromagnetic interactions, we show that amorphous magnets exhibit a complex classical energy landscape by means of simulated annealing. Finally, we outline an experimental proposal based on Rydberg atoms in programmable tweezer arrays, thus opening the road towards the study of amorphous quantum magnets in regimes difficult to simulate classically.
公開日:2024-04-24
翻訳日:2024-04-26 23:27:32
# TorchMD-Net 2.0:分子シミュレーションのための高速ニューラルネットワークの可能性

TorchMD-Net 2.0: Fast Neural Network Potentials for Molecular Simulations ( http://arxiv.org/abs/2402.17660v2 )

ライセンス: Link先を確認
Raul P. Pelaez, Guillem Simeon, Raimondas Galvelis, Antonio Mirarchi, Peter Eastman, Stefan Doerr, Philipp Thölke, Thomas E. Markland, Gianni De Fabritiis, (参考訳) 分子シミュレーションにおける計算速度、予測精度、普遍的適用性のバランスをとることは、永続的な課題である。 本稿では,従来の力場からニューラルネットワークに基づくポテンシャルへのシフトにおいて,TorchMD-Netソフトウェアにおける重要な進歩を示す。 TorchMD-Netのより包括的で汎用的なフレームワークへの進化が強調され、TensorNetのような最先端アーキテクチャが取り入れられている。 このトランスフォーメーションはモジュラーデザインアプローチを通じて実現され、科学コミュニティ内でカスタマイズされたアプリケーションを促進する。 最も顕著な拡張は計算効率の大幅な向上であり、テンソルネットモデルのエネルギーと力の計算において非常に顕著な加速を実現し、性能は以前の繰り返しよりも2倍から10倍に向上した。 その他の拡張としては、周期的境界条件をサポートする高度に最適化された隣接探索アルゴリズムや、既存の分子動力学フレームワークとのスムーズな統合などがある。 さらに、アップデートされたバージョンでは、物理的なプリエントを統合する機能が導入され、研究におけるアプリケーションスペクトルとユーティリティが強化された。 このソフトウェアはhttps://github.com/torchmd/torchmd-net.comで入手できる。

Achieving a balance between computational speed, prediction accuracy, and universal applicability in molecular simulations has been a persistent challenge. This paper presents substantial advancements in the TorchMD-Net software, a pivotal step forward in the shift from conventional force fields to neural network-based potentials. The evolution of TorchMD-Net into a more comprehensive and versatile framework is highlighted, incorporating cutting-edge architectures such as TensorNet. This transformation is achieved through a modular design approach, encouraging customized applications within the scientific community. The most notable enhancement is a significant improvement in computational efficiency, achieving a very remarkable acceleration in the computation of energy and forces for TensorNet models, with performance gains ranging from 2-fold to 10-fold over previous iterations. Other enhancements include highly optimized neighbor search algorithms that support periodic boundary conditions and the smooth integration with existing molecular dynamics frameworks. Additionally, the updated version introduces the capability to integrate physical priors, further enriching its application spectrum and utility in research. The software is available at https://github.com/torchmd/torchmd-net.
公開日:2024-04-25
翻訳日:2024-04-26 23:27:32
# 量子コンピューティング:ビジョンと課題

Quantum Computing: Vision and Challenges ( http://arxiv.org/abs/2403.02240v2 )

ライセンス: Link先を確認
Sukhpal Singh Gill, Oktay Cetinkaya, Stefano Marrone, Daniel Claudino, David Haunschild, Leon Schlote, Huaming Wu, Carlo Ottaviani, Xiaoyuan Liu, Sree Pragna Machupalli, Kamalpreet Kaur, Priyansh Arora, Ji Liu, Salman Shamshad, Ahmed Farouk, Houbing Herbert Song, Steve Uhlig, Kotagiri Ramamohanarao, (参考訳) 量子コンピューティングの最近の発展は、絡み合い、重ね合わせ、その他の量子基本概念を用いており、従来の計算よりも大幅に処理上の利点をもたらす。 これらの量子的特徴は、従来の計算手法では解けない多くの複雑な問題を解くのに役立つ。 これらの問題には、量子力学、ロジスティクス、化学ベースの進歩、薬物設計、統計科学、持続可能なエネルギー、銀行、信頼性のある通信、量子化学工学などが含まれる。 ここ数年、量子ソフトウェアやアルゴリズムの作成、量子ハードウェアの研究が目覚ましい進歩を遂げており、量子コンピュータの実現に向けて大きく進歩している。 この分野に関する総合的な文献研究を行うことで、現状を把握し、量子コンピューティング業界で働く研究コミュニティからかなりの注意を必要とする未解決の問題を発見できるだろう。 本稿では,量子コンピューティングの理解を深めるために,この領域における現在の研究に基づく基礎とビジョンについて考察する。 本稿では,量子コンピュータハードウェアの最先端開発と量子暗号,量子ソフトウェア,高スケール性量子コンピュータの今後の進歩について論じる。 量子技術の研究と開発における多くの潜在的な課題とエキサイティングな新しいトレンドが、より広範な議論のためにこの論文で強調されている。

The recent development of quantum computing, which uses entanglement, superposition, and other quantum fundamental concepts, can provide substantial processing advantages over traditional computing. These quantum features help solve many complex problems that cannot be solved with conventional computing methods. These problems include modeling quantum mechanics, logistics, chemical-based advances, drug design, statistical science, sustainable energy, banking, reliable communication, and quantum chemical engineering. The last few years have witnessed remarkable advancements in quantum software and algorithm creation and quantum hardware research, which has significantly advanced the prospect of realizing quantum computers. It would be helpful to have comprehensive literature research on this area to grasp the current status and find outstanding problems that require considerable attention from the research community working in the quantum computing industry. To better understand quantum computing, this paper examines the foundations and vision based on current research in this area. We discuss cutting-edge developments in quantum computer hardware advancement and subsequent advances in quantum cryptography, quantum software, and high-scalability quantum computers. Many potential challenges and exciting new trends for quantum technology research and development are highlighted in this paper for a broader debate.
公開日:2024-04-24
翻訳日:2024-04-26 23:27:32
# ジェネレーティブAIによる電力市場信号の予測

Forecasting Electricity Market Signals via Generative AI ( http://arxiv.org/abs/2403.05743v3 )

ライセンス: Link先を確認
Xinyi Wang, Qing Zhao, Lang Tong, (参考訳) 本稿では,電力市場信号の確率予測のための生成的人工知能アプローチを提案する。 非パラメトリック時系列のWiener-Kallianpur革新表現にインスパイアされた、弱いイノベーションオートエンコーダアーキテクチャと、将来の時系列サンプルを生成する時系列の標準独立かつ同一に分散されたイノベーションシーケンスを抽出する新しいディープラーニングアルゴリズムを提案する。 提案手法の有効性は, 理想的な訓練条件下では, 生成したサンプルが基底真理と同じ条件付き確率分布を持つことを証明することによって確立される。 リアルタイム市場運用における動的・揮発性時系列の3つの応用について考察する。 一 蓄電池等の自己予定資源の位置的限界価格予測 二 為替市場における仮想入札者の地域間価格スプレッド予測 三 周波数規制のエリア制御誤差予測 複数の独立系オペレーターの市場データに基づく数値的研究は、確率的および点予測の両指標の下で、古典的および近代的な機械学習手法を先導するよりも、提案した生成予測器の優れた性能を示す。

This paper presents a generative artificial intelligence approach to probabilistic forecasting of electricity market signals, such as real-time locational marginal prices and area control error signals. Inspired by the Wiener-Kallianpur innovation representation of nonparametric time series, we propose a weak innovation autoencoder architecture and a novel deep learning algorithm that extracts the canonical independent and identically distributed innovation sequence of the time series, from which future time series samples are generated. The validity of the proposed approach is established by proving that, under ideal training conditions, the generated samples have the same conditional probability distribution as that of the ground truth. Three applications involving highly dynamic and volatile time series in real-time market operations are considered: (i) locational marginal price forecasting for self-scheduled resources such as battery storage participants, (ii) interregional price spread forecasting for virtual bidders in interchange markets, and (iii) area control error forecasting for frequency regulations. Numerical studies based on market data from multiple independent system operators demonstrate the superior performance of the proposed generative forecaster over leading classical and modern machine learning techniques under both probabilistic and point forecasting metrics.
公開日:2024-04-25
翻訳日:2024-04-26 23:27:32
# ヘッドマウントセンサを用いた実時間シミュレーションアバター

Real-Time Simulated Avatar from Head-Mounted Sensors ( http://arxiv.org/abs/2403.06862v2 )

ライセンス: Link先を確認
Zhengyi Luo, Jinkun Cao, Rawal Khirodkar, Alexander Winkler, Jing Huang, Kris Kitani, Weipeng Xu, (参考訳) 我々はAR/VRヘッドセットから得られた情報(ヘッドセットポーズとカメラ)からシミュレーションアバターを制御するSimXRを提案する。 ヘッドマウントカメラの難易度のため、人間の体は視界から切り離され、従来の画像に基づく自我中心のポーズ推定が困難になる。 一方、ヘッドセットのポーズは全身の動きに関する貴重な情報を提供するが、手や足の詳細は明らかになっていない。 カメラでヘッドセットのポーズを合成するために、人型ロボットを制御してヘッドセットの動きをトラッキングし、入力画像を分析して身体の動きを決定する。 体の一部が見えると、手足の動きは画像によって案内され、見えない場合は物理法則が制御器を誘導して可塑性運動を発生させる。 我々は,中間表現に依存しないエンドツーエンドの手法を設計し,画像やヘッドセットのポーズから直接ヒューマノイド制御信号にマップする方法を学習する。 また,市販のVRヘッドセット(Quest 2)と互換性のあるカメラ構成を用いて作成した大規模合成データセットを提案する。 フレームワークの適用性を実証するため、前方カメラを備えたARヘッドセットでもテストしています。

We present SimXR, a method for controlling a simulated avatar from information (headset pose and cameras) obtained from AR / VR headsets. Due to the challenging viewpoint of head-mounted cameras, the human body is often clipped out of view, making traditional image-based egocentric pose estimation challenging. On the other hand, headset poses provide valuable information about overall body motion, but lack fine-grained details about the hands and feet. To synergize headset poses with cameras, we control a humanoid to track headset movement while analyzing input images to decide body movement. When body parts are seen, the movements of hands and feet will be guided by the images; when unseen, the laws of physics guide the controller to generate plausible motion. We design an end-to-end method that does not rely on any intermediate representations and learns to directly map from images and headset poses to humanoid control signals. To train our method, we also propose a large-scale synthetic dataset created using camera configurations compatible with a commercially available VR headset (Quest 2) and show promising results on real-world captures. To demonstrate the applicability of our framework, we also test it on an AR headset with a forward-facing camera.
公開日:2024-04-24
翻訳日:2024-04-26 23:27:32
# Across-Task Transferable Max-Value Entropy Search を用いた多要素ベイズ最適化

Multi-Fidelity Bayesian Optimization With Across-Task Transferable Max-Value Entropy Search ( http://arxiv.org/abs/2403.09570v2 )

ライセンス: Link先を確認
Yunchuan Zhang, Sangwoo Park, Osvaldo Simeone, (参考訳) 多くのアプリケーションにおいて、ロジスティクスからエンジニアリングまで、設計者は、その目的が評価にコストがかかるブラックボックス関数の形で、一連の最適化タスクに直面している。 例えば、デザイナは、時間とともに異なる学習タスクのために、ニューラルネットワークモデルのハイパーパラメータを調整する必要があるかもしれない。 各候補解に対する目的関数を評価するのではなく、設計者は目的関数の近似にアクセスでき、高い忠実度評価はより大きなコストを伴う。 既存のマルチフィデリティブラックボックス最適化戦略では、現在のタスクの最適値や解に関する情報を最大化することを目的として、候補解とフィデリティレベルを選択する。 逐次最適化タスクが関連していると仮定すると,本論文では,現在のタスクに関する情報を取得する必要性と,将来のタスクに転送可能な情報収集の目標とのバランスをとる,新たな情報理論獲得機能を導入する。 提案手法は,タスク間で伝達されるタスク間潜伏変数の共有を含む。 実世界の実世界の実例にまたがる実験結果から,将来的な課題に適合する提案した提案手法が,十分な数のタスクを処理すれば,最適化効率を大幅に向上できることがわかった。

In many applications, ranging from logistics to engineering, a designer is faced with a sequence of optimization tasks for which the objectives are in the form of black-box functions that are costly to evaluate. For example, the designer may need to tune the hyperparameters of neural network models for different learning tasks over time. Rather than evaluating the objective function for each candidate solution, the designer may have access to approximations of the objective functions, for which higher-fidelity evaluations entail a larger cost. Existing multi-fidelity black-box optimization strategies select candidate solutions and fidelity levels with the goal of maximizing the information accrued about the optimal value or solution for the current task. Assuming that successive optimization tasks are related, this paper introduces a novel information-theoretic acquisition function that balances the need to acquire information about the current task with the goal of collecting information transferable to future tasks. The proposed method includes shared inter-task latent variables, which are transferred across tasks by implementing particle-based variational Bayesian updates. Experimental results across synthetic and real-world examples reveal that the proposed provident acquisition strategy that caters to future tasks can significantly improve the optimization efficiency as soon as a sufficient number of tasks is processed.
公開日:2024-04-24
翻訳日:2024-04-26 23:27:32
# マルチパーティネットワークにおける量子コーディネート率

Quantum Coordination Rates in Multi-Partite Networks ( http://arxiv.org/abs/2403.11893v2 )

ライセンス: Link先を確認
Hosen Nator, Uzi Pereg, (参考訳) 最適調整速度は、マルチパーティ量子ネットワークの3つの一次設定で決定され、複数のパーティ間の共同量子状態をシミュレートするために必要となる最小限のリソースを特徴付ける。 本研究では,(1)狭い絡み合いを持つカスケードネットワーク,(2)1つの送信機と2つの受信機からなる放送ネットワーク,(3)2つの送信機と1つの受信機を備えた多重アクセスネットワークについて検討する。 我々は,各設定において,漸近的に達成可能なコミュニケーションと絡み合い率について,必要かつ十分な条件を確立する。 最後に、量子戦略を持つ非局所ゲームにおいて、結果が意味することを示す。

The optimal coordination rates are determined in three primary settings of multi-partite quantum networks, thus characterizing the minimal resources required in order to simulate a joint quantum state among multiple parties. We study the following models: (1) a cascade network with limited entanglement, (2) a broadcast network, which consists of a single sender and two receivers, (3) a multiple-access network with two senders and a single receiver. We establish the necessary and sufficient conditions on the asymptotically-achievable communication and entanglement rates in each setting. At last, we show the implications of our results on nonlocal games with quantum strategies.
公開日:2024-04-25
翻訳日:2024-04-26 23:27:32
# NonGEMM Bench:非GEMMワークロードによる最新のMLワークロードのパフォーマンス水平性を理解する

NonGEMM Bench: Understanding the Performance Horizon of the Latest ML Workloads with NonGEMM Workloads ( http://arxiv.org/abs/2404.11788v2 )

ライセンス: Link先を確認
Rachid Karami, Hemanth Kota, Sheng-Chun Kao, Hyoukjun Kwon, (参考訳) 機械学習(ML)オペレータは、さまざまなターゲットアプリケーションでMLモデルを設計するためのビルディングブロックである。 GEMM演算子は、MLモデルのバックボーンである。 彼らは何十億もの乗算と累積を必要とする計算コストで有名だ。 そのため,MLモデルの実行を高速化するため,GEMM演算子の研究と最適化に多大な努力が払われている。 GPUとアクセラレータは、GEMM演算子の実行を最適化することで、MLワークロードを高速化するために広くデプロイされている。 それでも、非GEMM演算子の性能はGEMMほど徹底的に研究されていない。 そこで本稿では,非GEMM演算子のベンチマークである \bench について述べる。 まず、さまざまなドメインから人気のMLワークロードを使用して‘bench’を構築し、次に様々なグレードのGPUプラットフォーム上でケーススタディを行い、GPUアクセラレーションシステムにおける非GEMM演算子の挙動を分析する。 最後に,GEMM と NonGEMM オペレータ間のギャップを埋める上で重要なポイントをいくつか提示し,新たな最適化の方向性をコミュニティに提供する。

Machine Learning (ML) operators are the building blocks to design ML models with various target applications. GEneral Matrix Multiplication (GEMM) operators are the backbone of ML models. They are notorious for being computationally expensive requiring billions of multiply-and-accumulate. Therefore, significant effort has been put to study and optimize the GEMM operators in order to speed up the execution of ML models. GPUs and accelerators are widely deployed to accelerate ML workloads by optimizing the execution of GEMM operators. Nonetheless, the performance of NonGEMM operators have not been studied as thoroughly as GEMMs. Therefore, this paper describes \bench, a benchmark to study NonGEMM operators. We first construct \bench using popular ML workloads from different domains, then perform case studies on various grade GPU platforms to analyze the behavior of NonGEMM operators in GPU accelerated systems. Finally, we present some key takeaways to bridge the gap between GEMM and NonGEMM operators and to offer the community with potential new optimization directions.
公開日:2024-04-24
翻訳日:2024-04-26 23:27:32
# カオスシステムのシミュレーションのためのハイブリッド量子古典型貯水池計算

Hybrid quantum-classical reservoir computing for simulating chaotic systems ( http://arxiv.org/abs/2311.14105v2 )

ライセンス: Link先を確認
Filip Wudarski, Daniel O`Connor, Shaun Geaney, Ata Akbari Asanjan, Max Wilson, Elena Strbac, P. Aaron Lott, Davide Venturelli, (参考訳) カオスシステムの予測は特に複雑な作業であり、近年、システムの時空間情報を抽出するために用いられる固定ランダムウェイト(貯水池)を持つ再帰的ネットワークである貯水池コンピューティング(RC)を用いて、合理的に成功している。 この研究は、RCの貯水池を量子回路に置き換える、ハイブリッド量子貯水池計算(HQRC)フレームワークを提案する。 回路のモジュラ構造と測定フィードバックは、貯水池状態の複雑な系の力学を符号化するために使用され、そこから古典的な学習を行い、将来の力学を予測する。 HQRCのノイズレスシミュレーションは、ロレンツ63とダブルスクロールカオスのパラダイムシステムの両方の最先端の古典的RCモデルに匹敵する有効な予測時間を示し、予測が真実から逸脱してからずっと後のアトラクタダイナミクスに固執する。

Forecasting chaotic systems is a notably complex task, which in recent years has been approached with reasonable success using reservoir computing (RC), a recurrent network with fixed random weights (the reservoir) used to extract the spatio-temporal information of the system. This work presents a hybrid quantum reservoir-computing (HQRC) framework, which replaces the reservoir in RC with a quantum circuit. The modular structure and measurement feedback in the circuit are used to encode the complex system dynamics in the reservoir states, from which classical learning is performed to predict future dynamics. The noiseless simulations of HQRC demonstrate valid prediction times comparable to state-of-the-art classical RC models for both the Lorenz63 and double-scroll chaotic paradigmatic systems and adhere to the attractor dynamics long after the forecasts have deviated from the ground truth.
公開日:2024-04-24
翻訳日:2024-04-26 23:17:45
# 深層学習に基づく放射線学レポート作成研究の体系的レビュー

A Systematic Review of Deep Learning-based Research on Radiology Report Generation ( http://arxiv.org/abs/2311.14199v2 )

ライセンス: Link先を確認
Chang Liu, Yuanhe Tian, Yan Song, (参考訳) 放射線学報告生成(RRG)は,臨床放射線写真,例えば胸部X線画像から自由テキスト記述を自動的に生成することを目的としている。 RRGは、臨床自動化の促進に不可欠な役割を担い、経験の浅い医師や放射線医の業務を緩和するための実践的な支援を提供する。 したがって、これらの有意義なポテンシャルを考えると、RRGの研究は過去半年で爆発的な成長を経験しており、特にディープラーニングアプローチの急速な発展と共にである。 既存の研究は、様々なモダリティの強化の観点からRRGを実行し、視覚情報とテキスト情報の両方から詳細な特徴を持つレポート生成プロセスを最適化するための洞察を与え、それら間の相互モーダル相互作用によりRRGを促進する。 本稿では,深層学習に基づくRRGについて,様々な観点から概観する。 具体的には、まず、無線グラフのタスク固有の特徴、レポート、それらの間の相互モーダル関係に基づいて、重要なRRGアプローチを取り上げ、その後、従来のベンチマークデータセットを評価指標で説明し、その後、異なるアプローチのパフォーマンスを分析し、最後に、今後の課題とトレンドについて概説する。 本論文の目的は,既存の文献を理解するためのツールとして機能し,RRG分野における潜在的に有意義な研究を促進することである。

Radiology report generation (RRG) aims to automatically generate free-text descriptions from clinical radiographs, e.g., chest X-Ray images. RRG plays an essential role in promoting clinical automation and presents significant help to provide practical assistance for inexperienced doctors and alleviate radiologists' workloads. Therefore, consider these meaningful potentials, research on RRG is experiencing explosive growth in the past half-decade, especially with the rapid development of deep learning approaches. Existing studies perform RRG from the perspective of enhancing different modalities, provide insights on optimizing the report generation process with elaborated features from both visual and textual information, and further facilitate RRG with the cross-modal interactions among them. In this paper, we present a comprehensive review of deep learning-based RRG from various perspectives. Specifically, we firstly cover pivotal RRG approaches based on the task-specific features of radiographs, reports, and the cross-modal relations between them, and then illustrate the benchmark datasets conventionally used for this task with evaluation metrics, subsequently analyze the performance of different approaches and finally offer our summary on the challenges and the trends in future directions. Overall, the goal of this paper is to serve as a tool for understanding existing literature and inspiring potential valuable research in the field of RRG.
公開日:2024-04-25
翻訳日:2024-04-26 23:17:45
# DP-NMT:スケーラブルな微分代用機械翻訳

DP-NMT: Scalable Differentially-Private Machine Translation ( http://arxiv.org/abs/2311.14465v2 )

ライセンス: Link先を確認
Timour Igamberdiev, Doan Nam Long Vu, Felix Künnecke, Zhuo Yu, Jannik Holmer, Ivan Habernal, (参考訳) ニューラルマシン翻訳(NMT)は、広く普及しているテキスト生成タスクであるが、NMTシステムに重大なデータプライバシー上の懸念があるにもかかわらず、プライバシを保存するNMTモデルの開発にはかなりの研究ギャップがある。 DP-SGDは、具体的なプライバシー保証のある機械学習モデルをトレーニングするための一般的な方法であるが、DP-SGDでモデルをトレーニングする実装仕様は、既存のモデルでは常に明確化されていない。 これを解決するために,DP-SGDを用いてプライバシー保護NMTの研究を行うオープンソースフレームワークであるDP-NMTを導入し,多数のモデル,データセット,評価指標をひとつのソフトウェアパッケージにまとめる。 我々のゴールは、DP-SGDアルゴリズムの具体的詳細を透過的かつ直感的に実装し、プライバシー保護型NMTシステムの開発を進めるためのプラットフォームを提供することです。 一般的なドメインとプライバシ関連のドメインのデータセットに関する一連の実験を実施して、使用中のフレームワークを実演しています。 フレームワークを公開し、コミュニティからのフィードバックを歓迎します。

Neural machine translation (NMT) is a widely popular text generation task, yet there is a considerable research gap in the development of privacy-preserving NMT models, despite significant data privacy concerns for NMT systems. Differentially private stochastic gradient descent (DP-SGD) is a popular method for training machine learning models with concrete privacy guarantees; however, the implementation specifics of training a model with DP-SGD are not always clarified in existing models, with differing software libraries used and code bases not always being public, leading to reproducibility issues. To tackle this, we introduce DP-NMT, an open-source framework for carrying out research on privacy-preserving NMT with DP-SGD, bringing together numerous models, datasets, and evaluation metrics in one systematic software package. Our goal is to provide a platform for researchers to advance the development of privacy-preserving NMT systems, keeping the specific details of the DP-SGD algorithm transparent and intuitive to implement. We run a set of experiments on datasets from both general and privacy-related domains to demonstrate our framework in use. We make our framework publicly available and welcome feedback from the community.
公開日:2024-04-24
翻訳日:2024-04-26 23:17:45
# ハミルトニアンシミュレーションによるオープン量子系のシミュレーション

Simulating Open Quantum Systems Using Hamiltonian Simulations ( http://arxiv.org/abs/2311.15533v3 )

ライセンス: Link先を確認
Zhiyan Ding, Xiantao Li, Lin Lin, (参考訳) 我々はリンドブラッド方程式をシミュレートする新しい方法を提案し、リンドブラッド力学、確率微分方程式、ハミルトンシミュレーションの関係を描いている。 拡大ヒルベルト空間におけるユニタリ力学の列を導出し、リンドブラッド力学を任意の高次に近似することができる。 このユニタリ表現は、ハミルトニアンシミュレーションとアンシラ量子ビットの追跡のみを含む量子回路を用いてシミュレートすることができる。 測定結果に追加のポストセレクションは不要であり、各段階での成功確率が保証される。 我々の手法は時間に依存した設定に直接一般化することができる。 時間に依存しないリンドブレディアン力学と時間に依存しないリンドブレディアン力学の両方を3階まで精度良くシミュレートする数値例を提供する。

We present a novel method to simulate the Lindblad equation, drawing on the relationship between Lindblad dynamics, stochastic differential equations, and Hamiltonian simulations. We derive a sequence of unitary dynamics in an enlarged Hilbert space that can approximate the Lindblad dynamics up to an arbitrarily high order. This unitary representation can then be simulated using a quantum circuit that involves only Hamiltonian simulation and tracing out the ancilla qubits. There is no need for additional postselection in measurement outcomes, ensuring a success probability of one at each stage. Our method can be directly generalized to the time-dependent setting. We provide numerical examples that simulate both time-independent and time-dependent Lindbladian dynamics with accuracy up to the third order.
公開日:2024-04-24
翻訳日:2024-04-26 23:17:45
# ベアメタル埋込デバイスにおける汎用バイナリ機器のアブユージングプロセッサ例外

Abusing Processor Exception for General Binary Instrumentation on Bare-metal Embedded Devices ( http://arxiv.org/abs/2311.16532v2 )

ライセンス: Link先を確認
Shipei Qu, Xiaolin Zhang, Chi Zhang, Dawu Gu, (参考訳) 組込みシステムにおけるクローズドソースドライバとライブラリのセキュリティの分析は、サプライチェーンにおけるその基本的な役割を考えると、非常に重要である。 x86とは異なり、組み込みプラットフォームには包括的なバイナリ操作ツールがないため、研究者や開発者がそのようなクローズドソースコンポーネントのセキュリティ問題を効果的に検出しパッチするのは難しい。 既存の作業は、本格的なオペレーティングシステム機能に依存するか、面倒なコーナーケースに悩まされ、組み込み環境で普及しているベアメタルファームウェアにアプリケーションを制限している。 本稿では,埋め込まれたベアメタルファームウェアに対して,汎用的できめ細かな静的バイナリ・インスツルメンテーションを可能にするPIFER(Practical Instrumenting Framework for Embedded fiRmware)を提案する。 組み込みプロセッサのハードウェア例外処理機構を悪用することにより、PIFERは任意のターゲットアドレスに対してインスツルメンテーションを行うことができる。 さらに,修正後のファームウェアの正しい実行を保証するための命令翻訳方式を提案する。 我々は、Zephyr RTOS、CoreMarkベンチマーク、およびクローズソースの商用製品を含む、現実世界の複雑なファームウェアに対してPIFERを評価した。 結果は、PIFERが98.9%の指示を正しく測定したことを示している。 さらに,本研究の実用性と効率性を示す総合的な性能評価を行った。

Analyzing the security of closed-source drivers and libraries in embedded systems holds significant importance, given their fundamental role in the supply chain. Unlike x86, embedded platforms lack comprehensive binary manipulating tools, making it difficult for researchers and developers to effectively detect and patch security issues in such closed-source components. Existing works either depend on full-fledged operating system features or suffer from tedious corner cases, restricting their application to bare-metal firmware prevalent in embedded environments. In this paper, we present PIFER (Practical Instrumenting Framework for Embedded fiRmware) that enables general and fine-grained static binary instrumentation for embedded bare-metal firmware. By abusing the built-in hardware exception-handling mechanism of the embedded processors, PIFER can perform instrumentation on arbitrary target addresses. Additionally, We propose an instruction translation-based scheme to guarantee the correct execution of the original firmware after patching. We evaluate PIFER against real-world, complex firmware, including Zephyr RTOS, CoreMark benchmark, and a close-sourced commercial product. The results indicate that PIFER correctly instrumented 98.9% of the instructions. Further, a comprehensive performance evaluation was conducted, demonstrating the practicality and efficiency of our work.
公開日:2024-04-24
翻訳日:2024-04-26 23:17:45
# FRNet: スケーラブルLiDARセグメンテーションのためのフラストタルラウンジネットワーク

FRNet: Frustum-Range Networks for Scalable LiDAR Segmentation ( http://arxiv.org/abs/2312.04484v2 )

ライセンス: Link先を確認
Xiang Xu, Lingdong Kong, Hui Shuai, Qingshan Liu, (参考訳) LiDARセグメンテーションは、先進的な自動運転システムにおいて重要なコンポーネントとなっている。 最近のレンジビューLiDARセグメンテーションアプローチは、リアルタイム処理の可能性を示唆している。 しかし、これらは必然的に腐敗した文脈情報に悩まされ、予測洗練のための後処理技術に大きく依存する。 本研究では,対応するフラストタルLiDAR点を用いた範囲画像のコンテキスト情報復元を目的とした簡易かつ強力なFRNetを提案する。 まず、フラストラム特徴エンコーダモジュールを用いて、シーンの一貫性を保ち、ポイントレベルの予測に不可欠であるフラストラム領域内のポイントごとの特徴を抽出する。 次に、フラスタム点融合モジュールを導入し、ポイントごとの特徴を階層的に更新し、各ポイントがフラスタム特徴を介してより多くの周辺情報を抽出できるようにする。 最後に、ヘッドフュージョンモジュールを使用して、最終的なセマンティック予測のために異なるレベルで機能をフューズする。 さまざまなタスク設定の下で4つのLiDARセグメンテーションベンチマークで実施された大規模な実験はFRNetの優位性を示している。 特にFRNetはSemanticKITTIとnuScenesのテストセットで73.3%と82.5%のmIoUスコアを達成した。 FRNetは競争力のある性能を達成する一方で、最先端のアプローチの5倍の速度で動作している。 このような高い効率性は、よりスケーラブルなLiDARセグメンテーションの新たな可能性を開く。 コードはhttps://github.com/Xiangxu-0103/FRNetで公開されている。

LiDAR segmentation has become a crucial component in advanced autonomous driving systems. Recent range-view LiDAR segmentation approaches show promise for real-time processing. However, they inevitably suffer from corrupted contextual information and rely heavily on post-processing techniques for prediction refinement. In this work, we propose FRNet, a simple yet powerful method aimed at restoring the contextual information of range image pixels using corresponding frustum LiDAR points. Firstly, a frustum feature encoder module is used to extract per-point features within the frustum region, which preserves scene consistency and is crucial for point-level predictions. Next, a frustum-point fusion module is introduced to update per-point features hierarchically, enabling each point to extract more surrounding information via the frustum features. Finally, a head fusion module is used to fuse features at different levels for final semantic prediction. Extensive experiments conducted on four popular LiDAR segmentation benchmarks under various task setups demonstrate the superiority of FRNet. Notably, FRNet achieves 73.3% and 82.5% mIoU scores on the testing sets of SemanticKITTI and nuScenes. While achieving competitive performance, FRNet operates 5 times faster than state-of-the-art approaches. Such high efficiency opens up new possibilities for more scalable LiDAR segmentation. The code has been made publicly available at https://github.com/Xiangxu-0103/FRNet.
公開日:2024-04-25
翻訳日:2024-04-26 23:17:45
# EAGLES: 軽量エンコーディングによる効率的な3Dガウスの高速化

EAGLES: Efficient Accelerated 3D Gaussians with Lightweight EncodingS ( http://arxiv.org/abs/2312.04564v2 )

ライセンス: Link先を確認
Sharath Girish, Kamal Gupta, Abhinav Shrivastava, (参考訳) 近年,3次元ガウシアンスプラッティング(3D-GS)が新規シーン合成で人気を博している。 これは、Neural Radiance Fields(NeRF)に関連する、長いトレーニング時間と遅いレンダリング速度の課題に対処する。 3Dガウスの高速かつ微分可能なラスタ化により、3D-GSはリアルタイムレンダリングと高速トレーニングを実現する。 しかし、トレーニングとストレージの両方にかなりのメモリリソースを必要とするため、各シーンに何百万人ものガウシアンが必要なのだ。 本稿では,ガウス点雲の高速で安定な最適化のために,量子埋め込みを利用してポイント単位のメモリ記憶要求を大幅に削減する手法を提案する。 提案手法では,ガウスの少ないシーン表現が実現し,高速なトレーニング時間と高解像度シーンのリアルタイムレンダリングのためのレンダリング速度が向上する。 復元品質を維持しながら、記憶容量を1桁以上削減する。 10~20倍少ないメモリと高速なトレーニング/推論速度を消費しながら、視覚的品質を保ったさまざまなデータセットやシーンに対するアプローチの有効性を検証する。 プロジェクトページとコードはhttps://efficientgaussian.github.ioで入手できる。

Recently, 3D Gaussian splatting (3D-GS) has gained popularity in novel-view scene synthesis. It addresses the challenges of lengthy training times and slow rendering speeds associated with Neural Radiance Fields (NeRFs). Through rapid, differentiable rasterization of 3D Gaussians, 3D-GS achieves real-time rendering and accelerated training. They, however, demand substantial memory resources for both training and storage, as they require millions of Gaussians in their point cloud representation for each scene. We present a technique utilizing quantized embeddings to significantly reduce per-point memory storage requirements and a coarse-to-fine training strategy for a faster and more stable optimization of the Gaussian point clouds. Our approach develops a pruning stage which results in scene representations with fewer Gaussians, leading to faster training times and rendering speeds for real-time rendering of high resolution scenes. We reduce storage memory by more than an order of magnitude all while preserving the reconstruction quality. We validate the effectiveness of our approach on a variety of datasets and scenes preserving the visual quality while consuming 10-20x lesser memory and faster training/inference speed. Project page and code is available https://efficientgaussian.github.io
公開日:2024-04-24
翻訳日:2024-04-26 23:17:45
# BELT: 昔ながらのバックドア攻撃は、バックドアの排他的リフティングによって、最先端の防御を回避できる

BELT: Old-School Backdoor Attacks can Evade the State-of-the-Art Defense with Backdoor Exclusivity Lifting ( http://arxiv.org/abs/2312.04902v2 )

ライセンス: Link先を確認
Huming Qiu, Junjie Sun, Mi Zhang, Xudong Pan, Min Yang, (参考訳) ディープニューラルネットワーク(DNN)はバックドア攻撃の影響を受けやすく、悪意のある機能が組み込まれ、攻撃者が誤った分類をトリガーすることができる。 旧来のバックドア攻撃は、被害者のモデルで簡単に学習できる強力なトリガー機能を使用する。 入力変動に対する堅牢性にもかかわらず、ロバスト性は意図しないトリガー活性化の可能性を高める。 これは既存の防御に遡り、バックドアを起動する元のトリガの近似的な置き換えが、元のトリガと同一でない、例えばリバースエンジニアリングやサンプルオーバーレイによって見つかる。 本稿では,バックドア攻撃の新たな特徴,すなわち,入力変動の存在下で有効なバックドアトリガの能力を測定する,バックドア攻撃の新たな特徴について検討する。 バックドア排他性(バックドア排他性)の概念に基づいて,バックドアとファジィトリガの関連性を抑える新しい手法であるバックドア排他性(Backdoor Exclusivity LifTing, BELT)を提案し, 防御回避のためのバックドア排他性(バックドア排他性)を高める。 3つの一般的なバックドア・ベンチマークを総合的に評価した結果,従来のバックドア・アタック(バックドア・アタック)のステルス性は著しく向上し,バックドア・アタック(バックドア・アタック)が7種類のバックドア・アタック(バックドア・アタック)を回避できた。 例えば、初期のバックドア攻撃の1つは、BELTによって強化されたBadNetで、バックドアモデルを認識するABSやMOTHを含む最先端の防御を回避している。

Deep neural networks (DNNs) are susceptible to backdoor attacks, where malicious functionality is embedded to allow attackers to trigger incorrect classifications. Old-school backdoor attacks use strong trigger features that can easily be learned by victim models. Despite robustness against input variation, the robustness however increases the likelihood of unintentional trigger activations. This leaves traces to existing defenses, which find approximate replacements for the original triggers that can activate the backdoor without being identical to the original trigger via, e.g., reverse engineering and sample overlay. In this paper, we propose and investigate a new characteristic of backdoor attacks, namely, backdoor exclusivity, which measures the ability of backdoor triggers to remain effective in the presence of input variation. Building upon the concept of backdoor exclusivity, we propose Backdoor Exclusivity LifTing (BELT), a novel technique which suppresses the association between the backdoor and fuzzy triggers to enhance backdoor exclusivity for defense evasion. Extensive evaluation on three popular backdoor benchmarks validate, our approach substantially enhances the stealthiness of four old-school backdoor attacks, which, after backdoor exclusivity lifting, is able to evade seven state-of-the-art backdoor countermeasures, at almost no cost of the attack success rate and normal utility. For example, one of the earliest backdoor attacks BadNet, enhanced by BELT, evades most of the state-of-the-art defenses including ABS and MOTH which would otherwise recognize the backdoored model.
公開日:2024-04-25
翻訳日:2024-04-26 23:17:45
# 重み付き導入による差分差分に対する融合型2ウェイ固定効果

Fused Extended Two-Way Fixed Effects for Difference-in-Differences with Staggered Adoptions ( http://arxiv.org/abs/2312.05985v2 )

ライセンス: Link先を確認
Gregory Faletto, (参考訳) 停滞した導入下での差分差分に対する正準二方向固定効果推定器のバイアスに対処するため、Woldridge (2021) は拡張二方向固定効果推定器を提案し、多くのパラメータを追加した。 しかし、これは効率を低下させる。 これらのパラメータのいくつかを等しく制限する(例えば、コホート内でのその後の治療効果)ことは役立つが、アドホックな制限はバイアスを再導入する可能性がある。 本研究では,FETWFE(Fused extended two-way fixed effect)という,単一チューニングパラメータを持つ機械学習推定器を提案する。 FETWFEは、適切な空間的仮定の下で、確率が1の傾向の正しい制限を識別し、効率を向上することを示す。 また, FETWFEの特異性, オラクル特性, および漸近正規性についても, 条件付きまたは辺方向の平行な傾向下での不均一な辺縁処理効果推定器を用いて検証し, 条件付き平均処理効果について同じ結果を示した。 シミュレーション研究におけるFETWFEの実証と実証応用について述べる。

To address the bias of the canonical two-way fixed effects estimator for difference-in-differences under staggered adoptions, Wooldridge (2021) proposed the extended two-way fixed effects estimator, which adds many parameters. However, this reduces efficiency. Restricting some of these parameters to be equal (for example, subsequent treatment effects within a cohort) helps, but ad hoc restrictions may reintroduce bias. We propose a machine learning estimator with a single tuning parameter, fused extended two-way fixed effects (FETWFE), that enables automatic data-driven selection of these restrictions. We prove that under an appropriate sparsity assumption FETWFE identifies the correct restrictions with probability tending to one, which improves efficiency. We also prove the consistency, oracle property, and asymptotic normality of FETWFE for several classes of heterogeneous marginal treatment effect estimators under either conditional or marginal parallel trends, and we prove the same results for conditional average treatment effects under conditional parallel trends. We demonstrate FETWFE in simulation studies and an empirical application.
公開日:2024-04-25
翻訳日:2024-04-26 23:17:45
# Genixer: 強力なデータジェネレータとしてのマルチモーダル大言語モデル

Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator ( http://arxiv.org/abs/2312.06731v4 )

ライセンス: Link先を確認
Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou, (参考訳) インストラクションチューニングデータは、MLLM(Multimodal Large Language Models)のトレーニングに不可欠である。 しかし、高品質なチューニングチューニングデータの作成には大きな課題がある。 命令チューニングデータのラベル付けを人間に依頼することは、ラベル集約的で時間を要する。 データ生成のためにGPT-4に誘導されたいくつかの作業は、コストがかかるだけでなく、複雑なタスク(グラウンドベース推論タスク)で満足なパフォーマンスが欠如していた。 データ作成の課題に対処するため,ユーザ命令に従うことで命令調整データを生成する能力を備えたMLLMの強化の可能性について,まず検討する。 具体的には,9つの代表的なタスク,例えば,共通VQA,REC,REG,PointQを含む,高品質な命令チューニングデータを生成する革新的なデータ生成パイプラインGenixerを開発した。 Genixerは4つの重要なステップでデータ生成に統一されたソリューションを提供する。 (i)命令データ収集 (ii) 命令テンプレートの設計 三 MLLMの強化、及び (iv)データ生成とフィルタリング。 生成データの有効性を検証するため,人体評価とユーザ嗜好調査を行い,生成データの品質評価を行った。 その後、LLaVA1.5とShikraという2つの代表MLLMのトレーニングのための2つの命令チューニングデータセットを生成し、様々なVQAタスクとマルチモーダルベンチマークで一貫した改善を行った。 例えば、VizWizベンチマークのパフォーマンスは50.0%から53.8%に向上し、ScienceQAでは66.8%から69.7%に向上した。 データ、コード、モデルがリリースされる。

Instruction tuning data is essential for training the Multimodal Large Language Models (MLLMs). However, the creation of high-quality instruction tuning data presents significant challenges. Asking the human to label the instruction tuning data is label-intensive and time-consuming. Some works prompted to GPT-4 for data generation were not only costly but also lacked satisfactory performance in complex tasks (i.e., grounding-based reasoning tasks). To address the challenges of data creation, we are the first to explore the potential of empowering MLLMs with the ability to generate instruction-tuning data by following user instructions. Specifically, we developed an innovative data generation pipeline Genixer to generate various high-quality instruction tuning data, including nine representative tasks, e.g., Common VQA, REC, REG, and PointQ. Genixer provides a unified solution for data generation with four key steps: (i) instruction data collection, (ii) instruction template design, (iii) empowering MLLM, and (iv) data generation and filtering. To validate the effectiveness of generated data, we conducted the human evaluation and user preference study to assess the quality of generated data. Subsequently, we generated two instruction-tuning datasets for the training of two representative MLLMs, LLaVA1.5 and Shikra, and noted consistent improvements across various VQA tasks and multimodal benchmarks. For instance, performance on the VizWiz benchmark improved from 50.0% to 53.8%, and on ScienceQA, it increased from 66.8% to 69.7%, reconfirming the quality of the generated instruction tuning data. The data, code, and models will be released.
公開日:2024-04-24
翻訳日:2024-04-26 23:17:45
# データストリームの動的性質を考慮した条件付き教師なし回帰フレームワーク

A Conditioned Unsupervised Regression Framework Attuned to the Dynamic Nature of Data Streams ( http://arxiv.org/abs/2312.07682v2 )

ライセンス: Link先を確認
Rene Richard, Nabil Belacel, (参考訳) リアルタイムラベルの取得が困難である場合、従来の手法では、サブ最適性能が得られる。 本稿では,制限付きラベル付きデータを用いたストリーミング環境の最適戦略を提案し,教師なし回帰のための適応手法を提案する。 提案手法は,初期ラベルのスパースセットを活用し,データの進化パターンに応答して動的モデル適応を可能にする,革新的なドリフト検出機構を導入する。 適応性を高めるために,Adaptive WINdowingアルゴリズムとRoot Mean Square Error (RMSE)に基づく誤り一般化アルゴリズムを統合する。 ADWINはリアルタイムドリフト検出を容易にし、RMSEはモデル予測精度のロバストな測度を提供する。 この組み合わせにより、高レベルの予測精度を維持しつつ、パターンの変化に継続的に適応しながら、ストリーミングデータの課題を効果的にナビゲートすることが可能になります。 各種公開データセットを対象とした多変量法の性能評価を行い, 適応しないベースラインと比較した。 包括的評価を通じて、リアルタイムにラベルを取得することが重要な課題となるタスクに対する適応回帰手法の優れた効果を実証する。 その結果、従来のアプローチよりも優れ、ラベルの不足とデータパターンの進化を特徴とするシナリオにおいて、その可能性を強調した。

In scenarios where obtaining real-time labels proves challenging, conventional approaches may result in sub-optimal performance. This paper presents an optimal strategy for streaming contexts with limited labeled data, introducing an adaptive technique for unsupervised regression. The proposed method leverages a sparse set of initial labels and introduces an innovative drift detection mechanism to enable dynamic model adaptations in response to evolving patterns in the data. To enhance adaptability, we integrate the ADWIN (ADaptive WINdowing) algorithm with error generalization based on Root Mean Square Error (RMSE). ADWIN facilitates real-time drift detection, while RMSE provides a robust measure of model prediction accuracy. This combination enables our multivariate method to effectively navigate the challenges of streaming data, continuously adapting to changing patterns while maintaining a high level of predictive precision. We evaluate the performance of our multivariate method across various public datasets, comparing it to non-adapting baselines. Through comprehensive assessments, we demonstrate the superior efficacy of our adaptive regression technique for tasks where obtaining labels in real-time is a significant challenge. The results underscore the method's capacity to outperform traditional approaches and highlight its potential in scenarios characterized by label scarcity and evolving data patterns.
公開日:2024-04-24
翻訳日:2024-04-26 23:17:45
# 連続時間動的グラフに対するマルチパースペクティブフィードバック・アテンション結合モデル

Multi-perspective Feedback-attention Coupling Model for Continuous-time Dynamic Graphs ( http://arxiv.org/abs/2312.07983v2 )

ライセンス: Link先を確認
Xiaobo Zhu, Yan Wu, Zhipeng Li, Hailong Su, Jin Che, Zhanheng Chen, Liying Wang, (参考訳) 近年,グラフネットワーク上での表現学習が普及し,様々なモデルが有望な結果を示している。 それにもかかわらず、いくつかの課題が続いている。 1) ほとんどのメソッドは静的あるいは離散時間動的グラフ用に設計されている。 2) 既存の連続時間動的グラフアルゴリズムは、単一の進化的な視点に焦点をあてる。 3) 多くの連続時間動的グラフアプローチは、長期依存を捉えるために多くの時間的隣人を必要とします。 本稿では,MPFA(Multi-Perspective Feedback-Attention Coupling)モデルを提案する。 MPFAは進化と生の両方の観点から情報を取り入れ、観察されたプロセスのインターリーブされたダイナミクスを効率的に学習する。 進化する視点は、情報集約のために継続的に進化する時間的隣人を区別するために、時間的自己意識を用いる。 動的更新を通じて、この視点は少数の時間的隣人を使用して長期的な依存関係をキャプチャすることができる。 一方、生の視点は生の近傍情報を集約するために、成長特性係数を持つフィードバックアテンションモジュールを利用する。 自己組織型データセットと7つの公開データセットの実験結果から,提案モデルの有効性と競争性を検証した。

Recently, representation learning over graph networks has gained popularity, with various models showing promising results. Despite this, several challenges persist: 1) most methods are designed for static or discrete-time dynamic graphs; 2) existing continuous-time dynamic graph algorithms focus on a single evolving perspective; and 3) many continuous-time dynamic graph approaches necessitate numerous temporal neighbors to capture long-term dependencies. In response, this paper introduces the Multi-Perspective Feedback-Attention Coupling (MPFA) model. MPFA incorporates information from both evolving and raw perspectives, efficiently learning the interleaved dynamics of observed processes. The evolving perspective employs temporal self-attention to distinguish continuously evolving temporal neighbors for information aggregation. Through dynamic updates, this perspective can capture long-term dependencies using a small number of temporal neighbors. Meanwhile, the raw perspective utilizes a feedback attention module with growth characteristic coefficients to aggregate raw neighborhood information. Experimental results on a self-organizing dataset and seven public datasets validate the efficacy and competitiveness of our proposed model.
公開日:2024-04-24
翻訳日:2024-04-26 23:17:45
# 不確実なデータを用いたニューラルネットワークのトレーニング:エキスパートアプローチの混合

Training of Neural Networks with Uncertain Data: A Mixture of Experts Approach ( http://arxiv.org/abs/2312.08083v4 )

ライセンス: Link先を確認
Lucas Luttner, (参考訳) 本稿では、ニューラルネットワーク(NN)に基づく予測モデルにおけるアレラトリック不確実性に対処する新しいソリューションである「エキスパートの不確実性認識混合(uMoE)」を紹介する。 既存の方法論は主に推論中の不確実性を管理することに集中しているが、uMoEはトレーニングフェーズに不確実性を独自に埋め込む。 Divide and Conquer"戦略を用いて、uMoEは不確実な入力空間をより管理可能なサブ空間に戦略的に分割する。 エキスパートコンポーネントで構成され、それぞれのサブスペースの不確実性に基づいて個別にトレーニングされる。 ゲーティングユニットであるエキスパートを概観し、これらのサブスペースにまたがる不確実なインプットの分布に関する追加情報を活用し、重み付けを動的に調整し、地平からの偏差を最小限に抑える。 本研究は,データ不確実性を効果的に管理するために,ベースライン法よりもuMoEの方が優れていることを示す。 さらに, 包括的ロバスト性解析により, 種々の不確実性レベルへの適応性を示し, 最適しきい値パラメータを提案する。 この革新的なアプローチは、バイオメディカル信号処理、自律運転、生産品質管理など、様々なda-ta-drivenドメインに適用可能である。

This paper introduces the "Uncertainty-aware Mixture of Experts" (uMoE), a novel solution aimed at addressing aleatoric uncertainty within Neural Network (NN) based predictive models. While existing methodologies primarily concentrate on managing uncertainty during inference, uMoE uniquely embeds uncertainty into the training phase. Employing a "Divide and Conquer" strategy, uMoE strategically partitions the uncertain input space into more manageable subspaces. It comprises Expert components, individually trained on their respective subspace uncertainties. Overarching the Experts, a Gating Unit, leveraging additional information regarding the distribution of uncertain in-puts across these subspaces, dynamically adjusts the weighting to minimize deviations from ground truth. Our findings demonstrate the superior performance of uMoE over baseline methods in effectively managing data uncertainty. Furthermore, through a comprehensive robustness analysis, we showcase its adaptability to varying uncertainty levels and propose optimal threshold parameters. This innovative approach boasts broad applicability across diverse da-ta-driven domains, including but not limited to biomedical signal processing, autonomous driving, and production quality control.
公開日:2024-04-25
翻訳日:2024-04-26 23:17:45
# PTT:高能率時間3次元物体検出のためのポイントトラジェクトリ変換器

PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection ( http://arxiv.org/abs/2312.08371v2 )

ライセンス: Link先を確認
Kuan-Chih Huang, Weijie Lyu, Ming-Hsuan Yang, Yi-Hsuan Tsai, (参考訳) 近年の時空間LiDARを用いた3Dオブジェクト検出器は,2段階提案に基づく提案手法により有望な性能を実現している。 それらは第1段階の高密度検出器から3Dボックス候補を生成し、その後に異なる時間的集約法を生成する。 しかしながら、これらのアプローチはフレーム単位のオブジェクトや全体点のクラウドを必要とし、メモリバンクの利用に関する課題を提起する。 さらに、点雲と軌道特徴は結合のみに基づいて結合され、それら間の効果的な相互作用を無視する可能性がある。 本稿では,時間的3次元物体検出を効率的に行うために,長期記憶が可能なポイントトラジェクトリトランスを提案する。 この目的のために、メモリバンクストレージの必要量を最小限に抑えるために、現在のフレームオブジェクトとその履歴トラジェクトリのポイントクラウドのみを入力として利用する。 さらに,トラジェクトリ機能をエンコードするモジュールを導入し,長期的かつ将来的な視点に着目し,ポイントクラウド機能で効果的に集約する。 我々は、大規模Waymoデータセットの広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。 コードとモデルはhttps://github.com/kuanchihhuang/PTT.comで公開される。

Recent temporal LiDAR-based 3D object detectors achieve promising performance based on the two-stage proposal-based approach. They generate 3D box candidates from the first-stage dense detector, followed by different temporal aggregation methods. However, these approaches require per-frame objects or whole point clouds, posing challenges related to memory bank utilization. Moreover, point clouds and trajectory features are combined solely based on concatenation, which may neglect effective interactions between them. In this paper, we propose a point-trajectory transformer with long short-term memory for efficient temporal 3D object detection. To this end, we only utilize point clouds of current-frame objects and their historical trajectories as input to minimize the memory bank storage requirement. Furthermore, we introduce modules to encode trajectory features, focusing on long short-term and future-aware perspectives, and then effectively aggregate them with point cloud features. We conduct extensive experiments on the large-scale Waymo dataset to demonstrate that our approach performs well against state-of-the-art methods. Code and models will be made publicly available at https://github.com/kuanchihhuang/PTT.
公開日:2024-04-24
翻訳日:2024-04-26 23:17:45
# STaR:軽量音声自己監督学習モデルのための音声時間関係の蒸留

STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models ( http://arxiv.org/abs/2312.09040v2 )

ライセンス: Link先を確認
Kangwook Jang, Sungnyun Kim, Hoirin Kim, (参考訳) Transformerベースの音声自己教師学習(SSL)モデルの優れた性能にもかかわらず、その大きなパラメータサイズと計算コストは、それらを利用するのが好ましくない。 本研究では,音声時間関係(STaR)を蒸留して音声SSLモデルを圧縮することを提案する。 従来の音声フレームの表現と直接一致する従来の研究とは異なり、STaR蒸留は音声フレーム間の時間的関係を伝達する。 3つのSTaR蒸留目標を探索し、最終STaR損失として最適な組み合わせを選択する。 HuBERT BASE から抽出したモデルは SUPERB ベンチマークで 79.8 の総合スコアを達成し,最大2700万のパラメータを持つモデルの中で最高の性能を示した。 提案手法は,異なる音声SSLモデルに適用可能であり,より少ないパラメータで頑健な性能を維持できることを示す。

Albeit great performance of Transformer-based speech selfsupervised learning (SSL) models, their large parameter size and computational cost make them unfavorable to utilize. In this study, we propose to compress the speech SSL models by distilling speech temporal relation (STaR). Unlike previous works that directly match the representation for each speech frame, STaR distillation transfers temporal relation between speech frames, which is more suitable for lightweight student with limited capacity. We explore three STaR distillation objectives and select the best combination as the final STaR loss. Our model distilled from HuBERT BASE achieves an overall score of 79.8 on SUPERB benchmark, the best performance among models with up to 27 million parameters. We show that our method is applicable across different speech SSL models and maintains robust performance with further reduced parameters.
公開日:2024-04-25
翻訳日:2024-04-26 23:17:45
# 3次元生成モデルのためのモザイクSDF

Mosaic-SDF for 3D Generative Models ( http://arxiv.org/abs/2312.09222v2 )

ライセンス: Link先を確認
Lior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman, (参考訳) 現在の3次元形状の拡散モデルまたはフローベース生成モデルは、事前訓練された2次元画像拡散モデルを蒸留し、3次元形状を直接訓練する。 拡散モデルや流れモデルを3次元形状で訓練する場合、重要な設計選択は形状表現である。 効果的な形状表現は、3つの設計原則に従う必要がある: 大きな3Dデータセットを表現形式に効率的に変換すること; 近似パワーとパラメータの数との良好なトレードオフを提供すること; 既存の強力なニューラルネットワークアーキテクチャと互換性のある単純なテンソル形式を持つこと。 体積格子や点雲のような標準的な3次元形状表現はこれらすべての原則を同時に従わないが、本稿では新しい表現を提唱する。 モーザイクSDF(M-SDF: Mosaic-SDF)は、形状境界付近に広がる局所格子を用いて、与えられた形状の符号距離関数(SDF)を近似した単純な3次元形状表現である。 M-SDF表現は、個々の形状に対して、容易に並列化できるように高速に計算でき、形状の境界付近の空間のみをカバーするため、パラメータ効率が良く、トランスフォーマーベースのアーキテクチャと互換性のある単純な行列形式を持つ。 我々は,M-SDF表現の有効性を実演し,M-SDF表現を用いて3Dウェアハウスデータセットを用いたクラス条件付き生成と約600k字幕形状のデータセットを用いたテキストから3D生成を含む3次元生成フローモデルを訓練した。

Current diffusion or flow-based generative models for 3D shapes divide to two: distilling pre-trained 2D image diffusion models, and training directly on 3D shapes. When training a diffusion or flow models on 3D shapes a crucial design choice is the shape representation. An effective shape representation needs to adhere three design principles: it should allow an efficient conversion of large 3D datasets to the representation form; it should provide a good tradeoff of approximation power versus number of parameters; and it should have a simple tensorial form that is compatible with existing powerful neural architectures. While standard 3D shape representations such as volumetric grids and point clouds do not adhere to all these principles simultaneously, we advocate in this paper a new representation that does. We introduce Mosaic-SDF (M-SDF): a simple 3D shape representation that approximates the Signed Distance Function (SDF) of a given shape by using a set of local grids spread near the shape's boundary. The M-SDF representation is fast to compute for each shape individually making it readily parallelizable; it is parameter efficient as it only covers the space around the shape's boundary; and it has a simple matrix form, compatible with Transformer-based architectures. We demonstrate the efficacy of the M-SDF representation by using it to train a 3D generative flow model including class-conditioned generation with the 3D Warehouse dataset, and text-to-3D generation using a dataset of about 600k caption-shape pairs.
公開日:2024-04-24
翻訳日:2024-04-26 23:08:01
# 2レベル量子システムと物理空間の接続の確立に向けて

Towards establishing a connection between two-level quantum systems and physical spaces ( http://arxiv.org/abs/2312.09270v2 )

ライセンス: Link先を確認
V. G. Valle, L. L. Brugger, B. F. Rizzuti, Cristhiano Duarte, (参考訳) この研究は、ヒルベルト空間における対応する記述(状態として)を用いて、2レベル量子系の準備の間の運用上の接続を明確にすることを目的としている。 これは時代遅れに聞こえるかもしれませんが、一般的な感覚以上の関連性があることが、私たちを信じさせます。 これら2つの分離された領域(実際の実験室と状態空間)を橋渡しするために、私たちはパラダイム的な数学的対象であるホップフィブレーション(Hopf fibration)に依存している。 この接続が簡単な光学的設定で実際にどのように機能するかを説明する。 興味深いことに、この光学装置は球体を覆うために2つのチャートを使う必要があることを反映している。 別の言い方をすれば、実験的な実現は滑らかな多様体と見なされる球体の2次元性を反映している。

This work seeks to make explicit the operational connection between the preparation of two-level quantum systems with their corresponding description (as states) in a Hilbert space. This may sound outdated, but we show there is more to this connection than common sense may lead us to believe. To bridge these two separated realms -- the actual laboratory and the space of states -- we rely on a paradigmatic mathematical object: the Hopf fibration. We illustrate how this connection works in practice with a simple optical setup. Remarkably, this optical setup also reflects the necessity of using two charts to cover a sphere. Put another way, our experimental realization reflects the bi-dimensionality of a sphere seen as a smooth manifold.
公開日:2024-04-24
翻訳日:2024-04-26 23:08:00
# 意味-数値ギャップのブリッジ:材料特性予測のためのクロスモーダル知識グラフの数値推論法

Bridging the Semantic-Numerical Gap: A Numerical Reasoning Method of Cross-modal Knowledge Graph for Material Property Prediction ( http://arxiv.org/abs/2312.09744v2 )

ライセンス: Link先を確認
Guangxuan Song, Dongmei Fu, Zhongwei Qiu, Zijiang Yang, Jiaxin Dai, Lingwei Ma, Dawei Zhang, (参考訳) 機械学習(ML)技術を用いて材料特性を予測することが重要な研究トピックである。 これらの性質は数値データと意味要因に依存する。 小さなサンプルデータセットの制限のため、既存の手法では一般的にMLアルゴリズムを使用して数値特性を回帰したり、トレーニング済みの知識グラフ(KG)を素材に転送する。 しかし,これらの手法は意味情報と数値情報を同時に扱うことはできない。 本稿では,意味ノードと数値プロキシノードを用いたクロスモーダルKGを構成する材料KG(NR-KG)の数値解析手法を提案する。 KGを標準KGに投影することで、両方のタイプの情報をキャプチャし、グラフニューラルネットワークを使用して材料特性を予測する。 このプロセスでは,数値情報から意味的特徴を抽出するために,新しい予測予測損失を提案する。 NR-KGは、小さなサンプルデータセットにおけるクロスモーダルデータ、マイニング関係、クロスモーダル情報のエンドツーエンド処理を容易にし、価値ある実験データを十分に活用して、材料予測を強化する。 さらに、意味記述を伴う2つの新しい高エントロピー合金(HEA)特性データセットを提案する。 NR-KGは最先端のSOTA(State-of-the-art)法より優れており、2つの材料データセットに対して25.9%と16.1%の相対的な改善を達成している。 さらに、NR-KGは2つの公共物理化学分子データセットのSOTA法を超越し、22.2%と54.3%の改善を示し、その可能性と一般化性を強調している。 提案されたデータセット、アルゴリズム、および事前訓練されたモデルが、材料のためのKGとAIのコミュニティを促進することを願っている。

Using machine learning (ML) techniques to predict material properties is a crucial research topic. These properties depend on numerical data and semantic factors. Due to the limitations of small-sample datasets, existing methods typically adopt ML algorithms to regress numerical properties or transfer other pre-trained knowledge graphs (KGs) to the material. However, these methods cannot simultaneously handle semantic and numerical information. In this paper, we propose a numerical reasoning method for material KGs (NR-KG), which constructs a cross-modal KG using semantic nodes and numerical proxy nodes. It captures both types of information by projecting KG into a canonical KG and utilizes a graph neural network to predict material properties. In this process, a novel projection prediction loss is proposed to extract semantic features from numerical information. NR-KG facilitates end-to-end processing of cross-modal data, mining relationships and cross-modal information in small-sample datasets, and fully utilizes valuable experimental data to enhance material prediction. We further propose two new High-Entropy Alloys (HEA) property datasets with semantic descriptions. NR-KG outperforms state-of-the-art (SOTA) methods, achieving relative improvements of 25.9% and 16.1% on two material datasets. Besides, NR-KG surpasses SOTA methods on two public physical chemistry molecular datasets, showing improvements of 22.2% and 54.3%, highlighting its potential application and generalizability. We hope the proposed datasets, algorithms, and pre-trained models can facilitate the communities of KG and AI for materials.
公開日:2024-04-24
翻訳日:2024-04-26 23:08:00
# 適応最適化のない電子状態に対する高精度かつゲート効率の量子アンセッツェ

Accurate and gate-efficient quantum ansätze for electronic states without adaptive optimisation ( http://arxiv.org/abs/2312.09761v4 )

ライセンス: Link先を確認
Hugh G. A. Burton, (参考訳) 量子コンピュータが、多体問題の指数的メモリスケーリングを克服する能力は、量子化学を変革することが期待されている。 量子アルゴリズムは量子デバイス上での電子状態の正確な表現を必要とするが、現在の近似は物理対称性を保ちながら化学的精度とゲート効率を組み合わせるのに苦労し、各分子に波動関数のアンザッツを調整する測定集約適応法に依存している。 本報告では, 化学的精度の高い分子エネルギーを, 回路構造をよく定義する対称性保存・ゲート効率アンサッツを提案する。 提案手法は、局所量子ビット接続、軌道最適化、一般化原子価結合理論との接続を利用して、浅い量子回路で得られる精度を最大化する。 テトラメチレンエタンのベンゼン、水、一重項-三重項ギャップを含む弱い電子相関を持つ分子の数値シミュレーションにより、化学的に正確なエネルギーは、最先端の適応アンザッツ技術と比較して最大84%少ない2ビットゲートで達成されることを示した。

The ability of quantum computers to overcome the exponential memory scaling of many-body problems is expected to transform quantum chemistry. Quantum algorithms require accurate representations of electronic states on a quantum device, but current approximations struggle to combine chemical accuracy and gate-efficiency while preserving physical symmetries, and rely on measurement-intensive adaptive methods that tailor the wave function ansatz to each molecule. In this contribution, we present a symmetry-preserving and gate-efficient ansatz that provides chemically accurate molecular energies with a well-defined circuit structure. Our approach exploits local qubit connectivity, orbital optimisation, and connections with generalised valence bond theory to maximise the accuracy that is obtained with shallow quantum circuits. Numerical simulations for molecules with weak and strong electron correlation, including benzene, water, and the singlet-triplet gap in tetramethyleneethane, demonstrate that chemically accurate energies are achieved with as much as 84% fewer two-qubit gates compared to state-of-the-art adaptive ansatz techniques.
公開日:2024-04-25
翻訳日:2024-04-26 23:08:00
# ハミルトニアンシミュレーションによる対流方程式の量子アルゴリズム

Quantum Algorithm for Solving the Advection Equation using Hamiltonian Simulation ( http://arxiv.org/abs/2312.09784v2 )

ライセンス: Link先を確認
Peter Brearley, Sylvain Laizet, (参考訳) 離散時間マーチング演算子をハミルトニアンシミュレーションに埋め込み, 対流方程式を解く量子アルゴリズムを提案する。 一次元の対流は、一階微分の中央有限差分作用素が反エルミート的であるため、直接シミュレートすることができる。 ここで、これは工業的に関係のある、現実的な境界条件と任意の有限差分ステンシルを持つ多次元流れに拡張される。 初期量子状態の単一コピーが要求され、回路深さは時間ステップの数、時間マーチング演算子の間隔、許容誤差の逆数とともに線形に増大する。 2次元流路流と蓋駆動キャビティ構成で輸送されるスカラーの状態ベクトルシミュレーションを,提案手法の概念実証として提示する。

A quantum algorithm for solving the advection equation by embedding the discrete time-marching operator into Hamiltonian simulations is presented. One-dimensional advection can be simulated directly since the central finite difference operator for first-order derivatives is anti-Hermitian. Here, this is extended to industrially relevant, multi-dimensional flows with realistic boundary conditions and arbitrary finite difference stencils. A single copy of the initial quantum state is required and the circuit depth grows linearly with the required number of time steps, the sparsity of the time-marching operator and the inverse of the allowable error. Statevector simulations of a scalar transported in a two-dimensional channel flow and lid-driven cavity configuration are presented as a proof of concept of the proposed approach.
公開日:2024-04-25
翻訳日:2024-04-26 23:08:00
# 高次元構成空間の可視化:包括的解析的アプローチ

Visualizing High-Dimensional Configuration Spaces: A Comprehensive Analytical Approach ( http://arxiv.org/abs/2312.10918v2 )

ライセンス: Link先を確認
Jorge Ocampo Jimenez, Wael Suleiman, (参考訳) 構成空間Cの表現は、状態の衝突チェックに計算時間の大半が費やされるサンプリングベースモーションプランナーのための衝突のない経路の発見を加速する上で重要な役割を担っている。 伝統的に、プランナーは衝突チェッカーを用いて衝突のない経路を限定的に評価したり、可視化のためにCの次元を小さくすることでCの表現を評価する。 しかし、衝突チェッカーは、元のCのサブセットだけが表現されている場合でも高い精度を示すことができ、また、移動プランナーが元のCのパスに匹敵するパスを見つける能力を制限することができる。 本稿では,マニピュレータロボットの高次元Cs表現を2次元形式で可視化するための新しい手法を提案する。 元の寸法を小さくすることなく高次元Cs近似の定性的評価を行うための新しいツールを提供する。 これにより、2つの異なる高次元Cの精度とカバレッジを比較する能力が向上する。 マニピュレータロボットのキネマティックチェーンと人間の色知覚を利用して,マニピュレータロボットの7自由度CSを用いて,本手法の有効性を示す。 この可視化は、ロボットの関節の境界と衝突状態の組み合わせのカバレッジに関する質的な洞察を、元のデータの次元性を低下させることなく提供する。 本主張を支持するために,提案した可視化の数値的な評価を行う。

The representation of a Configuration Space C plays a vital role in accelerating the finding of a collision-free path for sampling-based motion planners where the majority of computation time is spent in collision checking of states. Traditionally, planners evaluate C's representations through limited evaluations of collision-free paths using the collision checker or by reducing the dimensionality of C for visualization. However, a collision checker may indicate high accuracy even when only a subset of the original C is represented; limiting the motion planner's ability to find paths comparable to those in the original C. Additionally, dealing with high-dimensional Cs is challenging, as qualitative evaluations become increasingly difficult in dimensions higher than three, where reduced-dimensional C evaluation may decrease accuracy in cluttered environments. In this paper, we present a novel approach for visualizing representations of high-dimensional Cs of manipulator robots in a 2D format. We provide a new tool for qualitative evaluation of high-dimensional Cs approximations without reducing the original dimension. This enhances our ability to compare the accuracy and coverage of two different high-dimensional Cs. Leveraging the kinematic chain of manipulator robots and human color perception, we show the efficacy of our method using a 7-degree-of-freedom CS of a manipulator robot. This visualization offers qualitative insights into the joint boundaries of the robot and the coverage of collision state combinations without reducing the dimensionality of the original data. To support our claim, we conduct a numerical evaluation of the proposed visualization.
公開日:2024-04-24
翻訳日:2024-04-26 23:08:00
# 言語可能な空間オントロジーによる屋内・屋外3次元シーングラフ生成

Indoor and Outdoor 3D Scene Graph Generation via Language-Enabled Spatial Ontologies ( http://arxiv.org/abs/2312.11713v2 )

ライセンス: Link先を確認
Jared Strader, Nathan Hughes, William Chen, Alberto Speranzon, Luca Carlone, (参考訳) 本稿では,任意の屋内環境と屋外環境に3次元シーングラフを構築する手法を提案する。 このような拡張は困難であり、屋外環境を記述する概念の階層は屋内よりも複雑であり、手動でそのような階層を定義するのは時間を要するためスケールしない。 さらに、トレーニングデータの欠如は、屋内環境で使用される学習ツールの直接的な適用を妨げている。 これらの課題に対処するため、我々は2つの新しい拡張を提案する。 まず,室内と屋外のロボット操作に関連する概念と関係を定義する空間オントロジーを構築する手法を開発する。 特に、そのようなオントロジーを構築するためにLLM(Large Language Model)を使用します。 第2に、論理テンソルネットワーク(LTN)を用いた3次元シーングラフ構築のための空間オントロジーを活用し、論理ルールや公理(例えば「砂を含むビーチ」)を付加することで、トレーニング時に追加の監視信号を提供し、ラベル付きデータの必要性を低減し、より良い予測を提供し、トレーニング時に見つからない概念の予測を可能にする。 室内環境,農村環境,沿岸環境など,さまざまなデータセットを用いて本手法を検証した結果,微少な注釈付きデータによる3Dシーングラフ生成の品質向上が確認できた。

This paper proposes an approach to build 3D scene graphs in arbitrary indoor and outdoor environments. Such extension is challenging; the hierarchy of concepts that describe an outdoor environment is more complex than for indoors, and manually defining such hierarchy is time-consuming and does not scale. Furthermore, the lack of training data prevents the straightforward application of learning-based tools used in indoor settings. To address these challenges, we propose two novel extensions. First, we develop methods to build a spatial ontology defining concepts and relations relevant for indoor and outdoor robot operation. In particular, we use a Large Language Model (LLM) to build such an ontology, thus largely reducing the amount of manual effort required. Second, we leverage the spatial ontology for 3D scene graph construction using Logic Tensor Networks (LTN) to add logical rules, or axioms (e.g., "a beach contains sand"), which provide additional supervisory signals at training time thus reducing the need for labelled data, providing better predictions, and even allowing predicting concepts unseen at training time. We test our approach in a variety of datasets, including indoor, rural, and coastal environments, and show that it leads to a significant increase in the quality of the 3D scene graph generation with sparsely annotated data.
公開日:2024-04-24
翻訳日:2024-04-26 23:08:00
# 量子コンピュータを用いたシュウィンガーモデルの1次相転移

First-Order Phase Transition of the Schwinger Model with a Quantum Computer ( http://arxiv.org/abs/2312.12831v3 )

ライセンス: Link先を確認
Takis Angelides, Pranay Naredi, Arianna Crippa, Karl Jansen, Stefan Kühn, Ivano Tavernelli, Derek S. Wang, (参考訳) 本稿では,変分量子固有解法 (VQE) を用いてトポロジカル$\theta$-termの存在下での格子シュウィンガーモデルの1次位相遷移について検討する。 Wilson と Stagered fermion の2つの異なるフェミオン離散化を用いて、両離散化に適したパラメトリックアンサッツ回路を開発し、ノイズがない場合に理想的なVQE最適化を古典的にシミュレートしてそれらの性能を比較する。 古典的なシミュレーションによって得られた状態は、IBMの超伝導量子ハードウェア上で準備される。 本研究では, 電場密度と粒子数, モデルの位相構造を明らかにする観測可能な観測値が, 量子ハードウェアから確実に得られることを示す。 連続体外挿に必要なシステムサイズを最小化するために,行列積状態を用いた連続体限界について検討し,その結果を連続体摂動理論と比較した。 付加的な質量再正規化を考慮に入れることは、より小さなシステムサイズで得られる精度を高めるのに不可欠である。 さらに、観測可能量について、普遍性を観測し、両方のフェルミオンの離散化は同じ連続極限を生成する。

We explore the first-order phase transition in the lattice Schwinger model in the presence of a topological $\theta$-term by means of the variational quantum eigensolver (VQE). Using two different fermion discretizations, Wilson and staggered fermions, we develop parametric ansatz circuits suitable for both discretizations, and compare their performance by simulating classically an ideal VQE optimization in the absence of noise. The states obtained by the classical simulation are then prepared on the IBM's superconducting quantum hardware. Applying state-of-the art error-mitigation methods, we show that the electric field density and particle number, observables which reveal the phase structure of the model, can be reliably obtained from the quantum hardware. To investigate the minimum system sizes required for a continuum extrapolation, we study the continuum limit using matrix product states, and compare our results to continuum mass perturbation theory. We demonstrate that taking the additive mass renormalization into account is vital for enhancing the precision that can be obtained with smaller system sizes. Furthermore, for the observables we investigate we observe universality, and both fermion discretizations produce the same continuum limit.
公開日:2024-04-25
翻訳日:2024-04-26 23:08:00
# テキスト・トゥ・イメージ・ソフトウェアの自動テスト

Automated Testing for Text-to-Image Software ( http://arxiv.org/abs/2312.12933v2 )

ライセンス: Link先を確認
Siqi Gu, (参考訳) 近年、クリエイティブな生成人工知能ソフトウェアが中心的なアシスタントとして登場し、ユーザーはコンテンツを生成し、インスピレーションを迅速に求めることができるようになった。 テキスト・トゥ・イメージ(T2I)ソフトウェアは、最も広く使われているソフトウェアの一つであり、クロスモーダル・プロセスに携わることで、単純なテキスト入力で画像の合成に使用される。 しかし、いくつかの分野でかなりの進歩があったにもかかわらず、T2Iソフトウェアは、焦点エンティティの省略、画像リアリズムの低さ、テキスト画像情報のミスマッチなど、しばしば欠陥や誤りに遭遇する。 T2Iソフトウェアのクロスモーダルな性質は、従来のテスト手法が欠陥を検出するのを困難にしている。 テストオラクルの欠如は、テストの複雑さをさらに高める。 この欠陥に対処するため,本研究では,T2Iソフトウェア用に設計された最初のテスト手法である,テキスト・ツー・イメージ・ソフトウェアの自動クロスモーダルテスト手法であるACTestingを提案する。 本研究は, セマンティック情報における一貫性の維持という基本原理に従って, エンティティと関係三重項に基づくテストサンプルを構築し, クロスモーダルマッチングの課題を克服する。 まず,T2Iソフトウェアの変成関係を設計し,適応性密度で導かれる3種類の突然変異演算子を実装した。 実験では,広く使用されている4つのT2Iソフトウェア上でACTestを行う。 その結果、ACTestingはエラー検出テストを生成することができ、ベースラインと比較してテキストイメージの一貫性を最大20%削減できることがわかった。 また,提案した変成関係に基づいて,各変異演算子の有効性を効果的に示すアブレーション研究も行った。 その結果、ACTestingはT2Iソフトウェアの異常動作を効果的に識別できることがわかった。

Recently, creative generative artificial intelligence software has emerged as a pivotal assistant, enabling users to generate content and seek inspiration rapidly. Text-to-image (T2I) software, being one of the most widely used among them, is used to synthesize images with simple text input by engaging in a cross-modal process. However, despite substantial advancements in several fields, T2I software often encounters defects and erroneous, including omitting focal entities, low image realism, and mismatched text-image information. The cross-modal nature of T2I software makes it challenging for traditional testing methods to detect defects. Lacking test oracles further increases the complexity of testing. To address this deficiency, we propose ACTesting, an Automated Cross-modal Testing Method of Text-to-Image software, the first testing method designed specifically for T2I software. We construct test samples based on entities and relationship triples following the fundamental principle of maintaining consistency in the semantic information to overcome the cross-modal matching challenges. To address the issue of testing oracle scarcity, we first design the metamorphic relation for T2I software and implement three types of mutation operators guided by adaptability density. In the experiment, we conduct ACTesting on four widely-used T2I software. The results show that ACTesting can generate error-revealing tests, reducing the text-image consistency by up to 20% compared with the baseline. We also conduct the ablation study that effectively showcases the efficacy of each mutation operator, based on the proposed metamorphic relation. The results demonstrate that ACTesting can identify abnormal behaviors of T2I software effectively.
公開日:2024-04-25
翻訳日:2024-04-26 23:08:00
# サービス効率と平等のバランスをとるための拡張p中間問題

Extended p-median problems for balancing service efficiency and equality ( http://arxiv.org/abs/2312.14408v2 )

ライセンス: Link先を確認
Yunfeng Kong, Chenchen Lian, Guangli Zhang, Shiyan Zhai, (参考訳) この記事では、サービスの効率と平等のバランスをとるための場所問題を扱います。 公共サービスシステムでは、他のサービスにアクセスするのに長い旅行距離が必要な場合、うらやましい思いをする人もいます。 走行距離をサービス施設としきい値距離と比較することにより、エンビーの強度を測定することができる。 サービス効率と等価性の間のトレードオフのために,全エンビー関数を用いて4つの拡張されたp中間問題を提案する。 新しい問題の5つの解析的性質が数学的に証明されている。 新しい問題は、よく設計された3つのインスタンスでテストされた。 実験により,旅行コストと空間的エンビーを最小化することにより,標準偏差,平均絶対偏差,旅行距離間のジーニ係数などの等式を著しく改善できることを示した。 また, 施設数の観点からサービス供給が提供される場合, 走行距離をわずかに増加させることで, サービス平等性を大幅に向上させることができることを示した。 施設数でサービス供給量が増えると、サービス効率と空間平等の両方を著しく向上させることができる。

This article deals with the location problem for balancing the service efficiency and equality. In public service systems, some people may feel envy in case that they need longer travel distance to access services than others. The strength of the envy can be measured by comparing one's travel distance to service facility with a threshold distance. Using the total envy function, four extended p-median problems are proposed for trade-off between service efficiency and equality. Five analytical properties of the new problems are mathematically proven. The new problems were tested on three sets of well-designed instances. The experimentation shows that the equality measures, such as the standard deviation, the mean absolute deviation, and the Gini coefficient between travel distances, can be substantially improved by minimizing the travel cost and the spatial envy. The experimentation also shows that, when the service supply is given in terms of the number of facilities, the service equality can be considerably improved by slightly increasing the travel distance. When the service supply is increased in terms of the number of facilities, both the service efficiency and spatial equality can be significantly improved.
公開日:2024-04-25
翻訳日:2024-04-26 23:08:00
# マトリックス生成状態をもつフェルミオン回路の高速エミュレーション

Fast emulation of fermionic circuits with matrix product states ( http://arxiv.org/abs/2312.17657v4 )

ライセンス: Link先を確認
Justin Provazza, Klaas Gunst, Huanchen Zhai, Garnet K. -L. Chan, Toru Shiozaki, Nicholas C. Rubin, Alec F. White, (参考訳) 本稿では,Fermionic Quantum Emulator (FQE)ソフトウェアライブラリのMPS拡張について述べる。 本稿では、スピン1/2フェルミオンの多体波動関数を近似するための対称性適応行列積状態の理論について論じ、FQEインタフェース(MPS-FQE)のオープンソース実装について述べる。 このソフトウェアは、ほとんどの基本的なテンソル操作にオープンソースのpyblock3とBlock2ライブラリを使用し、FQEのドロップイン代替として、より大きなフェルミオン回路のより効率的で近似的なエミュレーションを可能にする。 最後に、大規模システムの近似的なエミュレーションが期待できる、短期的および耐故障性量子アルゴリズムの両方に関連するいくつかの応用について、量子位相推定のための状態準備戦略の評価、異なる変分量子固有解法Ans\atzeのテスト、トロッター誤差の数値評価、一般的な量子力学問題のシミュレーションを示す。 これらすべての例において、MPS-FQEによる近似エミュレーションにより、フルステートベクターエミュレータでアクセス可能なシステムよりもはるかに大きいシステムを扱うことができる。

We describe a matrix product state (MPS) extension for the Fermionic Quantum Emulator (FQE) software library. We discuss the theory behind symmetry adapted matrix product states for approximating many-body wavefunctions of spin-1/2 fermions, and we present an open-source, MPS-enabled implementation of the FQE interface (MPS-FQE). The software uses the open-source pyblock3 and block2 libraries for most elementary tensor operations, and it can largely be used as a drop-in replacement for FQE that allows for more efficient, but approximate, emulation of larger fermionic circuits. Finally, we show several applications relevant to both near-term and fault-tolerant quantum algorithms where approximate emulation of larger systems is expected to be useful: characterization of state preparation strategies for quantum phase estimation, the testing of different variational quantum eigensolver Ans\"atze, the numerical evaluation of Trotter errors, and the simulation of general quantum dynamics problems. In all these examples, approximate emulation with MPS-FQE allows us to treat systems that are significantly larger than those accessible with a full statevector emulator.
公開日:2024-04-24
翻訳日:2024-04-26 23:08:00
# Decorrelated Event Classifier Transformer Neural Networkによる重要度学習の試み

Training towards significance with the decorrelated event classifier transformer neural network ( http://arxiv.org/abs/2401.00428v2 )

ライセンス: Link先を確認
Jaebak Kim, (参考訳) 実験粒子物理学では、多くのタスクに機械学習を用いており、ひとつの応用は信号とバックグラウンドイベントの分類である。 この分類は、質量共鳴探索において期待される重要性を高めるために分析領域を結合するために用いられる。 自然言語処理では、主要なニューラルネットワークアーキテクチャの1つがトランスフォーマーである。 本研究では, イベント分類器変換器を用いて解析領域を結合し, ネットワークを特別な手法で訓練する手法を提案する。 ここで開発された技術は、ネットワークの出力と再構成された質量との相関性を高めることができる。 この訓練されたネットワークは、強化された決定木やフィードフォワードネットワークよりも優れた性能を発揮することが判明した。

Experimental particle physics uses machine learning for many of tasks, where one application is to classify signal and background events. The classification can be used to bin an analysis region to enhance the expected significance for a mass resonance search. In natural language processing, one of the leading neural network architectures is the transformer. In this work, an event classifier transformer is proposed to bin an analysis region, in which the network is trained with special techniques. The techniques developed here can enhance the significance and reduce the correlation between the network's output and the reconstructed mass. It is found that this trained network can perform better than boosted decision trees and feed-forward networks.
公開日:2024-04-25
翻訳日:2024-04-26 23:08:00
# NU-Class Net:ビデオ品質向上のための新しいディープラーニングベースのアプローチ

NU-Class Net: A Novel Deep Learning-based Approach for Video Quality Enhancement ( http://arxiv.org/abs/2401.01163v2 )

ライセンス: Link先を確認
Parham Zilouchian Moghaddam, Mehdi Modarressi, Mohammad Amin Sadeghi, (参考訳) ビデオコンテンツの人気は急増しており、インターネットトラフィックとIoT(Internet of Things)ネットワークに対する優位性を主張している。 ビデオ圧縮は、ビデオキャプチャー装置が生成する実質的なマルチメディアトラフィックを効率的に管理する主要な手段であると考えられてきた。 それでも、ビデオ圧縮アルゴリズムは、かなりの圧縮比を達成するために、かなりの計算要求を必要とする。 この複雑さは、IoTエッジノードカメラなどのリソース制限された組み込みシステムにおいて、効率的なビデオコーディング標準を実装する上で、非常に難しい課題となる。 そこで本研究では,圧縮コーデックの損失による圧縮アーチファクトの軽減を目的とした,革新的な深層学習モデルであるNU-Class Netを提案する。 この拡張により、低ビットレートビデオの品質が著しく向上する。 NU-Class Netを利用することで、ビデオキャプチャノード内のビデオエンコーダは出力品質を低減し、低ビットレートのビデオを生成し、エッジでの計算と帯域幅の要求を効果的に調整することができる。 デコーダ側では、典型的にはリソース制限の影響を受けないが、NU-Class Netはビデオデコーダの後に適用され、アーティファクトを補償し、元のビデオの品質を近似する。 実験により,低ビットレートでストリーミングされたビデオの知覚品質を高めるためのモデルの有効性が確認された。

Video content has experienced a surge in popularity, asserting its dominance over internet traffic and Internet of Things (IoT) networks. Video compression has long been regarded as the primary means of efficiently managing the substantial multimedia traffic generated by video-capturing devices. Nevertheless, video compression algorithms entail significant computational demands in order to achieve substantial compression ratios. This complexity presents a formidable challenge when implementing efficient video coding standards in resource-constrained embedded systems, such as IoT edge node cameras. To tackle this challenge, this paper introduces NU-Class Net, an innovative deep-learning model designed to mitigate compression artifacts stemming from lossy compression codecs. This enhancement significantly elevates the perceptible quality of low-bit-rate videos. By employing the NU-Class Net, the video encoder within the video-capturing node can reduce output quality, thereby generating low-bit-rate videos and effectively curtailing both computation and bandwidth requirements at the edge. On the decoder side, which is typically less encumbered by resource limitations, NU-Class Net is applied after the video decoder to compensate for artifacts and approximate the quality of the original video. Experimental results affirm the efficacy of the proposed model in enhancing the perceptible quality of videos, especially those streamed at low bit rates.
公開日:2024-04-24
翻訳日:2024-04-26 23:08:00
# カーマグノンを用いた非相反非接触光子遮断

Nonreciprocal Unconventional Photon Blockade with Kerr Magnons ( http://arxiv.org/abs/2401.02251v2 )

ライセンス: Link先を確認
Xiao-Hong Fan, Yi-Ning Zhang, Jun-Po Yu, Ming-Yue Liu, Wen-Di He, Hai-Chao Li, Wei Xiong, (参考訳) 片方向信号の操作を可能にする非相互デバイスは、量子情報処理と量子ネットワークにとって不可欠である。 本稿では,YIG(Yettrium-iron-garnet)球に結合したマイクロ波空洞とKerr非線形性を持つマグノンからなる非線形空洞-マグノン系を提案する。 非相互性は方向依存的なカー効果から来ており、スピンキャビティと散逸結合を持つ以前の提案とは異なる。 単一球面の場合、非相反的でない光子遮断は、ケーラー係数を正から負に、あるいはその逆の2つの活性経路間の非相反的破壊的干渉を操作することによって実現できる。 システムパラメータを最適化することにより、完全かつ十分に調整された非相互不整合光子遮断を予測することができる。 反対のカー効果を持つ2つの球体の場合、2つのキャビティとマグノンの結合強度が対称であるときに、相互の不定形光子遮断のみが観測される。 しかし、結合強度やカー強度が非対称となると、非相互非伝統的な光子遮断が現れる。 これは、2次元非線形キャビティ-マグノン系が相互と非相互の光子遮断の遷移を切り替えるために用いられることを意味する。 本研究は非線形キャビティマグノニクスにおける非相反光子遮断効果の研究のための潜在的プラットフォームを提供する。

Nonreciprocal devices, allowing to manipulate one-way signals, are crucial to quantum information processing and quantum network. Here we propose a nonlinear cavity-magnon system, consisting of a microwave cavity coupled to one or two yttrium-iron-garnet (YIG) spheres supporting magnons with Kerr nonlinearity, to investigate nonreciprocal unconventional photon blockade. The nonreciprocity originates from the direction-dependent Kerr effect, distinctly different from previous proposals with spinning cavities and dissipative couplings. For a single sphere case, nonreciprocal unconventional photon blockade can be realized by manipulating the nonreciprocal destructive interference between two active paths, via vary the Kerr coefficient from positive to negative, or vice versa. By optimizing the system parameters, the perfect and well-tuned nonreciprocal unconventional photon blockade can be predicted. For the case of two spheres with opposite Kerr effects, only reciprocal unconventional photon blockade can be observed when two cavity-magnon coupling strengths Kerr strengths are symmetric. However, when coupling strengths or Kerr strengths become asymmetric, nonreciprocal unconventional photon blockade appears. This implies that two-sphere nonlinear cavity-magnon systems can be used to switch the transition between reciprocal and nonreciprocal unconventional photon blockades. Our study offers a potential platform for investigating nonreciprocal photon blockade effect in nonlinear cavity magnonics.
公開日:2024-04-25
翻訳日:2024-04-26 23:08:00
# 非有界不定点集合をもつ非双曲非線形写像の安定性と機械学習への応用

On the Stability of a non-hyperbolic nonlinear map with non-bounded set of non-isolated fixed points with applications to Machine Learning ( http://arxiv.org/abs/2401.03051v2 )

ライセンス: Link先を確認
Roberta Hansen, Matias Vera, Lautaro Estienne, Luciana Ferrer, Pablo Piantanida, (参考訳) 本稿では、一階非線形差分方程式から定義されるSUCPAアルゴリズムの収束解析を、教師付き機械学習分類器によって出力されるスコアを補正するために最初に開発した。 収束解析は、アルゴリズムから導出される非線形写像の局所的および大域的安定性を研究することにより、力学系問題として対処される。 この写像は指数関数と有理関数の合成によって定義されるが、非有界な不定点集合を持つ非双曲型であることが分かる。 したがって、収束解析を解くための非標準的手法は、アドホックな幾何学的アプローチによって構成される。 二項分類問題(二次元写像)に対して、この写像が全世界的に漸近的に安定であることを厳密に証明する。 実世界の応用に関する数値実験は,大言語モデルとキャットドー画像分類を用いた感性極性という2つの異なる分類問題を用いて理論的結果を支援するために行われた。 より多くのクラスに対して、数値的なエビデンスはアルゴリズムの同じ振る舞いを示し、これは自然言語推論の例で示される。 実験コードは、以下のリポジトリでオンラインで公開されている。

This paper deals with the convergence analysis of the SUCPA (Semi Unsupervised Calibration through Prior Adaptation) algorithm, defined from a first-order non-linear difference equations, first developed to correct the scores output by a supervised machine learning classifier. The convergence analysis is addressed as a dynamical system problem, by studying the local and global stability of the nonlinear map derived from the algorithm. This map, which is defined by a composition of exponential and rational functions, turns out to be non-hyperbolic with a non-bounded set of non-isolated fixed points. Hence, a non-standard method for solving the convergence analysis is used consisting of an ad-hoc geometrical approach. For a binary classification problem (two-dimensional map), we rigorously prove that the map is globally asymptotically stable. Numerical experiments on real-world application are performed to support the theoretical results by means of two different classification problems: Sentiment Polarity performed with a Large Language Model and Cat-Dog Image classification. For a greater number of classes, the numerical evidence shows the same behavior of the algorithm, and this is illustrated with a Natural Language Inference example. The experiment codes are publicly accessible online at the following repository: https://github.com/LautaroEst/sucpa-convergence
公開日:2024-04-25
翻訳日:2024-04-26 23:08:00
# クローズド述語を用いた既存規則の一貫性クエリー解法

Consistent Query Answering for Existential Rules with Closed Predicates ( http://arxiv.org/abs/2401.05743v2 )

ライセンス: Link先を確認
Lorenzo Marconi, Riccardo Rosati, (参考訳) Consistent Query Answering (CQA)は、知識ベースとデータベースのデータアクセスに対する一貫性のないアプローチである。 CQAの目標は、一貫性のない情報が存在する場合でも、クエリに意味のある(一貫性のある)回答を提供することである。 CQAのセマンティクスは、修復の概念、すなわち最小限の変更によって得られる初期一貫性のないデータベースの一貫したバージョンに基づいている。 既存のルールで表されるデータ依存データベースにおけるCQAについて検討する。 より具体的には、タプル生成の依存関係と等価性の生成の依存関係の両方を拡張する、不等式(DED)を伴う、広範囲な結合型依存性のクラスに焦点を当てる。 まず、データベース述語がクローズされた場合、すなわち、データベースがそのような述語に関する完全な知識を持っていると仮定し、データベースを修復するタプルの追加は不可能である。 このようなシナリオでは、CQAのデータ複雑性と関連するタスク(再チェック)を、異なる意味論(ARとIAR)と異なる存在規則のクラスで詳細に分析する。 特に,非巡回型,線形型,完全型,粘着型およびガード型DEDのクラスとその組み合わせについて考察する。

Consistent Query Answering (CQA) is an inconsistency-tolerant approach to data access in knowledge bases and databases. The goal of CQA is to provide meaningful (consistent) answers to queries even in the presence of inconsistent information, e.g. a database whose data conflict with meta-data (typically the database integrity constraints). The semantics of CQA is based on the notion of repair, that is, a consistent version of the initial, inconsistent database that is obtained through minimal modifications. We study CQA in databases with data dependencies expressed by existential rules. More specifically, we focus on the broad class of disjunctive embedded dependencies with inequalities (DEDs), which extend both tuple-generating dependencies and equality-generated dependencies. We first focus on the case when the database predicates are closed, i.e. the database is assumed to have complete knowledge about such predicates, thus no tuple addition is possible to repair the database. In such a scenario, we provide a detailed analysis of the data complexity of CQA and associated tasks (repair checking) under different semantics (AR and IAR) and for different classes of existential rules. In particular, we consider the classes of acyclic, linear, full, sticky and guarded DEDs, and their combinations.
公開日:2024-04-24
翻訳日:2024-04-26 21:08:18
# 眼の広いシャット : マルチモーダルLDMの視覚的欠点を探る

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs ( http://arxiv.org/abs/2401.06209v2 )

ライセンス: Link先を確認
Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, Saining Xie, (参考訳) 視覚は言語に十分か? 近年のマルチモーダルモデルの発展は主に、大規模言語モデル(LLM)の強力な推論能力に起因している。 しかし、ビジュアルコンポーネントは通常、インスタンスレベルのコントラスト言語イメージ事前トレーニング(CLIP)にのみ依存する。 近年のMLLM(Multimodal LLM)の視覚能力は,いまだに体系的な欠点を呈している。 これらの誤りの根源を理解するために,CLIPの視覚埋め込み空間と視覚のみの自己教師型学習とのギャップについて検討する。 CLIP-blind pairs'(CLIP-blind pairs)を識別する。 これらのペアを使って、Multimodal Visual Patterns (MMVP)ベンチマークを構築する。 MMVPは、GPT-4Vを含む最先端のシステムが、9つの基本的な視覚的パターンにまたがる簡単な質問に苦しむ領域を公開している。 さらに,様々なCLIPに基づく視覚・言語モデルの評価を行い,CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。 これらの課題に対処するための最初の取り組みとして,MLLMと視覚自己教師型学習機能を統合することで,視覚的グラウンド機能を大幅に向上させることができる,Mixture of Features (MoF)アプローチを提案する。 両研究は、視覚表現学習は依然としてオープンな課題であり、将来のマルチモーダルシステムには正確な視覚的基盤が不可欠であることを示唆している。

Is vision good enough for language? Recent advancements in multimodal models primarily stem from the powerful reasoning abilities of large language models (LLMs). However, the visual component typically depends only on the instance-level contrastive language-image pre-training (CLIP). Our research reveals that the visual capabilities in recent multimodal LLMs (MLLMs) still exhibit systematic shortcomings. To understand the roots of these errors, we explore the gap between the visual embedding space of CLIP and vision-only self-supervised learning. We identify ''CLIP-blind pairs'' - images that CLIP perceives as similar despite their clear visual differences. With these pairs, we construct the Multimodal Visual Patterns (MMVP) benchmark. MMVP exposes areas where state-of-the-art systems, including GPT-4V, struggle with straightforward questions across nine basic visual patterns, often providing incorrect answers and hallucinated explanations. We further evaluate various CLIP-based vision-and-language models and found a notable correlation between visual patterns that challenge CLIP models and those problematic for multimodal LLMs. As an initial effort to address these issues, we propose a Mixture of Features (MoF) approach, demonstrating that integrating vision self-supervised learning features with MLLMs can significantly enhance their visual grounding capabilities. Together, our research suggests visual representation learning remains an open challenge, and accurate visual grounding is crucial for future successful multimodal systems.
公開日:2024-04-25
翻訳日:2024-04-26 21:08:18
# 顔認識システムにおける偽造と疑似攻撃の再考

Rethinking Impersonation and Dodging Attacks on Face Recognition Systems ( http://arxiv.org/abs/2401.08903v3 )

ライセンス: Link先を確認
Fengfan Zhou, Qianyu Zhou, Bangjie Yin, Hui Zheng, Xuequan Lu, Lizhuang Ma, Hefei Ling, (参考訳) 顔認識(FR)システムは、知覚不能な摂動を通じて良質な顔画像を操作する敵の例によって容易に認識できる。 FRに対する敵対攻撃には、偽装(標的)攻撃とドッジ(対象外)攻撃の2種類がある。 従来の方法では、FRに対する偽装攻撃を成功させることが多いが、ブラックボックス設定でFRに対するドッジ攻撃を成功させるとは限らない。 本稿では,敵対的事例の生成を同時に行うことが重要視される。 そこで,本稿では,既存事例を微調整し,擬人化能力を維持しつつ,そのドッジ能力を高めるための,Adversarial Pruning (Adv-Pruning) と呼ばれる新たな攻撃手法を提案する。 アドブ・プルーニングはプライミング、プルーニング、修復段階で構成されている。 具体的には,従来の逆方向の摂動の領域的優先度を測定するための逆方向優先度定量化法を提案し,絶対モデル出力のばらつきに最小限の影響のあるものを同定・解放する。 次に、ビザドグラディエント適応(Biased Gradient Adaptation)を行い、攻撃者と被害者の双方の意思決定境界を横切るために、空き地に対する妨害攻撃に有利な摂動を追加し、元の摂動の特徴を優先的に保持し、ドッジ性能を向上させることにより、敵の例を適応させる。 その結果、ドッジ能力を効果的に向上しつつ、元の敵の例の偽装能力を維持できることがわかった。 包括的実験は、最先端の敵攻撃と比較して、本手法の優位性を実証している。

Face Recognition (FR) systems can be easily deceived by adversarial examples that manipulate benign face images through imperceptible perturbations. Adversarial attacks on FR encompass two types: impersonation (targeted) attacks and dodging (untargeted) attacks. Previous methods often achieve a successful impersonation attack on FR; However, it does not necessarily guarantee a successful dodging attack on FR in the black-box setting. In this paper, our key insight is that the generation of adversarial examples should perform both impersonation and dodging attacks simultaneously. To this end, we propose a novel attack method termed as Adversarial Pruning (Adv-Pruning), to fine-tune existing adversarial examples to enhance their dodging capabilities while preserving their impersonation capabilities. Adv-Pruning consists of Priming, Pruning, and Restoration stages. Concretely, we propose Adversarial Priority Quantification to measure the region-wise priority of original adversarial perturbations, identifying and releasing those with minimal impact on absolute model output variances. Then, Biased Gradient Adaptation is presented to adapt the adversarial examples to traverse the decision boundaries of both the attacker and victim by adding perturbations favoring dodging attacks on the vacated regions, preserving the prioritized features of the original perturbations while boosting dodging performance. As a result, we can maintain the impersonation capabilities of original adversarial examples while effectively enhancing dodging capabilities. Comprehensive experiments demonstrate the superiority of our method compared with state-of-the-art adversarial attacks.
公開日:2024-04-25
翻訳日:2024-04-26 21:08:18
# アンサンブル型量子メモリと単一スピン光子トランスデューサを用いたハイブリッド量子リピータ

Hybrid Quantum Repeaters with Ensemble-based Quantum Memories and Single-spin Photon Transducers ( http://arxiv.org/abs/2401.12395v2 )

ライセンス: Link先を確認
Fenglei Gu, Shankar G Menon, David Maier, Antariksha Das, Tanmoy Chakraborty, Wolfgang Tittel, Hannes Bernien, Johannes Borregaard, (参考訳) 数百キロにわたる信頼性の高い量子通信は、量子インターネットにとって非常に必要な要件である。 光子損失を克服するためには、遠隔ネットワークノード間の量子中継局の配置が必要である。 この目的のために、さまざまな量子ハードウェアが開発されており、各プラットフォームには独自の機会と課題がある。 本稿では、2つの有望なハードウェアプラットフォームをハイブリッド量子リピータアーキテクチャに組み合わせて、コストを削減し、長距離量子通信の性能を高めることを提案する。 単一スピンで光子を生成し、変換し、変調するデバイスである単一スピン光子トランスデューサと、アンサンブルベースの量子メモリがどのように結合するかを概説する。 特定の例として、ナノフォトニック共振器に結合した1つのルビジウム(Rb)原子が高レートでテレコム可視光子源として機能し、可視光子がサリウムドープ結晶メモリ(Tmメモリ)の記憶に適合し、テレコム光子が低損失ファイバ伝播に適合することを示す。 我々はTmとRbの遷移が互いに共鳴していることを実験的に検証した。 解析の結果,最大16のリピータ局を用いて,最大350個の記憶モードを持つ2つのTmメモリと4つのRb原子を同時に装備することにより,最大1000kmの距離で毎秒数百キュービットを超える量子通信速度を達成できることがわかった。

Reliable quantum communication over hundreds of kilometers is a daunting yet necessary requirement for a quantum internet. To overcome photon loss, the deployment of quantum repeater stations between distant network nodes is necessary. A plethora of different quantum hardware is being developed for this purpose, each platform with its own opportunities and challenges. Here, we propose to combine two promising hardware platforms in a hybrid quantum repeater architecture to lower the cost and boost the performance of long-distance quantum communication. We outline how ensemble-based quantum memories combined with single-spin photon transducers, which are devices that can generate, convert, and modulate photons with single spins, can facilitate massive multiplexing, efficient photon generation, and quantum logic for amplifying communication rates. As a specific example, we describe how a single Rubidium (Rb) atom coupled to nanophotonic resonators can function as a high-rate, telecom-visible entangled photon source with the visible photon being compatible with storage in a Thulium-doped crystal memory (Tm-memory) and the telecom photon being compatible with low loss fiber propagation. We experimentally verify that Tm and Rb transitions are in resonance with each other. Our analysis shows that by employing up to 16 repeater stations, each equipped with two Tm-memories capable of holding up to 350 storage modes, along with four single Rb atoms, one can reach a quantum communication rate exceeding hundreds of qubits per second across distances of up to 1000 km.
公開日:2024-04-25
翻訳日:2024-04-26 21:08:18
# LLMCheckup:解釈可能性ツールと自己説明による大規模言語モデルの会話的検証

LLMCheckup: Conversational Examination of Large Language Models via Interpretability Tools and Self-Explanations ( http://arxiv.org/abs/2401.12576v2 )

ライセンス: Link先を確認
Qianli Wang, Tatiana Anikina, Nils Feldhus, Josef van Genabith, Leonhard Hennig, Sebastian Möller, (参考訳) 対話形式で説明を提供する解釈可能性ツールは,ユーザへの十分な情報提供に不足する可能性があるため,ユーザの理解を高める効果(Slack et al , 2023; Shen et al , 2023)を示した。 しかしながら、対話ベースの説明のための現在のソリューションは、しばしば外部ツールやモジュールを必要とし、設計されていないタスクに簡単に転送できない。 LLMCheckupでは、ユーザが最新の大規模言語モデル(LLM)の振る舞いをチャットできる、容易にアクセスできるツールを提供する。 特徴属性などのホワイトボックス説明可能性ツールや自己説明(合理生成など)を含む、説明可能なAI(XAI)メソッドを幅広い範囲に接続することにより、LCMが説明を生成し、微調整なしでユーザ意図の認識を可能にする。 LLMベースの(自己)説明は、フォローアップ質問をサポートし、提案を生成する対話対話として提示される。 LLMCheckupprovidesはシステムで利用可能なオペレーションのチュートリアルを公開し、XAIの様々なレベルの専門知識を持つ個人にケアし、複数の入力モダリティをサポートする。 LLMのユーザ意図認識精度を大幅に向上させる新しい解析手法を提案する。 最後に,ファクトチェックとコモンセンス質問応答のタスクに対するLLMCheckupを紹介する。

Interpretability tools that offer explanations in the form of a dialogue have demonstrated their efficacy in enhancing users' understanding (Slack et al., 2023; Shen et al., 2023), as one-off explanations may fall short in providing sufficient information to the user. Current solutions for dialogue-based explanations, however, often require external tools and modules and are not easily transferable to tasks they were not designed for. With LLMCheckup, we present an easily accessible tool that allows users to chat with any state-of-the-art large language model (LLM) about its behavior. We enable LLMs to generate explanations and perform user intent recognition without fine-tuning, by connecting them with a broad spectrum of Explainable AI (XAI) methods, including white-box explainability tools such as feature attributions, and self-explanations (e.g., for rationale generation). LLM-based (self-)explanations are presented as an interactive dialogue that supports follow-up questions and generates suggestions. LLMCheckupprovides tutorials for operations available in the system, catering to individuals with varying levels of expertise in XAI and supporting multiple input modalities. We introduce a new parsing strategy that substantially enhances the user intent recognition accuracy of the LLM. Finally, we showcase LLMCheckup for the tasks of fact checking and commonsense question answering.
公開日:2024-04-24
翻訳日:2024-04-26 21:08:18
# 不確実性定量化によるLCMのベンチマーク

Benchmarking LLMs via Uncertainty Quantification ( http://arxiv.org/abs/2401.12794v2 )

ライセンス: Link先を確認
Fanghua Ye, Mingming Yang, Jianhui Pang, Longyue Wang, Derek F. Wong, Emine Yilmaz, Shuming Shi, Zhaopeng Tu, (参考訳) 各種機関からのオープンソースのLarge Language Models(LLM)の普及は,包括的評価手法の必要性を浮き彫りにした。 しかし、広く認知されているHuggingFaceオープンLLMリーダーボードのような現在の評価プラットフォームは、LLMを徹底的に評価する上で欠かせない重要な側面を無視している。 このギャップを埋めるために、不確実な定量化を統合する新しいベンチマーク手法を導入する。 本研究は,5つの自然言語処理タスクにまたがる8つのLLM(LLMシリーズ)について検討した。 以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。 これらの結果はLLMの評価に不確かさを取り入れることの重要性を浮き彫りにした。

The proliferation of open-source Large Language Models (LLMs) from various institutions has highlighted the urgent need for comprehensive evaluation methods. However, current evaluation platforms, such as the widely recognized HuggingFace open LLM leaderboard, neglect a crucial aspect -- uncertainty, which is vital for thoroughly assessing LLMs. To bridge this gap, we introduce a new benchmarking approach for LLMs that integrates uncertainty quantification. Our examination involves eight LLMs (LLM series) spanning five representative natural language processing tasks. Our findings reveal that: I) LLMs with higher accuracy may exhibit lower certainty; II) Larger-scale LLMs may display greater uncertainty compared to their smaller counterparts; and III) Instruction-finetuning tends to increase the uncertainty of LLMs. These results underscore the significance of incorporating uncertainty in the evaluation of LLMs.
公開日:2024-04-25
翻訳日:2024-04-26 21:08:18
# Delocate: ランダムに位置決めされたトレーパー付きディープフェイクビデオの検出と位置決め

Delocate: Detection and Localization for Deepfake Videos with Randomly-Located Tampered Traces ( http://arxiv.org/abs/2401.13516v3 )

ライセンス: Link先を確認
Juan Hu, Xin Liao, Difei Gao, Satoshi Tsutsui, Qian Wang, Zheng Qin, Mike Zheng Shou, (参考訳) ディープフェイクビデオはますます現実的になりつつあり、フレームごとに異なる顔の領域を微妙に改ざんしている。 その結果、既存のDeepfake検出手法の多くは、未知のドメインのDeepfakeビデオを検出するのに苦労し、改ざんされた領域を正確に特定する。 そこで本研究では,未知のドメインのDeepfakeビデオの認識とローカライズが可能なDelocateという,新しいDeepfake検出モデルを提案する。 OurmethodはRecovering and Localizationという2つのステージから構成される。 回復段階において、モデルランダムは興味のある領域(ROI)を隠蔽し、痕跡を改ざんすることなく実際の顔を再構成する。 ローカライゼーション段階において、リカバリフェーズの出力とフォージェリーグラウンドの真理マスクは、フォージェリーローカライゼーションプロセスの導出を補助する。 このプロセスは、偽の顔の回復段階と回復不良を戦略的に強調し、改ざんされた領域の局所化を容易にする。 広範に使用されている4つのベンチマークデータセットの大規模な実験により、乱れ領域のローカライズに限らず、クロスドメイン検出性能も向上することが示された。

Deepfake videos are becoming increasingly realistic, showing subtle tampering traces on facial areasthat vary between frames. Consequently, many existing Deepfake detection methods struggle to detect unknown domain Deepfake videos while accurately locating the tampered region. To address thislimitation, we propose Delocate, a novel Deepfake detection model that can both recognize andlocalize unknown domain Deepfake videos. Ourmethod consists of two stages named recoveringand localization. In the recovering stage, the modelrandomly masks regions of interest (ROIs) and reconstructs real faces without tampering traces, resulting in a relatively good recovery effect for realfaces and a poor recovery effect for fake faces. Inthe localization stage, the output of the recoveryphase and the forgery ground truth mask serve assupervision to guide the forgery localization process. This process strategically emphasizes the recovery phase of fake faces with poor recovery, facilitating the localization of tampered regions. Ourextensive experiments on four widely used benchmark datasets demonstrate that Delocate not onlyexcels in localizing tampered areas but also enhances cross-domain detection performance.
公開日:2024-04-25
翻訳日:2024-04-26 21:08:18
# TIP-Editor:テキストプロンプと画像プロンプの両方に追随する正確な3Dエディタ

TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts ( http://arxiv.org/abs/2401.14828v3 )

ライセンス: Link先を確認
Jingyu Zhuang, Di Kang, Yan-Pei Cao, Guanbin Li, Liang Lin, Ying Shan, (参考訳) テキスト駆動の3Dシーン編集は、その利便性とユーザフレンドリさから大きな注目を集めている。 しかし, 既存の手法では, テキスト記述に固有の制約があるため, 特定の外観や編集結果の位置を正確に制御できない。 そこで本研究では,テキストと画像のプロンプトを受け入れる3Dシーン編集フレームワークTIPEditorと,編集領域を指定する3Dバウンディングボックスを提案する。 画像プロンプトにより、ユーザは、テキスト記述を補完するターゲットコンテンツの詳細な外観/スタイルを便利に指定でき、その外観を正確に制御できる。 具体的には、TIP-Editorは、既存のシーンと参照画像の表現をよりよく学習するために、段階的に2Dパーソナライズ戦略を採用しており、そこでは、バウンディングボックスが指定した正しいオブジェクト配置を促進するために、ローカライズ損失が提案されている。 さらに、TIPEditorは、明示的で柔軟な3Dガウススプラッティングを3D表現として利用し、バックグラウンドを一定に保ちながらローカル編集を容易にする。 TIP-Editorは、テキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行い、編集品質のベースラインと、そのプロンプトへのアライメントを質的かつ定量的に一貫して上回ることを示した。

Text-driven 3D scene editing has gained significant attention owing to its convenience and user-friendliness. However, existing methods still lack accurate control of the specified appearance and location of the editing result due to the inherent limitations of the text description. To this end, we propose a 3D scene editing framework, TIPEditor, that accepts both text and image prompts and a 3D bounding box to specify the editing region. With the image prompt, users can conveniently specify the detailed appearance/style of the target content in complement to the text description, enabling accurate control of the appearance. Specifically, TIP-Editor employs a stepwise 2D personalization strategy to better learn the representation of the existing scene and the reference image, in which a localization loss is proposed to encourage correct object placement as specified by the bounding box. Additionally, TIPEditor utilizes explicit and flexible 3D Gaussian splatting as the 3D representation to facilitate local editing while keeping the background unchanged. Extensive experiments have demonstrated that TIP-Editor conducts accurate editing following the text and image prompts in the specified bounding box region, consistently outperforming the baselines in editing quality, and the alignment to the prompts, qualitatively and quantitatively.
公開日:2024-04-25
翻訳日:2024-04-26 21:08:18
# LLMとIDE静的解析による抽出メソッドリファクタリング

Together We Go Further: LLMs and IDE Static Analysis for Extract Method Refactoring ( http://arxiv.org/abs/2401.15298v2 )

ライセンス: Link先を確認
Dorin Pomian, Abhiram Bellur, Malinda Dilhara, Zarina Kurbatova, Egor Bogomolov, Timofey Bryksin, Danny Dig, (参考訳) 単一のメソッドに複数の責任をカプセル化する長いメソッドはメンテナンスが難しい。 新しい手法にどの文を抽出するかを選択することが、多くの研究ツールの標的となっている。 着実に改善されているにもかかわらず、これらのツールは、開発者の好みや受け入れ基準に沿ってリファクタリングを生成するのに失敗することが多い。 大きな言語モデル(LLM)が大規模なコードコーパスでトレーニングされていることを考えると、開発者が関数を作る方法に精通しているなら、開発者が受け入れそうなリファクタリングを提案するかもしれません。 本稿では,LLMの知見とIDEのパワーを相乗的に組み合わせて抽出法(EM)を実行することにより,リファクタリングの科学と実践を推し進める。 1752 EMシナリオに関する我々のフォーマティブな研究により、LSMは専門家による提案を行うのに非常に効果的であるが、信頼できないことが判明した。 LLMが提案する候補から幻覚を取り除く新しいアプローチを設計し、プログラムスライシングから静的解析技術に基づいて提案をさらに強化・ランク付けし、最終的にIDEを利用してリファクタリングを正しく実行した。 このアプローチは、EM-Assistと呼ばれるIntelliJ IDEAプラグインで実装しました。 我々は,オープンソースプロジェクトから1752個の実際のリファクタリングを複製する多種多様なコーパス上でEM-Assistを実証的に評価した。 EM-Assistは、53.4%のケースで、開発者によるリファクタリングを推奨し、以前のベストプラクティスツールの39.4%のリコール率よりも改善した。 さらに,16人の産業開発者を対象に,暖炉調査を行い,最近のコミットをリファクタリングすることを提案した。 81.3%がEM-Assistの勧告に賛成した。

Long methods that encapsulate multiple responsibilities within a single method are challenging to maintain. Choosing which statements to extract into new methods has been the target of many research tools. Despite steady improvements, these tools often fail to generate refactorings that align with developers' preferences and acceptance criteria. Given that Large Language Models (LLMs) have been trained on large code corpora, if we harness their familiarity with the way developers form functions, we could suggest refactorings that developers are likely to accept. In this paper, we advance the science and practice of refactoring by synergistically combining the insights of LLMs with the power of IDEs to perform Extract Method (EM). Our formative study on 1752 EM scenarios revealed that LLMs are very effective for giving expert suggestions, yet they are unreliable: up to 76.3% of the suggestions are hallucinations. We designed a novel approach that removes hallucinations from the candidates suggested by LLMs, then further enhances and ranks suggestions based on static analysis techniques from program slicing, and finally leverages the IDE to execute refactorings correctly. We implemented this approach in an IntelliJ IDEA plugin called EM-Assist. We empirically evaluated EM-Assist on a diverse corpus that replicates 1752 actual refactorings from open-source projects. We found that EM-Assist outperforms previous state of the art tools: EM-Assist suggests the developerperformed refactoring in 53.4% of cases, improving over the recall rate of 39.4% for previous best-in-class tools. Furthermore, we conducted firehouse surveys with 16 industrial developers and suggested refactorings on their recent commits. 81.3% of them agreed with the recommendations provided by EM-Assist.
公開日:2024-04-24
翻訳日:2024-04-26 21:08:18
# 時空間IoTデータセットにおけるユーザレベルプライバシによる平均推定

Mean Estimation with User-Level Privacy for Spatio-Temporal IoT Datasets ( http://arxiv.org/abs/2401.15906v7 )

ライセンス: Link先を確認
V. Arvind Rameshwar, Anshoo Tandon, Prajjwal Gupta, Aditya Vikram Singh, Novoneel Chakraborty, Abhay Sharma, (参考訳) 本稿では,交通データセットからの速度値のサンプル平均値のプライベートリリースの問題について考察する。 私たちの重要な貢献は、ユーザレベルの微分プライベートアルゴリズムの開発です。これは、慎重に選択されたパラメータ値を組み込んで、実際のデータセットの低い推定エラーを保証し、プライバシを確保します。 インドシティのITMS(Intelligent Traffic Management System)データ上で,未知の分布から,異なるバスの速度が潜在的に非単位の方法で引き出される場合,また,異なるバスが提供した速度サンプルの数が異なる場合のアルゴリズムをテストする。 次に、ITMSデータに基づいて生成された大規模な合成データセットにアルゴリズムを適用する。 ここでは,観測された性能傾向の理論的正当性と,推定誤差の低いアルゴリズムサブルーチンの選択を推奨する。 最後に, 擬似ユーザ生成に基づくアルゴリズムの性能を, ミニマックスアプローチにより評価し, 擬似ユーザ生成のための新しい手順を考案し, 最悪ケースの総推定誤差を最適化する。 論文で論じているアルゴリズムは、一般的な時空間IoTデータセットに容易に適用でき、所望値の微分プライベート平均を解放することができる。

This paper considers the problem of the private release of sample means of speed values from traffic datasets. Our key contribution is the development of user-level differentially private algorithms that incorporate carefully chosen parameter values to ensure low estimation errors on real-world datasets, while ensuring privacy. We test our algorithms on ITMS (Intelligent Traffic Management System) data from an Indian city, where the speeds of different buses are drawn in a potentially non-i.i.d. manner from an unknown distribution, and where the number of speed samples contributed by different buses is potentially different. We then apply our algorithms to large synthetic datasets, generated based on the ITMS data. Here, we provide theoretical justification for the observed performance trends, and also provide recommendations for the choices of algorithm subroutines that result in low estimation errors. Finally, we characterize the best performance of pseudo-user creation-based algorithms on worst-case datasets via a minimax approach; this then gives rise to a novel procedure for the creation of pseudo-users, which optimizes the worst-case total estimation error. The algorithms discussed in the paper are readily applicable to general spatio-temporal IoT datasets for releasing a differentially private mean of a desired value.
公開日:2024-04-25
翻訳日:2024-04-26 21:08:18
# ヒト脳波の表現的アライメントによるより人間の脳に似た視力の獲得

Achieving More Human Brain-Like Vision via Human EEG Representational Alignment ( http://arxiv.org/abs/2401.17231v2 )

ライセンス: Link先を確認
Zitong Lu, Yile Wang, Julie D. Golomb, (参考訳) 人工知能の進歩にもかかわらず、物体認識モデルは人間の脳における視覚情報処理のエミュレートに遅れを取っている。 近年の研究では、脳の処理を模倣するために神経データを使用することの可能性を強調している。 非侵襲的脳波に基づく視覚モデル「Re(presentational)Al(ignment)net」を初めて提示した。 我々の革新的な画像から脳への多層符号化フレームワークは、複数のモデルレイヤーを最適化し、モデルがオブジェクトカテゴリと異なるモダリティをまたいだ人間の脳の視覚的表現パターンを効率的に学習し模倣できるようにすることにより、人間の神経アライメントを向上させる。 我々の発見は、ReAlnetが人工と人間の視覚のギャップを埋め、より脳に似た人工知能システムへの道を歩むブレークスルーを表していることを示唆している。

Despite advancements in artificial intelligence, object recognition models still lag behind in emulating visual information processing in human brains. Recent studies have highlighted the potential of using neural data to mimic brain processing; however, these often rely on invasive neural recordings from non-human subjects, leaving a critical gap in understanding human visual perception. Addressing this gap, we present, for the first time, 'Re(presentational)Al(ignment)net', a vision model aligned with human brain activity based on non-invasive EEG, demonstrating a significantly higher similarity to human brain representations. Our innovative image-to-brain multi-layer encoding framework advances human neural alignment by optimizing multiple model layers and enabling the model to efficiently learn and mimic human brain's visual representational patterns across object categories and different modalities. Our findings suggest that ReAlnet represents a breakthrough in bridging the gap between artificial and human vision, and paving the way for more brain-like artificial intelligence systems.
公開日:2024-04-24
翻訳日:2024-04-26 21:08:18
# 量子力学における確率について

On probabilities in quantum mechanics ( http://arxiv.org/abs/2401.17717v4 )

ライセンス: Link先を確認
Inge S. Helland, (参考訳) これは、量子力学の解釈に関する議論、一方のアンドレイ・クレンニコフと他方のブレイク・ステーシーとR\"ディガー・シャックの間での議論に関連するある概念を明確にしようとする試みである。 この議論の中心は量子確率の概念である。 私はまずQBist派で確率の概念を取り上げ、量子確率を計算するためのBorn公式について独自の議論をします。 その関係において、量子論の基礎と解釈への私のアプローチのいくつかの結果もスケッチします。 最終的な発言をする前に、QB主義に関する一般的な見解を代替解釈の可能性として論じます。

This is an attempt to clarify certain concepts related to a debate on the interpretation of quantum mechanics, a debate between Andrei Khrennikov on the one side and Blake Stacey and R\"udiger Schack on the other side. Central to this debate is the notion of quantum probabilities. I first take up the probability concept in the QBist school, and then give my own arguments for the Born formula for calculating quantum probabilities. In that connection I also sketch some consequences of my approach towards the foundation and interpretation of quantum theory. I discuss my general views on QBism as a possible alternative interpretation before I give some final remarks.
公開日:2024-04-25
翻訳日:2024-04-26 21:08:18
# 空間行動単位キューによる表情認識の誘導

Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues ( http://arxiv.org/abs/2402.00281v3 )

ライセンス: Link先を確認
Soufiane Belharbi, Marco Pedersoli, Alessandro Lameiras Koerich, Simon Bacon, Eric Granger, (参考訳) 表情認識のための最先端の分類器(FER)は高い精度を達成できるが、エンドユーザーにとって重要な特徴である解釈性に欠ける。 専門家は通常、コードブックから表情の視覚的解釈のための顔領域への空間的行動単位(\aus)を関連付ける。 本稿では、同様の専門家の手順を踏襲する。 新しい学習戦略が提案され, \au cues を分類器訓練に明示的に組み込むことで, 深い解釈可能なモデルを訓練することができる。 トレーニング中は、入力された画像表現ラベルと顔ランドマークとともに、このauコードブックを使用して、表情が興味のある最も識別性の高い画像領域を示す \auヒートマップを構築する。 この価値ある空間キューを利用して、FERの深い解釈可能な分類器を訓練する。 これは、分類器の空間層の特徴を \au ヒートマップと相関させることによって達成される。 合成損失を用いて、分類器は、専門家決定過程をシミュレートし、 \au マップと相関した解釈可能な視覚層対応の注意を与えながら、画像を正しく分類するように訓練される。 我々の戦略は、手作業のアノテーションを伴わずに、イメージクラスの表現のみを監督に頼っている。 我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。 2つの公開ベンチマークである \rafdb と \affectnet のデータセットを広範囲に評価した結果,提案手法は分類性能を劣化させることなく階層的解釈性を向上させることができることがわかった。 さらに,クラスアクティベーションマッピング(CAM)手法に依存する共通タイプの解釈可能な分類器について検討し,そのアプローチがCAMの解釈可能性を向上させることを示す。

Although state-of-the-art classifiers for facial expression recognition (FER) can achieve a high level of accuracy, they lack interpretability, an important feature for end-users. Experts typically associate spatial action units (\aus) from a codebook to facial regions for the visual interpretation of expressions. In this paper, the same expert steps are followed. A new learning strategy is proposed to explicitly incorporate \au cues into classifier training, allowing to train deep interpretable models. During training, this \au codebook is used, along with the input image expression label, and facial landmarks, to construct a \au heatmap that indicates the most discriminative image regions of interest w.r.t the facial expression. This valuable spatial cue is leveraged to train a deep interpretable classifier for FER. This is achieved by constraining the spatial layer features of a classifier to be correlated with \au heatmaps. Using a composite loss, the classifier is trained to correctly classify an image while yielding interpretable visual layer-wise attention correlated with \au maps, simulating the expert decision process. Our strategy only relies on image class expression for supervision, without additional manual annotations. Our new strategy is generic, and can be applied to any deep CNN- or transformer-based classifier without requiring any architectural change or significant additional training time. Our extensive evaluation on two public benchmarks \rafdb, and \affectnet datasets shows that our proposed strategy can improve layer-wise interpretability without degrading classification performance. In addition, we explore a common type of interpretable classifiers that rely on class activation mapping (CAM) methods, and show that our approach can also improve CAM interpretability.
公開日:2024-04-25
翻訳日:2024-04-26 21:08:18
# FuseFormer: 画像と熱画像の融合のためのトランスフォーマー

FuseFormer: A Transformer for Visual and Thermal Image Fusion ( http://arxiv.org/abs/2402.00971v2 )

ライセンス: Link先を確認
Aytekin Erdogan, Erdem Akagündüz, (参考訳) 画像融合問題に対する決定的な基礎的真理が欠如しているため、損失関数は構造類似度指数測定(SSIM)などの評価指標に基づいて構造化される。 しかし、これを行うと、SSIMに対してバイアスが発生し、その結果、入力されたビジュアルバンド画像が生成される。 本研究の目的は,古典的評価指標を損失関数として用いた場合の限界を緩和する画像融合問題に対する新しい手法を提案することである。 提案手法は,局所的およびグローバルなコンテキスト情報に順応的に対処するトランスフォーマーベースのマルチスケール融合戦略を統合する。 この統合により、画像融合プロセスの個々のコンポーネントが洗練されるだけでなく、全体の有効性も大幅に向上する。 提案手法は,第1段階において,複数スケールの深部特徴を抽出するオートエンコーダを訓練する2段階の訓練手法に従っている。 第2段階では、核融合ブロックを統合し、前述の損失関数を変更する。 マルチスケール機能は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーを組み合わせることで融合される。 CNNはローカル機能をキャプチャするために使用され、Transformerは一般的なコンテキスト機能の統合を処理する。 種々のベンチマークデータセットに対する広範な実験を通じて,提案手法は新たな損失関数の定義とともに,他の競合融合アルゴリズムと比較して優れた性能を示す。

Due to the lack of a definitive ground truth for the image fusion problem, the loss functions are structured based on evaluation metrics, such as the structural similarity index measure (SSIM). However, in doing so, a bias is introduced toward the SSIM and, consequently, the input visual band image. The objective of this study is to propose a novel methodology for the image fusion problem that mitigates the limitations associated with using classical evaluation metrics as loss functions. Our approach integrates a transformer-based multi-scale fusion strategy that adeptly addresses local and global context information. This integration not only refines the individual components of the image fusion process but also significantly enhances the overall efficacy of the method. Our proposed method follows a two-stage training approach, where an auto-encoder is initially trained to extract deep features at multiple scales in the first stage. For the second stage, we integrate our fusion block and change the loss function as mentioned. The multi-scale features are fused using a combination of Convolutional Neural Networks (CNNs) and Transformers. The CNNs are utilized to capture local features, while the Transformer handles the integration of general context features. Through extensive experiments on various benchmark datasets, our proposed method, along with the novel loss function definition, demonstrates superior performance compared to other competitive fusion algorithms.
公開日:2024-04-24
翻訳日:2024-04-26 21:08:18
# より高速かつ軽量なLDM:現状の課題と今後の展望

Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward ( http://arxiv.org/abs/2402.01799v2 )

ライセンス: Link先を確認
Arnav Chavan, Raghav Magazine, Shubham Kushwaha, Mérouane Debbah, Deepak Gupta, (参考訳) LLMの優れた性能にもかかわらず、その普及は推論中にかなりの計算とメモリの要求のために困難に直面している。 モデル圧縮およびシステムレベルの最適化手法の最近の進歩は、LLM推論を強化することを目的としている。 この調査はこれらの手法の概要を提供し、最近の発展を強調している。 LLaMA(/2)-7Bの実験を通じて, 各種圧縮技術の評価を行い, 統一された環境下でのLLMの効率的な展開に関する実用的な知見を提供する。 LLaMA(/2)-7Bの実証分析は,これらの手法の有効性を強調した。 調査結果から,現在の限界を特定し,LLM推論効率を改善するための今後の方向性について議論する。 我々は、この論文で提示された結果を再現するコードベースをhttps://github.com/nyunAI/Faster-LLM-Surveyでリリースします。

Despite the impressive performance of LLMs, their widespread adoption faces challenges due to substantial computational and memory requirements during inference. Recent advancements in model compression and system-level optimization methods aim to enhance LLM inference. This survey offers an overview of these methods, emphasizing recent developments. Through experiments on LLaMA(/2)-7B, we evaluate various compression techniques, providing practical insights for efficient LLM deployment in a unified setting. The empirical analysis on LLaMA(/2)-7B highlights the effectiveness of these methods. Drawing from survey insights, we identify current limitations and discuss potential future directions to improve LLM inference efficiency. We release the codebase to reproduce the results presented in this paper at https://github.com/nyunAI/Faster-LLM-Survey
公開日:2024-04-24
翻訳日:2024-04-26 21:08:18
# Mambaは文脈内学習が可能なのか?

Is Mamba Capable of In-Context Learning? ( http://arxiv.org/abs/2402.03170v2 )

ライセンス: Link先を確認
Riccardo Grazzi, Julien Siems, Simon Schrodi, Thomas Brox, Frank Hutter, (参考訳) GPT-4のような最先端技術基盤モデルは、ニューラルネットワークのフォワードパス中にタスクを解決するための学習能力に関するメタラーニングの変種であるインコンテキストラーニング(ICL)において驚くほどうまく機能し、モデルへの入力として提供されるコンテキスト情報を活用する。 この有用な機能は、基礎モデルの大規模な事前訓練の副産物として現れる。 現在、トランスモデルはICLの最先端技術であるが、この研究は、入力シーケンス長のトランスフォーマーよりも優れたスケールを持つ新しい状態空間モデルであるMambaが、同様のICL機能を持つという実証的な証拠を提供する。 我々は,より複雑な自然言語処理問題だけでなく,単純な関数近似を含むタスクにおいて,Mambaを評価した。 以上の結果から,タスクのカテゴリによって,MambaはICLのトランスフォーマーモデルの性能と密に一致していることがわかった。 さらなる分析により、Mambaは変換器と同様に内部表現を漸進的に最適化することでICL問題を解くように見える。 全体としては,長い入力シーケンスを含むICLタスクのトランスフォーマーの代替として,Mambaが有効である可能性が示唆されている。 これはメタ学習におけるエキサイティングな発見であり、コンテキスト内で学習したAutoMLアルゴリズム(TabPFNやOptformerなど)の長い入力シーケンスへの一般化を可能にする可能性がある。

State of the art foundation models such as GPT-4 perform surprisingly well at in-context learning (ICL), a variant of meta-learning concerning the learned ability to solve tasks during a neural network forward pass, exploiting contextual information provided as input to the model. This useful ability emerges as a side product of the foundation model's massive pretraining. While transformer models are currently the state of the art in ICL, this work provides empirical evidence that Mamba, a newly proposed state space model which scales better than transformers w.r.t. the input sequence length, has similar ICL capabilities. We evaluated Mamba on tasks involving simple function approximation as well as more complex natural language processing problems. Our results demonstrate that, across both categories of tasks, Mamba closely matches the performance of transformer models for ICL. Further analysis reveals that, like transformers, Mamba appears to solve ICL problems by incrementally optimizing its internal representations. Overall, our work suggests that Mamba can be an efficient alternative to transformers for ICL tasks involving long input sequences. This is an exciting finding in meta-learning and may enable generalizations of in-context learned AutoML algorithms (like TabPFN or Optformer) to long input sequences.
公開日:2024-04-24
翻訳日:2024-04-26 20:58:26
# マンバは学習方法を学ぶことができるか? 文脈内学習課題の比較研究

Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks ( http://arxiv.org/abs/2402.04248v2 )

ライセンス: Link先を確認
Jongho Park, Jaeseung Park, Zheyang Xiong, Nayoung Lee, Jaewoong Cho, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos, (参考訳) Mamba (Gu & Dao, 2023) のような状態空間モデル(SSM)は、ゲーティング、畳み込み、入力依存トークン選択を組み込んだ言語モデリングにおけるトランスフォーマーネットワークの代替として提案されており、マルチヘッドアテンションの二次コストを軽減している。 SSMは、競合性能を示すが、そのインコンテキスト学習(ICL)能力は、パラメータ最適化なしでタスクの実行を可能にする現代の言語モデルの顕著な創発的特性であり、Transformerと比較して過小評価されている。 本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。 その結果、SSMは標準回帰ICLタスクにおいてトランスフォーマーと相容れない性能を示し、スパースパリティ学習のようなタスクでは優れていた。 しかし、SSMは非標準検索機能を含むタスクでは不足している。 これらの制約に対処するため、我々はMambaFormerというハイブリッドモデルを導入しました。 この結果から,ハイブリッドアーキテクチャは言語モデルにおけるICL向上に有望な道筋を提供する可能性が示唆された。

State-space models (SSMs), such as Mamba (Gu & Dao, 2023), have been proposed as alternatives to Transformer networks in language modeling, by incorporating gating, convolutions, and input-dependent token selection to mitigate the quadratic cost of multi-head attention. Although SSMs exhibit competitive performance, their in-context learning (ICL) capabilities, a remarkable emergent property of modern language models that enables task execution without parameter optimization, remain underexplored compared to Transformers. In this study, we evaluate the ICL performance of SSMs, focusing on Mamba, against Transformer models across various tasks. Our results show that SSMs perform comparably to Transformers in standard regression ICL tasks, while outperforming them in tasks like sparse parity learning. However, SSMs fall short in tasks involving non-standard retrieval functionality. To address these limitations, we introduce a hybrid model, MambaFormer, that combines Mamba with attention blocks, surpassing individual models in tasks where they struggle independently. Our findings suggest that hybrid architectures offer promising avenues for enhancing ICL in language models.
公開日:2024-04-25
翻訳日:2024-04-26 20:58:26
# VerAs: VerifyがSTEM Labのレポートを評価

VerAs: Verify then Assess STEM Lab Reports ( http://arxiv.org/abs/2402.05224v2 )

ライセンス: Link先を確認
Berk Atil, Mahsa Sheikhi Karizaki, Rebecca J. Passonneau, (参考訳) 批判的思考スキルへのSTEM教育への注目が高まる中、科学の執筆は調査スキルを強調するカリキュラムにおいてさらに重要な役割を担っている。 最近発表された2組の大学レベルの研究室レポートのデータセットは、複数の次元を利用する解析的評価ルーリックに依存しており、主題の知識と良い説明の一般的な構成要素を規定している。 各分析次元は6ポイントのスケールで評価され、学生に詳細なフィードバックを提供し、科学の書き方を改善するのに役立つ。 手動のアセスメントは遅く、大きなクラスのすべての生徒の一貫性の調整が難しい。 STEMの被験者におけるオープンエンド質問の自動評価には多くの作業があるが、ラボレポートのような長文の執筆には、はるかに少ない作業がなされている。 我々は,Open Domain Question Answering (OpenQA) のアプローチに触発されて,検証モジュールと評価モジュールを分離したエンドツーエンドのニューラルネットワークを提案する。 VerAsはまず、あるレポートが与えられたルーリック次元に関連する内容を含むかどうかを検証し、もしそうであれば、関連する文を評価する。 研究室のレポートでは、VerAsはOpenQAシステムまたはAutomated Essay Scoring(AES)に基づいて複数のベースラインを上回ります。 VerAsは、中学の物理学エッセイの分析ルーブリックでもうまく機能している。

With an increasing focus in STEM education on critical thinking skills, science writing plays an ever more important role in curricula that stress inquiry skills. A recently published dataset of two sets of college level lab reports from an inquiry-based physics curriculum relies on analytic assessment rubrics that utilize multiple dimensions, specifying subject matter knowledge and general components of good explanations. Each analytic dimension is assessed on a 6-point scale, to provide detailed feedback to students that can help them improve their science writing skills. Manual assessment can be slow, and difficult to calibrate for consistency across all students in large classes. While much work exists on automated assessment of open-ended questions in STEM subjects, there has been far less work on long-form writing such as lab reports. We present an end-to-end neural architecture that has separate verifier and assessment modules, inspired by approaches to Open Domain Question Answering (OpenQA). VerAs first verifies whether a report contains any content relevant to a given rubric dimension, and if so, assesses the relevant sentences. On the lab reports, VerAs outperforms multiple baselines based on OpenQA systems or Automated Essay Scoring (AES). VerAs also performs well on an analytic rubric for middle school physics essays.
公開日:2024-04-25
翻訳日:2024-04-26 20:58:26
# ChemLLM: 化学大言語モデル

ChemLLM: A Chemical Large Language Model ( http://arxiv.org/abs/2402.06852v2 )

ライセンス: Link先を確認
Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Wanli Ouyang, Dongzhan Zhou, Shufei Zhang, Mao Su, Han-Sen Zhong, Yuqiang Li, (参考訳) 大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。 しかし、コミュニティには化学に特化したLLMが欠落している。 第一に、ほとんどの化学データと科学的知識は構造化データベースに格納され、モデルが直接使用するときの一貫性のある対話を維持する能力を制限する。 第二に、ほとんどの化学タスクを包含する客観的かつ公正なベンチマークがない。 本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。 また、命令チューニング用に特別に設計されたデータセットであるChemDataと、9つの必須化学タスクをカバーする堅牢なベンチマークであるChemBenchも含まれている。 ChemLLMは、流体対話相互作用を持つ化学分野にまたがる様々なタスクを実行するのに適している。 特に、ChemLLMは、コアケミカルタスクにおいて、GPT-4に匹敵する結果を達成し、一般的なシナリオにおいて、同様のサイズのLLMと競合する性能を示す。 ChemLLMは化学研究の新たな道のりを歩み、構造化された化学知識を対話システムに組み込む手法は、様々な科学分野においてLSMを開発するための新しい標準となる。 コード、データセット、モデルウェイトはhttps://hf.co/AI4Chemで公開されている。

Large language models (LLMs) have made impressive progress in chemistry applications. However, the community lacks an LLM specifically designed for chemistry. The main challenges are two-fold: firstly, most chemical data and scientific knowledge are stored in structured databases, which limits the model's ability to sustain coherent dialogue when used directly. Secondly, there is an absence of objective and fair benchmark that encompass most chemistry tasks. Here, we introduce ChemLLM, a comprehensive framework that features the first LLM dedicated to chemistry. It also includes ChemData, a dataset specifically designed for instruction tuning, and ChemBench, a robust benchmark covering nine essential chemistry tasks. ChemLLM is adept at performing various tasks across chemical disciplines with fluid dialogue interaction. Notably, ChemLLM achieves results comparable to GPT-4 on the core chemical tasks and demonstrates competitive performance with LLMs of similar size in general scenarios. ChemLLM paves a new path for exploration in chemical studies, and our method of incorporating structured chemical knowledge into dialogue systems sets a new standard for developing LLMs in various scientific fields. Codes, Datasets, and Model weights are publicly accessible at https://hf.co/AI4Chem
公開日:2024-04-25
翻訳日:2024-04-26 20:58:26
# 一般選好モデルを用いた人のフィードバックからのオンライン反復強化学習

Online Iterative Reinforcement Learning from Human Feedback with General Preference Model ( http://arxiv.org/abs/2402.07314v2 )

ライセンス: Link先を確認
Chenlu Ye, Wei Xiong, Yuheng Zhang, Nan Jiang, Tong Zhang, (参考訳) 本研究では,人間フィードバックからの強化学習(RLHF)について,一般の嗜好に基づく研究を行った。 特に、報酬関数が存在するとは仮定せず、優先信号は以前の作品のほとんどがそうであるようにブラッドリー・テリーモデルから引き出される。 我々は、RLHFの2つのLLM間の逆KL正規化ミニマックスゲームである標準的な数学的定式化を考える。 この定式化の学習目的は、競合するLLMよりもKL規則化された選好オラクルに一貫して好まれるようにポリシーを見つけることである。 このフレームワークは報奨ベースよりも厳密な汎用性を示し,事前選択した選好データセットからオフライン学習を行うためのサンプル効率のよいアルゴリズムと,トレーニングの過程で選好のオラクルに問い合わせるオンライン学習を提案する。 提案手法の有効性を実証研究により検証した。

We study Reinforcement Learning from Human Feedback (RLHF) under a general preference oracle. In particular, we do not assume that there exists a reward function and the preference signal is drawn from the Bradley-Terry model as most of the prior works do. We consider a standard mathematical formulation, the reverse-KL regularized minimax game between two LLMs for RLHF under general preference oracle. The learning objective of this formulation is to find a policy so that it is consistently preferred by the KL-regularized preference oracle over any competing LLMs. We show that this framework is strictly more general than the reward-based one, and propose sample-efficient algorithms for both the offline learning from a pre-collected preference dataset and online learning where we can query the preference oracle along the way of training. Empirical studies verify the effectiveness of the proposed framework.
公開日:2024-04-25
翻訳日:2024-04-26 20:58:26
# 連系自動車におけるハイブリッド機能融合による協調的セマンティック占有予測

Collaborative Semantic Occupancy Prediction with Hybrid Feature Fusion in Connected Automated Vehicles ( http://arxiv.org/abs/2402.07635v2 )

ライセンス: Link先を確認
Rui Song, Chenwei Liang, Hu Cao, Zhiran Yan, Walter Zimmer, Markus Gross, Andreas Festag, Alois Knoll, (参考訳) 自動車両における協調的知覚は、エージェント間の情報の交換を利用して、知覚結果を高めることを目的としている。 従来のカメラベースの協調3D認識手法では、通常、環境の表現として3Dバウンディングボックスや鳥の目視を用いる。 しかし、これらのアプローチは、包括的な3D環境予測を提供するには不十分である。 このギャップを埋めるために、我々は3Dセマンティック占有率予測のための最初の方法を紹介した。 特に、ハイブリッド融合による局所的な3Dセマンティック占有率予測を改善する 一 意味的・占有的タスクの特徴、及び (ii)車両間で共有される圧縮直交注意機能。 さらに、セマンティック占有率予測のために設計された協調認識データセットが欠如しているため、より堅牢な評価のために、3次元セマンティック占有率ラベルを含むように、現在の協調認識データセットを拡張した。 実験の結果、以下のことが明らかになった。 一 一つの車両の実績を30%以上上回る合理的占有率予測を行い、 (II) 道路環境におけるセマンティック・アウェアネスの精度向上とセマンティック・アウェアネスの強化を図った後続の知覚応用において, 最先端の協調3D検出技術よりも優れたセマンティック・アウェアネス・モデルを構築した。

Collaborative perception in automated vehicles leverages the exchange of information between agents, aiming to elevate perception results. Previous camera-based collaborative 3D perception methods typically employ 3D bounding boxes or bird's eye views as representations of the environment. However, these approaches fall short in offering a comprehensive 3D environmental prediction. To bridge this gap, we introduce the first method for collaborative 3D semantic occupancy prediction. Particularly, it improves local 3D semantic occupancy predictions by hybrid fusion of (i) semantic and occupancy task features, and (ii) compressed orthogonal attention features shared between vehicles. Additionally, due to the lack of a collaborative perception dataset designed for semantic occupancy prediction, we augment a current collaborative perception dataset to include 3D collaborative semantic occupancy labels for a more robust evaluation. The experimental findings highlight that: (i) our collaborative semantic occupancy predictions excel above the results from single vehicles by over 30%, and (ii) models anchored on semantic occupancy outpace state-of-the-art collaborative 3D detection techniques in subsequent perception applications, showcasing enhanced accuracy and enriched semantic-awareness in road environments.
公開日:2024-04-25
翻訳日:2024-04-26 20:58:26
# AutoTutorが大規模言語モデルに到達 - リッチペダゴギーとガードレールを備えた言語モデルチュートリアル

AutoTutor meets Large Language Models: A Language Model Tutor with Rich Pedagogy and Guardrails ( http://arxiv.org/abs/2402.09216v3 )

ライセンス: Link先を確認
Sankalan Pal Chowdhury, Vilém Zouhar, Mrinmaya Sachan, (参考訳) 大規模言語モデル(LLM)は、自動質問生成からエッセイ評価まで、いくつかのユースケースを教育で発見した。 本稿では,Large Language Models (LLMs) を用いて知的チューリングシステムを構築する可能性について検討する。 LLMの共通の落とし穴は、学生に答えを漏らすなど、望まれる教育戦略からの逸脱であり、一般に保証を与えないことである。 特定のガードレールを持つLLMは、被験者に取って代わることができるが、総合的な教育設計は、最高の学習結果を得るために手作業で行う必要があると仮定する。 この原理に基づいて, MWPTutor という, LLM を用いて予め定義された有限状態トランスデューサの状態空間を埋める, エンドツーエンドの学習システムを構築した。 このアプローチは、長年にわたって学習科学者によって開発されてきた伝統的な学習システムの構造と教育を保ちながら、LLMベースのアプローチのさらなる柔軟性をもたらす。 数学語問題に基づく2つのデータセットの人間による評価研究を通して、我々のハイブリッドアプローチは、指示されたが、それ以外は自由なGPT-4よりも、より優れた総合的なチューリングスコアが得られることを示す。 MWPTutorは完全にモジュール化されており、個々のモジュールを改善したり、それに従うことができる異なる教育戦略を使用することで、コミュニティがパフォーマンスを向上させるためのスコープを開放している。

Large Language Models (LLMs) have found several use cases in education, ranging from automatic question generation to essay evaluation. In this paper, we explore the potential of using Large Language Models (LLMs) to author Intelligent Tutoring Systems. A common pitfall of LLMs is their straying from desired pedagogical strategies such as leaking the answer to the student, and in general, providing no guarantees. We posit that while LLMs with certain guardrails can take the place of subject experts, the overall pedagogical design still needs to be handcrafted for the best learning results. Based on this principle, we create a sample end-to-end tutoring system named MWPTutor, which uses LLMs to fill in the state space of a pre-defined finite state transducer. This approach retains the structure and the pedagogy of traditional tutoring systems that has been developed over the years by learning scientists but brings in additional flexibility of LLM-based approaches. Through a human evaluation study on two datasets based on math word problems, we show that our hybrid approach achieves a better overall tutoring score than an instructed, but otherwise free-form, GPT-4. MWPTutor is completely modular and opens up the scope for the community to improve its performance by improving individual modules or using different teaching strategies that it can follow.
公開日:2024-04-25
翻訳日:2024-04-26 20:58:26
# YOLOv8-AM: YOLOv8 : 小児腰部骨折検出のための注意機構

YOLOv8-AM: YOLOv8 with Attention Mechanisms for Pediatric Wrist Fracture Detection ( http://arxiv.org/abs/2402.09329v4 )

ライセンス: Link先を確認
Chun-Tse Chien, Rui-Yang Ju, Kuang-Yi Chou, Enkaer Xieerke, Jen-Shiun Chiang, (参考訳) 難治性外傷や骨折は、特に骨折症例のかなりの割合を占める小児において、日常生活において頻繁に起こる。 手術の前に、外科医は患者にまずX線撮影を依頼し、放射線医の分析に基づいてそれに備える。 ニューラルネットワークの開発に伴い、You Only Look Once (YOLO)シリーズモデルがコンピュータ支援診断(CAD)として骨折検出に広く利用されている。 2023年、UltralyticsはYOLOモデルの最新バージョンを発表した。 注意機構は、モデルパフォーマンスを改善する最もホットな方法の1つです。 本研究は,本来のYOLOv8アーキテクチャにアテンション機構を組み込んだYOLOv8-AMを提案する。 具体的には、4つの注意モジュール、CBAM(Convolutional Block Attention Module)、GAM(Global Attention Mechanism)、ECA(Efficient Channel Attention)、SA(Shuffle Attention)を使用して、改良されたモデルを設計し、GRAZPEDWRI-DXデータセットでトレーニングする。 ResBlock + CBAM (ResCBAM) に基づくYOLOv8-AMモデルのIoU 50(mAP 50)の平均精度は63.6%から65.8%に向上し,SOTAの性能が向上した。 逆に、GAMを組み込んだYOLOv8-AMモデルは、mAP 50の64.2%の値を得るが、これは満足のいく拡張ではない。 したがって、ResBlockとGAMを組み合わせてResGAMを導入し、新しいYOLOv8-AMモデルを設計し、mAP 50値が65.0%に向上した。 この研究の実装コードはGitHubでhttps://github.com/RuiyangJu/Fracture_Detection_Improved_YOLOv8で公開されている。

Wrist trauma and even fractures occur frequently in daily life, particularly among children who account for a significant proportion of fracture cases. Before performing surgery, surgeons often request patients to undergo X-ray imaging first and prepare for it based on the analysis of the radiologist. With the development of neural networks, You Only Look Once (YOLO) series models have been widely used in fracture detection as computer-assisted diagnosis (CAD). In 2023, Ultralytics presented the latest version of the YOLO models, which has been employed for detecting fractures across various parts of the body. Attention mechanism is one of the hottest methods to improve the model performance. This research work proposes YOLOv8-AM, which incorporates the attention mechanism into the original YOLOv8 architecture. Specifically, we respectively employ four attention modules, Convolutional Block Attention Module (CBAM), Global Attention Mechanism (GAM), Efficient Channel Attention (ECA), and Shuffle Attention (SA), to design the improved models and train them on GRAZPEDWRI-DX dataset. Experimental results demonstrate that the mean Average Precision at IoU 50 (mAP 50) of the YOLOv8-AM model based on ResBlock + CBAM (ResCBAM) increased from 63.6% to 65.8%, which achieves the state-of-the-art (SOTA) performance. Conversely, YOLOv8-AM model incorporating GAM obtains the mAP 50 value of 64.2%, which is not a satisfactory enhancement. Therefore, we combine ResBlock and GAM, introducing ResGAM to design another new YOLOv8-AM model, whose mAP 50 value is increased to 65.0%. The implementation code for this study is available on GitHub at https://github.com/RuiyangJu/Fracture_Detection_Improved_YOLOv8.
公開日:2024-04-24
翻訳日:2024-04-26 20:58:26
# MuChin: 音楽分野における言語モデル評価のための中国語の口語記述ベンチマーク

MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music ( http://arxiv.org/abs/2402.09871v3 )

ライセンス: Link先を確認
Zihao Wang, Shuyu Li, Tao Zhang, Qi Wang, Pengfei Yu, Jinyang Luo, Yan Liu, Ming Xi, Kejun Zhang, (参考訳) 急速に発展するマルチモーダル大言語モデル(LLM)は、音楽の理解とテキスト記述において、そのパフォーマンスを均一に評価するために、新しいベンチマークを必要とする。 しかし、音楽情報検索(MIR)アルゴリズムと人間の理解、専門家と一般人の相違、注釈の精度の低さなどにより、既存の音楽記述データセットはベンチマークとして機能することができない。 そこで本研究では,中国語における最初のオープンソース音楽記述ベンチマークであるMuChinについて述べる。 そこで我々は,革新的な多人数多段階保証手法を取り入れたCaiMAP(Caichong Music Annotation Platform)を構築し,アノテーションの精度と一般的な意味論との整合性を確保するために,アマチュアとプロの両方を雇った。 この手法を用いて,多次元で高精度な音楽アノテーションを備えたデータセットであるCaichong Music Dataset (CaiMD)を構築し,Muchinのテストセットとして1,000の高品質なエントリを慎重に選択した。 MuChin を用いて,音楽記述の観点からプロとアマチュアの差異を分析し,微調整 LLM における注釈付きデータの有効性を実証的に実証した。 最終的に、我々は既存の音楽理解モデルの評価にMuChinを用いて、音楽の口語的記述を提供する能力について検討した。 ベンチマークに関連するすべてのデータとスコアコード、詳細な付録がオープンソース化された(https://github.com/CarlWangChina/MuChin/)。

The rapidly evolving multimodal Large Language Models (LLMs) urgently require new benchmarks to uniformly evaluate their performance on understanding and textually describing music. However, due to semantic gaps between Music Information Retrieval (MIR) algorithms and human understanding, discrepancies between professionals and the public, and low precision of annotations, existing music description datasets cannot serve as benchmarks. To this end, we present MuChin, the first open-source music description benchmark in Chinese colloquial language, designed to evaluate the performance of multimodal LLMs in understanding and describing music. We established the Caichong Music Annotation Platform (CaiMAP) that employs an innovative multi-person, multi-stage assurance method, and recruited both amateurs and professionals to ensure the precision of annotations and alignment with popular semantics. Utilizing this method, we built a dataset with multi-dimensional, high-precision music annotations, the Caichong Music Dataset (CaiMD), and carefully selected 1,000 high-quality entries to serve as the test set for MuChin. Based on MuChin, we analyzed the discrepancies between professionals and amateurs in terms of music description, and empirically demonstrated the effectiveness of annotated data for fine-tuning LLMs. Ultimately, we employed MuChin to evaluate existing music understanding models on their ability to provide colloquial descriptions of music. All data related to the benchmark, along with the scoring code and detailed appendices, have been open-sourced (https://github.com/CarlWangChina/MuChin/).
公開日:2024-04-24
翻訳日:2024-04-26 20:58:26
# DEEM: スタンス検出のための動的経験豊富なエキスパートモデリング

DEEM: Dynamic Experienced Expert Modeling for Stance Detection ( http://arxiv.org/abs/2402.15264v2 )

ライセンス: Link先を確認
Xiaolong Wang, Yile Wang, Sijie Cheng, Peng Li, Yang Liu, (参考訳) 最近の研究は、大規模言語モデル(LLM)を用いて姿勢検出タスクを解くための予備的な試みを行い、有望な結果を示している。 しかしながら、姿勢検出は通常詳細な背景知識を必要とするため、バニラ推論法は専門的かつ正確な分析を行うためにドメイン知識を無視する可能性がある。 したがって、LSMの推論を改善する余地は残っており、特にLSMの生成能力を利用して特定の専門家(マルチエージェント)をシミュレートして姿勢を検出する。 本稿では, 詳細な説明を必要とする既存のマルチエージェントワークと異なり, 得られた経験者を利用した動的経験者モデリング(DEEM)手法を提案し, LLMを半パラメトリックな手法で推論し, 専門家をより一般化し信頼性の高いものにする。 実験結果から,DEMは3つの標準ベンチマークにおいて常に最良の結果を得ることができ,自己整合性推論による手法よりも優れ,LCMのバイアスを低減できることがわかった。

Recent work has made a preliminary attempt to use large language models (LLMs) to solve the stance detection task, showing promising results. However, considering that stance detection usually requires detailed background knowledge, the vanilla reasoning method may neglect the domain knowledge to make a professional and accurate analysis. Thus, there is still room for improvement of LLMs reasoning, especially in leveraging the generation capability of LLMs to simulate specific experts (i.e., multi-agents) to detect the stance. In this paper, different from existing multi-agent works that require detailed descriptions and use fixed experts, we propose a Dynamic Experienced Expert Modeling (DEEM) method which can leverage the generated experienced experts and let LLMs reason in a semi-parametric way, making the experts more generalizable and reliable. Experimental results demonstrate that DEEM consistently achieves the best results on three standard benchmarks, outperforms methods with self-consistency reasoning, and reduces the bias of LLMs.
公開日:2024-04-25
翻訳日:2024-04-26 20:58:26
# 大規模言語モデルを用いた術後リスク予測

Predicting postoperative risks using large language models ( http://arxiv.org/abs/2402.17493v3 )

ライセンス: Link先を確認
Bing Xue, Charles Alba, Joanna Abraham, Thomas Kannampallil, Chenyang Lu, (参考訳) 術後のリスクを予測することは、効果的なケア管理と計画に影響を及ぼす可能性がある。 各種チューニング手法を用いて, 臨床テキストによる術後リスク予測のための大規模言語モデル (LLM) について検討した。 2018年から2021年の間,バーンズ・ユダヤ人病院(BJH)の84,875人の患者を対象とし,術後7日間のICU持続時間に基づく追跡調査を行った。 MIMIC-IIIデータセットにメソッドが複製された。 その結果,30日間の死亡,肺塞栓症,肺炎が認められた。 3つのLLM (BioGPT, ClinicalBERT, BioClinicalBERT) に対して, 自己指導的目的, ラベルを半監督的微調整に組み込むこと, マルチタスク学習による基礎的モデリングを行った。 モデル性能をAUROC & AUPRC を用いて分類タスクと回帰タスクの MSE & R2 と比較した。 コホートの平均年齢は56.9歳(16.8歳)、男性50.3%、白人74%だった。 事前訓練されたLLMは従来の単語の埋め込みよりも優れており、AUROCは38.3%、AUPRCは14%だった。 自己監督微調整によるモデルの適用により、AUROCは3.2%、AUPRCは1.5%の性能向上、半監督微調整は1.8%、AUPRCは2%、基礎モデリングは3.6%、AUROCは2.6%向上した。 事前訓練された臨床LSMは、未確認データによる術後リスク予測の機会を提供し、微調整によるさらなる改善は、ノート固有の周術期のユースケースに事前訓練されたモデルを適用することの利点を示唆している。 ラベルを組み込むことでパフォーマンスをさらに向上させることができる。 基本モデルの優れた性能は、周術期医療における汎用LSMに向けたタスク非依存学習の可能性を示している。

Predicting postoperative risk can inform effective care management & planning. We explored large language models (LLMs) in predicting postoperative risk through clinical texts using various tuning strategies. Records spanning 84,875 patients from Barnes Jewish Hospital (BJH) between 2018 & 2021, with a mean duration of follow-up based on the length of postoperative ICU stay less than 7 days, were utilized. Methods were replicated on the MIMIC-III dataset. Outcomes included 30-day mortality, pulmonary embolism (PE) & pneumonia. Three domain adaptation & finetuning strategies were implemented for three LLMs (BioGPT, ClinicalBERT & BioClinicalBERT): self-supervised objectives; incorporating labels with semi-supervised fine-tuning; & foundational modelling through multi-task learning. Model performance was compared using the AUROC & AUPRC for classification tasks & MSE & R2 for regression tasks. Cohort had a mean age of 56.9 (sd: 16.8) years; 50.3% male; 74% White. Pre-trained LLMs outperformed traditional word embeddings, with absolute maximal gains of 38.3% for AUROC & 14% for AUPRC. Adapting models through self-supervised finetuning further improved performance by 3.2% for AUROC & 1.5% for AUPRC Incorporating labels into the finetuning procedure further boosted performances, with semi-supervised finetuning improving by 1.8% for AUROC & 2% for AUPRC & foundational modelling improving by 3.6% for AUROC & 2.6% for AUPRC compared to self-supervised finetuning. Pre-trained clinical LLMs offer opportunities for postoperative risk predictions with unseen data, & further improvements from finetuning suggests benefits in adapting pre-trained models to note-specific perioperative use cases. Incorporating labels can further boost performance. The superior performance of foundational models suggests the potential of task-agnostic learning towards the generalizable LLMs in perioperative care.
公開日:2024-04-25
翻訳日:2024-04-26 20:58:26
# NToP:トップビュー魚眼画像における2次元・3次元人物位置推定のためのNeRFを用いた大規模データセット生成

NToP: NeRF-Powered Large-scale Dataset Generation for 2D and 3D Human Pose Estimation in Top-View Fisheye Images ( http://arxiv.org/abs/2402.18196v2 )

ライセンス: Link先を確認
Jingrui Yu, Dipankar Nandi, Roman Seidel, Gangolf Hirtz, (参考訳) 魚眼カメラを用いたトップビューでのヒューマンポーズ推定(HPE)は、有望で革新的なアプリケーションドメインを示す。 しかし、この視点を捉えたデータセットの可用性は非常に限られており、特に高品質な2Dおよび3Dキーポイントアノテーションがある。 このギャップに対処するため、我々はNeural Radiance Fields(NeRF)の技術を活用し、既存の2Dおよび3Dデータセットから人間のポーズデータセットを生成する包括的なパイプラインを構築します。 このパイプラインを通じて,魚眼カメラ用の新しいデータセットNToP570K(NeRFを利用した570万枚以上の画像付きトップビューヒューマンポースデータセット)を作成し,そのニューラルネットワークを2次元および3次元のトップビュー人間のポーズ推定のために拡張する効果を広範囲に評価する。 事前トレーニングした ViTPose-B モデルでは,トレーニングセットを微調整した後の2次元 HPE の検証セットにおいて,AP が 33.3 % 向上した。 同様に微調整されたHybrIK-Transformerモデルは、検証セット上の3D HPEに対してPA-MPJPEを53.7mm削減する。

Human pose estimation (HPE) in the top-view using fisheye cameras presents a promising and innovative application domain. However, the availability of datasets capturing this viewpoint is extremely limited, especially those with high-quality 2D and 3D keypoint annotations. Addressing this gap, we leverage the capabilities of Neural Radiance Fields (NeRF) technique to establish a comprehensive pipeline for generating human pose datasets from existing 2D and 3D datasets, specifically tailored for the top-view fisheye perspective. Through this pipeline, we create a novel dataset NToP570K (NeRF-powered Top-view human Pose dataset for fisheye cameras with over 570 thousand images), and conduct an extensive evaluation of its efficacy in enhancing neural networks for 2D and 3D top-view human pose estimation. A pretrained ViTPose-B model achieves an improvement in AP of 33.3 % on our validation set for 2D HPE after finetuning on our training set. A similarly finetuned HybrIK-Transformer model gains 53.7 mm reduction in PA-MPJPE for 3D HPE on the validation set.
公開日:2024-04-24
翻訳日:2024-04-26 20:58:26
# FlowCyt:フローサイトメトリーベンチマークにおける複数クラス分類のためのディープラーニングアプローチの比較検討

FlowCyt: A Comparative Study of Deep Learning Approaches for Multi-Class Classification in Flow Cytometry Benchmarking ( http://arxiv.org/abs/2403.00024v2 )

ライセンス: Link先を確認
Lorenzo Bini, Fatemeh Nassajian Mojarrad, Margarita Liarou, Thomas Matthes, Stéphane Marchand-Maillet, (参考訳) 本稿ではフローサイトメトリーデータにおけるマルチクラスシングルセル分類のための最初の総合的なベンチマークであるFlowCytを提案する。 このデータセットは、30人の患者の骨髄サンプルからなり、各細胞は12個のマーカーで特徴づけられる。 地上の真理ラベルは、Tリンパ球、Bリンパ球、単球、肥満細胞、造血幹細胞(HSPC)の5種類の血液学的細胞を識別する。 実験では、患者1人当たり100万の細胞で、教師付き誘導学習と半教師付きトランスダクティブ学習を利用する。 ベースラインメソッドには、ガウス混合モデル、XGBoost、ランダムフォレスト、ディープニューラルネットワーク、グラフニューラルネットワーク(GNN)などがある。 GNNは、グラフ符号化データにおける空間的関係を利用して、優れた性能を示す。 このベンチマークは、血液細胞表現型に関する洞察を得るために、臨床関連分類タスクの標準化された評価と探索分析を可能にする。 これは、リッチな注釈付きヘテロジニアスデータセットを備えた最初の公開フローサイトメトリーベンチマークである。 単細胞解析のための新しい方法論の開発と厳密な評価を強化する。

This paper presents FlowCyt, the first comprehensive benchmark for multi-class single-cell classification in flow cytometry data. The dataset comprises bone marrow samples from 30 patients, with each cell characterized by twelve markers. Ground truth labels identify five hematological cell types: T lymphocytes, B lymphocytes, Monocytes, Mast cells, and Hematopoietic Stem/Progenitor Cells (HSPCs). Experiments utilize supervised inductive learning and semi-supervised transductive learning on up to 1 million cells per patient. Baseline methods include Gaussian Mixture Models, XGBoost, Random Forests, Deep Neural Networks, and Graph Neural Networks (GNNs). GNNs demonstrate superior performance by exploiting spatial relationships in graph-encoded data. The benchmark allows standardized evaluation of clinically relevant classification tasks, along with exploratory analyses to gain insights into hematological cell phenotypes. This represents the first public flow cytometry benchmark with a richly annotated, heterogeneous dataset. It will empower the development and rigorous assessment of novel methodologies for single-cell analysis.
公開日:2024-04-25
翻訳日:2024-04-26 20:58:26
# If-Onlysの偶像: カウンターファクトファクトファクトの解説をガイドとして見つけたか?

Even-Ifs From If-Onlys: Are the Best Semi-Factual Explanations Found Using Counterfactuals As Guides? ( http://arxiv.org/abs/2403.00980v2 )

ライセンス: Link先を確認
Saugat Aryal, Mark T. Keane, (参考訳) 近年,eXplainable AI(XAI)では,ブラックボックスAIシステムの特徴入力の変更が,(通常は否定的な)意思決定結果にどのような変化をもたらすかを説明するために,"if-only"説明を用いたファクトファクトファクトが広く普及している。 さらに近年では、「偶数」の説明を用いた半実例が注目されている。 彼らは、AIシステムの意思決定結果を変えない機能インプットの変更を解明し、より有益なリコースを提案する可能性がある。 半事実的手法の中には、半事実的生産(いわゆる反事実的誘導法)を導くためのクエリインスタンスに反事実的手法を用いるものもあれば、非事実的手法(いわゆる非事実的手法)は存在しないものもある。 本研究では,5つの重要な指標を用いて,7つのデータセット上で8つの半実例手法の総合的なテストを行い,最良の半実例を見つけるためには,反実例ガイダンスが必要であるかどうかを判断する。 これらのテストの結果は、決定領域の他の側面の計算は、より優れた半現実的XAIをもたらすことを示唆している。

Recently, counterfactuals using "if-only" explanations have become very popular in eXplainable AI (XAI), as they describe which changes to feature-inputs of a black-box AI system result in changes to a (usually negative) decision-outcome. Even more recently, semi-factuals using "even-if" explanations have gained more attention. They elucidate the feature-input changes that do not change the decision-outcome of the AI system, with a potential to suggest more beneficial recourses. Some semi-factual methods use counterfactuals to the query-instance to guide semi-factual production (so-called counterfactual-guided methods), whereas others do not (so-called counterfactual-free methods). In this work, we perform comprehensive tests of 8 semi-factual methods on 7 datasets using 5 key metrics, to determine whether counterfactual guidance is necessary to find the best semi-factuals. The results of these tests suggests not, but rather that computing other aspects of the decision space lead to better semi-factual XAI.
公開日:2024-04-25
翻訳日:2024-04-26 20:58:26
# 神経コンピューティングへ向けて - オートエンコーダとしてのニューロン

Toward Neuromic Computing: Neurons as Autoencoders ( http://arxiv.org/abs/2403.02331v4 )

ライセンス: Link先を確認
Larry Bull, (参考訳) 本稿では、神経バックプロパゲーションが樹状突起処理を用いて、個々のニューロンが自己エンコーディングを行うことを可能にするという考えを述べる。 非常に単純な接続重み探索ヒューリスティックおよび人工ニューラルネットワークモデルを用いて、フィードフォワードネットワークの隠蔽層における各ニューロンに対する自己エンコーディングのインターリーブ効果について検討した。 これは、オートエンコーディングの標準的な階層化アプローチとは対照的である。 このような個別化処理は有害ではなく、ネットワーク学習を改善することができる。

This short paper presents the idea that neural backpropagation is using dendritic processing to enable individual neurons to perform autoencoding. Using a very simple connection weight search heuristic and artificial neural network model, the effects of interleaving autoencoding for each neuron in a hidden layer of a feedforward network are explored. This is contrasted to the standard layered approach to autoencoding. It is shown that such individualised processing is not detrimental and can improve network learning.
公開日:2024-04-25
翻訳日:2024-04-26 20:58:26
# NiNformer: トケミキシング生成ゲーティング機能を備えたネットワークトランスフォーマーのネットワーク

NiNformer: A Network in Network Transformer with Token Mixing Generated Gating Function ( http://arxiv.org/abs/2403.02411v2 )

ライセンス: Link先を確認
Abdullah Nazhat Abdullah, Tarkan Aydin, (参考訳) AttentionメカニズムはTransformerアーキテクチャの主要なコンポーネントであり、導入以来、多くのドメインと複数のタスクにまたがるディープラーニングの大幅な進歩につながっている。 アテンションメカニズムはコンピュータビジョンでビジョントランスフォーマーViTとして利用され、その用途は、分類、セグメンテーション、オブジェクト検出、画像生成など、視覚領域の多くのタスクに拡張されている。 このメカニズムは非常に表現力があり能力があるが、計算コストが高く、効率的な最適化のためにかなりのサイズのデータセットを必要とするという欠点がある。 これらの欠点に対処するために、計算負担を減らし、データサイズ要件を緩和する多くの設計が文献で提案されている。 視覚領域におけるこのような試みの例としては、MLP-Mixer、Conv-Mixer、Perciver-IOなどがある。 本稿では,MLPミキサーの静的アプローチを強化するネットワーク・イン・ネットワーク構造を,トークン・ミキシング・プロセスにより要素ワイド・ゲーティング関数を学習する動的システムに置き換えることで,通常のViTブロックに代わる新しい計算ブロックを提案する。 広汎な実験により,視覚領域の画像分類タスクに適用された複数のデータセットのベースラインアーキテクチャよりも優れた性能が得られた。

The Attention mechanism is the main component of the Transformer architecture, and since its introduction, it has led to significant advancements in Deep Learning that span many domains and multiple tasks. The Attention Mechanism was utilized in Computer Vision as the Vision Transformer ViT, and its usage has expanded into many tasks in the vision domain, such as classification, segmentation, object detection, and image generation. While this mechanism is very expressive and capable, it comes with the drawback of being computationally expensive and requiring datasets of considerable size for effective optimization. To address these shortcomings, many designs have been proposed in the literature to reduce the computational burden and alleviate the data size requirements. Examples of such attempts in the vision domain are the MLP-Mixer, the Conv-Mixer, the Perciver-IO, and many more. This paper introduces a new computational block as an alternative to the standard ViT block that reduces the compute burdens by replacing the normal Attention layers with a Network in Network structure that enhances the static approach of the MLP Mixer with a dynamic system of learning an element-wise gating function by a token mixing process. Extensive experimentation shows that the proposed design provides better performance than the baseline architectures on multiple datasets applied in the image classification task of the vision domain.
公開日:2024-04-24
翻訳日:2024-04-26 20:48:34
# RulePrompt: プロンプティングPLMと自己Iterative Logical Ruleを用いた弱修正テキスト分類

RulePrompt: Weakly Supervised Text Classification with Prompting PLMs and Self-Iterative Logical Rules ( http://arxiv.org/abs/2403.02932v2 )

ライセンス: Link先を確認
Miaomiao Li, Jiaqi Zhu, Yang Wang, Yi Yang, Yilin Li, Hongan Wang, (参考訳) ゼロショットテキスト分類(ゼロショットテキスト分類、英: zero-shot text classification)またはデータレステキスト分類(英: dataless text classification、WSTC)は、動的でオープンなWeb環境において大量のテキストを分類できるため注目されている。 最近普及しているPLM(Pre-trained Language Models)の助けを借りて、多くの研究は、手作業による工芸品と/または自動で発声器を識別してカテゴリの確率を推定したが、これらのカテゴリー指示語の効果を区別することはできなかった。 本稿では, PLMが各カテゴリを効果的に理解するために, まず, 論理式を用いたルールベース知識の新たな形態を提案し, カテゴリの意味を特徴付ける。 そこで本研究では,ルールマイニングモジュールとルールエンハンスド擬似ラベル生成モジュールからなるWSTCタスク用ルールプロンプトと,PLMを協調させる自己教師型微調整モジュールを開発した。 この枠組み内では、テキストに割り当てられた不正確な擬似ラベルと、カテゴリに関連する不正確な論理規則が相互に代替的な方法で強化される。 これは、知識(ルール)の自己決定的なクローズドループを確立して利用し、シードワードが出発点となる。 提案手法の有効性とロバスト性を検証する実験により,最先端の弱教師付き手法を著しく上回る結果を得た。 さらに、我々のアプローチは解釈可能なカテゴリルールをもたらし、容易に定義されたカテゴリを曖昧にすることの利点を証明している。

Weakly supervised text classification (WSTC), also called zero-shot or dataless text classification, has attracted increasing attention due to its applicability in classifying a mass of texts within the dynamic and open Web environment, since it requires only a limited set of seed words (label names) for each category instead of labeled data. With the help of recently popular prompting Pre-trained Language Models (PLMs), many studies leveraged manually crafted and/or automatically identified verbalizers to estimate the likelihood of categories, but they failed to differentiate the effects of these category-indicative words, let alone capture their correlations and realize adaptive adjustments according to the unlabeled corpus. In this paper, in order to let the PLM effectively understand each category, we at first propose a novel form of rule-based knowledge using logical expressions to characterize the meanings of categories. Then, we develop a prompting PLM-based approach named RulePrompt for the WSTC task, consisting of a rule mining module and a rule-enhanced pseudo label generation module, plus a self-supervised fine-tuning module to make the PLM align with this task. Within this framework, the inaccurate pseudo labels assigned to texts and the imprecise logical rules associated with categories mutually enhance each other in an alternative manner. That establishes a self-iterative closed loop of knowledge (rule) acquisition and utilization, with seed words serving as the starting point. Extensive experiments validate the effectiveness and robustness of our approach, which markedly outperforms state-of-the-art weakly supervised methods. What is more, our approach yields interpretable category rules, proving its advantage in disambiguating easily-confused categories.
公開日:2024-04-25
翻訳日:2024-04-26 20:48:34
# WMDPベンチマーク:アンラーニングによる悪意的使用の測定と削減

The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning ( http://arxiv.org/abs/2403.03218v4 )

ライセンス: Link先を確認
Nathaniel Li, Alexander Pan, Anjali Gopal, Summer Yue, Daniel Berrios, Alice Gatti, Justin D. Li, Ann-Kathrin Dombrowski, Shashwat Goel, Long Phan, Gabriel Mukobi, Nathan Helm-Burger, Rassin Lababidi, Lennart Justen, Andrew B. Liu, Michael Chen, Isabelle Barrass, Oliver Zhang, Xiaoyuan Zhu, Rishub Tamirisa, Bhrugu Bharathi, Adam Khoja, Zhenqi Zhao, Ariel Herbert-Voss, Cort B. Breuer, Samuel Marks, Oam Patel, Andy Zou, Mantas Mazeika, Zifan Wang, Palash Oswal, Weiran Liu, Adam A. Hunt, Justin Tienken-Harder, Kevin Y. Shih, Kemper Talley, John Guan, Russell Kaplan, Ian Steneker, David Campbell, Brad Jokubaitis, Alex Levinson, Jean Wang, William Qian, Kallol Krishna Karmakar, Steven Basart, Stephen Fitz, Mindy Levine, Ponnurangam Kumaraguru, Uday Tupakula, Vijay Varadharajan, Yan Shoshitaishvili, Jimmy Ba, Kevin M. Esvelt, Alexandr Wang, Dan Hendrycks, (参考訳) ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。 悪意のある使用のリスクを測定するために、政府機関と主要なAIラボは、LLMにおける有害な能力の評価を開発している。 しかし、現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。 さらに、悪意のある使用のための、非常に特殊な経路にのみ焦点をあてている。 これらのギャップを埋めるために、私たちは、バイオセキュリティ、サイバーセキュリティ、化学セキュリティにおける有害な知識のプロキシ測定として機能する、4,157の多重選択質問のデータセットであるWMDP(Weapons of Mass Destruction Proxy)ベンチマークを公開しました。 WMDPは学者と技術コンサルタントのコンソーシアムによって開発され、公開前に機密情報を除去するために厳格にフィルタリングされた。 WMDPは、まず、LLMにおける有害な知識の評価として、そして次に、そのような有害な知識を取り除くための未学習手法のベンチマークとして、2つの役割を果たす。 モデル表現の制御に基づく最先端のアンラーニング手法であるCUTを開発した。 CUTは、生物学や計算機科学などの分野における一般的な能力を保ちながら、WMDPのモデル性能を低下させる。 私たちはベンチマークとコードをhttps://wmdp.aiで公開しています。

The White House Executive Order on Artificial Intelligence highlights the risks of large language models (LLMs) empowering malicious actors in developing biological, cyber, and chemical weapons. To measure these risks of malicious use, government institutions and major AI labs are developing evaluations for hazardous capabilities in LLMs. However, current evaluations are private, preventing further research into mitigating risk. Furthermore, they focus on only a few, highly specific pathways for malicious use. To fill these gaps, we publicly release the Weapons of Mass Destruction Proxy (WMDP) benchmark, a dataset of 4,157 multiple-choice questions that serve as a proxy measurement of hazardous knowledge in biosecurity, cybersecurity, and chemical security. WMDP was developed by a consortium of academics and technical consultants, and was stringently filtered to eliminate sensitive information prior to public release. WMDP serves two roles: first, as an evaluation for hazardous knowledge in LLMs, and second, as a benchmark for unlearning methods to remove such hazardous knowledge. To guide progress on unlearning, we develop CUT, a state-of-the-art unlearning method based on controlling model representations. CUT reduces model performance on WMDP while maintaining general capabilities in areas such as biology and computer science, suggesting that unlearning may be a concrete path towards reducing malicious use from LLMs. We release our benchmark and code publicly at https://wmdp.ai
公開日:2024-04-24
翻訳日:2024-04-26 20:48:34
# Gemini 1.5: 数百万のコンテキストトークンにわたるマルチモーダル理解のアンロック

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context ( http://arxiv.org/abs/2403.05530v2 )

ライセンス: Link先を確認
Gemini Team, Machel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry, Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian Borgeaud, Andrew Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault Sottiaux, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, James Molloy, Jilin Chen, Michael Isard, Paul Barham, Tom Hennigan, Ross McIlroy, Melvin Johnson, Johan Schalkwyk, Eli Collins, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, Clemens Meyer, Gregory Thornton, Zhen Yang, Henryk Michalewski, Zaheer Abbas, Nathan Schucher, Ankesh Anand, Richard Ives, James Keeling, Karel Lenc, Salem Haykal, Siamak Shakeri, Pranav Shyam, Aakanksha Chowdhery, Roman Ring, Stephen Spencer, Eren Sezener, Luke Vilnis, Oscar Chang, Nobuyuki Morioka, George Tucker, Ce Zheng, Oliver Woodman, Nithya Attaluri, Tomas Kocisky, Evgenii Eltyshev, Xi Chen, Timothy Chung, Vittorio Selo, Siddhartha Brahma, Petko Georgiev, Ambrose Slone, Zhenkai Zhu, James Lottes, Siyuan Qiao, Ben Caine, Sebastian Riedel, Alex Tomala, Martin Chadwick, Juliette Love, Peter Choy, Sid Mittal, Neil Houlsby, Yunhao Tang, Matthew Lamm, Libin Bai, Qiao Zhang, Luheng He, Yong Cheng, Peter Humphreys, Yujia Li, Sergey Brin, Albin Cassirer, Yingjie Miao, Lukas Zilka, Taylor Tobin, Kelvin Xu, Lev Proleev, Daniel Sohn, Alberto Magni, Lisa Anne Hendricks, Isabel Gao, Santiago Ontanon, Oskar Bunyan, Nathan Byrd, Abhanshu Sharma, Biao Zhang, Mario Pinto, Rishika Sinha, Harsh Mehta, Dawei Jia, Sergi Caelles, Albert Webson, Alex Morris, Becca Roelofs, Yifan Ding, Robin Strudel, Xuehan Xiong, Marvin Ritter, Mostafa Dehghani, Rahma Chaabouni, Abhijit Karmarkar, Guangda Lai, Fabian Mentzer, Bibo Xu, YaGuang Li, Yujing Zhang, Tom Le Paine, Alex Goldin, Behnam Neyshabur, Kate Baumli, Anselm Levskaya, Michael Laskin, Wenhao Jia, Jack W. Rae, Kefan Xiao, Antoine He, Skye Giordano, Lakshman Yagati, Jean-Baptiste Lespiau, Paul Natsev, Sanjay Ganapathy, Fangyu Liu, Danilo Martins, Nanxin Chen, Yunhan Xu, Megan Barnes, Rhys May, Arpi Vezer, Junhyuk Oh, Ken Franko, Sophie Bridgers, Ruizhe Zhao, Boxi Wu, Basil Mustafa, Sean Sechrist, Emilio Parisotto, Thanumalayan Sankaranarayana Pillai, Chris Larkin, Chenjie Gu, Christina Sorokin, Maxim Krikun, Alexey Guseynov, Jessica Landon, Romina Datta, Alexander Pritzel, Phoebe Thacker, Fan Yang, Kevin Hui, Anja Hauth, Chih-Kuan Yeh, David Barker, Justin Mao-Jones, Sophia Austin, Hannah Sheahan, Parker Schuh, James Svensson, Rohan Jain, Vinay Ramasesh, Anton Briukhov, Da-Woon Chung, Tamara von Glehn, Christina Butterfield, Priya Jhakra, Matthew Wiethoff, Justin Frye, Jordan Grimstad, Beer Changpinyo, Charline Le Lan, Anna Bortsova, Yonghui Wu, Paul Voigtlaender, Tara Sainath, Shane Gu, Charlotte Smith, Will Hawkins, Kris Cao, James Besley, Srivatsan Srinivasan, Mark Omernick, Colin Gaffney, Gabriela Surita, Ryan Burnell, Bogdan Damoc, Junwhan Ahn, Andrew Brock, Mantas Pajarskas, Anastasia Petrushkina, Seb Noury, Lorenzo Blanco, Kevin Swersky, Arun Ahuja, Thi Avrahami, Vedant Misra, Raoul de Liedekerke, Mariko Iinuma, Alex Polozov, Sarah York, George van den Driessche, Paul Michel, Justin Chiu, Rory Blevins, Zach Gleicher, Adrià Recasens, Alban Rrustemi, Elena Gribovskaya, Aurko Roy, Wiktor Gworek, Sébastien M. R. Arnold, Lisa Lee, James Lee-Thorp, Marcello Maggioni, Enrique Piqueras, Kartikeya Badola, Sharad Vikram, Lucas Gonzalez, Anirudh Baddepudi, Evan Senter, Jacob Devlin, James Qin, Michael Azzam, Maja Trebacz, Martin Polacek, Kashyap Krishnakumar, Shuo-yiin Chang, Matthew Tung, Ivo Penchev, Rishabh Joshi, Kate Olszewska, Carrie Muir, Mateo Wirth, Ale Jakse Hartman, Josh Newlan, Sheleem Kashem, Vijay Bolina, Elahe Dabir, Joost van Amersfoort, Zafarali Ahmed, James Cobon-Kerr, Aishwarya Kamath, Arnar Mar Hrafnkelsson, Le Hou, Ian Mackinnon, Alexandre Frechette, Eric Noland, Xiance Si, Emanuel Taropa, Dong Li, Phil Crone, Anmol Gulati, Sébastien Cevey, Jonas Adler, Ada Ma, David Silver, Simon Tokumine, Richard Powell, Stephan Lee, Kiran Vodrahalli, Samer Hassan, Diana Mincu, Antoine Yang, Nir Levine, Jenny Brennan, Mingqiu Wang, Sarah Hodkinson, Jeffrey Zhao, Josh Lipschultz, Aedan Pope, Michael B. Chang, Cheng Li, Laurent El Shafey, Michela Paganini, Sholto Douglas, Bernd Bohnet, Fabio Pardo, Seth Odoom, Mihaela Rosca, Cicero Nogueira dos Santos, Kedar Soparkar, Arthur Guez, Tom Hudson, Steven Hansen, Chulayuth Asawaroengchai, Ravi Addanki, Tianhe Yu, Wojciech Stokowiec, Mina Khan, Justin Gilmer, Jaehoon Lee, Carrie Grimes Bostock, Keran Rong, Jonathan Caton, Pedram Pejman, Filip Pavetic, Geoff Brown, Vivek Sharma, Mario Lučić, Rajkumar Samuel, Josip Djolonga, Amol Mandhane, Lars Lowe Sjösund, Elena Buchatskaya, Elspeth White, Natalie Clay, Jiepu Jiang, Hyeontaek Lim, Ross Hemsley, Zeyncep Cankara, Jane Labanowski, Nicola De Cao, David Steiner, Sayed Hadi Hashemi, Jacob Austin, Anita Gergely, Tim Blyth, Joe Stanton, Kaushik Shivakumar, Aditya Siddhant, Anders Andreassen, Carlos Araya, Nikhil Sethi, Rakesh Shivanna, Steven Hand, Ankur Bapna, Ali Khodaei, Antoine Miech, Garrett Tanzer, Andy Swing, Shantanu Thakoor, Lora Aroyo, Zhufeng Pan, Zachary Nado, Jakub Sygnowski, Stephanie Winkler, Dian Yu, Mohammad Saleh, Loren Maggiore, Yamini Bansal, Xavier Garcia, Mehran Kazemi, Piyush Patil, Ishita Dasgupta, Iain Barr, Minh Giang, Thais Kagohara, Ivo Danihelka, Amit Marathe, Vladimir Feinberg, Mohamed Elhawaty, Nimesh Ghelani, Dan Horgan, Helen Miller, Lexi Walker, Richard Tanburn, Mukarram Tariq, Disha Shrivastava, Fei Xia, Qingze Wang, Chung-Cheng Chiu, Zoe Ashwood, Khuslen Baatarsukh, Sina Samangooei, Raphaël Lopez Kaufman, Fred Alcober, Axel Stjerngren, Paul Komarek, Katerina Tsihlas, Anudhyan Boral, Ramona Comanescu, Jeremy Chen, Ruibo Liu, Chris Welty, Dawn Bloxwich, Charlie Chen, Yanhua Sun, Fangxiaoyu Feng, Matthew Mauger, Xerxes Dotiwalla, Vincent Hellendoorn, Michael Sharman, Ivy Zheng, Krishna Haridasan, Gabe Barth-Maron, Craig Swanson, Dominika Rogozińska, Alek Andreev, Paul Kishan Rubenstein, Ruoxin Sang, Dan Hurt, Gamaleldin Elsayed, Renshen Wang, Dave Lacey, Anastasija Ilić, Yao Zhao, Adam Iwanicki, Alejandro Lince, Alexander Chen, Christina Lyu, Carl Lebsack, Jordan Griffith, Meenu Gaba, Paramjit Sandhu, Phil Chen, Anna Koop, Ravi Rajwar, Soheil Hassas Yeganeh, Solomon Chang, Rui Zhu, Soroush Radpour, Elnaz Davoodi, Ving Ian Lei, Yang Xu, Daniel Toyama, Constant Segal, Martin Wicke, Hanzhao Lin, Anna Bulanova, Adrià Puigdomènech Badia, Nemanja Rakićević, Pablo Sprechmann, Angelos Filos, Shaobo Hou, Víctor Campos, Nora Kassner, Devendra Sachan, Meire Fortunato, Chimezie Iwuanyanwu, Vitaly Nikolaev, Balaji Lakshminarayanan, Sadegh Jazayeri, Mani Varadarajan, Chetan Tekur, Doug Fritz, Misha Khalman, David Reitter, Kingshuk Dasgupta, Shourya Sarcar, Tina Ornduff, Javier Snaider, Fantine Huot, Johnson Jia, Rupert Kemp, Nejc Trdin, Anitha Vijayakumar, Lucy Kim, Christof Angermueller, Li Lao, Tianqi Liu, Haibin Zhang, David Engel, Somer Greene, Anaïs White, Jessica Austin, Lilly Taylor, Shereen Ashraf, Dangyi Liu, Maria Georgaki, Irene Cai, Yana Kulizhskaya, Sonam Goenka, Brennan Saeta, Ying Xu, Christian Frank, Dario de Cesare, Brona Robenek, Harry Richardson, Mahmoud Alnahlawi, Christopher Yew, Priya Ponnapalli, Marco Tagliasacchi, Alex Korchemniy, Yelin Kim, Dinghua Li, Bill Rosgen, Kyle Levin, Jeremy Wiesner, Praseem Banzal, Praveen Srinivasan, Hongkun Yu, Çağlar Ünlü, David Reid, Zora Tung, Daniel Finchelstein, Ravin Kumar, Andre Elisseeff, Jin Huang, Ming Zhang, Ricardo Aguilar, Mai Giménez, Jiawei Xia, Olivier Dousse, Willi Gierke, Damion Yates, Komal Jalan, Lu Li, Eri Latorre-Chimoto, Duc Dung Nguyen, Ken Durden, Praveen Kallakuri, Yaxin Liu, Matthew Johnson, Tomy Tsai, Alice Talbert, Jasmine Liu, Alexander Neitz, Chen Elkind, Marco Selvi, Mimi Jasarevic, Livio Baldini Soares, Albert Cui, Pidong Wang, Alek Wenjiao Wang, Xinyu Ye, Krystal Kallarackal, Lucia Loher, Hoi Lam, Josef Broder, Dan Holtmann-Rice, Nina Martin, Bramandia Ramadhana, Mrinal Shukla, Sujoy Basu, Abhi Mohan, Nick Fernando, Noah Fiedel, Kim Paterson, Hui Li, Ankush Garg, Jane Park, DongHyun Choi, Diane Wu, Sankalp Singh, Zhishuai Zhang, Amir Globerson, Lily Yu, John Carpenter, Félix de Chaumont Quitry, Carey Radebaugh, Chu-Cheng Lin, Alex Tudor, Prakash Shroff, Drew Garmon, Dayou Du, Neera Vats, Han Lu, Shariq Iqbal, Alex Yakubovich, Nilesh Tripuraneni, James Manyika, Haroon Qureshi, Nan Hua, Christel Ngani, Maria Abi Raad, Hannah Forbes, Jeff Stanway, Mukund Sundararajan, Victor Ungureanu, Colton Bishop, Yunjie Li, Balaji Venkatraman, Bo Li, Chloe Thornton, Salvatore Scellato, Nishesh Gupta, Yicheng Wang, Ian Tenney, Xihui Wu, Ashish Shenoy, Gabriel Carvajal, Diana Gage Wright, Ben Bariach, Zhuyun Xiao, Peter Hawkins, Sid Dalmia, Clement Farabet, Pedro Valenzuela, Quan Yuan, Ananth Agarwal, Mia Chen, Wooyeol Kim, Brice Hulse, Nandita Dukkipati, Adam Paszke, Andrew Bolt, Kiam Choo, Jennifer Beattie, Jennifer Prendki, Harsha Vashisht, Rebeca Santamaria-Fernandez, Luis C. Cobo, Jarek Wilkiewicz, David Madras, Ali Elqursh, Grant Uy, Kevin Ramirez, Matt Harvey, Tyler Liechty, Heiga Zen, Jeff Seibert, Clara Huiyi Hu, Andrey Khorlin, Maigo Le, Asaf Aharoni, Megan Li, Lily Wang, Sandeep Kumar, Norman Casagrande, Jay Hoover, Dalia El Badawy, David Soergel, Denis Vnukov, Matt Miecnikowski, Jiri Simsa, Praveen Kumar, Thibault Sellam, Daniel Vlasic, Samira Daruki, Nir Shabat, John Zhang, Guolong Su, Jiageng Zhang, Jeremiah Liu, Yi Sun, Evan Palmer, Alireza Ghaffarkhah, Xi Xiong, Victor Cotruta, Michael Fink, Lucas Dixon, Ashwin Sreevatsa, Adrian Goedeckemeyer, Alek Dimitriev, Mohsen Jafari, Remi Crocker, Nicholas FitzGerald, Aviral Kumar, Sanjay Ghemawat, Ivan Philips, Frederick Liu, Yannie Liang, Rachel Sterneck, Alena Repina, Marcus Wu, Laura Knight, Marin Georgiev, Hyo Lee, Harry Askham, Abhishek Chakladar, Annie Louis, Carl Crous, Hardie Cate, Dessie Petrova, Michael Quinn, Denese Owusu-Afriyie, Achintya Singhal, Nan Wei, Solomon Kim, Damien Vincent, Milad Nasr, Christopher A. Choquette-Choo, Reiko Tojo, Shawn Lu, Diego de Las Casas, Yuchung Cheng, Tolga Bolukbasi, Katherine Lee, Saaber Fatehi, Rajagopal Ananthanarayanan, Miteyan Patel, Charbel Kaed, Jing Li, Shreyas Rammohan Belle, Zhe Chen, Jaclyn Konzelmann, Siim Põder, Roopal Garg, Vinod Koverkathu, Adam Brown, Chris Dyer, Rosanne Liu, Azade Nova, Jun Xu, Alanna Walton, Alicia Parrish, Mark Epstein, Sara McCarthy, Slav Petrov, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean, Oriol Vinyals, (参考訳) 本稿では,Geminiファミリーの最新モデルであるGemini 1.5 Proについて紹介する。これは,複数の長い文書やビデオや音声の時間を含む数百万のコンテキストのトークンから,きめ細かい情報をリコールし,推論することのできる,計算効率の高いマルチモーダル・オブ・エキスパート・モデルである。 Gemini 1.5 Proは、モダリティの長いコンテキスト検索タスクのほぼ完全なリコールを実現し、長いドキュメントQA、長いビデオQA、長いコンテキストASRの最先端を改善し、幅広いベンチマークでGemini 1.0 Ultraの最先端のパフォーマンスにマッチするか、上回っている。 Gemini 1.5 Proの長文能力の限界を調べたところ、少なくとも10万個のトークン(Claude 2.1 (200k) や GPT-4 Turbo (128k) といった既存のモデルに対する世代的な飛躍)まで、次のトーケン予測とほぼ完璧な検索(>99%)の改善が継続されていることがわかった。 最後に、フロンティアにおける大きな言語モデルの驚くべき新機能を強調します。世界200人未満の話者を持つ言語であるKalamangの文法マニュアルを与えられたとき、同じコンテンツから学んだ人と同じレベルで、英語をKalamangに翻訳することを学びました。

In this report, we present the latest model of the Gemini family, Gemini 1.5 Pro, a highly compute-efficient multimodal mixture-of-experts model capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. Gemini 1.5 Pro achieves near-perfect recall on long-context retrieval tasks across modalities, improves the state-of-the-art in long-document QA, long-video QA and long-context ASR, and matches or surpasses Gemini 1.0 Ultra's state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5 Pro's long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 2.1 (200k) and GPT-4 Turbo (128k). Finally, we highlight surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.
公開日:2024-04-25
翻訳日:2024-04-26 20:48:34
# 多分解能特徴の統合による正確な空間遺伝子発現予測

Accurate Spatial Gene Expression Prediction by integrating Multi-resolution features ( http://arxiv.org/abs/2403.07592v2 )

ライセンス: Link先を確認
Youngmin Chung, Ji Hun Ha, Kyeong Chan Im, Joo Sang Lee, (参考訳) 空間転写学(ST)技術の最近の進歩は、組織コンテキスト内での詳細な遺伝子発現解析を促進する。 しかし、STの高コストと方法論的な制限はより堅牢な予測モデルを必要とする。 そこで本研究では,全スライド画像(WSI)から空間的遺伝子発現を予測するための新しいディープラーニングフレームワークであるTRIPLEXを紹介する。 TRIPLEXは多解像度の特徴を独自に利用し、個々の部位の細胞形態、これらの部位の周囲の局所的な状況、そしてグローバルな組織組織を捉えている。 これらの特徴を効果的な融合戦略を通じて統合することにより、TRIPLEXは正確な遺伝子発現予測を実現する。 10XゲノミクスのVisiumデータを用いた3つのパブリックSTデータセットを用いた総合的なベンチマーク研究により、TRIPLEXはMean Squared Error(MSE)、Mean Absolute Error(MAE)、Pearson correlation Coefficient(PCC)において現在の最先端モデルよりも優れていることを示した。 このモデルの予測は、がんの診断と治療の進歩におけるTRIPLEXのポテンシャルを裏付ける、基底真理遺伝子発現プロファイルや腫瘍アノテーションと密接に一致している。

Recent advancements in Spatial Transcriptomics (ST) technology have facilitated detailed gene expression analysis within tissue contexts. However, the high costs and methodological limitations of ST necessitate a more robust predictive model. In response, this paper introduces TRIPLEX, a novel deep learning framework designed to predict spatial gene expression from Whole Slide Images (WSIs). TRIPLEX uniquely harnesses multi-resolution features, capturing cellular morphology at individual spots, the local context around these spots, and the global tissue organization. By integrating these features through an effective fusion strategy, TRIPLEX achieves accurate gene expression prediction. Our comprehensive benchmark study, conducted on three public ST datasets and supplemented with Visium data from 10X Genomics, demonstrates that TRIPLEX outperforms current state-of-the-art models in Mean Squared Error (MSE), Mean Absolute Error (MAE), and Pearson Correlation Coefficient (PCC). The model's predictions align closely with ground truth gene expression profiles and tumor annotations, underscoring TRIPLEX's potential in advancing cancer diagnosis and treatment.
公開日:2024-04-25
翻訳日:2024-04-26 20:48:34
# CleanAgent: LLMベースのエージェントによるデータ標準化の自動化

CleanAgent: Automating Data Standardization with LLM-based Agents ( http://arxiv.org/abs/2403.08291v2 )

ライセンス: Link先を確認
Danrui Qi, Jiannan Wang, (参考訳) データ標準化は、データサイエンスのライフサイクルにおいて重要な部分です。 Pandasのようなツールは堅牢な機能を提供しますが、コードのさまざまな列タイプへのカスタマイズに必要な複雑さと手作業は、大きな課題を引き起こします。 ChatGPTのような大きな言語モデル(LLM)は、自然言語の理解とコード生成を通じてこのプロセスを自動化することを約束している。 これらの課題を解決するため、我々は列型を標準化するための宣言的で統一されたAPIを備えたPythonライブラリを提案し、簡潔なAPI呼び出しでLLMのコード生成を単純化する。 我々はまず,Dataprepライブラリのコンポーネントとして記述されたDataprep.Cleanを提案する。 次に、データ標準化プロセスを自動化するために、Dataprep.CleanとLLMベースのエージェントを統合するCleanAgentフレームワークを紹介します。 CleanAgentでは、データサイエンティストは要件を一度だけ提供し、ハンズフリーで自動標準化プロセスを可能にする。

Data standardization is a crucial part in data science life cycle. While tools like Pandas offer robust functionalities, their complexity and the manual effort required for customizing code to diverse column types pose significant challenges. Although large language models (LLMs) like ChatGPT have shown promise in automating this process through natural language understanding and code generation, it still demands expert-level programming knowledge and continuous interaction for prompt refinement. To solve these challenges, our key idea is to propose a Python library with declarative, unified APIs for standardizing column types, simplifying the code generation of LLM with concise API calls. We first propose Dataprep.Clean which is written as a component of the Dataprep Library, offers a significant reduction in complexity by enabling the standardization of specific column types with a single line of code. Then we introduce the CleanAgent framework integrating Dataprep.Clean and LLM-based agents to automate the data standardization process. With CleanAgent, data scientists need only provide their requirements once, allowing for a hands-free, automatic standardization process.
公開日:2024-04-25
翻訳日:2024-04-26 20:48:34
# GaussCtrl: テキスト駆動型3Dガウス分割編集

GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing ( http://arxiv.org/abs/2403.08733v3 )

ライセンス: Link先を確認
Jing Wu, Jia-Wang Bian, Xinghui Li, Guangrun Wang, Ian Reid, Philip Torr, Victor Adrian Prisacariu, (参考訳) 本稿では,3Dガウススティング(3DGS)によって再構成された3Dシーンをテキスト駆動で編集するGussCtrlを提案する。 まず3DGSを用いて画像の集合をレンダリングし、入力プロンプトに基づいて事前学習した2D拡散モデル(ControlNet)を用いて編集し、3Dモデルを最適化する。 これにより、以前のように3Dモデルを更新しながら、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集することが可能になる。 これにより、より高速な編集が可能となり、視覚的品質も向上する。 これは2つの条件によって達成される。 (a)自然に一貫した深度マップを活用することにより、多視点画像間の幾何的整合性を実現する深度条件付き編集。 (b)注目に基づく遅延コードアライメントは、画像の潜在表現間の自己および横断的な注目を通して、複数の参照ビューに編集を条件付けることにより、編集画像の外観を統一する。 実験により,従来の最先端手法よりも高速な編集と視覚効果が得られた。

We propose GaussCtrl, a text-driven method to edit a 3D scene reconstructed by the 3D Gaussian Splatting (3DGS). Our method first renders a collection of images by using the 3DGS and edits them by using a pre-trained 2D diffusion model (ControlNet) based on the input prompt, which is then used to optimise the 3D model. Our key contribution is multi-view consistent editing, which enables editing all images together instead of iteratively editing one image while updating the 3D model as in previous works. It leads to faster editing as well as higher visual quality. This is achieved by the two terms: (a) depth-conditioned editing that enforces geometric consistency across multi-view images by leveraging naturally consistent depth maps. (b) attention-based latent code alignment that unifies the appearance of edited images by conditioning their editing to several reference views through self and cross-view attention between images' latent representations. Experiments demonstrate that our method achieves faster editing and better visual results than previous state-of-the-art methods.
公開日:2024-04-25
翻訳日:2024-04-26 20:48:34
# 量子因果構造に対するデ・フィネッティの定理

A de Finetti theorem for quantum causal structures ( http://arxiv.org/abs/2403.10316v2 )

ライセンス: Link先を確認
Fabio Costa, Jonathan Barrett, Sally Shrapnel, (参考訳) 因果構造が'未知'である,という意味は何でしょうか? 因果関係に関する事前の知識のない実験の「繰り返し」についても話せるだろうか? そして、任意の、あるいは不確定な因果構造を持つプロセスの集合が独立かつ同一に分散されていると、どのような条件で言えるだろうか? 古典的確率、量子状態、量子チャネルに関する同様の質問は、「デ・フィネッティの定理(de Finetti theorems)」と呼ばれる、単純で修正が容易な条件(交換下での対称性)と非常に特殊な多部構造(同じ状態とチャネルの混合)を結びつけて、美しく答えられる。 ここでは、任意の因果構造を持つプロセスに結果を拡張し、不定因果順序や、雑音量子デバイスに適用可能なマルチ時間非マルコフ過程を含む。 この結果はまた、線形制約の大きい量子状態に対する新しいクラスであるデ・フィネッティの定理も意味しており、これは独立な興味を持つことができる。

What does it mean for a causal structure to be `unknown'? Can we even talk about `repetitions' of an experiment without prior knowledge of causal relations? And under what conditions can we say that a set of processes with arbitrary, possibly indefinite, causal structure are independent and identically distributed? Similar questions for classical probabilities, quantum states, and quantum channels are beautifully answered by so-called "de Finetti theorems", which connect a simple and easy-to-justify condition -- symmetry under exchange -- with a very particular multipartite structure: a mixture of identical states/channels. Here we extend the result to processes with arbitrary causal structure, including indefinite causal order and multi-time, non-Markovian processes applicable to noisy quantum devices. The result also implies a new class of de Finetti theorems for quantum states subject to a large class of linear constraints, which can be of independent interest.
公開日:2024-04-24
翻訳日:2024-04-26 20:48:34