このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240527となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# Ego-Foresight:RLの正規化としてのエージェント・ビジュモータ予測
Ego-Foresight: Agent Visuomotor Prediction as Regularization for RL ( http://arxiv.org/abs/2407.01570v1 ) ライセンス: Link先を確認 | Manuel S. Nunes, Atabak Dehban, Yiannis Demiris, José Santos-Victor, | (参考訳) 近年の深層強化学習(Reep Reinforcement Learning, RL)の進歩にもかかわらず、効果的な政策を学ぶのに必要なトレーニング経験の量は、シミュレーションと実環境の両方において主要な関心事の1つである。
この問題を解決するために、従来の研究は、エージェントと環境を別々にモデリングすることで、トレーニング効率を向上させることができるが、通常は監督エージェントマスクが必要であることを示した。
RLとは対照的に、人間はごく少数の臨床試験から新しいスキルを完遂することができ、ほとんどの場合、監督的なシグナルがなければ、人間の発達に関する神経科学的研究はRLにとって貴重なインスピレーションの源となる。
特に、人間が自己の内部モデルを開発すること、そして運動コマンドが即時感覚入力に持つ結果について述べる運動予測の考え方を探求する。
私たちの洞察では、エージェントの移動はエージェントと環境の二重性を学ぶための手がかりを提供する。
このアイデアをインスタンス化するために,動作と予測に基づくエージェントと環境の自己管理手法であるEgo-Foresightを提案する。
我々の主な発見は、エージェントのビジュモータ予測が、予測可能な境界内に留まることを奨励することによって、RLアルゴリズムの正規化を提供することである。
まず,実世界のロボットインタラクションにおいて,環境によらずエージェントの動きを視覚的に予測する能力について検討した。
次に,Ego-Foresight とモデルフリー RL アルゴリズムを統合し,ロボット操作のシミュレーションタスクを解くことにより,効率が23%,性能が8%向上した。
Despite the significant advancements in Deep Reinforcement Learning (RL) observed in the last decade, the amount of training experience necessary to learn effective policies remains one of the primary concerns both in simulated and real environments. Looking to solve this issue, previous work has shown that improved training efficiency can be achieved by separately modeling agent and environment, but usually requiring a supervisory agent mask. In contrast to RL, humans can perfect a new skill from a very small number of trials and in most cases do so without a supervisory signal, making neuroscientific studies of human development a valuable source of inspiration for RL. In particular, we explore the idea of motor prediction, which states that humans develop an internal model of themselves and of the consequences that their motor commands have on the immediate sensory inputs. Our insight is that the movement of the agent provides a cue that allows the duality between agent and environment to be learned. To instantiate this idea, we present Ego-Foresight, a self-supervised method for disentangling agent and environment based on motion and prediction. Our main finding is that visuomotor prediction of the agent provides regularization to the RL algorithm, by encouraging the actions to stay within predictable bounds. To test our approach, we first study the ability of our model to visually predict agent movement irrespective of the environment, in real-world robotic interactions. Then, we integrate Ego-Foresight with a model-free RL algorithm to solve simulated robotic manipulation tasks, showing an average improvement of 23% in efficiency and 8% in performance. | 翻訳日:2024-07-22 22:18:55 公開日:2024-05-27 |
# CHAMP: コンフォーマル化された3D人間多面体ポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポス
CHAMP: Conformalized 3D Human Multi-Hypothesis Pose Estimators ( http://arxiv.org/abs/2407.06141v1 ) ライセンス: Link先を確認 | Harry Zhang, Luca Carlone, | (参考訳) 拡散モデルを用いて条件分布を利用して2次元キーポイントからシーケンス・ツー・シーケンス・マルチハイプセシス3Dのポーズを学習する新しい手法であるCHAMPを紹介する。
1つの出力3Dポーズシーケンスを予測するために、複数の3Dポーズ仮説を生成し、集約する。
より優れた集計結果を得るために,学習過程に共形予測を効果的に組み込むことにより,これらの仮説を学習中に評価する手法を開発した。
このプロセスは、3次元ポーズ推定器でエンドツーエンドに訓練された微分可能な共形予測器をもたらす。
学習後、学習したスコアモデルを適合度スコアとして使用し、3次元ポーズ推定器と共形予測器を組み合わせることにより、下流のアグリゲーションの最も正確な仮説を選択する。
この結果から, 共形予測フィルタによる仮説に対する単純な平均アグリゲーションを用いることで, 競合する結果が得られることが示唆された。
より高度な集約手法と統合した場合,提案手法は適合予測の確率的保証を継承しつつ,様々なメトリクスやデータセットの最先端性能を実現する。
We introduce CHAMP, a novel method for learning sequence-to-sequence, multi-hypothesis 3D human poses from 2D keypoints by leveraging a conditional distribution with a diffusion model. To predict a single output 3D pose sequence, we generate and aggregate multiple 3D pose hypotheses. For better aggregation results, we develop a method to score these hypotheses during training, effectively integrating conformal prediction into the learning process. This process results in a differentiable conformal predictor that is trained end2end with the 3D pose estimator. Post-training, the learned scoring model is used as the conformity score, and the 3D pose estimator is combined with a conformal predictor to select the most accurate hypotheses for downstream aggregation. Our results indicate that using a simple mean aggregation on the conformal prediction-filtered hypotheses set yields competitive results. When integrated with more sophisticated aggregation techniques, our method achieves state-of-the-art performance across various metrics and datasets while inheriting the probabilistic guarantees of conformal prediction. | 翻訳日:2024-07-22 14:07:46 公開日:2024-05-27 |
# 「それ次第」:コンテキスト横断の臨床的有用性を改善するためにAIを設定する
"It depends": Configuring AI to Improve Clinical Usefulness Across Contexts ( http://arxiv.org/abs/2407.11978v1 ) ライセンス: Link先を確認 | Hubert D. Zając, Jorge M. N. Ribeiro, Silvia Ingala, Simona Gentile, Ruth Wanjohi, Samuel N. Gitau, Jonathan F. Carlsen, Michael B. Nielsen, Tariq O. Andersen, | (参考訳) 人工知能(AI)は、実験室で放射線学者と繰り返し一致または成績が良くなる。
しかし、放射能AIベースのシステムの現実的な実装は、臨床的な価値をほとんど、あるいは全く提供しない。
本稿では、異なる文脈における臨床的有用性のためにAIを設計する方法を考察する。
デンマークとケニアの7つの臨床施設の放射線技師13人と,機能AIベースのプロトタイプの3つのイテレーションに基づいて,19回のデザインセッションと設計介入を行った。
放射線学におけるAIの設計には10の社会技術的依存関係が不可欠であると認識された。
我々は、AI機能、AI医療焦点、AI決定しきい値、AI説明可能性という、意図された臨床コンテキストに設定する必要がある4つの技術的側面を概念化した。
本報告では, 医療知識, 診療タイプ, ユーザ専門レベル, 患者コンテキスト, およびこれらの技術領域の構成を条件としたユーザ状況に関する依存関係への対処方法について, 設計勧告を4回提示する。
Artificial Intelligence (AI) repeatedly match or outperform radiologists in lab experiments. However, real-world implementations of radiological AI-based systems are found to provide little to no clinical value. This paper explores how to design AI for clinical usefulness in different contexts. We conducted 19 design sessions and design interventions with 13 radiologists from 7 clinical sites in Denmark and Kenya, based on three iterations of a functional AI-based prototype. Ten sociotechnical dependencies were identified as crucial for the design of AI in radiology. We conceptualised four technical dimensions that must be configured to the intended clinical context of use: AI functionality, AI medical focus, AI decision threshold, and AI Explainability. We present four design recommendations on how to address dependencies pertaining to the medical knowledge, clinic type, user expertise level, patient context, and user situation that condition the configuration of these technical dimensions. | 翻訳日:2024-07-22 11:50:18 公開日:2024-05-27 |
# リニアカルマンフィルタを用いたマルチセンサフュージョンデータへのゲントルアプローチ
A Gentle Approach to Multi-Sensor Fusion Data Using Linear Kalman Filter ( http://arxiv.org/abs/2407.13062v1 ) ライセンス: Link先を確認 | Parsa Veysi, Mohsen Adeli, Nayerosadat Peirov Naziri, Ehsan Adeli, | (参考訳) この研究論文はLKF(Linear Kalman Filter)を掘り下げ、複数のセンサーからのデータをマージすることの重要性を強調した。
カルマンフィルタは離散データにおける線形フィルタリング問題に対する再帰的な解法で知られており、測定やプロセスのノイズを低減して動的システムの状態を推定するのに最適である。
我々の焦点は、LKFのシステム力学、測定ノイズ、初期条件に関する仮定による線形力学系である。
我々は、LKFの原理、仮定、メカニズムを徹底的に説明し、マルチセンサーデータ融合におけるその実践的応用を強調した。
この融合は多様な感覚入力を統合するために不可欠であり、それによって状態推定の精度と信頼性が向上する。
本稿では,LKFの実用性と汎用性を説明するために,LKFが動的システムの精度と安定性を著しく向上する2つの物理例を示す。
これらの例は理論的概念を実証するだけでなく、マルチセンサーデータ融合シナリオにおけるLKFの実装に関する実践的な洞察を提供する。
我々の議論は、ロボット工学、ナビゲーション、信号処理といった分野におけるLKFの重要な役割を浮き彫りにしている。
本論文は,LKFの理論基盤の詳細な探索と実例を組み合わせることで,マルチセンサデータ融合の包括的でアクセスしやすい理解を提供することを目的とする。
我々のゴールは、この重要な研究領域における知識の育成に寄与し、データ融合技術のさらなる革新と進歩を促進し、様々な科学・産業分野にまたがってその普及を促進することです。
This research paper delves into the Linear Kalman Filter (LKF), highlighting its importance in merging data from multiple sensors. The Kalman Filter is known for its recursive solution to the linear filtering problem in discrete data, making it ideal for estimating states in dynamic systems by reducing noise in measurements and processes. Our focus is on linear dynamic systems due to the LKF's assumptions about system dynamics, measurement noise, and initial conditions. We thoroughly explain the principles, assumptions, and mechanisms of the LKF, emphasizing its practical application in multi-sensor data fusion. This fusion is essential for integrating diverse sensory inputs, thereby improving the accuracy and reliability of state estimations. To illustrate the LKF's real-world applicability and versatility, the paper presents two physical examples where the LKF significantly enhances precision and stability in dynamic systems. These examples not only demonstrate the theoretical concepts but also provide practical insights into implementing the LKF in multi-sensor data fusion scenarios. Our discussion underscores the LKF's crucial role in fields such as robotics, navigation, and signal processing. By combining an in-depth exploration of the LKF's theoretical foundations with practical examples, this paper aims to provide a comprehensive and accessible understanding of multi-sensor data fusion. Our goal is to contribute to the growing body of knowledge in this important area of research, promoting further innovations and advancements in data fusion technologies and encouraging their wider adoption across various scientific and industrial fields. | 翻訳日:2024-07-22 08:18:00 公開日:2024-05-27 |
# 航空機用蒸気サイクルシステムにおけるCNNを用いた圧縮機質量流量推定装置
CNN-based Compressor Mass Flow Estimator in Industrial Aircraft Vapor Cycle System ( http://arxiv.org/abs/2406.17788v1 ) ライセンス: Link先を確認 | Justin Reverdi, Sixin Zhang, Saïd Aoues, Fabrice Gamboa, Serge Gratton, Thomas Pellegrini, | (参考訳) 蒸気サイクルシステムでは、質量流センサは異なる監視と制御の目的のために重要な役割を果たす。
しかし、物理センサーは不正確で重く、面倒で、高価な振動に敏感で、特に航空機に埋め込まれた時に問題となる。
他の標準センサーをベースとしたバーチャルセンサーのコンセプトは、良い選択肢だ。
この論文には2つの主な目的がある。
まず、コンボリュータルニューラルネットワークを用いたデータ駆動モデルを提案し、圧縮機の質量フローを推定する。
標準的なMSEメトリックとエンジニアパフォーマンスメトリクスの観点から、標準的なPolynomial Regressionモデル(サーモダイナミックマップ)を大幅に上回っていることを示す。
第2に,標準的なMSEメトリックは,VaporCycle Systemsの動的挙動の解析にリスクをもたらす可能性があるため,実データセットのエンジニアリングパフォーマンスメトリクスを計算するための半自動セグメンテーション手法を提案する。
In Vapor Cycle Systems, the mass flow sensor playsa key role for different monitoring and control purposes. However,physical sensors can be inaccurate, heavy, cumbersome, expensive orhighly sensitive to vibrations, which is especially problematic whenembedded into an aircraft. The conception of a virtual sensor, basedon other standard sensors, is a good alternative. This paper has twomain objectives. Firstly, a data-driven model using a ConvolutionalNeural Network is proposed to estimate the mass flow of thecompressor. We show that it significantly outperforms the standardPolynomial Regression model (thermodynamic maps), in terms of thestandard MSE metric and Engineer Performance metrics. Secondly,a semi-automatic segmentation method is proposed to compute theEngineer Performance metrics for real datasets, as the standard MSEmetric may pose risks in analyzing the dynamic behavior of VaporCycle Systems. | 翻訳日:2024-07-01 06:21:45 公開日:2024-05-27 |
# 言語大モデルと書籍知識に基づく言語デジタル病理視覚知識検索プラットフォーム
Renal digital pathology visual knowledge search platform based on language large model and book knowledge ( http://arxiv.org/abs/2406.18556v1 ) ライセンス: Link先を確認 | Xiaomin Lv, Chong Lai, Liya Ding, Maode Lai, Qingrong Sun, | (参考訳) 大型モデルは主流になったが、デジタル病理学の応用には探索が必要である。
一方,腎病理像は腎疾患の診断において重要な役割を担っている。
画像分割と対応テキスト記述のペア化を行い,60冊の腎病理書,大モデルに基づく全画像およびテキスト記述特徴のクラスタリング分析を行い,最終的に大モデルの意味的特徴に基づく検索システムを構築した。
以上の分析結果から,10,317個の腎病理画像とペア化されたテキスト記述の知識ベースを構築し,GPT2, gemma, LLma, Qwenを含む4大モデルの意味的特徴と,dinov2大モデルのイメージベース特徴能力を評価した。
さらに,テキスト記述に基づく病理画像検索のための意味検索システムを構築し,RppD (aidp.zjsru.edu.cn) と命名した。
Large models have become mainstream, yet their applications in digital pathology still require exploration. Meanwhile renal pathology images play an important role in the diagnosis of renal diseases. We conducted image segmentation and paired corresponding text descriptions based on 60 books for renal pathology, clustering analysis for all image and text description features based on large models, ultimately building a retrieval system based on the semantic features of large models. Based above analysis, we established a knowledge base of 10,317 renal pathology images and paired corresponding text descriptions, and then we evaluated the semantic feature capabilities of 4 large models, including GPT2, gemma, LLma and Qwen, and the image-based feature capabilities of dinov2 large model. Furthermore, we built a semantic retrieval system to retrieve pathological images based on text descriptions, and named RppD (aidp.zjsru.edu.cn). | 翻訳日:2024-07-01 06:00:20 公開日:2024-05-27 |
# 自律車いすによる道路封鎖決定の環境要因に対する実験的評価
Experimental Evaluation of Road-Crossing Decisions by Autonomous Wheelchairs against Environmental Factors ( http://arxiv.org/abs/2406.18557v1 ) ライセンス: Link先を確認 | Franca Corradini, Carlo Grigioni, Alessandro Antonucci, Jérôme Guzzi, Francesco Flammini, | (参考訳) 自動車椅子による安全な道路横断は、悪天候などいくつかの環境要因の影響を受け、人工視覚の精度に影響を及ぼす可能性がある。
これまで, 自動車椅子における道路横断決定を支援するために, マルチセンサ情報融合の実験的評価に取り組んできた。
本研究では, 追跡性能の微調整と, 霧, 雨, 暗闇などの屋外環境要因に対する実験的評価に焦点を当てた。
これらの要因が追従性能に悪影響を及ぼすことは比較的直感的であり,本研究の目的は,許容できない精度の条件を検出するために,参照シナリオにおけるそれらの効果を定量化するアプローチを提供することである。
これらの場合、警告を発し、システムを再設定することで、より精度の低いセンサーの評判を低減し、全体的な安全性を向上させることができる。
臨界状況は、主センサーや追加センサー、例えば光センサー、雨センサーなどによって検出することができる。
実験室で利用可能なデータセットを用いて、適切なソフトウェアフィルタを適用することで、ビデオトラッキングと、関連する運用シナリオにおける屋外環境要因に対するイベント検出の堅牢性を評価するために、この手法が適用可能であることを示す。
Safe road crossing by autonomous wheelchairs can be affected by several environmental factors such as adverse weather conditions influencing the accuracy of artificial vision. Previous studies have addressed experimental evaluation of multi-sensor information fusion to support road-crossing decisions in autonomous wheelchairs. In this study, we focus on the fine-tuning of tracking performance and on its experimental evaluation against outdoor environmental factors such as fog, rain, darkness, etc. It is rather intuitive that those factors can negatively affect the tracking performance; therefore our aim is to provide an approach to quantify their effects in the reference scenario, in order to detect conditions of unacceptable accuracy. In those cases, warnings can be issued and system can be possibly reconfigured to reduce the reputation of less accurate sensors, and thus improve overall safety. Critical situations can be detected by the main sensors or by additional sensors, e.g., light sensors, rain sensors, etc. Results have been achieved by using an available laboratory dataset and by applying appropriate software filters; they show that the approach can be adopted to evaluate video tracking and event detection robustness against outdoor environmental factors in relevant operational scenarios. | 翻訳日:2024-07-01 06:00:20 公開日:2024-05-27 |
# BAISeg: バウンダリが弱めに監視されたインスタンスセグメンテーションを支援する
BAISeg: Boundary Assisted Weakly Supervised Instance Segmentation ( http://arxiv.org/abs/2406.18558v1 ) ライセンス: Link先を確認 | Tengbo Wang, Yu Bai, | (参考訳) インスタンスレベルの監視なしにインスタンスレベルのマスクを抽出する方法は、弱教師付きインスタンスセグメンテーション(WSIS)の主な課題である。
人気のあるWSIS手法は、画素間関係の学習を通じて変位場(DF)を推定し、インスタンスを識別するためのクラスタリングを実行する。
しかし、結果として得られるセントロイドは本質的に不安定であり、異なるクラスタリングアルゴリズムで大きく異なる。
本稿では,画素レベルのアノテーションを用いたインスタンスセグメンテーションを実現するWSISの新しいパラダイムである,境界支援インスタンスセグメンテーション(BAISeg)を提案する。
BAISegは、インスタンス認識境界検出(IABD)ブランチとセマンティックセグメンテーションブランチで構成される。
IABDブランチは、インスタンスセントロイドではなく、クラスに依存しないインスタンス境界を予測することでインスタンスを識別する。
特に、IABDブランチにおけるカスケード核融合モジュール(CFM)とディープ・ミューチュアル・アテンション(DMA)を提案し、リッチなコンテキスト情報を取得し、弱い応答でインスタンス境界を捉えた。
トレーニング期間中, IABD枝の識別能力を高めるためにPixel-to-Pixel Contrastを用いた。
これにより、インスタンス境界の連続性と閉性はさらに強化される。
PASCAL VOC 2012 と MS COCO による大規模な実験により,本手法の有効性が示された。
コードはhttps://github.com/wsis-seg/BAISegで入手できる。
How to extract instance-level masks without instance-level supervision is the main challenge of weakly supervised instance segmentation (WSIS). Popular WSIS methods estimate a displacement field (DF) via learning inter-pixel relations and perform clustering to identify instances. However, the resulting instance centroids are inherently unstable and vary significantly across different clustering algorithms. In this paper, we propose Boundary-Assisted Instance Segmentation (BAISeg), which is a novel paradigm for WSIS that realizes instance segmentation with pixel-level annotations. BAISeg comprises an instance-aware boundary detection (IABD) branch and a semantic segmentation branch. The IABD branch identifies instances by predicting class-agnostic instance boundaries rather than instance centroids, therefore, it is different from previous DF-based approaches. In particular, we proposed the Cascade Fusion Module (CFM) and the Deep Mutual Attention (DMA) in the IABD branch to obtain rich contextual information and capture instance boundaries with weak responses. During the training phase, we employed Pixel-to-Pixel Contrast to enhance the discriminative capacity of the IABD branch. This further strengthens the continuity and closedness of the instance boundaries. Extensive experiments on PASCAL VOC 2012 and MS COCO demonstrate the effectiveness of our approach, and we achieve considerable performance with only pixel-level annotations. The code will be available at https://github.com/wsis-seg/BAISeg. | 翻訳日:2024-07-01 06:00:20 公開日:2024-05-27 |
# Revision Matters: Revision Editsでガイドされたジェネレーティブデザイン
Revision Matters: Generative Design Guided by Revision Edits ( http://arxiv.org/abs/2406.18559v1 ) ライセンス: Link先を確認 | Tao Li, Chin-Yi Cheng, Amber Xie, Gang Li, Yang Li, | (参考訳) ユーザインターフェースやグラフィカルレイアウトといったレイアウト設計は、基本的に反復的なリビジョンプロセスである。
設計を何度も修正することで、デザイナは理想的なレイアウトに収束する。
本稿では,人間設計者によるリビジョン編集がマルチモーダル生成モデルにどのような効果をもたらすかを検討する。
そのために、人間のデザイナーがいかにレイアウト生成を反復的に編集し改善するかを言語目標で追跡する専門家データセットをキュレートする。
このようなデータに基づいて、大規模なマルチモーダルモデルであるGeminiのマルチモーダルバックボーン上で、様々な教師付き微調整タスクの設定を探索する。
本研究は, 反復的なレイアウト改善において, 人間のリビジョンが重要な役割を担っていることを示す。
騒々しいが、専門家による改訂によって、驚くほど強いデザインのFIDスコアが10まで上昇し、人間のパフォーマンスに近い(~6)。
対照的に、モデル自身の判断に完全に依存する自己修正は、反復的な改善を妨げるエコーチャンバーを導き、時には生成的劣化を引き起こす。
幸いなことに、最終世代において、早期に人間の指導を提供することが重要な役割を担っていることがわかった。
このようなヒューマン・イン・ザ・ループのシナリオでは、事前訓練された大規模マルチモーダルモデルに基づく反復的デザイン修正の道を開く。
Layout design, such as user interface or graphical layout in general, is fundamentally an iterative revision process. Through revising a design repeatedly, the designer converges on an ideal layout. In this paper, we investigate how revision edits from human designer can benefit a multimodal generative model. To do so, we curate an expert dataset that traces how human designers iteratively edit and improve a layout generation with a prompted language goal. Based on such data, we explore various supervised fine-tuning task setups on top of a Gemini multimodal backbone, a large multimodal model. Our results show that human revision plays a critical role in iterative layout refinement. While being noisy, expert revision edits lead our model to a surprisingly strong design FID score ~10 which is close to human performance (~6). In contrast, self-revisions that fully rely on model's own judgement, lead to an echo chamber that prevents iterative improvement, and sometimes leads to generative degradation. Fortunately, we found that providing human guidance plays at early stage plays a critical role in final generation. In such human-in-the-loop scenario, our work paves the way for iterative design revision based on pre-trained large multimodal models. | 翻訳日:2024-07-01 06:00:20 公開日:2024-05-27 |
# 多分解能低ランクテンソル分解
A Multi-resolution Low-rank Tensor Decomposition ( http://arxiv.org/abs/2406.18560v1 ) ライセンス: Link先を確認 | Sergio Rozada, Antonio G. Marques, | (参考訳) 高階テンソルの(効率的で同相な)分解は、様々な分野の多くの応用において基本的な問題である。
タッカーとPARAFACの分解が最も顕著な論文である。
後者に着想を得たこの研究では、階層的な方法でテンソルを記述する(近似)ために、多分解能の低ランクテンソル分解を提案する。
分解の中心的な考え方は、テンソルを低次元テンソルに再キャストし、異なる解像度で構造を利用することである。
提案手法をまず説明し、最小二乗アルゴリズムを交互に検討し、実用的妥当性を示す予備シミュレーションを提案する。
The (efficient and parsimonious) decomposition of higher-order tensors is a fundamental problem with numerous applications in a variety of fields. Several methods have been proposed in the literature to that end, with the Tucker and PARAFAC decompositions being the most prominent ones. Inspired by the latter, in this work we propose a multi-resolution low-rank tensor decomposition to describe (approximate) a tensor in a hierarchical fashion. The central idea of the decomposition is to recast the tensor into \emph{multiple} lower-dimensional tensors to exploit the structure at different levels of resolution. The method is first explained, an alternating least squares algorithm is discussed, and preliminary simulations illustrating the potential practical relevance are provided. | 翻訳日:2024-07-01 06:00:20 公開日:2024-05-27 |
# 多くの弦問題から遠ざかる経路リリンクを用いたGRASPに基づくメメティックアルゴリズム
A GRASP-based memetic algorithm with path relinking for the far from most string problem ( http://arxiv.org/abs/2406.07567v1 ) ライセンス: Link先を確認 | José E. Gallardo, Carlos Cotta, | (参考訳) FAR FROM MOST STRING PROBLEM (FFMSP) は文字列選択問題である。
目的は、ある入力集合内の他の文字列との距離が、できるだけ多くの文字列に対して与えられた閾値を超える文字列を見つけることである。
この問題は計算生物学のいくつかの課題と関連しており、その解決は非常に難しいことが示されている。
FFMSPに対処するメメティックアルゴリズム(MA)を提案する。
このMAは、この問題に対するヒューリスティックな目的関数を利用し、グレディランダム化適応探索法(GRASP)による人口の初期化を特徴とし、経路リリンクによるメタヒューリスティックで集中的な再結合と、登山による局所的な改善を特徴としている。
ランダムおよび生物学的起源の両方の問題事例を用いた広範囲な実験評価を行い、パラメータ感度を評価し、他の最先端技術との比較を行う。
MAは、統計的に有意なこれらの後者の手法よりも優れた性能を示すことが示されている。
The FAR FROM MOST STRING PROBLEM (FFMSP) is a string selection problem. The objective is to find a string whose distance to other strings in a certain input set is above a given threshold for as many of those strings as possible. This problem has links with some tasks in computational biology and its resolution has been shown to be very hard. We propose a memetic algorithm (MA) to tackle the FFMSP. This MA exploits a heuristic objective function for the problem and features initialization of the population via a Greedy Randomized Adaptive Search Procedure (GRASP) metaheuristic, intensive recombination via path relinking and local improvement via hill climbing. An extensive empirical evaluation using problem instances of both random and biological origin is done to assess parameter sensitivity and draw performance comparisons with other state-of-the-art techniques. The MA is shown to perform better than these latter techniques with statistical significance. | 翻訳日:2024-06-23 13:45:35 公開日:2024-05-27 |
# 低可視環境における強化学習に基づくエスケープルート生成
Reinforcement Learning Based Escape Route Generation in Low Visibility Environments ( http://arxiv.org/abs/2406.07568v1 ) ライセンス: Link先を確認 | Hari Srikanth, | (参考訳) 構造火災は、全国の火災関連の死者の大半を負っている。
そこで本稿では, 避難者の早期避難を支援するため, 消防隊の探索経路と市民の避難経路を, 環境計測に基づいてリアルタイムで決定するシステムを提案する。
ソナーおよび煙濃度データから得られた信頼範囲で評価・検証したLiDARマッピングシステムを用いて,低視認性マッピングのための提案手法を検証した。
これらの独立点雲は異なるマップを作成するために使われ、RANSACベースのアライメント手法を使用してマージされ、可視グラフに単純化される。
次に、温度と湿度のデータを使用して、各ノードに危険スコアをラベル付けし、環境テンソルを作成する。
線形関数近似に基づく自然政策グラディエントRL法は, 強靭性や速度に関して, より複雑な競合相手よりも優れていることを示す上で, 環境テンソルを処理し, 安全な救助ルートと避難経路を作成する2つのシステム(救世主と避難所)を概説する。
Structure fires are responsible for the majority of fire-related deaths nationwide. In order to assist with the rapid evacuation of trapped people, this paper proposes the use of a system that determines optimal search paths for firefighters and exit paths for civilians in real time based on environmental measurements. Through the use of a LiDAR mapping system evaluated and verified by a trust range derived from sonar and smoke concentration data, a proposed solution to low visibility mapping is tested. These independent point clouds are then used to create distinct maps, which are merged through the use of a RANSAC based alignment methodology and simplified into a visibility graph. Temperature and humidity data are then used to label each node with a danger score, creating an environment tensor. After demonstrating how a Linear Function Approximation based Natural Policy Gradient RL methodology outperforms more complex competitors with respect to robustness and speed, this paper outlines two systems (savior and refugee) that process the environment tensor to create safe rescue and escape routes, respectively. | 翻訳日:2024-06-23 13:45:35 公開日:2024-05-27 |
# EMERGE:マルチモーダルEHR予測モデルの改善のためのRAGの統合
EMERGE: Integrating RAG for Improved Multimodal EHR Predictive Modeling ( http://arxiv.org/abs/2406.00036v1 ) ライセンス: Link先を確認 | Yinghao Zhu, Changyu Ren, Zixiang Wang, Xiaochen Zheng, Shiyun Xie, Junlan Feng, Xi Zhu, Zhoujun Li, Liantao Ma, Chengwei Pan, | (参考訳) マルチモーダル電子健康記録(EHR)データの統合は、特に先進的な臨床予測能力を有する。
しかし, 臨床手帳と多変量時系列EMHデータを用いた現在のモデルでは, 正確な臨床作業に必要な医療的コンテキストが欠如していることが多い。
知識グラフ(KG)を用いた従来手法は主に構造化知識抽出に焦点を当てていた。
そこで本稿では,マルチモーダル EHR 予測モデリングの強化を目的とした EMERGE (Retrieval-Augmented Generation (RAG) 駆動フレームワークを提案する。
本稿では,LLM(Large Language Models)によって時系列データと臨床ノートからエンティティを抽出し,プロのPrimeKGと整合性を確保する。
三重関係以外にも、よりリッチなセマンティクスを提供するエンティティの定義や記述が含まれています。
抽出した知識は、患者の健康状態のタスク関連サマリーを生成するために使用される。
これらの要約は、アダプティブマルチモーダルフュージョンネットワークを用いた他のモダリティと融合する。
MIMIC-IIIおよびMIMIC-IVデータセットの総合的な実験は、ベースラインモデルと比較してEMERGEフレームワークの優れた性能を示す。
包括的アブレーション研究と分析は、各設計モジュールの有効性と、データ疎結合に対するフレームワークの堅牢性を示している。
EMERGEは、医療におけるマルチモーダル EHR データの利用を著しく促進し、情報的臨床予測に不可欠なニュアンスド医療コンテキストとのギャップを埋める。
The integration of multimodal Electronic Health Records (EHR) data has notably advanced clinical predictive capabilities. However, current models that utilize clinical notes and multivariate time-series EHR data often lack the necessary medical context for precise clinical tasks. Previous methods using knowledge graphs (KGs) primarily focus on structured knowledge extraction. To address this, we propose EMERGE, a Retrieval-Augmented Generation (RAG) driven framework aimed at enhancing multimodal EHR predictive modeling. Our approach extracts entities from both time-series data and clinical notes by prompting Large Language Models (LLMs) and aligns them with professional PrimeKG to ensure consistency. Beyond triplet relationships, we include entities' definitions and descriptions to provide richer semantics. The extracted knowledge is then used to generate task-relevant summaries of patients' health statuses. These summaries are fused with other modalities utilizing an adaptive multimodal fusion network with cross-attention. Extensive experiments on the MIMIC-III and MIMIC-IV datasets for in-hospital mortality and 30-day readmission tasks demonstrate the superior performance of the EMERGE framework compared to baseline models. Comprehensive ablation studies and analyses underscore the efficacy of each designed module and the framework's robustness to data sparsity. EMERGE significantly enhances the use of multimodal EHR data in healthcare, bridging the gap with nuanced medical contexts crucial for informed clinical predictions. | 翻訳日:2024-06-09 16:09:32 公開日:2024-05-27 |
# プログラミング質問応答のためのマルチパースペクティブなユーザの選好ランク付けに基づくフィードバックによるLCMの調整
Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering ( http://arxiv.org/abs/2406.00037v1 ) ライセンス: Link先を確認 | Hongyu Yang, Liyang He, Min Hou, Shuanghong Shen, Rui Li, Jiahui Hou, Jianhui Ma, Junda Zhao, | (参考訳) Code Community Question Answering (CCQA)は、プログラミング関連の問題に取り組み、ソフトウェア工学と学術研究の生産性を高める。
RLHF(Reinforcement Learning from Human Feedback)の最近の進歩は、Large Language Models(LLM)の微調整プロセスを変え、人間の振る舞いを忠実に模倣する応答を生み出している。
実用的なCCQA応用のためのRLHFを用いたLCMの活用が,将来性のある研究分野として浮上している。
通常のコード問合せタスクとは異なり、CCQAは複数の可能な回答を伴い、応答ごとにユーザの好みが変わる。
さらに、コードコミュニティは、しばしば新しいAPIを好む。
これらの課題は、LCMがCCQAタスクにおけるユーザの多様な好みに対応する応答を生成するのを防ぐ。
これらの問題に対処するために,マルチパースペクティブなユーザ嗜好ランク付けに基づくプログラミング質問回答(ALMupQA)に基づく新しいフレームワークであるAligning LLMを提案する。
提案手法は,コードコミュニティからの回答の特徴に基づいて,多様なユーザの嗜好を合成するMPRA(Multi-perspective Preference Ranking Alignment)から始める。
次に、質問銀行から同様の質問に対する回答を検索することで、古い回答の問題を軽減するために、Retrieval-augmented In-context Learning (RIL)モジュールを導入する。
高品質でマルチ回答可能なCCQAデータセットが限られているため、実際のコードコミュニティからStaCCQAという名前のデータセットも開発しました。
ALMupQAフレームワークの有効性を、精度とユーザ嗜好の観点から実証した。
ベースモデルと比較すると、ALMupQAはBLEUが11%改善し、BERTScoreとCodeBERTScoreはそれぞれ20%と17.5%増加した。
Code Community Question Answering (CCQA) seeks to tackle programming-related issues, thereby boosting productivity in both software engineering and academic research. Recent advancements in Reinforcement Learning from Human Feedback (RLHF) have transformed the fine-tuning process of Large Language Models (LLMs) to produce responses that closely mimic human behavior. Leveraging LLMs with RLHF for practical CCQA applications has thus emerged as a promising area of study. Unlike standard code question-answering tasks, CCQA involves multiple possible answers, with varying user preferences for each response. Additionally, code communities often show a preference for new APIs. These challenges prevent LLMs from generating responses that cater to the diverse preferences of users in CCQA tasks. To address these issues, we propose a novel framework called Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering (ALMupQA) to create user-focused responses. Our approach starts with Multi-perspective Preference Ranking Alignment (MPRA), which synthesizes varied user preferences based on the characteristics of answers from code communities. We then introduce a Retrieval-augmented In-context Learning (RIL) module to mitigate the problem of outdated answers by retrieving responses to similar questions from a question bank. Due to the limited availability of high-quality, multi-answer CCQA datasets, we also developed a dataset named StaCCQA from real code communities. Extensive experiments demonstrated the effectiveness of the ALMupQA framework in terms of accuracy and user preference. Compared to the base model, ALMupQA showed nearly an 11% improvement in BLEU, with increases of 20% and 17.5% in BERTScore and CodeBERTScore, respectively. | 翻訳日:2024-06-09 16:09:32 公開日:2024-05-27 |
# ViSpeR:多言語音声認識
ViSpeR: Multilingual Audio-Visual Speech Recognition ( http://arxiv.org/abs/2406.00038v1 ) ライセンス: Link先を確認 | Sanath Narayan, Yasser Abdelaziz Dahou Djilali, Ankit Singh, Eustache Le Bihan, Hakim Hacid, | (参考訳) 本研究は,中国語,スペイン語,英語,アラビア語,フランス語の5言語を対象に,音声・視覚音声認識(AVSR)に関する広範かつ詳細な研究を行った。
我々は、英語以外の言語毎に大規模なデータセットを収集し、教師付き学習モデルの訓練に従事した。
我々のモデルであるViSpeRは多言語で訓練されており、結果として各言語で新たに確立されたベンチマーク上での競争性能が向上する。
データセットとモデルがコミュニティにリリースされ、さらなる研究作業のトリガーと供給、さらに重要な研究分野であるオーディオ・ビジュアル・音声認識の探求の基盤となることを目的としている。
コードは \href{https://github.com/YasserdahouML/visper}{https://github.com/YasserdahouML/visper} で公開されている。
This work presents an extensive and detailed study on Audio-Visual Speech Recognition (AVSR) for five widely spoken languages: Chinese, Spanish, English, Arabic, and French. We have collected large-scale datasets for each language except for English, and have engaged in the training of supervised learning models. Our model, ViSpeR, is trained in a multi-lingual setting, resulting in competitive performance on newly established benchmarks for each language. The datasets and models are released to the community with an aim to serve as a foundation for triggering and feeding further research work and exploration on Audio-Visual Speech Recognition, an increasingly important area of research. Code available at \href{https://github.com/YasserdahouML/visper}{https://github.com/YasserdahouML/visper}. | 翻訳日:2024-06-09 16:09:32 公開日:2024-05-27 |
# ベンガル文法の誤りを説明するための事前学習型大規模言語モデルについて
How Ready Are Generative Pre-trained Large Language Models for Explaining Bengali Grammatical Errors? ( http://arxiv.org/abs/2406.00039v1 ) ライセンス: Link先を確認 | Subhankar Maity, Aniket Deroy, Sudeshna Sarkar, | (参考訳) 高度な生成人工知能(AI)を利用した文法的誤り訂正(GEC)ツール。
しかし、それらはしばしば、学習言語に不可欠な自然言語の説明を提供し、文法規則のより深い理解を得ることに不足する。
Bengaliのような低リソース言語では、これらのツールの探索は限られている。
このような言語では、文法的誤り説明(GEE)システムは正しい文だけでなく、誤りの説明も提供すべきである。
この包括的なアプローチは、言語学習者が熟練度を求めるのに役立つ。
我々の研究は、ベンガル語話者の様々な習熟度と言語的複雑さから得られた実世界のマルチドメインデータセットを紹介した。
このデータセットは、GEEシステムの評価ベンチマークとして機能し、コンテキスト情報を使用して意味のある説明と高品質な修正を生成することができる。
GPT-4 Turbo, GPT-3.5 Turbo, Text-davinci-003, Text-babbage-001, Text-curie-001, Text-ada-001, Llama-2-7b, Llama-2-13b, Llama-2-70b など,多種多様な事前学習型大言語モデル (LLMs) の評価を行った。
本研究は,ベンガルGEEにおける現在最先端生産型LLMの自動展開の限界を明らかにするものである。
本研究は,人間の介入を回避し,文法的誤りに対処し,フィードバックの質を向上させるために手動チェックを導入することを提案する。
このアプローチは、ベンガルのGECツールを洗練するためのより適切な戦略を示し、言語学習の教育的側面を強調している。
Grammatical error correction (GEC) tools, powered by advanced generative artificial intelligence (AI), competently correct linguistic inaccuracies in user input. However, they often fall short in providing essential natural language explanations, which are crucial for learning languages and gaining a deeper understanding of the grammatical rules. There is limited exploration of these tools in low-resource languages such as Bengali. In such languages, grammatical error explanation (GEE) systems should not only correct sentences but also provide explanations for errors. This comprehensive approach can help language learners in their quest for proficiency. Our work introduces a real-world, multi-domain dataset sourced from Bengali speakers of varying proficiency levels and linguistic complexities. This dataset serves as an evaluation benchmark for GEE systems, allowing them to use context information to generate meaningful explanations and high-quality corrections. Various generative pre-trained large language models (LLMs), including GPT-4 Turbo, GPT-3.5 Turbo, Text-davinci-003, Text-babbage-001, Text-curie-001, Text-ada-001, Llama-2-7b, Llama-2-13b, and Llama-2-70b, are assessed against human experts for performance comparison. Our research underscores the limitations in the automatic deployment of current state-of-the-art generative pre-trained LLMs for Bengali GEE. Advocating for human intervention, our findings propose incorporating manual checks to address grammatical errors and improve feedback quality. This approach presents a more suitable strategy to refine the GEC tools in Bengali, emphasizing the educational aspect of language learning. | 翻訳日:2024-06-09 15:59:42 公開日:2024-05-27 |
# 司法手続における主題の暴露:インドとイギリスにおける法的文書のトピックモデリングを用いたクロスカウンタリー研究
Unveiling Themes in Judicial Proceedings: A Cross-Country Study Using Topic Modeling on Legal Documents from India and the UK ( http://arxiv.org/abs/2406.00040v1 ) ライセンス: Link先を確認 | Krish Didwania, Dr. Durga Toshniwal, Amit Agarwal, | (参考訳) 法律文書は法律実務に欠かせないものであり、前回の事件や雇用法に関する主要な情報源として機能している。
今日の世界では、司法事件が増えているため、過去の事件を体系的にサブグループに分類することが重要であり、今後の事件や慣行に利用できるようになる。
この取り組みの主な焦点は、インドとイギリスからの長い法的文書の収集のために、レイト・ディリクレ・アロケーション、非負行列因子化、ベルトトピックといったトピックモデリングアルゴリズムを使用した事例を注釈することであった。
このステップは、2つの国間で生成されたラベルを区別するために重要であり、各管轄区域で発生するケースの種類の違いを強調している。
さらに、インドからの事例の時系列分析を行い、長年の有力トピックの進化を解明した。
Legal documents are indispensable in every country for legal practices and serve as the primary source of information regarding previous cases and employed statutes. In today's world, with an increasing number of judicial cases, it is crucial to systematically categorize past cases into subgroups, which can then be utilized for upcoming cases and practices. Our primary focus in this endeavor was to annotate cases using topic modeling algorithms such as Latent Dirichlet Allocation, Non-Negative Matrix Factorization, and Bertopic for a collection of lengthy legal documents from India and the UK. This step is crucial for distinguishing the generated labels between the two countries, highlighting the differences in the types of cases that arise in each jurisdiction. Furthermore, an analysis of the timeline of cases from India was conducted to discern the evolution of dominant topics over the years. | 翻訳日:2024-06-09 15:59:42 公開日:2024-05-27 |
# QUB-Cirdan at "Discharge Me!
QUB-Cirdan at "Discharge Me!": Zero shot discharge letter generation by open-source LLM ( http://arxiv.org/abs/2406.00041v1 ) ライセンス: Link先を確認 | Rui Guo, Greg Farnan, Niall McLaughlin, Barry Devereux, | (参考訳) BioNLP ACL'24 Shared Task on Streamlining Discharge Documentation は、患者の退院手紙のクリティカルセクションの自動作成によって、診療者の管理負担を軽減することを目的としている。
本稿では,Llama3 8B量子化モデルを用いて「Brief Hospital Course」と「Discharge Instructions」のセクションを生成する手法を提案する。
我々は、簡潔で文脈的に正確な要約を生成するために、ゼロショット法とRAG(Retrieval-Augmented Generation)を併用する。
コントリビューションには、信頼性と一貫性を確保するためのテンプレートベースのキュレートアプローチの開発や、単語カウント予測のためのRAGの統合が含まれている。
また、競争の経路に関する洞察を提供するために、いくつかの失敗した実験についても記述する。
その結果,提案手法の有効性と有効性を示し,複数の評価指標で高いスコアを得ることができた。
The BioNLP ACL'24 Shared Task on Streamlining Discharge Documentation aims to reduce the administrative burden on clinicians by automating the creation of critical sections of patient discharge letters. This paper presents our approach using the Llama3 8B quantized model to generate the "Brief Hospital Course" and "Discharge Instructions" sections. We employ a zero-shot method combined with Retrieval-Augmented Generation (RAG) to produce concise, contextually accurate summaries. Our contributions include the development of a curated template-based approach to ensure reliability and consistency, as well as the integration of RAG for word count prediction. We also describe several unsuccessful experiments to provide insights into our pathway for the competition. Our results demonstrate the effectiveness and efficiency of our approach, achieving high scores across multiple evaluation metrics. | 翻訳日:2024-06-09 15:59:42 公開日:2024-05-27 |
# 格子振動によるアンダーソン局在の上昇と低下--時間依存機械学習アプローチ
Rise and Fall of Anderson Localization By Lattice Vibrations: A Time-Dependent Machine Learning Approach ( http://arxiv.org/abs/2406.00042v1 ) ライセンス: Link先を確認 | Yoel Zimmermann, Joonas Keski-Rahkonen, Anton M. Graf, Eric J. Heller, | (参考訳) 電子と結晶格子の間の複雑な関係は凝縮物質のリンチピンであり、伝統的に最低階格子-電子結合を含むFr\"ohlichモデルによって記述されている。
近年, 格子振動の波動特性を強調した量子音響学が, 摂動理論のような従来の道具では利用できない電子-格子相互作用の領域の探索を可能にしている。
この文脈では、ここでの議題は2つです。
まず、電子の微妙な相互作用と動的格子の風景の中で様々な相互作用様式を分類するための機械学習手法の適用について述べる。
第二に、機械学習アプローチによって同定された電子力学の負の領域に光を当て、それを過渡的な局所化とみなし、そこで強い格子振動が、後に格子の進化によって解放される電子ウェーブレットのための一時的なアンダーソン刑務所に繋がる。
全体として、我々の研究は、過渡的な局在化のようなFr\ohlichモデル内の力学スペクトルを照らし、これは奇妙な金属を取り巻く謎に寄与する重要な要因であると考えられている。
さらに、これは機械学習における時間依存的な視点を利用して、電子格子特性を調整した材料を設計する方法である。
The intricate relationship between electrons and the crystal lattice is a linchpin in condensed matter, traditionally described by the Fr\"ohlich model encompassing the lowest-order lattice-electron coupling. Recently developed quantum acoustics emphasizing the wave nature of lattice vibrations has enabled the exploration of previously uncharted territories of electron-lattice interaction, not accessible with conventional tools such as perturbation theory. In this context, our agenda here is two-fold. First, we showcase the application of machine learning methods to categorize various interaction regimes within the subtle interplay of electrons and the dynamical lattice landscape. Second, we shed light on a nebulous region of electron dynamics identified by the machine learning approach and then attribute it to transient localization, where strong lattice vibrations result in a momentary Anderson prison for electronic wavepackets, later released by the evolution of the lattice. Overall, our research illuminates the spectrum of dynamics within the Fr\"ohlich model, such as transient localization, which has been suggested as a pivotal factor contributing to the mysteries surrounding strange metals. Furthermore, this paves the way for utilizing time-dependent perspectives in machine learning for designing materials with tailored electron-lattice properties. | 翻訳日:2024-06-09 15:59:42 公開日:2024-05-27 |
# テキスト埋め込みの最近の進歩:MTEBベンチマークにおけるトップパフォーマンス手法の概観
Recent advances in text embedding: A Comprehensive Review of Top-Performing Methods on the MTEB Benchmark ( http://arxiv.org/abs/2406.01607v1 ) ライセンス: Link先を確認 | Hongliu Cao, | (参考訳) テキストの埋め込み手法は、様々な自然言語処理タスクにおいて重要な役割を担っているため、産業分野と学術分野の両方で人気が高まっている。
ユニバーサルテキスト埋め込みの重要性はさらに強調され、Retrieval-Augmented Systems (RAGs) のようなLarge Language Models (LLMs) アプリケーションが台頭した。
以前のモデルは汎用化を試みてきたが、タスクやドメインをまたいだ一般化に苦慮することが多い。
しかし、近年の学習データ量、品質、多様性の進歩、LLMからの合成データ生成、およびLLMをバックボーンとして使用することは、普遍的なテキスト埋め込みの追求に大きな改善をもたらす。
本稿では, MTEB(Massive Text Embedding Benchmark)上でのテキスト埋め込みの最高性能に着目した, ユニバーサルテキスト埋め込みモデルの最近の進歩について概説する。
詳細な比較と分析を通じて、この分野における重要な貢献と限界を強調し、将来的な研究の方向性を示唆する。
Text embedding methods have become increasingly popular in both industrial and academic fields due to their critical role in a variety of natural language processing tasks. The significance of universal text embeddings has been further highlighted with the rise of Large Language Models (LLMs) applications such as Retrieval-Augmented Systems (RAGs). While previous models have attempted to be general-purpose, they often struggle to generalize across tasks and domains. However, recent advancements in training data quantity, quality and diversity; synthetic data generation from LLMs as well as using LLMs as backbones encourage great improvements in pursuing universal text embeddings. In this paper, we provide an overview of the recent advances in universal text embedding models with a focus on the top performing text embeddings on Massive Text Embedding Benchmark (MTEB). Through detailed comparison and analysis, we highlight the key contributions and limitations in this area, and propose potentially inspiring future research directions. | 翻訳日:2024-06-09 15:49:54 公開日:2024-05-27 |
# 電子商取引プラットフォームにおける知覚的暗黒パターンの検出
Detecting Deceptive Dark Patterns in E-commerce Platforms ( http://arxiv.org/abs/2406.01608v1 ) ライセンス: Link先を確認 | Arya Ramteke, Sankalp Tembhurne, Gunesh Sonawane, Ratnmala N. Bhimanpallewar, | (参考訳) ダークパターン(ダークパターン)は、電子商取引サイトがウェブサイトに利益をもたらす方法でユーザーの振舞いを操作するために使う偽のユーザーインターフェースである。
本研究では,このような暗黒パターンの検出について検討する。
既存のソリューションとしては、コンピュータビジョンと自然言語処理を使用するUIGuardや、検出可能性に基づいてダークパターンを分類するアプローチ、あるいはデータセットに基づいてトレーニングされた機械学習モデルを使用するアプローチなどがある。
我々は,Webスクレイピング手法と細調整されたBERT言語モデルを組み合わせることを提案する。
このアプローチはテキストコンテンツをスクラップし、BERTモデルに入力して検出し、BERTの双方向分析と生成能力を活用する。
この研究は、暗黒パターンを自動的に検出し、説明する研究に基づいており、認識を高め、消費者を保護することを目的としている。
Dark patterns are deceptive user interfaces employed by e-commerce websites to manipulate user's behavior in a way that benefits the website, often unethically. This study investigates the detection of such dark patterns. Existing solutions include UIGuard, which uses computer vision and natural language processing, and approaches that categorize dark patterns based on detectability or utilize machine learning models trained on datasets. We propose combining web scraping techniques with fine-tuned BERT language models and generative capabilities to identify dark patterns, including outliers. The approach scrapes textual content, feeds it into the BERT model for detection, and leverages BERT's bidirectional analysis and generation abilities. The study builds upon research on automatically detecting and explaining dark patterns, aiming to raise awareness and protect consumers. | 翻訳日:2024-06-09 15:49:54 公開日:2024-05-27 |
# クロスモーダルセーフティアライメント: テキストによるアンラーニングは必要か?
Cross-Modal Safety Alignment: Is textual unlearning all you need? ( http://arxiv.org/abs/2406.02575v1 ) ライセンス: Link先を確認 | Trishna Chakraborty, Erfan Shayegani, Zikui Cai, Nael Abu-Ghazaleh, M. Salman Asif, Yue Dong, Amit K. Roy-Chowdhury, Chengyu Song, | (参考訳) 近年の研究では、ビジョンランゲージモデル(VLM)のような新しいモダリティを大規模言語モデル(LLM)に統合することで、監視ファインチューニング(SFT)や人間フィードバックによる強化学習(RLHF)といった既存の安全トレーニング技術をバイパスする新たな攻撃面が生み出されている。
さらなるSFTとRLHFベースの安全トレーニングはマルチモーダルな設定で実施できるが、マルチモーダルなトレーニングデータセットの収集は大きな課題となる。
近年のマルチモーダルモデルの構造設計に触発され,入力のモダリティが組み合わさっても,すべての入力は最終的に言語空間に融合する。
VLMにおけるテキストによるアンラーニングは、アタック成功率(ASR)を8倍に低下させ、場合によっては、ユーティリティの保存とともにテキストベースの攻撃とビジョンベースの攻撃の両方で2倍近く低い場合もあります。
さらに,本実験により,マルチモーダルデータセットを用いたアンラーニングでは潜在的なメリットは得られないが,計算要求が大幅に増加し,最大6倍になる可能性が示唆された。
Recent studies reveal that integrating new modalities into Large Language Models (LLMs), such as Vision-Language Models (VLMs), creates a new attack surface that bypasses existing safety training techniques like Supervised Fine-tuning (SFT) and Reinforcement Learning with Human Feedback (RLHF). While further SFT and RLHF-based safety training can be conducted in multi-modal settings, collecting multi-modal training datasets poses a significant challenge. Inspired by the structural design of recent multi-modal models, where, regardless of the combination of input modalities, all inputs are ultimately fused into the language space, we aim to explore whether unlearning solely in the textual domain can be effective for cross-modality safety alignment. Our evaluation across six datasets empirically demonstrates the transferability -- textual unlearning in VLMs significantly reduces the Attack Success Rate (ASR) to less than 8\% and in some cases, even as low as nearly 2\% for both text-based and vision-text-based attacks, alongside preserving the utility. Moreover, our experiments show that unlearning with a multi-modal dataset offers no potential benefits but incurs significantly increased computational demands, possibly up to 6 times higher. | 翻訳日:2024-06-09 15:49:54 公開日:2024-05-27 |
# 古典的強化学習課題の解法としての線形関数近似
Linear Function Approximation as a Computationally Efficient Method to Solve Classical Reinforcement Learning Challenges ( http://arxiv.org/abs/2405.20350v1 ) ライセンス: Link先を確認 | Hari Srikanth, | (参考訳) ニューラルネットワークに基づく値関数の近似は、信頼地域政策最適化(TRPO)やPPO(Pximal Policy Optimization)といった主要な政策ベースの手法の中核を構成する。
これは、非常に複雑な環境を扱う際に大きな価値をもたらすが、十分に低い状態とアクション空間環境では、計算コストの高いニューラルネットワークアーキテクチャは、より単純な値近似法よりも限界的な改善を提供する。
本稿では,Natural Policy Gradient法によるアクター更新を用いたNatural Actor Criticアルゴリズムの実装について述べる。
本稿では,値近似のパラダイムとして線形関数近似を用いたNatural Policy Gradient (NPG)法が,これらの環境におけるTRPOやPPOといったニューラルネットワークモデルの性能と速度を上回る可能性があることを提案する。
強化学習ベンチマークのCart PoleとAcrobotは、我々のアルゴリズムが複雑なニューラルネットワークアーキテクチャよりもはるかに高速にトレーニングし、同等かそれ以上の結果が得られることを観察する。
これにより,線形関数近似を用いたNPG法をTRPOおよびPPO上で従来の低次元問題とスパースな問題の両方に適用することを推奨できる。
Neural Network based approximations of the Value function make up the core of leading Policy Based methods such as Trust Regional Policy Optimization (TRPO) and Proximal Policy Optimization (PPO). While this adds significant value when dealing with very complex environments, we note that in sufficiently low State and action space environments, a computationally expensive Neural Network architecture offers marginal improvement over simpler Value approximation methods. We present an implementation of Natural Actor Critic algorithms with actor updates through Natural Policy Gradient methods. This paper proposes that Natural Policy Gradient (NPG) methods with Linear Function Approximation as a paradigm for value approximation may surpass the performance and speed of Neural Network based models such as TRPO and PPO within these environments. Over Reinforcement Learning benchmarks Cart Pole and Acrobot, we observe that our algorithm trains much faster than complex neural network architectures, and obtains an equivalent or greater result. This allows us to recommend the use of NPG methods with Linear Function Approximation over TRPO and PPO for both traditional and sparse reward low dimensional problems. | 翻訳日:2024-06-03 18:44:15 公開日:2024-05-27 |
# 構成下サブサンプリング機構のプライバシ会計における落とし穴回避
Avoiding Pitfalls for Privacy Accounting of Subsampled Mechanisms under Composition ( http://arxiv.org/abs/2405.20769v1 ) ライセンス: Link先を確認 | Christian Janos Lebeda, Matthew Regehr, Gautam Kamath, Thomas Steinke, | (参考訳) 我々は、サブサンプルの差分秘密機構の構成に対する厳密なプライバシー保証の計算の問題を考える。
近年のアルゴリズムでは、プライバシーパラメータを任意の精度で数値計算できるが、慎重に適用する必要がある。
私たちの主な貢献は2つの共通点に対処することです。
まず、一部のプライバシー会計士は、サブサンプル機構の構成に関するプライバシー保証は、アンコンポジションメカニズムの最悪のデータセットを自己コンパイルすることによって決定されると仮定する。
これは一般には正しくないことを示す。
第2に、Poissonサブサンプリングは、リプレースなしでサンプリングするのと同じようなプライバシー保証を持つと仮定されることがある。
プライバシ保証が実際に2つのサンプリング方式と大きく異なる可能性があることを示す。
特に、ポアソン部分サンプリングに対して $\varepsilon \approx 1$ と、置換なしでサンプリングするために $\varepsilon > 10$ となるハイパーパラメータの例を示す。
これは、DP-SGDで現実的に選択できるいくつかのパラメータに対して発生する。
We consider the problem of computing tight privacy guarantees for the composition of subsampled differentially private mechanisms. Recent algorithms can numerically compute the privacy parameters to arbitrary precision but must be carefully applied. Our main contribution is to address two common points of confusion. First, some privacy accountants assume that the privacy guarantees for the composition of a subsampled mechanism are determined by self-composing the worst-case datasets for the uncomposed mechanism. We show that this is not true in general. Second, Poisson subsampling is sometimes assumed to have similar privacy guarantees compared to sampling without replacement. We show that the privacy guarantees may in fact differ significantly between the two sampling schemes. In particular, we give an example of hyperparameters that result in $\varepsilon \approx 1$ for Poisson subsampling and $\varepsilon > 10$ for sampling without replacement. This occurs for some parameters that could realistically be chosen for DP-SGD. | 翻訳日:2024-06-03 14:37:39 公開日:2024-05-27 |
# 大規模言語モデルに基づく意思決定に対するバックドアアタックの探索
Exploring Backdoor Attacks against Large Language Model-based Decision Making ( http://arxiv.org/abs/2405.20774v1 ) ライセンス: Link先を確認 | Ruochen Jiao, Shaoyuan Xie, Justin Yue, Takami Sato, Lixu Wang, Yixuan Wang, Qi Alfred Chen, Qi Zhu, | (参考訳) 大規模言語モデル(LLM)は、特定のアプリケーションに微調整を施した際の意思決定タスクにおいて、その固有の常識と大量のデータから学んだ推論能力を活用し、大きな可能性を示してきた。
しかし、これらのシステムは微調整の段階でかなりの安全性とセキュリティ上のリスクにさらされている。
本研究では,LDM対応意思決定システム(BALD)に対するバックドアアタックの最初の包括的枠組みを提案する。
具体的には,LLMに基づく意思決定パイプラインにおいて,単語注入,シナリオ操作,知識注入という,3つの攻撃機構とそれに対応するバックドア最適化手法を提案する。
ワードインジェクションは、クエリプロンプトに直接トリガーワードを埋め込む。
シナリオ操作は、高レベルのバックドアセマンティックシナリオが攻撃をトリガーする物理的環境で行われる。
知識注入は、検索拡張生成(RAG)ベースのLLMシステムに対してバックドア攻撃を行い、単語トリガーを有毒な知識に戦略的に注入し、情報が盗聴のために事実上正確であることを保証する。
我々は,3つの人気のあるLCM(GPT-3.5, LLaMA2, PaLM2)を用いて,2つのデータセット(HighwayEnv, nuScenes)を用いて広範囲に実験を行い,バックドアトリガと機構の有効性とステルス性を実証した。
最後に、提案手法の長所と短所を批判的に評価し、意思決定タスクにおけるLLM固有の脆弱性を強調し、LLMに基づく意思決定システムを保護するための潜在的防御を評価する。
Large Language Models (LLMs) have shown significant promise in decision-making tasks when fine-tuned on specific applications, leveraging their inherent common sense and reasoning abilities learned from vast amounts of data. However, these systems are exposed to substantial safety and security risks during the fine-tuning phase. In this work, we propose the first comprehensive framework for Backdoor Attacks against LLM-enabled Decision-making systems (BALD), systematically exploring how such attacks can be introduced during the fine-tuning phase across various channels. Specifically, we propose three attack mechanisms and corresponding backdoor optimization methods to attack different components in the LLM-based decision-making pipeline: word injection, scenario manipulation, and knowledge injection. Word injection embeds trigger words directly into the query prompt. Scenario manipulation occurs in the physical environment, where a high-level backdoor semantic scenario triggers the attack. Knowledge injection conducts backdoor attacks on retrieval augmented generation (RAG)-based LLM systems, strategically injecting word triggers into poisoned knowledge while ensuring the information remains factually accurate for stealthiness. We conduct extensive experiments with three popular LLMs (GPT-3.5, LLaMA2, PaLM2), using two datasets (HighwayEnv, nuScenes), and demonstrate the effectiveness and stealthiness of our backdoor triggers and mechanisms. Finally, we critically assess the strengths and weaknesses of our proposed approaches, highlight the inherent vulnerabilities of LLMs in decision-making tasks, and evaluate potential defenses to safeguard LLM-based decision making systems. | 翻訳日:2024-06-03 14:37:39 公開日:2024-05-27 |
# ブロックチェーンによる強化された機械学習によるフェデレーション学習 - 信頼できるアプローチ
Federated Learning with Blockchain-Enhanced Machine Unlearning: A Trustworthy Approach ( http://arxiv.org/abs/2405.20776v1 ) ライセンス: Link先を確認 | Xuhan Zuo, Minghao Wang, Tianqing Zhu, Lefeng Zhang, Shui Yu, Wanlei Zhou, | (参考訳) プライバシ規則に準拠し、ユーザのデータ削除要求に応答する必要性が高まっているため、マシンラーニングをIoTベースのフェデレーション学習に統合することは不可欠になっている。
しかし、従来の未学習の手法は検証可能なメカニズムを欠くことが多く、信頼を確立する上での課題に繋がる。
本稿では,これらの障害を克服するために,ブロックチェーン技術とフェデレーション学習の革新的な統合について検討する。
ブロックチェーンは、不変性、透明性、堅牢なセキュリティという固有の性質を通じて、未学習プロセスを強化します。
認証の検証を促進し、セキュリティとプライバシを調和させ、システムの効率を維持する。
我々は、ブロックチェーンをフェデレートされた学習と融合させるフレームワークを導入し、未学習の要求とアクションの不変記録を確実にする。
この戦略は、フェデレートされた学習モデルの信頼性と完全性を高めるだけでなく、IoT環境に典型的な効率性とセキュリティ上の課題にも対処する。
私たちの重要なコントリビューションには、未学習プロセスの認証メカニズム、データセキュリティとプライバシの向上、IoTシナリオにおけるシステムの応答性を保証するためのデータ管理の最適化などが含まれています。
With the growing need to comply with privacy regulations and respond to user data deletion requests, integrating machine unlearning into IoT-based federated learning has become imperative. Traditional unlearning methods, however, often lack verifiable mechanisms, leading to challenges in establishing trust. This paper delves into the innovative integration of blockchain technology with federated learning to surmount these obstacles. Blockchain fortifies the unlearning process through its inherent qualities of immutability, transparency, and robust security. It facilitates verifiable certification, harmonizes security with privacy, and sustains system efficiency. We introduce a framework that melds blockchain with federated learning, thereby ensuring an immutable record of unlearning requests and actions. This strategy not only bolsters the trustworthiness and integrity of the federated learning model but also adeptly addresses efficiency and security challenges typical in IoT environments. Our key contributions encompass a certification mechanism for the unlearning process, the enhancement of data security and privacy, and the optimization of data management to ensure system responsiveness in IoT scenarios. | 翻訳日:2024-06-03 14:37:39 公開日:2024-05-27 |
# 漁業情報に基づく最適結合強度の推定
Fisher-information-based estimation of optomechanical coupling strengths ( http://arxiv.org/abs/2002.03249v4 ) ライセンス: Link先を確認 | Claudio Sanavio, József Zsolt Bernád, André Xuereb, | (参考訳) 量子および古典的フィッシャー情報に焦点をあてた量子推定理論の定式化は、光学系における結合強度の推定に適用される。
光学的結合を推定するために,鏡面の非マルコフ的ブラウン運動を用いたキャビティ・オプテメカティカルモデルを検討し,キャビティ出力場を得るために入力出力形式を用いた。
我々の推定シナリオはキャビティ出力場の平衡ホモダイン光検出に基づく。
本研究では, 関連する測定依存性の古典的フィッシャー情報と量子的フィッシャー情報との差について検討した。
ホモダイン検出における局所発振器の位相は極めて重要であることが判明した。
The formalism of quantum estimation theory, focusing on the quantum and classical Fisher information, is applied to the estimation of the coupling strength in an optomechanical system. In order to estimate the optomechanical coupling, we have considered a cavity optomechanical model with non-Markovian Brownian motion of the mirror and employed input-output formalism to obtain the cavity output field. Our estimation scenario is based on balanced homodyne photodetection of the cavity output field. We have explored the difference between the associated measurement-dependent classical Fisher information and the quantum Fisher information, thus addressing the question of whether it is possible to reach the lower bound of the mean squared error of an unbiased estimator by means of balanced homodyne detection. We have found that the phase of the local oscillator in the homodyne detection is crucial; certain quadrature measurements allow very accurate estimation. | 翻訳日:2024-06-01 00:29:19 公開日:2024-05-27 |
# P-スプリットの定式化: 共役制約に対するBig-Mと凸殻の間の中間定式化のクラス
P-split formulations: A class of intermediate formulations between big-M and convex hull for disjunctive constraints ( http://arxiv.org/abs/2202.05198v2 ) ライセンス: Link先を確認 | Jan Kronqvist, Ruth Misener, Calvin Tsay, | (参考訳) 本研究では, ゆらぎ強度の点から, ビッグMおよび凸殻の定式化と中間の解離的制約に対する混合整数定式化のクラスを開発する。
第一のアイデアは、大きなMと凸の船体定式化の双方の長所を捉えることであり、計算的に軽い定式化とゆるやかな緩和である。
P-スプリット」の定式化は、凸を加法的に分離する制約をP分割に分割し、線形化および分割された接合の凸殻を形成するリフト変換に基づいている。
P-スプリット」の定式化は、各不動域内における凸制約を伴う不動制約に対して導出され、不動域内における非凸制約の場合の結果を一般化する。
P-スプリットの定式化の連続的緩和を解析し、ある仮定の下では、定式化が大質量同値から凸包へ収束する階層を形成することを示す。
P-スプリットの定式化の目標は、計算学的に単純な定式化によって凸殻の強い近似を形成することである。
344 の試験インスタンス上での P-split の定式化と Big-M および convex の定式化を計算的に比較した。
テスト問題としては、K平均クラスタリング、半教師付きクラスタリング、P_ball問題、トレーニングされたReLUニューラルネットワークに対する最適化などがある。
計算結果は, P-スプリット定式化の有望な可能性を示している。
多くの試験問題において、P-スプリットの定式化は凸船体定式化と同様の数の探索ノードで解かれるが、解時間を桁違いに減らし、探索ノードの時間と数の両方でビッグMより優れる。
We develop a class of mixed-integer formulations for disjunctive constraints intermediate to the big-M and convex hull formulations in terms of relaxation strength. The main idea is to capture the best of both the big-M and convex hull formulations: a computationally light formulation with a tight relaxation. The "P-split" formulations are based on a lifted transformation that splits convex additively separable constraints into P partitions and forms the convex hull of the linearized and partitioned disjunction. The "P-split" formulations are derived for disjunctive constraints with convex constraints within each disjuct, and we generalize the results for the case with nonconvex constraints within the disjuncts. We analyze the continuous relaxation of the P-split formulations and show that, under certain assumptions, the formulations form a hierarchy starting from a big-M equivalent and converging to the convex hull. The goal of the P-split formulations is to form strong approximations of the convex hull through a computationally simpler formulation. We computationally compare the P-split formulations against big-M and convex hull formulations on 344 test instances. The test problems include K-means clustering, semi-supervised clustering, P_ball problems, and optimization over trained ReLU neural networks. The computational results show promising potential of the P-split formulations. For many of the test problems, P-split formulations are solved with a similar number of explored nodes as the convex hull formulation, while reducing the solution time by an order of magnitude and outperforming big-M both in time and number of explored nodes. | 翻訳日:2024-06-01 00:29:19 公開日:2024-05-27 |
# O$n$ Learning Deep O($n$)-同変超球面
O$n$ Learning Deep O($n$)-Equivariant Hyperspheres ( http://arxiv.org/abs/2305.15613v7 ) ライセンス: Link先を確認 | Pavlo Melnyk, Michael Felsberg, Mårten Wadenbäck, Andreas Robinson, Cuong Le, | (参考訳) 本稿では、超球面と正則$n$-プレプレックスを利用し、O$(n)$の強力な群に包含された$n$D反射と回転の変換の下で、深い特徴同変を学習するためのアプローチを提案する。
すなわち、O$(n)$-equivariant neuros with spherical decision surfaces that generalize to any dimension $n$, which we called Deep Equivariant Hyperspheres。
入力点を直接操作するネットワーク上でそれらを結合する方法を実証し、二つの点と球の関係に基づいて不変作用素を提案する。
提案手法はO$(n)$-equivariantベンチマークデータセット(分類と回帰)の競合手法よりも優れており、良好な速度/性能のトレードオフを示す。
コードはhttps://github.com/pavlo-melnyk/equivariant-hyperspheresで公開されている。
In this paper, we utilize hyperspheres and regular $n$-simplexes and propose an approach to learning deep features equivariant under the transformations of $n$D reflections and rotations, encompassed by the powerful group of O$(n)$. Namely, we propose O$(n)$-equivariant neurons with spherical decision surfaces that generalize to any dimension $n$, which we call Deep Equivariant Hyperspheres. We demonstrate how to combine them in a network that directly operates on the basis of the input points and propose an invariant operator based on the relation between two points and a sphere, which as we show, turns out to be a Gram matrix. Using synthetic and real-world data in $n$D, we experimentally verify our theoretical contributions and find that our approach is superior to the competing methods for O$(n)$-equivariant benchmark datasets (classification and regression), demonstrating a favorable speed/performance trade-off. The code is available at https://github.com/pavlo-melnyk/equivariant-hyperspheres. | 翻訳日:2024-06-01 00:12:24 公開日:2024-05-27 |
# 外因性分布学習による因果ベイズ最適化
Causal Bayesian Optimization via Exogenous Distribution Learning ( http://arxiv.org/abs/2402.02277v6 ) ライセンス: Link先を確認 | Shaogang Ren, Xiaoning Qian, | (参考訳) 構造因果モデルにおける運用目的としての目的変数の最大化は重要な問題である。
既存のCausal Bayesian Optimization~(CBO)手法は、報酬を最大化するために因果構造を変更するハード介入に依存するか、データ生成機構を調整して目的を達成するために内在変数にアクションノードを導入する。
本稿では,従来手法で期待されていた外因性変数の分布を学習するために,新しい手法を提案する。
外因性分布学習は、通常限られた観測データで訓練された代理モデルにおける構造因果モデルの近似精度を向上させる。
さらに、学習した外因性分布は、既存のCBOを付加雑音モデル~(ANM)を超える一般的な因果スキームにまで拡張する。
外因性変数のリカバリにより、ノイズや未観測の隠れ変数に対して、よりフレキシブルな事前利用が可能になります。
学習した外因性分布を利用した新しいCBO法を開発した。
異なるデータセットとアプリケーションの実験により,提案手法の利点が示された。
Maximizing a target variable as an operational objective in a structural causal model is an important problem. Existing Causal Bayesian Optimization~(CBO) methods either rely on hard interventions that alter the causal structure to maximize the reward; or introduce action nodes to endogenous variables so that the data generation mechanisms are adjusted to achieve the objective. In this paper, a novel method is introduced to learn the distribution of exogenous variables, which is typically ignored or marginalized through expectation by existing methods. Exogenous distribution learning improves the approximation accuracy of structural causal models in a surrogate model that is usually trained with limited observational data. Moreover, the learned exogenous distribution extends existing CBO to general causal schemes beyond Additive Noise Models~(ANM). The recovery of exogenous variables allows us to use a more flexible prior for noise or unobserved hidden variables. We develop a new CBO method by leveraging the learned exogenous distribution. Experiments on different datasets and applications show the benefits of our proposed method. | 翻訳日:2024-05-31 23:13:17 公開日:2024-05-27 |
# 脳モデルとしての概念価値ネットワーク
A Concept-Value Network as a Brain Model ( http://arxiv.org/abs/1904.04579v3 ) ライセンス: Link先を確認 | Kieran Greer, | (参考訳) 本稿では,脳様モデルの物理的実体と概念的実体の関係を記述するための統計的枠組みを提案する。
特徴と概念のインスタンスはコンテキストに置かれ、化学接続も可能であるが、この論文は特徴が電気配線である可能性を示唆している。
この考え方では、実際の接続長は、発射速度とニューロン同期と関係があるため重要であるが、信号タイプはそれほど重要ではない。
この論文は、概念が特徴集合と概念インスタンスをリンクするニューロン群であり、それらのグループからの化学信号によって決定されることを示唆している。
したがって、特徴はニューラルネットワークの静的水平フレームワークとなり、概念はこれらを垂直に相互に結合する。
これはまた、機能が分散エンティティであり、単一の領域に集中していないことを示唆する。
This paper suggests a statistical framework for describing the relations between the physical and conceptual entities of a brain-like model. Features and concept instances are put into context, where the paper suggests that features may be the electrical wiring, although chemical connections are also possible. With this idea, the actual length of the connection is important, because it is related to firing rates and neuron synchronization, but the signal type is less important. The paper then suggests that concepts are neuron groups that link feature sets and concept instances are determined by chemical signals from those groups. Therefore, features become the static horizontal framework of the neural system and concepts are vertically interconnected combinations of these. This would also suggest that features can be distributed entities and not concentrated to a single area. | 翻訳日:2024-05-30 05:10:10 公開日:2024-05-27 |
# 強化学習におけるテンソルとマトリックス低ランク値-ファンクション近似
Tensor and Matrix Low-Rank Value-Function Approximation in Reinforcement Learning ( http://arxiv.org/abs/2201.09736v3 ) ライセンス: Link先を確認 | Sergio Rozada, Santiago Paternain, Antonio G. Marques, | (参考訳) 値関数近似(VF)は強化学習(RL)の中心的な問題である。
古典的な非パラメトリックなVF推定は次元性の呪いに悩まされる。
その結果、高次元空間のVFを近似するために擬似パラメトリックモデルが採用され、ほとんどの研究は線形およびニューラルネットワークに基づくアプローチに焦点を当てている。
そこで我々は確率的低ランクアルゴリズムを用いてVF行列をオンラインおよびモデルフリーで推定する。
さらに、VFは多次元である傾向があるため、従来のVF行列表現をテンソル(マルチウェイアレイ)表現に置き換え、PARAFAC分解を用いてオンラインモデルのないテンソル低ランクアルゴリズムを設計する。
アルゴリズムの異なるバージョンを提案し、その複雑さを分析し、その性能を標準化されたRL環境を用いて数値的に評価する。
Value-function (VF) approximation is a central problem in Reinforcement Learning (RL). Classical non-parametric VF estimation suffers from the curse of dimensionality. As a result, parsimonious parametric models have been adopted to approximate VFs in high-dimensional spaces, with most efforts being focused on linear and neural-network-based approaches. Differently, this paper puts forth a a parsimonious non-parametric approach, where we use stochastic low-rank algorithms to estimate the VF matrix in an online and model-free fashion. Furthermore, as VFs tend to be multi-dimensional, we propose replacing the classical VF matrix representation with a tensor (multi-way array) representation and, then, use the PARAFAC decomposition to design an online model-free tensor low-rank algorithm. Different versions of the algorithms are proposed, their complexity is analyzed, and their performance is assessed numerically using standardized RL environments. | 翻訳日:2024-05-30 05:05:50 公開日:2024-05-27 |
# 知識グラフ埋め込みにおける信頼度を考慮した自己意味蒸留
Confidence-aware Self-Semantic Distillation on Knowledge Graph Embedding ( http://arxiv.org/abs/2206.02963v2 ) ライセンス: Link先を確認 | Yichen Liu, Jiawei Chen, Defang Chen, Zhehui Zhou, Yan Feng, Can Wang, | (参考訳) 連続ベクトル空間に実体と関係を投影する知識グラフ埋め込み(KGE)が注目されている。
高次元KGE法は優れた性能を提供するが、計算量やメモリオーバーヘッドを犠牲にしている。
埋め込み寸法の減少はモデル性能を著しく悪化させる。
近年、知識蒸留や非ユークリッド表現学習を用いて低次元KGEの有効性を高める試みがいくつか行われているが、それらは事前訓練された高次元の教師モデルを必要とするか、複雑な非ユークリッド演算を必要とするかのどちらかであり、計算コストが大幅に増大する。
そこで本研究では, モデル自体から学習し, KGEを低次元空間で強化する, 信頼を意識した自己知識蒸留(CSD)を提案する。
具体的には、CSDは以前のイテレーションの埋め込みから知識を抽出し、次のイテレーションでモデルの学習を監督するために使用される。
さらに,事前に学習した埋め込みの信頼度を推定することにより,信頼性の高い知識をフィルタリングするセマンティックモジュールを開発した。
この直接的な戦略は、教師モデルの事前学習に時間を要することを回避し、様々なKGEメソッドに統合してパフォーマンスを向上させることができる。
6つのKGEバックボーンと4つのデータセットに関する包括的な実験は、提案したCSDの有効性を裏付けるものである。
Knowledge Graph Embedding (KGE), which projects entities and relations into continuous vector spaces, have garnered significant attention. Although high-dimensional KGE methods offer better performance, they come at the expense of significant computation and memory overheads. Decreasing embedding dimensions significantly deteriorates model performance. While several recent efforts utilize knowledge distillation or non-Euclidean representation learning to augment the effectiveness of low-dimensional KGE, they either necessitate a pre-trained high-dimensional teacher model or involve complex non-Euclidean operations, thereby incurring considerable additional computational costs. To address this, this work proposes Confidence-aware Self-Knowledge Distillation (CSD) that learns from model itself to enhance KGE in a low-dimensional space. Specifically, CSD extracts knowledge from embeddings in previous iterations, which would be utilized to supervise the learning of the model in the next iterations. Moreover, a specific semantic module is developed to filter reliable knowledge by estimating the confidence of previously learned embeddings. This straightforward strategy bypasses the need for time-consuming pre-training of teacher models and can be integrated into various KGE methods to improve their performance. Our comprehensive experiments on six KGE backbones and four datasets underscore the effectiveness of the proposed CSD. | 翻訳日:2024-05-30 05:05:50 公開日:2024-05-27 |
# FALCON: 一貫性のないALCオントロジに対するスケーラブルな推論
FALCON: Scalable Reasoning over Inconsistent ALC Ontologies ( http://arxiv.org/abs/2208.07628v5 ) ライセンス: Link先を確認 | Tilman Hinnerichs, Zhenwei Tang, Xi Peng, Xiangliang Zhang, Robert Hoehndorf, | (参考訳) オントロジは最も豊かな知識源の1つである。
現実世界のオントロジーは何千もの公理を持ち、しばしば人造である。
したがって、それらは不整合と不完全情報を含み、それは古典的推論者が有用と見なされるエンタテインメントを計算するのを損なう可能性がある。
これら2つの課題を克服するために,ファジィオントロジーニューラル推論器であるFALCONを提案する。
古典的ALC推論器におけるモデル生成ステップの近似手法を提案する。
我々の近似は正確な論理モデルを構築することは保証されていないが、任意のモデルを近似することができる。
さらに,複数の近似論理モデルをサンプリングすることにより,矛盾するオントロジーよりも近似的エンテーメントをサポートする。
理論的な結果から、より多くのモデルが生成され、ALCエンテーメントよりも忠実なエンテーメント近似がより近づくことが示されている。
実験結果から,FALCONは不整合の存在下での近似的推論と推論を可能にした。
ALCで表現された知識を取り入れることで、オントロジーがバイオメディシンの知識ベース完成をいかに改善できるかをさらに実証する。
Ontologies are one of the richest sources of knowledge. Real-world ontologies often contain thousands of axioms and are often human-made. Hence, they may contain inconsistency and incomplete information which may impair classical reasoners to compute entailments that are considered as useful. To overcome these two challenges, we propose FALCON, a Fuzzy Ontology Neural reasoner to approximate reasoning over ALC ontologies. We provide an approximate technique for the model generation step in classical ALC reasoners. Our approximation is not guaranteed to construct exact logical models, but can approximate arbitrary models, which is notably faster for some large ontologies. Moreover, by sampling multiple approximate logical models, our technique supports approximate entailment also over inconsistent ontologies. Theoretical results show that more models generated lead to closer, i.e., faithful approximation of entailment over ALC entailments. Experimental results show that FALCON enables approximate reasoning and reasoning in the presence of inconsistency. Our experiments further demonstrate how ontologies can improve knowledge base completion in biomedicine by incorporating knowledge expressed in ALC. | 翻訳日:2024-05-30 05:05:50 公開日:2024-05-27 |
# 行列の確率的最適化とマッキーン・ブラソフ極限
Stochastic optimization on matrices and a graphon McKean-Vlasov limit ( http://arxiv.org/abs/2210.00422v3 ) ライセンス: Link先を確認 | Zaid Harchaoui, Sewoong Oh, Soumik Pal, Raghav Somani, Raghavendra Tripathi, | (参考訳) 同じ置換を用いて行と列の置換の下で不変である適当な関数の大きい対称行列の空間上の確率勾配降下を考える。
行列の次元が無限大になるにつれて、これらのランダム曲線の決定論的極限を確立する。
小さなノイズ」の仮定の下で、この極限は–\cite{oh2021gradient} で成立するグラモン上の関数の勾配流であることが示される。
また,適切にスケールしたブラウン雑音を付加した確率勾配勾配の限界についても検討した。
グラノンの極限曲線は、反射を伴う確率微分方程式の族によって特徴づけられ、グラノン設定への相互作用する拡散に対する古典的なマッケイン・ブラソフ極限の拡張と考えることができる。
これらの証明は、反射拡散の無限次元交換可能な配列の族と、そのような配列に適切な意味で収束する大きな拡散の行列に対するカオスの伝播という新しい概念を導入する。
We consider stochastic gradient descents on the space of large symmetric matrices of suitable functions that are invariant under permuting the rows and columns using the same permutation. We establish deterministic limits of these random curves as the dimensions of the matrices go to infinity while the entries remain bounded. Under a ``small noise'' assumption the limit is shown to be the gradient flow of functions on graphons whose existence was established in~\cite{oh2021gradient}. We also consider limits of stochastic gradient descents with added properly scaled reflected Brownian noise. The limiting curve of graphons is characterized by a family of stochastic differential equations with reflections and can be thought of as an extension of the classical McKean-Vlasov limit for interacting diffusions to the graphon setting. The proofs introduce a family of infinite-dimensional exchangeable arrays of reflected diffusions and a novel notion of propagation of chaos for large matrices of diffusions converging to such arrays in a suitable sense. | 翻訳日:2024-05-30 04:56:05 公開日:2024-05-27 |
# U-Flow: 教師なし閾値による異常検出のためのU字型正規化フロー
U-Flow: A U-shaped Normalizing Flow for Anomaly Detection with Unsupervised Threshold ( http://arxiv.org/abs/2211.12353v3 ) ライセンス: Link先を確認 | Matías Tailanian, Álvaro Pardo, Pablo Musé, | (参考訳) 本研究では,最新の機械学習手法と,より古典的な統計的検出理論の両方の利点を生かした,画像中の異常セグメンテーションのための一級自己教師手法を提案する。
方法は4つのフェーズから構成される。
まず,マルチスケールイメージトランスフォーマーアーキテクチャを用いて特徴抽出を行う。
次に、これらの特徴をU字型正規化フロー(NF)に入力し、その後のフェーズの理論的基礎を定めます。
第3フェーズはNF埋め込みから画素レベルの異常マップを計算し、最終フェーズはコントラリオフレームワークに基づいてセグメンテーションを実行する。
この多重仮説テスト戦略は、運用ポイントが必要な現実世界のアプリケーションにおいて重要な、堅牢で教師なしな検出しきい値の導出を可能にする。
セグメンテーションの結果は,mIoU(Mean Intersection over Union)測定値を用いて評価され,生成した異常マップの評価には,受信器動作曲線(AUROC)とAUPRO(Per-Region-Overlap)曲線(AUPRO)のエリアを報告する。
様々なデータセットにおける大規模な実験は、提案手法がすべてのメトリクスと全てのデータセットに対して最先端の結果を生成し、ほとんどのMVTec-ADカテゴリで第1位、平均ピクセルレベルのAUROCは98.74%であることを示している。
コードとトレーニングされたモデルはhttps:// github.com/mtailanian/uflow.comで入手できる。
In this work we propose a one-class self-supervised method for anomaly segmentation in images that benefits both from a modern machine learning approach and a more classic statistical detection theory. The method consists of four phases. First, features are extracted using a multi-scale image Transformer architecture. Then, these features are fed into a U-shaped Normalizing Flow (NF) that lays the theoretical foundations for the subsequent phases. The third phase computes a pixel-level anomaly map from the NF embedding, and the last phase performs a segmentation based on the a contrario framework. This multiple hypothesis testing strategy permits the derivation of robust unsupervised detection thresholds, which are crucial in real-world applications where an operational point is needed. The segmentation results are evaluated using the Mean Intersection over Union (mIoU) metric, and for assessing the generated anomaly maps we report the area under the Receiver Operating Characteristic curve (AUROC), as well as the Area Under the Per-Region-Overlap curve (AUPRO). Extensive experimentation in various datasets shows that the proposed approach produces state-of-the-art results for all metrics and all datasets, ranking first in most MVTec-AD categories, with a mean pixel-level AUROC of 98.74%. Code and trained models are available at https:// github.com/mtailanian/uflow. | 翻訳日:2024-05-30 04:56:05 公開日:2024-05-27 |
# 確率的ライジングバンドのためのベストアーム識別
Best Arm Identification for Stochastic Rising Bandits ( http://arxiv.org/abs/2302.07510v3 ) ライセンス: Link先を確認 | Marco Mussi, Alessandro Montenegro, Francesco Trovó, Marcello Restelli, Alberto Maria Metelli, | (参考訳) Stochastic Rising Bandits (SRB) は、選択される度に、利用可能なオプションの期待される報酬が増加する、シーケンシャルな意思決定問題をモデル化する。
この設定は、利用可能な選択肢が、時間とともにパフォーマンスが向上する(期待して)学習エンティティ(オンラインのベストモデル選択など)である、幅広いシナリオをキャプチャします。
過去の研究は、後悔の最小化の問題に対処していたが、本稿は、SRBの固定予算ベストアーム識別(BAI)問題に焦点をあてる。
このシナリオでは、ラウンドの固定予算を前提として、識別プロセスの終了時に最適な選択肢について推奨することを求めます。
提案手法は,UCBライクなアプローチを取り入れたR-UCBEと,連続的なリジェクション手順を用いたR-SRという2つのアルゴリズムを提案する。
そして,十分な予算で,学習プロセスの終了時に最適な選択肢を適切に特定する確率と,簡単な後悔の度合いを保証できることを証明した。
さらに、R-SR(定数まで)で一致した誤差確率の低い境界を導出し、SRB設定において十分に大きな予算の必要性が避けられないことを示す。
最後に,提案したアルゴリズムを,合成環境と現実環境の両方で数値的に検証する。
Stochastic Rising Bandits (SRBs) model sequential decision-making problems in which the expected reward of the available options increases every time they are selected. This setting captures a wide range of scenarios in which the available options are learning entities whose performance improves (in expectation) over time (e.g., online best model selection). While previous works addressed the regret minimization problem, this paper focuses on the fixed-budget Best Arm Identification (BAI) problem for SRBs. In this scenario, given a fixed budget of rounds, we are asked to provide a recommendation about the best option at the end of the identification process. We propose two algorithms to tackle the above-mentioned setting, namely R-UCBE, which resorts to a UCB-like approach, and R-SR, which employs a successive reject procedure. Then, we prove that, with a sufficiently large budget, they provide guarantees on the probability of properly identifying the optimal option at the end of the learning process and on the simple regret. Furthermore, we derive a lower bound on the error probability, matched by our R-SR (up to constants), and illustrate how the need for a sufficiently large budget is unavoidable in the SRB setting. Finally, we numerically validate the proposed algorithms in both synthetic and realistic environments. | 翻訳日:2024-05-30 04:46:21 公開日:2024-05-27 |
# SmartBook: インテリジェンスアナリストのためのAI支援処理レポート生成
SmartBook: AI-Assisted Situation Report Generation for Intelligence Analysts ( http://arxiv.org/abs/2303.14337v3 ) ライセンス: Link先を確認 | Revanth Gangi Reddy, Daniel Lee, Yi R. Fung, Khanh Duy Nguyen, Qi Zeng, Manling Li, Ziqi Wang, Clare Voss, Heng Ji, | (参考訳) 状況報告の自動生成は、インテリジェンスアナリストの時間、労力、コストを大幅に削減する。
本研究では、インテリジェンスアナリストによる状況報告生成におけるAI支援の実践と嗜好を特定し、思考プロセスやニーズに沿った効果的な信頼構築インターフェースの設計戦略を導出する。
次に,SmartBookを紹介する。このフレームワークは,大量のニュースデータから状況報告を自動生成し,イベント関連の戦略的質問を自動的に発見して構造化レポートを作成する。
これらの報告には、複数の仮説(主張)が含まれており、事実的証拠のある情報源に要約され、詳細な状況理解を促進する。
我々は,SmartBookの総合的な評価を行い,ユーザによるコンテントレビューと編集調査を併用し,正確な状況報告を生成する上でのSmartBookの有効性を明らかにした。
質的な評価は、80%以上の質問が戦略的情報を探索し、90%以上のサマリーが戦術的に有用なコンテンツを生成し、Web検索と統合された大規模な言語モデルからのサマリーよりも一貫して好まれていることを示している。
編集調査では、生成されたテキストから最小限の情報(2.5%以下)が取り除かれ、SmartBookがアナリストに状況を報告するための貴重な基盤を提供することを示している。
Timely and comprehensive understanding of emerging events is crucial for effective decision-making; automating situation report generation can significantly reduce the time, effort, and cost for intelligence analysts. In this work, we identify intelligence analysts' practices and preferences for AI assistance in situation report generation to guide the design strategies for an effective, trust-building interface that aligns with their thought processes and needs. Next, we introduce SmartBook, an automated framework designed to generate situation reports from large volumes of news data, creating structured reports by automatically discovering event-related strategic questions. These reports include multiple hypotheses (claims), summarized and grounded to sources with factual evidence, to promote in-depth situation understanding. Our comprehensive evaluation of SmartBook, encompassing a user study alongside a content review with an editing study, reveals SmartBook's effectiveness in generating accurate and relevant situation reports. Qualitative evaluations indicate over 80% of questions probe for strategic information, and over 90% of summaries produce tactically useful content, being consistently favored over summaries from a large language model integrated with web search. The editing study reveals that minimal information is removed from the generated text (under 2.5%), suggesting that SmartBook provides analysts with a valuable foundation for situation reports | 翻訳日:2024-05-30 04:46:21 公開日:2024-05-27 |
# 短いバーストによるパレート効率の良い再分級計画の発見
Finding Pareto Efficient Redistricting Plans with Short Bursts ( http://arxiv.org/abs/2304.00427v2 ) ライセンス: Link先を確認 | Cory McCartan, | (参考訳) 再分権実践者は、地区の境界を描く際には、多くの競合する制約と基準をバランスさせなければならない。
このプロセスを支援するために、研究者は1つ以上の基準に従って地区計画の最適化を行う多くの方法を開発した。
この研究ノートは、最近提案された単一基準最適化法、短バースト(Cannon et al , 2023)を拡張して、多基準ケースを処理し、任意の制約に対してパレートフロンティアを近似する。
本研究では,本手法の実証的な性能を現実的な環境で検証し,期待通りに振る舞うことができ,アルゴリズム的パラメータにはあまり敏感でないことを示す。
提案手法はオープンソースソフトウェアで実装されており、研究者や実践者が再制限プロセスに固有のトレードオフをよりよく理解できるようにする。
Redistricting practitioners must balance many competing constraints and criteria when drawing district boundaries. To aid in this process, researchers have developed many methods for optimizing districting plans according to one or more criteria. This research note extends a recently-proposed single-criterion optimization method, short bursts (Cannon et al., 2023), to handle the multi-criterion case, and in doing so approximate the Pareto frontier for any set of constraints. We study the empirical performance of the method in a realistic setting and find it behaves as expected and is not very sensitive to algorithmic parameters. The proposed approach, which is implemented in open-source software, should allow researchers and practitioners to better understand the tradeoffs inherent to the redistricting process. | 翻訳日:2024-05-30 04:46:21 公開日:2024-05-27 |
# UDPM:拡散確率モデルの改善
UDPM: Upsampling Diffusion Probabilistic Models ( http://arxiv.org/abs/2305.16269v2 ) ライセンス: Link先を確認 | Shady Abu-Hussein, Raja Giryes, | (参考訳) 拡散確率モデル(DDPM、Denoising Diffusion Probabilistic Models)は近年注目されている。
DDPMは、データ領域から始まり、純粋なホワイトノイズに到達するまで徐々にノイズを付加するマルコフ過程を構成する。
DDPMは、逆プロセスを定義し、このマッピングを学ぶためにディープニューラルネットワークをトレーニングすることで、複雑なデータ分布から高品質なサンプルを生成する。
しかし、これらのモデルは審美的なサンプルを生成するために多くの拡散ステップを必要とするため、非効率である。
さらに、GANとは違い、拡散モデルの潜伏空間は解釈しにくい。
本研究では,デノナイズ拡散過程をUDPM(Upsampling Diffusion Probabilistic Model)に一般化することを提案する。
前処理では、ダウンサンプリングにより潜時変動次元を減少させ、続いて従来のノイズ摂動を減少させる。
その結果、逆処理は、潜伏変数を徐々に軽視して、データ分布からサンプルを生成する。
我々はUDPMのマルコフ拡散過程を形式化し、その生成能力を一般的なFFHQ、AFHQv2、CIFAR10データセット上で実証する。
UDPMは最大3つのネットワーク評価で画像を生成するが、全体の計算コストはDDPMまたはEDMステップよりも低く、FIDスコアは6.86である。
これは、サンプリングに1つのデノナイジングステップを使用する、最先端の効率的な拡散モデルを上回る。
加えて、UDPMは解釈可能で補間可能な潜在空間を提供しており、従来のDDPMよりも有利である。
私たちのコードはオンラインで利用可能です。
Denoising Diffusion Probabilistic Models (DDPM) have recently gained significant attention. DDPMs compose a Markovian process that begins in the data domain and gradually adds noise until reaching pure white noise. DDPMs generate high-quality samples from complex data distributions by defining an inverse process and training a deep neural network to learn this mapping. However, these models are inefficient because they require many diffusion steps to produce aesthetically pleasing samples. Additionally, unlike generative adversarial networks (GANs), the latent space of diffusion models is less interpretable. In this work, we propose to generalize the denoising diffusion process into an Upsampling Diffusion Probabilistic Model (UDPM). In the forward process, we reduce the latent variable dimension through downsampling, followed by the traditional noise perturbation. As a result, the reverse process gradually denoises and upsamples the latent variable to produce a sample from the data distribution. We formalize the Markovian diffusion processes of UDPM and demonstrate its generation capabilities on the popular FFHQ, AFHQv2, and CIFAR10 datasets. UDPM generates images with as few as three network evaluations, whose overall computational cost is less than a single DDPM or EDM step, while achieving an FID score of 6.86. This surpasses current state-of-the-art efficient diffusion models that use a single denoising step for sampling. Additionally, UDPM offers an interpretable and interpolable latent space, which gives it an advantage over traditional DDPMs. Our code is available online: \url{https://github.com/shadyabh/UDPM/} | 翻訳日:2024-05-30 04:36:37 公開日:2024-05-27 |
# ベイジアンモデル選択を用いたバイバーリエート因果発見
Bivariate Causal Discovery using Bayesian Model Selection ( http://arxiv.org/abs/2306.02931v2 ) ライセンス: Link先を確認 | Anish Dhir, Samuel Power, Mark van der Wilk, | (参考訳) 因果発見文献の多くは、統計モデルにおける因果方向の識別性を保証している。
マルコフ同値クラス内の構造の場合、これは実世界のデータセットに保持されない強い仮定を必要とし、最終的にはこれらの手法の使用性を制限する。
過去の試みに基づいて、ベイズフレームワークに因果仮定を組み込む方法を示す。
因果方向の同定はベイズモデル選択問題となる。
これにより、現実的な仮定でモデルを構築することができ、従ってマルコフ等価因果構造間の微分が可能になる。
ベイズモデル選択が、最大可能性に基づく方法が失敗する状況で機能する理由を解析する。
提案手法を実証するために,結合分布を柔軟にモデル化できるベイズ非パラメトリックモデルを構築した。
そして、様々なデータ生成仮定を持つ広範囲のベンチマークデータセットにおいて、従来の手法よりも優れた性能を示す。
Much of the causal discovery literature prioritises guaranteeing the identifiability of causal direction in statistical models. For structures within a Markov equivalence class, this requires strong assumptions which may not hold in real-world datasets, ultimately limiting the usability of these methods. Building on previous attempts, we show how to incorporate causal assumptions within the Bayesian framework. Identifying causal direction then becomes a Bayesian model selection problem. This enables us to construct models with realistic assumptions, and consequently allows for the differentiation between Markov equivalent causal structures. We analyse why Bayesian model selection works in situations where methods based on maximum likelihood fail. To demonstrate our approach, we construct a Bayesian non-parametric model that can flexibly model the joint distribution. We then outperform previous methods on a wide range of benchmark datasets with varying data generating assumptions. | 翻訳日:2024-05-30 04:36:37 公開日:2024-05-27 |
# 過度遅延に対するロバスト性を有する遅延フィードバックをもつ帯域幅に対するBest-of-both-worldsアルゴリズム
A Best-of-both-worlds Algorithm for Bandits with Delayed Feedback with Robustness to Excessive Delays ( http://arxiv.org/abs/2308.10675v2 ) ライセンス: Link先を確認 | Saeed Masoudian, Julian Zimmert, Yevgeny Seldin, | (参考訳) 本稿では,フィードバックが可変に遅延するバンディットのためのベスト・オブ・ボス・ワールドス・アルゴリズムを提案する。
事前の作業とは対照的に、最大遅延$d_{\mathrm{max}}$の事前知識が必要であり、後悔の線形依存性があったため、我々のアルゴリズムは任意の過剰遅延を許容して$T$(ここでは$T$は時間水平線である)をオーダーすることができる。
アルゴリズムは3つの技術革新に基づいており、それらはすべて独立した関心を持つかもしれない: 1) 世界の最高の環境で機能する最初の暗黙の探究スキームを導入する。
2) 遅延の有界性に依存しない分布ドリフトの第一制御を導入する。
この制御は、暗黙の探索スキームと過度な遅延を伴う観測の適応的なスキップに基づいている。
(3) 遅れの有界性に依存しない, ゆるやかな後悔を伴う標準後悔に関する手続きを導入する。
概念レベルでは、情報の欠落(遅延による測定)よりも、意思決定時に欠落する情報量(見事な観測回数によって測定される)が特徴的である。
We propose a new best-of-both-worlds algorithm for bandits with variably delayed feedback. In contrast to prior work, which required prior knowledge of the maximal delay $d_{\mathrm{max}}$ and had a linear dependence of the regret on it, our algorithm can tolerate arbitrary excessive delays up to order $T$ (where $T$ is the time horizon). The algorithm is based on three technical innovations, which may all be of independent interest: (1) We introduce the first implicit exploration scheme that works in best-of-both-worlds setting. (2) We introduce the first control of distribution drift that does not rely on boundedness of delays. The control is based on the implicit exploration scheme and adaptive skipping of observations with excessive delays. (3) We introduce a procedure relating standard regret with drifted regret that does not rely on boundedness of delays. At the conceptual level, we demonstrate that complexity of best-of-both-worlds bandits with delayed feedback is characterized by the amount of information missing at the time of decision making (measured by the number of outstanding observations) rather than the time that the information is missing (measured by the delays). | 翻訳日:2024-05-30 04:36:37 公開日:2024-05-27 |
# トポロジーによる解離学習
Disentanglement Learning via Topology ( http://arxiv.org/abs/2308.12696v3 ) ライセンス: Link先を確認 | Nikita Balabin, Daria Voronkova, Ilya Trofimov, Evgeny Burnaev, Serguei Barannikov, | (参考訳) マルチスケールなトポロジ的損失項を付加することにより,不整合表現を学習するTopDis(トポロジカル・ディアンタングルメント)を提案する。
ディスタングルメントは、ディープラーニングモデルの説明可能性と堅牢性、およびハイレベル認知へのステップにとって重要なデータ表現の重要な特性である。
最先端の手法はVAEに基づいており、潜在変数の共分散を分解することを奨励する。
データ多様体のトポロジ的性質を解析することにより、解離について異なる視点を採る。
特に,データ多様体のトポロジ的類似性を最適化する。
我々の知識を最大限に活用するために,本論文は,解離学習のための微分可能な位相損失を提案する最初の論文である。
提案したTopDis損失は,再建品質を保ちながら,MIG,FacterVAEスコア,SAPスコア,DCIアンタングルメントスコアなどのアンタングルメントスコアを改善した。
我々の手法は教師なしの方法で動作し、変動要因をラベル付けせずに問題に適用することができる。
TopDisの損失は、変動の要因が相関している場合でも機能する。
さらに, 提案した位相損失を用いて, 訓練されたGANにおいて, 絡み合った方向を求める方法を示す。
We propose TopDis (Topological Disentanglement), a method for learning disentangled representations via adding a multi-scale topological loss term. Disentanglement is a crucial property of data representations substantial for the explainability and robustness of deep learning models and a step towards high-level cognition. The state-of-the-art methods are based on VAE and encourage the joint distribution of latent variables to be factorized. We take a different perspective on disentanglement by analyzing topological properties of data manifolds. In particular, we optimize the topological similarity for data manifolds traversals. To the best of our knowledge, our paper is the first one to propose a differentiable topological loss for disentanglement learning. Our experiments have shown that the proposed TopDis loss improves disentanglement scores such as MIG, FactorVAE score, SAP score, and DCI disentanglement score with respect to state-of-the-art results while preserving the reconstruction quality. Our method works in an unsupervised manner, permitting us to apply it to problems without labeled factors of variation. The TopDis loss works even when factors of variation are correlated. Additionally, we show how to use the proposed topological loss to find disentangled directions in a trained GAN. | 翻訳日:2024-05-30 04:36:37 公開日:2024-05-27 |
# 量子インターネットの堅牢性とスケーラビリティに関する実践的制限
Practical limitations on robustness and scalability of quantum Internet ( http://arxiv.org/abs/2308.12739v3 ) ライセンス: Link先を確認 | Abhishek Sadhu, Meghana Ayyala Somayajula, Karol Horodecki, Siddhartha Das, | (参考訳) 量子理論は、従来のシステムでは不可能な情報処理や計算タスクを可能にするため、既存のネットワークシステムを超えた量子インターネットの必要性と利用がある。
同時に、望ましくない機能を持つ量子インターネットの実現は、量子システムの送信時の高い損失、環境との相互作用によるデコヒーレンス、量子状態の脆弱性など、基本的で実践的な課題によって妨げられる。
量子インターネットのスケーリングとロバスト性に関する制約を解析することにより,これらの制約がもたらす影響について検討する。
量子ネットワークを考えると、セキュアな通信、デリゲートコンピューティング、および終端ノード間のリソース分布の実践的なボトルネックを提示する。
グラフ理論における抽象化の力(量子情報理論と関連)によって動機づけられたグラフ理論の量子化器は、ネットワークのロバスト性を評価し、量子インターネット上での通信が可能な通信回線の臨界値を提供する。
特に、デバイス非依存の量子キーリピータとして、デバイス非依存の量子キー分布に有用な等方性状態の有用性の制限について議論することから始める。
遠隔地空間を接続する衛星ネットワークから、現在利用可能なコンピュータ内の量子プロセッサアーキテクチャまで、量子情報処理タスクを実行するためのロバスト性の解析まで、実用的な量子ネットワークについて検討する。
これらのタスクのいくつかは、デリゲートされた量子コンピューティング、例えばエンタングルメント分布、量子テレポーテーションのためのプリミティブを形成する。
量子ネットワークのいくつかの例では、ネットワーク構造の構築、一対の終端ノード間の最短経路の探索、ノードでのリソースフローの最適化など、異なる量子ネットワークタスクを実行するアルゴリズムを提案する。
As quantum theory allows for information processing and computing tasks that otherwise are not possible with classical systems, there is a need and use of quantum Internet beyond existing network systems. At the same time, the realization of a desirably functional quantum Internet is hindered by fundamental and practical challenges such as high loss during transmission of quantum systems, decoherence due to interaction with the environment, fragility of quantum states, etc. We study the implications of these constraints by analyzing the limitations on the scaling and robustness of quantum Internet. Considering quantum networks, we present practical bottlenecks for secure communication, delegated computing, and resource distribution among end nodes. Motivated by the power of abstraction in graph theory (in association with quantum information theory), we consider graph-theoretic quantifiers to assess network robustness and provide critical values of communication lines for viable communication over quantum Internet. In particular, we begin by discussing limitations on usefulness of isotropic states as device-independent quantum key repeaters which otherwise could be useful for device-independent quantum key distribution. We consider some quantum networks of practical interest, ranging from satellite-based networks connecting far-off spatial locations to currently available quantum processor architectures within computers, and analyze their robustness to perform quantum information processing tasks. Some of these tasks form primitives for delegated quantum computing, e.g., entanglement distribution and quantum teleportation. For some examples of quantum networks, we present algorithms to perform different quantum network tasks of interest such as constructing the network structure, finding the shortest path between a pair of end nodes, and optimizing the flow of resources at a node. | 翻訳日:2024-05-30 04:36:37 公開日:2024-05-27 |
# Dual-Activated Lightweight Attention ResNet50による乳癌画像の自動分類
Dual-Activated Lightweight Attention ResNet50 for Automatic Histopathology Breast Cancer Image Classification ( http://arxiv.org/abs/2308.13150v9 ) ライセンス: Link先を確認 | Suxing Liu, | (参考訳) 病理組織像における乳がんの自動分類は,正確な診断と治療計画に不可欠である。
近年、ResNetアーキテクチャに基づく分類手法が普及し、スキップ接続を用いて勾配問題を緩和し、低レベルの特徴情報と高レベルの特徴情報を統合することで精度を著しく向上している。
それでも、従来のResNetアーキテクチャは、データ不均衡や限定的な解釈可能性、クロスドメイン知識の必要性、医療専門家間のコラボレーションといった課題に直面している。
本研究は,乳がん分類のための新しい手法であるDual-Activated Lightweight Attention ResNet50(DALAResNet50)モデルを導入することで,これらの課題を効果的に解決する。
トレーニング済みのResNet50モデルと軽量なアテンション機構を統合し、ResNet50の第4層にアテンションモジュールを埋め込み、LeakyReLUとReLUアクティベーション機能を備えた2つの完全に接続されたレイヤを組み込んで機能学習機能を強化している。
DALAResNet50法は,40X,100X,200X,400Xの乳がん組織像を用いて,それぞれ98.5%,98.7%,97.9%,94.3%の検診を行った。
また、SEResNet50、DenseNet121、VGG16、VGG16Inception、ViT、Swin-Transformer、Dinov2_Vitb14、ResNet50といった既存のディープラーニングモデルと比較された。
DALAResNet50の報告結果は、精度、F1スコア、IBA、GMeanに関する比較アプローチよりも優れており、異なる倍率と不均衡な乳癌データセットを扱う場合、顕著な堅牢性と広い適用性を示している。
Automatic breast cancer classification in histopathology images is crucial for precise diagnosis and treatment planning. Recently, classification approaches based on the ResNet architecture have gained popularity for significantly improving accuracy by using skip connections to mitigate vanishing gradient problems, thereby integrating low-level and high-level feature information. Nevertheless, the conventional ResNet architecture faces challenges such as data imbalance and limited interpretability, necessitating cross-domain knowledge and collaboration among medical experts. This study effectively addresses these challenges by introducing a novel method for breast cancer classification, the Dual-Activated Lightweight Attention ResNet50 (DALAResNet50) model. It integrates a pre-trained ResNet50 model with a lightweight attention mechanism, embedding an attention module in the fourth layer of ResNet50 and incorporating two fully connected layers with LeakyReLU and ReLU activation functions to enhance feature learning capabilities. The DALAResNet50 method was tested on breast cancer histopathology images from the BreakHis Database across magnification factors of 40X, 100X, 200X, and 400X, achieving accuracies of 98.5%, 98.7%, 97.9%, and 94.3%, respectively. It was also compared with established deep learning models such as SEResNet50, DenseNet121, VGG16, VGG16Inception, ViT, Swin-Transformer, Dinov2_Vitb14, and ResNet50. The reported results of DALAResNet50 have been shown to outperform the compared approaches regarding accuracy, F1 score, IBA, and GMean, demonstrating significant robustness and broad applicability when dealing with different magnifications and imbalanced breast cancer datasets | 翻訳日:2024-05-30 04:36:37 公開日:2024-05-27 |
# 擬似量子状態
Pseudomagic Quantum States ( http://arxiv.org/abs/2308.16228v3 ) ライセンス: Link先を確認 | Andi Gu, Lorenzo Leone, Soumik Ghosh, Jens Eisert, Susanne Yelin, Yihui Quek, | (参考訳) 非安定化剤性(英: nonstabilizerness)または「魔法」の表記は、非古典的な量子状態が正確にどのようにあるかを定量化する:低い非安定化剤性を示す状態は、量子上の優位性を妨げる。
量子状態の「擬似的」アンサンブルは、非安定化性は低いが、非安定化性が高いものとは計算的に区別できない。
従来、そのような計算の不明瞭さは絡み合いに関して研究され、擬似絡み合いの概念が導入された。
しかし、擬似偽造は擬似絡み合いから従わず、意味も示さない。
応用の観点からは、擬似磁性の研究は量子スクランブルの理論に新たな洞察を与える:それは、それらが非スクランブルユニタリに由来するとしても、スクランブル状態から物理的オブザーバーまで区別できないことを明らかにしている。
その他の応用としては、状態合成問題、プロパティテストプロトコル、量子暗号への含意に関する新しい下位境界がある。
我々の研究は、計算的に有界な観測者によって測定できる量(本質的に有限時間計算の制約によって制限される量)だけが物理的意義を持つという観察によって駆動される。
最終的に、我々の発見は、非安定化剤性は量子状態の「隠れ可能な」特性であり、いくつかの状態は計算的に有界な観測者にとって明らかなよりもずっと魔法的であることを示唆している。
Notions of nonstabilizerness, or "magic", quantify how non-classical quantum states are in a precise sense: states exhibiting low nonstabilizerness preclude quantum advantage. We introduce 'pseudomagic' ensembles of quantum states that, despite low nonstabilizerness, are computationally indistinguishable from those with high nonstabilizerness. Previously, such computational indistinguishability has been studied with respect to entanglement, introducing the concept of pseudoentanglement. However, we demonstrate that pseudomagic neither follows from pseudoentanglement nor implies it. In terms of applications, the study of pseudomagic offers fresh insights into the theory of quantum scrambling: it uncovers states that, even though they originate from non-scrambling unitaries, remain indistinguishable from scrambled states to any physical observer. Additional applications include new lower bounds on state synthesis problems, property testing protocols, and implications for quantum cryptography. Our work is driven by the observation that only quantities measurable by a computationally bounded observer - intrinsically limited by finite-time computational constraints - hold physical significance. Ultimately, our findings suggest that nonstabilizerness is a 'hide-able' characteristic of quantum states: some states are much more magical than is apparent to a computationally bounded observer. | 翻訳日:2024-05-30 04:26:52 公開日:2024-05-27 |
# テキストを目標可読性レベルに修正することは可能か? ゼロショット大言語モデルによる初期検討
Is it Possible to Modify Text to a Target Readability Level? An Initial Investigation Using Zero-Shot Large Language Models ( http://arxiv.org/abs/2309.12551v2 ) ライセンス: Link先を確認 | Asma Farajidizaji, Vatsal Raina, Mark Gales, | (参考訳) テキストの単純化は、テキストが理解しやすいように適応される一般的なタスクである。
同様に、テキストのエラボレーションは、理解テストを読む複雑さを制御する方法を提供することで、パスをより洗練されたものにすることができる。
しかし、テキストの読みやすさを相対的に変化させるには、テキストの単純化と編集作業が限られている。
あらゆるテキストの可読性を絶対目標の可読性レベルに修正して、多様なオーディエンスに適応させることが有用である。
理想的には、可読性制御された生成テキストの可読性は、ソーステキストとは独立していなければならない。
そこで本研究では,新しい可読性制御型テキスト修正タスクを提案する。
このタスクでは、各入力テキストに対して、様々なターゲット可読レベルで8つのバージョンを生成する必要がある。
本稿では,新しい可読性制御型テキスト修正指標を提案する。
このタスクのベースラインはChatGPTとLlama-2を使用しており、拡張アプローチでは2ステッププロセス(言語モデルを2回通すことでパラフレーズを生成する)が導入されている。
ゼロショットアプローチは、パラフレーズの可読性を所望の方向に押し上げることができるが、最終的な可読性は元のテキストの可読性と相関する。
また、ソーステキストとターゲットテキストのセマンティクスや語彙的類似性が大きく低下し、可読性が大きく変化した。
Text simplification is a common task where the text is adapted to make it easier to understand. Similarly, text elaboration can make a passage more sophisticated, offering a method to control the complexity of reading comprehension tests. However, text simplification and elaboration tasks are limited to only relatively alter the readability of texts. It is useful to directly modify the readability of any text to an absolute target readability level to cater to a diverse audience. Ideally, the readability of readability-controlled generated text should be independent of the source text. Therefore, we propose a novel readability-controlled text modification task. The task requires the generation of 8 versions at various target readability levels for each input text. We introduce novel readability-controlled text modification metrics. The baselines for this task use ChatGPT and Llama-2, with an extension approach introducing a two-step process (generating paraphrases by passing through the language model twice). The zero-shot approaches are able to push the readability of the paraphrases in the desired direction but the final readability remains correlated with the original text's readability. We also find greater drops in semantic and lexical similarity between the source and target texts with greater shifts in the readability. | 翻訳日:2024-05-30 04:26:52 公開日:2024-05-27 |
# TimeGPT-1
TimeGPT-1 ( http://arxiv.org/abs/2310.03589v3 ) ライセンス: Link先を確認 | Azul Garza, Cristian Challu, Max Mergenthaler-Canseco, | (参考訳) 本稿では、時系列の最初の基礎モデルであるTimeGPTを紹介し、トレーニング中に見られない多様なデータセットの正確な予測を生成する。
我々は,既存の統計,機械学習,深層学習に対して事前学習したモデルを評価し,TGPTゼロショット推論が性能,効率,単純さに優れていることを示す。
我々の研究は、他の人工知能分野からの洞察が時系列分析に効果的に適用できるという説得力のある証拠を提供する。
我々は、大規模時系列モデルが、ディープラーニングにおける現代的進歩の能力を活用して、正確な予測へのアクセスを民主化し、不確実性を減少させるエキサイティングな機会を提供すると結論付けた。
In this paper, we introduce TimeGPT, the first foundation model for time series, capable of generating accurate predictions for diverse datasets not seen during training. We evaluate our pre-trained model against established statistical, machine learning, and deep learning methods, demonstrating that TimeGPT zero-shot inference excels in performance, efficiency, and simplicity. Our study provides compelling evidence that insights from other domains of artificial intelligence can be effectively applied to time series analysis. We conclude that large-scale time series models offer an exciting opportunity to democratize access to precise predictions and reduce uncertainty by leveraging the capabilities of contemporary advancements in deep learning. | 翻訳日:2024-05-30 04:17:08 公開日:2024-05-27 |
# Beyond Random Augmentations: ハードビューによる事前トレーニング
Beyond Random Augmentations: Pretraining with Hard Views ( http://arxiv.org/abs/2310.03940v5 ) ライセンス: Link先を確認 | Fabio Ferreira, Ivo Rapant, Jörg K. H. Franke, Frank Hutter, | (参考訳) 多くの自己監視学習(SSL)メソッドは、ビューとして知られる様々な画像拡張に対するモデル不変性を目標としている。
この不変性を達成するために、従来の手法では画像拡張パイプライン内のランダムサンプリング操作を利用する。
従来のランダム・ビュー・サンプリングに基づく事前学習パイプラインの有効性は、学習の進歩に寄与するビューを明示的に選択することで向上できると仮定する。
シンプルで効果的なアプローチは、高い損失をもたらすハードビューを選択することです。
本稿では,この仮説に基づいてランダムなビュー生成を拡張する学習自由戦略であるHVPを提案する。
HVPはSSL事前トレーニング中にモデルをより難しく、より難しいサンプルに公開することで、下流のパフォーマンスが向上する。
以下の反復的なステップを包含する。
1) ランダムに複数のビューをサンプリングし、事前訓練されたモデルを通して各ビューを前進させる。
2) 2つのビューのペアを作成し、損失を計算する。
3) 現在のモデル状態に応じて、最も損失率の高いペアを逆選択し、
4) 選択したペアで後方パスを実行する。
その結果,DINO,SimSiam,iBOT,SimCLRにまたがる転送タスクにおいて,100および300のエポック事前学習と類似した改善を,ImageNet上で平均1%の線形評価精度で達成した。
Many Self-Supervised Learning (SSL) methods aim for model invariance to different image augmentations known as views. To achieve this invariance, conventional approaches make use of random sampling operations within the image augmentation pipeline. We hypothesize that the efficacy of pretraining pipelines based on conventional random view sampling can be enhanced by explicitly selecting views that benefit the learning progress. A simple, yet effective approach is to select hard views that yield a higher loss. In this paper, we present Hard View Pretraining (HVP), a learning-free strategy that builds upon this hypothesis and extends random view generation. HVP exposes the model to harder, more challenging samples during SSL pretraining, which enhances downstream performance. It encompasses the following iterative steps: 1) randomly sample multiple views and forward each view through the pretrained model, 2) create pairs of two views and compute their loss, 3) adversarially select the pair yielding the highest loss depending on the current model state, and 4) run the backward pass with the selected pair. As a result, HVP achieves linear evaluation accuracy improvements of 1% on average on ImageNet for both 100 and 300 epoch pretraining and similar improvements on transfer tasks across DINO, SimSiam, iBOT, and SimCLR. | 翻訳日:2024-05-30 04:17:08 公開日:2024-05-27 |
# CausalCite:紙巻物の因果的な定式化
CausalCite: A Causal Formulation of Paper Citations ( http://arxiv.org/abs/2311.02790v3 ) ライセンス: Link先を確認 | Ishan Kumar, Zhijing Jin, Ehsan Mokhtarian, Siyuan Guo, Yuen Chen, Mrinmaya Sachan, Bernhard Schölkopf, | (参考訳) 論文の引用数(英: Citation count of a paper)は、科学界における論文の重要性を評価するために一般的に用いられるプロキシである。
しかし、引用法は論文の真の影響を正確に反映していないとして広く批判されている。
そこで本稿では,論文の因果的影響を評価することによって,論文の意義を計測する新しい手法であるCausalCiteを提案する。
CausalCiteは、従来のマッチングフレームワークを高次元のテキスト埋め込みに適応させる、新しい因果推論手法であるTextMatchに基づいている。
TextMatchは、大型言語モデル(LLM)からのテキスト埋め込みを用いて各論文をエンコードし、コサイン類似性によって類似したサンプルを抽出し、類似性値に基づいて類似論文の重み付き平均として反事実サンプルを合成する。
例えば、過去の1K論文のデータセットで科学専門家が報告したように、紙の影響と高い相関性、過去の論文に対する(テストオブタイム)アワード、AIの様々なサブフィールドにおける安定性などである。
我々はまた、将来の研究者が論文の品質をよりよく理解するために我々の指標を使用するための提案された方法として役立つ一連の発見を提供する。
私たちのコードはhttps://github.com/causalNLP/causal-cite.comで利用可能です。
Citation count of a paper is a commonly used proxy for evaluating the significance of a paper in the scientific community. Yet citation measures are widely criticized for failing to accurately reflect the true impact of a paper. Thus, we propose CausalCite, a new way to measure the significance of a paper by assessing the causal impact of the paper on its follow-up papers. CausalCite is based on a novel causal inference method, TextMatch, which adapts the traditional matching framework to high-dimensional text embeddings. TextMatch encodes each paper using text embeddings from large language models (LLMs), extracts similar samples by cosine similarity, and synthesizes a counterfactual sample as the weighted average of similar papers according to their similarity values. We demonstrate the effectiveness of CausalCite on various criteria, such as high correlation with paper impact as reported by scientific experts on a previous dataset of 1K papers, (test-of-time) awards for past papers, and its stability across various subfields of AI. We also provide a set of findings that can serve as suggested ways for future researchers to use our metric for a better understanding of the quality of a paper. Our code is available at https://github.com/causalNLP/causal-cite. | 翻訳日:2024-05-30 04:07:24 公開日:2024-05-27 |
# ゼロショット学習におけるクラス分布シフト:ロバスト表現の学習
Class Distribution Shifts in Zero-Shot Learning: Learning Robust Representations ( http://arxiv.org/abs/2311.18575v3 ) ライセンス: Link先を確認 | Yuli Slavutsky, Yuval Benjamini, | (参考訳) ゼロショットの学習方法は、通常、デプロイ時に遭遇する新しい、目に見えないクラスは、トレーニングクラスと同じ分布から来ていると仮定する。
しかし、実世界のシナリオは、しばしばクラス分布のシフト(例えば、年齢や個人識別の性別)を伴い、訓練クラスから学んだ表現に依存するゼロショット分類器の課題を提起する。
本研究では,このシフトの原因となる属性が事前に不明であると仮定し,標準学習が非破壊的表現につながる可能性を示唆するモデルを提案する。
これを軽減するために,頑健な表現を学習するためのアルゴリズムを提案する。
(a)階層的なサンプリングと合成データ環境の構築
b) アウト・オブ・ディストリビューション問題にインスパイアされた環境バランスのペナライゼーションを適用すること。
提案手法は,シミュレーションと実世界のデータセットの両方において,多様なクラス分布の一般化を改善する。
Zero-shot learning methods typically assume that the new, unseen classes that are encountered at deployment, come from the same distribution as training classes. However, real-world scenarios often involve class distribution shifts (e.g., in age or gender for person identification), posing challenges for zero-shot classifiers that rely on learned representations from training classes. In this work, we propose a model that assumes that the attribute responsible for the shift is unknown in advance, and show that standard training may lead to non-robust representations. To mitigate this, we propose an algorithm for learning robust representations by (a) constructing synthetic data environments via hierarchical sampling and (b) applying environment balancing penalization, inspired by out-of-distribution problems. We show that our approach improves generalization on diverse class distributions in both simulations and real-world datasets. | 翻訳日:2024-05-30 04:07:24 公開日:2024-05-27 |
# 姿勢予測のための多モーダル言語リソースUstanceBR
UstanceBR: a multimodal language resource for stance prediction ( http://arxiv.org/abs/2312.06374v3 ) ライセンス: Link先を確認 | Camila Pereira, Matheus Pavan, Sungwon Yoon, Ricelli Ramos, Pablo Costa, Lais Cavalheiro, Ivandre Paraboni, | (参考訳) この研究は、ターゲットベースの姿勢予測のためのブラジルのTwitterドメインのマルチモーダルコーパスであるUstanceBRを紹介する。
コーパスは、選択された対象トピックに対する86.8kのラベル付きスタンスと、これらのスタンスをソーシャルメディアで公開したユーザに関する広範なネットワーク情報で構成されている。
本稿では,コーパスマルチモーダルデータと,テキストおよびネットワーク関連情報に基づくドメイン内およびゼロショット姿勢予測における多くの利用例について述べる。
This work introduces UstanceBR, a multimodal corpus in the Brazilian Portuguese Twitter domain for target-based stance prediction. The corpus comprises 86.8 k labelled stances towards selected target topics, and extensive network information about the users who published these stances on social media. In this article we describe the corpus multimodal data, and a number of usage examples in both in-domain and zero-shot stance prediction based on text- and network-related information, which are intended to provide initial baseline results for future studies in the field. | 翻訳日:2024-05-30 03:57:34 公開日:2024-05-27 |
# ボロノイテッセルレーションの自動識別法
A Method for Auto-Differentiation of the Voronoi Tessellation ( http://arxiv.org/abs/2312.16192v2 ) ライセンス: Link先を確認 | Sergei Shumilin, Alexander Ryabov, Serguei Barannikov, Evgeny Burnaev, Vladimir Vanovskii, | (参考訳) ボロノイテッセルレーション(英: Voronoi tessellation)またはボロノイ図(英: Voronoi diagram)は、様々な科学分野に応用できる重要な計算幾何学技術である。
与えられた空間を点の集合に近接して領域に分割する。
自動微分は最適化タスクを解決する強力なツールです。
自己微分は、バックプロパゲーションアルゴリズムを用いて勾配を計算することができる計算グラフを構築することを前提としている。
しかしながら、多くの場合、ヴォロノイ・テッセルレーションはパイプラインの唯一の非微分可能部分であり、エンドツーエンドの区別を禁止している。
本稿では,2次元ヴォロノイテッセルレーションの自動微分法を提案する。
この方法により、ヴォロノイのテッセル化と勾配の通過が可能であるため、建設の終端と終端を区別できる。
実装の詳細といくつかの重要な応用について述べる。
我々の知る限りでは、これはボロノイ・テッセルレーションの自己微分可能な最初の実現であり、ボロノイ幾何学的パラメータの完全な集合を微分可能な方法で提供する。
Voronoi tessellation, also known as Voronoi diagram, is an important computational geometry technique that has applications in various scientific disciplines. It involves dividing a given space into regions based on the proximity to a set of points. Autodifferentiation is a powerful tool for solving optimization tasks. Autodifferentiation assumes constructing a computational graph that allows to compute gradients using backpropagation algorithm. However, often the Voronoi tessellation remains the only non-differentiable part of a pipeline, prohibiting end-to-end differentiation. We present the method for autodifferentiation of the 2D Voronoi tessellation. The method allows one to construct the Voronoi tessellation and pass gradients, making the construction end-to-end differentiable. We provide the implementation details and present several important applications. To the best of our knowledge this is the first autodifferentiable realization of the Voronoi tessellation providing full set of Voronoi geometrical parameters in a differentiable way. | 翻訳日:2024-05-30 03:57:34 公開日:2024-05-27 |
# PlaceFormer:マルチスケールパッチ選択と融合によるトランスフォーマーに基づく視覚的位置認識
PlaceFormer: Transformer-based Visual Place Recognition using Multi-Scale Patch Selection and Fusion ( http://arxiv.org/abs/2401.13082v2 ) ライセンス: Link先を確認 | Shyam Sundar Kannan, Byung-Cheol Min, | (参考訳) 視覚的な場所認識は、コンピュータビジョンや自律ロボットと車両の分野で難しい課題であり、視覚的な入力から場所や場所を特定することを目的としている。
現代の視覚的位置認識法では、畳み込みニューラルネットワークを使用し、画像内のすべての領域を位置認識タスクに利用している。
しかし、画像中の動的および散逸する要素の存在は、位置認識プロセスの有効性に影響を及ぼす可能性がある。
したがって、画像のタスク関連領域に着目して認識を改善することが重要である。
本稿では、視覚的位置認識のための新しいトランスフォーマーベースのアプローチであるPlaceFormerを提案する。
PlaceFormerは、トランスフォーマーからのパッチトークンを使用して、グローバルなイメージ記述子を生成し、イメージ検索に使用する。
取得したイメージを再ランクするために、PlaceFormerは、変換器からパッチトークンをマージして、マルチスケールのパッチを形成する。
変換器の自己保持機構を利用して、画像内のタスク関連領域に対応するパッチを選択する。
これらの選択されたパッチは幾何的検証を行い、異なるパッチサイズで類似度スコアを生成する。
その後、各パッチサイズの空間スコアを融合して最終的な類似度スコアを生成する。
このスコアは、グローバルなイメージディスクリプタを使用して最初に取得されたイメージを再ランクするために使用される。
ベンチマークデータセットに関する大規模な実験により、PlaceFormerは精度と計算効率の点で最先端のいくつかのメソッドより優れており、時間とメモリがより少ないことが示されている。
Visual place recognition is a challenging task in the field of computer vision, and autonomous robotics and vehicles, which aims to identify a location or a place from visual inputs. Contemporary methods in visual place recognition employ convolutional neural networks and utilize every region within the image for the place recognition task. However, the presence of dynamic and distracting elements in the image may impact the effectiveness of the place recognition process. Therefore, it is meaningful to focus on task-relevant regions of the image for improved recognition. In this paper, we present PlaceFormer, a novel transformer-based approach for visual place recognition. PlaceFormer employs patch tokens from the transformer to create global image descriptors, which are then used for image retrieval. To re-rank the retrieved images, PlaceFormer merges the patch tokens from the transformer to form multi-scale patches. Utilizing the transformer's self-attention mechanism, it selects patches that correspond to task-relevant areas in an image. These selected patches undergo geometric verification, generating similarity scores across different patch sizes. Subsequently, spatial scores from each patch size are fused to produce a final similarity score. This score is then used to re-rank the images initially retrieved using global image descriptors. Extensive experiments on benchmark datasets demonstrate that PlaceFormer outperforms several state-of-the-art methods in terms of accuracy and computational efficiency, requiring less time and memory. | 翻訳日:2024-05-30 03:47:50 公開日:2024-05-27 |
# SERNet-Former:Attention-Boosting GatesとAttention-Fusion Networksを用いた効率的な残留ネットワークによるセマンティックセグメンテーション
SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks ( http://arxiv.org/abs/2401.15741v5 ) ライセンス: Link先を確認 | Serdar Erisen, | (参考訳) セマンティックセグメンテーションにおける最先端の手法の効率を改善するには、計算コストの増大を克服し、グローバルな文脈やローカルな文脈から意味情報を抽出するといった問題を克服する必要がある。
セマンティックセグメンテーションにおいて畳み込みニューラルネットワーク(CNN)が遭遇する最近の成功と問題に基づいて,一意に効率的な残余ネットワークであるEfficient-ResNetを用いたエンコーダデコーダアーキテクチャを提案する。
エンコーダ内の効率的な残留ネットワークのグローバルコンテキストの出力の等価サイズで同変および特徴に基づく意味情報を融合することを目的として、アテンションブースティングゲート(AbG)とアテンションブースティングモジュール(AbM)を配置する。
留意して、デコーダネットワークは、AbMにインスパイアされた追加の注意融合ネットワーク(AfN)で開発される。
AfNは、デコーダ部に追加の畳み込み層を配置することにより、意味情報の1対1変換の効率を向上させるように設計されている。
我々のネットワークは、挑戦的なCamVidとCityscapesのデータセットでテストされており、提案手法により、残余ネットワークに対する大幅な改善が示されている。
我々の知る限り、開発ネットワークであるSERNet-FormerはCamVidデータセット上で最先端の結果(84.62 %はIoU)を達成し、Cityscapesバリデーションデータセットでは挑戦的な結果(87.35 %はIoU)を達成している。
Improving the efficiency of state-of-the-art methods in semantic segmentation requires overcoming the increasing computational cost as well as issues such as fusing semantic information from global and local contexts. Based on the recent success and problems that convolutional neural networks (CNNs) encounter in semantic segmentation, this research proposes an encoder-decoder architecture with a unique efficient residual network, Efficient-ResNet. Attention-boosting gates (AbGs) and attention-boosting modules (AbMs) are deployed by aiming to fuse the equivariant and feature-based semantic information with the equivalent sizes of the output of global context of the efficient residual network in the encoder. Respectively, the decoder network is developed with the additional attention-fusion networks (AfNs) inspired by AbM. AfNs are designed to improve the efficiency in the one-to-one conversion of the semantic information by deploying additional convolution layers in the decoder part. Our network is tested on the challenging CamVid and Cityscapes datasets, and the proposed methods reveal significant improvements on the residual networks. To the best of our knowledge, the developed network, SERNet-Former, achieves state-of-the-art results (84.62 % mean IoU) on CamVid dataset and challenging results (87.35 % mean IoU) on Cityscapes validation dataset. | 翻訳日:2024-05-30 03:47:50 公開日:2024-05-27 |
# ニューラルスケーリング法則の動的モデル
A Dynamical Model of Neural Scaling Laws ( http://arxiv.org/abs/2402.01092v3 ) ライセンス: Link先を確認 | Blake Bordelon, Alexander Atanasov, Cengiz Pehlevan, | (参考訳) さまざまなタスクにおいて、ニューラルネットワークのパフォーマンスは、トレーニング時間、データセットサイズ、モデルサイズをさまざまな桁にわたって予測的に改善する。
この現象は神経スケーリング法則として知られている。
基本的重要性は計算最適スケーリング法であり、モデルサイズを最適に選択する際に計算単位の関数として性能を報告する。
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
これは、ニューラルスケーリング法則に関する多くの観察を再現する。
まず,本モデルでは,トレーニング時間とモデルサイズの違いによるパフォーマンスのスケーリングが,異なる法則指数を持つ理由を予測した。
その結果、この理論は、最近の経験的観測と一致して、トレーニングステップの数がモデルパラメータよりも速く増加する非対称な計算-最適スケーリングルールを予測する。
第二に、トレーニングの早い段階でネットワークは1/\textit{width}$で無限幅のダイナミクスに収束するが、遅くとも$\textit{width}^{-c}$はアーキテクチャやタスクの構造に依存する。
私たちはこの行動を示すモデルを示します。
最後に、我々の理論は、データの繰り返し再利用によって、トレーニングとテストの損失のギャップが徐々に増大することを示している。
On a variety of tasks, the performance of neural networks predictably improves with training time, dataset size and model size across many orders of magnitude. This phenomenon is known as a neural scaling law. Of fundamental importance is the compute-optimal scaling law, which reports the performance as a function of units of compute when choosing model sizes optimally. We analyze a random feature model trained with gradient descent as a solvable model of network training and generalization. This reproduces many observations about neural scaling laws. First, our model makes a prediction about why the scaling of performance with training time and with model size have different power law exponents. Consequently, the theory predicts an asymmetric compute-optimal scaling rule where the number of training steps are increased faster than model parameters, consistent with recent empirical observations. Second, it has been observed that early in training, networks converge to their infinite-width dynamics at a rate $1/\textit{width}$ but at late time exhibit a rate $\textit{width}^{-c}$, where $c$ depends on the structure of the architecture and task. We show that our model exhibits this behavior. Lastly, our theory shows how the gap between training and test loss can gradually build up over time due to repeated reuse of data. | 翻訳日:2024-05-30 03:38:05 公開日:2024-05-27 |
# コールドサプライチェーンにおけるモノのインターネット実装バリアの解析:統合ISM-MICMACとDEMATELアプローチ
Analysis of Internet of Things Implementation Barriers in the Cold Supply Chain: An Integrated ISM-MICMAC and DEMATEL Approach ( http://arxiv.org/abs/2402.01804v3 ) ライセンス: Link先を確認 | Kazrin Ahmad, Md. Saiful Islam, Md Abrar Jahin, M. F. Mridha, | (参考訳) コールドサプライチェーン内でIoT(Internet of Things)テクノロジを統合することで、透明性、効率、品質の向上、運用手順の最適化、生産性の向上が可能になる。
この複雑な環境でのIoTの統合は、徹底的な検査を必要とする特定の障壁によって妨げられています。
コールドサプライチェーンにおけるIoT実装に対する重要な障壁は、2段階モデルを用いて同定される。
IoT実装に関する文献をレビューした結果、合計で13の障壁が見つかった。
調査データは品質のためにクロスバリデーションされ、クロンバッハのアルファテストは有効性を確保するために使用された。
本研究は,第一段階における解釈的構造モデリング手法を適用し,主な障壁を同定する。
これらの障壁の中で、“正規性コンプライアンス”と“コールドチェーンネットワーク”が、IoT採用戦略の主要な要因である。
MICMACの駆動および依存パワー要素の分類はバリア相互作用を評価するのに役立つ。
本研究の第2段階では,障壁間の因果関係を同定し,その重要性に応じて評価するための意思決定試験および評価試験手法が採用された。
それぞれの原因が潜在的な駆動力であり、その効率が向上できれば、システム全体がメリットになります。
この調査の結果は、業界関係者、政府、組織にIoT採用の大きな要因を与え、これらの障壁を克服し、コールドサプライチェーンの有効性と信頼性を改善するためにIoTテクノロジの利用を最適化する。
Integrating Internet of Things (IoT) technology inside the cold supply chain can enhance transparency, efficiency, and quality, optimizing operating procedures and increasing productivity. The integration of IoT in this complicated setting is hindered by specific barriers that need a thorough examination. Prominent barriers to IoT implementation in the cold supply chain are identified using a two-stage model. After reviewing the available literature on the topic of IoT implementation, a total of 13 barriers were found. The survey data was cross-validated for quality, and Cronbach's alpha test was employed to ensure validity. This research applies the interpretative structural modeling technique in the first phase to identify the main barriers. Among those barriers, "regularity compliance" and "cold chain networks" are key drivers for IoT adoption strategies. MICMAC's driving and dependence power element categorization helps evaluate the barrier interactions. In the second phase of this research, a decision-making trial and evaluation laboratory methodology was employed to identify causal relationships between barriers and evaluate them according to their relative importance. Each cause is a potential drive, and if its efficiency can be enhanced, the system as a whole benefits. The research findings provide industry stakeholders, governments, and organizations with significant drivers of IoT adoption to overcome these barriers and optimize the utilization of IoT technology to improve the effectiveness and reliability of the cold supply chain. | 翻訳日:2024-05-30 03:38:05 公開日:2024-05-27 |
# MetaOptimize: ステップサイズや他のメタパラメータを最適化するためのフレームワーク
MetaOptimize: A Framework for Optimizing Step Sizes and Other Meta-parameters ( http://arxiv.org/abs/2402.02342v4 ) ライセンス: Link先を確認 | Arsalan Sharifnassab, Saber Salehkaleybar, Richard Sutton, | (参考訳) 本稿では,機械学習アルゴリズムにおけるメタパラメータ(ハイパーパラメータ)の最適化という課題に対処する。
計算コストのかかる従来のメタパラメータ探索手法から離れ、トレーニング中にメタパラメータ、特にステップサイズ(学習率)を動的に調整するメタ最適化フレームワークを導入する。
より具体的に言えば、MetaOptimizeは任意の一階最適化アルゴリズムをラップし、ステップサイズを調整して、将来の損失の割引によって、トレーニングにおけるステップサイズが長期的な影響を考慮に入れている後悔の特定の形態を最小化することができる。
また,MetaOptimizeの低複雑性な変種を導入し,複数の最適化アルゴリズムへの適応性とともに,さまざまな機械学習アプリケーションにまたがる手作り学習率の最高のスケジュールに匹敵する性能を示す。
This paper addresses the challenge of optimizing meta-parameters (i.e., hyperparameters) in machine learning algorithms, a critical factor influencing training efficiency and model performance. Moving away from the computationally expensive traditional meta-parameter search methods, we introduce MetaOptimize framework that dynamically adjusts meta-parameters, particularly step sizes (also known as learning rates), during training. More specifically, MetaOptimize can wrap around any first-order optimization algorithm, tuning step sizes on the fly to minimize a specific form of regret that accounts for long-term effect of step sizes on training, through a discounted sum of future losses. We also introduce low complexity variants of MetaOptimize that, in conjunction with its adaptability to multiple optimization algorithms, demonstrate performance competitive to those of best hand-crafted learning rate schedules across various machine learning applications. | 翻訳日:2024-05-30 03:38:05 公開日:2024-05-27 |
# 機械は複雑な推論に優れているか?
Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification ( http://arxiv.org/abs/2402.03686v3 ) ライセンス: Link先を確認 | Soumya Sanyal, Tianyi Xiao, Jiacheng Liu, Wenya Wang, Xiang Ren, | (参考訳) 意味を理解するためにテキスト理解で推論を行うことは、言語処理において不可欠である。
本研究では,複数の推論を暗黙的に行うシステムを必要とする多文前提のEV問題について検討する。
このような複雑な前提に対するEVの研究は、一貫性のないモデル生成的有理性を検出するような現代のNLP問題は、複雑なマルチホップ推論を必要とするため重要である。
しかしながら、現在のテキスト推論データセットには、これらの課題に部分的に焦点を絞った短い前提がほとんど含まれています。
これを解決するために,多文前提を含む3つのNLPドメイン(NLI,コンテキストQA,合理性)のデータセットを含むEVベンチマークをコンパイルする。
人間とLLMのベンチマークでは、LLMは拡張されたコンテキストをまたいだマルチホップ推論において人間よりも優れており、人間は簡素な推論タスクにおいて優れた性能を発揮する。
また、2つのトレーニング目標を用いてEV用Flan-T5モデルを微調整し、GPT-3.5と競合するGPT-4を上回る強力なオープンソースモデルを得る。
最後に、このモデルを用いて、自己整合性復号における一貫性のないモデル生成論理をフィルタリングし、3つのMCQデータセットの平均で6%の精度向上をもたらす。
Making inferences in text comprehension to understand the meaning is essential in language processing. This work studies the entailment verification (EV) problem of multi-sentence premises that requires a system to make multiple inferences implicitly. Studying EV for such complex premises is important because modern NLP problems, such as detecting inconsistent model-generated rationales, require complex multi-hop reasoning. However, current textual inference datasets mostly contain short premises that only partially focus on these challenges. To address this, we compile an EV benchmark that includes datasets from three NLP domains (NLI, contextual QA, and rationales) containing multi-sentence premises. On benchmarking humans and LLMs, we find that LLMs are better than humans in multi-hop reasoning across extended contexts, while humans perform better in simple deductive reasoning tasks. We also finetune a Flan-T5 model for EV using two training objectives to obtain a strong open-source model that outperforms GPT-3.5 and rivals GPT-4. Finally, we use this model to filter out inconsistent model-generated rationales in self-consistency decoding, resulting in a 6% accuracy improvement on average across three MCQ datasets. | 翻訳日:2024-05-30 03:38:05 公開日:2024-05-27 |
# コンテキストレスバンドのオンライン学習へのベイズ的アプローチと公衆衛生への応用
A Bayesian Approach to Online Learning for Contextual Restless Bandits with Applications to Public Health ( http://arxiv.org/abs/2402.04933v2 ) ライセンス: Link先を確認 | Biyonka Liang, Lily Xu, Aparna Taneja, Milind Tambe, Lucas Janson, | (参考訳) 公衆衛生プログラムは受益者の順守を促進するための介入をしばしば提供し、効果的に介入を割り当てることは、最も大きな総合的な健康結果を生み出すのに不可欠である。
このような資源配分問題は、しばしば、未知の遷移ダイナミクスを持つレスレス・マルチアーム・バンディット (RMAB) としてモデル化されるため、オンライン強化学習 (RL) が必要となる。
ベイジアン・ラーニング・フォー・コンテクチュアル・RMABs(BCoR)は、ベイジアン・モデリングの手法とトンプソン・サンプリングの技法を巧みに組み合わせて、コンテキストや非定常性などの公衆衛生プログラムの付着問題に存在する複雑なRMAB設定を柔軟にモデル化する、RMABのオンラインRLアプローチである。
BCoRの重要な強みは、腕内と腕間の共有情報を活用して、公衆衛生アプリケーションでよく見られる、比較的短い時間的地平線を持つ介入スカース環境で、未知のRMABトランジションダイナミクスを迅速に学習する能力である。
経験的に、BCoRは、大規模な母体健康プログラムを実行するインドのNGOであるARMMANと共同で開発された実世界の付着データに基づく例、BCoRの実用性と実世界の展開の可能性を示す例など、様々な実験環境において、はるかに高い有限サンプル性能を実現している。
Public health programs often provide interventions to encourage beneficiary adherence,and effectively allocating interventions is vital for producing the greatest overall health outcomes. Such resource allocation problems are often modeled as restless multi-armed bandits (RMABs) with unknown underlying transition dynamics, hence requiring online reinforcement learning (RL). We present Bayesian Learning for Contextual RMABs (BCoR), an online RL approach for RMABs that novelly combines techniques in Bayesian modeling with Thompson sampling to flexibly model the complex RMAB settings present in public health program adherence problems, such as context and non-stationarity. BCoR's key strength is the ability to leverage shared information within and between arms to learn the unknown RMAB transition dynamics quickly in intervention-scarce settings with relatively short time horizons, which is common in public health applications. Empirically, BCoR achieves substantially higher finite-sample performance over a range of experimental settings, including an example based on real-world adherence data that was developed in collaboration with ARMMAN, an NGO in India which runs a large-scale maternal health program, showcasing BCoR practical utility and potential for real-world deployment. | 翻訳日:2024-05-30 03:28:21 公開日:2024-05-27 |
# 最後のダンス : 拡散モデルとベイズ的アプローチによるロバスト・バックドア攻撃
The last Dance : Robust backdoor attack via diffusion models and bayesian approach ( http://arxiv.org/abs/2402.05967v5 ) ライセンス: Link先を確認 | Orson Mengara, | (参考訳) 拡散モデル (diffusion model) は、ノイズや雑音の進行的な付加による前方および後方拡散過程の学習原理に基づいて訓練された最先端のディープラーニング生成モデルである。
本稿では,Hugging Faceフレームワークなどの音声ベースのDNNモデル,特に,時間を節約し,より効率的に結果を得る強力な機械学習モデルであるトランスフォーマーベースの人工知能モデルに焦点をあてる。
我々は、人工知能研究の世界で人気のあるフレームワークであるHugging Faceから派生したオーディオトランスフォーマーにおけるバックドア攻撃("BacKBayDiffMod`"と呼ばれる)の実現可能性を示す。
本研究で開発されたバックドアアタックは, バックドア拡散サンプリングとベイズ的アプローチを取り入れた有毒モデルトレーニングデータに基づく。
Diffusion models are state-of-the-art deep learning generative models that are trained on the principle of learning forward and backward diffusion processes via the progressive addition of noise and denoising. In this paper, we aim to fool audio-based DNN models, such as those from the Hugging Face framework, primarily those that focus on audio, in particular transformer-based artificial intelligence models, which are powerful machine learning models that save time and achieve results faster and more efficiently. We demonstrate the feasibility of backdoor attacks (called `BacKBayDiffMod`) on audio transformers derived from Hugging Face, a popular framework in the world of artificial intelligence research. The backdoor attack developed in this paper is based on poisoning model training data uniquely by incorporating backdoor diffusion sampling and a Bayesian approach to the distribution of poisoned data. | 翻訳日:2024-05-30 03:28:21 公開日:2024-05-27 |
# 自己教師付き学習における構造冗長性の低ランク近似
Low-Rank Approximation of Structural Redundancy for Self-Supervised Learning ( http://arxiv.org/abs/2402.06884v2 ) ライセンス: Link先を確認 | Kang Du, Yu Xiang, | (参考訳) 本研究では,その有効性に光を当てるために,再構成SSLのデータ生成機構について検討する。
ラベル付きサンプルの無限の量で、完全線形近似に十分かつ必要な条件を提供する。
この条件は、冗長なコンポーネントとともに、Yのラベルクラスを保存するフルランクコンポーネントを明らかにする。
この条件により、低ランクの分解によって冗長成分を近似し、分解のランクによってパラメータ化される新しい量$\epsilon_s$を導入して近似品質を測定することを提案する。
線形回帰とリッジ回帰の両方の条件下での過剰リスク解析に$\epsilon_s$を組み込む。後者の正規化手法は、学習した特徴の次元が下流タスクのラベル付きサンプルnの数よりもはるかに大きい場合のシナリオを扱う。
我々は、SSLと教師あり学習を異なる環境下で比較し、理論的な結果をサポートするための3つのスタイリングされた実験を設計する。
We study the data-generating mechanism for reconstructive SSL to shed light on its effectiveness. With an infinite amount of labeled samples, we provide a sufficient and necessary condition for perfect linear approximation. The condition reveals a full-rank component that preserves the label classes of Y, along with a redundant component. Motivated by the condition, we propose to approximate the redundant component by a low-rank factorization and measure the approximation quality by introducing a new quantity $\epsilon_s$, parameterized by the rank of factorization s. We incorporate $\epsilon_s$ into the excess risk analysis under both linear regression and ridge regression settings, where the latter regularization approach is to handle scenarios when the dimension of the learned features is much larger than the number of labeled samples n for downstream tasks. We design three stylized experiments to compare SSL with supervised learning under different settings to support our theoretical findings. | 翻訳日:2024-05-30 03:28:21 公開日:2024-05-27 |
# 専門家は泣かない - ペアを予測して知らないことを学ぶ
Experts Don't Cheat: Learning What You Don't Know By Predicting Pairs ( http://arxiv.org/abs/2402.08733v2 ) ライセンス: Link先を確認 | Daniel D. Johnson, Daniel Tarlow, David Duvenaud, Chris J. Maddison, | (参考訳) モデル ${\widehat{p}}_{\theta}(Y|X)$ が確率的実世界のプロセス $p(Y|X)$ をどの程度知っているかを特定することは、不正あるいは不正な回答や不正なアクションの発生を避けるために重要である。
しかし、これは生成モデルにとって困難である、なぜなら確率論的予測は、応答毎のノイズ(アラート不確実性)とプロセスに関する知識の欠如(エピステミック不確実性)を区別しないからであり、既存のエピステミック不確実性定量化技術は、モデルが不適切であるときに過度に信頼される傾向があるからだ。
我々は、モデルに$p(Y|X)$を近似させ、${\widehat{p}}_{\theta}(Y|X)$と$p(Y|X)$の残りのギャップを推定する一般的な戦略を提案する。
注意すべきことに、不正行為(つまり、予測を改善するたびに不正行為)が二階校正に等しいことを証明し、これは通常の校正の原則的拡張であり、正当に正しい頻繁な信頼区間を$p(Y|X)$で構築し、不正確な応答を高い確率で検出することができる。
提案手法は,不明瞭な画像分類,(合成)言語モデリング,部分的に観察可能なナビゲーションタスクなどにおいて,既存の手法よりも優れているモデルを正確に推定する。
Identifying how much a model ${\widehat{p}}_{\theta}(Y|X)$ knows about the stochastic real-world process $p(Y|X)$ it was trained on is important to ensure it avoids producing incorrect or "hallucinated" answers or taking unsafe actions. But this is difficult for generative models because probabilistic predictions do not distinguish between per-response noise (aleatoric uncertainty) and lack of knowledge about the process (epistemic uncertainty), and existing epistemic uncertainty quantification techniques tend to be overconfident when the model underfits. We propose a general strategy for teaching a model to both approximate $p(Y|X)$ and also estimate the remaining gaps between ${\widehat{p}}_{\theta}(Y|X)$ and $p(Y|X)$: train it to predict pairs of independent responses drawn from the true conditional distribution, allow it to "cheat" by observing one response while predicting the other, then measure how much it cheats. Remarkably, we prove that being good at cheating (i.e. cheating whenever it improves your prediction) is equivalent to being second-order calibrated, a principled extension of ordinary calibration that allows us to construct provably-correct frequentist confidence intervals for $p(Y|X)$ and detect incorrect responses with high probability. We demonstrate empirically that our approach accurately estimates how much models don't know across ambiguous image classification, (synthetic) language modeling, and partially-observable navigation tasks, outperforming existing techniques. | 翻訳日:2024-05-30 01:28:38 公開日:2024-05-27 |
# 多経路環境における離散確率推論の制御
Discrete Probabilistic Inference as Control in Multi-path Environments ( http://arxiv.org/abs/2402.10309v2 ) ライセンス: Link先を確認 | Tristan Deleu, Padideh Nouri, Nikolay Malkin, Doina Precup, Yoshua Bengio, | (参考訳) 離散分布および構造化分布からのサンプリングを逐次決定問題とみなし、対象がこの逐次過程の最後にサンプリングされるような確率的ポリシーを予め定義された報酬に比例して見つけることを目的とする。
最大エントロピー強化学習(MaxEnt RL)を用いてこの問題を解けるが、一般に、最適ポリシーによって誘導される状態の分布は、同じオブジェクトを生成する複数の方法が存在する場合に偏りが生じることが示されている。
この問題に対処するために、ジェネレーティブフローネットワーク(GFlowNets)は、マルコフ決定プロセス(MDP)全体にわたるフローの保存を概ね実施することにより、報酬に比例するオブジェクトをサンプリングする確率的ポリシーを学習する。
本稿では,MDP の構造によらず,最適な MaxEnt RL ポリシによって誘導される限界分布が元の報酬に比例することを保証するため,報酬を補正する最近の手法を拡張した。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
最後に,複数のMaxEnt RLおよびGFlowNetアルゴリズムの性能を,離散分布からのサンプリングを含む複数の問題に対して実験的に検討した。
We consider the problem of sampling from a discrete and structured distribution as a sequential decision problem, where the objective is to find a stochastic policy such that objects are sampled at the end of this sequential process proportionally to some predefined reward. While we could use maximum entropy Reinforcement Learning (MaxEnt RL) to solve this problem for some distributions, it has been shown that in general, the distribution over states induced by the optimal policy may be biased in cases where there are multiple ways to generate the same object. To address this issue, Generative Flow Networks (GFlowNets) learn a stochastic policy that samples objects proportionally to their reward by approximately enforcing a conservation of flows across the whole Markov Decision Process (MDP). In this paper, we extend recent methods correcting the reward in order to guarantee that the marginal distribution induced by the optimal MaxEnt RL policy is proportional to the original reward, regardless of the structure of the underlying MDP. We also prove that some flow-matching objectives found in the GFlowNet literature are in fact equivalent to well-established MaxEnt RL algorithms with a corrected reward. Finally, we study empirically the performance of multiple MaxEnt RL and GFlowNet algorithms on multiple problems involving sampling from discrete distributions. | 翻訳日:2024-05-30 01:28:38 公開日:2024-05-27 |
# DataDreamer: 合成データ生成と再現可能なLLMワークフローのためのツール
DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows ( http://arxiv.org/abs/2402.10379v2 ) ライセンス: Link先を確認 | Ajay Patel, Colin Raffel, Chris Callison-Burch, | (参考訳) 大規模言語モデル(LLM)は、幅広いタスクにおいて、NLP研究者にとって支配的かつ重要なツールとなっている。
現在、多くの研究者が合成データ生成、タスク評価、微調整、蒸留、その他のループ内のモデル研究ワークフローにLLMを使用している。
しかし、これらのモデルの規模、クローズドソースの性質、新しい新しいワークフローのための標準化されたツールの欠如から生じる課題がある。
これらのモデルが急速に普及し、これらのユニークな課題は、オープンサイエンスとそれらを使用する作業の再現性にすぐに悪影響を及ぼした。
本稿では,オープンソースのPythonライブラリであるDataDreamerを紹介する。
DataDreamerはまた、オープンサイエンスと再現性を促進するために提案するベストプラクティスの遵守を支援する。
ライブラリとドキュメントはhttps://github.com/datadreamer-dev/DataDreamer で公開されている。
Large language models (LLMs) have become a dominant and important tool for NLP researchers in a wide range of tasks. Today, many researchers use LLMs in synthetic data generation, task evaluation, fine-tuning, distillation, and other model-in-the-loop research workflows. However, challenges arise when using these models that stem from their scale, their closed source nature, and the lack of standardized tooling for these new and emerging workflows. The rapid rise to prominence of these models and these unique challenges has had immediate adverse impacts on open science and on the reproducibility of work that uses them. In this paper, we introduce DataDreamer, an open source Python library that allows researchers to write simple code to implement powerful LLM workflows. DataDreamer also helps researchers adhere to best practices that we propose to encourage open science and reproducibility. The library and documentation are available at https://github.com/datadreamer-dev/DataDreamer . | 翻訳日:2024-05-30 01:28:38 公開日:2024-05-27 |
# 相対的選好最適化: IdenticalおよびDiverse Prompt間の対比応答によるLLMアライメントの強化
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts ( http://arxiv.org/abs/2402.10958v2 ) ライセンス: Link先を確認 | Yueqin Yin, Zhendong Wang, Yi Gu, Hai Huang, Weizhu Chen, Mingyuan Zhou, | (参考訳) 大規模言語モデル(LLM)の分野では、モデルの多様さとユーザの好みを一致させることが重要な課題である。
DPO(Direct Preference Optimization)は、この分野において重要な役割を担っている。
同じプロンプトから派生した好みのペアを使用して機能し、追加の報酬モデルを必要としない。
しかし、DPOは人間の学習の複雑な性質を完全に反映していない。
この欠点を克服するために、相対的優先度最適化(RPO)を提案する。
RPOは、同一のプロンプトと関連するプロンプトの両方から、より好まれる反応を識別するように設計されている。
コントラスト重み付け機構を導入し、ペアセットとアンペアセットの両方を含む幅広い好みデータを用いてLLMのチューニングを可能にする。
このアプローチはモデルの学習能力を拡大し、より多様なプロンプトからの洞察を活用する。
対話や要約タスク,AlpacaEval2.0のリーダボードを用いた評価などの経験的テストを通じて,RPOは,LDMをユーザの好みに合わせて調整し,トレーニングプロセスの適応性を向上する上で,優れた能力を示した。
私たちのコードはhttps://github.com/yinyueqin/relative-preference-optimizationで見ることができます。
In the field of large language models (LLMs), aligning models with the diverse preferences of users is a critical challenge. Direct Preference Optimization (DPO) has played a key role in this area. It works by using pairs of preferences derived from the same prompts, and it functions without needing an additional reward model. However, DPO does not fully reflect the complex nature of human learning, which often involves understanding contrasting responses to not only identical but also similar questions. To overcome this shortfall, we propose Relative Preference Optimization (RPO). RPO is designed to discern between more and less preferred responses derived from both identical and related prompts. It introduces a contrastive weighting mechanism, enabling the tuning of LLMs using a broader range of preference data, including both paired and unpaired sets. This approach expands the learning capabilities of the model, allowing it to leverage insights from a more varied set of prompts. Through empirical tests, including dialogue and summarization tasks, and evaluations using the AlpacaEval2.0 leaderboard, RPO has demonstrated a superior ability to align LLMs with user preferences and to improve their adaptability during the training process. Our code can be viewed at https://github.com/yinyueqin/relative-preference-optimization | 翻訳日:2024-05-30 01:28:38 公開日:2024-05-27 |
# ED-Copilot:言語モデル診断支援による救急部門待ち時間削減
ED-Copilot: Reduce Emergency Department Wait Time with Language Model Diagnostic Assistance ( http://arxiv.org/abs/2402.13448v2 ) ライセンス: Link先を確認 | Liwen Sun, Abhineet Agarwal, Aaron Kornblith, Bin Yu, Chenyan Xiong, | (参考訳) 救急部(ED)では、診断前にトリアージと複数回の検査を行った。
この時間のかかるプロセスは、患者の死亡率、医療ミス、スタッフの燃え尽きなどに影響を与えるEDの混雑を引き起こす。
この研究は、人工知能システムを活用して、ED臨床医が効率的かつ正確な診断を行うのを助ける(時間的)コスト効率の診断支援を提案する。
ED臨床医と共同で、AIシステムのベンチマークであるMIMIC-ED-Assist(MIMIC-ED-Assist)を解析し、待ち時間を最小化し、死亡などの致命的な結果を正確に予測する実験室テストを提案する。
MIMIC-ED-Assistを用いて,患者固有の検査を逐次提案し,診断予測を行うED-Copilotを開発した。
ED-Copilotは、事前訓練されたバイオメディカル言語モデルを用いて患者情報を符号化し、強化学習を用いてED待ち時間を最小化し、予測精度を最大化する。
MIMIC-ED-Assistでは、ED-Copilotは平均待ち時間を4時間から2時間に半減しながらベースラインの予測精度を向上させる。
ED-Copilotはまた、患者の重症度に基づいて治療勧告を効果的にパーソナライズし、診断アシスタントとしての可能性を強調している。
MIMIC-ED-Assistは振り返りベンチマークであるため、ED-Copilotは観察されたテストのみを推奨するように制限されている。
ED-Copilotは最大許容時間が増加するにつれて,この制限なしに競争性能を達成することを示す。
私たちのコードはhttps://github.com/cxcscmu/ED-Copilot.comから入手可能です。
In the emergency department (ED), patients undergo triage and multiple laboratory tests before diagnosis. This time-consuming process causes ED crowding which impacts patient mortality, medical errors, staff burnout, etc. This work proposes (time) cost-effective diagnostic assistance that leverages artificial intelligence systems to help ED clinicians make efficient and accurate diagnoses. In collaboration with ED clinicians, we use public patient data to curate MIMIC-ED-Assist, a benchmark for AI systems to suggest laboratory tests that minimize wait time while accurately predicting critical outcomes such as death. With MIMIC-ED-Assist, we develop ED-Copilot which sequentially suggests patient-specific laboratory tests and makes diagnostic predictions. ED-Copilot employs a pre-trained bio-medical language model to encode patient information and uses reinforcement learning to minimize ED wait time and maximize prediction accuracy. On MIMIC-ED-Assist, ED-Copilot improves prediction accuracy over baselines while halving average wait time from four hours to two hours. ED-Copilot can also effectively personalize treatment recommendations based on patient severity, further highlighting its potential as a diagnostic assistant. Since MIMIC-ED-Assist is a retrospective benchmark, ED-Copilot is restricted to recommend only observed tests. We show ED-Copilot achieves competitive performance without this restriction as the maximum allowed time increases. Our code is available at https://github.com/cxcscmu/ED-Copilot. | 翻訳日:2024-05-30 01:18:48 公開日:2024-05-27 |
# 閉弱相互作用系の非コヒーレント進化は、ミクロ状態の確率の分配をもたらす
Non-coherent evolution of closed weakly interacting system leads to equidistribution of probabilities of microstates ( http://arxiv.org/abs/2402.14971v3 ) ライセンス: Link先を確認 | A. P. Meilakhs, | (参考訳) マクロ量子系の非コヒーレント進化の概念を導入する。
弱い相互作用を持つ系に対して、このような進化はマルコフ確率過程であることを示す。
過程を特徴づける系の状態間の遷移の速度は、フェルミの黄金律によって見出される。
このような進化は時間的に不可逆であり、系の全ての状態に確率の分配をもたらす。
さらに、単粒子状態における平均粒子数の時間依存性を探索し、その仮定の下でボルツマン衝突積分によって支配されることを示す。
この理論において、非コヒーレンス(英: non-coherence)とは、時間的に可逆なユニタリ進化を時間的に可逆な確率的進化に変換するメカニズムである。
このようにして、有名な時間的問題に対する可能な解を提示する。
We introduce a concept of non-coherent evolution of macroscopic quantum systems. We show that for weakly interacting systems such evolution is a Markovian stochastic process. The rates of transitions between states of the system, that characterize the process, are found by Fermi's golden rule. Such evolution is time-irreversible and leads to the equidistribution of probabilities across every state of the system. Further, we search for time dependence of mean numbers of particles in single-particle states and find that under made assumptions it is governed by Boltzmann collision integral. In this theory, the non-coherence is the mechanism that transforms time-reversible unitary evolution into time-irreversible stochastic evolution. Thus we present the possible solution for the famous time-arrow problem. | 翻訳日:2024-05-30 01:18:48 公開日:2024-05-27 |
# 低ウェイト高距離誤り訂正フェルミオン符号化
Low-Weight High-Distance Error Correcting Fermionic Encodings ( http://arxiv.org/abs/2402.15386v2 ) ライセンス: Link先を確認 | Fedor Simkovic IV, Martin Leib, Francisco Revson F. Pereira, | (参考訳) 誤り訂正特性を持つ実効的なフェルミオン・ツー・キュービット符号化のための拡張数値探索を行う。
理想的には、エンコーディングは、高最小距離、低重フェルミオン論理演算子、小さなクォービットからフェルミオンモード比、安定化器の測定のためのアンシラキュービットを含む単純なクォービット接続グラフなど、相容れないいくつかの属性のバランスをとるべきである。
私たちの戦略は,まずコード距離が$d\leq4$までのエンコーディングをブルートフォース列挙法で生成し,その後,これらのエンコーディングを出発点として使用してクリフォード変形を適用して,高い距離コードと$d\leq7$で識別する,という3段階の手順で構成されています。
従来報告されていた方法と比較して、安定化器と論理演算子の重みを著しく改善する有望な高距離符号化を複数報告する。
We perform an extended numerical search for practical fermion-to-qubit encodings with error correcting properties. Ideally, encodings should strike a balance between a number of the seemingly incompatible attributes, such as having a high minimum distance, low-weight fermionic logical operators, a small qubit to fermionic mode ratio and a simple qubit connectivity graph including ancilla qubits for the measurement of stabilizers. Our strategy consists of a three-step procedure in which we: first generate encodings with code distances up to $d\leq4$ by a brute-force enumeration technique; subsequently, we use these encodings as starting points and apply Clifford deformations to them which allows us to identify higher-distance codes with $d\leq7$; finally, we optimize the hardware connectivity graphs of resulting encodings in terms of the graph thickness and the number of connections per qubit. We report multiple promising high-distance encodings which significantly improve the weights of stabilizers and logical operators compared to previously reported alternatives. | 翻訳日:2024-05-30 01:18:48 公開日:2024-05-27 |
# 部分観察型シリーズチーム・ゲームにおける強化学習における情報構造の役割について
On the Role of Information Structure in Reinforcement Learning for Partially-Observable Sequential Teams and Games ( http://arxiv.org/abs/2403.00993v2 ) ライセンス: Link先を確認 | Awni Altabaa, Zhuoran Yang, | (参考訳) 逐次的意思決定問題において、情報構造とは、異なる時点に発生するシステム内の事象が相互にどのように影響するかを記述するものである。
古典的な強化学習モデル(例えば、MDP、POMDP)は単純で規則性の高い情報構造を仮定するが、予測状態表現のような一般的なモデルは、情報構造を明示的にモデル化しない。
対照的に、現実のシーケンシャルな意思決定問題は通常、複雑で時間的に変化するシステム変数の相互依存を伴い、情報構造のリッチで柔軟な表現を必要とする。
本稿では,情報構造を明示する新しい強化学習モデルを定式化する。
次に、このモデルを用いて、一般的なシーケンシャルな意思決定問題の統計的難易度に関する情報構造解析を行い、情報構造のDAG表現のグラフ理論量を用いて特徴付けを得る。
上界を達成するアルゴリズムを提示することにより、情報構造の観点から、一般的な逐次決定問題を学ぶ際のサンプルの複雑さの上限を証明した。
これにより、既知のトラクタビリティーの結果を回復し、一般的なシーケンシャルな意思決定問題における強化学習の新たな視点を与え、新たなトラクタブルな問題のクラスを特定する体系的な方法を提供する。
In a sequential decision-making problem, the information structure is the description of how events in the system occurring at different points in time affect each other. Classical models of reinforcement learning (e.g., MDPs, POMDPs) assume a simple and highly regular information structure, while more general models like predictive state representations do not explicitly model the information structure. By contrast, real-world sequential decision-making problems typically involve a complex and time-varying interdependence of system variables, requiring a rich and flexible representation of information structure. In this paper, we formalize a novel reinforcement learning model which explicitly represents the information structure. We then use this model to carry out an information-structural analysis of the statistical hardness of general sequential decision-making problems, obtaining a characterization via a graph-theoretic quantity of the DAG representation of the information structure. We prove an upper bound on the sample complexity of learning a general sequential decision-making problem in terms of its information structure by exhibiting an algorithm achieving the upper bound. This recovers known tractability results and gives a novel perspective on reinforcement learning in general sequential decision-making problems, providing a systematic way of identifying new tractable classes of problems. | 翻訳日:2024-05-30 01:09:03 公開日:2024-05-27 |
# シュレーディンガー猫量子状態を用いた所定の位相シフトの検出
Using Schroedinger cat quantum state for detection of a given phase shift ( http://arxiv.org/abs/2403.03787v3 ) ライセンス: Link先を確認 | V. L. Gorshenin, | (参考訳) Shroedinger cat の量子状態において準備された光パルスを2本腕干渉計の暗いポートと強い古典的な光を明るいポートに注入することで、原理上、所定の位相シフトを不明瞭に検出できることを示す。
この位相シフトの値は古典キャリアとシュレーディンガーの猫状態の振幅に逆比例する。
しかし、この目的にはエキゾチックな検出手順が必要である。
出力されるダークポートの光子数を測定することで、「偽陽性」確率で位相シフトを検出することができる。
この場合の「偽陰性」確率はシュレーディンガーの猫状態の振幅の増加に伴って減少し、この振幅の合理的な値は0.1程度小さくすることができる。
We show that injecting a light pulse prepared in the Shroedinger cat quantum state into the dark port of a two-arm interferometer and the strong classical light into the bright one, it is possible, in principle, to detect a given phase shift unambiguously. The value of this phase shift is inversely proportional to the amplitudes of both the classical carrier and Shroedinger cat state. However, an exotic detection procedure is required for this purpose. By measuring the number of photons at the output dark port, it is possible to detect the phase shift with the vanishing "false positive" probability. The "false negative" probability in this case decreases with the increase on the amplitude of the Schroedinger cat state and, for reasonable values of this amplitude, can be made as small as about 0.1. | 翻訳日:2024-05-30 01:09:03 公開日:2024-05-27 |
# 3次元拡散政策: シンプルな3次元表現による一般化可能なビジュモータ政策学習
3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations ( http://arxiv.org/abs/2403.03954v5 ) ライセンス: Link先を確認 | Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu, | (参考訳) 模倣学習は、ロボットに巧妙なスキルを教える効果的な方法を提供するが、複雑なスキルをしっかりと、一般化可能に学習することは、通常、大量の人間のデモンストレーションを消費する。
この課題に対処するため, 条件付き行動生成モデルである拡散ポリシーに3次元視覚表現のパワーを組み込んだ新しい視覚模倣学習手法である3次元拡散政策(DP3)を提案する。
DP3の中核設計は、効率的な点エンコーダを持つスパース点雲から抽出されたコンパクトな3次元視覚表現の利用である。
72のシミュレーションタスクを含む実験では、DP3は10のデモでほとんどのタスクをうまく処理し、24.2%の相対的な改善でベースラインを超えた。
4つの実ロボットタスクにおいて、DP3は、各タスクの40個のデモのみを考慮し、高い成功率85%の正確な制御を示し、空間、視点、外観、インスタンスなど様々な面で優れた一般化能力を示す。
興味深いことに、実際のロボット実験では、DP3は人間の介入を必要とするベースライン法とは対照的に、安全要件にほとんど違反しない。
実世界のロボット学習における3D表現の重要性を明らかにする。
ビデオ、コード、データはhttps://3d-diffusion-policy.github.ioで公開されている。
Imitation learning provides an efficient way to teach robots dexterous skills; however, learning complex skills robustly and generalizablely usually consumes large amounts of human demonstrations. To tackle this challenging problem, we present 3D Diffusion Policy (DP3), a novel visual imitation learning approach that incorporates the power of 3D visual representations into diffusion policies, a class of conditional action generative models. The core design of DP3 is the utilization of a compact 3D visual representation, extracted from sparse point clouds with an efficient point encoder. In our experiments involving 72 simulation tasks, DP3 successfully handles most tasks with just 10 demonstrations and surpasses baselines with a 24.2% relative improvement. In 4 real robot tasks, DP3 demonstrates precise control with a high success rate of 85%, given only 40 demonstrations of each task, and shows excellent generalization abilities in diverse aspects, including space, viewpoint, appearance, and instance. Interestingly, in real robot experiments, DP3 rarely violates safety requirements, in contrast to baseline methods which frequently do, necessitating human intervention. Our extensive evaluation highlights the critical importance of 3D representations in real-world robot learning. Videos, code, and data are available on https://3d-diffusion-policy.github.io . | 翻訳日:2024-05-30 01:09:03 公開日:2024-05-27 |
# 未知線形制約を用いたオンライン凸最適化の最適安全性
Optimistic Safety for Online Convex Optimization with Unknown Linear Constraints ( http://arxiv.org/abs/2403.05786v2 ) ライセンス: Link先を確認 | Spencer Hutchinson, Tianyi Chen, Mahnoosh Alizadeh, | (参考訳) 本稿では,オンライン凸最適化(OCO)の問題について,静的あるいは確率論的に時間変化のある未知の線形制約の下で検討する。
この問題に対して,オプティミティカルセーフOCO (OSOCO) と呼ぶアルゴリズムを導入し,このアルゴリズムが$\tilde{\mathcal{O}}(\sqrt{T})$ regretと制約違反を伴わないことを示す。
静的線型制約の場合、これは以前の最もよく知られた $\tilde{\mathcal{O}}(T^{2/3})$ regret をわずかに強い仮定で改善する。
確率的時間的制約の場合、我々の研究は、より一般的な凸制約の下での累積的違反を、より一般的なフィードバックモデルではなく、 $\mathcal{O}(\sqrt{T})$ regret と $\mathcal{O}(\sqrt{T})$ を示す既存の結果を補う。
理論的保証に加えて,OSOCOの性能を既存のアルゴリズムと比較する数値結果も提示する。
We study the problem of online convex optimization (OCO) under unknown linear constraints that are either static, or stochastically time-varying. For this problem, we introduce an algorithm that we term Optimistically Safe OCO (OSOCO) and show that it enjoys $\tilde{\mathcal{O}}(\sqrt{T})$ regret and no constraint violation. In the case of static linear constraints, this improves on the previous best known $\tilde{\mathcal{O}}(T^{2/3})$ regret with only slightly stronger assumptions. In the case of stochastic time-varying constraints, our work supplements existing results that show $\mathcal{O}(\sqrt{T})$ regret and $\mathcal{O}(\sqrt{T})$ cumulative violation under more general convex constraints albeit a less general feedback model. In addition to our theoretical guarantees, we also give numerical results comparing the performance of OSOCO to existing algorithms. | 翻訳日:2024-05-30 01:09:03 公開日:2024-05-27 |
# DSP: 多次元変圧器の動的シーケンス並列性
DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers ( http://arxiv.org/abs/2403.10266v2 ) ライセンス: Link先を確認 | Xuanlei Zhao, Shenggan Cheng, Chang Chen, Zangwei Zheng, Ziming Liu, Zheming Yang, Yang You, | (参考訳) 長い列への多次元変換器のスケーリングは、様々な領域で必須である。
しかし、大きなメモリ要求とそのようなシーケンスの遅い速度の課題は、シーケンス並列性を必要とする。
既存のすべてのアプローチは、単一のシーケンス次元に沿ってシャードに制限された組込みシーケンス並列化のカテゴリに該当するため、かなりの通信オーバーヘッドが生じる。
しかし、多次元変圧器の性質は、複数の列次元にまたがる独立計算を伴う。
そこで本研究では,動的シーケンス並列性(DSP)を並列性の新たな抽象化として提案する。
DSPは効率的な再シャーディング戦略で計算段階に応じて全列の並列次元を動的に切り替える。
DSPは通信コストの大幅な削減、モジュール間の適応性、最小限の制約による実装の容易性を提供する。
実験により、DSPは32.2%から10倍のスループット向上により25%未満の通信量で、最先端の組込みシーケンス並列化法よりも優れていることが示された。
Scaling multi-dimensional transformers to long sequences is indispensable across various domains. However, the challenges of large memory requirements and slow speeds of such sequences necessitate sequence parallelism. All existing approaches fall under the category of embedded sequence parallelism, which are limited to shard along a single sequence dimension, thereby introducing significant communication overhead. However, the nature of multi-dimensional transformers involves independent calculations across multiple sequence dimensions. To this end, we propose Dynamic Sequence Parallelism (DSP) as a novel abstraction of sequence parallelism. DSP dynamically switches the parallel dimension among all sequences according to the computation stage with efficient resharding strategy. DSP offers significant reductions in communication costs, adaptability across modules, and ease of implementation with minimal constraints. Experimental evaluations demonstrate DSP's superiority over state-of-the-art embedded sequence parallelism methods by remarkable throughput improvements ranging from 32.2% to 10x, with less than 25% communication volume. | 翻訳日:2024-05-30 00:59:19 公開日:2024-05-27 |
# EnCoMP:オフライン強化学習を用いた適応的脅威認識可視性推定によるカバート・ニューバ計画の強化
EnCoMP: Enhanced Covert Maneuver Planning with Adaptive Threat-Aware Visibility Estimation using Offline Reinforcement Learning ( http://arxiv.org/abs/2403.20016v2 ) ライセンス: Link先を確認 | Jumman Hossain, Abu-Zaher Faridee, Nirmalya Roy, Jade Freeman, Timothy Gregory, Theron T. Trout, | (参考訳) 複雑な環境で動作している自律ロボットは、潜在的な脅威への曝露を最小限に抑えるために、隠蔽航法のための環境カバーを特定し、活用する上で重要な課題に直面している。
本研究では, オフライン強化学習と, ロボットが多様な屋外環境下で隠蔽的かつ効率的にナビゲートできるように, 適応脅威認識可視性推定(ATAVE)アルゴリズムを統合した改良型ナビゲーションフレームワークであるEnCoMPを提案する。
ATAVEは動的確率論的脅威モデリング技術であり,環境や脅威条件に適応することで,ロボットの隠蔽行動能力を高めるとともに,脅威をリアルタイムに評価・緩和するように設計された。
さらに,本手法は,LiDAR点雲のカバーマップ,潜在的な脅威マップ,高度マップ,ゴールマップなどの多元性表現を生成し,環境の包括的理解を提供する。
これらのマルチマップは、詳細な環境情報を提供し、戦略的ナビゲーションの決定を支援する。
ゴールマップは、目標位置への相対距離と方向を符号化し、ロボットのナビゲーションを導く。
我々は、現実世界の環境から収集された大規模なデータセット上で保守的なQ-Learning(CQL)モデルをトレーニングし、カバー使用率を最大化し、脅威にさらされを最小限に抑え、効率的なナビゲーションを維持する堅牢なポリシーを学習する。
物理的ジャカルロボット上での手法の能力を実証し,多様な地形で実験を行った。
これらの実験は、最先端の手法と比較して、EnCoMPの優れた性能を示し、95%の成功率、85%のカバー利用、脅威曝露を10.5%削減し、ナビゲーション効率とロバストネスのベースラインを著しく上回っている。
Autonomous robots operating in complex environments face the critical challenge of identifying and utilizing environmental cover for covert navigation to minimize exposure to potential threats. We propose EnCoMP, an enhanced navigation framework that integrates offline reinforcement learning and our novel Adaptive Threat-Aware Visibility Estimation (ATAVE) algorithm to enable robots to navigate covertly and efficiently in diverse outdoor settings. ATAVE is a dynamic probabilistic threat modeling technique that we designed to continuously assess and mitigate potential threats in real-time, enhancing the robot's ability to navigate covertly by adapting to evolving environmental and threat conditions. Moreover, our approach generates high-fidelity multi-map representations, including cover maps, potential threat maps, height maps, and goal maps from LiDAR point clouds, providing a comprehensive understanding of the environment. These multi-maps offer detailed environmental insights, helping in strategic navigation decisions. The goal map encodes the relative distance and direction to the target location, guiding the robot's navigation. We train a Conservative Q-Learning (CQL) model on a large-scale dataset collected from real-world environments, learning a robust policy that maximizes cover utilization, minimizes threat exposure, and maintains efficient navigation. We demonstrate our method's capabilities on a physical Jackal robot, showing extensive experiments across diverse terrains. These experiments demonstrate EnCoMP's superior performance compared to state-of-the-art methods, achieving a 95% success rate, 85% cover utilization, and reducing threat exposure to 10.5%, while significantly outperforming baselines in navigation efficiency and robustness. | 翻訳日:2024-05-30 00:59:19 公開日:2024-05-27 |
# 密度推定による多重政治評価
Multiple-policy Evaluation via Density Estimation ( http://arxiv.org/abs/2404.00195v2 ) ライセンス: Link先を確認 | Yilei Chen, Aldo Pacchiano, Ioannis Ch. Paschalidis, | (参考訳) 我々は、K$ポリシーのセットを与えられた多重政治評価問題について検討し、その目標は、その性能(固定地平線上で予想される全報酬)を、少なくとも1-\delta$の確率で$\epsilon$の精度で評価することである。
本稿では,この問題に対して$\mathrm{CAESAR}$というアルゴリズムを提案する。
提案手法は, 最適オフラインサンプリング分布を近似的に計算し, 得られたデータを用いてポリシー値の同時推定を行う。
$\mathrm{CAESAR}$は2つのフェーズを持つ。
最初に、ターゲットポリシーの訪問分布の粗い推定値を、$\tilde{O}(\frac{1}{\epsilon})$でスケールする低次サンプル複雑性率で生成する。
第2フェーズでは、最適なオフラインサンプリング分布を近似し、DualDICE \cite{nachum2019dualdice} の目的にインスパイアされたステップワイド2次損失関数を最小化することにより、全ての目標ポリシーの重み付け比を計算する。
低次かつ対数的な用語 $\mathrm{CAESAR}$ はサンプル複雑性 $\tilde{O}\left(\frac{H^4}{\epsilon^2}\sum_{h=1}^H\max_{k\in[K]}\sum_{s,a}\frac{(d_h^{\pi^k}(s,a))^2}{\mu^*_h(s,a)}\right)$ を達成する。
We study the multiple-policy evaluation problem where we are given a set of $K$ policies and the goal is to evaluate their performance (expected total reward over a fixed horizon) to an accuracy $\epsilon$ with probability at least $1-\delta$. We propose an algorithm named $\mathrm{CAESAR}$ for this problem. Our approach is based on computing an approximate optimal offline sampling distribution and using the data sampled from it to perform the simultaneous estimation of the policy values. $\mathrm{CAESAR}$ has two phases. In the first we produce coarse estimates of the visitation distributions of the target policies at a low order sample complexity rate that scales with $\tilde{O}(\frac{1}{\epsilon})$. In the second phase, we approximate the optimal offline sampling distribution and compute the importance weighting ratios for all target policies by minimizing a step-wise quadratic loss function inspired by the DualDICE \cite{nachum2019dualdice} objective. Up to low order and logarithmic terms $\mathrm{CAESAR}$ achieves a sample complexity $\tilde{O}\left(\frac{H^4}{\epsilon^2}\sum_{h=1}^H\max_{k\in[K]}\sum_{s,a}\frac{(d_h^{\pi^k}(s,a))^2}{\mu^*_h(s,a)}\right)$, where $d^{\pi}$ is the visitation distribution of policy $\pi$, $\mu^*$ is the optimal sampling distribution, and $H$ is the horizon. | 翻訳日:2024-05-30 00:59:19 公開日:2024-05-27 |
# 2:4間隔での変圧器事前学習の高速化
Accelerating Transformer Pre-training with 2:4 Sparsity ( http://arxiv.org/abs/2404.01847v2 ) ライセンス: Link先を確認 | Yuezhou Hu, Kang Zhao, Weiyu Huang, Jianfei Chen, Jun Zhu, | (参考訳) 大きなトランスフォーマーのトレーニングは遅いが、GPUアーキテクチャに関する最近のイノベーションは、私たちに利点を与えてくれる。
NVIDIA Ampere GPUは、細粒度の2:4スパース行列乗算を、その密度の高い等価値の2倍の速さで実行することができる。
この特性を考慮し,前処理におけるトランスのフィードフォワードネットワーク(FFN)の実現可能性について包括的に検討する。
まず、2:4のトレーニングプロセスの安定性を監視するために、‘flip rate’を定義します。
本手法を応用して, グラデーションにマスク付き崩壊項を適用してスパース精製ストレートスルー推定器を修正し, ウォームアップ段階における実現可能な崩壊係数を判定し, プレトレーニングの終了付近で高密度微調整を行うことでモデル品質を向上させる3つの手法を提案する。
さらに,コンボリューションによる2:4マスクの変換と,GPU L2キャッシュミスの低減によるゲートアクティベーション関数の高速化という2つの手法を考案した。
実験により,この2:4スパース学習アルゴリズムは,複数の変圧器事前学習タスクにおいて,密集訓練アルゴリズムと類似の収束性を実現する一方,変圧器ブロックの異なる形状で実際の加速度が観測可能であることが示された。
ツールキットはhttps://github.com/huyz2023/2-pretrain.comから入手可能です。
Training large transformers is slow, but recent innovations on GPU architecture give us an advantage. NVIDIA Ampere GPUs can execute a fine-grained 2:4 sparse matrix multiplication twice as fast as its dense equivalent. In the light of this property, we comprehensively investigate the feasibility of accelerating feed-forward networks (FFNs) of transformers in pre-training. First, we define a ``flip rate'' to monitor the stability of a 2:4 training process. Utilizing this metric, we propose three techniques to preserve accuracy: to modify the sparse-refined straight-through estimator by applying the masked decay term on gradients, to determine a feasible decay factor in warm-up stage, and to enhance the model's quality by a dense fine-tuning procedure near the end of pre-training. Besides, we devise two techniques to practically accelerate training: to calculate transposable 2:4 masks by convolution, and to accelerate gated activation functions by reducing GPU L2 cache miss. Experiments show that our 2:4 sparse training algorithm achieves similar convergence to dense training algorithms on several transformer pre-training tasks, while actual acceleration can be observed on different shapes of transformer block apparently. Our toolkit is available at https://github.com/huyz2023/2by4-pretrain. | 翻訳日:2024-05-30 00:59:19 公開日:2024-05-27 |
# コミュニケーション効率の良いフェデレーション学習のための一般化境界の改善
Improved Generalization Bounds for Communication Efficient Federated Learning ( http://arxiv.org/abs/2404.11754v3 ) ライセンス: Link先を確認 | Peyman Gholami, Hulya Seferoglu, | (参考訳) 本稿では,一般化境界の探索と表現学習によるフェデレーション学習の通信コストの低減に焦点をあてる。
まず、ローカルクライアントの一般化とデータ分散の不均一性(非IDシナリオ)に基づいて、1ラウンドのフェデレーション学習に限定したより厳密な一般化を特徴付ける。
また、Rラウンドフェデレーション学習における一般化とその局所的更新数(局所確率勾配勾配(SGDs))との関係を特徴付ける。
そして、一般化境界解析とこの解析の表現学習解釈に基づいて、表現抽出器(通常は初期層に対応する)の頻度の低いアグリゲーションによりより局所的な更新が、特に非イドシナリオにおいてより一般化可能なモデルの作成につながることを示す。
我々は、一般化境界と表現学習分析に基づいて、適応的局所ステップ付きフェデレートラーニング(FedALS)アルゴリズムを設計する。
FedALSはモデルの異なる部分に様々なアグリゲーション周波数を使用するため、通信コストを削減できる。
本研究は,FedALSの有効性を示す実験結果と比較した。
This paper focuses on reducing the communication cost of federated learning by exploring generalization bounds and representation learning. We first characterize a tighter generalization bound for one-round federated learning based on local clients' generalizations and heterogeneity of data distribution (non-iid scenario). We also characterize a generalization bound in R-round federated learning and its relation to the number of local updates (local stochastic gradient descents (SGDs)). Then, based on our generalization bound analysis and our representation learning interpretation of this analysis, we show for the first time that less frequent aggregations, hence more local updates, for the representation extractor (usually corresponds to initial layers) leads to the creation of more generalizable models, particularly for non-iid scenarios. We design a novel Federated Learning with Adaptive Local Steps (FedALS) algorithm based on our generalization bound and representation learning analysis. FedALS employs varying aggregation frequencies for different parts of the model, so reduces the communication cost. The paper is followed with experimental results showing the effectiveness of FedALS. | 翻訳日:2024-05-30 00:49:33 公開日:2024-05-27 |
# 現代のUDAアルゴリズムにおける超確実現象
The Over-Certainty Phenomenon in Modern UDA Algorithms ( http://arxiv.org/abs/2404.16168v2 ) ライセンス: Link先を確認 | Fin Amin, Jung-Eun Kim, | (参考訳) ニューラルネットワークがトレーニングセットから逸脱した不慣れなデータに直面している場合、これはドメインシフトを意味する。
これらのネットワークは入力に関する予測を出力するが、これらの新しい観測に精通するレベルを説明できないのが普通である。
この課題は、組み込みシステムやエッジデバイスなど、リソース制約のある設定でさらに顕著になる。
このような課題に対処するために、我々は、ニューラルネットワークが観測するデータを認識することに関連して、ニューラルネットワークの判断境界を再検討し、確実な蒸留として作り出したアプローチを導入することを目的としている。
一般的な作業は、教師なし領域適応(UDA)をモデルエントロピーの削減の目的としながら、キャリブレーションの不正確さに対処する意図しない出生モデルである。
本稿では,従来の学習モデルの欠点を考察する。
この問題の解決法として,計算資源が限られている環境に適合性を維持しつつ,精度を向上するだけでなく,モデルのキャリブレーションも保証するUDAアルゴリズムを提案する。
When neural networks are confronted with unfamiliar data that deviate from their training set, this signifies a domain shift. While these networks output predictions on their inputs, they typically fail to account for their level of familiarity with these novel observations. This challenge becomes even more pronounced in resource-constrained settings, such as embedded systems or edge devices. To address such challenges, we aim to recalibrate a neural network's decision boundaries in relation to its cognizance of the data it observes, introducing an approach we coin as certainty distillation. While prevailing works navigate unsupervised domain adaptation (UDA) with the goal of curtailing model entropy, they unintentionally birth models that grapple with calibration inaccuracies - a dilemma we term the over-certainty phenomenon. In this paper, we probe the drawbacks of this traditional learning model. As a solution to the issue, we propose a UDA algorithm that not only augments accuracy but also assures model calibration, all while maintaining suitability for environments with limited computational resources. | 翻訳日:2024-05-30 00:49:33 公開日:2024-05-27 |
# Point-JEPA: Point Cloud上での自己教師付き学習のための予測アーキテクチャのインテグレーション
Point-JEPA: A Joint Embedding Predictive Architecture for Self-Supervised Learning on Point Cloud ( http://arxiv.org/abs/2404.16432v2 ) ライセンス: Link先を確認 | Ayumu Saito, Jiju Poovvancheri, | (参考訳) クラウド領域における自己教師型学習の最近の進歩は、大きな可能性を秘めている。
しかし、これらの手法は、長い事前訓練時間、入力空間における再構成の必要性、追加のモダリティの必要性といった欠点に悩まされることが多い。
これらの問題に対処するために,ポイントクラウドデータ用に設計された統合組込み予測アーキテクチャであるPoint-JEPAを紹介する。
そこで本研究では,ターゲット選択やコンテキスト選択の際のインデックスに基づいて,トークンの近接を効率的に計算し,利用するために,ポイントクラウドトークンを順序付けするシーケンサを提案する。
シーケンサはまた、コンテキストとターゲット選択に近接するトークンの共有計算を可能にし、効率をさらに向上する。
提案手法は,入力空間の再構成や追加のモダリティを回避しつつ,最先端手法による競合的な結果を得る。
Recent advancements in self-supervised learning in the point cloud domain have demonstrated significant potential. However, these methods often suffer from drawbacks, including lengthy pre-training time, the necessity of reconstruction in the input space, or the necessity of additional modalities. In order to address these issues, we introduce Point-JEPA, a joint embedding predictive architecture designed specifically for point cloud data. To this end, we introduce a sequencer that orders point cloud tokens to efficiently compute and utilize tokens proximity based on their indices during target and context selection. The sequencer also allows shared computations of the tokens proximity between context and target selection, further improving the efficiency. Experimentally, our method achieves competitive results with state-of-the-art methods while avoiding the reconstruction in the input space or additional modality. | 翻訳日:2024-05-30 00:39:49 公開日:2024-05-27 |
# ソフトな選好最適化: 言語モデルをエキスパート分布に適応させる
Soft Preference Optimization: Aligning Language Models to Expert Distributions ( http://arxiv.org/abs/2405.00747v3 ) ライセンス: Link先を確認 | Arsalan Sharifnassab, Sina Ghiassian, Saber Salehkaleybar, Surya Kanoria, Dale Schuurmans, | (参考訳) 本稿では,Large Language Models (LLMs) などの生成モデルと人間の好みを協調する手法であるSoft Preference Optimization (SPO) を提案する。
SPOは、選好データセットに制限するのではなく、モデル全体の出力分布をまたいだ正規化項に選好損失を統合する自然損失関数を通じて、選好データセット上でのモデル出力を直接最適化する。
SPO は既存の報酬モデルの仮定を必要としないが,Bradley-Terry (BT) モデルでは,アルゴリズムパラメータである Softmax Exponent を通じて分布の「ソフトネス」を調整可能なスケールされた報酬のソフトマックスに収束することを示した。
本稿では,SPOの方法論,理論的基礎,および単純さ,計算効率,アライメント精度における比較優位性について紹介する。
We propose Soft Preference Optimization (SPO), a method for aligning generative models, such as Large Language Models (LLMs), with human preferences, without the need for a reward model. SPO optimizes model outputs directly over a preference dataset through a natural loss function that integrates preference loss with a regularization term across the model's entire output distribution rather than limiting it to the preference dataset. Although SPO does not require the assumption of an existing underlying reward model, we demonstrate that, under the Bradley-Terry (BT) model assumption, it converges to a softmax of scaled rewards, with the distribution's "softness" adjustable via the softmax exponent, an algorithm parameter. We showcase SPO's methodology, its theoretical foundation, and its comparative advantages in simplicity, computational efficiency, and alignment precision. | 翻訳日:2024-05-30 00:39:49 公開日:2024-05-27 |
# RICE:説明による強化学習の学習基盤を突破する
RICE: Breaking Through the Training Bottlenecks of Reinforcement Learning with Explanation ( http://arxiv.org/abs/2405.03064v2 ) ライセンス: Link先を確認 | Zelei Cheng, Xian Wu, Jiahao Yu, Sabrina Yang, Gang Wang, Xinyu Xing, | (参考訳) 深層強化学習(DRL)は、現実世界の応用においてますます重要な役割を担っている。
しかし、複雑なタスク、特にスパース報酬に最適なDRLエージェントを得ることは、依然として大きな課題である。
DRL剤の訓練は、さらなる進歩を伴わずにボトルネックに陥ることがしばしばある。
本稿では,訓練ボトルネックを突破するための説明手法を取り入れた強化学習のための革新的精錬手法であるRICEを提案する。
RICEの高レベルな考え方は、デフォルトの初期状態と説明方法で識別された臨界状態の両方を組み合わせた新しい初期状態分布を構築し、エージェントが混合初期状態から探索することを奨励することである。
慎重に設計することで、我々の精製方式がより厳密な準最適境界を持つことを理論的に保証できる。
様々なRL環境と実世界のアプリケーションでRICEを評価する。
その結果, RICEは, エージェント性能の向上において, 既存の精製方式よりも大幅に優れていた。
Deep reinforcement learning (DRL) is playing an increasingly important role in real-world applications. However, obtaining an optimally performing DRL agent for complex tasks, especially with sparse rewards, remains a significant challenge. The training of a DRL agent can be often trapped in a bottleneck without further progress. In this paper, we propose RICE, an innovative refining scheme for reinforcement learning that incorporates explanation methods to break through the training bottlenecks. The high-level idea of RICE is to construct a new initial state distribution that combines both the default initial states and critical states identified through explanation methods, thereby encouraging the agent to explore from the mixed initial states. Through careful design, we can theoretically guarantee that our refining scheme has a tighter sub-optimality bound. We evaluate RICE in various popular RL environments and real-world applications. The results demonstrate that RICE significantly outperforms existing refining schemes in enhancing agent performance. | 翻訳日:2024-05-30 00:39:49 公開日:2024-05-27 |
# 未来:AIが生み出す未来との会話は不安を減らし、負の感情を減らし、未来的な自己連続性を高める
Future You: A Conversation with an AI-Generated Future Self Reduces Anxiety, Negative Emotions, and Increases Future Self-Continuity ( http://arxiv.org/abs/2405.12514v2 ) ライセンス: Link先を確認 | Pat Pataranutaporn, Kavin Winson, Peggy Yin, Auttasak Lapapirojn, Pichayoot Ouppaphan, Monchai Lertsutthiwong, Pattie Maes, Hal Hershfield, | (参考訳) 本稿では,対話的かつ簡潔な単一セッションのデジタルチャット介入である"Future You"を紹介した。これは,個人が時間的に離れた未来と感じる関係の程度,メンタルヘルスと幸福感に肯定的な特性である。
我々のシステムでは、ユーザーは、将来の目標と個人的品質に合わせた、相対性がありながらAIで動くバーチャルバージョンとチャットできる。
会話を現実的にするために、ユーザの現在(18~30歳)と60歳(60歳)の間に一線を画す「合成記憶」を生成する。
また、「フューチャーユー」という文字は、ユーザの現在の自己の年齢差の画像のペルソナも採用する。
フューチャーユー」のキャラクターとの短い対話の後、ユーザーは不安を減らし、将来的な自己継続性を高めたと報告した。
これは、パーソナライズされたAI生成文字を使用して、ユーザの将来的な自己持続性と幸福を改善するための最初の研究である。
We introduce "Future You," an interactive, brief, single-session, digital chat intervention designed to improve future self-continuity--the degree of connection an individual feels with a temporally distant future self--a characteristic that is positively related to mental health and wellbeing. Our system allows users to chat with a relatable yet AI-powered virtual version of their future selves that is tuned to their future goals and personal qualities. To make the conversation realistic, the system generates a "synthetic memory"--a unique backstory for each user--that creates a throughline between the user's present age (between 18-30) and their life at age 60. The "Future You" character also adopts the persona of an age-progressed image of the user's present self. After a brief interaction with the "Future You" character, users reported decreased anxiety, and increased future self-continuity. This is the first study successfully demonstrating the use of personalized AI-generated characters to improve users' future self-continuity and wellbeing. | 翻訳日:2024-05-30 00:29:50 公開日:2024-05-27 |
# マウス新生児超音波発声解析の強化:異なる数学的モデルの開発と評価および応用
Enhancing the analysis of murine neonatal ultrasonic vocalizations: Development, evaluation, and application of different mathematical models ( http://arxiv.org/abs/2405.12957v2 ) ライセンス: Link先を確認 | Rudolf Herdt, Louisa Kinzel, Johann Georg Maaß, Marvin Walther, Henning Fröhlich, Tim Schubert, Peter Maass, Christian Patrick Schaaf, | (参考訳) ネズミは、社会コミュニケーションに幅広い超音波発声(USV)を使用する。
これらの発声は、動物の感情状態、社会的相互作用、発達段階に関する貴重な洞察を与えるため、様々なディープラーニングアプローチは、USVの量的(検出)と質的(分類)の両方を自動化することを目的としている。
本稿では,USV分類のための異なるタイプのニューラルネットワークを初めて体系的に評価する。
我々は、カスタマイズされた完全に接続されたネットワークと畳み込みニューラルネットワーク、異なる残留ニューラルネットワーク(ResNet)、効率的なネットワーク、ビジョントランスフォーマー(ViT)など、さまざまなフィードフォワードネットワークを評価した。
洗練されたエントロピーベースの検出アルゴリズム(94.9%のリコールと99.3%の精度を達成する)を備え、最高のアーキテクチャ(86.79%の精度を達成する)は信頼性の高いUSVデータセットを解析できる完全自動化パイプラインに統合された。
さらに、ユーザは研究ニーズに応じて、個別の最小精度閾値を指定できる。
この半自動セットアップでは、パイプラインは擬似確率の高い呼び出しを選択的に分類し、残りは手動で検査する。
本研究は新生児USVにのみ焦点をあてる。
現在進行中の表現型研究の一環として、我々のパイプラインは自閉症様の行動を持つマウスが生み出すUSVの重要な違いを特定するための貴重なツールであることが証明された。
Rodents employ a broad spectrum of ultrasonic vocalizations (USVs) for social communication. As these vocalizations offer valuable insights into affective states, social interactions, and developmental stages of animals, various deep learning approaches have aimed to automate both the quantitative (detection) and qualitative (classification) analysis of USVs. Here, we present the first systematic evaluation of different types of neural networks for USV classification. We assessed various feedforward networks, including a custom-built, fully-connected network and convolutional neural network, different residual neural networks (ResNets), an EfficientNet, and a Vision Transformer (ViT). Paired with a refined, entropy-based detection algorithm (achieving recall of 94.9% and precision of 99.3%), the best architecture (achieving 86.79% accuracy) was integrated into a fully automated pipeline capable of analyzing extensive USV datasets with high reliability. Additionally, users can specify an individual minimum accuracy threshold based on their research needs. In this semi-automated setup, the pipeline selectively classifies calls with high pseudo-probability, leaving the rest for manual inspection. Our study focuses exclusively on neonatal USVs. As part of an ongoing phenotyping study, our pipeline has proven to be a valuable tool for identifying key differences in USVs produced by mice with autism-like behaviors. | 翻訳日:2024-05-30 00:20:06 公開日:2024-05-27 |
# CrEIMBO:多視点脳観察におけるクロスアンサンブル相互作用
CrEIMBO: Cross Ensemble Interactions in Multi-view Brain Observations ( http://arxiv.org/abs/2405.17395v1 ) ライセンス: Link先を確認 | Noga Mudrik, Ryan Ly, Oliver Ruebel, Adam S. Charles, | (参考訳) 現代の脳活動の記録は、脳の領域、行動条件、被験者のニューロンの多様な観察を提供しており、脳全体のダイナミックスの基礎となる認知機能を明らかにするエキサイティングな機会となっている。
しかしながら、現在の手法では、解釈不能な表現(例えば、"ブラックボックス"ディープネットワークを介して)を提供するか、モデルを単純化する(例えば、定常力学を仮定するか、各セッションを独立して分析する)など、データのリッチさを十分に活用できないことが多い。
ここでは、神経アイデンティティや脳領域のアライメントを制限として欠く非同期記録ではなく、同じ脳系のこれらの多様なビューを利用して、脳力学の統一モデルを学ぶ。
脳の観察は、記録に類似した一連の機能的神経アンサンブル(コアクティブニューロン群)の関節活動に起因していると仮定し、新しいモデルでCrEIMBO(Cross-Ensemble Interactions in Multi-view Brain Observations)と呼ばれるアンサンブルとその非定常動的相互作用を発見することを提案する。
CrEIMBOは、グラフ駆動辞書学習によるセッションごとのニューラルアンサンブルの構成を特定し、アンサンブルダイナミクスをグローバルサブ回路の遅延時間変化分解としてモデル化し、非定常ダイナミクスを捉える。
CrEIMBOは、セッション間のサブ回路の共有による表現解釈性を維持しながら、複数のコアクティブサブ回路を識別する。
CrEIMBOはセッション固有とグローバルな(セッション不変)計算を区別し、異なるサブ回路がアクティブであるかどうかを探索する。
メモリタスクを行うヒトの高密度電極記録において、CrEIMBOが合成データ中の地中真理成分を回収し、有意義な脳力学を解明し、異種・異種・異種間の変動を捉える能力を実証した。
Modern recordings of neural activity provide diverse observations of neurons across brain areas, behavioral conditions, and subjects -- thus presenting an exciting opportunity to reveal the fundamentals of brain-wide dynamics underlying cognitive function. Current methods, however, often fail to fully harness the richness of such data as they either provide an uninterpretable representation (e.g., via "black box" deep networks) or over-simplify the model (e.g., assume stationary dynamics or analyze each session independently). Here, instead of regarding asynchronous recordings that lack alignment in neural identity or brain areas as a limitation, we exploit these diverse views of the same brain system to learn a unified model of brain dynamics. We assume that brain observations stem from the joint activity of a set of functional neural ensembles (groups of co-active neurons) that are similar in functionality across recordings, and propose to discover the ensemble and their non-stationary dynamical interactions in a new model we term CrEIMBO (Cross-Ensemble Interactions in Multi-view Brain Observations). CrEIMBO identifies the composition of the per-session neural ensembles through graph-driven dictionary learning and models the ensemble dynamics as a latent sparse time-varying decomposition of global sub-circuits, thereby capturing non-stationary dynamics. CrEIMBO identifies multiple co-active sub-circuits while maintaining representation interpretability due to sharing sub-circuits across sessions. CrEIMBO distinguishes session-specific from global (session-invariant) computations by exploring when distinct sub-circuits are active. We demonstrate CrEIMBO's ability to recover ground truth components in synthetic data and uncover meaningful brain dynamics, capturing cross-subject and inter- and intra-area variability, in high-density electrode recordings of humans performing a memory task. | 翻訳日:2024-05-30 00:20:06 公開日:2024-05-27 |
# 参照ニューラル演算子:幾何学的変形に対するPDEの解の滑らかな依存を学習する
Reference Neural Operators: Learning the Smooth Dependence of Solutions of PDEs on Geometric Deformations ( http://arxiv.org/abs/2405.17509v1 ) ライセンス: Link先を確認 | Ze Cheng, Zhongkai Hao, Xiaoqiang Wang, Jianing Huang, Youjia Wu, Xudan Liu, Yiru Zhao, Songming Liu, Hang Su, | (参考訳) 任意の形状の領域上の偏微分方程式に対して、ニューラル作用素の既存の研究は、幾何学から解への写像を学ぼうとする。
十分に正確なニューラル演算子を得るためには、幾何と解のペアの大規模なデータセットを必要とすることが多い。
しかし、エンジニアリング設計最適化のような多くの産業アプリケーションでは、1つのシミュレーションでさえ何時間も何日もかかるので、要求を満たすことは禁止される。
この問題に対処するために、我々は、ニューラル演算子を実装する新しい方法である参照ニューラル演算子(RNO)を提案し、幾何学的変形に対する解の滑らかな依存を学習する。
具体的には、参照解が与えられた場合、RNOは参照幾何の任意の変形に対応する解を予測することができる。
このアプローチの方がずっとデータ効率が良いことが分かりました。
大規模な実験により、RNOは、比較的小さなデータセットを持つ様々な種類の幾何学オブジェクトと異なる数の幾何学オブジェクトへの依存を学習できることが示される。
RNOはベースラインモデルの精度を大きなリードで上回り、最大80%のエラー低減を達成する。
For partial differential equations on domains of arbitrary shapes, existing works of neural operators attempt to learn a mapping from geometries to solutions. It often requires a large dataset of geometry-solution pairs in order to obtain a sufficiently accurate neural operator. However, for many industrial applications, e.g., engineering design optimization, it can be prohibitive to satisfy the requirement since even a single simulation may take hours or days of computation. To address this issue, we propose reference neural operators (RNO), a novel way of implementing neural operators, i.e., to learn the smooth dependence of solutions on geometric deformations. Specifically, given a reference solution, RNO can predict solutions corresponding to arbitrary deformations of the referred geometry. This approach turns out to be much more data efficient. Through extensive experiments, we show that RNO can learn the dependence across various types and different numbers of geometry objects with relatively small datasets. RNO outperforms baseline models in accuracy by a large lead and achieves up to 80% error reduction. | 翻訳日:2024-05-29 23:50:44 公開日:2024-05-27 |
# 大規模モデルの低ランク適応の公正性について
On Fairness of Low-Rank Adaptation of Large Models ( http://arxiv.org/abs/2405.17512v1 ) ライセンス: Link先を確認 | Zhoujie Ding, Ken Ziyu Liu, Pura Peetathawatchai, Berivan Isik, Sanmi Koyejo, | (参考訳) 大規模モデルの低ランク適応、特にLoRAは、その計算効率のために勢いを増している。
この効率性は、フルモデルファインチューニングの禁止コストとは対照的に、実践者がしばしばLoRAに目を向け、時にはその影響を完全に理解していないことを意味する。
本研究では,ロラが実用性,キャリブレーション,および様々なサブグループ(例えば,性別,人種,宗教)に対して,フルモデルファインチューニングベースラインと比較して,未検討の影響があるかどうかに焦点をあてる。
ViT-Base, Swin-v2-Large, Llama-2 7B, Mistral 7B を用いた視覚・言語領域, 分類・生成タスクに対する広範な実験を行った。
興味深いことに、LoRAはサブグループ間でモデルバイアスを悪化させるケースを分離できるが、パターンは矛盾している。
また,タスク設計とモデルトークンバイアスに関する微調整フェアネスの評価の複雑さについても検討し,今後の作業においてより注意深いフェアネス評価を求める。
Low-rank adaptation of large models, particularly LoRA, has gained traction due to its computational efficiency. This efficiency, contrasted with the prohibitive costs of full-model fine-tuning, means that practitioners often turn to LoRA and sometimes without a complete understanding of its ramifications. In this study, we focus on fairness and ask whether LoRA has an unexamined impact on utility, calibration, and resistance to membership inference across different subgroups (e.g., genders, races, religions) compared to a full-model fine-tuning baseline. We present extensive experiments across vision and language domains and across classification and generation tasks using ViT-Base, Swin-v2-Large, Llama-2 7B, and Mistral 7B. Intriguingly, experiments suggest that while one can isolate cases where LoRA exacerbates model bias across subgroups, the pattern is inconsistent -- in many cases, LoRA has equivalent or even improved fairness compared to the base model or its full fine-tuning baseline. We also examine the complications of evaluating fine-tuning fairness relating to task design and model token bias, calling for more careful fairness evaluations in future work. | 翻訳日:2024-05-29 23:50:44 公開日:2024-05-27 |
# AbstractBeam: ライブラリ学習によるボトムアッププログラム合成の強化
AbstractBeam: Enhancing Bottom-Up Program Synthesis using Library Learning ( http://arxiv.org/abs/2405.17514v1 ) ライセンス: Link先を確認 | Janis Zenkner, Lukas Dierkes, Tobias Sesterhenn, Chrisitan Bartelt, | (参考訳) LambdaBeamは、高階関数、ラムダ関数、反復ループをドメイン特化言語(DSL)に組み込む、プログラム合成のための最先端の実行誘導アルゴリズムである。
LambdaBeamは最初からすべてのプログラムを生成する。
しかし、多くのプログラムブロックやサブプログラムは、リストを横切るループなど、特定のドメインで頻繁に発生する。
したがって、繰り返しプログラムは合成アルゴリズムを強化するために使用できる。
しかし、LambdaBeamはこの可能性を活用できない。
そこで我々は,ライブラリ学習を利用した新しいプログラム合成フレームワークAbstractBeamを紹介した。このフレームワークは,プログラムの繰り返しを識別し,それらをDSLに統合し,LambdaBeamの合成アルゴリズムの強化に活用する。
実験により、AbstractBeamはLambdaBeam整数リスト操作領域におけるLambdaBeamの性能を大幅に改善することが示された。
さらに、AbstractBeamのプログラム生成はLambdaBeamの合成よりも効率的である。
最後に、図書館学習は、その利点を強調するために特別に作られたものではない領域で有効であることを示す。
LambdaBeam is a state-of-the-art execution-guided algorithm for program synthesis that incorporates higher-order functions, lambda functions, and iterative loops into the Domain-Specific Language (DSL). LambdaBeam generates every program from the start. Yet, many program blocks or subprograms occur frequently in a given domain, e.g., loops to traverse a list. Thus, repeating programs can be used to enhance the synthesis algorithm. However, LambdaBeam fails to leverage this potential. For this purpose, we introduce AbstractBeam: A novel program synthesis framework that employs Library Learning to identify such program repetitions, integrates them into the DSL, and thus utilizes their potential to boost LambdaBeam's synthesis algorithm. Our experimental evaluations demonstrate that AbstractBeam significantly improves LambdaBeam's performance in the LambdaBeam integer list manipulation domain. Additionally, AbstractBeam's program generation is more efficient compared to LambdaBeam's synthesis. Finally, our findings indicate that Library Learning is effective in domains not specifically crafted to highlight its benefits. | 翻訳日:2024-05-29 23:50:44 公開日:2024-05-27 |
# 時間弾性ニューラルネットワーク
Time Elastic Neural Networks ( http://arxiv.org/abs/2405.17516v1 ) ライセンス: Link先を確認 | Pierre-François Marteau, | (参考訳) 多変量時系列分類のための非典型的ニューラルネットワークアーキテクチャである時間弾性ニューラルネットワーク(teNN)を導入,詳述する。
古典的ニューラルネットワークアーキテクチャと比較して新しいのは、時間ゆらぎの能力と、注意を向ける新しい方法が明確に組み込まれていることだ。
さらに、このアーキテクチャは、ドロップアウト戦略を学習し、独自のアーキテクチャを最適化することができる。このアーキテクチャの設計の背後では、私たちの全体的な目標が3倍になる。まず、十分なトレーニングデータが得られる限り、非常に優れたパフォーマンスを示すインスタンスベースの分類アプローチの精度向上を目指しています。
次に、これらの手法に固有の計算複雑性を減らし、スケーラビリティを向上させる。
理想的には、これらの最初の2つの基準の間に許容可能なバランスを求めます。
最後に、我々は、この種のニューラルアーキテクチャによる決定の説明可能性を高めることを目指しており、この実験は、TENNを訓練するために実装された確率勾配勾配が極めて効果的であることを示す。
重要なメタパラメータの選択が正しければ,収束は概ねスムーズかつ高速であり,精度は高いが,必要な参照時間列,すなわちテナンセルの数を減らすことで,スケーラビリティの大幅な向上が期待できる。
第2に、トレーニング過程において、TENNは各細胞に必要となるニューロン数を減少させることに成功した。
最後に、学習後のアクティベーションおよびアテンション行列の解析および参照時系列が、分類結果を解釈し、説明するための関連情報を提供することを示すとともに、30の多様な多変量データセットに関する関心事の比較研究により、テナンが、例えばLSTMとCNNアーキテクチャを混合したネットワークのものと同等の結果を得ることを示した。
We introduce and detail an atypical neural network architecture, called time elastic neural network (teNN), for multivariate time series classification. The novelty compared to classical neural network architecture is that it explicitly incorporates time warping ability, as well as a new way of considering attention. In addition, this architecture is capable of learning a dropout strategy, thus optimizing its own architecture.Behind the design of this architecture, our overall objective is threefold: firstly, we are aiming at improving the accuracy of instance based classification approaches that shows quite good performances as far as enough training data is available. Secondly we seek to reduce the computational complexity inherent to these methods to improve their scalability. Ideally, we seek to find an acceptable balance between these first two criteria. And finally, we seek to enhance the explainability of the decision provided by this kind of neural architecture.The experiment demonstrates that the stochastic gradient descent implemented to train a teNN is quite effective. To the extent that the selection of some critical meta-parameters is correct, convergence is generally smooth and fast.While maintaining good accuracy, we get a drastic gain in scalability by first reducing the required number of reference time series, i.e. the number of teNN cells required. Secondly, we demonstrate that, during the training process, the teNN succeeds in reducing the number of neurons required within each cell. Finally, we show that the analysis of the activation and attention matrices as well as the reference time series after training provides relevant information to interpret and explain the classification results.The comparative study that we have carried out and which concerns around thirty diverse and multivariate datasets shows that the teNN obtains results comparable to those of the state of the art, in particular similar to those of a network mixing LSTM and CNN architectures for example. | 翻訳日:2024-05-29 23:50:44 公開日:2024-05-27 |
# WASH:コミュニケーション効率の良いウェイトシャッフルでアンサンブルをトレーニングし、平均
WASH: Train your Ensemble with Communication-Efficient Weight Shuffling, then Average ( http://arxiv.org/abs/2405.17517v1 ) ライセンス: Link先を確認 | Louis Fournier, Adel Nabli, Masih Aminbeidokhti, Marco Pedersoli, Eugene Belilovsky, Edouard Oyallon, | (参考訳) 深層ニューラルネットワークの性能は、複数のモデルの出力を平均するアンサンブル法によって向上する。
しかし、これは推論のコストが増大する。
重み付け手法は,モデルのアンサンブルのパラメータを平均化することにより,単一モデルのアンサンブルの一般化と推論速度のバランスをとることを目的としている。
しかし、モデルが異なる損失流域に収束し、平均値を改善するためにモデルを整列させることは困難である。
あるいは、分散トレーニングにインスパイアされたDARTやPAPAといった手法は、複数のモデルを並列にトレーニングすることで、最終的には同じ盆地に到達し、結果として平均的な精度が向上する。
しかし、これらの手法は精度を損なうか、訓練中にモデル間の重要なコミュニケーションを要求するかのいずれかである。
本稿では,最新の画像分類精度を実現するために,平均化のためのモデルアンサンブルを学習するための新しい分散手法WASHを紹介する。
WASHはトレーニング中に少量の重量をランダムにシャッフルすることで同一盆地内のモデルを維持し、その結果、標準パラメータ平均化法と比較して、多様なモデルと通信コストが低下する。
The performance of deep neural networks is enhanced by ensemble methods, which average the output of several models. However, this comes at an increased cost at inference. Weight averaging methods aim at balancing the generalization of ensembling and the inference speed of a single model by averaging the parameters of an ensemble of models. Yet, naive averaging results in poor performance as models converge to different loss basins, and aligning the models to improve the performance of the average is challenging. Alternatively, inspired by distributed training, methods like DART and PAPA have been proposed to train several models in parallel such that they will end up in the same basin, resulting in good averaging accuracy. However, these methods either compromise ensembling accuracy or demand significant communication between models during training. In this paper, we introduce WASH, a novel distributed method for training model ensembles for weight averaging that achieves state-of-the-art image classification accuracy. WASH maintains models within the same basin by randomly shuffling a small percentage of weights during training, resulting in diverse models and lower communication costs compared to standard parameter averaging methods. | 翻訳日:2024-05-29 23:50:44 公開日:2024-05-27 |
# 全心循環による左心房運動の評価
Assessment of Left Atrium Motion Deformation Through Full Cardiac Cycle ( http://arxiv.org/abs/2405.17518v1 ) ライセンス: Link先を確認 | Abdul Qayyum, Moona Mazher, Angela Lee, Jose A Solis-Lemus, Imran Razzak, Steven A Niederer, | (参考訳) 右心房 (RA) とは異なり、左心房 (LA) は、より薄い心筋壁、複雑で不規則な形態、そして個々の構造の多様性、左心室 (LV) 用に設計された既設の方法が左心房の文脈では機能しない可能性があるという特徴がある。
上記の課題を克服するために,我々は,高解像度の3次元Cine MR画像を用いてLA動作を自動的に解析する4次元登録モデリング用に設計された総合的な技術ワークフローを初めて提示する。
本研究は,全心循環を通してLAセグメンテーションを正確に記述するために,セグメンテーションネットワークと4D登録プロセスを統合する。
さらに、画像4D登録ネットワークを用いて、LA変位ベクトル場(DVF)を抽出する。
本研究は, 左心房運動追跡および変形のための新しい局所バイオマーカーを臨床医に提供し, 臨床的意義が示唆された。
Unlike Right Atrium (RA), Left Atrium (LA) presents distinctive challenges, including much thinner myocardial walls, complex and irregular morphology, as well as diversity in individual's structure, making off-the-shelf methods designed for the Left Ventricle (LV) may not work in the context of the left atrium. To overcome aforementioned challenges, we are the first to present comprehensive technical workflow designed for 4D registration modeling to automatically analyze LA motion using high-resolution 3D Cine MR images. We integrate segmentation network and 4D registration process to precisely delineate LA segmentation throughout the full cardiac cycle. Additionally, an image 4D registration network is employed to extract LA displacement vector fields (DVFs). Our findings show the potential of proposed end to end framework in providing clinicians with novel regional biomarkers for left atrium motion tracking and deformation, carrying significant clinical implications. | 翻訳日:2024-05-29 23:50:44 公開日:2024-05-27 |
# Mini-Netによる医用画像分割の促進:医用画像の効率的な分別を目的とした軽量化
Advancing Medical Image Segmentation with Mini-Net: A Lightweight Solution Tailored for Efficient Segmentation of Medical Images ( http://arxiv.org/abs/2405.17520v1 ) ライセンス: Link先を確認 | Syed Javed, Tariq M. Khan, Abdul Qayyum, Arcot Sowmya, Imran Razzak, | (参考訳) 医用画像における解剖学的構造と異常の正確なセグメンテーションは,コンピュータによる診断・解析に不可欠である。
このタスクではディープラーニングの技術が優れていますが、その計算要求は課題を引き起こします。
また, 一般的な物体分割には有効であるが, 医用画像には最適でない部分分割法もある。
これらの課題に対処するために,医用画像に特化して設計された軽量セグメンテーションネットワークであるMini-Netを提案する。
パラメータが38,000未満のMini-Netは、高周波数と低周波数の両方の機能を効率的にキャプチャし、様々な医療画像シナリオにおけるリアルタイムのアプリケーションを可能にする。
DRIVE, STARE, ISIC-2016, ISIC-2018, MoNuSegなどの各種データセット上でMini-Netを評価し, 最先端手法と比較して, その堅牢性と優れた性能を示す。
Accurate segmentation of anatomical structures and abnormalities in medical images is crucial for computer-aided diagnosis and analysis. While deep learning techniques excel at this task, their computational demands pose challenges. Additionally, some cutting-edge segmentation methods, though effective for general object segmentation, may not be optimised for medical images. To address these issues, we propose Mini-Net, a lightweight segmentation network specifically designed for medical images. With fewer than 38,000 parameters, Mini-Net efficiently captures both high- and low-frequency features, enabling real-time applications in various medical imaging scenarios. We evaluate Mini-Net on various datasets, including DRIVE, STARE, ISIC-2016, ISIC-2018, and MoNuSeg, demonstrating its robustness and good performance compared to state-of-the-art methods. | 翻訳日:2024-05-29 23:50:44 公開日:2024-05-27 |
# 階層型フェデレーション学習のための効率的なモデル圧縮
Efficient Model Compression for Hierarchical Federated Learning ( http://arxiv.org/abs/2405.17522v1 ) ライセンス: Link先を確認 | Xi Zhu, Songcan Yu, Junbo Wang, Qinglin Yang, | (参考訳) 新たなコラボレーティブラーニングパラダイムであるフェデレートラーニング(FL)は、分散ラーニングシステム内のプライバシを保護する能力のために、大きな注目を集めている。
これらのシステムでは、クライアントはローカルデータセットを使用して統一ニューラルネットワークモデルを共同でトレーニングし、生データではなくモデルパラメータを共有することにより、プライバシが向上する。
FLシステムは、無線ネットワーク上でトレーニングが行われるモバイルおよびエッジコンピューティング環境向けに設計されている。
その結果、モデルのサイズが大きくなるにつれて、従来のFLフレームワークは、かなりの通信リソースを消費する傾向にある。
この課題に対処し、通信効率を向上させるために、クラスタ化FLとモデル圧縮の利点を統合する新しい階層型FLフレームワークを提案する。
本稿では、コアクライアントを特定し、動的にクライアントをクラスタ化する適応クラスタリングアルゴリズムを提案する。
さらに、送信効率を向上させるため、各コアクライアントは、同じクラスタ内の他のクライアントから圧縮されたモデルを収集した後、圧縮(LCアグリゲーション)アルゴリズムでローカルアグリゲーションを実装する。
シミュレーションの結果,提案アルゴリズムは予測精度を同等に維持するだけでなく,既存のFL機構と比較してエネルギー消費量を大幅に削減することを確認した。
Federated learning (FL), as an emerging collaborative learning paradigm, has garnered significant attention due to its capacity to preserve privacy within distributed learning systems. In these systems, clients collaboratively train a unified neural network model using their local datasets and share model parameters rather than raw data, enhancing privacy. Predominantly, FL systems are designed for mobile and edge computing environments where training typically occurs over wireless networks. Consequently, as model sizes increase, the conventional FL frameworks increasingly consume substantial communication resources. To address this challenge and improve communication efficiency, this paper introduces a novel hierarchical FL framework that integrates the benefits of clustered FL and model compression. We present an adaptive clustering algorithm that identifies a core client and dynamically organizes clients into clusters. Furthermore, to enhance transmission efficiency, each core client implements a local aggregation with compression (LC aggregation) algorithm after collecting compressed models from other clients within the same cluster. Simulation results affirm that our proposed algorithms not only maintain comparable predictive accuracy but also significantly reduce energy consumption relative to existing FL mechanisms. | 翻訳日:2024-05-29 23:50:44 公開日:2024-05-27 |
# 意味的グローバル概念のための局所的モデル検出
Locally Testing Model Detections for Semantic Global Concepts ( http://arxiv.org/abs/2405.17523v1 ) ライセンス: Link先を確認 | Franz Motzkus, Christian Hellert, Ute Schmid, | (参考訳) ブラックボックスのディープニューラルネットワーク(DNN)の品質を保証することは、特に自動運転のような安全クリティカルな領域において、ますます重要になっている。
グローバルな概念エンコーディングは、ユーザーが特定の概念のモデルをテストできるのに対して、グローバルな概念エンコーディングを単一ネットワーク入力のローカル処理にリンクすることは、その強みと限界を明らかにする。
提案するフレームワークは,局所的(なぜ特定の予測が生じるのか)と全体的(一般的にどのように動作するのか)のアプローチを用いて,DNNを局所的に定義した意味論的概念に対してテストする。
このアプローチにより、モデル潜在空間の線形方向として符号化された事前定義された意味概念について、局所的でポストホックな説明を条件付けることができる。
グローバルな概念の使用に関するPixel-exactスコアは、テスターが選択した概念に対する単一のデータポイントのモデル処理をより理解するのに役立ちます。
提案手法は,意味概念のモデル内符号化を完全に網羅し,関連する概念関連情報の局所化を可能にする。
その結果, 個別グローバルな概念エンコーディングの地域的認識と利用の差異が大きく, 詳細な意味的概念エンコーディングの獲得に関するさらなる調査の必要性が示唆された。
Ensuring the quality of black-box Deep Neural Networks (DNNs) has become ever more significant, especially in safety-critical domains such as automated driving. While global concept encodings generally enable a user to test a model for a specific concept, linking global concept encodings to the local processing of single network inputs reveals their strengths and limitations. Our proposed framework global-to-local Concept Attribution (glCA) uses approaches from local (why a specific prediction originates) and global (how a model works generally) eXplainable Artificial Intelligence (xAI) to test DNNs for a predefined semantical concept locally. The approach allows for conditioning local, post-hoc explanations on predefined semantic concepts encoded as linear directions in the model's latent space. Pixel-exact scoring concerning the global concept usage assists the tester in further understanding the model processing of single data points for the selected concept. Our approach has the advantage of fully covering the model-internal encoding of the semantic concept and allowing the localization of relevant concept-related information. The results show major differences in the local perception and usage of individual global concept encodings and demand for further investigations regarding obtaining thorough semantic concept encodings. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# SmoothGNN: 教師なしノード異常検出のためのSmoothing-based GNN
SmoothGNN: Smoothing-based GNN for Unsupervised Node Anomaly Detection ( http://arxiv.org/abs/2405.17525v1 ) ライセンス: Link先を確認 | Xiangyu Dong, Xingyi Zhang, Yanni Sun, Lei Chen, Mingxuan Yuan, Sibo Wang, | (参考訳) このスムーズな問題は、グラフ学習の分野で重要な課題となるノード表現を区別できないものにする。
しかし、この問題は、以前の研究で見過ごされてきた、異なるタイプのノードの背後にある基本的な特性を明らかにする機会も提示している。
実世界のノード異常検出(NAD)データセットの実証的および理論的解析により、異常ノードと正常ノードが平滑化過程において異なるパターンを示すことが観察され、NADタスクの強化に活用できる。
本報告では,これらの知見に触発され,新しい非教師付きNADフレームワークを提案する。
具体的には,Smoothing Learning Componentを設計する。
次に,Smoothing-aware Spectral Graph Neural Networkを導入し,グラフのスペクトル空間と平滑化プロセスとの接続を確立する。
さらに、グラフの滑らかさを反映したディリクレエネルギーが、スペクトル空間の異なる次元にわたるノード表現の係数として機能することを示した。
これらの観測と分析に基づいて、NADタスクのための新しい異常測度を考案する。
9つの実世界のデータセットに対する大規模な実験によると、SmoothGNNはAUCで平均14.66%、精度で7.28%、実行時のスピードアップで最高のライバルを上回っている。
The smoothing issue leads to indistinguishable node representations, which poses a significant challenge in the field of graph learning. However, this issue also presents an opportunity to reveal underlying properties behind different types of nodes, which have been overlooked in previous studies. Through empirical and theoretical analysis of real-world node anomaly detection (NAD) datasets, we observe that anomalous and normal nodes show different patterns in the smoothing process, which can be leveraged to enhance NAD tasks. Motivated by these findings, in this paper, we propose a novel unsupervised NAD framework. Specifically, according to our theoretical analysis, we design a Smoothing Learning Component. Subsequently, we introduce a Smoothing-aware Spectral Graph Neural Network, which establishes the connection between the spectral space of graphs and the smoothing process. Additionally, we demonstrate that the Dirichlet Energy, which reflects the smoothness of a graph, can serve as coefficients for node representations across different dimensions of the spectral space. Building upon these observations and analyses, we devise a novel anomaly measure for the NAD task. Extensive experiments on 9 real-world datasets show that SmoothGNN outperforms the best rival by an average of 14.66% in AUC and 7.28% in Precision, with 75x running time speed-up, which validates the effectiveness and efficiency of our framework. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# Unisolver: PDE-Conditional TransformerはユニバーサルPDEソルバー
Unisolver: PDE-Conditional Transformers Are Universal PDE Solvers ( http://arxiv.org/abs/2405.17527v1 ) ライセンス: Link先を確認 | Zhou Hang, Yuezhou Ma, Haixu Wu, Haowen Wang, Mingsheng Long, | (参考訳) ディープモデルは、ニューラルPDEソルバとして知られる偏微分方程式(PDE)を解くための有望なツールとして最近登場した。
シミュレーションデータまたは物理情報損失から訓練されたニューラルソルバは、PDEを合理的に解くことができるが、それらは主に特定のPDE(例えば、ある方程式や有限個の係数)の集合に制限される。
このボトルネックは、数値解法に対する大きな優位性として広く認識されているニューラルソルバの一般化性を制限する。
本稿では,多種多様なPDEを事前学習し,多種多様なPDEを条件としたTransformerを活用することで,多種多様なPDEを解くことができるUniversal PDEソルバ(Unisolver)を提案する。
データとパラメータを単純にスケールアップする代わりに、UnisolverはPDE解決プロセスの理論解析から生まれた。
我々の重要な発見は、PDE解は基本的に一連のPDE成分、例えば方程式記号、係数、初期および境界条件の制御下にあることである。
PDE の数学的構造に着想を得て,PDE 成分の完全集合を定義し,それを変換器 PDE ソルバに対する領域ワイド (eg 方程式記号) および点ワイド (eg 境界) 条件として埋め込む。
最近のTransformerの進歩と物理的洞察を統合することで、Unisolverは3つの挑戦的な大規模ベンチマークにおいて、一貫した最先端の結果を達成している。
Deep models have recently emerged as a promising tool to solve partial differential equations (PDEs), known as neural PDE solvers. While neural solvers trained from either simulation data or physics-informed loss can solve the PDEs reasonably well, they are mainly restricted to a specific set of PDEs, e.g. a certain equation or a finite set of coefficients. This bottleneck limits the generalizability of neural solvers, which is widely recognized as its major advantage over numerical solvers. In this paper, we present the Universal PDE solver (Unisolver) capable of solving a wide scope of PDEs by leveraging a Transformer pre-trained on diverse data and conditioned on diverse PDEs. Instead of simply scaling up data and parameters, Unisolver stems from the theoretical analysis of the PDE-solving process. Our key finding is that a PDE solution is fundamentally under the control of a series of PDE components, e.g. equation symbols, coefficients, and initial and boundary conditions. Inspired by the mathematical structure of PDEs, we define a complete set of PDE components and correspondingly embed them as domain-wise (e.g. equation symbols) and point-wise (e.g. boundaries) conditions for Transformer PDE solvers. Integrating physical insights with recent Transformer advances, Unisolver achieves consistent state-of-the-art results on three challenging large-scale benchmarks, showing impressive gains and endowing favorable generalizability and scalability. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# 転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒・転倒
Clip Body and Tail Separately: High Probability Guarantees for DPSGD with Heavy Tails ( http://arxiv.org/abs/2405.17529v1 ) ライセンス: Link先を確認 | Haichao Sha, Yang Cao, Yong Liu, Yuncheng Wu, Ruixuan Liu, Hong Chen, | (参考訳) Differentially Private Stochastic Gradient Descent (DPSGD)は、ディープラーニングにおけるトレーニングデータのプライバシを保護するために広く利用されている。
既存のDPSGDの研究は通常、勾配がガウス以下の分布に従うと仮定し、訓練性能を最適化する様々なクリッピング機構を設計する。
しかし、近年の研究では、ディープラーニングの勾配は重尾現象、すなわち勾配の尾は無限にばらつきがあり、既存のDPSGD機構による勾配への過剰な切断損失をもたらす可能性があることが示されている。
この問題に対処するために,2つの鍵となる設計を持つ識別クリッピング〜(DC)-DPSGDを提案する。
まず,体と尾の勾配を区別する部分空間識別手法を提案する。
第2に, クリッピング損失を低減するために, ボディーおよびテール勾配に異なるクリッピング閾値を適用した識別的クリッピング機構を提案する。
非凸条件の下で、 \ourtech{} は経験的勾配ノルムを {${\mathbb{O}\left(\log^{\max(0,\theta-1)}(T/\delta)\log^{2\theta}(\sqrt{T})\right)}$} から {${\mathbb{O}\left(\log(\sqrt{T})\right)}$} へ還元する。
4つの実世界のデータセットに対する大規模な実験により、我々のアプローチは精度で最大9.72倍の3つのベースラインを上回ります。
Differentially Private Stochastic Gradient Descent (DPSGD) is widely utilized to preserve training data privacy in deep learning, which first clips the gradients to a predefined norm and then injects calibrated noise into the training procedure. Existing DPSGD works typically assume the gradients follow sub-Gaussian distributions and design various clipping mechanisms to optimize training performance. However, recent studies have shown that the gradients in deep learning exhibit a heavy-tail phenomenon, that is, the tails of the gradient have infinite variance, which may lead to excessive clipping loss to the gradients with existing DPSGD mechanisms. To address this problem, we propose a novel approach, Discriminative Clipping~(DC)-DPSGD, with two key designs. First, we introduce a subspace identification technique to distinguish between body and tail gradients. Second, we present a discriminative clipping mechanism that applies different clipping thresholds for body and tail gradients to reduce the clipping loss. Under the non-convex condition, \ourtech{} reduces the empirical gradient norm from {${\mathbb{O}\left(\log^{\max(0,\theta-1)}(T/\delta)\log^{2\theta}(\sqrt{T})\right)}$} to {${\mathbb{O}\left(\log(\sqrt{T})\right)}$} with heavy-tailed index $\theta\geq 1/2$, iterations $T$, and arbitrary probability $\delta$. Extensive experiments on four real-world datasets demonstrate that our approach outperforms three baselines by up to 9.72\% in terms of accuracy. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# 自動レンダリングモデル
Evolutive Rendering Models ( http://arxiv.org/abs/2405.17531v1 ) ライセンス: Link先を確認 | Fangneng Zhan, Hanxue Liang, Yifan Wang, Michael Niemeyer, Michael Oechsle, Adam Kortylewski, Cengiz Oztireli, Gordon Wetzstein, Christian Theobalt, | (参考訳) コンピュータグラフィックスのランドスケープは、近年の差別化可能なレンダリングモデルの発展とともに、大きな変化を遂げている。
これらのレンダリングモデルは、最終的なレンダリング目標と完全に一致しないようなヒューリスティックな設計に依存していることが多い。
このギャップに対処するために、レンダリングモデルがレンダリングプロセス全体を通して動的に進化し適応する能力を持つ方法論である、textit{evolutive rendering model}を開拓した。
特に、ゲージ変換、レイサンプリング機構、プリミティブ組織を含む3つの主要レンダリング要素の最適化を可能にする総合的な学習フレームワークを提案する。
このフレームワークの中心は、これらのレンダリング要素の差別化可能なバージョンの開発であり、最終的なレンダリング目標から効果的な勾配のバックプロパゲーションを可能にする。
勾配特性の詳細な解析を行い、安定かつ目標指向の要素の進化を促進する。
本研究では,静的および動的シーン表現,生成モデル,テクスチャマッピングなど,様々な領域にわたるレンダリング性能を向上させるための,進化的レンダリングモデルの可能性を示す。
The landscape of computer graphics has undergone significant transformations with the recent advances of differentiable rendering models. These rendering models often rely on heuristic designs that may not fully align with the final rendering objectives. We address this gap by pioneering \textit{evolutive rendering models}, a methodology where rendering models possess the ability to evolve and adapt dynamically throughout the rendering process. In particular, we present a comprehensive learning framework that enables the optimization of three principal rendering elements, including the gauge transformations, the ray sampling mechanisms, and the primitive organization. Central to this framework is the development of differentiable versions of these rendering elements, allowing for effective gradient backpropagation from the final rendering objectives. A detailed analysis of gradient characteristics is performed to facilitate a stable and goal-oriented elements evolution. Our extensive experiments demonstrate the large potential of evolutive rendering models for enhancing the rendering performance across various domains, including static and dynamic scene representations, generative modeling, and texture mapping. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# ClassDiffusion: 明示的なクラスガイダンスによるパーソナライゼーションチューニング
ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance ( http://arxiv.org/abs/2405.17532v1 ) ライセンス: Link先を確認 | Jiannan Huang, Jun Hao Liew, Hanshu Yan, Yuyang Yin, Yao Zhao, Yunchao Wei, | (参考訳) 最近のテキスト・ツー・イメージのカスタマイズ作業は、いくつかの例で拡散モデルを微調整することで、与えられた概念のイメージを生成することに成功している。
しかし、これらの手法は概念を過度に適合させる傾向があり、結果として複数の条件下で概念を作成することができない(例えば、ヘッドホンを装着した<sks>犬を生成する際にヘッドホンが欠落している)。
興味深いことに、微調整前の基本モデルは、他の要素(例えば、ヘッドフォンを装着した犬)で基本概念を構成する能力を示しており、構成能力はパーソナライズチューニング後にのみ消失する。
この観察から着想を得たClassDiffusionは、意味的保存損失を利用して新しい概念を学ぶ際に、概念空間を明示的に制御するシンプルな手法である。
その単純さにもかかわらず、これはターゲット概念を微調整する際のセマンティックドリフトを避けるのに役立つ。
高度に定性的かつ定量的な実験により、意味的保存損失の使用は、細管モデルの構成能力を効果的に改善することを示した。
CLIP-T測定値の非効率な評価に反応して,この領域に対してより公平で効果的な評価基準であるBLIP2-T測定値を導入する。
また,提案した損失の役割をよりよく理解するために,詳細な実証研究と理論的分析を行った。
最後に、私たちはClassDiffusionをパーソナライズされたビデオ生成に拡張し、その柔軟性を示しています。
Recent text-to-image customization works have been proven successful in generating images of given concepts by fine-tuning the diffusion models on a few examples. However, these methods tend to overfit the concepts, resulting in failure to create the concept under multiple conditions (e.g. headphone is missing when generating a <sks> dog wearing a headphone'). Interestingly, we notice that the base model before fine-tuning exhibits the capability to compose the base concept with other elements (e.g. a dog wearing a headphone) implying that the compositional ability only disappears after personalization tuning. Inspired by this observation, we present ClassDiffusion, a simple technique that leverages a semantic preservation loss to explicitly regulate the concept space when learning the new concept. Despite its simplicity, this helps avoid semantic drift when fine-tuning on the target concepts. Extensive qualitative and quantitative experiments demonstrate that the use of semantic preservation loss effectively improves the compositional abilities of the fine-tune models. In response to the ineffective evaluation of CLIP-T metrics, we introduce BLIP2-T metric, a more equitable and effective evaluation metric for this particular domain. We also provide in-depth empirical study and theoretical analysis to better understand the role of the proposed loss. Lastly, we also extend our ClassDiffusion to personalized video generation, demonstrating its flexibility. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# PAE: LLMをベースとしたEコマースファッショントレンドのための製品属性抽出
PAE: LLM-based Product Attribute Extraction for E-Commerce Fashion Trends ( http://arxiv.org/abs/2405.17533v1 ) ライセンス: Link先を確認 | Apurva Sinha, Ekta Gujral, | (参考訳) 商品属性抽出は、製品ランキング、製品レコメンデーション、将来のアソート計画、オンラインショッピングカスタマーエクスペリエンスの改善など、電子商取引ビジネスにおける成長分野である。
顧客のニーズを理解することは、オンラインビジネス、特にファッション製品にとって重要な部分です。
小売業者は、各店舗とチャネルで提供される商品の混合を判断し、市場のダイナミクスに反応し続け、在庫やカタログを管理するために、アソシエーションプランを使用する。
目標は、適切なサイズと色で適切なスタイルを、適切なチャネルを通じて提供することです。
買い物客がニーズや欲求を満たす製品を見つけると、顧客の忠誠心を育み、将来の購入に戻す可能性が高くなる。
製品属性は、品揃え計画において重要な要素です。
本稿では,PDF形式のテキストと画像からなる今後のトレンドレポートのための製品属性抽出アルゴリズムであるPAEを提案する。
既存の手法のほとんどは、タイトルや製品記述からの属性抽出や、既存の製品画像からの視覚情報の利用に重点を置いている。
先行研究と比較して,今後の流行が説明されるPDFファイルからの属性抽出に焦点を当てた。
本研究は,属性抽出のさまざまなモダリティを十分に活用し,小売業者が事前のアソシエーション計画を支援するための,より包括的なフレームワークを提案する。
私たちの貢献は3倍です。
(a)非構造化データ(テキストと画像)から属性を抽出する効率的なフレームワークであるPAEを開発する。
b) BERT表現に基づくカタログマッチング手法を提供し、今後の属性値を用いて既存の属性を発見する。
(c)PAEは,既存の属性値抽出タスクに対して,有効で柔軟性があり,同等あるいは優れた(92.5% F1-Score)フレームワークであることを示す。
Product attribute extraction is an growing field in e-commerce business, with several applications including product ranking, product recommendation, future assortment planning and improving online shopping customer experiences. Understanding the customer needs is critical part of online business, specifically fashion products. Retailers uses assortment planning to determine the mix of products to offer in each store and channel, stay responsive to market dynamics and to manage inventory and catalogs. The goal is to offer the right styles, in the right sizes and colors, through the right channels. When shoppers find products that meet their needs and desires, they are more likely to return for future purchases, fostering customer loyalty. Product attributes are a key factor in assortment planning. In this paper we present PAE, a product attribute extraction algorithm for future trend reports consisting text and images in PDF format. Most existing methods focus on attribute extraction from titles or product descriptions or utilize visual information from existing product images. Compared to the prior works, our work focuses on attribute extraction from PDF files where upcoming fashion trends are explained. This work proposes a more comprehensive framework that fully utilizes the different modalities for attribute extraction and help retailers to plan the assortment in advance. Our contributions are three-fold: (a) We develop PAE, an efficient framework to extract attributes from unstructured data (text and images); (b) We provide catalog matching methodology based on BERT representations to discover the existing attributes using upcoming attribute values; (c) We conduct extensive experiments with several baselines and show that PAE is an effective, flexible and on par or superior (avg 92.5% F1-Score) framework to existing state-of-the-art for attribute value extraction task. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# SMR:ロングシーケンスモデリングのためのステートメモリリプレイ
SMR: State Memory Replay for Long Sequence Modeling ( http://arxiv.org/abs/2405.17534v1 ) ライセンス: Link先を確認 | Biqing Qi, Junqi Gao, Kaiyan Zhang, Dong Li, Jianxing Liu, Ligang Wu, Bowen Zhou, | (参考訳) 長いシーケンスモデリングにおける状態空間モデル(SSM)の有望な性能にもかかわらず、制限は今も残っている。
S5やS6(Mamba)のような高度なSSMは、一様でないサンプリングに対処し、再帰的な構造は畳み込みによる効率的なSSM計算を妨げる。
本稿では,並列畳み込み計算における互換性の限界を克服するために,新しい非再帰的非一様サンプル処理戦略を提案する。
イベントトリガード制御(ETC)理論のレンズによるSSMの理論解析は、サンプリングポイント要求からの逸脱がエラーの伝達と蓄積を引き起こす非安定状態(NSS)問題を明らかにし、SSMの隠れ状態のばらつきを引き起こす。
さらに、初期記憶による入力シーケンスの調整により、サンプリングステップ適応(SSA)を達成し、NAS問題を緩和できることを明らかにした。
この知見に基づいて、学習可能な記憶を利用して、学習データとは異なるサンプリングポイントでの一般化のための多段階情報を用いて現在の状態を調整できる、シンプルで効果的なプラグアンドプレイ機構であるState Memory Replay(SMR)を導入する。
これにより、SSMは安定して様々なサンプリングポイントをモデル化できる。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
Despite the promising performance of state space models (SSMs) in long sequence modeling, limitations still exist. Advanced SSMs like S5 and S6 (Mamba) in addressing non-uniform sampling, their recursive structures impede efficient SSM computation via convolution. To overcome compatibility limitations in parallel convolutional computation, this paper proposes a novel non-recursive non-uniform sample processing strategy. Theoretical analysis of SSMs through the lens of Event-Triggered Control (ETC) theory reveals the Non-Stable State (NSS) problem, where deviations from sampling point requirements lead to error transmission and accumulation, causing the divergence of the SSM's hidden state. Our analysis further reveals that adjustments of input sequences with early memories can mitigate the NSS problem, achieving Sampling Step Adaptation (SSA). Building on this insight, we introduce a simple yet effective plug-and-play mechanism, State Memory Replay (SMR), which utilizes learnable memories to adjust the current state with multi-step information for generalization at sampling points different from those in the training data. This enables SSMs to stably model varying sampling points. Experiments on long-range modeling tasks in autoregressive language modeling and Long Range Arena demonstrate the general effectiveness of the SMR mechanism for a series of SSM models. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# 高速ハイパーパラメータ探索のための校正データセット凝縮法
Calibrated Dataset Condensation for Faster Hyperparameter Search ( http://arxiv.org/abs/2405.17535v1 ) ライセンス: Link先を確認 | Mucong Ding, Yuancheng Xu, Tahseen Rabbani, Xiaoyu Liu, Brian Gravelle, Teresa Ranadive, Tai-Ching Tuan, Furong Huang, | (参考訳) データセットの凝縮は、トレーニングデータセットを小さな合成セットに凝縮することで、大規模なデータセット上で複数のモデルをトレーニングする際の計算コストを削減できる。
最先端のアプローチは、実データと合成データの間のモデル勾配のマッチングに依存する。
しかし、凝縮されたデータの一般化可能性に関する理論的保証はない。
本稿では,ハイパーパラメータ探索を対象とする異なる凝縮目標について考察する。
我々は,縮合されたデータセットと元のデータセットとで,異なるハイパーパラメータを持つモデルの検証性能ランキングが同等になるように,合成バリデーションデータセットを作成することを目指している。
暗黙の微分と効率的な逆ヘッセン近似を用いて計算されたハイパーパラメータ勾配をマッチングすることにより,合成検証データセットを得る。
実験により,提案フレームワークはモデルの検証性能を効果的に維持し,画像とグラフの両方のタスクのハイパーパラメータ/アーキテクチャ探索を高速化することを示した。
Dataset condensation can be used to reduce the computational cost of training multiple models on a large dataset by condensing the training dataset into a small synthetic set. State-of-the-art approaches rely on matching the model gradients between the real and synthetic data. However, there is no theoretical guarantee of the generalizability of the condensed data: data condensation often generalizes poorly across hyperparameters/architectures in practice. This paper considers a different condensation objective specifically geared toward hyperparameter search. We aim to generate a synthetic validation dataset so that the validation-performance rankings of the models, with different hyperparameters, on the condensed and original datasets are comparable. We propose a novel hyperparameter-calibrated dataset condensation (HCDC) algorithm, which obtains the synthetic validation dataset by matching the hyperparameter gradients computed via implicit differentiation and efficient inverse Hessian approximation. Experiments demonstrate that the proposed framework effectively maintains the validation-performance rankings of models and speeds up hyperparameter/architecture search for tasks on both images and graphs. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# BIOSCAN-CLIP:大規模生物多様性モニタリングのためのブリッジングビジョンとゲノム工学
BIOSCAN-CLIP: Bridging Vision and Genomics for Biodiversity Monitoring at Scale ( http://arxiv.org/abs/2405.17537v1 ) ライセンス: Link先を確認 | ZeMing Gong, Austin T. Wang, Joakim Bruslund Haurum, Scott C. Lowe, Graham W. Taylor, Angel X. Chang, | (参考訳) 生物多様性の測定は生態系の健康を理解する上で重要である。
従来,写真画像とDNAの分類分類のための機械学習モデルが開発されてきたが,本研究では,CLIPスタイルのコントラスト学習を用いて画像,DNAバーコード,テキストデータを統合埋め込み空間で整列させるマルチモーダルアプローチを導入する。
これにより、タスク固有の微調整をすることなく、既知の昆虫と未知の昆虫の両方の正確な分類が可能になり、初めて対照的な学習を活用してDNAと画像データを融合する。
本手法は, 生物多様性研究において, ゼロショット学習タスクにおいて, 従来の単一モダリティアプローチを11%以上精度で上回り, その有効性を示す。
Measuring biodiversity is crucial for understanding ecosystem health. While prior works have developed machine learning models for the taxonomic classification of photographic images and DNA separately, in this work, we introduce a multimodal approach combining both, using CLIP-style contrastive learning to align images, DNA barcodes, and textual data in a unified embedding space. This allows for accurate classification of both known and unknown insect species without task-specific fine-tuning, leveraging contrastive learning for the first time to fuse DNA and image data. Our method surpasses previous single-modality approaches in accuracy by over 11% on zero-shot learning tasks, showcasing its effectiveness in biodiversity studies. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# ニューラルネットワーク場理論におけるベイズRG流れ
Bayesian RG Flow in Neural Network Field Theories ( http://arxiv.org/abs/2405.17538v1 ) ライセンス: Link先を確認 | Jessica N. Howard, Marc S. Klinger, Anindita Maiti, Alexander G. Stapleton, | (参考訳) ニューラルネットワーク場理論対応(NNFT)は、ニューラルネットワーク(NN)アーキテクチャから統計場理論(SFT)の空間へのマッピングである。
ベイズ再正規化群 (英: Bayesian renormalization group, BRG) は、NNを含む任意のパラメータ化された確率分布に排他的再正規化群 (ERG) の原理を一般化する情報理論的粗粒化スキームである。
BRGでは、フィッシャー情報計量によって設定された情報理論の識別可能性尺度に対して、パラメータ空間で粗粒化を行う。
本稿では,NNFT と BRG を統一して,NN と SFT の空間を探索する強力なフレームワークを構築し,BRG-NNFT を造語する。
BRG-NNFTでは、NNトレーニングダイナミクスは情報理論 `IR' $\rightarrow$ `UV' から SFT 空間の流れを誘導するものとして解釈することができる。
逆に、訓練されたネットワークのパラメータに情報殻粗粒化を適用すると、情報理論の `UV' $\rightarrow$ `IR' から SFT 空間内のフローが誘導される。
情報理論のカットオフスケールが標準運動量スケールと一致する場合、BRGはERGと等価である。
BRG-NNFT対応を解析的に抽出可能な2つの例で示す。
まず、任意の深さの訓練された無限幅NNに対して、一般的なアクティベーション関数を用いてBRGフローを構築する。
特別な場合として、単一の無限大層を持つアーキテクチャ、スカラー出力、一般化されたcos-netアクティベーションに制限する。
この場合、BRG粗粒化は、自由スカラーSFTの運動量殻ERGフローと正確に一致することを示す。
解析結果は,漸近的に広いNNのアンサンブルを訓練し,インフォメーションシェルBRGスキームを用いて再正規化する数値実験によって裏付けられる。
The Neural Network Field Theory correspondence (NNFT) is a mapping from neural network (NN) architectures into the space of statistical field theories (SFTs). The Bayesian renormalization group (BRG) is an information-theoretic coarse graining scheme that generalizes the principles of the Exact Renormalization Group (ERG) to arbitrarily parameterized probability distributions, including those of NNs. In BRG, coarse graining is performed in parameter space with respect to an information-theoretic distinguishability scale set by the Fisher information metric. In this paper, we unify NNFT and BRG to form a powerful new framework for exploring the space of NNs and SFTs, which we coin BRG-NNFT. With BRG-NNFT, NN training dynamics can be interpreted as inducing a flow in the space of SFTs from the information-theoretic `IR' $\rightarrow$ `UV'. Conversely, applying an information-shell coarse graining to the trained network's parameters induces a flow in the space of SFTs from the information-theoretic `UV' $\rightarrow$ `IR'. When the information-theoretic cutoff scale coincides with a standard momentum scale, BRG is equivalent to ERG. We demonstrate the BRG-NNFT correspondence on two analytically tractable examples. First, we construct BRG flows for trained, infinite-width NNs, of arbitrary depth, with generic activation functions. As a special case, we then restrict to architectures with a single infinitely-wide layer, scalar outputs, and generalized cos-net activations. In this case, we show that BRG coarse-graining corresponds exactly to the momentum-shell ERG flow of a free scalar SFT. Our analytic results are corroborated by a numerical experiment in which an ensemble of asymptotically wide NNs are trained and subsequently renormalized using an information-shell BRG scheme. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# 量子スピン液体のおよそ対称ニューラルネットワーク
Approximately-symmetric neural networks for quantum spin liquids ( http://arxiv.org/abs/2405.17541v1 ) ライセンス: Link先を確認 | Dominik S. Kufel, Jack Kemp, Simon M. Linsel, Chris R. Laumann, Norman Y. Yao, | (参考訳) 本稿では,量子スピン液体問題に対するほぼ対称なニューラルネットワーク群の提案と解析を行う。
これらの調整されたアーキテクチャは、パラメータ効率が高く、拡張性があり、既存の対称性を意識しないニューラルネットワークアーキテクチャよりもはるかに優れています。
混合フィールドトーリック符号モデルを用いて、我々のアプローチは最先端テンソルネットワークや量子モンテカルロ法と競合することを示した。
さらに、最も大きなシステムサイズ (N=480) では、量子モンテカルロと有限サイズの行列積状態の両方の到達範囲を超える符号問題を持つハミルトンを探索することができる。
このネットワークは、非対称なブロックに続く、正確に対称なブロックから構成される。
我々の研究は、解釈可能なニューラルネットワークアーキテクチャにおける量子スピン液体問題の研究への道を開く。
We propose and analyze a family of approximately-symmetric neural networks for quantum spin liquid problems. These tailored architectures are parameter-efficient, scalable, and significantly out-perform existing symmetry-unaware neural network architectures. Utilizing the mixed-field toric code model, we demonstrate that our approach is competitive with the state-of-the-art tensor network and quantum Monte Carlo methods. Moreover, at the largest system sizes (N=480), our method allows us to explore Hamiltonians with sign problems beyond the reach of both quantum Monte Carlo and finite-size matrix-product states. The network comprises an exactly symmetric block following a non-symmetric block, which we argue learns a transformation of the ground state analogous to quasiadiabatic continuation. Our work paves the way toward investigating quantum spin liquid problems within interpretable neural network architectures | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# MQTハンドブック: 量子コンピューティングのための設計自動化ツールとソフトウェアの概要
The MQT Handbook: A Summary of Design Automation Tools and Software for Quantum Computing ( http://arxiv.org/abs/2405.17543v1 ) ライセンス: Link先を確認 | Robert Wille, Lucas Berent, Tobias Forster, Jagatheesan Kunasaikaran, Kevin Mato, Tom Peham, Nils Quetschlich, Damian Rovara, Aaron Sander, Ludwig Schmid, Daniel Schönberger, Yannick Stade, Lukas Burgholzer, | (参考訳) 量子コンピュータは、金融、化学、機械学習、最適化など、短期的な視点(例えば、暗号や非構造化検索)と長期的な視点(例えば、暗号や非構造化検索)を持つ、現実的かつ多数の量子コンピューティングアプリケーションになりつつある。
しかし、これらのデバイスの潜在的なアプリケーションをスケーラブルな方法で設計し、実現するには、量子ソフトウェアスタック全体のすべてのレベルにおいて、エンドユーザー、エンジニア、物理学者のニーズを満たす自動化され、効率的で、ユーザフレンドリなソフトウェアツールが必要である。
この点に対処すべき課題の多くは、過去数十年で洗練された設計自動化ツールが開発された古典的な領域の設計問題に類似している。
Munich Quantum Toolkit (MQT) は、ミュンヘン工科大学のChair for Design Automationによって開発された、量子コンピューティングのためのソフトウェアツールの集合体であり、この設計自動化の専門知識を明示的に活用している。
我々の包括的な目標は、量子ソフトウェアスタック全体にわたる設計タスクのためのソリューションを提供することです。
これには、アプリケーションの実現におけるエンドユーザの高レベルサポート、古典的なシミュレーションのための効率的な方法、コンパイル、量子回路の検証、量子エラー修正ツール、物理設計のサポートなどが含まれる。
これらのメソッドは、対応するデータ構造(決定図など)とコアメソッド(SATエンコーディングや解決器など)によってサポートされます。
開発ツールはすべてオープンソース実装として利用可能であり、https://github.com/cda-tum.comにホストされている。
Quantum computers are becoming a reality and numerous quantum computing applications with a near-term perspective (e.g., for finance, chemistry, machine learning, and optimization) and with a long-term perspective (e.g., for cryptography or unstructured search) are currently being investigated. However, designing and realizing potential applications for these devices in a scalable fashion requires automated, efficient, and user-friendly software tools that cater to the needs of end users, engineers, and physicists at every level of the entire quantum software stack. Many of the problems to be tackled in that regard are similar to design problems from the classical realm for which sophisticated design automation tools have been developed in the previous decades. The Munich Quantum Toolkit (MQT) is a collection of software tools for quantum computing developed by the Chair for Design Automation at the Technical University of Munich which explicitly utilizes this design automation expertise. Our overarching objective is to provide solutions for design tasks across the entire quantum software stack. This entails high-level support for end users in realizing their applications, efficient methods for the classical simulation, compilation, and verification of quantum circuits, tools for quantum error correction, support for physical design, and more. These methods are supported by corresponding data structures (such as decision diagrams) and core methods (such as SAT encodings/solvers). All of the developed tools are available as open-source implementations and are hosted on https://github.com/cda-tum. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# 予測セットによる人間とAIの相補性を目指して
Towards Human-AI Complementarity with Predictions Sets ( http://arxiv.org/abs/2405.17544v1 ) ライセンス: Link先を確認 | Giovanni De Toni, Nastaran Okati, Suhas Thejaswi, Eleni Straitouri, Manuel Gomez-Rodriguez, | (参考訳) 予測セットに基づく意思決定支援システムは、人間の専門家が分類タスクを解くのに役立つことが証明されている。
これらのシステムは、単一ラベル予測を提供するのではなく、共形予測、すなわち予測セットを用いて構築されたラベル予測のセットを提供し、これらのセットからラベル値を予測するように人間の専門家に求める。
本稿では、まず、共形予測を用いて構築された予測セットが、一般に平均精度の点において最適以下であることを示す。
そして,人的専門家が平均精度を最大に達成する最適な予測セットを見つけるという問題はNPハードであることを示す。
より強く、P = NP でない限り、この問題はラベル集合のサイズより小さい任意の因子に近似することが困難であることを示す。
しかし,多種多様な専門家モデルと非整合性スコアに対して,共形予測を用いて構築したモデルと同等以上の性能を確実に提供する予測セットを見つけることが保証される,単純で効率的なグリーディアルゴリズムを導入する。
さらに, 実測値と実測値の両方を用いたシミュレーション実験により, 本アルゴリズムでは, 共形予測よりも高い性能を示す準最適予測セットが得られた。
Decision support systems based on prediction sets have proven to be effective at helping human experts solve classification tasks. Rather than providing single-label predictions, these systems provide sets of label predictions constructed using conformal prediction, namely prediction sets, and ask human experts to predict label values from these sets. In this paper, we first show that the prediction sets constructed using conformal prediction are, in general, suboptimal in terms of average accuracy. Then, we show that the problem of finding the optimal prediction sets under which the human experts achieve the highest average accuracy is NP-hard. More strongly, unless P = NP, we show that the problem is hard to approximate to any factor less than the size of the label set. However, we introduce a simple and efficient greedy algorithm that, for a large class of expert models and non-conformity scores, is guaranteed to find prediction sets that provably offer equal or greater performance than those constructed using conformal prediction. Further, using a simulation study with both synthetic and real expert predictions, we demonstrate that, in practice, our greedy algorithm finds near-optimal prediction sets offering greater performance than conformal prediction. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# 複雑さはランダムさにはほど遠い
Complexity is not Enough for Randomness ( http://arxiv.org/abs/2405.17546v1 ) ライセンス: Link先を確認 | Shiyong Guo, Martin Sasieta, Brian Swingle, | (参考訳) ブラウン系におけるランダムネスの動的生成を、ハミルトニアンの局所性の度合いの関数として研究する。
まず, 有効平衡熱分割関数を用いて, これらのシステムに対する一元的設計へのトレース距離を表現し, 設計に線形時間を保証する条件のセットを提供する。
時間進化作用素のスペクトル特性を設計に関連付ける。
これらの考察を、局所性の次数$p$の関数としてブラウンの$p$-SYKモデルに適用する。
設計時間は線形であり、勾配は1/p$に比例する。
我々は、$p$が順序のシステムサイズであるとき、これはランダム行列の完全に非局所ブラウンモデルの振舞いを再現する、と相関する。
ランダム行列モデルに対しては、これらの結果をユニタリ多様体の古典的ブラウン運動の観点から再解釈する。
したがって、高度に局所的な時間依存的ハミルトニアンによって支配されるシステムであっても、ランダムネスの生成は通常、システムサイズにおいて指数関数的に長時間持続する。
時間依存ハミルトニアンのアンサンブルに大量の微調整がない限り、近似ハール乱ユニタリを動的に生成する効率的な方法はない。
時間進化作用素の量子複雑性の増大に対してランダム性の遅い生成は対照的である。
ユニタリ設計における回路複雑性の既知境界を用いて、ブラウン系において、複雑性が少なくとも線形に増加すると判定する下界を求める。
我々は、回路複雑性のこれらの境界は厳密なものではなく、少なくとも非局所的なシステムでは、複雑さはより高速な速度で増大すると主張している。
We study the dynamical generation of randomness in Brownian systems as a function of the degree of locality of the Hamiltonian. We first express the trace distance to a unitary design for these systems in terms of an effective equilibrium thermal partition function, and provide a set of conditions that guarantee a linear time to design. We relate the trace distance to design to spectral properties of the time-evolution operator. We apply these considerations to the Brownian $p$-SYK model as a function of the degree of locality $p$. We show that the time to design is linear, with a slope proportional to $1/p$. We corroborate that when $p$ is of order the system size this reproduces the behavior of a completely non-local Brownian model of random matrices. For the random matrix model, we reinterpret these results from the point of view of classical Brownian motion in the unitary manifold. Therefore, we find that the generation of randomness typically persists for exponentially long times in the system size, even for systems governed by highly non-local time-dependent Hamiltonians. We conjecture this to be a general property: there is no efficient way to generate approximate Haar random unitaries dynamically, unless a large degree of fine-tuning is present in the ensemble of time-dependent Hamiltonians. We contrast the slow generation of randomness to the growth of quantum complexity of the time-evolution operator. Using known bounds on circuit complexity for unitary designs, we obtain a lower bound determining that complexity grows at least linearly in time for Brownian systems. We argue that these bounds on circuit complexity are far from tight and that complexity grows at a much faster rate, at least for non-local systems. | 翻訳日:2024-05-29 23:40:54 公開日:2024-05-27 |
# 時空間量子相関の演算子表現
Operator representation of spatiotemporal quantum correlations ( http://arxiv.org/abs/2405.17555v1 ) ライセンス: Link先を確認 | James Fullwood, Arthur J. Parzygnat, | (参考訳) 2つの空間的分離系間の量子相関は、結合系に付随する二部密度演算子によって完全に符号化されているが、空間と時間にまたがる一般量子相関の演算子表現は存在しないことを証明している。
これは古典的確率変数の場合とは対照的であり、空間的相関と時間的相関を区別しない。
それにもかかわらず、光タッチ観測可能量(すなわち1つの特異値を持つ観測可能量)間の時空間相関の制限された設定において、任意の時間的分離量子系に対してそのような時空間相関のユニークな演算子が存在することを示す。
この結果の特別な場合では、一般化されたパウリ可観測行列と擬密度行列を再現するが、これはこれまではマルチキュービット系でしか定義されていなかった。
四重項系の場合,光タッチオブザーバブルと対称,情報完備,正の演算子値測定(SIC-POVMs)との間の興味深い関係を示す。
While quantum correlations between two spacelike-separated systems are fully encoded by the bipartite density operator associated with the joint system, we prove that there does not exist an operator representation for general quantum correlations across space and time. This is in stark contrast to the case of classical random variables, which make no distinction between spacelike and timelike correlations. Despite this, we show that in the restricted setting of spatiotemporal correlations between light-touch observables (i.e., observables with only one singular value), there exists a unique operator representation of such spatiotemporal correlations for arbitrary timelike-separated quantum systems. A special case of our result reproduces generalized Pauli observables and pseudo-density matrices, which have, up until now, only been defined for multi-qubit systems. In the case of qutrit systems, we use our results to illustrate an intriguing connection between light-touch observables and symmetric, informationally complete, positive operator-valued measures (SIC-POVMs). | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# 分岐と境界を用いたニューラルネットワークの確率論的検証
Probabilistic Verification of Neural Networks using Branch and Bound ( http://arxiv.org/abs/2405.17556v1 ) ライセンス: Link先を確認 | David Boetius, Stefan Leue, Tobias Sutter, | (参考訳) ニューラルネットワークの確率的検証は、入力の確率分布の下で、ニューラルネットワークの出力分布を正式に解析することに関わる。
確率的検証の例としては、人口統計学的パリティ公正の概念の検証や、ニューラルネットワークの安全性の定量化がある。
本稿では,ニューラルネットワークの出力に対する確率に対する下限と上限を反復的に精錬するアルゴリズムに基づく,ニューラルネットワークの確率的検証のための新しいアルゴリズムを提案する。
非確率的ニューラルネットワーク検証から最先端のバウンド伝搬と分岐およびバウンド技術を適用することで,本アルゴリズムは既存の確率的検証アルゴリズムを大幅に上回り,文献から数十分から数十秒までの様々なベンチマークの問題解決時間を短縮する。
さらに,本アルゴリズムは確率的検証の制限された部分集合に対する専用アルゴリズムと比較して好意的に比較する。
我々は経験的評価を理論的解析で補完し、我々のアルゴリズムが健全であること、そして、軽度に制限された条件下では、適切なヒューリスティックセットを使用する際にも完了することを証明する。
Probabilistic verification of neural networks is concerned with formally analysing the output distribution of a neural network under a probability distribution of the inputs. Examples of probabilistic verification include verifying the demographic parity fairness notion or quantifying the safety of a neural network. We present a new algorithm for the probabilistic verification of neural networks based on an algorithm for computing and iteratively refining lower and upper bounds on probabilities over the outputs of a neural network. By applying state-of-the-art bound propagation and branch and bound techniques from non-probabilistic neural network verification, our algorithm significantly outpaces existing probabilistic verification algorithms, reducing solving times for various benchmarks from the literature from tens of minutes to tens of seconds. Furthermore, our algorithm compares favourably even to dedicated algorithms for restricted subsets of probabilistic verification. We complement our empirical evaluation with a theoretical analysis, proving that our algorithm is sound and, under mildly restrictive conditions, also complete when using a suitable set of heuristics. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# カークウッド・ディラック正状態の集合はほとんど常に最小である
The set of Kirkwood-Dirac positive states is almost always minimal ( http://arxiv.org/abs/2405.17557v1 ) ライセンス: Link先を確認 | Christopher Langrenez, Wilfred Salmon, Stephan De Bièvre, Jonathan J. Thio, Christopher K. Long, David R. M. Arvidsson-Shukur, | (参考訳) 量子情報の中心的な問題は、量子古典境界を決定することである。
古典性の有用な概念は、量子論の準確率の定式化によって与えられる。
このフレームワークでは、状態が正の準確率分布、すなわち確率分布で表される場合、状態が古典的と呼ばれる。
近年、カークウッド・ディラック(KD)分布は、現代の量子情報研究における多くの応用により、多くの関心を集めている。
KD分布の特に利点は、任意の可観測性に対して定義できることである。
ここでは、2つの観測変数がランダムに選択された場合、結果として得られるKD分布の古典状態の集合は最小サイズで単純なポリトープであることを示す。
ヒルベルト空間が次元$d$であるとき、このポリトープは次元が2d-1$であり、既知の頂点が2d$である。
我々の結果は、$\textit{e g }$、ほとんどのKD分布は、自由状態が小さく単純な集合を形成する資源理論を持つことを意味する。
A central problem in quantum information is determining quantum-classical boundaries. A useful notion of classicality is provided by the quasiprobability formulation of quantum theory. In this framework, a state is called classical if it is represented by a quasiprobability distribution that is positive, and thus a probability distribution. In recent years, the Kirkwood-Dirac (KD) distributions have gained much interest due to their numerous applications in modern quantum-information research. A particular advantage of the KD distributions is that they can be defined with respect to arbitrary observables. Here, we show that if two observables are picked at random, the set of classical states of the resulting KD distribution is a simple polytope of minimal size. When the Hilbert space is of dimension $d$, this polytope is of dimension $2d-1$ and has $2d$ known vertices. Our result implies, $\textit{e.g.}$, that almost all KD distributions have resource theories in which the free states form a small and simple set. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# 安定状態と量子設計のためのウィグナーの理論
Wigner's Theorem for stabilizer states and quantum designs ( http://arxiv.org/abs/2405.17565v1 ) ライセンス: Link先を確認 | Valentin Obst, Arne Heimendahl, Tanmay Singal, David Gross, | (参考訳) 系の任意の数$n$および任意の素局所次元$d$に対する安定化器ポリトープの対称性群を記述する。
クォービットの場合、対称性群は線型および反線型クリフォード作用素と一致する。
クォーディットの場合、構造はよりリッチである:$n=1$の場合、基底の置換と各基底内の要素の置換のリース積である。
n>1$の場合、対称性はアフィンシンプレクティックシンプレクティックシンジエントによって与えられる。
これらのアフィン写像は、下層の離散位相空間のシンプレクティック形式を 0 でない乗数まで保存する。
これらの結果は、Kadison symmetries(凸結合に相反する対象)、Wigner symmetries(内部積を保存する対象)、Hilbert空間上の作用によって実現された対称性など、いくつかの先行的な「対称性」の概念に関して表現する。
安定化状態を超えて、ハインリッヒとグロス(英語版)(Ref. [25])の観測を拡張し、エルミート作用素のかなり一般的な集合の対称性がある種のモーメントによって制約されていることを示す。
特に、三次元デザインのように振る舞う集合の対称性はヨルダン積を保存し、従ってユニタリや反ユニタリとの共役によって実現される。
(ジョルダン代数の構造定数は位数3のテンソルに符号化され、設計の第3モーメントに接続する)。
これにより、カジソンの古典的なウィグナー定理の量子力学対称性の定式化が一般化される。
We describe the symmetry group of the stabilizer polytope for any number $n$ of systems and any prime local dimension $d$. In the qubit case, the symmetry group coincides with the linear and anti-linear Clifford operations. In the case of qudits, the structure is somewhat richer: for $n=1$, it is a wreath product of permutations of bases and permutations of the elements within each basis. For $n>1$, the symmetries are given by affine symplectic similitudes. These are the affine maps that preserve the symplectic form of the underlying discrete phase space up to a non-zero multiplier. We phrase these results with respect to a number of a priori different notions of "symmetry'', including Kadison symmetries (bijections that are compatible with convex combinations), Wigner symmetries (bijections that preserve inner products), and symmetries realized by an action on Hilbert space. Going beyond stabilizer states, we extend an observation of Heinrich and Gross (Ref. [25]) and show that the symmetries of fairly general sets of Hermitian operators are constrained by certain moments. In particular: the symmetries of a set that behaves like a 3-design preserve Jordan products and are therefore realized by conjugation with unitaries or anti-unitaries. (The structure constants of the Jordan algebra are encoded in an order-three tensor, which we connect to the third moments of a design). This generalizes Kadison's formulation of the classic Wigner Theorem on quantum mechanical symmetries. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# 自己相互作用暗黒物質とAGNフィードバックモデルとをアンタングル化するディープラーニングアルゴリズム
A deep-learning algorithm to disentangle self-interacting dark matter and AGN feedback models ( http://arxiv.org/abs/2405.17566v1 ) ライセンス: Link先を確認 | David Harvey, | (参考訳) ダークマターの異なるモデルでは、様々な方法で銀河団内の質量の分布を変えることができる。
しかし、天体物理学的なフィードバック機構は不確実である。
ここでは,ダークマターの自己相互作用の影響が,この縮退を破り,ダークマターに対する推論を行うために,宇宙物理学的なフィードバックとどのように異なるかを「学習」する機械学習手法を提案する。
我々は、流体力学シミュレーションから銀河団の画像に畳み込みニューラルネットワークを訓練する。
理想化された場合、我々のアルゴリズムは、銀河団が衝突のないダークマター、例えば${\sigma}_{\rm DM}/m = 0.1$cm$^2/$g、または${\sigma}_{DM}/m = 1$cm$^2/gのダークマターを80%精度で検出する。
X線放射率マップを追加しても衝突ダークマターの識別性能は向上しないが、天体物理学的フィードバックの異なるモデルを切り離す能力は向上する。
我々は、ユークリッドとチャンドラが予測するデータに類似するノイズを含んでおり、我々のモデルは統計誤差が0.01cm$^2$/gであり、我々のアルゴリズムは測定バイアスや測光赤方偏移誤差に不感である。
この手法は、より正確で多くのオーダーが高速な、近日中の望遠鏡からのデータを分析する新しい方法であり、暗黒物質パラメーター空間をかつてないほど探索することができる。
Different models of dark matter can alter the distribution of mass in galaxy clusters in a variety of ways. However, so can uncertain astrophysical feedback mechanisms. Here we present a Machine Learning method that ''learns'' how the impact of dark matter self-interactions differs from that of astrophysical feedback in order to break this degeneracy and make inferences on dark matter. We train a Convolutional Neural Network on images of galaxy clusters from hydro-dynamic simulations. In the idealised case our algorithm is 80% accurate at identifying if a galaxy cluster harbours collisionless dark matter, dark matter with ${\sigma}_{\rm DM}/m = 0.1$cm$^2/$g or with ${\sigma}_{DM}/m = 1$cm$^2$/g. Whilst we find adding X-ray emissivity maps does not improve the performance in differentiating collisional dark matter, it does improve the ability to disentangle different models of astrophysical feedback. We include noise to resemble data expected from Euclid and Chandra and find our model has a statistical error of < 0.01cm$^2$/g and that our algorithm is insensitive to shape measurement bias and photometric redshift errors. This method represents a new way to analyse data from upcoming telescopes that is an order of magnitude more precise and many orders faster, enabling us to explore the dark matter parameter space like never before. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# Strategic Code: 量子エラー補正のための統一された時空間フレームワーク
Strategic Code: A Unified Spatio-Temporal Framework for Quantum Error-Correction ( http://arxiv.org/abs/2405.17567v1 ) ライセンス: Link先を確認 | Andrew Tanggara, Mile Gu, Kishor Bharti, | (参考訳) QECC(Quantum error-correcting code)は、フォールトトレラントな量子情報処理の中心的な要素である。
動的QECCのパラダイムは、従来のQECCよりも時間的にも空間的にも論理量子情報をより資源効率の良い方法で堅牢にエンコードできることを示している。
それでも、動的QECCが耐故障性を実現する方法に関する包括的な理論は欠落している。
本研究では,<quantum combs'の形式,すなわちチャネル状態双対性の一般化に基づいて,空間QECCを順応的に測定し,進化させる‘interrogator’デバイスを中心に構築された,‘strategic code’と呼ばれる一貫した時空間QECCフレームワークを提案することにより,このギャップを埋める。
戦略コードは、既存の動的および静的なQECCと、将来発見されるすべての物理的に妥当なQECCをカバーしている。
本枠組みでは,空間的・時間的に相関した誤りを考慮した戦略的符号に対して,代数的かつ情報論的に必要かつ十分な誤り訂正条件を示す。
これらの条件は、特別な場合として既知の類似の静的QECC条件を含む。
最後に,相関誤差に適応した近似的戦略コードを得るための最適化理論的手法を提案する。
Quantum error-correcting code (QECC) is the central ingredient in fault-tolerant quantum information processing. An emerging paradigm of dynamical QECC shows that one can robustly encode logical quantum information both temporally and spatially in a more resource-efficient manner than traditional QECCs. Nevertheless, an overarching theory of how dynamical QECCs achieve fault-tolerance is lacking. In this work, we bridge this gap by proposing a unified spatio-temporal QECC framework called the ``strategic code'' built around an ``interrogator'' device which sequentially measures and evolves the spatial QECC in an adaptive manner based on the ``quantum combs'' formalism, a generalization of the channel-state duality. The strategic code covers all existing dynamical and static QECC, as well as all physically plausible QECCs to be discovered in the future, including those that involve adaptivity in its operational dynamics. Within this framework, we show an algebraic and an information-theoretic necessary and sufficient error-correction conditions for a strategic code, which consider spatially and temporally correlated errors. These conditions include the analogous known static QECC conditions as a special case. Lastly, we also propose an optimization-theoretic approach to obtain an approximate strategic code adapting to a correlated error. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# ExtremeMETA:多チャンネルメタマテリアルイメージのリモデリングによる高速軽量画像分割モデル
ExtremeMETA: High-speed Lightweight Image Segmentation Model by Remodeling Multi-channel Metamaterial Imagers ( http://arxiv.org/abs/2405.17568v1 ) ライセンス: Link先を確認 | Quan Liu, Brandon T. Swartz, Ivan Kravchenko, Jason G. Valentine, Yuankai Huo, | (参考訳) ディープニューラルネットワーク(DNN)は、CPUやGPUといった従来の計算単位に大きく依存している。
しかし,従来の手法では計算負荷やレイテンシの問題,高消費電力化などがあり,有効性は制限されている。
これによりExtremeC3Netのような軽量ネットワークの必要性が高まった。
一方、光学計算ユニット、特にメタマテリアルは、光速で動くエネルギー効率の高いニューラルネットワークのエキサイティングな展望を提供する。
しかし、メタマテリアルニューラルネットワーク(MNN)のディジタル設計は、精度、ノイズ、帯域幅といった課題に直面し、直感的なタスクや低解像度の画像にその応用を制限している。
本稿では,大規模なカーネル軽量セグメンテーションモデルExtremeMETAを提案する。
ExtremeC3Netに基づいて、ExtremeMETAは、より大きな畳み込みカーネルと複数の処理パスを探索することによって、第1の畳み込み層の能力を最大化する。
提案する大規模カーネル畳み込みモデルにより、光学ニューラルネットワークアプリケーション境界をセグメント化タスクに拡張する。
さらに、デジタル処理部の計算負担を軽減するために、一連のモデル圧縮手法を適用して、推論段階におけるモデル効率を向上させる。
3つの公開データセットの実験結果から、最適化された効率的な設計により、mIoUでのセグメンテーション性能は92.45から95.97に向上し、計算FLOPは461.07 MMacから166.03 MMacに低下した。
提案した大規模カーネル軽量モデルExtremeMETAは、複雑なタスクにおけるハイブリッド設計の能力を示す。
Deep neural networks (DNNs) have heavily relied on traditional computational units like CPUs and GPUs. However, this conventional approach brings significant computational burdens, latency issues, and high power consumption, limiting their effectiveness. This has sparked the need for lightweight networks like ExtremeC3Net. On the other hand, there have been notable advancements in optical computational units, particularly with metamaterials, offering the exciting prospect of energy-efficient neural networks operating at the speed of light. Yet, the digital design of metamaterial neural networks (MNNs) faces challenges such as precision, noise, and bandwidth, limiting their application to intuitive tasks and low-resolution images. In this paper, we propose a large kernel lightweight segmentation model, ExtremeMETA. Based on the ExtremeC3Net, the ExtremeMETA maximizes the ability of the first convolution layer by exploring a larger convolution kernel and multiple processing paths. With the proposed large kernel convolution model, we extend the optic neural network application boundary to the segmentation task. To further lighten the computation burden of the digital processing part, a set of model compression methods is applied to improve model efficiency in the inference stage. The experimental results on three publicly available datasets demonstrate that the optimized efficient design improved segmentation performance from 92.45 to 95.97 on mIoU while reducing computational FLOPs from 461.07 MMacs to 166.03 MMacs. The proposed the large kernel lightweight model ExtremeMETA showcases the hybrid design's ability on complex tasks. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# ブラジルポルトガル語における深層学習に基づく呼吸不全検出における識別音声特性
Discriminant audio properties in deep learning based respiratory insufficiency detection in Brazilian Portuguese ( http://arxiv.org/abs/2405.17569v1 ) ライセンス: Link先を確認 | Marcelo Matheus Gauy, Larissa Cristina Berti, Arnaldo Cândido Jr, Augusto Camargo Neto, Alfredo Goldman, Anna Sara Shafferman Levin, Marcus Martins, Beatriz Raposo de Medeiros, Marcelo Queiroz, Ester Cerdeira Sabino, Flaviane Romani Fernandes Svartman, Marcelo Finger, | (参考訳) 本研究では,音声分析により呼吸不全(RI)を検出する人工知能(AI)システムについて検討し,音声をRIバイオマーカーとして扱う。
パンデミックの第1フェーズにおいて、新型コロナウイルス患者のRIデータ(P1)を収集し、CNNやTransformersといった近代的なAIモデルを訓練した。
ここでは、AIベースのRI検出の拡張を目的とした、COVID-19以外のいくつかの原因を含むRI患者データ(P2)を収集する。
また,RIを伴わない患者からのコントロールデータも収集した。
検討したモデルがP1で訓練された場合、P2に一般化せず、すべてのRIタイプにはない可能性のある特徴がCOVID-19 RIにあることを示す。
This work investigates Artificial Intelligence (AI) systems that detect respiratory insufficiency (RI) by analyzing speech audios, thus treating speech as a RI biomarker. Previous works collected RI data (P1) from COVID-19 patients during the first phase of the pandemic and trained modern AI models, such as CNNs and Transformers, which achieved $96.5\%$ accuracy, showing the feasibility of RI detection via AI. Here, we collect RI patient data (P2) with several causes besides COVID-19, aiming at extending AI-based RI detection. We also collected control data from hospital patients without RI. We show that the considered models, when trained on P1, do not generalize to P2, indicating that COVID-19 RI has features that may not be found in all RI types. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets
Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets ( http://arxiv.org/abs/2405.17573v1 ) ライセンス: Link先を確認 | Arthur Jacot, Alexandre Kaiser, | (参考訳) ResNets$\tilde{L}=0$) と Fully-Connected nets$\tilde{L}\to\infty$) を '有効な深さ' ハイパーパラメータ$\tilde{L}$ で補間する Leaky ResNets について検討する。
無限深度極限において、入力$p=0$から出力$p=1$までの表現空間における連続パスをネットワークのパラメータノルムを最小化する'representation geodesics'$A_{p}$の研究を行う。
ラグランジアンとハミルトンの改革は、小さな層微分を好む運動エネルギー$\partial_{p}A_{p}$と、低次元表現を好むポテンシャルエネルギーの2つの項の重要性を強調している。
これら2つの力のバランスは、ResNetsにおける機能学習の直感的な理解を提供する。
より大きな$\tilde{L}$ ポテンシャルエネルギーが支配的であり、時間スケールの分離につながるため、高次元の入力から低次元の表現へと表現が急速にジャンプし、低次元の表現空間内をゆっくりと移動し、潜在的に高次元の出力へと戻る。
この現象にインスパイアされた私たちは、時間スケールの分離に適応するために、段階的なレイヤーでトレーニングします。
We study Leaky ResNets, which interpolate between ResNets ($\tilde{L}=0$) and Fully-Connected nets ($\tilde{L}\to\infty$) depending on an 'effective depth' hyper-parameter $\tilde{L}$. In the infinite depth limit, we study 'representation geodesics' $A_{p}$: continuous paths in representation space (similar to NeuralODEs) from input $p=0$ to output $p=1$ that minimize the parameter norm of the network. We give a Lagrangian and Hamiltonian reformulation, which highlight the importance of two terms: a kinetic energy which favors small layer derivatives $\partial_{p}A_{p}$ and a potential energy that favors low-dimensional representations, as measured by the 'Cost of Identity'. The balance between these two forces offers an intuitive understanding of feature learning in ResNets. We leverage this intuition to explain the emergence of a bottleneck structure, as observed in previous work: for large $\tilde{L}$ the potential energy dominates and leads to a separation of timescales, where the representation jumps rapidly from the high dimensional inputs to a low-dimensional representation, move slowly inside the space of low-dimensional representations, before jumping back to the potentially high-dimensional outputs. Inspired by this phenomenon, we train with an adaptive layer step-size to adapt to the separation of timescales. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# 概念ボトルネックモデルによる解釈可能な予後
Interpretable Prognostics with Concept Bottleneck Models ( http://arxiv.org/abs/2405.17575v1 ) ライセンス: Link先を確認 | Florent Forest, Katharina Rombach, Olga Fink, | (参考訳) 深層学習のアプローチは、最近、産業資産の予後について広範囲に研究されている。
しかし、それらは依然として解釈可能性の欠如に悩まされており、安全クリティカルなアプリケーションへの導入を妨げている。
信頼性を向上させるために、説明可能なAI(XAI)技術は、主にポストホック帰属法を用いて残りの有用生命(RUL)を予測するための入力変数の重要性を定量化するために、予後学に応用されている。
本稿では,概念記述に基づく本質的に解釈可能なニューラルネットワークアーキテクチャのファミリーであるConcept Bottleneck Models (CBMs) を,RUL予測の課題に適用することを提案する。
低レベルな入力特徴の観点で決定を説明する属性法とは異なり、概念はユーザが容易に理解できる高レベルな情報を表す。
さらに、一度実際のアプリケーションで検証されると、CBMはドメインの専門家がテスト時にコンセプトアクティベーションに介入することを可能にする。
本稿では、資産の異なる劣化モードを中間概念として用いることを提案する。
RUL予測のための航空機エンジンデータセットN-CMAPSS(New Commercial Modular Aero Propulsion System Simulation)のケーススタディでは、CBMの性能はブラックボックスモデルと同等か優れているが、使用可能なラベル付き概念が限られている場合でもより解釈可能であることを示した。
コードは \href{https://github.com/EPFL-IMOS/concept-prognostics/}{\url{github.com/EPFL-IMOS/concept-prognostics/}} で公開されている。
Deep learning approaches have recently been extensively explored for the prognostics of industrial assets. However, they still suffer from a lack of interpretability, which hinders their adoption in safety-critical applications. To improve their trustworthiness, explainable AI (XAI) techniques have been applied in prognostics, primarily to quantify the importance of input variables for predicting the remaining useful life (RUL) using post-hoc attribution methods. In this work, we propose the application of Concept Bottleneck Models (CBMs), a family of inherently interpretable neural network architectures based on concept explanations, to the task of RUL prediction. Unlike attribution methods, which explain decisions in terms of low-level input features, concepts represent high-level information that is easily understandable by users. Moreover, once verified in actual applications, CBMs enable domain experts to intervene on the concept activations at test-time. We propose using the different degradation modes of an asset as intermediate concepts. Our case studies on the New Commercial Modular AeroPropulsion System Simulation (N-CMAPSS) aircraft engine dataset for RUL prediction demonstrate that the performance of CBMs can be on par or superior to black-box models, while being more interpretable, even when the available labeled concepts are limited. Code available at \href{https://github.com/EPFL-IMOS/concept-prognostics/}{\url{github.com/EPFL-IMOS/concept-prognostics/}}. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# 船の到着時間不確実性を考慮したCV@R最小化のためのコンテナ事前マーシャリング問題
Container pre-marshalling problem minimizing CV@R under uncertainty of ship arrival times ( http://arxiv.org/abs/2405.17576v1 ) ライセンス: Link先を確認 | Daiki Ikuma, Shunnosuke Ikeda, Noriyoshi Sukegawa, Yuichi Takano, | (参考訳) 本稿では, コンテナを再シャッフルせずに効率よく船に積載できるように, 格納領域内のコンテナを移動させるという, コンテナ事前マーシャリングの問題に対処する。
しかし、実際には、船の到着時間は様々な外部要因の影響を受けており、コンテナ検索の順序が当初の計画と異なる可能性がある。
このような不確実性を表すために、船到着時間の多変量確率分布から複数のシナリオを生成する。
我々は,再シャッフルに責任があるコンテナの数に対して,条件付き値-アットリスクを最小限に抑えるような最適なコンテナレイアウトを求めるために,混合整数線形最適化モデルを導出する。
さらに,大規模問題に対処するための切削平面法に基づく正確なアルゴリズムを考案した。
合成データセットを用いた数値実験により,従来のロバスト最適化モデルと比較して高品質なコンテナ配置を実現できることを示した。
さらに,本アルゴリズムは大規模問題の解法を高速化する。
This paper is concerned with the container pre-marshalling problem, which involves relocating containers in the storage area so that they can be efficiently loaded onto ships without reshuffles. In reality, however, ship arrival times are affected by various external factors, which can cause the order of container retrieval to be different from the initial plan. To represent such uncertainty, we generate multiple scenarios from a multivariate probability distribution of ship arrival times. We derive a mixed-integer linear optimization model to find an optimal container layout such that the conditional value-at-risk is minimized for the number of misplaced containers responsible for reshuffles. Moreover, we devise an exact algorithm based on the cutting-plane method to handle large-scale problems. Numerical experiments using synthetic datasets demonstrate that our method can produce high-quality container layouts compared with the conventional robust optimization model. Additionally, our algorithm can speed up the computation of solving large-scale problems. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# リニアネットワークにおける混合ダイナミクス:遅延とアクティブなレジームの統合
Mixed Dynamics In Linear Networks: Unifying the Lazy and Active Regimes ( http://arxiv.org/abs/2405.17580v1 ) ライセンス: Link先を確認 | Zhenfeng Tu, Santiago Aranguri, Arthur Jacot, | (参考訳) 線形ネットワークのトレーニング力学は、ネットワークの初期化と幅に応じて遅延状態と平衡/アクティブ状態の2つの異なる設定でよく研究されている。
我々は、学習行列の進化のための驚くほど単純なユニフィング式を提供し、この式は遅延とバランスの取れた状態の両方を特別なケースとして含むが、両者の間には混合された状態も含む。
混合状態では、ネットワークの一部が遅延し、他方がバランスを取る。
より正確には、ネットワークは特定のしきい値より低い特異値に沿って遅延し、同じしきい値より低い値に沿ってバランスをとる。
初期化時には、すべての特異値は遅延し、ネットワークがタスクと整列できるので、後に特異値の一部がしきい値を越えてアクティブになると、急速に収束する(バランスの取れた状態の収束は、アライメントの欠如において非常に困難である)。
混合状態は「両方の世界の最良」であり、任意のランダムな初期化(特別な初期化を必要とするバランスの取れた力学とは対照的に)から収束し、低ランクバイアス(遅延力学)を持つ。
これにより、MSEトレーニングタスクにおいて、初期化時の分散と幅の関数として、トレーニング行動のほぼ完全な位相図を証明できる。
The training dynamics of linear networks are well studied in two distinct setups: the lazy regime and balanced/active regime, depending on the initialization and width of the network. We provide a surprisingly simple unyfing formula for the evolution of the learned matrix that contains as special cases both lazy and balanced regimes but also a mixed regime in between the two. In the mixed regime, a part of the network is lazy while the other is balanced. More precisely the network is lazy along singular values that are below a certain threshold and balanced along those that are above the same threshold. At initialization, all singular values are lazy, allowing for the network to align itself with the task, so that later in time, when some of the singular value cross the threshold and become active they will converge rapidly (convergence in the balanced regime is notoriously difficult in the absence of alignment). The mixed regime is the `best of both worlds': it converges from any random initialization (in contrast to balanced dynamics which require special initialization), and has a low rank bias (absent in the lazy dynamics). This allows us to prove an almost complete phase diagram of training behavior as a function of the variance at initialization and the width, for a MSE training task. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# 回帰ニューラルネットワーク(RNN)を用いた都市温度予測モデルの構築
Building a temperature forecasting model for the city with the regression neural network (RNN) ( http://arxiv.org/abs/2405.17582v1 ) ライセンス: Link先を確認 | Nguyen Phuc Tran, Duy Thanh Tran, Thi Thuy Nga Duong, | (参考訳) 近年、世界とベトナムの環境団体による調査によると、天候の変化は非常に複雑である。
地球温暖化は現代の世界で深刻な問題になっています 科学者にとって問題です
昨世紀は 天気予報が困難でした 気象監視局の欠如と 技術的な制限により
これにより、正確なシミュレーションを行うための予測モデルを構築するためのデータ収集が困難になりました。
ベトナムでは、天気予報モデルの研究は、2000年頃に始まったばかりである。
コンピュータ科学の進歩と共に、数学的モデルは、より正確で信頼性の高い予測モデルを作成するために、機械学習技術で構築され、応用されている。
本稿では, 都市温度の予測に 繰り返しニューラルネットワークを適用するための研究と解決策を要約する。
In recent years, a study by environmental organizations in the world and Vietnam shows that weather change is quite complex. global warming has become a serious problem in the modern world, which is a concern for scientists. last century, it was difficult to forecast the weather due to missing weather monitoring stations and technological limitations. this made it hard to collect data for building predictive models to make accurate simulations. in Vietnam, research on weather forecast models is a recent development, having only begun around 2000. along with advancements in computer science, mathematical models are being built and applied with machine learning techniques to create more accurate and reliable predictive models. this article will summarize the research and solutions for applying recurrent neural networks to forecast urban temperatures. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# 線形回帰による連続学習における予測理解
Understanding Forgetting in Continual Learning with Linear Regression ( http://arxiv.org/abs/2405.17583v1 ) ライセンス: Link先を確認 | Meng Ding, Kaiyi Ji, Di Wang, Jinhui Xu, | (参考訳) 連続的な学習は、複数のタスクを逐次学習することに焦点を当てており、近年大きな注目を集めている。
過去に大きな進歩があったにも拘わらず、理論的理解、特に破滅的な忘れ物に寄与する要因は、いまだに未解明のままである。
本稿では,線形回帰モデルにおいて,SGD(Stochastic Gradient Descent)を用いて,過度なパラメータ化と過度なパラメータ化の両方に適用可能な線形回帰モデルについて,一般的な理論的解析を行う。
我々の理論的枠組みは、タスクシーケンスとアルゴリズムパラメータの複雑な関係に関する興味深い洞察を明らかにしている。
具体的には、十分なデータサイズを前提として、集団データ共分散行列の固有値が大きいタスクが後で訓練されるようなシーケンス内のタスクのアレンジメントが、より多く忘れられる傾向にあることを示す。
さらに,ステップサイズの適切な選択は,過度パラメータ設定と過度パラメータ設定の両方において,忘れを軽減してくれます。
線形回帰モデルとディープニューラルネットワーク(DNN)のシミュレーション実験を行った。
これらのシミュレーションの結果は、我々の理論的な知見を裏付けるものである。
Continual learning, focused on sequentially learning multiple tasks, has gained significant attention recently. Despite the tremendous progress made in the past, the theoretical understanding, especially factors contributing to catastrophic forgetting, remains relatively unexplored. In this paper, we provide a general theoretical analysis of forgetting in the linear regression model via Stochastic Gradient Descent (SGD) applicable to both underparameterized and overparameterized regimes. Our theoretical framework reveals some interesting insights into the intricate relationship between task sequence and algorithmic parameters, an aspect not fully captured in previous studies due to their restrictive assumptions. Specifically, we demonstrate that, given a sufficiently large data size, the arrangement of tasks in a sequence, where tasks with larger eigenvalues in their population data covariance matrices are trained later, tends to result in increased forgetting. Additionally, our findings highlight that an appropriate choice of step size will help mitigate forgetting in both underparameterized and overparameterized settings. To validate our theoretical analysis, we conducted simulation experiments on both linear regression models and Deep Neural Networks (DNNs). Results from these simulations substantiate our theoretical findings. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# 6kbitクラスタ状態と6kbitアンタングル状態を用いた2kbitアンタングル状態の周期的量子テレポーテーション
Cyclic Quantum Teleportation of Two-Qubit Entangled States by using Six-Qubit Cluster State and Six-Qubit Entangled State ( http://arxiv.org/abs/2405.17585v1 ) ライセンス: Link先を確認 | A. Slaoui, M. El Kirdi, R. Ahl Laamara, M. Alabdulhafith, S. A. Chelloug, A. A. Abd El-Latif, | (参考訳) 周期的な量子テレポーテーションスキームでは、少なくとも3人の協力者が全ての量子情報の送信者と受信者として行動し、それぞれが円形に隣人に送信する情報を持っている。
ここでは、3つの協力者の間で、任意の未知の2量子ビット状態(\alpha$, $\beta$, $\gamma$)を完璧に伝達するために、新しいサイクリック量子テレポーテーション方式が提案されている。
このスキームでは、アリスはボブに、2キュービット状態の量子情報($\alpha$)を送り、チャーリーから2キュービット状態の量子情報($\gamma$)を受け取ることができ、同様に、ボブは2キュービット状態の量子情報($\beta$)を6キュービットのクラスタ状態と6キュービットのエンタングル状態からなる12キュービット状態の量子チャネルを通じて、順次かつ循環的にベル状態の測定を行うことができる。
その後、3人の参加者のそれぞれが、古典的なチャネルを用いて、適切なユニタリなパウリ演算を行うことで、所望の2量子状態を取得することができ、提案手法が効率的に動作することを示す。
Cyclic quantum teleportation schemes requires at least the existence of three collaborators acting all as senders and receivers of quantum information, each one of them has an information to be transmitted to the next neighbour in a circular manner. Here, new cyclic quantum teleportation scheme is proposed for perfectly transmitting cyclically three arbitrary unknown two-qubit states ($\alpha$, $\beta$ and $\gamma$) among the three collaborators. In this scheme, Alice can send to Bob the quantum information contained in her two-qubit state $\alpha$ and receive from Charlie the quantum information contained in the two-qubit state in his possession $\gamma$ and similarly, Bob can transmit to Charlie the quantum information contained in his two-qubit state $\beta$ through a quantum channel of twelve-qubit state consisting of a six-qubit cluster state and a six-qubit entangled state by sequentially and cyclically performing Bell state measurements. Subsequently, each one of the three participants can afterwards retrieve his own desired two-qubit state using classical channel and by performing appropriate unitary Pauli operators and we have shown that our proposed scheme performs efficiently. | 翻訳日:2024-05-29 23:31:09 公開日:2024-05-27 |
# RAGSys:RAGシステムとしてのアイテムコールドスタートレコメンダ
RAGSys: Item-Cold-Start Recommender as RAG System ( http://arxiv.org/abs/2405.17587v1 ) ライセンス: Link先を確認 | Emile Contal, Garrin McGoldrick, | (参考訳) 大規模言語モデル(LLM)は現実世界のアプリケーションにとって大きな約束を持っているが、それらの一般的な知識はドメイン固有のニーズに欠けることが多い。
ファインチューニングは一般的なアプローチであり、破滅的な忘れ込みに悩まされ、一般化を阻害する。
In-Context Learning (ICL)は、Retrieval-Augmented Generation (RAG)を活用して、数ショットの学習タスクに関連したデモを提供する代替手段を提供する。
本稿では,ICLのための実演検索システムの望ましい特性について検討する。
この文脈でのICL検索は、アイテムコールドスタートレコメンデータシステムに似ており、発見の優先順位付けと厳密な関連性よりも情報の獲得を最大化している。
本研究では,NLPタスクにおけるLCMのその後のパフォーマンスを測定し,主観的多様性スコアの必要性を解消する新たな評価手法を提案する。
本研究は,ICLを有効活用するための実証実験において,多様性と品質バイアスが重要な役割を担っていることを示し,本領域におけるレコメンダシステム技術の可能性を強調した。
Large Language Models (LLM) hold immense promise for real-world applications, but their generic knowledge often falls short of domain-specific needs. Fine-tuning, a common approach, can suffer from catastrophic forgetting and hinder generalizability. In-Context Learning (ICL) offers an alternative, which can leverage Retrieval-Augmented Generation (RAG) to provide LLMs with relevant demonstrations for few-shot learning tasks. This paper explores the desired qualities of a demonstration retrieval system for ICL. We argue that ICL retrieval in this context resembles item-cold-start recommender systems, prioritizing discovery and maximizing information gain over strict relevance. We propose a novel evaluation method that measures the LLM's subsequent performance on NLP tasks, eliminating the need for subjective diversity scores. Our findings demonstrate the critical role of diversity and quality bias in retrieved demonstrations for effective ICL, and highlight the potential of recommender system techniques in this domain. | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# GOI:最適化可能なオープンボキャブラリ・セマンティック・スペース・ハイパープレーンで興味深い3Dガウシアンを見つける
GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane ( http://arxiv.org/abs/2405.17596v1 ) ライセンス: Link先を確認 | Yansong Qu, Shaohui Dai, Xinyang Li, Jianghang Lin, Liujuan Cao, Shengchuan Zhang, Rongrong Ji, | (参考訳) 3Dのオープンボキャブラリのシーン理解は、拡張現実やロボットの応用に欠かせないもので、自然言語の指示に従って3D空間内の特定の領域を解釈し、配置する。
GOIは2次元視覚言語基礎モデルのセマンティック特徴を3次元ガウススプラッティング(3DGS)に統合し,最適化可能なセマンティック空間ハイパープレーンを用いて関心の3次元ガウスを同定するフレームワークである。
提案手法は,3DGSに埋め込まれたコンパクトな低次元ベクトルに雑音の多い高次元のセマンティック特徴を凝縮するために,シーン先行を利用した効率的な圧縮手法を含む。
オープン語彙クエリプロセスでは,クエリテキストの埋め込みに対する意味的特徴距離に基づいて,各領域に手動で設定した固定経験しきい値に依存する既存の手法と異なるアプローチを採用する。
この伝統的なアプローチは、しばしば普遍的な精度に欠けており、特定の対象領域を正確に特定する上での課題に繋がる。
その代わりに,提案手法は特徴空間内の超平面分割として特徴選択処理を扱い,クエリに高い関連性を持つ特徴のみを保持する。
既製の2次元参照式セグメンテーション(RES)モデルを用いて,セマンティック空間の超平面を微調整し,ターゲット領域と他の領域とのより正確な区別を可能にする。
この微調整により、オープン語彙クエリの精度が大幅に向上し、関連する3Dガウスの正確なローカライゼーションが保証される。
広汎な実験は、GOIが従来の最先端手法よりも優れていることを示す。
私たちのプロジェクトページはhttps://goi-hyperplane.github.io/で公開されています。
3D open-vocabulary scene understanding, crucial for advancing augmented reality and robotic applications, involves interpreting and locating specific regions within a 3D space as directed by natural language instructions. To this end, we introduce GOI, a framework that integrates semantic features from 2D vision-language foundation models into 3D Gaussian Splatting (3DGS) and identifies 3D Gaussians of Interest using an Optimizable Semantic-space Hyperplane. Our approach includes an efficient compression method that utilizes scene priors to condense noisy high-dimensional semantic features into compact low-dimensional vectors, which are subsequently embedded in 3DGS. During the open-vocabulary querying process, we adopt a distinct approach compared to existing methods, which depend on a manually set fixed empirical threshold to select regions based on their semantic feature distance to the query text embedding. This traditional approach often lacks universal accuracy, leading to challenges in precisely identifying specific target areas. Instead, our method treats the feature selection process as a hyperplane division within the feature space, retaining only those features that are highly relevant to the query. We leverage off-the-shelf 2D Referring Expression Segmentation (RES) models to fine-tune the semantic-space hyperplane, enabling a more precise distinction between target regions and others. This fine-tuning substantially improves the accuracy of open-vocabulary queries, ensuring the precise localization of pertinent 3D Gaussians. Extensive experiments demonstrate GOI's superiority over previous state-of-the-art methods. Our project page is available at https://goi-hyperplane.github.io/ . | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# LoRA-XS:極小パラメータによる低ランク適応
LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters ( http://arxiv.org/abs/2405.17604v1 ) ライセンス: Link先を確認 | Klaudia Bałazy, Mohammadreza Banaei, Karl Aberer, Jacek Tabor, | (参考訳) 近年の言語モデルのスケーリングの傾向は、LoRA(Low-Rank Adaptation)のようなパラメータ効率チューニング(PEFT)手法への需要が高まっている。
LoRAは、パラメータの少ない完全な微調整ベースラインに一貫して一致するか、超える。
しかし、多くのタスク固有のあるいはユーザ固有のLoRAモジュールをベースモデル上で扱うことは、依然として大きなストレージ上の課題である。
これを解決するために,パラメータ効率の良い微調整にSingular Value Decomposition(SVD)を活用する新しいアプローチであるLoRA-XS(Low-Rank Adaptation with eXtremely Small Numbers)を導入する。
LoRA-XSは、オリジナルの重み行列のSVDによって構築された凍結したLoRA行列の間に小さなrxr重み行列を導入する。
r x r 重量行列のみのトレーニングはモデル次元からの独立性を保証し、特に大きなモデルにおいてよりパラメータ効率の良い微調整を可能にする。
LoRA-XSは、LoRAと比較して、トレーニング可能なパラメータを7Bモデルで100倍以上削減する。
GLUEやGSM8k,MATHなど,さまざまなスケールでベンチマークを行った結果,競合性能を維持しながらパラメータ効率の面では,LoRAやVeRAのような最近の最先端アプローチよりも優れた結果が得られた。
The recent trend in scaling language models has led to a growing demand for parameter-efficient tuning (PEFT) methods such as LoRA (Low-Rank Adaptation). LoRA consistently matches or surpasses the full fine-tuning baseline with fewer parameters. However, handling numerous task-specific or user-specific LoRA modules on top of a base model still presents significant storage challenges. To address this, we introduce LoRA-XS (Low-Rank Adaptation with eXtremely Small number of parameters), a novel approach leveraging Singular Value Decomposition (SVD) for parameter-efficient fine-tuning. LoRA-XS introduces a small r x r weight matrix between frozen LoRA matrices, which are constructed by SVD of the original weight matrix. Training only r x r weight matrices ensures independence from model dimensions, enabling more parameter-efficient fine-tuning, especially for larger models. LoRA-XS achieves a remarkable reduction of trainable parameters by over 100x in 7B models compared to LoRA. Our benchmarking across various scales, including GLUE, GSM8k, and MATH benchmarks, shows that our approach outperforms LoRA and recent state-of-the-art approaches like VeRA in terms of parameter efficiency while maintaining competitive performance. | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# 文化増進の促進:バランスのとれた音楽レコメンデーションのための埋め込み空間の最適化
Advancing Cultural Inclusivity: Optimizing Embedding Spaces for Balanced Music Recommendations ( http://arxiv.org/abs/2405.17607v1 ) ライセンス: Link先を確認 | Armin Moradi, Nicola Neophytou, Golnoosh Farnadi, | (参考訳) 音楽レコメンデーションシステムの人気バイアス — 聴取回数が最も高いアーティストや曲がより頻繁に推奨される — は、人口統計や文化の軸に沿ったバイアスを広める可能性がある。
本研究では,これらのバイアスを,プロトタイプに基づく行列因数分解法において,表現不足の文化的グループからアーティストへの推薦において同定する。
従来の行列分解法とは異なり、プロトタイプベースのアプローチは解釈可能である。
これにより、少数派アーティスト(効果)に対する推薦における観察されたバイアスを直接、埋め込み空間(原因)の特定の特性に関連付けることができる。
我々は,音楽レコメンデーションにおける人気バイアスを,埋め込み空間におけるユーザと歌の文化的ニュアンスを捉えることによって緩和する。
推奨品質を維持しつつこれらの課題に対処するため、埋め込み空間に新たな2つの拡張を提案する。
一 一般化性を向上させるため、各ユーザ及び項目を表すために使用する無関係なプロトタイプをフィルタリングする手法を提案する。
二 組込み空間における試作機のより均一な分布を強化するための正規化手法を導入する。
以上の結果から,音楽レコメンデーションにおける人気バイアスの低減と人口的・文化的公正性の向上に寄与すると同時に,総合的なパフォーマンスの競争的達成に寄与する可能性が示唆された。
Popularity bias in music recommendation systems -- where artists and tracks with the highest listen counts are recommended more often -- can also propagate biases along demographic and cultural axes. In this work, we identify these biases in recommendations for artists from underrepresented cultural groups in prototype-based matrix factorization methods. Unlike traditional matrix factorization methods, prototype-based approaches are interpretable. This allows us to directly link the observed bias in recommendations for minority artists (the effect) to specific properties of the embedding space (the cause). We mitigate popularity bias in music recommendation through capturing both users' and songs' cultural nuances in the embedding space. To address these challenges while maintaining recommendation quality, we propose two novel enhancements to the embedding space: i) we propose an approach to filter-out the irrelevant prototypes used to represent each user and item to improve generalizability, and ii) we introduce regularization techniques to reinforce a more uniform distribution of prototypes within the embedding space. Our results demonstrate significant improvements in reducing popularity bias and enhancing demographic and cultural fairness in music recommendations while achieving competitive -- if not better -- overall performance. | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# GarmentCodeData: 縫製パターンを備えた3Dメイド・ツー・メア・ガーメントのデータセット
GarmentCodeData: A Dataset of 3D Made-to-Measure Garments With Sewing Patterns ( http://arxiv.org/abs/2405.17609v1 ) ライセンス: Link先を確認 | Maria Korosteleva, Timur Levent Kesdogan, Fabian Kemper, Stephan Wenninger, Jasmin Koller, Yuhan Zhang, Mario Botsch, Olga Sorkine-Hornung, | (参考訳) 近年、仮想的な適合から生成・再構築まで、衣服の学習に基づく処理への関心が高まり、ドメイン内の高品質な公開データの不足に悩まされている。
我々は,縫製パターンと生成パイプラインを備えた3D合成服の大規模合成データセットを提示することにより,このニーズの解決に寄与する。
GarmentCodeDataには、トップ、シャツ、ドレス、ジャンプスーツ、スカート、パンツなど、さまざまなデザインをカバーする11万5000のデータポイントが含まれており、CAESARをベースとしたカスタム統計ボディモデルからサンプリングされたさまざまなボディ形状に適合し、3種類の異なる繊維材料を適用している。
このような複雑さのデータセットを作成するために,サンプル体形状を自動計測するアルゴリズム,縫製パターン設計のためのサンプリング戦略,高速XPBDシミュレータに基づくオープンソースの3D衣料ドッピングパイプラインを提案するとともに,衝突分解能とドレープ精度のいくつかのソリューションを提供してスケーラビリティを実現する。
データセット:http://hdl.handle.net/20.500.11850/673889
Recent research interest in the learning-based processing of garments, from virtual fitting to generation and reconstruction, stumbles on a scarcity of high-quality public data in the domain. We contribute to resolving this need by presenting the first large-scale synthetic dataset of 3D made-to-measure garments with sewing patterns, as well as its generation pipeline. GarmentCodeData contains 115,000 data points that cover a variety of designs in many common garment categories: tops, shirts, dresses, jumpsuits, skirts, pants, etc., fitted to a variety of body shapes sampled from a custom statistical body model based on CAESAR, as well as a standard reference body shape, applying three different textile materials. To enable the creation of datasets of such complexity, we introduce a set of algorithms for automatically taking tailor's measures on sampled body shapes, sampling strategies for sewing pattern design, and propose an automatic, open-source 3D garment draping pipeline based on a fast XPBD simulator, while contributing several solutions for collision resolution and drape correctness to enable scalability. Dataset: http://hdl.handle.net/20.500.11850/673889 | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# 説明可能な機械学習によるスペインの法的判断の多ラベル分類
Explainable machine learning multi-label classification of Spanish legal judgements ( http://arxiv.org/abs/2405.17610v1 ) ライセンス: Link先を確認 | Francisco de Arriba-Pérez, Silvia García-Méndez, Francisco J. González-Castaño, Jaime González-González, | (参考訳) 機械学習(ML)のような人工知能技術は、法的領域における最大の可能性のために利用されていない。
これは部分的には、彼らの決定に関する説明が不十分なためである。
説明能力を持つ自動専門家システムは、法律実務者が判例の文脈的知識を収集するために法曹を検索する際に特に有用である。
そこで本稿では,自然言語処理技術によって強化された多言語判定(文)と視覚・自然言語記述の多言語分類にMLを適用したハイブリッドシステムを提案する。
法律判断の自動多ラベル分類に関する以前の作業や、エンドユーザーに対して、全体的な品質に匹敵する自然言語の説明を提供するものについては、まだ分かっていません。
我々のソリューションは、法の専門家によって注釈付けされたラベル付きデータセット上で85%以上のマイクロ精度を達成する。
このことは、人間の専門家が単調な労働集約的な法的な分類タスクから解放することへの関心を裏付けている。
Artificial Intelligence techniques such as Machine Learning (ML) have not been exploited to their maximum potential in the legal domain. This has been partially due to the insufficient explanations they provided about their decisions. Automatic expert systems with explanatory capabilities can be specially useful when legal practitioners search jurisprudence to gather contextual knowledge for their cases. Therefore, we propose a hybrid system that applies ML for multi-label classification of judgements (sentences) and visual and natural language descriptions for explanation purposes, boosted by Natural Language Processing techniques and deep legal reasoning to identify the entities, such as the parties, involved. We are not aware of any prior work on automatic multi-label classification of legal judgements also providing natural language explanations to the end-users with comparable overall quality. Our solution achieves over 85 % micro precision on a labelled data set annotated by legal experts. This endorses its interest to relieve human experts from monotonous labour-intensive legal classification tasks. | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# 乱流の大規模渦シミュレーションのためのデータ駆動クロージャモデルの誤差解析
A note on the error analysis of data-driven closure models for large eddy simulations of turbulence ( http://arxiv.org/abs/2405.17612v1 ) ライセンス: Link先を確認 | Dibyajyoti Chakraborty, Shivam Barwey, Hong Zhang, Romit Maulik, | (参考訳) 本研究では,データ駆動型乱流閉鎖モデルを用いて,流れの軌跡予測における誤差伝搬の数学的定式化を行う。
大渦シミュレーション予測の予測状態がサブサンプル直接数値シミュレーションの予測状態に近くなければならないという仮定の下で,データ駆動クロージャモデルを利用する場合の予測誤差の上限を求める。
また、この誤差は、時間ステップサイズと、クロージャを用いて最初のワンステップエラーを増幅する役割を担っているヤコビアンに大きく影響されることも示している。
また, この誤差は, 閉包定式化のジャコビアンの影響を受けやすいシステムヤコビアンの上界とロールアウト時間で指数関数的に伝播することを示した。
これらの知見は、同定されたエラーバウンド項に基づくMLモデルの新たな正規化手法の開発を可能にし、その堅牢性を改善し、エラーの伝播を低減する。
In this work, we provide a mathematical formulation for error propagation in flow trajectory prediction using data-driven turbulence closure modeling. Under the assumption that the predicted state of a large eddy simulation prediction must be close to that of a subsampled direct numerical simulation, we retrieve an upper bound for the prediction error when utilizing a data-driven closure model. We also demonstrate that this error is significantly affected by the time step size and the Jacobian which play a role in amplifying the initial one-step error made by using the closure. Our analysis also shows that the error propagates exponentially with rollout time and the upper bound of the system Jacobian which is itself influenced by the Jacobian of the closure formulation. These findings could enable the development of new regularization techniques for ML models based on the identified error-bound terms, improving their robustness and reducing error propagation. | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# マルチモーダル学習のためのフレームワーク:モーダル間依存とモーダル内依存を併用したモデリング
A Framework for Multi-modal Learning: Jointly Modeling Inter- & Intra-Modality Dependencies ( http://arxiv.org/abs/2405.17613v1 ) ライセンス: Link先を確認 | Divyam Madaan, Taro Makino, Sumit Chopra, Kyunghyun Cho, | (参考訳) 教師付きマルチモーダル学習では、複数のモーダルをターゲットラベルにマッピングする。
この分野での以前の研究は、モダリティ間の依存関係(異なるモダリティとラベルの関係)またはモダリティ間の依存関係(単一のモダリティとラベル内の関係)の分離に焦点を合わせてきた。
モーダリティ間の依存にのみ依存する従来のアプローチは、一般的には最適ではないかもしれない、と我々は主張する。
生成モデルのレンズからマルチモーダル学習の問題を見て、ターゲットを複数のモーダルのソースとみなし、それら間の相互作用を考察する。
そこで本研究では、モダリティ間の依存関係とモダリティ間の依存関係をキャプチャし、統合し、より正確な予測を可能にする、モダリティ間モデリング(I2M2)フレームワークを提案する。
我々は、現実のヘルスケアと最先端のモデルを用いたビジョン・アンド・ランゲージデータセットを用いて、我々のアプローチを評価し、一種類のモダリティ依存にのみ焦点をあてた従来の手法よりも優れたパフォーマンスを示す。
Supervised multi-modal learning involves mapping multiple modalities to a target label. Previous studies in this field have concentrated on capturing in isolation either the inter-modality dependencies (the relationships between different modalities and the label) or the intra-modality dependencies (the relationships within a single modality and the label). We argue that these conventional approaches that rely solely on either inter- or intra-modality dependencies may not be optimal in general. We view the multi-modal learning problem from the lens of generative models where we consider the target as a source of multiple modalities and the interaction between them. Towards that end, we propose inter- & intra-modality modeling (I2M2) framework, which captures and integrates both the inter- and intra-modality dependencies, leading to more accurate predictions. We evaluate our approach using real-world healthcare and vision-and-language datasets with state-of-the-art models, demonstrating superior performance over traditional methods focusing only on one type of modality dependency. | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# ゼロショット音声分類器のための可聴マップ
Listenable Maps for Zero-Shot Audio Classifiers ( http://arxiv.org/abs/2405.17615v1 ) ライセンス: Link先を確認 | Francesco Paissan, Luca Della Libera, Mirco Ravanelli, Cem Subakan, | (参考訳) 音声分類器を含むディープラーニングモデルの判断を解釈することは、この技術の透明性と信頼性を確保するために不可欠である。
本稿では,ゼロショット文脈における音声分類のためのリスナブルマップ (Listenable Maps for Audio Classifiers in the Zero-Shot context) を紹介する。
提案手法は,与えられたテキストとオーディオのペア間の本来の類似性に対する忠実度を最大化する新規な損失関数を利用する。
本稿では,コントラスト言語・監査事前訓練(CLAP)モデルを用いて,ゼロショット分類の文脈における決定に忠実であることを示す。
さらに,本手法は,異なるテキストプロンプトとよく相関する有意義な説明を生成することを定性的に示す。
Interpreting the decisions of deep learning models, including audio classifiers, is crucial for ensuring the transparency and trustworthiness of this technology. In this paper, we introduce LMAC-ZS (Listenable Maps for Audio Classifiers in the Zero-Shot context), which, to the best of our knowledge, is the first decoder-based post-hoc interpretation method for explaining the decisions of zero-shot audio classifiers. The proposed method utilizes a novel loss function that maximizes the faithfulness to the original similarity between a given text-and-audio pair. We provide an extensive evaluation using the Contrastive Language-Audio Pretraining (CLAP) model to showcase that our interpreter remains faithful to the decisions in a zero-shot classification context. Moreover, we qualitatively show that our method produces meaningful explanations that correlate well with different text prompts. | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# 多様な課題とモデル尺度に基づくロバスト学習のための対称性強化学習損失
Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales ( http://arxiv.org/abs/2405.17618v1 ) ライセンス: Link先を確認 | Ju-Seung Byun, Andrew Perrault, | (参考訳) 強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
ヒューマンフィードバックからの強化学習(RLHF)とAIフィードバックからの強化学習(RLAIF)は、さらなる困難をもたらす可能性がある。
ディファリングの選好はアライメント処理を複雑にし、LLMが目に見えない出力を生成すると、トレーニングされた報酬モデルにおける予測誤差がより深刻になる。
トレーニングの堅牢性を高めるため、RLはアンサンブルやレイヤー正規化といった教師あり学習のテクニックを採用した。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
さまざまなタスクやスケールにわたるパフォーマンス改善を実演します。
我々は,Symmetric A2C(SA2C)とSymmetric PPO(SPPO)を用いて,離散アクションタスク(Atariゲーム)と連続アクションスペースタスク(MuJoCoベンチマークとBox2D)の実験を行った。
さらに、IMDBの肯定的な感情感情やTL;DRの要約タスクなどのRLHFタスクの性能を改善し、SPPOを大規模言語モデルに使用する際の対称RL損失の利点を検証する。
Reinforcement learning (RL) training is inherently unstable due to factors such as moving targets and high gradient variance. Reinforcement Learning from Human Feedback (RLHF) and Reinforcement Learning from AI Feedback (RLAIF) can introduce additional difficulty. Differing preferences can complicate the alignment process, and prediction errors in a trained reward model can become more severe as the LLM generates unseen outputs. To enhance training robustness, RL has adopted techniques from supervised learning, such as ensembles and layer normalization. In this work, we improve the stability of RL training by adapting the reverse cross entropy (RCE) from supervised learning for noisy data to define a symmetric RL loss. We demonstrate performance improvements across various tasks and scales. We conduct experiments in discrete action tasks (Atari games) and continuous action space tasks (MuJoCo benchmark and Box2D) using Symmetric A2C (SA2C) and Symmetric PPO (SPPO), with and without added noise with especially notable performance in SPPO across different hyperparameters. Furthermore, we validate the benefits of the symmetric RL loss when using SPPO for large language models through improved performance in RLHF tasks, such as IMDB positive sentiment sentiment and TL;DR summarization tasks. | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# マトリックス低信頼地域政策最適化
Matrix Low-Rank Trust Region Policy Optimization ( http://arxiv.org/abs/2405.17625v1 ) ライセンス: Link先を確認 | Sergio Rozada, Antonio G. Marques, | (参考訳) 強化学習のほとんどの方法は、国家を行動にマッピングするパラメトリック確率ポリシーを学ぶためにポリシーグラディエント(PG)アプローチを使用する。
標準的なアプローチは、確率勾配勾配を使ってパラメータを最適化したニューラルネットワーク(NN)を介してそのようなマッピングを実装することである。
しかし、PG手法は、学習を非効率にレンダリングできる大規模なポリシー更新の傾向にある。
Trust Region Policy Optimization (TRPO)のようなトラストリージョンアルゴリズムは、ポリシー更新のステップを制約し、モノトニックな改善を保証する。
本稿では,TRPOアルゴリズムのパラメータを効率的に推定する手段として,低ランク行列モデルを提案する。
確率的ポリシのパラメータを行列に集め、行列補完手法を適用することにより、低位化を促進し、強制する。
本研究は,低ランク行列に基づく政策モデルが,NNモデルと比較して計算量とサンプル量の両方を効果的に削減し,かつ,同等の累積報酬を維持できることを実証するものである。
Most methods in reinforcement learning use a Policy Gradient (PG) approach to learn a parametric stochastic policy that maps states to actions. The standard approach is to implement such a mapping via a neural network (NN) whose parameters are optimized using stochastic gradient descent. However, PG methods are prone to large policy updates that can render learning inefficient. Trust region algorithms, like Trust Region Policy Optimization (TRPO), constrain the policy update step, ensuring monotonic improvements. This paper introduces low-rank matrix-based models as an efficient alternative for estimating the parameters of TRPO algorithms. By gathering the stochastic policy's parameters into a matrix and applying matrix-completion techniques, we promote and enforce low rank. Our numerical studies demonstrate that low-rank matrix-based policy models effectively reduce both computational and sample complexities compared to NN models, while maintaining comparable aggregated rewards. | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# 政策勾配法に対する行列型低ランク近似
Matrix Low-Rank Approximation For Policy Gradient Methods ( http://arxiv.org/abs/2405.17626v1 ) ライセンス: Link先を確認 | Sergio Rozada, Antonio G. Marques, | (参考訳) 国家を行動にマッピングする政策を推定することは、強化学習における中心的な問題である。
伝統的に、ポリシーはいわゆる値関数(VF)から推測されるが、正確なVF計算は次元性の呪いに苦しむ。
政策勾配(PG)法は、パラメトリック確率ポリシーを直接学習することでこれを回避している。
通常、ポリシーのパラメータは確率勾配降下によって調整されたニューラルネットワーク(NN)を用いて推定される。
しかし、適切なNNアーキテクチャを見つけることは困難であり、収束問題も一般的である。
本稿では,PGアルゴリズムのパラメータを効率的に推定する低ランク行列モデルを提案する。
確率的ポリシーのパラメータを行列に集め、行列補完技術を利用して低ランクを推進(強化)する。
我々は,低ランク行列ベースの政策モデルがNNモデルと比較して計算量やサンプルの複雑さを減らし,同様の報奨を得られることを示す。
Estimating a policy that maps states to actions is a central problem in reinforcement learning. Traditionally, policies are inferred from the so called value functions (VFs), but exact VF computation suffers from the curse of dimensionality. Policy gradient (PG) methods bypass this by learning directly a parametric stochastic policy. Typically, the parameters of the policy are estimated using neural networks (NNs) tuned via stochastic gradient descent. However, finding adequate NN architectures can be challenging, and convergence issues are common as well. In this paper, we put forth low-rank matrix-based models to estimate efficiently the parameters of PG algorithms. We collect the parameters of the stochastic policy into a matrix, and then, we leverage matrix-completion techniques to promote (enforce) low rank. We demonstrate via numerical studies how low-rank matrix-based policy models reduce the computational and sample complexities relative to NN models, while achieving a similar aggregated reward. | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# ゼロヒューマンアノテーションを用いたサルタラベリング
Salutary Labeling with Zero Human Annotation ( http://arxiv.org/abs/2405.17627v1 ) ライセンス: Link先を確認 | Wenxiao Xiao, Hongfu Liu, | (参考訳) アクティブラーニングは、戦略的に情報のないデータポイントを選択し、モデルトレーニングのために彼らの基盤となる真理ラベルを問い合わせる。
この機械学習パラダイムの根底にある最も一般的な前提は、これらの基礎となる真理ラベルを取得することで、モデルの性能が最適に向上するということである。
しかし、この仮定は、特に真理ラベルに必要なコストのかかる労働アノテーションを考えると、必ずしも真あるいは最大学習能力を保持するとは限らない。
従来の真実ラベルとは対照的に,人間のアノテーションを使わずに最も有益なラベルを最も有益なサンプルに自動的に割り当てる敬意表示を提案する。
具体的には、サンプル影響を推定するツールであるインフルエンス関数を用いて、新たに追加されたサンプルを選択し、その正の影響を最大化するカテゴリを選択して、それらのサルタリーラベルを割り当てる。
このプロセスは人間のアノテーションを不要にする。
9つのベンチマークデータセットで実施した大規模な実験は、従来のアクティブな学習戦略よりも有意なラベル付け手法の優れた性能を示す。
さらに,大規模言語モデル(LLM)の詳細な検討と実践的応用について述べる。
Active learning strategically selects informative unlabeled data points and queries their ground truth labels for model training. The prevailing assumption underlying this machine learning paradigm is that acquiring these ground truth labels will optimally enhance model performance. However, this assumption may not always hold true or maximize learning capacity, particularly considering the costly labor annotations required for ground truth labels. In contrast to traditional ground truth labeling, this paper proposes salutary labeling, which automatically assigns the most beneficial labels to the most informative samples without human annotation. Specifically, we utilize the influence function, a tool for estimating sample influence, to select newly added samples and assign their salutary labels by choosing the category that maximizes their positive influence. This process eliminates the need for human annotation. Extensive experiments conducted on nine benchmark datasets demonstrate the superior performance of our salutary labeling approach over traditional active learning strategies. Additionally, we provide several in-depth explorations and practical applications of large language model (LLM) fine-tuning. | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# 有限水平値関数のテンソル低ランク近似
Tensor Low-rank Approximation of Finite-horizon Value Functions ( http://arxiv.org/abs/2405.17628v1 ) ライセンス: Link先を確認 | Sergio Rozada, Antonio G. Marques, | (参考訳) 強化学習の目標は、国家を行動にマッピングし、マルコフ決定プロセス(MDP)の累積報酬を最大化する政策を推定することである。
これは、各状態-作用対に関連する最適(逆)値関数(VF)を最初に推定することで達成されることが多い。
MDPが無限の地平線を持つとき、最適なVFとポリシーは穏やかな条件下で定常である。
しかし、有限水平 MDP では、VF(つまりポリシー)は時間によって異なる。
これは、推定するVFの数が、状態-作用空間のサイズだけでなく、時間的地平線によって増加するため、課題となる。
本稿では,有限水平MDPのVFを近似する非パラメトリック低ランク確率アルゴリズムを提案する。
まず、(未知の)VFを、時間が次元の1つである多次元配列、あるいはテンソルとして表現する。
次に,MDPから採取した報酬を用いて最適なVFを推定する。
より正確には、VFのテンソルのエントリを復元するオンライン低ランクアルゴリズムを設計するために、PARAFAC分解を用いる。
低ランクPARAFACモデルのサイズは各次元に対して加法的に成長し、数値実験により示すように、我々のアプローチは効率的である。
The goal of reinforcement learning is estimating a policy that maps states to actions and maximizes the cumulative reward of a Markov Decision Process (MDP). This is oftentimes achieved by estimating first the optimal (reward) value function (VF) associated with each state-action pair. When the MDP has an infinite horizon, the optimal VFs and policies are stationary under mild conditions. However, in finite-horizon MDPs, the VFs (hence, the policies) vary with time. This poses a challenge since the number of VFs to estimate grows not only with the size of the state-action space but also with the time horizon. This paper proposes a non-parametric low-rank stochastic algorithm to approximate the VFs of finite-horizon MDPs. First, we represent the (unknown) VFs as a multi-dimensional array, or tensor, where time is one of the dimensions. Then, we use rewards sampled from the MDP to estimate the optimal VFs. More precisely, we use the (truncated) PARAFAC decomposition to design an online low-rank algorithm that recovers the entries of the tensor of VFs. The size of the low-rank PARAFAC model grows additively with respect to each of its dimensions, rendering our approach efficient, as demonstrated via numerical experiments. | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# BioDiscoveryAgent: 遺伝的摂動実験を設計するためのAIエージェント
BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments ( http://arxiv.org/abs/2405.17631v1 ) ライセンス: Link先を確認 | Yusuf Roohani, Jian Vora, Qian Huang, Zachary Steinhart, Alexander Marson, Percy Liang, Jure Leskovec, | (参考訳) 大きな言語モデルに基づくエージェントは、彼らの豊富なバックグラウンド知識と推論能力を活用することによって、科学的発見を加速する大きな可能性を示してきた。
そこで我々は,新しい実験を設計し,その結果の理由を判断し,仮説空間を効率的にナビゲートし,望ましい解を得るエージェントであるBioDiscoveryAgentを開発した。
本研究は, 遺伝子摂動実験を設計する際の課題を実証するものであり, 摂動によって特定の表現型(細胞成長など)が生じる可能性のある多くの遺伝子から, 少数のサブセットを見つけることを目的としている。
BioDiscoveryAgentはその生物学的知識を利用することで、機械学習モデルをトレーニングしたり、取得関数を明示的に設計することなく、新しい実験を独自に設計することができる。
さらに、BioDiscoveryAgentは5つのデータセットで望ましい表現型を検出する平均18%の改善を実現している。
我々の評価には、未公開のデータセットが1つ含まれており、言語モデルのトレーニングデータの一部ではないことを保証しています。
さらに、BioDiscoveryAgentは遺伝子の組み合わせがランダムなベースラインの2倍の精度で摂動することを予測している。
また、このエージェントは、生物医学文献を検索し、コードを実行して生物学的データセットを分析し、他のエージェントにその予測を批判的に評価するよう促すツールにもアクセスできる。
全体として、BioDiscoveryAgentはあらゆる段階で解釈可能であり、科学者の能力を増強する可能性を持つ生物学的実験の計算設計において、アクセス可能な新しいパラダイムを表している。
Agents based on large language models have shown great potential in accelerating scientific discovery by leveraging their rich background knowledge and reasoning capabilities. Here, we develop BioDiscoveryAgent, an agent that designs new experiments, reasons about their outcomes, and efficiently navigates the hypothesis space to reach desired solutions. We demonstrate our agent on the problem of designing genetic perturbation experiments, where the aim is to find a small subset out of many possible genes that, when perturbed, result in a specific phenotype (e.g., cell growth). Utilizing its biological knowledge, BioDiscoveryAgent can uniquely design new experiments without the need to train a machine learning model or explicitly design an acquisition function. Moreover, BioDiscoveryAgent achieves an average of 18% improvement in detecting desired phenotypes across five datasets, compared to existing Bayesian optimization baselines specifically trained for this task. Our evaluation includes one dataset that is unpublished, ensuring it is not part of the language model's training data. Additionally, BioDiscoveryAgent predicts gene combinations to perturb twice as accurately as a random baseline, a task so far not explored in the context of closed-loop experiment design. The agent also has access to tools for searching the biomedical literature, executing code to analyze biological datasets, and prompting another agent to critically evaluate its predictions. Overall, BioDiscoveryAgent is interpretable at every stage, representing an accessible new paradigm in the computational design of biological experiments with the potential to augment scientists' capabilities. | 翻訳日:2024-05-29 23:21:23 公開日:2024-05-27 |
# HEART-Felt Narratives:LLMを用いたパーソナルストーリーにおける共感とナラティブスタイルの追跡
HEART-felt Narratives: Tracing Empathy and Narrative Style in Personal Stories with LLMs ( http://arxiv.org/abs/2405.17633v1 ) ライセンス: Link先を確認 | Jocelyn Shen, Joel Mire, Hae Won Park, Cynthia Breazeal, Maarten Sap, | (参考訳) 共感は、社会的な行動を可能にするための基盤となり、物語の中で個人的な経験を共有することによって引き起こされる。
共感は物語の内容に影響されるが、直感的には物語の語り方にも反応する。
しかし、共感と物語様式の関係は、完全には理解されていない。
本研究では, LLMと大規模クラウドソーシング研究を用いて, スタイルと共感の関係を実証的に検証し, 定量化する。
本稿では,物語の語り手への共感につながる物語スタイルの要素を記述した,新しい理論に基づく分類法HEART(Human Empathy and Narrative Taxonomy)を紹介する。
HEARTから物語的要素を抽出する上でのLLMの性能を確立し,従来の語彙に基づく手法ができることを超える,合理的かつ人間レベルのアノテーションを導き出すことを示す。
そこで我々は,N=2,624名の参加者による大規模クラウドソーシング研究を通じて,物語の共感判断のデータセットを収集した。
LLMを通して抽出された物語要素、特に感情の鮮明さとプロットボリュームは、物語スタイルが個人の物語に対する共感を育む経路を解明できることを示す。
我々の研究は、そのようなモデルが人間中心の社会的・行動的洞察につながる物語分析に利用できることを示唆している。
Empathy serves as a cornerstone in enabling prosocial behaviors, and can be evoked through sharing of personal experiences in stories. While empathy is influenced by narrative content, intuitively, people respond to the way a story is told as well, through narrative style. Yet the relationship between empathy and narrative style is not fully understood. In this work, we empirically examine and quantify this relationship between style and empathy using LLMs and large-scale crowdsourcing studies. We introduce a novel, theory-based taxonomy, HEART (Human Empathy and Narrative Taxonomy) that delineates elements of narrative style that can lead to empathy with the narrator of a story. We establish the performance of LLMs in extracting narrative elements from HEART, showing that prompting with our taxonomy leads to reasonable, human-level annotations beyond what prior lexicon-based methods can do. To show empirical use of our taxonomy, we collect a dataset of empathy judgments of stories via a large-scale crowdsourcing study with N=2,624 participants. We show that narrative elements extracted via LLMs, in particular, vividness of emotions and plot volume, can elucidate the pathways by which narrative style cultivates empathy towards personal stories. Our work suggests that such models can be used for narrative analyses that lead to human-centered social and behavioral insights. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# 大規模言語モデル選択の経済的意味と投資への回帰:決定理論モデル
The Economic Implications of Large Language Model Selection on Earnings and Return on Investment: A Decision Theoretic Model ( http://arxiv.org/abs/2405.17637v1 ) ライセンス: Link先を確認 | Geraldo Xexéo, Filipe Braida, Marcus Parreiras, Paulo Xavier, | (参考訳) ビジネスコンテキストにおける言語モデルの選択には、投資の最終的な経済的利益を慎重に分析する必要がある。
しかし、LLMの学術的重要性と産業分析は、単に性能にのみ焦点が当てられている。
この研究は、LCMを評価するためのフレームワークを導入し、収益に焦点を当て、ビジネス意思決定において考慮すべき投資面を返却する。
我々は、トークン当たりのコスト、特定のタスクの成功確率、LLMの使用に伴う利得と損失などの変数を考慮して、異なるLCMの金銭的影響を比較するために決定論的アプローチを用いる。
この研究は、より高価なモデルの優れた精度が、特定の条件下では、より重要な利益によってより大きな投資を正当化するが、必ずしも大きなRoIを正当化するとは限らないことを明らかにしている。
この記事では、最先端技術への投資が戦略的金融目標と一致していることを保証するため、テクノロジの選択を最適化したい企業のためのフレームワークを提供する。
さらに、運用変数の変化がLLMの経済性にどのように影響するかを論じ、企業環境に対する実践的な洞察を提供し、予測される利得と損失、そして成功と失敗の確率がモデルの感度に最も影響を与える変数であることを見出した。
Selecting language models in business contexts requires a careful analysis of the final financial benefits of the investment. However, the emphasis of academia and industry analysis of LLM is solely on performance. This work introduces a framework to evaluate LLMs, focusing on the earnings and return on investment aspects that should be taken into account in business decision making. We use a decision-theoretic approach to compare the financial impact of different LLMs, considering variables such as the cost per token, the probability of success in the specific task, and the gain and losses associated with LLMs use. The study reveals how the superior accuracy of more expensive models can, under certain conditions, justify a greater investment through more significant earnings but not necessarily a larger RoI. This article provides a framework for companies looking to optimize their technology choices, ensuring that investment in cutting-edge technology aligns with strategic financial objectives. In addition, we discuss how changes in operational variables influence the economics of using LLMs, offering practical insights for enterprise settings, finding that the predicted gain and loss and the different probabilities of success and failure are the variables that most impact the sensitivity of the models. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# 事象予測のための時間差学習の驚くべき効率
The surprising efficiency of temporal difference learning for rare event prediction ( http://arxiv.org/abs/2405.17638v1 ) ライセンス: Link先を確認 | Xiaoou Cheng, Jonathan Weare, | (参考訳) 我々は, 直接的学習における時間差(TD)学習の効率, あるいは強化学習における政策評価の指標であるモンテカルロ(MC)を定量化し, 希少事象に関連する量の推定に重点を置いている。
政策評価は、イベントの長い時間スケールと非常に小さな値の見積もりにおける'emph{relative accuracy'の必要性によって、まれなイベントセッティングにおいて複雑である。
具体的には,有限状態マルコフ連鎖に対する最小二乗TD(LSTD)予測に着目し,LSTDがMCよりもはるかに効率的に相対精度を達成可能であることを示す。
我々は、LSTD推定器の中央極限定理を証明し、それらの間の遷移確率に対する状態の接続性を特徴づける単純な量で \emph{relative asymptotic variance} を上限とする。
この境界を用いて、レア事象の時間スケールとMC推定器の相対精度が指数関数的に多くの状態において大きい場合でも、LSTDはマルコフ連鎖の観測された遷移の総数と相対精度の固定レベルを維持する。
We quantify the efficiency of temporal difference (TD) learning over the direct, or Monte Carlo (MC), estimator for policy evaluation in reinforcement learning, with an emphasis on estimation of quantities related to rare events. Policy evaluation is complicated in the rare event setting by the long timescale of the event and by the need for \emph{relative accuracy} in estimates of very small values. Specifically, we focus on least-squares TD (LSTD) prediction for finite state Markov chains, and show that LSTD can achieve relative accuracy far more efficiently than MC. We prove a central limit theorem for the LSTD estimator and upper bound the \emph{relative asymptotic variance} by simple quantities characterizing the connectivity of states relative to the transition probabilities between them. Using this bound, we show that, even when both the timescale of the rare event and the relative accuracy of the MC estimator are exponentially large in the number of states, LSTD maintains a fixed level of relative accuracy with a total number of observed transitions of the Markov chain that is only \emph{polynomially} large in the number of states. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# 正規化流れを伴う確率論的にプラズブルな対実的説明
Probabilistically Plausible Counterfactual Explanations with Normalizing Flows ( http://arxiv.org/abs/2405.17640v1 ) ライセンス: Link先を確認 | Patryk Wielopolski, Oleksii Furman, Jerzy Stefanowski, Maciej Zięba, | (参考訳) 本稿では,確率論的に妥当な対実的説明(CF)を生成する新しい手法であるPPCEFを提案する。
PPCEFは、データ分散を利用する確率的定式化と、統一されたフレームワーク内での妥当性の最適化を組み合わせることで、既存の手法を超えて進歩する。
参照手法と比較して, パラメータ分布の特定の族を仮定することなく, 明示的な密度関数を直接最適化することにより, 精度を向上する。
これにより、CFが有効である(すなわち、クラスの変化を達成する)だけでなく、基礎となるデータの確率密度と整合することを保証する。
そこで本手法では, 複雑な高次元データ分布を捉えるために, 密度推定器として正規化フローを利用する。
さらに,クラス変更の達成と,元のインスタンスとの親密性維持のトレードオフを両立させると同時に,確率的妥当性の項を取り入れた新たな損失を導入する。
PPCEFの制約のない定式化により、バッチ処理による効率的な勾配ベースの最適化が可能となり、従来の方法に比べて桁違いに高速な計算が可能となった。
さらに、制約のない PPCEF の定式化により、特定の反事実特性に合わせた将来の制約のシームレスな統合が可能になる。
最後に、PPCEFが高次元表層環境において、高品質で確率論的に妥当な反事実的説明を生成するのに優れていることを示す。
これにより、PPCEFは、複雑な機械学習モデルを解釈するだけでなく、公正性、説明責任、AIシステムの信頼を改善するための強力なツールになります。
We present PPCEF, a novel method for generating probabilistically plausible counterfactual explanations (CFs). PPCEF advances beyond existing methods by combining a probabilistic formulation that leverages the data distribution with the optimization of plausibility within a unified framework. Compared to reference approaches, our method enforces plausibility by directly optimizing the explicit density function without assuming a particular family of parametrized distributions. This ensures CFs are not only valid (i.e., achieve class change) but also align with the underlying data's probability density. For that purpose, our approach leverages normalizing flows as powerful density estimators to capture the complex high-dimensional data distribution. Furthermore, we introduce a novel loss that balances the trade-off between achieving class change and maintaining closeness to the original instance while also incorporating a probabilistic plausibility term. PPCEF's unconstrained formulation allows for efficient gradient-based optimization with batch processing, leading to orders of magnitude faster computation compared to prior methods. Moreover, the unconstrained formulation of PPCEF allows for the seamless integration of future constraints tailored to specific counterfactual properties. Finally, extensive evaluations demonstrate PPCEF's superiority in generating high-quality, probabilistically plausible counterfactual explanations in high-dimensional tabular settings. This makes PPCEF a powerful tool for not only interpreting complex machine learning models but also for improving fairness, accountability, and trust in AI systems. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# グローバル, グループ, ローカルレベルに関する実証的対実的説明
Unifying Perspectives: Plausible Counterfactual Explanations on Global, Group-wise, and Local Levels ( http://arxiv.org/abs/2405.17642v1 ) ライセンス: Link先を確認 | Patryk Wielopolski, Oleksii Furman, Jerzy Stefanowski, Maciej Zięba, | (参考訳) 規制と社会的プレッシャーの増大は、AIの透明性を高める。
CF(Counterfactual Explanations)は、Explainable AI(xAI)内で有望なテクニックとして登場し、個々のモデル予測に関する洞察を提供する。
しかし、AIモデルの体系的バイアスと異なる影響を理解するためには、ローカルCFを超えてグローバルな説明を受け入れることが不可欠である。
残念ながら、GCE(Global Counterfactual Explanations)の生成は、計算複雑性の課題に直面する。
そこで我々は,これらの課題に対処するために,勾配に基づく最適化による微分可能分類モデルに対して,局所的,グループ的,グローバルな対実的説明を生成するための新しい統一的アプローチを提案する。
このフレームワークは、個人と体系的な洞察のギャップを埋めることを目的としており、モデル決定のより深い理解と、多様な集団に対する潜在的な影響を可能にしている。
提案手法は,確率論的妥当性基準を取り入れ,行動可能性と信頼性を高めることによって,さらなる革新をもたらす。
GCEの最適化と妥当性の課題に対する凝集性のあるソリューションを提供することで、私たちの研究はAIモデルの解釈可能性と説明責任を大幅に向上させ、透明なAI追求の一歩を踏み出した。
Growing regulatory and societal pressures demand increased transparency in AI, particularly in understanding the decisions made by complex machine learning models. Counterfactual Explanations (CFs) have emerged as a promising technique within Explainable AI (xAI), offering insights into individual model predictions. However, to understand the systemic biases and disparate impacts of AI models, it is crucial to move beyond local CFs and embrace global explanations, which offer a~holistic view across diverse scenarios and populations. Unfortunately, generating Global Counterfactual Explanations (GCEs) faces challenges in computational complexity, defining the scope of "global," and ensuring the explanations are both globally representative and locally plausible. We introduce a novel unified approach for generating Local, Group-wise, and Global Counterfactual Explanations for differentiable classification models via gradient-based optimization to address these challenges. This framework aims to bridge the gap between individual and systemic insights, enabling a deeper understanding of model decisions and their potential impact on diverse populations. Our approach further innovates by incorporating a probabilistic plausibility criterion, enhancing actionability and trustworthiness. By offering a cohesive solution to the optimization and plausibility challenges in GCEs, our work significantly advances the interpretability and accountability of AI models, marking a step forward in the pursuit of transparent AI. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# InversionView:ニューラルアクティベーションから情報を読む汎用的方法
InversionView: A General-Purpose Method for Reading Information from Neural Activations ( http://arxiv.org/abs/2405.17653v1 ) ライセンス: Link先を確認 | Xinting Huang, Madhur Panwar, Navin Goyal, Michael Hahn, | (参考訳) ニューラルネットワークの内部動作は、ニューラルアクティベーションで符号化された情報を完全に解読できれば、よりよく理解できる。
本稿では、この情報が、同様のアクティベーションを引き起こす入力のサブセットによって具現化されていることを論じる。
そのような部分集合の計算は、入力空間が指数関数的に大きいため、自明ではない。
InversionViewを提案し、アクティベーションに条件付きトレーニングされたデコーダモデルからサンプリングすることで、このサブセットを実際に検査することができる。
これにより、アクティベーションベクトルの情報内容が明らかになり、トランスフォーマーモデルによって実装されたアルゴリズムの理解が容易になる。
本稿では,小型変圧器からGPT-2まで,3つのケーススタディについて検討する。
本研究では,本手法の特徴を実証し,その特長を示し,因果的に検証された回路を提供する。
The inner workings of neural networks can be better understood if we can fully decipher the information encoded in neural activations. In this paper, we argue that this information is embodied by the subset of inputs that give rise to similar activations. Computing such subsets is nontrivial as the input space is exponentially large. We propose InversionView, which allows us to practically inspect this subset by sampling from a trained decoder model conditioned on activations. This helps uncover the information content of activation vectors, and facilitates understanding of the algorithms implemented by transformer models. We present three case studies where we investigate models ranging from small transformers to GPT-2. In these studies, we demonstrate the characteristics of our method, show the distinctive advantages it offers, and provide causally verified circuits. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# 拡散モデルを用いた再合成のためのアライメント
Alignment is Key for Applying Diffusion Models to Retrosynthesis ( http://arxiv.org/abs/2405.17656v1 ) ライセンス: Link先を確認 | Najwa Laabid, Severi Rissanen, Markus Heinonen, Arno Solin, Vikas Garg, | (参考訳) 与えられた分子の前駆体を特定するタスクである再合成は、条件付きグラフ生成タスクとして自然にフレーム化することができる。
拡散モデル(diffusion model)は特に有望なモデリング手法であり、時間後条件付けと生成時の速度のトレードオフを可能にする。
数学的には、置換同変デノイザはグラフ拡散モデルの表現性を著しく制限し、したがってそれらの逆合成への適応性を示す。
この制限に対処するため、同値要件を緩和し、条件付けのアライメントと、原子マッピングによって得られた生成されたグラフにのみ適用する。
我々の新しいデノイザは、USPTO-50k上のテンプレートフリーおよびテンプレートベースのメソッドで最高1$の精度(54.7$\%)を達成する。
また,対話型アプリケーションの可能性を強調し,多段階計画のための追加の制御を行うことにより,学習後条件のフレキシブル化と,分散ステップ数によるサンプル品質の向上を実証する。
Retrosynthesis, the task of identifying precursors for a given molecule, can be naturally framed as a conditional graph generation task. Diffusion models are a particularly promising modelling approach, enabling post-hoc conditioning and trading off quality for speed during generation. We show mathematically that permutation equivariant denoisers severely limit the expressiveness of graph diffusion models and thus their adaptation to retrosynthesis. To address this limitation, we relax the equivariance requirement such that it only applies to aligned permutations of the conditioning and the generated graphs obtained through atom mapping. Our new denoiser achieves the highest top-$1$ accuracy ($54.7$\%) across template-free and template-based methods on USPTO-50k. We also demonstrate the ability for flexible post-training conditioning and good sample quality with small diffusion step counts, highlighting the potential for interactive applications and additional controls for multi-step planning. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# Ensemble Prompting, Document Fusion, Relevance Feedback を用いた生成クエリ再構成
Generative Query Reformulation Using Ensemble Prompting, Document Fusion, and Relevance Feedback ( http://arxiv.org/abs/2405.17658v1 ) ライセンス: Link先を確認 | Kaustubh D. Dhole, Ramraj Chandradevan, Eugene Agichtein, | (参考訳) クエリリフォーム(QR)は、ユーザの本来の検索クエリを、ユーザの意図に合わせたテキストに変換し、検索エクスペリエンスを改善するための一連のテクニックである。
最近、ゼロショットQRは、大きな言語モデルに固有の知識を活用できるため、有望なアプローチである。
他のタスクに有利なアンサンブル戦略の成功にインスパイアされ、クエリのリフォームを改善することができるか検討する。
本稿では、ゼロショット命令のパラフレーズを利用して複数のキーワードセットを生成し、最終的に検索性能を向上させる2つのアンサンブルベースのプロンプト手法、GenQREnsembleとGenQRFusionを提案する。
さらに,人間ユーザをシミュレートする託宣や,「批判的」なLLMなど,さまざまなソースからの関連フィードバックを取り入れた検索後のバリエーションについても紹介する。
本研究は,nDCG@10で検索効率を最大18%向上し,複数ベンチマークでの検索後設定で9%向上することを示す。
そこで我々は,フィードバック文書の効果を調査し,ドメイン固有の命令を取り入れ,フィルタの改定を行い,人間の検索者にとってより有益であるような流動的な改定を生成する。
そこで本論文では,検索のための自動クエリ再構成手法の確立と今後の研究への道筋について提案する。
Query Reformulation (QR) is a set of techniques used to transform a user's original search query to a text that better aligns with the user's intent and improves their search experience. Recently, zero-shot QR has been a promising approach due to its ability to exploit knowledge inherent in large language models. Inspired by the success of ensemble prompting strategies which have benefited other tasks, we investigate if they can improve query reformulation. In this context, we propose two ensemble-based prompting techniques, GenQREnsemble and GenQRFusion which leverage paraphrases of a zero-shot instruction to generate multiple sets of keywords to improve retrieval performance ultimately. We further introduce their post-retrieval variants to incorporate relevance feedback from a variety of sources, including an oracle simulating a human user and a "critic" LLM. We demonstrate that an ensemble of query reformulations can improve retrieval effectiveness by up to 18% on nDCG@10 in pre-retrieval settings and 9% on post-retrieval settings on multiple benchmarks, outperforming all previously reported SOTA results. We perform subsequent analyses to investigate the effects of feedback documents, incorporate domain-specific instructions, filter reformulations, and generate fluent reformulations that might be more beneficial to human searchers. Together, the techniques and the results presented in this paper establish a new state of the art in automated query reformulation for retrieval and suggest promising directions for future research. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# Monte Carlo Arbitrary-Masked Mambaを用いた医用画像再構成におけるグローバル感度と不確実性定量化の促進
Enhancing Global Sensitivity and Uncertainty Quantification in Medical Image Reconstruction with Monte Carlo Arbitrary-Masked Mamba ( http://arxiv.org/abs/2405.17659v1 ) ライセンス: Link先を確認 | Jiahao Huang, Liutao Yang, Fanwen Wang, Yinzhe Wu, Yang Nan, Weiwen Wu, Chengyan Wang, Kuangyu Shi, Angelica I. Aviles-Rivero, Carola-Bibiane Schönlieb, Daoqiang Zhang, Guang Yang, | (参考訳) 深層学習は医用画像再構成において広く適用されており、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は主要なパラダイムであり、それぞれに異なる利点と固有の制限がある。
新興のMambaは、線形スケーラビリティとグローバル感度の利点を組み合わせた視覚表現の学習において優位性を示している。
本研究では,関節画像再構成と不確実性推定のためのウェーブレット分解を用いたArbitrary-Masked MambaモデルであるMambaMIRを紹介する。
Arbitrary Scan Masking (ASM) のメカニズムである ``masks out' は、不確実性推定のためにランダム性を導入するために冗長な情報である。
モンテカルロ(MC)のドロップアウトと比較して,提案するMC-ASMは,高パラメータチューニングを必要とせずに不確実性マップを提供し,低レベルタスクにドロップアウトを適用する際に一般的に見られる性能低下を緩和する。
テクスチャのさらなる保存と知覚品質の向上のために,我々はMambaMIRへのウェーブレット変換を採用し,その変形を生成的逆数ネットワーク(MambaMIR-GAN)に基づいて探索する。
複数の代表的な医用画像再構成タスクに対して総合的な実験が行われ、提案されたMambaMIRとMambaMIR-GANは異なる再現タスクにおいて他のベースラインおよび最先端の手法よりも優れており、MambaMIRは最高の再構築忠実さを達成し、MambaMIR-GANは最高の知覚品質を有することを示した。
さらに, MC-ASMは, 一般的に使用されるドロップアウトによる典型的な成績低下を軽減しつつ, 臨床医に新たなツールとして不確実性マップを提供する。
Deep learning has been extensively applied in medical image reconstruction, where Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) represent the predominant paradigms, each possessing distinct advantages and inherent limitations: CNNs exhibit linear complexity with local sensitivity, whereas ViTs demonstrate quadratic complexity with global sensitivity. The emerging Mamba has shown superiority in learning visual representation, which combines the advantages of linear scalability and global sensitivity. In this study, we introduce MambaMIR, an Arbitrary-Masked Mamba-based model with wavelet decomposition for joint medical image reconstruction and uncertainty estimation. A novel Arbitrary Scan Masking (ASM) mechanism ``masks out'' redundant information to introduce randomness for further uncertainty estimation. Compared to the commonly used Monte Carlo (MC) dropout, our proposed MC-ASM provides an uncertainty map without the need for hyperparameter tuning and mitigates the performance drop typically observed when applying dropout to low-level tasks. For further texture preservation and better perceptual quality, we employ the wavelet transformation into MambaMIR and explore its variant based on the Generative Adversarial Network, namely MambaMIR-GAN. Comprehensive experiments have been conducted for multiple representative medical image reconstruction tasks, demonstrating that the proposed MambaMIR and MambaMIR-GAN outperform other baseline and state-of-the-art methods in different reconstruction tasks, where MambaMIR achieves the best reconstruction fidelity and MambaMIR-GAN has the best perceptual quality. In addition, our MC-ASM provides uncertainty maps as an additional tool for clinicians, while mitigating the typical performance drop caused by the commonly used dropout. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# LoReTrack: 効率的かつ高精度な低分解能トランストラッキング
LoReTrack: Efficient and Accurate Low-Resolution Transformer Tracking ( http://arxiv.org/abs/2405.17660v1 ) ライセンス: Link先を確認 | Shaohua Dong, Yunhe Feng, Qing Yang, Yuewei Lin, Heng Fan, | (参考訳) 高性能トランスフォーマートラッカーは優れた結果を示したが、計算負荷が大きい場合が多い。
モデルを変更することなく、より小さな入力が即時かつ便利に計算を削減できることを確認すると、効率的なトランスフォーマー追跡のために、低解像度の入力を採用するのが簡単な解である。
高速ではあるが、低解像度追跡における情報損失により、トラッキングの精度が大幅に低下する。
本稿では,凍結した高解像度(大容量ではない)トランスフォーマートラッカーからの二重知識蒸留による低解像度トランスフォーマートラッキングの性能向上を図るため,そのような情報損失を軽減することを目的とする。
コアは、クエリキー値の知識蒸留(QKV-KD)と識別知識蒸留(Disc-KD)の2つの単純かつ効果的な蒸留モジュールに含まれている。
前者はグローバルな視点から、低解像度のトラッカーが高解像度のトラッカーから特徴や相互作用を継承することを可能にし、後者は、高解像度のトラッカーから識別領域を模倣することで、目標背景の識別能力を高める。
二重知識蒸留により,低分解能トランスフォーマートラッカー (LoReTrack) は, 計算量の削減による高効率化だけでなく, 高分解能トラッカーからの知識の蒸留による精度の向上も期待できる。
大規模な実験では、256x256解像度のLoReTrackは、同じ解像度でベースラインを一貫して改善し、384x384高解像度のTransformerトラッカーと比較して、競争力やパフォーマンスが向上し、52%高速で56%のMACを節約した。
さらに、LoReTrackは解像度スケーリング可能である。
128x128の解像度で、LaSOT/LaSOTextで64.9%/46.4%のSUCスコアを持つCPU上で25fpsで動作する。
コードはリリースされる。
High-performance Transformer trackers have shown excellent results, yet they often bear a heavy computational load. Observing that a smaller input can immediately and conveniently reduce computations without changing the model, an easy solution is to adopt the low-resolution input for efficient Transformer tracking. Albeit faster, this hurts tracking accuracy much due to information loss in low resolution tracking. In this paper, we aim to mitigate such information loss to boost the performance of the low-resolution Transformer tracking via dual knowledge distillation from a frozen high-resolution (but not a larger) Transformer tracker. The core lies in two simple yet effective distillation modules, comprising query-key-value knowledge distillation (QKV-KD) and discrimination knowledge distillation (Disc-KD), across resolutions. The former, from the global view, allows the low-resolution tracker to inherit the features and interactions from the high-resolution tracker, while the later, from the target-aware view, enhances the target-background distinguishing capacity via imitating discriminative regions from its high-resolution counterpart. With the dual knowledge distillation, our Low-Resolution Transformer Tracker (LoReTrack) enjoys not only high efficiency owing to reduced computation but also enhanced accuracy by distilling knowledge from the high-resolution tracker. In extensive experiments, LoReTrack with a 256x256 resolution consistently improves baseline with the same resolution, and shows competitive or even better results compared to 384x384 high-resolution Transformer tracker, while running 52% faster and saving 56% MACs. Moreover, LoReTrack is resolution-scalable. With a 128x128 resolution, it runs 25 fps on a CPU with 64.9%/46.4% SUC scores on LaSOT/LaSOText, surpassing all other CPU real-time trackers. Code will be released. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# RefDrop:参照特徴誘導による画像またはビデオ生成における制御可能な一貫性
RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance ( http://arxiv.org/abs/2405.17661v1 ) ライセンス: Link先を確認 | Jiaojiao Fan, Haotian Xue, Qinsheng Zhang, Yongxin Chen, | (参考訳) 拡散モデルを用いた複数の生成画像間の一貫性の制御に対する関心は急速に高まっている。
近年の研究では、複数の参照画像から特徴を結合して注目モジュールを操作することで、微調整をせずに一貫性を向上するための効率的なアプローチが提案されている。
その人気と成功にもかかわらず、その効果に寄与する基盤となるメカニズムを解明する研究はほとんどない。
本研究は,画像自己注意の線形補間と,合成コンテンツと参照特徴の相互補間を一定ランク1係数で行うことを明らかにする。
この観測により、ランク1係数は不要であることが判明し、制御可能な生成機構を単純化する。
得られたアルゴリズムはRefDropと呼ばれ、ユーザーは直接的かつ正確な方法で参照コンテキストの影響を制御できる。
単一オブジェクト画像生成における一貫性の向上に加えて、複数の被写体を一貫した生成、より多様なコンテンツを促進するための特定の特徴の抑制、時間的整合性を高めることによって高品質なパーソナライズされたビデオ生成など、より興味深い応用を可能にする。
IP-Adapterのような最先端のイメージプロンプトベースのジェネレータと比較しても、RefDropは制御性と品質の面で競争力があり、参照画像から特徴注入のための別のイメージエンコーダをトレーニングする必要がなく、任意の画像やビデオ拡散モデルに対して汎用的なプラグアンドプレイソリューションである。
There is a rapidly growing interest in controlling consistency across multiple generated images using diffusion models. Among various methods, recent works have found that simply manipulating attention modules by concatenating features from multiple reference images provides an efficient approach to enhancing consistency without fine-tuning. Despite its popularity and success, few studies have elucidated the underlying mechanisms that contribute to its effectiveness. In this work, we reveal that the popular approach is a linear interpolation of image self-attention and cross-attention between synthesized content and reference features, with a constant rank-1 coefficient. Motivated by this observation, we find that a rank-1 coefficient is not necessary and simplifies the controllable generation mechanism. The resulting algorithm, which we coin as RefDrop, allows users to control the influence of reference context in a direct and precise manner. Besides further enhancing consistency in single-subject image generation, our method also enables more interesting applications, such as the consistent generation of multiple subjects, suppressing specific features to encourage more diverse content, and high-quality personalized video generation by boosting temporal consistency. Even compared with state-of-the-art image-prompt-based generators, such as IP-Adapter, RefDrop is competitive in terms of controllability and quality while avoiding the need to train a separate image encoder for feature injection from reference images, making it a versatile plug-and-play solution for any image or video diffusion model. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# 顔の正反対性は何か? : 脳における共有化可能な概念とその否定
What's the Opposite of a Face? Finding Shared Decodable Concepts and their Negations in the Brain ( http://arxiv.org/abs/2405.17663v1 ) ライセンス: Link先を確認 | Cory Efird, Alex Murphy, Joel Zylberberg, Alona Fyshe, | (参考訳) 以前の研究は脳の機能的な局在を示す証拠を提供しており、特定の視覚入力に対して異なる解剖学的領域が優先的に活性化している。
例えば、ファシフォーム顔領域は、顔を含む視覚刺激に対して優先的に活性化される。
しかし、視覚的意味論のスペクトルは広く、これまでヒトの脳では、いくつかの意味的に調整された大脳皮質のパッチしか特定されていない。
マルチモーダル(自然言語と画像)ニューラルネットワークアーキテクチャ(CLIP)を用いて、自然な画像視聴中に脳の反応をCLIP埋め込みにマッピングする極めて正確なコントラストモデルを訓練する。
次に、DBSCANクラスタリングアルゴリズムの新たな適応を用いて、これらの参加者固有のコントラストモデルパラメータをクラスタリングする。
これは私たちがShared Deodable Concepts(SDC)と呼んでいるものを明らかにします。
各SDCクラスタに最も多く,最も関連付けられていない画像を調べることで,各SDCのセマンティック特性についてさらなる知見が得られる。
これまでに報告された視覚的特徴(例えば、初期視覚野の方向調整)と、顔、場所、身体などの視覚的意味概念について、SDCに言及する。
提案手法がビジュオ・セマンティックな概念に対して複数のクラスタを見つける場合,最も関連の少ない画像は,共起因子間の解離を可能にする。
例えば、私たちは2つの食品画像群を発見し、1つは色によって駆動され、もう1つは形状によって駆動される。
また, 足・手に合わせて調整された体外領域 (EBA) の領域や, 右頭頂葉内サルクスの特異性などの未報告領域も明らかにした。
このように、我々は、マルチモーダルニューラルネットワーク表現とクラスタリングアルゴリズムの新たな適応を活用して、脳内の新しい、既存のビズーセマンティック表現をよりよく特徴付ける。
Prior work has offered evidence for functional localization in the brain; different anatomical regions preferentially activate for certain types of visual input. For example, the fusiform face area preferentially activates for visual stimuli that include a face. However, the spectrum of visual semantics is extensive, and only a few semantically-tuned patches of cortex have so far been identified in the human brain. Using a multimodal (natural language and image) neural network architecture (CLIP) we train a highly accurate contrastive model that maps brain responses during naturalistic image viewing to CLIP embeddings. We then use a novel adaptation of the DBSCAN clustering algorithm to cluster the parameters of these participant-specific contrastive models. This reveals what we call Shared Decodable Concepts (SDCs): clusters in CLIP space that are decodable from common sets of voxels across multiple participants. Examining the images most and least associated with each SDC cluster gives us additional insight into the semantic properties of each SDC. We note SDCs for previously reported visual features (e.g. orientation tuning in early visual cortex) as well as visual semantic concepts such as faces, places and bodies. In cases where our method finds multiple clusters for a visuo-semantic concept, the least associated images allow us to dissociate between confounding factors. For example, we discovered two clusters of food images, one driven by color, the other by shape. We also uncover previously unreported areas such as regions of extrastriate body area (EBA) tuned for legs/hands and sensitivity to numerosity in right intraparietal sulcus, and more. Thus, our contrastive-learning methodology better characterizes new and existing visuo-semantic representations in the brain by leveraging multimodal neural network representations and a novel adaptation of clustering algorithms. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# ベイズニューラルネットワークにおける構造的部分確率性
Structured Partial Stochasticity in Bayesian Neural Networks ( http://arxiv.org/abs/2405.17666v1 ) ライセンス: Link先を確認 | Tommy Rochussen, | (参考訳) ベイズニューラルネットワークの後部分布は、同じネットワーク機能に対応する多くのモードを持つ。
このようなモードの多さにより、近似推論手法の作業が困難になる可能性がある。
近年の研究では、ベイズニューラルネットワークにおける近似推論に対する部分確率性の利点が実証されている。
本稿では,ニューロン置換対称性を除去する重みの決定論的サブセットを選択するための構造的手法を提案する。
大幅に単純化された後続分布により,既存の近似推論方式の性能は大幅に向上した。
Bayesian neural network posterior distributions have a great number of modes that correspond to the same network function. The abundance of such modes can make it difficult for approximate inference methods to do their job. Recent work has demonstrated the benefits of partial stochasticity for approximate inference in Bayesian neural networks; inference can be less costly and performance can sometimes be improved. I propose a structured way to select the deterministic subset of weights that removes neuron permutation symmetries, and therefore the corresponding redundant posterior modes. With a drastically simplified posterior distribution, the performance of existing approximate inference schemes is found to be greatly improved. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# ガイアXPスペクトルと教師なし機械学習を用いた汚染された白ドワーフその他の宝物の探索
Hunting for Polluted White Dwarfs and Other Treasures with Gaia XP Spectra and Unsupervised Machine Learning ( http://arxiv.org/abs/2405.17667v1 ) ライセンス: Link先を確認 | Malia L. Kao, Keith Hawkins, Laura K. Rogers, Amy Bonsor, Bart H. Dunlap, Jason L. Sanders, M. H. Montgomery, D. E. Winget, | (参考訳) 太陽系外惑星物質によって汚染された白色小星 (WD) は、太陽系外惑星の内部を直接観測する前例のない機会となる。
しかし、分光調査は明るさの制約によって制限されることが多く、WDは極めて暗くなり、汚染されたWDの大量検出が困難になる傾向にある。
本稿では, 大気中の複数の金属を含むWDの数を大幅に増やすことを目的としている。
ガイアDR3 BP/RP(XP)スペクトルを用いた96,134個のWDを用いて、一様マニフォールド近似・投影(UMAP)と呼ばれる教師なし機械学習技術を用いて、2次元マップを構築し、WDを識別可能なスペクトル領域に整理した。
汚染されたWDは、我々の地図で特定されたスペクトル群のうちの1つである。
この選択法により, 大気中の5種以上の金属種を含む既知のWDの数が, 桁違いに増加する可能性が示唆された。
このようなシステムは、外惑星の多様性と地質を特徴づけるのに不可欠である。
White dwarfs (WDs) polluted by exoplanetary material provide the unprecedented opportunity to directly observe the interiors of exoplanets. However, spectroscopic surveys are often limited by brightness constraints, and WDs tend to be very faint, making detections of large populations of polluted WDs difficult. In this paper, we aim to increase considerably the number of WDs with multiple metals in their atmospheres. Using 96,134 WDs with Gaia DR3 BP/RP (XP) spectra, we constructed a 2D map using an unsupervised machine learning technique called Uniform Manifold Approximation and Projection (UMAP) to organize the WDs into identifiable spectral regions. The polluted WDs are among the distinct spectral groups identified in our map. We have shown that this selection method could potentially increase the number of known WDs with 5 or more metal species in their atmospheres by an order of magnitude. Such systems are essential for characterizing exoplanet diversity and geology. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# ラベルノイズに対する決定木ロバストネスのための損失設計手法の探索
Exploring Loss Design Techniques For Decision Tree Robustness To Label Noise ( http://arxiv.org/abs/2405.17672v1 ) ライセンス: Link先を確認 | Lukasz Sztukiewicz, Jack Henry Good, Artur Dubrawski, | (参考訳) 実世界では、データはしばしば騒々しく、特徴の質だけでなくラベルの精度にも影響を与えます。
ラベル誤りの軽減に関する現在の研究は、主にディープラーニングの進歩に起因し、解釈可能なモデル、特に決定木に根ざしたモデルにおいてギャップが存在する。
本研究では,Deciment Treeの堅牢性を向上させるために,ディープラーニングの損失設計からアイデアを適用できるかどうかを検討する。
特に、両標準手法とも損失補正と対称損失は有効ではないことを示す。
我々は、ノイズをラベル付けするための決定木の堅牢性を改善するために、他の方向を検討する必要があると論じている。
In the real world, data is often noisy, affecting not only the quality of features but also the accuracy of labels. Current research on mitigating label errors stems primarily from advances in deep learning, and a gap exists in exploring interpretable models, particularly those rooted in decision trees. In this study, we investigate whether ideas from deep learning loss design can be applied to improve the robustness of decision trees. In particular, we show that loss correction and symmetric losses, both standard approaches, are not effective. We argue that other directions need to be explored to improve the robustness of decision trees to label noise. | 翻訳日:2024-05-29 23:11:29 公開日:2024-05-27 |
# 反復リファインメントモデルにおける逆問題に対する高速サンプリング器
Fast Samplers for Inverse Problems in Iterative Refinement Models ( http://arxiv.org/abs/2405.17673v1 ) ライセンス: Link先を確認 | Kushagra Pandey, Ruihan Yang, Stephan Mandt, | (参考訳) 非条件拡散およびフローマッチングモデルのための高速サンプリング器の構築は近年注目されているが、高分解能、塗装、デブロワーリングといった逆問題の解法では、高品質な結果を得るためには、数百から数千の反復的なステップがまだ必要である。
本稿では,逆問題に対する効率的なサンプル作成のためのプラグイン・アンド・プレイフレームワークを提案し,事前学習した拡散モデルやフローマッチングモデルのみを必要とする。
本稿では,逆問題の特定の形式を利用して,各条件拡散/流れのダイナミクスをサンプリング可能な空間に投影する条件共役積分器を提案する。
本手法は拡散流モデルを用いた逆問題の解法として一般的な後部近似法を補完する。
拡散モデルとフローマッチングモデルを用いて,複数のデータセットにまたがる線形画像復元作業における提案手法の性能評価を行った。
特に、ImageNetデータセット上の4$\times$超分解能のような難解な逆問題に対して、我々の手法は5つの条件付きサンプリングステップで高品質なサンプルを生成し、20~1000ステップを要する競合するベースラインより優れている。
私たちのコードとモデルはhttps://github.com/mandt-lab/CI2RM.comで公開されます。
Constructing fast samplers for unconditional diffusion and flow-matching models has received much attention recently; however, existing methods for solving inverse problems, such as super-resolution, inpainting, or deblurring, still require hundreds to thousands of iterative steps to obtain high-quality results. We propose a plug-and-play framework for constructing efficient samplers for inverse problems, requiring only pre-trained diffusion or flow-matching models. We present Conditional Conjugate Integrators, which leverage the specific form of the inverse problem to project the respective conditional diffusion/flow dynamics into a more amenable space for sampling. Our method complements popular posterior approximation methods for solving inverse problems using diffusion/flow models. We evaluate the proposed method's performance on various linear image restoration tasks across multiple datasets, employing diffusion and flow-matching models. Notably, on challenging inverse problems like 4$\times$ super-resolution on the ImageNet dataset, our method can generate high-quality samples in as few as 5 conditional sampling steps and outperforms competing baselines requiring 20-1000 steps. Our code and models will be publicly available at https://github.com/mandt-lab/CI2RM. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# 2目的2次割当て問題に対する量子ハイブリッドソルバの適用
Utilising a Quantum Hybrid Solver for Bi-objective Quadratic Assignment Problems ( http://arxiv.org/abs/2405.17676v1 ) ライセンス: Link先を確認 | Mayowa Ayodele, | (参考訳) 近年,量子コンピューティングと最適化の交点が注目されている。
様々な最適化問題に対する量子と量子ハイブリッドの解法の適用について、多くの研究がなされている。
本研究は、量子ハイブリッドソルバを用いた双目的2次代入問題の解法におけるスカラー化手法について検討する。
異なるIsingマシンに関する以前の研究と一致する結果を示す。
The intersection between quantum computing and optimisation has been an area of interest in recent years. There have been numerous studies exploring the application of quantum and quantum-hybrid solvers to various optimisation problems. This work explores scalarisation methods within the context of solving the bi-objective quadratic assignment problem using a quantum-hybrid solver. We show results that are consistent with previous research on a different Ising machine. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# 自然・医用画像へのDETR適用の差異の理解
Understanding differences in applying DETR to natural and medical images ( http://arxiv.org/abs/2405.17677v1 ) ライセンス: Link先を確認 | Yanqi Xu, Yiqiu Shen, Carlos Fernandez-Granda, Laura Heacock, Krzysztof J. Geras, | (参考訳) トランスフォーマーベースの検出器は、自然画像を用いたコンピュータビジョンタスクで成功している。
これらのモデルはDeformable DETRによって実証され、自然界の典型的な特徴に合わせた複雑なエンジニアリング戦略によって最適化されている。
しかし、医用画像データには、非常に大きな画像サイズ、関心の少ない領域、微妙な違いによってしか区別できないオブジェクトクラスなど、ユニークな課題がある。
本研究は,これらの異なる医用画像データ特性を表す検診用マンモグラフィーデータセットに適用した場合,これらのトランスフォーマーに基づく設計選択の適用性を評価するものである。
解析の結果,複雑なエンコーダアーキテクチャ,マルチスケール機能融合,クエリ初期化,反復的バウンディングボックスリファインメントといった,自然な画像領域からの一般的な設計選択は,医用画像における物体検出性能を損なうものではないことがわかった。
対照的に、よりシンプルで浅いアーキテクチャは、しばしば同等または優れた結果を得る。
この発見は、医療画像データに対するトランスフォーマーモデルの適応には、標準的なプラクティスの再評価が必要であることを示唆し、医療診断のためのより効率的で専門的なフレームワークを生み出す可能性があることを示唆している。
Transformer-based detectors have shown success in computer vision tasks with natural images. These models, exemplified by the Deformable DETR, are optimized through complex engineering strategies tailored to the typical characteristics of natural scenes. However, medical imaging data presents unique challenges such as extremely large image sizes, fewer and smaller regions of interest, and object classes which can be differentiated only through subtle differences. This study evaluates the applicability of these transformer-based design choices when applied to a screening mammography dataset that represents these distinct medical imaging data characteristics. Our analysis reveals that common design choices from the natural image domain, such as complex encoder architectures, multi-scale feature fusion, query initialization, and iterative bounding box refinement, do not improve and sometimes even impair object detection performance in medical imaging. In contrast, simpler and shallower architectures often achieve equal or superior results. This finding suggests that the adaptation of transformer models for medical imaging data requires a reevaluation of standard practices, potentially leading to more efficient and specialized frameworks for medical diagnosis. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# TIMA: ゼロショット対向ロバスト性と一般化能力のバランスをとるためのテキスト画像相互認識
TIMA: Text-Image Mutual Awareness for Balancing Zero-Shot Adversarial Robustness and Generalization Ability ( http://arxiv.org/abs/2405.17678v1 ) ライセンス: Link先を確認 | Fengji Ma, Li Liu, Hei Victor Cheng, | (参考訳) 本研究は,大規模基盤モデルにおけるゼロショット一般化を保ちながら,ゼロショット対逆ロバスト性を達成するという課題に対処し,一般的なコントラスト言語-画像事前学習(CLIP)に注目した。
基礎モデルは例外的なゼロショット一般化が報告されているが、敵の摂動に対して非常に脆弱である。
既存の手法は、零ショット対向ロバスト性と小さな対向摂動下での一般化との間には、同等に良いトレードオフを達成している。
しかし、大きな敵の摂動の下では良いトレードオフを達成できなかった。
そこで本研究では,ゼロショット対向ロバストネスと一般化のバランスをとるテキスト画像相互認識(TIMA)手法を提案する。
より正確には、最小超球面エネルギー(MHE)を組み込むことで、テキスト埋め込みのクラス間距離を増大させる画像認識テキスト(IAT)チューニング機構を提案する。
同時に、固定された事前訓練された画像埋め込みは、知識蒸留によるMHEとオリジナルテキスト埋め込みの類似性を維持するために、異なるクラス間の意味情報を保存するために、クロスモーダル補助監督として使用される。
さらに,テキスト依存型適応マージン(TAM)によるトレーニング段階における画像埋め込み間のクラス間距離を増加させるテキスト認識画像(TAI)チューニング機構を導入する。
同様に、知識蒸留を用いて、微調整された画像と事前訓練された画像の埋め込みの類似性を維持する。
従来のCLIPモデルのゼロショット一般化能力を保ちながら,幅広い逆方向の摂動に対して印象的なゼロショット性能を示した。
This work addresses the challenge of achieving zero-shot adversarial robustness while preserving zero-shot generalization in large-scale foundation models, with a focus on the popular Contrastive Language-Image Pre-training (CLIP). Although foundation models were reported to have exceptional zero-shot generalization, they are highly vulnerable to adversarial perturbations. Existing methods achieve a comparable good tradeoff between zero-shot adversarial robustness and generalization under small adversarial perturbations. However, they fail to achieve a good tradeoff under large adversarial perturbations. To this end, we propose a novel Text-Image Mutual Awareness (TIMA) method that strikes a balance between zero-shot adversarial robustness and generalization. More precisely, we propose an Image-Aware Text (IAT) tuning mechanism that increases the inter-class distance of text embeddings by incorporating the Minimum Hyperspherical Energy (MHE). Simultaneously, fixed pre-trained image embeddings are used as cross-modal auxiliary supervision to maintain the similarity between the MHE-tuned and original text embeddings by the knowledge distillation, preserving semantic information between different classes. Besides, we introduce a Text-Aware Image (TAI) tuning mechanism, which increases inter-class distance between image embeddings during the training stage by Text-distance based Adaptive Margin (TAM). Similarly, a knowledge distillation is utilized to retain the similarity between fine-tuned and pre-trained image embeddings. Extensive experimental results demonstrate the effectiveness of our approach, showing impressive zero-shot performance against a wide range of adversarial perturbations while preserving the zero-shot generalization capabilities of the original CLIP model. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# 解読運動:マルチエージェントのための統一軌道生成モデル
Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent ( http://arxiv.org/abs/2405.17680v1 ) ライセンス: Link先を確認 | Yi Xu, Yun Fu, | (参考訳) マルチエージェントの振る舞いを理解することは、様々な分野において重要である。
従来の手法では, 軌道予測, インプット, 空間的時間的回復という3つの主要なタスクを通じてエージェントの動きを解析する。
これらのタスクのユニークな入力の定式化と制約を考えると、既存のほとんどのメソッドは1つの特定のタスクにのみ対処するように調整されている。
しかし、現実世界のアプリケーションでは、これらのシナリオは同時に発生することが多い。
その結果、あるタスクのために設計されたメソッドは、しばしば他のタスクへの適応に失敗し、結果としてパフォーマンスが低下する。
この制限を克服するために,任意の軌道をマスク入力として処理し,多様なシナリオに適用可能な統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
我々はさらに、最近成功したステートスペースモデル(特にマンバモデル)を双方向のテンポラルマンバに拡張し、時間的依存を効果的に捉える。
さらに、双方向時間スケール(BTS)モジュールを組み込んで、シーケンス内の時間的欠落関係を維持しながら、トラジェクトリを包括的にスキャンする。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットを評価し,評価を行った。
大規模な実験は、我々のモデルの優れた性能を示す。
我々の知る限りでは、この統一的な問題を多元的生成フレームワークを通じて解決し、マルチエージェント運動の理解を深める最初の研究である。
データセット、コード、モデルウェイトはhttps://github.com/colorfulfuture/UniTraj-pytorch.comで公開されています。
Understanding multi-agent behavior is critical across various fields. The conventional approach involves analyzing agent movements through three primary tasks: trajectory prediction, imputation, and spatial-temporal recovery. Considering the unique input formulation and constraint of these tasks, most existing methods are tailored to address only one specific task. However, in real-world applications, these scenarios frequently occur simultaneously. Consequently, methods designed for one task often fail to adapt to others, resulting in performance drops. To overcome this limitation, we propose a Unified Trajectory Generation model, UniTraj, that processes arbitrary trajectories as masked inputs, adaptable to diverse scenarios. Specifically, we introduce a Ghost Spatial Masking (GSM) module embedded within a Transformer encoder for spatial feature extraction. We further extend recent successful State Space Models (SSMs), particularly the Mamba model, into a Bidirectional Temporal Mamba to effectively capture temporal dependencies. Additionally, we incorporate a Bidirectional Temporal Scaled (BTS) module to comprehensively scan trajectories while maintaining the temporal missing relationships within the sequence. We curate and benchmark three practical sports game datasets, Basketball-U, Football-U, and Soccer-U, for evaluation. Extensive experiments demonstrate the superior performance of our model. To the best of our knowledge, this is the first work that addresses this unified problem through a versatile generative framework, thereby enhancing our understanding of multi-agent movement. Our datasets, code, and model weights are available at https://github.com/colorfulfuture/UniTraj-pytorch. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# ビデオ分析システムにおける因果的物理誤差発見に向けて
Towards Causal Physical Error Discovery in Video Analytics Systems ( http://arxiv.org/abs/2405.17686v1 ) ライセンス: Link先を確認 | Jinjin Zhao, Ted Shaowang, Stavos Sintos, Sanjay Krishnan, | (参考訳) ディープラーニングモデルに基づくビデオ分析システムは、しばしば不透明で不安定であり、ユーザがデバッグするのに役立つ説明システムを必要とする。
現在のモデル説明システムは、ピクセル寄与の観点からの行動のリテラル説明を非常に得意としているが、予測に影響を与える可能性のある物理プロセスやシステムプロセスに関する情報を統合することはできない。
本稿では、回帰不連続設計(regressive discontinuity design)と呼ばれる単純な形態の因果推論を用いて、複数の重要なパフォーマンス指標の変化を物理的な実世界の現象に関連付け、より実用的なビデオ分析説明を提供するという考え方を紹介する。
システムアーキテクチャの概要と、そのようなシステムが持つ可能性のある影響のビジョンについて説明する。
Video analytics systems based on deep learning models are often opaque and brittle and require explanation systems to help users debug. Current model explanation system are very good at giving literal explanations of behavior in terms of pixel contributions but cannot integrate information about the physical or systems processes that might influence a prediction. This paper introduces the idea that a simple form of causal reasoning, called a regression discontinuity design, can be used to associate changes in multiple key performance indicators to physical real world phenomena to give users a more actionable set of video analytics explanations. We overview the system architecture and describe a vision of the impact that such a system might have. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# マルチキュービット格子手術スケジューリング
Multi-qubit Lattice Surgery Scheduling ( http://arxiv.org/abs/2405.17688v1 ) ライセンス: Link先を確認 | Allyson Silva, Xiangyi Zhang, Zak Webb, Mia Kramer, Chan Woo Yang, Xiao Liu, Jessica Lemieux, Ka-Wai Chen, Artur Scherer, Pooya Ronagh, | (参考訳) 2次元トポロジカル量子誤り訂正符号を用いたフォールトトレラント量子計算は、多ビット長距離演算の恩恵を受けることができる。
単純な可換規則を用いることで、量子回路をクリフォード以外の複数の量子ビットゲートの列に変換することができる。
フォールトトレラントコンパイルの以前の研究は、回路の並列化性を低減するため、そのようなゲートの最適スケジューリングを避ける。
並列化ポテンシャルの低減は, ゲート数の大幅な減少により達成される。
そこで我々は、最初期の利用可能な第一ポリシーを用いて、マルチキュービットゲートをスタイナーツリーとして表現することで、関連する森林包装問題を解決し、マルチキュービット格子手術をスケジューリングする方法を考案した。
ランダム回路とアプリケーションインスパイア回路の広範なテストにより,本手法のスケーラビリティと性能が実証された。
その結果, 回路の回路長を著しく低減し, 多ビットゲートの回路は, シリアル実行よりも回路実行時間を短縮できることがわかった。
Fault-tolerant quantum computation using two-dimensional topological quantum error correcting codes can benefit from multi-qubit long-range operations. By using simple commutation rules, a quantum circuit can be transpiled into a sequence of solely non-Clifford multi-qubit gates. Prior work on fault-tolerant compilation avoids optimal scheduling of such gates since they reduce the parallelizability of the circuit. We observe that the reduced parallelization potential is outweighed by the significant reduction in the number of gates. We therefore devise a method for scheduling multi-qubit lattice surgery using an earliest-available-first policy, solving the associated forest packing problem using a representation of the multi-qubit gates as Steiner trees. Our extensive testing on random and application-inspired circuits demonstrates the method's scalability and performance. We show that the transpilation significantly reduces the circuit length on the set of circuits tested, and that the resulting circuit of multi-qubit gates has a further reduction in the expected circuit execution time compared to serial execution. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# 動的・部分観測可能な環境における自律エージェントのオントロジー強化意思決定
Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments ( http://arxiv.org/abs/2405.17691v1 ) ライセンス: Link先を確認 | Saeedeh Ghanadbashi, Fatemeh Golpayegani, | (参考訳) エージェントはソフトウェアでもハードウェアでも、センサーを通して環境を認識し、アクチュエータを使って動作し、動的で部分的に観察可能な環境で動作します。
不完全でノイズの多いデータ、予期せぬ状況、目標をリアルタイムで適応する必要性といった課題に直面します。
強化学習(RL)を含む従来の推論とML手法は、データ要求、事前定義された目標、広範囲な探索期間によって制限される。
オントロジは多様な情報ソースを統合することでソリューションを提供し、複雑な環境における意思決定を強化する。
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。
OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。
主な貢献は以下の通り。
1.先行知識を用いたエージェントのリアルタイム観察を改善するオントロジーに基づく手法
2. OntoDeMモデルは、新しいゴールを進化または生成することで、動的で予期せぬ状況を処理します。
3.実世界の4つの応用における実装と評価。
OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
Agents, whether software or hardware, perceive their environment through sensors and act using actuators, often operating in dynamic, partially observable settings. They face challenges like incomplete and noisy data, unforeseen situations, and the need to adapt goals in real-time. Traditional reasoning and ML methods, including Reinforcement Learning (RL), help but are limited by data needs, predefined goals, and extensive exploration periods. Ontologies offer a solution by integrating diverse information sources, enhancing decision-making in complex environments. This thesis introduces an ontology-enhanced decision-making model (OntoDeM) for autonomous agents. OntoDeM enriches agents' domain knowledge, allowing them to interpret unforeseen events, generate or adapt goals, and make better decisions. Key contributions include: 1. An ontology-based method to improve agents' real-time observations using prior knowledge. 2. The OntoDeM model for handling dynamic, unforeseen situations by evolving or generating new goals. 3. Implementation and evaluation in four real-world applications, demonstrating its effectiveness. Compared to traditional and advanced learning algorithms, OntoDeM shows superior performance in improving agents' observations and decision-making in dynamic, partially observable environments. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# 弱い条件下でのTyod Langevinサンプリング
Tamed Langevin sampling under weaker conditions ( http://arxiv.org/abs/2405.17693v1 ) ライセンス: Link先を確認 | Iosif Lytras, Panayotis Mertikopoulos, | (参考訳) 標準的なリプシッツの平滑性要件を満たさない深層学習への応用により, 対数凹凸ではなく, 弱散逸性しか持たない分布から, 対数勾配を無限大で超直線的に成長させることが可能な分布を抽出する問題について検討した。
構造の観点からは、対象の分布は対数ソボレフあるいはポアンカルの不等式と、無限大で多項式的に成長する公理を持つ局所リプシッツ滑らか性仮定のいずれかを満たすと仮定するのみである。
この仮定は "vanilla" の未調整ランゲヴィンアルゴリズム (ULA) の動作限界を大きく超え、そのような分布からのサンプリングは極めて関係のある問題である。
そこで本研究では,対象分布の成長と崩壊特性に合わせたテーキング方式を導入し,KL(Kulback-Leibler)の発散,全変動,ワッサーシュタイン距離を対象分布に比例して明らかに非漸近的な保証を提供する。
Motivated by applications to deep learning which often fail standard Lipschitz smoothness requirements, we examine the problem of sampling from distributions that are not log-concave and are only weakly dissipative, with log-gradients allowed to grow superlinearly at infinity. In terms of structure, we only assume that the target distribution satisfies either a log-Sobolev or a Poincar\'e inequality and a local Lipschitz smoothness assumption with modulus growing possibly polynomially at infinity. This set of assumptions greatly exceeds the operational limits of the "vanilla" unadjusted Langevin algorithm (ULA), making sampling from such distributions a highly involved affair. To account for this, we introduce a taming scheme which is tailored to the growth and decay properties of the target distribution, and we provide explicit non-asymptotic guarantees for the proposed sampler in terms of the Kullback-Leibler (KL) divergence, total variation, and Wasserstein distance to the target distribution. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# エンコーダ・ソルバー畳み込みニューラルネットワークを用いた物理誘導フルウェーブフォームインバージョン
Physics-guided Full Waveform Inversion using Encoder-Solver Convolutional Neural Networks ( http://arxiv.org/abs/2405.17696v1 ) ライセンス: Link先を確認 | Matan Goren, Eran Treister, | (参考訳) フルウェーブフォーム・インバージョン(Full Waveform Inversion, FWI)は、境界上の観測データに基づいて、与えられた領域内の波速度分布を推定する逆問題である。
インバージョンは、時間または周波数領域のいずれにおいても、観測データに反復的に適合するデータをシミュレートするために、複数の前方問題を解く必要があるため、計算的に要求されている。
我々は、ヘルムホルツ方程式をフォワードモデルとして用いる周波数領域におけるFWIを考察し、その繰り返し解が反転過程の主要な計算ボトルネックである。
このコストを緩和するために、畳み込みニューラルネットワーク(CNN)に基づくエンコーダ・ソルバ・プレコンディショナーの学習プロセスを統合する。
エンコーダ・ソルバは、速度媒介パラメータを与えられた離散化されたヘルムホルツ演算子を効果的に前提条件として訓練される。
そして、最適化プロセスのイテレーション間でCNNを再学習することにより、エンコーダソルバをインバージョンの一部として反復的に進化する速度媒体に適用する。
再トレーニングなしでは、媒体が変化するにつれてソルバの性能は低下する。
光再訓練法を用いて, プロセス全体を通して, フォワードシミュレーションを効果的に行う。
高周波データを用いた2次元物理モデルを用いてFWI問題の解法を実証する。
Full Waveform Inversion (FWI) is an inverse problem for estimating the wave velocity distribution in a given domain, based on observed data on the boundaries. The inversion is computationally demanding because we are required to solve multiple forward problems, either in time or frequency domains, to simulate data that are then iteratively fitted to the observed data. We consider FWI in the frequency domain, where the Helmholtz equation is used as a forward model, and its repeated solution is the main computational bottleneck of the inversion process. To ease this cost, we integrate a learning process of an encoder-solver preconditioner that is based on convolutional neural networks (CNNs). The encoder-solver is trained to effectively precondition the discretized Helmholtz operator given velocity medium parameters. Then, by re-training the CNN between the iterations of the optimization process, the encoder-solver is adapted to the iteratively evolving velocity medium as part of the inversion. Without retraining, the performance of the solver deteriorates as the medium changes. Using our light retraining procedures, we obtain the forward simulations effectively throughout the process. We demonstrate our approach to solving FWI problems using 2D geophysical models with high-frequency data. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# P4:プライベート、パーソナライズ、ピアツーピアラーニングを目指す
P4: Towards private, personalized, and Peer-to-Peer learning ( http://arxiv.org/abs/2405.17697v1 ) ライセンス: Link先を確認 | Mohammad Mahdi Maheri, Sandra Siby, Ali Shahin Shamsabadi, Sina Abdollahi, Anastasia Borovykh, Hamed Haddadi, | (参考訳) パーソナライズド・ラーニング(Personalized learning)は、協調機械学習におけるデータ不均一性の問題に対処する手法である。
分散環境では、パーソナライズの主な課題は、クライアントクラスタリングとデータのプライバシである。
本稿では,P4(Personalized Private Peer-to-Peer)を開発し,各クライアントがトレーニング中の各クライアントのローカルデータセットの差分プライバシ保証を維持しながらパーソナライズされたモデルを受け取ることを保証する手法を提案する。
我々のアプローチは、類似したクライアントを識別し、P2P方式でグループ化する軽量なアルゴリズムの設計を含む。
一度グループ化すると、クライアントが精度に最小限の影響を伴ってコトレーニングを行うための、差分プライベートな知識蒸留を開発する。
提案手法は,3つのベンチマークデータセット(FEMNIST,Federated EMNIST,CIFAR-10,CIFAR-100)と2つの異なるニューラルネットワークアーキテクチャ(LinearとCNNベースのネットワーク)に対して,さまざまなプライバシパラメータを用いた評価を行った。
その結果、P4の可能性が示され、精度で微分プライベートP2Pの最先端を最大40%上回った。
また、リソース制約のあるデバイスに実装することでP4の実用性を示すとともに、2つのクライアント間の協調トレーニングの実行に約7秒を要したオーバーヘッドを最小限に抑えることを検証する。
Personalized learning is a proposed approach to address the problem of data heterogeneity in collaborative machine learning. In a decentralized setting, the two main challenges of personalization are client clustering and data privacy. In this paper, we address these challenges by developing P4 (Personalized Private Peer-to-Peer) a method that ensures that each client receives a personalized model while maintaining differential privacy guarantee of each client's local dataset during and after the training. Our approach includes the design of a lightweight algorithm to identify similar clients and group them in a private, peer-to-peer (P2P) manner. Once grouped, we develop differentially-private knowledge distillation for clients to co-train with minimal impact on accuracy. We evaluate our proposed method on three benchmark datasets (FEMNIST or Federated EMNIST, CIFAR-10 and CIFAR-100) and two different neural network architectures (Linear and CNN-based networks) across a range of privacy parameters. The results demonstrate the potential of P4, as it outperforms the state-of-the-art of differential private P2P by up to 40 percent in terms of accuracy. We also show the practicality of P4 by implementing it on resource constrained devices, and validating that it has minimal overhead, e.g., about 7 seconds to run collaborative training between two clients. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# BaboonLand Dataset: 野生の霊長類の追跡と、ドローンビデオからの行動認識の自動化
BaboonLand Dataset: Tracking Primates in the Wild and Automating Behaviour Recognition from Drone Videos ( http://arxiv.org/abs/2405.17698v1 ) ライセンス: Link先を確認 | Isla Duporge, Maksim Kholiavchenko, Roi Harel, Dan Rubenstein, Meg Crofoot, Tanya Berger-Wolf, Stephen Lee, Scott Wolf, Julie Barreau, Jenna Kline, Michelle Ramirez, Chuck Stewart, | (参考訳) ドローンを使って自然環境で複数の個人を同時に追跡することは、グループ霊長類の振る舞いをよりよく理解するための強力なアプローチだ。
以前の研究では、ビデオデータから霊長類の行動の分類を自動化できることが示されているが、これらの研究は、捕獲や地上カメラで行われている。
集団行動と集団の自己組織化を理解するためには、生態的な決定が下される自然環境に関連して行動が観察できるスケールで部隊全体を見る必要がある。
本研究では,バブーン検出,追跡,行動認識のための,ドローンビデオからの新たなデータセットを提案する。
Baboon検出データセットは、ドローンビデオにすべてのbaboonをバウンディングボックスで手動でアノテートすることで作成されている。
その後、初期の5.3K解像度画像から様々なスケールの画像のピラミッドを作成するためにタイリング法が適用され、約30Kの画像がバブーン検出に使用された。
トラッキングデータセットは、すべてのバウンディングボックスがビデオ全体で同じIDに割り当てられている検出データセットから導出される。
このプロセスにより、30時間に及ぶ非常に密集した追跡データが得られた。
行動認識データセットは、各動物を中心としたビデオサブリージョンであるミニシーンにトラックを変換することで生成され、各ミニシーンは12種類の異なる行動タイプで手動でアノテートされ、20時間以上のデータが得られる。
ベンチマーク結果によると、YOLOv8-X検出モデルの平均平均精度(mAP)は92.62\%、BotSort追跡アルゴリズムでは63.81\%、X3D動作認識モデルでは63.97\%である。
深層学習を用いて、ドローン映像から野生生物の行動を分類することで、グループ全体の集団行動に対する非侵襲的な洞察を促進する。
Using drones to track multiple individuals simultaneously in their natural environment is a powerful approach for better understanding group primate behavior. Previous studies have demonstrated that it is possible to automate the classification of primate behavior from video data, but these studies have been carried out in captivity or from ground-based cameras. To understand group behavior and the self-organization of a collective, the whole troop needs to be seen at a scale where behavior can be seen in relation to the natural environment in which ecological decisions are made. This study presents a novel dataset from drone videos for baboon detection, tracking, and behavior recognition. The baboon detection dataset was created by manually annotating all baboons in drone videos with bounding boxes. A tiling method was subsequently applied to create a pyramid of images at various scales from the original 5.3K resolution images, resulting in approximately 30K images used for baboon detection. The tracking dataset is derived from the detection dataset, where all bounding boxes are assigned the same ID throughout the video. This process resulted in half an hour of very dense tracking data. The behavior recognition dataset was generated by converting tracks into mini-scenes, a video subregion centered on each animal; each mini-scene was manually annotated with 12 distinct behavior types, resulting in over 20 hours of data. Benchmark results show mean average precision (mAP) of 92.62\% for the YOLOv8-X detection model, multiple object tracking precision (MOTA) of 63.81\% for the BotSort tracking algorithm, and micro top-1 accuracy of 63.97\% for the X3D behavior recognition model. Using deep learning to classify wildlife behavior from drone footage facilitates non-invasive insight into the collective behavior of an entire group. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# 社会福祉機能の学習
Learning Social Welfare Functions ( http://arxiv.org/abs/2405.17700v1 ) ライセンス: Link先を確認 | Kanad Shrikar Pardeshi, Itai Shapira, Ariel D. Procaccia, Aarti Singh, | (参考訳) 過去の意思決定を見て、政策立案者の理屈を理解したり、模倣したりすることは可能か?
我々は、この問題を、よく研究されたパワー平均関数ファミリーに属する社会福祉機能を学習する問題として定式化する。
まず、集団内の個人に対する行動(決定または政策)のユーティリティのベクトルと、政策立案者によって判断される社会的福祉に関するユーティリティのベクトルであるのに対し、第2に、入力は、与えられたユーティリティベクターに関連する福祉のペア比較である。
比較対象が社会福祉情報であるとしても,パワー平均関数はどちらの場合も多項式サンプルの複雑さを伴って学習可能であることを示す。
最後に,これらの課題に対して実用的なアルゴリズムを設計し,その性能を評価する。
Is it possible to understand or imitate a policy maker's rationale by looking at past decisions they made? We formalize this question as the problem of learning social welfare functions belonging to the well-studied family of power mean functions. We focus on two learning tasks; in the first, the input is vectors of utilities of an action (decision or policy) for individuals in a group and their associated social welfare as judged by a policy maker, whereas in the second, the input is pairwise comparisons between the welfares associated with a given pair of utility vectors. We show that power mean functions are learnable with polynomial sample complexity in both cases, even if the comparisons are social welfare information is noisy. Finally, we design practical algorithms for these tasks and evaluate their performance. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# 二元変圧器と三元変圧器の機械的解釈可能性
Mechanistic Interpretability of Binary and Ternary Transformers ( http://arxiv.org/abs/2405.17703v1 ) ライセンス: Link先を確認 | Jason Li, | (参考訳) 最近の研究 (arXiv:2310.11453, arXiv:2402.17764) は、メモリを大幅に削減し、精度を保ちながらLarge Language Models (LLMs) における推論速度を改善する方法としてバイナリおよび3次トランスフォーマーネットワークを提案した。
本研究では,完全精度変換器ネットワークと比較して,そのようなネットワークが明らかに異なるアルゴリズムや類似のアルゴリズムを学習するかどうかを調べるために,機械論的解釈可能性の手法を適用した。
特に、モジュール追加のおもちゃ問題で学んだアルゴリズムをリバースエンジニアリングし、二進ネットワークと三進ネットワークが完全精度ネットワークと同じようなアルゴリズムを学習していることに気付きました。
このことは、LLM設定においてより解釈可能な代替手段としてバイナリと3次ネットワークを使用する可能性を示す証拠となる。
Recent research (arXiv:2310.11453, arXiv:2402.17764) has proposed binary and ternary transformer networks as a way to significantly reduce memory and improve inference speed in Large Language Models (LLMs) while maintaining accuracy. In this work, we apply techniques from mechanistic interpretability to investigate whether such networks learn distinctly different or similar algorithms when compared to full-precision transformer networks. In particular, we reverse engineer the algorithms learned for the toy problem of modular addition where we find that binary and ternary networks learn similar algorithms as full precision networks. This provides evidence against the possibility of using binary and ternary networks as a more interpretable alternative in the LLM setting. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# 単眼深度推定における教師なし領域適応のための一貫性規則化
Consistency Regularisation for Unsupervised Domain Adaptation in Monocular Depth Estimation ( http://arxiv.org/abs/2405.17704v1 ) ライセンス: Link先を確認 | Amir El-Ghoussani, Julia Hornauer, Gustavo Carneiro, Vasileios Belagiannis, | (参考訳) 単眼深度推定において、画像ベース深度データセットへの依存を緩和するために、教師なし領域適応が最近研究されている。
しかし、これは複数のモデルをトレーニングしたり、複雑なトレーニングプロトコルを必要とするコストがかかる。
本研究では,一様深度推定のための教師なし領域適応を,ソース領域の真理ラベルへのアクセスのみを仮定して,一貫性に基づく半教師付き学習問題として定式化する。
この目的を達成するために、複数の拡張ビューにまたがる摂動一貫性を保ちながら、ソースドメイン上の予測を正則化するペアワイズ損失関数を導入する。
重要なことは、我々のアプローチは単純で効果的であり、以前の作業とは対照的に単一のモデルのトレーニングのみを必要とします。
実験では、KITTIとNYUv2の標準深度推定ベンチマークを用いて、関連する手法と比較して最先端の結果を示す。
さらに、一連のアブレーション研究において、アプローチの単純さと有効性について分析する。
コードは \url{https://github.com/AmirMaEl/SemiSupMDE} で公開されている。
In monocular depth estimation, unsupervised domain adaptation has recently been explored to relax the dependence on large annotated image-based depth datasets. However, this comes at the cost of training multiple models or requiring complex training protocols. We formulate unsupervised domain adaptation for monocular depth estimation as a consistency-based semi-supervised learning problem by assuming access only to the source domain ground truth labels. To this end, we introduce a pairwise loss function that regularises predictions on the source domain while enforcing perturbation consistency across multiple augmented views of the unlabelled target samples. Importantly, our approach is simple and effective, requiring only training of a single model in contrast to the prior work. In our experiments, we rely on the standard depth estimation benchmarks KITTI and NYUv2 to demonstrate state-of-the-art results compared to related approaches. Furthermore, we analyse the simplicity and effectiveness of our approach in a series of ablation studies. The code is available at \url{https://github.com/AmirMaEl/SemiSupMDE}. | 翻訳日:2024-05-29 23:01:26 公開日:2024-05-27 |
# DC-Gaussian:リフレクティブダッシュカムビデオのための3Dガウシアンスプレイティングの改良
DC-Gaussian: Improving 3D Gaussian Splatting for Reflective Dash Cam Videos ( http://arxiv.org/abs/2405.17705v1 ) ライセンス: Link先を確認 | Linhan Wang, Kai Cheng, Shuo Lei, Shengkun Wang, Wei Yin, Chenyang Lei, Xiaoxiao Long, Chang-Tien Lu, | (参考訳) 本稿では,車載ダッシュカムビデオから新しいビューを生成する手法であるDC-Gaussianを提案する。
ニューラルレンダリング技術は、運転シナリオにおいて大きな進歩を遂げてきたが、既存の方法は、主に自動運転車が収集したビデオのために設計されている。
しかし、これらのビデオは、様々な種類の車両で広く使われ、幅広いシナリオを捉えているダッシュカムビデオと比較して、量と多様性の両方に制限がある。
ダッシュカムビデオは、しばしばフロントガラスの反射や閉塞などの深刻な障害に悩まされ、ニューラルレンダリング技術の適用を著しく阻害する。
この課題に対処するため,最近のリアルタイムニューラルネットワーク技術である3D Gaussian Splatting(3DGS)に基づくDC-Gaussianを開発した。
提案手法は、反射や閉塞を統一的にモデル化するための適応的な画像分解モジュールを含む。
さらに,照明条件の異なる反射や閉塞を管理するために照明認識閉塞モデルを導入する。
最後に、幾何誘導型ガウス拡張戦略を用いて、追加の幾何事前を組み込むことで、レンダリングの詳細を改善する。
自撮り及び公開ダッシュカムビデオ実験により,本手法は新規な視点合成における最先端性能を実現するだけでなく,障害物を除去して撮影シーンを正確に再構築することを示した。
We present DC-Gaussian, a new method for generating novel views from in-vehicle dash cam videos. While neural rendering techniques have made significant strides in driving scenarios, existing methods are primarily designed for videos collected by autonomous vehicles. However, these videos are limited in both quantity and diversity compared to dash cam videos, which are more widely used across various types of vehicles and capture a broader range of scenarios. Dash cam videos often suffer from severe obstructions such as reflections and occlusions on the windshields, which significantly impede the application of neural rendering techniques. To address this challenge, we develop DC-Gaussian based on the recent real-time neural rendering technique 3D Gaussian Splatting (3DGS). Our approach includes an adaptive image decomposition module to model reflections and occlusions in a unified manner. Additionally, we introduce illumination-aware obstruction modeling to manage reflections and occlusions under varying lighting conditions. Lastly, we employ a geometry-guided Gaussian enhancement strategy to improve rendering details by incorporating additional geometry priors. Experiments on self-captured and public dash cam videos show that our method not only achieves state-of-the-art performance in novel view synthesis, but also accurately reconstructing captured scenes getting rid of obstructions. | 翻訳日:2024-05-29 22:51:42 公開日:2024-05-27 |
# アライメント付きビデオキャプションを用いたビデオ強化検索生成
Video Enriched Retrieval Augmented Generation Using Aligned Video Captions ( http://arxiv.org/abs/2405.17706v1 ) ライセンス: Link先を確認 | Kevin Dela Rosa, | (参考訳) 本研究では,ビデオ内に含まれる情報をRAGベースのチャットアシスタントシステムに統合するためのメカニズムとして,アライメント型視覚キャプションを提案する。
これらのキャプションは、大きなコーパス内のビデオの視覚的および音声的内容を記述することができるが、大きな言語モデル(LLM)のプロンプトに推論および組み込むのが容易なテキスト形式の利点がある。
さらに、視覚的キャプションは、元の基礎モデル/キャプタに特定の視覚的詳細や微調整を促すことで、特定のユースケースに適応することができる。
この領域の進歩を支援するために、データセットをキュレートし、一般的なRAGタスクの自動評価手順を記述する。
In this work, we propose the use of "aligned visual captions" as a mechanism for integrating information contained within videos into retrieval augmented generation (RAG) based chat assistant systems. These captions are able to describe the visual and audio content of videos in a large corpus while having the advantage of being in a textual format that is both easy to reason about & incorporate into large language model (LLM) prompts, but also typically require less multimedia content to be inserted into the multimodal LLM context window, where typical configurations can aggressively fill up the context window by sampling video frames from the source video. Furthermore, visual captions can be adapted to specific use cases by prompting the original foundational model / captioner for particular visual details or fine tuning. In hopes of helping advancing progress in this area, we curate a dataset and describe automatic evaluation procedures on common RAG tasks. | 翻訳日:2024-05-29 22:51:42 公開日:2024-05-27 |
# OPERA:複数推定器の再重み付けによるオフラインポリシー自動評価
OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators ( http://arxiv.org/abs/2405.17708v1 ) ライセンス: Link先を確認 | Allen Nie, Yash Chandak, Christina J. Yuan, Anirudhan Badrinath, Yannis Flet-Berliac, Emma Brunskil, | (参考訳) オフライン政策評価(OPE)により、他の政策から収集された過去のインタラクションデータを活用することで、新たなシーケンシャルな意思決定政策のパフォーマンスを評価し、評価することができる。
オンライン上での新たなポリシーの評価は、特に教育や医療において、そのパフォーマンスを自信を持って見積もることなく、費用がかかる、安全でない、あるいは有害な結果をもたらす可能性がある。
過去10年間にいくつかのOPE推定器が提案され、その多くがハイパーパラメータを持ち、訓練を必要とする。
残念ながら、各タスクとドメインに最適なOPEアルゴリズムを選択することは、まだ不明である。
本稿では,統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々は,我々の推定器が一貫したものであり,政策評価に望ましいいくつかの特性を満たすことを証明した。
さらに、代替手法と比較して、我々の推定器は、医療やロボティクスにおけるより高いパフォーマンスのポリシーを選択するのに利用できることを示した。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
Offline policy evaluation (OPE) allows us to evaluate and estimate a new sequential decision-making policy's performance by leveraging historical interaction data collected from other policies. Evaluating a new policy online without a confident estimate of its performance can lead to costly, unsafe, or hazardous outcomes, especially in education and healthcare. Several OPE estimators have been proposed in the last decade, many of which have hyperparameters and require training. Unfortunately, choosing the best OPE algorithm for each task and domain is still unclear. In this paper, we propose a new algorithm that adaptively blends a set of OPE estimators given a dataset without relying on an explicit selection using a statistical procedure. We prove that our estimator is consistent and satisfies several desirable properties for policy evaluation. Additionally, we demonstrate that when compared to alternative approaches, our estimator can be used to select higher-performing policies in healthcare and robotics. Our work contributes to improving ease of use for a general-purpose, estimator-agnostic, off-policy evaluation framework for offline RL. | 翻訳日:2024-05-29 22:51:42 公開日:2024-05-27 |
# CECILIA: 総合的なセキュア機械学習フレームワーク
CECILIA: Comprehensive Secure Machine Learning Framework ( http://arxiv.org/abs/2202.03023v3 ) ライセンス: Link先を確認 | Ali Burak Ünal, Nico Pfeifer, Mete Akgün, | (参考訳) MLアルゴリズムは多くの異なるアプリケーションで成功を証明しているため、機密データ上にモデルを構築するためのプライバシ保護(PP)MLメソッドにも大きな関心がある。
さらに、これらのアルゴリズムが必要とするデータソースの数の増加と高い計算能力により、個人は機械学習モデルのトレーニングおよび/または推論を、そのようなサービスを提供するクラウドにアウトソースせざるを得なくなる。
そこで我々は,複雑な操作をプライベートに行えるPPビルディングブロックを提供するセキュアな3要素計算フレームワークであるCECILIAを提案する。
加算や乗算のような適応的で一般的な操作に加えて、多重化、最も重要なビット、およびモジュラー変換を提供する。
最初の2つは方法論に関して斬新であり、最後の1つは機能と方法論の両方に関して斬新である。
CECILIAはまた、2つの複雑な新しい方法を持ち、これは秘密のグラム行列の秘密の値と逆の平方根の力に引き上げられた公開基底の正確な指数関数である。
我々はCECILIAを用いて、他のほとんどのDNNよりも複雑な操作を必要とする事前訓練されたRKNに対するプライベート推論を実現し、RKNに対するPP推論を初めて達成した研究としてタンパク質の構造分類を行った。
基本構成ブロックのプライベートな計算が成功したことに加えて、これまでの文献で近似された完全かつ完全なプライベートな指数計算を行うことが実証された。
さらに、秘密のグラム行列の正逆平方根を特定のプライバシーレベルまで計算することを示したが、これは文献では触れられていない。
また、CECILIAのスケーラビリティを合成データセット上で様々な設定に解析する。
このフレームワークは、他のMLアルゴリズムと、フレームワークのビルディングブロックによってプライベートに計算可能なさらなる計算を可能にすることを約束している。
Since ML algorithms have proven their success in many different applications, there is also a big interest in privacy preserving (PP) ML methods for building models on sensitive data. Moreover, the increase in the number of data sources and the high computational power required by those algorithms force individuals to outsource the training and/or the inference of a ML model to the clouds providing such services. To address this, we propose a secure 3-party computation framework, CECILIA, offering PP building blocks to enable complex operations privately. In addition to the adapted and common operations like addition and multiplication, it offers multiplexer, most significant bit and modulus conversion. The first two are novel in terms of methodology and the last one is novel in terms of both functionality and methodology. CECILIA also has two complex novel methods, which are the exact exponential of a public base raised to the power of a secret value and the inverse square root of a secret Gram matrix. We use CECILIA to realize the private inference on pre-trained RKNs, which require more complex operations than most other DNNs, on the structural classification of proteins as the first study ever accomplishing the PP inference on RKNs. In addition to the successful private computation of basic building blocks, the results demonstrate that we perform the exact and fully private exponential computation, which is done by approximation in the literature so far. Moreover, they also show that we compute the exact inverse square root of a secret Gram matrix up to a certain privacy level, which has not been addressed in the literature at all. We also analyze the scalability of CECILIA to various settings on a synthetic dataset. The framework shows a great promise to make other ML algorithms as well as further computations privately computable by the building blocks of the framework. | 翻訳日:2024-05-29 13:05:39 公開日:2024-05-27 |
# セルフトレーニング: 調査
Self-Training: A Survey ( http://arxiv.org/abs/2202.12040v5 ) ライセンス: Link先を確認 | Massih-Reza Amini, Vasilii Feofanov, Loic Pauletto, Lies Hadjadj, Emilie Devijver, Yury Maximov, | (参考訳) 半教師付きアルゴリズムは、ラベル付き観測の小さなセットとラベルなし観測の大きなセットから予測関数を学習することを目的としている。
このフレームワークは多くのアプリケーションに関係しているため、学術と産業の両方に多くの関心が寄せられている。
近年,自己学習手法が注目されていることは確かである。
これらのモデルは、データ分布について追加の仮定をすることなく、低密度領域における決定境界を見つけ、学習した分類器の符号なし出力スコアまたはそのマージンを信頼の指標として使用するように設計されている。
自己学習アルゴリズムの動作原理は、ある閾値より大きいラベル付きトレーニングサンプルの集合に擬似ラベルを割り当てることで、分類器を反復的に学習することである。
次に、擬似ラベル付きサンプルを使用してラベル付きトレーニングデータを強化し、ラベル付きトレーニングセットとともに新しい分類器をトレーニングする。
本稿では,二分法と多クラス分類のための自己学習手法,およびそれらの変種と関連する2つのアプローチ,すなわち一貫性に基づくアプローチとトランスダクティブ学習を提案する。
本稿では,様々な手法における有意な自己学習機能の影響を,様々な一般・画像分類ベンチマークを用いて検討し,今後の自己学習研究のアイデアについて考察する。
私たちの知る限りでは、この問題に関する完全な調査はこれが初めてです。
Semi-supervised algorithms aim to learn prediction functions from a small set of labeled observations and a large set of unlabeled observations. Because this framework is relevant in many applications, they have received a lot of interest in both academia and industry. Among the existing techniques, self-training methods have undoubtedly attracted greater attention in recent years. These models are designed to find the decision boundary on low density regions without making additional assumptions about the data distribution, and use the unsigned output score of a learned classifier, or its margin, as an indicator of confidence. The working principle of self-training algorithms is to learn a classifier iteratively by assigning pseudo-labels to the set of unlabeled training samples with a margin greater than a certain threshold. The pseudo-labeled examples are then used to enrich the labeled training data and to train a new classifier in conjunction with the labeled training set. In this paper, we present self-training methods for binary and multi-class classification; as well as their variants and two related approaches, namely consistency-based approaches and transductive learning. We examine the impact of significant self-training features on various methods, using different general and image classification benchmarks, and we discuss our ideas for future research in self-training. To the best of our knowledge, this is the first thorough and complete survey on this subject. | 翻訳日:2024-05-29 13:05:39 公開日:2024-05-27 |
# 2+1)次元ミンコフスキー時空における円軌道上の単一および絡み合った検出器の放射過程
Radiative processes of single and entangled detectors on circular trajectories in (2+1) dimensional Minkowski spacetime ( http://arxiv.org/abs/2205.01305v3 ) ライセンス: Link先を確認 | Subhajit Barman, Bibhas Ranjan Majhi, L. Sriramkumar, | (参考訳) 本研究では,2次元ミンコフスキー時空において円軌道上を移動する2つの絡み合ったウンルー・デウィット検出器の放射過程について検討する。
検出器は、質量のない量子スカラー場に結合し、ミンコフスキー真空中および熱浴中における検出器の遷移確率を計算していると仮定する。
また、ガウススイッチング関数の助けを借りて有限時間間隔でスイッチオンした場合の検出器の遷移確率率を評価する。
2つの絡み合った検出器の場合を考える前に、1つの検出器の応答を調べることから始めます。
このように、$(2+1)$の時空次元で作業することで、検出器の遷移確率率の計算が比較的簡単になる。
2つの絡み合った検出器のクロストランジション確率は、個々の検出器のオートトランジション確率率に匹敵する可能性がある。
本稿では, 係り受け検出器の応答特性について, パラメータの異なる値について検討し, 温度浴の影響と, 有限時間間隔での検出器の切替について述べる。
We investigate the radiative processes involving two entangled Unruh-DeWitt detectors that are moving on circular trajectories in $(2+1)$-dimensional Minkowski spacetime. We assume that the detectors are coupled to a massless, quantum scalar field, and calculate the transition probability rates of the detectors in the Minkowski vacuum as well as in a thermal bath. We also evaluate the transition probability rates of the detectors when they are switched on for a finite time interval with the aid of a Gaussian switching function. We begin by examining the response of a single detector before we go on to consider the case of two entangled detectors. As we shall see, working in $(2+1)$ spacetime dimensions makes the computations of the transition probability rates of the detectors relatively simpler. We find that the cross transition probability rates of the two entangled detectors can be comparable to the auto transition probability rates of the individual detectors. We discuss specific characteristics of the response of the entangled detectors for different values of the parameters involved and highlight the effects of the thermal bath as well as switching on the detector for a finite time interval. | 翻訳日:2024-05-29 13:05:39 公開日:2024-05-27 |
# 確率的・動的リリース日数によるオリエンテーリング問題に対する強化学習アプローチ
Reinforcement Learning Approaches for the Orienteering Problem with Stochastic and Dynamic Release Dates ( http://arxiv.org/abs/2207.00885v3 ) ライセンス: Link先を確認 | Yuanyuan Li, Claudia Archetti, Ivana Ljubic, | (参考訳) 本稿では,中央駅から車両をいつ発送して顧客の要望に答えるか,どのようにサービス提供をするかという,電子商取引事業者が直面する一連の意思決定問題について,施設に到着する時刻が確率的かつ動的であることを前提として検討する。
目的は、サービス時間中に配信される予定のパーセル数を最大化することです。
本稿では,この問題を解決するための2つの強化学習手法を提案する。
これらのアプローチは、将来のリリース日をモンテカルロ方式でサンプリングし、バッチアプローチを使用して将来のルートを近似するルックアヘッド戦略に依存している。
どちらのRLアプローチも値関数近似に基づいており、1つはコンセンサス関数(VFA-CF)、もう1つは2段階確率整数線形計画モデル(VFA-2S)と組み合わせている。
VFA-CFとVFA-2Sは、非常に少数のハイパーパラメータに基づいており、決定の質を改善するために整数線形プログラミング(ILP)と分岐とカットに基づく正確な手法をうまく活用しているため、広範なトレーニングを必要としない。
また、最適政策の部分的評価のための十分な条件を確立し、VFA-CF/VFA-2Sに統合する。
実証実験では,完全情報を用いた上界を用いた競合解析を行った。
また、VFA-CFとVFA-2Sは、以下の方法よりも大幅に優れていることを示す。
1)将来の情報に依存しない、又は
2)将来の情報の点推定に基づくもの
3)正確な方法よりもヒューリスティックスを採用するか、
4) 将来の報酬の正確な評価をすること。
In this paper, we study a sequential decision-making problem faced by e-commerce carriers related to when to send out a vehicle from the central depot to serve customer requests, and in which order to provide the service, under the assumption that the time at which parcels arrive at the depot is stochastic and dynamic. The objective is to maximize the expected number of parcels that can be delivered during service hours. We propose two reinforcement learning (RL) approaches for solving this problem. These approaches rely on a look-ahead strategy in which future release dates are sampled in a Monte-Carlo fashion and a batch approach is used to approximate future routes. Both RL approaches are based on value function approximation - one combines it with a consensus function (VFA-CF) and the other one with a two-stage stochastic integer linear programming model (VFA-2S). VFA-CF and VFA-2S do not need extensive training as they are based on very few hyper-parameters and make good use of integer linear programming (ILP) and branch-and-cut-based exact methods to improve the quality of decisions. We also establish sufficient conditions for partial characterization of optimal policy and integrate them into VFA-CF/VFA-2S. In an empirical study, we conduct a competitive analysis using upper bounds with perfect information. We also show that VFA-CF and VFA-2S greatly outperform alternative approaches that: 1) do not rely on future information, or 2) are based on point estimation of future information, or 3) employ heuristics rather than exact methods, or 4) use exact evaluations of future rewards. | 翻訳日:2024-05-29 12:57:42 公開日:2024-05-27 |
# 相関ラムゼー計測による低周波信号検出
Low frequency signal detection via correlated Ramsey measurements ( http://arxiv.org/abs/2209.10466v2 ) ライセンス: Link先を確認 | Santiago Oviedo-Casado, Javier Prior, Javier Cerrillo, | (参考訳) スペクトルの低周波領域は、量子プローブにとって困難な状態である。
本稿では,各測定開始時刻を注意深く制御するラムゼイ測定が優れた信号検出戦略であるという考えを支持する。
我々は、フィッシャー情報を用いて、より精巧な測定シーケンスと比較して、低周波状態における高品質な性能を示すとともに、任意の実験パラメータに従って相関ラムジーシーケンスを最適化し、相関ラムジーが最先端プロトコルと競合し、低周波信号の検出において動的デカップリングなどの一般的なシーケンスよりも優れていることを示す。
信号の発振のための典型的な量子検出プロトコルは、パルス間の時間分離を調整して目標信号のハーフ周期を一致させ、その結果、プローブの特徴的なデコヒーレンス時間よりも周期が短い信号や、ターゲットが主に静的信号であるプロトコルに制限されるのに対して、タイムタグ付き相関したラムゼーシーケンスは、周波数に関係なく、ターゲット信号の振幅と位相情報を同時に追跡する。
The low frequency region of the spectrum is a challenging regime for quantum probes. We support the idea that, in this regime, performing Ramsey measurements carefully controlling the time at which each measurement is initiated is an excellent signal detection strategy. We use the Fisher information to demonstrate a high quality performance in the low frequency regime, compared to more elaborated measurement sequences, and to optimise the correlated Ramsey sequence according to any given experimental parameters, showing that correlated Ramsey rivals with state-of-the-art protocols, and can even outperform commonly employed sequences such as dynamical decoupling in the detection of low frequency signals. Contrary to typical quantum detection protocols for oscillating signals, which require adjusting the time separation between pulses to match the half period of the target signal, and consequently see their scope limited to signals whose period is shorter than the characteristic decoherence time of the probe, or to those protocols whose target is primarily static signals, the time-tagged correlated Ramsey sequence simultaneously tracks the amplitude and the phase information of the target signal, regardless of its frequency, which crucially permits correlating measurements in post-processing, leading to efficient spectral reconstruction. | 翻訳日:2024-05-29 12:57:42 公開日:2024-05-27 |
# 0-1多次元クナップサック問題の探索空間の探索と探索
Finding and Exploring Promising Search Space for the 0-1 Multidimensional Knapsack Problem ( http://arxiv.org/abs/2210.03918v3 ) ライセンス: Link先を確認 | Jitao Xu, Hongbo Li, Minghao Yin, | (参考訳) 0-1 Multidimensional Knapsack Problem (MKP) は古典的なNPハード組合せ最適化問題である。
本稿では,0-1 MKPを解くために,進化計算と正確なアルゴリズムを組み合わせた新しいアルゴリズムを提案する。
一連のソリューションを維持し、人口の情報を利用して、優れた部分的な割り当てを抽出する。
高品質な解を見つけるために、優れた部分代入によって指定された有望な探索空間を探索するために正確なアルゴリズムを適用した。
新しいソリューションは人口を更新するために使われます。
このように、良い部分的な割り当ては、人口の改善とともに、より良い方向に向かって進化する。
一般的なベンチマークセットによる大規模な実験により、我々のアルゴリズムは最先端のヒューリスティックアルゴリズムであるPTEAとDQPSO、および商用の解法であるCPlexよりも優れていることが示された。
既存のアルゴリズムよりも優れた解を見つけ、大規模で難しい10のインスタンスに新しい下位境界を提供する。
The 0-1 Multidimensional Knapsack Problem (MKP) is a classical NP-hard combinatorial optimization problem with many engineering applications. In this paper, we propose a novel algorithm combining evolutionary computation with the exact algorithm to solve the 0-1 MKP. It maintains a set of solutions and utilizes the information from the population to extract good partial assignments. To find high-quality solutions, an exact algorithm is applied to explore the promising search space specified by the good partial assignments. The new solutions are used to update the population. Thus, the good partial assignments evolve towards a better direction with the improvement of the population. Extensive experimentation with commonly used benchmark sets shows that our algorithm outperforms the state-of-the-art heuristic algorithms, TPTEA and DQPSO, as well as the commercial solver CPlex. It finds better solutions than the existing algorithms and provides new lower bounds for 10 large and hard instances. | 翻訳日:2024-05-29 12:57:42 公開日:2024-05-27 |
# フェデレーション学習における局所モデル再構築攻撃とその利用
Local Model Reconstruction Attacks in Federated Learning and their Uses ( http://arxiv.org/abs/2210.16205v3 ) ライセンス: Link先を確認 | Ilias Driouich, Chuan Xu, Giovanni Neglia, Frederic Giroire, Eoin Thomas, | (参考訳) そこで,本研究では,対象のクライアントとサーバ間で交わされたメッセージを,真に反逆的な相手が盗聴し,被害者の局所的・個人的モデルを再構築する,フェデレーション学習のための局所モデル再構築攻撃について検討する。
ローカルモデル再構築攻撃は、ローカルモデルがクライアントのデータにのみ依存し、サーバが学習したグローバルモデルよりも多くのプライベート情報をリークできるため、敵が他の古典的攻撃をより効果的にトリガーすることを可能にする。
さらに,局所モデル再構成攻撃を利用したフェデレーション学習におけるモデルに基づく属性推論攻撃を提案する。
この属性推論攻撃の解析的低バウンドを提供する。
実世界のデータセットを用いた実証実験の結果、我々の局所的再構築攻撃は回帰と分類の両方に有効であることを確認した。
さらに,フェデレート学習における最先端攻撃に対する新たな属性推論攻撃のベンチマークを行った。
我々の攻撃は、特にクライアントのデータセットが不均一である場合に、高い再構成精度をもたらす。
我々の研究は、FLのプライバシーリスクを効果的に定量化するために、強力で説明可能な攻撃を設計するための新しい角度を提供する。
In this paper, we initiate the study of local model reconstruction attacks for federated learning, where a honest-but-curious adversary eavesdrops the messages exchanged between a targeted client and the server, and then reconstructs the local/personalized model of the victim. The local model reconstruction attack allows the adversary to trigger other classical attacks in a more effective way, since the local model only depends on the client's data and can leak more private information than the global model learned by the server. Additionally, we propose a novel model-based attribute inference attack in federated learning leveraging the local model reconstruction attack. We provide an analytical lower-bound for this attribute inference attack. Empirical results using real world datasets confirm that our local reconstruction attack works well for both regression and classification tasks. Moreover, we benchmark our novel attribute inference attack against the state-of-the-art attacks in federated learning. Our attack results in higher reconstruction accuracy especially when the clients' datasets are heterogeneous. Our work provides a new angle for designing powerful and explainable attacks to effectively quantify the privacy risk in FL. | 翻訳日:2024-05-29 12:57:42 公開日:2024-05-27 |
# 近似複素振幅符号化アルゴリズムとそのデータ分類問題への応用
Approximate complex amplitude encoding algorithm and its application to data classification problems ( http://arxiv.org/abs/2211.13039v3 ) ライセンス: Link先を確認 | Naoki Mitsuda, Tatsuhiro Ichimura, Kouhei Nakaji, Yohichi Suzuki, Tomoki Tanaka, Rudy Raymond, Hiroyuki Tezuka, Tamiya Onodera, Naoki Yamamoto, | (参考訳) 量子コンピューティングは、特に機械学習において、量子干渉のような特別な特徴を利用することで、データ処理効率を加速する可能性がある。
この応用の大きな課題は、一般に古典的なデータベクトルを量子状態にロードするタスクは指数的な数の量子ゲートを必要とすることである。
量子状態の振幅に与えられた実数値データベクトルを大まかにロードする変動手段を用いた近似振幅符号化(AAE)法は,近距離デバイスを中心にこの問題に対する一般的なアプローチとして最近提案されている。
しかし、AEは複雑な値を持つデータベクトルをロードできないため、アプリケーションの範囲は狭くなる。
本研究では, AAEを拡張して, 複素数値データベクトルを扱えるようにする。
鍵となる考え方は、パラメータ化された量子回路を最適化するためのコスト関数として忠実度距離を利用することであり、そこでは古典的なシャドウ手法を用いて、忠実度とその勾配を効率的に推定する。
このアルゴリズムを用いて、コンパクトなアダマール分類器と呼ばれる複雑なカーネルバイナリ分類器を実現し、Irisデータセットの分類とクレジットカード不正検出を可能にする数値実験を行う。
Quantum computing has a potential to accelerate the data processing efficiency, especially in machine learning, by exploiting special features such as the quantum interference. The major challenge in this application is that, in general, the task of loading a classical data vector into a quantum state requires an exponential number of quantum gates. The approximate amplitude encoding (AAE) method, which uses a variational means to approximately load a given real-valued data vector into the amplitude of a quantum state, was recently proposed as a general approach to this problem mainly for near-term devices. However, AAE cannot load a complex-valued data vector, which narrows its application range. In this work, we extend AAE so that it can handle a complex-valued data vector. The key idea is to employ the fidelity distance as a cost function for optimizing a parameterized quantum circuit, where the classical shadow technique is used to efficiently estimate the fidelity and its gradient. We apply this algorithm to realize the complex-valued-kernel binary classifier called the compact Hadamard classifier, and then give a numerical experiment showing that it enables classification of Iris dataset and credit card fraud detection. | 翻訳日:2024-05-29 12:57:42 公開日:2024-05-27 |
# EDEFuzz: 過剰なデータ公開のためのWeb APIファズー
EDEFuzz: A Web API Fuzzer for Excessive Data Exposures ( http://arxiv.org/abs/2301.09258v2 ) ライセンス: Link先を確認 | Lianglu Pan, Shaanan Cohney, Toby Murray, Van-Thuan Pham, | (参考訳) APIはしばしば、必要以上に多くのデータをクライアントアプリケーションに送信します。
Excessive Data Exposure (EDE)と呼ばれるこの問題は、2019年のOWASPで3番目に重大なAPI脆弱性だった。
しかしながら、そのような問題を効果的に発見し、修正する自動化ツール(研究または業界)は、ほとんどありません。
脆弱性は明示的な異常な動作(例えば、プログラムのクラッシュやメモリアクセス違反)を通じて現れない。
本研究では,その課題に取り組むためのメタモルフィック関係を構築し,EDEFuzzと呼ばれる最初のファジィツールを構築して,EDEを体系的に検出する。
EDEFuzzは、現在の最も使われているアプローチである手動検査やアドホックテキストマッチング技術で発生する偽陰性を大幅に低減することができる。
EDEFuzzを、Alexa Top-200から適用可能な609のターゲットに対してテストし、33,365の潜在的なリークを発見しました。
オーストラリアの8つの人気ウェブサイトのより厳密な制御実験において、EDEFuzzは98.65%という真の正の確率を最小構成で達成し、ツールの正確さと効率性を実証した。
APIs often transmit far more data to client applications than they need, and in the context of web applications, often do so over public channels. This issue, termed Excessive Data Exposure (EDE), was OWASP's third most significant API vulnerability of 2019. However, there are few automated tools -- either in research or industry -- to effectively find and remediate such issues. This is unsurprising as the problem lacks an explicit test oracle: the vulnerability does not manifest through explicit abnormal behaviours (e.g., program crashes or memory access violations). In this work, we develop a metamorphic relation to tackle that challenge and build the first fuzzing tool -- that we call EDEFuzz -- to systematically detect EDEs. EDEFuzz can significantly reduce false negatives that occur during manual inspection and ad-hoc text-matching techniques, the current most-used approaches. We tested EDEFuzz against the sixty-nine applicable targets from the Alexa Top-200 and found 33,365 potential leaks -- illustrating our tool's broad applicability and scalability. In a more-tightly controlled experiment of eight popular websites in Australia, EDEFuzz achieved a high true positive rate of 98.65% with minimal configuration, illustrating our tool's accuracy and efficiency. | 翻訳日:2024-05-29 12:47:48 公開日:2024-05-27 |
# オンライン密度比推定による連続共変量シフトへの適応
Adapting to Continuous Covariate Shift via Online Density Ratio Estimation ( http://arxiv.org/abs/2302.02552v2 ) ライセンス: Link先を確認 | Yu-Jie Zhang, Zhen-Yu Zhang, Peng Zhao, Masashi Sugiyama, | (参考訳) 分散シフトへの対処は、現代の機械学習における中心的な課題の1つだ。
1つの基本的な状況は共変量シフトであり、入力条件の出力分布が変わらない間、データの入力分布がトレーニングからテスト段階に変化する。
本稿では,テストデータが連続的に出現し,その分布が連続的に変化する,より困難なシナリオである連続共変シフトの研究を開始する。
我々の目標は、予測者が時間とともに蓄積される予測リスクを最小限に抑えるように、適応的に予測者を訓練することである。
重み付け学習から始めると、テストと列車の入力の時間変化密度比を正確に推定できる場合、効果的に機能することを示す。
しかし、既存の密度比推定法は各時点におけるデータ不足により失敗する。
そこで本稿では,過去の情報を適切に再利用するオンライン手法を提案する。
我々の密度比推定法は, 動的リフレッシュバウンドを楽しみ, 最終的に予測器の過大なリスク保証につながることが証明された。
実証的な結果も有効性を検証する。
Dealing with distribution shifts is one of the central challenges for modern machine learning. One fundamental situation is the covariate shift, where the input distributions of data change from training to testing stages while the input-conditional output distribution remains unchanged. In this paper, we initiate the study of a more challenging scenario -- continuous covariate shift -- in which the test data appear sequentially, and their distributions can shift continuously. Our goal is to adaptively train the predictor such that its prediction risk accumulated over time can be minimized. Starting with the importance-weighted learning, we show the method works effectively if the time-varying density ratios of test and train inputs can be accurately estimated. However, existing density ratio estimation methods would fail due to data scarcity at each time step. To this end, we propose an online method that can appropriately reuse historical information. Our density ratio estimation method is proven to perform well by enjoying a dynamic regret bound, which finally leads to an excess risk guarantee for the predictor. Empirical results also validate the effectiveness. | 翻訳日:2024-05-29 12:47:48 公開日:2024-05-27 |
# ChatIE: ChatGPTとのチャットによるゼロショット情報抽出
ChatIE: Zero-Shot Information Extraction via Chatting with ChatGPT ( http://arxiv.org/abs/2302.10205v2 ) ライセンス: Link先を確認 | Xiang Wei, Xingyu Cui, Ning Cheng, Xiaobin Wang, Xin Zhang, Shen Huang, Pengjun Xie, Jinan Xu, Yufeng Chen, Meishan Zhang, Yong Jiang, Wenjuan Han, | (参考訳) ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。
人間の介入がほとんどないため、これは難しい。
価値はあるものの、ゼロショットIEはデータのラベル付けにかかる時間と労力を減らす。
大規模言語モデル(LLMs, GPT-3, ChatGPT)に対する最近の取り組みは、ゼロショット設定における有望なパフォーマンスを示しており、プロンプトベースの手法を探求するきっかけとなっている。
本研究では,LLMを直接的に推進することで,強力なIEモデルを構築できるかどうかを問う。
具体的には、ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
本稿では,ChatGPTの力により,エンティティリレーショナルトリプル抽出,名前付きエンティティ認識,イベント抽出という,3つのIEタスクのフレームワークを広範囲に評価する。
2つの言語にわたる6つのデータセットの実証的な結果から、ChatIEは印象的なパフォーマンスを実現し、いくつかのデータセット(例えばNYT11-HRL)のフルショットモデルを超えている。
私たちは、限られたリソースでIEモデルを構築することに注力できると考えています。
Zero-shot information extraction (IE) aims to build IE systems from the unannotated text. It is challenging due to involving little human intervention. Challenging but worthwhile, zero-shot IE reduces the time and effort that data labeling takes. Recent efforts on large language models (LLMs, e.g., GPT-3, ChatGPT) show promising performance on zero-shot settings, thus inspiring us to explore prompt-based methods. In this work, we ask whether strong IE models can be constructed by directly prompting LLMs. Specifically, we transform the zero-shot IE task into a multi-turn question-answering problem with a two-stage framework (ChatIE). With the power of ChatGPT, we extensively evaluate our framework on three IE tasks: entity-relation triple extract, named entity recognition, and event extraction. Empirical results on six datasets across two languages show that ChatIE achieves impressive performance and even surpasses some full-shot models on several datasets (e.g., NYT11-HRL). We believe that our work could shed light on building IE models with limited resources. | 翻訳日:2024-05-29 12:47:48 公開日:2024-05-27 |
# SUNY: 必要かつ十分の観点からの畳み込みニューラルネットワークの視覚的解釈フレームワーク
SUNY: A Visual Interpretation Framework for Convolutional Neural Networks from a Necessary and Sufficient Perspective ( http://arxiv.org/abs/2303.00244v3 ) ライセンス: Link先を確認 | Xiwei Xuan, Ziquan Deng, Hsuan-Tien Lin, Zhaodan Kong, Kwan-Liu Ma, | (参考訳) 研究者たちは、CAM(Class-Activation-Map)ベースのアプローチを主要なファミリーとして含む、サリエンシマップを通じて、畳み込みニューラルネットワーク(CNN)を視覚的に解釈する様々な方法を提案している。
しかしながら、内部設計の論理の観点からは、既存のCAMベースのアプローチは、人間が説明を理解するのを助けるために、中核的な「なぜ」疑問に答える因果的な視点をしばしば見落としている。
さらに、現在のCNNの説明には、望ましい説明の2つの相補的な側面である必要と十分性の両方について考慮されていない。
本稿では,より優れた人間の理解に向けた説明を合理化するための因果関係駆動型フレームワークSUNYを提案する。
CNNモデルの入力特徴や内部フィルタを仮説的原因として用いて、SUNYは必要な視点と十分な視点の両方について双方向の定量化による説明を生成する。
広範な評価は、SUNYが必要と十分性の角度からより情報的で説得力のある説明を生成するだけでなく、ILSVRC2012やCUB-200-2011を含む大規模データセットよりも、さまざまなCNNアーキテクチャをまたいだ他のアプローチと競合するパフォーマンスを達成することを正当化している。
Researchers have proposed various methods for visually interpreting the Convolutional Neural Network (CNN) via saliency maps, which include Class-Activation-Map (CAM) based approaches as a leading family. However, in terms of the internal design logic, existing CAM-based approaches often overlook the causal perspective that answers the core "why" question to help humans understand the explanation. Additionally, current CNN explanations lack the consideration of both necessity and sufficiency, two complementary sides of a desirable explanation. This paper presents a causality-driven framework, SUNY, designed to rationalize the explanations toward better human understanding. Using the CNN model's input features or internal filters as hypothetical causes, SUNY generates explanations by bi-directional quantifications on both the necessary and sufficient perspectives. Extensive evaluations justify that SUNY not only produces more informative and convincing explanations from the angles of necessity and sufficiency, but also achieves performances competitive to other approaches across different CNN architectures over large-scale datasets, including ILSVRC2012 and CUB-200-2011. | 翻訳日:2024-05-29 12:47:48 公開日:2024-05-27 |
# 複素離散化近似による開放系の正確な力学への効果的なハミルトン的アプローチ
Effective Hamiltonian approach to the exact dynamics of open system by complex discretization approximation for environment ( http://arxiv.org/abs/2303.06584v4 ) ライセンス: Link先を確認 | H. T. Cui, Y. A. Yan, M. Qin, X. X. Yi, | (参考訳) 離散化近似法は連続体における環境に結合した系の開力学をシミュレーションするのによく用いられる。
この問題に対処するために,複素ガウス二次数を用いた複素平面における離散化近似法を正規に一般化する手法を提案する。
有効ハミルトニアンは非エルミート的であり、負の虚部を持つ複素エネルギーモードを示し、系の散逸ダイナミクスを正確に記述する。
この手法は、2つの正確に解けるモデルの力学、すなわち、Aubry-Andr\'{e}-Harper モデルにおけるdephasingモデルと単一励起開ダイナミクスを調べるために応用される。
このアプローチは、再帰性を著しく低減し、計算の有効性を向上させるだけでなく、効果的なハミルトニアンによるシステムの力学に関する顕微鏡的な視点も提供する。
また、計算におけるパラメータと評価の有効性の単純な関係も確立した。
The discretization approximation method commonly used to simulate the open dynamics of system coupled to the environment in continuum often suffers from the recurrence. To address this issue, this paper proposes a noval generalization of the discretization approximation method in the complex plane using complex Gauss quadratures. The effective Hamiltonian can be constructed by this way, which is non-Hermitian and demonstrates the complex energy modes with negative imaginary part, describing accurately the dissipative dynamics of the system. This method is applied to examine the dynamics in two exactly solvable models: the dephasing model and the single-excitation open dynamics in the Aubry-Andr\'{e}-Harper model. This approach not only significantly reduces recurrence and improve the effectiveness of calculation, but also provide the microscopic viewpoint on the dynamics of system through the effective Hamiltonian. In addition, a simple relationship between the parameters in computation and the effectiveness of evaluation is also established. | 翻訳日:2024-05-29 12:47:48 公開日:2024-05-27 |
# 多次元時系列異常検出による極端モデルからのフェデレーション学習の保護
Protecting Federated Learning from Extreme Model Poisoning Attacks via Multidimensional Time Series Anomaly Detection ( http://arxiv.org/abs/2303.16668v2 ) ライセンス: Link先を確認 | Edoardo Gabrielli, Dimitri Belli, Vittorio Miori, Gabriele Tolomei, | (参考訳) FLシステムにおけるモデル中毒に対する現在の防御機構は、悪意のあるクライアントのしきい値まで有効であることが証明されている。
本研究では,FLの大規模モデル中毒に対する耐性を示す新しいプレアグリゲーションフィルタであるFLANDERSを紹介する。
FLANDERSは各FLラウンドのクライアントが送信するローカルモデルのシーケンスを行列値の時系列として扱う。
そして、サーバが管理する行列自己回帰予測モデルによって生成された推定値と実際の観測結果を比較して、悪意のあるクライアント更新を、この時系列における外れ値として特定する。
FLANDERSは、FLANDERSが標準およびロバストな既存のアグリゲーション手法と組み合わせることで、幅広い攻撃範囲にわたるロバスト性を大幅に向上することを示す。
Current defense mechanisms against model poisoning attacks in federated learning (FL) systems have proven effective up to a certain threshold of malicious clients. In this work, we introduce FLANDERS, a novel pre-aggregation filter for FL resilient to large-scale model poisoning attacks, i.e., when malicious clients far exceed legitimate participants. FLANDERS treats the sequence of local models sent by clients in each FL round as a matrix-valued time series. Then, it identifies malicious client updates as outliers in this time series by comparing actual observations with estimates generated by a matrix autoregressive forecasting model maintained by the server. Experiments conducted in several non-iid FL setups show that FLANDERS significantly improves robustness across a wide spectrum of attacks when paired with standard and robust existing aggregation methods. | 翻訳日:2024-05-29 12:38:03 公開日:2024-05-27 |
# 個人化意思決定支援政策の学習
Learning Personalized Decision Support Policies ( http://arxiv.org/abs/2304.06701v2 ) ライセンス: Link先を確認 | Umang Bhatt, Valerie Chen, Katherine M. Collins, Parameswaran Kamalaruban, Emma Kallina, Adrian Weller, Ameet Talwalkar, | (参考訳) 個人の意思決定者は、意思決定の成果を改善するために異なる形の支援の恩恵を受けるかもしれませんが、それぞれの支援形態がより良い結果をもたらす場合がありますか?
本研究では、意思決定支援ツールへのアクセスをパーソナライズすることが、AIアシストの適切な使用をインスタンス化するための効果的なメカニズムであると仮定する。
具体的には、最初に事前情報を持っていない意思決定者に対して、与えられた入力に対して、どの支援形態を選択するかを選択する決定支援政策を学習する一般的な問題を提案する。
我々は、パーソナライズされた意思決定支援ポリシーを学ぶインタラクティブツールである$\texttt{Modiste}$を開発した。
$\texttt{Modiste}$は、確率的文脈的盗聴技術を活用して、意思決定者ごとに意思決定支援ポリシーをパーソナライズし、サポートコストなどの補助的な目的を考慮に入れた多目的設定の拡張をサポートする。
パーソナライズされたポリシは、オフラインポリシよりも優れており、コストを意識した環境では、パフォーマンスの低下を最小限に抑えて、発生したコストを削減することができる。
我々の実験には、ビジョンと言語タスクに関する様々な現実的な支援形態(例えば、専門家のコンセンサスと、大きな言語モデルからの予測)が含まれています。
我々の被験者実験は我々の計算実験を検証し、$\texttt{Modiste}$と対話する実際のユーザにとって、パーソナライズがメリットをもたらすことを示した。
Individual human decision-makers may benefit from different forms of support to improve decision outcomes, but when each form of support will yield better outcomes? In this work, we posit that personalizing access to decision support tools can be an effective mechanism for instantiating the appropriate use of AI assistance. Specifically, we propose the general problem of learning a decision support policy that, for a given input, chooses which form of support to provide to decision-makers for whom we initially have no prior information. We develop $\texttt{Modiste}$, an interactive tool to learn personalized decision support policies. $\texttt{Modiste}$ leverages stochastic contextual bandit techniques to personalize a decision support policy for each decision-maker and supports extensions to the multi-objective setting to account for auxiliary objectives like the cost of support. We find that personalized policies outperform offline policies, and, in the cost-aware setting, reduce the incurred cost with minimal degradation to performance. Our experiments include various realistic forms of support (e.g., expert consensus and predictions from a large language model) on vision and language tasks. Our human subject experiments validate our computational experiments, demonstrating that personalization can yield benefits in practice for real users, who interact with $\texttt{Modiste}$. | 翻訳日:2024-05-29 12:38:03 公開日:2024-05-27 |
# Speck:低レイテンシ327Kニューロン畳み込みニューラルネットワーク処理パイプラインを備えたスマートイベントベース視覚センサ
Speck: A Smart event-based Vision Sensor with a low latency 327K Neuron Convolutional Neuronal Network Processing Pipeline ( http://arxiv.org/abs/2304.06793v2 ) ライセンス: Link先を確認 | Ole Richter, Yannan Xing, Michele De Marchi, Carsten Nielsen, Merkourios Katsimpris, Roberto Cattaneo, Yudi Ren, Yalun Hu, Qian Liu, Sadique Sheik, Tugba Demirci, Ning Qiao, | (参考訳) 様々なセンサーから高レベルの情報を抽出できるエッジコンピューティングソリューションは、ますます需要が高まる。
これは、エッジ上のアプリケーションにセンサ処理を必要とするスマートデバイスの増加によるものだ。
この問題に対処するために、イベントベースのカメラと低消費電力非同期スパイク畳み込みニューラルネットワーク(sCNN)コンピューティングアーキテクチャを単一チップ上に組み込んだスマートビジョンセンサシステム(SoC)を提案する。
センサと処理を1つのダイに組み合わせることで、ユニット生産コストを大幅に削減できる。
さらに、SoCの単純なエンドツーエンドの性質は、大規模システムにおいてエッジノードとして機能するだけでなく、小さなスタンドアロンアプリケーションを容易にする。
視覚センサのイベント駆動特性は、スパースデータストリームで高速な信号を提供する。
これは、高いスパース計算の最適化と9つのsCNNレイヤのレイテンシの最小化に焦点を当てた処理パイプラインに反映されている。
これにより、低エネルギーの予算とセンサーコストで小さなフォームファクタ上に展開される非常に低レイテンシなビジュアル処理パイプラインが実現される。
非同期アーキテクチャ、個々のブロック、およびsCNN処理原理と他のsCNN対応プロセッサに対するベンチマークを示す。
Edge computing solutions that enable the extraction of high-level information from a variety of sensors is in increasingly high demand. This is due to the increasing number of smart devices that require sensory processing for their application on the edge. To tackle this problem, we present a smart vision sensor System on Chip (SoC), featuring an event-based camera and a low-power asynchronous spiking Convolutional Neural Network (sCNN) computing architecture embedded on a single chip. By combining both sensor and processing on a single die, we can lower unit production costs significantly. Moreover, the simple end-to-end nature of the SoC facilitates small stand-alone applications as well as functioning as an edge node in larger systems. The event-driven nature of the vision sensor delivers high-speed signals in a sparse data stream. This is reflected in the processing pipeline, which focuses on optimising highly sparse computation and minimising latency for 9 sCNN layers to 3.36{\mu}s for an incoming event. Overall, this results in an extremely low-latency visual processing pipeline deployed on a small form factor with a low energy budget and sensor cost. We present the asynchronous architecture, the individual blocks, and the sCNN processing principle and benchmark against other sCNN capable processors. | 翻訳日:2024-05-29 12:38:03 公開日:2024-05-27 |
# データセット間のヘイトスピーチ分類の弱化に向けて
Towards Weakly-Supervised Hate Speech Classification Across Datasets ( http://arxiv.org/abs/2305.02637v3 ) ライセンス: Link先を確認 | Yiping Jin, Leo Wanner, Vishakha Laxman Kadam, Alexander Shvets, | (参考訳) いくつかの学者が指摘しているように、ヘイトスピーチ(HS)の認識に関する現在の研究は、非体系的なデータ生成戦略とアノテーションスキーマのばらつきが特徴である。
その後、教師付き学習モデルは訓練を受けていないデータセットにうまく一般化する傾向にあり、異なるHS分類法を用いてラベル付けされたデータセットでトレーニングされたモデルのパフォーマンスは比較できない。
この問題を緩和するために,アノテーション付きデータからのクラスサンプルに頼らず,クラス名にのみ依存する極めて弱い監視手法を提案する。
各種データセットおよびクロスデータセット設定において,最先端の弱教師付きテキスト分類モデルの有効性を示す。
さらに,HS分類モデルの一般化性の低さの原因について,詳細な定量的,定性的な分析を行う。
As pointed out by several scholars, current research on hate speech (HS) recognition is characterized by unsystematic data creation strategies and diverging annotation schemata. Subsequently, supervised-learning models tend to generalize poorly to datasets they were not trained on, and the performance of the models trained on datasets labeled using different HS taxonomies cannot be compared. To ease this problem, we propose applying extremely weak supervision that only relies on the class name rather than on class samples from the annotated data. We demonstrate the effectiveness of a state-of-the-art weakly-supervised text classification model in various in-dataset and cross-dataset settings. Furthermore, we conduct an in-depth quantitative and qualitative analysis of the source of poor generalizability of HS classification models. | 翻訳日:2024-05-29 12:38:03 公開日:2024-05-27 |
# 畳み込みニューラルネットワークによる意味的セグメンテーションのための形状学習
Convolutional Neural Networks Rarely Learn Shape for Semantic Segmentation ( http://arxiv.org/abs/2305.06568v3 ) ライセンス: Link先を確認 | Yixin Zhang, Maciej A. Mazurowski, | (参考訳) 形状学習、もしくは形状情報を活用する能力は、対象物体が特定の形状を持つ場合、畳み込みニューラルネットワーク(CNN)の望ましい特性となる。
トピックに関するいくつかの研究が浮上しているが、CNNがどのような状況で学習するかを決定的に決定する体系的な研究は存在しない。
本稿では, 形状が特に重要であるセグメンテーションネットワークの文脈におけるそのような研究について述べる。
我々は、形状を定義し、CNNが形状情報を利用する範囲を測定するための新しい行動指標を提案する。
次に、合成および実世界のデータを用いて一連の実験を行い、CNNがどのような状況下で学習し、その振る舞いを促進するために何ができるかを段階的に明らかにする。
結論は
(i)CNNは、典型的な設定で形状を学習せず、興味のある対象を特定するために利用可能な他の機能に依存している。
(ii)CNNは形状を学習できるが、その形状がオブジェクトを識別できる唯一の特徴である場合に限られる。
三 形状学習には、対象物の大きさに対して十分に大きな受容野の大きさが必要である。
(四)拡張の限られたセットは、形状学習を促進することができる。
(v)学習形態は,分布外データの存在下では確かに有用である。
Shape learning, or the ability to leverage shape information, could be a desirable property of convolutional neural networks (CNNs) when target objects have specific shapes. While some research on the topic is emerging, there is no systematic study to conclusively determine whether and under what circumstances CNNs learn shape. Here, we present such a study in the context of segmentation networks where shapes are particularly important. We define shape and propose a new behavioral metric to measure the extent to which a CNN utilizes shape information. We then execute a set of experiments with synthetic and real-world data to progressively uncover under which circumstances CNNs learn shape and what can be done to encourage such behavior. We conclude that (i) CNNs do not learn shape in typical settings but rather rely on other features available to identify the objects of interest, (ii) CNNs can learn shape, but only if the shape is the only feature available to identify the object, (iii) sufficiently large receptive field size relative to the size of target objects is necessary for shape learning; (iv) a limited set of augmentations can encourage shape learning; (v) learning shape is indeed useful in the presence of out-of-distribution data. | 翻訳日:2024-05-29 12:38:03 公開日:2024-05-27 |
# コードによる検索:新しいSearchBySnippetデータセットとコードスニペットによる検索のためのSnippeR検索モデル
Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval Model for Searching by Code Snippets ( http://arxiv.org/abs/2305.11625v2 ) ライセンス: Link先を確認 | Ivan Sedykh, Dmitry Abulkhanov, Nikita Sorokin, Sergey Nikolenko, Valentin Malykh, | (参考訳) コード検索は重要でよく研究されているタスクであるが、通常はテキストクエリによるコード検索を意味する。
コードスニペット(およびおそらくエラートレースバック)をクエリとして使用して、バグフィックス命令やコードサンプルを探すことは、過去の技術でカバーされていない自然なユースケースである、と私たちは主張する。
さらに、既存のデータセットでは、テキストとしてのフルテキスト記述ではなく、コードコメントを使用しているため、このユースケースには適さない。
StackOverflowデータに基づく検索・バイ・コード・ユースケースを実装した新しいSearchBySnippetデータセットを提案する。
我々は,新しい単一エンコーダモデルであるSnippeRを提案する。このモデルでは,SearchBySnippetの強いベースラインを0.451 Recall@10で上回り,コード検索評価のための新しい重要なベンチマークとしてSearchBySnippetデータセットとSnippeRを提案する。
Code search is an important and well-studied task, but it usually means searching for code by a text query. We argue that using a code snippet (and possibly an error traceback) as a query while looking for bugfixing instructions and code samples is a natural use case not covered by prior art. Moreover, existing datasets use code comments rather than full-text descriptions as text, making them unsuitable for this use case. We present a new SearchBySnippet dataset implementing the search-by-code use case based on StackOverflow data; we show that on SearchBySnippet, existing architectures fall short of a simple BM25 baseline even after fine-tuning. We present a new single encoder model SnippeR that outperforms several strong baselines on SearchBySnippet with a result of 0.451 Recall@10; we propose the SearchBySnippet dataset and SnippeR as a new important benchmark for code search evaluation. | 翻訳日:2024-05-29 12:38:03 公開日:2024-05-27 |
# CopyNE: 名前付きエンティティのコピーによるコンテキストASRの改善
CopyNE: Better Contextual ASR by Copying Named Entities ( http://arxiv.org/abs/2305.12839v2 ) ライセンス: Link先を確認 | Shilin Zhou, Zhenghua Li, Yu Hong, Min Zhang, Zhefeng Wang, Baoxing Huai, | (参考訳) エンドツーエンド自動音声認識(ASR)システムは,一般的なシナリオにおいて大きな進歩を遂げている。
しかし、文脈的ASRシナリオにおいて、コンテキスト的名前付きエンティティ(NE)を転写することは依然として困難である。
従来の手法ではNE辞書を利用してこの問題に対処しようと試みてきた。
これらのアプローチはエンティティを個々のトークンとして扱い、トークン・バイ・トークンを生成する。
本稿では,エンティティを分割不能な単位として扱い,ASRにコピーするという考え方を紹介する。
我々は、NE辞書からエンティティをコピーできるCopyNEと呼ばれる体系的なメカニズムを設計する。
エンティティのトークンを一度にコピーすることで、エンティティの書き起こし時のエラーを減らすことができ、エンティティの完全性を保証することができる。
実験により、CopyNEは従来のアプローチと比較して、エンティティの翻訳精度を一貫して改善することが示された。
強力なWhisperをベースとしたとしても、CopyNEは目立った改善を実現している。
End-to-end automatic speech recognition (ASR) systems have made significant progress in general scenarios. However, it remains challenging to transcribe contextual named entities (NEs) in the contextual ASR scenario. Previous approaches have attempted to address this by utilizing the NE dictionary. These approaches treat entities as individual tokens and generate them token-by-token, which may result in incomplete transcriptions of entities. In this paper, we treat entities as indivisible wholes and introduce the idea of copying into ASR. We design a systematic mechanism called CopyNE, which can copy entities from the NE dictionary. By copying all tokens of an entity at once, we can reduce errors during entity transcription, ensuring the completeness of the entity. Experiments demonstrate that CopyNE consistently improves the accuracy of transcribing entities compared to previous approaches. Even when based on the strong Whisper, CopyNE still achieves notable improvements. | 翻訳日:2024-05-29 12:38:03 公開日:2024-05-27 |
# Sketch-and-Project Meets Newton Method: Global $\mathcal O(k^{-2})$ Convergence with Low-Rank Updates
Sketch-and-Project Meets Newton Method: Global $\mathcal O(k^{-2})$ Convergence with Low-Rank Updates ( http://arxiv.org/abs/2305.13082v4 ) ライセンス: Link先を確認 | Slavomír Hanzely, | (参考訳) 本稿では,高速な$\mathcal O(k^{-2})$大域収束率を持つスケッチアンドプロジェクトニュートン法を提案する。
我々の方法であるSGNは3つの方法で見ることができる。
一 ニュートン法の更新を投影するスケッチ・アンド・プロジェクト・アルゴリズムとして
二 スケッチした部分空間におけるニュートンエソドを立方正規化したものとして、及び
三 スケッチした部分空間における減衰ニュートン法
SGNは、スケッチ・アンド・プロジェクト方式の安価なイテレーションコスト、最先端の$\mathcal O(k^{-2})$フルランクニュートン方式のグローバル収束率、減衰ニュートン方式のアルゴリズム単純さの3つを継承している。
最後に、ベースラインアルゴリズムに匹敵する経験的性能を示す。
In this paper, we propose the first sketch-and-project Newton method with fast $\mathcal O(k^{-2})$ global convergence rate for self-concordant functions. Our method, SGN, can be viewed in three ways: i) as a sketch-and-project algorithm projecting updates of Newton method, ii) as a cubically regularized Newton ethod in sketched subspaces, and iii) as a damped Newton method in sketched subspaces. SGN inherits best of all three worlds: cheap iteration costs of sketch-and-project methods, state-of-the-art $\mathcal O(k^{-2})$ global convergence rate of full-rank Newton-like methods and the algorithm simplicity of damped Newton methods. Finally, we demonstrate its comparable empirical performance to baseline algorithms. | 翻訳日:2024-05-29 12:28:18 公開日:2024-05-27 |
# 定メモリアテンションブロックによるメモリ効率の良いニューラルプロセス
Memory Efficient Neural Processes via Constant Memory Attention Block ( http://arxiv.org/abs/2305.14567v3 ) ライセンス: Link先を確認 | Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Yoshua Bengio, Mohamed Osama Ahmed, | (参考訳) ニューラルネットワーク(NP)は、予測の不確実性を効率的にモデル化するための一般的なメタラーニング手法である。
しかし、最近の最先端の手法では、特に低リソース環境において、高価な注意機構を利用し、その応用を制限している。
本研究では,一定メモリのみを必要とするNP変種であるCMANP(Constant Memory Attentive Neural Processs)を提案する。
そこで我々はまず,クロスアテンションのための効率的な更新操作を提案する。
更新操作を活用することで、新しいアテンションブロックであるConstant Memory Attention Block (CMAB)を提案する。
i) 置換不変量
(ii)その出力を一定メモリで計算し、
(iii)一定の計算更新を行う。
最後に、CMAB上に構築された定メモリ注意ニューラルプロセスについて詳述する。
実験により,CMANPはNPベンチマークにおいて,従来の手法よりもはるかにメモリ効率がよいことを示す。
Neural Processes (NPs) are popular meta-learning methods for efficiently modelling predictive uncertainty. Recent state-of-the-art methods, however, leverage expensive attention mechanisms, limiting their applications, particularly in low-resource settings. In this work, we propose Constant Memory Attentive Neural Processes (CMANPs), an NP variant that only requires constant memory. To do so, we first propose an efficient update operation for Cross Attention. Leveraging the update operation, we propose Constant Memory Attention Block (CMAB), a novel attention block that (i) is permutation invariant, (ii) computes its output in constant memory, and (iii) performs constant computation updates. Finally, building on CMAB, we detail Constant Memory Attentive Neural Processes. Empirically, we show CMANPs achieve state-of-the-art results on popular NP benchmarks while being significantly more memory efficient than prior methods. | 翻訳日:2024-05-29 12:28:18 公開日:2024-05-27 |
# 行動する前に考える: ワーキングメモリを備えた決定変換器
Think Before You Act: Decision Transformers with Working Memory ( http://arxiv.org/abs/2305.16338v2 ) ライセンス: Link先を確認 | Jikun Kang, Romain Laroche, Xingdi Yuan, Adam Trischler, Xue Liu, Jie Fu, | (参考訳) 決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。
しかし、その性能は大量のデータと計算に依存している。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。
結果として、新しいタスクに対するトレーニングは、以前のタスクに対するモデルの性能を低下させる可能性がある。
LLMの暗黙記憶機構とは対照的に、人間の脳は分散メモリストレージを利用して複数のスキルを効率的に管理し、整理し、忘れる現象を緩和する。
そこで本研究では,ダウンストリームタスクの情報を格納,ブレンド,検索するためのワーキングメモリモジュールを提案する。
評価の結果,提案手法は,AtariゲームやMeta-Worldオブジェクト操作タスクにおけるトレーニング効率と一般化を改善していることがわかった。
さらに,メモリの微調整により,提案アーキテクチャの適応性はさらに向上することを示す。
Decision Transformer-based decision-making agents have shown the ability to generalize across multiple tasks. However, their performance relies on massive data and computation. We argue that this inefficiency stems from the forgetting phenomenon, in which a model memorizes its behaviors in parameters throughout training. As a result, training on a new task may deteriorate the model's performance on previous tasks. In contrast to LLMs' implicit memory mechanism, the human brain utilizes distributed memory storage, which helps manage and organize multiple skills efficiently, mitigating the forgetting phenomenon. Inspired by this, we propose a working memory module to store, blend, and retrieve information for different downstream tasks. Evaluation results show that the proposed method improves training efficiency and generalization in Atari games and Meta-World object manipulation tasks. Moreover, we demonstrate that memory fine-tuning further enhances the adaptability of the proposed architecture. | 翻訳日:2024-05-29 12:28:18 公開日:2024-05-27 |
# 超高分解能顕微鏡のAIによる分析--地底真理の欠如による生物学的発見
AI-based analysis of super-resolution microscopy: Biological discovery in the absence of ground truth ( http://arxiv.org/abs/2305.17193v2 ) ライセンス: Link先を確認 | Ivan R. Nabi, Ben Cardoen, Ismail M. Khater, Guang Gao, Timothy H. Wong, Ghassan Hamarneh, | (参考訳) 超高分解能顕微鏡(英: super- resolution microscopy)またはナノスコープ(英: nanoscopy)は、蛍光ベースの分子局在ツールを用いて、無傷細胞のナノスケールレベルで分子構造を研究し、メソスケールのギャップを古典的な構造生物学の方法論に埋めることを可能にする。
人工知能(AI)による超解像データの解析(機械学習)は、定義上は未知であり、基礎的な真理が欠如している新しい生物学の発見に膨大な可能性を秘めている。
本稿では,超高分解能顕微鏡への弱制御パラダイムの適用と,細胞内高分子とオルガネラのナノスケールアーキテクチャの迅速な探索を可能にする可能性について述べる。
Super-resolution microscopy, or nanoscopy, enables the use of fluorescent-based molecular localization tools to study molecular structure at the nanoscale level in the intact cell, bridging the mesoscale gap to classical structural biology methodologies. Analysis of super-resolution data by artificial intelligence (AI), such as machine learning, offers tremendous potential for discovery of new biology, that, by definition, is not known and lacks ground truth. Herein, we describe the application of weakly supervised paradigms to super-resolution microscopy and its potential to enable the accelerated exploration of the nanoscale architecture of subcellular macromolecules and organelles. | 翻訳日:2024-05-29 12:28:18 公開日:2024-05-27 |
# Unicode正規化とインデックス言語のグラフ解析
Unicode Normalization and Grapheme Parsing of Indic Languages ( http://arxiv.org/abs/2306.01743v2 ) ライセンス: Link先を確認 | Nazmuddoha Ansary, Quazi Adibur Rahman Adib, Tahsin Reasat, Asif Shahriyar Sushmit, Ahmed Imtiaz Humayun, Sazia Mehnaz, Kanij Fatema, Mohammad Mamun Or Rashid, Farig Sadeque, | (参考訳) インド語の表記体系は、一意の水平単位として、複素グラフエム(complex graphemes)としても知られる正書法音節を持つ。
これらの言語の顕著な特徴は、子音/子音接続、母音の発音、子音の発音を含むこれらの複雑な文法単位である。
これらの言語のUnicodeベースの書き込みスキームは、これらの言語のこの特徴を無視し、コネクタ文字とフォントインタプリタの複雑なスキームを使用して、Unicode文字の線形シーケンスとして単語をエンコードすることが多い。
数ダースのUnicodeグリフを使って何千もの異なる独自のグリフ(複雑なグラフエム)を書く方法により、不正な単語につながる深刻な曖昧さがある。
本稿では,2つの図書館を提案する。
一 Unicodeに基づくIndic言語の符号化方式による不整合の正常化のための正規化方法
ii) Abugida テキスト用の Grapheme パーサ。
単語を視覚的に異なる正書法音節または複雑な文法とその構成語に分解する。
提案する正規化器は,以前使用したIndicNLP正規化器よりも効率的で効果的なツールである。
さらに, 解析器と正規化器は, 堅牢な単語ベースおよびNLP実験において, 一般的な Abugida テキスト処理に適したツールである。
本研究では,7言語スクリプトのパイプラインを報告し,さらに多くのスクリプトを統合するためのフレームワークを開発する。
Writing systems of Indic languages have orthographic syllables, also known as complex graphemes, as unique horizontal units. A prominent feature of these languages is these complex grapheme units that comprise consonants/consonant conjuncts, vowel diacritics, and consonant diacritics, which, together make a unique Language. Unicode-based writing schemes of these languages often disregard this feature of these languages and encode words as linear sequences of Unicode characters using an intricate scheme of connector characters and font interpreters. Due to this way of using a few dozen Unicode glyphs to write thousands of different unique glyphs (complex graphemes), there are serious ambiguities that lead to malformed words. In this paper, we are proposing two libraries: i) a normalizer for normalizing inconsistencies caused by a Unicode-based encoding scheme for Indic languages and ii) a grapheme parser for Abugida text. It deconstructs words into visually distinct orthographic syllables or complex graphemes and their constituents. Our proposed normalizer is a more efficient and effective tool than the previously used IndicNLP normalizer. Moreover, our parser and normalizer are also suitable tools for general Abugida text processing as they performed well in our robust word-based and NLP experiments. We report the pipeline for the scripts of 7 languages in this work and develop the framework for the integration of more scripts. | 翻訳日:2024-05-29 12:28:18 公開日:2024-05-27 |
# 平衡外Rydberg原子配列におけるガウス的非ガウス的相関
Persistent non-Gaussian correlations in out-of-equilibrium Rydberg atom arrays ( http://arxiv.org/abs/2306.12210v2 ) ライセンス: Link先を確認 | Aydin Deger, Aiden Daniel, Zlatko Papić, Jiannis K. Pachos, | (参考訳) ガウス相関は、結合した1次元超流体(Schweigler et al , Nature Physics 17, 559 (2021))の最近の実験で示されているように、平衡から切り離された多体量子系の大規模なクラスに現れる。
ここでは、Rydberg原子配列の初期状態が、大域的クエンチの後に永続的な非ガウス的相関を維持するメカニズムを示す。
この機構は、系の基底状態対称性に根ざした効果的な運動的遮断に基づいており、クエンチハミルトニアンの下での熱力学を阻害する。
本稿では, この効果をRydberg原子実験で観測する方法を提案し, 種々の実験誤差に対するレジリエンスを実証する。
これらの長期間の非ガウス状態は、平衡から保護された非ガウス性のため、量子記憶や量子情報プロトコルの安定な資源として実用的応用を持つ可能性がある。
Gaussian correlations emerge in a large class of many-body quantum systems quenched out of equilibrium, as demonstrated in recent experiments on coupled one-dimensional superfluids [Schweigler et al., Nature Physics 17, 559 (2021)]. Here, we present a mechanism by which an initial state of a Rydberg atom array can retain persistent non-Gaussian correlations following a global quench. This mechanism is based on an effective kinetic blockade rooted in the ground state symmetry of the system, which prevents thermalizing dynamics under the quench Hamiltonian. We propose how to observe this effect with Rydberg atom experiments and we demonstrate its resilience against several types of experimental errors. These long-lived non-Gaussian states may have practical applications as quantum memories or stable resources for quantum-information protocols due to the protected non-Gaussianity away from equilibrium. | 翻訳日:2024-05-29 12:18:33 公開日:2024-05-27 |
# グローバルワークスペースによる半教師付きマルチモーダル表現学習
Semi-supervised Multimodal Representation Learning through a Global Workspace ( http://arxiv.org/abs/2306.15711v2 ) ライセンス: Link先を確認 | Benjamin Devillers, Léopold Maytié, Rufin VanRullen, | (参考訳) 近年のディープラーニングモデルは、異なるモード(画像やテキストなど)からの入力を効率よく組み合わせて、潜在表現を整列させたり、あるドメインから別のドメイン(画像キャプションやテキストから画像生成など)に信号を変換したりすることができる。
しかし、現在のアプローチは主に、大規模なマルチモーダルデータセットに対するブルートフォースによる教師ありトレーニングに依存している。
対照的に、人間(および他の動物)は、一致するクロスモーダルデータによるスパースな経験から、有用なマルチモーダル表現を学ぶことができる。
ここでは、2つの(あるいはそれ以上の)入力モダリティの共有表現である「グローバルワークスペース」の認知概念に着想を得たニューラルネットワークアーキテクチャの機能を評価する。
それぞれのモダリティは、特別なシステムによって処理される(単調なデータに基づいて調整され、その後凍結される)。
対応する潜在表現は、単一の共有ワークスペースからエンコードされ、デコードされる。
重要なことは、このアーキテクチャはサイクル整合性による自己教師型トレーニングに適しており、符号化復号シーケンスはアイデンティティ関数を近似すべきである。
視覚言語による様々なモダリティのペアリングと、複雑さの異なる2つのデータセットに対して、このようなアーキテクチャは、マッチしたデータ(完全に教師されたアプローチの4倍から7倍)をほとんど必要とせずに、2つのモダリティを調整し、翻訳するように訓練できることを示す。
グローバルなワークスペース表現は、下流の分類タスクやロバストな転送学習に有利に利用できる。
アブレーション研究により、共有ワークスペースと自己監督型サイクル一貫性トレーニングの両方がシステムの性能に欠かせないことが判明した。
Recent deep learning models can efficiently combine inputs from different modalities (e.g., images and text) and learn to align their latent representations, or to translate signals from one domain to another (as in image captioning, or text-to-image generation). However, current approaches mainly rely on brute-force supervised training over large multimodal datasets. In contrast, humans (and other animals) can learn useful multimodal representations from only sparse experience with matched cross-modal data. Here we evaluate the capabilities of a neural network architecture inspired by the cognitive notion of a "Global Workspace": a shared representation for two (or more) input modalities. Each modality is processed by a specialized system (pretrained on unimodal data, and subsequently frozen). The corresponding latent representations are then encoded to and decoded from a single shared workspace. Importantly, this architecture is amenable to self-supervised training via cycle-consistency: encoding-decoding sequences should approximate the identity function. For various pairings of vision-language modalities and across two datasets of varying complexity, we show that such an architecture can be trained to align and translate between two modalities with very little need for matched data (from 4 to 7 times less than a fully supervised approach). The global workspace representation can be used advantageously for downstream classification tasks and for robust transfer learning. Ablation studies reveal that both the shared workspace and the self-supervised cycle-consistency training are critical to the system's performance. | 翻訳日:2024-05-29 12:18:33 公開日:2024-05-27 |
# 完全正の写像に対する最小完備定理とほぼ至る所の同値性
A minimal completion theorem and almost everywhere equivalence for Completely Positive maps ( http://arxiv.org/abs/2306.15952v2 ) ライセンス: Link先を確認 | B. V. Rajarama Bhat, Arghya Chongdar, | (参考訳) C*-代数上の線型写像を完全正の写像に完備化する問題を分析する。
そのような完備化が可能であればいつでも、一意に最小限の完備化が存在することが示されている。
この定理は、いくつかの非常に一般的な条件下では、準純写像とほぼ至る所で完全に正の写像が実際にその写像と等しいことを示すために用いられる。
A problem of completing a linear map on C*-algebras to a completely positive map is analyzed. It is shown that whenever such a completion is feasible there exists a unique minimal completion. This theorem is used to show that under some very general conditions a completely positive map almost everywhere equivalent to a quasi-pure map is actually equal to that map. | 翻訳日:2024-05-29 12:18:33 公開日:2024-05-27 |
# 量子ビット系と2レベル系のソロモン方程式:非ポアソン量子ジャンプの考察
Solomon equations for qubit and two-level systems: Insights into non-Poissonian quantum jumps ( http://arxiv.org/abs/2307.06900v3 ) ライセンス: Link先を確認 | Martin Spiecker, Andrei I. Pavlov, Alexander Shnirman, Ioan M. Pop, | (参考訳) 中心スピンモデル(Central spin model)として知られる離散的な2レベルシステム~(TLS)環境に結合した量子ビットの結合緩和を計測し、モデル化する。
もしTLSがクォービットよりもずっと長寿命であれば、非指数緩和と非ポアソン量子ジャンプが観察できる。
大量のTLSの制限下では、緩和は超伝導フラクソニウム量子ビットの測定で確認される電力法則に従う可能性が高い。
さらに、観測された緩和と量子ジャンプ統計はソロモン方程式によって記述され、任意の数のTLSに対して一般リンドブラッド方程式から導出する。
また、微分確率シュリンガー方程式を用いて、非ポアソン量子ジャンプ統計を再現する方法を示す。
測定された量子ジャンプ統計が、量子測定のバックアクションを無視したソロモン方程式によって再現できるという事実は、量子-古典的遷移を示唆している。
We measure and model the combined relaxation of a qubit coupled to a discrete two-level system~(TLS) environment, also known as the central spin model. If the TLSs are much longer-lived than the qubit, non-exponential relaxation and non-Poissonian quantum jumps can be observed. In the limit of large numbers of TLSs, the relaxation is likely to follow a power law, which we confirm with measurements on a superconducting fluxonium qubit. Moreover, the observed relaxation and quantum jump statistics are described by the Solomon equations, for which we present a derivation starting from the general Lindblad equation for an arbitrary number of TLSs. We also show how to reproduce the non-Poissonian quantum jump statistics using a diffusive stochastic Schr\"odinger equation. The fact that the measured quantum jump statistics can be reproduced by the Solomon equations, which ignore the quantum measurement backaction, hints at a quantum-to-classical transition. | 翻訳日:2024-05-29 12:18:33 公開日:2024-05-27 |
# チャンス制約付き最適化によるベイズ安全政策学習:ベトナム戦争における軍事安全評価への応用
Bayesian Safe Policy Learning with Chance Constrained Optimization: Application to Military Security Assessment during the Vietnam War ( http://arxiv.org/abs/2307.08840v2 ) ライセンス: Link先を確認 | Zeyang Jia, Eli Ben-Michael, Kosuke Imai, | (参考訳) アルゴリズムによる決定と勧告は、刑事司法、医療、公共政策など、多くの高い判断条件で使われている。
ベトナム戦争におけるセキュリティアセスメントアルゴリズムの改善は,1969年後半の導入直後の成果をもとに検討した。
この経験的応用は、アルゴリズムによる意思決定においてしばしば発生するいくつかの方法論的課題を提起する。
第一に、新しいアルゴリズムを実装する前に、既存のアルゴリズムよりも悪い結果をもたらすリスクを特徴づけ、制御することが不可欠である。
第二に、既存のアルゴリズムは決定論的であり、新しいアルゴリズムを学習するには透明な外挿が必要である。
第三に、既存のアルゴリズムは、最適化が難しい離散的な決定テーブルを含んでいる。
これらの課題に対処するために、我々はまず、新しいアルゴリズムポリシーが個々のサブグループに対して悪い結果をもたらすリスクを定量化し、それをサブグループの分布よりも平均化するAverage Conditional Risk (ACRisk)を導入する。
また,後方予測ACRiskを制御しながら,後方予測値を最大化するベイズ政策学習フレームワークを提案する。
このフレームワークは、ポリシー最適化から不均一な処理効果の推定を分離し、複雑なポリシークラスに対する効果と最適化の柔軟な推定を可能にする。
結果の確率制約付き最適化問題を制約線形プログラミング問題として特徴付ける。
我々の分析は、ベトナム戦争で使われた実際のアルゴリズムと比較して、学習されたアルゴリズムは、ほとんどの地域をより安全であると評価し、軍事的要因よりも経済的、政治的要因を強調していることを示している。
Algorithmic decisions and recommendations are used in many high-stakes decision-making settings such as criminal justice, medicine, and public policy. We investigate whether it would have been possible to improve a security assessment algorithm employed during the Vietnam War, using outcomes measured immediately after its introduction in late 1969. This empirical application raises several methodological challenges that frequently arise in high-stakes algorithmic decision-making. First, before implementing a new algorithm, it is essential to characterize and control the risk of yielding worse outcomes than the existing algorithm. Second, the existing algorithm is deterministic, and learning a new algorithm requires transparent extrapolation. Third, the existing algorithm involves discrete decision tables that are difficult to optimize over. To address these challenges, we introduce the Average Conditional Risk (ACRisk), which first quantifies the risk that a new algorithmic policy leads to worse outcomes for subgroups of individual units and then averages this over the distribution of subgroups. We also propose a Bayesian policy learning framework that maximizes the posterior expected value while controlling the posterior expected ACRisk. This framework separates the estimation of heterogeneous treatment effects from policy optimization, enabling flexible estimation of effects and optimization over complex policy classes. We characterize the resulting chance-constrained optimization problem as a constrained linear programming problem. Our analysis shows that compared to the actual algorithm used during the Vietnam War, the learned algorithm assesses most regions as more secure and emphasizes economic and political factors over military factors. | 翻訳日:2024-05-29 12:18:33 公開日:2024-05-27 |
# 事前学習型デノイング拡散モデルに基づくリモートセンシングにおけるユニバーサル・ディバイサル・ディフェンス
Universal Adversarial Defense in Remote Sensing Based on Pre-trained Denoising Diffusion Models ( http://arxiv.org/abs/2307.16865v3 ) ライセンス: Link先を確認 | Weikang Yu, Yonghao Xu, Pedram Ghamisi, | (参考訳) 深層ニューラルネットワーク(DNN)は、地球観測(AI4EO)のための多くのAIアプリケーションにおいて重要なソリューションとして注目されている。
しかし、その敵の例に対する感受性は、AI4EOアルゴリズムの信頼性を損なうという重大な課題を生んでいる。
本稿では,遠隔センシング画像(UAD-RS)における新たなユニバーサル・ディフェンス・アプローチを提案する。
具体的には, 事前学習拡散モデルを用いて, ガウス雑音の導入と, その後の対人例による摂動の浄化を通じて, 対人摂動を緩和する普遍的対人浄化フレームワークを開発した。
さらに、タスク誘導型FID(Frechet Inception Distance)ランキング戦略を用いて、浄化フレームワークの最適ノイズレベルを決定するために、適応ノイズレベル選択(ANLS)機構を導入し、浄化性能を向上する。
その結果、各データセットに異質なパターンを持つ普遍的対向サンプルを浄化するためには、単一の事前学習拡散モデルしか必要とせず、対向的摂動の事前知識を必要とせず、高い性能を維持しつつ、複数の攻撃設定のためのトレーニング努力を大幅に削減する。
シーン分類とセマンティックセグメンテーションに着目した4つの異種RSデータセットの実験結果から、UAD-RSは最先端の対人浄化アプローチより優れており、7つの対人摂動に対して普遍的な防御を提供することが示された。
コードと事前訓練されたモデルはオンラインで入手できる(https://github.com/EricYu97/UAD-RS)。
Deep neural networks (DNNs) have risen to prominence as key solutions in numerous AI applications for earth observation (AI4EO). However, their susceptibility to adversarial examples poses a critical challenge, compromising the reliability of AI4EO algorithms. This paper presents a novel Universal Adversarial Defense approach in Remote Sensing Imagery (UAD-RS), leveraging pre-trained diffusion models to protect DNNs against universal adversarial examples exhibiting heterogeneous patterns. Specifically, a universal adversarial purification framework is developed utilizing pre-trained diffusion models to mitigate adversarial perturbations through the introduction of Gaussian noise and subsequent purification of the perturbations from adversarial examples. Additionally, an Adaptive Noise Level Selection (ANLS) mechanism is introduced to determine the optimal noise level for the purification framework with a task-guided Frechet Inception Distance (FID) ranking strategy, thereby enhancing purification performance. Consequently, only a single pre-trained diffusion model is required for purifying universal adversarial samples with heterogeneous patterns across each dataset, significantly reducing training efforts for multiple attack settings while maintaining high performance without prior knowledge of adversarial perturbations. Experimental results on four heterogeneous RS datasets, focusing on scene classification and semantic segmentation, demonstrate that UAD-RS outperforms state-of-the-art adversarial purification approaches, providing universal defense against seven commonly encountered adversarial perturbations. Codes and the pre-trained models are available online (https://github.com/EricYu97/UAD-RS). | 翻訳日:2024-05-29 12:18:33 公開日:2024-05-27 |
# グラフ協調フィルタリングの神話の整合性:推論と再現性に基づく分析
Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis ( http://arxiv.org/abs/2308.00404v2 ) ライセンス: Link先を確認 | Vito Walter Anelli, Daniele Malitesta, Claudio Pomo, Alejandro Bellogín, Tommaso Di Noia, Eugenio Di Sciascio, | (参考訳) グラフニューラルネットワークベースモデル(GNN)の成功は、ユーザとアイテムを二部グラフとして効果的にモデル化することで、大幅に進歩したレコメンデーションシステムである。
しかしながら、多くのオリジナルのグラフベースの研究は、分析対象の特定の構成に対する妥当性を検証せずに、ベースライン論文の結果を採用することが多い。
私たちの研究は、結果の複製性に注目して、この問題に対処しています。
一般的な3つのベンチマークデータセット(Gowalla、Yelp 2018、Amazon Book)上で、NGCF、DGCF、LightGCN、SGL、UltraGCN、GFCFの6つの人気グラフレコメンデーションモデル(NGCF、DGCF、LightGCN、SGL、UltraGCN、GFCF)の結果の再現に成功したコードを示す。
さらに,これらのグラフモデルと従来の協調フィルタリングモデルとの比較を行った。
さらに、既存の文献に確立された設定を欠いている2つの新しいデータセット(AllrecipesとBookCrossing)に研究を拡張した。
これらのデータセットのパフォーマンスが以前のベンチマークと異なるため、特定のデータセット特性がレコメンデーション精度に与える影響を分析する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
実験を再現するコードは、https://github.com/sisinflab/Graph-RSs-Reproducibility.comで公開されている。
The success of graph neural network-based models (GNNs) has significantly advanced recommender systems by effectively modeling users and items as a bipartite, undirected graph. However, many original graph-based works often adopt results from baseline papers without verifying their validity for the specific configuration under analysis. Our work addresses this issue by focusing on the replicability of results. We present a code that successfully replicates results from six popular and recent graph recommendation models (NGCF, DGCF, LightGCN, SGL, UltraGCN, and GFCF) on three common benchmark datasets (Gowalla, Yelp 2018, and Amazon Book). Additionally, we compare these graph models with traditional collaborative filtering models that historically performed well in offline evaluations. Furthermore, we extend our study to two new datasets (Allrecipes and BookCrossing) that lack established setups in existing literature. As the performance on these datasets differs from the previous benchmarks, we analyze the impact of specific dataset characteristics on recommendation accuracy. By investigating the information flow from users' neighborhoods, we aim to identify which models are influenced by intrinsic features in the dataset structure. The code to reproduce our experiments is available at: https://github.com/sisinflab/Graph-RSs-Reproducibility. | 翻訳日:2024-05-29 12:18:33 公開日:2024-05-27 |
# スパースからソフトミックスへ
From Sparse to Soft Mixtures of Experts ( http://arxiv.org/abs/2308.00951v2 ) ライセンス: Link先を確認 | Joan Puigcerver, Carlos Riquelme, Basil Mustafa, Neil Houlsby, | (参考訳) 専門家アーキテクチャ(MoE)の疎結合は、トレーニングや推論コストを大幅に増加させることなく、モデルのキャパシティをスケールする。
その成功にもかかわらず、MoEは不安定なトレーニング、トークンのドロップ、専門家の数をスケールできないこと、非効率な微調整など、多くの問題に悩まされている。
本研究では,これらの課題に対処しつつ,MoEの利点を維持しつつ,完全微分可能なスパーストランスであるSoft MoEを提案する。
ソフトなMoEは、すべての入力トークンの異なる重み付けの組み合わせを専門家に渡すことで、暗黙のソフトな割り当てを行う。
他のMoEと同様に、Soft MoEの専門家は(組み合わせ)トークンのサブセットのみを処理し、推論コストの低いモデルキャパシティ(とパフォーマンス)を実現する。
視覚認識の文脈では、Soft MoEは密度の高いトランスフォーマー(ViT)と人気のMoE(Tokens Choice and Experts Choice)を大きく上回っている。
さらに、Soft MoE Huge/14は16のMoE層に128人の専門家がおり、ViT Huge/14よりも40倍以上のパラメータを持ち、推論時間がわずか2%増加し、品質が大幅に向上した。
Sparse mixture of expert architectures (MoEs) scale model capacity without significant increases in training or inference costs. Despite their success, MoEs suffer from a number of issues: training instability, token dropping, inability to scale the number of experts, or ineffective finetuning. In this work, we propose Soft MoE, a fully-differentiable sparse Transformer that addresses these challenges, while maintaining the benefits of MoEs. Soft MoE performs an implicit soft assignment by passing different weighted combinations of all input tokens to each expert. As in other MoEs, experts in Soft MoE only process a subset of the (combined) tokens, enabling larger model capacity (and performance) at lower inference cost. In the context of visual recognition, Soft MoE greatly outperforms dense Transformers (ViTs) and popular MoEs (Tokens Choice and Experts Choice). Furthermore, Soft MoE scales well: Soft MoE Huge/14 with 128 experts in 16 MoE layers has over 40x more parameters than ViT Huge/14, with only 2% increased inference time, and substantially better quality. | 翻訳日:2024-05-29 12:18:33 公開日:2024-05-27 |
# MixBCT: 自己適応型後方互換性トレーニングを目指して
MixBCT: Towards Self-Adapting Backward-Compatible Training ( http://arxiv.org/abs/2308.06948v2 ) ライセンス: Link先を確認 | Yu Liang, Yufeng Zhang, Shiliang Zhang, Yaowei Wang, Sheng Xiao, Rong Xiao, Xiaoyu Wang, | (参考訳) 後方互換性のあるトレーニングは、検索システムに高度な新しいモデルを展開する際に、古いギャラリーデータベースの高価な更新の必要性を回避する。
以前の手法では、新しいモデルのプロトタイプを古いモデルと整列させることで後方互換性を実現していたが、古いモデルの低品質が機能識別性の弱さをもたらすと、古い機能の分布を見逃すことが多かった。
L2回帰のようなインスタンスベースのメソッドは、古い機能の分散を考慮しているが、新しいモデル自体のパフォーマンスに強い制約を課している。
本稿では,様々な品質の旧モデルの統一的なフレームワークとして機能する,シンプルで効果的な後方互換性のあるトレーニング手法であるMixBCTを提案する。
従来の特徴の分布に基づいて,制約領域を適応的に調整する,後方互換性のあるトレーニングを容易にするために,古い特徴と新機能の混合に適用した単一損失関数を構築した。
大規模顔認識データセットMS1Mv3とIJB-Cについて広範囲に実験を行い,本手法の有効性を検証した。
実験結果は, 従来の方法よりも優れていることを示す。
コードはhttps://github.com/yuleung/MixBCTで入手できる。
Backward-compatible training circumvents the need for expensive updates to the old gallery database when deploying an advanced new model in the retrieval system. Previous methods achieved backward compatibility by aligning prototypes of the new model with the old one, yet they often overlooked the distribution of old features, limiting their effectiveness when the low quality of the old model results in a weakly feature discriminability. Instance-based methods like L2 regression take into account the distribution of old features but impose strong constraints on the performance of the new model itself. In this paper, we propose MixBCT, a simple yet highly effective backward-compatible training method that serves as a unified framework for old models of varying qualities. We construct a single loss function applied to mixed old and new features to facilitate backward-compatible training, which adaptively adjusts the constraint domain for new features based on the distribution of old features. We conducted extensive experiments on the large-scale face recognition datasets MS1Mv3 and IJB-C to verify the effectiveness of our method. The experimental results clearly demonstrate its superiority over previous methods. Code is available at https://github.com/yuleung/MixBCT . | 翻訳日:2024-05-29 12:08:44 公開日:2024-05-27 |
# 耐故障性向上のためのクロスプラットフォーム比較のための繰り返し符号の強化
Enhanced repetition codes for the cross-platform comparison of progress towards fault-tolerance ( http://arxiv.org/abs/2308.08909v2 ) ライセンス: Link先を確認 | Milan Liepelt, Tommaso Peduzzi, James R. Wootton, | (参考訳) フォールトトレランスを達成するには、ハードウェアと使用するプロトコルの間に強い関係が必要だ。
したがって、異なるアプローチは、進歩をベンチマークするために、自然にプリエンシプルな実験を調整する。
それでも、繰り返し符号はクロスプラットフォームの比較を可能にする実験の一般的な基礎となっている。
本稿では,プラットフォーム間の互換性を維持しつつ,反復的なコード実験を拡張・改善する手法を提案する。
また、論理誤差率の単純な計算よりも詳細な知見を提供する新しい解析手法についても検討する。
Achieving fault-tolerance will require a strong relationship between the hardware and the protocols used. Different approaches will therefore naturally have tailored proof-of-principle experiments to benchmark progress. Nevertheless, repetition codes have become a commonly used basis of experiments that allow cross-platform comparisons. Here we propose methods by which repetition code experiments can be expanded and improved, while retaining cross-platform compatibility. We also consider novel methods of analyzing the results, which offer more detailed insights than simple calculation of the logical error rate. | 翻訳日:2024-05-29 12:08:44 公開日:2024-05-27 |
# LEGO: ポイントクラウドによるオンラインマルチオブジェクトトラッキングのための学習とグラフ最適化モジュールトラッカー
LEGO: Learning and Graph-Optimized Modular Tracker for Online Multi-Object Tracking with Point Clouds ( http://arxiv.org/abs/2308.09908v2 ) ライセンス: Link先を確認 | Zhenrong Zhang, Jianan Liu, Yuxuan Xia, Tao Huang, Qing-Long Han, Hongbin Liu, | (参考訳) オンラインマルチオブジェクトトラッキング(MOT)は、自律システムにおいて重要な役割を果たす。
最先端のアプローチは通常、トラッキング・バイ・検出方式を採用し、データアソシエーションが重要な役割を果たす。
本稿では,既存の文献におけるデータ関連性を改善するために,学習とグラフ最適化(LEGO)モジュールトラッカーを提案する。
提案するLEGOトラッカーはグラフ最適化と自己認識機構を統合し,関連スコアマップを効率的に定式化し,時間枠間のオブジェクトの正確なマッチングを容易にする。
状態更新プロセスをさらに強化するため、オブジェクト状態に時間的コヒーレンスを組み込むことで、一貫したトラッキングを保証するために、Kalmanフィルタが追加される。
提案手法は,LiDARとLiDARの融合方式を含む他のオンライン追跡手法と比較して,優れた性能を示した。
LEGOは、KITTIオブジェクトトラッキング評価ランキングボードに結果が提出された時点で第1位であり、本論文提出時点では、KITTI MOTベンチマーク1のオンライントラッカーの中で第2位にとどまっている。
Online multi-object tracking (MOT) plays a pivotal role in autonomous systems. The state-of-the-art approaches usually employ a tracking-by-detection method, and data association plays a critical role. This paper proposes a learning and graph-optimized (LEGO) modular tracker to improve data association performance in the existing literature. The proposed LEGO tracker integrates graph optimization and self-attention mechanisms, which efficiently formulate the association score map, facilitating the accurate and efficient matching of objects across time frames. To further enhance the state update process, the Kalman filter is added to ensure consistent tracking by incorporating temporal coherence in the object states. Our proposed method utilizing LiDAR alone has shown exceptional performance compared to other online tracking approaches, including LiDAR-based and LiDAR-camera fusion-based methods. LEGO ranked 1st at the time of submitting results to KITTI object tracking evaluation ranking board and remains 2nd at the time of submitting this paper, among all online trackers in the KITTI MOT benchmark for cars1 | 翻訳日:2024-05-29 12:08:44 公開日:2024-05-27 |
# 階層的距離構造符号化によるグラフ変換器の高速化
Enhancing Graph Transformers with Hierarchical Distance Structural Encoding ( http://arxiv.org/abs/2308.11129v4 ) ライセンス: Link先を確認 | Yuankai Luo, Hongkang Li, Lei Shi, Xiao-Ming Wu, | (参考訳) グラフトランスフォーマーは、意味のある注意点を導き出すために強い帰納バイアスを必要とする。
しかし、現在の手法は、長い範囲、階層構造、またはコミュニティ構造を捉えるのに不足することが多く、これは分子、ソーシャルネットワーク、引用ネットワークなどの様々なグラフに共通している。
本稿では,グラフ内のノード距離をモデル化するための階層的距離構造符号化(HDSE)手法を提案する。
我々は既存のグラフ変換器の注意機構にHDSEをシームレスに統合する新しいフレームワークを導入し、他の位置符号化と同時適用を可能にした。
さらに,HDSEを用いたグラフ変換器を大規模グラフに適用するために,線形変換器をグラフ階層へ効果的にバイアスする高レベルHDSEを提案する。
我々は,表現性と一般化の観点から,最短経路距離よりもHDSEの方が優れていることを理論的に証明する。
実験により,HDSEを用いたグラフトランスフォーマーは,最大10億のノードを含む11の大規模グラフにおいて,グラフ分類や7つのグラフレベルのデータセットの回帰,ノード分類に優れることを示した。
Graph transformers need strong inductive biases to derive meaningful attention scores. Yet, current methods often fall short in capturing longer ranges, hierarchical structures, or community structures, which are common in various graphs such as molecules, social networks, and citation networks. This paper presents a Hierarchical Distance Structural Encoding (HDSE) method to model node distances in a graph, focusing on its multi-level, hierarchical nature. We introduce a novel framework to seamlessly integrate HDSE into the attention mechanism of existing graph transformers, allowing for simultaneous application with other positional encodings. To apply graph transformers with HDSE to large-scale graphs, we further propose a high-level HDSE that effectively biases the linear transformers towards graph hierarchies. We theoretically prove the superiority of HDSE over shortest path distances in terms of expressivity and generalization. Empirically, we demonstrate that graph transformers with HDSE excel in graph classification, regression on 7 graph-level datasets, and node classification on 11 large-scale graphs, including those with up to a billion nodes. | 翻訳日:2024-05-29 12:08:44 公開日:2024-05-27 |
# PlatoLM:ユーザシミュレータによる多言語対話におけるLLM教育
PlatoLM: Teaching LLMs in Multi-Round Dialogue via a User Simulator ( http://arxiv.org/abs/2308.11534v5 ) ライセンス: Link先を確認 | Chuyi Kong, Yaxin Fan, Xiang Wan, Feng Jiang, Benyou Wang, | (参考訳) クローズドソースのChatGPTのパフォーマンスは、Vicunaが証明したように、実際のユーザとChatGPTの対話を活用することで、その民主化への努力を喚起している。
しかし、人間の参加に関わる対話を集める上での課題により、現在のBaizeやUltraChatのような取り組みは、指示に基づいて人間をシミュレートするChatGPTに頼っている。
上記の課題に対処するため、我々は、人間の行動をより良くシミュレートするパラダイムを提案し、マルチターン会話に、より人間らしい質問を組み込むことの利点を探求する。
具体的には、実際の人間と機械の会話から抽出した人間の質問を直接学習目標とし、「ソクラティック」と呼ばれる新しいユーザシミュレータを提供する。
実験結果から, MT-Bench における LLaMA ベース 7B モデル間での PlatoLM' のSoTA 性能が得られた。
さらに,本手法は,従来のマルチラウンド会話よりも優れた応答モデルを学習できるような,人間的な質問パターンやリッチな話題構造を導入していることを示す。
The unparalleled performance of closed-sourced ChatGPT has sparked efforts towards its democratization, with notable strides made by leveraging real user and ChatGPT dialogues, as evidenced by Vicuna. However, due to challenges in gathering dialogues involving human participation, current endeavors like Baize and UltraChat rely on ChatGPT conducting roleplay to simulate humans based on instructions, resulting in overdependence on seeds, diminished human-likeness, limited topic diversity, and an absence of genuine multi-round conversational dynamics. To address the above issues, we propose a paradigm to simulate human behavior better and explore the benefits of incorporating more human-like questions in multi-turn conversations. Specifically, we directly target human questions extracted from genuine human-machine conversations as a learning goal and provide a novel user simulator called `Socratic'. The experimental results show our response model, `PlatoLM', achieves SoTA performance among LLaMA-based 7B models in MT-Bench. Our findings further demonstrate that our method introduces highly human-like questioning patterns and rich topic structures, which can teach the response model better than previous works in multi-round conversations. | 翻訳日:2024-05-29 12:08:44 公開日:2024-05-27 |
# フェデレートニューロシンボリック学習
Federated Neuro-Symbolic Learning ( http://arxiv.org/abs/2308.15324v2 ) ライセンス: Link先を確認 | Pengwei Xing, Songtao Lu, Han Yu, | (参考訳) ニューロシンボリックラーニング(NSL)は、複雑なシンボリック・ルールパターンをニューラルネットワークによって潜在変数分布にモデル化する。
集中型NSL学習は、フェデレーション学習(FL)では実現不可能な下流タスクから直接データを取得する。
この制限に対処するため、我々は1対1の対話型ニューロシンボリックパラダイムから、FL通信媒体として潜伏変数を持つ1対多のFederated Neuro-Symbolic Learning framework(FedNSL)へと焦点を移した。
新たなNSL理論の改定に基づいて構築されたFedNSLは, FL条件下で適用可能な規則分布に対する, 単純かつ効果的なKL分散制約により, 規則分布の不均一性を同定し, 対処することができる。
さらに、変分期待最大化(V-EM)を理論的に調整し、領域間の規則探索空間を縮小する。
これは分布結合二レベル最適化をFLに組み込んだ最初のものである。
合成データと実世界のデータに基づく大規模な実験は、5つの最先端手法と比較して、FedNSLの顕著な優位性を示している。
平均トレーニング精度のバランスの取れていない点と、平均テスト精度の見当たらない点では、それぞれ17%と29%で最高のベースラインを上回ります。
Neuro-symbolic learning (NSL) models complex symbolic rule patterns into latent variable distributions by neural networks, which reduces rule search space and generates unseen rules to improve downstream task performance. Centralized NSL learning involves directly acquiring data from downstream tasks, which is not feasible for federated learning (FL). To address this limitation, we shift the focus from such a one-to-one interactive neuro-symbolic paradigm to one-to-many Federated Neuro-Symbolic Learning framework (FedNSL) with latent variables as the FL communication medium. Built on the basis of our novel reformulation of the NSL theory, FedNSL is capable of identifying and addressing rule distribution heterogeneity through a simple and effective Kullback-Leibler (KL) divergence constraint on rule distribution applicable under the FL setting. It further theoretically adjusts variational expectation maximization (V-EM) to reduce the rule search space across domains. This is the first incorporation of distribution-coupled bilevel optimization into FL. Extensive experiments based on both synthetic and real-world data demonstrate significant advantages of FedNSL compared to five state-of-the-art methods. It outperforms the best baseline by 17% and 29% in terms of unbalanced average training accuracy and unseen average testing accuracy, respectively. | 翻訳日:2024-05-29 12:08:44 公開日:2024-05-27 |
# PRISM: EHRデータスカラー化のための特徴ミス対応校正による患者表現の活用
PRISM: Leveraging Prototype Patient Representations with Feature-Missing-Aware Calibration for EHR Data Sparsity Mitigation ( http://arxiv.org/abs/2309.04160v5 ) ライセンス: Link先を確認 | Yinghao Zhu, Zixiang Wang, Long He, Shiyun Xie, Xiaochen Zheng, Liantao Ma, Chengwei Pan, | (参考訳) EHR(Electronic Health Records)は、患者の豊富なデータを含んでいるが、EHRのデータは、予測モデリングにおいて重要な課題をしばしば示している。
従来のインプット法では、実際のデータとインプットデータの区別が不十分であり、患者の表現の不正確さにつながる。
これらの課題に対処するため,PRISMは類似した患者のプロトタイプ表現を活用し,患者情報を保存するためのコンパクトな表現を確保することで,間接的にデータをインプットするフレームワークである。
PRISMには機能信頼学習モジュールも含まれている。
さらに、PRISMは、不正確なインプット値に対する過度な信頼を回避し、特徴の信頼性を考慮に入れた新しい患者類似度指標を導入した。
MIMIC-III, MIMIC-IV, PhysioNet Challenge 2012, eICUデータセットに関する広範な実験は、PRISMが病院内での死亡率や30日間の受信タスクを予測する上で優れた性能を示し、EHRデータの空間性を扱う上での有効性を示している。
再現性とさらなる研究のために、コードをhttps://github.com/yhzhu99/PRISM.comで公開しました。
Electronic Health Records (EHRs) contain a wealth of patient data; however, the sparsity of EHRs data often presents significant challenges for predictive modeling. Conventional imputation methods inadequately distinguish between real and imputed data, leading to potential inaccuracies of patient representations. To address these issues, we introduce PRISM, a framework that indirectly imputes data by leveraging prototype representations of similar patients, thus ensuring compact representations that preserve patient information. PRISM also includes a feature confidence learner module, which evaluates the reliability of each feature considering missing statuses. Additionally, PRISM introduces a new patient similarity metric that accounts for feature confidence, avoiding overreliance on imprecise imputed values. Our extensive experiments on the MIMIC-III, MIMIC-IV, PhysioNet Challenge 2012, eICU datasets demonstrate PRISM's superior performance in predicting in-hospital mortality and 30-day readmission tasks, showcasing its effectiveness in handling EHR data sparsity. For the sake of reproducibility and further research, we have made the code publicly available at https://github.com/yhzhu99/PRISM. | 翻訳日:2024-05-29 12:08:44 公開日:2024-05-27 |
# 自律走行システムにおける物体検出のための周辺レーダ/ライダーの時間融合
Timely Fusion of Surround Radar/Lidar for Object Detection in Autonomous Driving Systems ( http://arxiv.org/abs/2309.04806v3 ) ライセンス: Link先を確認 | Wenjing Xie, Tao Hu, Neiwen Ling, Guoliang Xing, Chun Jason Xue, Nan Guan, | (参考訳) RadarとLidarのセンサーデータは、その補完的な利点を十分に活用し、自律運転システムのための周囲のより正確な再構築を提供する。
Surround Radar/Lidarは、最小限のコストで360度ビューをサンプリングできる。
しかし、本質的な物理的制約のため、Radarの周囲の回転速度、すなわちRadarデータフレームを生成する周波数は、Lidarの周囲よりもはるかに低い。
既存のRadar/Lidar融合法は、自律走行システムの高応答性要件を満たすことができないRadarの低周波で動作する必要があるが、本稿では、現状のオブジェクト検出モデルMVDNetに基づいて、Radar/Lidarを低周波ではなく、より高速なLidarのみに制限された作業周波数でヒューズする方法を開発した。
MVDNetはRadar/Lidarから時間的に不整合なデータを扱うので、遅いRadarデータフレームを待つのではなく、新しいLidarデータフレームが到着した時点で核融合を行うことができます。
しかし、時間的に不整合なRadar/LidarデータにMVDNetを直接適用すると、オブジェクト検出精度が大幅に低下する。
本稿では、MVDNetにおける時間的冗長性を探究し、入力データの時間的不整合を許容できるようにトレーニング手順を強化することにより、高い出力周波数を少ない精度で達成できることを示す。
トレーニング強化の様々な方法を探求し、それらを実験と定量的に比較する。
Fusing Radar and Lidar sensor data can fully utilize their complementary advantages and provide more accurate reconstruction of the surrounding for autonomous driving systems. Surround Radar/Lidar can provide 360-degree view sampling with the minimal cost, which are promising sensing hardware solutions for autonomous driving systems. However, due to the intrinsic physical constraints, the rotating speed of surround Radar, and thus the frequency to generate Radar data frames, is much lower than surround Lidar. Existing Radar/Lidar fusion methods have to work at the low frequency of surround Radar, which cannot meet the high responsiveness requirement of autonomous driving systems.This paper develops techniques to fuse surround Radar/Lidar with working frequency only limited by the faster surround Lidar instead of the slower surround Radar, based on the state-of-the-art object detection model MVDNet. The basic idea of our approach is simple: we let MVDNet work with temporally unaligned data from Radar/Lidar, so that fusion can take place at any time when a new Lidar data frame arrives, instead of waiting for the slow Radar data frame. However, directly applying MVDNet to temporally unaligned Radar/Lidar data greatly degrades its object detection accuracy. The key information revealed in this paper is that we can achieve high output frequency with little accuracy loss by enhancing the training procedure to explore the temporal redundancy in MVDNet so that it can tolerate the temporal unalignment of input data. We explore several different ways of training enhancement and compare them quantitatively with experiments. | 翻訳日:2024-05-29 12:08:44 公開日:2024-05-27 |
# 帰納的学習のシャープ一般化--局所ラデマチャー複素性アプローチ
Sharp Generalization of Transductive Learning: A Transductive Local Rademacher Complexity Approach ( http://arxiv.org/abs/2309.16858v2 ) ライセンス: Link先を確認 | Yingzhen Yang, | (参考訳) 本稿では,トランスダクティブ学習手法の一般化性能を分析し,この領域での新しいアルゴリズムの開発を促すための新しいツールであるTransductive Local Complexity (TLC)を紹介する。
本研究は, 局所ラドマチャー複雑度(LRC)の概念をトランスダクティブ・セッティングに拡張し, インダクティブ・セッティングにおけるLRC手法の典型的解析と比較し, 重要な, 斬新な修正を取り入れたものである。
LRCは帰納的モデル解析の強力なツールとして広く用いられており、非パラメトリック回帰の分類とミニマックスレートの急激な一般化バウンダリを提供するが、ローカライズされたRademacher複雑性に基づくツールが帰納的学習のために開発できるかどうかには疑問が残る。
我々のゴールは、RCが確立した帰納的過剰リスク境界と整合するトランスダクティブ学習の急激な限界を達成することである。
TLCの導入によって、このオープンな問題に対する決定的な答えが得られます。
テストトレイン実験プロセスの上限に対して, 新規で鋭い濃度不等式を最初に確立することにより, TLCを構築した。
剥離戦略と新しい代理分散演算子を用いて, 誘導条件における古典的LCCに基づく過剰リスクと整合した, トランスダクティブ設定における新しい過剰リスクを導出する。
TLCの適用例として,この新たなツールを用いてトランスダクティブカーネル学習(TKL)モデルを解析し,同じ仮定の下で現在最先端技術によって提供されるものよりもはるかに過大なリスク境界を導出する。
さらに, テストトレイン法における濃度不等式は, 置換を伴わない一様サンプリングの設定において, ランダム変数を含む実験過程の一般超過に対して, 急激な濃度不等式を導出するために用いられる。
我々の導出した境界の鋭さは、同じ条件下での既存の濃度不等式と比較される。
We introduce a new tool, Transductive Local Complexity (TLC), designed to analyze the generalization performance of transductive learning methods and inspire the development of new algorithms in this domain. Our work extends the concept of the popular Local Rademacher Complexity (LRC) to the transductive setting, incorporating significant and novel modifications compared to the typical analysis of LRC methods in the inductive setting. While LRC has been widely used as a powerful tool for analyzing inductive models, providing sharp generalization bounds for classification and minimax rates for nonparametric regression, it remains an open question whether a localized Rademacher complexity-based tool can be developed for transductive learning. Our goal is to achieve sharp bounds for transductive learning that align with the inductive excess risk bounds established by LRC. We provide a definitive answer to this open problem with the introduction of TLC. We construct TLC by first establishing a novel and sharp concentration inequality for the supremum of a test-train empirical processes. Using a peeling strategy and a new surrogate variance operator, we derive the a novel excess risk bound in the transductive setting which is consistent with the classical LRC-based excess risk bound in the inductive setting. As an application of TLC, we employ this new tool to analyze the Transductive Kernel Learning (TKL) model, deriving sharper excess risk bounds than those provided by the current state-of-the-art under the same assumptions. Additionally, the concentration inequality for the test-train process is employed to derive a sharp concentration inequality for the general supremum of empirical processes involving random variables in the setting of uniform sampling without replacement. The sharpness of our derived bound is compared to existing concentration inequalities under the same conditions. | 翻訳日:2024-05-29 11:58:46 公開日:2024-05-27 |
# オフライン強化学習を支援する合成データによる事前学習
Pre-training with Synthetic Data Helps Offline Reinforcement Learning ( http://arxiv.org/abs/2310.00771v4 ) ライセンス: Link先を確認 | Zecheng Wang, Che Wang, Zixuan Dong, Keith Ross, | (参考訳) 近年,オフライン深部強化学習(DRL)では,大規模な言語コーパスを持つ事前学習型決定変換器が下流の性能を向上させることが示されている(Reid et al , 2022)。
自然な疑問は、このパフォーマンス向上が言語事前学習でのみ達成できるのか、それとも言語を含まないより単純な事前学習スキームで達成できるのかである。
本稿では、まず、言語が性能向上に不可欠ではないことを示すとともに、少数の更新のための合成IDデータによる事前学習は、大規模言語コーパスによる事前学習による性能向上と一致し得ることを示し、さらに、1ステップのマルコフ連鎖によって生成されたデータによる事前学習は、パフォーマンスをさらに向上させることができる。
これらの実験結果に触発されて、一般的なオフラインDRLアルゴリズムである事前学習型保守的Q-Learning(CQL)について検討する。
驚くべきことに、少数の更新のための単純な合成データによる事前トレーニングは、CQLを改善し、D4RL Gymロコモーションデータセットの一貫性のあるパフォーマンス向上を提供する。
本研究の結果は, オフラインDRLの事前学習の重要性だけでなく, 極めて単純な機構で事前学習データを合成し, 生成できることを示唆している。
Recently, it has been shown that for offline deep reinforcement learning (DRL), pre-training Decision Transformer with a large language corpus can improve downstream performance (Reid et al., 2022). A natural question to ask is whether this performance gain can only be achieved with language pre-training, or can be achieved with simpler pre-training schemes which do not involve language. In this paper, we first show that language is not essential for improved performance, and indeed pre-training with synthetic IID data for a small number of updates can match the performance gains from pre-training with a large language corpus; moreover, pre-training with data generated by a one-step Markov chain can further improve the performance. Inspired by these experimental results, we then consider pre-training Conservative Q-Learning (CQL), a popular offline DRL algorithm, which is Q-learning-based and typically employs a Multi-Layer Perceptron (MLP) backbone. Surprisingly, pre-training with simple synthetic data for a small number of updates can also improve CQL, providing consistent performance improvement on D4RL Gym locomotion datasets. The results of this paper not only illustrate the importance of pre-training for offline DRL but also show that the pre-training data can be synthetic and generated with remarkably simple mechanisms. | 翻訳日:2024-05-29 11:49:02 公開日:2024-05-27 |
# 多層ニューラルネットワークにおけるノード摂動による効果的な学習
Effective Learning with Node Perturbation in Multi-Layer Neural Networks ( http://arxiv.org/abs/2310.00965v4 ) ライセンス: Link先を確認 | Sander Dalm, Marcel van Gerven, Nasir Ahmad, | (参考訳) バックプロパゲーション(BP)は、ディープニューラルネットワークモデルのパラメータをトレーニングするための支配的かつ最も成功した方法である。
しかし、BPは2つの計算的に異なるフェーズに依存しており、生物学的学習の十分な説明を提供しておらず、不連続性やノイズのあるノードダイナミクスを持つネットワークのトレーニングに応用することは困難である。
ノード摂動(NP)は,ネットワークアクティベーションへのノイズ注入による学習を提案し,その後の損失変化の測定を行う。
NPは2つの前方(推論)パスに依存し、ネットワークデリバティブを使用しず、生物学的システムにおける学習のモデルとして提案されている。
しかし、標準NPは、非誘導ノイズベースの探索プロセスのため、データ非効率で不安定である。
本研究では、NPの異なる定式化について検討し、指向性微分の概念と関連づけるとともに、レイヤーワイズ入力のデコレーション機構と組み合わせる。
各層での入力デコリレーションと指向性デリバティブとの密接な整合性は、パラメータ収束の大幅な向上とテストデータの性能向上によりNP学習の性能を強く向上させ、BPに近づいた。
さらに、新しい定式化により、ノイズプロセス自体がアクセス不能なノイズシステムへの適用が可能となる。
Backpropagation (BP) remains the dominant and most successful method for training parameters of deep neural network models. However, BP relies on two computationally distinct phases, does not provide a satisfactory explanation of biological learning, and can be challenging to apply for training of networks with discontinuities or noisy node dynamics. By comparison, node perturbation (NP) proposes learning by the injection of noise into network activations, and subsequent measurement of the induced loss change. NP relies on two forward (inference) passes, does not make use of network derivatives, and has been proposed as a model for learning in biological systems. However, standard NP is highly data inefficient and unstable due to its unguided noise-based search process. In this work, we investigate different formulations of NP and relate it to the concept of directional derivatives as well as combining it with a decorrelating mechanism for layer-wise inputs. We find that a closer alignment with directional derivatives together with input decorrelation at every layer strongly enhances performance of NP learning with large improvements in parameter convergence and much higher performance on the test data, approaching that of BP. Furthermore, our novel formulation allows for application to noisy systems in which the noise process itself is inaccessible. | 翻訳日:2024-05-29 11:49:02 公開日:2024-05-27 |
# 一般費用のエネルギー誘導型連続エントロピーバリアセンター推定
Energy-Guided Continuous Entropic Barycenter Estimation for General Costs ( http://arxiv.org/abs/2310.01105v3 ) ライセンス: Link先を確認 | Alexander Kolesov, Petr Mokrov, Igor Udovichenko, Milena Gazdieva, Gudmund Pammer, Anastasis Kratsios, Evgeny Burnaev, Alexander Korotin, | (参考訳) 最適輸送(OT)バリセンターは、幾何学的性質を捉えながら確率分布を平均化する方法である。
要するに、バリセンターのタスクは、OTの相違点が与えられた確率分布の集合の平均を取ることである。
本稿では,任意のOTコスト関数に対して連続的エントロピーOT(EOT)バリセンタを近似する新しいアルゴリズムを提案する。
我々のアプローチは、最近MLコミュニティの注目を集めている弱いOTに基づくEOT問題の二重再構成に基づいている。
その斬新さ以外にも、我々の方法にはいくつかの利点がある。
一 回収されたソリューションの品質限界を確立すること。
(二)この手法は、関心事問題によく調整されたアルゴリズムを使用できるエネルギーベースモデル(EBM)学習手順とシームレスに相互接続する。
三 min-max、強化、その他の複雑な技術的トリックを避けるための直感的な最適化スキームを提供する。
検証には,非ユークリッドコスト関数を含む,いくつかの低次元シナリオと画像空間の設定を検討する。
さらに,事前学習された生成モデルによって生成された画像多様体上でバリセンタを学習し,実世界の応用に向けて新たな方向性を開拓する実践的課題について検討する。
Optimal transport (OT) barycenters are a mathematically grounded way of averaging probability distributions while capturing their geometric properties. In short, the barycenter task is to take the average of a collection of probability distributions w.r.t. given OT discrepancies. We propose a novel algorithm for approximating the continuous Entropic OT (EOT) barycenter for arbitrary OT cost functions. Our approach is built upon the dual reformulation of the EOT problem based on weak OT, which has recently gained the attention of the ML community. Beyond its novelty, our method enjoys several advantageous properties: (i) we establish quality bounds for the recovered solution; (ii) this approach seamlessly interconnects with the Energy-Based Models (EBMs) learning procedure enabling the use of well-tuned algorithms for the problem of interest; (iii) it provides an intuitive optimization scheme avoiding min-max, reinforce and other intricate technical tricks. For validation, we consider several low-dimensional scenarios and image-space setups, including non-Euclidean cost functions. Furthermore, we investigate the practical task of learning the barycenter on an image manifold generated by a pretrained generative model, opening up new directions for real-world applications. | 翻訳日:2024-05-29 11:49:02 公開日:2024-05-27 |
# エンタングルメントエントロピー計算のための再仮定に基づく量子モンテカルロ
Resummation-based Quantum Monte Carlo for Entanglement Entropy Computation ( http://arxiv.org/abs/2310.01490v4 ) ライセンス: Link先を確認 | Menghan Song, Ting-Tung Wang, Zi Yang Meng, | (参考訳) 最近開発されたSU($N$)スピンとループガスモデルに対する量子モンテカルロ法に基づいて, エンタングルメントエントロピー(EE)を計算し, 効率を大幅に向上させるアルゴリズムResumEEを開発した。
我々のResumEEは指数関数的に小さな値である$\langle e^{-S^{(2)}}\rangle$の計算を指数関数的に高速化するが、$S^{(2)}$はR\'enyi EEであり、一般的な2D量子SU($N$)スピンモデルに対して$S^{(2)}$は容易に高精度に計算できる。
提案したS^{(2)}$ 1Dおよび2D SU($2$)ハイゼンベルクスピンシステムの推定器を用いてアルゴリズムをベンチマークし、その優れた性能を明らかにするとともに、2D SU($N$)ハイゼンベルクモデル上でのN'eel-to-VBS遷移のエンタングルメントスケーリングデータを検出する。
我々のResumEEアルゴリズムは、SU($N$)スピンモデルの絡み合いエントロピーを連続$N$で正確に評価し、高絡み合いの量子物質に対する共形場理論データへの信頼性の高いアクセスを行う。
Based on the recently developed resummation-based quantum Monte Carlo method for the SU($N$) spin and loop-gas models, we develop a new algorithm, dubbed ResumEE, to compute the entanglement entropy (EE) with greatly enhanced efficiency. Our ResumEE exponentially speeds up the computation of the exponentially small value of the $\langle e^{-S^{(2)}}\rangle$, where $S^{(2)}$ is the 2nd order R\'enyi EE, such that the $S^{(2)}$ for a generic 2D quantum SU($N$) spin models can be readily computed with high accuracy. We benchmark our algorithm with the previously proposed estimators of $S^{(2)}$ on 1D and 2D SU($2$) Heisenberg spin systems to reveal its superior performance and then use it to detect the entanglement scaling data of the N\'eel-to-VBS transition on 2D SU($N$) Heisenberg model with continuously varying $N$. Our ResumEE algorithm is efficient for precisely evaluating the entanglement entropy of SU($N$) spin models with continuous $N$ and reliable access to the conformal field theory data for the highly entangled quantum matter. | 翻訳日:2024-05-29 11:49:02 公開日:2024-05-27 |
# LLMエージェントの協調メカニズムを探る:社会心理学の視点から
Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View ( http://arxiv.org/abs/2310.02124v3 ) ライセンス: Link先を確認 | Jintian Zhang, Xin Xu, Ningyu Zhang, Ruibo Liu, Bryan Hooi, Shumin Deng, | (参考訳) 自然言語処理(NLP)システムは、複雑な社会環境においてますます採用されているため、押し付けクエリが出現する: これらのNLPシステムは、複数の大規模言語モデル(LLM)からなるマルチエージェント社会において、人間のような協調的な知性を反映できるだろうか?
本稿では,理論的な洞察と実践的な実験を融合させることにより,現代のNLPシステム間の協調機構を解明する。
我々は, LLMエージェントからなる4つのユニークな「社会」をつくり, それぞれのエージェントは, 特定の「潮流」を特徴とし, 異なる「思考パターン」(議論や考察)と協調する。
これらのマルチエージェント社会を3つのベンチマークデータセットで評価することで、一部の協力戦略が従来のトップ層アプローチよりも優れているだけでなく、効率を最適化する(APIトークンを少なくする)ことに気付く。
さらに, LLM エージェントは, 整合性や合意到達, 基礎的社会心理学理論の反映など, 人為的な社会的行動を示すことが示唆された。
結論として、社会心理学からの洞察を統合して、LLMエージェントの協調を文脈化し、LLMエージェントの協調メカニズムに関するさらなる研究を刺激する。
私たちはコードとデータセットを共有することを約束します。
この将来性のある道のさらなる研究をねらっている。
As Natural Language Processing (NLP) systems are increasingly employed in intricate social environments, a pressing query emerges: Can these NLP systems mirror human-esque collaborative intelligence, in a multi-agent society consisting of multiple large language models (LLMs)? This paper probes the collaboration mechanisms among contemporary NLP systems by melding practical experiments with theoretical insights. We fabricate four unique `societies' comprised of LLM agents, where each agent is characterized by a specific `trait' (easy-going or overconfident) and engages in collaboration with a distinct `thinking pattern' (debate or reflection). Through evaluating these multi-agent societies on three benchmark datasets, we discern that certain collaborative strategies not only outshine previous top-tier approaches, but also optimize efficiency (using fewer API tokens). Moreover, our results further illustrate that LLM agents manifest human-like social behaviors, such as conformity and consensus reaching, mirroring foundational social psychology theories. In conclusion, we integrate insights from social psychology to contextualize the collaboration of LLM agents, inspiring further investigations into the collaboration mechanism for LLMs. We commit to sharing our code and datasets\footnote{\url{https://github.com/zjunlp/MachineSoM}.}, hoping to catalyze further research in this promising avenue. | 翻訳日:2024-05-29 11:49:02 公開日:2024-05-27 |
# GRAPES: スケーラブルなグラフニューラルネットワークのためのグラフのサンプル学習
GRAPES: Learning to Sample Graphs for Scalable Graph Neural Networks ( http://arxiv.org/abs/2310.03399v2 ) ライセンス: Link先を確認 | Taraneh Younesian, Daniel Daza, Emile van Krieken, Thiviyan Thanapalasingam, Peter Bloem, | (参考訳) グラフニューラルネットワーク(GNN)は、隣人からの情報を集約することでノードを表現することを学習する。
GNNの深度が増加するにつれて、受容野は指数関数的に増加し、高いメモリコストが生じる。
いくつかの既存手法では、ノードの小さなサブセットをサンプリングし、GNNをもっと大きなグラフにスケールすることで、この問題に対処している。
これらの手法は主に、隣接するノードがしばしば同じラベルを共有するホモフィルスグラフで評価される。
しかし、これらの手法のほとんどは、異なるグラフやタスクをまたいで一般化しない静的ヒューリスティックに依存している。
サンプリング法は各グラフの複雑な構造特性に適応して適応すべきである。
そこで本研究では,GNNのトレーニングに不可欠なノードの集合を識別する適応サンプリング手法であるGRAPESを紹介する。
GRAPESは第2のGNNを訓練し、下流タスクの目的を最適化することでノードサンプリング確率を予測する。
我々は,同好性および異好性グラフを含む様々なノード分類ベンチマーク上でGRAPESを評価する。
GRAPESの精度とスケーラビリティ,特にマルチラベル異種グラフにおける有効性を示す。
他のサンプリング方法とは異なり、GRAPESはより小さいサンプルサイズでも高い精度を維持しており、従って巨大なグラフにスケールすることができる。
私たちのコードはhttps://github.com/dfdazac/grapes.comで公開されています。
Graph neural networks (GNNs) learn to represent nodes by aggregating information from their neighbors. As GNNs increase in depth, their receptive field grows exponentially, leading to high memory costs. Several existing methods address this by sampling a small subset of nodes, scaling GNNs to much larger graphs. These methods are primarily evaluated on homophilous graphs, where neighboring nodes often share the same label. However, most of these methods rely on static heuristics that may not generalize across different graphs or tasks. We argue that the sampling method should be adaptive, adjusting to the complex structural properties of each graph. To this end, we introduce GRAPES, an adaptive sampling method that learns to identify the set of nodes crucial for training a GNN. GRAPES trains a second GNN to predict node sampling probabilities by optimizing the downstream task objective. We evaluate GRAPES on various node classification benchmarks, involving homophilous as well as heterophilous graphs. We demonstrate GRAPES' effectiveness in accuracy and scalability, particularly in multi-label heterophilous graphs. Unlike other sampling methods, GRAPES maintains high accuracy even with smaller sample sizes and, therefore, can scale to massive graphs. Our code is publicly available at https://github.com/dfdazac/grapes. | 翻訳日:2024-05-29 11:49:02 公開日:2024-05-27 |
# TiC: コンボリューションにおけるビジョントランスフォーマーの探索
TiC: Exploring Vision Transformer in Convolution ( http://arxiv.org/abs/2310.04134v2 ) ライセンス: Link先を確認 | Song Zhang, Qingzhong Wang, Jiang Bian, Haoyi Xiong, | (参考訳) 視覚変換器(ViT)から派生したモデルは音素的に急増しているが、事前訓練されたモデルは、位置エンコーディングのサンプリングや様々な視覚タスクの柔軟性の制限など、アーキテクチャや構成を変更することなく、任意の解像度画像にシームレスに適応することはできない。
例えば、ViT-Hugeに基づくSegment Anything Model (SAM)では、すべての入力イメージを1024$\times$1024にリサイズする必要がある。
この制限を克服するため、我々は、標準、拡張、奥行きを含む一般化した畳み込みの中に自己認識を組み込んだマルチヘッド自己認識畳み込み(MSA-Conv)を提案する。
MSA-Convの使用により、画像サイズが大きくなるにつれてコストが増大するViTのグローバルな注目よりも計算コストが削減される。
その後,MSA-Convを用いた画像分類の概念実証として,多方向サイクルシフト機構とインターポーリング機構という2つのキャパシティ強化戦略が提案されている。
TiCの全体的な有効性を検証するため、広範囲な実験が実施されている。
さらに,MSA-Convによる性能改善と2つの能力強化戦略を別々に検討した。
MSA-Convは、ImageNet-1Kの最先端技術に匹敵するTiCを実現することで、私たちの目標を達成しています。
コードはhttps://github.com/zs670980918/MSA-Conv.comでリリースされる。
While models derived from Vision Transformers (ViTs) have been phonemically surging, pre-trained models cannot seamlessly adapt to arbitrary resolution images without altering the architecture and configuration, such as sampling the positional encoding, limiting their flexibility for various vision tasks. For instance, the Segment Anything Model (SAM) based on ViT-Huge requires all input images to be resized to 1024$\times$1024. To overcome this limitation, we propose the Multi-Head Self-Attention Convolution (MSA-Conv) that incorporates Self-Attention within generalized convolutions, including standard, dilated, and depthwise ones. Enabling transformers to handle images of varying sizes without retraining or rescaling, the use of MSA-Conv further reduces computational costs compared to global attention in ViT, which grows costly as image size increases. Later, we present the Vision Transformer in Convolution (TiC) as a proof of concept for image classification with MSA-Conv, where two capacity enhancing strategies, namely Multi-Directional Cyclic Shifted Mechanism and Inter-Pooling Mechanism, have been proposed, through establishing long-distance connections between tokens and enlarging the effective receptive field. Extensive experiments have been carried out to validate the overall effectiveness of TiC. Additionally, ablation studies confirm the performance improvement made by MSA-Conv and the two capacity enhancing strategies separately. Note that our proposal aims at studying an alternative to the global attention used in ViT, while MSA-Conv meets our goal by making TiC comparable to state-of-the-art on ImageNet-1K. Code will be released at https://github.com/zs670980918/MSA-Conv. | 翻訳日:2024-05-29 11:49:02 公開日:2024-05-27 |
# 多ビット系における動的特異点の分類のための量子カーネル
Quantum kernels for classifying dynamical singularities in a multiqubit system ( http://arxiv.org/abs/2310.04300v3 ) ライセンス: Link先を確認 | Diego Tancara, José Fredes, Ariel Norambuena, | (参考訳) 動的量子相転移(英: Dynamical quantum phase transition)は、古典的な類似を持たない平衡状態と崩壊対称性を含む臨界現象である。
しかし、有限サイズの系が解析されると、速度関数の動的特異点が出現し、パラメータが変更されたときの物理的特徴が困難になる。
本稿では,量子カーネルを用いた量子支援ベクトルマシン(QSVM)アルゴリズムについて報告する。
我々は、任意の磁場を受ける長距離相互作用量子ビットを$N$で説明し、クエンチダイナミクスを誘導する。
物理引数に着想を得て、基底状態多様体に着想を得た2つの異なる量子カーネルと、単一状態トモグラフィーに基づく2つの量子カーネルを導入する。
我々の精度と適応性の結果は、この量子力学臨界問題を物理的にインスピレーションされた量子カーネルを用いて効率的に解くことができることを示している。
さらに、時間依存場、量子マスター方程式、および量子ビット数を増加させる際の結果も拡張する。
Dynamical quantum phase transition is a critical phenomenon involving out-of-equilibrium states and broken symmetries without classical analogy. However, when finite-sized systems are analyzed, dynamical singularities of the rate function can appear, leading to a challenging physical characterization when parameters are changed. Here, we report a quantum support vector machine (QSVM) algorithm that uses quantum Kernels to classify dynamical singularities of the rate function for a multiqubit system. We illustrate our approach using $N$ long-range interacting qubits subjected to an arbitrary magnetic field, which induces a quench dynamics. Inspired by physical arguments, we introduce two different quantum Kernels, one inspired by the ground state manifold and the other based on a single state tomography. Our accuracy and adaptability results show that this quantum dynamical critical problem can be efficiently solved using physically inspiring quantum Kernels. Moreover, we extend our results for the case of time-dependent fields, quantum master equation, and when we increase the number of qubits. | 翻訳日:2024-05-29 11:49:02 公開日:2024-05-27 |
# 大規模言語モデルによる最適化に向けて
Towards Optimizing with Large Language Models ( http://arxiv.org/abs/2310.05204v3 ) ライセンス: Link先を確認 | Pei-Fu Guo, Ying-Hsuan Chen, Yun-Da Tsai, Shou-De Lin, | (参考訳) 本研究では,様々なタスクやデータサイズにまたがるLLMの最適化能力の評価を行う。
これらのタスクはそれぞれ独自の最適化ドメインに対応しており、対話的なプロンプトでこれらのタスクを実行するにはLSMが必要である。
すなわち、各最適化ステップにおいて、LLMは過去の生成した解からそれらの値で新しい解を生成し、次に次の最適化ステップで新しい解を評価し検討する。
さらに,様々な視点からタスクパフォーマンスを総合的に評価するための3つの異なる指標を紹介した。
これらのメトリクスは、広範囲の最適化タスクにわたるLLMパフォーマンスの評価に適用できる利点を提供し、テストサンプルのバリエーションに敏感でない。
これらの測定値を適用することにより,LLMは小型サンプルを扱う際に,強力な最適化能力を示すことが明らかとなった。
しかし、それらの性能はデータサイズや値などの要因に大きく影響され、LLMの最適化タスクの領域におけるさらなる研究の重要性が強調されている。
In this work, we conduct an assessment of the optimization capabilities of LLMs across various tasks and data sizes. Each of these tasks corresponds to unique optimization domains, and LLMs are required to execute these tasks with interactive prompting. That is, in each optimization step, the LLM generates new solutions from the past generated solutions with their values, and then the new solutions are evaluated and considered in the next optimization step. Additionally, we introduce three distinct metrics for a comprehensive assessment of task performance from various perspectives. These metrics offer the advantage of being applicable for evaluating LLM performance across a broad spectrum of optimization tasks and are less sensitive to variations in test samples. By applying these metrics, we observe that LLMs exhibit strong optimization capabilities when dealing with small-sized samples. However, their performance is significantly influenced by factors like data size and values, underscoring the importance of further research in the domain of optimization tasks for LLMs. | 翻訳日:2024-05-29 11:49:01 公開日:2024-05-27 |
# グラウンドセグメンテーションを活用したアウトリア・ローバスト長期ロボットマッピング
Outlier-Robust Long-Term Robotic Mapping Leveraging Ground Segmentation ( http://arxiv.org/abs/2405.11176v3 ) ライセンス: Link先を確認 | Hyungtae Lim, | (参考訳) 深層学習に基づく知覚技術と同時局所化マッピング(SLAM)の顕著な進歩にもかかわらず、ロボットがモデル化された経験の外でシナリオに遭遇した場合、これらのアプローチの失敗に直面することができる(この用語は従来のパターン発見とデータ駆動アプローチの両方を含んでいる)。
特に、学習ベースの手法は、訓練されていない場面で運用する際に破滅的な失敗をする傾向があるため、現実世界のロボティクスサービスやSLAMコンペティションなど、さまざまなシナリオにおいて、最初から機能する従来の堅牢なアプローチには、依然として需要がある。
さらに、実世界の環境の動的な性質は、時間とともに環境が変化し、動く物体の存在が特徴であり、ロボットが位置や経路計画から妨げられるような望ましくないデータポイントにつながります。
そのため,マルチセッションSLAMや静的マップ構築など,長期マップ管理を可能にする手法が不可欠である。
そこで,まず最初に提案する,頑健な長期ロボットマッピングシステムを実現する。
i) 接地を断る高速で頑健な接地セグメンテーション(英語版)は特徴がなく、したがって局所化や写像には役に立たない。
そして、卒業非凸性(GNC)の概念を取り入れて、提案する。
二 特徴整合結果における総外乱の存在を克服する接地区分付き外乱登録
第三に,提案したGNCベース登録だけでなく,GNCソルバを用いた階層的マルチセッションSLAMは,外乱ループ候補に対して堅牢である。
最後に提案します
(4) 都市環境における移動物体の大半が地中との接触が必然的に避けられないという観測に基づいて,環境中の移動物体の存在を処理できるインスタンス対応静的マップビルディング。
Despite the remarkable advancements in deep learning-based perception technologies and simultaneous localization and mapping (SLAM), one can face the failure of these approaches when robots encounter scenarios outside their modeled experiences (here, the term modeling encompasses both conventional pattern finding and data-driven approaches). In particular, because learning-based methods are prone to catastrophic failure when operated in untrained scenes, there is still a demand for conventional yet robust approaches that work out of the box in diverse scenarios, such as real-world robotic services and SLAM competitions. In addition, the dynamic nature of real-world environments, characterized by changing surroundings over time and the presence of moving objects, leads to undesirable data points that hinder a robot from localization and path planning. Consequently, methodologies that enable long-term map management, such as multi-session SLAM and static map building, become essential. Therefore, to achieve a robust long-term robotic mapping system that can work out of the box, first, I propose (i) fast and robust ground segmentation to reject the ground points, which are featureless and thus not helpful for localization and mapping. Then, by employing the concept of graduated non-convexity (GNC), I propose (ii) outlier-robust registration with ground segmentation that overcomes the presence of gross outliers within the feature matching results, and (iii) hierarchical multi-session SLAM that not only uses our proposed GNC-based registration but also employs a GNC solver to be robust against outlier loop candidates. Finally, I propose (iv) instance-aware static map building that can handle the presence of moving objects in the environment based on the observation that most moving objects in urban environments are inevitably in contact with the ground. | 翻訳日:2024-05-29 11:28:48 公開日:2024-05-27 |
# 潜在空間階層型EMM拡散モデル学習
Learning Latent Space Hierarchical EBM Diffusion Models ( http://arxiv.org/abs/2405.13910v2 ) ライセンス: Link先を確認 | Jiali Cui, Tian Han, | (参考訳) 本研究は,エネルギーベース先行モデルと多層ジェネレータモデルの学習問題について考察する。
トップダウン階層構造で構成された複数の潜伏変数を含む多層ジェネレータモデルは、通常ガウス先行モデルを仮定する。
このような先行モデルはモデリング表現性に制限されることができ、それによって発生器後部と先行モデルの間のギャップが生じ、これは先行ホール問題と呼ばれる。
近年,エネルギーベースモデル(EBM)を第2段階の補完モデルとして学習し,ギャップを埋める研究が進められている。
しかし、多層ラテント空間上で定義されたESMは、非常に多モードであり、これは実際は困難であり、その結果、非効率に学習されたESMとなる。
この課題に対処するために,EBMサンプリングの負担を軽減し,ESM学習を容易にするために拡散確率的スキームを活用することを提案する。
我々は,様々な課題に先立って,拡散学習型EMMの優れた性能を示す実験を行った。
This work studies the learning problem of the energy-based prior model and the multi-layer generator model. The multi-layer generator model, which contains multiple layers of latent variables organized in a top-down hierarchical structure, typically assumes the Gaussian prior model. Such a prior model can be limited in modelling expressivity, which results in a gap between the generator posterior and the prior model, known as the prior hole problem. Recent works have explored learning the energy-based (EBM) prior model as a second-stage, complementary model to bridge the gap. However, the EBM defined on a multi-layer latent space can be highly multi-modal, which makes sampling from such marginal EBM prior challenging in practice, resulting in ineffectively learned EBM. To tackle the challenge, we propose to leverage the diffusion probabilistic scheme to mitigate the burden of EBM sampling and thus facilitate EBM learning. Our extensive experiments demonstrate a superior performance of our diffusion-learned EBM prior on various challenging tasks. | 翻訳日:2024-05-29 11:28:48 公開日:2024-05-27 |
# VB-LoRA:ベクトルバンクを用いた超高速微調整
VB-LoRA: Extreme Parameter Efficient Fine-Tuning with Vector Banks ( http://arxiv.org/abs/2405.15179v2 ) ライセンス: Link先を確認 | Yang Li, Shaobo Han, Shihao Ji, | (参考訳) 大規模言語モデルの採用が増加し、ユーザ毎やタスク毎のモデルカスタマイズの必要性が高まるにつれて、低ランク適応(LoRA)やその変種といったパラメータ効率のよい微調整(PEFT)手法は、かなりのストレージと送信コストを発生させる。
パラメータをグローバルに共有することで,行列次元,モジュール,レイヤ間の低ランク分解の障壁を突破する「分割共有」パラダイムを導入する。
パラダイムのLoRAへのインスタンス化として、提案したVB-LoRAは、共有ベクトルバンクからLoRAの低ランク行列を全て合成する。
VB-LoRAは、最先端PEFT法と比較して、同等または優れた性能を維持しながら、極端なパラメータ効率を達成する。
VB-LoRAは、自然言語理解、自然言語生成、命令チューニングタスクに有効であることを示した。
Llama2-13Bモデルを微調整する場合、VB-LoRAはLoRAの格納パラメータの0.4%しか使用していないが、優れた結果が得られる。
ソースコードはhttps://github.com/leo-yangli/VB-LoRA.comで公開されています。
As the adoption of large language models increases and the need for per-user or per-task model customization grows, the parameter-efficient fine-tuning (PEFT) methods, such as low-rank adaptation (LoRA) and its variants, incur substantial storage and transmission costs. To further reduce stored parameters, we introduce a "divide-and-share" paradigm that breaks the barriers of low-rank decomposition across matrix dimensions, modules and layers by sharing parameters globally via a vector bank. As an instantiation of the paradigm to LoRA, our proposed VB-LoRA composites all the low-rank matrices of LoRA from a shared vector bank with a differentiable top-$k$ admixture module. VB-LoRA achieves extreme parameter efficiency while maintaining comparable or better performance compared to state-of-the-art PEFT methods. Extensive experiments demonstrate the effectiveness of VB-LoRA on natural language understanding, natural language generation, and instruction tuning tasks. When fine-tuning the Llama2-13B model, VB-LoRA only uses 0.4% of LoRA's stored parameters, yet achieves superior results. Our source code is available at https://github.com/leo-yangli/VB-LoRA. | 翻訳日:2024-05-29 11:18:53 公開日:2024-05-27 |
# オープンホログラフィーにおける影響関数--エンタングルメントとレニーエントロピー
The Influence Functional in open holography: entanglement and Rényi entropies ( http://arxiv.org/abs/2310.13047v3 ) ライセンス: Link先を確認 | Pietro Pelliconi, Julian Sonner, | (参考訳) オープン量子系は、通常のユニタリ量子論として定義され、自由度の集合と結合し、観測されていない環境の r\^ole に導かれる。
ここでは、正則双対性で生じる場の理論を含む、いわゆるFeynman-Vernon Influence Functional (IF) の助けを借りて、オープン量子場理論の例を研究する。
我々は、IFの存在下で、未観測環境の効果を捉えることができるオープン有効場理論としてシステムを解釈する。
我々の主な焦点は、そのようなシステムにおけるR'enyiと絡み合いのエントロピーの計算であり、その内訳はIF(Open EFT)である。
オープン量子系におけるエンタングルメント-R'enyiエントロピーの計算の問題は驚くほどリッチであり、IFの処方薬が選択の応用によってどのように適切であるかを指摘する。
提案手法の顕著な適用例は、例えばブラックホールから放出されるホーキング放射を考える場合など、設定に重力を含める際のサブシステムの微細なエントロピーに関するものである。
このケースでは、IFの処方薬の1つがユニタリな進化と一致した回答を導き、もう1つは単に標準のETF結果を再現するだけであり、ユニタリなグローバルな進化とは矛盾することが知られている。
任意の次元における漸近的にAdS重力に対するこれらの結果を確立し、物質結合JT重力の場合のIFに対する明示的な解析式を2次元で示す。
Open quantum systems are defined as ordinary unitary quantum theories coupled to a set of external degrees of freedom, which are introduced to take on the r\^ole of an unobserved environment. Here we study examples of open quantum field theories, with the aid of the so-called Feynman- Vernon Influence Functional (IF), including field theories that arise in holographic duality. We interpret the system in the presence of an IF as an open effective field theory, able to capture the effect of the unobserved environment. Our main focus is on computing R\'enyi and entanglement entropies in such systems, whose description from the IF, or "open EFT", point of view we develop in this paper. The issue of computing the entanglement-R\'enyi entropies in open quantum systems is surprisingly rich, and we point out how different prescriptions for the IF may be appropriate depending on the application of choice. A striking application of our methods concerns the fine-grained entropy of subsystems when including gravity in the setup, for example when considering the Hawking radiation emitted by black holes. In this case we show that one prescription for the IF leads to answers consistent with unitary evolution, while the other merely reproduces standard EFT results, well known to be inconsistent with unitary global evolution. We establish these results for asymptotically AdS gravity in arbitrary dimensions, and illustrate them with explicit analytical expressions for the IF in the case of matter-coupled JT gravity in two dimensions. | 翻訳日:2024-05-29 10:35:18 公開日:2024-05-27 |
# 時系列因果グラフの抽象化による全効果の同定可能性
Identifiability of total effects from abstractions of time series causal graphs ( http://arxiv.org/abs/2310.14691v6 ) ライセンス: Link先を確認 | Charles K. Assaad, Emilie Devijver, Eric Gaussier, Gregor Gössler, Anouar Meynaoui, | (参考訳) 実例では,真の因果グラフの抽象化にのみアクセス可能な状況において,観測時系列からの介入による全効果の識別可能性の問題について検討する。
ここでは、全てのラタグ因果関係を混同するが、ラタグ関係と即時関係を区別する拡張要約因果グラフと、因果関係間の遅延を示さない要約因果グラフの2つの抽象化について考察する。
要約因果グラフでは,全効果が常に識別可能であることを示し,要約因果グラフにおける識別可能性について十分な条件を提供する。
さらに、特定可能な場合の総効果を推定するための調整セットも提供します。
We study the problem of identifiability of the total effect of an intervention from observational time series in the situation, common in practice, where one only has access to abstractions of the true causal graph. We consider here two abstractions: the extended summary causal graph, which conflates all lagged causal relations but distinguishes between lagged and instantaneous relations, and the summary causal graph which does not give any indication about the lag between causal relations. We show that the total effect is always identifiable in extended summary causal graphs and provide sufficient conditions for identifiability in summary causal graphs. We furthermore provide adjustment sets allowing to estimate the total effect whenever it is identifiable. | 翻訳日:2024-05-29 10:35:18 公開日:2024-05-27 |
# 軽量CNNネットワークによる光流の輝度一貫性の破壊
Breaking of brightness consistency in optical flow with a lightweight CNN network ( http://arxiv.org/abs/2310.15655v2 ) ライセンス: Link先を確認 | Yicheng Lin, Shuo Wang, Yunlong Jiang, Bin Han, | (参考訳) スパース光フローは様々なコンピュータビジョンタスクで広く使われているが、輝度の一貫性がハイダイナミックレンジ(HDR)環境での性能を制限すると仮定する。
本研究では,光の強い畳み込み特性と強い不変性を持つコーナーを抽出するために,軽量ネットワークを用いる。
畳み込み特性の整合性に対する光学流法の典型的な輝度の整合性を変化させると、光ローバストハイブリッド光流法が得られる。
提案するネットワークは,4つの畳み込み層のみを使用して特徴マップとスコアマップを同時に抽出するため,商用CPU上で190 FPSで動作する。
浅層ネットワークを直接訓練することは難しいため、深層ネットワークは信頼性マップを計算してそれを支援するように設計されている。
両ネットワークでエンドツーエンドの教師なしトレーニングモードが使用される。
提案手法の有効性を検証するため, 動的照明下でのコーナーリピータビリティと原点光流のマッチング性能を比較した。
さらに、VINS-Monoの光学フロー法を置き換えることにより、より正確な視覚慣性システムを構築する。
パブリックなHDRデータセットでは、翻訳エラーを93\%削減する。
コードはhttps://github.com/linyicheng1/LET-NETで公開されている。
Sparse optical flow is widely used in various computer vision tasks, however assuming brightness consistency limits its performance in High Dynamic Range (HDR) environments. In this work, a lightweight network is used to extract illumination robust convolutional features and corners with strong invariance. Modifying the typical brightness consistency of the optical flow method to the convolutional feature consistency yields the light-robust hybrid optical flow method. The proposed network runs at 190 FPS on a commercial CPU because it uses only four convolutional layers to extract feature maps and score maps simultaneously. Since the shallow network is difficult to train directly, a deep network is designed to compute the reliability map that helps it. An end-to-end unsupervised training mode is used for both networks. To validate the proposed method, we compare corner repeatability and matching performance with origin optical flow under dynamic illumination. In addition, a more accurate visual inertial system is constructed by replacing the optical flow method in VINS-Mono. In a public HDR dataset, it reduces translation errors by 93\%. The code is publicly available at https://github.com/linyicheng1/LET-NET. | 翻訳日:2024-05-29 10:35:18 公開日:2024-05-27 |
# SQLformer: テキストからSQLへの変換のためのディープ自動回帰クエリグラフ生成
SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation ( http://arxiv.org/abs/2310.18376v4 ) ライセンス: Link先を確認 | Adrián Bazaga, Pietro Liò, Gos Micklem, | (参考訳) 近年、自然言語の質問を実行可能なSQLクエリに変換するテキストからSQLへの変換タスクは、データアクセスの民主化の可能性に大きな注目を集めている。
その約束にもかかわらず、目に見えないデータベースへの適応や、自然言語とSQL構文の整合といった課題は、広く採用を妨げている。
これらの問題を克服するために、テキストからSQLへの変換タスクを実行するために特別に設計された、新しいTransformerアーキテクチャであるSQLformerを紹介します。
我々のモデルはSQLクエリを抽象構文木(AST)として自動回帰的に予測し、エンコーダ層とデコーダ層に構造的帰納バイアスを組み込む。
このバイアスは、データベーステーブルと列選択によってガイドされ、Breadth-First Searchの標準順序でグラフとして表されるSQLクエリASTを生成するデコーダに役立つ。
我々の実験は、SQLformerが6つの著名なテキスト-SQLベンチマークで最先端のパフォーマンスを達成することを示した。
In recent years, the task of text-to-SQL translation, which converts natural language questions into executable SQL queries, has gained significant attention for its potential to democratize data access. Despite its promise, challenges such as adapting to unseen databases and aligning natural language with SQL syntax have hindered widespread adoption. To overcome these issues, we introduce SQLformer, a novel Transformer architecture specifically crafted to perform text-to-SQL translation tasks. Our model predicts SQL queries as abstract syntax trees (ASTs) in an autoregressive way, incorporating structural inductive bias in the encoder and decoder layers. This bias, guided by database table and column selection, aids the decoder in generating SQL query ASTs represented as graphs in a Breadth-First Search canonical order. Our experiments demonstrate that SQLformer achieves state-of-the-art performance across six prominent text-to-SQL benchmarks. | 翻訳日:2024-05-29 10:35:18 公開日:2024-05-27 |
# 因果的時間的レジーム構造学習
Causal Temporal Regime Structure Learning ( http://arxiv.org/abs/2311.01412v2 ) ライセンス: Link先を確認 | Abdellah Rahmani, Pascal Frossard, | (参考訳) 本稿では,多変量時系列からの構造学習の課題に対処する。
本稿では,各レシスタンスに対してDAG(Directed Acyclic Graph)を並列に学習し,シーケンシャルなアレンジとともにレシスタンス数を決定する,新たな最適化ベース手法(CASTOR)を提案する。
期待最大化(EM)アルゴリズムによるスコア関数の最適化により、CASTORはレジーム指標の学習(探索ステップ)と各レジームの因果関係の推測(最大化ステップ)を交互に行う。
さらに、CASTORフレームワーク内でのレギュラーとDAGの識別可能性について検証する。
提案手法は,様々な設定(線形および非線形因果関係)やデータセット(合成および実データ)において,因果発見モデルより一貫して優れていることを示す。
We address the challenge of structure learning from multivariate time series that are characterized by a sequence of different, unknown regimes. We introduce a new optimization-based method (CASTOR), that concurrently learns the Directed Acyclic Graph (DAG) for each regime and determine the number of regimes along with their sequential arrangement. Through the optimization of a score function via an expectation maximization (EM) algorithm, CASTOR alternates between learning the regime indices (Expectation step) and inferring causal relationships in each regime (Maximization step). We further prove the identifiability of regimes and DAGs within the CASTOR framework. We conduct extensive experiments and show that our method consistently outperforms causal discovery models across various settings (linear and nonlinear causal relationships) and datasets (synthetic and real data). | 翻訳日:2024-05-29 10:35:18 公開日:2024-05-27 |
# 視覚言語モデルの校正ロバスト微調整に向けて
Towards Calibrated Robust Fine-Tuning of Vision-Language Models ( http://arxiv.org/abs/2311.01723v5 ) ライセンス: Link先を確認 | Changdae Oh, Hyesu Lim, Mijoo Kim, Dongyoon Han, Sangdoo Yun, Jaegul Choo, Alexander Hauptmann, Zhi-Qi Cheng, Kyungwoo Song, | (参考訳) In-distriion (ID) 適応によるアウト・オブ・ディストリビューション(OOD)の一般化の改善は、素早い微調整アプローチを超えた堅牢な微調整手法の第一の目標である。
しかし、最近の堅牢な微調整手法によるOOD一般化性能は良好であるにもかかわらず、信頼性の高い機械学習のためのOOD信頼度校正は、完全には解決されていない。
本研究は,視覚言語モデル(VLM)におけるOOD精度と校正誤差の両方を改善する頑健な微調整法を提案する。
まず、2つのIDデータからなる共有上限を持つエラーの種類を示す。
1)キャリブレーションエラー
2)入力共分散行列の最小特異値。
この知見に基づいて、我々は、より小さな特異値を持つ制約付きマルチモーダルコントラスト損失で微調整を行う新しいフレームワークを設計する。
理論的ステートメントの実証的検証から始め,ImageNet分散シフトベンチマークにおいて,提案手法の有効性を示す実験結果について述べる。
Improving out-of-distribution (OOD) generalization through in-distribution (ID) adaptation is a primary goal of robust fine-tuning methods beyond the naive fine-tuning approach. However, despite decent OOD generalization performance from recent robust fine-tuning methods, OOD confidence calibration for reliable machine learning has not been fully addressed. This work proposes a robust fine-tuning method that improves both OOD accuracy and calibration error in Vision Language Models (VLMs). Firstly, we show that both types of errors have a shared upper bound consisting of two terms of ID data: 1) calibration error and 2) the smallest singular value of the input covariance matrix. Based on this insight, we design a novel framework that conducts fine-tuning with a constrained multimodal contrastive loss enforcing a larger smallest singular value, which is further aided by the self-distillation of a moving averaged model to achieve well-calibrated prediction. Starting from an empirical validation of our theoretical statements, we provide extensive experimental results on ImageNet distribution shift benchmarks that demonstrate the effectiveness of our method. | 翻訳日:2024-05-29 08:35:04 公開日:2024-05-27 |
# 大規模言語モデルによる機械翻訳の改善:協調デコードによる予備的検討
Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding ( http://arxiv.org/abs/2311.02851v2 ) ライセンス: Link先を確認 | Jiali Zeng, Fandong Meng, Yongjing Yin, Jie Zhou, | (参考訳) エンコーダ-デコーダフレームワークに基づく現代翻訳エンジンは、開発において大きな進歩を遂げている。
しかし,Large Language Models (LLMs) の出現は,優れた翻訳品質を実現する可能性を示すことによって,その位置を混乱させている。
翻訳品質を向上させるためにLLMが優れている状況を明らかにし,その強みをいかに活用できるかを明らかにするために,まず,様々な商用NMTシステムとMT指向LLMの強度と限界を評価するための総合的な分析を行う。
以上の結果から,NMT と MT 指向 LLM だけではすべての翻訳問題に効果的に対応できないが,MT 指向 LLM は NMT システムを補完するソリューションとして有望であることが示された。
これらの知見に基づいて,NMT システムを事前翻訳モデルとして扱う Cooperative Decoding (CoDec) と,MT 指向 LLM を NMT のみの機能を超える複雑なシナリオを扱う補足的ソリューションとして提案する。
WMT22 テストセットと新たに収集したテストセット WebCrawl の実験結果から,機械翻訳分野における NMT システムと MT 指向 LLM を組み合わせた堅牢なソリューションとしての可能性を明らかにする。
Contemporary translation engines based on the encoder-decoder framework have made significant strides in development. However, the emergence of Large Language Models (LLMs) has disrupted their position by presenting the potential for achieving superior translation quality. To uncover the circumstances in which LLMs excel and explore how their strengths can be harnessed to enhance translation quality, we first conduct a comprehensive analysis to assess the strengths and limitations of various commercial NMT systems and MT-oriented LLMs. Our findings indicate that neither NMT nor MT-oriented LLMs alone can effectively address all the translation issues, but MT-oriented LLMs show promise as a complementary solution to NMT systems. Building upon these insights, we propose Cooperative Decoding (CoDec), which treats NMT systems as a pretranslation model and MT-oriented LLMs as a supplemental solution to handle complex scenarios beyond the capability of NMT alone. Experimental results on the WMT22 test sets and a newly collected test set WebCrawl demonstrate the effectiveness and efficiency of CoDec, highlighting its potential as a robust solution for combining NMT systems with MT-oriented LLMs in the field of machine translation. | 翻訳日:2024-05-29 08:35:04 公開日:2024-05-27 |
# 量子モンテカルロシミュレーションにおける相互作用するフェルミオンに対する指数観測可能な積分アルゴリズム
An integral algorithm of exponential observables for interacting fermions in quantum Monte Carlo simulation ( http://arxiv.org/abs/2311.03448v2 ) ライセンス: Link先を確認 | Xu Zhang, Gaopei Pan, Bin-Bin Chen, Kai Sun, Zi Yang Meng, | (参考訳) $\log \langle e^{\hat{X}}\rangle$ ここで$\hat{X}$は広い量であり、自由エネルギーと絡み合いのエントロピーを含む量子多体系の研究において重要な役割を果たす。
e^{X}$ が熱力学極限において指数的に大きい(あるいは小さい)ことを考えると、この指数量の期待値を正確に計算することは大きな課題となる。
本稿では, 量子モンテカルロ法(DQMC)を用いて, 相互作用するフェルミオン系における可観測物を定量化するための包括的アルゴリズムを提案する。
このアルゴリズムを2次元半充填ハバードモデルに適用した。
強い結合限界において,本手法は内部エネルギーから導出される従来の手法に比べて精度が大幅に向上したことを示す。
また, この手法は, n 番目の R'enyi 絡み合いエントロピーの高精度かつ高精度な測定を可能にすることを示す。
さらに注目すべきは、この改善が計算複雑性の増大を伴わないことだ。
このアルゴリズムは指数的変動を効果的に抑制し、容易に他のモデルに一般化することができる。
Exponential observables, formulated as $\log \langle e^{\hat{X}}\rangle$ where $\hat{X}$ is an extensive quantity, play a critical role in study of quantum many-body systems, examples of which include the free-energy and entanglement entropy. Given that $e^{X}$ becomes exponentially large (or small) in the thermodynamic limit, accurately computing the expectation value of this exponential quantity presents a significant challenge. In this Letter, we propose a comprehensive algorithm for quantifying these observables in interacting fermion systems, utilizing the determinant quantum Monte Carlo (DQMC) method. We have applied this novel algorithm to the 2D half-filled Hubbard model. At the strong coupling limit, our method showcases a significant accuracy improvement compared to conventional methods that are derived from the internal energy. We also illustrate that this novel approach delivers highly efficient and precise measurements of the nth R\'enyi entanglement entropy. Even more noteworthy is that this improvement comes without incurring increases in computational complexity. This algorithm effectively suppresses exponential fluctuations and can be easily generalized to other models. | 翻訳日:2024-05-29 08:35:04 公開日:2024-05-27 |
# Human-in-the-loop: 分類困難度測定のためのラベル埋め込みに向けて
Human-in-the-loop: Towards Label Embeddings for Measuring Classification Difficulty ( http://arxiv.org/abs/2311.08874v2 ) ライセンス: Link先を確認 | Katharina Hechinger, Christoph Koller, Xiao Xiang Zhu, Göran Kauermann, | (参考訳) 機械学習モデルの不確実性は、タイムリーで広大な研究分野である。
教師付き学習では、トレーニングプロセスの第1段階、つまりアノテーションフェーズにおいて、すでに不確実性が発生する可能性がある。
このシナリオは、いくつかのインスタンスが決定的に分類できない場合に特に顕著である。
言い換えれば、アノテーションのステップには必然的な曖昧さがあり、したがって、各インスタンスに関連する「基底真理」が必ずしも必要ではない。
この研究の主な考え方は、基礎となる真理ラベルの仮定を捨て、代わりにアノテーションを多次元空間に埋め込むことである。
この埋め込みは、Dirichlet-Multinomialフレームワークを用いてモデル化されたベイズ的な設定におけるアノテーションの実証的な分布から導かれる。
マルコフ・チェイン・モンテカルロステップを用いた確率的予測最大化アルゴリズムを用いてモデルパラメータと後部を推定する。
本稿では,複数のアノテータが独立してインスタンスをラベル付けする,様々な状況に展開する手法を提案する。
提案手法の一般性を示すために,提案手法を画像分類と自然言語推論のための3つのベンチマークデータセットに適用する。
埋め込みの他に、元のクラスのセマンティックな類似性を反映した相関行列を3つの例のデータセットすべてに対してよく調べることができる。
Uncertainty in machine learning models is a timely and vast field of research. In supervised learning, uncertainty can already occur in the first stage of the training process, the annotation phase. This scenario is particularly evident when some instances cannot be definitively classified. In other words, there is inevitable ambiguity in the annotation step and hence, not necessarily a "ground truth" associated with each instance. The main idea of this work is to drop the assumption of a ground truth label and instead embed the annotations into a multidimensional space. This embedding is derived from the empirical distribution of annotations in a Bayesian setup, modeled via a Dirichlet-Multinomial framework. We estimate the model parameters and posteriors using a stochastic Expectation Maximization algorithm with Markov Chain Monte Carlo steps. The methods developed in this paper readily extend to various situations where multiple annotators independently label instances. To showcase the generality of the proposed approach, we apply our approach to three benchmark datasets for image classification and Natural Language Inference. Besides the embeddings, we can investigate the resulting correlation matrices, which reflect the semantic similarities of the original classes very well for all three exemplary datasets. | 翻訳日:2024-05-29 08:35:04 公開日:2024-05-27 |
# 制御可能なテキスト要約: 課題, アプローチ, 展望 - 調査-
Controllable Text Summarization: Unraveling Challenges, Approaches, and Prospects -- A Survey ( http://arxiv.org/abs/2311.09212v2 ) ライセンス: Link先を確認 | Ashok Urlana, Pruthwik Mishra, Tathagato Roy, Rahul Mishra, | (参考訳) ジェネリックテキスト要約アプローチは、個々のユーザの特定の意図やニーズに対処できないことが多い。
近年,特定の目的やユーザニーズに合わせて,より緊密に調整・制御された要約手法の開発に学術的注目が向けられている。
コントロール可能な要約研究のコーパスが増えているにもかかわらず、この文脈で使用される多様なコントロール可能な属性を徹底的に調査し、関連する課題を掘り下げ、既存のソリューションを調査する包括的な調査は行われていない。
本研究では、制御可能なテキスト要約(CTS)タスクを形式化し、それらの共有特性と目的に応じて制御可能な属性を分類し、各カテゴリにおける既存のデータセットとメソッドの徹底的な検証を行う。
さらに,本研究の結果から限界や研究のギャップを明らかにするとともに,CTSの潜在的な解決策や今後の方向性を探求する。
我々は CTS 論文の詳細な解析を \url{https://github.com/ashokurlana/controllable\_text\_summarization\_survey} でリリースする。
Generic text summarization approaches often fail to address the specific intent and needs of individual users. Recently, scholarly attention has turned to the development of summarization methods that are more closely tailored and controlled to align with specific objectives and user needs. Despite a growing corpus of controllable summarization research, there is no comprehensive survey available that thoroughly explores the diverse controllable attributes employed in this context, delves into the associated challenges, and investigates the existing solutions. In this survey, we formalize the Controllable Text Summarization (CTS) task, categorize controllable attributes according to their shared characteristics and objectives, and present a thorough examination of existing datasets and methods within each category. Moreover, based on our findings, we uncover limitations and research gaps, while also exploring potential solutions and future directions for CTS. We release our detailed analysis of CTS papers at \url{https://github.com/ashokurlana/controllable\_text\_summarization\_survey}. | 翻訳日:2024-05-29 08:35:04 公開日:2024-05-27 |
# 相互作用鎖のアンシラ量子測定:検出器の型と濃度に対する絡み合いダイナミクスの感度
Ancilla quantum measurements on interacting chains: Sensitivity of entanglement dynamics to the type and concentration of detectors ( http://arxiv.org/abs/2311.13011v2 ) ライセンス: Link先を確認 | Elmer V. H. Doggen, Igor V. Gornyi, Alexander D. Mirlin, | (参考訳) 我々は、強い射影測定により周期的に測定される、連立自由度(`detectors''')に結合した量子多体格子系を考える。
主システムへのアンシラの濃度$\rho_a$とそれらの結合$M$をパラメータとする。
我々は、鎖内の局所密度を検出器自由度に結合する検出器鎖相互作用の2つのモデルに対して、$\rho_a$と$M$の様々な値に対して、鎖内の密度と絡み合いエントロピーのダイナミクスを探求する。
その結果、密度密度(スピン言語ではS_z s_z$-型)結合の場合、測定誘起エンタングルメント遷移の臨界値$M_c$は、$\rho_a$に敏感に依存することがわかった。
さらに, このモデルでは, 十分に小さな$\rho_a$の遷移が消失することが示唆された。
この挙動は第2モデルでは定性的に異なり、密度ホッピング(S_z s_x$-type)結合である。
特に、ダイナミクスは、最初のモデルよりも、検出器の濃度$\rho_a$に対してはるかに感度が低い。
さらに、結合強度$M$への絡み合いの依存性は強い非単調であり、M$での絡み合い位相の再入射を示す。
We consider a quantum many-body lattice system that is coupled to ancillary degrees of freedom (``detectors''), which are periodically measured by means of strong projective measurements. The concentration $\rho_a$ of ancillae and their coupling $M$ to the main system are considered as parameters. We explore the dynamics of density and of entanglement entropy in the chain, for various values of $\rho_a$ and $M$ for two models of the detector-chain interaction that couple the local density in the chain to a detector degree of freedom. It is found that, for the density-density ($S_z s_z$-type in spin language) coupling, the critical values $M_c$ for the measurement-induced entanglement transition depends sensitively on $\rho_a$. Moreover, our results indicate that for a sufficiently small $\rho_a$ the transition in this model disappears, i.e., a finite density of detectors is needed to reach a disentangling phase. The behavior is qualitatively different for the second model, with density-hopping ($S_z s_x$-type) coupling. Specifically, the dynamics is much less sensitive to the concentration $\rho_a$ of detectors than in the first model. Furthermore, the dependence of entanglement on the coupling strength $M$ is strongly non-monotonic, indicating re-entrance of the entangling phase at large $M$. | 翻訳日:2024-05-29 08:35:04 公開日:2024-05-27 |
# 強化学習エージェントの政策教師としての大規模言語モデル
Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents ( http://arxiv.org/abs/2311.13373v6 ) ライセンス: Link先を確認 | Zihao Zhou, Bin Hu, Chenyang Zhao, Pu Zhang, Bin Liu, | (参考訳) 近年, 大規模言語モデル (LLM) が, 複雑な逐次的意思決定タスクに高レベルな指示を与えることで対処する可能性を明らかにしている。
しかし、LSMをベースとしたエージェントは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
加えて、LCMベースのエージェントを実践的なシナリオにデプロイすることは、コストと時間の両方を要します。
一方、強化学習(RL)は、目標タスクを専門とする訓練エージェントにアプローチするが、サンプリング効率が低く、探索コストも高い。
本稿では,LLMベースの教師エージェントからの指示を用いて,より小規模で専門的なRLエージェントを訓練することで,これらの課題に対処する新しいフレームワークを提案する。
教師エージェントからの指導を取り入れることで、学生エージェントはLLMの事前知識を独自のモデルに抽出することができる。
これにより、学生エージェントは、大幅に少ないデータで訓練することができる。
さらに、環境フィードバックによるさらなるトレーニングを通じて、学生エージェントは、目標タスクを完了するための教師の能力を上回る。
我々は,AI研究の具体化を目的とした,MiniGridとHabitat環境の挑戦実験を行い,フレームワークの有効性を評価した。
その結果,本手法は強いベースライン法に比べて優れた性能を示した。
私たちのコードはhttps://github.com/ZJLAB-AMMI/LLM4Teach.comから入手可能です。
Recent studies have uncovered the potential of Large Language Models (LLMs) in addressing complex sequential decision-making tasks through the provision of high-level instructions. However, LLM-based agents lack specialization in tackling specific target problems, particularly in real-time dynamic environments. Additionally, deploying an LLM-based agent in practical scenarios can be both costly and time-consuming. On the other hand, reinforcement learning (RL) approaches train agents that specialize in the target task but often suffer from low sampling efficiency and high exploration costs. In this paper, we introduce a novel framework that addresses these challenges by training a smaller, specialized student RL agent using instructions from an LLM-based teacher agent. By incorporating the guidance from the teacher agent, the student agent can distill the prior knowledge of the LLM into its own model. Consequently, the student agent can be trained with significantly less data. Moreover, through further training with environment feedback, the student agent surpasses the capabilities of its teacher for completing the target task. We conducted experiments on challenging MiniGrid and Habitat environments, specifically designed for embodied AI research, to evaluate the effectiveness of our framework. The results clearly demonstrate that our approach achieves superior performance compared to strong baseline methods. Our code is available at https://github.com/ZJLAB-AMMI/LLM4Teach. | 翻訳日:2024-05-29 08:35:04 公開日:2024-05-27 |
# Invisible Relevance Bias:テキスト画像検索モデル
Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated Images ( http://arxiv.org/abs/2311.14084v4 ) ライセンス: Link先を確認 | Shicheng Xu, Danyang Hou, Liang Pang, Jingcheng Deng, Jun Xu, Huawei Shen, Xueqi Cheng, | (参考訳) 世代モデルの発展に伴い、AIGC(AI- generated content)がより現実的になり、インターネットが溢れている。
最近の研究では、この現象がWeb検索のためのテキスト検索の源泉バイアスを引き起こすことが示唆されている。
具体的には、ニューラル検索モデルは、人間が書いたテキストよりも高い順位で生成されたテキストをランク付けする傾向にある。
本稿では,このバイアスの研究をクロスモーダル検索に拡張する。
まず、バイアスの存在を調査するために適切なベンチマークを構築した。
このベンチマークによる広範な実験により、AI生成画像はテキスト画像検索モデルに目に見えない関連性バイアスをもたらすことが明らかになった。
具体的には、テキスト画像検索モデルは、実際の画像よりもAI生成画像の方が、実際の画像よりもより視覚的に関連性のある特徴を示さないにもかかわらず、実際の画像よりもAI生成画像をランク付けする傾向にあることを示した。
この目に見えない関連性バイアスは、さまざまなトレーニングデータとアーキテクチャを持つ検索モデルに共通している。
さらに,検索モデルのトレーニングデータにAI生成画像を含めることにより,目に見えない関連性バイアスが増大することを明らかにする。
上記の現象は悪循環を引き起こし、目に見えない関連性バイアスがますます深刻になる。
本研究では, 目に見えない関連性の潜在的な原因を解明し, 上記の問題に対処するために, 目に見えない関連性バイアスを軽減するための効果的なトレーニング手法を提案する。
次に,提案手法を適用して,視覚的関連性の原因を遡及的に同定し,AI生成画像が画像エンコーダを誘導し,その表現に付加情報を埋め込むことを示した。
この情報は、異なる意味を持つ生成された画像間で一定の一貫性を示し、検索者がより高い関連度スコアを推定することを可能にする。
With the advancement of generation models, AI-generated content (AIGC) is becoming more realistic, flooding the Internet. A recent study suggests that this phenomenon causes source bias in text retrieval for web search. Specifically, neural retrieval models tend to rank generated texts higher than human-written texts. In this paper, we extend the study of this bias to cross-modal retrieval. Firstly, we successfully construct a suitable benchmark to explore the existence of the bias. Subsequent extensive experiments on this benchmark reveal that AI-generated images introduce an invisible relevance bias to text-image retrieval models. Specifically, our experiments show that text-image retrieval models tend to rank the AI-generated images higher than the real images, even though the AI-generated images do not exhibit more visually relevant features to the query than real images. This invisible relevance bias is prevalent across retrieval models with varying training data and architectures. Furthermore, our subsequent exploration reveals that the inclusion of AI-generated images in the training data of the retrieval models exacerbates the invisible relevance bias. The above phenomenon triggers a vicious cycle, which makes the invisible relevance bias become more and more serious. To elucidate the potential causes of invisible relevance and address the aforementioned issues, we introduce an effective training method aimed at alleviating the invisible relevance bias. Subsequently, we apply our proposed debiasing method to retroactively identify the causes of invisible relevance, revealing that the AI-generated images induce the image encoder to embed additional information into their representation. This information exhibits a certain consistency across generated images with different semantics and can make the retriever estimate a higher relevance score. | 翻訳日:2024-05-29 08:35:04 公開日:2024-05-27 |
# 腎臓・肝腫瘍分節の知識蒸留における中間層設計の再考
Rethinking Intermediate Layers design in Knowledge Distillation for Kidney and Liver Tumor Segmentation ( http://arxiv.org/abs/2311.16700v2 ) ライセンス: Link先を確認 | Vandan Gorade, Sparsh Mittal, Debesh Jha, Ulas Bagci, | (参考訳) 知識蒸留(KD)は、様々な領域で顕著な成功を収めてきたが、腎臓や肝腫瘍のセグメンテーションといった医療画像への応用は、課題に直面している。
既存のKDメソッドの多くは、これらのタスクに特化していない。
さらに,KD法では,教師から生徒への知識を抽出する「何」や「どこから」を慎重に検討することができないことが多い。
この監視は、より浅い学生層にトレーニングバイアスが蓄積されるなどの問題を引き起こし、KDの有効性を損なう可能性がある。
これらの課題に対処するため,階層型層選択型フィードバック蒸留(HLFD)を提案する。
HLFDは、中間層から以前の層への知識を戦略的に蒸留し、最終層の知識を特徴レベルと画素レベルの中間層に伝達する。
この設計により、モデルは以前の層から高品質な表現を学ぶことができ、堅牢でコンパクトな学生モデルが得られる。
大規模な定量的評価により、HLFDは既存の手法よりも有意なマージンで優れていることが明らかとなった。
例えば、腎臓セグメンテーションタスクでは、HLFDは学生モデル(KDなし)を10倍以上上回り、腫瘍特異的な特徴への焦点を著しく改善する。
定性的な観点から、HLFDを用いて訓練された学生モデルは、無関係な情報の抑制に優れ、腫瘍特異的な詳細に鋭く焦点を合わせ、より効率的で正確な診断ツールのための新しい経路を開くことができる。
コードは href{https://github.com/vangorade/RethinkingKD_ISBI24}{here} で入手できる。
Knowledge distillation (KD) has demonstrated remarkable success across various domains, but its application to medical imaging tasks, such as kidney and liver tumor segmentation, has encountered challenges. Many existing KD methods are not specifically tailored for these tasks. Moreover, prevalent KD methods often lack a careful consideration of `what' and `from where' to distill knowledge from the teacher to the student. This oversight may lead to issues like the accumulation of training bias within shallower student layers, potentially compromising the effectiveness of KD. To address these challenges, we propose Hierarchical Layer-selective Feedback Distillation (HLFD). HLFD strategically distills knowledge from a combination of middle layers to earlier layers and transfers final layer knowledge to intermediate layers at both the feature and pixel levels. This design allows the model to learn higher-quality representations from earlier layers, resulting in a robust and compact student model. Extensive quantitative evaluations reveal that HLFD outperforms existing methods by a significant margin. For example, in the kidney segmentation task, HLFD surpasses the student model (without KD) by over 10\%, significantly improving its focus on tumor-specific features. From a qualitative standpoint, the student model trained using HLFD excels at suppressing irrelevant information and can focus sharply on tumor-specific details, which opens a new pathway for more efficient and accurate diagnostic tools. Code is available \href{https://github.com/vangorade/RethinkingKD_ISBI24}{here}. | 翻訳日:2024-05-29 08:25:17 公開日:2024-05-27 |
# Segment Any 3D Gaussians
Segment Any 3D Gaussians ( http://arxiv.org/abs/2312.00860v2 ) ライセンス: Link先を確認 | Jiazhong Cen, Jiemin Fang, Chen Yang, Lingxi Xie, Xiaopeng Zhang, Wei Shen, Qi Tian, | (参考訳) 本稿では,高効率な3次元ガウス分割法であるSAGA(Segment Any 3D GAussians, Segment Any 3D GAussians)を提案する。
入力として2次元視覚的プロンプトが与えられたとき、SAGAは対応する3次元ガウスのターゲットを4ms以内で分割することができる。
具体的には,尺度付き親和性特徴学習において,尺度対応のコントラスト学習戦略を提案する。
それ
1)2次元マスクからSegment Anything Model(SAM)のセグメンテーション能力を蒸留し、親和性特徴とする。
2) ソフトスケールゲート機構を用いて, 特定3次元物理スケールに応じて各特徴チャネルの大きさを調整し, 多粒度曖昧度を3次元セグメント化する。
評価の結果、SAGAは最先端の手法に匹敵する品質でリアルタイムな多粒度セグメンテーションを実現することが示された。
3D-GSの高速セグメンテーションに対処する最初の手法の1つとして、SAGAの単純さと有効性がこの分野での今後の進歩の道を開く。
私たちのコードは解放されます。
This paper presents SAGA (Segment Any 3D GAussians), a highly efficient 3D promptable segmentation method based on 3D Gaussian Splatting (3D-GS). Given 2D visual prompts as input, SAGA can segment the corresponding 3D target represented by 3D Gaussians within 4 ms. This is achieved by attaching an scale-gated affinity feature to each 3D Gaussian to endow it a new property towards multi-granularity segmentation. Specifically, a scale-aware contrastive training strategy is proposed for the scale-gated affinity feature learning. It 1) distills the segmentation capability of the Segment Anything Model (SAM) from 2D masks into the affinity features and 2) employs a soft scale gate mechanism to deal with multi-granularity ambiguity in 3D segmentation through adjusting the magnitude of each feature channel according to a specified 3D physical scale. Evaluations demonstrate that SAGA achieves real-time multi-granularity segmentation with quality comparable to state-of-the-art methods. As one of the first methods addressing promptable segmentation in 3D-GS, the simplicity and effectiveness of SAGA pave the way for future advancements in this field. Our code will be released. | 翻訳日:2024-05-29 08:25:17 公開日:2024-05-27 |
# InvertAvatar: 一般化ヘッドアバターに対するインクリメンタルGANインバージョン
InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars ( http://arxiv.org/abs/2312.02222v3 ) ライセンス: Link先を確認 | Xiaochen Zhao, Jingxiang Sun, Lizhen Wang, Jinli Suo, Yebin Liu, | (参考訳) 高忠実度と効率性はデジタルヘッドアバターの作成の中心であるが、近年の2次元または3次元生成モデルに依存する手法では、形状の歪み、表現の不正確さ、アイデンティティ・フリックリングといった制限を経験することが多い。
さらに、既存のワンショットインバージョン技術では、詳細な特徴抽出のために複数の入力画像を完全に活用できない。
本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークである‘textbf{Incremental 3D GAN Inversion} を提案する。
本手法では,UVパラメータ化に基づくテクスチャ特徴空間を分類する革新的テクスチャエンコーダとともに,表現制御性向上のための2つの重要な修正を加えた,ユニークなアニマタブルな3D GANを導入する。
従来の手法と異なり,我々のアーキテクチャでは,画素対応画像-画像変換が重視され,観測空間と標準空間の対応を学習する必要性が軽減される。
さらに,複数のフレームからの時間的データアグリゲーションにConvGRUをベースとしたリカレントネットワークを導入し,形状やテクスチャディテールを再構築する。
提案手法は,1ショットと数ショットのアバターアニメーションタスクにおける最先端の性能を示す。
コードはhttps://github.com/XChenZ/invertAvatar.comから入手できる。
While high fidelity and efficiency are central to the creation of digital head avatars, recent methods relying on 2D or 3D generative models often experience limitations such as shape distortion, expression inaccuracy, and identity flickering. Additionally, existing one-shot inversion techniques fail to fully leverage multiple input images for detailed feature extraction. We propose a novel framework, \textbf{Incremental 3D GAN Inversion}, that enhances avatar reconstruction performance using an algorithm designed to increase the fidelity from multiple frames, resulting in improved reconstruction quality proportional to frame count. Our method introduces a unique animatable 3D GAN prior with two crucial modifications for enhanced expression controllability alongside an innovative neural texture encoder that categorizes texture feature spaces based on UV parameterization. Differentiating from traditional techniques, our architecture emphasizes pixel-aligned image-to-image translation, mitigating the need to learn correspondences between observation and canonical spaces. Furthermore, we incorporate ConvGRU-based recurrent networks for temporal data aggregation from multiple frames, boosting geometry and texture detail reconstruction. The proposed paradigm demonstrates state-of-the-art performance on one-shot and few-shot avatar animation tasks. Code will be available at https://github.com/XChenZ/invertAvatar. | 翻訳日:2024-05-29 08:25:17 公開日:2024-05-27 |
# メタラーニングにおけるタスク共同創設者のハック
Hacking Task Confounder in Meta-Learning ( http://arxiv.org/abs/2312.05771v4 ) ライセンス: Link先を確認 | Jingyao Wang, Yi Ren, Zeen Song, Jianqi Zhang, Changwen Zheng, Wenwen Qiang, | (参考訳) メタラーニングは、様々なタスクから知識を学習することで、新しいタスクへの迅速な一般化を可能にする。
トレーニングが進むにつれて、モデルはより豊かな知識を獲得し、より良い一般化性能をもたらすと直感的に仮定される。
しかし,本実験では,タスク間の負の知識伝達が一般化性能に影響を及ぼすという予期せぬ結果が得られた。
この現象を説明するために、我々は因果解析のための構造因果モデル(Structure Causal Models, SCMs)を実施している。
メタラーニングにおいて,タスク固有の因果関係因子とラベルとの間に急激な相関関係があることを明らかにする。
さらに、相違要因はバッチによって異なる。
これらの要因を"Task Confounders"と呼びます。
これらの知見に基づいて,タスク共同創設者の排除を目的としたメタ学習因果表現学習システム(MetaCRL)を提案する。
複数のタスクから生成する因子をエンコードし、不変なバイレベル最適化機構を使用して、メタ学習の因果性を保証する。
様々なベンチマークデータセットに対する大規模な実験により、我々の研究がSOTA(State-of-the-art)のパフォーマンスを達成することを示す。
Meta-learning enables rapid generalization to new tasks by learning knowledge from various tasks. It is intuitively assumed that as the training progresses, a model will acquire richer knowledge, leading to better generalization performance. However, our experiments reveal an unexpected result: there is negative knowledge transfer between tasks, affecting generalization performance. To explain this phenomenon, we conduct Structural Causal Models (SCMs) for causal analysis. Our investigation uncovers the presence of spurious correlations between task-specific causal factors and labels in meta-learning. Furthermore, the confounding factors differ across different batches. We refer to these confounding factors as "Task Confounders". Based on these findings, we propose a plug-and-play Meta-learning Causal Representation Learner (MetaCRL) to eliminate task confounders. It encodes decoupled generating factors from multiple tasks and utilizes an invariant-based bi-level optimization mechanism to ensure their causality for meta-learning. Extensive experiments on various benchmark datasets demonstrate that our work achieves state-of-the-art (SOTA) performance. | 翻訳日:2024-05-29 08:25:17 公開日:2024-05-27 |
# 通信コストが18キロバイト未満の10億大言語モデルのフェデレーションフルパラメータチューニング
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes ( http://arxiv.org/abs/2312.06353v5 ) ライセンス: Link先を確認 | Zhen Qin, Daoyuan Chen, Bingchen Qian, Bolin Ding, Yaliang Li, Shuiguang Deng, | (参考訳) 事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
フェデレーション学習は、データプライバシを損なうことなく、エンドデバイス上の豊富なデータを使用してLLMを微調整する方法を提供する。
LLMの既存のファインチューニング手法の多くはパラメータ効率のよいファインチューニング技術に依存しており、フルパラメータチューニングでは性能の高さに到達できない可能性がある。
しかし,LLMのフェデレーションフルパラメータチューニングは通信コストが大きいため,非自明な問題である。
この研究は、有限個のランダムシードからなるゼロ階最適化を利用するFedKSeedを導入している。
サーバとクライアント間の通信要求をわずかにランダムなシードとスカラー勾配に減らし、数千バイトに減らし、デバイス上で数十億のLLMのフルパラメータチューニングを可能にする。
そこで我々は,確率微分型シードサンプリングを実現する手法を開発し,モデル精度に大きな影響を与える摂動の優先順位付けを行う。
各種LLM,データセット,データパーティションを用いた6つのシナリオを対象とした実験により,我々の手法は,コミュニケーション効率とタスク一般化の両面において,既存のLLMファインチューニング手法よりも優れていることを示した。
Pre-trained large language models (LLMs) need fine-tuning to improve their responsiveness to natural language instructions. Federated learning offers a way to fine-tune LLMs using the abundant data on end devices without compromising data privacy. Most existing federated fine-tuning methods for LLMs rely on parameter-efficient fine-tuning techniques, which may not reach the performance height possible with full-parameter tuning. However, federated full-parameter tuning of LLMs is a non-trivial problem due to the immense communication cost. This work introduces FedKSeed that employs zeroth-order optimization with a finite set of random seeds. It significantly reduces transmission requirements between the server and clients to just a few random seeds and scalar gradients, amounting to only a few thousand bytes, making federated full-parameter tuning of billion-sized LLMs possible on devices. Building on it, we develop a strategy enabling probability-differentiated seed sampling, prioritizing perturbations with greater impact on model accuracy. Experiments across six scenarios with various LLMs, datasets and data partitions demonstrate that our approach outperforms existing federated LLM fine-tuning methods in both communication efficiency and new task generalization. | 翻訳日:2024-05-29 08:25:17 公開日:2024-05-27 |
# ロボットシステムのダイナミクス調和解析:データ駆動クープマンモデリングへの応用
Dynamics Harmonic Analysis of Robotic Systems: Application in Data-Driven Koopman Modelling ( http://arxiv.org/abs/2312.07457v2 ) ライセンス: Link先を確認 | Daniel Ordoñez-Apraez, Vladimir Kostic, Giulio Turrisi, Pietro Novelli, Carlos Mastalli, Claudio Semini, Massimiliano Pontil, | (参考訳) 対称ロボットシステムの状態空間を直交同型部分空間に分解するために調和解析を導入する。
これらは、差分、対称、および相乗運動を捉える低次元空間である。
線形力学では、この分解が各部分空間上の独立線型系への力学の分割にどのように寄与するかを特徴付け、力学調和解析(DHA)と呼ぶ。
この特性を利用するために、システム力学の大域的線形モデルを学ぶために、DHAの特性を利用する同変ディープラーニングアーキテクチャを提案する。
本アーキテクチャは, 四足歩行ロボットの運動力学と合成システムで検証し, より高度な一般化, サンプル効率, 解釈可能性を示し, トレーニング可能なパラメータや計算コストを少なくする。
We introduce the use of harmonic analysis to decompose the state space of symmetric robotic systems into orthogonal isotypic subspaces. These are lower-dimensional spaces that capture distinct, symmetric, and synergistic motions. For linear dynamics, we characterize how this decomposition leads to a subdivision of the dynamics into independent linear systems on each subspace, a property we term dynamics harmonic analysis (DHA). To exploit this property, we use Koopman operator theory to propose an equivariant deep-learning architecture that leverages the properties of DHA to learn a global linear model of the system dynamics. Our architecture, validated on synthetic systems and the dynamics of locomotion of a quadrupedal robot, exhibits enhanced generalization, sample efficiency, and interpretability, with fewer trainable parameters and computational costs. | 翻訳日:2024-05-29 08:25:16 公開日:2024-05-27 |
# 学習とリコール : 事前学習型言語モデルによるインクリメンタルラーニングの再考
Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Models ( http://arxiv.org/abs/2312.07887v4 ) ライセンス: Link先を確認 | Junhao Zheng, Shengjie Qiu, Qianli Ma, | (参考訳) インクリメンタルラーニング(IL)は、ビジョンと自然言語処理(NLP)コミュニティにおいて長年の課題であった。
近年、PLM(Pre-trained Language Models)は様々なNLP下流タスクにおいて顕著な進歩を遂げており、最近のNLPにおけるIL研究において、PLMをバックボーンとして活用することが一般的となっている。
殆どの人は、破滅的な忘れが優れたIL性能を達成するための最大の障害であると仮定し、この問題を克服するための様々な手法を提案する。
しかし、この仮定は問題となる。
具体的には,4つの分類タスク(テキスト分類,インテント分類,関係抽出,名前付きエンティティ認識)について,最も一般的な2つのIL設定(クラスインクリメンタルとタスクインクリメンタル)に基づいて20以上の手法を再検討し,PLMの固有のアンチフォジット能力を著しく過小評価していることを明らかにする。
そこで本研究では,PLMを用いたILのためのSEQ*というフラストレーションに富んだ手法を提案する。
その結果,SEQ* は最新式 (SOTA) の IL 法に比べて性能が優れており,トレーニング時間やトレーニング時間もかなり少ないことがわかった。
これらの知見は, ILをPLMで再考し, 今後の研究がPLMにおける破滅的な忘れを根本的に理解することを促すものである。
データ、コード、スクリプトはhttps://github.com/zzz47zzz/codebase-for-incremental-learning-with-llm.comで公開されている。
Incremental Learning (IL) has been a long-standing problem in both vision and Natural Language Processing (NLP) communities. In recent years, as Pre-trained Language Models (PLMs) have achieved remarkable progress in various NLP downstream tasks, utilizing PLMs as backbones has become a common practice in recent research of IL in NLP. Most assume that catastrophic forgetting is the biggest obstacle to achieving superior IL performance and propose various techniques to overcome this issue. However, we find that this assumption is problematic. Specifically, we revisit more than 20 methods on four classification tasks (Text Classification, Intent Classification, Relation Extraction, and Named Entity Recognition) under the two most popular IL settings (Class-Incremental and Task-Incremental) and reveal that most of them severely underestimate the inherent anti-forgetting ability of PLMs. Based on the observation, we propose a frustratingly easy method called SEQ* for IL with PLMs. The results show that SEQ* has competitive or superior performance compared to state-of-the-art (SOTA) IL methods and requires considerably less trainable parameters and training time. These findings urge us to revisit the IL with PLMs and encourage future studies to have a fundamental understanding of the catastrophic forgetting in PLMs. The data, code and scripts are publicly available at https://github.com/zzz47zzz/codebase-for-incremental-learning-with-llm. | 翻訳日:2024-05-29 08:15:32 公開日:2024-05-27 |
# スプリット・アンサンブル:タスクとモデル分割による効率的なOOD認識アンサンブル
Split-Ensemble: Efficient OOD-aware Ensemble via Task and Model Splitting ( http://arxiv.org/abs/2312.09148v2 ) ライセンス: Link先を確認 | Anthony Chen, Huanrui Yang, Yulu Gan, Denis A Gudovskiy, Zhen Dong, Haofan Wang, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Shanghang Zhang, | (参考訳) 不確実性推定は、機械学習モデルがアウト・オブ・ディストリビューション(OOD)入力を検出するために不可欠である。
しかし,従来の識別型深層学習分類器は,OODデータに対する未分類閉集合予測を生成する。
不確実性推定を持つより堅牢な分類器は、通常、アウトレイラ露光訓練のための潜在的に利用できないOODデータセット、あるいはアンサンブルモデルを構築するためにかなりの量のメモリと計算を必要とする。
本研究では,代替の Split-Ensemble 法を用いたOODデータや追加の推論コストを使わずに不確実性推定を改善する。
具体的には,共通クラス分類タスクを複数の補完サブタスクに分割する,新しいサブタスク分割アンサンブル学習目標を提案する。
次に、各サブタスクのトレーニングデータは、他のサブタスクに対するOODとみなすことができる。
したがって、様々なサブモデルはOODを意識した目的で各サブタスクで訓練することができる。
サブタスク分割の目的は,パラメータや計算上のオーバーヘッドを避けるために,サブモデル間で低レベルの特徴を共有できるようにすることである。
特に,各ブランチがサブタスクに対応するサブモデルとして機能する共有バックボーンモデルから繰り返し分割およびプルーニングを行うことにより,ツリーライクなSplit-Ensembleアーキテクチャを構築する。
これにより、固定アンサンブル計算予算の下で、サブモデル全体の精度と不確実性の推定が改善される。
ResNet-18のバックボーンによる実証研究によると、Split-Ensembleは追加の計算コストなしで、CIFAR-10、CIFAR-100、Tiny-ImageNetでそれぞれ0.8%、1.8%、25.5%の精度向上を実現している。
同じバックボーンと分布内データセットのOOD検出は、AUROCの平均値である2.2%、8.1%、29.6%で単一のモデルベースラインを超える。
Uncertainty estimation is crucial for machine learning models to detect out-of-distribution (OOD) inputs. However, the conventional discriminative deep learning classifiers produce uncalibrated closed-set predictions for OOD data. A more robust classifiers with the uncertainty estimation typically require a potentially unavailable OOD dataset for outlier exposure training, or a considerable amount of additional memory and compute to build ensemble models. In this work, we improve on uncertainty estimation without extra OOD data or additional inference costs using an alternative Split-Ensemble method. Specifically, we propose a novel subtask-splitting ensemble training objective, where a common multiclass classification task is split into several complementary subtasks. Then, each subtask's training data can be considered as OOD to the other subtasks. Diverse submodels can therefore be trained on each subtask with OOD-aware objectives. The subtask-splitting objective enables us to share low-level features across submodels to avoid parameter and computational overheads. In particular, we build a tree-like Split-Ensemble architecture by performing iterative splitting and pruning from a shared backbone model, where each branch serves as a submodel corresponding to a subtask. This leads to improved accuracy and uncertainty estimation across submodels under a fixed ensemble computation budget. Empirical study with ResNet-18 backbone shows Split-Ensemble, without additional computation cost, improves accuracy over a single model by 0.8%, 1.8%, and 25.5% on CIFAR-10, CIFAR-100, and Tiny-ImageNet, respectively. OOD detection for the same backbone and in-distribution datasets surpasses a single model baseline by, correspondingly, 2.2%, 8.1%, and 29.6% mean AUROC. | 翻訳日:2024-05-29 08:15:32 公開日:2024-05-27 |
# バイオメディカルセグメンテーションにおけるアクティブラーニングのためのエントロピーと代表性サンプリングのハイブリッドモデルにおけるUMAP探索
Exploring UMAP in hybrid models of entropy-based and representativeness sampling for active learning in biomedical segmentation ( http://arxiv.org/abs/2312.10361v2 ) ライセンス: Link先を確認 | H. S. Tan, Kuancheng Wang, Rafe Mcbeth, | (参考訳) 本研究では, 医療セグメント化におけるアクティブラーニングの文脈におけるエントロピーに基づく多種多様な代表性サンプリング手法のハイブリッドモデルについて検討し, 代表性獲得手法としてのUDP(Uniform Manifold Approximation and Projection)の役割について検討した。
UMAPは様々な分野において汎用的な次元削減手法として有効であることが示されているが、深層学習に基づく医療セグメント化におけるその役割はいまだに広く研究されている。
前立腺と心臓の心臓のデータセットを用いて,Entropy-UMAPサンプリング手法の新たなハイブリッド組み合わせが,ランダムベースライン(3.2 %,前立腺の4.5 %)に対して統計的に有意なDiceスコアの優位性を達成し,Dice係数を10種類の異なるアクティブラーニング方法論のスペクトルの中で達成した。
このことは、エントロピーに基づく手法と UMAP 手法の間には、前者が後者に先行してアクティブラーニングのハイブリッドモデルが存在するという興味深い相乗効果が存在するという予備的な証拠を与える。
In this work, we study various hybrid models of entropy-based and representativeness sampling techniques in the context of active learning in medical segmentation, in particular examining the role of UMAP (Uniform Manifold Approximation and Projection) as a technique for capturing representativeness. Although UMAP has been shown viable as a general purpose dimension reduction method in diverse areas, its role in deep learning-based medical segmentation has yet been extensively explored. Using the cardiac and prostate datasets in the Medical Segmentation Decathlon for validation, we found that a novel hybrid combination of Entropy-UMAP sampling technique achieved a statistically significant Dice score advantage over the random baseline ($3.2 \%$ for cardiac, $4.5 \%$ for prostate), and attained the highest Dice coefficient among the spectrum of 10 distinct active learning methodologies we examined. This provides preliminary evidence that there is an interesting synergy between entropy-based and UMAP methods when the former precedes the latter in a hybrid model of active learning. | 翻訳日:2024-05-29 08:15:32 公開日:2024-05-27 |
# 混合型タブラリデータに対する連続拡散
Continuous Diffusion for Mixed-Type Tabular Data ( http://arxiv.org/abs/2312.10431v2 ) ライセンス: Link先を確認 | Markus Mueller, Kathrin Gruber, Dennis Fok, | (参考訳) スコアベースの生成モデル(略して拡散モデル)は、テキストや画像データを生成することに成功している。
しかし、このモデルファミリーの混合型の表型データへの適応は、これまでのところ不足している。
本稿では,混合型タブラリデータのための連続拡散モデルCDTDを提案する。
具体的には、スコアマッチングとスコア補間を組み合わせて、連続的特徴とカテゴリー的特徴の両方に対して共通の連続的なノイズ分布を確保する。
我々は、特徴またはデータタイプごとに異なる適応的なノイズスケジュールを持つ混合型のデータに固有の高い不均一性を対処する。
学習可能なノイズスケジュールは、最適に割り当てられたモデル容量とバランスの取れた生成能力を保証する。
我々は、混合型表データに適したモデル固有の損失校正と初期化スキームにより、データ型をさらに均質化する。
実験の結果,CDTDは常に最先端のベンチマークモデルより優れており,特徴相関が極めて良好であり,ノイズスケジュール設計の不均一性によりサンプル品質が向上することがわかった。
Score-based generative models (or diffusion models for short) have proven successful for generating text and image data. However, the adaption of this model family to tabular data of mixed-type has fallen short so far. In this paper, we propose CDTD, a Continuous Diffusion model for mixed-type Tabular Data. Specifically, we combine score matching and score interpolation to ensure a common continuous noise distribution for both continuous and categorical features alike. We counteract the high heterogeneity inherent to data of mixed-type with distinct, adaptive noise schedules per feature or per data type. The learnable noise schedules ensure optimally allocated model capacity and balanced generative capability. We homogenize the data types further with model-specific loss calibration and initialization schemes tailored to mixed-type tabular data. Our experimental results show that CDTD consistently outperforms state-of-the-art benchmark models, captures feature correlations exceptionally well, and that heterogeneity in the noise schedule design boosts the sample quality. | 翻訳日:2024-05-29 08:15:32 公開日:2024-05-27 |
# ループにおける大規模言語モデルを用いた一般化カテゴリー探索
Generalized Category Discovery with Large Language Models in the Loop ( http://arxiv.org/abs/2312.10897v2 ) ライセンス: Link先を確認 | Wenbin An, Wenkai Shi, Feng Tian, Haonan Lin, QianYing Wang, Yaqiang Wu, Mingxiang Cai, Luyan Wang, Yan Chen, Haiping Zhu, Ping Chen, | (参考訳) Generalized Category Discovery (GCD) は、既知のカテゴリのみのラベル付きデータを活用することで、ラベルなしデータの集合から既知のカテゴリと新しいカテゴリの両方を認識することを目的とした重要なタスクである。
監督とカテゴリ情報の欠如のため、現在の手法は通常、新しいカテゴリではあまり機能せず、発見されたクラスタの意味を明らかにするのに苦労している。
上記の問題を緩和するために,大規模言語モデル(LLM)をトレーニングループに導入するエンドツーエンドのアクティブラーニングフレームワークであるLoopを提案する。
具体的には、まず、近傍の予測一貫性とクラスタ割り当て確率のエントロピーに基づいて、間違ったクラスタに落下する確率の高いサンプルを選択するために、局所一貫性サンプリング(LIS)を提案する。
次に、LLMが複数の候補サンプルから選択したサンプルの真の隣人を選択できるようにするスケーラブルクエリ戦略を提案する。
LLMからのフィードバックに基づき、我々はRefined Neighborhood Contrastive Learning (RNCL)を実行し、サンプルと隣人を引き抜いてクラスタリングフレンドリーな表現を学習する。
最後に、新しいカテゴリに対応するクラスタから代表サンプルを選択し、LCMがそれらのカテゴリ名を生成できるようにする。
3つのベンチマークデータセットの大規模な実験により、LoopはSOTAモデルを大きなマージンで上回り、発見したクラスタの正確なカテゴリ名を生成する。
コードとデータはhttps://github.com/Lackel/LOOP.comで公開されている。
Generalized Category Discovery (GCD) is a crucial task that aims to recognize both known and novel categories from a set of unlabeled data by utilizing a few labeled data with only known categories. Due to the lack of supervision and category information, current methods usually perform poorly on novel categories and struggle to reveal semantic meanings of the discovered clusters, which limits their applications in the real world. To mitigate the above issues, we propose Loop, an end-to-end active-learning framework that introduces Large Language Models (LLMs) into the training loop, which can boost model performance and generate category names without relying on any human efforts. Specifically, we first propose Local Inconsistent Sampling (LIS) to select samples that have a higher probability of falling to wrong clusters, based on neighborhood prediction consistency and entropy of cluster assignment probabilities. Then we propose a Scalable Query strategy to allow LLMs to choose true neighbors of the selected samples from multiple candidate samples. Based on the feedback from LLMs, we perform Refined Neighborhood Contrastive Learning (RNCL) to pull samples and their neighbors closer to learn clustering-friendly representations. Finally, we select representative samples from clusters corresponding to novel categories to allow LLMs to generate category names for them. Extensive experiments on three benchmark datasets show that Loop outperforms SOTA models by a large margin and generates accurate category names for the discovered clusters. Code and data are available at https://github.com/Lackel/LOOP. | 翻訳日:2024-05-29 08:15:32 公開日:2024-05-27 |
# 近接量子コンピューティングにおける分子特性計算のための軌道最適化を用いた運動の量子方程式
Quantum Equation of Motion with Orbital Optimization for Computing Molecular Properties in Near-Term Quantum Computing ( http://arxiv.org/abs/2312.12386v3 ) ライセンス: Link先を確認 | Phillip W. K. Jensen, Erik Rosendahl Kjellgren, Peter Reinholdt, Karl Michael Ziems, Sonia Coriani, Jacob Kongsted, Stephan P. A. Sauer, | (参考訳) 分子や材料の性質を決定することは、量子コンピューティングの第一の応用の一つである。
この分野での大きな疑問は、実用的価値の問題を解決するために不完全な短期量子コンピュータをどのように使うかである。
最近開発されたqEOM法と軌道最適化変分量子固有解器(oo-VQE)の量子対の変種にインスパイアされ、量子コンピュータ上で期待値を計算することで分子特性の計算を行う量子アルゴリズム(oo-VQE-qEOM)を提案する。
我々は、STO-3G/6-31G/6-31G*基底集合と6-31GのH$_4$とH$_2$Oの4つの電子と4つの空間軌道(8量子ビット)のアクティブな空間を用いて、BeH$_2$のノイズフリー量子シミュレーションを行い、励起エネルギー、電子吸収、ひねったH$_4$、円形二色性スペクトルを評価する。
これらの分子系に対する従来のCASSCF計算の結果を再現できることを示す。
Determining the properties of molecules and materials is one of the premier applications of quantum computing. A major question in the field is how to use imperfect near-term quantum computers to solve problems of practical value. Inspired by the recently developed variants of the quantum counterpart of the equation-of-motion (qEOM) approach and the orbital-optimized variational quantum eigensolver (oo-VQE), we present a quantum algorithm (oo-VQE-qEOM) for the calculation of molecular properties by computing expectation values on a quantum computer. We perform noise-free quantum simulations of BeH$_2$ in the series of STO-3G/6-31G/6-31G* basis sets and of H$_4$ and H$_2$O in 6-31G using an active space of four electrons and four spatial orbitals (8 qubits) to evaluate excitation energies, electronic absorption, and, for twisted H$_4$, circular dichroism spectra. We demonstrate that the proposed algorithm can reproduce the results of conventional classical CASSCF calculations for these molecular systems. | 翻訳日:2024-05-29 08:15:32 公開日:2024-05-27 |
# 拒否する理由? 判断を伴う言語モデルのアライメント
Reasons to Reject? Aligning Language Models with Judgments ( http://arxiv.org/abs/2312.14591v2 ) ライセンス: Link先を確認 | Weiwen Xu, Deng Cai, Zhisong Zhang, Wai Lam, Shuming Shi, | (参考訳) 人間として、私たちは常に仲間と対話し、自然言語の形でフィードバックを受けます。
この言語フィードバックにより、適切な動作を維持し、潜在的なエラーを修正できます。
言語フィードバックを使って大きな言語モデル(LLM)を調整できるだろうか?
LLMをスカラー報酬と整合させる以前の研究とは対照的に、私たちは言語フィードバックのレンズ(すなわち判断)を通してアライメントを初めて体系的に検討した。
まず,LLMと判断の整合性に適応可能な潜在的手法の詳細な検討から,これらの手法が判断に完全に乗じることができないことを明らかにする。
判断をより効果的に活用するために,判断に基づく不適切なコンテンツ検出と修正を行うための新しい枠組みであるContrastive Unlikelihood Training (CUT)を提案する。
以上の結果から,CUT (LLaMA2-13b) が175B DaVinci003 を破り,AlpacaEval の48.51ポイントを超えることが示唆された。
CUT (LLaMA2-chat-13b) は、最新のモデル固有の判断を用いてLCMを反復的に調整し、AlpacaEvalの81.09から91.68ポイントのパフォーマンスを向上させる。
さらなる分析により、LLMアライメントにおける評価は報酬よりも大きな可能性を秘めていることが示唆された。
As humans, we consistently interact with our peers and receive feedback in the form of natural language. This language feedback allows us to maintain appropriate behavior, and rectify potential errors. The question arises naturally: can we use language feedback to align large language models (LLMs)? In contrast to previous research that aligns LLMs with scalar rewards, we present the first systematic exploration of alignment through the lens of language feedback (i.e., judgment). We start with an in-depth investigation of potential methods that can be adapted for aligning LLMs with judgments, revealing that these methods cannot fully capitalize on judgments. To facilitate more effective utilization of judgments, we propose a novel framework, Contrastive Unlikelihood Training (CUT), that allows for fine-grained inappropriate content detection and correction based on judgments. Our results show that, with merely 1317 off-the-shelf judgment data, CUT (LLaMA2-13b) can beat the 175B DaVinci003 and surpass the best baseline by 48.51 points on AlpacaEval. CUT (LLaMA2-chat-13b) can also align LLMs in an iterative fashion using up-to-date model-specific judgments, improving performance from 81.09 to 91.68 points on AlpacaEval. Further analysis suggests that judgments hold greater potential than rewards in LLM alignment. | 翻訳日:2024-05-29 08:15:32 公開日:2024-05-27 |
# 質量を持たないディラックフェルミオンにおける励起エネルギー準位の縮退について
A note on degeneracy of excited energy levels in massless Dirac fermions ( http://arxiv.org/abs/2312.17357v3 ) ライセンス: Link先を確認 | Lucas Sourrouille, | (参考訳) 平面の制限領域に局在した磁束$\Phi$の存在下で、質量を持たないディラック・ワイル方程式の固有値と固有関数を構築するメカニズムを提案する。
この機構を用いて、存在するエネルギーレベルの縮退を分析する。
0 と 1 のエネルギー準位は同じ$N+1$ の縮退性を持ち、$N$ は $\frac{\Phi}{2\pi}$ の整数部分である。
さらに、グラフェンに関する文献で説明されているものと対照的に、高エネルギー準位はN+m$縮退し、良エネルギー準位はm$であることを示す。
言い換えれば、エネルギー準位が大きくなるにつれて退化状態が無期限に成長することを意味する。
We propose a mechanism to construct the eigenvalues and eigenfunctions of the massless Dirac-Weyl equation in the presences of magnetic flux $\Phi$ localized in a restricted region of the plane. Using this mechanism we analyze the degeneracy of the existed energy levels. We find that the zero and first energy level has the same $N+1$ degeneracy, where $N$ is the integer part of $\frac{\Phi}{2\pi}$. In addition, and contrary to what is described in the literature regarding graphene, we show that higher energy levels are $N+m$ degenrate, beign $m$ the level of energy. In other words, this implies an indefinite growth of degenerate states as the energy level grows. | 翻訳日:2024-05-29 08:15:32 公開日:2024-05-27 |
# 3次元ガウススプラッティングの劣化
Deblurring 3D Gaussian Splatting ( http://arxiv.org/abs/2401.00834v2 ) ライセンス: Link先を確認 | Byeonghyeon Lee, Howoong Lee, Xiangyu Sun, Usman Ali, Eunbyung Park, | (参考訳) 放射場における最近の研究は、フォトリアリスティックなレンダリング品質で、新しいビュー合成の堅牢な道を開いた。
それにもかかわらず、彼らは通常ニューラルネットワークとボリュームレンダリングを採用しており、長いレンダリング時間のために様々なリアルタイムアプリケーションにおいて、トレーニングと幅広い使用を妨げるのに費用がかかる。
近年,3次元ガウシアンスプラッティングによる3次元シーンのモデル化が提案されている。
しかし、トレーニング画像がぼやけている場合、レンダリング品質が著しく低下する。
レンズの脱落、物体の動き、カメラの揺れが原因で視界が悪くなり、クリーンな画像取得に必然的に介入する。
これまでのいくつかの研究では、ニューラルネットワークを用いてぼやけた入力画像からクリーンでシャープな画像を描画しようと試みてきた。
しかし、これらの研究の大部分は、ボリュームレンダリングに基づく神経放射場のためにのみ設計されており、ラスタライズに基づく3Dガウススプラッティング法には直接適用されない。
そこで我々は,各3次元ガウスの共分散を制御し,シーンのぼかしをモデル化する,MLP(Multi-Layer Perceptron)を用いた,新しいリアルタイムデブロアリングフレームワーク(Deblurring 3D Gaussian Splatting)を提案する。
Deblurring 3D Gaussian Splattingはリアルタイムレンダリングを楽しめるが、ぼやけた画像から細かで鋭いディテールを再構築することができる。
様々な実験がベンチマークで行われており, 評価結果から, 脱臭に対するアプローチの有効性が明らかとなった。
質的な結果はhttps://benhenryl.github.io/Deblurring-3D-Gaussian-Splatting/で確認できる。
Recent studies in Radiance Fields have paved the robust way for novel view synthesis with their photorealistic rendering quality. Nevertheless, they usually employ neural networks and volumetric rendering, which are costly to train and impede their broad use in various real-time applications due to the lengthy rendering time. Lately 3D Gaussians splatting-based approach has been proposed to model the 3D scene, and it achieves remarkable visual quality while rendering the images in real-time. However, it suffers from severe degradation in the rendering quality if the training images are blurry. Blurriness commonly occurs due to the lens defocusing, object motion, and camera shake, and it inevitably intervenes in clean image acquisition. Several previous studies have attempted to render clean and sharp images from blurry input images using neural fields. The majority of those works, however, are designed only for volumetric rendering-based neural radiance fields and are not straightforwardly applicable to rasterization-based 3D Gaussian splatting methods. Thus, we propose a novel real-time deblurring framework, Deblurring 3D Gaussian Splatting, using a small Multi-Layer Perceptron (MLP) that manipulates the covariance of each 3D Gaussian to model the scene blurriness. While Deblurring 3D Gaussian Splatting can still enjoy real-time rendering, it can reconstruct fine and sharp details from blurry images. A variety of experiments have been conducted on the benchmark, and the results have revealed the effectiveness of our approach for deblurring. Qualitative results are available at https://benhenryl.github.io/Deblurring-3D-Gaussian-Splatting/ | 翻訳日:2024-05-29 08:04:22 公開日:2024-05-27 |
# Refusion: 計算効率の良い検索表現融合による自然言語理解の改善
ReFusion: Improving Natural Language Understanding with Computation-Efficient Retrieval Representation Fusion ( http://arxiv.org/abs/2401.02993v2 ) ライセンス: Link先を確認 | Shangyu Wu, Ying Xiong, Yufei Cui, Xue Liu, Buzhou Tang, Tei-Wei Kuo, Chun Jason Xue, | (参考訳) 言語モデルに外部データベースからの知識を取り入れた検索ベース拡張(RA)は,様々な知識集約(KI)タスクに大きく成功している。
しかし,非知識集約型タスク(NKI)における検索の統合は依然として困難である。
既存の作業は、モデル性能を改善するために、検索と入力を結合することに焦点を当てている。
残念ながら、検索結合に基づく拡張の使用は、入力長を増大させ、注意機構の計算要求を大幅に高める。
本稿では,二段階最適化を用いた計算効率の高い検索表現Fusion である textbf{ReFusion} という新しいパラダイムを提案する。
以前の作品とは異なり、ReFusionは検索表現を直接モデルの隠れた状態に融合する。
具体的には、ReFusionは適応型検索積分器を利用して、異なるモデル層にまたがって提案されたランキングスキームの最適組み合わせを求める。
実験により,提案したReFusionは様々なNKIタスクにおいて,優れた,ロバストな性能が得られることが示された。
Retrieval-based augmentations (RA) incorporating knowledge from an external database into language models have greatly succeeded in various knowledge-intensive (KI) tasks. However, integrating retrievals in non-knowledge-intensive (NKI) tasks is still challenging. Existing works focus on concatenating retrievals with inputs to improve model performance. Unfortunately, the use of retrieval concatenation-based augmentations causes an increase in the input length, substantially raising the computational demands of attention mechanisms. This paper proposes a new paradigm of RA named \textbf{ReFusion}, a computation-efficient Retrieval representation Fusion with bi-level optimization. Unlike previous works, ReFusion directly fuses the retrieval representations into the hidden states of models. Specifically, ReFusion leverages an adaptive retrieval integrator to seek the optimal combination of the proposed ranking schemes across different model layers. Experimental results demonstrate that the proposed ReFusion can achieve superior and robust performance in various NKI tasks. | 翻訳日:2024-05-29 08:04:22 公開日:2024-05-27 |
# コンセプトボツネックモデルを超えて、ブラックボックスをインターベンションする方法
Beyond Concept Bottleneck Models: How to Make Black Boxes Intervenable? ( http://arxiv.org/abs/2401.13544v2 ) ライセンス: Link先を確認 | Sonia Laguna, Ričards Marcinkevičs, Moritz Vandenhirtz, Julia E. Vogt, | (参考訳) 近年、解釈可能な機械学習は概念ボトルネックモデル(CBM)を再探索している。
このモデルクラスの利点は、ユーザが予測された概念値に介入し、下流の出力に影響を与える能力である。
本研究では,設計によって解釈できない事前学習型ニューラルネットワークに対して,そのような概念に基づく介入を行う手法を提案する。
さらに、概念に基づく介入の有効性の尺度としてインターベンタビリティの概念を定式化し、この定義を微調整ブラックボックスに活用する。
実験により,ブラックボックス分類器の合成表と自然画像のベンチマークにおける相互接続性について検討した。
我々は、単純で完全に接続されたニューラルネットから安定拡散まで、さまざまな複雑さのバックボーンアーキテクチャに焦点を当てている。
提案した微調整により介入の有効性が向上し,よく校正された予測が得られることを示す。
本手法の実用性を実証するために, 深部胸部X線分類器に適用し, 微調整ブラックボックスがCBMよりも介入可能であることを示す。
最後に,本手法は視覚言語モデルに基づく概念アノテーションの下でも有効であることが確認され,人間による注釈付き検証セットの必要性が軽減された。
Recently, interpretable machine learning has re-explored concept bottleneck models (CBM). An advantage of this model class is the user's ability to intervene on predicted concept values, affecting the downstream output. In this work, we introduce a method to perform such concept-based interventions on pretrained neural networks, which are not interpretable by design, only given a small validation set with concept labels. Furthermore, we formalise the notion of intervenability as a measure of the effectiveness of concept-based interventions and leverage this definition to fine-tune black boxes. Empirically, we explore the intervenability of black-box classifiers on synthetic tabular and natural image benchmarks. We focus on backbone architectures of varying complexity, from simple, fully connected neural nets to Stable Diffusion. We demonstrate that the proposed fine-tuning improves intervention effectiveness and often yields better-calibrated predictions. To showcase the practical utility of our techniques, we apply them to deep chest X-ray classifiers and show that fine-tuned black boxes are more intervenable than CBMs. Lastly, we establish that our methods are still effective under vision-language-model-based concept annotations, alleviating the need for a human-annotated validation set. | 翻訳日:2024-05-29 08:04:22 公開日:2024-05-27 |
# Sum-Product Networks を用いた類似物生成
Generating Likely Counterfactuals Using Sum-Product Networks ( http://arxiv.org/abs/2401.14086v2 ) ライセンス: Link先を確認 | Jiri Nemecek, Tomas Pevny, Jakub Marecek, | (参考訳) AIシステムによる決定の説明責任は、最近の規制とユーザ要求の両方によって引き起こされる。
これらの決定はしばしば、事実の後に \emph{post hoc} のみを説明することができる。
反事実的説明において、最も優れた反事実的説明を構成するものは何であるかを問うことができる。
明らかに、"サンプルからの距離"は重要な基準であるが、複数の基準を考慮する必要がある。
カウンターファクトの妥当性を考える最近の手法は、この本来の目的を犠牲にしているようだ。
本稿では,密接かつ疎密な高次説明を提供するシステムを提案する。
そこで本研究では,多くのデシデラタを満足する最も可能性の高い説明の探索を混合整数最適化 (MIO) を用いてモデル化できることを述べる。
本プロセスでは,SPN(Sum-Product Network)のMIO定式化を提案し,SPNを用いて,独立利害関係にある可能性のある反事実の可能性を推定する。
Explainability of decisions made by AI systems is driven by both recent regulation and user demand. These decisions are often explainable only \emph{post hoc}, after the fact. In counterfactual explanations, one may ask what constitutes the best counterfactual explanation. Clearly, multiple criteria must be taken into account, although "distance from the sample" is a key criterion. Recent methods that consider the plausibility of a counterfactual seem to sacrifice this original objective. Here, we present a system that provides high-likelihood explanations that are, at the same time, close and sparse. We show that the search for the most likely explanations satisfying many common desiderata for counterfactual explanations can be modeled using mixed-integer optimization (MIO). In the process, we propose an MIO formulation of a Sum-Product Network (SPN) and use the SPN to estimate the likelihood of a counterfactual, which can be of independent interest. | 翻訳日:2024-05-29 08:04:22 公開日:2024-05-27 |
# Taiyi-Diffusion-XL:視覚言語モデルによるバイリンガルテキスト画像生成の高速化
Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support ( http://arxiv.org/abs/2401.14688v2 ) ライセンス: Link先を確認 | Xiaojun Wu, Dixiang Zhang, Ruyi Gan, Junyu Lu, Ziwei Wu, Renliang Sun, Jiaxing Zhang, Pingjian Zhang, Yan Song, | (参考訳) 近年のテキスト画像モデルの進歩は画像生成能力を大幅に向上させたが、バイリンガルや中国語のサポートにおいて、オープンソースモデルの顕著なギャップは持続している。
このニーズに対処するために、中国語と英語の新しいバイリンガルテキスト・トゥ・イメージモデルであるTaiyi-Diffusion-XL を、バイリンガル連続事前学習のプロセスを通じてCLIPとStable-Diffusion-XLの能力を拡張して開発する。
このアプローチは、最も頻繁に使われる漢字をCLIPのトークン化器と埋め込み層に統合し、絶対位置エンコーディング拡張と組み合わせることで、語彙の効率的な拡張を含む。
さらに、大きな視覚言語モデルによるテキストプロンプトを豊かにし、画像キャプションが向上し、視覚的品質が向上する。
これらの拡張はその後、下流のテキスト・ツー・イメージ・モデルに適用される。
実験の結果,開発されたCLIPモデルはバイリンガル画像テキスト検索に優れており,また,タイ・ディフュージョンXLのバイリンガル画像生成能力は過去のモデルより優れていた。
この研究はタイイ拡散XLモデルの開発とオープンソース化につながり、特に中国語における画像生成の分野における顕著な進歩を示している。
この貢献は、マルチモーダル研究におけるより多様な言語サポートの必要性に対処するための一歩である。
モデルとデモは \href{https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/}{this https URL} で公開されている。
Recent advancements in text-to-image models have significantly enhanced image generation capabilities, yet a notable gap of open-source models persists in bilingual or Chinese language support. To address this need, we present Taiyi-Diffusion-XL, a new Chinese and English bilingual text-to-image model which is developed by extending the capabilities of CLIP and Stable-Diffusion-XL through a process of bilingual continuous pre-training. This approach includes the efficient expansion of vocabulary by integrating the most frequently used Chinese characters into CLIP's tokenizer and embedding layers, coupled with an absolute position encoding expansion. Additionally, we enrich text prompts by large vision-language model, leading to better images captions and possess higher visual quality. These enhancements are subsequently applied to downstream text-to-image models. Our empirical results indicate that the developed CLIP model excels in bilingual image-text retrieval.Furthermore, the bilingual image generation capabilities of Taiyi-Diffusion-XL surpass previous models. This research leads to the development and open-sourcing of the Taiyi-Diffusion-XL model, representing a notable advancement in the field of image generation, particularly for Chinese language applications. This contribution is a step forward in addressing the need for more diverse language support in multimodal research. The model and demonstration are made publicly available at \href{https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/}{this https URL}, fostering further research and collaboration in this domain. | 翻訳日:2024-05-29 07:54:38 公開日:2024-05-27 |
# ダークエキシトンとホット電子は金属-有機光学マイクロキャビティにおけるエキシトン-フォトン強結合を調節する
Dark excitons and hot electrons modulate exciton-photon strong coupling in metal-organic optical microcavities ( http://arxiv.org/abs/2401.14835v3 ) ライセンス: Link先を確認 | Pavel V. Kolesnichenko, Manuel Hertzog, Felix Hainer, Oskar Kefer, Jana Zaumseil, Tiago Buckup, | (参考訳) ポラリトンは、有機太陽電池、光論理ゲート、量子ビットなどの重要な応用に期待されている。
フレンケル励起体の大きな結合エネルギーにより、室温、高励起子密度、低品質のマイクロキャビティでも強い物質と光のカップリング現象が可能である。
このような場合、偏光子による高い非局在化のため、ダークエキシトンとホット電子の同時効果は、潜在的なデバイスの性能に影響を及ぼす可能性がある。
そのため、彼らの理解は最重要であるが、光学分光学におけるその混乱は、これまでは達成不可能なままであった。
ここでは、解析モデルにより支持される一過性極性スペクトルの慎重かつ体系的な分析により、この課題を克服する。
このようにして、暗黒励起子は励起子-光子結合の強さに影響を与え、ファノ様の偏光利得スペクトルとして表される。
自由電子は損失成分を付加し、極性反応に2温度のダイナミクスを印加する。
開発された一般的な手法は他の様々なマイクロキャビティ構造にも適用できる。
偏光子-電子・プラズモン-電子カップリング現象の研究や光物理・光化学プロセスの光制御において, 偏光子や他の励起物を区別することが重要である。
Polaritons, formed as a result of strong hybridization of matter with light, are promising for important applications including organic solar cells, optical logic gates, and qubits. Owing to large binding energies of Frenkel excitons (matter), strong matter-light coupling phenomena are possible at room temperature, high exciton densities, and even with low-quality-factor microcavities. In such cases, due to polaritons' high degree of delocalization, simultaneous effects from dark excitons and hot electrons may affect performance of potential devices. Their understanding, therefore, is of paramount importance, but their disentanglement in optical spectroscopy, however, thus far remained unattainable. Here, we overcome this challenge by careful and systematic analysis of transient polaritonic spectra, supported by analytical models. In doing so, we conclude that dark excitons affect the strength of exciton-photon coupling and manifest themselves as Fano-like polaritonic gain-loss spectra. Free electrons add additional loss component to and imprint a two-temperature dynamics on the polaritonic response. The developed general methodology can be applied to a variety of other microcavity structures. Our findings are significant for distinguishing polaritons and other excitations in studies of polariton-electron and plasmon-electron coupling phenomena as well as photonic control over photophysical and photochemical processes. | 翻訳日:2024-05-29 07:54:38 公開日:2024-05-27 |
# Context-Former:潜時条件付きシーケンスモデリングによるスタンディング
Context-Former: Stitching via Latent Conditioned Sequence Modeling ( http://arxiv.org/abs/2401.16452v3 ) ライセンス: Link先を確認 | Ziqi Zhang, Jingzehua Xu, Jinxin Liu, Zifeng Zhuang, Donglin Wang, Miao Liu, Shuai Zhang, | (参考訳) オフライン強化学習(RL)アルゴリズムは、最適軌道を縫い合わせることで行動ポリシーよりも優れた意思決定を学べる。
一方、決定変換器(DT)はRLをシーケンスモデリングとして抽象化し、オフラインのRLベンチマークで競合性能を示す。
しかし、最近の研究では、DTは縫合能力に欠けており、DTの縫合能力を活用することが、その性能をさらに向上させる上で不可欠であることが示されている。
DTに縫合能力を付与するために,専門的マッチングとしてトラジェクトリ縫合を抽象化し,文脈情報に基づく模倣学習(IL)とシーケンスモデリングを統合したContextFormerを導入し,限られた数の専門的トラジェクトリの表現をエミュレートして,準最適トラジェクトリ断片を縫合する。
アプローチを検証するために、私たちは2つの視点から実験を行います。
1) IL設定下でD4RLベンチマークを広範囲に実験し,複数のIL設定でContextFormerが競合性能を発揮することを示す実験結果を得た。
2)さらに重要なことは、同じトレーニングデータセットを使用して、ContextFormerと様々な競合DTの変種を比較することである。
実験の結果、ContextFormerの優位性は、他のすべての亜種よりも優れており、その顕著なパフォーマンスを示している。
Offline reinforcement learning (RL) algorithms can learn better decision-making compared to behavior policies by stitching the suboptimal trajectories to derive more optimal ones. Meanwhile, Decision Transformer (DT) abstracts the RL as sequence modeling, showcasing competitive performance on offline RL benchmarks. However, recent studies demonstrate that DT lacks of stitching capacity, thus exploiting stitching capability for DT is vital to further improve its performance. In order to endow stitching capability to DT, we abstract trajectory stitching as expert matching and introduce our approach, ContextFormer, which integrates contextual information-based imitation learning (IL) and sequence modeling to stitch sub-optimal trajectory fragments by emulating the representations of a limited number of expert trajectories. To validate our approach, we conduct experiments from two perspectives: 1) We conduct extensive experiments on D4RL benchmarks under the settings of IL, and experimental results demonstrate ContextFormer can achieve competitive performance in multiple IL settings. 2) More importantly, we conduct a comparison of ContextFormer with various competitive DT variants using identical training datasets. The experimental results unveiled ContextFormer's superiority, as it outperformed all other variants, showcasing its remarkable performance. | 翻訳日:2024-05-29 07:54:38 公開日:2024-05-27 |
# 確率論的論理プログラミングにおける説明
Explaining Explanations in Probabilistic Logic Programming ( http://arxiv.org/abs/2401.17045v2 ) ライセンス: Link先を確認 | Germán Vidal, | (参考訳) 人工知能に基づくツールの出現は、人間によって理解可能な説明を作成する必要ももたらした。
ほとんどのアプローチでは、システムは \emph{black box} と見なされており、適切な説明を生成することは困難である。
しかし,本研究では,モデルが<emph{transparent}>(確率論的論理プログラミング(PLP))であるような,知識表現のための論理プログラミングと不確実性をモデル化する確率を組み合わせたパラダイムを考える。
しかしながら、クエリが与えられた場合、通常の 'emph{explanation} という概念は、モデルの各ランダム変数に対して1つの選択肢の集合に関連付けられる。
残念ながら、そのような集合は、クエリが真であることを説明しておらず、実際は、検討されたクエリとは無関係な選択を含むかもしれない。
この状況を改善するために、我々は、証明に「emph{choice expression}」とラベル付けされた PLP の新しいクエリ駆動推論機構の定義に基づく説明法を提案する。
証明木と選択式の組み合わせにより、因果構造を持つ理解可能なクエリ正当性を生成することができる。
The emergence of tools based on artificial intelligence has also led to the need of producing explanations which are understandable by a human being. In most approaches, the system is considered a \emph{black box}, making it difficult to generate appropriate explanations. In this work, though, we consider a setting where models are \emph{transparent}: probabilistic logic programming (PLP), a paradigm that combines logic programming for knowledge representation and probability to model uncertainty. However, given a query, the usual notion of \emph{explanation} is associated with a set of choices, one for each random variable of the model. Unfortunately, such a set does not explain \emph{why} the query is true and, in fact, it may contain choices that are actually irrelevant for the considered query. To improve this situation, we present in this paper an approach to explaining explanations which is based on defining a new query-driven inference mechanism for PLP where proofs are labeled with \emph{choice expressions}, a compact and easy to manipulate representation for sets of choices. The combination of proof trees and choice expressions allows one to produce comprehensible query justifications with a causal structure. | 翻訳日:2024-05-29 07:54:38 公開日:2024-05-27 |
# 大規模言語モデルに基づく知識編集の周辺的摂動
Neighboring Perturbations of Knowledge Editing on Large Language Models ( http://arxiv.org/abs/2401.17623v2 ) ライセンス: Link先を確認 | Jun-Yu Ma, Zhen-Hua Ling, Ningyu Zhang, Jia-Chen Gu, | (参考訳) 例外的な能力にもかかわらず、大きな言語モデル(LLM)は、偽りや時代遅れの知識のために意図しないテキストを生成する傾向にある。
LLMの再訓練の資源集約性を考えると,知識編集の発展が顕著に進んでいる。
しかし、現在のアプローチや評価は、近隣の知識に基づく編集の摂動を調査することはめったにない。
本稿では, LLM に対する新たな知識の更新が, それらの中にカプセル化されている近隣の知識を混乱させるかどうかを考察する。
具体的には,質問に対する回答リストに新しい回答を付加することで,このリストの本来の正しい回答を破滅的に忘れてしまうか,不正確な回答を意図せずに含めるかを見極める。
付加性の指標を導入し、新しい知識を付加する際の近隣の知識に対する摂動度を評価するために、PEAK(Perturbation Evaluation of Appending Knowledge)と呼ばれるベンチマークを構築した。
さらに,回答リストの整合性を維持することにより,近隣の摂動を軽減するために,appending via Preservation and Prevention (APP) と呼ばれるプラグイン・アンド・プレイ・フレームワークを提案する。
4つのLPM上でのAPP結合と4つの編集手法の有効性を実験により実証した。
コードとデータはhttps://github.com/mjy1111/PEAK.comで公開されている。
Despite their exceptional capabilities, large language models (LLMs) are prone to generating unintended text due to false or outdated knowledge. Given the resource-intensive nature of retraining LLMs, there has been a notable increase in the development of knowledge editing. However, current approaches and evaluations rarely explore the perturbation of editing on neighboring knowledge. This paper studies whether updating new knowledge to LLMs perturbs the neighboring knowledge encapsulated within them. Specifically, we seek to figure out whether appending a new answer into an answer list to a factual question leads to catastrophic forgetting of original correct answers in this list, as well as unintentional inclusion of incorrect answers. A metric of additivity is introduced and a benchmark dubbed as Perturbation Evaluation of Appending Knowledge (PEAK) is constructed to evaluate the degree of perturbation to neighboring knowledge when appending new knowledge. Besides, a plug-and-play framework termed Appending via Preservation and Prevention (APP) is proposed to mitigate the neighboring perturbation by maintaining the integrity of the answer list. Experiments demonstrate the effectiveness of APP coupling with four editing methods on four LLMs. The code and data are available at https://github.com/mjy1111/PEAK. | 翻訳日:2024-05-29 07:54:38 公開日:2024-05-27 |
# SymbolicAI: 生成モデルとソルバを組み合わせた論理的アプローチのためのフレームワーク
SymbolicAI: A framework for logic-based approaches combining generative models and solvers ( http://arxiv.org/abs/2402.00854v3 ) ライセンス: Link先を確認 | Marius-Constantin Dinu, Claudiu Leoveanu-Condrei, Markus Holzleitner, Werner Zellinger, Sepp Hochreiter, | (参考訳) 生成過程における概念学習とフロー管理に論理的アプローチを取り入れた,汎用的でモジュール化されたフレームワークであるSybolicAIを紹介する。
SymbolicAIは、自然言語とフォーマルな言語命令の両方に基づいてタスクを実行するセマンティックパーザとして、大きな言語モデル(LLM)を扱い、シンボル推論と生成AIのギャップを埋めることによって、さまざまな問題解決者と生成モデルのシームレスな統合を可能にする。
我々は確率的プログラミングの原理を利用して複雑なタスクに取り組み、それぞれの強みで微分可能および古典的なプログラミングパラダイムを利用する。
このフレームワークでは、多段階生成プロセスを接続し、複雑なワークフローにおいて、その出力をユーザ目標と整合させるマルチモーダルデータに対して、多形的、構成的、自己参照的な操作のセットを導入している。
その結果、コンテキスト内学習機能を備えた各種基礎モデルの能力と、特定の問題に対処するのに熟練した専門的、微調整されたモデルや問題解決者との間の移行が可能となった。
文脈内学習に基づくこれらの操作を通じて、我々のフレームワークは説明可能な計算グラフの作成と評価を可能にする。
最後に、これらの計算グラフを評価するための品質指標とその経験的スコアを導入し、複雑なワークフローの集合にまたがる様々な最先端のLCMを比較するベンチマークを提案する。
経験的スコアを「相互相似性による関係軌道評価のためのベクター埋め込み」あるいは略してVERTEXスコアと呼ぶ。
フレームワークのコードベースとベンチマークを以下にリンクする。
We introduce SymbolicAI, a versatile and modular framework employing a logic-based approach to concept learning and flow management in generative processes. SymbolicAI enables the seamless integration of generative models with a diverse range of solvers by treating large language models (LLMs) as semantic parsers that execute tasks based on both natural and formal language instructions, thus bridging the gap between symbolic reasoning and generative AI. We leverage probabilistic programming principles to tackle complex tasks, and utilize differentiable and classical programming paradigms with their respective strengths. The framework introduces a set of polymorphic, compositional, and self-referential operations for multi-modal data that connects multi-step generative processes and aligns their outputs with user objectives in complex workflows. As a result, we can transition between the capabilities of various foundation models with in-context learning capabilities and specialized, fine-tuned models or solvers proficient in addressing specific problems. Through these operations based on in-context learning our framework enables the creation and evaluation of explainable computational graphs. Finally, we introduce a quality measure and its empirical score for evaluating these computational graphs, and propose a benchmark that compares various state-of-the-art LLMs across a set of complex workflows. We refer to the empirical score as the "Vector Embedding for Relational Trajectory Evaluation through Cross-similarity", or VERTEX score for short. The framework codebase and benchmark are linked below. | 翻訳日:2024-05-29 07:54:38 公開日:2024-05-27 |
# 大規模言語と視覚モデルにおける空間的スキーマ直観の探索
Exploring Spatial Schema Intuitions in Large Language and Vision Models ( http://arxiv.org/abs/2402.00956v2 ) ライセンス: Link先を確認 | Philipp Wicke, Lennart Wachowiak, | (参考訳) AI研究における大きな言語モデル(LLMs)の多様さにもかかわらず、LLMの具体化に関する問題は未解決のままであり、知覚が直接身体行動に影響を及ぼすロボット工学における具体化システムと区別されている。
本稿では,LLMが非身体的であるにもかかわらず,言語の基本的空間的構成要素に関する暗黙の人間の直観を効果的に捉えているかどうかを考察する。
我々は,3つの心理言語実験の再現を通じて,初期の感覚運動経験を通じて発達した空間認知基盤からの洞察を用いて,探索を指導する。
驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。
注目すべき区別は、偏極言語モデル応答と視覚言語モデルにおける相関の減少である。
本研究では,言語間の相互作用,空間経験,および大規模言語モデルによる計算の微妙な理解に寄与する。
詳しくはhttps://cisnlp.github.io/Spatial_Schemas/を参照のこと。
Despite the ubiquity of large language models (LLMs) in AI research, the question of embodiment in LLMs remains underexplored, distinguishing them from embodied systems in robotics where sensory perception directly informs physical action. Our investigation navigates the intriguing terrain of whether LLMs, despite their non-embodied nature, effectively capture implicit human intuitions about fundamental, spatial building blocks of language. We employ insights from spatial cognitive foundations developed through early sensorimotor experiences, guiding our exploration through the reproduction of three psycholinguistic experiments. Surprisingly, correlations between model outputs and human responses emerge, revealing adaptability without a tangible connection to embodied experiences. Notable distinctions include polarized language model responses and reduced correlations in vision language models. This research contributes to a nuanced understanding of the interplay between language, spatial experiences, and the computations made by large language models. More at https://cisnlp.github.io/Spatial_Schemas/ | 翻訳日:2024-05-29 07:54:38 公開日:2024-05-27 |
# 深部モデルゼロ階最適化のための確率的2点法
Stochastic Two Points Method for Deep Model Zeroth-order Optimization ( http://arxiv.org/abs/2402.01621v3 ) ライセンス: Link先を確認 | Yijiang Pang, Jiayu Zhou, | (参考訳) 大規模言語モデルのような大規模な基礎モデルは、様々なアプリケーションシナリオにおいて非常によく機能している。
ハードウェアの予算やバックプロパゲーションへのアクセスの欠如により、そのような大型モデルの構築や完全な微調整は禁止される。
ゼロ階法はこの課題に取り組む上で有望な方向を提供し、モデルの更新には前方通過のみが必要となる。
本稿では, 勾配自由状態下での効率的な確率的2点(S2P)アプローチを提案する。
本稿では,S2Pの理論収束特性を一般の滑らかさ仮定の下で提示し,その導出結果は,2つの一般的なゼロ階法,基本ランダム探索法,確率的3点法を理解するのに有効である。
理論的性質はS2P(VS2P)のヴァリアントにも光を当て、トレーニングにおける深層モデルのダイナミクスをより良く表現する新しい収束特性を利用する。
我々の総合的な実験結果から、VS2Pは深層モデルの目的を最適化するのに非常に有効であることが示された。
さまざまなモデルタイプやスケールの標準メソッドと比較して、パフォーマンスが優れています。
Large foundation models, such as large language models, have performed exceptionally well in various application scenarios. Building or fully fine-tuning such large models is usually prohibitive due to either hardware budget or lack of access to backpropagation. The zeroth-order methods offer a promising direction for tackling this challenge, where only forward passes are needed to update the model. This paper introduces an efficient Stochastic Two-Point (S2P) approach within the gradient-free regime. We present the theoretical convergence properties of S2P under the general and relaxed smoothness assumptions, and the derived results help understand and inherently connect the two popular types of zeroth-order methods, basic random search and stochastic three-point method. The theoretical properties also shed light on a Variant of S2P (VS2P), through exploiting our new convergence properties that better represent the dynamics of deep models in training. Our comprehensive empirical results show that VS2P is highly effective in optimizing objectives for deep models. It outperforms or achieves competitive performance compared to standard methods across various model types and scales. | 翻訳日:2024-05-29 07:54:38 公開日:2024-05-27 |
# TSISと線形分子表現の比較研究
TSIS with A Comparative Study on Linear Molecular Representation ( http://arxiv.org/abs/2402.02164v2 ) ライセンス: Link先を確認 | Juan-Ni Wu, Tong Wang, Li-Juan Tang, Hai-Long Wu, Ru-Qin Yu, | (参考訳) エンコーディングは情報のキャリアです。
AIモデルは、構文、意味論、推論において基本的な能力を持っているが、これらの能力は特定の入力に敏感である。
本研究では, TSIS (Simplified TSID) という符号化アルゴリズムを, フラグメントベースの線形分子表現としてt-SMILESファミリーに導入する。
TSIDは従来のSMILES、DeepSMILES、SELFIESを大きく上回っている。
本研究では,トランスフォーマーモデルとLSTMモデルにかかわらず,TSIDが使用する木構造が予想よりも容易に学習できることを明らかにする。
さらに、TSISはTSIDと同等の性能を示し、SMILES、SELFIES、SAFEを大きく上回っている。
SEFLIESとSAFEは、それぞれ固有の複雑さのため、意味解析と構文解析において重要な課題を呈している。
Encoding is the carrier of information. AI models possess basic capabilities in syntax, semantics, and reasoning, but these capabilities are sensitive to specific inputs. In this study, we introduce an encoding algorithm, TSIS (Simplified TSID), to the t-SMILES family as a fragment-based linear molecular representation. TSID has been demonstrated to significantly outperform classical SMILES, DeepSMILES, and SELFIES in previous work. A further comparative analysis in this study reveals that the tree structure used by TSID is more easily learned than anticipated, regardless of whether Transformer or LSTM models are used. Furthermore, TSIS demonstrates comparable performance to TSID and significantly outperforms SMILES, SELFIES, and SAFE. While SEFLIES and SAFE present significant challenges in semantic and syntactic analysis, respectively, due to their inherent complexity. | 翻訳日:2024-05-29 07:44:38 公開日:2024-05-27 |
# 正規化スケーリング法則による大規模言語モデルからファインチューンへの選択
Selecting Large Language Model to Fine-tune via Rectified Scaling Law ( http://arxiv.org/abs/2402.02314v2 ) ライセンス: Link先を確認 | Haowei Lin, Baizhou Huang, Haotian Ye, Qinyu Chen, Zihao Wang, Sujian Li, Jianzhu Ma, Xiaojun Wan, James Zou, Yitao Liang, | (参考訳) LLMのエコシステムは、オプションの海の中で、最も適切なトレーニング済みモデルを選択することの難しさを招いている。
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
本研究では,この資源制約された選択タスクを定式化し,微調整性能の予測を行い,スケーリング法則との自然な関連性を示す。
事前学習とは異なり、微調整のスケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
また、既存のスケーリング法則が、この相転移現象を理論的にも経験的にも捉えない理由についても説明する。
この問題に対処するため、我々はRectified Scaling Lawに"pre-learned data size"という概念を導入しました。
本法則を応用して,資源消費の数百倍の削減で最適に近いモデルを選択する新しいLCM選択アルゴリズムを提案する。
The ever-growing ecosystem of LLMs has posed a challenge in selecting the most appropriate pre-trained model to fine-tune amidst a sea of options. Given constrained resources, fine-tuning all models and making selections afterward is unrealistic. In this work, we formulate this resource-constrained selection task into predicting fine-tuning performance and illustrate its natural connection with Scaling Law. Unlike pre-training, We find that the fine-tuning scaling curve includes not just the well-known "power phase" but also the previously unobserved "pre-power phase". We also explain why existing Scaling Law fails to capture this phase transition phenomenon both theoretically and empirically. To address this, we introduce the concept of "pre-learned data size" into our Rectified Scaling Law, which overcomes theoretical limitations and fits experimental results much better. By leveraging our law, we propose a novel LLM selection algorithm that selects the near-optimal model with hundreds of times less resource consumption, while other methods may provide negatively correlated selection. | 翻訳日:2024-05-29 07:44:38 公開日:2024-05-27 |
# ビジュアルチューニングのためのプロンプトのパワーを再考する
Revisiting the Power of Prompt for Visual Tuning ( http://arxiv.org/abs/2402.02382v3 ) ライセンス: Link先を確認 | Yuzhu Wang, Lechao Cheng, Chaowei Fang, Dingwen Zhang, Manni Duan, Meng Wang, | (参考訳) ビジュアルプロンプトチューニング(VPT)は、学習可能なプロンプトトークンを組み込んだ有望なソリューションである。
しかし、VPTとその変種は、しばしば、自己教師付き事前訓練における迅速な初期化、迅速な長さ、サブパーパフォーマンスといった課題に遭遇し、文脈適応を妨げている。
本研究は, プロンプトとパッチトークンの相関進化を, 熟練した訓練中に探求することによって開始する。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
戦略的初期化は、以前の初期化のスタンドインであり、微調整の性能を大幅に向上させる。
さらに改良するために,VPTに比べて計算コストがほとんど増加せず,優れた性能を維持した合理化パイプラインによるトークン構築を最適化する。
実験の結果,提案手法は既存の手法よりも顕著に優れていることがわかった。
例えば、FGVCとVTAB-1Kベンチマークで学習可能なパラメータの0.4%未満を使用して、24タスク中19タスクで完全な微調整を達成している。
特に,本手法は自己指導型事前学習の適応性を著しく向上させ,少なくとも10%から30%のタスク性能向上を実現している。
さらに,提案したSPTは,モデルキャパシティやトレーニングデータサイズとともに,長さやスケールの促進に頑健であることを示す実験結果を得た。
最終的に、トレーニング済みのモデルを下流タスクに適応させるのに役立つターゲットデータの量について、洞察に富んだ調査を行う。
コードはhttps://github.com/WangYZ1608/Self-Prompt-Tuningで公開されている。
Visual prompt tuning (VPT) is a promising solution incorporating learnable prompt tokens to customize pre-trained models for downstream tasks. However, VPT and its variants often encounter challenges like prompt initialization, prompt length, and subpar performance in self-supervised pretraining, hindering successful contextual adaptation. This study commences by exploring the correlation evolvement between prompts and patch tokens during proficient training. Inspired by the observation that the prompt tokens tend to share high mutual information with patch tokens, we propose initializing prompts with downstream token prototypes. The strategic initialization, a stand-in for the previous initialization, substantially improves performance in fine-tuning. To refine further, we optimize token construction with a streamlined pipeline that maintains excellent performance with almost no increase in computational expenses compared to VPT. Exhaustive experiments show our proposed approach outperforms existing methods by a remarkable margin. For instance, it surpasses full fine-tuning in 19 out of 24 tasks, using less than 0.4% of learnable parameters on the FGVC and VTAB-1K benchmarks. Notably, our method significantly advances the adaptation for self-supervised pretraining, achieving impressive task performance gains of at least 10% to 30%. Besides, the experimental results demonstrate the proposed SPT is robust to prompt lengths and scales well with model capacity and training data size. We finally provide an insightful exploration into the amount of target data facilitating the adaptation of pre-trained models to downstream tasks. The code is available at https://github.com/WangYZ1608/Self-Prompt-Tuning. | 翻訳日:2024-05-29 07:44:38 公開日:2024-05-27 |
# PoCo:不均質なロボット学習の政策構成
PoCo: Policy Composition from and for Heterogeneous Robot Learning ( http://arxiv.org/abs/2402.02511v2 ) ライセンス: Link先を確認 | Lirui Wang, Jialiang Zhao, Yilun Du, Edward H. Adelson, Russ Tedrake, | (参考訳) さまざまなタスクのための異種データから一般的なロボットポリシーをトレーニングすることは、大きな課題である。
既存のロボットデータセットは、色、深さ、触覚、固有受容情報など様々な形態で異なり、シミュレーション、実際のロボット、人間のビデオといった様々な領域で収集される。
現在のメソッドは通常、ひとつのドメインからすべてのデータを収集してプールし、単一のポリシーをトレーニングして、タスクやドメインの不均一性を処理する。
本研究では,多種多様なモダリティや領域にまたがる情報を組み合わせて,様々なデータ分布を拡散モデルで表現し,シーンレベルとタスクレベルを一般化した操作スキルを学習するフレキシブルな手法を提案する。
提案手法はタスクレベルの構成をマルチタスク操作に使用でき、分析コスト関数を用いて推論時のポリシー動作を適応させることができる。
我々は、シミュレーション、人間、および実際のロボットデータに基づいて手法を訓練し、ツール使用タスクの評価を行う。
構成されたポリシは、さまざまなシーンやタスクの下で堅牢で厳密なパフォーマンスを実現し、シミュレーションと実世界の両方の実験において、単一のデータソースからベースラインを上回ります。
詳細はhttps://liruiw.github.io/policycompを参照してください。
Training general robotic policies from heterogeneous data for different tasks is a significant challenge. Existing robotic datasets vary in different modalities such as color, depth, tactile, and proprioceptive information, and collected in different domains such as simulation, real robots, and human videos. Current methods usually collect and pool all data from one domain to train a single policy to handle such heterogeneity in tasks and domains, which is prohibitively expensive and difficult. In this work, we present a flexible approach, dubbed Policy Composition, to combine information across such diverse modalities and domains for learning scene-level and task-level generalized manipulation skills, by composing different data distributions represented with diffusion models. Our method can use task-level composition for multi-task manipulation and be composed with analytic cost functions to adapt policy behaviors at inference time. We train our method on simulation, human, and real robot data and evaluate in tool-use tasks. The composed policy achieves robust and dexterous performance under varying scenes and tasks and outperforms baselines from a single data source in both simulation and real-world experiments. See https://liruiw.github.io/policycomp for more details . | 翻訳日:2024-05-29 07:44:38 公開日:2024-05-27 |
# 確率的置換による状態拡張による変分DAG推定
Variational DAG Estimation via State Augmentation With Stochastic Permutations ( http://arxiv.org/abs/2402.02644v2 ) ライセンス: Link先を確認 | Edwin V. Bonilla, Pantelis Elinas, He Zhao, Maurizio Filippone, Vassili Kitsios, Terry O'Kane, | (参考訳) 観測データから有向非巡回グラフ(DAG)の形でベイズネットワークの構造を推定することは、因果発見などの分野における本質的な応用を伴う統計的かつ計算的に難しい問題である。
ベイズ的アプローチは、不確実な定量化とよく知られた識別可能性問題への対処を可能にするため、この課題を解決するための有望な方向である。
確率論的推論の観点から、主な課題は
一 DAG 制約を満たすグラフ上の分布を表すこと。
(ii) 基礎となる組合せ空間上の後部を推定すること。
そこで本稿では,DAGと置換の強化空間上に共同分布を定式化することにより,これらの課題に対処するアプローチを提案する。
本研究では,離散分布の連続的緩和を生かした変分推論による後続推定を行う。
提案手法は, ベイジアンおよび非ベイジアンベンチマークを多種多様な合成および実データセットで比較した場合に比較して, 競合的に動作することを示す。
Estimating the structure of a Bayesian network, in the form of a directed acyclic graph (DAG), from observational data is a statistically and computationally hard problem with essential applications in areas such as causal discovery. Bayesian approaches are a promising direction for solving this task, as they allow for uncertainty quantification and deal with well-known identifiability issues. From a probabilistic inference perspective, the main challenges are (i) representing distributions over graphs that satisfy the DAG constraint and (ii) estimating a posterior over the underlying combinatorial space. We propose an approach that addresses these challenges by formulating a joint distribution on an augmented space of DAGs and permutations. We carry out posterior estimation via variational inference, where we exploit continuous relaxations of discrete distributions. We show that our approach performs competitively when compared with a wide range of Bayesian and non-Bayesian benchmarks on a range of synthetic and real datasets. | 翻訳日:2024-05-29 07:44:38 公開日:2024-05-27 |
# マルチモーダル大言語モデルに対する統一幻覚検出
Unified Hallucination Detection for Multimodal Large Language Models ( http://arxiv.org/abs/2402.03190v4 ) ライセンス: Link先を確認 | Xiang Chen, Chenxi Wang, Yida Xue, Ningyu Zhang, Xiaoyan Yang, Qiang Li, Yue Shen, Lei Liang, Jinjie Gu, Huajun Chen, | (参考訳) マルチモーダルタスクにおいて大きな進歩があったにもかかわらず、マルチモーダル言語モデル(MLLM)は幻覚の重要な問題に悩まされている。
MLLMにおけるこのような幻覚の確実な検出は、モデル評価と実用的なアプリケーション展開の保護において重要な側面となっている。
この領域における以前の研究は、特異なタスク、不適切な範囲の幻覚圏、詳細な粒度の欠如によって制限されてきた。
これらの課題に対応するため、本研究は幻覚検出の探究的地平を広げる。
本稿では,幻覚検出手法の進歩を評価するために,メタ評価ベンチマークであるMHaluBenchを提案する。
さらに,幻覚の発生を確実に検証するための補助的ツール群を活用した,新しい統合型マルチモーダル幻覚検出フレームワークであるUNIHDを公表した。
精巧な評価と包括的分析により,UNIHDの有効性を実証した。
また,幻覚の様々なカテゴリーに対処するための具体的ツールの適用に関する戦略的洞察も提供する。
Despite significant strides in multimodal tasks, Multimodal Large Language Models (MLLMs) are plagued by the critical issue of hallucination. The reliable detection of such hallucinations in MLLMs has, therefore, become a vital aspect of model evaluation and the safeguarding of practical application deployment. Prior research in this domain has been constrained by a narrow focus on singular tasks, an inadequate range of hallucination categories addressed, and a lack of detailed granularity. In response to these challenges, our work expands the investigative horizons of hallucination detection. We present a novel meta-evaluation benchmark, MHaluBench, meticulously crafted to facilitate the evaluation of advancements in hallucination detection methods. Additionally, we unveil a novel unified multimodal hallucination detection framework, UNIHD, which leverages a suite of auxiliary tools to validate the occurrence of hallucinations robustly. We demonstrate the effectiveness of UNIHD through meticulous evaluation and comprehensive analysis. We also provide strategic insights on the application of specific tools for addressing various categories of hallucinations. | 翻訳日:2024-05-29 07:44:38 公開日:2024-05-27 |
# 等方性、クラスタ、および分類器
Isotropy, Clusters, and Classifiers ( http://arxiv.org/abs/2402.03191v3 ) ライセンス: Link先を確認 | Timothee Mickus, Stig-Arne Grönroos, Joseph Attieh, | (参考訳) 埋め込み空間がすべての次元を等しく使用するか、すなわち等方的であるかは、近年議論の対象となっている。
埋め込み空間における等方性の強制と強制の両方の証拠が得られた。
本稿では, 等方性は, クラスターの存在と相容れない埋め込み空間に要求を課し, 線形分類の目的にも悪影響を与えることを強調する。
我々は、この事実を数学的にも経験的にも証明し、文献の以前の結果に光を当てるために使用します。
Whether embedding spaces use all their dimensions equally, i.e., whether they are isotropic, has been a recent subject of discussion. Evidence has been accrued both for and against enforcing isotropy in embedding spaces. In the present paper, we stress that isotropy imposes requirements on the embedding space that are not compatible with the presence of clusters -- which also negatively impacts linear classification objectives. We demonstrate this fact both mathematically and empirically and use it to shed light on previous results from the literature. | 翻訳日:2024-05-29 07:44:38 公開日:2024-05-27 |
# RLHFにおける部分的に観測された逆状態の理論的枠組み
A Theoretical Framework for Partially Observed Reward-States in RLHF ( http://arxiv.org/abs/2402.03282v2 ) ライセンス: Link先を確認 | Chinmaya Kausik, Mirco Mutti, Aldo Pacchiano, Ambuj Tewari, | (参考訳) 人的フィードバック(RLHF)からの強化学習の展開は、その基盤となるモデルに関するより深い理論的研究を求めている。
RLHFの一般的なモデルは、人間のフィードバックに影響を及ぼす可能性のある神経科学に支えられた、部分的に観察された「内部状態」や、相互作用中に中間的なフィードバックを許容するものではない。
どちらも、学習のスピードアップとアライメントの改善に役立ちます。
これらの制約に対処するために、RLHFを部分的に観察された報酬状態(PORRL)を用いた強化学習としてモデル化する。
フィードバックは2種類あり、$-$ cardinal と dueling の2種類があります。
まず、PORRLは従来のRL、RLHF、報酬機など、幅広いRL問題を仮定することを示した。
本稿では,2つのモデルベース手法(POR-UCRL,POR-UCBVI)を提案する。
本手法では, 基本的後悔と標本的複雑性の両方を保証し, 生来の履歴の要約よりも改善されていることを示す。
次に,再帰的な内部状態と高密度な中間フィードバックを持つ設定において,GOLFのようなモデル不要な手法が生み出す利点について論じる。
この目的のために、ベルマン・エルダー次元の新しい履歴認識バージョンを定義し、我々の設定においてGOLFに対する新しい保証を与える。
デュエルフィードバックでは, 基本フィードバックに対する素早い削減は, サブリニア・デュエルの後悔を達成できないことを示す。
次に、最初の明示的な削減を行い、後悔を和らげることによる後悔の保証を変換する。
両方のフィードバック設定において、我々のモデルと保証が既存のモデルを一般化し拡張することを示します。
The growing deployment of reinforcement learning from human feedback (RLHF) calls for a deeper theoretical investigation of its underlying models. The prevalent models of RLHF do not account for neuroscience-backed, partially-observed "internal states" that can affect human feedback, nor do they accommodate intermediate feedback during an interaction. Both of these can be instrumental in speeding up learning and improving alignment. To address these limitations, we model RLHF as reinforcement learning with partially observed reward-states (PORRL). We accommodate two kinds of feedback $-$ cardinal and dueling feedback. We first demonstrate that PORRL subsumes a wide class of RL problems, including traditional RL, RLHF, and reward machines. For cardinal feedback, we present two model-based methods (POR-UCRL, POR-UCBVI). We give both cardinal regret and sample complexity guarantees for the methods, showing that they improve over naive history-summarization. We then discuss the benefits of a model-free method like GOLF with naive history-summarization in settings with recursive internal states and dense intermediate feedback. For this purpose, we define a new history aware version of the Bellman-eluder dimension and give a new guarantee for GOLF in our setting, which can be exponentially sharper in illustrative examples. For dueling feedback, we show that a naive reduction to cardinal feedback fails to achieve sublinear dueling regret. We then present the first explicit reduction that converts guarantees for cardinal regret to dueling regret. In both feedback settings, we show that our models and guarantees generalize and extend existing ones. | 翻訳日:2024-05-29 07:34:54 公開日:2024-05-27 |
# 深度完了のためのテスト時間適応
Test-Time Adaptation for Depth Completion ( http://arxiv.org/abs/2402.03312v4 ) ライセンス: Link先を確認 | Hyoungseob Park, Anjali Gupta, Alex Wong, | (参考訳) いくつかの(ソース)データセットでトレーニングされたモデルを転送して、ドメイン間のギャップによってテストデータをターゲットにする場合、パフォーマンスの劣化を観測することが一般的である。
このギャップを埋めるための既存の手法、例えばドメイン適応(DA)は、モデルがトレーニングされたソースデータ(しばしば利用できない)を必要とするが、ソースフリーのDAはテストデータに多くのパスを必要とする。
本稿では,1枚の画像とそれに伴うスパース深度マップから高密度深度マップを推定するタスクである深度完成のためのオンラインテスト時間適応手法を提案する。
まず、各データモダリティにおけるドメインシフトがモデル性能に与える影響について検討する。
スパース深度が画像よりもはるかに小さい共変量シフトを示すという観察に基づいて、ソースドメインで訓練された埋め込みモジュールを設計し、スパース深度のみを符号化する特徴からスパース深度とスパース深度へのマッピングを保持する。
テスト時間中に、このマップをソースドメイン機能のプロキシとして使用してスパース深度特徴を投影し、画像とスパース深度特徴をターゲットテストドメインからソースドメインに整列させる補助パラメータ(適応層)のセットをトレーニングするためのガイダンスとして使用する。
本手法を屋内および屋外のシナリオで評価し,平均21.1%のベースラインで改善したことを示す。
It is common to observe performance degradation when transferring models trained on some (source) datasets to target testing data due to a domain gap between them. Existing methods for bridging this gap, such as domain adaptation (DA), may require the source data on which the model was trained (often not available), while others, i.e., source-free DA, require many passes through the testing data. We propose an online test-time adaptation method for depth completion, the task of inferring a dense depth map from a single image and associated sparse depth map, that closes the performance gap in a single pass. We first present a study on how the domain shift in each data modality affects model performance. Based on our observations that the sparse depth modality exhibits a much smaller covariate shift than the image, we design an embedding module trained in the source domain that preserves a mapping from features encoding only sparse depth to those encoding image and sparse depth. During test time, sparse depth features are projected using this map as a proxy for source domain features and are used as guidance to train a set of auxiliary parameters (i.e., adaptation layer) to align image and sparse depth features from the target test domain to that of the source domain. We evaluate our method on indoor and outdoor scenarios and show that it improves over baselines by an average of 21.1%. | 翻訳日:2024-05-29 07:34:54 公開日:2024-05-27 |
# タグ付きリワードからの強化学習
Reinforcement Learning from Bagged Reward ( http://arxiv.org/abs/2402.03771v2 ) ライセンス: Link先を確認 | Yuting Tang, Xin-Qiang Cai, Yao-Xiang Ding, Qiyu Wu, Guoqing Liu, Masashi Sugiyama, | (参考訳) 強化学習(RL)では、エージェントが取るアクション毎に即時報酬信号が生成され、エージェントが累積報酬を最大化して最適なポリシーを得るのを助けることが一般的である。
しかし、現実世界の多くのシナリオでは、即時報酬信号は得られず、代わりにエージェントは、部分的なシーケンスや完全な軌道に付随する単一の報酬を受け取る。
本研究では,この課題を,非マルコフ的バッジ報酬を持つバッグとして扱うRLBR(Reinforcement Learning from Bagged Reward)として定義する。
本稿では,マルコフ決定過程(MDP)におけるRLBRと標準RLの関連性を確立するための理論的研究を行う。
これらのバッグ内の報酬分布を効果的に探索し、ポリシートレーニングを強化するために、各バッグ内の文脈的ニュアンスや時間的依存を解釈するための双方向の注意機構を用いたトランスフォーマーベースの報酬モデルReward Bag Transformerを提案する。
実験により, 袋の長さが大きくなるにつれて課題が増大し, 情報粒度の低下による性能劣化が生じることが明らかとなった。
いずれにせよ,本手法は既存の手法よりも優れており,バッグの長さによって効果の低下が最小であり,本来のMDPの報酬分布の近似に優れていた。
In Reinforcement Learning (RL), it is commonly assumed that an immediate reward signal is generated for each action taken by the agent, helping the agent maximize cumulative rewards to obtain the optimal policy. However, in many real-world scenarios, immediate reward signals are not obtainable; instead, agents receive a single reward that is contingent upon a partial sequence or a complete trajectory. In this work, we define this challenging problem as Reinforcement Learning from Bagged Reward (RLBR), where sequences of data are treated as bags with non-Markovian bagged rewards. We provide a theoretical study to establish the connection between RLBR and standard RL in Markov Decision Processes (MDPs). To effectively explore the reward distributions within these bags and enhance policy training, we propose a Transformer-based reward model, the Reward Bag Transformer, which employs a bidirectional attention mechanism to interpret contextual nuances and temporal dependencies within each bag. Our empirical evaluations reveal that the challenge intensifies as the bag length increases, leading to the performance degradation due to reduced informational granularity. Nevertheless, our approach consistently outperforms existing methods, demonstrating the least decline in efficacy across varying bag lengths and excelling in approximating the original MDP's reward distribution. | 翻訳日:2024-05-29 07:34:54 公開日:2024-05-27 |
# 帰還アライメント決定変換器
Return-Aligned Decision Transformer ( http://arxiv.org/abs/2402.03923v3 ) ライセンス: Link先を確認 | Tsunehiko Tanaka, Kenshi Abe, Kaito Ariu, Tetsuro Morimura, Edgar Simo-Serra, | (参考訳) オフライン強化学習における従来のアプローチは、リターンとして知られる累積報酬を最大化する最適なポリシーを学ぶことを目的としている。
しかし、アプリケーションが広まるにつれて、リターンを最大化するだけでなく、実際のリターンを特定のターゲットリターンと整合させるエージェントを訓練することがますます重要になり、エージェントのパフォーマンスを制御できるようになる。
決定変換器(DT)は、教師付き学習を通じて目標リターンに条件付けられたアクションを生成するポリシーを最適化し、目標リターンを使用してエージェントを制御する機構を備える。
しかし、DTの自己注意が低い注意点を返却トークンに割り当てているため、アクション生成はターゲットリターンの影響を受けにくい。
本稿では、実際のリターンと目標リターンを効果的に整合させるために、Return-Aligned Decision Transformer (RADT)を提案する。
RADTはリターンのみに注意を払って抽出した特徴を利用するため、アクション生成は目標リターンに一貫して依存することができる。
大規模実験により、RADTはDTベースの手法の実際の戻り値と目標戻り値との差を減少させることが示された。
Traditional approaches in offline reinforcement learning aim to learn the optimal policy that maximizes the cumulative reward, also known as return. However, as applications broaden, it becomes increasingly crucial to train agents that not only maximize the returns, but align the actual return with a specified target return, giving control over the agent's performance. Decision Transformer (DT) optimizes a policy that generates actions conditioned on the target return through supervised learning and is equipped with a mechanism to control the agent using the target return. However, the action generation is hardly influenced by the target return because DT's self-attention allocates scarce attention scores to the return tokens. In this paper, we propose Return-Aligned Decision Transformer (RADT), designed to effectively align the actual return with the target return. RADT utilizes features extracted by paying attention solely to the return, enabling the action generation to consistently depend on the target return. Extensive experiments show that RADT reduces the discrepancies between the actual return and the target return of DT-based methods. | 翻訳日:2024-05-29 07:34:54 公開日:2024-05-27 |
# SCAFFLSA: 線形確率近似とTD学習における不均一性のモデル化
SCAFFLSA: Taming Heterogeneity in Federated Linear Stochastic Approximation and TD Learning ( http://arxiv.org/abs/2402.04114v2 ) ライセンス: Link先を確認 | Paul Mangold, Sergey Samsonov, Safwan Labbi, Ilya Levin, Reda Alami, Alexey Naumov, Eric Moulines, | (参考訳) 本稿では,連合線形確率近似(FedLSA)アルゴリズムのサンプルおよび通信複雑性を解析する。
エージェントの不均一性による局所訓練の効果を明確化する。
FedLSAの通信複雑性は、所望の精度$\epsilon$の逆で多項式的にスケールすることを示す。
これを解決するために、制御変数を用いてクライアントのドリフトを補正し、そのサンプルと通信の複雑さを確立する新しいバージョンのFedLSAであるSCAFFLSAを提案する。
統計的に不均一なエージェントの場合、その通信複雑性はScaffnewと同様、所望の精度で対数的にスケールする。
重要な発見は、Scaffnewの既存の結果と比較すると、サンプルの複雑さはエージェントの数の逆でスケールする、すなわち線形スピードアップと呼ばれる性質である。
この線形スピードアップを達成するには、全く新しい理論的な議論が必要である。
線形関数近似を用いた時間差分学習に提案手法を適用し,その複雑性改善を解析した。
In this paper, we analyze the sample and communication complexity of the federated linear stochastic approximation (FedLSA) algorithm. We explicitly quantify the effects of local training with agent heterogeneity. We show that the communication complexity of FedLSA scales polynomially with the inverse of the desired accuracy $\epsilon$. To overcome this, we propose SCAFFLSA a new variant of FedLSA that uses control variates to correct for client drift, and establish its sample and communication complexities. We show that for statistically heterogeneous agents, its communication complexity scales logarithmically with the desired accuracy, similar to Scaffnew. An important finding is that, compared to the existing results for Scaffnew, the sample complexity scales with the inverse of the number of agents, a property referred to as linear speed-up. Achieving this linear speed-up requires completely new theoretical arguments. We apply the proposed method to federated temporal difference learning with linear function approximation and analyze the corresponding complexity improvements. | 翻訳日:2024-05-29 07:34:54 公開日:2024-05-27 |
# きめ細かな逆流によるテキスト生成のための学習言語モデル
Training Language Models to Generate Text with Citations via Fine-grained Rewards ( http://arxiv.org/abs/2402.04315v2 ) ライセンス: Link先を確認 | Chengyu Huang, Zeqiu Wu, Yushi Hu, Wenya Wang, | (参考訳) 近年のLarge Language Models (LLM) はユーザクエリの応答に有用であることが証明されているが,幻覚の傾向があり,信頼性の低いソースへの参照が欠如しているため,その応答には信頼性が欠如していることが多い。
これらの問題に対する直感的な解決策は、証拠として外部文書を参照するテキスト内引用を含めることである。
以前の研究は、直接 LLM にインテキストの引用を生成するよう促してきたが、その性能は、特に小さな LLM の場合、満足には程遠い。
本研究では, LLMに対して, 応答の正確性を確保しつつ, 支援的かつ関連性の高い引用を生成するための, 微粒な報酬を用いた効果的な学習フレームワークを提案する。
また、これらの微粒な報酬を一般的なLLMトレーニング戦略に適用する体系的な分析を行い、従来の実践よりも有利であることを示す。
ALCEベンチマークから得られた質問応答(QA)データセットについて広範な実験を行い、EXPERTQAを用いてモデルの一般化性を検証する。
LLaMA-2-7Bでは、細粒度の報酬がGPT-3.5-turboを上回り、ベースラインの中で最高の性能を達成している。
While recent Large Language Models (LLMs) have proven useful in answering user queries, they are prone to hallucination, and their responses often lack credibility due to missing references to reliable sources. An intuitive solution to these issues would be to include in-text citations referring to external documents as evidence. While previous works have directly prompted LLMs to generate in-text citations, their performances are far from satisfactory, especially when it comes to smaller LLMs. In this work, we propose an effective training framework using fine-grained rewards to teach LLMs to generate highly supportive and relevant citations, while ensuring the correctness of their responses. We also conduct a systematic analysis of applying these fine-grained rewards to common LLM training strategies, demonstrating its advantage over conventional practices. We conduct extensive experiments on Question Answering (QA) datasets taken from the ALCE benchmark and validate the model's generalizability using EXPERTQA. On LLaMA-2-7B, the incorporation of fine-grained rewards achieves the best performance among the baselines, even surpassing that of GPT-3.5-turbo. | 翻訳日:2024-05-29 07:34:54 公開日:2024-05-27 |
# 情報保持によるLLMの高精度LORA-Finetuning量子化
Accurate LoRA-Finetuning Quantization of LLMs via Information Retention ( http://arxiv.org/abs/2402.05445v2 ) ライセンス: Link先を確認 | Haotong Qin, Xudong Ma, Xingyu Zheng, Xiaoyang Li, Yang Zhang, Shouda Liu, Jie Luo, Xianglong Liu, Michele Magno, | (参考訳) LLMの LoRA-finetuning 量子化は、リソース制約のあるハードウェアに展開するための正確かつコンパクトな LLM を得るために広く研究されている。
しかし、既存の手法は量子化LDMを著しく劣化させ、LoRAの微調整の恩恵を受けられなかった。
本稿では,LoRAを用いて量子化LLMを情報保持により高精度にプッシュする新しいIR-QLoRAを提案する。
提案したIR-QLoRAは,情報統合の観点から得られた2つの技術に大きく依存している。(1)統計に基づく情報校正量子化により,LLMの量子化パラメータが元の情報を正確に保持できる。(2)微調整に基づく情報弾性接続により,LoRAは多様な情報を用いた弾性表現変換を利用する。
総合的な実験により、IR-QLoRAは2-4ビット幅のLLaMAおよびLLaMA2ファミリーにおいて、最先端の手法と比較してMMLUの1.4%の改善が達成されている。
パフォーマンスの大幅な向上には、わずか0.31%の追加時間しか必要とせず、IR-QLoRAの良好な効率が明らかになりました。
IR-QLoRAは優れた汎用性を持ち、さまざまなフレームワーク(例えば、NormalFloatやIntegerの量子化)と互換性があり、一般的な精度向上をもたらす。
コードはhttps://github.com/htqin/ir-qlora.comで公開されている。
The LoRA-finetuning quantization of LLMs has been extensively studied to obtain accurate yet compact LLMs for deployment on resource-constrained hardware. However, existing methods cause the quantized LLM to severely degrade and even fail to benefit from the finetuning of LoRA. This paper proposes a novel IR-QLoRA for pushing quantized LLMs with LoRA to be highly accurate through information retention. The proposed IR-QLoRA mainly relies on two technologies derived from the perspective of unified information: (1) statistics-based Information Calibration Quantization allows the quantized parameters of LLM to retain original information accurately; (2) finetuning-based Information Elastic Connection makes LoRA utilizes elastic representation transformation with diverse information. Comprehensive experiments show that IR-QLoRA can significantly improve accuracy across LLaMA and LLaMA2 families under 2-4 bit-widths, e.g., 4- bit LLaMA-7B achieves 1.4% improvement on MMLU compared with the state-of-the-art methods. The significant performance gain requires only a tiny 0.31% additional time consumption, revealing the satisfactory efficiency of our IR-QLoRA. We highlight that IR-QLoRA enjoys excellent versatility, compatible with various frameworks (e.g., NormalFloat and Integer quantization) and brings general accuracy gains. The code is available at https://github.com/htqin/ir-qlora. | 翻訳日:2024-05-29 07:34:54 公開日:2024-05-27 |
# 浅部ReLU様ニューラルネットワークのランドスケープ:静止点,サドルエスケープ,ネットワーク埋め込み
Loss Landscape of Shallow ReLU-like Neural Networks: Stationary Points, Saddle Escaping, and Network Embedding ( http://arxiv.org/abs/2402.05626v3 ) ライセンス: Link先を確認 | Zhengqing Wu, Berfin Simsek, Francois Ged, | (参考訳) 本稿では,経験的二乗損失を学習したReLU様活性化関数を持つ一層ニューラルネットワークの損失状況について検討する。
アクティベーション関数は微分不可能であるため、固定点を完全に特徴づける方法は今のところ不明である。
非微分可能ケースと微分可能ケースの両方に適用可能な定常条件を提案する。
さらに、定常点が一階条件で定義される「エスケープニューロン」を含まない場合、局所最小値でなければならないことを示す。
さらに、スカラーアウトプットの場合、エスケープニューロンの存在は、静止点が局所的な最小値でないことを保証している。
その結果,浅部ReLU様ネットワークに対する無限小の初期化から始まり,サドルからサドルまでのトレーニングプロセスの記述を洗練し,サドルから脱出したニューロンのパラメータ変化と直接関連付けることができた。
さらに、より広いネットワーク内でより狭いネットワークをインスタンス化するネットワーク埋め込みが、静止点を再設定する方法について、十分に議論することができる。
In this paper, we investigate the loss landscape of one-hidden-layer neural networks with ReLU-like activation functions trained with the empirical squared loss. As the activation function is non-differentiable, it is so far unclear how to completely characterize the stationary points. We propose the conditions for stationarity that apply to both non-differentiable and differentiable cases. Additionally, we show that, if a stationary point does not contain "escape neurons", which are defined with first-order conditions, then it must be a local minimum. Moreover, for the scalar-output case, the presence of an escape neuron guarantees that the stationary point is not a local minimum. Our results refine the description of the saddle-to-saddle training process starting from infinitesimally small (vanishing) initialization for shallow ReLU-like networks, linking saddle escaping directly with the parameter changes of escape neurons. Moreover, we are also able to fully discuss how network embedding, which is to instantiate a narrower network within a wider network, reshapes the stationary points. | 翻訳日:2024-05-29 07:34:54 公開日:2024-05-27 |
# 並列観測予測によるトークンベース世界モデルの改善
Improving Token-Based World Models with Parallel Observation Prediction ( http://arxiv.org/abs/2402.05643v3 ) ライセンス: Link先を確認 | Lior Cohen, Kaixin Wang, Bingyi Kang, Shie Mannor, | (参考訳) 離散シンボルのシーケンスに適用したトランスフォーマーの成功により、最近、サンプル効率の良い方法としてトークンベースの世界モデル(TBWM)が提案された。
TBWMでは、ワールドモデルはエージェントの経験を言語のようなトークンのシーケンスとして消費し、それぞれの観察がサブシーケンスを構成する。
しかしながら、イマジネーションの間、シーケンシャルなトークン・バイ・トークン生成による次の観測は深刻なボトルネックを引き起こし、長いトレーニング時間、GPU利用の低さ、限られた表現につながります。
このボトルネックを解決するために,新しい並列観測予測(POP)機構を考案した。
POPは、我々の強化学習環境に合わせて、新しいフォワードモードでRetentive Network(RetNet)を拡張します。
我々は,従来のTBWMよりも15.4倍高速な想像力を示す新しいTBWMエージェントREM(Retentive Environment Model)にPOPを組み込んだ。
REMは、Atari 100Kベンチマークの26試合中12試合で超人的なパフォーマンスを達成し、トレーニングは12時間以内である。
私たちのコードは \url{https://github.com/leor-c/REM} で利用可能です。
Motivated by the success of Transformers when applied to sequences of discrete symbols, token-based world models (TBWMs) were recently proposed as sample-efficient methods. In TBWMs, the world model consumes agent experience as a language-like sequence of tokens, where each observation constitutes a sub-sequence. However, during imagination, the sequential token-by-token generation of next observations results in a severe bottleneck, leading to long training times, poor GPU utilization, and limited representations. To resolve this bottleneck, we devise a novel Parallel Observation Prediction (POP) mechanism. POP augments a Retentive Network (RetNet) with a novel forward mode tailored to our reinforcement learning setting. We incorporate POP in a novel TBWM agent named REM (Retentive Environment Model), showcasing a 15.4x faster imagination compared to prior TBWMs. REM attains superhuman performance on 12 out of 26 games of the Atari 100K benchmark, while training in less than 12 hours. Our code is available at \url{https://github.com/leor-c/REM}. | 翻訳日:2024-05-29 07:34:54 公開日:2024-05-27 |
# リアルな抗体設計のためのデカップリング配列と構造生成
Decoupled Sequence and Structure Generation for Realistic Antibody Design ( http://arxiv.org/abs/2402.05982v2 ) ライセンス: Link先を確認 | Nayoung Kim, Minsu Kim, Sungsoo Ahn, Jinkyoo Park, | (参考訳) 抗体設計は治療の進行に重要な役割を果たしている。
ディープラーニングはこの分野で急速に進歩してきたが、既存の手法は、タスク固有の最適化を制限するために、抗体配列と構造を共同で生成している。
そこで本研究では, 配列生成と構造予測を分離したASSDフレームワークを提案する。
我々のアプローチは単純だが、そのような切り離し戦略は以前の研究で見過ごされてきた。
また、広く使われている非自己回帰生成器は、過度に繰り返されるトークンを含むシーケンスを促進する。
このような配列は、アウト・オブ・ディストリビューションであり、患者に有害な免疫反応を引き起こす、望ましくない発達性の性質をもたらす。
これを解決するために,高パフォーマンスと低トークン繰り返しのトレードオフを効果的に行う,合成に基づく目的を導入する。
以上の結果から,ASSDは既存の抗体設計モデルより一貫して優れており,合成に基づく目的は非自己回帰モデルのトークン反復を緩和する。
私たちのコードは \url{https://github.com/lkny123/ASSD_public} で利用可能です。
Antibody design plays a pivotal role in advancing therapeutics. Although deep learning has made rapid progress in this field, existing methods jointly generate antibody sequences and structures, limiting task-specific optimization. In response, we propose an antibody sequence-structure decoupling (ASSD) framework, which separates sequence generation and structure prediction. Although our approach is simple, such a decoupling strategy has been overlooked in previous works. We also find that the widely used non-autoregressive generators promote sequences with overly repeating tokens. Such sequences are both out-of-distribution and prone to undesirable developability properties that can trigger harmful immune responses in patients. To resolve this, we introduce a composition-based objective that allows an efficient trade-off between high performance and low token repetition. Our results demonstrate that ASSD consistently outperforms existing antibody design models, while the composition-based objective successfully mitigates token repetition of non-autoregressive models. Our code is available at \url{https://github.com/lkny123/ASSD_public}. | 翻訳日:2024-05-29 07:25:03 公開日:2024-05-27 |
# Retrieve, Merge, Predict: データレイクによるテーブルの拡張
Retrieve, Merge, Predict: Augmenting Tables with Data Lakes ( http://arxiv.org/abs/2402.06282v4 ) ライセンス: Link先を確認 | Riccardo Cappuzzo, Aimee Coelho, Felix Lefebvre, Paolo Papotti, Gael Varoquaux, | (参考訳) データレイクにおけるデータ発見の詳細な分析を行い、与えられた機械学習タスクのテーブル拡張に焦点を当てた。
結合可能なテーブルを検索し、情報をマージし、結果のテーブルと予測する。
データレイクとして、この論文ではYADL(Yet Another Data Lake)という、このデータディスカバリタスクのベンチマークツールとして開発した新しいデータセットと、よく参照された実際のデータレイクであるOpen Data USを使用している。
本研究は,両湖の体系的な調査を通じて,結合候補を正確に検索することの重要性と,単純なマージ手法の効率性について概説する。
我々は,既存のソリューションのメリットと,その限界に関する新たな知見を報告し,この分野における今後の研究を導くことを目的とする。
We present an in-depth analysis of data discovery in data lakes, focusing on table augmentation for given machine learning tasks. We analyze alternative methods used in the three main steps: retrieving joinable tables, merging information, and predicting with the resultant table. As data lakes, the paper uses YADL (Yet Another Data Lake) -- a novel dataset we developed as a tool for benchmarking this data discovery task -- and Open Data US, a well-referenced real data lake. Through systematic exploration on both lakes, our study outlines the importance of accurately retrieving join candidates and the efficiency of simple merging methods. We report new insights on the benefits of existing solutions and on their limitations, aiming at guiding future research in this space. | 翻訳日:2024-05-29 07:25:03 公開日:2024-05-27 |
# より良いか悪いか : ラベル拡張による最小分散特徴の学習
For Better or For Worse? Learning Minimum Variance Features With Label Augmentation ( http://arxiv.org/abs/2402.06855v2 ) ライセンス: Link先を確認 | Muthu Chidambaram, Rong Ge, | (参考訳) データの強化は、過去10年間に分類タスクのディープラーニングモデルをトレーニングする上で重要な役割を担ってきた。
ラベルの平滑化とミックスアップの両方を含む、データ拡張技術の重要なサブクラスは、入力データだけでなく、モデルトレーニング中に入力ラベルを変更することである。
本研究では,このような手法のラベル強化の側面が果たす役割を解析する。
まず、ラベル拡張で訓練された二項分類データの線形モデルは、データ内の最小分散特徴のみを学習し、標準トレーニング(重み減衰を含む)はより高い分散特徴を学習できることを証明した。
次に, 非線形モデルや一般データ分布においても, ラベルの平滑化や混合損失はモデル出力分散の関数によって低く抑えられることを示す。
ラベルのスムース化とMixupは、データの急激な相関に対してより堅牢である。
本理論は, 画像分類ベンチマークを用いて, 相関関係を持つように修正した実験により, 実践を反映していることを確認した。
Data augmentation has been pivotal in successfully training deep learning models on classification tasks over the past decade. An important subclass of data augmentation techniques - which includes both label smoothing and Mixup - involves modifying not only the input data but also the input label during model training. In this work, we analyze the role played by the label augmentation aspect of such methods. We first prove that linear models on binary classification data trained with label augmentation learn only the minimum variance features in the data, while standard training (which includes weight decay) can learn higher variance features. We then use our techniques to show that even for nonlinear models and general data distributions, the label smoothing and Mixup losses are lower bounded by a function of the model output variance. An important consequence of our results is negative: label smoothing and Mixup can be less robust to spurious correlations in the data. We verify that our theory reflects practice via experiments on image classification benchmarks modified to have spurious correlations. | 翻訳日:2024-05-29 07:25:03 公開日:2024-05-27 |
# シークエンシャル予測における校正からの距離について
On the Distance from Calibration in Sequential Prediction ( http://arxiv.org/abs/2402.07458v2 ) ライセンス: Link先を確認 | Mingda Qiao, Letian Zheng, | (参考訳) 本研究では、予測器をキャリブレーション距離で評価し、予測値と完全にキャリブレーションされた予測セットとの間の距離を$L_1$と定義する。
これは、最近B{\l}asiok, Gopalan, Hu and Nakkiran (STOC 2023)によって提案されたオフライン設定の校正測度に類似している。
キャリブレーション距離は完全キャリブレーションから逸脱する自然な直感的な尺度であり、$L_1$キャリブレーション誤差やその変量のような多くの一般的なキャリブレーション測度を保たないリプシッツ連続性特性を満たす。
我々は、逆選択された$T$バイナリ結果の列に対して、予測において$O(\sqrt{T})$キャリブレーション距離を達成する予測アルゴリズムが存在することを証明した。
この上界のコアは、キャリブレーション距離が、前者の連続緩和である下方キャリブレーション距離によって正確に近似されていることを示す構造的な結果である。
すると、$O(\sqrt{T})$低いキャリブレーション距離は、単純なミニマックス引数とリプシッツ類でのオンライン学習への還元によって達成できることを示す。
下界側では、$\Omega(T^{1/3})$キャリブレーション距離は、敵が独立したランダムビットの列を出力しても避けられないことが示され、早い段階で停止する(すなわち、ランダムビットの生成を停止し、残りのステップで同じビットを出力する)。
興味深いことに、この早期停止がなければ、予測器はより小さなキャリブレーション距離$\mathrm{polylog}(T)$を達成できる。
We study a sequential binary prediction setting where the forecaster is evaluated in terms of the calibration distance, which is defined as the $L_1$ distance between the predicted values and the set of predictions that are perfectly calibrated in hindsight. This is analogous to a calibration measure recently proposed by B{\l}asiok, Gopalan, Hu and Nakkiran (STOC 2023) for the offline setting. The calibration distance is a natural and intuitive measure of deviation from perfect calibration, and satisfies a Lipschitz continuity property which does not hold for many popular calibration measures, such as the $L_1$ calibration error and its variants. We prove that there is a forecasting algorithm that achieves an $O(\sqrt{T})$ calibration distance in expectation on an adversarially chosen sequence of $T$ binary outcomes. At the core of this upper bound is a structural result showing that the calibration distance is accurately approximated by the lower calibration distance, which is a continuous relaxation of the former. We then show that an $O(\sqrt{T})$ lower calibration distance can be achieved via a simple minimax argument and a reduction to online learning on a Lipschitz class. On the lower bound side, an $\Omega(T^{1/3})$ calibration distance is shown to be unavoidable, even when the adversary outputs a sequence of independent random bits, and has an additional ability to early stop (i.e., to stop producing random bits and output the same bit in the remaining steps). Interestingly, without this early stopping, the forecaster can achieve a much smaller calibration distance of $\mathrm{polylog}(T)$. | 翻訳日:2024-05-29 07:25:03 公開日:2024-05-27 |
# G-Retriever: テキストグラフ理解と質問応答のための検索拡張生成
G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering ( http://arxiv.org/abs/2402.07630v3 ) ライセンス: Link先を確認 | Xiaoxin He, Yijun Tian, Yifei Sun, Nitesh V. Chawla, Thomas Laurent, Yann LeCun, Xavier Bresson, Bryan Hooi, | (参考訳) テキスト属性を持つグラフが与えられると、ユーザは 'chat with their graph': すなわち、会話インターフェイスを使ってグラフについて質問することができる。
ユーザの質問に応えて,本手法はテキスト応答を提供し,グラフの関連部分をハイライトする。
既存の研究は、大規模言語モデル(LLM)とグラフニューラルネットワーク(GNN)を様々な方法で統合しているが、それらは主に、従来のグラフタスク(ノード、エッジ、グラフ分類など)、あるいは、小さなグラフや合成グラフ上の単純なグラフクエリに答えることに焦点を当てている。
対照的に、シーングラフ理解、常識推論、知識グラフ推論を含む複数のアプリケーションに適用可能な、現実のテキストグラフを対象とした柔軟な問合せフレームワークを開発する。
この目標に向けて、我々はまず、異なるタスクから収集されたデータを用いたグラフ質問回答(GraphQA)ベンチマークを開発する。
そこで本論文では,汎用テキストグラフに対する第1次検索拡張生成(RAG)手法を提案する。
幻覚に抵抗し、LLMのコンテキストウィンドウサイズを大幅に超えるテキストグラフを可能にするため、G-Retrieverは、このタスクを入賞スタイナーツリー最適化問題として定式化し、グラフ上のRAGを実行する。
実験により,本手法は複数の領域からのテキストグラフタスクのベースラインを上回り,より大きなグラフサイズでスケールし,幻覚を緩和することを示した。
~\footnote{Our codes and datasets are available at: \url{https://github.com/XiaoxinHe/G-Retriever}}
Given a graph with textual attributes, we enable users to `chat with their graph': that is, to ask questions about the graph using a conversational interface. In response to a user's questions, our method provides textual replies and highlights the relevant parts of the graph. While existing works integrate large language models (LLMs) and graph neural networks (GNNs) in various ways, they mostly focus on either conventional graph tasks (such as node, edge, and graph classification), or on answering simple graph queries on small or synthetic graphs. In contrast, we develop a flexible question-answering framework targeting real-world textual graphs, applicable to multiple applications including scene graph understanding, common sense reasoning, and knowledge graph reasoning. Toward this goal, we first develop a Graph Question Answering (GraphQA) benchmark with data collected from different tasks. Then, we propose our G-Retriever method, introducing the first retrieval-augmented generation (RAG) approach for general textual graphs, which can be fine-tuned to enhance graph understanding via soft prompting. To resist hallucination and to allow for textual graphs that greatly exceed the LLM's context window size, G-Retriever performs RAG over a graph by formulating this task as a Prize-Collecting Steiner Tree optimization problem. Empirical evaluations show that our method outperforms baselines on textual graph tasks from multiple domains, scales well with larger graph sizes, and mitigates hallucination.~\footnote{Our codes and datasets are available at: \url{https://github.com/XiaoxinHe/G-Retriever}} | 翻訳日:2024-05-29 07:25:03 公開日:2024-05-27 |
# ラウンドトリップ精度を有するコードLLMの教師なし評価
Unsupervised Evaluation of Code LLMs with Round-Trip Correctness ( http://arxiv.org/abs/2402.08699v2 ) ライセンス: Link先を確認 | Miltiadis Allamanis, Sheena Panthaplackel, Pengcheng Yin, | (参考訳) コード大言語モデル(LLM)を評価するために、研究はHumanEvalやMBPPなど、実際のソフトウェアドメインの狭い部分を表すいくつかの手作業によるベンチマークに頼っている。
本研究では,代替評価法としてラウンドトリップ正当性(RTC)を導入する。
RTCは、コストのかかる人為的なキュレーションを必要とせずに、現実世界のソフトウェアドメインの幅広い範囲でのコードLLM評価を可能にする。
RTCは、モデルに予測(例えば、自然言語を使ってコードを記述する)を依頼し、その予測を返送(例えば、予測された記述からコードを合成する)し、このラウンドトリップが元の入力と意味論的に等価なコードにつながるかどうかを確認するという考え方に基づいている。
コード合成と編集の評価にRTCを用いる方法を示す。
RTCは、既存の狭義のコード合成ベンチマークのモデルパフォーマンスと強く相関し、コストのかかる人的アノテーションなしでは従来不可能だったより広い範囲のドメインやタスクに拡張できることに気付きました。
To evaluate code large language models (LLMs), research has relied on a few small manually curated benchmarks, such as HumanEval and MBPP, which represent a narrow part of the real-world software domains. In this work, we introduce round-trip correctness (RTC) as an alternative evaluation method. RTC allows Code LLM evaluation on a broader spectrum of real-world software domains without the need for costly human curation. RTC rests on the idea that we can ask a model to make a prediction (e.g., describe some code using natural language), feed that prediction back (e.g., synthesize code from the predicted description), and check if this round-trip leads to code that is semantically equivalent to the original input. We show how to employ RTC to evaluate code synthesis and editing. We find that RTC strongly correlates with model performance on existing narrow-domain code synthesis benchmarks while allowing us to expand to a much broader set of domains and tasks which was not previously possible without costly human annotations. | 翻訳日:2024-05-29 07:25:03 公開日:2024-05-27 |
# データグラフ上の優先サブセット修復の計算複雑性
Computational Complexity of Preferred Subset Repairs on Data-Graphs ( http://arxiv.org/abs/2402.09265v2 ) ライセンス: Link先を確認 | Nina Pardal, Santiago Cifuentes, Edwin Pin, Maria Vanina Martinez, Sergio Abriola, | (参考訳) 優先順位は、実際的な推論において重要な要素であり、特に、追求されるさまざまな選択肢や行動のコースに対する意思決定に関わるタスクにおいてである。
本研究は, グラフデータベースの形で, 不整合な知識ベースを修復し, 問合せすることに焦点を当てる。
事前のドメイン知識がなければ、可能なすべての修復は同じように好まれる。
これはいくつかの設定に適しているかもしれないが、潜在的な修復の中で何らかの好みの順序を確立し、利用することは合理的であると思われる。
本稿では,GXPath式に基づく一貫性の概念を整合性制約として用いて,データ値を持つグラフデータベース上での優先度の高い補修問題について検討する。
本稿では,標準部分集合補修セマンティクスに基づいて,重み,多重セット,セットベース優先レベルを取り入れたいくつかの選好基準を提案する。
優先基準が適用できない場合と同様の計算複雑性を維持可能であることを示す。
最後に、この設定における一貫した問合せ応答の複雑さを考察し、導入されるすべての選好基準について、下限と上限を厳密に求める。
Preferences are a pivotal component in practical reasoning, especially in tasks that involve decision-making over different options or courses of action that could be pursued. In this work, we focus on repairing and querying inconsistent knowledge bases in the form of graph databases, which involves finding a way to solve conflicts in the knowledge base and considering answers that are entailed from every possible repair, respectively. Without a priori domain knowledge, all possible repairs are equally preferred. Though that may be adequate for some settings, it seems reasonable to establish and exploit some form of preference order among the potential repairs. We study the problem of computing prioritized repairs over graph databases with data values, using a notion of consistency based on GXPath expressions as integrity constraints. We present several preference criteria based on the standard subset repair semantics, incorporating weights, multisets, and set-based priority levels. We show that it is possible to maintain the same computational complexity as in the case where no preference criterion is available for exploitation. Finally, we explore the complexity of consistent query answering in this setting and obtain tight lower and upper bounds for all the preference criteria introduced. | 翻訳日:2024-05-29 07:25:03 公開日:2024-05-27 |
# なぜ感性関数はトランスフォーマーにとって難しいのか?
Why are Sensitive Functions Hard for Transformers? ( http://arxiv.org/abs/2402.09963v4 ) ライセンス: Link先を確認 | Michael Hahn, Mark Rofin, | (参考訳) 実証的研究では、PARITYのような単純な形式言語を計算することの難しさや、低次関数に対するバイアスなど、トランスフォーマーの学習可能性バイアスと制限の幅が特定されている。
しかし、理論的な理解は依然として限られており、既存の表現性理論は現実的な学習能力の過大な予測または過小評価を行っている。
出力が入力文字列の多くの部分に敏感な変換器は、パラメータ空間の孤立点に常駐し、一般化の低感度バイアスをもたらす。
本研究では, この理論が, 低感度・低度への一般化バイアス, PARITYにおける長さ一般化の難しさなど, 変圧器の学習能力とバイアスに関する幅広い経験的観察を統一することを示す。
このことは、トランスフォーマーの帰納バイアスを理解するには、本質的な表現性だけでなく、損失の風景も研究する必要があることを示している。
Empirical studies have identified a range of learnability biases and limitations of transformers, such as a persistent difficulty in learning to compute simple formal languages such as PARITY, and a bias towards low-degree functions. However, theoretical understanding remains limited, with existing expressiveness theory either overpredicting or underpredicting realistic learning abilities. We prove that, under the transformer architecture, the loss landscape is constrained by the input-space sensitivity: Transformers whose output is sensitive to many parts of the input string inhabit isolated points in parameter space, leading to a low-sensitivity bias in generalization. We show theoretically and empirically that this theory unifies a broad array of empirical observations about the learning abilities and biases of transformers, such as their generalization bias towards low sensitivity and low degree, and difficulty in length generalization for PARITY. This shows that understanding transformers' inductive biases requires studying not just their in-principle expressivity, but also their loss landscape. | 翻訳日:2024-05-29 07:25:03 公開日:2024-05-27 |
# 拡散モデルの並列サンプリング高速化
Accelerating Parallel Sampling of Diffusion Models ( http://arxiv.org/abs/2402.09970v2 ) ライセンス: Link先を確認 | Zhiwei Tang, Jiasheng Tang, Hao Luo, Fan Wang, Tsung-Hui Chang, | (参考訳) 拡散モデルは、画像生成のための最先端の生成モデルとして登場した。
しかしながら、拡散モデルからのサンプリングは通常、サンプリングプロセスの固有の自己回帰性のために時間を要する。
本研究では,自己回帰過程を並列化することにより拡散モデルのサンプリングを高速化する新しい手法を提案する。
具体的には、固定点反復による三角形非線形方程式系の解法としてサンプリング過程を再構成する。
この革新的な定式化により、問題解決プロセスに必要なイテレーションステップをさらに削減するために、いくつかの体系的な手法を探求する。
これらの手法を適用したParaTAAは、余分な計算資源とメモリ資源を活用してサンプリング速度を向上する、普遍的でトレーニング不要な並列サンプリングアルゴリズムである。
実験の結果,DDIMやDDPMなどの一般的な逐次サンプリングアルゴリズムが必要とする推論ステップを4$\sim$14倍に削減できることがわかった。
特に、広く使われているテキストと画像の拡散モデルであるStable Diffusionに100ステップDDIMのParaTAAを適用すると、7つの推論ステップでシーケンシャルサンプリングと同じ画像を生成できる。
コードはhttps://github.com/TZW1998/ParaTAA-Diffusionで公開されている。
Diffusion models have emerged as state-of-the-art generative models for image generation. However, sampling from diffusion models is usually time-consuming due to the inherent autoregressive nature of their sampling process. In this work, we propose a novel approach that accelerates the sampling of diffusion models by parallelizing the autoregressive process. Specifically, we reformulate the sampling process as solving a system of triangular nonlinear equations through fixed-point iteration. With this innovative formulation, we explore several systematic techniques to further reduce the iteration steps required by the solving process. Applying these techniques, we introduce ParaTAA, a universal and training-free parallel sampling algorithm that can leverage extra computational and memory resources to increase the sampling speed. Our experiments demonstrate that ParaTAA can decrease the inference steps required by common sequential sampling algorithms such as DDIM and DDPM by a factor of 4$\sim$14 times. Notably, when applying ParaTAA with 100 steps DDIM for Stable Diffusion, a widely-used text-to-image diffusion model, it can produce the same images as the sequential sampling in only 7 inference steps. The code is available at https://github.com/TZW1998/ParaTAA-Diffusion. | 翻訳日:2024-05-29 07:25:03 公開日:2024-05-27 |
# ピスワイズトリリニアネットワークからの多面体錯体の導出
Polyhedral Complex Derivation from Piecewise Trilinear Networks ( http://arxiv.org/abs/2402.10403v2 ) ライセンス: Link先を確認 | Jin-Hwa Kim, | (参考訳) ディープニューラルネットワークの可視化の最近の進歩は、その構造と連続的ピアースワイドアフィン(CPWA)関数からのメッシュ抽出に関する洞察を提供する。
一方、ニューラルサーフェス表現学習の発展には、スペクトルバイアスのような問題に対処する非線形位置符号化が含まれているが、これはCPWA関数に基づいたメッシュ抽出技術を適用する上での課題である。
位置エンコーディングとしての三角補間法に着目した理論的洞察と解析的メッシュ抽出を行い, ユーコナル制約の下での三角領域内の平らな平面への超曲面の変換を示す。
さらに,より広い応用に寄与する3つの超曲面間の交差点の近似法を提案する。
本研究は,超曲面の固有損失と平面性との関係を検証しながら,チャンファー距離と効率,角距離による正当性と同義性を実証的に検証した。
Recent advancements in visualizing deep neural networks provide insights into their structures and mesh extraction from Continuous Piecewise Affine (CPWA) functions. Meanwhile, developments in neural surface representation learning incorporate non-linear positional encoding, addressing issues like spectral bias; however, this poses challenges in applying mesh extraction techniques based on CPWA functions. Focusing on trilinear interpolating methods as positional encoding, we present theoretical insights and an analytical mesh extraction, showing the transformation of hypersurfaces to flat planes within the trilinear region under the eikonal constraint. Moreover, we introduce a method for approximating intersecting points among three hypersurfaces contributing to broader applications. We empirically validate correctness and parsimony through chamfer distance and efficiency, and angular distance, while examining the correlation between the eikonal loss and the planarity of the hypersurfaces. | 翻訳日:2024-05-29 07:25:03 公開日:2024-05-27 |
# インクリメンタルシーケンスラベル:2つのシフトの物語
Incremental Sequence Labeling: A Tale of Two Shifts ( http://arxiv.org/abs/2402.10447v2 ) ライセンス: Link先を確認 | Shengjie Qiu, Junhao Zheng, Zhen Liu, Yicheng Luo, Qianli Ma, | (参考訳) インクリメンタルシーケンスラベリングタスクは、以前のクラスに関する知識を維持しながら、時間とともに新しいクラスを継続的に学習する。
調査では、E2O(モデルが古いエンティティを非エンティティとしてラベル付けしている場所)とO2E(モデルが非エンティティまたは古いエンティティを新しいエンティティとしてラベル付けしている場所)の2つの重要なセマンティックシフトを特定した。
これまでの研究は主に、O2E問題を無視して、E2O問題に対処することに焦点を当ててきた。
この無視は、学習プロセス中に新しいクラスに属する新しいデータサンプルを分類するモデルバイアスをもたらす。
これらの課題に対処するために,意味的シフトを伴わないインクリメンタルシークエンシャルラベリング(IS3)を提案する。
同定されたセマンティックシフト(E2OとO2E)によって動機付けられたIS3は、モデルにおける破滅的な忘れを緩和することを目的としている。
E2O問題に関しては、古いエンティティに対するモデルの識別能力を維持するために、知識蒸留を使用します。
同時に、O2E問題に取り組むために、縮退した損失と最適化レベルを通して、モデルが新しいエンティティに対して偏見を和らげる。
各種インクリメンタルな設定を施した3つのデータセットを用いて行った実験評価では,従来の最先端手法と比較して,IS3の優れた性能を著しく向上させることができた。
The incremental sequence labeling task involves continuously learning new classes over time while retaining knowledge of the previous ones. Our investigation identifies two significant semantic shifts: E2O (where the model mislabels an old entity as a non-entity) and O2E (where the model labels a non-entity or old entity as a new entity). Previous research has predominantly focused on addressing the E2O problem, neglecting the O2E issue. This negligence results in a model bias towards classifying new data samples as belonging to the new class during the learning process. To address these challenges, we propose a novel framework, Incremental Sequential Labeling without Semantic Shifts (IS3). Motivated by the identified semantic shifts (E2O and O2E), IS3 aims to mitigate catastrophic forgetting in models. As for the E2O problem, we use knowledge distillation to maintain the model's discriminative ability for old entities. Simultaneously, to tackle the O2E problem, we alleviate the model's bias towards new entities through debiased loss and optimization levels. Our experimental evaluation, conducted on three datasets with various incremental settings, demonstrates the superior performance of IS3 compared to the previous state-of-the-art method by a significant margin.The data, code, and scripts are publicly available at https://github.com/zzz47zzz/codebase-for-incremental-learning-with-llm. | 翻訳日:2024-05-29 07:15:18 公開日:2024-05-27 |
# NTKレジームにおけるLoRAトレーニングは、すっきりした局所的なミニマを伴わない
LoRA Training in the NTK Regime has No Spurious Local Minima ( http://arxiv.org/abs/2402.11867v2 ) ライセンス: Link先を確認 | Uijeong Jang, Jason D. Lee, Ernest K. Ryu, | (参考訳) 低ランク適応(LoRA)は,大規模言語モデル(LLM)のパラメータ効率の高い微調整の標準手法となっているが,ロRAの理論的理解は限られている。
本研究では,ニューラルネットワークカーネル(NTK)システムにおけるLoRA微細チューニングを理論的に解析し,以下の点を示す。
(i)完全微調整(LoRAなしで)は、階数$r\lesssim \sqrt{N}$の低ランク解を認める。
(ii) ランク $r\gtrsim \sqrt{N}$ の LoRA を用いることで、緩やかな局所ミニマを排除し、勾配降下により低階解を見つけることができる。
3) LoRA を用いた低ランク解はよく一般化される。
Low-rank adaptation (LoRA) has become the standard approach for parameter-efficient fine-tuning of large language models (LLM), but our theoretical understanding of LoRA has been limited. In this work, we theoretically analyze LoRA fine-tuning in the neural tangent kernel (NTK) regime with $N$ data points, showing: (i) full fine-tuning (without LoRA) admits a low-rank solution of rank $r\lesssim \sqrt{N}$; (ii) using LoRA with rank $r\gtrsim \sqrt{N}$ eliminates spurious local minima, allowing gradient descent to find the low-rank solutions; (iii) the low-rank solution found using LoRA generalizes well. | 翻訳日:2024-05-29 07:15:18 公開日:2024-05-27 |
# 双方向クロスアテンション変換器による長周期の知覚
Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers ( http://arxiv.org/abs/2402.12138v2 ) ライセンス: Link先を確認 | Markus Hiller, Krista A. Ehinger, Tom Drummond, | (参考訳) 本稿では,2方向トランスフォーマーアーキテクチャ(BiXT)を提案する。このアーキテクチャは,計算コストとメモリ消費の点で線形にスケールするが,他の効率的なトランスフォーマーベースアプローチで見られる1つの入力モダリティに性能や制限が低下することはない。
BiXTはPerceiverアーキテクチャにインスパイアされているが、繰り返しの注意を、入力トークンと潜伏変数が同時に参加する効率的な双方向の横断モジュールに置き換え、両者の間に自然に現れる注意対称性を活用する。
このアプローチは、Perceiverのようなアーキテクチャが経験する重要なボトルネックを解き、セマンティクス('What')とロケーション('where')の両方の処理と解釈を複数のレイヤで同時に開発することを可能にします。
効率性とフルトランスフォーマーアーキテクチャの汎用性とパフォーマンスを組み合わせることで、BiXTはポイントクラウド、テキスト、画像などの長いシーケンスを高い特徴解像度で処理し、ポイントクラウド部分のセグメンテーション、セマンティックイメージのセグメンテーション、画像分類、階層的シーケンスモデリング、文書検索といったタスクで競合的なパフォーマンスを達成することができる。
我々の実験は、BiXTモデルは、分類やセグメンテーションのような視覚タスクでより長いシーケンスを効率よく活用し、シーケンスモデリングや文書検索においてフルトランスフォーマーの変種と同等に実行することにより、より大きな競合より優れていることを示した。
We present a novel bi-directional Transformer architecture (BiXT) which scales linearly with input size in terms of computational cost and memory consumption, but does not suffer the drop in performance or limitation to only one input modality seen with other efficient Transformer-based approaches. BiXT is inspired by the Perceiver architectures but replaces iterative attention with an efficient bi-directional cross-attention module in which input tokens and latent variables attend to each other simultaneously, leveraging a naturally emerging attention-symmetry between the two. This approach unlocks a key bottleneck experienced by Perceiver-like architectures and enables the processing and interpretation of both semantics ('what') and location ('where') to develop alongside each other over multiple layers -- allowing its direct application to dense and instance-based tasks alike. By combining efficiency with the generality and performance of a full Transformer architecture, BiXT can process longer sequences like point clouds, text or images at higher feature resolutions and achieves competitive performance across a range of tasks like point cloud part segmentation, semantic image segmentation, image classification, hierarchical sequence modeling and document retrieval. Our experiments demonstrate that BiXT models outperform larger competitors by leveraging longer sequences more efficiently on vision tasks like classification and segmentation, and perform on par with full Transformer variants on sequence modeling and document retrieval -- but require $28\%$ fewer FLOPs and are up to $8.4\times$ faster. | 翻訳日:2024-05-29 07:15:18 公開日:2024-05-27 |
# スペクトルクラスタリングにおける固有ベクトルの漸近ガウスゆらぎ
Asymptotic Gaussian Fluctuations of Eigenvectors in Spectral Clustering ( http://arxiv.org/abs/2402.12302v2 ) ライセンス: Link先を確認 | Hugo Lebeau, Florent Chatelain, Romain Couillet, | (参考訳) スペクトルクラスタリングの性能は、類似性行列の固有ベクトルの成分の変動に依存するが、これはこれまで文字化されていない。
本文では,一般スパイクランダム行列モデルの信号$+$ノイズ構造を対応するグラムカーネル行列の固有ベクトルに転送し,その成分のゆらぎが大次元状態においてガウス的であることを示す。
このCLTライクな結果は、スペクトルクラスタリングの分類性能を正確に予測する最後の欠落点であった。
提案した証明は非常に一般的であり、ノイズの回転不変性にのみ依存する。
合成および実データに関する数値実験は、この現象の普遍性を示している。
The performance of spectral clustering relies on the fluctuations of the entries of the eigenvectors of a similarity matrix, which has been left uncharacterized until now. In this letter, it is shown that the signal $+$ noise structure of a general spike random matrix model is transferred to the eigenvectors of the corresponding Gram kernel matrix and the fluctuations of their entries are Gaussian in the large-dimensional regime. This CLT-like result was the last missing piece to precisely predict the classification performance of spectral clustering. The proposed proof is very general and relies solely on the rotational invariance of the noise. Numerical experiments on synthetic and real data illustrate the universality of this phenomenon. | 翻訳日:2024-05-29 07:15:18 公開日:2024-05-27 |
# ソーラーパネルセグメンテーション : 不完全なデータセットのための自己改善型学習ソリューション
Solar Panel Segmentation :Self-Supervised Learning Solutions for Imperfect Datasets ( http://arxiv.org/abs/2402.12843v2 ) ライセンス: Link先を確認 | Sankarshanaa Sagaram, Krish Didwania, Laven Srivastava, Aditya Kasliwal, Pallavi Kailas, Ujjwal Verma, | (参考訳) 太陽エネルギーの採用の増加は、ソーラーパネルの最適性能を確保するために、監視と保守のための高度な手法を必要とする。
この文脈における重要な要素は、航空または衛星画像からの正確なソーラーパネルのセグメンテーションであり、これは運用上の問題を特定し、効率を評価するのに不可欠である。
本稿では,パネルセグメンテーションにおける重要な課題,特に注釈付きデータの不足,および教師あり学習のための手動アノテーションの労働集約性について論じる。
これらの課題を解決するために、自己監視学習(SSL)を探求し、適用します。
SSLは様々な条件下でのモデル一般化を著しく促進し、手動の注釈付きデータへの依存を低減し、堅牢で適応可能なソーラーパネルセグメンテーションソリューションへの道を開くことを実証する。
The increasing adoption of solar energy necessitates advanced methodologies for monitoring and maintenance to ensure optimal performance of solar panel installations. A critical component in this context is the accurate segmentation of solar panels from aerial or satellite imagery, which is essential for identifying operational issues and assessing efficiency. This paper addresses the significant challenges in panel segmentation, particularly the scarcity of annotated data and the labour-intensive nature of manual annotation for supervised learning. We explore and apply Self-Supervised Learning (SSL) to solve these challenges. We demonstrate that SSL significantly enhances model generalization under various conditions and reduces dependency on manually annotated data, paving the way for robust and adaptable solar panel segmentation solutions. | 翻訳日:2024-05-29 07:15:18 公開日:2024-05-27 |
# ProSparse: 大規模言語モデルにおける本質的なアクティベーションスパシティの導入と改善
ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models ( http://arxiv.org/abs/2402.13516v3 ) ライセンス: Link先を確認 | Chenyang Song, Xu Han, Zhengyan Zhang, Shengding Hu, Xiyu Shi, Kuai Li, Chen Chen, Zhiyuan Liu, Guangli Li, Tao Yang, Maosong Sun, | (参考訳) 活性化スパーシリティ(Activation sparsity)とは、活性化出力の間にかなり弱い結合要素が存在することを指す。
ReLUアクティベーション関数を用いたモデルの一般的な特性として、アクティベーション空間がモデル推論効率を高めるための有望なパラダイムであることが証明されている。
それにもかかわらず、ほとんどの大きな言語モデル(LLM)は、固有のアクティベーション間隔のないアクティベーション機能(例えば、GELU、Swish)を採用している。
最近の研究では、LLMが活性化空間と推論加速度を達成するのに役立つ代替活性化関数としてReLUやその変種を導入することを検討しているが、高い間隔と同等のモデル性能を同時に得られるものはほとんどない。
本稿では,LLMを高いアクティベーション空間にプッシュする上で,同等の性能を維持しつつ,シンプルかつ効果的なスペース化手法であるProSparseを提案する。
具体的には、LLMの活性化関数をReLUで置換した後、ProSparseは多段正弦曲線に沿って円滑に増大する因子を持つ進行時空間正則化を採用する。
これにより、活性化分布の急激なシフトを回避して、活性化間隔を高め、性能劣化を軽減することができる。
ProSparseでは、LLaMA2-7Bが89.32%、LLaMA2-13Bが88.80%、エンドサイズMiniCPM-1Bが87.89%の高間隔を実現し、元のSwish-activatedバージョンに匹敵する性能を実現した。
これらはオープンソースのLLaMAバージョンと競合するエンドサイズモデルの中で最も緩やかに活性化されたモデルであり、ReluLLaMA-7B (66.98%) とReluLLaMA-13B (71.56%) を大きく上回っている。
我々の推論加速実験は、より高い活性化間隔を持つLLMの有意な実用的な加速ポテンシャルを示し、最大4.52$\times$推論スピードアップを得る。
Activation sparsity refers to the existence of considerable weakly-contributed elements among activation outputs. As a prevalent property of the models using the ReLU activation function, activation sparsity has been proven a promising paradigm to boost model inference efficiency. Nevertheless, most large language models (LLMs) adopt activation functions without intrinsic activation sparsity (e.g., GELU and Swish). Some recent efforts have explored introducing ReLU or its variants as the substitutive activation function to help LLMs achieve activation sparsity and inference acceleration, but few can simultaneously obtain high sparsity and comparable model performance. This paper introduces a simple and effective sparsification method named "ProSparse" to push LLMs for higher activation sparsity while maintaining comparable performance. Specifically, after substituting the activation function of LLMs with ReLU, ProSparse adopts progressive sparsity regularization with a factor smoothly increasing along the multi-stage sine curves. This can enhance activation sparsity and mitigate performance degradation by avoiding radical shifts in activation distributions. With ProSparse, we obtain high sparsity of 89.32% for LLaMA2-7B, 88.80% for LLaMA2-13B, and 87.89% for end-size MiniCPM-1B, respectively, achieving comparable performance to their original Swish-activated versions. These present the most sparsely activated models among open-source LLaMA versions and competitive end-size models, considerably surpassing ReluLLaMA-7B (66.98%) and ReluLLaMA-13B (71.56%). Our inference acceleration experiments further demonstrate the significant practical acceleration potential of LLMs with higher activation sparsity, obtaining up to 4.52$\times$ inference speedup. | 翻訳日:2024-05-29 07:15:18 公開日:2024-05-27 |
# 幾何インフォームドニューラルネットワーク
Geometry-Informed Neural Networks ( http://arxiv.org/abs/2402.14009v2 ) ライセンス: Link先を確認 | Arturs Berzins, Andreas Radler, Sebastian Sanokowski, Sepp Hochreiter, Johannes Brandstetter, | (参考訳) 幾何学はコンピュータグラフィックス、デザイン、エンジニアリングのユビキタス言語である。
しかし,大規模データセットの欠如は,最先端の教師あり学習手法の適用を制限し,代替学習戦略の探索を動機付けている。
この目的のために、形状生成モデル \emph{without any data} をトレーニングするために、幾何インフォームドニューラルネットワーク(GINN)を導入する。
GINN が組み合わさって
(i)制約下での学習
二 好適な表現としての神経場、及び
三 未決定問題に対する多様な解を生成すること。
複雑度を増大させる2次元および3次元問題にGINNを適用する。
本研究は,データフリー環境での形状生成モデルのトレーニングの実現可能性を示すものである。
この新しいパラダイムは、データが少ない領域に生成モデルの適用を広げ、いくつかのエキサイティングな研究方向を開く。
Geometry is a ubiquitous language of computer graphics, design, and engineering. However, the lack of large shape datasets limits the application of state-of-the-art supervised learning methods and motivates the exploration of alternative learning strategies. To this end, we introduce geometry-informed neural networks (GINNs) to train shape generative models \emph{without any data}. GINNs combine (i) learning under constraints, (ii) neural fields as a suitable representation, and (iii) generating diverse solutions to under-determined problems. We apply GINNs to several two and three-dimensional problems of increasing levels of complexity. Our results demonstrate the feasibility of training shape generative models in a data-free setting. This new paradigm opens several exciting research directions, expanding the application of generative models into domains where data is sparse. | 翻訳日:2024-05-29 07:15:18 公開日:2024-05-27 |
# E2USD:多変量時系列の効率的な非教師付き状態検出
E2USD: Efficient-yet-effective Unsupervised State Detection for Multivariate Time Series ( http://arxiv.org/abs/2402.14041v6 ) ライセンス: Link先を確認 | Zhichen Lai, Huan Li, Dalin Zhang, Yan Zhao, Weizhu Qian, Christian S. Jensen, | (参考訳) サイバー物理系センサーは物理系プロセスを監視する多変量時系列(MTS)を出力する。
このような時系列は一般に、人間の活動監視において「歩き」や「走り」といった特定の条件に対応する、それぞれの期間が異なる未知の状態の数をキャプチャする。
このような状態の教師なし識別は、その後のデータ解析における記憶と処理を容易にし、結果の解釈可能性を高める。
既存の状態検出提案は3つの課題に直面している。
まず、かなりの計算オーバーヘッドを導入し、リソース制約やストリーミング設定で非現実的にレンダリングする。
第二に、最先端のSOTA(State-of-the-art)の提案では、表現のための対照的な学習が採用されているが、偽陰性ハッパーモデル収束と精度に対する注意が不十分である。
第三に、SOTAの提案は主にオフラインの非ストリーミングデプロイメントにのみ重点を置いており、オンラインストリーミングシナリオを最適化する緊急の必要性を強調しています。
本稿では,効率よくyet-accurate unsupervised MTS状態検出が可能なE2Usdを提案する。
E2UsdはFast Fourier Transform-based Time Series Compressor (fftCompress) とDecomposed Dual-view Embedding Module (ddEM) を利用している。
さらに,偽陰性の影響を防止し,クラスタフレンドリーな埋め込み空間を実現するために,False Negative Cancellstive Learning法(fnccLearning)を提案する。
ストリーミング設定における計算オーバーヘッドを軽減するため,Adaptive Threshold Detection (adaTD)を導入する。
6つのベースラインと6つのデータセットによる総合的な実験は、E2Usdが計算オーバーヘッドを大幅に削減したSOTA精度を持つことを示す。
Cyber-physical system sensors emit multivariate time series (MTS) that monitor physical system processes. Such time series generally capture unknown numbers of states, each with a different duration, that correspond to specific conditions, e.g., "walking" or "running" in human-activity monitoring. Unsupervised identification of such states facilitates storage and processing in subsequent data analyses, as well as enhances result interpretability. Existing state-detection proposals face three challenges. First, they introduce substantial computational overhead, rendering them impractical in resourceconstrained or streaming settings. Second, although state-of-the-art (SOTA) proposals employ contrastive learning for representation, insufficient attention to false negatives hampers model convergence and accuracy. Third, SOTA proposals predominantly only emphasize offline non-streaming deployment, we highlight an urgent need to optimize online streaming scenarios. We propose E2Usd that enables efficient-yet-accurate unsupervised MTS state detection. E2Usd exploits a Fast Fourier Transform-based Time Series Compressor (fftCompress) and a Decomposed Dual-view Embedding Module (ddEM) that together encode input MTSs at low computational overhead. Additionally, we propose a False Negative Cancellation Contrastive Learning method (fnccLearning) to counteract the effects of false negatives and to achieve more cluster-friendly embedding spaces. To reduce computational overhead further in streaming settings, we introduce Adaptive Threshold Detection (adaTD). Comprehensive experiments with six baselines and six datasets offer evidence that E2Usd is capable of SOTA accuracy at significantly reduced computational overhead. | 翻訳日:2024-05-29 07:05:34 公開日:2024-05-27 |
# Big Data Medical Imaging における低域および局所低域マトリックス近似の体系的検討
A Systematic Review of Low-Rank and Local Low-Rank Matrix Approximation in Big Data Medical Imaging ( http://arxiv.org/abs/2402.14045v3 ) ライセンス: Link先を確認 | Sisipho Hamlomo, Marcellin Atemkeng, Yusuf Brima, Chuneeta Nunhokee, Jeremy Baxter, | (参考訳) 医療画像データセットの膨大な量と複雑さは、ストレージ、送信、処理のボトルネックである。
これらの課題に対処するため、低ランク行列近似(LRMA)とその誘導体である局所LRMA(LLRMA)の適用の可能性が示された。
文献の詳細な分析では、様々な画像モダリティに適用されたLRMA法とLLRMA法を同定し、既存のLRMA法とLLRMA法に関連する課題と限界に対処する。
2015年以降の医療画像分野におけるLLRMAの嗜好への大きな変化は、LRMAと比較して、医療データにおける複雑な構造を捉える可能性と有効性を示している。
LLRMAで用いられる浅部類似度手法の限界を認識し、類似度測定のための高度なセマンティックイメージセグメンテーションを提案する。
LRMAとLLRMAは、主に非構造化医療データに適用され、構造化・半構造化を含む様々な医療データタイプに応用範囲を広げることを提案する。
また、LRMAとLLRMAは、欠落したエントリを持つ正規データに対してどのように適用できるのか、また、欠落した値とその影響を予測するための不正確さの影響についても論じる。
パッチサイズの影響を議論し、最適なパッチサイズを決定するためにランダム検索(RS)を提案する。
医療画像におけるLRMAとLLRMAの適用性を向上させるため,ベイズ最適化とRSを用いたハイブリッドアプローチを提案する。
The large volume and complexity of medical imaging datasets are bottlenecks for storage, transmission, and processing. To tackle these challenges, the application of low-rank matrix approximation (LRMA) and its derivative, local LRMA (LLRMA) has demonstrated potential. A detailed analysis of the literature identifies LRMA and LLRMA methods applied to various imaging modalities, and the challenges and limitations associated with existing LRMA and LLRMA methods are addressed. We note a significant shift towards a preference for LLRMA in the medical imaging field since 2015, demonstrating its potential and effectiveness in capturing complex structures in medical data compared to LRMA. Acknowledging the limitations of shallow similarity methods used with LLRMA, we suggest advanced semantic image segmentation for similarity measure, explaining in detail how it can be used to measure similar patches and its feasibility. We note that LRMA and LLRMA are mainly applied to unstructured medical data, and we propose extending their application to different medical data types, including structured and semi-structured. This paper also discusses how LRMA and LLRMA can be applied to regular data with missing entries and the impact of inaccuracies in predicting missing values and their effects. We discuss the impact of patch size and propose the use of random search (RS) to determine the optimal patch size. To enhance feasibility, a hybrid approach using Bayesian optimization and RS is proposed, which could improve the application of LRMA and LLRMA in medical imaging. | 翻訳日:2024-05-29 07:05:34 公開日:2024-05-27 |
# 契約条件における関連条項の注釈と分類
Annotation and Classification of Relevant Clauses in Terms-and-Conditions Contracts ( http://arxiv.org/abs/2402.14457v2 ) ライセンス: Link先を確認 | Pietro Giovanni Bizzaro, Elena Della Valentina, Maurizio Napolitano, Nadia Mana, Massimo Zancanaro, | (参考訳) 本稿では,このタイプの法律文書の問題点を迅速に特定・評価するために,法律専門家を支援することを目標として,異なる種類の条項を用語・契約で分類する新たなアノテーションスキームを提案する。
この目的のために、ターム・アンド・コンディションズ契約の小さなコーパスを構築し、14のカテゴリのアノテーションスキームを確定し、最終的に0.92のアノテータ間合意に達した。
そして,11名を対象に,多言語T5と2種類の BERT ベースのイタリア語用LPM の微調整版を併用し,数発のプロンプトを用いたバイナリ分類タスクを実験した。
実験の結果,検証作業において,.79から.95までの精度を達成し,カテゴリの自動分類の実現可能性を示した。
In this paper, we propose a new annotation scheme to classify different types of clauses in Terms-and-Conditions contracts with the ultimate goal of supporting legal experts to quickly identify and assess problematic issues in this type of legal documents. To this end, we built a small corpus of Terms-and-Conditions contracts and finalized an annotation scheme of 14 categories, eventually reaching an inter-annotator agreement of 0.92. Then, for 11 of them, we experimented with binary classification tasks using few-shot prompting with a multilingual T5 and two fine-tuned versions of two BERT-based LLMs for Italian. Our experiments showed the feasibility of automatic classification of our categories by reaching accuracies ranging from .79 to .95 on validation tasks. | 翻訳日:2024-05-29 07:05:34 公開日:2024-05-27 |
# 大規模言語モデルにおける言語領域の展開
Unveiling Linguistic Regions in Large Language Models ( http://arxiv.org/abs/2402.14700v2 ) ライセンス: Link先を確認 | Zhihao Zhang, Jun Zhao, Qi Zhang, Tao Gui, Xuanjing Huang, | (参考訳) 大規模言語モデル (LLM) は言語間アライメントと一般化能力を示す。
現在の研究は主にLLMの言語間一般化能力の改善に焦点を当てている。
しかし、LLMが言語間アライメントを実現するための本質的なメカニズムについてはまだ研究されていない。
本稿では,地域分割の観点から,LLMの言語能力に関するいくつかの調査を行う。
我々は,LLMの言語能力に対応する中核領域を発見し,全体のモデルパラメータの約1%を占める。
パラメータをゼロにすることでコア領域を取り除いた結果、30の異なる言語で大幅にパフォーマンスが低下する。
さらに、この中核領域は、言語能力の喪失につながる特定の次元上の1つのパラメータでさえも、大きな次元依存性、摂動を示す。
さらに、異なる言語に対して異なる単言語領域が存在することが分かり、これらの特定領域の破壊は、対応する言語におけるLLMの習熟度を大幅に低下させる。
また,本研究は,LLMのさらなる事前訓練中に観察される共通現象である,破滅的忘れ (CF) の問題を緩和する上で,コア言語領域の凍結が重要であることも示唆した。
全体として、LLMの機能領域の探索は、そのインテリジェンスの基礎に関する洞察を提供する。
Large Language Models (LLMs) have demonstrated considerable cross-lingual alignment and generalization ability. Current research primarily focuses on improving LLMs' cross-lingual generalization capabilities. However, there is still a lack of research on the intrinsic mechanisms of how LLMs achieve cross-lingual alignment. From the perspective of region partitioning, this paper conducts several investigations on the linguistic competence of LLMs. We discover a core region in LLMs that corresponds to linguistic competence, accounting for approximately 1% of the total model parameters. Removing this core region by setting parameters to zero results in a significant performance decrease across 30 different languages. Furthermore, this core region exhibits significant dimensional dependency, perturbations to even a single parameter on specific dimensions leading to a loss of linguistic competence. Moreover, we discover that distinct monolingual regions exist for different languages, and disruption to these specific regions substantially reduces the LLMs' proficiency in those corresponding languages. Our research also indicates that freezing the core linguistic region during further pre-training can mitigate the issue of catastrophic forgetting (CF), a common phenomenon observed during further pre-training of LLMs. Overall, exploring the LLMs' functional regions provides insights into the foundation of their intelligence. | 翻訳日:2024-05-29 07:05:34 公開日:2024-05-27 |
# GPT-HateCheck:LLMはヘイト音声検出のためのより良い機能テストを書けるか?
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? ( http://arxiv.org/abs/2402.15238v2 ) ライセンス: Link先を確認 | Yiping Jin, Leo Wanner, Alexander Shvets, | (参考訳) オンラインヘイト検出は、データサンプリング、アノテーション、モデル事前トレーニングで発生するバイアスに悩まされる。
したがって、ホールドアウトテストデータにおける全ての例の平均性能の測定は不十分である。
代わりに、特定のモデルの弱点を特定し、それが失敗する可能性が高くなることを知らせなければなりません。
この方向の最近の提案は、HateCheck(source)である。これは、"あなたは、私にとってただのslur(slur)です"という種類のテンプレートを使って生成された合成データに対して、きめ細かいモデル機能をテストするスイートである。
しかし、より詳細な診断の洞察が可能であるにもかかわらず、HateCheckテストケースは多くの場合、現実のデータと一致しない単純な文構造を持つ。
この制限に対処するため,GPT-HateCheckを提案する。GPT-HateCheckは,大規模言語モデル(LLM)を指導することにより,より多様で現実的な機能テストを生成するフレームワークである。
我々は、世代を検証するために追加の自然言語推論(NLI)モデルを用いる。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
新しい機能テストを使用することで、オリジナルのHateCheckデータセットを使用して見落とされたモデルの弱点を明らかにすることができる。
Online hate detection suffers from biases incurred in data sampling, annotation, and model pre-training. Therefore, measuring the averaged performance over all examples in held-out test data is inadequate. Instead, we must identify specific model weaknesses and be informed when it is more likely to fail. A recent proposal in this direction is HateCheck, a suite for testing fine-grained model functionalities on synthesized data generated using templates of the kind "You are just a [slur] to me." However, despite enabling more detailed diagnostic insights, the HateCheck test cases are often generic and have simplistic sentence structures that do not match the real-world data. To address this limitation, we propose GPT-HateCheck, a framework to generate more diverse and realistic functional tests from scratch by instructing large language models (LLMs). We employ an additional natural language inference (NLI) model to verify the generations. Crowd-sourced annotation demonstrates that the generated test cases are of high quality. Using the new functional tests, we can uncover model weaknesses that would be overlooked using the original HateCheck dataset. | 翻訳日:2024-05-29 07:05:34 公開日:2024-05-27 |
# 協調ゲーム理論を用いたオープンアドホックワーク
Open Ad Hoc Teamwork with Cooperative Game Theory ( http://arxiv.org/abs/2402.15259v2 ) ライセンス: Link先を確認 | Jianhong Wang, Yang Li, Yuan Zhang, Wei Pan, Samuel Kaski, | (参考訳) アドホックなチームワークは、事前の調整や共同トレーニングなしに、チームメイトと協力するエージェントの設計を必要とする、困難な問題を引き起こします。
オープンアドホックチームワークは、オープンチームと呼ばれるチームメイトの数が増える環境を考えることで、この課題をさらに複雑にします。
この問題に対する有望な解決策の1つは、グラフニューラルネットワークの一般化性を活用して、制限のない数のエージェントを処理し、グラフベースのポリシー学習(GPL)と呼ばれるオープンチームに効果的に対処することだ。
しかし、協調グラフ上の共同Q値表現は説得力のある説明を欠いている。
本稿では,協調ゲーム理論の観点から共同Q値表現を理解するための新たな理論を確立し,オープンチーム環境での学習パラダイムを検証する。
本理論に基づいて,GPLフレームワークと互換性のあるCIAOという新しいアルゴリズムを提案する。
実験のデモはhttps://sites.google.com/view/ciao2024で公開されており、実験のコードはhttps://github.com/hsvgbgbv/CIAOで公開されている。
Ad hoc teamwork poses a challenging problem, requiring the design of an agent to collaborate with teammates without prior coordination or joint training. Open ad hoc teamwork further complicates this challenge by considering environments with a changing number of teammates, referred to as open teams. One promising solution to this problem is leveraging the generalizability of graph neural networks to handle an unrestricted number of agents and effectively address open teams, named graph-based policy learning (GPL). However, its joint Q-value representation over a coordination graph lacks convincing explanations. In this paper, we establish a new theory to understand the joint Q-value representation from the perspective of cooperative game theory, and validate its learning paradigm in open team settings. Building on our theory, we propose a novel algorithm named CIAO compatible with GPL framework, with additional provable implementation tricks that can facilitate learning. The demo of experiments is available on https://sites.google.com/view/ciao2024, and the code of experiments is published on https://github.com/hsvgbkhgbv/CIAO. | 翻訳日:2024-05-29 07:05:34 公開日:2024-05-27 |
# NaVid:ビデオベースのVLMが視覚・言語ナビゲーションの次のステップを計画
NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation ( http://arxiv.org/abs/2402.15852v5 ) ライセンス: Link先を確認 | Jiazhao Zhang, Kunyu Wang, Rongtao Xu, Gengze Zhou, Yicong Hong, Xiaomeng Fang, Qi Wu, Zhizheng Zhang, He Wang, | (参考訳) VLN(Vision-and-Language Navigation)は、エージェントが言語命令に従って見えない環境でナビゲートできるようにすることを目的とした、Embodied AIの重要な研究課題である。
この分野での一般化は、流通外のシーンやSimからRealまで、長年にわたる課題である。
本稿では,映像ベース大規模視覚言語モデル(VLM)であるNaVidを提案する。
NaVidは、地図、オドメーター、深度入力を使わずに最先端のナビゲーション性能を実現するVLMの能力を示す最初の試みである。
人間の指示に従って、NaVidはロボットに搭載された単眼のRGBカメラから、次のステップのアクションを出力するオンザフライビデオストリームのみを必要とする。
我々の定式化は、オドメーターノイズによる問題と、地図や深度入力からのSim2Realギャップを人間がどのようにナビゲートし、自然に取り除くかを模倣する。
さらに,ビデオに基づく手法により,ロボットの歴史的観察を時空間的文脈として効果的にエンコードし,意思決定と指導を行う。
アクションプランニングと命令推論のサンプルを含む連続環境から収集した510kのナビゲーションサンプルと763kの大規模WebデータでNaVidをトレーニングする。
大規模な実験により、NaVidはシミュレーション環境と実世界において最先端のパフォーマンスを達成し、優れたクロスデータセットとSim2Real転送を示す。
そこで我々は,本提案のVLMアプローチが,ナビゲーションエージェントだけでなく,本研究分野の次のステップを計画していると信じている。
Vision-and-language navigation (VLN) stands as a key research problem of Embodied AI, aiming at enabling agents to navigate in unseen environments following linguistic instructions. In this field, generalization is a long-standing challenge, either to out-of-distribution scenes or from Sim to Real. In this paper, we propose NaVid, a video-based large vision language model (VLM), to mitigate such a generalization gap. NaVid makes the first endeavor to showcase the capability of VLMs to achieve state-of-the-art level navigation performance without any maps, odometers, or depth inputs. Following human instruction, NaVid only requires an on-the-fly video stream from a monocular RGB camera equipped on the robot to output the next-step action. Our formulation mimics how humans navigate and naturally gets rid of the problems introduced by odometer noises, and the Sim2Real gaps from map or depth inputs. Moreover, our video-based approach can effectively encode the historical observations of robots as spatio-temporal contexts for decision making and instruction following. We train NaVid with 510k navigation samples collected from continuous environments, including action-planning and instruction-reasoning samples, along with 763k large-scale web data. Extensive experiments show that NaVid achieves state-of-the-art performance in simulation environments and the real world, demonstrating superior cross-dataset and Sim2Real transfer. We thus believe our proposed VLM approach plans the next step for not only the navigation agents but also this research field. | 翻訳日:2024-05-29 07:05:34 公開日:2024-05-27 |
# ジェネレーティブ・ディバイサル・ネットワークを用いた液滴解析の高速化
Enhanced Droplet Analysis Using Generative Adversarial Networks ( http://arxiv.org/abs/2402.15909v3 ) ライセンス: Link先を確認 | Tan-Hanh Pham, Kim-Doang Nguyen, | (参考訳) 精密装置は農業システムにおける生産品質と生産性を高める上で重要な役割を担っている。
したがって、これらの機器の最適化は精密農業において不可欠である。
近年, 深層学習の進歩に伴い, 噴霧システムの性能向上に向けたいくつかの研究がなされている。
しかし,これらの手法の有効性は,トレーニングデータセットのサイズに大きく依存する。
そこで我々はDropletGANという画像生成装置を開発した。
DropletGANモデルは、高速カメラによってキャプチャされた小さなデータセットを使用して訓練され、徐々に解像度を上げて画像を生成することができる。
その結果,モデルが1024×1024の大きさの高品質な画像を生成できることが示唆された。
DropletGANから生成された画像は、FIDスコア11.29のFr'echet開始距離(FID)を用いて評価される。
さらに、コンピュータビジョンとディープラーニングの最近の進歩を活用して、合成データセットを用いた光液滴検出器を開発する。
その結果、検出モデルは合成データセットを利用すると平均平均精度(mAP)が16.06%向上する。
我々の知る限りでは、この研究は初めて、液滴の検出を増強するための生成モデルを用いたものである。
その重要性は、効率的な噴霧システムを構築するためにノズル設計を最適化することだけでなく、様々な精密農業作業において不十分なデータに対する共通の課題に対処することにある。
この研究は、最適で持続可能な農業プラクティスを追求しながら、資源の保存に重要な貢献をする。
Precision devices play an important role in enhancing production quality and productivity in agricultural systems. Therefore, the optimization of these devices is essential in precision agriculture. Recently, with the advancements of deep learning, there have been several studies aiming to harness its capabilities for improving spray system performance. However, the effectiveness of these methods heavily depends on the size of the training dataset, which is expensive and time-consuming to collect. To address the challenge of insufficient training samples, we developed an image generator named DropletGAN to generate images of droplets. The DropletGAN model is trained by using a small dataset captured by a high-speed camera and capable of generating images with progressively increasing resolution. The results demonstrate that the model can generate high-quality images with the size of 1024x1024. The generated images from the DropletGAN are evaluated using the Fr\'echet inception distance (FID) with an FID score of 11.29. Furthermore, this research leverages recent advancements in computer vision and deep learning to develop a light droplet detector using the synthetic dataset. As a result, the detection model achieves a 16.06% increase in mean average precision (mAP) when utilizing the synthetic dataset. To the best of our knowledge, this work stands as the first to employ a generative model for augmenting droplet detection. Its significance lies not only in optimizing nozzle design for constructing efficient spray systems but also in addressing the common challenge of insufficient data in various precision agriculture tasks. This work offers a critical contribution to conserving resources while striving for optimal and sustainable agricultural practices. | 翻訳日:2024-05-29 07:05:34 公開日:2024-05-27 |
# FuseChat: チャットモデルの知識融合
FuseChat: Knowledge Fusion of Chat Models ( http://arxiv.org/abs/2402.16107v4 ) ライセンス: Link先を確認 | Fanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi, | (参考訳) 大規模言語モデル(LLM)をスクラッチからトレーニングすることは、機能と強みの異なるモデルにつながる可能性があるが、このアプローチはかなりのコストを発生させ、能力の冗長性をもたらす可能性がある。
代替戦略として、既存のLLMをより堅牢なLLMに組み込むことで、高価な事前訓練の必要性を減らすことがある。
しかし、LLMの多様なアーキテクチャのため、直接パラメータブレンディングは実現不可能であることが証明されている。
近年、FuseLLM は、複数の構造変化 LLM の集合的知識を、軽量な連続訓練により目標 LLM に転送する知識融合の概念を導入している。
本稿では、FuseLLMフレームワークのスケーラビリティと柔軟性を拡張し、チャットLLMの融合を実現し、FuseChatを実現する。
FuseChatは2つの主要なステージから構成される。
まず, 構造的および規模的に変化したLLMに対して知識融合を行い, 軽量微調整により同一構造と大きさの複数のLLMを導出する。
次に,これらのLLMをパラメータ空間内にマージし,微調整前後のパラメータ行列の変動率に基づいてマージ重みを決定する手法を提案する。
我々は,異なるアーキテクチャとスケールを持つ3つの著名なチャットLLM,すなわちNH2-Mixtral-8x7B,NH2-Solar-10.7B,OpenChat-3.5-7Bを用いて,我々のアプローチを検証する。
様々なチャットドメインにまたがる実験結果は、7Bおよび34BスケールのチャットLLMにおけるFuseChat-7Bの優位性を示し、GPT-3.5(3月)を超え、Mixtral-8x7B-Instructに近づいた。
私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/FuseLLM}で公開アクセスできます。
While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, this approach incurs substantial costs and may lead to potential redundancy in competencies. An alternative strategy is to combine existing LLMs into a more robust LLM, thereby diminishing the necessity for expensive pre-training. However, due to the diverse architectures of LLMs, direct parameter blending proves to be unfeasible. Recently, FuseLLM introduced the concept of knowledge fusion to transfer the collective knowledge of multiple structurally varied LLMs into a target LLM through lightweight continual training. In this report, we extend the scalability and flexibility of the FuseLLM framework to realize the fusion of chat LLMs, resulting in FuseChat. FuseChat comprises two main stages. Firstly, we undertake knowledge fusion for structurally and scale-varied source LLMs to derive multiple target LLMs of identical structure and size via lightweight fine-tuning. Then, these target LLMs are merged within the parameter space, wherein we propose a novel method for determining the merging weights based on the variation ratio of parameter matrices before and after fine-tuning. We validate our approach using three prominent chat LLMs with diverse architectures and scales, namely NH2-Mixtral-8x7B, NH2-Solar-10.7B, and OpenChat-3.5-7B. Experimental results spanning various chat domains demonstrate the superiority of FuseChat-7B across a broad spectrum of chat LLMs at 7B and 34B scales, even surpassing GPT-3.5 (March) and approaching Mixtral-8x7B-Instruct. Our code, model weights, and data are openly accessible at \url{https://github.com/fanqiwan/FuseLLM}. | 翻訳日:2024-05-29 07:05:34 公開日:2024-05-27 |
# コンフォーマル化選択回帰
Conformalized Selective Regression ( http://arxiv.org/abs/2402.16300v2 ) ライセンス: Link先を確認 | Anna Sokol, Nuno Moniz, Nitesh Chawla, | (参考訳) 予測モデルは常に予測を提供するべきだろうか?
最大予測性能の追求において、信頼性と公平性に対する批判的な考慮は、特に不確実性の役割に関して、しばしば過度に隠蔽される。
選択回帰(英: Selective regression)または「リジェクトオプション」(英: "reject option")は、モデルがかなり不確実な場合の予測を控えることを可能にする。
当初、70年前に提案された選択的回帰へのアプローチは、主に不確実性、特に条件分散を測定するための分布ベースのプロキシに焦点を当てている。
しかし、この焦点はモデル固有のバイアスがモデルの性能に与える影響を無視する。
本稿では,モデル固有のバイアスに基づく個別の予測に対する基礎的信頼度尺度を提供する共形予測を活用することによって,選択回帰に対する新しいアプローチを提案する。
さらに,選択的回帰手法の適切な比較を可能にするための標準化された評価フレームワークを提案する。
広範にわたる実験的なアプローチにより,提案手法が複数の最先端ベースラインに対して有利であることを示す。
Should prediction models always deliver a prediction? In the pursuit of maximum predictive performance, critical considerations of reliability and fairness are often overshadowed, particularly when it comes to the role of uncertainty. Selective regression, also known as the "reject option," allows models to abstain from predictions in cases of considerable uncertainty. Initially proposed seven decades ago, approaches to selective regression have mostly focused on distribution-based proxies for measuring uncertainty, particularly conditional variance. However, this focus neglects the significant influence of model-specific biases on a model's performance. In this paper, we propose a novel approach to selective regression by leveraging conformal prediction, which provides grounded confidence measures for individual predictions based on model-specific biases. In addition, we propose a standardized evaluation framework to allow proper comparison of selective regression approaches. Via an extensive experimental approach, we demonstrate how our proposed approach, conformalized selective regression, demonstrates an advantage over multiple state-of-the-art baselines. | 翻訳日:2024-05-29 06:55:50 公開日:2024-05-27 |
# 時変推論を用いた言語誘導スキル学習
Language-guided Skill Learning with Temporal Variational Inference ( http://arxiv.org/abs/2402.16354v2 ) ライセンス: Link先を確認 | Haotian Fu, Pratyusha Sharma, Elias Stengel-Eskin, George Konidaris, Nicolas Le Roux, Marc-Alexandre Côté, Xingdi Yuan, | (参考訳) 専門家によるデモンストレーションからスキル発見のためのアルゴリズムを提案する。
このアルゴリズムは、まずLarge Language Models (LLM) を用いて、軌道の初期セグメンテーションを提案する。
その後、階層的変動推論フレームワークは、LLM生成セグメンテーション情報を組み込んで、軌道セグメントをマージして再利用可能なスキルを発見する。
圧縮と再利用性の間のトレードオフをさらに制御するために,この技術発見プロセスの指針となる最小記述長原理に基づく新たな補助的目的を導入する。
本研究では,本手法を応用したエージェントが,グリッドワールドナビゲーション環境であるBabyAIと家庭用シミュレーション環境であるALFREDにおいて,学習を加速し,ベースラインスキル学習アプローチを向上する技術を見出すことができた。
We present an algorithm for skill discovery from expert demonstrations. The algorithm first utilizes Large Language Models (LLMs) to propose an initial segmentation of the trajectories. Following that, a hierarchical variational inference framework incorporates the LLM-generated segmentation information to discover reusable skills by merging trajectory segments. To further control the trade-off between compression and reusability, we introduce a novel auxiliary objective based on the Minimum Description Length principle that helps guide this skill discovery process. Our results demonstrate that agents equipped with our method are able to discover skills that help accelerate learning and outperform baseline skill learning approaches on new long-horizon tasks in BabyAI, a grid world navigation environment, as well as ALFRED, a household simulation environment. | 翻訳日:2024-05-29 06:55:50 公開日:2024-05-27 |
# トランスフォーマーがAdamを必要とする理由:ヘッセンの視点
Why Transformers Need Adam: A Hessian Perspective ( http://arxiv.org/abs/2402.16788v2 ) ライセンス: Link先を確認 | Yushun Zhang, Congliang Chen, Tian Ding, Ziniu Li, Ruoyu Sun, Zhi-Quan Luo, | (参考訳) SGDはトランスフォーマーのかなりの差でAdamよりもパフォーマンスが悪いが、その理由は不明だ。
本稿では、ヘッセンのレンズによるトランスフォーマーにおけるSGDの悪い性能について説明する。
(i)変圧器は「異質性」であり、パラメータブロックのヘッセンスペクトルは「異質性ブロック」と呼ばれる現象によって劇的に変化する。
(II) 異種ハマーSGD: SGDはブロックの不均一性の問題に対してひどく作用する。
ヘテロジニティハマーSGDを検証するために、様々なトランスフォーマー、CNN、MPP、二次問題を確認し、異種性をブロックすることなく問題に対してうまく機能するが、異種性が存在する場合には性能が良くないことを示す。
最初の理論的解析から,SGDはブロック間の不均一性を扱えない1つの学習速度を全てのブロックに適用できるため,性能が低いことが示唆された。
この制限は、Adam氏が設計したように、座標学習率を使用すると改善される可能性がある。
SGD performs worse than Adam by a significant margin on Transformers, but the reason remains unclear. In this work, we provide an explanation of SGD's bad performance on Transformers through the lens of Hessian: (i) Transformers are "heterogeneous": the Hessian spectrum across parameter blocks vary dramatically, a phenomenon we call "block heterogeneity"; (ii) Heterogeneity hampers SGD: SGD performs badly on problems with block heterogeneity. To validate that heterogeneity hampers SGD, we check various Transformers, CNNs, MLPs, and quadratic problems, and find that SGD works well on problems without block heterogeneity but performs badly when the heterogeneity exists. Our initial theoretical analysis indicates that SGD performs poorly because it applies one single learning rate to all blocks, which cannot handle the heterogeneity among blocks. This limitation could be ameliorated if we use coordinate-wise learning rates, as designed in Adam. | 翻訳日:2024-05-29 06:55:50 公開日:2024-05-27 |
# PRoLoRA: 部分回転によりパラメータ効率が良くなるLoRA
PRoLoRA: Partial Rotation Empowers More Parameter-Efficient LoRA ( http://arxiv.org/abs/2402.16902v2 ) ライセンス: Link先を確認 | Sheng Wang, Boyang Xue, Jiacheng Ye, Jiyue Jiang, Liheng Chen, Lingpeng Kong, Chuan Wu, | (参考訳) 大規模言語モデル(LLM)の急激なスケーリングにより、多数のローランク適応(LoRA)が同時に実現不可能になり、不用意なコストとよりパラメータ効率の良い微調整方法が必要になった。
本研究では, 部分回転付低ランク適応 (PRoLoRA) を導入し, 放送低減, 回転向上, 部分共有改善, 修正初期化戦略の4つの重要な構成要素からなる層内共有機構を提案する。
LoRAのスーパーセットとして、PRoLoRAはその利点を保ち、より優れたモデルキャパシティ、実用的な実現可能性、幅広い適用性を備えたピアパラメータ共有手法の欠点を効果的に回避する。
実験により、特定のパラメータ予算と性能目標シナリオの両方において、PRoLoRAのパラメータ効率が著しく向上し、より大きなLLMへのスケーラビリティが実証された。
特に、トレーニング可能なパラメータが1回も少ないPRoLoRAは、複数のインストラクションチューニングデータセットにおいて、いまだにLoRAを上回っている。
その後、個々の成分の必要性を検証し、3つの潜在的な変種よりもPRoLoRAの優位性を強調するためにアブレーション研究を行った。
好ましくは、パラメータ効率が顕著に高ければ、PRoLoRAをLoRAに代わるリソースフレンドリーな代替品として確立できる。
With the rapid scaling of large language models (LLMs), serving numerous low-rank adaptations (LoRAs) concurrently has become increasingly impractical, leading to unaffordable costs and necessitating more parameter-efficient finetuning methods. In this work, we introduce Partially Rotation-enhanced Low-Rank Adaptation (PRoLoRA), an intra-layer sharing mechanism comprising four essential components: broadcast reduction, rotation enhancement, partially-sharing refinement, and rectified initialization strategy. As a superset of LoRA, PRoLoRA retains its advantages, and effectively circumvent the drawbacks of peer parameter-sharing methods with superior model capacity, practical feasibility, and broad applicability. Empirical experiments demonstrate the remarkably higher parameter efficiency of PRoLoRA in both specific parameter budget and performance target scenarios, and its scalability to larger LLMs. Notably, with one time less trainable parameters, PRoLoRA still outperforms LoRA on multiple instruction tuning datasets. Subsequently, an ablation study is conducted to validate the necessity of individual components and highlight the superiority of PRoLoRA over three potential variants. Hopefully, the conspicuously higher parameter efficiency can establish PRoLoRA as a resource-friendly alternative to LoRA. | 翻訳日:2024-05-29 06:55:50 公開日:2024-05-27 |
# 説明可能なAIからの選択的説明提示によるユーザ意思決定指導
User Decision Guidance with Selective Explanation Presentation from Explainable-AI ( http://arxiv.org/abs/2402.18016v3 ) ライセンス: Link先を確認 | Yosuke Fukuchi, Seiji Yamada, | (参考訳) 本稿では,XAI (Explainable AI) ベースの知能意思決定支援システム (IDSSs) について解説する。
IDSSは、AI予測とともにXAIが生成した説明を通じてユーザー決定を改善することを約束しており、XAIの開発により、さまざまな説明を生成することが可能になった。
しかし、IDSSがユーザー決定を強化するための説明をどうやって選択すべきかは、未解決の問題である。
本稿では,XAI説明を選択的に提示するX-セレクタを提案する。
これにより、IDSSは、ユーザーの決定に対する説明の異なる組み合わせの影響を予測し、AI提案とユーザ決定の矛盾を最小限に抑えると期待される組み合わせを選択することで、AI推奨の判断に戦略的にユーザーを導くことができる。
我々は,X-セレクタの有効性を,2つのナイーブ戦略(最も可能性の高い予測に対してのみ可能な説明と説明)と2つのベースライン(説明なし,AIサポートなし)と比較した。
結果から,X-Selectorは,AIを推奨する意思決定にユーザを誘導し,AI精度の高い条件下でのタスクパフォーマンスを向上させる可能性が示唆された。
This paper addresses the challenge of selecting explanations for XAI (Explainable AI)-based Intelligent Decision Support Systems (IDSSs). IDSSs have shown promise in improving user decisions through XAI-generated explanations along with AI predictions, and the development of XAI made it possible to generate a variety of such explanations. However, how IDSSs should select explanations to enhance user decision-making remains an open question. This paper proposes X-Selector, a method for selectively presenting XAI explanations. It enables IDSSs to strategically guide users to an AI-suggested decision by predicting the impact of different combinations of explanations on a user's decision and selecting the combination that is expected to minimize the discrepancy between an AI suggestion and a user decision. We compared the efficacy of X-Selector with two naive strategies (all possible explanations and explanations only for the most likely prediction) and two baselines (no explanation and no AI support). The results suggest the potential of X-Selector to guide users to AI-suggested decisions and improve task performance under the condition of a high AI accuracy. | 翻訳日:2024-05-29 06:55:50 公開日:2024-05-27 |
# 拡張フローマッチング:一般化連続性方程式を用いた条件付き生成法
Extended Flow Matching: a Method of Conditional Generation with Generalized Continuity Equation ( http://arxiv.org/abs/2402.18839v4 ) ライセンス: Link先を確認 | Noboru Isobe, Masanori Koyama, Jinzhe Zhang, Kohei Hayashi, Kenji Fukumizu, | (参考訳) 条件生成の課題は生成モデルの最も重要な応用の1つであり、フローベースモデルに基づく多くの手法が開発されている。
しかし、現在使われているフローベースモデルの多くは、条件分布の生成方法に明示的な帰納バイアスを導入するために構築されていない。
これは例えば、スタイル転送のタスクにおいて予期せぬ振舞いを引き起こす可能性がある。
本研究では,条件空間から分布空間への連続写像に対応する「行列場」を学習するフローマッチングの直接拡張である拡張フローマッチング(EFM)を導入する。
本研究では,行列場を通した条件生成に誘導バイアスを導入し,ディリクレエネルギーや分布の感度を最小化することを目的としたEMMのバージョンであるMMOT-EFMを用いて,この事実を実証する。
条件生成におけるEMFの競争性を支持する実験結果とともに,本理論を提示する。
The task of conditional generation is one of the most important applications of generative models, and numerous methods have been developed to date based on the celebrated flow-based models. However, many flow-based models in use today are not built to allow one to introduce an explicit inductive bias to how the conditional distribution to be generated changes with respect to conditions. This can result in unexpected behavior in the task of style transfer, for example. In this research, we introduce extended flow matching (EFM), a direct extension of flow matching that learns a ``matrix field'' corresponding to the continuous map from the space of conditions to the space of distributions. We show that we can introduce inductive bias to the conditional generation through the matrix field and demonstrate this fact with MMOT-EFM, a version of EFM that aims to minimize the Dirichlet energy or the sensitivity of the distribution with respect to conditions. We will present our theory along with experimental results that support the competitiveness of EFM in conditional generation. | 翻訳日:2024-05-29 06:55:50 公開日:2024-05-27 |
# 教師なし視覚障害者の再識別のための共通性・多様性・多様性の学習
Learning Commonality, Divergence and Variety for Unsupervised Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2402.19026v2 ) ライセンス: Link先を確認 | Jiangming Shi, Xiangbo Yin, Yaoxing Wang, Xiaofeng Liu, Yuan Xie, Yanyun Qu, | (参考訳) 教師なし可視光人物再識別(USVI-ReID)は、赤外線画像中の特定人物と、アノテーションなしで可視画像とをマッチングすることを目的としており、その逆も目的である。
USVI-ReIDは難しいが、未調査の課題だ。
既存のほとんどのメソッドは、クラスタベースのコントラスト学習を使用してUSVI-ReID問題に対処する。
しかし、クラスタセンターは、主に情報の共有に焦点を合わせ、格差を見下ろしている。
この問題に対処するために,USVI-ReIDのためのマルチプロトタイプ(PCLMP)法によるプログレッシブコントラスト学習を提案する。
簡単に言えば,まず,クラスタ中心から最大距離のサンプルを選択することで,ハードプロトタイプを生成する。
このハードプロトタイプは、相違を強調するために対照的な損失に使用される。
さらに,クエリ画像を特定のプロトタイプに厳格に整列させる代わりに,クラスタ内のサンプルをランダムに選択して動的プロトタイプを生成する。
この動的プロトタイプは、共通情報と異情報の両方の同時学習における不安定性を低減しつつ、自然の多様性を維持するために使用される。
最後に,クラスタ劣化を回避し,段階的な学習戦略を導入し,モデルの注意をハードサンプルに徐々にシフトさせる。
公開されているSYSU-MM01およびRegDBデータセットで実施された大規模な実験により,提案手法の有効性が検証された。
PCLMPは、既存の最先端手法よりも平均3.9%のmAP改善を実現している。
ソースコードはリリースされます。
Unsupervised visible-infrared person re-identification (USVI-ReID) aims to match specified people in infrared images to visible images without annotation, and vice versa. USVI-ReID is a challenging yet under-explored task. Most existing methods address the USVI-ReID problem using cluster-based contrastive learning, which simply employs the cluster center as a representation of a person. However, the cluster center primarily focuses on shared information, overlooking disparity. To address the problem, we propose a Progressive Contrastive Learning with Multi-Prototype (PCLMP) method for USVI-ReID. In brief, we first generate the hard prototype by selecting the sample with the maximum distance from the cluster center. This hard prototype is used in the contrastive loss to emphasize disparity. Additionally, instead of rigidly aligning query images to a specific prototype, we generate the dynamic prototype by randomly picking samples within a cluster. This dynamic prototype is used to retain the natural variety of features while reducing instability in the simultaneous learning of both common and disparate information. Finally, we introduce a progressive learning strategy to gradually shift the model's attention towards hard samples, avoiding cluster deterioration. Extensive experiments conducted on the publicly available SYSU-MM01 and RegDB datasets validate the effectiveness of the proposed method. PCLMP outperforms the existing state-of-the-art method with an average mAP improvement of 3.9%. The source codes will be released. | 翻訳日:2024-05-29 06:55:50 公開日:2024-05-27 |
# LoRAが統一フレームワークの下でのドロップアウトを発表
LoRA Meets Dropout under a Unified Framework ( http://arxiv.org/abs/2403.00812v2 ) ライセンス: Link先を確認 | Sheng Wang, Liheng Chen, Jiyue Jiang, Boyang Xue, Lingpeng Kong, Chuan Wu, | (参考訳) 注目すべき機能として、多数のNLPアプリケーションにおいて大きな言語モデル(LLM)が必須要素として現れ、パラメータ効率の高い微調整(特にLoRA)がモデルカスタマイズの軽量なアプローチとして人気を集めている。
一方、様々なドロップアウト手法は、当初は全てのパラメータを更新した完全な微調整のために設計されており、過剰なパラメータ冗長性に関連する過度な適合を緩和している。
したがって、LoRAの無視可能なトレーニング可能なパラメータと、ほとんど見過ごされてきた従来のドロップアウト手法の有効性から矛盾が生じる可能性がある。
このギャップを埋めるために、パラメータ効率の高いLoRAも過度に適合していることを最初に確認する。
次に、変換器固有のドロップアウト法を再検討し、それらの等価性と区別を数学的および経験的に確立する。
この比較分析に基づいて総合的な調査のための統一的な枠組みを導入し, 落下位置, 構造パターン, 補償基準に基づいてこれらの手法をインスタンス化する。
このフレームワークを通じて、トレーニング可能なパラメータが限定された場合に、それらの新しい好みと性能の比較を明らかにする。
このフレームワークは、最も好ましい側面を、HiddenKeyという新しいドロップアウトメソッドにマージすることを可能にする。
複数のモデルやタスクにまたがるHiddenKeyの顕著な優位性と十分性を検証する実験は、LLMの高性能かつパラメータ効率の高い微調整に好適なアプローチとして強調されている。
With the remarkable capabilities, large language models (LLMs) have emerged as essential elements in numerous NLP applications, while parameter-efficient finetuning, especially LoRA, has gained popularity as a lightweight approach for model customization. Meanwhile, various dropout methods, initially designed for full finetuning with all the parameters updated, alleviates overfitting associated with excessive parameter redundancy. Hence, a possible contradiction arises from negligible trainable parameters of LoRA and the effectiveness of previous dropout methods, which has been largely overlooked. To fill this gap, we first confirm that parameter-efficient LoRA is also overfitting-prone. We then revisit transformer-specific dropout methods, and establish their equivalence and distinctions mathematically and empirically. Building upon this comparative analysis, we introduce a unified framework for a comprehensive investigation, which instantiates these methods based on dropping position, structural pattern and compensation measure. Through this framework, we reveal the new preferences and performance comparisons of them when involved with limited trainable parameters. This framework also allows us to amalgamate the most favorable aspects into a novel dropout method named HiddenKey. Extensive experiments verify the remarkable superiority and sufficiency of HiddenKey across multiple models and tasks, which highlights it as the preferred approach for high-performance and parameter-efficient finetuning of LLMs. | 翻訳日:2024-05-29 06:55:50 公開日:2024-05-27 |
# プローブサンプリングによるグレディ座標勾配の高速化
Accelerating Greedy Coordinate Gradient via Probe Sampling ( http://arxiv.org/abs/2403.01251v2 ) ライセンス: Link先を確認 | Yiran Zhao, Wenyue Zheng, Tianle Cai, Xuan Long Do, Kenji Kawaguchi, Anirudh Goyal, Michael Shieh, | (参考訳) 大規模言語モデルの安全性(LLM)は、その急速な進歩から重要な問題となっている。
グレディ・コーディネート・グラディエント (GCG) は, 対応するLCMを分解する逆方向のプロンプトを構築するのに有効であるが, GCGの最適化には時間がかかる。
本稿では,GCGの時間コストを低減し,LCMの安全性に関するより包括的な研究を可能にするため,$\texttt{Probe sample}$というアルゴリズムを新たに検討する。
アルゴリズムの中核は、より小さなドラフトモデルの予測がターゲットモデルの予測とどの程度類似しているかを動的に決定するメカニズムである。
ターゲットモデルがドラフトモデルと類似している場合、多くの潜在的なプロンプト候補をフィルタリングするために、ドラフトモデルに大きく依存します。
プローブサンプリングは、Llama2-7b-chatを使用して最大5.6ドルのスピードアップを達成し、AdvBench上での攻撃成功率(ASR)を同等または改善する。
さらに、プローブサンプリングは、他のプロンプト最適化手法や逆方向法を加速し、AutoPromptの1.8\times$、APEの2.4\times$、AutoDANの2.4\times$が加速される。
Safety of Large Language Models (LLMs) has become a critical issue given their rapid progresses. Greedy Coordinate Gradient (GCG) is shown to be effective in constructing adversarial prompts to break the aligned LLMs, but optimization of GCG is time-consuming. To reduce the time cost of GCG and enable more comprehensive studies of LLM safety, in this work, we study a new algorithm called $\texttt{Probe sampling}$. At the core of the algorithm is a mechanism that dynamically determines how similar a smaller draft model's predictions are to the target model's predictions for prompt candidates. When the target model is similar to the draft model, we rely heavily on the draft model to filter out a large number of potential prompt candidates. Probe sampling achieves up to $5.6$ times speedup using Llama2-7b-chat and leads to equal or improved attack success rate (ASR) on the AdvBench. Furthermore, probe sampling is also able to accelerate other prompt optimization techniques and adversarial methods, leading to acceleration of $1.8\times$ for AutoPrompt, $2.4\times$ for APE and $2.4\times$ for AutoDAN. | 翻訳日:2024-05-29 06:45:59 公開日:2024-05-27 |
# 政策空間対応 Oracle: 調査
Policy Space Response Oracles: A Survey ( http://arxiv.org/abs/2403.02227v2 ) ライセンス: Link先を確認 | Ariyan Bighashdel, Yongzhao Wang, Stephen McAleer, Rahul Savani, Frans A. Oliehoek, | (参考訳) ゲーム理論は、複数の意思決定者間の相互作用を研究する数学的方法を提供する。
しかし、古典的なゲーム理論解析は、より複雑なシナリオへの直接適用を前もって、多くの戦略のためにスケーラビリティに制限されている。
この調査は、ポリシスペースレスポンスオラクル(PSRO)として知られる、大規模なゲームのためのフレームワークの概要を提供する。
われわれはまずPSROを動機付け、歴史的文脈を提供する。
次に,PSROの戦略探索問題,すなわち,オリジナルのゲームを表す戦略の効果的なサブセットを最小計算コストで組み立てることの課題に焦点をあてる。
我々は,PSROの効率向上に向けた現在の研究方向を調査し,PSROの様々な領域への応用について検討する。
オープンな質問と将来の研究を議論することで締めくくります。
Game theory provides a mathematical way to study the interaction between multiple decision makers. However, classical game-theoretic analysis is limited in scalability due to the large number of strategies, precluding direct application to more complex scenarios. This survey provides a comprehensive overview of a framework for large games, known as Policy Space Response Oracles (PSRO), which holds promise to improve scalability by focusing attention on sufficient subsets of strategies. We first motivate PSRO and provide historical context. We then focus on the strategy exploration problem for PSRO: the challenge of assembling effective subsets of strategies that still represent the original game well with minimum computational cost. We survey current research directions for enhancing the efficiency of PSRO, and explore the applications of PSRO across various domains. We conclude by discussing open questions and future research. | 翻訳日:2024-05-29 06:45:59 公開日:2024-05-27 |
# Triple-CFN:抽象推論プロセスの強化のための概念空間の再構築
Triple-CFN: Restructuring Concept Spaces for Enhancing Abstract Reasoning Process ( http://arxiv.org/abs/2403.03190v9 ) ライセンス: Link先を確認 | Ruizhuo Song, Beiming Yuan, | (参考訳) 抽象推論は人工知能アルゴリズムに重大な課題をもたらし、知覚タスクに必要な以上の認知能力を要求する。
本研究では,画像から概念や特徴を別々に抽出する新しいフレームワークであるCross-Feature Network(CFN)を紹介する。
このフレームワークは、特にボンガード・ローゴ問題に対処する上で、推論の表現として機能に対する応答を利用する。
抽出した概念と特徴をCFN内に組み込んだ期待最大化プロセスを統合することで,一定の限界はあるものの,顕著な結果を得た。
これらの制約を克服するために,画像からの特徴抽出を最大化し,ボンガード・ローゴとレイブンの進歩行列(RPM)の両問題において有効性を示す効率的なモデルであるTriple-CFNを提案する。
さらに, RPM問題に適した概念空間を明示的に構築する, Triple-CFN の先進バージョンである Meta Triple-CFN を紹介する。
これにより、関連する概念の推論と解釈可能性の高い精度が保証される。
全体として、この研究は抽象的推論のための革新的なネットワーク設計を探求し、マシンインテリジェンスのフロンティアを前進させる。
Abstract reasoning poses significant challenges to artificial intelligence algorithms, demanding a cognitive ability beyond that required for perceptual tasks. In this study, we introduce the Cross-Feature Network (CFN), a novel framework designed to separately extract concepts and features from images. This framework utilizes the responses of features to concepts as representations for reasoning, particularly in addressing the Bongard-Logo problem. By integrating an Expectation-Maximization process between the extracted concepts and features within the CFN, we have achieved notable results, albeit with certain limitations. To overcome these limitations, we propose the Triple-CFN, an efficient model that maximizes feature extraction from images and demonstrates effectiveness in both the Bongard-Logo and Raven's Progressive Matrices (RPM) problems. Furthermore, we introduce Meta Triple-CFN, an advanced version of Triple-CFN, which explicitly constructs a concept space tailored for RPM problems. This ensures high accuracy of reasoning and interpretability of the concepts involved. Overall, this work explores innovative network designs for abstract reasoning, thereby advancing the frontiers of machine intelligence. | 翻訳日:2024-05-29 06:45:59 公開日:2024-05-27 |
# D4Cグラブトレイン:概念記述と建築分布によるRPMとボンガードログ問題の解法
D4C Glove-train: Solving the RPM and Bongard-logo Problem by Circumscribing and Building Distribution for Concepts ( http://arxiv.org/abs/2403.03452v9 ) ライセンス: Link先を確認 | Ruizhuo Song, Beiming Yuan, | (参考訳) 本稿では,抽象的推論の領域において,特にRaven's Progressive Matrices (RPM) と Bongard-Logo の課題に対処する上で,注目すべき進歩を実現する。
リコネット(Lico-Net)は,RPM問題に顕著な精度で対処する新しいベースラインモデルである。
この基礎を生かして、我々はD3Cアプローチを推進し、分布を通して抽象的推論問題の根底にある概念を提唱する。
この観点は、Lico-NetとBongard-Logoタスクに優れたベースラインモデルの両方のパフォーマンスを向上させる。
D3Cの計算効率を高めるために,D3C-cosの変種を示す。
さらに,これらの領域における概念境界を再定義するD2C手法を提案する。
最後に、我々の方法論をD4Cに拡張し、さらに概念境界を洗練させ、RPMとBongard-Logoの課題において実質的な改善を示す。
全体として、我々の貢献は抽象的推論の分野における新たな展望と実践的な進歩を示している。
This paper achieves noteworthy progress in the realm of abstract reasoning, particularly in addressing Raven's Progressive Matrices (RPM) and Bongard-Logo challenges. Initially, we introduce Lico-Net, a novel baseline model that resolves RPM problems with remarkable accuracy. Leveraging this foundation, we advance with the D3C approach, which advocates representing the underlying concepts in abstract reasoning problems through distributions. This perspective enhances the performance of both Lico-Net and a baseline model excelling in Bongard-Logo tasks. To bolster the computational efficiency of D3C, we present the D3C-cos variant, offering a streamlined solution. Furthermore, we propose the D2C method, redefining concept boundaries within these domains and bridging the divide between high-level abstractions and their lower-dimensional counterparts. Finally, we extend our methodology to D4C, employing adversarial techniques to refine concept boundaries further and demonstrate substantial improvements in both RPM and Bongard-Logo challenges. Overall, our contributions present a fresh outlook and practical advancements in the field of abstract reasoning. | 翻訳日:2024-05-29 06:45:59 公開日:2024-05-27 |
# 大規模言語モデルを用いた列挙型プログラム合成の指導
Guiding Enumerative Program Synthesis with Large Language Models ( http://arxiv.org/abs/2403.03997v2 ) ライセンス: Link先を確認 | Yixuan Li, Julian Parsert, Elizabeth Polgreen, | (参考訳) 事前訓練された大規模言語モデル(LLM)は、自然言語仕様による自動コード生成に関する議論を支配し始めている。
対照的に、形式的合成と正確な論理的仕様の領域における最高の性能の合成器は、依然として数え上げアルゴリズムに基づいている。
本稿では,LLMが正規合成ベンチマークを解く能力について,ドメインのプロンプトのライブラリを慎重に構築することで評価する。
単発合成が失敗すると、LLMへの呼び出しを重み付き確率探索に統合する新しい列挙合成アルゴリズムを提案する。
これにより、シンセサイザーは、enumeratorの進行状況に関する情報をLLMに提供し、enumeratorは反復ループで構文誘導を行うことができる。
我々は,Sytax-Guided Synthesis (SyGuS) コンペティションのベンチマーク評価を行った。
形式合成のためのスタンドアロンツールである GPT-3.5 は、最先端の形式合成アルゴリズムにより容易に性能が向上することが判明したが、LLM を列挙合成アルゴリズムに統合することで、LLM と列挙合成器単独と入賞した SyGuS の競合ツールよりも大きな性能向上が見られた。
Pre-trained Large Language Models (LLMs) are beginning to dominate the discourse around automatic code generation with natural language specifications. In contrast, the best-performing synthesizers in the domain of formal synthesis with precise logical specifications are still based on enumerative algorithms. In this paper, we evaluate the abilities of LLMs to solve formal synthesis benchmarks by carefully crafting a library of prompts for the domain. When one-shot synthesis fails, we propose a novel enumerative synthesis algorithm, which integrates calls to an LLM into a weighted probabilistic search. This allows the synthesizer to provide the LLM with information about the progress of the enumerator, and the LLM to provide the enumerator with syntactic guidance in an iterative loop. We evaluate our techniques on benchmarks from the Syntax-Guided Synthesis (SyGuS) competition. We find that GPT-3.5 as a stand-alone tool for formal synthesis is easily outperformed by state-of-the-art formal synthesis algorithms, but our approach integrating the LLM into an enumerative synthesis algorithm shows significant performance gains over both the LLM and the enumerative synthesizer alone and the winning SyGuS competition tool. | 翻訳日:2024-05-29 06:45:59 公開日:2024-05-27 |
# 翼形状最適化のための機構駆動強化学習フレームワーク
A mechanism-driven reinforcement learning framework for shape optimization of airfoils ( http://arxiv.org/abs/2403.04329v2 ) ライセンス: Link先を確認 | Jingfeng Wang, Guanghui Hu, | (参考訳) 本稿では,翼形状最適化のための機構駆動強化学習フレームワークを提案する。
この枠組みを検証するために、報酬関数を設計・解析し、累積報酬の最大化と最適化目標の達成との等価性を理論的に保証する。
品質探索を確立し、環境から正確な報酬を得るために、強化学習法において定常オイラー方程式の効率的な解法を用いる。
解法はB\'ezier曲線を用いて翼の形状を記述し、解法にはニュートン幾何学的乗法を用いる。
特に、ターゲット関数の効率的な計算には、二重重み付き残基h適応法を用いる。
変形過程における翼形状を効果的に合理化するために,ラプラシア平滑化を導入し,メッシュタングリングをリミットするだけでなく,幾何の精密な操作も保証するB'ezierフィッティング戦略を提案する。
さらに、アテンション機構に基づいてニューラルネットワークアーキテクチャを設計し、翼形状の微妙な変化に学習プロセスをより敏感にする。
数値実験により,このフレームワークは数百の設計変数で最適化問題に対処できることを示した。
この研究に先立って、そのような高忠実度偏微分エクアロンフレームワークと高度な強化学習アルゴリズムを組み合わせることで、そのような高次元性を持つ設計問題に対処する研究が限られていることは注目に値する。
In this paper, a novel mechanism-driven reinforcement learning framework is proposed for airfoil shape optimization. To validate the framework, a reward function is designed and analyzed, from which the equivalence between the maximizing the cumulative reward and achieving the optimization objectives is guaranteed theoretically. To establish a quality exploration, and to obtain an accurate reward from the environment, an efficient solver for steady Euler equations is employed in the reinforcement learning method. The solver utilizes the B\'ezier curve to describe the shape of the airfoil, and a Newton-geometric multigrid method for the solution. In particular, a dual-weighted residual-based h-adaptive method is used for efficient calculation of target functional. To effectively streamline the airfoil shape during the deformation process, we introduce the Laplacian smoothing, and propose a B\'ezier fitting strategy, which not only remits mesh tangling but also guarantees a precise manipulation of the geometry. In addition, a neural network architecture is designed based on an attention mechanism to make the learning process more sensitive to the minor change of the airfoil geometry. Numerical experiments demonstrate that our framework can handle the optimization problem with hundreds of design variables. It is worth mentioning that, prior to this work, there are limited works combining such high-fidelity partial differential equatons framework with advanced reinforcement learning algorithms for design problems with such high dimensionality. | 翻訳日:2024-05-29 06:45:59 公開日:2024-05-27 |
# UniTable: 自己監督型事前学習によるテーブル認識のための統一フレームワーク
UniTable: Towards a Unified Framework for Table Recognition via Self-Supervised Pretraining ( http://arxiv.org/abs/2403.04822v2 ) ライセンス: Link先を確認 | ShengYun Peng, Aishwarya Chakravarthy, Seongmin Lee, Xiaojing Wang, Rajarajeswari Balasubramaniyan, Duen Horng Chau, | (参考訳) テーブルは、機械が解析することがしばしば困難である人間が生み出した暗黙の規則で、実データと量的データを伝達する。
テーブル認識(TR)の研究は、主に利用可能な入力とツールの複雑なタスク固有の組み合わせに焦点を当てている。
トレーニングパラダイムとトレーニング目標を一体化したトレーニングフレームワークであるUniTableを提案する。
そのトレーニングパラダイムは、純粋にピクセルレベルの入力の単純さと、さまざまな未注釈の表画像からの自己教師付き事前学習によって強化された有効性とスケーラビリティを組み合わせている。
本フレームワークは, 表構造, セル内容, セル境界ボックスを抽出する3つのTRタスクの学習目標を, タスク非依存の学習目標である言語モデリングに統一する。
大規模で質的な分析により、最大のTRデータセットのうち4つでUniTableのSOTA(State-of-the-art)のパフォーマンスが明らかになった。
UniTableのテーブル解析能力は、既存のTR法と、GPT-4o、GPT-4-turbo with vision、LLaVAといった一般的なビジョン言語モデルに勝っている。
私たちのコードはhttps://github.com/poloclub/unitableで公開されており、完全な推論パイプラインを含むJupyter Notebookを備え、複数のTRデータセットにわたって微調整され、3つのTRタスクすべてをサポートする。
Tables convey factual and quantitative data with implicit conventions created by humans that are often challenging for machines to parse. Prior work on table recognition (TR) has mainly centered around complex task-specific combinations of available inputs and tools. We present UniTable, a training framework that unifies both the training paradigm and training objective of TR. Its training paradigm combines the simplicity of purely pixel-level inputs with the effectiveness and scalability empowered by self-supervised pretraining from diverse unannotated tabular images. Our framework unifies the training objectives of all three TR tasks - extracting table structure, cell content, and cell bounding box - into a unified task-agnostic training objective: language modeling. Extensive quantitative and qualitative analyses highlight UniTable's state-of-the-art (SOTA) performance on four of the largest TR datasets. UniTable's table parsing capability has surpassed both existing TR methods and general large vision-language models, e.g., GPT-4o, GPT-4-turbo with vision, and LLaVA. Our code is publicly available at https://github.com/poloclub/unitable, featuring a Jupyter Notebook that includes the complete inference pipeline, fine-tuned across multiple TR datasets, supporting all three TR tasks. | 翻訳日:2024-05-29 06:36:16 公開日:2024-05-27 |
# ジェネリックETH:マイクロカノニカルを超える固有状態熱化
Generic ETH: Eigenstate Thermalization beyond the Microcanonical ( http://arxiv.org/abs/2403.05197v2 ) ライセンス: Link先を確認 | Elena Cáceres, Stefan Eccles, Jason Pollack, Sarah Racz, | (参考訳) 固有状態熱化仮説(ETH)は、高エネルギー・凝縮物質群集の最近の進歩において重要な役割を果たしている。
これは、非平衡初期状態における孤立量子系が、熱平衡と区別できない状態へと進化し、観測可能なものは、伝統的な統計力学のアンサンブルを用いて記述できるほとんど時間に依存しない結果に緩和することができることを説明している。
本研究では、ETHの限界を探索し、いくつかの方向に原型応用の外部に押し出す。
我々は、保存された準局所電荷を持つ量子格子系を設計し、一般化された固有状態熱化の形式を検証する。
また、電荷とエネルギーの両方のマイクロカノニカルウィンドウの外側の状態において熱化のサインを観察し、「ジェネリックETH」を疑う。
>
The Eigenstate Thermalization Hypothesis (ETH) has played a key role in recent advances in the high energy and condensed matter communities. It explains how an isolated quantum system in a far-from-equilibrium initial state can evolve to a state that is indistinguishable from thermal equilibrium, with observables relaxing to almost time-independent results that can be described using traditional statistical mechanics ensembles. In this work we probe the limits of ETH, pushing it outside its prototypical applications in several directions. We design a qutrit lattice system with conserved quasilocal charge, in which we verify a form of generalized eigenstate thermalization. We also observe signatures of thermalization in states well outside microcanonical windows of both charge and energy, which we dub `generic ETH.' | 翻訳日:2024-05-29 06:36:16 公開日:2024-05-27 |
# 生成モデルは自己教師付き表現学習を改善することができるか?
Can Generative Models Improve Self-Supervised Representation Learning? ( http://arxiv.org/abs/2403.05966v2 ) ライセンス: Link先を確認 | Sana Ayromlou, Arash Afkanpour, Vahid Reza Khazaie, Fereshteh Forghani, | (参考訳) 自己教師付き学習(SSL)の急速な進歩は、ラベルのないデータを活用してリッチな視覚表現を学習する可能性を強調している。
しかし、既存のSSL技術、特に同じイメージの異なる拡張を使用するものは、実世界のデータバリエーションを代表していない限られた単純な変換に依存していることが多い。
これはサンプルの多様性と品質を制約し、それが準最適表現をもたらす。
本稿では、生成モデルを利用して意味論的に一貫した画像拡張を生成することによってSSLパラダイムを充実させる新しいフレームワークを提案する。
生成モデルを直接ソース画像表現に条件付けすることにより、ソースコードの意味を保ちながら多様な拡張を生成可能とし、自己教師付き学習のためのよりリッチなデータセットを提供する。
さまざまなSSL手法に関する大規模な実験結果から,ダウンストリームタスクにおいて,学習した視覚表現の質を最大10倍の精度で向上することを示す。
この研究は、生成モデルをSSLワークフローに組み込むことで、合成データの可能性を探究するための新たな道を開くことを実証している。
この開発は、より堅牢で汎用的な表現学習技術の道を開く。
The rapid advancement in self-supervised learning (SSL) has highlighted its potential to leverage unlabeled data for learning rich visual representations. However, the existing SSL techniques, particularly those employing different augmentations of the same image, often rely on a limited set of simple transformations that are not representative of real-world data variations. This constrains the diversity and quality of samples, which leads to sub-optimal representations. In this paper, we introduce a novel framework that enriches the SSL paradigm by utilizing generative models to produce semantically consistent image augmentations. By directly conditioning generative models on a source image representation, our method enables the generation of diverse augmentations while maintaining the semantics of the source image, thus offering a richer set of data for self-supervised learning. Our extensive experimental results on various SSL methods demonstrate that our framework significantly enhances the quality of learned visual representations by up to 10\% Top-1 accuracy in downstream tasks. This research demonstrates that incorporating generative models into the SSL workflow opens new avenues for exploring the potential of synthetic data. This development paves the way for more robust and versatile representation learning techniques. | 翻訳日:2024-05-29 06:36:16 公開日:2024-05-27 |
# DSEG-LIME:階層型データ駆動セグメンテーションによる画像説明の改善
DSEG-LIME: Improving Image Explanation by Hierarchical Data-Driven Segmentation ( http://arxiv.org/abs/2403.07733v2 ) ライセンス: Link先を確認 | Patrick Knab, Sascha Marton, Christian Bartelt, | (参考訳) 説明可能な人工知能は、複雑な機械学習モデルにおける意思決定プロセスの展開に不可欠である。
LIME(Local Interpretable Model-Agnostic Explanations)は画像解析のためのXAIフレームワークとしてよく知られている。
イメージセグメンテーションを使用して、分類の関連領域を特定する機能を作成する。
その結果、セグメンテーションの貧弱さは説明の一貫性を損なうことができ、セグメンテーションの重要性を損なうことになり、全体的な解釈可能性に影響を及ぼす。
これらの課題に対処するため、DSEG-LIME(Data-Driven Segmentation LIME)を紹介します。
一 人間の認識特徴生成のためのデータ駆動セグメンテーション及び
二 構成による階層的区分手続
DSEG-LIMEを、ImageNetデータセットからの画像で事前訓練したモデルでベンチマークする。
この分析は、ユーザスタディを通じて定性評価によって補完される、確立されたXAIメトリクスを用いた定量的評価を含む。
以上の結果から,DSEGはXAI指標のほとんどで優れており,人間認識概念との整合性を高め,解釈可能性を大幅に向上させることが示された。
コードは以下の通り。
https://aws.com/patrick-knab/DSEG-LIME
Explainable Artificial Intelligence is critical in unraveling decision-making processes in complex machine learning models. LIME (Local Interpretable Model-agnostic Explanations) is a well-known XAI framework for image analysis. It utilizes image segmentation to create features to identify relevant areas for classification. Consequently, poor segmentation can compromise the consistency of the explanation and undermine the importance of the segments, affecting the overall interpretability. Addressing these challenges, we introduce DSEG-LIME (Data-Driven Segmentation LIME), featuring: i) a data-driven segmentation for human-recognized feature generation, and ii) a hierarchical segmentation procedure through composition. We benchmark DSEG-LIME on pre-trained models with images from the ImageNet dataset - scenarios without domain-specific knowledge. The analysis includes a quantitative evaluation using established XAI metrics, complemented by a qualitative assessment through a user study. Our findings demonstrate that DSEG outperforms in most of the XAI metrics and enhances the alignment of explanations with human-recognized concepts, significantly improving interpretability. The code is available under: https://github. com/patrick-knab/DSEG-LIME | 翻訳日:2024-05-29 06:36:16 公開日:2024-05-27 |
# 幸せにする:イメージ拡散モデルを通して感情を呼び起こす
Make Me Happier: Evoking Emotions Through Image Diffusion Models ( http://arxiv.org/abs/2403.08255v3 ) ライセンス: Link先を確認 | Qing Lin, Jingfeng Zhang, Yew Soon Ong, Mengmi Zhang, | (参考訳) 画像生成の急速な進歩にもかかわらず、感情的な画像編集は未探索のままである。
イメージのセマンティクス、文脈、構造は感情的な反応を誘発し、心理的障害の治療、製品の商業化、芸術デザインなど、様々な現実世界の応用に有用な感情的な画像編集技術を作る。
本稿では,感情を刺激するイメージ生成の新たな課題について紹介する。
この課題に対処するために、ソースイメージを効果的に理解し、編集し、望ましい感情や感情を伝える拡散モデルを提案する。
さらに、感情編集データセットの欠如により、34万対の画像と感情アノテーションからなるユニークなデータセットを提供する。
さらに, 人間の心理物理学実験を行い, 全手法を体系的に評価するための4つの新しい評価指標を導入する。
実験により,本手法が全ての競争基準を超えることを示す。
我々の拡散モデルは、原画像から感情的手がかりを識別し、所望の感情を誘発する画像を編集し、原画像の意味的構造を保存できる。
すべてのコード、モデル、データセットが公開されます。
Despite the rapid progress in image generation, emotional image editing remains under-explored. The semantics, context, and structure of an image can evoke emotional responses, making emotional image editing techniques valuable for various real-world applications, including treatment of psychological disorders, commercialization of products, and artistic design. For the first time, we present a novel challenge of emotion-evoked image generation, aiming to synthesize images that evoke target emotions while retaining the semantics and structures of the original scenes. To address this challenge, we propose a diffusion model capable of effectively understanding and editing source images to convey desired emotions and sentiments. Moreover, due to the lack of emotion editing datasets, we provide a unique dataset consisting of 340,000 pairs of images and their emotion annotations. Furthermore, we conduct human psychophysics experiments and introduce four new evaluation metrics to systematically benchmark all the methods. Experimental results demonstrate that our method surpasses all competitive baselines. Our diffusion model is capable of identifying emotional cues from original images, editing images that elicit desired emotions, and meanwhile, preserving the semantic structure of the original images. All code, model, and dataset will be made public. | 翻訳日:2024-05-29 06:36:16 公開日:2024-05-27 |
# 平均場マイクロカノニカルグラディエント染料
Mean-Field Microcanonical Gradient Descent ( http://arxiv.org/abs/2403.08362v2 ) ライセンス: Link先を確認 | Marcus Häggbom, Morten Karlsmark, Joakim Andén, | (参考訳) マイクロカノニカル勾配勾配は高次元分布の効率的なサンプリングを可能にするエネルギーベースモデルのサンプリング手順である。
サンプルをガウスホワイトノイズなどの高エントロピー分布から勾配降下を用いた低エネルギー領域へ輸送する。
このモデルをフローの正規化の枠組みに置き、不必要なエントロピーの量を減らして過度に適合することを示す。
そこで本研究では,いくつかの弱い結合データ点を同時にサンプリングする平均場マイクロカノニカル勾配降下法を提案する。
我々はこれらのモデルを金融時系列の文脈で研究し、合成データと実データの両方の改善について考察した。
Microcanonical gradient descent is a sampling procedure for energy-based models allowing for efficient sampling of distributions in high dimension. It works by transporting samples from a high-entropy distribution, such as Gaussian white noise, to a low-energy region using gradient descent. We put this model in the framework of normalizing flows, showing how it can often overfit by losing an unnecessary amount of entropy in the descent. As a remedy, we propose a mean-field microcanonical gradient descent that samples several weakly coupled data points simultaneously, allowing for better control of the entropy loss while paying little in terms of likelihood fit. We study these models in the context of financial time series, illustrating the improvements on both synthetic and real data. | 翻訳日:2024-05-29 06:36:16 公開日:2024-05-27 |
# CoBra:ロバスト弱監視セマンティックセグメンテーションのための補足分枝融合クラスとセマンティック知識
CoBra: Complementary Branch Fusing Class and Semantic Knowledge for Robust Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2403.08801v6 ) ライセンス: Link先を確認 | Woojung Han, Seil Kang, Kyobin Choo, Seong Jae Hwang, | (参考訳) セグメンテーションのための画像レベルのクラス知識、すなわち、画像レベルのWeakly Supervised Semantic Segmentation (WSSS)から派生した意味論的に正確な擬似マスクを活用することは依然として困難である。
CNNを用いたクラスアクティベーションマップ(CAM)は、WSSSの成功に着実に貢献しているが、結果として得られるアクティベーションマップは、しばしばクラス固有の部分(例えば、人間の顔のみ)に焦点を絞っている。
一方、視覚変換器(ViT)を用いた最近の研究は、セマンティック部分を捕捉する自己認識機構に基づく有望な結果を示しているが、完全なクラス固有の詳細(例えば、人間の全身部分だけでなく、近くに犬と一緒にいるもの)を捉えることに失敗している。
本研究では、クラス(CNN)とセマンティック(ViT)をそれぞれのブランチに有意義な補完的知識を提供する2つの異なるアーキテクチャからなる、新しい二重分岐フレームワークであるComplementary Branch(CoBra)を提案する。
特に、CNNブランチのクラス・アウェア・プロジェクション(CAP)とViTブランチのセマンティック・アウェア・プロジェクション(SAP)を学び、補完的な知識を明確に融合させ、新たなタイプのパッチレベルの監視を容易にする。
我々のモデルはCoBraを通じてCNNとViTの補完的な出力を融合し、クラス情報とセマンティック情報の両方を効果的に統合する堅牢な擬似マスクを生成する。
CNNとViTはPASCAL VOC 2012データセット上でどのように相互に補完するかを質的に定量的に検証し、最先端のWSSS結果を示している。
これは、我々のモデルによって生成されるマスクだけでなく、これらのマスクを擬似ラベルとして利用することによって得られるセグメンテーション結果も含まれる。
Leveraging semantically precise pseudo masks derived from image-level class knowledge for segmentation, namely image-level Weakly Supervised Semantic Segmentation (WSSS), still remains challenging. While Class Activation Maps (CAMs) using CNNs have steadily been contributing to the success of WSSS, the resulting activation maps often narrowly focus on class-specific parts (e.g., only face of human). On the other hand, recent works based on vision transformers (ViT) have shown promising results based on their self-attention mechanism to capture the semantic parts but fail in capturing complete class-specific details (e.g., entire body parts of human but also with a dog nearby). In this work, we propose Complementary Branch (CoBra), a novel dual branch framework consisting of two distinct architectures which provide valuable complementary knowledge of class (from CNN) and semantic (from ViT) to each branch. In particular, we learn Class-Aware Projection (CAP) for the CNN branch and Semantic-Aware Projection (SAP) for the ViT branch to explicitly fuse their complementary knowledge and facilitate a new type of extra patch-level supervision. Our model, through CoBra, fuses CNN and ViT's complementary outputs to create robust pseudo masks that integrate both class and semantic information effectively. Extensive experiments qualitatively and quantitatively investigate how CNN and ViT complement each other on the PASCAL VOC 2012 dataset, showing a state-of-the-art WSSS result. This includes not only the masks generated by our model, but also the segmentation results derived from utilizing these masks as pseudo labels. | 翻訳日:2024-05-29 06:36:16 公開日:2024-05-27 |
# SpikeReveal:スパイクストリームでリアルタイムのBlurry入力からテンポラルシーケンスをアンロック
SpikeReveal: Unlocking Temporal Sequences from Real Blurry Inputs with Spike Streams ( http://arxiv.org/abs/2403.09486v2 ) ライセンス: Link先を確認 | Kang Chen, Shiyan Chen, Jiyuan Zhang, Baoyue Zhang, Yajing Zheng, Tiejun Huang, Zhaofei Yu, | (参考訳) 鮮明な画像列をぼやけた入力から再構成することは、捉えたシーンに対する洞察を高めるのに不可欠であり、画像に埋め込まれた時間的特徴が限られているため、重要な課題となる。
最大4万Hzの速度でサンプリングするスパイクカメラは、運動の特徴を捉え、この不適切な問題を解くのに有効であることが証明されている。
それにもかかわらず、既存の手法は教師付き学習パラダイムに陥り、合成トレーニングデータドメインから分岐する実世界のシナリオに適用した場合、顕著なパフォーマンス劣化に悩まされる。
さらに, 実際のシーンと本質的に異なる動き解析補間に基づいて生成した画像によって再構成画像の品質を抑え, 実時間シナリオにおけるこれらの手法の一般化能力に影響を及ぼす。
これらの課題に対処するために、スパイク誘導動作の劣化に対する最初の自己教師型フレームワークを提案する。
我々のアプローチは、スパイクストリーム、ぼやけた画像、およびそれに対応するシャープシーケンス間の理論的関係を探索するスパイク誘導型デブロアリングモデルの定式化から始まる。
そこで我々は,デブロアリングモデルで発生するスパイクノイズや空間分解能のミスマッチの問題を緩和する,自己教師型カスケードフレームワークを開発した。
知識蒸留と再ブルーリング損失を伴って,明度とテクスチャの整合性を有する高品質なシーケンスを生成する軽量デブルーネットワークを設計する。
実世界および合成データセットのスパイクを用いた定量的および定性的な実験により、提案フレームワークの優れた一般化が検証された。
私たちのコード、データ、トレーニングされたモデルは、 \url{https://github.com/chenkang455/S-SDM}で利用可能になります。
Reconstructing a sequence of sharp images from the blurry input is crucial for enhancing our insights into the captured scene and poses a significant challenge due to the limited temporal features embedded in the image. Spike cameras, sampling at rates up to 40,000 Hz, have proven effective in capturing motion features and beneficial for solving this ill-posed problem. Nonetheless, existing methods fall into the supervised learning paradigm, which suffers from notable performance degradation when applied to real-world scenarios that diverge from the synthetic training data domain. Moreover, the quality of reconstructed images is capped by the generated images based on motion analysis interpolation, which inherently differs from the actual scene, affecting the generalization ability of these methods in real high-speed scenarios. To address these challenges, we propose the first self-supervised framework for the task of spike-guided motion deblurring. Our approach begins with the formulation of a spike-guided deblurring model that explores the theoretical relationships among spike streams, blurry images, and their corresponding sharp sequences. We subsequently develop a self-supervised cascaded framework to alleviate the issues of spike noise and spatial-resolution mismatching encountered in the deblurring model. With knowledge distillation and re-blurring loss, we further design a lightweight deblur network to generate high-quality sequences with brightness and texture consistency with the original input. Quantitative and qualitative experiments conducted on our real-world and synthetic datasets with spikes validate the superior generalization of the proposed framework. Our code, data and trained models will be available at \url{https://github.com/chenkang455/S-SDM}. | 翻訳日:2024-05-29 06:26:32 公開日:2024-05-27 |
# AUTONODE:認知的GUI自動化のための神経グラフ型自己学習エンジン
AUTONODE: A Neuro-Graphic Self-Learnable Engine for Cognitive GUI Automation ( http://arxiv.org/abs/2403.10171v2 ) ライセンス: Link先を確認 | Arkajit Datta, Tushar Verma, Rajat Chawla, Mukunda N. S, Ishaan Bhola, | (参考訳) 近年,Large Language Models (LLMs) の領域内では,認知能力の向上と高度な推論を通じて,ロボットプロセス自動化(RPA)の課題に対処できるエージェントが出現している。
この開発は、ゴール達成におけるスケーラビリティと人間ライクな適応性の新しい時代を物語っている。
本稿では,AUTONODE(Online Neuro-graphic Operations and Deep Exploration)を紹介する。
AUTONODEは、Webインターフェース上での自律的なナビゲーションとタスク実行を容易にするために、高度な神経グラフィック技術を採用しており、事前に定義されたスクリプトや手動による介入の必要性を回避している。
我々のエンジンは、エージェントが複雑なワークフローを理解し実装し、非並列効率で動的Web環境に適応できるようにします。
本手法は,AUTONODEに経験から学習する能力を持たせることにより,認知機能とロボットの自動化を連携させる。
我々は,探索モジュールであるDoRA(Recovery and mapping Operation for graph Retrieval Agent)を統合した。これは,エンジンが動作を最適化し,最小限の監視で目的を達成するための知識グラフの構築に有効である。
AUTONODEの汎用性と有効性は一連の実験を通じて実証され、データ抽出からトランザクション処理まで、さまざまなWebベースのタスクを管理する能力を強調している。
In recent advancements within the domain of Large Language Models (LLMs), there has been a notable emergence of agents capable of addressing Robotic Process Automation (RPA) challenges through enhanced cognitive capabilities and sophisticated reasoning. This development heralds a new era of scalability and human-like adaptability in goal attainment. In this context, we introduce AUTONODE (Autonomous User-interface Transformation through Online Neuro-graphic Operations and Deep Exploration). AUTONODE employs advanced neuro-graphical techniques to facilitate autonomous navigation and task execution on web interfaces, thereby obviating the necessity for predefined scripts or manual intervention. Our engine empowers agents to comprehend and implement complex workflows, adapting to dynamic web environments with unparalleled efficiency. Our methodology synergizes cognitive functionalities with robotic automation, endowing AUTONODE with the ability to learn from experience. We have integrated an exploratory module, DoRA (Discovery and mapping Operation for graph Retrieval Agent), which is instrumental in constructing a knowledge graph that the engine utilizes to optimize its actions and achieve objectives with minimal supervision. The versatility and efficacy of AUTONODE are demonstrated through a series of experiments, highlighting its proficiency in managing a diverse array of web-based tasks, ranging from data extraction to transaction processing. | 翻訳日:2024-05-29 06:26:32 公開日:2024-05-27 |
# MIntRec 2.0:会話におけるマルチモーダルインテント認識とスコープ外検出のための大規模ベンチマークデータセット
MIntRec 2.0: A Large-scale Benchmark Dataset for Multimodal Intent Recognition and Out-of-scope Detection in Conversations ( http://arxiv.org/abs/2403.10943v3 ) ライセンス: Link先を確認 | Hanlei Zhang, Xin Wang, Hua Xu, Qianrui Zhou, Kai Gao, Jianhua Su, jinyue Zhao, Wenrui Li, Yanting Chen, | (参考訳) マルチモーダルな意図認識は、人間の意図の理解を高めるために、現実世界の文脈から非言語的モダリティを組み込むことが要求される、重大な課題となる。
既存のベンチマークデータセットは規模が限られており、マルチターン対話で発生するスコープ外のサンプルを扱うのに苦労している。
マルチモーダルな意図認識のための大規模ベンチマークデータセットであるMIntRec 2.0を紹介する。
1,245の対話と15,040のサンプルがあり、それぞれが30のきめ細かいクラスからなる新しい意図的分類に注釈付けされている。
9,304個のインスコープサンプルに加えて、実世界のシナリオで自然に発生するマルチターンのコンテキストに現れる5,736個のアウトオブスコープサンプルも含まれている。
さらに,各発話における話者の包括的情報を提供し,多人数会話研究に活用する。
我々は,単ターン・多ターン対話データ,モダリティ特徴抽出,マルチモーダル融合,顕微鏡内分類,スコープ外検出をサポートする汎用フレームワークを構築した。
評価ベンチマークは、古典的なマルチモーダル融合法、ChatGPT、人間評価器を用いて構築されている。
非言語情報を用いた既存の手法では、文脈情報を効果的に活用し、スコープ外サンプルを検出することは大きな課題である。
特に、大きな言語モデルでは、認知意図理解タスクにおける機械学習手法の限界が強調され、人間に比べて大きなパフォーマンスギャップが生じる。
私たちは、MIntRec 2.0が貴重なリソースとして機能し、人間と機械の対話における研究の先駆的な基盤を提供し、関連するアプリケーションを大幅に促進すると考えている。
完全なデータセットとコードはhttps://github.com/thuiar/MIntRec2.0で公開されている。
Multimodal intent recognition poses significant challenges, requiring the incorporation of non-verbal modalities from real-world contexts to enhance the comprehension of human intentions. Existing benchmark datasets are limited in scale and suffer from difficulties in handling out-of-scope samples that arise in multi-turn conversational interactions. We introduce MIntRec 2.0, a large-scale benchmark dataset for multimodal intent recognition in multi-party conversations. It contains 1,245 dialogues with 15,040 samples, each annotated within a new intent taxonomy of 30 fine-grained classes. Besides 9,304 in-scope samples, it also includes 5,736 out-of-scope samples appearing in multi-turn contexts, which naturally occur in real-world scenarios. Furthermore, we provide comprehensive information on the speakers in each utterance, enriching its utility for multi-party conversational research. We establish a general framework supporting the organization of single-turn and multi-turn dialogue data, modality feature extraction, multimodal fusion, as well as in-scope classification and out-of-scope detection. Evaluation benchmarks are built using classic multimodal fusion methods, ChatGPT, and human evaluators. While existing methods incorporating nonverbal information yield improvements, effectively leveraging context information and detecting out-of-scope samples remains a substantial challenge. Notably, large language models exhibit a significant performance gap compared to humans, highlighting the limitations of machine learning methods in the cognitive intent understanding task. We believe that MIntRec 2.0 will serve as a valuable resource, providing a pioneering foundation for research in human-machine conversational interactions, and significantly facilitating related applications. The full dataset and codes are available at https://github.com/thuiar/MIntRec2.0. | 翻訳日:2024-05-29 06:26:32 公開日:2024-05-27 |
# 小児腰部外傷X線画像におけるYOLOv9による骨折検出
YOLOv9 for Fracture Detection in Pediatric Wrist Trauma X-ray Images ( http://arxiv.org/abs/2403.11249v2 ) ライセンス: Link先を確認 | Chun-Tse Chien, Rui-Yang Ju, Kuang-Yi Chou, Jen-Shiun Chiang, | (参考訳) You Only Look Once (YOLO)シリーズの最新バージョンであるYOLOv9の導入は、様々なシナリオで広く採用されている。
本論文は,X線画像の解釈を支援するためのコンピュータ支援診断 (CAD) として, YOLOv9 アルゴリズムモデルを骨折検出タスクに適用した最初の例である。
具体的には、GRAZPEDWRI-DXデータセット上でモデルをトレーニングし、データ拡張技術を用いてトレーニングセットを拡張し、モデル性能を向上させる。
実験の結果、現在の最先端(SOTA)モデルのmAP 50-95と比較して、YOLOv9モデルは42.16%から43.73%に上昇し、3.7%の改善が見られた。
実装コードはhttps://github.com/RuiyangJu/YOLOv9-Fracture-Detectionで公開されている。
The introduction of YOLOv9, the latest version of the You Only Look Once (YOLO) series, has led to its widespread adoption across various scenarios. This paper is the first to apply the YOLOv9 algorithm model to the fracture detection task as computer-assisted diagnosis (CAD) to help radiologists and surgeons to interpret X-ray images. Specifically, this paper trained the model on the GRAZPEDWRI-DX dataset and extended the training set using data augmentation techniques to improve the model performance. Experimental results demonstrate that compared to the mAP 50-95 of the current state-of-the-art (SOTA) model, the YOLOv9 model increased the value from 42.16% to 43.73%, with an improvement of 3.7%. The implementation code is publicly available at https://github.com/RuiyangJu/YOLOv9-Fracture-Detection. | 翻訳日:2024-05-29 06:26:32 公開日:2024-05-27 |
# INSIGHT: 言語説明による終末から終末へのニューロシンボリック視覚強化学習
INSIGHT: End-to-End Neuro-Symbolic Visual Reinforcement Learning with Language Explanations ( http://arxiv.org/abs/2403.12451v2 ) ライセンス: Link先を確認 | Lirui Luo, Guoxi Zhang, Hongming Xu, Yaodong Yang, Cong Fang, Qing Li, | (参考訳) ニューロシンボリック強化学習(NS-RL)は、象徴的政策の解釈可能性に特徴付けられる、説明可能な意思決定のための有望なパラダイムとして登場した。
NS-RLは、視覚的な観察を行うタスクの構造化状態表現を必要とするが、従来の手法では効率の欠如により、構造状態の洗練はできない。
アクセシビリティも問題であり、シンボリックポリシーの解釈には広範なドメイン知識が必要である。
本稿では、構造化状態と象徴的政策を共同で学習するための枠組みを提案し、その鍵となる考え方は、視覚基盤モデルをスケーラブルな知覚モジュールに蒸留し、政策学習中にそれを洗練させることである。
さらに、我々は大規模な言語モデルを用いてポリシーや決定のための言語説明を生成するパイプラインを設計する。
9つのアタリタスクの実験において,アプローチの有効性を検証するとともに,政策や意思決定に関する説明も提示する。
Neuro-symbolic reinforcement learning (NS-RL) has emerged as a promising paradigm for explainable decision-making, characterized by the interpretability of symbolic policies. NS-RL entails structured state representations for tasks with visual observations, but previous methods are unable to refine the structured states with rewards due to a lack of efficiency. Accessibility also remains to be an issue, as extensive domain knowledge is required to interpret symbolic policies. In this paper, we present a framework for learning structured states and symbolic policies jointly, whose key idea is to distill vision foundation models into a scalable perception module and refine it during policy learning. Moreover, we design a pipeline to generate language explanations for policies and decisions using large language models. In experiments on nine Atari tasks, we verify the efficacy of our approach, and we also present explanations for policies and decisions. | 翻訳日:2024-05-29 06:26:32 公開日:2024-05-27 |
# DD-RobustBench:データセット蒸留における逆ロバスト性ベンチマーク
DD-RobustBench: An Adversarial Robustness Benchmark for Dataset Distillation ( http://arxiv.org/abs/2403.13322v2 ) ライセンス: Link先を確認 | Yifan Wu, Jiawei Du, Ping Liu, Yuewei Lin, Wenqing Cheng, Wei Xu, | (参考訳) データセットの蒸留は、データセットをはるかに小さく圧縮することを目的とした高度な技術であり、予測可能なトレーニング性能を維持している。
蒸留データセットのロバスト性を見落としながら, 圧縮率の制限による評価精度向上に努力が注がれている。
本研究は,我々の知る限り,蒸留したデータセットの対角的堅牢性を統一的に評価する上で,これまでで最も広範囲なベンチマークである包括的ベンチマークを導入する。
TESLA や SRe2L などの最新の技術,多様な敵攻撃手法,そして ImageNet-1K などのより広範なデータセットコレクションを対象とした評価などを含む,より広い範囲のデータセット蒸留手法を導入することで,これまでの取り組みを大きく拡張する。
さらに,これらの蒸留データセットのPGDやAutoAttackなどの代表的な攻撃アルゴリズムに対する堅牢性を評価し,周波数の観点からそれらのレジリエンスを探求した。
また, 蒸留したデータを元のデータセットのトレーニングバッチに組み込むことで, 堅牢性の向上が期待できることがわかった。
Dataset distillation is an advanced technique aimed at compressing datasets into significantly smaller counterparts, while preserving formidable training performance. Significant efforts have been devoted to promote evaluation accuracy under limited compression ratio while overlooked the robustness of distilled dataset. In this work, we introduce a comprehensive benchmark that, to the best of our knowledge, is the most extensive to date for evaluating the adversarial robustness of distilled datasets in a unified way. Our benchmark significantly expands upon prior efforts by incorporating a wider range of dataset distillation methods, including the latest advancements such as TESLA and SRe2L, a diverse array of adversarial attack methods, and evaluations across a broader and more extensive collection of datasets such as ImageNet-1K. Moreover, we assessed the robustness of these distilled datasets against representative adversarial attack algorithms like PGD and AutoAttack, while exploring their resilience from a frequency perspective. We also discovered that incorporating distilled data into the training batches of the original dataset can yield to improvement of robustness. | 翻訳日:2024-05-29 06:26:32 公開日:2024-05-27 |
# 簡易拡散シュレーディンガー橋
Simplified Diffusion Schrödinger Bridge ( http://arxiv.org/abs/2403.14623v3 ) ライセンス: Link先を確認 | Zhicong Tang, Tiankai Hang, Shuyang Gu, Dong Chen, Baining Guo, | (参考訳) 本稿では、複雑なデータ生成におけるDSBの限界に対処し、より高速な収束と性能向上を実現するため、Score-based Generative Models (SGMs) との一体化を容易にするDiffusion Schr\"odinger Bridge (DSB) の新たな理論的単純化を提案する。
DSB の初期ソリューションとして SGM を採用することで,本手法は両フレームワークの長所を生かし,より効率的なトレーニングプロセスの確保と SGM の性能向上を実現している。
また、理論的近似にも拘わらず、ネットワークの適合性を実質的に改善するパラメータ化手法を提案する。
本研究は,DSBの簡易化の有効性を実験的に検証し,その大幅な改善を実証した。
この研究の貢献が、先進的な生成モデリングの道を開くと信じている。
コードはhttps://github.com/checkcrab/SDSB.comで入手できる。
This paper introduces a novel theoretical simplification of the Diffusion Schr\"odinger Bridge (DSB) that facilitates its unification with Score-based Generative Models (SGMs), addressing the limitations of DSB in complex data generation and enabling faster convergence and enhanced performance. By employing SGMs as an initial solution for DSB, our approach capitalizes on the strengths of both frameworks, ensuring a more efficient training process and improving the performance of SGM. We also propose a reparameterization technique that, despite theoretical approximations, practically improves the network's fitting capabilities. Our extensive experimental evaluations confirm the effectiveness of the simplified DSB, demonstrating its significant improvements. We believe the contributions of this work pave the way for advanced generative modeling. The code is available at https://github.com/checkcrab/SDSB. | 翻訳日:2024-05-29 06:26:32 公開日:2024-05-27 |
# 暗号資産の課税のための税務員ガイド
A Taxmans guide to taxation of crypto assets ( http://arxiv.org/abs/2403.15074v2 ) ライセンス: Link先を確認 | Arindam Misra, | (参考訳) 金融制度は急速な技術革新を目撃している。
BitcoinおよびDistributed Ledger Technologyに基づく他の暗号資産の台頭は、人々が分散化されたネットワーク上で価値を交換し、伝達する方法の根本的な変化を示している。
このことは、政府や税務当局が、この革新的で革新的で、急進的な技術に対する政策対応を理解し、提供するために、規制と税政策の盲点を生み出している。
ブロックチェーン技術におけるイノベーションの破滅的なスピードと、分散金融、分散自治組織、メタバースの出現により、規制当局や税務当局による政策介入やガイダンスは、イノベーションのペースに先行する、あるいは同期する可能性は低い。
本稿では、暗号資産が機能する原理と、その基盤技術と、このエコシステム内で発生する税問題や課税可能な事象との関連について説明する。
また、FATFやOECDによる最近の報告基準の変更など、様々な管轄区域で既に実施されている税や規制政策の対応の事例も提供している。
本稿では,既存の法律や政策の背景にある根拠と,その実施上の課題について説明する。
また、この資産クラスの課税ポテンシャルを推定し、偽名や治外法的な問題に対処できるグローバル・パブリック・デジタル・インフラストラクチャーの創出を提案する。
本稿では,暗号資産に関する直接的および間接的な課税問題を解析し,より詳しくは,証明・オブ・テイクや最大抽出可能な値などの近年の側面について論じる。
The Financial system has witnessed rapid technological changes. The rise of Bitcoin and other crypto assets based on Distributed Ledger Technology mark a fundamental change in the way people transact and transmit value over a decentralized network, spread across geographies. This has created regulatory and tax policy blind spots, as governments and tax administrations take time to understand and provide policy responses to this innovative, revolutionary, and fast-paced technology. Due to the breakneck speed of innovation in blockchain technology and advent of Decentralized Finance, Decentralized Autonomous Organizations and the Metaverse, it is unlikely that the policy interventions and guidance by regulatory authorities or tax administrations would be ahead or in sync with the pace of innovation. This paper tries to explain the principles on which crypto assets function, their underlying technology and relates them to the tax issues and taxable events which arise within this ecosystem. It also provides instances of tax and regulatory policy responses already in effect in various jurisdictions, including the recent changes in reporting standards by the FATF and the OECD. This paper tries to explain the rationale behind existing laws and policies and the challenges in their implementation. It also attempts to present a ballpark estimate of tax potential of this asset class and suggests creation of global public digital infrastructure that can address issues related to pseudonymity and extra-territoriality. The paper analyses both direct and indirect taxation issues related to crypto assets and discusses more recent aspects like proof-of-stake and maximal extractable value in greater detail. | 翻訳日:2024-05-29 06:26:32 公開日:2024-05-27 |
# 確信するまでの探索: 身体的質問回答の効率的な探索
Explore until Confident: Efficient Exploration for Embodied Question Answering ( http://arxiv.org/abs/2403.15941v2 ) ライセンス: Link先を確認 | Allen Z. Ren, Jaden Clark, Anushri Dixit, Masha Itkina, Anirudha Majumdar, Dorsa Sadigh, | (参考訳) 本研究では,ロボットなどの具体的エージェントが,質問に対する回答に自信を持つまで情報収集を行う環境を積極的に探究する必要がある場合の,身体的質問回答(EQA)の問題について考察する。
本研究では,大規模視覚言語モデル(VLM)の強い意味論的推論機能を活用し,これらの質問を効率的に探索し,回答する。
しかし、EQAでVLMを使用する場合の主な課題は2つある: 時間とともに探索する方法を計画できるようにシーンをマッピングするための内部記憶がなく、その信頼性が誤って評価され、ロボットが早期に探索や過度に探索を停止させる可能性がある。
深度情報とVLMの視覚的プロンプトに基づいてシーンのセマンティックマップを最初に構築する手法を提案する。
次に、コンフォメーション予測を用いて、自信に答えるVLMの質問をキャリブレーションし、ロボットがいつ探索をやめるかを知ることができるようにし、よりキャリブレーションされ効率的な探索戦略をもたらす。
シミュレーションでフレームワークをテストするために,Habitat-Matterport 3D Research Dataset (HM3D)上に構築された,多種多様なリアルなロボットシナリオとシーンを備えた新しいEQAデータセットも提供します。
シミュレーションと実際のロボット実験の両方で、提案手法は、VLMを探索に利用せず、信頼性を調整しないベースラインよりも性能と効率を向上することを示す。
webpage with experiment video and code: https://explore-eqa.github.io/
We consider the problem of Embodied Question Answering (EQA), which refers to settings where an embodied agent such as a robot needs to actively explore an environment to gather information until it is confident about the answer to a question. In this work, we leverage the strong semantic reasoning capabilities of large vision-language models (VLMs) to efficiently explore and answer such questions. However, there are two main challenges when using VLMs in EQA: they do not have an internal memory for mapping the scene to be able to plan how to explore over time, and their confidence can be miscalibrated and can cause the robot to prematurely stop exploration or over-explore. We propose a method that first builds a semantic map of the scene based on depth information and via visual prompting of a VLM - leveraging its vast knowledge of relevant regions of the scene for exploration. Next, we use conformal prediction to calibrate the VLM's question answering confidence, allowing the robot to know when to stop exploration - leading to a more calibrated and efficient exploration strategy. To test our framework in simulation, we also contribute a new EQA dataset with diverse, realistic human-robot scenarios and scenes built upon the Habitat-Matterport 3D Research Dataset (HM3D). Both simulated and real robot experiments show our proposed approach improves the performance and efficiency over baselines that do no leverage VLM for exploration or do not calibrate its confidence. Webpage with experiment videos and code: https://explore-eqa.github.io/ | 翻訳日:2024-05-29 06:26:32 公開日:2024-05-27 |
# ベクター・アイズ・スピン・アニール、イズリング・ハミルトンを最小化へ
Vector Ising Spin Annealer for Minimizing Ising Hamiltonians ( http://arxiv.org/abs/2403.16608v2 ) ライセンス: Link先を確認 | James S. Cummins, Natalia G. Berloff, | (参考訳) スピンハミルトニアンで符号化された複雑な最適化問題を解くために光物質相互作用を利用するゲインベースコンピューティングのフレームワークであるベクトルイジングスピンアニール(VISA)を紹介する。
従来の駆動散逸系はしばしばスピン運動の制限により励起状態を選択する。
VISAはスピンを三次元空間で操作できるようにすることでこれらの制約を超越し、イジング・ハミルトンを効果的に最小化するための堅牢な解を提供する。
我々の比較分析は、VISAが従来の単次元スピンオプティマイザよりも優れた性能を示し、複雑な景観においてかなりのエネルギー障壁を橋渡しできることを実証している。
循環グラフとランダムグラフの詳細な研究を通して、VISAは時間依存的なゲインとペナルティアニールでエネルギー景観を動的に進化させる能力を示し、物理系における最適化を再定義する可能性を示している。
We introduce the Vector Ising Spin Annealer (VISA), a framework in gain-based computing that harnesses light-matter interactions to solve complex optimization problems encoded in spin Hamiltonians. Traditional driven-dissipative systems often select excited states due to limitations in spin movement. VISA transcends these constraints by enabling spins to operate in a three-dimensional space, offering a robust solution to minimize Ising Hamiltonians effectively. Our comparative analysis reveals VISA's superior performance over conventional single-dimension spin optimizers, demonstrating its ability to bridge substantial energy barriers in complex landscapes. Through detailed studies on cyclic and random graphs, we show VISA's proficiency in dynamically evolving the energy landscape with time-dependent gain and penalty annealing, illustrating its potential to redefine optimization in physical systems. | 翻訳日:2024-05-29 06:16:48 公開日:2024-05-27 |
# 低ランクエキスパートの混在によるマルチタスクディエンス予測
Multi-Task Dense Prediction via Mixture of Low-Rank Experts ( http://arxiv.org/abs/2403.17749v2 ) ライセンス: Link先を確認 | Yuqi Yang, Peng-Tao Jiang, Qibin Hou, Hao Zhang, Jinwei Chen, Bo Li, | (参考訳) 従来,Mixture of Experts (MoE) に基づくマルチタスク密集予測手法は,すべてのタスクのグローバルな関係を明示的にモデル化することの重要性を無視している。
本稿では,Mixture-of-Low-Rank-Experts (MLoRE) と呼ばれるマルチタスク密度予測のためのデコーダに着目した新しい手法を提案する。
グローバルなタスク関係をモデル化するために、MLoREは元のMoE構造に汎用的な畳み込みパスを追加し、各タスク機能は、明示的なパラメータ共有のためにこのパスを通ることができる。
さらに,専門家数の増加に伴うパラメータと計算コストを制御するため,LoRAからインスピレーションを得て,エキスパートネットワークにおけるバニラ畳み込みの低ランク形式を活用することを提案する。
低ランクの専門家はパラメータが少なく、ジェネリック畳み込みに動的にパラメータ化できるため、パラメータと計算コストは専門家の増加とともに大きく変化しない。
この設計により、専門家の数と受信フィールドを増やして表現能力を大きくし、複数の密集タスクを統一ネットワークで学習できるようにする。
PASCAL-ContextとNYUD-v2ベンチマークの大規模な実験により、我々のMLoREは、すべてのメトリクスにおける従来の最先端の手法と比較して、優れたパフォーマンスを実現していることが示された。
私たちのコードはhttps://github.com/YuqiYang213/MLoREで利用可能です。
Previous multi-task dense prediction methods based on the Mixture of Experts (MoE) have received great performance but they neglect the importance of explicitly modeling the global relations among all tasks. In this paper, we present a novel decoder-focused method for multi-task dense prediction, called Mixture-of-Low-Rank-Experts (MLoRE). To model the global task relationships, MLoRE adds a generic convolution path to the original MoE structure, where each task feature can go through this path for explicit parameter sharing. Furthermore, to control the parameters and computational cost brought by the increase in the number of experts, we take inspiration from LoRA and propose to leverage the low-rank format of a vanilla convolution in the expert network. Since the low-rank experts have fewer parameters and can be dynamically parameterized into the generic convolution, the parameters and computational cost do not change much with the increase of experts. Benefiting from this design, we increase the number of experts and its reception field to enlarge the representation capacity, facilitating multiple dense tasks learning in a unified network. Extensive experiments on the PASCAL-Context and NYUD-v2 benchmarks show that our MLoRE achieves superior performance compared to previous state-of-the-art methods on all metrics. Our code is available at https://github.com/YuqiYang213/MLoRE. | 翻訳日:2024-05-29 06:16:48 公開日:2024-05-27 |
# 電波天文学におけるモデル不確実性定量化を用いたR2D2画像再構成
R2D2 image reconstruction with model uncertainty quantification in radio astronomy ( http://arxiv.org/abs/2403.18052v2 ) ライセンス: Link先を確認 | Amir Aghabiglou, Chung San Chu, Arwa Dabbech, Yves Wiaux, | (参考訳) 高ダイナミックレンジイメージングのためのResidual-to-Residual DNNシリーズ(R2D2)は、天文学におけるRIイメージングのために最近導入された。
R2D2の再構成は一連の残像として形成され、前回の反復のイメージ推定と関連するデータを入力として取り込むディープニューラルネットワーク(DNN)の出力として反復的に推定される。
本研究では,R2D2画像推定プロセスのロバスト性について,その一連の学習モデルに関連する不確実性について検討する。
アンサンブル平均化アプローチを採用することで、各イテレーションにおけるトレーニングプロセスのランダムなDNN初期化から、複数のシリーズをトレーニングすることができる。
結果の複数のR2D2インスタンスは ``R2D2 sample'' を生成するために利用することもできる。
RIイメージングに焦点をあて、望遠鏡固有のアプローチを採用し、複数のR2D2インスタンスを訓練し、超大型アレイ(VLA)の最も一般的な観測環境を網羅した。
シミュレーションと実データ実験がそれを裏付ける。
(i)R2D2の画像推定能力は最先端のアルゴリズムよりも優れている。
(二)その超高速再構成能力(少数のDNNのシリーズから始まる)は、大規模な画像次元においても、複数の再構成サンプルと不確実性マップの計算を実用的なものにする。
(iii)非常に低いモデルの不確実性によって特徴づけられる。
The ``Residual-to-Residual DNN series for high-Dynamic range imaging'' (R2D2) approach was recently introduced for Radio-Interferometric (RI) imaging in astronomy. R2D2's reconstruction is formed as a series of residual images, iteratively estimated as outputs of Deep Neural Networks (DNNs) taking the previous iteration's image estimate and associated data residual as inputs. In this work, we investigate the robustness of the R2D2 image estimation process, by studying the uncertainty associated with its series of learned models. Adopting an ensemble averaging approach, multiple series can be trained, arising from different random DNN initializations of the training process at each iteration. The resulting multiple R2D2 instances can also be leveraged to generate ``R2D2 samples'', from which empirical mean and standard deviation endow the algorithm with a joint estimation and uncertainty quantification functionality. Focusing on RI imaging, and adopting a telescope-specific approach, multiple R2D2 instances were trained to encompass the most general observation setting of the Very Large Array (VLA). Simulations and real-data experiments confirm that: (i) R2D2's image estimation capability is superior to that of the state-of-the-art algorithms; (ii) its ultra-fast reconstruction capability (arising from series with only few DNNs) makes the computation of multiple reconstruction samples and of uncertainty maps practical even at large image dimension; (iii) it is characterized by a very low model uncertainty. | 翻訳日:2024-05-29 06:16:48 公開日:2024-05-27 |
# GlORIE-SLAM: グローバルに最適化されたRGBのみの暗黙のポイントクラウドSLAM
GlORIE-SLAM: Globally Optimized RGB-only Implicit Encoding Point Cloud SLAM ( http://arxiv.org/abs/2403.19549v3 ) ライセンス: Link先を確認 | Ganlin Zhang, Erik Sandström, Youmin Zhang, Manthan Patel, Luc Van Gool, Martin R. Oswald, | (参考訳) RGBのみの高密度局所マッピング(SLAM)の最近の進歩は、グリッドベースの暗黙的符号化と/またはグローバルマップの効率的な実現と一貫性の獲得に苦慮している。
そこで本研究では,キーフレームのポーズや深度更新に適応するフレキシブルなニューラルポイントクラウドシーン表現を用いた,RGBのみの高密度SLAMシステムを提案する。
RGBのみのSLAMのもう一つの重要な課題は、幾何学的事前の欠如である。
この問題を軽減するため,単眼深度推定器の助けを借りて,単眼深度とともに鍵フレームのポーズと深さを最適化するバンドル調整のための新しいDSPO層を導入する。
最後に、ループ閉鎖とオンライングローバルバンドル調整の利点を生かし、Replica、TUM-RGBD、ScanNetデータセットの追跡、マッピング、レンダリングの精度において、既存の高密度ニューラルネットワークRGB SLAM手法よりも優れているか、競争力がある。
ソースコードはhttps://github.com/zhangganlin/GlOIRE-SLAMで入手できる。
Recent advancements in RGB-only dense Simultaneous Localization and Mapping (SLAM) have predominantly utilized grid-based neural implicit encodings and/or struggle to efficiently realize global map and pose consistency. To this end, we propose an efficient RGB-only dense SLAM system using a flexible neural point cloud scene representation that adapts to keyframe poses and depth updates, without needing costly backpropagation. Another critical challenge of RGB-only SLAM is the lack of geometric priors. To alleviate this issue, with the aid of a monocular depth estimator, we introduce a novel DSPO layer for bundle adjustment which optimizes the pose and depth of keyframes along with the scale of the monocular depth. Finally, our system benefits from loop closure and online global bundle adjustment and performs either better or competitive to existing dense neural RGB SLAM methods in tracking, mapping and rendering accuracy on the Replica, TUM-RGBD and ScanNet datasets. The source code is available at https://github.com/zhangganlin/GlOIRE-SLAM | 翻訳日:2024-05-29 06:16:48 公開日:2024-05-27 |
# 対称性の破れた均一磁場中のツイスト荷電粒子
Twisted charged particles in the uniform magnetic field with broken symmetry ( http://arxiv.org/abs/2404.00283v2 ) ライセンス: Link先を確認 | N. V. Filina, S. S. Baturin, | (参考訳) 本研究では, 軌道角運動量(OAM)の非ゼロ射影を持つ荷電粒子を, 軸対称が破れた一様磁場中で理論的に記述する。
私たちが発見する波動関数は、連続パラメータを通してソレノイドの入り口における磁場の非対称性を自然に説明し、ねじれた荷電粒子を記述するのによく用いられるラゲール=ガウス状態の一般化である。
代数的な観点から非対称ハミルトニアンを解析し、ねじれ状態のOAM射影が対称性の破れによってどのように修正されるかを示す。
我々は、エネルギー、RMSサイズ、カジミール不変量などの非対称状態の性質の解析的枠組みを提供し、提案された記述の利点について議論する。
We present a theoretical description of charged particles with nonzero projection of the orbital angular momentum (OAM) in a uniform magnetic field with broken axial symmetry. The wave functions we find naturally account for the asymmetry of the magnetic field at the entrance of the solenoid through the continuous parameter and are a generalization of the Laguerre-Gauss states commonly used to describe twisted charged particles. We analyze the asymmetric Hamiltonian from an algebraic point of view and show how the OAM projection of the twisted state is modified by symmetry breaking. We provide analytical frameworks for properties of the asymmetric states, such as energy, RMS size, and Cazimir invariant, and discuss advantages of the proposed description. | 翻訳日:2024-05-29 06:16:48 公開日:2024-05-27 |
# LLMがゼロショットワンクラス分類のためのビジョンランゲージモデルに到達
LLM meets Vision-Language Models for Zero-Shot One-Class Classification ( http://arxiv.org/abs/2404.00675v3 ) ライセンス: Link先を確認 | Yassir Bendou, Giulia Lioi, Bastien Pasdeloup, Lukas Mauch, Ghouthi Boukli Hacene, Fabien Cardinaux, Vincent Gripon, | (参考訳) ゼロショット・ワンクラスの視覚分類の問題を考えると、従来のワンクラスの分類は対象クラスのラベルのみが利用できるシナリオにまで拡張される。
本手法は,対象クラスからサンプルを必要とせずに,正と負の問合せサンプルを識別することを目的とする。
視覚的に混乱するオブジェクトに対して,まず大きな言語モデルを問合せし,次に視覚言語で事前訓練されたモデル(例えばCLIP)に頼って分類を行う2段階のソリューションを提案する。
大規模ビジョンベンチマークを適応させることで,提案手法が既成の代替品よりも優れた性能を発揮することを示す。
すなわち,iNaturalist の粒度制御バージョンを含む,正のデータセットから負のクエリサンプルを抽出し,正のデータセットから負のサンプルを定距離に抽出する,現実的なベンチマークを提案する。
我々の知る限りでは、私たちはまず、そのラベルのみを用いて、他の意味論的関連カテゴリと1つのカテゴリを区別する能力を示す。
We consider the problem of zero-shot one-class visual classification, extending traditional one-class classification to scenarios where only the label of the target class is available. This method aims to discriminate between positive and negative query samples without requiring examples from the target class. We propose a two-step solution that first queries large language models for visually confusing objects and then relies on vision-language pre-trained models (e.g., CLIP) to perform classification. By adapting large-scale vision benchmarks, we demonstrate the ability of the proposed method to outperform adapted off-the-shelf alternatives in this setting. Namely, we propose a realistic benchmark where negative query samples are drawn from the same original dataset as positive ones, including a granularity-controlled version of iNaturalist, where negative samples are at a fixed distance in the taxonomy tree from the positive ones. To our knowledge, we are the first to demonstrate the ability to discriminate a single category from other semantically related ones using only its label. | 翻訳日:2024-05-29 06:07:03 公開日:2024-05-27 |
# ネットワーク成長のメカニズムの学習
Learning the mechanisms of network growth ( http://arxiv.org/abs/2404.00793v3 ) ライセンス: Link先を確認 | Lourens Touwen, Doina Bucur, Remco van der Hofstad, Alessandro Garavaglia, Nelly Litvak, | (参考訳) 動的ネットワークのための新しいモデル選択法を提案する。
我々のアプローチは、大量の合成ネットワークデータに基づいて分類器を訓練することである。
データは、動的ネットワークのための9つの最先端ランダムグラフモデルをシミュレートし、パラメータ範囲を選択して、ネットワークサイズを指数的に成長させることによって生成される。
我々は,特定の時間間隔で頂点群が受け取る新しいリンクをカウントする,概念的に新しいタイプの動的特徴を設計する。
提案される機能は、計算が容易で、分析的に抽出可能で、解釈可能である。
提案手法は,合成ネットワークのほぼ完全な分類を実現し,最先端のネットワークを大きなマージンで超えている。
我々の分類法を現実世界の引用ネットワークに適用することで、優先的なアタッチメント、フィットネス、老朽化したモデルが現実の引用ネットワークに最も適しているという主張に信頼性を与えるが、予測されたモデルは頂点適合を含まないこともある。
We propose a novel model-selection method for dynamic networks. Our approach involves training a classifier on a large body of synthetic network data. The data is generated by simulating nine state-of-the-art random graph models for dynamic networks, with parameter range chosen to ensure exponential growth of the network size in time. We design a conceptually novel type of dynamic features that count new links received by a group of vertices in a particular time interval. The proposed features are easy to compute, analytically tractable, and interpretable. Our approach achieves a near-perfect classification of synthetic networks, exceeding the state-of-the-art by a large margin. Applying our classification method to real-world citation networks gives credibility to the claims in the literature that models with preferential attachment, fitness and aging fit real-world citation networks best, although sometimes, the predicted model does not involve vertex fitness. | 翻訳日:2024-05-29 06:07:03 公開日:2024-05-27 |
# FlexiDreamer: FlexiCubesによる単一画像から3D生成
FlexiDreamer: Single Image-to-3D Generation with FlexiCubes ( http://arxiv.org/abs/2404.00987v2 ) ライセンス: Link先を確認 | Ruowen Zhao, Zhengyi Wang, Yikai Wang, Zihan Zhou, Jun Zhu, | (参考訳) 3Dコンテンツ生成は様々な分野に広く応用されている。
その支配的なパラダイムの1つは、拡散モデルによって生成された多視点画像を用いたスパースビュー再構成である。
しかし、マルチビュー画像から直接三角形メッシュを再構築することは困難であるため、ほとんどの手法はスパースビュー再構成中に暗黙の表現(NeRFなど)を選択し、後処理抽出によりターゲットメッシュを取得する。
しかし、暗黙の表現は訓練に広範囲な時間を要するため、抽出後も望ましくない視覚的なアーティファクトにつながる。
本稿では,マルチビュー生成画像から高品質なメッシュを直接再構築する新しいフレームワークであるFlexiDreamerを提案する。
マルチビューメッシュ再構成には,高度な勾配に基づくメッシュ最適化,すなわちFlexiCubesを使用し,エンドツーエンドで3Dメッシュを生成することができる。
生成した画像からの不整合による復元成果物に対処するために,再構成形状を改善するためのハイブリッド位置符号化方式と,表面ゴーストの緩和を目的とした配向型テクスチャマッピングを設計する。
結果をさらに高めるため,等角正則化と滑らかな正則化をそれぞれ組み込んで幾何学的穴と表面雑音を低減した。
提案手法では,1つの画像から3次元の下流タスクにおいて,約1分で高忠実度な3Dメッシュを生成できる。
3D content generation has wide applications in various fields. One of its dominant paradigms is by sparse-view reconstruction using multi-view images generated by diffusion models. However, since directly reconstructing triangle meshes from multi-view images is challenging, most methodologies opt to an implicit representation (such as NeRF) during the sparse-view reconstruction and acquire the target mesh by a post-processing extraction. However, the implicit representation takes extensive time to train and the post-extraction also leads to undesirable visual artifacts. In this paper, we propose FlexiDreamer, a novel framework that directly reconstructs high-quality meshes from multi-view generated images. We utilize an advanced gradient-based mesh optimization, namely FlexiCubes, for multi-view mesh reconstruction, which enables us to generate 3D meshes in an end-to-end manner. To address the reconstruction artifacts owing to the inconsistencies from generated images, we design a hybrid positional encoding scheme to improve the reconstruction geometry and an orientation-aware texture mapping to mitigate surface ghosting. To further enhance the results, we respectively incorporate eikonal and smooth regularizations to reduce geometric holes and surface noise. Our approach can generate high-fidelity 3D meshes in the single image-to-3D downstream task with approximately 1 minute, significantly outperforming previous methods. | 翻訳日:2024-05-29 06:07:03 公開日:2024-05-27 |
# 非凸群ペナルティを用いたロバスト正規化クラスタリングによるマルチタスク学習
Multi-task learning via robust regularized clustering with non-convex group penalties ( http://arxiv.org/abs/2404.03250v2 ) ライセンス: Link先を確認 | Akira Okazaki, Shuichi Kawano, | (参考訳) マルチタスク学習(MTL)は、関連するタスク間で共通情報を共有することにより、予測と予測性能を向上させることを目的としている。
MTLの自然な仮定の一つは、タスクはその特性に基づいてクラスタに分類されるということである。
しかし、この仮定に基づく既存のMTLメソッドは、大きなタスク固有のコンポーネントや他のタスクとは無関係なタスクを無視することが多い。
本稿では,ロバスト正規化クラスタリング(MTLRRC)を用いたマルチタスク学習手法を提案する。
MTLRRCはロバストな凸クラスタリングにインスパイアされたロバストな正則化項を取り入れており、非凸およびグループスパースなペナルティを扱うためにさらに拡張されている。
この拡張により、MTLRRCはロバストなタスククラスタリングとアウトリーなタスク検出を同時に行うことができる。
拡張ロバストクラスタリングと多変量M-推定器の接続も確立した。
このことは、MTLRRCが外れたタスクに対して頑健であることの解釈を提供する。
パラメータ推定のための乗算器の修正交互方向法に基づく効率的なアルゴリズムを開発した。
MTLRRCの有効性はシミュレーション研究と実データへの適用を通して実証される。
Multi-task learning (MTL) aims to improve estimation and prediction performance by sharing common information among related tasks. One natural assumption in MTL is that tasks are classified into clusters based on their characteristics. However, existing MTL methods based on this assumption often ignore outlier tasks that have large task-specific components or no relation to other tasks. To address this issue, we propose a novel MTL method called Multi-Task Learning via Robust Regularized Clustering (MTLRRC). MTLRRC incorporates robust regularization terms inspired by robust convex clustering, which is further extended to handle non-convex and group-sparse penalties. The extension allows MTLRRC to simultaneously perform robust task clustering and outlier task detection. The connection between the extended robust clustering and the multivariate M-estimator is also established. This provides an interpretation of the robustness of MTLRRC against outlier tasks. An efficient algorithm based on a modified alternating direction method of multipliers is developed for the estimation of the parameters. The effectiveness of MTLRRC is demonstrated through simulation studies and application to real data. | 翻訳日:2024-05-29 06:07:03 公開日:2024-05-27 |
# Schroedinger氏の主張: AUCが正確性を予測していない場合
Schroedinger's Threshold: When the AUC doesn't predict Accuracy ( http://arxiv.org/abs/2404.03344v2 ) ライセンス: Link先を確認 | Juri Opitz, | (参考訳) エリアアンダーカーブ測度(AUC)は、おそらくキャリブレーションなしで様々なモデルを評価し比較する傾向にある。
AUCアプリケーションの重要な例は、生成されたテキストの忠実度を予測するモデルの評価とベンチマークである。
しかし、AUCは、アプリケーションで観測される実際の精度に悪影響を及ぼし得る、学術的で楽観的な精度の概念を示し、ベンチマークのランキングに大きな変化をもたらす。
下流モデルの性能のより現実的な図を描く(実際の応用のためのモデルを作成する)ために、異なるキャリブレーションモード、キャリブレーションデータおよびメソッドを探索する。
The Area Under Curve measure (AUC) seems apt to evaluate and compare diverse models, possibly without calibration. An important example of AUC application is the evaluation and benchmarking of models that predict faithfulness of generated text. But we show that the AUC yields an academic and optimistic notion of accuracy that can misalign with the actual accuracy observed in application, yielding significant changes in benchmark rankings. To paint a more realistic picture of downstream model performance (and prepare a model for actual application), we explore different calibration modes, testing calibration data and method. | 翻訳日:2024-05-29 06:07:03 公開日:2024-05-27 |
# 自然発生データからスキル獲得を規定する象徴的法則の自動発見
Automated discovery of symbolic laws governing skill acquisition from naturally occurring data ( http://arxiv.org/abs/2404.05689v2 ) ライセンス: Link先を確認 | Sannyuya Liu, Qing Li, Xiaoxuan Shen, Jianwen Sun, Zongkai Yang, | (参考訳) スキル獲得は認知心理学における重要な領域であり、複数の心理学的プロセスを含んでいる。
実験パラダイムの下で発見された法則は議論の余地があり、一般化性に欠ける。
本稿では,大規模学習ログデータからスキル学習の法則を明らかにすることを目的とする。
2段階のアルゴリズムは、観測不能な認知状態と探索におけるアルゴリズム的爆発の問題に対処するために開発された。
まず,学習者の認知状態を判断し,特徴的重要性を評価するために,深層学習モデルを用いる。
その後、記号回帰アルゴリズムを用いてニューラルネットワークモデルを代数方程式に解析する。
実験結果から, 連続的なフィードバック設定において, ノイズ範囲内における事前設定された法則を精度良く復元できることが示唆された。
Lumosityのトレーニングデータに適用すると、従来のモデルや最近のモデルよりも適合度が向上する。
この研究は、新しい2種類のスキル獲得法を明らかにし、いくつかの以前の発見を再確認する。
Skill acquisition is a key area of research in cognitive psychology as it encompasses multiple psychological processes. The laws discovered under experimental paradigms are controversial and lack generalizability. This paper aims to unearth the laws of skill learning from large-scale training log data. A two-stage algorithm was developed to tackle the issues of unobservable cognitive states and algorithmic explosion in searching. Initially a deep learning model is employed to determine the learner's cognitive state and assess the feature importance. Subsequently, symbolic regression algorithms are utilized to parse the neural network model into algebraic equations. Experimental results show the algorithm can accurately restore preset laws within a noise range in continuous feedback settings. When applied to Lumosity training data, the method outperforms traditional and recent models in fitness terms. The study reveals two new forms of skill acquisition laws and reaffirms some previous findings. | 翻訳日:2024-05-29 06:07:03 公開日:2024-05-27 |
# 視覚変換器へのLLaMAデコーダの適用
Adapting LLaMA Decoder to Vision Transformer ( http://arxiv.org/abs/2404.06773v4 ) ライセンス: Link先を確認 | Jiahao Wang, Wenqi Shao, Mengzhao Chen, Chengyue Wu, Yong Liu, Taiqiang Wu, Kaipeng Zhang, Songyang Zhang, Kai Chen, Ping Luo, | (参考訳) 本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
我々はまず,LLaMAのアーキテクチャと整合する標準的なViTを"LLaMAfy"と呼び,自己注意に因果マスクを直接適用することで注意崩壊の問題が生じ,ネットワークトレーニングに失敗する。
本稿では,この課題を克服するために,画像トークンの背後にクラストークンを配置し,因果自己認識により画像全体の情報を効率的にキャプチャする手法を提案する。
さらに,訓練開始時の自己注意に因果マスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
イメージLLaMA (iLLaMA) はアーキテクチャにおいてLLaMAに似ており、直接教師付き学習を可能にする。
その因果自己注意は計算効率を高め、注意マップのランクを上げることによって複雑な表現を学ぶ。
iLLaMAはエンコーダのみのパフォーマンスと競合し、5.7Mパラメータで75.1%のImageNetトップ1の精度を達成した。
モデルを$\sim$310Mにスケールし、ImageNet-21Kで事前トレーニングすることで、精度が86.0%に向上する。
大規模な実験では、iLLaMAの信頼性特性として、形状・テクスチャバイアス、校正、量子化互換性、ADE20Kセグメンテーション、CIFAR転送学習がある。
我々は,LLMの波における視覚アーキテクチャの新たな展望と,統一型マルチモーダルモデルの開発を促すことを願っている。
事前訓練されたモデルとコードはhttps://github.com/techmonsterwang/iLLaMA.comで入手できる。
This work examines whether decoder-only Transformers such as LLaMA, which were originally designed for large language models (LLMs), can be adapted to the computer vision field. We first "LLaMAfy" a standard ViT step-by-step to align with LLaMA's architecture, and find that directly applying a causal mask to the self-attention brings an attention collapse issue, resulting in the failure to the network training. We suggest to reposition the class token behind the image tokens with a post-sequence class token technique to overcome this challenge, enabling causal self-attention to efficiently capture the entire image's information. Additionally, we develop a soft mask strategy that gradually introduces a causal mask to the self-attention at the onset of training to facilitate the optimization behavior. The tailored model, dubbed as image LLaMA (iLLaMA), is akin to LLaMA in architecture and enables direct supervised learning. Its causal self-attention boosts computational efficiency and learns complex representation by elevating attention map ranks. iLLaMA rivals the performance with its encoder-only counterparts, achieving 75.1% ImageNet top-1 accuracy with only 5.7M parameters. Scaling the model to $\sim$310M and pre-training on ImageNet-21K further enhances the accuracy to 86.0%. Extensive experiments demonstrate iLLaMA's reliable properties: shape-texture bias, calibration, quantization compatibility, ADE20K segmentation and CIFAR transfer learning. We hope our study can kindle fresh views to visual architectures in the wave of LLMs and inspire the development of unified multimodal models. Pre-trained models and codes are available https://github.com/techmonsterwang/iLLaMA. | 翻訳日:2024-05-29 06:07:03 公開日:2024-05-27 |
# Dual Randomized Smoothing によるロバスト性認定のための次元曲線の修正
Mitigating the Curse of Dimensionality for Certified Robustness via Dual Randomized Smoothing ( http://arxiv.org/abs/2404.09586v3 ) ライセンス: Link先を確認 | Song Xia, Yu Yi, Xudong Jiang, Henghui Ding, | (参考訳) Randomized Smoothing (RS) は、任意の画像分類器に確証のあるロバスト性を与えるための有望な手法であることが証明されている。
しかし、高次元等方性ガウスノイズに固有のかなりの不確実性は、RSに次元性の呪いを課す。
具体的には、RS によって与えられる証明されたロバストネス半径 ${\ell_2}$ の上界は、入力次元 $d$ の膨張とともに減少傾向を示し、比例的に 1/\sqrt{d}$ の速度で減少する。
本稿では,低次元空間における双対平滑化の利用を通じて,高次元入力に対して${\ell_2}$認証ロバスト性を提供することの実現可能性について検討する。
提案したDual Randomized Smoothing (DRS)は、入力イメージを2つのサブイメージにダウンサンプルし、下位次元で2つのサブイメージを滑らかにする。
理論的には、DRSが元の入力に対して厳密な${\ell_2}$証明されたロバストネス半径を保証し、DRSが${\ell_2}$ロバストネス半径の上位境界に達することを証明し、$m+n=d$で$(1/\sqrt m + 1/\sqrt n )$で比例的に減少することを示す。
CIFAR-10 と ImageNet のデータセット上での RS の信頼性向上を${\ell_2}$ の証明されたロバストネスベースラインが得られた。
コードはhttps://github.com/xiasong0501/DRSで入手できる。
Randomized Smoothing (RS) has been proven a promising method for endowing an arbitrary image classifier with certified robustness. However, the substantial uncertainty inherent in the high-dimensional isotropic Gaussian noise imposes the curse of dimensionality on RS. Specifically, the upper bound of ${\ell_2}$ certified robustness radius provided by RS exhibits a diminishing trend with the expansion of the input dimension $d$, proportionally decreasing at a rate of $1/\sqrt{d}$. This paper explores the feasibility of providing ${\ell_2}$ certified robustness for high-dimensional input through the utilization of dual smoothing in the lower-dimensional space. The proposed Dual Randomized Smoothing (DRS) down-samples the input image into two sub-images and smooths the two sub-images in lower dimensions. Theoretically, we prove that DRS guarantees a tight ${\ell_2}$ certified robustness radius for the original input and reveal that DRS attains a superior upper bound on the ${\ell_2}$ robustness radius, which decreases proportionally at a rate of $(1/\sqrt m + 1/\sqrt n )$ with $m+n=d$. Extensive experiments demonstrate the generalizability and effectiveness of DRS, which exhibits a notable capability to integrate with established methodologies, yielding substantial improvements in both accuracy and ${\ell_2}$ certified robustness baselines of RS on the CIFAR-10 and ImageNet datasets. Code is available at https://github.com/xiasong0501/DRS. | 翻訳日:2024-05-29 05:57:17 公開日:2024-05-27 |
# レコメンデーションモデルはどのように大衆バイアスを増幅するか? : スペクトルから見た分析
How Do Recommendation Models Amplify Popularity Bias? An Analysis from the Spectral Perspective ( http://arxiv.org/abs/2404.12008v2 ) ライセンス: Link先を確認 | Siyi Lin, Chongming Gao, Jiawei Chen, Sheng Zhou, Binbin Hu, Chun Chen, Can Wang, | (参考訳) 勧告システム(RS)は、しばしば人気バイアスに悩まされる。
通常、長い尾のデータセットでレコメンデーションモデルをトレーニングする場合、このバイアスを継承するだけでなく、しばしば悪化させる傾向があり、レコメンデーションリストで人気のある項目が過剰に表現される。
本研究は、この現象の根本原因を明らかにするための総合的な経験的および理論的分析を行い、2つの中核的な洞察を得た。
1)推薦モデルにより予測されるスコア行列の主スペクトルにアイテムの人気が記憶される。
2) 次元崩壊現象は主スペクトルの相対的な優位性を増幅し, 人気バイアスを増大させる。
これらの知見に基づいて、スペクトルノルム正規化器を利用して主特異値の大きさをペナルティ化する新しいデバイアスング戦略を提案する。
我々は,スコア行列のスペクトル特性を利用してスペクトルノルムの計算を高速化する効率的なアルゴリズムを開発した。
提案手法の優位性を検証するために,実世界の7つのデータセットと3つのテストパラダイムにわたる大規模な実験を行った。
Recommendation Systems (RS) are often plagued by popularity bias. When training a recommendation model on a typically long-tailed dataset, the model tends to not only inherit this bias but often exacerbate it, resulting in over-representation of popular items in the recommendation lists. This study conducts comprehensive empirical and theoretical analyses to expose the root causes of this phenomenon, yielding two core insights: 1) Item popularity is memorized in the principal spectrum of the score matrix predicted by the recommendation model; 2) The dimension collapse phenomenon amplifies the relative prominence of the principal spectrum, thereby intensifying the popularity bias. Building on these insights, we propose a novel debiasing strategy that leverages a spectral norm regularizer to penalize the magnitude of the principal singular value. We have developed an efficient algorithm to expedite the calculation of the spectral norm by exploiting the spectral property of the score matrix. Extensive experiments across seven real-world datasets and three testing paradigms have been conducted to validate the superiority of the proposed method. | 翻訳日:2024-05-29 05:57:17 公開日:2024-05-27 |
# Debiased Distribution Compression
Debiased Distribution Compression ( http://arxiv.org/abs/2404.12290v2 ) ライセンス: Link先を確認 | Lingxiao Li, Raaz Dwivedi, Lester Mackey, | (参考訳) 現代の圧縮法では、ターゲット分布 $\mathbb{P}$ をサンプリングよりも簡潔に要約することができるが、マルコフ連鎖のような低バイアスの入力シーケンスへのアクセスは、$\mathbb{P}$ に素早く収束する。
本稿では, バイアス入力シーケンスによる圧縮に適した新しい圧縮手法を提案する。
間違った分布と二次時間をターゲットにした$n$ポイントが与えられたとき、スタインカーネルのシンニング(SKT)は$\sqrt{n}$等重点を$\widetilde{O}(n^{-1/2})$最大平均離散(MMD)から$\mathbb{P}$を返却する。
大規模圧縮タスクでは、低ランクSKTは、独立した関心を持つ可能性のある適応型低ランクデバイアス処理を用いて、サブクアクラティック時間で同じ偉業を達成する。
SKT の保証を $\text{poly-log}(n)$ 加重点に合わせることで、Stein recombination と Stein Cholesky はさらに多くのパーシモニーを実現している。
これらの進歩の下には、単純重み付きコアセットの品質、カーネル行列のスペクトル減衰、およびスタイン核ヒルベルト空間の被覆数に対する新しい保証がある。
実験では, 燃焼イン, 近似マルコフ連鎖モンテカルロ, テンパリングによるバイアスを克服しつつ, 簡潔かつ正確な後続サマリーを提供する。
Modern compression methods can summarize a target distribution $\mathbb{P}$ more succinctly than i.i.d. sampling but require access to a low-bias input sequence like a Markov chain converging quickly to $\mathbb{P}$. We introduce a new suite of compression methods suitable for compression with biased input sequences. Given $n$ points targeting the wrong distribution and quadratic time, Stein kernel thinning (SKT) returns $\sqrt{n}$ equal-weighted points with $\widetilde{O}(n^{-1/2})$ maximum mean discrepancy (MMD) to $\mathbb{P}$. For larger-scale compression tasks, low-rank SKT achieves the same feat in sub-quadratic time using an adaptive low-rank debiasing procedure that may be of independent interest. For downstream tasks that support simplex or constant-preserving weights, Stein recombination and Stein Cholesky achieve even greater parsimony, matching the guarantees of SKT with as few as $\text{poly-log}(n)$ weighted points. Underlying these advances are new guarantees for the quality of simplex-weighted coresets, the spectral decay of kernel matrices, and the covering numbers of Stein kernel Hilbert spaces. In our experiments, our techniques provide succinct and accurate posterior summaries while overcoming biases due to burn-in, approximate Markov chain Monte Carlo, and tempering. | 翻訳日:2024-05-29 05:57:17 公開日:2024-05-27 |
# 大規模言語モデルを用いた合成データ生成によるクラス不均衡の緩和手法の探索
Exploring Prompting Methods for Mitigating Class Imbalance through Synthetic Data Generation with Large Language Models ( http://arxiv.org/abs/2404.12404v2 ) ライセンス: Link先を確認 | Jinhee Kim, Taesung Kim, Jaegul Choo, | (参考訳) 大規模言語モデル (LLMs) は、様々な領域にまたがるコンテキスト内学習能力を示す。
そこで本研究では,クラス不均衡を緩和する現実的な表型データ生成におけるLCMの有効性について検討した。
生成性能を最適化するために,データ形式,クラス提示,変数マッピングなどの重要なプロンプト設計要素を探索し,同定する。
この結果から,CSV形式,バランスの取れたクラス,一意な変数マッピングを用いることで,現実的で信頼性の高いデータを生成し,不均衡なデータセットにおけるマイナークラスの機械学習性能を大幅に向上させることが示唆された。
さらに, これらの手法により, LLMデータ生成の安定性と効率性が向上する。
実世界の6つのデータセットとおもちゃのデータセットを用いて、我々のアプローチを検証し、分類タスクにおける最先端のパフォーマンスを達成する。
コードは以下の通り。 https://github.com/seharanul17/synthetic-tabular-LLM
Large language models (LLMs) have demonstrated impressive in-context learning capabilities across various domains. Inspired by this, our study explores the effectiveness of LLMs in generating realistic tabular data to mitigate class imbalance. We investigate and identify key prompt design elements such as data format, class presentation, and variable mapping to optimize the generation performance. Our findings indicate that using CSV format, balancing classes, and employing unique variable mapping produces realistic and reliable data, significantly enhancing machine learning performance for minor classes in imbalanced datasets. Additionally, these approaches improve the stability and efficiency of LLM data generation. We validate our approach using six real-world datasets and a toy dataset, achieving state-of-the-art performance in classification tasks. The code is available at: https://github.com/seharanul17/synthetic-tabular-LLM | 翻訳日:2024-05-29 05:57:17 公開日:2024-05-27 |
# NormAd: 大規模言語モデルの文化的適応性を評価するベンチマーク
NormAd: A Benchmark for Measuring the Cultural Adaptability of Large Language Models ( http://arxiv.org/abs/2404.12464v3 ) ライセンス: Link先を確認 | Abhinav Rao, Akhila Yerukola, Vishwa Shah, Katharina Reinecke, Maarten Sap, | (参考訳) LLMは相互作用をナビゲートし、社会的規範を尊重し、文化的境界を越えることを避けなければならない。
しかし、LLMが生産物を多様な文化規範に適応できるかどうかはまだ不明である。
我々の研究は、この側面に焦点を当てている。
我々は,75カ国の社会的・文化的規範を表す2.6kの物語を含む新しいデータセットであるNormAdを紹介した。
我々の研究は、LLMがすべての文脈の粒度を横断する文化的推論に苦慮していることを示し、グローバル・サウスの文化よりも英語中心の文化に強い適応性を示している。
明示的な社会的規範にもかかわらず、トップパフォーマンスモデルであるMistral-7b-Instructは81.8\%の精度しか達成せず、人間によって達成された95.6\%より遅れている。
NormAdの評価は、LLMが文化全体にわたるギフトギフトを含むストーリーに適応するのに苦労していることをさらに明らかにしている。
固有の合意や梅毒のバイアスのため、LLMは文化規範に従う物語の社会的受容性を評価するのが、彼らから逸脱しているものよりもはるかに容易である。
我々のベンチマークは、LLMの文化的適応性(またはその欠如)を測定し、これらの技術をグローバルな観客にとってより公平で有用なものにする可能性を強調している。
NormAdデータセットとその関連コードはGitHubでリリースしています。
The integration of Large Language Models (LLMs) into various global cultures fundamentally presents a cultural challenge: LLMs must navigate interactions, respect social norms, and avoid transgressing cultural boundaries. However, it is still unclear if LLMs can adapt their outputs to diverse cultural norms. Our study focuses on this aspect. We introduce NormAd, a novel dataset, which includes 2.6k stories that represent social and cultural norms from 75 countries, to assess the ability of LLMs to adapt to different granular levels of socio-cultural contexts such as the country of origin, its associated cultural values, and prevalent social norms. Our study reveals that LLMs struggle with cultural reasoning across all contextual granularities, showing stronger adaptability to English-centric cultures over those from the Global South. Even with explicit social norms, the top-performing model, Mistral-7b-Instruct, achieves only 81.8\% accuracy, lagging behind the 95.6\% achieved by humans. Evaluation on NormAd further reveals that LLMs struggle to adapt to stories involving gift-giving across cultures. Due to inherent agreement or sycophancy biases, LLMs find it considerably easier to assess the social acceptability of stories that adhere to cultural norms than those that deviate from them. Our benchmark measures the cultural adaptability (or lack thereof) of LLMs, emphasizing the potential to make these technologies more equitable and useful for global audiences. We release the NormAd dataset and its associated code on GitHub. | 翻訳日:2024-05-29 05:57:17 公開日:2024-05-27 |
# 超解空間転写学におけるクロスモーダル拡散モデリング
Cross-modal Diffusion Modelling for Super-resolved Spatial Transcriptomics ( http://arxiv.org/abs/2404.12973v2 ) ライセンス: Link先を確認 | Xiaofei Wang, Xingxu Huang, Stephen J. Price, Chao Li, | (参考訳) 空間転写学(ST)の最近の進歩は、発見研究のために組織内の空間遺伝子発現を特徴づけることを可能にする。
しかし、現在のSTプラットフォームは解像度が低く、空間的遺伝子発現の深い理解を妨げる。
超高分解能アプローチは、組織像とプロファイルされた組織スポットの遺伝子発現を統合することでSTマップを強化することを約束する。
しかし、現在の超解像法は復元の不確実性やモード崩壊によって制限されている。
拡散モデルは, マルチモーダル条件間の複雑な相互作用を捉える上で有望であるが, 超解STマップの組織像と遺伝子発現を統合することは依然として困難である。
本稿では, 組織像の誘導による超解像STマップのクロスモーダル拡散モデルを提案する。
具体的には、組織画像と空間遺伝子発現の相補的な情報を活用するために、多モード適応変調を用いたマルチモーダルディエンタングネットワークを設計する。
さらに,組織像から階層的な細胞間情報を抽出するための動的横断的モデリング手法を提案する。
最後に,複数遺伝子の共発現関係をモデル化するために,共発現に基づく遺伝子相関グラフネットワークを提案する。
実験の結果,本手法は3つの公開データセット上でST超解像における他の最先端手法よりも優れていた。
The recent advancement of spatial transcriptomics (ST) allows to characterize spatial gene expression within tissue for discovery research. However, current ST platforms suffer from low resolution, hindering in-depth understanding of spatial gene expression. Super-resolution approaches promise to enhance ST maps by integrating histology images with gene expressions of profiled tissue spots. However, current super-resolution methods are limited by restoration uncertainty and mode collapse. Although diffusion models have shown promise in capturing complex interactions between multi-modal conditions, it remains a challenge to integrate histology images and gene expression for super-resolved ST maps. This paper proposes a cross-modal conditional diffusion model for super-resolving ST maps with the guidance of histology images. Specifically, we design a multi-modal disentangling network with cross-modal adaptive modulation to utilize complementary information from histology images and spatial gene expression. Moreover, we propose a dynamic cross-attention modelling strategy to extract hierarchical cell-to-tissue information from histology images. Lastly, we propose a co-expression-based gene-correlation graph network to model the co-expression relationship of multiple genes. Experiments show that our method outperforms other state-of-the-art methods in ST super-resolution on three public datasets. | 翻訳日:2024-05-29 05:57:17 公開日:2024-05-27 |
# Nadir BRDF調整反射率の簡易計算による高度なセンチネル2解析
Facilitating Advanced Sentinel-2 Analysis Through a Simplified Computation of Nadir BRDF Adjusted Reflectance ( http://arxiv.org/abs/2404.15812v2 ) ライセンス: Link先を確認 | David Montero, Miguel D. Mahecha, César Aybar, Clemens Mosig, Sebastian Wieneke, | (参考訳) 欧州宇宙機関のコペルニクス計画によるセンチネル2号(S2)ミッションは、地球表面分析に不可欠なデータを提供する。
Level-2Aは、MultiSpectral Instrument (MSI)を通して、高分解能(10-60 m)表面反射率(SR)データを提供する。
SRデータの精度と可視性を向上するためには、ナディアの視界をシミュレートする調整が不可欠である。
これらの補正は、SRの異方性の性質と太陽や観測角度の変動に対処し、時間と異なる条件下で一貫した画像の比較を確実にする。
単純なアルゴリズムである$c$-factor法は、観測されたS2 SRをMODIS BRDFモデルを用いて調整し、Nadir BRDF Adjusted Reflectance(NBAR)を実現する。
個々のイメージへの$c$-factorの直接的な適用にもかかわらず、複数のS2イメージとクラウドストアドデータからのアースシステムデータキューブ(ESDC)をまたいだアプリケーションのための凝集型Pythonフレームワークが不足している。
本稿では,S2 SRデータをNBARに変換するPythonパッケージであるsen2nbarを紹介する。
本パッケージは、S2 SRデータのNBARへの変換を単一の関数で単純化し、効率的なプロセス管理のためにモジュールに編成する。
SAFEファイルとSPatioTemporal Asset Catalogs (STAC)のESDCのNBAR変換を容易にすることで、sen2nbarは多様なデータフォーマット要求を処理する柔軟なツールとして開発されている。
Sen2nbarがS2データの標準化と調和に大きく貢献することを期待しており、様々なアプリケーションにまたがる多様なユーザに対して堅牢なソリューションを提供する。
sen2nbarはhttps://github.com/ESDS-Leipzig/sen2nbar.comで入手できるオープンソースツールである。
The Sentinel-2 (S2) mission from the European Space Agency's Copernicus program provides essential data for Earth surface analysis. Its Level-2A products deliver high-to-medium resolution (10-60 m) surface reflectance (SR) data through the MultiSpectral Instrument (MSI). To enhance the accuracy and comparability of SR data, adjustments simulating a nadir viewing perspective are essential. These corrections address the anisotropic nature of SR and the variability in sun and observation angles, ensuring consistent image comparisons over time and under different conditions. The $c$-factor method, a simple yet effective algorithm, adjusts observed S2 SR by using the MODIS BRDF model to achieve Nadir BRDF Adjusted Reflectance (NBAR). Despite the straightforward application of the $c$-factor to individual images, a cohesive Python framework for its application across multiple S2 images and Earth System Data Cubes (ESDCs) from cloud-stored data has been lacking. Here we introduce sen2nbar, a Python package crafted to convert S2 SR data to NBAR, supporting both individual images and ESDCs derived from cloud-stored data. This package simplifies the conversion of S2 SR data to NBAR via a single function, organized into modules for efficient process management. By facilitating NBAR conversion for both SAFE files and ESDCs from SpatioTemporal Asset Catalogs (STAC), sen2nbar is developed as a flexible tool that can handle diverse data format requirements. We anticipate that sen2nbar will considerably contribute to the standardization and harmonization of S2 data, offering a robust solution for a diverse range of users across various applications. sen2nbar is an open-source tool available at https://github.com/ESDS-Leipzig/sen2nbar. | 翻訳日:2024-05-29 05:47:26 公開日:2024-05-27 |
# 1ラウンド測定による1次元量子状態の分類
Classifying One-Dimensional Quantum States Prepared by a Single Round of Measurements ( http://arxiv.org/abs/2404.16753v2 ) ライセンス: Link先を確認 | Rahul Sahay, Ruben Verresen, | (参考訳) 測定とフィードバックは、多体量子状態を作るための強力なリソースとして現れてきた。
しかし、詳細な理解は、物質の相の固定点代表に限られている。
ここでは、このことを超えて、測定から決定的に生成できる多体絡みのパターンを特徴づける。
1つの空間次元に焦点をあてて、1ラウンドの計測が唯一の絡み合う操作である場合のフレームワークを開発する。
これにより行列積状態が生成され、準備可能性のための必要かつ十分なテンソル条件が特定され、準備プロトコルが一意に決定される。
これらの条件は、準備可能な量子状態の分類と、それらの物理的制約の特徴付けの両方に使用される。
特に、準備可能な絡み合いスペクトルの豊かさと相関関数の間のトレードオフが発見され、ある量子状態を作成するためのノーゴー定理が導かれる。
より広義には、均一な対称性と変調された対称性の両方に対して、自明性、対称性の破れ、対称性の保護された位相を含む、合成プロトコルの性質と物質相を結びつける。
この研究は、準備可能な量子絡み合いに関する資源理論的な視点を提供し、量子デバイスにおいて、固定点から離れて、物質の状態をどのように体系的に生成するかを示す。
Measurements and feedback have emerged as powerful resources for creating many-body quantum states. However, a detailed understanding has been restricted to fixed-point representatives of phases of matter. Here, we go beyond this and characterize the patterns of many-body entanglement that can be deterministically created from measurement. Focusing on one spatial dimension, a framework is developed for the case where a single round of measurements is the only entangling operation. We show this creates matrix product states and identify necessary and sufficient tensor conditions for preparability, which uniquely determine the preparation protocol. We use these conditions to both classify preparable quantum states and characterize their physical constraints. In particular, we find a trade-off between the richness of the preparable entanglement spectrum and correlation functions, which leads to a no-go theorem for preparing certain quantum states. More broadly, we connect properties of the preparation protocol to the resulting phase of matter, including trivial, symmetry-breaking, and symmetry-protected topological phases -- for both uniform and modulated symmetries. This work offers a resource-theoretic perspective on preparable quantum entanglement and shows how to systematically create states of matter, away from their fixed points, in quantum devices. | 翻訳日:2024-05-29 05:47:26 公開日:2024-05-27 |
# 局所ドメインアライメントを用いたタンパク質の機能設計
Functional Protein Design with Local Domain Alignment ( http://arxiv.org/abs/2404.16866v2 ) ライセンス: Link先を確認 | Chaohao Yuan, Songyou Li, Geyan Ye, Yikun Zhang, Long-Kai Huang, Wenbing Huang, Wei Liu, Jianhua Yao, Yu Rong, | (参考訳) デ・ノボタンパク質の設計の核となる課題は、特定の条件によって誘導される特定の機能や性質を持つタンパク質を作成することである。
現在のモデルでは、機能や性質に関する間接的な条件のみを提供する構造的および進化的ガイダンスを用いてタンパク質の生成を探求している。
しかし、タンパク質のテキストアノテーション、特にタンパク質ドメインのアノテーションは、タンパク質の高レベルな機能、性質、および標的アミノ酸配列との相関を直接記述しており、タンパク質設計タスクの文脈では未解明のままである。
本稿では,タンパク質データベースから抽出したテキストアノテーションを組み込んだマルチモーダルなタンパク質設計フレームワークであるProtein-Annotation Alignment Generation (PAAG)を提案する。
具体的には、マルチレベルアライメントモジュール内でPAAGは、対応するドメインアノテーションに条件付けられた特定のドメインを含むタンパク質を明示的に生成することができ、異なる種類のアノテーションの柔軟な組み合わせで新しいタンパク質を設計することもできる。
実験の結果,PAAGのタンパク質表現が7つの予測タスクよりも優れていることが示された。
さらにPAAGは、既存のモデルと比較して6倍近い世代の成功率(亜鉛指24.7%、免疫グロブリンドメイン54.3%、免疫グロブリンドメイン8.7%)を示す。
The core challenge of de novo protein design lies in creating proteins with specific functions or properties, guided by certain conditions. Current models explore to generate protein using structural and evolutionary guidance, which only provide indirect conditions concerning functions and properties. However, textual annotations of proteins, especially the annotations for protein domains, which directly describe the protein's high-level functionalities, properties, and their correlation with target amino acid sequences, remain unexplored in the context of protein design tasks. In this paper, we propose Protein-Annotation Alignment Generation (PAAG), a multi-modality protein design framework that integrates the textual annotations extracted from protein database for controllable generation in sequence space. Specifically, within a multi-level alignment module, PAAG can explicitly generate proteins containing specific domains conditioned on the corresponding domain annotations, and can even design novel proteins with flexible combinations of different kinds of annotations. Our experimental results underscore the superiority of the aligned protein representations from PAAG over 7 prediction tasks. Furthermore, PAAG demonstrates a nearly sixfold increase in generation success rate (24.7% vs 4.7% in zinc finger, and 54.3% vs 8.7% in the immunoglobulin domain) in comparison to the existing model. | 翻訳日:2024-05-29 05:47:26 公開日:2024-05-27 |
# 逆場イジングモデルにおける反キブルズレークスケーリングの解析的導出と拡張
Analytical derivation and extension of the anti-Kibble-Zurek scaling in the transverse field Ising model ( http://arxiv.org/abs/2404.17247v2 ) ライセンス: Link先を確認 | Kaito Iwamura, Takayuki Suzuki, | (参考訳) スピン基底状態からの偏差を定量化する欠陥密度は、相転移中の非平衡ダイナミクスを特徴づける。
広く知られているKibble-Zurekスケーリングは、相転移中に欠陥密度がどのように進化するかを予測する。
しかし、ノイズによって摂動できるため、アンチ・キブル・ズールクのスケーリングに繋がる。
本研究では,ガウスホワイトノイズがランダウ・ツェナーモデルの遷移確率に及ぼす影響を解析的に検討する。
この解析を1次元逆場イジングモデルに適用し, 欠陥密度の解析的近似解を求める。
分析の結果,導入したノイズが小さい場合には,従来知られていたアンチ・キブル・ズールクスケーリングに追従するモデルが得られた。
一方、ノイズの増加に伴い、新しいスケーリング動作が出現する。
さらに、新しいスケーリングに基づいて欠陥密度を最小限に抑えるパラメータを特定し、最適化されたパラメータの既に知られているスケーリングがどれほど効果的かを検証する。
A defect density which quantifies the deviation from the spin ground state characterizes non-equilibrium dynamics during phase transitions. The widely recognized Kibble-Zurek scaling predicts how the defect density evolves during phase transitions. However, it can be perturbed by a noise, leading to the anti-Kibble-Zurek scaling. In this research, we analytically investigate the effect of Gaussian white noise on the transition probabilities of the Landau-Zener model. We apply this analysis to the one-dimensional transverse field Ising model and obtain an analytical approximate solution of the defect density. Our analysis reveals that when the introduced noise is small, the model follows the previously known anti-Kibble-Zurek scaling. On the other hand, as the noise increases, a new scaling behavior emerges. Furthermore, we identify the parameter that minimizes the defect density based on the new scaling, which allows us to verify how effective the already known scaling of the optimized parameter is. | 翻訳日:2024-05-29 05:47:26 公開日:2024-05-27 |
# Simple-RF: 単純解を用いたスパース入力放射場正規化
Simple-RF: Regularizing Sparse Input Radiance Fields with Simpler Solutions ( http://arxiv.org/abs/2404.19015v3 ) ライセンス: Link先を確認 | Nagabhushan Somraj, Sai Harsha Mupparaju, Adithyan Karanayil, Rajiv Soundararajan, | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、シーンのフォトリアリスティックなフリービューレンダリングにおいて印象的なパフォーマンスを示す。
近年のTensoRFやZipNeRFのようなNeRFの改良は、暗黙の表現を用いるNeRFと比較して、最適化とレンダリングを高速化するための明示的なモデルを採用している。
しかし、暗黙の放射場と暗示の放射場の両方は、所定のシーンにおける画像の密集サンプリングを必要とする。
スパースビューのみを使用すると、パフォーマンスは大幅に低下する。
放射界で推定される深度を監督することは、より少ない視野で効果的にトレーニングするのに役立ちます。
奥行きの監視は、古典的なアプローチか、大規模なデータセットで事前訓練されたニューラルネットワークを使って得られる。
前者はまばらな監督しか行わないが、後者は一般化の問題に悩まされることがある。
従来のアプローチとは対照的に,我々は拡張モデルを設計し,主放射場とともにそれらを訓練することにより,深度監視を学ぼうとしている。
さらに,様々な暗黙的および明示的な放射場にまたがって機能する正規化の枠組みを設計することを目指す。
これらの放射場モデルの特定の特徴がスパース・インプット・シナリオにおける観測画像に過度に適合していることが観察された。
我々のキーとなる発見は、位置符号化、分解テンソル成分の個数、ハッシュテーブルのサイズに関する放射界の能力の低下が、より単純な解を学習するためにモデルを制約し、特定の領域のより深い深さを推定することである。
このような縮小機能に基づく拡張モデルの設計により、主放射場に対するより優れた深度監視が得られる。
本研究では,前向きと360$^\circ$のシーンを含む一般的なデータセットに対して,これらの正規化を用いて,スパース入力ビューを用いて,最先端のビュー合成性能を実現する。
Neural Radiance Fields (NeRF) show impressive performance in photo-realistic free-view rendering of scenes. Recent improvements on the NeRF such as TensoRF and ZipNeRF employ explicit models for faster optimization and rendering, as compared to the NeRF that employs an implicit representation. However, both implicit and explicit radiance fields require dense sampling of images in the given scene. Their performance degrades significantly when only a sparse set of views is available. Researchers find that supervising the depth estimated by a radiance field helps train it effectively with fewer views. The depth supervision is obtained either using classical approaches or neural networks pre-trained on a large dataset. While the former may provide only sparse supervision, the latter may suffer from generalization issues. As opposed to the earlier approaches, we seek to learn the depth supervision by designing augmented models and training them along with the main radiance field. Further, we aim to design a framework of regularizations that can work across different implicit and explicit radiance fields. We observe that certain features of these radiance field models overfit to the observed images in the sparse-input scenario. Our key finding is that reducing the capability of the radiance fields with respect to positional encoding, the number of decomposed tensor components or the size of the hash table, constrains the model to learn simpler solutions, which estimate better depth in certain regions. By designing augmented models based on such reduced capabilities, we obtain better depth supervision for the main radiance field. We achieve state-of-the-art view-synthesis performance with sparse input views on popular datasets containing forward-facing and 360$^\circ$ scenes by employing the above regularizations. | 翻訳日:2024-05-29 05:37:42 公開日:2024-05-27 |
# セマンティックフォーマー:知識グラフを用いた軌道予測のための全体的かつセマンティックな交通シーン表現
SemanticFormer: Holistic and Semantic Traffic Scene Representation for Trajectory Prediction using Knowledge Graphs ( http://arxiv.org/abs/2404.19379v2 ) ライセンス: Link先を確認 | Zhigang Sun, Zixu Wang, Lavdim Halilaj, Juergen Luettin, | (参考訳) 自律運転における軌道予測は、交通参加者、道路トポロジ、交通標識、およびそれらの相互の意味的関係を含む、運転シーンのすべての関連状況の正確な表現に依存する。
この問題に注目が集まる一方で、軌道予測のほとんどのアプローチはこれらの要因を十分に考慮していない。
本稿では,セマンティックフォーマー(SemanticFormer)を提案する。セマンティックフォーマー(SemanticFormer)は,ハイブリッド手法を用いて,セマンティックトラフィックシーングラフを推論することで,マルチモーダルトラジェクトリを予測する手法である。
すなわち、エージェントが知識グラフから駆動することを許された軌跡を、複数の注意機構に基づいて新しいパイプラインで処理し、正確な軌跡を予測する。
SemanticFormerは階層的なヘテロジニアスグラフエンコーダで構成されており、エージェント間だけでなくエージェントとロード要素間の時空間およびリレーショナル情報をキャプチャする。
さらに、異なるエンコーディングを融合させ、確率で軌道を復号する予測器を含む。
最後に、改良モジュールは、許容されたトラジェクトリと速度プロファイルのメタパスを評価し、最終的な予測されたトラジェクトリを得る。
nuScenesベンチマークの評価は、いくつかのSOTA手法と比較して改善された性能を示す。
さらに、我々は知識グラフを、VectorNetとLaformerという2つのグラフベースの既存のSOTAメソッドに簡単に追加できることを実証した。
評価結果は,知識グラフを付加することにより,元の手法の性能を5%と4%向上させることを示唆している。
Trajectory prediction in autonomous driving relies on accurate representation of all relevant contexts of the driving scene, including traffic participants, road topology, traffic signs, as well as their semantic relations to each other. Despite increased attention to this issue, most approaches in trajectory prediction do not consider all of these factors sufficiently. We present SemanticFormer, an approach for predicting multimodal trajectories by reasoning over a semantic traffic scene graph using a hybrid approach. It utilizes high-level information in the form of meta-paths, i.e. trajectories on which an agent is allowed to drive from a knowledge graph which is then processed by a novel pipeline based on multiple attention mechanisms to predict accurate trajectories. SemanticFormer comprises a hierarchical heterogeneous graph encoder to capture spatio-temporal and relational information across agents as well as between agents and road elements. Further, it includes a predictor to fuse different encodings and decode trajectories with probabilities. Finally, a refinement module assesses permitted meta-paths of trajectories and speed profiles to obtain final predicted trajectories. Evaluation of the nuScenes benchmark demonstrates improved performance compared to several SOTA methods. In addition, we demonstrate that our knowledge graph can be easily added to two graph-based existing SOTA methods, namely VectorNet and Laformer, replacing their original homogeneous graphs. The evaluation results suggest that by adding our knowledge graph the performance of the original methods is enhanced by 5% and 4%, respectively. | 翻訳日:2024-05-29 05:37:42 公開日:2024-05-27 |
# MIPI 2024 夜間フレア除去の課題:方法と結果
MIPI 2024 Challenge on Nighttime Flare Removal: Methods and Results ( http://arxiv.org/abs/2404.19534v2 ) ライセンス: Link先を確認 | Yuekun Dai, Dafeng Zhang, Xiaoming Li, Zongsheng Yue, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Peiqing Yang, Zhezhu Jin, Guanqun Liu, Chen Change Loy, Lize Zhang, Shuai Liu, Chaoyu Feng, Luyang Wang, Shuan Chen, Guangqi Shao, Xiaotao Wang, Lei Lei, Qirui Yang, Qihua Cheng, Zhiqiang Xu, Yihao Liu, Huanjing Yue, Jingyu Yang, Florin-Alexandru Vasluianu, Zongwei Wu, George Ciubotariu, Radu Timofte, Zhao Zhang, Suiyi Zhao, Bo Wang, Zhichao Zuo, Yanyan Wei, Kuppa Sai Sri Teja, Jayakar Reddy A, Girish Rongali, Kaushik Mitra, Zhihao Ma, Yongxu Liu, Wanying Zhang, Wei Shang, Yuhong He, Long Peng, Zhongxin Yu, Shaofei Luo, Jian Wang, Yuqi Miao, Baiang Li, Gang Wei, Rakshank Verma, Ritik Maheshwari, Rahul Tekchandani, Praful Hambarde, Satya Narayan Tazi, Santosh Kumar Vipparthi, Subrahmanyam Murala, Haopeng Zhang, Yingli Hou, Mingde Yao, Levin M S, Aniruth Sundararajan, Hari Kumar A, | (参考訳) モバイルプラットフォームでの計算写真や画像の需要が増大し、カメラシステムにおける高度な画像センサと新しいアルゴリズムの広範な開発と統合がもたらされた。
しかし、研究のための高品質なデータの不足と、産業や学界からの深い見解交換の機会は、モバイル・インテリジェント・フォトグラフィー・イメージング(MIPI)の開発を妨げている。
我々は,ECCV 2022とCVPR 2023で行われたMIPIワークショップの成果に基づいて,新しい画像センサと撮像アルゴリズムに着目した3つのトラックを含む第3回MIPIチャレンジを紹介した。
本稿では,MIPI 2024のナイトタイムフレア除去トラックについて概説する。
合計で170人の参加者が登録され、最終テストフェーズで14チームが結果を提出した。
この課題で開発されたソリューションは、夜間フレア除去における最先端のパフォーマンスを達成した。
この課題の詳細とデータセットへのリンクはhttps://mipi-challenge.org/MIPI2024/で確認できる。
The increasing demand for computational photography and imaging on mobile platforms has led to the widespread development and integration of advanced image sensors with novel algorithms in camera systems. However, the scarcity of high-quality data for research and the rare opportunity for in-depth exchange of views from industry and academia constrain the development of mobile intelligent photography and imaging (MIPI). Building on the achievements of the previous MIPI Workshops held at ECCV 2022 and CVPR 2023, we introduce our third MIPI challenge including three tracks focusing on novel image sensors and imaging algorithms. In this paper, we summarize and review the Nighttime Flare Removal track on MIPI 2024. In total, 170 participants were successfully registered, and 14 teams submitted results in the final testing phase. The developed solutions in this challenge achieved state-of-the-art performance on Nighttime Flare Removal. More details of this challenge and the link to the dataset can be found at https://mipi-challenge.org/MIPI2024/. | 翻訳日:2024-05-29 05:37:42 公開日:2024-05-27 |
# パーソナライズと選好集約による不均一フィードバックからのRLHF
RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation ( http://arxiv.org/abs/2405.00254v2 ) ライセンス: Link先を確認 | Chanwoo Park, Mingyang Liu, Dingwen Kong, Kaiqing Zhang, Asuman Ozdaglar, | (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法であり、近年、微調整された大規模言語モデルで顕著な成功を収めている。
既存のRLHFパラダイムの多くは、人間の嗜好は比較的均質であり、単一の報酬モデルで符号化できるという前提を定めている。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
具体的には、パーソナライズベース1とアグリゲーションベース1の2つの手法を原則として、異種人のフィードバックに対処する枠組みを提案する。
前者に対しては,表現学習とクラスタリングに基づく2つのアプローチを提案し,偏差(嗜好の不均一性による)と分散(パーソナライズによる各モデルの学習に使用するデータが少ないため)をトレードオフする複数の報酬モデルを学習する。
次に、両方のアプローチに対して、サンプルの複雑性を保証する。
後者については,人間からの多様で誠実な嗜好を注意深く集約することにより,既存のRLHFパラダイムにすでに導入されている単一モデルフレームワークの遵守を目指す。
報奨と選好のアグリゲーションに基づく2つのアプローチを提案する。前者は実用主義とレキシミンの両アプローチを用いて、個々の報酬モデルを集約し、複雑さの保証をサンプルとし、後者は確率論的意見の形で直接人間のフィードバックを集約する。
また,確率-オピニオン-フィードバックモデルの下では,不合理なフィードバックで集約された嗜好をバイアスし操作する戦略的人間ラベル作成者を扱うアプローチも開発している。
本手法は,メカニズム設計の考え方に基づいて,社会福祉機能を最大化する誘導集約規則を用いて,真に好意的な報告を確実にする。
Reinforcement learning from human feedback (RLHF) has been an effective technique for aligning AI systems with human values, with remarkable successes in fine-tuning large-language models recently. Most existing RLHF paradigms make the underlying assumption that human preferences are relatively homogeneous, and can be encoded by a single reward model. In this paper, we focus on addressing the issues due to the inherent heterogeneity in human preferences, as well as their potential strategic behavior in providing feedback. Specifically, we propose two frameworks to address heterogeneous human feedback in principled ways: personalization-based one and aggregation-based one. For the former, we propose two approaches based on representation learning and clustering, respectively, for learning multiple reward models that trades off the bias (due to preference heterogeneity) and variance (due to the use of fewer data for learning each model by personalization). We then establish sample complexity guarantees for both approaches. For the latter, we aim to adhere to the single-model framework, as already deployed in the current RLHF paradigm, by carefully aggregating diverse and truthful preferences from humans. We propose two approaches based on reward and preference aggregation, respectively: the former utilizes both utilitarianism and Leximin approaches to aggregate individual reward models, with sample complexity guarantees; the latter directly aggregates the human feedback in the form of probabilistic opinions. Under the probabilistic-opinion-feedback model, we also develop an approach to handle strategic human labelers who may bias and manipulate the aggregated preferences with untruthful feedback. Based on the ideas in mechanism design, our approach ensures truthful preference reporting, with the induced aggregation rule maximizing social welfare functions. | 翻訳日:2024-05-29 05:37:42 公開日:2024-05-27 |
# マトリックス製品の成長--最速、平均、総じて
Growth in products of matrices: fastest, average, and generic ( http://arxiv.org/abs/2405.00610v4 ) ライセンス: Link先を確認 | Vladimir Shpilrain, | (参考訳) この論文で私たちが考慮する問題は次のとおりである。
A と B を 2x2 行列(実数)とする。
w(A, B) を長さ n の語とする。
w(A, B) を行列の積として評価した後、2x2 行列を W と呼びます。n の関数として長さ n のすべての w(A, B) 上で W の最も大きい(絶対値による)入力は何か?
各行列が A または B で確率 0.5 であるような n 行列のランダム積における最大の(絶対値による)エントリーの絶対値は何でしょうか。
そのようなランダムな行列積に対するリャプノフ指数は何か。
これらの質問の第一に部分的な回答を与え、第二に本質的に完全な回答を与える。
第3の質問(三つの中で最も難しい)に対して、行列 A と B のすべての成分が非負である場合、リャプノフ指数上の上限を生成できる非常に単純な方法を提供する。
The problems that we consider in this paper are as follows. Let A and B be 2x2 matrices (over reals). Let w(A, B) be a word of length n. After evaluating w(A, B) as a product of matrices, we get a 2x2 matrix, call it W. What is the largest (by the absolute value) possible entry of W, over all w(A, B) of length n, as a function of n? What is the expected absolute value of the largest (by the absolute value) entry in a random product of n matrices, where each matrix is A or B with probability 0.5? What is the Lyapunov exponent for a random matrix product like that? We give partial answer to the first of these questions and an essentially complete answer to the second question. For the third question (the most difficult of the three), we offer a very simple method to produce an upper bound on the Lyapunov exponent in the case where all entries of the matrices A and B are nonnegative. | 翻訳日:2024-05-29 05:37:42 公開日:2024-05-27 |
# 限定的な感性属性を持つフェアレコメンデーション:分散ロバスト最適化アプローチ
Fair Recommendations with Limited Sensitive Attributes: A Distributionally Robust Optimization Approach ( http://arxiv.org/abs/2405.01063v2 ) ライセンス: Link先を確認 | Tianhao Shi, Yang Zhang, Jizhi Zhang, Fuli Feng, Xiangnan He, | (参考訳) 求職や電子商取引など,様々な分野においてレコメンダシステムは不可欠であるため,ユーザに対して適切なレコメンデーションを提供することが必須条件となる。
推薦システムにおける公平性を高める以前のアプローチでは、プライバシの懸念やそれらの属性をキャプチャする不十分な手段のために、すべての機密属性が利用可能になることが予想される。
実際には、これらのアプローチの有効性は限られており、機密属性情報に制限されたフェアネスの促進方法の検討を迫られている。
この目標に向けて、欠落した機密属性を再構築することが重要である。
しかし, 現実の属性復元問題や法的規制が複雑化しているため, 復元ミスは避けられない。
そこで我々は,再構成誤りに対して堅牢な公平な学習手法を追求する。
この目的のために、再構成された属性ではなく、欠落した属性の潜在確率分布に対する最悪の不公平性を最小化し、再構成エラーの影響を考慮に入れた分散ロバスト公正最適化(DRFO)を提案する。
提案手法は,限られた機密属性しかアクセスできない場合に,提案手法が推薦システムの公平性を効果的に確保できることを示すため,理論的かつ実証的な証拠を提供する。
As recommender systems are indispensable in various domains such as job searching and e-commerce, providing equitable recommendations to users with different sensitive attributes becomes an imperative requirement. Prior approaches for enhancing fairness in recommender systems presume the availability of all sensitive attributes, which can be difficult to obtain due to privacy concerns or inadequate means of capturing these attributes. In practice, the efficacy of these approaches is limited, pushing us to investigate ways of promoting fairness with limited sensitive attribute information. Toward this goal, it is important to reconstruct missing sensitive attributes. Nevertheless, reconstruction errors are inevitable due to the complexity of real-world sensitive attribute reconstruction problems and legal regulations. Thus, we pursue fair learning methods that are robust to reconstruction errors. To this end, we propose Distributionally Robust Fair Optimization (DRFO), which minimizes the worst-case unfairness over all potential probability distributions of missing sensitive attributes instead of the reconstructed one to account for the impact of the reconstruction errors. We provide theoretical and empirical evidence to demonstrate that our method can effectively ensure fairness in recommender systems when only limited sensitive attributes are accessible. | 翻訳日:2024-05-29 05:37:42 公開日:2024-05-27 |
# WateRF:著作権保護分野におけるロバストな透かし
WateRF: Robust Watermarks in Radiance Fields for Protection of Copyrights ( http://arxiv.org/abs/2405.02066v3 ) ライセンス: Link先を確認 | Youngdong Jang, Dong In Lee, MinHyuk Jang, Jong Wook Kim, Feng Yang, Sangpil Kim, | (参考訳) NeRF(Neural Radiance Fields)研究の進歩は、様々な領域に広範な応用をもたらすが、著作権保護はまだ深く研究されていない。
近年、NeRFベースの3D表現を安全に展開するための重要なソリューションの1つとして、NeRF透かしが検討されている。
しかし、既存の手法は暗黙的あるいは明示的なNeRF表現にのみ適用するように設計されている。
本研究では,NeRFの両表現に適用可能な革新的な透かし手法を提案する。
これは、NeRFを微調整してバイナリメッセージをレンダリングプロセスに埋め込むことによって実現される。
本稿では,NeRF空間における離散ウェーブレット変換を透かしに利用することを提案する。
さらに、遅延バックプロパゲーション手法を採用し、パッチワイズ損失と組み合わせることで、最小トレードオフでレンダリング品質とビット精度を向上させる。
提案手法は,2次元レンダリング画像に埋め込まれた透かしの容量,可視性,堅牢性の3つの異なる側面で評価する。
本手法は、比較した最先端手法よりも高速なトレーニング速度で最先端性能を実現する。
The advances in the Neural Radiance Fields (NeRF) research offer extensive applications in diverse domains, but protecting their copyrights has not yet been researched in depth. Recently, NeRF watermarking has been considered one of the pivotal solutions for safely deploying NeRF-based 3D representations. However, existing methods are designed to apply only to implicit or explicit NeRF representations. In this work, we introduce an innovative watermarking method that can be employed in both representations of NeRF. This is achieved by fine-tuning NeRF to embed binary messages in the rendering process. In detail, we propose utilizing the discrete wavelet transform in the NeRF space for watermarking. Furthermore, we adopt a deferred back-propagation technique and introduce a combination with the patch-wise loss to improve rendering quality and bit accuracy with minimum trade-offs. We evaluate our method in three different aspects: capacity, invisibility, and robustness of the embedded watermarks in the 2D-rendered images. Our method achieves state-of-the-art performance with faster training speed over the compared state-of-the-art methods. | 翻訳日:2024-05-29 05:37:42 公開日:2024-05-27 |
# TimeMIL: 時間認識型マルチインスタンス学習による多変量時系列分類の改善
TimeMIL: Advancing Multivariate Time Series Classification via a Time-aware Multiple Instance Learning ( http://arxiv.org/abs/2405.03140v2 ) ライセンス: Link先を確認 | Xiwen Chen, Peijie Qiu, Wenhui Zhu, Huayu Li, Hao Wang, Aristeidis Sotiras, Yalin Wang, Abolfazl Razi, | (参考訳) 変換器や畳み込みニューラルネットワークを含むディープニューラルネットワークは、多変量時系列分類(MTSC)を大幅に改善した。
しかし、これらの手法はしばしば教師あり学習に依存しており、時系列データ(ECGの疾患関連異常点など)におけるパターンの空間性と局所性を十分に考慮していない。
この課題に対処するため、MTSCを弱教師付き問題として形式的に再構築し、時系列内の関心のパターンとモデリング時間依存性のより優れたローカライズのための新しいマルチインスタンスラーニング(MIL)フレームワークを導入する。
我々の新しいアプローチであるTimeMILは、タイムアウェアなMILプール内で時間的相関と順序を定式化し、トークン化トランスフォーマーと特別な学習可能なウェーブレット位置トークンを活用する。
提案手法は26種類の最先端手法を超越し,MTSCにおける弱教師付きTimeMILの有効性を実証した。
コードはhttps://github.com/xiwenc1/TimeMILで入手できる。
Deep neural networks, including transformers and convolutional neural networks, have significantly improved multivariate time series classification (MTSC). However, these methods often rely on supervised learning, which does not fully account for the sparsity and locality of patterns in time series data (e.g., diseases-related anomalous points in ECG). To address this challenge, we formally reformulate MTSC as a weakly supervised problem, introducing a novel multiple-instance learning (MIL) framework for better localization of patterns of interest and modeling time dependencies within time series. Our novel approach, TimeMIL, formulates the temporal correlation and ordering within a time-aware MIL pooling, leveraging a tokenized transformer with a specialized learnable wavelet positional token. The proposed method surpassed 26 recent state-of-the-art methods, underscoring the effectiveness of the weakly supervised TimeMIL in MTSC. The code will be available at https://github.com/xiwenc1/TimeMIL. | 翻訳日:2024-05-29 05:37:42 公開日:2024-05-27 |
# バグの多い敵の例の防御を切断する:コードの1行の修正がSabreを破る
Cutting through buggy adversarial example defenses: fixing 1 line of code breaks Sabre ( http://arxiv.org/abs/2405.03672v2 ) ライセンス: Link先を確認 | Nicholas Carlini, | (参考訳) SabreはIEEE S&P 2024で受け入れられた敵の例に対する防御である。
まず,勾配マスキングの明確な兆候を示す評価の重大な欠陥を明らかにする。
次に、この勾配マスキングの原因を示す:元の評価コードにバグがある。
元のリポジトリにある1行のコードを修正することで、Sabreの堅牢な精度を0%に削減します。
これに対応して、著者らは防御を修正し、原論文に記載されていない新しい防御部品を導入する。
しかし、この修正には2つ目のバグが含まれている。もう1行のコードを変更することで、ロバストな精度がベースラインレベル以下に低下する。
オンラインで論文の最初のバージョンをリリースした後、著者らは防衛に別の変更を加えました。攻撃中に1行のコードをコメントすることで、ロバストな精度を再び0%に削減します。
Sabre is a defense to adversarial examples that was accepted at IEEE S&P 2024. We first reveal significant flaws in the evaluation that point to clear signs of gradient masking. We then show the cause of this gradient masking: a bug in the original evaluation code. By fixing a single line of code in the original repository, we reduce Sabre's robust accuracy to 0%. In response to this, the authors modify the defense and introduce a new defense component not described in the original paper. But this fix contains a second bug; modifying one more line of code reduces robust accuracy to below baseline levels. After we released the first version of our paper online, the authors introduced another change to the defense; by commenting out one line of code during attack we reduce the robust accuracy to 0% again. | 翻訳日:2024-05-29 05:27:58 公開日:2024-05-27 |
# 頭部の傾き:隠された空間的不等式を活性化する
Tilt your Head: Activating the Hidden Spatial-Invariance of Classifiers ( http://arxiv.org/abs/2405.03730v2 ) ライセンス: Link先を確認 | Johann Schmidt, Sebastian Stober, | (参考訳) ディープニューラルネットワークは、日々の生活の多くの領域に適用されている。
しかし、空間的に変換された入力信号に頑健に対処するなど、本質的な能力は依然として欠如している。
この厳密性問題を緩和するためのアプローチは2つの経路に限られる: モデルはサンプルの変動(データ拡張)の増加によって暗黙的に規則化されるか、ハードコードされた帰納バイアスによって明示的に制約される。
前者の制限要因はデータ空間のサイズであり、十分なサンプルカバレッジを引き出すことができる。
後者は、可能なシナリオごとにそのような帰納バイアスを開発するのに必要なエンジニアリングの労力によって制限される。
その代わり、私たちは人間の行動からインスピレーションを受けます。
本稿では,ニューラルネットの推論過程をエミュレートする新しい手法を提案する。
これは、並列エネルギーに基づく評価を用いて、推論中にスパース化逆変換木をトラバースすることで達成される。
Inverse Transformation Search (ITS) と呼ばれる提案した推論アルゴリズムは、モデルに依存しず、空間的に変換された入力にゼロショット擬似不変性を持たせる。
合成画像Netテストセットを含む複数のベンチマークデータセットを用いて,本手法の評価を行った。
ITSは、ゼロショットテストのシナリオで使用されるベースラインよりも優れています。
Deep neural networks are applied in more and more areas of everyday life. However, they still lack essential abilities, such as robustly dealing with spatially transformed input signals. Approaches to mitigate this severe robustness issue are limited to two pathways: Either models are implicitly regularised by increased sample variability (data augmentation) or explicitly constrained by hard-coded inductive biases. The limiting factor of the former is the size of the data space, which renders sufficient sample coverage intractable. The latter is limited by the engineering effort required to develop such inductive biases for every possible scenario. Instead, we take inspiration from human behaviour, where percepts are modified by mental or physical actions during inference. We propose a novel technique to emulate such an inference process for neural nets. This is achieved by traversing a sparsified inverse transformation tree during inference using parallel energy-based evaluations. Our proposed inference algorithm, called Inverse Transformation Search (ITS), is model-agnostic and equips the model with zero-shot pseudo-invariance to spatially transformed inputs. We evaluated our method on several benchmark datasets, including a synthesised ImageNet test set. ITS outperforms the utilised baselines on all zero-shot test scenarios. | 翻訳日:2024-05-29 05:27:58 公開日:2024-05-27 |
# パラメータフリー最適化の安定性に向けて
Towards Stability of Parameter-free Optimization ( http://arxiv.org/abs/2405.04376v3 ) ライセンス: Link先を確認 | Yijiang Pang, Shuyang Yu, Bao Hoang, Jiayu Zhou, | (参考訳) ハイパーパラメータチューニング、特に適応的勾配学習法における適切な学習率の選択は、依然として課題である。
この課題に対処するために,手動チューニングなしで多様な最適化問題に自動的に適応する新しいパラメータフリーオプティマイザである \textsc{AdamG} を提案する。
AdaGrad-Normアルゴリズムは、AdaGrad-Normがチューニング自由収束を保ち、様々な最適化シナリオで期待される最適ステップサイズを近似するのに役立つと期待されている。
そこで本研究では,従来の性能基準に加えてパラメータフリーオプティマイザの有効性を総合的に評価する,新しい評価基準である「textit{reliability}」を提案する。
実験の結果,他のパラメータフリーのベースラインと比較すると,さまざまな最適化タスクを手作業で調整した学習率を用いて,Adamと一貫して同等の優れた性能が得られることがわかった。
Hyperparameter tuning, particularly the selection of an appropriate learning rate in adaptive gradient training methods, remains a challenge. To tackle this challenge, in this paper, we propose a novel parameter-free optimizer, \textsc{AdamG} (Adam with the golden step size), designed to automatically adapt to diverse optimization problems without manual tuning. The core technique underlying \textsc{AdamG} is our golden step size derived for the AdaGrad-Norm algorithm, which is expected to help AdaGrad-Norm preserve the tuning-free convergence and approximate the optimal step size in expectation w.r.t. various optimization scenarios. To better evaluate tuning-free performance, we propose a novel evaluation criterion, \textit{reliability}, to comprehensively assess the efficacy of parameter-free optimizers in addition to classical performance criteria. Empirical results demonstrate that compared with other parameter-free baselines, \textsc{AdamG} achieves superior performance, which is consistently on par with Adam using a manually tuned learning rate across various optimization tasks. | 翻訳日:2024-05-29 05:27:58 公開日:2024-05-27 |
# デコヒーレンス効果を有する宇宙ベル試験
Cosmological Bell Tests with Decoherence Effects ( http://arxiv.org/abs/2405.07141v2 ) ライセンス: Link先を確認 | Chon Man Sou, Junqi Wang, Yi Wang, | (参考訳) インフレーション宇宙は粒子対を作り、運動量保存のためにその瞬間に絡み合っている。
ゆらぎのモータを含むオペレータは、Gour-Khanna-Mann-Revzen (GKMR) のような擬似スピン演算子に書き換えることができる。
これらの擬スピン作用素を利用することで、宇宙的ベルの不等式を定式化することができる。
これらのベルの不等式に違反することは、原始揺らぎの量子的性質を示している。
本研究では,原曲率摂動に着目した。
曲率摂動は重力から生じるため、その作用はギボンズ・ホーキング・ヨーク境界項を含む。
線形摂動の初期条件の選択における境界項の役割を明らかにする。
その後、宇宙論的摂動の相互作用(バルクおよび境界相互作用項を含む)を進め、デコヒーレンス効果を導入する。
これらのデコヒーレンス効果はベル演算子の期待値を変化させ、ベルの不等式を徐々に復元する。
この過程を 'Bell test curve'' で記述し、宇宙論的摂動の量子起源をテストするための5 e-fold の窓を提供する。
また,ベル試験曲線からデコヒーレンス率の情報と一次相互作用の構造を抽出する可能性についても検討した。
The inflationary universe creates particle pairs, which are entangled in their momenta due to momentum conservation. Operators involving the momenta of the fluctuations can be rewritten into pseudo-spin operators, such as the Gour-Khanna-Mann-Revzen (GKMR) pseudo-spin. Making use of these pseudo-spin operators, cosmological Bell inequalities can be formulated. The violation of these Bell inequalities indicates the quantum nature of primordial fluctuations. In this work, we focus on primordial curvature perturbations. Since curvature perturbations arise from gravity, their action includes the Gibbons-Hawking-York boundary term. We clarify the role of the boundary term in selecting suitable initial conditions for linear perturbations. After that, we proceed to the interactions of cosmological perturbations, including the bulk and boundary interaction terms, which introduce decoherence effects. These decoherence effects change the expectation value of the Bell operator, and gradually restore the Bell inequality. We describe this process by a ``Bell test curve'', which offers a window around 5 e-folds for testing the quantum origin of cosmological perturbations. We also explore the possibility of extracting the information of the decoherence rate and the structure of primordial interactions from the Bell test curve. | 翻訳日:2024-05-29 05:27:58 公開日:2024-05-27 |
# MAML MOT:メタラーニングに基づく複数物体追跡
MAML MOT: Multiple Object Tracking based on Meta-Learning ( http://arxiv.org/abs/2405.07272v2 ) ライセンス: Link先を確認 | Jiayi Chen, Chunhua Deng, | (参考訳) 映像解析技術の進歩に伴い、歩行者を含む複雑な場面における多目的追跡(MOT)問題の重要性が高まっている。
この課題は主に、歩行者検出と再識別という2つの重要なタスクを含む。
近年,歩行者検出タスクにおいて顕著な進歩がみられてきたが,再識別タスクの有効性の向上は引き続き課題である。
この困難は、多目的追跡データセットにおける多数の歩行者サンプルと、個々のサンプルの不足から生じる。
近年,メタ学習技術の急速な進歩により,メタ学習に基づくマルチオブジェクト追跡のトレーニング手法であるMAML MOTを導入する。
このアプローチは,メタラーニングの迅速な学習能力を活用して,歩行者再識別作業におけるサンプル不足問題に対処し,モデルの一般化性能と堅牢性を向上させることを目的とする。
実験の結果,提案手法はMOTチャレンジの主流データセットに対して高い精度を実現することが示された。
これは、歩行者多目的追跡の分野の研究のための新しい視点と解決策を提供する。
With the advancement of video analysis technology, the multi-object tracking (MOT) problem in complex scenes involving pedestrians is gaining increasing importance. This challenge primarily involves two key tasks: pedestrian detection and re-identification. While significant progress has been achieved in pedestrian detection tasks in recent years, enhancing the effectiveness of re-identification tasks remains a persistent challenge. This difficulty arises from the large total number of pedestrian samples in multi-object tracking datasets and the scarcity of individual instance samples. Motivated by recent rapid advancements in meta-learning techniques, we introduce MAML MOT, a meta-learning-based training approach for multi-object tracking. This approach leverages the rapid learning capability of meta-learning to tackle the issue of sample scarcity in pedestrian re-identification tasks, aiming to improve the model's generalization performance and robustness. Experimental results demonstrate that the proposed method achieves high accuracy on mainstream datasets in the MOT Challenge. This offers new perspectives and solutions for research in the field of pedestrian multi-object tracking. | 翻訳日:2024-05-29 05:27:58 公開日:2024-05-27 |
# ALPINE: 言語モデルにおける自己回帰学習の計画能力の実現
ALPINE: Unveiling the Planning Capability of Autoregressive Learning in Language Models ( http://arxiv.org/abs/2405.09220v2 ) ライセンス: Link先を確認 | Siwei Wang, Yifei Shen, Shi Feng, Haoran Sun, Shang-Hua Teng, Wei Chen, | (参考訳) 本稿では, NEtworks における "Autoregressive Learning for Planning" の略である ALPINE プロジェクトについて述べる。
プロジェクトALPINEは、自己回帰学習機構を通じてトランスフォーマーに基づく言語モデルにおける計画能力の発達に関する理論的研究を開始し、計画能力の潜在的な限界を特定することを目的としている。
本研究では,特定のソースノードから指定されたターゲットノードへの有効なパスを生成することを目的とするネットワークパスファイリングタスクとして,プランニングを抽象化する。
表現性の観点からは,トランスフォーマーはその重みに隣接行列と到達行列を埋め込むことでパスフィニングを実行することができることを示す。
変圧器の勾配に基づく学習力学の理論解析により,変圧器は隣接行列と到達可能性行列の限定形式の両方を学習できることがわかった。
これらの理論的洞察は実験を通じて検証され、トランスフォーマーが実際に隣接行列と不完全到達性行列を学習し、理論解析で得られた予測と一致することを示した。
さらに、私たちの方法論をBlocksworldと呼ばれる現実世界の計画ベンチマークに適用する場合、私たちの観察は一貫しています。
我々の理論的および実証的な分析により、パスフィニングにおけるトランスフォーマーの潜在的な限界が明らかにされる: トランジケーションによって到達可能性の関係を識別できないため、パスを生成するために経路の連結が必要な場合、失敗する。
まとめると、我々の研究は自己回帰学習の内部メカニズムがネットワークにおけるプランニングをどのように実現しているかについて、新たな光を当てた。
本研究は,他の領域における一般的な計画能力の理解に寄与する可能性がある。
In this paper, we present the findings of our Project ALPINE which stands for ``Autoregressive Learning for Planning In NEtworks." Project ALPINE initiates a theoretical investigation into the development of planning capabilities in Transformer-based language models through their autoregressive learning mechanisms, aiming to identify any potential limitations in their planning abilities. We abstract planning as a network path-finding task where the objective is to generate a valid path from a specified source node to a designated target node. In terms of expressiveness, we show that the Transformer is capable of executing path-finding by embedding the adjacency and reachability matrices within its weights. Our theoretical analysis of the gradient-based learning dynamic of the Transformer reveals that the Transformer is capable of learning both the adjacency matrix and a limited form of the reachability matrix. These theoretical insights are then validated through experiments, which demonstrate that the Transformer indeed learns the adjacency matrix and an incomplete reachability matrix, which aligns with the predictions made in our theoretical analysis. Additionally, when applying our methodology to a real-world planning benchmark, called Blocksworld, our observations remain consistent. Our theoretical and empirical analyses further unveil a potential limitation of Transformer in path-finding: it cannot identify reachability relationships through transitivity, and thus would fail when path concatenation is needed to generate a path. In summary, our findings shed new light on how the internal mechanisms of autoregressive learning enable planning in networks. This study may contribute to our understanding of the general planning capabilities in other related domains. | 翻訳日:2024-05-29 05:27:58 公開日:2024-05-27 |
# サイズ不変性:不均衡な多目的有価物検出のためのメトリクスと損失を再考する
Size-invariance Matters: Rethinking Metrics and Losses for Imbalanced Multi-object Salient Object Detection ( http://arxiv.org/abs/2405.09782v2 ) ライセンス: Link先を確認 | Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Runmin Cong, Xiaochun Cao, Qingming Huang, | (参考訳) 本稿では,SOD(Salient Object Detection)における評価指標のサイズ差について検討する。
現在のメトリクスはサイズに敏感で、大きなオブジェクトが集中しており、小さなメトリクスは無視される傾向があります。
サイズに基づくバイアスは、追加のセマンティック情報なしでは不適切であるため、評価はサイズ不変であるべきだと論じる。
そこで本研究では,それぞれが個別に評価する汎用的な手法を提案し,その結果を組み合わせて,不均衡を効果的に緩和する。
さらに、この目標に適した最適化フレームワークを開発し、異なる大きさのオブジェクトの検出において、大幅な改善を実現した。
理論的には、新しい指標の有効性を示す証拠を提供し、SODの一般化分析を示す。
大規模な実験により,本手法の有効性が示された。
コードはhttps://github.com/Ferry-Li/SI-SOD.comで公開されている。
This paper explores the size-invariance of evaluation metrics in Salient Object Detection (SOD), especially when multiple targets of diverse sizes co-exist in the same image. We observe that current metrics are size-sensitive, where larger objects are focused, and smaller ones tend to be ignored. We argue that the evaluation should be size-invariant because bias based on size is unjustified without additional semantic information. In pursuit of this, we propose a generic approach that evaluates each salient object separately and then combines the results, effectively alleviating the imbalance. We further develop an optimization framework tailored to this goal, achieving considerable improvements in detecting objects of different sizes. Theoretically, we provide evidence supporting the validity of our new metrics and present the generalization analysis of SOD. Extensive experiments demonstrate the effectiveness of our method. The code is available at https://github.com/Ferry-Li/SI-SOD. | 翻訳日:2024-05-29 05:27:58 公開日:2024-05-27 |
# 軽量情報分割ネットワークによる赤外画像超解像
Infrared Image Super-Resolution via Lightweight Information Split Network ( http://arxiv.org/abs/2405.10561v3 ) ライセンス: Link先を確認 | Shijie Liu, Kang Yan, Feiwei Qin, Changmiao Wang, Ruiquan Ge, Kai Zhang, Jie Huang, Yong Peng, Jin Cao, | (参考訳) 単一画像超解像(Single Image Super- resolution, SR)は、分解能の低い高解像度画像から高解像度画像を再構成することを目的とした、確立された画素レベルの視覚タスクである。
SRにディープニューラルネットワークを活用することで達成された顕著な進歩にもかかわらず、既存のディープラーニングアーキテクチャの多くは、多数のレイヤを特徴としており、高い計算複雑性と実質的なメモリ要求につながっている。
これらの問題は赤外線画像SRの文脈で特に顕著になり、赤外線デバイスは厳しい記憶と計算の制約があることが多い。
これらの課題を軽減するため,LISN(Lightweight Information Split Network)と呼ばれる,新しい,効率的で高精度な単一赤外線画像SRモデルを導入する。
LISNは、浅部特徴抽出、深部特徴抽出、高密度特徴融合、高分解能赤外線画像再構成の4つの主要成分からなる。
このモデルにおける重要な革新は、深い特徴抽出のための軽量情報分割ブロック(LISB)の導入である。
LISBは、階層的特徴を抽出するシーケンシャルなプロセスを採用し、検討中の特徴の関連性に基づいて集約される。
チャネル分割とシフト操作を統合することで、LISBはSR性能の向上と軽量フレームワークの最適バランスを達成できる。
総合的な実験的評価により,提案したLISNは,SR品質とモデル複雑度の両方の観点から,現代の最先端手法よりも優れた性能を達成し,資源制約赤外線イメージングアプリケーションにおける実用的展開の有効性が確認された。
Single image super-resolution (SR) is an established pixel-level vision task aimed at reconstructing a high-resolution image from its degraded low-resolution counterpart. Despite the notable advancements achieved by leveraging deep neural networks for SR, most existing deep learning architectures feature an extensive number of layers, leading to high computational complexity and substantial memory demands. These issues become particularly pronounced in the context of infrared image SR, where infrared devices often have stringent storage and computational constraints. To mitigate these challenges, we introduce a novel, efficient, and precise single infrared image SR model, termed the Lightweight Information Split Network (LISN). The LISN comprises four main components: shallow feature extraction, deep feature extraction, dense feature fusion, and high-resolution infrared image reconstruction. A key innovation within this model is the introduction of the Lightweight Information Split Block (LISB) for deep feature extraction. The LISB employs a sequential process to extract hierarchical features, which are then aggregated based on the relevance of the features under consideration. By integrating channel splitting and shift operations, the LISB successfully strikes an optimal balance between enhanced SR performance and a lightweight framework. Comprehensive experimental evaluations reveal that the proposed LISN achieves superior performance over contemporary state-of-the-art methods in terms of both SR quality and model complexity, affirming its efficacy for practical deployment in resource-constrained infrared imaging applications. | 翻訳日:2024-05-29 05:27:58 公開日:2024-05-27 |
# 急性心筋梗塞における心筋分画とT2定量の同時学習
Simultaneous Deep Learning of Myocardium Segmentation and T2 Quantification for Acute Myocardial Infarction MRI ( http://arxiv.org/abs/2405.10570v2 ) ライセンス: Link先を確認 | Yirong Zhou, Chengyan Wang, Mengtian Lu, Kunyuan Guo, Zi Wang, Dan Ruan, Rui Guo, Peijun Zhao, Jianhua Wang, Naiming Wu, Jianzhong Lin, Yinyin Chen, Hang Jin, Lianxin Xie, Lilan Wu, Liuhong Zhu, Jianjun Zhou, Congbo Cai, He Wang, Xiaobo Qu, | (参考訳) 心臓磁気共鳴画像(MRI)解析では,同時心筋セグメンテーションとT2定量化が心筋の病態を評価する上で重要である。
既存の手法はしばしばこれらのタスクを個別に処理し、相乗的ポテンシャルを制限する。
そこで本研究では,Transformer と Convolutional Neural Network (CNN) を統合したデュアルタスクネットワークであるSQNetを提案する。
SQNetは、定量分析のためのT2-refine fusion decoderを備え、Transformerのグローバル機能を活用し、精度を高めるために複数のローカルリージョンを監督するセグメンテーションデコーダを備えている。
タイトな結合モジュールは、CNNとTransformerブランチの機能を調整してヒューズし、SQNetが心筋領域に集中できるようにする。
健康管理 (HC) と急性心筋梗塞 (AMI) の評価では, 最先端の方法 (87.7/87.9) と比較して, セグメンテーションダイススコア (89.3/89.2) が優れている。
T2量子化は強い線形相関(ピアソン係数: 0.84/0.93)をHC/AMIのラベル値で生成し、正確なマッピングを示す。
放射線学者による評価では、SQNetの最先端の画像品質スコア(セグメント化は4.60/4.58、T2量子化は4.32/4.42)は最先端の手法(セグメント化は4.50/4.44、T2量子化は3.59/4.37)よりも優れている。
これにより、SQNetは正確な同時セグメンテーションと定量化を提供し、AMIのような心臓病の診断を強化する。
In cardiac Magnetic Resonance Imaging (MRI) analysis, simultaneous myocardial segmentation and T2 quantification are crucial for assessing myocardial pathologies. Existing methods often address these tasks separately, limiting their synergistic potential. To address this, we propose SQNet, a dual-task network integrating Transformer and Convolutional Neural Network (CNN) components. SQNet features a T2-refine fusion decoder for quantitative analysis, leveraging global features from the Transformer, and a segmentation decoder with multiple local region supervision for enhanced accuracy. A tight coupling module aligns and fuses CNN and Transformer branch features, enabling SQNet to focus on myocardium regions. Evaluation on healthy controls (HC) and acute myocardial infarction patients (AMI) demonstrates superior segmentation dice scores (89.3/89.2) compared to state-of-the-art methods (87.7/87.9). T2 quantification yields strong linear correlations (Pearson coefficients: 0.84/0.93) with label values for HC/AMI, indicating accurate mapping. Radiologist evaluations confirm SQNet's superior image quality scores (4.60/4.58 for segmentation, 4.32/4.42 for T2 quantification) over state-of-the-art methods (4.50/4.44 for segmentation, 3.59/4.37 for T2 quantification). SQNet thus offers accurate simultaneous segmentation and quantification, enhancing cardiac disease diagnosis, such as AMI. | 翻訳日:2024-05-29 03:28:24 公開日:2024-05-27 |
# 静的AI評価を超えて: LLMの害とリスクに対する人間のインタラクション評価を前進させる
Beyond static AI evaluations: advancing human interaction evaluations for LLM harms and risks ( http://arxiv.org/abs/2405.10632v3 ) ライセンス: Link先を確認 | Lujain Ibrahim, Saffron Huang, Lama Ahmad, Markus Anderljung, | (参考訳) モデル評価は、AIシステムの安全性、リスク、社会的影響を理解する上で重要である。
ほとんどの実世界のAIアプリケーションは人間とAIのインタラクションを含んでいるが、AIモデルの現在の評価(例えば、一般的なベンチマーク)はそうではない。
その代わりに、人間的要因を限定的に組み込んで、モデルの安全性を個別に評価することで、人間とモデルの相互作用の複雑さを捉えることができない。
本稿では,人-モデルインタラクションの評価や,モデルを用いた人-モデルインタラクションのプロセスと結果に焦点をあてた,新たな評価カテゴリ"ヒューマンインタラクション評価" (HIEs) の定義と運用について論じる。
まず、HIEは安全性評価の妥当性を高め、直接人的影響と相互作用特異的害を評価し、モデルによる社会的影響の今後の評価を導くために使用できると論じる。
第2に,安全性を重視したHIE設計フレームワーク(人-LLM相互作用分類を含む)について,(1)危険領域の同定,(2)使用状況の特徴付け,(3)評価パラメータの選択の3段階について提案する。
第3に、過信と説得リスクの2つの潜在的評価に我々の枠組みを適用します。
最後に,HIEのコスト,複製性,非表現性に関する懸念に対処するための具体的な勧告を述べる。
Model evaluations are central to understanding the safety, risks, and societal impacts of AI systems. While most real-world AI applications involve human-AI interaction, most current evaluations (e.g., common benchmarks) of AI models do not. Instead, they incorporate human factors in limited ways, assessing the safety of models in isolation, thereby falling short of capturing the complexity of human-model interactions. In this paper, we discuss and operationalize a definition of an emerging category of evaluations -- "human interaction evaluations" (HIEs) -- which focus on the assessment of human-model interactions or the process and the outcomes of humans using models. First, we argue that HIEs can be used to increase the validity of safety evaluations, assess direct human impact and interaction-specific harms, and guide future assessments of models' societal impact. Second, we propose a safety-focused HIE design framework -- containing a human-LLM interaction taxonomy -- with three stages: (1) identifying the risk or harm area, (2) characterizing the use context, and (3) choosing the evaluation parameters. Third, we apply our framework to two potential evaluations for overreliance and persuasion risks. Finally, we conclude with tangible recommendations for addressing concerns over costs, replicability, and unrepresentativeness of HIEs. | 翻訳日:2024-05-29 03:28:24 公開日:2024-05-27 |
# 勧告をデノベートするための二重補正フレームワーク
Double Correction Framework for Denoising Recommendation ( http://arxiv.org/abs/2405.11272v2 ) ライセンス: Link先を確認 | Zhuangzhuang He, Yifan Wang, Yonghui Yang, Peijie Sun, Le Wu, Haoyue Bai, Jinqi Gong, Richang Hong, Min Zhang, | (参考訳) オンラインサービスの可用性と汎用性のため、暗黙のフィードバックはより一般的にレコメンデーションシステムで使用される。
しかし、暗黙的なフィードバックは通常、現実の推奨シナリオ(クリックミスや非推奨行動など)でノイズの多いサンプルを提示する。
ノイズサンプル問題を克服するために、一般的な解法は、ノイズサンプルがクリーンサンプルよりも高いトレーニング損失を有するという観察の後、モデルトレーニングフェーズにノイズサンプルを落とすことに基づいている。
有効性にも拘わらず、我々はこの解決策には限界があると主張する。
1) 学習損失の増大は, モデル最適化の不安定性や硬度サンプルによるものであり, ノイズの多いサンプルだけではない。
2) ノイズの多いサンプルの完全なドロップは、完全なデータエクスプロイトが欠如しているデータスポーラリティを悪化させる。
上記の制限に対処するため、より正確なサンプルドロップのビューから2つの補正要素を含むDouble Correction Framework for Denoising Recommendation (DCF)を提案する。
試料落下補正成分では, 試料の損失値を用いてノイズの有無を判定し, 落下安定性を向上する。
直接平均化する代わりに、減衰関数を用いて、降圧器のバイアス効果を低減します。
さらに, 硬質試料が示す分散度が高いため, 濃度不等式による損失の低減を図り, 硬質試料を同定・再利用する。
逐次ラベル補正では,高決定性雑音サンプルを反復的に再ラベルし,さらに性能を向上させるために再トレーニングする。
最後に、3つのデータセットと4つのバックボーンに関する広範な実験結果から、提案フレームワークの有効性と一般化を実証した。
As its availability and generality in online services, implicit feedback is more commonly used in recommender systems. However, implicit feedback usually presents noisy samples in real-world recommendation scenarios (such as misclicks or non-preferential behaviors), which will affect precise user preference learning. To overcome the noisy samples problem, a popular solution is based on dropping noisy samples in the model training phase, which follows the observation that noisy samples have higher training losses than clean samples. Despite the effectiveness, we argue that this solution still has limits. (1) High training losses can result from model optimization instability or hard samples, not just noisy samples. (2) Completely dropping of noisy samples will aggravate the data sparsity, which lacks full data exploitation. To tackle the above limitations, we propose a Double Correction Framework for Denoising Recommendation (DCF), which contains two correction components from views of more precise sample dropping and avoiding more sparse data. In the sample dropping correction component, we use the loss value of the samples over time to determine whether it is noise or not, increasing dropping stability. Instead of averaging directly, we use the damping function to reduce the bias effect of outliers. Furthermore, due to the higher variance exhibited by hard samples, we derive a lower bound for the loss through concentration inequality to identify and reuse hard samples. In progressive label correction, we iteratively re-label highly deterministic noisy samples and retrain them to further improve performance. Finally, extensive experimental results on three datasets and four backbones demonstrate the effectiveness and generalization of our proposed framework. | 翻訳日:2024-05-29 03:28:24 公開日:2024-05-27 |
# LLMサービングのためのCAP原則:長期大規模言語モデルのサービングに関する調査
The CAP Principle for LLM Serving: A Survey of Long-Context Large Language Model Serving ( http://arxiv.org/abs/2405.11299v2 ) ライセンス: Link先を確認 | Pai Zeng, Zhenyu Ning, Jieru Zhao, Weihao Cui, Mengwei Xu, Liwei Guo, Xusheng Chen, Yizhou Shan, | (参考訳) 大規模にモデルを展開する際に,より長いコンテキスト理解の必要性が高まっているため,コスト効率と精度の複雑なダイナミクスを理解するために,大規模言語モデル(LLM)を探索する。
本研究により, コンテクスト長(C)の改善, コンテクスト精度(A)の向上, 性能改善(P)の3つの目標に沿って, この分野の作業が最適化されていることが明らかとなった。
データベースにおけるCAP定理からインスピレーションを得たLCMサービスのためのCAP原理を提案し,これら3つの目標のうち2つを同時に最適化できることを示唆した。
本フレームワークにおける既存作業の分類を行った。
ユーザ認識測定値の定義と継続性は,従来のCAPデータベースのように,目標が達成されたかどうかを決定する上で極めて重要である。
我々は, LLM の CAP 原理を公式な定理ではなく指導原理として, 設計者に対して, サービスモデルに固有の, 動的トレードオフを知らせるものであると認識している。
正確さと性能を幅広く研究してきたので,本調査はコンテクストの長さを延ばし,その結果の課題に対処する作業に焦点をあてる。
We survey the large language model (LLM) serving area to understand the intricate dynamics between cost-efficiency and accuracy, which is magnified by the growing need for longer contextual understanding when deploying models at a massive scale. Our findings reveal that works in this space optimize along three distinct but conflicting goals: improving serving context length (C), improving serving accuracy (A), and improving serving performance (P). Drawing inspiration from the CAP theorem in databases, we propose a CAP principle for LLM serving, which suggests that any optimization can improve at most two of these three goals simultaneously. Our survey categorizes existing works within this framework. We find the definition and continuity of user-perceived measurement metrics are crucial in determining whether a goal has been met, akin to prior CAP databases in the wild. We recognize the CAP principle for LLM serving as a guiding principle, rather than a formal theorem, to inform designers of the inherent and dynamic trade-offs in serving models. As serving accuracy and performance have been extensively studied, this survey focuses on works that extend serving context length and address the resulting challenges. | 翻訳日:2024-05-29 03:28:24 公開日:2024-05-27 |
# 構造的知識表現を可能にするスムース・コルモゴロフ・アーノルドネットワーク
Smooth Kolmogorov Arnold networks enabling structural knowledge representation ( http://arxiv.org/abs/2405.11318v2 ) ライセンス: Link先を確認 | Moein E. Samadi, Younes Müller, Andreas Schuppert, | (参考訳) Kolmogorov-Arnold Networks (KANs) は、従来のマルチ層パーセプトロン(MLP)アーキテクチャに対して、ネットワークトポロジーが有限であることから、効率的かつ解釈可能な代替手段を提供する。
しかし、コルモゴロフとヴィトゥシキンの結果によれば、有限個のカットオフ点に制限された解析関数を用いたカン実装による一般的な滑らかな関数の表現は正確ではない。
したがって、訓練過程を通しての観の収束は制限される可能性がある。
本稿では, 官能の滑らかさの関連性について考察し, 官能のスムーズな構造的情報により, 特定の関数クラスにおける MLP と等価性が得られることを示唆する。
構造的知識を生かして、カンは学習に必要なデータを削減し、幻覚的予測を発生させるリスクを軽減し、計算生医学におけるモデルの信頼性と性能を向上させることができる。
Kolmogorov-Arnold Networks (KANs) offer an efficient and interpretable alternative to traditional multi-layer perceptron (MLP) architectures due to their finite network topology. However, according to the results of Kolmogorov and Vitushkin, the representation of generic smooth functions by KAN implementations using analytic functions constrained to a finite number of cutoff points cannot be exact. Hence, the convergence of KAN throughout the training process may be limited. This paper explores the relevance of smoothness in KANs, proposing that smooth, structurally informed KANs can achieve equivalence to MLPs in specific function classes. By leveraging inherent structural knowledge, KANs may reduce the data required for training and mitigate the risk of generating hallucinated predictions, thereby enhancing model reliability and performance in computational biomedicine. | 翻訳日:2024-05-29 03:28:24 公開日:2024-05-27 |
# 大規模言語モデルにおける記憶のマルチパースペクティブ解析
A Multi-Perspective Analysis of Memorization in Large Language Models ( http://arxiv.org/abs/2405.11577v2 ) ライセンス: Link先を確認 | Bowen Chen, Namgi Han, Yusuke Miyao, | (参考訳) 数十億のパラメータを持つ巨大なコーパスで訓練された大規模言語モデル(LLM)は、様々な分野で前例のない性能を示している。
優れた性能には驚きましたが、研究者たちはこれらのLSMの特別な振る舞いにも気づきました。
これらの行動の1つは記憶であり、LLMはそれらをトレーニングするのと同じ内容を生成することができる。
過去の研究では暗記について論じられていたが、LLMの暗記は、特に暗記の原因とそれらを生成するダイナミックスについての説明を欠いている。
本研究では,様々な視点から記憶を包括的に議論し,議論対象を記憶されたコンテンツだけでなく,記憶されていないコンテンツにも拡張した。
実験により, モデルサイズ, 継続サイズ, 文脈サイズの関係を明らかにすることができた。
さらに,暗記文が暗記文にどのように移行するかを示した。
2) 組込み解析により, 暗記スコアの異なる文の埋め込み空間において, モデルサイズにまたがる分布と復号化のダイナミクスを示した。
n-gram統計解析では, モデルが暗記文や暗記文を生成し始めると, n-gramおよびエントロピー復号力学の解析により境界効果が発見された。
(4) 異なるモデルの暗記を予測するためにトランスフォーマーモデルを訓練し, 文脈による暗記の予測が可能であった。
Large Language Models (LLMs), trained on massive corpora with billions of parameters, show unprecedented performance in various fields. Though surprised by their excellent performances, researchers also noticed some special behaviors of those LLMs. One of those behaviors is memorization, in which LLMs can generate the same content used to train them. Though previous research has discussed memorization, the memorization of LLMs still lacks explanation, especially the cause of memorization and the dynamics of generating them. In this research, we comprehensively discussed memorization from various perspectives and extended the discussion scope to not only just the memorized content but also less and unmemorized content. Through various studies, we found that: (1) Through experiments, we revealed the relation of memorization between model size, continuation size, and context size. Further, we showed how unmemorized sentences transition to memorized sentences. (2) Through embedding analysis, we showed the distribution and decoding dynamics across model size in embedding space for sentences with different memorization scores. The n-gram statistics analysis presents d (3) An analysis over n-gram and entropy decoding dynamics discovered a boundary effect when the model starts to generate memorized sentences or unmemorized sentences. (4)We trained a Transformer model to predict the memorization of different models, showing that it is possible to predict memorizations by context. | 翻訳日:2024-05-29 03:28:24 公開日:2024-05-27 |
# InterAct: 日常シナリオにおける2人の現実的・表現的・対話的活動の獲得とモデル化
InterAct: Capture and Modelling of Realistic, Expressive and Interactive Activities between Two Persons in Daily Scenarios ( http://arxiv.org/abs/2405.11690v2 ) ライセンス: Link先を確認 | Yinghao Huang, Leo Ho, Dafei Qin, Mingyi Shi, Taku Komura, | (参考訳) 本研究では,日常シナリオにおける2人の対話行動の正確なキャプチャと表現的モデリングの問題に対処する。
対話行動にのみ焦点をあてる以前の作品とは違い,2人の活動のモデル化と,長期にわたる客観的・動的・一貫性の相互作用を目標とすることを提案する。
この目的のために、我々はInterActと呼ばれる新しいデータセットをキャプチャし、241のモーションシーケンスで構成され、2人がシーケンス全体にわたって現実的なシナリオを実行する。
両方の人の音声、身体の動き、表情はすべて、私たちのデータセットでキャプチャされます。
また,音声のみから2人の対話的動きを直接推定する拡散モデルに基づく最初のアプローチを示す。
すべてのデータとコードは、https://hku-cg.github.io/interact.orgで利用可能になる。
We address the problem of accurate capture and expressive modelling of interactive behaviors happening between two persons in daily scenarios. Different from previous works which either only consider one person or focus on conversational gestures, we propose to simultaneously model the activities of two persons, and target objective-driven, dynamic, and coherent interactions which often span long duration. To this end, we capture a new dataset dubbed InterAct, which is composed of 241 motion sequences where two persons perform a realistic scenario over the whole sequence. The audios, body motions, and facial expressions of both persons are all captured in our dataset. We also demonstrate the first diffusion model based approach that directly estimates the interactive motions between two persons from their audios alone. All the data and code will be available at: https://hku-cg.github.io/interact. | 翻訳日:2024-05-29 03:28:24 公開日:2024-05-27 |
# 逆ロバスト性のための適応バッチ正規化ネットワーク
Adaptive Batch Normalization Networks for Adversarial Robustness ( http://arxiv.org/abs/2405.11708v2 ) ライセンス: Link先を確認 | Shao-Yuan Lo, Vishal M. Patel, | (参考訳) ディープネットワークは敵の例に弱い。
敵防衛訓練(AT)は、その顕著な効果から、現代の敵防衛の標準的基盤となっている。
しかし、ATは極めて時間がかかり、実用アプリケーションへの広範なデプロイを控えている。
本稿では,非AT防衛を目標として,ATを排除しつつも,強力な敵攻撃に対して頑健な防衛方法を設計する方法を提案する。
この質問に答えるために、テスト時間領域適応の最近の進歩に触発された適応バッチ正規化(BN)を利用する。
本稿では,適応バッチ正規化ネットワーク(ABNN)と呼ばれる新しい防衛手法を提案する。
ABNNは、訓練済みの代替モデルを使用して、クリーンBN統計を生成し、ターゲットモデルに送信する。
対象モデルはクリーンなデータにのみ訓練され、代替モデルのBN統計を整列することを学ぶ。
実験結果から、ABNNは画像データセットとビデオデータセットの両方に対するデジタルおよび物理的に実現可能な攻撃に対して、常に敵のロバスト性を改善することが示された。
さらに、ATベースのアプローチに比べて、ABNNはよりクリーンなデータ性能を向上し、トレーニング時間の複雑さを著しく低減することができる。
Deep networks are vulnerable to adversarial examples. Adversarial Training (AT) has been a standard foundation of modern adversarial defense approaches due to its remarkable effectiveness. However, AT is extremely time-consuming, refraining it from wide deployment in practical applications. In this paper, we aim at a non-AT defense: How to design a defense method that gets rid of AT but is still robust against strong adversarial attacks? To answer this question, we resort to adaptive Batch Normalization (BN), inspired by the recent advances in test-time domain adaptation. We propose a novel defense accordingly, referred to as the Adaptive Batch Normalization Network (ABNN). ABNN employs a pre-trained substitute model to generate clean BN statistics and sends them to the target model. The target model is exclusively trained on clean data and learns to align the substitute model's BN statistics. Experimental results show that ABNN consistently improves adversarial robustness against both digital and physically realizable attacks on both image and video datasets. Furthermore, ABNN can achieve higher clean data performance and significantly lower training time complexity compared to AT-based approaches. | 翻訳日:2024-05-29 03:28:24 公開日:2024-05-27 |
# EPPS:エッジ情報注入と選択的特徴分離による高度なポリプセグメンテーション
EPPS: Advanced Polyp Segmentation via Edge Information Injection and Selective Feature Decoupling ( http://arxiv.org/abs/2405.11846v2 ) ライセンス: Link先を確認 | Mengqi Lei, Xin Wang, | (参考訳) 大腸内視鏡検査におけるポリープの正確な分画は早期大腸癌の診断と管理に不可欠である。
ポリプセグメンテーションの深層学習の進歩にもかかわらず、持続的な制限は持続する。
ポリプのエッジは、典型的にはあいまいであり、背景から識別することが困難であり、モデルの性能は、無関係または重要でない特徴の影響によってしばしば損なわれる。
これらの課題を軽減するために,我々はエッジ・プライオライト化ポリプ・セグメンテーション (EPPS) と呼ばれる新しいモデルを提案する。
具体的には,ポリプのエッジを正確に抽出することを目的としたエッジマッピングエンジン(EME)を組み込んだ。
その後、捕獲されたエッジ情報をデコーダブロックに注入することにより、マスク予測を強化するためにエッジ情報インジェクタ(EII)が考案される。
さらに,選択的特徴分離器(Selective Feature Decoupler,SFD)と呼ばれるコンポーネントを導入し,モデルに対するノイズや外的特徴の影響を抑える。
広範に使われている3つのポリプセグメンテーションベンチマークの大規模な実験は、他の最先端手法と比較して、我々の手法の優れた性能を示している。
Accurate segmentation of polyps in colonoscopy images is essential for early-stage diagnosis and management of colorectal cancer. Despite advancements in deep learning for polyp segmentation, enduring limitations persist. The edges of polyps are typically ambiguous, making them difficult to discern from the background, and the model performance is often compromised by the influence of irrelevant or unimportant features. To alleviate these challenges, we propose a novel model named Edge-Prioritized Polyp Segmentation (EPPS). Specifically, we incorporate an Edge Mapping Engine (EME) aimed at accurately extracting the edges of polyps. Subsequently, an Edge Information Injector (EII) is devised to augment the mask prediction by injecting the captured edge information into Decoder blocks. Furthermore, we introduce a component called Selective Feature Decoupler (SFD) to suppress the influence of noise and extraneous features on the model. Extensive experiments on 3 widely used polyp segmentation benchmarks demonstrate the superior performance of our method compared with other state-of-the-art approaches. | 翻訳日:2024-05-29 03:28:24 公開日:2024-05-27 |
# 時系列モデルの合同予測領域
Joint Prediction Regions for time-series models ( http://arxiv.org/abs/2405.12234v2 ) ライセンス: Link先を確認 | Eshant English, | (参考訳) 機械学習アルゴリズムは、ポイント予測を提供することで有名だが、予測間隔は提供していない。
予測と予測間隔の信頼性を必要とするアプリケーションは数多く存在する。
これらの間隔を合わせると、所望の意義レベルを持つ共同予測領域が生まれる。
IIDデータの場合、JPR(Joint Prediction Region)の計算は容易である。
しかし、観測間の依存性のため、時系列にJPRが必要な場合、タスクは過度に困難になる。
このプロジェクトの目的は、WolfとWunderliのJPRの構築方法を実装し、他の手法(例えばNPヒューリスティック、Joint Marginals)と比較することである。
この手法はブートストレッピングに基づいており、異なる予測器(例えばARIMAとLSTM)を用いて異なるデータセット(Min Temp、Sunspots)に適用される。
この手法を応用する一つの課題は、モデルに対する標準誤差を導出することであり、解析的には得られない。
異なる予測器の予測標準誤差を推定する新しい手法も考案された。
最後に,本手法を合成データセットに適用し,実験平均値と実験幅を求め,Wolf and Wunderli紙の結果を統合した。
実験の結果,ニューラルネットワークのような強力な予測器による幅の狭化,予測水平線Hの増加による幅の拡大,重要度αの低減,K-FWEにおけるパラメータkによる幅の制御,およびジョイントマージナルを用いた情報の損失が示された。
Machine Learning algorithms are notorious for providing point predictions but not prediction intervals. There are many applications where one requires confidence in predictions and prediction intervals. Stringing together, these intervals give rise to joint prediction regions with the desired significance level. It is an easy task to compute Joint Prediction regions (JPR) when the data is IID. However, the task becomes overly difficult when JPR is needed for time series because of the dependence between the observations. This project aims to implement Wolf and Wunderli's method for constructing JPRs and compare it with other methods (e.g. NP heuristic, Joint Marginals). The method under study is based on bootstrapping and is applied to different datasets (Min Temp, Sunspots), using different predictors (e.g. ARIMA and LSTM). One challenge of applying the method under study is to derive prediction standard errors for models, it cannot be obtained analytically. A novel method to estimate prediction standard error for different predictors is also devised. Finally, the method is applied to a synthetic dataset to find empirical averages and empirical widths and the results from the Wolf and Wunderli paper are consolidated. The experimental results show a narrowing of width with strong predictors like neural nets, widening of width with increasing forecast horizon H and decreasing significance level alpha, controlling the width with parameter k in K-FWE, and loss of information using Joint Marginals. | 翻訳日:2024-05-29 03:18:40 公開日:2024-05-27 |
# Wav-KAN:Wavelet Kolmogorov-Arnold Networks
Wav-KAN: Wavelet Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2405.12832v2 ) ライセンス: Link先を確認 | Zavareh Bozorgasl, Hao Chen, | (参考訳) 本稿では、Wavelet Kolmogorov-Arnold Networks (Wav-KAN) フレームワークを活用し、解釈性と性能を向上させる革新的なニューラルネットワークアーキテクチャであるWav-KANを紹介する。
従来の多層パーセプトロン(MLP)や、Spl-KANのような最近の進歩は、解釈可能性、トレーニング速度、堅牢性、計算効率、パフォーマンスに関する課題に直面している。
Wav-KANは、ウェーブレット関数をコルモゴロフ・アルノルドネットワーク構造に組み込むことでこれらの制限に対処し、入力データの高周波成分と低周波成分の両方を効率的に捕捉することができる。
ウェーブレットに基づく近似は直交あるいは半直交の基底を使い、基礎となるデータ構造を正確に表現し、ノイズへの過度な適合を避けるためのバランスを維持する。
連続ウェーブレット変換 (CWT) には多くのポテンシャルがあるが, 多分解能解析には離散ウェーブレット変換 (DWT) を用いた。
水が容器の形にどのように適合しているかに似て、Wav-KANはデータ構造に適応し、Spl-KANやMLPと比較して精度が向上し、トレーニング速度が速く、堅牢性も向上した。
我々の研究結果は、様々な分野にまたがる、解釈可能な高性能ニューラルネットワークを開発するための強力なツールとして、Wav-KANの可能性を強調した。
この研究は、PyTorchやTensorFlowといったフレームワークにおけるWav-KANのさらなる探索と実装のステージを設定し、UAT(Universal Approximation Theory)におけるReLUやSigmoidのようなアクティベーション機能と同じくらい広範にkanのウェーブレットを提供することを目指している。
シミュレーションを再現するコードはhttps://github.com/zavareh1/Wav-KANで公開されている。
In this paper, we introduce Wav-KAN, an innovative neural network architecture that leverages the Wavelet Kolmogorov-Arnold Networks (Wav-KAN) framework to enhance interpretability and performance. Traditional multilayer perceptrons (MLPs) and even recent advancements like Spl-KAN face challenges related to interpretability, training speed, robustness, computational efficiency, and performance. Wav-KAN addresses these limitations by incorporating wavelet functions into the Kolmogorov-Arnold network structure, enabling the network to capture both high-frequency and low-frequency components of the input data efficiently. Wavelet-based approximations employ orthogonal or semi-orthogonal basis and maintain a balance between accurately representing the underlying data structure and avoiding overfitting to the noise. While continuous wavelet transform (CWT) has a lot of potentials, we also employed discrete wavelet transform (DWT) for multiresolution analysis, which obviated the need for recalculation of the previous steps in finding the details. Analogous to how water conforms to the shape of its container, Wav-KAN adapts to the data structure, resulting in enhanced accuracy, faster training speeds, and increased robustness compared to Spl-KAN and MLPs. Our results highlight the potential of Wav-KAN as a powerful tool for developing interpretable and high-performance neural networks, with applications spanning various fields. This work sets the stage for further exploration and implementation of Wav-KAN in frameworks such as PyTorch and TensorFlow, aiming to make wavelets in KAN as widespread as activation functions like ReLU and sigmoid in universal approximation theory (UAT). The codes to replicate the simulations are available at https://github.com/zavareh1/Wav-KAN. | 翻訳日:2024-05-29 03:18:40 公開日:2024-05-27 |
# Faithful Attention Explainer:差別的特徴に基づく言語決定
Faithful Attention Explainer: Verbalizing Decisions Based on Discriminative Features ( http://arxiv.org/abs/2405.13032v2 ) ライセンス: Link先を確認 | Yao Rong, David Scheerer, Enkelejda Kasneci, | (参考訳) 近年,モデル記述法は,ユーザが容易に理解できるように,モデル決定を忠実かつ直感的に解釈するように設計されている。
本稿では,その特徴を忠実に説明できるフレームワークであるFAE(Faithful Attention Explainer)を提案する。
この目的に向けて,文生成のための分類器から視覚特徴マップを取り出すアテンションモジュールをデプロイする。
さらに,本手法は特徴と単語の関連性をうまく学習し,注意説明のための新しい注意強制モジュールを実現する。
本モデルは,2つのデータセット(CUBとACT-X)のキャプション品質指標と忠実な意思決定関連指標において,有望な性能を達成する。
また,FAEは人間の目線に基づく人間の注意を解釈し,人間の目線が人間の意思決定に使用する識別的特徴を示し,人間の目線を高度な人間とAIの相互作用に展開する可能性を示す。
In recent years, model explanation methods have been designed to interpret model decisions faithfully and intuitively so that users can easily understand them. In this paper, we propose a framework, Faithful Attention Explainer (FAE), capable of generating faithful textual explanations regarding the attended-to features. Towards this goal, we deploy an attention module that takes the visual feature maps from the classifier for sentence generation. Furthermore, our method successfully learns the association between features and words, which allows a novel attention enforcement module for attention explanation. Our model achieves promising performance in caption quality metrics and a faithful decision-relevance metric on two datasets (CUB and ACT-X). In addition, we show that FAE can interpret gaze-based human attention, as human gaze indicates the discriminative features that humans use for decision-making, demonstrating the potential of deploying human gaze for advanced human-AI interaction. | 翻訳日:2024-05-29 03:18:40 公開日:2024-05-27 |
# RAG-RLRC-LaySum at BioLaySumm:Integrated Retrieval-Augmented Generation and Readability Control for Layman Summarization of Biomedical Texts
RAG-RLRC-LaySum at BioLaySumm: Integrating Retrieval-Augmented Generation and Readability Control for Layman Summarization of Biomedical Texts ( http://arxiv.org/abs/2405.13179v2 ) ライセンス: Link先を確認 | Yuelyu Ji, Zhuochun Li, Rui Meng, Sonish Sivarajkumar, Yanshan Wang, Zeshui Yu, Hui Ji, Yushui Han, Hanyu Zeng, Daqing He, | (参考訳) 本稿では,RAG-RLRC-LaySumフレームワークについて述べる。
我々の検索型拡張生成(RAG)ソリューションは,複数の知識源を用いて,複数の要約の精度と妥当性を保証している。
さらに、RLRC(Reinforcement Learning for Readability Control)戦略は、可読性を改善し、非専門家にとって科学的コンテンツを理解できるようにする。
PLOSおよびeLifeデータセットを用いて評価したところ,本手法はPlain Geminiモデルを超え,可読性スコアが20%向上し,ROUGE-2関連スコアが15%改善し,事実精度が10%向上した。
RAG-RLRC-LaySumフレームワークは、科学的知識を効果的に民主化し、生物医学的な発見への公的な関与を高める。
This paper introduces the RAG-RLRC-LaySum framework, designed to make complex biomedical research understandable to laymen through advanced Natural Language Processing (NLP) techniques. Our Retrieval Augmented Generation (RAG) solution, enhanced by a reranking method, utilizes multiple knowledge sources to ensure the precision and pertinence of lay summaries. Additionally, our Reinforcement Learning for Readability Control (RLRC) strategy improves readability, making scientific content comprehensible to non-specialists. Evaluations using the publicly accessible PLOS and eLife datasets show that our methods surpass Plain Gemini model, demonstrating a 20% increase in readability scores, a 15% improvement in ROUGE-2 relevance scores, and a 10% enhancement in factual accuracy. The RAG-RLRC-LaySum framework effectively democratizes scientific knowledge, enhancing public engagement with biomedical discoveries. | 翻訳日:2024-05-29 03:08:56 公開日:2024-05-27 |
# 勾配支配下の確率勾配法のほぼ確実に収束率
Almost sure convergence rates of stochastic gradient methods under gradient domination ( http://arxiv.org/abs/2405.13592v2 ) ライセンス: Link先を確認 | Simon Weissmann, Sara Klein, Waïss Azizian, Leif Döring, | (参考訳) 確率勾配法は、機械学習問題を訓練する上で最も重要なアルゴリズムの一つである。
強い凸性のような古典的な仮定は単純な解析を可能にするが、応用において満たされることはめったにない。
近年,大域的および局所的な勾配支配特性は,強い凸性のより現実的な置き換えであることが示されている。
それらは、強化学習における(単純な)ポリシー勾配法や、分析活性化関数を持つディープニューラルネットワークの訓練など、多様な設定で保持されていることが証明された。
収束率 $f(X_n)-f^*\in o\big(n^{-\frac{1}{4\beta-1}+\epsilon}\big)$ は、大域的および局所的な$\beta$-次支配仮定の下での確率的勾配降下(運動量なし)に対する最後のイテレートである。
ほぼ確実なレートは、予想される最近のレートに任意に近づく。
最後に,教師付き学習と強化学習の両方において,実験結果をトレーニングタスクに適用する方法を示す。
Stochastic gradient methods are among the most important algorithms in training machine learning problems. While classical assumptions such as strong convexity allow a simple analysis they are rarely satisfied in applications. In recent years, global and local gradient domination properties have shown to be a more realistic replacement of strong convexity. They were proved to hold in diverse settings such as (simple) policy gradient methods in reinforcement learning and training of deep neural networks with analytic activation functions. We prove almost sure convergence rates $f(X_n)-f^*\in o\big( n^{-\frac{1}{4\beta-1}+\epsilon}\big)$ of the last iterate for stochastic gradient descent (with and without momentum) under global and local $\beta$-gradient domination assumptions. The almost sure rates get arbitrarily close to recent rates in expectation. Finally, we demonstrate how to apply our results to the training task in both supervised and reinforcement learning. | 翻訳日:2024-05-29 03:08:56 公開日:2024-05-27 |
# スパイクニューラルネットワークのマルチスケール時空間相互作用学習への応用
Advancing Spiking Neural Networks towards Multiscale Spatiotemporal Interaction Learning ( http://arxiv.org/abs/2405.13672v2 ) ライセンス: Link先を確認 | Yimeng Shan, Malu Zhang, Rui-jie Zhu, Xuerui Qiu, Jason K. Eshraghian, Haicheng Qu, | (参考訳) 近年の神経科学研究の進展により、スパイキングニューラルネットワーク(SNN)の開発が促進され、神経科学研究をさらに進展させる可能性だけでなく、スパイク駆動特性により、ニューラルネットワーク(ANN)に代わるエネルギー効率の高い代替品として機能する。
しかし、過去の研究では、イベントデータ間のマルチスケール情報とその時空間相関を無視することが多かったため、SNNモデルは入力イベントの各フレームを静的な画像として近似する。
この過度な単純化は、SNNと従来のANNのパフォーマンスギャップに大きく寄与する、という仮説を立てる。
この問題に対処するために,マルチスケールの時空間相互作用情報をキャプチャするスパイキング・マルチスケール・アテンション(SMA)モジュールを設計した。
さらに,アテンションゾーンアウト(AZO)と呼ばれる正規化手法を開発し,時空間の注意重みを利用して擬似アンサンブル学習によるモデルの一般化誤差を低減する。
我々のアプローチは、主流のニューラルモルフォロジーデータセットの最先端の結果を得た。
さらに,SMAおよびAZOで拡張された104層ResNetアーキテクチャを用いて,Imagenet-1Kデータセット上で77.1%の性能を達成した。
この成果は、非トランスフォーマーアーキテクチャを用いたSNNの最先端性能を確認し、従来のANNモデルとSNNモデルのパフォーマンスギャップを埋める上で、本手法の有効性を裏付けるものである。
Recent advancements in neuroscience research have propelled the development of Spiking Neural Networks (SNNs), which not only have the potential to further advance neuroscience research but also serve as an energy-efficient alternative to Artificial Neural Networks (ANNs) due to their spike-driven characteristics. However, previous studies often neglected the multiscale information and its spatiotemporal correlation between event data, leading SNN models to approximate each frame of input events as static images. We hypothesize that this oversimplification significantly contributes to the performance gap between SNNs and traditional ANNs. To address this issue, we have designed a Spiking Multiscale Attention (SMA) module that captures multiscale spatiotemporal interaction information. Furthermore, we developed a regularization method named Attention ZoneOut (AZO), which utilizes spatiotemporal attention weights to reduce the model's generalization error through pseudo-ensemble training. Our approach has achieved state-of-the-art results on mainstream neural morphology datasets. Additionally, we have reached a performance of 77.1% on the Imagenet-1K dataset using a 104-layer ResNet architecture enhanced with SMA and AZO. This achievement confirms the state-of-the-art performance of SNNs with non-transformer architectures and underscores the effectiveness of our method in bridging the performance gap between SNN models and traditional ANN models. | 翻訳日:2024-05-29 03:08:56 公開日:2024-05-27 |
# S-Eval:大規模言語モデルの安全性評価ベンチマークのための自動および適応型テスト生成
S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language Models ( http://arxiv.org/abs/2405.14191v2 ) ライセンス: Link先を確認 | Xiaohan Yuan, Jinfeng Li, Dongxia Wang, Yuefeng Chen, Xiaofeng Mao, Longtao Huang, Hui Xue, Wenhai Wang, Kui Ren, Jingyi Wang, | (参考訳) 大規模な言語モデルは、その革命的な能力にかなりの注目を集めている。
しかし、その安全性に関する懸念も高まり、モデル展開に先立って、LLMの総合的な安全性評価が緊急に必要となる。
本研究では,新しい包括的,多次元かつオープンな安全評価ベンチマークであるS-Evalを提案する。
S-Evalのコアには、LLMベースの自動テストプロンプト生成と選択フレームワークがあり、このフレームワークは、専門家によるLSM Mtのテストと、さまざまなテスト選択戦略を組み合わせることで、安全性評価のための高品質なテストスイートを自動構築する。
このプロセスの自動化の鍵は、LLMの反応の危険度スコアを定量化し、リスクタグと説明を生成できる、新しい専門家のLLM Mcである。
さらに、生成プロセスは、4つの異なるレベルを持つ慎重に設計されたリスク分類によっても導かれる。
そこで我々は,LLMに対して2万件のリスクプロンプト(中国語では10,000件,英語では10,000件)と10万件の攻撃プロンプトを含む2万件の評価プロンプトから,新たな大規模安全性評価ベンチマークを体系的に構築した。
さらに、LSMの急速な進化とそれに伴う安全上の脅威を考えると、S-Evalは柔軟に設定され、新しいリスク、攻撃、モデルを含むように適応できる。
S-Evalは20のLLMで広く評価されている。
その結果、S-Eval は既存のベンチマークと比較して LLM の安全性のリスクを反映し、報告できることがわかった。
また,パラメータ尺度,言語環境,復号化パラメータが評価に与える影響についても検討し,LLMの安全性を評価するための体系的な方法論を提供する。
Large Language Models have gained considerable attention for their revolutionary capabilities. However, there is also growing concern on their safety implications, making a comprehensive safety evaluation for LLMs urgently needed before model deployment. In this work, we propose S-Eval, a new comprehensive, multi-dimensional and open-ended safety evaluation benchmark. At the core of S-Eval is a novel LLM-based automatic test prompt generation and selection framework, which trains an expert testing LLM Mt combined with a range of test selection strategies to automatically construct a high-quality test suite for the safety evaluation. The key to the automation of this process is a novel expert safety-critique LLM Mc able to quantify the riskiness score of an LLM's response, and additionally produce risk tags and explanations. Besides, the generation process is also guided by a carefully designed risk taxonomy with four different levels, covering comprehensive and multi-dimensional safety risks of concern. Based on these, we systematically construct a new and large-scale safety evaluation benchmark for LLMs consisting of 220,000 evaluation prompts, including 20,000 base risk prompts (10,000 in Chinese and 10,000 in English) and 200,000 corresponding attack prompts derived from 10 popular adversarial instruction attacks against LLMs. Moreover, considering the rapid evolution of LLMs and accompanied safety threats, S-Eval can be flexibly configured and adapted to include new risks, attacks and models. S-Eval is extensively evaluated on 20 popular and representative LLMs. The results confirm that S-Eval can better reflect and inform the safety risks of LLMs compared to existing benchmarks. We also explore the impacts of parameter scales, language environments, and decoding parameters on the evaluation, providing a systematic methodology for evaluating the safety of LLMs. | 翻訳日:2024-05-29 03:08:56 公開日:2024-05-27 |
# FreeTuner: トレーニング不要の拡散を伴うあらゆるスタイルの課題
FreeTuner: Any Subject in Any Style with Training-free Diffusion ( http://arxiv.org/abs/2405.14201v2 ) ライセンス: Link先を確認 | Youcan Xu, Zhen Wang, Jun Xiao, Wei Liu, Long Chen, | (参考訳) 拡散モデルの進歩により、様々なパーソナライズされた画像生成法が提案されている。
しかしながら、既存の作業のほとんどは、主観的あるいはスタイル的パーソナライゼーションにのみ焦点をあてている。
一方、最先端の手法は、構成的パーソナライゼーションを実現する上でいくつかの課題に直面している。
これらの問題に対処するために、FreeTunerを導入する。FreeTunerは、フレキシブルでトレーニングのない、作曲のパーソナライズのためのメソッドで、任意のユーザが提供する対象を、ユーザが提供するスタイルで生成することができる(図1参照)。
提案手法では, 生成過程を2段階に分けて, 概念の絡みを効果的に緩和する。
FreeTunerは、主題概念表現のための拡散モデル内の中間的特徴を活用し、合成画像とスタイル概念を整合させるスタイルガイダンスを導入し、被験者の構造とスタイルの美的特徴の両方を確実に保持する。
大規模な実験は、さまざまなパーソナライズ設定でFreeTunerの生成能力を実証した。
With the advance of diffusion models, various personalized image generation methods have been proposed. However, almost all existing work only focuses on either subject-driven or style-driven personalization. Meanwhile, state-of-the-art methods face several challenges in realizing compositional personalization, i.e., composing different subject and style concepts, such as concept disentanglement, unified reconstruction paradigm, and insufficient training data. To address these issues, we introduce FreeTuner, a flexible and training-free method for compositional personalization that can generate any user-provided subject in any user-provided style (see Figure 1). Our approach employs a disentanglement strategy that separates the generation process into two stages to effectively mitigate concept entanglement. FreeTuner leverages the intermediate features within the diffusion model for subject concept representation and introduces style guidance to align the synthesized images with the style concept, ensuring the preservation of both the subject's structure and the style's aesthetic features. Extensive experiments have demonstrated the generation ability of FreeTuner across various personalization settings. | 翻訳日:2024-05-29 03:08:56 公開日:2024-05-27 |
# 分散学習における勾配によるロバスト性向上
Boosting Robustness by Clipping Gradients in Distributed Learning ( http://arxiv.org/abs/2405.14432v2 ) ライセンス: Link先を確認 | Youssef Allouah, Rachid Guerraoui, Nirupam Gupta, Ahmed Jellouli, Geovani Rizk, John Stephan, | (参考訳) ロバストな分散学習は、失業労働者の存在にもかかわらず、優れた学習性能を達成するために構成される。
その学習誤差は、標準的な不均一性モデルである$(G, B)$-gradient dissimilarityの下の境界と一致する。
モデル初期化を任意に行うと、SOTA Robust-DGDの学習保証をさらに改善することはできない。
しかし,モデル初期化時の作業者の勾配が有界であると仮定した場合,下限を回避し,学習性能を向上させることが可能であることを示す。
本研究では、適応ロバストクリッピング(ARC)と呼ばれる新しいスキームを用いて、労働者の勾配の事前集約クリッピングを提案する。
Robust-DGDにおけるARCの導入は、上記のモデル初期化に関する仮定の下で、学習を確実に改善する。
改善の要因は、耐え難い作業者の割合が故障点に近づいた場合に顕著である。
ARCは、元のアグリゲーションスキームのロバスト性を同時に保ちながら、検索空間を制限し、この改善を誘導する。
我々は、ベンチマーク画像分類タスクの徹底的な実験を通して、この理論的発見を検証する。
Robust distributed learning consists in achieving good learning performance despite the presence of misbehaving workers. State-of-the-art (SOTA) robust distributed gradient descent (Robust-DGD) methods, relying on robust aggregation, have been proven to be optimal: Their learning error matches the lower bound established under the standard heterogeneity model of $(G, B)$-gradient dissimilarity. The learning guarantee of SOTA Robust-DGD cannot be further improved when model initialization is done arbitrarily. However, we show that it is possible to circumvent the lower bound, and improve the learning performance, when the workers' gradients at model initialization are assumed to be bounded. We prove this by proposing pre-aggregation clipping of workers' gradients, using a novel scheme called adaptive robust clipping (ARC). Incorporating ARC in Robust-DGD provably improves the learning, under the aforementioned assumption on model initialization. The factor of improvement is prominent when the tolerable fraction of misbehaving workers approaches the breakdown point. ARC induces this improvement by constricting the search space, while preserving the robustness property of the original aggregation scheme at the same time. We validate this theoretical finding through exhaustive experiments on benchmark image classification tasks. | 翻訳日:2024-05-29 02:59:12 公開日:2024-05-27 |
# 言語モデルの国際的フェデレーショントレーニング
Worldwide Federated Training of Language Models ( http://arxiv.org/abs/2405.14446v2 ) ライセンス: Link先を確認 | Alex Iacob, Lorenzo Sani, Bill Marino, Preslav Aleksandrov, William F. Shen, Nicholas Donald Lane, | (参考訳) 言語モデルのトレーニングが大量の計算と、潜在的に低品質、著作権付き、または機密性の高いデータから取り除かれた膨大なデータセットに依存していることは、実用的、法的、倫理的に問題となっている。
フェデレーテッド・ラーニングは、未解決のデータを自発的に協力組織から集めることによって、妥当な代替手段を提供する。
しかし、グローバルにスケールする場合、フェデレートされた学習は、言語データの固有の局所性を考慮しながら、異質な法律、セキュリティ、プライバシの体制をまたいで協調する必要がある。
我々は,各連盟が,その産業,運営権,競争環境などの要因を考慮に入れた自主性を有する,連合の連合に基づく世界規模の言語モデルトレーニング(Worldwide Federated Language Model Training~)システムを提案する。
WorldLMは、部分的なモデルローカライゼーションを通じて統計的不均一性の存在下で、サブフェデレーションがその構成要素からキー層を注意深く集約することで、そのような自律性を実現する。
さらに、残層埋め込みを介して、フェデレーション間で情報を適応的に共有することができる。
自然に異質なデータセット上での言語モデリングの評価は、WorldLMが標準フェデレーションを最大1.91\times$で上回り、完全なローカルモデルのパーソナライズされたパフォーマンスにアプローチし、これらの利点をプライバシー保護技術の下で維持していることを示している。
The reliance of language model training on massive amounts of computation and vast datasets scraped from potentially low-quality, copyrighted, or sensitive data has come into question practically, legally, and ethically. Federated learning provides a plausible alternative by enabling previously untapped data to be voluntarily gathered from collaborating organizations. However, when scaled globally, federated learning requires collaboration across heterogeneous legal, security, and privacy regimes while accounting for the inherent locality of language data; this further exacerbates the established challenge of federated statistical heterogeneity. We propose a Worldwide Federated Language Model Training~(WorldLM) system based on federations of federations, where each federation has the autonomy to account for factors such as its industry, operating jurisdiction, or competitive environment. WorldLM enables such autonomy in the presence of statistical heterogeneity via partial model localization by allowing sub-federations to attentively aggregate key layers from their constituents. Furthermore, it can adaptively share information across federations via residual layer embeddings. Evaluations of language modeling on naturally heterogeneous datasets show that WorldLM outperforms standard federations by up to $1.91\times$, approaches the personalized performance of fully local models, and maintains these advantages under privacy-enhancing techniques. | 翻訳日:2024-05-29 02:59:12 公開日:2024-05-27 |
# フラクタルスキャンによるスケーラブルなビジュアル状態空間モデル
Scalable Visual State Space Model with Fractal Scanning ( http://arxiv.org/abs/2405.14480v2 ) ライセンス: Link先を確認 | Lv Tang, HaoKe Xiao, Peng-Tao Jiang, Hao Zhang, Jinwei Chen, Bo Li, | (参考訳) 基盤モデルは自然言語処理(NLP)とコンピュータビジョン(CV)において大幅に進歩し、トランスフォーマーアーキテクチャは標準的なバックボーンとなった。
しかし、Transformerの二次複雑性は、より長いシーケンスと高解像度の画像を扱う上での課題を引き起こす。
この課題に対処するため、Mambaのようなステートスペースモデル(SSM)は効率的な代替品として登場し、最初はNLPタスクでトランスフォーマーのパフォーマンスにマッチし、後に様々なCVタスクでビジョントランスフォーマー(ViT)を上回った。
SSMの性能を向上させるために、画像パッチの効果的なシリアライズが重要である。
線形走査曲線に依存する既存の手法は、しばしば複雑な空間的関係を捉え、繰り返しパターンを生成するのに失敗し、バイアスをもたらす。
これらの制約に対処するために、パッチシリアライゼーションにフラクタル走査曲線を用いることを提案する。
フラクタル曲線は、高い空間近接を維持し、異なる画像解像度に適応し、冗長性を避け、複雑なパターンを正確にモデル化するSSMの能力を高める。
画像分類,検出,セグメンテーションのタスクにおいて,本手法の有効性を検証し,優れた性能でその有効性を検証した。
Foundational models have significantly advanced in natural language processing (NLP) and computer vision (CV), with the Transformer architecture becoming a standard backbone. However, the Transformer's quadratic complexity poses challenges for handling longer sequences and higher resolution images. To address this challenge, State Space Models (SSMs) like Mamba have emerged as efficient alternatives, initially matching Transformer performance in NLP tasks and later surpassing Vision Transformers (ViTs) in various CV tasks. To improve the performance of SSMs, one crucial aspect is effective serialization of image patches. Existing methods, relying on linear scanning curves, often fail to capture complex spatial relationships and produce repetitive patterns, leading to biases. To address these limitations, we propose using fractal scanning curves for patch serialization. Fractal curves maintain high spatial proximity and adapt to different image resolutions, avoiding redundancy and enhancing SSMs' ability to model complex patterns accurately. We validate our method in image classification, detection, and segmentation tasks, and the superior performance validates its effectiveness. | 翻訳日:2024-05-29 02:59:12 公開日:2024-05-27 |
# 36kmの都市内ファイバネットワークによるトリガー偏光結合型通信光子の高忠実度分布
High fidelity distribution of triggered polarization-entangled telecom photons via a 36km intra-city fiber network ( http://arxiv.org/abs/2405.14557v2 ) ライセンス: Link先を確認 | Tim Strobel, Stefan Kazmaier, Tobias Bauer, Marlon Schäfer, Ankita Choudhary, Nand Lal Sharma, Raphael Joos, Cornelius Nawrath, Jonas H. Weber, Weijie Nie, Ghata Bhayani, Lukas Wagner, André Bisquerra, Marc Geitz, Ralf-Peter Braun, Caspar Hopfmann, Simone L. Portalupi, Christoph Becher, Peter Michler, | (参考訳) 引き起こされた、絡み合った単一光子対のファイバーベースの分布は、将来の地上量子ネットワークの発展の鍵となる要件である。
この文脈では、半導体量子ドット(QD)は、オンデマンドの偏光-絡み合った光子対の決定論的情報源の候補である。
これまでのところ、最もQD偏光に絡み合ったペア光源は、デプロイされたファイバーの伝送距離が制限された近赤外波長で放射される。
ここでは、既存のファイバネットワーク基盤と互換性を保ちながら、二方向偏光保存量子周波数変換(QFC)を用いて、 \unit[780]{nm} からのQD放射をテレコム波長に変換する。
QFC後の偏光絡み(ベル状態$F_{\phi^+, conv}=0.972\pm0.003$)の保存効果を示す。
実世界の応用に向けてのステップとして、標準単一モードファイバリンク(F_{\phi^+, loop}=0.945\pm0.005$)を、標準単一モードファイバリンクにインストールした単体[35.8]{km}フィールドに沿って、絡み合ったペアの1つの光子が伝播した後、高絡み合いフィデリティ(F_{\phi^+, loop}=0.945\pm0.005$)を報告する。
さらに、第2の分極対向QFCステップを、(F_{\phi^+, back}=0.903\pm0.005$)絡みを保ったままの単位[780]{nm}に戻すことに成功した。
これにより、様々な量子メモリに量子光を対向させる方法がさらに準備される。
Fiber-based distribution of triggered, entangled, single-photon pairs is a key requirement for the future development of terrestrial quantum networks. In this context, semiconductor quantum dots (QDs) are promising candidates for deterministic sources of on-demand polarization-entangled photon pairs. So far, the best QD polarization-entangled-pair sources emit in the near-infrared wavelength regime, where the transmission distance in deployed fibers is limited. Here, to be compatible with existing fiber network infrastructures, bi-directional polarization-conserving quantum frequency conversion (QFC) is employed to convert the QD emission from \unit[780]{nm} to telecom wavelengths. We show the preservation of polarization entanglement after QFC (fidelity to Bell state $F_{\phi^+, conv}=0.972\pm0.003$) of the biexciton transition. As a step towards real-world applicability, high entanglement fidelities ($F_{\phi^+, loop}=0.945\pm0.005$) after the propagation of one photon of the entangled pair along a \unit[35.8]{km} field installed standard single mode fiber link are reported. Furthermore, we successfully demonstrate a second polarization-conversing QFC step back to \unit[780]{nm} preserving entanglement ($F_{\phi^+, back}=0.903\pm0.005$). This further prepares the way for interfacing quantum light to various quantum memories. | 翻訳日:2024-05-29 02:59:12 公開日:2024-05-27 |
# FinRobot: 大規模言語モデルを用いた金融アプリケーションのためのオープンソースのAIエージェントプラットフォーム
FinRobot: An Open-Source AI Agent Platform for Financial Applications using Large Language Models ( http://arxiv.org/abs/2405.14767v2 ) ライセンス: Link先を確認 | Hongyang Yang, Boyu Zhang, Neng Wang, Cheng Guo, Xiaoli Zhang, Likun Lin, Junlin Wang, Tianyu Zhou, Mao Guan, Runjia Zhang, Christina Dan Wang, | (参考訳) 金融機関や専門家が自分たちのワークフローにLarge Language Models(LLM)を組み入れていくにつれて、プロプライエタリなデータや専門知識を含む大きな障壁が金融セクターとAIコミュニティの間で持続する。
これらの課題は、AIコミュニティの経済的タスクを効果的に強化する能力を妨げる。
金融分析の重要な役割を認識し、金融特化LDMベースのツールチェーンを考案し、オープンソースイニシアチブを通じてそれらへのアクセスを民主化し、金融意思決定におけるAI採用の拡大を促進することを目的としています。
本稿では,複数の金融特化AIエージェントをサポートする,オープンソースのAIエージェントプラットフォームであるFinRobotを紹介する。
具体的には、このプラットフォームは4つの主要なレイヤから構成されている。
1) 金融AIエージェント層は、洗練された金融問題を論理的な順序に分解することで、金融危機(CoT)を定式化する。
2)金融LLMアルゴリズム層は,特定のタスクに対して適切なモデル適用戦略を動的に設定する。
3) LLMOpsとDataOpsレイヤは、トレーニング/ファインチューニング技術を適用し、タスク関連データを使用することで、正確なモデルを生成する。
4) 様々なLCMを統合し、上記のレイヤに直接アクセスできるようにするマルチソース LLM Foundation Models レイヤ。
最後にFinRobotは、高度な財務分析に強力なAI技術を利用するために、プロ級のアナリストとレイパーの両方にハンズオンを提供する。
FinRobot は \url{https://github.com/AI4Finance-Foundation/FinRobot} でオープンソース化しました。
As financial institutions and professionals increasingly incorporate Large Language Models (LLMs) into their workflows, substantial barriers, including proprietary data and specialized knowledge, persist between the finance sector and the AI community. These challenges impede the AI community's ability to enhance financial tasks effectively. Acknowledging financial analysis's critical role, we aim to devise financial-specialized LLM-based toolchains and democratize access to them through open-source initiatives, promoting wider AI adoption in financial decision-making. In this paper, we introduce FinRobot, a novel open-source AI agent platform supporting multiple financially specialized AI agents, each powered by LLM. Specifically, the platform consists of four major layers: 1) the Financial AI Agents layer that formulates Financial Chain-of-Thought (CoT) by breaking sophisticated financial problems down into logical sequences; 2) the Financial LLM Algorithms layer dynamically configures appropriate model application strategies for specific tasks; 3) the LLMOps and DataOps layer produces accurate models by applying training/fine-tuning techniques and using task-relevant data; 4) the Multi-source LLM Foundation Models layer that integrates various LLMs and enables the above layers to access them directly. Finally, FinRobot provides hands-on for both professional-grade analysts and laypersons to utilize powerful AI techniques for advanced financial analysis. We open-source FinRobot at \url{https://github.com/AI4Finance-Foundation/FinRobot}. | 翻訳日:2024-05-29 02:59:12 公開日:2024-05-27 |
# 不均質なクライアントによるフェデレーション学習のための繰り返し早期学習
Recurrent Early Exits for Federated Learning with Heterogeneous Clients ( http://arxiv.org/abs/2405.14791v2 ) ライセンス: Link先を確認 | Royson Lee, Javier Fernandez-Marques, Shell Xu Hu, Da Li, Stefanos Laskaridis, Łukasz Dudziak, Timothy Hospedales, Ferenc Huszár, Nicholas D. Lane, | (参考訳) フェデレーテッド・ラーニング(FL)は、プライバシを保存する方法で、複数のクライアントにまたがるモデルの分散学習を可能にした。
FLの主な課題の1つは、クライアントに様々なハードウェア能力を持たせることである。
この課題に対処するため、最近の最先端のアプローチは早期出口の利用を活用している。
にもかかわらず、これらのアプローチは、複数の出口分類器を共同学習する際の課題を緩和するに足りず、しばしば、分類器間の知識蒸留や、より弱い分類器のための追加層の利用のために、手書きのヒューリスティックな解に頼っている。
本研究では,複数の分類器を使わずに,異なるサブモデルの特徴を1つの共有分類器に融合するReeFLという手法を提案する。
具体的には、サブモデル間で共有されるトランスフォーマーベースの早期退避モジュールを使用する。
一 タスク特化予測のための多層特徴表現の活用
二 後続の予測のために、バックボーンモデルの特徴表現を変調すること。
また,各クライアントにおける他のサブモデルの教師として,最高のサブモデルを自動的に選択する,クライアントごとの自己蒸留手法を提案する。
様々なファインチューニングベースラインにまたがる標準画像分類と音声分類のベンチマーク実験により、ReeFLが過去の研究よりも有効であることを実証した。
Federated learning (FL) has enabled distributed learning of a model across multiple clients in a privacy-preserving manner. One of the main challenges of FL is to accommodate clients with varying hardware capacities; clients have differing compute and memory requirements. To tackle this challenge, recent state-of-the-art approaches leverage the use of early exits. Nonetheless, these approaches fall short of mitigating the challenges of joint learning multiple exit classifiers, often relying on hand-picked heuristic solutions for knowledge distillation among classifiers and/or utilizing additional layers for weaker classifiers. In this work, instead of utilizing multiple classifiers, we propose a recurrent early exit approach named ReeFL that fuses features from different sub-models into a single shared classifier. Specifically, we use a transformer-based early-exit module shared among sub-models to i) better exploit multi-layer feature representations for task-specific prediction and ii) modulate the feature representation of the backbone model for subsequent predictions. We additionally present a per-client self-distillation approach where the best sub-model is automatically selected as the teacher of the other sub-models at each client. Our experiments on standard image and speech classification benchmarks across various emerging federated fine-tuning baselines demonstrate ReeFL's effectiveness over previous works. | 翻訳日:2024-05-29 02:59:12 公開日:2024-05-27 |
# シーケンスインフォームド環境条件による植物生長シミュレーション
Generative Plant Growth Simulation from Sequence-Informed Environmental Conditions ( http://arxiv.org/abs/2405.14796v2 ) ライセンス: Link先を確認 | Mohamed Debbagh, Yixue Liu, Zhouzhou Zheng, Xintong Jiang, Shangpeng Sun, Mark Lefsrud, | (参考訳) 植物成長シミュレーションは、植物または植物系の再構成された視覚表現として特徴付けられる。
表現型の特徴と植物構造は、シーン環境および他の文脈特性によって制御される。
種々の要因の時間的依存性と複合化効果を考慮して,フレーム合成とパターン認識の問題を解くことにより,シミュレーションタスクに対する確率論的アプローチを定式化する。
低次元の時間センサとコンテキストデータとの融合から,動的シーン内の植物表現の分布を暗黙的に学習する条件生成モデルを用いたシーケンスインフォームド植物成長シミュレーションフレームワーク(SI-PGS)を導入する。
予測のフレーム間のプラント構造におけるコヒーレンスを改善するために、制御された潜時サンプリングや繰り返し出力接続などの手法が用いられる。
本研究では、SI-PGSが時間的依存を捉え、植物の成長の現実的なフレームを連続的に生成できることを実証する。
A plant growth simulation can be characterized as a reconstructed visual representation of a plant or plant system. The phenotypic characteristics and plant structures are controlled by the scene environment and other contextual attributes. Considering the temporal dependencies and compounding effects of various factors on growth trajectories, we formulate a probabilistic approach to the simulation task by solving a frame synthesis and pattern recognition problem. We introduce a sequence-informed plant growth simulation framework (SI-PGS) that employs a conditional generative model to implicitly learn a distribution of possible plant representations within a dynamic scene from a fusion of low dimensional temporal sensor and context data. Methods such as controlled latent sampling and recurrent output connections are used to improve coherence in the plant structures between frames of predictions. In this work, we demonstrate that SI-PGS is able to capture temporal dependencies and continuously generate realistic frames of plant growth. | 翻訳日:2024-05-29 02:59:12 公開日:2024-05-27 |
# グラフニューラルネットワーク分子特性モデルのための量子力学(QM)データを用いた原子レベルの事前学習の解析
Analysis of Atom-level pretraining with Quantum Mechanics (QM) data for Graph Neural Networks Molecular property models ( http://arxiv.org/abs/2405.14837v2 ) ライセンス: Link先を確認 | Jose Arjona-Medina, Ramil Nugmanov, | (参考訳) 定量的構造-活性関係(QSAR)モデルのためのディープラーニングの急速な進歩にもかかわらず、現実世界のシナリオを新しい化合物に効果的に一般化する堅牢な分子表現を学習するという課題は、解明され未解決の課題のままである。
本研究では、量子力学(QM)データを用いた原子レベルの事前トレーニングが、トレーニングデータとテストデータ間の分布類似性に関する仮定違反を緩和し、下流タスクのパフォーマンスと一般化を改善する方法について検討する。
公開データセット Therapeutics Data Commons (TDC) では、原子レベルのQMの事前トレーニングが全体的なパフォーマンスを向上し、機能の活性化がガウス的(Gaussian)的な結果をもたらすことを示し、分散シフトに対してより堅牢な表現をもたらす。
我々の知る限りでは、分子レベルと原子レベルの事前学習がQMデータに与える影響を比較するために隠れ状態の分子表現が分析されたのはこれが初めてである。
Despite the rapid and significant advancements in deep learning for Quantitative Structure-Activity Relationship (QSAR) models, the challenge of learning robust molecular representations that effectively generalize in real-world scenarios to novel compounds remains an elusive and unresolved task. This study examines how atom-level pretraining with quantum mechanics (QM) data can mitigate violations of assumptions regarding the distributional similarity between training and test data and therefore improve performance and generalization in downstream tasks. In the public dataset Therapeutics Data Commons (TDC), we show how pretraining on atom-level QM improves performance overall and makes the activation of the features distributes more Gaussian-like which results in a representation that is more robust to distribution shifts. To the best of our knowledge, this is the first time that hidden state molecular representations are analyzed to compare the effects of molecule-level and atom-level pretraining on QM data. | 翻訳日:2024-05-29 02:59:12 公開日:2024-05-27 |
# 視覚変換器における問合せキーの解離
Dissecting Query-Key Interaction in Vision Transformers ( http://arxiv.org/abs/2405.14880v2 ) ライセンス: Link先を確認 | Xu Pan, Aaron Philip, Ziqian Xie, Odelia Schwartz, | (参考訳) 視覚変換器における自己注意は、トークンが類似した埋め込みを持つ他のトークンに付随する知覚的なグループ化を行うと考えられており、これはオブジェクトの意味論的に類似した特徴に対応できる。
しかし、異なるトークンへの参加は文脈情報を提供することで有益である。
本稿では、Singular Value Decomposition(Singular Value Decomposition)を用いてクエリキーの相互作用を分解する(${\textbf{W}_q}^\top\textbf{W}_k$)。
初期層は類似のトークンにより近づき、後期層は異なるトークンに注意を向け、知覚的グループ化と文脈化に対応する証拠を提供する。
特異ベクトルで表される特徴間のこれらの相互作用の多くは解釈可能であり、関連する対象間の注意、対象の部分間の注意、前景と背景の間の関心などである。
これは、アテンションメカニズムの解釈に関する新しい視点を提供する。これは、トランスフォーマーモデルが画像を処理する際に、コンテキストと健全な特徴をどのように利用するかを理解するのに寄与する。
Self-attention in vision transformers is often thought to perform perceptual grouping where tokens attend to other tokens with similar embeddings, which could correspond to semantically similar features of an object. However, attending to dissimilar tokens can be beneficial by providing contextual information. We propose to use the Singular Value Decomposition to dissect the query-key interaction (i.e. ${\textbf{W}_q}^\top\textbf{W}_k$). We find that early layers attend more to similar tokens, while late layers show increased attention to dissimilar tokens, providing evidence corresponding to perceptual grouping and contextualization, respectively. Many of these interactions between features represented by singular vectors are interpretable and semantic, such as attention between relevant objects, between parts of an object, or between the foreground and background. This offers a novel perspective on interpreting the attention mechanism, which contributes to understanding how transformer models utilize context and salient features when processing images. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# 量子ナビゲーションに基づくRb冷原子干渉計の基本原理の短い紹介
A Short Introduction to Basic Principles of Quantum Navigation Based-on Rb Cold Atom Interferometry ( http://arxiv.org/abs/2405.14910v2 ) ライセンス: Link先を確認 | Narges Kafaei, Ali Motazedifard, | (参考訳) 低温原子干渉法、レーザー分光法の進歩により、機械的および光学的センサーでは起こらないより正確な加速度計やジャイロスコープを実現できる。
外部の変化に敏感すぎる原子レベルの固有かつ独立した性質のため、衛星を持たない自己校正航法システムを実現することができる。
本稿では,慣性低温原子ナビゲーションセンサの基本原理について概説する。
Due to advances in cold atom interferometry, laser spectroscopy it is possible to achieve more precise accelerometers and gyroscopes which never occurs in mechanical- and optical-based sensors. Because of the inherent and independent characteristics of atomic levels which are too sensitive respect to the external changes, a self-calibrated navigation system with no satellite can be achieved. Here, in this paper we very shortly review the basic principles of inertia cold atom navigation sensor. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# ルビジウム原子のD2遷移におけるDBRレーザーの飽和吸収分光と周波数ロック
Saturated absorption spectroscopy and frequency locking of DBR laser on the D2 transition of rubidium atoms ( http://arxiv.org/abs/2405.14911v2 ) ライセンス: Link先を確認 | Davood Razzaghi, Ali MotazediFard, Marzieh Akbari, Seyed Ahmad Madani, Masoud Yousefi, Ali Allahi, Ghazal Mehrabanpajooh, Mohsen Shokrolahi, Hamid Asgari, Zafar Riazi, | (参考訳) 本稿では,Rb原子のLD2遷移に0.5MHz線幅を有する狭帯域DBRレーザーの飽和吸収分光(SAS)と周波数同期(FL)を実験的に報告する。
In this paper, we experimentally report the saturated absorption spectroscopy (SAS) and frequency locking (FL) of a narrow-band DBR laser with 0.5MHz linewidth on the LD2-transition of Rb atoms. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# Grokked Transformers is Implicit Reasoners: a Mechanistic Journey to the Edge of Generalization
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization ( http://arxiv.org/abs/2405.15071v2 ) ライセンス: Link先を確認 | Boshi Wang, Xiang Yue, Yu Su, Huan Sun, | (参考訳) トランスフォーマーがパラメトリックな知識よりも暗黙的に理屈を学べるかどうかは、最も有能な言語モデルでさえも苦戦するスキルである。
コンポジションと比較という2つの代表的な推論タイプに注目して、トランスフォーマーは暗黙の推論を学習できるが、グラクキングによって、すなわち過度な適合をはるかに超える訓練をすることができる。
一般化のレベルは推論の種類によって異なる: 分布外例に直面した場合、変換器は構成を体系的に一般化することができないが、比較で成功する。
トレーニングを通じてモデルの内部を掘り下げ、分析実験を行います。
1)一般化回路の形成及び一般化回路の相対効率との関係等のグラッキングのメカニズム
2) 系統性と一般化回路の構成の関連性
この結果から,暗黙的推論の促進と階層間知識共有の促進など,トランスフォーマーアーキテクチャの潜在的な改善が示唆された。
さらに,大規模な探索空間を持つ挑戦的推論タスクにおいて,非パラメトリックメモリに基づくGPT-4-TurboとGemini-1.5-Proは,入力スタイルや検索拡張によらず失敗することを示した。
We study whether transformers can learn to implicitly reason over parametric knowledge, a skill that even the most capable language models struggle with. Focusing on two representative reasoning types, composition and comparison, we consistently find that transformers can learn implicit reasoning, but only through grokking, i.e., extended training far beyond overfitting. The levels of generalization also vary across reasoning types: when faced with out-of-distribution examples, transformers fail to systematically generalize for composition but succeed for comparison. We delve into the model's internals throughout training, conducting analytical experiments that reveal: 1) the mechanism behind grokking, such as the formation of the generalizing circuit and its relation to the relative efficiency of generalizing and memorizing circuits, and 2) the connection between systematicity and the configuration of the generalizing circuit. Our findings guide data and training setup to better induce implicit reasoning and suggest potential improvements to the transformer architecture, such as encouraging cross-layer knowledge sharing. Furthermore, we demonstrate that for a challenging reasoning task with a large search space, GPT-4-Turbo and Gemini-1.5-Pro based on non-parametric memory fail badly regardless of prompting styles or retrieval augmentation, while a fully grokked transformer can achieve near-perfect accuracy, showcasing the power of parametric memory for complex reasoning. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# 時系列予測のスケーリング法則
Scaling Law for Time Series Forecasting ( http://arxiv.org/abs/2405.15124v2 ) ライセンス: Link先を確認 | Jingzhe Shi, Qinwei Ma, Huan Ma, Lei Li, | (参考訳) 大規模データセット、複雑なモデル、強化されたデータの粒度に報いるスケーリング法則は、ディープラーニングの様々な分野において観察されている。
しかし、時系列予測の研究は、時系列予測のためのディープラーニング手法のスケーリングの振る舞いに疑問を投げかけている: より多くのトレーニングデータがパフォーマンスを改善する一方で、より有能なモデルは、必ずしもより能力の低いモデルよりも優れており、より長い入力地平線が一部のモデルのパフォーマンスを損なう可能性がある。
本稿では,このような異常な振る舞いを説明できる時系列予測法則のスケーリング理論を提案する。
データセットのサイズとモデルの複雑さ、および時系列データの粒度の影響を考慮する。
さらに, 時系列予測データセットの多種多様な集合を用いて, 時系列予測の領域におけるデータセットサイズとモデル複雑性のスケーリング法則の妥当性を検証し, そして, 特に振り返り水平の影響について, 理論的枠組みを実証的に評価した。
我々の発見は、限られたサイズの時系列予測データセットをターゲットとした新しいモデルや、将来の作業における時系列予測のための大規模な基礎データセットやモデルに刺激を与えてくれることを願っている。
実験のための \footnote{Codes は、次のように公開されます。
Scaling law that rewards large datasets, complex models and enhanced data granularity has been observed in various fields of deep learning. Yet, studies on time series forecasting have cast doubt on scaling behaviors of deep learning methods for time series forecasting: while more training data improves performance, more capable models do not always outperform less capable models, and longer input horizons may hurt performance for some models. We propose a theory for scaling law for time series forecasting that can explain these seemingly abnormal behaviors. We take into account the impact of dataset size and model complexity, as well as time series data granularity, particularly focusing on the look-back horizon, an aspect that has been unexplored in previous theories. Furthermore, we empirically evaluate various models using a diverse set of time series forecasting datasets, which (1) verifies the validity of scaling law on dataset size and model complexity within the realm of time series forecasting, and (2) validates our theoretical framework, particularly regarding the influence of look back horizon. We hope our findings may inspire new models targeting time series forecasting datasets of limited size, as well as large foundational datasets and models for time series forecasting in future works.\footnote{Codes for our experiments will be made public at: \url{https://github.com/JingzheShi/ScalingLawForTimeSeriesForecasting}. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# HDR-GS: ガウススプラッティングによる1000倍高速高ダイナミックレンジ新規ビュー合成
HDR-GS: Efficient High Dynamic Range Novel View Synthesis at 1000x Speed via Gaussian Splatting ( http://arxiv.org/abs/2405.15125v2 ) ライセンス: Link先を確認 | Yuanhao Cai, Zihao Xiao, Yixun Liang, Minghan Qin, Yulun Zhang, Xiaokang Yang, Yaoyao Liu, Alan Yuille, | (参考訳) 高ダイナミックレンジ(HDR)新規ビュー合成(NVS)は、HDRイメージング技術を用いて、新しい視点からフォトリアリスティック画像を作成することを目的としている。
レンダリングされたHDR画像は、通常の低ダイナミックレンジ(LDR)画像よりも、シーンの詳細を含む幅広い輝度レベルをキャプチャする。
既存のHDR NVS法は主にNeRFに基づいている。
訓練時間は長く、推論速度は遅い。
本稿では,新しいHDRビューを効率よくレンダリングし,ユーザ入力の露光時間でLDR画像を再構成できる新しいフレームワークであるHigh Dynamic Range Gaussian Splatting (HDR-GS)を提案する。
具体的には、球面調和を利用してHDR色に適合し、MLPベースのトーンマッパーを用いてLDR色を描画するDual Dynamic Range(DDR)ガウス点クラウドモデルを設計する。
HDRとLDRの色は、2つのParallel Differentiable Rasterization(PDR)プロセスに入力され、HDRとLDRのビューを再構成する。
HDR NVSにおける3次元ガウススプラッティング法の研究のためのデータ基盤を確立するために,カメラパラメータを再検討し,ガウス点雲の初期位置を計算する。
実験の結果,我々のHDR-GSはLDRおよびHDR NVSの3.84dBと1.91dBを上回り,1000倍の推論速度と6.3%のトレーニング時間しか必要としないことがわかった。
コード、モデル、修正されたデータはhttps://github.com/caiyuanhao1998/HDR-GSで公開される。
High dynamic range (HDR) novel view synthesis (NVS) aims to create photorealistic images from novel viewpoints using HDR imaging techniques. The rendered HDR images capture a wider range of brightness levels containing more details of the scene than normal low dynamic range (LDR) images. Existing HDR NVS methods are mainly based on NeRF. They suffer from long training time and slow inference speed. In this paper, we propose a new framework, High Dynamic Range Gaussian Splatting (HDR-GS), which can efficiently render novel HDR views and reconstruct LDR images with a user input exposure time. Specifically, we design a Dual Dynamic Range (DDR) Gaussian point cloud model that uses spherical harmonics to fit HDR color and employs an MLP-based tone-mapper to render LDR color. The HDR and LDR colors are then fed into two Parallel Differentiable Rasterization (PDR) processes to reconstruct HDR and LDR views. To establish the data foundation for the research of 3D Gaussian splatting-based methods in HDR NVS, we recalibrate the camera parameters and compute the initial positions for Gaussian point clouds. Experiments demonstrate that our HDR-GS surpasses the state-of-the-art NeRF-based method by 3.84 and 1.91 dB on LDR and HDR NVS while enjoying 1000x inference speed and only requiring 6.3% training time. Code, models, and recalibrated data will be publicly available at https://github.com/caiyuanhao1998/HDR-GS | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# 効果的なバイオメディカルエンティティリンク:低リソース技術による臨床テキスト標準化
Efficient Biomedical Entity Linking: Clinical Text Standardization with Low-Resource Techniques ( http://arxiv.org/abs/2405.15134v2 ) ライセンス: Link先を確認 | Akshit Achara, Sanand Sasidharan, Gagan N, | (参考訳) 臨床テキストは情報に富み、治療、薬学、解剖学など多くの臨床用語で言及されている。
複数の用語は、臨床エンティティと呼ばれることができる同じコア概念を参照することができる。
UMLS(Unified Medical Language System)のようなオントロジーは、定義、関係、その他の対応する情報を含む何百万もの臨床エンティティを格納するために開発・維持されている。
これらのオントロジーは、バイオメディカルエンティティリンクを通じて、臨床用語の様々な表面形態を標準化することにより、臨床テキストの標準化に使用される。
トランスフォーマーベースの言語モデルの導入により、バイオメディカルなエンティティリンクが大幅に進歩した。
本研究は,エンティティに関連付けられた同義語ペアを通して学習することに焦点を当てる。
既存のアプローチと比較して、我々のアプローチはトレーニングデータとリソース消費を大幅に削減します。
さらに,エンティティの曖昧さを解消するためのコンテキストベースおよびコンテキストレスリグレード手法を提案する。
全体としては、ドメインベースのトレーニングなしにUMLS上で最大の注釈付きデータセットであるMedmentionsデータセット上で、最先端のゼロショットと遠隔教師付きエンティティリンク技術に類似したパフォーマンスを実現する。
最後に,検索性能だけでは評価基準として不十分であることを示すとともに,記事の量的・質的な分析を導入して,エンティティリンク手法の性能に関するさらなる知見を明らかにする。
Clinical text is rich in information, with mentions of treatment, medication and anatomy among many other clinical terms. Multiple terms can refer to the same core concepts which can be referred as a clinical entity. Ontologies like the Unified Medical Language System (UMLS) are developed and maintained to store millions of clinical entities including the definitions, relations and other corresponding information. These ontologies are used for standardization of clinical text by normalizing varying surface forms of a clinical term through Biomedical entity linking. With the introduction of transformer-based language models, there has been significant progress in Biomedical entity linking. In this work, we focus on learning through synonym pairs associated with the entities. As compared to the existing approaches, our approach significantly reduces the training data and resource consumption. Moreover, we propose a suite of context-based and context-less reranking techniques for performing the entity disambiguation. Overall, we achieve similar performance to the state-of-the-art zero-shot and distant supervised entity linking techniques on the Medmentions dataset, the largest annotated dataset on UMLS, without any domain-based training. Finally, we show that retrieval performance alone might not be sufficient as an evaluation metric and introduce an article level quantitative and qualitative analysis to reveal further insights on the performance of entity linking methods. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# 航空ビュー人間検出における合成データの影響を探る
Exploring the Impact of Synthetic Data for Aerial-view Human Detection ( http://arxiv.org/abs/2405.15203v2 ) ライセンス: Link先を確認 | Hyungtae Lee, Yan Zhang, Yi-Ting Shen, Heesung Kwon, Shuvra S. Bhattacharyya, | (参考訳) 航空ビューの人間検出は、地上ビューの人間検出と比較して、より多様な人間の外見を捉えるため、大規模なデータに対する大きな需要がある。
したがって、合成データはデータを拡張するのに良いリソースとなるが、実世界のデータとのドメインギャップは、トレーニングで使用する上で最大の障害である。
ドメインギャップに対処する一般的な解決策として、sim2real変換が使用され、その品質は以下の3つの要因によって影響を受ける。
一 領域ギャップを計算する際に基準となる実データ
二 変換品質の劣化を避けるために選択された合成データ及び
三 合成データが選択された合成データプール
本稿では,これらの要因が学習性能の向上とドメイン一般化能力の獲得の観点から,学習における合成データの有効性の最大化に与える影響について検討する。
第2の利点評価指標として,全テストデータのマハラノビス距離の正規化和として導かれる2つのデータセット間の分布ギャップを測定する手法を提案する。
その結果, 正確な理解が得られず, これまでに研究されていない, あるいは使用されていない重要な発見がいくつか見出された。
これらの発見は、理解の欠如により、直感的に使用するか、あるいは機械学習に合成データを使うことをためらう現在の傾向を破り、将来の研究でより適切な利用につながると期待している。
Aerial-view human detection has a large demand for large-scale data to capture more diverse human appearances compared to ground-view human detection. Therefore, synthetic data can be a good resource to expand data, but the domain gap with real-world data is the biggest obstacle to its use in training. As a common solution to deal with the domain gap, the sim2real transformation is used, and its quality is affected by three factors: i) the real data serving as a reference when calculating the domain gap, ii) the synthetic data chosen to avoid the transformation quality degradation, and iii) the synthetic data pool from which the synthetic data is selected. In this paper, we investigate the impact of these factors on maximizing the effectiveness of synthetic data in training in terms of improving learning performance and acquiring domain generalization ability--two main benefits expected of using synthetic data. As an evaluation metric for the second benefit, we introduce a method for measuring the distribution gap between two datasets, which is derived as the normalized sum of the Mahalanobis distances of all test data. As a result, we have discovered several important findings that have never been investigated or have been used previously without accurate understanding. We expect that these findings can break the current trend of either naively using or being hesitant to use synthetic data in machine learning due to the lack of understanding, leading to more appropriate use in future research. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# 未知物体を利用したゼロショットオブジェクトナビゲーションのためのラベル付きメタ関係の構築
Leveraging Unknown Objects to Construct Labeled-Unlabeled Meta-Relationships for Zero-Shot Object Navigation ( http://arxiv.org/abs/2405.15222v2 ) ライセンス: Link先を確認 | Yanwei Zheng, Changrui Li, Chuanlin Lan, Yaling Li, Xiao Zhang, Yifei Zou, Dongxiao Yu, Zhipeng Cai, | (参考訳) ゼロショットオブジェクトナビゲーション(ZSON)は、エージェントがトレーニングセットに存在しない未確認オブジェクトにナビゲートする状況に対処する。
これまでの作業は主に、既知のラベルで見たオブジェクトを使用してエージェントをトレーニングし、ラベルなしで見たオブジェクトを無視する。
本稿では,これまで見過ごされていた情報を用いてエージェントの知識基盤を充実させる訓練手順において,ラベルのない物体を「未知の物体」と呼ぶ。
さらに,ラベルのないオブジェクト間の関係を利用して,拡張オブジェクト情報を得るLWMCMを提案する。
具体的には、未ラベルのターゲットオブジェクトの特徴表現を生成するためのターゲット特徴生成器(TFG)を提案する。
その後、未ラベル対象識別子(UOI)モジュールは、カメラがキャプチャした現在の観測フレームに未ラベル対象オブジェクトが現れるかどうかを評価し、観察コンテキストに特有の適応されたターゲット特徴表現を生成する。
メタコントラスト特徴変調器(MCFM)では、対象の特徴は観測フレーム内の物体の特徴に近づきながら、観測対象の物体の特徴から遠ざかる。
最後に、メタオブジェクトグラフ学習器(MOGL)モジュールを用いて、特徴量に基づいてオブジェクト間の関係を計算する。
提案手法の有効性をAI2THORとRobothorプラットフォームで実証した。
Zero-shot object navigation (ZSON) addresses situation where an agent navigates to an unseen object that does not present in the training set. Previous works mainly train agent using seen objects with known labels, and ignore the seen objects without labels. In this paper, we introduce seen objects without labels, herein termed as ``unknown objects'', into training procedure to enrich the agent's knowledge base with distinguishable but previously overlooked information. Furthermore, we propose the label-wise meta-correlation module (LWMCM) to harness relationships among objects with and without labels, and obtain enhanced objects information. Specially, we propose target feature generator (TFG) to generate the features representation of the unlabeled target objects. Subsequently, the unlabeled object identifier (UOI) module assesses whether the unlabeled target object appears in the current observation frame captured by the camera and produces an adapted target features representation specific to the observed context. In meta contrastive feature modifier (MCFM), the target features is modified via approaching the features of objects within the observation frame while distancing itself from features of unobserved objects. Finally, the meta object-graph learner (MOGL) module is utilized to calculate the relationships among objects based on the features. Experiments conducted on AI2THOR and RoboTHOR platforms demonstrate the effectiveness of our proposed method. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# 振り返り:教師投影ヘッドを用いた自己教師型学習による軽量モデルへの効率的な埋込み蒸留
Retro: Reusing teacher projection head for efficient embedding distillation on Lightweight Models via Self-supervised Learning ( http://arxiv.org/abs/2405.15311v2 ) ライセンス: Link先を確認 | Khanh-Binh Nguyen, Chae Jung Park, | (参考訳) 自己教師付き学習(SSL)は、大量のラベルのないデータで効果的な表現を学習する能力に注目が集まっている。
軽量モデルは、コントラストと一貫性の制約を用いて、より大規模な自己教師付き事前訓練モデルから蒸留することができる。
しかし、プロジェクションヘッドのサイズの違いは、生徒が先生の埋め込みを正確に模倣することを困難にしている。
本稿では,教師のプロジェクションヘッドを学生に再利用する「textsc{Retro}」を提案する。
例えば、ResNet-50/101/152を教師として使用したEfficientNet-B0のトレーニングでは、ImageNetの線形結果が6.9\%$、69.3\%$、69.8\%$に改善され、パラメータが大幅に少ない。
Self-supervised learning (SSL) is gaining attention for its ability to learn effective representations with large amounts of unlabeled data. Lightweight models can be distilled from larger self-supervised pre-trained models using contrastive and consistency constraints. Still, the different sizes of the projection heads make it challenging for students to mimic the teacher's embedding accurately. We propose \textsc{Retro}, which reuses the teacher's projection head for students, and our experimental results demonstrate significant improvements over the state-of-the-art on all lightweight models. For instance, when training EfficientNet-B0 using ResNet-50/101/152 as teachers, our approach improves the linear result on ImageNet to $66.9\%$, $69.3\%$, and $69.8\%$, respectively, with significantly fewer parameters. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# NuwaTS:不完全な時系列をまとめるファウンデーションモデル
NuwaTS: a Foundation Model Mending Every Incomplete Time Series ( http://arxiv.org/abs/2405.15317v2 ) ライセンス: Link先を確認 | Jinguo Cheng, Chunwei Yang, Wanlin Cai, Yuxuan Liang, Yuankai Wu, | (参考訳) 時系列計算は様々な現実世界のシステムにおいて重要な役割を担い、広く研究されてきた。
時系列計算のモデルは、しばしば特殊化を必要とし、異なるドメインに対する異なる設計と欠落パターンを必要とする。
本研究では,プレトレーニング言語モデル(PLM)を一般化した時系列計算のためのフレームワークであるNuwaTSを紹介する。
トレーニングが完了すると、このモデルは、欠落したパターンを持つ任意のドメインからの不完全な時系列上の計算タスクに適用することができる。
まず、不完全時系列の各サブシリーズパッチに対する特定の埋め込みを考案する。
これらの埋め込みは、パッチ自体、パッチ内の欠落したデータパターン、およびパッチの統計特性に関する情報をカプセル化する。
異なる欠落パターンに対するモデルの適応性を高めるために、異なる欠落パターン間で同じパッチの表現をより類似させる対照的な学習手法を提案する。
この対照的な損失と、欠落したデータ計算タスクを組み合わせることで、PLMを訓練して1対1の計算モデルを得る。
さらに,プラグ・アンド・プレイ方式を用いてドメイン固有モデルの学習を行う。
実験の結果,様々な領域から1700万以上の時系列のデータセットを活用することで,既存のドメイン固有モデルよりも優れた1対1の計算モデルが得られた。
また,NuwaTSは予測などの他の時系列タスクにも一般化可能であることがわかった。
私たちのコードはhttps://github.com/Chengyui/NuwaTS.comで公開されています。
Time series imputation plays a crucial role in various real-world systems and has been extensively explored. Models for time series imputation often require specialization, necessitating distinct designs for different domains and missing patterns. In this study, we introduce NuwaTS, a framework to repurpose Pre-trained Language Model (PLM) for general time series imputation. Once trained, this model can be applied to imputation tasks on incomplete time series from any domain with any missing patterns. We begin by devising specific embeddings for each sub-series patch of the incomplete time series. These embeddings encapsulate information about the patch itself, the missing data patterns within the patch, and the patch's statistical characteristics. To enhance the model's adaptability to different missing patterns, we propose a contrastive learning approach to make representations of the same patch more similar across different missing patterns. By combining this contrastive loss with the missing data imputation task, we train PLMs to obtain a one-for-all imputation model. Furthermore, we utilize a plug-and-play layer-wise fine-tuning approach to train domain-specific models. Experimental results demonstrate that leveraging a dataset of over seventeen million time series from diverse domains, we obtain a one-for-all imputation model which outperforms existing domain-specific models across various datasets and missing patterns. Additionally, we find that NuwaTS can be generalized to other time series tasks such as forecasting. Our codes are available at https://github.com/Chengyui/NuwaTS. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# 相互Validated Off-Policy評価
Cross-Validated Off-Policy Evaluation ( http://arxiv.org/abs/2405.15332v2 ) ライセンス: Link先を確認 | Matej Cief, Branislav Kveton, Michal Kompan, | (参考訳) 本稿では,オフ政治評価における推定器選択とハイパーパラメータチューニングの問題について検討する。
クロスバリデーションは教師付き学習において最も一般的なモデル選択法であるが、オフ政治評価は主に理論に基づくアプローチに依存しており、実践者への限られた指導しか提供しない。
政治以外の評価にクロスバリデーションをどう使うかを示す。
このことは、非政治評価におけるクロスバリデーションが実現不可能であるという一般的な信念に挑戦する。
提案手法を実証的に評価し,様々なユースケースに対処することを示す。
In this paper, we study the problem of estimator selection and hyper-parameter tuning in off-policy evaluation. Although cross-validation is the most popular method for model selection in supervised learning, off-policy evaluation relies mostly on theory-based approaches, which provide only limited guidance to practitioners. We show how to use cross-validation for off-policy evaluation. This challenges a popular belief that cross-validation in off-policy evaluation is not feasible. We evaluate our method empirically and show that it addresses a variety of use cases. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# 位相最適化によるマルチキュービット量子状態生成
Multi-qubit quantum state preparation enabled by topology optimization ( http://arxiv.org/abs/2405.15361v2 ) ライセンス: Link先を確認 | A. Miguel-Torcal, A. González-Tudela, F. J. García-Vidal, A. I. Fernández-Domínguez, | (参考訳) トポロジー最適化を用いることで、逆設計のナノフォトニックキャビティにより、量子エミッタのペアとトリプルの純状態が作成できる。
我々の装置は誘電率の適度な値を持ち、連続的なレーザー駆動の下で動作し、遠方量子ビット(多波長の自然波長)に接近するターゲット(ベル、W)状態に忠実性をもたらす。
本手法では,エミッタ間の散逸結合を最大化して絡み合いを発生させることにより,システムの駆動散逸ダイナミクスにおいて,多粒子純定常状態の生成を可能にする。
我々の発見は、非古典的な光発生、量子シミュレーション、量子センシングの潜在的な応用を含む、工学的な特徴を持つマルチキュービット量子状態の効率的かつ迅速な準備に向けての道を開く。
Using topology optimization, we inverse-design nanophotonic cavities enabling the preparation of pure states of pairs and triples of quantum emitters. Our devices involve moderate values of the dielectric constant, operate under continuous laser driving, and yield fidelities to the target (Bell and W) states approaching unity for distant qubits (several natural wavelengths apart). In the fidelity optimization procedure, our algorithm generates entanglement by maximizing the dissipative coupling between the emitters, which allows the formation of multipartite pure steady states in the driven-dissipative dynamics of the system. Our findings open the way towards the efficient and fast preparation of multiqubit quantum states with engineered features, with potential applications for nonclassical light generation, quantum simulation, and quantum sensing. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# MambaVC: 選択された状態空間で視覚的圧縮を学ぶ
MambaVC: Learned Visual Compression with Selective State Spaces ( http://arxiv.org/abs/2405.15413v2 ) ライセンス: Link先を確認 | Shiyu Qin, Jinpeng Wang, Yimin Zhou, Bin Chen, Tianci Luo, Baoyi An, Tao Dai, Shutao Xia, Yaowei Wang, | (参考訳) 学習された視覚圧縮はマルチメディアにおいて重要かつ活発なタスクである。
既存のアプローチでは、コンテンツ配信をモデル化し、冗長性を排除するためのCNNやTransformerベースの様々な設計が検討されている。
近年、状態空間モデル (SSM) は、その長距離モデリング能力と効率性から、将来性を示している。
このことに触発されて、私たちは視覚的圧縮のためのSSMを探究する第一歩を踏み出した。
本稿では,SSMに基づくシンプルで強力で効率的な圧縮ネットワークであるMambaVCを紹介する。
MambaVCは、ダウンサンプリング後の非線形アクティベーション関数として2次元選択的スキャン(2DSS)モジュールを備えた視覚状態空間(VSS)ブロックを開発する。
圧縮ベンチマークデータセットでは、MambaVCはより低い計算およびメモリオーバーヘッドでより優れたレート歪み性能を達成する。
具体的には、CNN と Transformer のそれぞれ 9.3% と 15.6% を Kodak で上回り、計算を 42% と 24% に減らし、メモリの 12% と 71% を節約した。
MambaVCは高解像度の画像でさらに改善され、現実世界のアプリケーションにおけるその可能性とスケーラビリティを強調している。
また、異なるネットワーク設計の包括的な比較も提供し、MambaVCの利点を裏付けています。
Learned visual compression is an important and active task in multimedia. Existing approaches have explored various CNN- and Transformer-based designs to model content distribution and eliminate redundancy, where balancing efficacy (i.e., rate-distortion trade-off) and efficiency remains a challenge. Recently, state-space models (SSMs) have shown promise due to their long-range modeling capacity and efficiency. Inspired by this, we take the first step to explore SSMs for visual compression. We introduce MambaVC, a simple, strong and efficient compression network based on SSM. MambaVC develops a visual state space (VSS) block with a 2D selective scanning (2DSS) module as the nonlinear activation function after each downsampling, which helps to capture informative global contexts and enhances compression. On compression benchmark datasets, MambaVC achieves superior rate-distortion performance with lower computational and memory overheads. Specifically, it outperforms CNN and Transformer variants by 9.3% and 15.6% on Kodak, respectively, while reducing computation by 42% and 24%, and saving 12% and 71% of memory. MambaVC shows even greater improvements with high-resolution images, highlighting its potential and scalability in real-world applications. We also provide a comprehensive comparison of different network designs, underscoring MambaVC's advantages. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# HyperInterval:連続学習におけるウェイトインターバル領域のトレーニングのためのハイパーネットワークアプローチ
HyperInterval: Hypernetwork approach to training weight interval regions in continual learning ( http://arxiv.org/abs/2405.15444v2 ) ライセンス: Link先を確認 | Patryk Krukowski, Anna Bielawska, Kamil Książek, Paweł Wawrzyński, Paweł Batorski, Przemysław Spurek, | (参考訳) 最近、ニューラルネットワークのパラメータ空間に間隔制約を強制することに依存するInterContiNet(IntercontiNet)と呼ばれる、破滅的な忘れを制御するために、新しい連続学習(CL)パラダイムが提示された。
残念ながら、InterContiNetトレーニングは重量空間の高次元性のために困難であり、間隔の管理が困難である。
この問題に対処するために,組込み空間内にインターバル演算を導入し,これらのインターバルを対象ネットワークパラメータ空間にマッピングするハイパーネットワーク技術であるHyperIntervalを導入する。
我々は、連続したタスクに対するインターバル埋め込みを訓練し、ハイパーネットワークをトレーニングし、これらの埋め込みをターゲットネットワークの重みに変換する。
与えられたタスクへの埋め込みはハイパーネットワークと共にトレーニングされ、以前のタスクの埋め込みに対するターゲットネットワークの応答を保存する。
インターバル算術は、高次元の重み空間における間隔を直接準備するのではなく、より管理可能な、より低次元の埋め込み空間で動作する。
私たちのモデルはより速く、より効率的なトレーニングを可能にします。
さらに、HyperIntervalは忘れないことを保証する。
トレーニングの終わりに、すべてのタスク専用の1つのネットワークを生成するために、1つの普遍的な埋め込みを選択することができます。
このようなフレームワークでは、ハイパーネットワークはトレーニングにのみ使用され、メタトレーナーとして見ることができる。
HyperIntervalはInterContiNetよりもはるかに優れた結果を取得し、いくつかのベンチマークでSOTA結果を提供する。
Recently, a new Continual Learning (CL) paradigm was presented to control catastrophic forgetting, called Interval Continual Learning (InterContiNet), which relies on enforcing interval constraints on the neural network parameter space. Unfortunately, InterContiNet training is challenging due to the high dimensionality of the weight space, making intervals difficult to manage. To address this issue, we introduce HyperInterval, a technique that employs interval arithmetic within the embedding space and utilizes a hypernetwork to map these intervals to the target network parameter space. We train interval embeddings for consecutive tasks and train a hypernetwork to transform these embeddings into weights of the target network. An embedding for a given task is trained along with the hypernetwork, preserving the response of the target network for the previous task embeddings. Interval arithmetic works with a more manageable, lower-dimensional embedding space rather than directly preparing intervals in a high-dimensional weight space. Our model allows faster and more efficient training. Furthermore, HyperInterval maintains the guarantee of not forgetting. At the end of training, we can choose one universal embedding to produce a single network dedicated to all tasks. In such a framework, hypernetwork is used only for training and can be seen as a meta-trainer. HyperInterval obtains significantly better results than InterContiNet and gives SOTA results on several benchmarks. | 翻訳日:2024-05-29 02:49:28 公開日:2024-05-27 |
# 知識編集における論理ルールの活用 - 最上位のチェリー
Leveraging Logical Rules in Knowledge Editing: A Cherry on the Top ( http://arxiv.org/abs/2405.15452v2 ) ライセンス: Link先を確認 | Keyuan Cheng, Muhammad Asif Ali, Shu Yang, Gang Lin, Yuxuan Zhai, Haoyang Fei, Ke Xu, Lu Yu, Lijie Hu, Di Wang, | (参考訳) 知識編集(KE)におけるマルチホップ質問回答(MQA)は,大規模言語モデル(LLM)において重要な課題である。
この領域のベストパフォーマンスソリューションは、計画とパラダイムを用いて、質問をサブクエストに分割し、応答生成するが、この手法は、質問を分解し難いため、サブ最適であり、知識編集の結果、相関した知識更新に明示的に対応していない、と我々は主張する。
これは、更新された知識の全体的な一貫性に有害な影響を与える。
これらの問題に対処するため,本稿では,既存のMQAメソッドをKEで拡張する上で最上位に位置する,RULE-KE(RULE-based Knowledge Editing)という新しいフレームワークを提案する。
具体的には、RULE-KEはルール発見を利用して論理ルールの集合を発見する。
そして、発見されたルールを使って、編集と非常に相関した事実に関する知識を更新する。
既存のキュレートされたデータセット(RKE-EVAL)を用いた実験的評価では、RULE-KEはパラメータベースのソリューションとメモリベースのソリューションの両方のパフォーマンスを、それぞれ92%と112.9%に向上させる。
Multi-hop Question Answering (MQA) under knowledge editing (KE) is a key challenge in Large Language Models (LLMs). While best-performing solutions in this domain use a plan and solve paradigm to split a question into sub-questions followed by response generation, we claim that this approach is sub-optimal as it fails for hard to decompose questions, and it does not explicitly cater to correlated knowledge updates resulting as a consequence of knowledge edits. This has a detrimental impact on the overall consistency of the updated knowledge. To address these issues, in this paper, we propose a novel framework named RULE-KE, i.e., RULE based Knowledge Editing, which is a cherry on the top for augmenting the performance of all existing MQA methods under KE. Specifically, RULE-KE leverages rule discovery to discover a set of logical rules. Then, it uses these discovered rules to update knowledge about facts highly correlated with the edit. Experimental evaluation using existing and newly curated datasets (i.e., RKE-EVAL) shows that RULE-KE helps augment both performances of parameter-based and memory-based solutions up to 92% and 112.9%, respectively. | 翻訳日:2024-05-29 02:39:34 公開日:2024-05-27 |
# グラフ構造データに対する独立したクロスエントロピー損失の再考
Rethinking Independent Cross-Entropy Loss For Graph-Structured Data ( http://arxiv.org/abs/2405.15564v2 ) ライセンス: Link先を確認 | Rui Miao, Kaixiong Zhou, Yili Wang, Ninghao Liu, Ying Wang, Xin Wang, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの学習において顕著なパフォーマンスを示した。
ノードラベル間のi.dの仮定に基づいてノード分類タスクを考えると、従来の教師付き学習は独立トレーニングノードのクロスエントロピー損失を単純に和らげ、GNNの重みを最適化するために平均損失を適用する。
しかし、他のデータフォーマットとは異なり、ノードは自然に接続される。
ノードラベルの独立分布モデリングは,グラフ全体を一般化し,敵攻撃を防御するGNNの能力を制限している。
本研究では,各ノードと対応するクラスタの結合分布をモデル化する,共同クラスタ型学習という新しいフレームワークを提案する。
我々は,ノードとクラスタのラベルを表現した共同分布を学習し,得られた共同損失でGNNを訓練する。
このようにして、ローカルクラスタから抽出されたデータラベル参照信号は、ターゲットノード上の識別能力を明示的に強化する。
本研究では,GNNのノード分類精度を効果的に向上させることができることを示す。
さらに,不利な干渉を伴わない参照信号の恩恵を受けながら,我々の学習パラダイムは,ノード分類が敵攻撃の影響を著しく防ぐ。
Graph neural networks (GNNs) have exhibited prominent performance in learning graph-structured data. Considering node classification task, based on the i.i.d assumption among node labels, the traditional supervised learning simply sums up cross-entropy losses of the independent training nodes and applies the average loss to optimize GNNs' weights. But different from other data formats, the nodes are naturally connected. It is found that the independent distribution modeling of node labels restricts GNNs' capability to generalize over the entire graph and defend adversarial attacks. In this work, we propose a new framework, termed joint-cluster supervised learning, to model the joint distribution of each node with its corresponding cluster. We learn the joint distribution of node and cluster labels conditioned on their representations, and train GNNs with the obtained joint loss. In this way, the data-label reference signals extracted from the local cluster explicitly strengthen the discrimination ability on the target node. The extensive experiments demonstrate that our joint-cluster supervised learning can effectively bolster GNNs' node classification accuracy. Furthermore, being benefited from the reference signals which may be free from spiteful interference, our learning paradigm significantly protects the node classification from being affected by the adversarial attack. | 翻訳日:2024-05-29 02:39:33 公開日:2024-05-27 |
# Meteor:Mambaをベースとした大規模言語と視覚モデルのためのRationaleのトラバース
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models ( http://arxiv.org/abs/2405.15574v2 ) ライセンス: Link先を確認 | Byung-Kwan Lee, Chae Won Kim, Beomchan Park, Yong Man Ro, | (参考訳) 大規模言語と視覚モデル(LLVM)の急速な開発は、視覚的インストラクションチューニングの進歩によって進められている。
近年、オープンソースのLLVMは、高品質なビジュアルインストラクションチューニングデータセットをキュレートし、強力なクローズドソースLLVMのパフォーマンスギャップを狭めるために、追加のビジョンエンコーダや複数のコンピュータビジョンモデルを利用している。
これらの進歩は、基本的なイメージ理解、常識や非対象概念(例えば、チャート、図、記号、記号、記号、数学問題)に関する現実世界の知識、複雑な問題を解くためのステップバイステップの手順など、多様な機能に必要な多面的な情報に起因している。
本稿では,多面的情報から,多面的理性を利用して理解と回答能力を向上させる,新しい効率的なLLVM,Mamba-based traversal of rationales(Meteor)を提案する。
豊富な情報を含む長大な論理を埋め込むために,線形時間複雑性を伴う逐次データ処理が可能なMambaアーキテクチャを用いる。
我々は, 合理的の効率的な埋め込みを容易にする, 合理的のトラバースという新しい概念を導入する。
その後、バックボーン・マルチモーダル言語モデル (MLM) を訓練し、合理性の助けを借りて回答を生成する。
これらのステップを通じて、Meteorは、モデルサイズをスケールアップしたり、追加のビジョンエンコーダやコンピュータビジョンモデルを採用することなく、さまざまな機能を必要とする複数の評価ベンチマークで、視覚言語のパフォーマンスを大幅に改善した。
The rapid development of large language and vision models (LLVMs) has been driven by advances in visual instruction tuning. Recently, open-source LLVMs have curated high-quality visual instruction tuning datasets and utilized additional vision encoders or multiple computer vision models in order to narrow the performance gap with powerful closed-source LLVMs. These advancements are attributed to multifaceted information required for diverse capabilities, including fundamental image understanding, real-world knowledge about common-sense and non-object concepts (e.g., charts, diagrams, symbols, signs, and math problems), and step-by-step procedures for solving complex questions. Drawing from the multifaceted information, we present a new efficient LLVM, Mamba-based traversal of rationales (Meteor), which leverages multifaceted rationale to enhance understanding and answering capabilities. To embed lengthy rationales containing abundant information, we employ the Mamba architecture, capable of processing sequential data with linear time complexity. We introduce a new concept of traversal of rationale that facilitates efficient embedding of rationale. Subsequently, the backbone multimodal language model (MLM) is trained to generate answers with the aid of rationale. Through these steps, Meteor achieves significant improvements in vision language performances across multiple evaluation benchmarks requiring diverse capabilities, without scaling up the model size or employing additional vision encoders and computer vision models. | 翻訳日:2024-05-29 02:39:33 公開日:2024-05-27 |
# Kronecker-Factored Approximate Curvature for Physics-informed Neural Networks
Kronecker-Factored Approximate Curvature for Physics-Informed Neural Networks ( http://arxiv.org/abs/2405.15603v2 ) ライセンス: Link先を確認 | Felix Dangel, Johannes Müller, Marius Zeinhofer, | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、訓練が難しいことで悪名高い。
近年,自然勾配法とガウス・ニュートン法に基づく2次法が有望な性能を示し,数桁の精度向上を実現している。
提案手法は有望だが,計算コストが高く,曲率行列の評価,保存,反転を行うため,数千のパラメータを持つネットワークにしか拡張できない。
PINN損失に対するKronecker-factored almost curvature (KFAC)を提案する。
我々のアプローチは、従来のディープラーニング問題に対して確立されたKFACを超えて、最適化に不可欠なPDEの微分演算子からのコントリビューションをキャプチャする。
このような損失に対してKFACを確立するために、テイラーモード自動微分を用いて微分演算子の計算グラフを共有重み付きフォワードネットワークとして記述する。
これにより、最近開発された重み付きネットワークの一般的な定式化により、KFACを適用することができる。
経験的に、我々のKFACベースのオプティマイザは、小さな問題に対して高価な2階法と競合し、高次元のニューラルネットワークやPDEに好適にスケールし、一階法やLBFGSを一貫して上回ります。
Physics-informed neural networks (PINNs) are infamous for being hard to train. Recently, second-order methods based on natural gradient and Gauss-Newton methods have shown promising performance, improving the accuracy achieved by first-order methods by several orders of magnitude. While promising, the proposed methods only scale to networks with a few thousand parameters due to the high computational cost to evaluate, store, and invert the curvature matrix. We propose Kronecker-factored approximate curvature (KFAC) for PINN losses that greatly reduces the computational cost and allows scaling to much larger networks. Our approach goes beyond the established KFAC for traditional deep learning problems as it captures contributions from a PDE's differential operator that are crucial for optimization. To establish KFAC for such losses, we use Taylor-mode automatic differentiation to describe the differential operator's computation graph as a forward network with shared weights. This allows us to apply KFAC thanks to a recently-developed general formulation for networks with weight sharing. Empirically, we find that our KFAC-based optimizers are competitive with expensive second-order methods on small problems, scale more favorably to higher-dimensional neural networks and PDEs, and consistently outperform first-order methods and LBFGS. | 翻訳日:2024-05-29 02:39:33 公開日:2024-05-27 |
# HiddenSpeaker: 話者認証システムのための、認識不能な未学習オーディオの生成
HiddenSpeaker: Generate Imperceptible Unlearnable Audios for Speaker Verification System ( http://arxiv.org/abs/2405.15655v2 ) ライセンス: Link先を確認 | Zhisheng Zhang, Pengyang Huang, | (参考訳) 近年、ディープニューラルネットワークの顕著な進歩は、非常に便利なものになっている。
しかし、非常に効果的なモデルのトレーニングプロセスは、大量のサンプルを必要とするため、プライバシー漏洩による不正なエクスプロイトのような大きな潜在的な脅威をもたらす。
これに対し,HiddenSpeaker というフレームワークを提案する。このフレームワークは,学習用サンプルに知覚不能な摂動を埋め込んで,大規模話者を用いた効率的な訓練を行うディープラーニングベースの話者検証システムでは学習不可能である。
HiddenSpeakerは、Single-Level Error-Minimizing (SLEM)と呼ばれる単純なエラー最小化手法を使用して、特定かつ効果的な摂動を生成する。
さらに、人間の知覚的最適化にはハイブリッドな目的関数が使用され、人間の聴取者との摂動が区別できないことが保証される。
我々は、話者検証領域における複数の最先端(SOTA)モデルに関する広範な実験を行い、HiddenSpeakerを評価する。
以上の結果から,HiddenSpeakerは学習不可能なサンプルでモデルを騙すだけでなく,摂動の受容性を高め,異なるモデル間での強い伝達性を示す。
In recent years, the remarkable advancements in deep neural networks have brought tremendous convenience. However, the training process of a highly effective model necessitates a substantial quantity of samples, which brings huge potential threats, like unauthorized exploitation with privacy leakage. In response, we propose a framework named HiddenSpeaker, embedding imperceptible perturbations within the training speech samples and rendering them unlearnable for deep-learning-based speaker verification systems that employ large-scale speakers for efficient training. The HiddenSpeaker utilizes a simplified error-minimizing method named Single-Level Error-Minimizing (SLEM) to generate specific and effective perturbations. Additionally, a hybrid objective function is employed for human perceptual optimization, ensuring the perturbation is indistinguishable from human listeners. We conduct extensive experiments on multiple state-of-the-art (SOTA) models in the speaker verification domain to evaluate HiddenSpeaker. Our results demonstrate that HiddenSpeaker not only deceives the model with unlearnable samples but also enhances the imperceptibility of the perturbations, showcasing strong transferability across different models. | 翻訳日:2024-05-29 02:39:33 公開日:2024-05-27 |
# マルチモーダルデータセットによる逆薬物事象検出の強化:コーパス生成とモデル開発
Enhancing Adverse Drug Event Detection with Multimodal Dataset: Corpus Creation and Model Development ( http://arxiv.org/abs/2405.15766v2 ) ライセンス: Link先を確認 | Pranab Sahoo, Ayush Kumar Singh, Sriparna Saha, Aman Chadha, Samrat Mondal, | (参考訳) 有害薬物イベントの採掘(ADEs)は、薬物移動において重要な役割を担い、薬物に関連する潜在的なリスクを特定し、有害事象の早期発見を促進し、規制決定を導くことによって患者の安全を高める。
従来のADE検出方法は信頼性が高いが遅く、大規模な操作に容易に適応できず、限られた情報を提供する。
ソーシャルメディアコンテンツやバイオメディカル文学、電子医療記録(EMR)などのデータソースの指数的な増加に伴い、これらの非構造化テキストからADE関連情報を抽出することが必須である。
以前のADE鉱業研究は、テキストベースの方法論、視覚的手がかりを見渡すこと、文脈的理解を制限すること、正確な解釈を妨げることに集中してきた。
このギャップに対処するために、ADE関連テキスト情報を視覚支援と組み合わせたMultiModal Adverse Drug Event (MMADE) 検出データセットを提案する。
さらに, ADEを描写した医用画像の詳細な記述を生成することにより, LLMとVLMの能力を活用したADE検出フレームワークを導入し, 医療従事者が視覚的に有害事象を識別できるようにする。
MMADEデータセットを用いて、画像から視覚的手がかりを統合することの重要性を示し、全体的な性能を向上させる。
このアプローチは患者の安全、ADEの認識、医療のアクセシビリティを約束し、パーソナライズされた医療のさらなる探索の道を開く。
The mining of adverse drug events (ADEs) is pivotal in pharmacovigilance, enhancing patient safety by identifying potential risks associated with medications, facilitating early detection of adverse events, and guiding regulatory decision-making. Traditional ADE detection methods are reliable but slow, not easily adaptable to large-scale operations, and offer limited information. With the exponential increase in data sources like social media content, biomedical literature, and Electronic Medical Records (EMR), extracting relevant ADE-related information from these unstructured texts is imperative. Previous ADE mining studies have focused on text-based methodologies, overlooking visual cues, limiting contextual comprehension, and hindering accurate interpretation. To address this gap, we present a MultiModal Adverse Drug Event (MMADE) detection dataset, merging ADE-related textual information with visual aids. Additionally, we introduce a framework that leverages the capabilities of LLMs and VLMs for ADE detection by generating detailed descriptions of medical images depicting ADEs, aiding healthcare professionals in visually identifying adverse events. Using our MMADE dataset, we showcase the significance of integrating visual cues from images to enhance overall performance. This approach holds promise for patient safety, ADE awareness, and healthcare accessibility, paving the way for further exploration in personalized healthcare. | 翻訳日:2024-05-29 02:39:33 公開日:2024-05-27 |
# 自由空間光チャネル乱流予測:機械学習アプローチ
Free-Space Optical Channel Turbulence Prediction: A Machine Learning Approach ( http://arxiv.org/abs/2405.16729v1 ) ライセンス: Link先を確認 | Md Zobaer Islam, Ethan Abele, Fahim Ferdous Hossain, Arsalan Ahmad, Sabit Ekin, John F. O'Hara, | (参考訳) チャネル乱流は、自由空間光(FSO)通信に強い障害を与える。
乱れを緩和するためには、乱流レベルの予測が極めて重要である。
本研究では,FSOデータストリームへの機械学習(ML)の適用について検討し,追加のセンサハードウェアを使わずにチャネル乱流レベルを高速に予測する。
実験室内の6つの異なる乱流レベルの下で制御されたチャネルを通して光ビットストリームを伝送し, MLを用いて乱流レベルを分類する方法の有効性を検討した。
MLに基づく乱流レベル分類では,複数のMLトレーニングパラメータで98%の精度が得られたが,乱流レベル間の変化の時間スケールに大きく依存していた。
Channel turbulence presents a formidable obstacle for free-space optical (FSO) communication. Anticipation of turbulence levels is highly important for mitigating disruptions. We study the application of machine learning (ML) to FSO data streams to rapidly predict channel turbulence levels with no additional sensing hardware. An optical bit stream was transmitted through a controlled channel in the lab under six distinct turbulence levels, and the efficacy of using ML to classify turbulence levels was examined. ML-based turbulence level classification was found to be >98% accurate with multiple ML training parameters, but highly dependent upon the timescale of changes between turbulence levels. | 翻訳日:2024-05-28 19:35:41 公開日:2024-05-27 |
# 潜在エネルギーベースオデュッセイ:エネルギーベース潜在空間における拡張探索によるブラックボックス最適化
Latent Energy-Based Odyssey: Black-Box Optimization via Expanded Exploration in the Energy-Based Latent Space ( http://arxiv.org/abs/2405.16730v1 ) ライセンス: Link先を確認 | Peiyu Yu, Dinghuai Zhang, Hengzhi He, Xiaojian Ma, Ruiyao Miao, Yifan Lu, Yasi Zhang, Deqian Kong, Ruiqi Gao, Jianwen Xie, Guang Cheng, Ying Nian Wu, | (参考訳) Offline Black-Box Optimization (BBO) は、関数値と対応する入力設計のオフラインデータセットから得られた知識を用いてブラックボックス関数を最適化することを目的としている。
しかし、ブラックボックス関数の高次元かつ高マルチモーダルな入力設計空間は、入力設計を直接モデル化し操作する既存のほとんどの方法に固有の課題をもたらす。
これらの問題には、ブラックボックス関数の不正確な近似、入力設計モードのカバーと探索が不十分なことなどが含まれており、新しい入力設計の最適部分の提案につながっている。
本研究では,設計値の結合空間の圧縮的かつ正確な表現として機能する潜時空間の探索を考察し,高値入力設計モードの有効な潜時探索を可能にする。
この目的のために、学習可能なエネルギーベースの潜時空間を定式化し、マルコフ・チェイン・モンテカルロを犠牲にすることなく正確な潜時空間モデルの変分学習のためのノイズ強調テレスコープ密度比推定(NTRE)スキームを提案する。
最適化プロセスは、潜伏空間における学習エネルギーベースモデルによって導かれる高値な設計を探索し、潜伏変数パラメータ化逆モデルから勾配に基づくサンプリングとして定式化する。
このパラメータ化は,主に分散還元に使用される条件共分散行列の基本結果の逆思考を動機として,高値設計モードの探索を促進できることを示す。
提案手法は, 高精度に学習された潜伏空間と拡張探索モデル設計によって支援され, 設計ベンチスイートなどの合成および実世界のデータセットにおいて, 従来の手法よりも大幅に改善されていることが観察された。
Offline Black-Box Optimization (BBO) aims at optimizing a black-box function using the knowledge from a pre-collected offline dataset of function values and corresponding input designs. However, the high-dimensional and highly-multimodal input design space of black-box function pose inherent challenges for most existing methods that model and operate directly upon input designs. These issues include but are not limited to high sample complexity, which relates to inaccurate approximation of black-box function; and insufficient coverage and exploration of input design modes, which leads to suboptimal proposal of new input designs. In this work, we consider finding a latent space that serves as a compressed yet accurate representation of the design-value joint space, enabling effective latent exploration of high-value input design modes. To this end, we formulate an learnable energy-based latent space, and propose Noise-intensified Telescoping density-Ratio Estimation (NTRE) scheme for variational learning of an accurate latent space model without costly Markov Chain Monte Carlo. The optimization process is then exploration of high-value designs guided by the learned energy-based model in the latent space, formulated as gradient-based sampling from a latent-variable-parameterized inverse model. We show that our particular parameterization encourages expanded exploration around high-value design modes, motivated by inversion thinking of a fundamental result of conditional covariance matrix typically used for variance reduction. We observe that our method, backed by an accurately learned informative latent space and an expanding-exploration model design, yields significant improvements over strong previous methods on both synthetic and real world datasets such as the design-bench suite. | 翻訳日:2024-05-28 19:35:41 公開日:2024-05-27 |
# 重量移動を伴わない高速・ロバスト学習のためのランダムノイズによる事前学習
Pretraining with Random Noise for Fast and Robust Learning without Weight Transport ( http://arxiv.org/abs/2405.16731v1 ) ライセンス: Link先を確認 | Jeonghwan Cheon, Sang Wan Lee, Se-Bum Paik, | (参考訳) 脳は環境と相互作用する前にも学習の準備をし、ランダムノイズに似た自発的な神経活動を通じてその構造を精製し、最適化する。
しかし、そのようなプロセスのメカニズムはまだ完全には理解されておらず、このプロセスが機械学習のアルゴリズムの恩恵を受けるかどうかは不明である。
本稿では、フィードバックアライメントアルゴリズムを用いたニューラルネットワークを用いて、ランダムノイズによる事前学習ニューラルネットワークが学習効率を高め、重量輸送を伴わない一般化能力を向上させることを実証する。
まず、ランダムノイズトレーニングは、フィードバックアライメントによってエラーを教えるために必要となる、後方シナプスフィードバックに適合するように前方重みを変更することを発見した。
その結果、予め整列された重みを持つネットワークは、ランダムなノイズトレーニングなしでネットワークよりも顕著に高速に学習し、バックプロパゲーションアルゴリズムに匹敵する収束速度に達する。
ランダムノイズとデータの両方によるシーケンシャルトレーニングは、データのみによるトレーニングよりもシナプスフィードバックに近い重みをもたらし、より正確なクレジット割り当てと学習の高速化を可能にします。
また、各読み出し確率が確率レベルに近づき、ランダムノイズで事前訓練されたネットワークにおいて、重みの有効次元が減少することを示した。
この事前正規化により、ネットワークは低ランクの単純な解を学習でき、その後の訓練における一般化損失を減らすことができる。
これによりネットワークは、新しい分散データセットを強力に一般化することが可能になる。
最後に、ランダムノイズ事前学習がメタロス量を減少させ、様々なタスクに適応するネットワーク能力を高めることを確認した。
以上の結果から,フィードバックアライメントによるランダムノイズトレーニングは,重み付けを伴わずに迅速かつ信頼性の高い学習を容易にする,簡単かつ効果的な事前学習法である可能性が示唆された。
The brain prepares for learning even before interacting with the environment, by refining and optimizing its structures through spontaneous neural activity that resembles random noise. However, the mechanism of such a process has yet to be thoroughly understood, and it is unclear whether this process can benefit the algorithm of machine learning. Here, we study this issue using a neural network with a feedback alignment algorithm, demonstrating that pretraining neural networks with random noise increases the learning efficiency as well as generalization abilities without weight transport. First, we found that random noise training modifies forward weights to match backward synaptic feedback, which is necessary for teaching errors by feedback alignment. As a result, a network with pre-aligned weights learns notably faster than a network without random noise training, even reaching a convergence speed comparable to that of a backpropagation algorithm. Sequential training with both random noise and data brings weights closer to synaptic feedback than training solely with data, enabling more precise credit assignment and faster learning. We also found that each readout probability approaches the chance level and that the effective dimensionality of weights decreases in a network pretrained with random noise. This pre-regularization allows the network to learn simple solutions of a low rank, reducing the generalization loss during subsequent training. This also enables the network robustly to generalize a novel, out-of-distribution dataset. Lastly, we confirmed that random noise pretraining reduces the amount of meta-loss, enhancing the network ability to adapt to various tasks. Overall, our results suggest that random noise training with feedback alignment offers a straightforward yet effective method of pretraining that facilitates quick and reliable learning without weight transport. | 翻訳日:2024-05-28 19:35:41 公開日:2024-05-27 |
# 確率近似におけるメモリと非線形性の連成と定数ステップサイズ
The Collusion of Memory and Nonlinearity in Stochastic Approximation With Constant Stepsize ( http://arxiv.org/abs/2405.16732v1 ) ライセンス: Link先を確認 | Dongyan Huo, Yixuan Zhang, Yudong Chen, Qiaomin Xie, | (参考訳) 本研究では,マルコフデータを用いた確率近似 (SA) と非線形更新を定常ステップサイズ$\alpha>0$で検討する。
既存の作業は主に、i.d.データまたはリニア更新ルールに重点を置いている。
我々は新しい視点を採り、マルコフ的データ依存と非線形更新規則の同時存在を慎重に検討し、これらの2つの構造間の相互作用が、従来の手法では捉えられていない複雑さにどのように結びつくかを説明する。
SA更新の滑らかさと繰り返し特性を活用することにより、SA更新の相関関係を詳細に解析し、$\theta_k$ と Markovian のデータ $x_k$ を反復する。
これにより、既存の解析における障害を克服し、結合プロセス $(x_k, \theta_k)_{k\geq0}$ の弱収束を初めて確立することができる。
さらに、 SA 反復の漸近バイアスを正確に評価し、$\mathbb{E}[\theta_\infty]-\theta^\ast=\alpha(b_\text{m}+b_\text{n}+b_\text{c})+O(\alpha^{3/2})$ で与えられる。
ここで、$b_\text{m}$はマルコフノイズに関連付けられ、$b_\text{n}$は非線形性に結びついており、特に$b_\text{c}$はマルコフノイズと非線型性の間の乗法的相互作用を表しており、これは以前の研究では欠落している。
解析の副産物として、高次モーメント $\mathbb{E}[\|\theta_k-\theta^\ast\|^{2p}] と現在のイテレートに対する非漸近的幾何収束率と中央極限定理を導出する。
In this work, we investigate stochastic approximation (SA) with Markovian data and nonlinear updates under constant stepsize $\alpha>0$. Existing work has primarily focused on either i.i.d. data or linear update rules. We take a new perspective and carefully examine the simultaneous presence of Markovian dependency of data and nonlinear update rules, delineating how the interplay between these two structures leads to complications that are not captured by prior techniques. By leveraging the smoothness and recurrence properties of the SA updates, we develop a fine-grained analysis of the correlation between the SA iterates $\theta_k$ and Markovian data $x_k$. This enables us to overcome the obstacles in existing analysis and establish for the first time the weak convergence of the joint process $(x_k, \theta_k)_{k\geq0}$. Furthermore, we present a precise characterization of the asymptotic bias of the SA iterates, given by $\mathbb{E}[\theta_\infty]-\theta^\ast=\alpha(b_\text{m}+b_\text{n}+b_\text{c})+O(\alpha^{3/2})$. Here, $b_\text{m}$ is associated with the Markovian noise, $b_\text{n}$ is tied to the nonlinearity, and notably, $b_\text{c}$ represents a multiplicative interaction between the Markovian noise and nonlinearity, which is absent in previous works. As a by-product of our analysis, we derive finite-time bounds on higher moment $\mathbb{E}[\|\theta_k-\theta^\ast\|^{2p}]$ and present non-asymptotic geometric convergence rates for the iterates, along with a Central Limit Theorem. | 翻訳日:2024-05-28 19:35:41 公開日:2024-05-27 |
# SIC-POVM と Knaster's Conjecture
SIC-POVMs and the Knaster's Conjecture ( http://arxiv.org/abs/2405.16733v1 ) ライセンス: Link先を確認 | S. B. Samuel, Z. Gedik, | (参考訳) Symmetric Informationally Complete Positive Operator-Valued Measures (SIC-POVMs) はワイル・ハイゼンベルク群を用いて多くの次元で構築されている。
量子情報コミュニティでは、SCI-POVMはすべての次元に存在すると一般的に信じられているが、それらの存在の一般的な証明は依然としてオープンな問題である。
SIC-POVM のブロッホ球表現は、作用素の集合の一般的な幾何学的記述を可能にし、連続函数に基づく正則単純函数の頂点を形成する。
SIC-POVM のこの観点を用いて、Knaster の SIC-POVM の幾何学に関する予想を証明し、一般化された SIC-POVM の連続族の存在を証明する。
さらに、数値法を用いて、すべての頂点が3ドルおよび4ドル次元ヒルベルト空間のブロッホ球面上で同じ値のTr(\rho^3)$に写像されるような正則単純体を構築することができることを示す。
3$次元ヒルベルト空間において、ランダムに選択された$Tr(\rho^3)$値に対して10^4$の一般化されたSIC-POVMを生成し、すべての元がユニタリ変換に等しいようにする。
Symmetric Informationally Complete Positive Operator-Valued Measures (SIC-POVMs) have been constructed in many dimensions using the Weyl-Heisenberg group. In the quantum information community, it is commonly believed that SCI-POVMs exist in all dimensions; however, the general proof of their existence is still an open problem. The Bloch sphere representation of SIC-POVMs allows for a general geometric description of the set of operators, where they form the vertices of a regular simplex oriented based on a continuous function. We use this perspective of the SIC-POVMs to prove the Knaster's conjecture for the geometry of SIC-POVMs and prove the existence of a continuous family of generalized SIC-POVMs where $(n^2-1)$ of the matrices have the same value of $Tr(\rho^k)$. Furthermore, by using numerical methods, we show that a regular simplex can be constructed such that all its vertices map to the same value of $Tr(\rho^3)$ on the Bloch sphere of $3$ and $4$ dimensional Hilbert spaces. In the $3$-dimensional Hilbert space, we generate $10^4$ generalized SIC-POVMs for randomly chosen $Tr(\rho^3)$ values such that all the elements are equivalent up to unitary transformations. | 翻訳日:2024-05-28 19:35:41 公開日:2024-05-27 |
# 確率勾配近位サンプリングによる高速サンプリング
Faster Sampling via Stochastic Gradient Proximal Sampler ( http://arxiv.org/abs/2405.16734v1 ) ライセンス: Link先を確認 | Xunpeng Huang, Difan Zou, Yi-An Ma, Hanze Dong, Tong Zhang, | (参考訳) 確率勾配は、大規模なサンプリング問題の解法におけるスケーラビリティと効率を改善するためにランゲヴィンに基づく手法に広く統合されている。
しかし、Lee et al (2021) という決定論的セッティングにおいてランゲヴィンに基づくアルゴリズムよりもはるかに高速な収束を示す近位サンプリング器は、その確率的変種ではまだ研究されていない。
本稿では,非対数圏分布から抽出する確率的近位サンプリング器(SPS)について検討する。
まず,確率的近位スライダを実装するための一般的な枠組みを構築し,それに従って収束理論を確立する。
対象分布への収束は、アルゴリズム軌跡の第2モーメントが有界であり、ガウスオラクルが適切に近似できる限り保証できることを示す。
次に、SGLD(Stochastic gradient Langevin dynamics)とMALA(Metropolis-adjusted Langevin Algorithm)という2つの実装可能な変種を提供し、SPS-SGLDとSPS-MALAを生み出した。
さらに、SPS-SGLD と SPS-MALA は、$\tilde{\mathcal{O}}(d\epsilon^{-2})$ と $\tilde{\mathcal{O}}(d^{1/2}\epsilon^{-2})$ 勾配複雑性において、全変動(TV)距離における$\epsilon$-sampling誤差を達成できることを示し、これは少なくとも$\tilde{\mathcal{O}}(d^{1/3})$因子によって最もよく知られた結果を上回る。
この性能向上は, 様々な次元の合成データの実証研究によって実証され, 提案アルゴリズムの有効性が実証された。
Stochastic gradients have been widely integrated into Langevin-based methods to improve their scalability and efficiency in solving large-scale sampling problems. However, the proximal sampler, which exhibits much faster convergence than Langevin-based algorithms in the deterministic setting Lee et al. (2021), has yet to be explored in its stochastic variants. In this paper, we study the Stochastic Proximal Samplers (SPS) for sampling from non-log-concave distributions. We first establish a general framework for implementing stochastic proximal samplers and establish the convergence theory accordingly. We show that the convergence to the target distribution can be guaranteed as long as the second moment of the algorithm trajectory is bounded and restricted Gaussian oracles can be well approximated. We then provide two implementable variants based on Stochastic gradient Langevin dynamics (SGLD) and Metropolis-adjusted Langevin algorithm (MALA), giving rise to SPS-SGLD and SPS-MALA. We further show that SPS-SGLD and SPS-MALA can achieve $\epsilon$-sampling error in total variation (TV) distance within $\tilde{\mathcal{O}}(d\epsilon^{-2})$ and $\tilde{\mathcal{O}}(d^{1/2}\epsilon^{-2})$ gradient complexities, which outperform the best-known result by at least an $\tilde{\mathcal{O}}(d^{1/3})$ factor. This enhancement in performance is corroborated by our empirical studies on synthetic data with various dimensions, demonstrating the efficiency of our proposed algorithm. | 翻訳日:2024-05-28 19:35:41 公開日:2024-05-27 |
# 重り付きサンプリングの分離:近位サンプリングのためのガウス対安定オラクル
A Separation in Heavy-Tailed Sampling: Gaussian vs. Stable Oracles for Proximal Samplers ( http://arxiv.org/abs/2405.16736v1 ) ライセンス: Link先を確認 | Ye He, Alireza Mousavi-Hosseini, Krishnakumar Balasubramanian, Murat A. Erdogdu, | (参考訳) 重み付きサンプリングの複雑さについて検討し、高い精度と低い精度の保証を得るための分離結果を示す。すなわち、$O(\log(1/\varepsilon)$と$Omega(\text{poly}(1/\varepsilon))$と$Omega(\text{poly}(1/\varepsilon))$と$Omega(\text{poly}(1/\varepsilon))$だけを必要とするサンプルを目標に対して$\varepsilon$-closeで出力する。
本研究の結果はガウス対安定オラクルに基づく近位サンプルに適用された。
本研究は,ガウス神託に基づく近位サンプリング器が,重尾ターゲット群からのサンプリングにおいて,必ずしも低精度保証しか達成できないという根本的な障壁があることを示唆する。
対照的に、安定オラクルに基づく近位サンプリング器は高い精度の保証を示し、上記の制限を克服する。
また、安定なオラクルの下でのサンプル値の低い境界を証明し、上界が根本的に改善できないことを示す。
We study the complexity of heavy-tailed sampling and present a separation result in terms of obtaining high-accuracy versus low-accuracy guarantees i.e., samplers that require only $O(\log(1/\varepsilon))$ versus $\Omega(\text{poly}(1/\varepsilon))$ iterations to output a sample which is $\varepsilon$-close to the target in $\chi^2$-divergence. Our results are presented for proximal samplers that are based on Gaussian versus stable oracles. We show that proximal samplers based on the Gaussian oracle have a fundamental barrier in that they necessarily achieve only low-accuracy guarantees when sampling from a class of heavy-tailed targets. In contrast, proximal samplers based on the stable oracle exhibit high-accuracy guarantees, thereby overcoming the aforementioned limitation. We also prove lower bounds for samplers under the stable oracle and show that our upper bounds cannot be fundamentally improved. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# 離散空間上のズームイン
Zooming in on discrete space ( http://arxiv.org/abs/2405.16737v1 ) ライセンス: Link先を確認 | Daniel A. Turolla Vanzella, | (参考訳) 重力の量子的な側面の完全な理解は欠如しているが、一般には、最終的な量子重力理論は離散性の空間と時間(基礎的あるいは効果的な)の概念を授けるという一般論を用いて合意されている。
この粒度のキャラクタは、それぞれ$l_P \sim 10^{-33}$ cm と $\tau_P\sim 10^{-42}$ s -- プランクスケール -- の空間と時間スケールに置かれる。
ここでは、ポアソン過程として離散空間上の粒子の変位をモデル化することにより、非常に異なる質量を持つ粒子/系の相関変位の統計的分散を用いて、空間の離散性(もし存在するとしても)の影響を数桁に増幅する可能性について推測する。
この分析は、現在の技術にはまだ及ばないが、通常予想されるよりも大きなスケールで空間(時間)の離散性のヒントを見ることができることを示唆している。
Although we lack complete understanding of quantum aspects of gravitation, it is usually agreed, using general arguments, that a final quantum gravity theory will endow space and time with some (fundamental or effective) notion of discreteness. This granular character is supposed to lie on space and time scales of $l_P \sim 10^{-33}$ cm and $\tau_P\sim 10^{-42}$ s, respectively -- the Planck scale -- , far beyond any hope of direct assessment. Here, by modeling displacements of particles on a discrete underlying space as Poisson processes, we speculate on the possibility of amplifying the effects of space discreteness (if existent) by several orders of magnitude, using the statistical variance of correlated displacements of particles/systems with very different masses. Although still out of reach by current technology, the analysis presented here suggests that it may be possible to see hints of space(time) discreteness at larger scales than one would usually expect. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# CARL: 同種画像登録のためのフレームワーク
CARL: A Framework for Equivariant Image Registration ( http://arxiv.org/abs/2405.16738v1 ) ライセンス: Link先を確認 | Hastings Greer, Lin Tian, Francois-Xavier Vialard, Roland Kwitt, Raul San Jose Estepar, Marc Niethammer, | (参考訳) 画像登録は、一対の画像間の空間対応を推定する。
これらの推定は一般にディープネットワークによる数値最適化や回帰によって得られる。
このような推定器の望ましい特性は、入力画像の変形の下で、画像対に対する対応推定(例えば、真のオラクル対応)を維持することである。
形式的には、推定子は所望の画像変換のクラスに同値であるべきである。
本研究では,多段階深層登録網の文脈における所望の等価性について慎重に分析する。
これらの分析に基づく。
1)$[U,U]$同値(入力画像の同じ変形に対するネットワーク同値)と$[W,U]$同値(入力画像が異なる変形を行うことができる場合)の概念を導入する。
2) 適度な多段階登録設定において、第1段階が$[W,U]$同値であり、他のすべてのステップが$[U,U]$同値である場合、全体的な$[W,U]$同値に対して十分であることを示す。
3) 共通の変位予測ネットワークは、より強力な$[W,U]$同値ではなく、翻訳に対して$[U,U]$同値しか示さないことを示す。
4) 多段階$[W,U]$等分を座標アテンション機構と変位予測精錬層(CARL)を組み合わせて達成する方法を示す。
提案手法は,複数の3次元医用画像登録タスクにおいて優れた実用的登録性能を達成し,腹部登録の課題に対して既存の教師なしアプローチよりも優れていた。
Image registration estimates spatial correspondences between a pair of images. These estimates are typically obtained via numerical optimization or regression by a deep network. A desirable property of such estimators is that a correspondence estimate (e.g., the true oracle correspondence) for an image pair is maintained under deformations of the input images. Formally, the estimator should be equivariant to a desired class of image transformations. In this work, we present careful analyses of the desired equivariance properties in the context of multi-step deep registration networks. Based on these analyses we 1) introduce the notions of $[U,U]$ equivariance (network equivariance to the same deformations of the input images) and $[W,U]$ equivariance (where input images can undergo different deformations); we 2) show that in a suitable multi-step registration setup it is sufficient for overall $[W,U]$ equivariance if the first step has $[W,U]$ equivariance and all others have $[U,U]$ equivariance; we 3) show that common displacement-predicting networks only exhibit $[U,U]$ equivariance to translations instead of the more powerful $[W,U]$ equivariance; and we 4) show how to achieve multi-step $[W,U]$ equivariance via a coordinate-attention mechanism combined with displacement-predicting refinement layers (CARL). Overall, our approach obtains excellent practical registration performance on several 3D medical image registration tasks and outperforms existing unsupervised approaches for the challenging problem of abdomen registration. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# Oracle-Efficient Reinforcement Learning for Max Value Ensembles
Oracle-Efficient Reinforcement Learning for Max Value Ensembles ( http://arxiv.org/abs/2405.16739v1 ) ライセンス: Link先を確認 | Marcel Hussing, Michael Kearns, Aaron Roth, Sikata Bela Sengupta, Jessica Sorrell, | (参考訳) 大規模あるいは無限の状態空間における強化学習(RL)は、理論上(最悪のサンプルと計算上の複雑さが状態空間の濃度でスケールしなければならない場合)と実験的に(関数近似とポリシー勾配のテクニックがしばしば不十分にスケールし、不安定性と高い分散に苦しむ場合)の両方において、非常に難しい。
このような問題に対処しようとする研究の1行は、我々は、スケーラブルな方法で改善したいと願う、ヒューリスティックベースまたは$\textit{constituent}$ポリシーのコレクションを与えられるという自然な仮定である。
この仕事において、我々は$\textit{max-following policy}$と競合することを目指しています。
最大追従政策は、常に最高の構成政策と同程度に優れており、かなり良いものかもしれない。
我々の主な成果は、(値関数ではなく)構成ポリシーへのアクセスのみを前提として、最大フォローポリシーと競合する効率的なアルゴリズムである。
同様の環境での以前の研究とは対照的に、我々の理論結果は、サンプリング可能な分布に対する構成ポリシー(グローバル最適ポリシーや最大フォローポリシーそのものではなく)に対する値関数近似のためのERMオラクルの最小限の仮定しか必要としない。
いくつかのロボットシミュレーションテストベッドにおけるアルゴリズムの実験的効果と挙動について説明する。
Reinforcement learning (RL) in large or infinite state spaces is notoriously challenging, both theoretically (where worst-case sample and computational complexities must scale with state space cardinality) and experimentally (where function approximation and policy gradient techniques often scale poorly and suffer from instability and high variance). One line of research attempting to address these difficulties makes the natural assumption that we are given a collection of heuristic base or $\textit{constituent}$ policies upon which we would like to improve in a scalable manner. In this work we aim to compete with the $\textit{max-following policy}$, which at each state follows the action of whichever constituent policy has the highest value. The max-following policy is always at least as good as the best constituent policy, and may be considerably better. Our main result is an efficient algorithm that learns to compete with the max-following policy, given only access to the constituent policies (but not their value functions). In contrast to prior work in similar settings, our theoretical results require only the minimal assumption of an ERM oracle for value function approximation for the constituent policies (and not the global optimal policy or the max-following policy itself) on samplable distributions. We illustrate our algorithm's experimental effectiveness and behavior on several robotic simulation testbeds. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# PP-SAM:ポリプセグメンテーションのためのセグメンテーションモデルのロバスト適応のための摂動プロンプト
PP-SAM: Perturbed Prompts for Robust Adaptation of Segment Anything Model for Polyp Segmentation ( http://arxiv.org/abs/2405.16740v1 ) ライセンス: Link先を確認 | Md Mostafijur Rahman, Mustafa Munir, Debesh Jha, Ulas Bagci, Radu Marculescu, | (参考訳) Segment Anything Model (SAM)は、もともと汎用セグメンテーションタスク用に設計されたもので、最近ポリプセグメンテーションに使われている。
それにもかかわらず、新しい画像センターやクリニックのデータを使った微調整SAMは、大きな課題を生んでいる。
これは、高価で時間を要する注釈付きデータセットの作成と、推論中にユーザのプロンプトが変動する可能性があるためである。
これらの課題に対処するため,本研究では,ポリプ分割タスクに限定的な画像で適応可能な,堅牢な微調整手法PP-SAMを提案する。
この目的のために、可変摂動箱プロンプト(BBP)を用いて、学習コンテキストを強化し、推論中のBBP摂動に対するモデルの堅牢性を高める。
ポリプセグメンテーションベンチマークの厳密な実験により、我々の可変BBP摂動がモデルレジリエンスを大幅に改善することが明らかとなった。
特に、Kvasirでは、1ショットの微調整でDICEスコアが20%上昇し、50ピクセルのBBP摂動と100ピクセルのBBP摂動がそれぞれ37%上昇する。
さらに,50ピクセルの摂動を持つ1ショット,5ショット,10ショットのPP-SAMは,近年のSOTA (State-of-the-art polyp segmentation) 法よりも26%,7%,5%DICE (DICE) が優れていた。
以上の結果から, PP-SAMの他の医用画像処理への応用は限定的であった。
私たちの実装はhttps://github.com/SLDGroup/PP-SAMで公開されています。
The Segment Anything Model (SAM), originally designed for general-purpose segmentation tasks, has been used recently for polyp segmentation. Nonetheless, fine-tuning SAM with data from new imaging centers or clinics poses significant challenges. This is because this necessitates the creation of an expensive and time-intensive annotated dataset, along with the potential for variability in user prompts during inference. To address these issues, we propose a robust fine-tuning technique, PP-SAM, that allows SAM to adapt to the polyp segmentation task with limited images. To this end, we utilize variable perturbed bounding box prompts (BBP) to enrich the learning context and enhance the model's robustness to BBP perturbations during inference. Rigorous experiments on polyp segmentation benchmarks reveal that our variable BBP perturbation significantly improves model resilience. Notably, on Kvasir, 1-shot fine-tuning boosts the DICE score by 20% and 37% with 50 and 100-pixel BBP perturbations during inference, respectively. Moreover, our experiments show that 1-shot, 5-shot, and 10-shot PP-SAM with 50-pixel perturbations during inference outperform a recent state-of-the-art (SOTA) polyp segmentation method by 26%, 7%, and 5% DICE scores, respectively. Our results motivate the broader applicability of our PP-SAM for other medical imaging tasks with limited samples. Our implementation is available at https://github.com/SLDGroup/PP-SAM. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# コードのための大規模言語モデルの生態系
Ecosystem of Large Language Models for Code ( http://arxiv.org/abs/2405.16746v1 ) ライセンス: Link先を確認 | Zhou Yang, Jieke Shi, David Lo, | (参考訳) ソースコードの大量の公開アクセスデータの提供と、現代の言語モデルの進歩は、計算資源の増大とともに、コードのための大規模言語モデル(LLM4Code、略してLLM4Code)の開発を著しく加速させた。
コードデータセットとモデル間のインタラクションは、研究に値する複雑な依存関係を特徴とする複雑なエコシステムを生み出します。
本稿では,コードモデルエコシステムの先駆的分析を紹介する。
トランスフォーマーベースのモデルのための主要なハブであるHugging Faceを主要なソースとして利用して、手作業でソフトウェアエンジニアリングに関連することが確認されたデータセットとモデルのリストをキュレートします。
エコシステムを分析して、まず人気のある、影響力のあるデータセット、モデル、コントリビュータを特定します。
人気度は、ダウンロード数、いいね!の回数、再利用の数など、さまざまな指標によって定量化されている。
このエコシステムは、ユーザーが広く認識されているモデルとデータセットを好むことを示す、強力な欠陥分布に従っている。
そして、このエコシステムにおけるモデルの再利用方法を9つのカテゴリに分類し、一般的なモデルの再利用プラクティスを分析します。
最も人気のある3つの再利用タイプは、微調整、アーキテクチャ共有、量子化である。
LLM4Codeの公開を取り巻くプラクティスについても,特にドキュメントの実践とライセンス選択に注目して検討する。
エコシステムのドキュメントには、GitHubにホストされている汎用人工知能(AI)関連リポジトリよりも、情報が少ないことが分かりました。
さらに、ライセンスの使用法は他のソフトウェアリポジトリとは異なる。
エコシステム内のモデルには、例えば、RAIL(Responsible AI Licenses)やAIモデルライセンス契約といった、AI固有のライセンスが採用されている。
The availability of vast amounts of publicly accessible data of source code and the advances in modern language models, coupled with increasing computational resources, have led to a remarkable surge in the development of large language models for code (LLM4Code, for short). The interaction between code datasets and models gives rise to a complex ecosystem characterized by intricate dependencies that are worth studying. This paper introduces a pioneering analysis of the code model ecosystem. Utilizing Hugging Face -- the premier hub for transformer-based models -- as our primary source, we curate a list of datasets and models that are manually confirmed to be relevant to software engineering. By analyzing the ecosystem, we first identify the popular and influential datasets, models, and contributors. The popularity is quantified by various metrics, including the number of downloads, the number of likes, the number of reuses, etc. The ecosystem follows a power-law distribution, indicating that users prefer widely recognized models and datasets. Then, we manually categorize how models in the ecosystem are reused into nine categories, analyzing prevalent model reuse practices. The top 3 most popular reuse types are fine-tuning, architecture sharing, and quantization. We also explore the practices surrounding the publication of LLM4Code, specifically focusing on documentation practice and license selection. We find that the documentation in the ecosystem contains less information than that in general artificial intelligence (AI)-related repositories hosted on GitHub. Additionally, the license usage is also different from other software repositories. Models in the ecosystem adopt some AI-specific licenses, e.g., RAIL (Responsible AI Licenses) and AI model license agreement. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# NTKの視点からの線形探索と微調整言語モデルの理解
Understanding Linear Probing then Fine-tuning Language Models from NTK Perspective ( http://arxiv.org/abs/2405.16747v1 ) ライセンス: Link先を確認 | Akiyoshi Tomihari, Issei Sato, | (参考訳) 2段階ファインチューニング(FT)法では、リニアプローブ(LP-FT)は、イン・ディストリビューション(ID)とアウト・オブ・ディストリビューション(OOD)データの両方の精度において、リニアプローブ(LP)とFTを一貫して上回っている。
この成功は主に、LP中に得られたほぼ最適線形ヘッドによって達成された、事前訓練された特徴の保存に起因する。
しかし、大規模な言語モデルが広く使われているにもかかわらず、トランスフォーマーのような複雑なアーキテクチャの探索は依然として限られている。
本稿では,ニューラル・タンジェント・カーネル(NTK)理論に基づく分類モデルにおけるLP-FTのトレーニングダイナミクスを解析する。
我々はNTK行列を2つの成分に分解し、FTステージ開始時の予測精度とともに線形ヘッドノルムの重要性を強調した。
また, LP中における線形頭部ノルムの顕著な増加は, クロスエントロピー(CE)損失によるトレーニングによるものであり, 特徴変化を効果的に最小化する。
さらに, このノルムの増大は, 温度スケーリングによって対処できる課題であるモデル校正に悪影響を及ぼすことが判明した。
さらに、NTKを用いた解析をローランク適応法(LoRA)に拡張し、その有効性を検証する。
複数のベンチマークをまたいだ自然言語処理タスクのトランスフォーマーモデルによる実験により, LP-FTの有効性を検証し, LP-FTの有効性を実証した。
コードはhttps://github.com/tom4649/lp-ft_ntk.comで入手できる。
The two-stage fine-tuning (FT) method, linear probing then fine-tuning (LP-FT), consistently outperforms linear probing (LP) and FT alone in terms of accuracy for both in-distribution (ID) and out-of-distribution (OOD) data. This success is largely attributed to the preservation of pre-trained features, achieved through a near-optimal linear head obtained during LP. However, despite the widespread use of large language models, the exploration of complex architectures such as Transformers remains limited. In this paper, we analyze the training dynamics of LP-FT for classification models on the basis of the neural tangent kernel (NTK) theory. Our analysis decomposes the NTK matrix into two components, highlighting the importance of the linear head norm alongside the prediction accuracy at the start of the FT stage. We also observe a significant increase in the linear head norm during LP, stemming from training with the cross-entropy (CE) loss, which effectively minimizes feature changes. Furthermore, we find that this increased norm can adversely affect model calibration, a challenge that can be addressed by temperature scaling. Additionally, we extend our analysis with the NTK to the low-rank adaptation (LoRA) method and validate its effectiveness. Our experiments with a Transformer-based model on natural language processing tasks across multiple benchmarks confirm our theoretical analysis and demonstrate the effectiveness of LP-FT in fine-tuning language models. Code is available at https://github.com/tom4649/lp-ft_ntk. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# ハイパーグラフラプラシアン固有写像と顔認識問題
Hypergraph Laplacian Eigenmaps and Face Recognition Problems ( http://arxiv.org/abs/2405.16748v1 ) ライセンス: Link先を確認 | Loc Hoang Tran, | (参考訳) 顔認識は、データサイエンスとバイオメトリックセキュリティ研究領域において非常に重要なトピックである。
軍用、金融用、小売用など、いくつかの用途がある。
本稿では,新しいハイパーグラフ Laplacian Eigenmaps と k 近傍法と/またはカーネルリッジ回帰法を組み合わせて,顔認識問題の解法を提案する。
実験結果から,新しいハイパーグラフ Laplacian Eigenmaps と1つの特定の分類体系の組み合わせの精度は,従来の対称正規化ハイパーグラフ Laplacian Eigenmaps 法と1つの特定の分類体系の組合せの精度に類似していることが示された。
Face recognition is a very important topic in data science and biometric security research areas. It has multiple applications in military, finance, and retail, to name a few. In this paper, the novel hypergraph Laplacian Eigenmaps will be proposed and combine with the k nearest-neighbor method and/or with the kernel ridge regression method to solve the face recognition problem. Experimental results illustrate that the accuracy of the combination of the novel hypergraph Laplacian Eigenmaps and one specific classification system is similar to the accuracy of the combination of the old symmetric normalized hypergraph Laplacian Eigenmaps method and one specific classification system. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# DMPlug:拡散モデルを用いた逆問題の解法
DMPlug: A Plug-in Method for Solving Inverse Problems with Diffusion Models ( http://arxiv.org/abs/2405.16749v1 ) ライセンス: Link先を確認 | Hengkang Wang, Xu Zhang, Taihui Li, Yuxiang Wan, Tiancong Chen, Ju Sun, | (参考訳) 事前訓練拡散モデル (DM) は近年, 逆問題 (IP) の解法として広く用いられている。
既存の手法は主に逆拡散過程における反復的なステップと反復的なステップをインターリーブし、測定制約を満たすように反復を近づける。
しかし、そのようなインターリービング法は、特に非線形IPに対して、興味のある自然対象(つまり、多様体の実現可能性)と測定対象(すなわち、測定可能性)に適合する最終的な結果を生み出すのに苦労する。
さらに、未知の型や測定ノイズのレベルを持つノイズの多いIPを扱う能力も不明である。
本稿では,DMの逆過程を機能として捉えることを提唱し,DMPlug と呼ばれる事前訓練された DM を用いてIP を解決する新しいプラグイン法を提案する。
DMPlugは、基本的手法で多様体の実現可能性と測定可能性の問題に対処し、また未知の型やノイズレベルに対して堅牢である可能性を示している。
2つの非線形IPと3つの非線形IPを含む様々なIPタスクにわたる広範な実験を通して、DMPlugは、特に非線形IPにおいて、最先端の手法よりも一貫して優れていることを示す。
コードはhttps://github.com/sun-umn/DMPlug.comで入手できる。
Pretrained diffusion models (DMs) have recently been popularly used in solving inverse problems (IPs). The existing methods mostly interleave iterative steps in the reverse diffusion process and iterative steps to bring the iterates closer to satisfying the measurement constraint. However, such interleaving methods struggle to produce final results that look like natural objects of interest (i.e., manifold feasibility) and fit the measurement (i.e., measurement feasibility), especially for nonlinear IPs. Moreover, their capabilities to deal with noisy IPs with unknown types and levels of measurement noise are unknown. In this paper, we advocate viewing the reverse process in DMs as a function and propose a novel plug-in method for solving IPs using pretrained DMs, dubbed DMPlug. DMPlug addresses the issues of manifold feasibility and measurement feasibility in a principled manner, and also shows great potential for being robust to unknown types and levels of noise. Through extensive experiments across various IP tasks, including two linear and three nonlinear IPs, we demonstrate that DMPlug consistently outperforms state-of-the-art methods, often by large margins especially for nonlinear IPs. The code is available at https://github.com/sun-umn/DMPlug. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# 情報レコメンデーションと計画検証を用いたLLM型協調エージェント
LLM-Based Cooperative Agents using Information Relevance and Plan Validation ( http://arxiv.org/abs/2405.16751v1 ) ライセンス: Link先を確認 | SeungWon Seo, Junhyeok Lee, SeongRae Noh, HyeongYeop Kang, | (参考訳) エージェントは3Dシーンと対話し、複雑な部分的な観察の下で分散エージェントと協調することで共通の目標を達成する。
これには、通信コストの管理と動的環境における相互作用軌跡の最適化が含まれる。
本研究は、既存の協調エージェントシステムの3つの主要な制限に焦点を当てる。
第一に、現在のシステムは、観測を通して取得した情報を管理するのに非効率であることが示され、その結果、環境が追加の対象や目標とより複雑になるにつれて、計画性能が低下する。
第二に、部分的に観察可能な環境での虚偽の計画の無視は、エージェントが他のエージェントの目に見えない行動に影響された環境変化に適応するのに苦労するため、最適以下の協調性能をもたらす。
最後に、空間データを意思決定プロセスに組み込むことの失敗は、エージェントが最適化された軌跡を構築する能力を制限する。
これらの制約を克服するために,GPT-3.5を利用した新しい認知アーキテクチャであるRelevance and Validation-Enhanced Cooperative Language Agent (REVECA)を提案する。
REVECAは、関連性評価、計画検証、空間情報を活用し、動的かつ部分的に観察可能な環境でのエージェント協調の効率性と堅牢性を高めるとともに、継続的な通信コストを最小化し、関連のないダミーオブジェクトを効果的に管理する。
GPT-4.0で駆動されるものを含む,従来の手法よりもREVECAの方が優れていることを示す。
さらに、ユーザ調査では、信頼できる人間とAIの協力を達成するためのREVECAの可能性を強調している。
我々はREVECAがゲーム、XRアプリケーション、教育ツール、ヒューマノイドロボットに重要な応用をもたらし、経済的、商業的、学術的な進歩に寄与することを期待している。
We address the challenge of multi-agent cooperation, where agents achieve a common goal by interacting with a 3D scene and cooperating with decentralized agents under complex partial observations. This involves managing communication costs and optimizing interaction trajectories in dynamic environments. Our research focuses on three primary limitations of existing cooperative agent systems. Firstly, current systems demonstrate inefficiency in managing acquired information through observation, resulting in declining planning performance as the environment becomes more complex with additional objects or goals. Secondly, the neglect of false plans in partially observable settings leads to suboptimal cooperative performance, as agents struggle to adapt to environmental changes influenced by the unseen actions of other agents. Lastly, the failure to incorporate spatial data into decision-making processes restricts the agent's ability to construct optimized trajectories. To overcome these limitations, we propose the RElevance and Validation-Enhanced Cooperative Language Agent (REVECA), a novel cognitive architecture powered by GPT-3.5. REVECA leverages relevance assessment, plan validation, and spatial information to enhance the efficiency and robustness of agent cooperation in dynamic and partially observable environments while minimizing continuous communication costs and effectively managing irrelevant dummy objects. Our extensive experiments demonstrate the superiority of REVECA over previous approaches, including those driven by GPT-4.0. Additionally, a user study highlights REVECA's potential for achieving trustworthy human-AI cooperation. We expect that REVECA will have significant applications in gaming, XR applications, educational tools, and humanoid robots, contributing to substantial economic, commercial, and academic advancements. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# 制約付き最適化のためのモデル構築
Model Ensembling for Constrained Optimization ( http://arxiv.org/abs/2405.16752v1 ) ライセンス: Link先を確認 | Ira Globus-Harris, Varun Gupta, Michael Kearns, Aaron Roth, | (参考訳) モデルアンサンブルの機械学習には、強化とバッグングから始まり、今日まで、長い歴史がある。
この歴史の多くは分類と回帰のためのモデルの組み合わせに焦点を合わせてきたが、近年では強化学習におけるポリシーの合理化など、より複雑な設定への関心が高まっている。
アンサンブルとマルチキャリブレーション技術の間にも強いつながりが出現している。
本研究は,下流最適化に使用される多次元出力予測のためのモデルを組み立てたいという設定を考慮し,これらのテーマをさらに検討する。
より正確には、状態空間を多次元実数値予測にマッピングする多くのモデルが与えられていると想像する。
これらの予測は、指定された制約の下で最適化したい線形対象の係数を形成する。
私たちが取り組んだ根本的な疑問は、下流最適化問題において、そのようなモデルをどのように改善し、組み合わせるかである。
証明可能かつ収束性の高い2つのアルゴリズムに導かれる多重校正手法を適用した。
第1の(ホワイトボックスの)アプローチでは状態を出力予測にマッピングするモデルが必要であり、第2の(emph{black box}の)アプローチではポリシーのみを必要とする(状態から最適化問題の解へのマッピング)。
コンバージェンスとユーティリティの両面での保証を提供します。
制御された実験環境での2つのアルゴリズムの性能と挙動を調べた。
There is a long history in machine learning of model ensembling, beginning with boosting and bagging and continuing to the present day. Much of this history has focused on combining models for classification and regression, but recently there is interest in more complex settings such as ensembling policies in reinforcement learning. Strong connections have also emerged between ensembling and multicalibration techniques. In this work, we further investigate these themes by considering a setting in which we wish to ensemble models for multidimensional output predictions that are in turn used for downstream optimization. More precisely, we imagine we are given a number of models mapping a state space to multidimensional real-valued predictions. These predictions form the coefficients of a linear objective that we would like to optimize under specified constraints. The fundamental question we address is how to improve and combine such models in a way that outperforms the best of them in the downstream optimization problem. We apply multicalibration techniques that lead to two provably efficient and convergent algorithms. The first of these (the white box approach) requires being given models that map states to output predictions, while the second (the \emph{black box} approach) requires only policies (mappings from states to solutions to the optimization problem). For both, we provide convergence and utility guarantees. We conclude by investigating the performance and behavior of the two algorithms in a controlled experimental setting. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# CHESS: 効率的なSQL合成のためのコンテキストハラスメント
CHESS: Contextual Harnessing for Efficient SQL Synthesis ( http://arxiv.org/abs/2405.16755v1 ) ライセンス: Link先を確認 | Shayan Talaei, Mohammadreza Pourreza, Yu-Chen Chang, Azalia Mirhoseini, Amin Saberi, | (参考訳) 自然言語の質問をSQLクエリ(text-to-SQL)に変換するための大規模言語モデル(LLM)の利用は、特に複雑で広範なスキーマを持つ現実世界のデータベースに適用する場合、有望で難しいアプローチである。
特に、SQL生成のためのデータカタログとデータベース値を効果的に組み込むことは、依然として障害であり、亜最適ソリューションに繋がる。
この問題に対処するために、関連するデータやコンテキストを効率的に検索し、効率的なスキーマを選択し、正しいSQLクエリを合成する新しいパイプラインを提案する。
検索精度を向上させるために,モデル生成キーワード,局所性に敏感なハッシュインデックス,ベクトルデータベースを活用した階層的検索手法を提案する。
さらに、問題の複雑さとモデルのコンテキストサイズに基づいて、適応的なスキーマプルーニング手法を開発した。
我々のアプローチは、GPT-4のようなフロンティアプロプライエタリモデルと、Llama-3-70Bのようなオープンソースモデルの両方に一般化されている。
一連のアブレーション研究を通じて、パイプラインの各コンポーネントの有効性と、エンドツーエンドのパフォーマンスへの影響を実証する。
提案手法は,BIRDデータセットの領域横断における最先端性能を実現する。
Utilizing large language models (LLMs) for transforming natural language questions into SQL queries (text-to-SQL) is a promising yet challenging approach, particularly when applied to real-world databases with complex and extensive schemas. In particular, effectively incorporating data catalogs and database values for SQL generation remains an obstacle, leading to suboptimal solutions. We address this problem by proposing a new pipeline that effectively retrieves relevant data and context, selects an efficient schema, and synthesizes correct and efficient SQL queries. To increase retrieval precision, our pipeline introduces a hierarchical retrieval method leveraging model-generated keywords, locality-sensitive hashing indexing, and vector databases. Additionally, we have developed an adaptive schema pruning technique that adjusts based on the complexity of the problem and the model's context size. Our approach generalizes to both frontier proprietary models like GPT-4 and open-source models such as Llama-3-70B. Through a series of ablation studies, we demonstrate the effectiveness of each component of our pipeline and its impact on the end-to-end performance. Our method achieves new state-of-the-art performance on the cross-domain challenging BIRD dataset. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# 対称性インフォームド・ゴバニング方程式の発見
Symmetry-Informed Governing Equation Discovery ( http://arxiv.org/abs/2405.16756v1 ) ライセンス: Link先を確認 | Jianke Yang, Wang Rao, Nima Dehmamy, Robin Walters, Rose Yu, | (参考訳) 力学系の観測から微分方程式を統治する学習の進歩にもかかわらず、データ駆動法はフレーム不変性のような基本的な物理法則を知らないことが多い。
その結果、これらのアルゴリズムは必然的に大きな空間を探索し、より正確でないあるいは過度に複雑でない方程式を発見することができる。
本稿では,自動方程式探索における対称性を利用して,方程式探索空間を圧縮し,学習方程式の精度と簡易性を改善することを提案する。
具体的には、ODEの時間非依存対称性から等分散制約を導出する。
対称性の種類によっては、疎回帰や遺伝的プログラミングを含む様々な方程式探索アルゴリズムに対称性制約を組み込むパイプラインを開発する。
様々な力学系の実験において,本手法は雑音に対する優れた頑健性を示し,対称性のないベースラインよりもはるかに高い確率で支配方程式を復元する。
Despite the advancements in learning governing differential equations from observations of dynamical systems, data-driven methods are often unaware of fundamental physical laws, such as frame invariance. As a result, these algorithms may search an unnecessarily large space and discover equations that are less accurate or overly complex. In this paper, we propose to leverage symmetry in automated equation discovery to compress the equation search space and improve the accuracy and simplicity of the learned equations. Specifically, we derive equivariance constraints from the time-independent symmetries of ODEs. Depending on the types of symmetries, we develop a pipeline for incorporating symmetry constraints into various equation discovery algorithms, including sparse regression and genetic programming. In experiments across a diverse range of dynamical systems, our approach demonstrates better robustness against noise and recovers governing equations with significantly higher probability than baselines without symmetry. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# グリーディ成長による高分解能画素拡散モデルの実現
Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models ( http://arxiv.org/abs/2405.16759v1 ) ライセンス: Link先を確認 | Cristina N. Vasconcelos, Abdullah Rashwan Austin Waters, Trevor Walker, Keyang Xu, Jimmy Yan, Rui Qian, Shixin Luo, Zarana Parekh, Andrew Bunner, Hongliang Fei, Roopal Garg, Mandy Guo, Ivana Kajic, Yeqing Li, Henna Nandwani, Jordi Pont-Tuset, Yasumasa Onoe, Sarah Rosston, Su Wang, Wenlei Zhou, Kevin Swersky, David J. Fleet, Jason M. Baldridge, Oliver Wang, | (参考訳) 本稿では,大規模かつ高解像度な画像の安定学習法として,画像拡散モデルを大規模に学習する方法という長年の課題に対処する。
カスケードされた超解像部品を必要とせずに。
重要な洞察は、コアコンポーネント、すなわちテキストと画像のアライメントに責任を持つコンポーネントを慎重に事前トレーニングすることに由来する。
高解像度レンダリング。
最初に、ダウン(アップ)サンプリングの enc(dec)oder を使わずに、a {\displaystyle {\it Shallow UNet} のスケーリングの利点を実証する。
ディープコアレイヤのスケーリングは、アライメント、オブジェクト構造、コンポジションを改善することが示されている。
このコアモデルに基づいて、アーキテクチャを高解像度のエンドツーエンドモデルに成長させ、事前学習された表現の完全性を維持し、トレーニングを安定化し、大規模な高解像度データセットの必要性を低減させる、グレディアルゴリズムを提案する。
これにより、超高解像度のカスケードを必要とせずに高解像度の画像を生成できる単一ステージモデルを実現することができる。
我々の主要な結果は、公開データセットに依存しており、さらなる正規化スキームなしで8Bパラメータまでの非カスケードモデルのトレーニングが可能であることを示しています。
内部データセットでトレーニングされた完全なパイプラインモデルであるVermeerは、1024x1024画像をカスケードなしで生成し、SDXLよりも44.0%対21.4%の人的評価器で好まれる。
We address the long-standing problem of how to learn effective pixel-based image diffusion models at scale, introducing a remarkably simple greedy growing method for stable training of large-scale, high-resolution models. without the needs for cascaded super-resolution components. The key insight stems from careful pre-training of core components, namely, those responsible for text-to-image alignment {\it vs.} high-resolution rendering. We first demonstrate the benefits of scaling a {\it Shallow UNet}, with no down(up)-sampling enc(dec)oder. Scaling its deep core layers is shown to improve alignment, object structure, and composition. Building on this core model, we propose a greedy algorithm that grows the architecture into high-resolution end-to-end models, while preserving the integrity of the pre-trained representation, stabilizing training, and reducing the need for large high-resolution datasets. This enables a single stage model capable of generating high-resolution images without the need of a super-resolution cascade. Our key results rely on public datasets and show that we are able to train non-cascaded models up to 8B parameters with no further regularization schemes. Vermeer, our full pipeline model trained with internal datasets to produce 1024x1024 images, without cascades, is preferred by 44.0% vs. 21.4% human evaluators over SDXL. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# 生成的から識別的表現を用いたマスケ顔認識
Masked Face Recognition with Generative-to-Discriminative Representations ( http://arxiv.org/abs/2405.16761v1 ) ライセンス: Link先を確認 | Shiming Ge, Weijia Guo, Chenyu Li, Junzheng Zhang, Yong Li, Dan Zeng, | (参考訳) マスケ顔認証は社会的善のために重要であるが、不十分または不正確な表現を引き起こす多様なオクルージョンによって挑戦される。
本研究では,マスク付き顔認識を容易にするために,生成から識別への表現を学習するための統合された深層ネットワークを提案する。
この目的のために、我々はネットワークを3つのモジュールに分割し、グリーディモジュールの事前学習方法で合成マスク面上で学習した。
まず, 顔の塗り絵に予め訓練した生成エンコーダを利用して, 顔のマスクをカテゴリ認識記述子に表現する。
生成エンコーダがコンテキスト情報を回復する能力に起因して、結果として生じる記述子は、多様なマスクの効果を緩和して、マスクされた顔に対する隠蔽ロスト表現を提供することができる。
そして,多層畳み込みネットワークを識別的再構成器として組み込んで,カテゴリ認識記述子をアイデンティティ認識ベクタに変換し,既成の顔認識モデルから関係知識を抽出することにより,学習を効果的に指導する。
このようにして、生成エンコーダと共に識別的改質器は、予め訓練されたバックボーンとして機能し、マスクされた顔に対する一般的な識別的表現を提供する。
最後に、1つのソフトマックス層に続く1つの完全連結層を特徴分類器にカスケードし、それを微調整して修正されたアイデンティティ認識ベクトルを識別する。
合成および現実的なデータセットに関する大規模な実験は、マスクされた顔を認識するためのアプローチの有効性を実証している。
Masked face recognition is important for social good but challenged by diverse occlusions that cause insufficient or inaccurate representations. In this work, we propose a unified deep network to learn generative-to-discriminative representations for facilitating masked face recognition. To this end, we split the network into three modules and learn them on synthetic masked faces in a greedy module-wise pretraining manner. First, we leverage a generative encoder pretrained for face inpainting and finetune it to represent masked faces into category-aware descriptors. Attribute to the generative encoder's ability in recovering context information, the resulting descriptors can provide occlusion-robust representations for masked faces, mitigating the effect of diverse masks. Then, we incorporate a multi-layer convolutional network as a discriminative reformer and learn it to convert the category-aware descriptors into identity-aware vectors, where the learning is effectively supervised by distilling relation knowledge from off-the-shelf face recognition model. In this way, the discriminative reformer together with the generative encoder serves as the pretrained backbone, providing general and discriminative representations towards masked faces. Finally, we cascade one fully-connected layer following by one softmax layer into a feature classifier and finetune it to identify the reformed identity-aware vectors. Extensive experiments on synthetic and realistic datasets demonstrate the effectiveness of our approach in recognizing masked faces. | 翻訳日:2024-05-28 19:25:57 公開日:2024-05-27 |
# 離散化誘導バイアスの復号化予測への応用
Addressing Discretization-Induced Bias in Demographic Prediction ( http://arxiv.org/abs/2405.16762v1 ) ライセンス: Link先を確認 | Evan Dong, Aaron Schein, Yixin Wang, Nikhil Garg, | (参考訳) 人種的およびその他の人口統計上の差し押さえは、多くの応用、特に政治的キャンペーンにおける格差の監査やアウトリーチ・ターゲティングにおいて必要である。
標準的なアプローチは、名前と地理に基づいて連続的な予測(例えば、名前と地理に基づいて)を構築し、次に最も可能性の高いクラス(argmax)を選択して予測を$\textit{discretize} にする。
我々は、このプラクティスがどのように$\textit{discretization bias}$を生成するかを研究する。
特に、argmaxラベリングは、著名な商業投票者ファイルベンダーが人種や倫理を暗示するために用いているが、ノースカロライナ州では28.2%の差でアフリカ系アメリカ人の有権者をかなり下回っていることを示している。
このバイアスは、そのようなラベルを使用する下流タスクに重大な影響を与える可能性がある。
次に、$\textit{joint optimization}$ approach と $\textit{data-driven thresholding}$ heuristic を導入します。
最後に, 離散化バイアスを理論的に解析し, キャリブレーションされた連続モデルでは除去に不十分であり, われわれのようなアプローチが必要であることを示す。
研究者や実践者たちは、下流の結果を考慮せずに、連続的な人口統計予測を識別しないことを警告します。
Racial and other demographic imputation is necessary for many applications, especially in auditing disparities and outreach targeting in political campaigns. The canonical approach is to construct continuous predictions -- e.g., based on name and geography -- and then to $\textit{discretize}$ the predictions by selecting the most likely class (argmax). We study how this practice produces $\textit{discretization bias}$. In particular, we show that argmax labeling, as used by a prominent commercial voter file vendor to impute race/ethnicity, results in a substantial under-count of African-American voters, e.g., by 28.2% points in North Carolina. This bias can have substantial implications in downstream tasks that use such labels. We then introduce a $\textit{joint optimization}$ approach -- and a tractable $\textit{data-driven thresholding}$ heuristic -- that can eliminate this bias, with negligible individual-level accuracy loss. Finally, we theoretically analyze discretization bias, show that calibrated continuous models are insufficient to eliminate it, and that an approach such as ours is necessary. Broadly, we warn researchers and practitioners against discretizing continuous demographic predictions without considering downstream consequences. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# 潜伏層への代数構造の輸送
Transport of Algebraic Structure to Latent Embeddings ( http://arxiv.org/abs/2405.16763v1 ) ライセンス: Link先を確認 | Samuel Pfrommer, Brendon G. Anderson, Somayeh Sojoudi, | (参考訳) 機械学習はしばしば、より大きく抽象的な数学的空間にある入力の潜在的な埋め込みを生成することを目的としている。
例えば、3次元モデリングの分野では、ユークリッド空間の部分集合は暗黙の神経表現を用いてベクトルとして埋め込むことができる。
そのような部分集合は、演算(eg, union)と対応する法則(eg, associativity)を含む自然な代数構造も持つ。
アソシエーションを尊重しながら、その潜在埋め込みだけを使って2つの集合を「統一」する方法をどうやって学べるか。
本稿では、入力空間上の法則と確実に一致した潜在空間演算をパラメータ化するための一般的な手順を提案する。
これは、潜在空間から、所望の法則に従ってユークリッド空間上に構築された慎重に設計されたミラー付き代数への単射を学ぶことによって達成される。
我々は、これらの構造的輸送ネットを、潜在空間上で直接動作するベースラインに対して、様々なミラー代数に対して評価する。
我々の実験は、入力空間の基底となる代数的構造を尊重することが、正確かつ自己整合的な操作を学ぶための鍵であることを示す強力な証拠を提供する。
Machine learning often aims to produce latent embeddings of inputs which lie in a larger, abstract mathematical space. For example, in the field of 3D modeling, subsets of Euclidean space can be embedded as vectors using implicit neural representations. Such subsets also have a natural algebraic structure including operations (e.g., union) and corresponding laws (e.g., associativity). How can we learn to "union" two sets using only their latent embeddings while respecting associativity? We propose a general procedure for parameterizing latent space operations that are provably consistent with the laws on the input space. This is achieved by learning a bijection from the latent space to a carefully designed mirrored algebra which is constructed on Euclidean space in accordance with desired laws. We evaluate these structural transport nets for a range of mirrored algebras against baselines that operate directly on the latent space. Our experiments provide strong evidence that respecting the underlying algebraic structure of the input space is key for learning accurate and self-consistent operations. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# 関節スパース表現に基づくロバスト方向検出の検討
Study of Robust Direction Finding Based on Joint Sparse Representation ( http://arxiv.org/abs/2405.16765v1 ) ライセンス: Link先を確認 | Y. Li, W. Xiao, L. Zhao, Z. Huang, Q. Li, L. Li, R. C. de Lamare, | (参考訳) 標準位置推定法(DOA)は、一般的にガウス雑音の仮定に基づいて導出され、外れ値に非常に敏感である。
したがって、インパルスノイズの存在下では、これらの手法の性能が著しく低下する可能性がある。
本稿では,低周波外周波と混合したガウス雑音としてインパルスノイズをモデル化する。
統計的差異を利用して,スパース信号回復(SSR)に基づく新しいDOA推定法を提案する。
さらに、グリッドミスマッチの問題に対処するために、推定外乱行列とオングリッドDOA推定に依存する交互最適化手法を用いて、オフグリッドDOA推定値を得る。
シミュレーションの結果,提案手法は大きな外れ値に対してロバスト性を示すことがわかった。
Standard Direction of Arrival (DOA) estimation methods are typically derived based on the Gaussian noise assumption, making them highly sensitive to outliers. Therefore, in the presence of impulsive noise, the performance of these methods may significantly deteriorate. In this paper, we model impulsive noise as Gaussian noise mixed with sparse outliers. By exploiting their statistical differences, we propose a novel DOA estimation method based on sparse signal recovery (SSR). Furthermore, to address the issue of grid mismatch, we utilize an alternating optimization approach that relies on the estimated outlier matrix and the on-grid DOA estimates to obtain the off-grid DOA estimates. Simulation results demonstrate that the proposed method exhibits robustness against large outliers. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# アウト・オブ・ディストリビューション検出における関連性の再検討
Reframing the Relationship in Out-of-Distribution Detection ( http://arxiv.org/abs/2405.16766v1 ) ライセンス: Link先を確認 | YuXiao Lee, Xiaofeng Cao, | (参考訳) LLM(Large Language Models)の顕著な成果は、学界と産業の両方の注目を集め、対話生成における彼らの最初の役割を超越した。
様々なタスクにおける仲介エージェントとしてのLLMの利用は、有望な結果をもたらし、人工知能の革新の波を巻き起こした。
これらのブレークスルーに基づいて,エージェントパラダイムをOOD(Out-of-distriion)検出タスクに統合する,堅牢性と適応性の向上を目的とした,新たなアプローチを導入する。
提案手法であるConcept Matching with Agent (CMA) は、CLIPに基づくOOD検出プロセスを強化するために、中性プロンプトをエージェントとして利用する。
これらのエージェントは動的オブザーバや通信ハブとして機能し、イン・ディストリビューション(ID)ラベルとデータ入力の両方と相互作用してベクトル三角形関係を形成する。
この三角形のフレームワークは、従来のバイナリ関係よりもニュアンスなアプローチを提供しており、IDとOOD入力の分離と識別をより良くする。
実世界の様々なシナリオにおいて、ゼロショット法とトレーニング要求法の両方よりも優れたCMA性能を示す。
The remarkable achievements of Large Language Models (LLMs) have captivated the attention of both academia and industry, transcending their initial role in dialogue generation. The utilization of LLMs as intermediary agents in various tasks has yielded promising results, sparking a wave of innovation in artificial intelligence. Building on these breakthroughs, we introduce a novel approach that integrates the agent paradigm into the Out-of-distribution (OOD) detection task, aiming to enhance its robustness and adaptability. Our proposed method, Concept Matching with Agent (CMA), employs neutral prompts as agents to augment the CLIP-based OOD detection process. These agents function as dynamic observers and communication hubs, interacting with both In-distribution (ID) labels and data inputs to form vector triangle relationships. This triangular framework offers a more nuanced approach than the traditional binary relationship, allowing for better separation and identification of ID and OOD inputs. Our extensive experimental results showcase the superior performance of CMA over both zero-shot and training-required methods in a diverse array of real-world scenarios. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# 完全同型暗号化による離散時間STLの異常モニタリング
Oblivious Monitoring for Discrete-Time STL via Fully Homomorphic Encryption ( http://arxiv.org/abs/2405.16767v1 ) ライセンス: Link先を確認 | Masaki Waga, Kotaro Matsuoka, Takashi Suwa, Naoki Matsumoto, Ryotaro Banno, Song Bian, Kohei Suenaga, | (参考訳) リモートサーバからサイバー物理システム(CPS)を監視する場合、特に生体や位置情報などの機密情報を含む場合、監視されたデータを秘密にしておくことが重要である。
最近、Banno et al (CAV'22)は、完全同型暗号化(FHE)を使用してサーバからデータを隠蔽するオンラインLTL監視プロトコルを提案した。
このプロトコルは,例えば,距離や速度などを組み合わせた安全性測定を行うために,暗号化された値上での算術演算を可能にする。
本プロトコルは,信号時間論理(STL)に対する離散時間実数値信号のオンラインモニタリングを可能にする。
提案プロトコルは, CKKSとTFHEの2つのFHEスキームを組み合わせて, それぞれの強度を利用する。
我々は CKKS を用いて、STL 式から派生した DFA を用いて TFHE を用いて計算を行い、STL 式における算術述語の評価を行う。
責任・敏感性安全(RSS)ルールに対する血糖値と車両の行動のモニタリングについて事例研究を行った。
その結果,プロトコルの実践的妥当性が示唆された。
When monitoring a cyber-physical system (CPS) from a remote server, keeping the monitored data secret is crucial, particularly when they contain sensitive information, e.g., biological or location data. Recently, Banno et al. (CAV'22) proposed a protocol for online LTL monitoring that keeps data concealed from the server using Fully Homomorphic Encryption (FHE). We build on this protocol to allow arithmetic operations over encrypted values, e.g., to compute a safety measurement combining distance, velocity, and so forth. Overall, our protocol enables oblivious online monitoring of discrete-time real-valued signals against signal temporal logic (STL) formulas. Our protocol combines two FHE schemes, CKKS and TFHE, leveraging their respective strengths. We employ CKKS to evaluate arithmetic predicates in STL formulas while utilizing TFHE to process them using a DFA derived from the STL formula. We conducted case studies on monitoring blood glucose levels and vehicles' behavior against the Responsibility-Sensitive Safety (RSS) rules. Our results suggest the practical relevance of our protocol. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# マルチスケール問題の変分定式化のための物理情報細胞表現
Physics informed cell representations for variational formulation of multiscale problems ( http://arxiv.org/abs/2405.16770v1 ) ライセンス: Link先を確認 | Yuxiang Gao, Soheil Kolouri, Ravindra Duddu, | (参考訳) グラフィカル処理ユニットの急速な進歩に伴い、偏微分方程式(PDE)を解くための有望なツールとして物理情報ニューラルネットワーク(PINN)が登場しつつある。
しかし、PINNはマルチスケールの特徴を持つPDEの解決には適していない。
本稿では,多層パーセプトロン(MLP)と結合した多層多層格子からなるモデルアーキテクチャを用いて,多層ポアソン問題を解くための物理インフォームドセル表現を提案する。
格子パラメータ(レベル依存特徴ベクトル)とMDPパラメータ(重みとバイアス)は勾配差に基づく最適化を用いて決定される。
変分形式に基づく損失関数は、グリッドセル内の特徴ベクトルの線形補間を可能にすることにより、計算を加速する。
このセルベースMLPモデルは、ディリクレ境界条件の分離トレーニングスキームと周期境界条件のパラメータ共有スキームの使用を容易にし、従来のPINNよりも精度が高い。
さらに、非線形あるいは高周波境界条件でPDEを解く際の速度と精度の向上と、ハイパーパラメータ選択に関する洞察を提供する数値例を示した。
本質的には,セルベースMLPモデルと並列小クダnライブラリにより,コンバージェンス速度と数値精度の向上を実現している。
With the rapid advancement of graphical processing units, Physics-Informed Neural Networks (PINNs) are emerging as a promising tool for solving partial differential equations (PDEs). However, PINNs are not well suited for solving PDEs with multiscale features, particularly suffering from slow convergence and poor accuracy. To address this limitation of PINNs, this article proposes physics-informed cell representations for resolving multiscale Poisson problems using a model architecture consisting of multilevel multiresolution grids coupled with a multilayer perceptron (MLP). The grid parameters (i.e., the level-dependent feature vectors) and the MLP parameters (i.e., the weights and biases) are determined using gradient-descent based optimization. The variational (weak) form based loss function accelerates computation by allowing the linear interpolation of feature vectors within grid cells. This cell-based MLP model also facilitates the use of a decoupled training scheme for Dirichlet boundary conditions and a parameter-sharing scheme for periodic boundary conditions, delivering superior accuracy compared to conventional PINNs. Furthermore, the numerical examples highlight improved speed and accuracy in solving PDEs with nonlinear or high-frequency boundary conditions and provide insights into hyperparameter selection. In essence, by cell-based MLP model along with the parallel tiny-cuda-nn library, our implementation improves convergence speed and numerical accuracy. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# ARC: インコンテキスト学習を備えた汎用グラフ異常検出器
ARC: A Generalist Graph Anomaly Detector with In-Context Learning ( http://arxiv.org/abs/2405.16771v1 ) ライセンス: Link先を確認 | Yixin Liu, Shiyuan Li, Yu Zheng, Qingfeng Chen, Chengqi Zhang, Shirui Pan, | (参考訳) グラフ内の多数と異なる異常ノードを識別することを目的としたグラフ異常検出(GAD)が注目されている。
しかし、現在のGADメソッドは各データセットに特有のトレーニングを必要とするため、トレーニングコストが高く、データ要件が大きくなり、新しいデータセットやドメインに適用される際の一般化性が制限される。
これらの制約に対処するため,本論文では, 'one-for-all'' のGADモデルを用いて,様々なグラフデータセットの異常を検出する一般のGADアプローチであるARCを提案する。
コンテキスト内学習を備えたARCは、ターゲットデータセットのトレーニングや微調整を必要とせずに、推論段階での少数ショットの通常のサンプルを使用して、ターゲットデータセットからデータセット固有のパターンを直接抽出することができる。
ARCは、普遍的なグラフ異常パターンをキャプチャするためによく作られた3つのコンポーネントから構成される。
1) 異なるデータセットの特徴を共通かつ異常に敏感な空間に統一する滑らか度に基づく特徴アライメントモジュール
2)異常関連ノードの埋め込みを学習するego-neighbor残差グラフエンコーダ
3) 数発の正常サンプルを活用することでノード異常を予測するクロスアテンティブなコンテキスト異常スコアリングモジュール。
各種領域からの複数のベンチマークデータセットに対する大規模な実験は、ARCの優れた異常検出性能、効率、一般化性を示す。
Graph anomaly detection (GAD), which aims to identify abnormal nodes that differ from the majority within a graph, has garnered significant attention. However, current GAD methods necessitate training specific to each dataset, resulting in high training costs, substantial data requirements, and limited generalizability when being applied to new datasets and domains. To address these limitations, this paper proposes ARC, a generalist GAD approach that enables a ``one-for-all'' GAD model to detect anomalies across various graph datasets on-the-fly. Equipped with in-context learning, ARC can directly extract dataset-specific patterns from the target dataset using few-shot normal samples at the inference stage, without the need for retraining or fine-tuning on the target dataset. ARC comprises three components that are well-crafted for capturing universal graph anomaly patterns: 1) smoothness-based feature Alignment module that unifies the features of different datasets into a common and anomaly-sensitive space; 2) ego-neighbor Residual graph encoder that learns abnormality-related node embeddings; and 3) cross-attentive in-Context anomaly scoring module that predicts node abnormality by leveraging few-shot normal samples. Extensive experiments on multiple benchmark datasets from various domains demonstrate the superior anomaly detection performance, efficiency, and generalizability of ARC. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# ソーシャルネットワークによるユーザ嗜好のバランスをとる: 人気バイアスを緩和するための条件付きソーシャルレコメンデーションモデル
Balancing User Preferences by Social Networks: A Condition-Guided Social Recommendation Model for Mitigating Popularity Bias ( http://arxiv.org/abs/2405.16772v1 ) ライセンス: Link先を確認 | Xin He, Wenqi Fan, Ruobing Wang, Yili Wang, Ying Wang, Shirui Pan, Xin Wang, | (参考訳) ソーシャルレコメンデーションモデルは、ユーザに対してユニークなパーソナライズされたレコメンデーション結果を提供するために、ソーシャルインタラクションをデザインに織り込む。
しかし、ソーシャルネットワークはレコメンデーションモデルにおける人気バイアスを増幅するだけでなく、ホットアイテムの推薦が頻繁になり、ロングテールアイテムが少なくなるだけでなく、モデルのパフォーマンスにとって本質的に意味のない大量の冗長情報も含んでいる。
既存のソーシャルレコメンデーションモデルは、人気バイアスや社会的情報の冗長性の問題に対処できない。
本稿では,ソーシャルネットワークを軽視し,ユーザの社会的嗜好の重みを調整することで,モデルの人気バイアスを軽減するための条件付きソーシャルレコメンデーションモデル(CGSoRec)を提案する。
より具体的には、CGSoRecはまず条件付きソーシャル・デノーミング・モデル(CSD)を含み、ソーシャルネットワーク内の冗長な社会的関係を取り除き、より正確にアイテムでユーザーの社会的嗜好をキャプチャする。
そして、CGSoRecは、識別されたソーシャルネットワークに基づいてユーザの社会的嗜好を計算し、ユーザの社会的嗜好の重みを調整し、レコメンデーションモデルに存在する人気バイアスに対処できるようにする。
最後に、CGSoRecには条件誘導拡散勧告モデル(CGD)が含まれており、調整された社会的嗜好を、偏りのある方向の推奨結果を制御する条件として導入する。
実世界の3つのデータセットに関する総合実験により,提案手法の有効性を実証した。
コードは https://github.com/hexin5515/CGSoRec.org にある。
Social recommendation models weave social interactions into their design to provide uniquely personalized recommendation results for users. However, social networks not only amplify the popularity bias in recommendation models, resulting in more frequent recommendation of hot items and fewer long-tail items, but also include a substantial amount of redundant information that is essentially meaningless for the model's performance. Existing social recommendation models fail to address the issues of popularity bias and the redundancy of social information, as they directly characterize social influence across the entire social network without making targeted adjustments. In this paper, we propose a Condition-Guided Social Recommendation Model (named CGSoRec) to mitigate the model's popularity bias by denoising the social network and adjusting the weights of user's social preferences. More specifically, CGSoRec first includes a Condition-Guided Social Denoising Model (CSD) to remove redundant social relations in the social network for capturing users' social preferences with items more precisely. Then, CGSoRec calculates users' social preferences based on denoised social network and adjusts the weights in users' social preferences to make them can counteract the popularity bias present in the recommendation model. At last, CGSoRec includes a Condition-Guided Diffusion Recommendation Model (CGD) to introduce the adjusted social preferences as conditions to control the recommendation results for a debiased direction. Comprehensive experiments on three real-world datasets demonstrate the effectiveness of our proposed method. The code is in: https://github.com/hexin5515/CGSoRec. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# TrojFM: 非常に大規模な基盤モデルに対するリソース効率の高いバックドア攻撃
TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models ( http://arxiv.org/abs/2405.16783v1 ) ライセンス: Link先を確認 | Yuzhou. Nie, Yanting. Wang, Jinyuan. Jia, Michael J. De Lucia, Nathaniel D. Bastian, Wenbo. Guo, Dawn. Song, | (参考訳) 大きな基盤モデルに対するバックドア攻撃における重要な課題は、リソース制限である。
バックドアアタックは通常、非常に大きな基盤モデルにとって実用的でないターゲットモデルを再訓練する必要がある。
既存のバックドア攻撃は、主に教師付き分類器または小さな基礎モデル(例えばBERT)のために設計されている。
これらの攻撃のどれも、Llama-3-70Bのような非常に大きな基盤モデル、特に限られた計算資源を損なうことに成功していない。
本稿では,非常に大規模な基盤モデルに適したバックドア攻撃であるTrojFMを提案する。
我々の主な技術的貢献は、新しいバックドア注入法の開発である。
この方法は、バックドアモデルに対して、実際のセマンティクスに関係なく、有毒な入力に対して同様の隠れ表現を生成するように強制する。
提案手法は,モデルパラメータのごく一部のみを微調整することによって,そのようなバックドアを注入する。
これにより、TrojFMは、限られた計算資源の下で非常に大きな基盤モデルに対して、下流のタスクに依存しないバックドア攻撃を効率的に起動することができる。
さらに、カスタマイズしたQLoRA技術で微調整プロセスを最適化し、~\textit{one A100 GPU}で攻撃を起動できるようにします。
さらに,攻撃のステルス性を確保するため,新たなトリガー注入法を設計する。
広範にわたる実験を通じて、TrojFMは、通常の機能を損なうことなく(既存のBERTスタイルモデルよりも優れている)、広く使われているGPTスタイルのモデルに対して効果的なバックドア攻撃を起動できることを最初に実証した。
さらに,TrojFMはSOTA防御に耐性があり,キーのハイパーパラメータの変化に敏感であることを示す。
最後に,既存のバックドア攻撃と比較して,計算コストとメモリコストを大幅に削減できることを示す。
One key challenge in backdoor attacks against large foundation models is the resource limits. Backdoor attacks usually require retraining the target model, which is impractical for very large foundation models. Existing backdoor attacks are mainly designed for supervised classifiers or small foundation models (e.g., BERT). None of these attacks has successfully compromised a very large foundation model, such as Llama-3-70B, especially with limited computational resources. In this paper, we propose TrojFM, a novel backdoor attack tailored for very large foundation models. Our primary technical contribution is the development of a novel backdoor injection method. This method forces a backdoored model to generate similar hidden representations for poisoned inputs regardless of their actual semantics. Our approach injects such backdoors by fine-tuning only a very small proportion of model parameters. This enables TrojFM to efficiently launch downstream task-agnostic backdoor attacks against very large foundation models under limited computational resources. Moreover, we optimize the fine-tuning process with our customized QLoRA technique, enabling launching our attack via only~\textit{one A100 GPU}. Furthermore, we design a new trigger injection method to ensure our attack stealthiness. Through extensive experiments, we first demonstrate that TrojFM can launch effective backdoor attacks against widely used large GPT-style models without jeopardizing their normal functionalities (and outperforming existing attacks on BERT-style models). Furthermore, we show that TrojFM is resilient to SOTA defenses and is insensitive to changes in key hyper-parameters. Finally, we conduct a resource analysis to quantify that our method can significantly save computational and memory costs compared to existing backdoor attacks. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# 有限体上のスワップされた逆函数の2階ゼロ微分均一性
The second-order zero differential uniformity of the swapped inverse functions over finite fields ( http://arxiv.org/abs/2405.16784v1 ) ライセンス: Link先を確認 | Jaeseong Jeong, Namhun Koo, Soonhak Kwon, | (参考訳) Feistel Boomerang Connectivity Table (FBCT)は、Boomerang Connectivity Tableのフェスとして提案された。
FBCTの成分は実際には二階ゼロ微分スペクトルと関係している。
最近、ある関数の2階ゼロ微分均一性に関するいくつかの結果が導入された。
しかし、それらのほとんどはパワー関数に焦点を合わせており、非パワー関数についてはほとんど結果が得られていない。
本稿では,逆関数の2点をスワップすることで得られる関数であるスワップされた逆関数の2階ゼロ微分均一性について検討する。
また、ある場合にはスワップされた逆関数の2階ゼロ微分スペクトルも提示する。
特に、この論文は、偶数標数で 4 に等しい二階ゼロ微分均一性を持つ非パワー関数の類を特徴づける最初の結果である。
The Feistel Boomerang Connectivity Table (FBCT) was proposed as the feistel counterpart of the Boomerang Connectivity Table. The entries of the FBCT are actually related to the second-order zero differential spectrum. Recently, several results on the second-order zero differential uniformity of some functions were introduced. However, almost all of them were focused on power functions, and there are only few results on non-power functions. In this paper, we investigate the second-order zero differential uniformity of the swapped inverse functions, which are functions obtained from swapping two points in the inverse function. We also present the second-order zero differential spectrum of the swapped inverse functions for certain cases. In particular, this paper is the first result to characterize classes of non-power functions with the second-order zero differential uniformity equal to 4, in even characteristic. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# PromptFix:写真をプロンプトして修正する
PromptFix: You Prompt and We Fix the Photo ( http://arxiv.org/abs/2405.16785v1 ) ライセンス: Link先を確認 | Yongsheng Yu, Ziyun Zeng, Hang Hua, Jianlong Fu, Jiebo Luo, | (参考訳) 言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示し、画像処理が人間の指示に従うことができる。
しかし、多様な命令追跡データの欠如は、特に低レベルのタスクにおいて、ユーザカスタマイズ命令を効果的に認識し実行するモデルの開発を妨げている。
さらに、拡散過程の確率的性質は、生成した画像の詳細な保存を必要とする画像生成や編集タスクの欠如につながる。
これらの制約に対処するため,広範にわたる画像処理タスクを実行するために,拡散モデルによる人間の指示に従うことができる包括的フレームワークであるPromptFixを提案する。
まず、低レベルなタスク、画像編集、オブジェクト生成を含む包括的な画像処理タスクをカバーする大規模な命令追従データセットを構築する。
次に,非処理領域におけるdenoising処理を明示的に制御し,高周波の詳細を保存するための高周波ガイダンスサンプリング手法を提案する。
最後に,VLM(Vision-Language Models)を利用した補助的なプロンプトアダプタを設計し,テキストプロンプトを強化し,タスクの一般化を改善する。
実験の結果, PromptFix は様々な画像処理タスクにおいて, 従来の手法よりも優れていた。
提案モデルはまた,これらのベースラインモデルと同等の推論効率を実現し,ブラインド復元と組み合わせ作業において優れたゼロショット機能を示す。
データセットとコードはhttps://github.com/yeates/PromptFix.comで利用可能になる。
Diffusion models equipped with language models demonstrate excellent controllability in image generation tasks, allowing image processing to adhere to human instructions. However, the lack of diverse instruction-following data hampers the development of models that effectively recognize and execute user-customized instructions, particularly in low-level tasks. Moreover, the stochastic nature of the diffusion process leads to deficiencies in image generation or editing tasks that require the detailed preservation of the generated images. To address these limitations, we propose PromptFix, a comprehensive framework that enables diffusion models to follow human instructions to perform a wide variety of image-processing tasks. First, we construct a large-scale instruction-following dataset that covers comprehensive image-processing tasks, including low-level tasks, image editing, and object creation. Next, we propose a high-frequency guidance sampling method to explicitly control the denoising process and preserve high-frequency details in unprocessed areas. Finally, we design an auxiliary prompting adapter, utilizing Vision-Language Models (VLMs) to enhance text prompts and improve the model's task generalization. Experimental results show that PromptFix outperforms previous methods in various image-processing tasks. Our proposed model also achieves comparable inference efficiency with these baseline models and exhibits superior zero-shot capabilities in blind restoration and combination tasks. The dataset and code will be aviliable at https://github.com/yeates/PromptFix. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# 高速双極子サムを用いた3次元再構成
3D Reconstruction with Fast Dipole Sums ( http://arxiv.org/abs/2405.16788v1 ) ライセンス: Link先を確認 | Hanyu Chen, Bailey Miller, Ioannis Gkioulekas, | (参考訳) マルチビュー画像から高忠実度表面を再構成する手法を提案する。
提案手法では,新たな点ベース表現である双極子和を用いて,ゆらぎや外接点を持つ点雲における任意の点間属性の補間を可能にする。
双極子和を用いることで、暗黙の幾何学と放射場を点雲の点当たりの属性として表現することができ、運動から構造を直接初期化する。
さらに、高速化されたフォワードとリバースモードのダイポール和クエリに対するBarnes-Hut高速和スキームを導出する。
これらのクエリは、レイトレーシングを利用することで、画像のポイントベース表現を効率よく、微分的にレンダリングし、ポイント属性を更新することで、シーンの形状と外観を最適化する。
我々は,ニューラル表現のレイトレーシングやガウス点ベース表現のラスタ化に基づく,最先端の代替手法に対するこの逆レンダリングフレームワークの評価を行った。
また, 直接照明のための影線などのより一般的なレンダリング技術もサポートした。
このサプリメントでは、結果のインタラクティブな可視化を提供する。
We introduce a technique for the reconstruction of high-fidelity surfaces from multi-view images. Our technique uses a new point-based representation, the dipole sum, which generalizes the winding number to allow for interpolation of arbitrary per-point attributes in point clouds with noisy or outlier points. Using dipole sums allows us to represent implicit geometry and radiance fields as per-point attributes of a point cloud, which we initialize directly from structure from motion. We additionally derive Barnes-Hut fast summation schemes for accelerated forward and reverse-mode dipole sum queries. These queries facilitate the use of ray tracing to efficiently and differentiably render images with our point-based representations, and thus update their point attributes to optimize scene geometry and appearance. We evaluate this inverse rendering framework against state-of-the-art alternatives, based on ray tracing of neural representations or rasterization of Gaussian point-based representations. Our technique significantly improves reconstruction quality at equal runtimes, while also supporting more general rendering techniques such as shadow rays for direct illumination. In the supplement, we provide interactive visualizations of our results. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# SCSim:リアルなスパイクカメラシミュレータ
SCSim: A Realistic Spike Cameras Simulator ( http://arxiv.org/abs/2405.16790v1 ) ライセンス: Link先を確認 | Liwen Hu, Lei Ma, Yijia Guo, Tiejun Huang, | (参考訳) 特殊な時間分解能を備えたスパイクカメラは、高速な視覚的応用に革命をもたらしている。
大規模な合成データセットは、特に再構成や光の流れにおいて、これらのカメラの開発を著しく加速させてきた。
しかし、現在のスパイクカメラ用の合成データセットは洗練されていない。
このギャップに対処するために、包括的ノイズモデルを備えた、より斬新で現実的なスパイクカメラシミュレータであるSCSimを紹介する。
SCSimは、自律的に駆動シナリオを生成し、対応するスパイクストリームを合成するのに適している。
これらのストリームの忠実性を高めるため、スパイクカメラのユニークな回路に合わせた包括的ノイズモデルを開発した。
評価の結果,SCSimはスパイクストリームの生成において,既存のシミュレーション手法よりも優れていることがわかった。
重要なことに、SCSimはデータセットの作成を単純化し、再構築のようなスパイクベースの視覚タスクを大幅に前進させる。
私たちのプロジェクトはhttps://github.com/Acnext/SCSimを参照します。
Spike cameras, with their exceptional temporal resolution, are revolutionizing high-speed visual applications. Large-scale synthetic datasets have significantly accelerated the development of these cameras, particularly in reconstruction and optical flow. However, current synthetic datasets for spike cameras lack sophistication. Addressing this gap, we introduce SCSim, a novel and more realistic spike camera simulator with a comprehensive noise model. SCSim is adept at autonomously generating driving scenarios and synthesizing corresponding spike streams. To enhance the fidelity of these streams, we've developed a comprehensive noise model tailored to the unique circuitry of spike cameras. Our evaluations demonstrate that SCSim outperforms existing simulation methods in generating authentic spike streams. Crucially, SCSim simplifies the creation of datasets, thereby greatly advancing spike-based visual tasks like reconstruction. Our project refers to https://github.com/Acnext/SCSim. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# Laurel: 大規模言語モデルを用いたダニーアサーションの生成
Laurel: Generating Dafny Assertions Using Large Language Models ( http://arxiv.org/abs/2405.16792v1 ) ライセンス: Link先を確認 | Eric Mugnier, Emmanuel Anaya Gonzalez, Ranjit Jhala, Nadia Polikarpova, Yuanyuan Zhou, | (参考訳) Dafnyは人気のある検証言語で、SMTソルバにアウトソーシングすることで証明を自動化する。
しかし、この自動化は完璧ではないため、解決者はしばしば、証明エンジニアの負担を生み出すヘルパーアサーションの形でガイダンスを必要とする。
本稿では,大規模な言語モデル(LLM)を用いて,Dafnyプログラムのヘルパーアサーションを自動的に生成するツールであるLaurillを提案する。
本課題では,LLMの成功率を向上させるために,ドメイン固有の2つのプロンプト手法を設計する。
まず、検証者のエラーメッセージを解析し、その位置でアサーションプレースホルダーを挿入することで、LLMがアサーションの場所を決定するのを手助けする。
第二に、私たちはLLMに同じコードベースからの例のアサーションを提供し、新しいレムマ類似度メトリックに基づいて選択します。
実世界の3つのDafnyコードベースから抽出したヘルパーアサーションのデータセットを用いて,我々の技術を評価する。
評価の結果,数回の試行で必要なヘルパーアサーションの50%以上をローレルが生成できることがわかった。
Dafny is a popular verification language, which automates proofs by outsourcing them to an SMT solver. This automation is not perfect, however, and the solver often requires guidance in the form of helper assertions creating a burden for the proof engineer. In this paper, we propose Laurel, a tool that uses large language models (LLMs) to automatically generate helper assertions for Dafny programs. To improve the success rate of LLMs in this task, we design two domain-specific prompting techniques. First, we help the LLM determine the location of the missing assertion by analyzing the verifier's error message and inserting an assertion placeholder at that location. Second, we provide the LLM with example assertions from the same codebase, which we select based on a new lemma similarity metric. We evaluate our techniques on a dataset of helper assertions we extracted from three real-world Dafny codebases. Our evaluation shows that Laurel is able to generate over 50% of the required helper assertions given only a few attempts, making LLMs a usable and affordable tool to further automate practical program verification. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# 多光子量子センシング
Multiphoton quantum sensing ( http://arxiv.org/abs/2405.16793v1 ) ライセンス: Link先を確認 | Fatemeh Mostafavi, | (参考訳) 光と光の相互作用の基本原理はよく理解されており、無数のテクノロジーを駆り立てているが、多光子プロセスの世界はいまだに魅力的なパズルであり、光が物質とどのように相互作用するかの理解を最も基本的なレベルで劇的に変える可能性を秘めている。
このリッチな光と物質の相互作用は、多光子量子センシングによって実証されるように、例外的な精度で感知できる新しい現象を呈する。
この論文は、特にイメージング、通信、プラズモニックセンシングにおいて、古典的な制限を超え、感度を高めるために多光子量子プロトコルの応用を論じている。
我々は多光子量子プロセスの可能性を探究し、特にナノスケールシステムやマクロシステムのサブシステムにおいて、新規で超感度なセンシング手法が出現する可能性を探る。
この論文の次の章では、多光子量子センシングの変換ポテンシャルを示し、多様な用途に適した特定のセンシングプロトコルの設計、実装、実験結果を解明する。
本分析では,これらのプロトコルの感度と性能を評価するために,実験的な観測と理論的予測を組み合わせる。
さらに、この論文は、生体分子の検出、環境モニタリング、ナノスケールでの光-物質相互作用の基礎研究における応用を想定し、分野における将来的な方向性と進歩について論じている。
反射は、科学分野における多光子量子センシングの意義を強調し、将来の研究の基盤となる。
While the fundamental principles of light-matter interaction are well-understood and drive countless technologies, the world of multiphoton processes remains a fascinating puzzle, holding the potential to drastically alter our understanding of how light interacts with matter at its most basic level. This rich interplay of light and matter unveils novel phenomena that can be harnessed for sensing with exceptional precision, as exemplified by multiphoton quantum sensing. This thesis delves into the applications of multiphoton quantum protocols, particularly in imaging, communication, and plasmonic sensing, to surpass classical limitations and achieve enhanced sensitivity. We explore the potential of multiphoton quantum processes, particularly in the nanoscale regime and within subsystems of macroscopic systems, where novel and ultra-sensitive sensing methodologies emerge. Subsequent chapters of this thesis demonstrate the transformative potential of multiphoton quantum sensing, elucidating the design, implementation, and experimental results of specific sensing protocols tailored to diverse applications. Our analysis combines experimental observations and theoretical predictions to assess the sensitivity and performance of these protocols. Additionally, the thesis discusses potential future directions and advancements in the field, envisioning applications in biomolecule detection, environmental monitoring, and fundamental studies of light-matter interactions at the nanoscale. Concluding reflections highlight the implications of multiphoton quantum sensing across scientific disciplines and lay the groundwork for future research endeavors. | 翻訳日:2024-05-28 19:16:00 公開日:2024-05-27 |
# DualContrast: 暗黙のパラメータ化を伴うコンテンツと変換の教師なし分離
DualContrast: Unsupervised Disentangling of Content and Transformations with Implicit Parameterization ( http://arxiv.org/abs/2405.16796v1 ) ライセンス: Link先を確認 | Mostofa Rafid Uddin, Min Xu, | (参考訳) クラスタリング、アライメント、形状解析といった下流の教師なしタスクの解決に効果があるため、コンテンツと変換の教師なしの歪みが最近多くの研究を引き寄せている。
この問題は、下流タスクに大きく関連していることから、形状に着目した実世界の科学画像データセットを分析する上で特に重要である。
既存の研究は、変換因子を明示的にパラメータ化することでこの問題に対処し、表現性を著しく低下させる。
さらに、変換が容易にパラメータ化できない場合には適用できない。
このような明示的なアプローチの代替として、データ拡張を伴う自己教師型の手法があり、変換や内容が暗黙的に歪められる。
実世界のシナリオにおいて,データ拡張による自己管理手法は,コンテンツや変換の混乱を招くことが実証された。
そこで我々はDualContrastという新たな自己教師型手法を開発した。
本研究は,既存の自己監督的・明示的パラメータ化手法よりもDualContrastの方が優れていることを示す。
我々はDualContrastを用いて、細胞3Dタンパク質画像中のタンパク質の同一性やタンパク質のコンホメーションを解析した。
さらに、MNISTにおける変換、Linemod Objectデータセットにおける視点、DualContrastを用いた変換としてのStarmenデータセットにおける人間の動きの変形についても検討した。
Unsupervised disentanglement of content and transformation has recently drawn much research, given their efficacy in solving downstream unsupervised tasks like clustering, alignment, and shape analysis. This problem is particularly important for analyzing shape-focused real-world scientific image datasets, given their significant relevance to downstream tasks. The existing works address the problem by explicitly parameterizing the transformation factors, significantly reducing their expressiveness. Moreover, they are not applicable in cases where transformations can not be readily parametrized. An alternative to such explicit approaches is self-supervised methods with data augmentation, which implicitly disentangles transformations and content. We demonstrate that the existing self-supervised methods with data augmentation result in the poor disentanglement of content and transformations in real-world scenarios. Therefore, we developed a novel self-supervised method, DualContrast, specifically for unsupervised disentanglement of content and transformations in shape-focused image datasets. Our extensive experiments showcase the superiority of DualContrast over existing self-supervised and explicit parameterization approaches. We leveraged DualContrast to disentangle protein identities and protein conformations in cellular 3D protein images. Moreover, we also disentangled transformations in MNIST, viewpoint in the Linemod Object dataset, and human movement deformation in the Starmen dataset as transformations using DualContrast. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# 軽量ニューラルネットワークを用いたリアルタイム音声活動検出
A Real-Time Voice Activity Detection Based On Lightweight Neural ( http://arxiv.org/abs/2405.16797v1 ) ライセンス: Link先を確認 | Jidong Jia, Pei Zhao, Di Wang, | (参考訳) 音声活動検出(VAD)は,音声ストリーム中の音声を検出するタスクであり,実環境における可視ノイズの多さと低信号-雑音比により困難である。
近年、ニューラルネットワークベースのVADでは、パフォーマンスの低下がある程度軽減されている。
しかし、既存の研究の大半は、過剰に大規模なモデルを採用し、将来の文脈を取り入れつつ、モデルの運用効率と遅延を評価することを怠っている。
本稿では,カジュアルかつ深さ分離可能な1次元畳み込みとGRUを利用するMagicNetという,軽量かつリアルタイムなニューラルネットワークを提案する。
提案モデルは,将来的な特徴を入力として頼らずに,合成したドメイン内およびドメイン外テストデータセットの2つの最先端アルゴリズムと比較する。
評価結果は、MagicNetがパラメータコストを少なくして、パフォーマンスと堅牢性を向上できることを示した。
Voice activity detection (VAD) is the task of detecting speech in an audio stream, which is challenging due to numerous unseen noises and low signal-to-noise ratios in real environments. Recently, neural network-based VADs have alleviated the degradation of performance to some extent. However, the majority of existing studies have employed excessively large models and incorporated future context, while neglecting to evaluate the operational efficiency and latency of the models. In this paper, we propose a lightweight and real-time neural network called MagicNet, which utilizes casual and depth separable 1-D convolutions and GRU. Without relying on future features as input, our proposed model is compared with two state-of-the-art algorithms on synthesized in-domain and out-domain test datasets. The evaluation results demonstrate that MagicNet can achieve improved performance and robustness with fewer parameter costs. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# 忘れられる権利の文脈における教育データマイニングの公正性を探る
Exploring Fairness in Educational Data Mining in the Context of the Right to be Forgotten ( http://arxiv.org/abs/2405.16798v1 ) ライセンス: Link先を確認 | Wei Qian, Aobo Chen, Chenxu Zhao, Yangyi Li, Mengdi Huai, | (参考訳) 教育データマイニング(EDM)コミュニティでは、機械学習が教育上の課題に対処するパターンや構造を発見することに成功している。
特に、EDMの学習分析において、公平性とアルゴリズムバイアスが注目されている。
忘れられる権利の需要が高まっているため、特にEDMの領域において、機密データとその影響を忘れる機械学習モデルの必要性が高まっている。
マシン・アンラーニング(英: machine unlearning)とも呼ばれる選択的忘れのパラダイムは、完全に再トレーニングすることなく、事前訓練されたモデルから特定のデータの影響を排除することで、このニーズに対処するために広く研究されている。
しかし、既存の研究では、インタラクティブなデータ削除操作は安全で信頼性の高い環境で行われ、潜在的に悪意のない未学習要求を無視して機械学習システムの公正性を損なうと仮定している。
本稿では,予測精度を維持しつつ,学習モデルの公平性を損なうことを意図した,モデル所有者がモデル性能の劣化を検出できないような,新たな選択型忘れ攻撃手法を提案する。
さらに,攻撃シナリオにまたがる不正な未学習要求を発生させることのできる,攻撃を選択的に忘れるための革新的な最適化フレームワークを提案する。
多様なEDMデータセットを用いた広範囲な実験により、フェアネスに対する選択的忘れ攻撃の有効性を検証した。
In education data mining (EDM) communities, machine learning has achieved remarkable success in discovering patterns and structures to tackle educational challenges. Notably, fairness and algorithmic bias have gained attention in learning analytics of EDM. With the increasing demand for the right to be forgotten, there is a growing need for machine learning models to forget sensitive data and its impact, particularly within the realm of EDM. The paradigm of selective forgetting, also known as machine unlearning, has been extensively studied to address this need by eliminating the influence of specific data from a pre-trained model without complete retraining. However, existing research assumes that interactive data removal operations are conducted in secure and reliable environments, neglecting potential malicious unlearning requests to undermine the fairness of machine learning systems. In this paper, we introduce a novel class of selective forgetting attacks designed to compromise the fairness of learning models while maintaining their predictive accuracy, thereby preventing the model owner from detecting the degradation in model performance. Additionally, we propose an innovative optimization framework for selective forgetting attacks, capable of generating malicious unlearning requests across various attack scenarios. We validate the effectiveness of our proposed selective forgetting attacks on fairness through extensive experiments using diverse EDM datasets. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# 感情組み込みによる二重状態の個人化知識の追跡
Dual-State Personalized Knowledge Tracing with Emotional Incorporation ( http://arxiv.org/abs/2405.16799v1 ) ライセンス: Link先を確認 | Shanshan Wang, Fangzheng Yuan, Keyang Wang, Xun Yang, Xingyi Zhang, Meng Wang, | (参考訳) オンライン学習システムでは、学習者の将来の学習を導くために知識追跡が広く使われている。
しかし、既存のほとんどのKTモデルは、主に質問セットから豊富な情報を抽出し、それら間の関係を探索することに焦点を当てているが、学習過程においてパーソナライズされた学生の行動情報を無視する。
これにより、モデルの生徒のパーソナライズされた知識状態を正確に把握し、パフォーマンスを合理的に予測できる能力が制限される。
この制限を緩和するために、学習プロセスに代表的パーソナライズされた行動である感情をKTフレームワークに組み込むことにより、パーソナライズされた学習プロセスを明示的にモデル化する。
具体的には、この目標を達成するために、感情的な情報を知識状態のモデリングプロセスに組み込むことにより、知識状態ブースティングモジュールを実現する。
次に,学生の感情状態を監視するための感情追跡モジュールを設計し,個人的感情状態に基づく感情予測手法を提案する。
最後に,学生の反応予測を強化するために,予測された感情を適用した。
さらに、異なるデータセットにまたがるモデルの一般化能力を拡張するために、Transfer Learning-based Self-loop model (T-DEKT) と呼ばれるDEKTのトランスファーバージョンを設計する。
大規模な実験により,本手法が最先端の性能を実現することを示す。
Knowledge tracing has been widely used in online learning systems to guide the students' future learning. However, most existing KT models primarily focus on extracting abundant information from the question sets and explore the relationships between them, but ignore the personalized student behavioral information in the learning process. This will limit the model's ability to accurately capture the personalized knowledge states of students and reasonably predict their performances. To alleviate this limitation, we explicitly models the personalized learning process by incorporating the emotions, a representative personalized behavior in the learning process, into KT framework. Specifically, we present a novel Dual-State Personalized Knowledge Tracing with Emotional Incorporation model to achieve this goal: Firstly, we incorporate emotional information into the modeling process of knowledge state, resulting in the Knowledge State Boosting Module. Secondly, we design an Emotional State Tracing Module to monitor students' personalized emotional states, and propose an emotion prediction method based on personalized emotional states. Finally, we apply the predicted emotions to enhance students' response prediction. Furthermore, to extend the generalization capability of our model across different datasets, we design a transferred version of DEKT, named Transfer Learning-based Self-loop model (T-DEKT). Extensive experiments show our method achieves the state-of-the-art performance. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# TAGA: グラフとテキスト相互変換の相乗化によるテキスト分散グラフ自己教師付き学習
TAGA: Text-Attributed Graph Self-Supervised Learning by Synergizing Graph and Text Mutual Transformations ( http://arxiv.org/abs/2405.16800v1 ) ライセンス: Link先を確認 | Zheng Zhang, Yuntong Hu, Bo Pan, Chen Ling, Liang Zhao, | (参考訳) Text-Attributed Graphs (TAG)は、自然言語記述によるグラフ構造を強化し、実際のシナリオの幅広い範囲にわたるデータとその関係の詳細な表現を可能にする。
より深い洞察の可能性があるにもかかわらず、既存のTAG表現学習は主に教師付き手法に依存し、広範囲のラベル付きデータを必要とし、多様なコンテキストで適用性を制限する。
本稿では,TAGの構造的・意味的次元を統合することで,これらの制約を克服する,新たな自己教師型学習フレームワークであるText-And-Graph Multi-View Alignment(TAGA)を提案する。
TAGAは、グラフトポロジに基づいてノードテキストを構造化文書に整理するText-of-Graph viewと、テキストノードと接続をグラフデータに変換するGraph-of-Text viewという2つの補完ビューを構築している。
両ビューから表現をコーディネートすることで、TAGAは共同でテキストと構造情報をキャプチャする。
さらに, 大規模TAGの効率的なトレーニングのために, 構造保存型ランダムウォークアルゴリズムを提案する。
本フレームワークは,8つの実世界のデータセットを対象としたゼロショットおよび少数ショットシナリオにおいて,強力なパフォーマンスを示す。
Text-Attributed Graphs (TAGs) enhance graph structures with natural language descriptions, enabling detailed representation of data and their relationships across a broad spectrum of real-world scenarios. Despite the potential for deeper insights, existing TAG representation learning primarily relies on supervised methods, necessitating extensive labeled data and limiting applicability across diverse contexts. This paper introduces a new self-supervised learning framework, Text-And-Graph Multi-View Alignment (TAGA), which overcomes these constraints by integrating TAGs' structural and semantic dimensions. TAGA constructs two complementary views: Text-of-Graph view, which organizes node texts into structured documents based on graph topology, and the Graph-of-Text view, which converts textual nodes and connections into graph data. By aligning representations from both views, TAGA captures joint textual and structural information. In addition, a novel structure-preserving random walk algorithm is proposed for efficient training on large-sized TAGs. Our framework demonstrates strong performance in zero-shot and few-shot scenarios across eight real-world datasets. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# AutoCV: 信頼性の変動による自動プロセスラベリングによる推論の強化
AutoCV: Empowering Reasoning with Automated Process Labeling via Confidence Variation ( http://arxiv.org/abs/2405.16802v1 ) ライセンス: Link先を確認 | Jianqiao Lu, Zhiyang Dou, Hongru Wang, Zeyu Cao, Jianbo Dai, Yingjia Wan, Yinya Huang, Zhijiang Guo, | (参考訳) 本研究では,大規模言語モデル (LLMs) の推論能力を高めるため, 推論ステップを自動的に注釈付けして, プロセスラベル作成を行う新しい手法を提案する。
我々のアプローチは、最終回答の正しさに関する検証モデルをトレーニングすることから始まり、自動的にプロセスアノテーションを生成することができる。
この検証モデルは、各推論ステップに信頼スコアを割り当て、その時点から正しい最終回答に到達する確率を示す。
我々は,検証の信頼性スコアの相対的な変化を推論ステップ間で検出し,推論プロセスを自動的に注釈付けする。
これにより、多数の手動アノテーションの必要性や、モデルによるアノテーションアプローチに関連する高い計算コストが軽減される。
最終回答の正しさを訓練した検証モデルにより得られた信頼度変化が、推論ステップにおける誤りを効果的に識別できることを実験的に検証した。
次に, 検証モデルの精度を向上し, LLM が生成した複数の出力から正しい回答を選択することを実証した。
特に、数学とコモンセンス推論の5つのデータセットにまたがる大幅な改善を実現している。
\textsc{AutoCV} のソースコードは \url{https://github.com/rookie-joe/AUTOCV} で公開されている。
In this work, we propose a novel method named \textbf{Auto}mated Process Labeling via \textbf{C}onfidence \textbf{V}ariation (\textbf{\textsc{AutoCV}}) to enhance the reasoning capabilities of large language models (LLMs) by automatically annotating the reasoning steps. Our approach begins by training a verification model on the correctness of final answers, enabling it to generate automatic process annotations. This verification model assigns a confidence score to each reasoning step, indicating the probability of arriving at the correct final answer from that point onward. We detect relative changes in the verification's confidence scores across reasoning steps to automatically annotate the reasoning process. This alleviates the need for numerous manual annotations or the high computational costs associated with model-induced annotation approaches. We experimentally validate that the confidence variations learned by the verification model trained on the final answer correctness can effectively identify errors in the reasoning steps. Subsequently, we demonstrate that the process annotations generated by \textsc{AutoCV} can improve the accuracy of the verification model in selecting the correct answer from multiple outputs generated by LLMs. Notably, we achieve substantial improvements across five datasets in mathematics and commonsense reasoning. The source code of \textsc{AutoCV} is available at \url{https://github.com/rookie-joe/AUTOCV}. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# TIE: 複雑プロンプト追従と高忠実度編集のためのテキストベースの画像編集の革新
TIE: Revolutionizing Text-based Image Editing for Complex-Prompt Following and High-Fidelity Editing ( http://arxiv.org/abs/2405.16803v1 ) ライセンス: Link先を確認 | Xinyu Zhang, Mengxue Kang, Fei Wei, Shuang Xu, Yuhe Liu, Lin Ma, | (参考訳) 画像生成の分野が急速に進歩するにつれて、従来の拡散モデルとマルチモーダルな大言語モデル(LLM)と統合されたモデルは、複雑なプロンプトの解釈や、画像の一貫性の事前と後編集の保存に制限に直面している。
これらの課題に対処するために,より洗練された画像を生成する上で拡散モデルを支援するために,マルチモーダルLLMのロバストなチェイン・オブ・ソート(CoT)推論とローカライズ機能を利用する,革新的な画像編集フレームワークを提案する。
まず,命令分解,領域ローカライゼーション,詳細な記述を含むCoTプロセスの設計を行う。
その後、マルチモーダルLLMのCoTプロセスと編集画像のマスクを用いて、軽量なマルチモーダルLLMであるLISAモデルを微調整する。
生成したプロンプトとイメージマスクの知識を持つ拡散モデルを提供することで、我々のモデルは命令の理解に優れた画像を生成する。
大規模な実験により,既存の最先端モデルよりも優れた画像生成性能を示した。
特に, 複雑なプロンプトを理解し, 対応する画像を生成する能力が向上し, 生成前後の画像の忠実度と一貫性が向上した。
As the field of image generation rapidly advances, traditional diffusion models and those integrated with multimodal large language models (LLMs) still encounter limitations in interpreting complex prompts and preserving image consistency pre and post-editing. To tackle these challenges, we present an innovative image editing framework that employs the robust Chain-of-Thought (CoT) reasoning and localizing capabilities of multimodal LLMs to aid diffusion models in generating more refined images. We first meticulously design a CoT process comprising instruction decomposition, region localization, and detailed description. Subsequently, we fine-tune the LISA model, a lightweight multimodal LLM, using the CoT process of Multimodal LLMs and the mask of the edited image. By providing the diffusion models with knowledge of the generated prompt and image mask, our models generate images with a superior understanding of instructions. Through extensive experiments, our model has demonstrated superior performance in image generation, surpassing existing state-of-the-art models. Notably, our model exhibits an enhanced ability to understand complex prompts and generate corresponding images, while maintaining high fidelity and consistency in images before and after generation. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# 勾配圧縮センシング:高次元ゼロ階最適化のためのクエリ効率の良い勾配推定器
Gradient Compressed Sensing: A Query-Efficient Gradient Estimator for High-Dimensional Zeroth-Order Optimization ( http://arxiv.org/abs/2405.16805v1 ) ライセンス: Link先を確認 | Ruizhong Qiu, Hanghang Tong, | (参考訳) 約$s$スパース勾配を持つ関数に対する高次元空間 $\mathbb R^d$ における非凸ゼロ階最適化 (ZOO) について検討する。
問合せ複雑性における次元$d$への依存を低減するため、高次元ZOO法は勾配間隔を利用して勾配推定器を設計する。
前の最良の方法は、ステップ数 T に対して$O\big(\frac1T\big)$収束率を達成するために、ステップ当たり$O\big(s\log\frac ds\big)$クエリが必要である。
本稿では,<sup>0</sup>,<sup>0</sup>,<sup>0</sup>,</sup>,<sup>0</sup>,</sup>,<sup>0</sup>,</sup>,<sup>0</sup>,<sup>0</sup>,</sup>,<sup>0</sup>,<sup>0</sup>,<sup>0</sup>,<sup>0</sup>,<sup>0</sup>,<sup>0</sup>,<sup>0</sup>,<sup>0</sup>,<sup>0</sup>,<sup>3</sup>,<sup>0</sup>,<sup>,<sup>3</sup>,<sup>3</sup>,</sup>,<sup>,</sup>,<sup>,<sup>,<sup>,<sup>,<sup>,<sup>,<sup>,</sup>,<sup>,</sup,</sup,</sup,<sup>,<I,<sup,<sup,<I,<I,
我々の知る限りでは、より弱い仮定の下でクエリ複雑性の$d$に対する*double-logarithmic*依存を実現するのは、私たちは初めてです。
Indyk-Price-Woodruff (IPW) アルゴリズムを線形測定から非線形関数への圧縮センシングにおいて一般化した。
さらに,IPWアルゴリズムは不規則に大きい定数のため純粋に理論的であるため,我々の*依存ランダムパーティション*技術によるIPWアルゴリズムの改良とそれに対応する新しい解析を行い,定数を4300倍近く減少させることに成功した。
GraCeは理論的にクエリ効率が高いだけでなく、経験的性能も高い。
我々はGraCeを10000次元関数を持つ既存の12のZOOメソッドに対してベンチマークし、GraCeが既存のメソッドよりも大幅に優れていることを示す。
We study nonconvex zeroth-order optimization (ZOO) in a high-dimensional space $\mathbb R^d$ for functions with approximately $s$-sparse gradients. To reduce the dependence on the dimensionality $d$ in the query complexity, high-dimensional ZOO methods seek to leverage gradient sparsity to design gradient estimators. The previous best method needs $O\big(s\log\frac ds\big)$ queries per step to achieve $O\big(\frac1T\big)$ rate of convergence w.r.t. the number T of steps. In this paper, we propose *Gradient Compressed Sensing* (GraCe), a query-efficient and accurate estimator for sparse gradients that uses only $O\big(s\log\log\frac ds\big)$ queries per step and still achieves $O\big(\frac1T\big)$ rate of convergence. To our best knowledge, we are the first to achieve a *double-logarithmic* dependence on $d$ in the query complexity under weaker assumptions. Our proposed GraCe generalizes the Indyk--Price--Woodruff (IPW) algorithm in compressed sensing from linear measurements to nonlinear functions. Furthermore, since the IPW algorithm is purely theoretical due to its impractically large constant, we improve the IPW algorithm via our *dependent random partition* technique together with our corresponding novel analysis and successfully reduce the constant by a factor of nearly 4300. Our GraCe is not only theoretically query-efficient but also achieves strong empirical performance. We benchmark our GraCe against 12 existing ZOO methods with 10000-dimensional functions and demonstrate that GraCe significantly outperforms existing methods. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# 大規模言語モデルからのノイズアライメントによるエンティティアライメント
Entity Alignment with Noisy Annotations from Large Language Models ( http://arxiv.org/abs/2405.16806v1 ) ライセンス: Link先を確認 | Shengyuan Chen, Qinggang Zhang, Junnan Dong, Wen Hua, Qing Li, Xiao Huang, | (参考訳) エンティティアライメント(EA)は、2つの知識グラフ(KG)をマージすることを目的として、等価なエンティティペアを識別する。
既存の手法は人為的なラベルに大きく依存しているが、実際のシナリオでアノテーションにクロスドメインの専門家を組み込むことは違法である。
LLM(Large Language Models)の出現は、セマンティック情報を処理する包括的な能力に触発されて、アノテーションでEAを自動化するための新しい道を示す。
しかし、実際のKGのアノテーション空間が大きいため、EA に対して LLM を直接適用することは自明ではない。
LLMはアライメントを誤解させる可能性のあるノイズの多いラベルを生成することもできる。
そこで我々は,LLMをEAに効果的に活用するための統一フレームワーク LLM4EA を提案する。
具体的には、KG間構造とKG内構造全体に基づいて、最も価値の高いエンティティを優先順位付けすることで、アノテーション空間を大幅に削減する、新しいアクティブラーニングポリシーを設計する。
さらに,詳細な確率論的推論によりラベルの精度を継続的に向上する教師なしラベル精錬器を導入する。
基本EAモデルからのフィードバックに基づいて、ポリシーを反復的に最適化します。
大規模な実験では、4つのベンチマークデータセットに対して、有効性、堅牢性、効率の点でLLM4EAの利点を実証している。
Entity alignment (EA) aims to merge two knowledge graphs (KGs) by identifying equivalent entity pairs. While existing methods heavily rely on human-generated labels, it is prohibitively expensive to incorporate cross-domain experts for annotation in real-world scenarios. The advent of Large Language Models (LLMs) presents new avenues for automating EA with annotations, inspired by their comprehensive capability to process semantic information. However, it is nontrivial to directly apply LLMs for EA since the annotation space in real-world KGs is large. LLMs could also generate noisy labels that may mislead the alignment. To this end, we propose a unified framework, LLM4EA, to effectively leverage LLMs for EA. Specifically, we design a novel active learning policy to significantly reduce the annotation space by prioritizing the most valuable entities based on the entire inter-KG and intra-KG structure. Moreover, we introduce an unsupervised label refiner to continuously enhance label accuracy through in-depth probabilistic reasoning. We iteratively optimize the policy based on the feedback from a base EA model. Extensive experiments demonstrate the advantages of LLM4EA on four benchmark datasets in terms of effectiveness, robustness, and efficiency. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# 適応型ニューラル画像の極端圧縮
Extreme Compression of Adaptive Neural Images ( http://arxiv.org/abs/2405.16807v1 ) ライセンス: Link先を確認 | Leo Hoshikawa, Marcos V. Conde, Takeshi Ohashi, Atsushi Irie, | (参考訳) Implicit Neural Representations(INR)とNeural Fieldsは、画像やオーディオから3Dシーン、ビデオまで、信号表現のための新しいパラダイムである。
基本的な考え方は、シグナルを連続的で微分可能なニューラルネットワークとして表現することである。
このアイデアは、連続分解能やメモリ効率などの前例のない利点を提供し、新しい圧縮技術を可能にしている。
しかし、データをニューラルネットワークとして表現することは、新たな課題をもたらす。
例えば、ニューラルネットワークとして2D画像が与えられた場合、そのような画像をさらに圧縮するにはどうすればよいのか?
と。
本研究では,画像に着目したニューラルフィールドの圧縮に関する新しい解析法を提案する。
また、異なる推論や伝送要求への適応を可能にする効率的なニューラルネットワーク表現であるAdaptive Neural Images (ANI)を導入する。
提案手法では, 感度を損なわず, 忠実度を損なうことなく, 画像のビット/ピクセル(bpp)を4倍に削減できる。
4ビットのニューラル表現の実装が成功したおかげで実現しました。
私たちの研究は、圧縮されたニューラルネットワークを開発するための新しいフレームワークを提供します。
Implicit Neural Representations (INRs) and Neural Fields are a novel paradigm for signal representation, from images and audio to 3D scenes and videos. The fundamental idea is to represent a signal as a continuous and differentiable neural network. This idea offers unprecedented benefits such as continuous resolution and memory efficiency, enabling new compression techniques. However, representing data as neural networks poses new challenges. For instance, given a 2D image as a neural network, how can we further compress such a neural image?. In this work, we present a novel analysis on compressing neural fields, with the focus on images. We also introduce Adaptive Neural Images (ANI), an efficient neural representation that enables adaptation to different inference or transmission requirements. Our proposed method allows to reduce the bits-per-pixel (bpp) of the neural image by 4x, without losing sensitive details or harming fidelity. We achieve this thanks to our successful implementation of 4-bit neural representations. Our work offers a new framework for developing compressed neural fields. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# キタエフ量子スピン液体中の幾何相
Geometric Phase in Kitaev Quantum Spin Liquid ( http://arxiv.org/abs/2405.16808v1 ) ライセンス: Link先を確認 | Zheng-Chuan Wang, | (参考訳) 量子スピン液体は、基底状態において多数のスピン絡み合いを持ち、絡み合いエントロピーによって評価することができるが、後者は実験によって直接観察することはできない。
本稿では,その位相特性を幾何学的位相によって特徴づけようとする。
しかし, 通常の断熱的・非断熱的幾何学的位相は, エンタングルメントエントロピーの密度行列には現れず, 密度行列に存在し, エンタングルメントエントロピー, スピン相関関数, その他の物理観測可能な部分幾何学的位相に拡張する。
サブ幾何学的位相の想像的部分は、この位相に関する量によって共鳴ピークを逸脱し、エネルギーレベルの交差に影響し、一方、サブ幾何学的位相の実際の部分は初期状態の安定性を判断し、量子遷移の選択規則を補完することを示した。
Quantum spin liquid has massive many spin entanglement in the ground state, we can evaluate it by the entanglement entropy, but the latter can not be observed directly by experiment. In this manuscript, we try to characterize its topological properties by the geometric phase. However the usual adiabatic or non-adiabatic geometric phase can not appear in the density matrix of entanglement entropy, so we extend it to the sub-geometric phase which can exist in the density matrix and have influence on the entanglement entropy, spin correlation function as well as other physical observable. We will demonstrate that the imaginary part of sub-geometric phase will deviate the resonance peak by an amount concerning with this phase and affect the energy level crossing, while the real part of sub-geometric phase will determine the stability of initial state, it may provide a complement on the selection rule of quantum transition. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# 線形$q^π$-Realizabilityと集中度を持つオフラインRLにおける統計的に効率的な学習のための軌道データ
Trajectory Data Suffices for Statistically Efficient Learning in Offline RL with Linear $q^π$-Realizability and Concentrability ( http://arxiv.org/abs/2405.16809v1 ) ライセンス: Link先を確認 | Volodymyr Tkachuk, Gellért Weisz, Csaba Szepesvári, | (参考訳) 線形$q^\pi$-realizability(英語版)仮定の下では、任意のポリシーのアクション値関数が与えられた$d$次元特徴関数に対して線形となるような、オフライン強化学習 (RL) を$H$-horizon Markov決定プロセス (MDPs) で考える。
この設定では、MDP内の状態の数に合わせてスケールするサンプルサイズを必要とせずに、優れた政策を学ぶことができると期待されている。
Foster et al [2021]は、$\textit{concentrability}$の下では、係数$C_\text{conc}$が任意のポリシーの状態-作用分布がデータ分布を逸脱できる範囲に制限される、データカバレッジの仮定でさえ、これを不可能であることを示した。
しかし、この前の研究で得られたデータは、個々の遷移のシーケンスの形式であった。
このことは、データが完全な軌跡の列で構成されていた場合、上述した負の結果が克服できるかどうかという疑問を解き放つ。
この研究では、軌跡データを用いて、状態空間のサイズに関わらず、$\epsilon$-optimal Policyを導出するのに十分なサイズのデータセット $\text{poly}(d,H,C_\text{conc})/\epsilon^2$ が十分であることを証明することによって、この質問に答える。
この結果を可能にする主なツールはWeisz et al [2023] によるものであり、線形 MDP が線形に$q^\pi$-realizable MDP を近似するために使用できることを示すものである。
軌道データとのつながりは、線形MDP近似が特定の状態の「スキップ」に依存することである。
関連する推定問題は、軌跡データを扱う際には容易であるが、個々の遷移を扱う際には非自明なままである。
我々の仮定による計算効率の問題はまだ未解決である。
We consider offline reinforcement learning (RL) in $H$-horizon Markov decision processes (MDPs) under the linear $q^\pi$-realizability assumption, where the action-value function of every policy is linear with respect to a given $d$-dimensional feature function. The hope in this setting is that learning a good policy will be possible without requiring a sample size that scales with the number of states in the MDP. Foster et al. [2021] have shown this to be impossible even under $\textit{concentrability}$, a data coverage assumption where a coefficient $C_\text{conc}$ bounds the extent to which the state-action distribution of any policy can veer off the data distribution. However, the data in this previous work was in the form of a sequence of individual transitions. This leaves open the question of whether the negative result mentioned could be overcome if the data was composed of sequences of full trajectories. In this work we answer this question positively by proving that with trajectory data, a dataset of size $\text{poly}(d,H,C_\text{conc})/\epsilon^2$ is sufficient for deriving an $\epsilon$-optimal policy, regardless of the size of the state space. The main tool that makes this result possible is due to Weisz et al. [2023], who demonstrate that linear MDPs can be used to approximate linearly $q^\pi$-realizable MDPs. The connection to trajectory data is that the linear MDP approximation relies on "skipping" over certain states. The associated estimation problems are thus easy when working with trajectory data, while they remain nontrivial when working with individual transitions. The question of computational efficiency under our assumptions remains open. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# 知覚分析における機械学習と自然言語処理を用いたRedditコメントの性能評価
Performance evaluation of Reddit Comments using Machine Learning and Natural Language Processing methods in Sentiment Analysis ( http://arxiv.org/abs/2405.16810v1 ) ライセンス: Link先を確認 | Xiaoxia Zhang, Xiuyuan Qi, Zixin Teng, | (参考訳) 学界と業界の両方でますます重要な分野であるセンチメント分析は、機械学習アプリケーション、特にRedditのようなソーシャルメディアプラットフォームにおいて重要な役割を担っている。
しかし、感情分析モデルの有効性は、広範できめ細かな感情データセットの欠如によって妨げられている。
このギャップに対処するために、さまざまな感情を含むGoEmotionsデータセットを活用し、58,000のコメントからなるかなりのコーパスにわたる感情分析手法を評価する。
Googleのチームによる以前の研究とは違い、分析は2つのモデルに限られており、我々の研究は多様なモデルの配列を評価することで範囲を広げている。
本研究では,NIVE Bayes and Support Vector Machines (SVM) などの従来の分類器と,BERT,RoBERTa,GPTなどの最先端トランスフォーマモデルの性能について検討する。
さらに,評価基準は,感情分類の粒度の異なる階層的分類を含む,ニュアンス評価を包含するほど正確ではない。
さらに、総合的な評価枠組みを提供するために、計算効率などの考察が組み込まれている。
以上の結果から,RoBERTaモデルがベースラインモデルより一貫して優れており,微粒な感情分類タスクにおいて精度が優れていることが判明した。
このことは、感情分析能力の進歩におけるRoBERTaモデルの有効性と重要性を浮き彫りにしている。
Sentiment analysis, an increasingly vital field in both academia and industry, plays a pivotal role in machine learning applications, particularly on social media platforms like Reddit. However, the efficacy of sentiment analysis models is hindered by the lack of expansive and fine-grained emotion datasets. To address this gap, our study leverages the GoEmotions dataset, comprising a diverse range of emotions, to evaluate sentiment analysis methods across a substantial corpus of 58,000 comments. Distinguished from prior studies by the Google team, which limited their analysis to only two models, our research expands the scope by evaluating a diverse array of models. We investigate the performance of traditional classifiers such as Naive Bayes and Support Vector Machines (SVM), as well as state-of-the-art transformer-based models including BERT, RoBERTa, and GPT. Furthermore, our evaluation criteria extend beyond accuracy to encompass nuanced assessments, including hierarchical classification based on varying levels of granularity in emotion categorization. Additionally, considerations such as computational efficiency are incorporated to provide a comprehensive evaluation framework. Our findings reveal that the RoBERTa model consistently outperforms the baseline models, demonstrating superior accuracy in fine-grained sentiment classification tasks. This underscores the substantial potential and significance of the RoBERTa model in advancing sentiment analysis capabilities. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# SiNGR : サイン付き正規化ジオデシックトランスフォーメーションレグレッションによる脳腫瘍分離
SiNGR: Brain Tumor Segmentation via Signed Normalized Geodesic Transform Regression ( http://arxiv.org/abs/2405.16813v1 ) ライセンス: Link先を確認 | Trung Dang, Huy Hoang Nguyen, Aleksei Tiulpin, | (参考訳) 脳腫瘍のセグメンテーションにおける主要な課題の1つは、腫瘍の境界に近いボクセルの不確実性から生じる。
しかし、地上の真理分割マスクを生成する従来のプロセスでは、そのような不確かさを適切に扱えない。
0と1の「硬いラベル」は、脳画像のセグメンテーションに関する先行研究の大部分に概念的に影響を及ぼした。
その結果、腫瘍の分節は、しばしばボクセル分類によって解決される。
この研究では、この問題をボクセルレベルの回帰とみなし、基底の真理は、腫瘍の境界までの距離に基づく任意のピクセルからの確実性マッピングを表す。
そこで本研究では,脳腫瘍近傍の不確かさを正試料と負試料のマージンを保ちながら捉えるために,符号付き測地線変換に基づく新しい基底真理ラベル変換を提案する。
このアイデアをFocalライクな回帰L1-lossと組み合わせ、その難易度に応じてボクセルを適切に重み付けすることで、高次元出力空間での効果的な回帰学習を可能にする。
提案手法の構成要素を検証し, 各種の最先端セグメンテーションモデルと比較し, アーキテクチャに依存しないことを示す。
提案手法のコードは公開されている(\url{https://github.com/Oulu-IMEDS/SiNGR/})。
One of the primary challenges in brain tumor segmentation arises from the uncertainty of voxels close to tumor boundaries. However, the conventional process of generating ground truth segmentation masks fails to treat such uncertainties properly. Those ``hard labels'' with 0s and 1s conceptually influenced the majority of prior studies on brain image segmentation. As a result, tumor segmentation is often solved through voxel classification. In this work, we instead view this problem as a voxel-level regression, where the ground truth represents a certainty mapping from any pixel based on the distance to tumor border. We propose a novel ground truth label transformation, which is based on a signed geodesic transform, to capture the uncertainty in brain tumors' vicinity, while maintaining a margin between positive and negative samples. We combine this idea with a Focal-like regression L1-loss that enables effective regression learning in high-dimensional output space by appropriately weighting voxels according to their difficulty. We thoroughly conduct an experimental evaluation to validate the components of our proposed method, compare it to a diverse array of state-of-the-art segmentation models, and show that it is architecture-agnostic. The code of our method is made publicly available (\url{https://github.com/Oulu-IMEDS/SiNGR/}). | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# 不確かさを意識した網膜画像分割のための画像レベルの回帰
Image-level Regression for Uncertainty-aware Retinal Image Segmentation ( http://arxiv.org/abs/2405.16815v1 ) ライセンス: Link先を確認 | Trung Dang, Huy Hoang Nguyen, Aleksei Tiulpin, | (参考訳) 正確な網膜血管セグメンテーションは、網膜疾患やその他の疾患の早期発見に必要な網膜血管の定量的評価において重要なステップである。
画素単位の分類手法を用いて, 分割容器の課題に対処するために, 多数の研究がなされている。
基底の真理ラベルを作成する一般的な習慣は、ピクセルを前景と背景に分類することである。
しかし、このアプローチは偏りがあり、egの細い血管に注釈をつけるという点では、人間のアノテーションの不確かさを無視する。
本研究では,網膜画像分割タスクを画像レベルの回帰としてキャストする,シンプルで効果的な手法を提案する。
この目的のために,我々はまず,アノテーション境界と血管厚に対する画素の近接性を用いて,地上の真理に画素の不確かさを付加する,新しいセグメンテーションアノテーション不確実性認識変換(SAUNA)を導入する。
我々のモデルをソフトラベルでトレーニングするために、提案したジャカード計量損失を任意のハイパーキューブに一般化し、これはこの研究の第二の貢献である。
提案したSAUNA変換と新たな理論的結果により,画像レベルでの標準U-Netアーキテクチャを直接トレーニングすることが可能となり,最近公開されたすべての手法より優れていた。
詳細な実験を行い、5つの網膜画像データセットにまたがる多様なベースラインと比較する。
我々の実装は \url{https://github.com/Oulu-IMEDS/SAUNA} で利用可能です。
Accurate retinal vessel segmentation is a crucial step in the quantitative assessment of retinal vasculature, which is needed for the early detection of retinal diseases and other conditions. Numerous studies have been conducted to tackle the problem of segmenting vessels automatically using a pixel-wise classification approach. The common practice of creating ground truth labels is to categorize pixels as foreground and background. This approach is, however, biased, and it ignores the uncertainty of a human annotator when it comes to annotating e.g. thin vessels. In this work, we propose a simple and effective method that casts the retinal image segmentation task as an image-level regression. For this purpose, we first introduce a novel Segmentation Annotation Uncertainty-Aware (SAUNA) transform, which adds pixel uncertainty to the ground truth using the pixel's closeness to the annotation boundary and vessel thickness. To train our model with soft labels, we generalize the earlier proposed Jaccard metric loss to arbitrary hypercubes, which is a second contribution of this work. The proposed SAUNA transform and the new theoretical results allow us to directly train a standard U-Net-like architecture at the image level, outperforming all recently published methods. We conduct thorough experiments and compare our method to a diverse set of baselines across 5 retinal image datasets. Our implementation is available at \url{https://github.com/Oulu-IMEDS/SAUNA}. | 翻訳日:2024-05-28 19:06:16 公開日:2024-05-27 |
# 速度・歪み・リアリズムの制御:1つの包括的ニューラルイメージ圧縮モデルに向けて
Controlling Rate, Distortion, and Realism: Towards a Single Comprehensive Neural Image Compression Model ( http://arxiv.org/abs/2405.16817v1 ) ライセンス: Link先を確認 | Shoma Iwai, Tomo Miyazaki, Shinichiro Omachi, | (参考訳) 近年,ニューラルネットワーク駆動画像圧縮(NIC)が注目されている。
いくつかの研究は、知覚品質(現実主義)を高めるために、GANや拡散モデルのような深い生成モデルを採用する。
これらの生成NIC法の重要な障害は、各モデルが単一のビットレートに最適化されていることである。
そのため、複数のモデルで異なるビットレートで画像を圧縮する必要があるが、これは現実のアプリケーションでは実用的ではない。
この問題に対処するために、可変レート生成NICモデルを提案する。
具体的には、可変レートアプローチに適したいくつかの識別器の設計を探索し、新しい対向損失を導入する。
さらに,新たに提案したマルチリアリズム手法を取り入れることで,単一モデルでビットレート,歪み,リアリズムを調整し,超制御性を実現する。
既存の可変レート生成NICモデルとは異なり、本手法は1つのモデルだけで幅広いビットレートをカバーしつつ、最先端の単一レート生成NICモデルの性能に適合または超越する。
コードはhttps://github.com/iwa-shi/CRDRで入手できる。
In recent years, neural network-driven image compression (NIC) has gained significant attention. Some works adopt deep generative models such as GANs and diffusion models to enhance perceptual quality (realism). A critical obstacle of these generative NIC methods is that each model is optimized for a single bit rate. Consequently, multiple models are required to compress images to different bit rates, which is impractical for real-world applications. To tackle this issue, we propose a variable-rate generative NIC model. Specifically, we explore several discriminator designs tailored for the variable-rate approach and introduce a novel adversarial loss. Moreover, by incorporating the newly proposed multi-realism technique, our method allows the users to adjust the bit rate, distortion, and realism with a single model, achieving ultra-controllability. Unlike existing variable-rate generative NIC models, our method matches or surpasses the performance of state-of-the-art single-rate generative NIC models while covering a wide range of bit rates using just one model. Code will be available at https://github.com/iwa-shi/CRDR | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# インコンテキスト学習における変換器によるドメイン自動適応
Automatic Domain Adaptation by Transformers in In-Context Learning ( http://arxiv.org/abs/2405.16819v1 ) ライセンス: Link先を確認 | Ryuichiro Hataya, Kota Matsui, Masaaki Imaizumi, | (参考訳) 与えられた問題に対して適切なドメイン適応アルゴリズムを選択したり設計したりすることは依然として困難である。
本稿では,テキスト内学習フレームワークにおけるデータセットに対するドメイン適応手法を,テスト時にパラメータを更新することなく,新しいタスクを実行するトランスフォーマーモデルを提案する。
具体的には、Transformerがインスタンスベースおよび特徴ベース非教師付きドメイン適応アルゴリズムを近似し、与えられたデータセットに適したアルゴリズムを自動的に選択できることを証明する。
数値的な結果から、文脈内学習は既存の手法を超越した適応的領域適応を示すことが示唆された。
Selecting or designing an appropriate domain adaptation algorithm for a given problem remains challenging. This paper presents a Transformer model that can provably approximate and opt for domain adaptation methods for a given dataset in the in-context learning framework, where a foundation model performs new tasks without updating its parameters at test time. Specifically, we prove that Transformers can approximate instance-based and feature-based unsupervised domain adaptation algorithms and automatically select an algorithm suited for a given dataset. Numerical results indicate that in-context learning demonstrates an adaptive domain adaptation surpassing existing methods. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# 実験室規模のAI:低リソース環境でもオープンウェイトモデルはChatGPTと競合する
Laboratory-Scale AI: Open-Weight Models are Competitive with ChatGPT Even in Low-Resource Settings ( http://arxiv.org/abs/2405.16820v1 ) ライセンス: Link先を確認 | Robert Wolfe, Isaac Slaughter, Bin Han, Bingbing Wen, Yiwei Yang, Lucas Rosenblatt, Bernease Herman, Eva Brown, Zening Qu, Nic Weber, Bill Howe, | (参考訳) 生成AIの急速な普及は、パフォーマンス、ドメイン適応、コスト、一般化の点で、ハイパラメータ、APIガード、クローズドウェイトモデルと比較して、低パラメータ、ローカルチューニング可能、オープンウェイトモデルの競争性に関する疑問を提起している。
政府、研究、医療における過度にリソース不足でリスクを伴わない設定を中心に、営利目的のクローズドウェイトモデルは、透明性、プライバシ、適応性、証拠の基準の要件と相容れないものだと考えています。
しかし、特に低データおよび低リソース設定において、オープンウェイトモデルを使用する際のパフォーマンス上のペナルティは不明確である。
GPT-4-Turboをゼロショット、少数ショット、微調整で置き換えるために、より小型でオープンウェイトなモデルを使用することの可能性を評価する。
偏見、プライバシー、棄権に関する価値に敏感な問題を、これらのトピックに関連する3つのタスクについて評価する。
比較的低い労力、非常に低い絶対的な金銭的コスト、そして微調整のための比較的少ないデータで、小さなオープンウェイトモデルでは、一般性を犠牲にすることなく、ドメイン適応タスクにおいて競争的なパフォーマンスを達成することができる。
次に、バイアス、プライバシ、幻覚リスクの実践的な問題を考慮した実験を行い、オープンモデルがクローズドモデルに対していくつかのメリットをもたらすことを発見した。
我々は、この研究を、営利目的のゼロショットのパフォーマンスよりも再現性と透明性の機会コストを理解するためのケーススタディとして、現実的な環境下では、このコストが限界となることを発見したいと考えています。
The rapid proliferation of generative AI has raised questions about the competitiveness of lower-parameter, locally tunable, open-weight models relative to high-parameter, API-guarded, closed-weight models in terms of performance, domain adaptation, cost, and generalization. Centering under-resourced yet risk-intolerant settings in government, research, and healthcare, we see for-profit closed-weight models as incompatible with requirements for transparency, privacy, adaptability, and standards of evidence. Yet the performance penalty in using open-weight models, especially in low-data and low-resource settings, is unclear. We assess the feasibility of using smaller, open-weight models to replace GPT-4-Turbo in zero-shot, few-shot, and fine-tuned regimes, assuming access to only a single, low-cost GPU. We assess value-sensitive issues around bias, privacy, and abstention on three additional tasks relevant to those topics. We find that with relatively low effort, very low absolute monetary cost, and relatively little data for fine-tuning, small open-weight models can achieve competitive performance in domain-adapted tasks without sacrificing generality. We then run experiments considering practical issues in bias, privacy, and hallucination risk, finding that open models offer several benefits over closed models. We intend this work as a case study in understanding the opportunity cost of reproducibility and transparency over for-profit state-of-the-art zero shot performance, finding this cost to be marginal under realistic settings. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# 摂動制約付きシーケンスモデル編集
Perturbation-Restrained Sequential Model Editing ( http://arxiv.org/abs/2405.16821v1 ) ライセンス: Link先を確認 | Jun-Yu Ma, Hong Wang, Hao-Xiang Xu, Zhen-Hua Ling, Jia-Chen Gu, | (参考訳) モデル編集は、大規模な言語モデル(LLM)に埋め込まれた知識を、大規模なリトレーニングなしで更新することに焦点を当てた新興分野である。
しかし,現在のモデル編集手法では,編集数の増加に伴いLLMの一般能力が著しく損なわれており,このトレードオフはLLMの継続的な学習に重大な課題をもたらす。
本稿では、まず、逐次モデル編集における一般的な能力に影響を与える要因が、編集行列の条件数にあることを理論的に分析する。
行列の条件数は、その数値感度を表すため、LLMに格納された元の知識関連が編集後に摂動される範囲を示すために用いられる。
以上の結果から,編集回数の増加に伴い,この因子の値が大きくなり,一般能力の劣化が悪化することが示唆された。
この目的のために, 逐次編集における条件数抑制を応用した, PRUNE(Advanced bouNd for Editing) の摂動制約(Perturbation Restraint) というフレームワークを提案する。
これらの抑制は、編集されたモデルへの摂動の上限を下げ、一般的な能力を保っている。
システム的には,4つの下流タスクにまたがる3つのLLMに対して,3つの一般的な編集手法を用いた実験を行う。
評価結果から,PRUNEは逐次モデル編集において,編集性能を効果的に維持しつつ,ある程度の汎用性を維持できることが示唆された。
コードとデータはhttps://github.com/mjy1111/PRUNE.comで公開されている。
Model editing is an emerging field that focuses on updating the knowledge embedded within large language models (LLMs) without extensive retraining. However, current model editing methods significantly compromise the general abilities of LLMs as the number of edits increases, and this trade-off poses a substantial challenge to the continual learning of LLMs. In this paper, we first theoretically analyze that the factor affecting the general abilities in sequential model editing lies in the condition number of the edited matrix. The condition number of a matrix represents its numerical sensitivity, and therefore can be used to indicate the extent to which the original knowledge associations stored in LLMs are perturbed after editing. Subsequently, statistical findings demonstrate that the value of this factor becomes larger as the number of edits increases, thereby exacerbating the deterioration of general abilities. To this end, a framework termed Perturbation Restraint on Upper bouNd for Editing (PRUNE) is proposed, which applies the condition number restraints in sequential editing. These restraints can lower the upper bound on perturbation to edited models, thus preserving the general abilities. Systematically, we conduct experiments employing three popular editing methods on three LLMs across four representative downstream tasks. Evaluation results show that PRUNE can preserve considerable general abilities while maintaining the editing performance effectively in sequential model editing. The code and data are available at https://github.com/mjy1111/PRUNE. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# Vidu4D:ダイナミックガウスサーフェスを用いた高忠実度4D再構成
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels ( http://arxiv.org/abs/2405.16822v1 ) ライセンス: Link先を確認 | Yikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu, | (参考訳) ビデオ生成モデルは、現実的で想像力のあるフレームを生成する能力から、特に注目を集めている。
さらに、これらのモデルは強力な3D整合性を示し、世界シミュレーターとして機能する可能性を著しく高めている。
本研究では,1つのビデオから4D(シーケンシャルな3D)表現を正確に再構成し,非剛性とフレーム歪みに関連する課題に対処する新しい再構成モデルVidu4Dを提案する。
この能力は、空間的コヒーレンスと時間的コヒーレンスの両方を維持する高忠実度仮想コンテンツを作成するために重要である。
Vidu4Dのコアとなるのは、提案した動的ガウスサーフェス(DGS)技術である。
DGSは時変ワープ関数を最適化し、ガウスのサーフ(表面要素)を静的状態から動的にワープ状態に変換する。
この変換は、時間とともに動きと変形の正確な描写を可能にする。
表面配向ガウス波の構造的整合性を維持するため,正規度を推定するための連続なワープ場に基づく乱状態幾何正則化を設計する。
さらに,ガウス波の回転・スケーリングパラメータを改良し,ゆらぎ過程におけるテクスチャ・フレッカリングを大幅に軽減し,きめ細かな外観の詳細の捕捉を促進させる。
Vidu4Dはまた、DGSのワープフィールドの適切な開始を提供する新しい初期化状態を含んでいる。
Vidu4Dを既存のビデオ生成モデルで取得すると、全体的なフレームワークは外観と幾何学の両方において高忠実なテキストから4D生成を示す。
Video generative models are receiving particular attention given their ability to generate realistic and imaginative frames. Besides, these models are also observed to exhibit strong 3D consistency, significantly enhancing their potential to act as world simulators. In this work, we present Vidu4D, a novel reconstruction model that excels in accurately reconstructing 4D (i.e., sequential 3D) representations from single generated videos, addressing challenges associated with non-rigidity and frame distortion. This capability is pivotal for creating high-fidelity virtual contents that maintain both spatial and temporal coherence. At the core of Vidu4D is our proposed Dynamic Gaussian Surfels (DGS) technique. DGS optimizes time-varying warping functions to transform Gaussian surfels (surface elements) from a static state to a dynamically warped state. This transformation enables a precise depiction of motion and deformation over time. To preserve the structural integrity of surface-aligned Gaussian surfels, we design the warped-state geometric regularization based on continuous warping fields for estimating normals. Additionally, we learn refinements on rotation and scaling parameters of Gaussian surfels, which greatly alleviates texture flickering during the warping process and enhances the capture of fine-grained appearance details. Vidu4D also contains a novel initialization state that provides a proper start for the warping fields in DGS. Equipping Vidu4D with an existing video generative model, the overall framework demonstrates high-fidelity text-to-4D generation in both appearance and geometry. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# パノラマ・3次元シーン・映像のアンタングル型自己注意注入による統一編集
Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection ( http://arxiv.org/abs/2405.16823v1 ) ライセンス: Link先を確認 | Gihyun Kwon, Jangho Park, Jong Chul Ye, | (参考訳) テキスト・トゥ・イメージ・モデルは画像生成や編集において印象的な能力を発揮してきたが、様々なモダリティにまたがる応用には、しばしば個別のモデルを訓練する必要がある。
そこで本研究では,2次元画像テキスト・トゥ・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した統合編集フレームワークを提案する。
具体的には、参照画像と連続画像の両方のサンプリングプロセスにおいて、共有自己認識機能を利用してセマンティック一貫性を維持しながら、連続画像の編集を容易にするサンプリング手法を設計する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
While text-to-image models have achieved impressive capabilities in image generation and editing, their application across various modalities often necessitates training separate models. Inspired by existing method of single image editing with self attention injection and video editing with shared attention, we propose a novel unified editing framework that combines the strengths of both approaches by utilizing only a basic 2D image text-to-image (T2I) diffusion model. Specifically, we design a sampling method that facilitates editing consecutive images while maintaining semantic consistency utilizing shared self-attention features during both reference and consecutive image sampling processes. Experimental results confirm that our method enables editing across diverse modalities including 3D scenes, videos, and panorama images. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# カーネルベース最適重み付き共形予測間隔
Kernel-based optimally weighted conformal prediction intervals ( http://arxiv.org/abs/2405.16828v1 ) ライセンス: Link先を確認 | Jonghyeok Lee, Chen Xu, Yao Xie, | (参考訳) コンフォーマル予測は不確実性定量化のための人気のある分布自由フレームワークである。
本稿では,KOWCPI (Optimally Weighted Conformal Prediction Intervals) と呼ばれる時系列の共形予測手法を提案する。
具体的には、KOWCPIは古典的なReweighted Nadaraya-Watson (RNW) 推定器を従属データに対する量子回帰に適応させ、最適なデータ適応重みを学習する。
理論的には、非整合性スコアの強い混合条件下で、交換不能なデータに対する条件付きカバレッジを保証するという課題に対処する。
我々は、KOWCPIが、カバー範囲を失うことなく、より狭い信頼区間を達成できる最先端の手法に対して、実時間でのKOWCPIの優れた性能を示す。
Conformal prediction has been a popular distribution-free framework for uncertainty quantification. In this paper, we present a novel conformal prediction method for time-series, which we call Kernel-based Optimally Weighted Conformal Prediction Intervals (KOWCPI). Specifically, KOWCPI adapts the classic Reweighted Nadaraya-Watson (RNW) estimator for quantile regression on dependent data and learns optimal data-adaptive weights. Theoretically, we tackle the challenge of establishing a conditional coverage guarantee for non-exchangeable data under strong mixing conditions on the non-conformity scores. We demonstrate the superior performance of KOWCPI on real time-series against state-of-the-art methods, where KOWCPI achieves narrower confidence intervals without losing coverage. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# PyGS: ピラミッド型3Dガウススプレイティングによる大規模シーン表現
PyGS: Large-scale Scene Representation with Pyramidal 3D Gaussian Splatting ( http://arxiv.org/abs/2405.16829v1 ) ライセンス: Link先を確認 | Zipeng Wang, Dan Xu, | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、大規模シーンのフォトリアリスティック画像の合成に顕著な熟練性を示した。
しかし、細部や長いレンダリング期間の欠如に悩まされることが多い。
3D Gaussian Splattingは最近強力な代替として導入され、高忠実度ビジュアル結果と高速レンダリング性能の両方を実現している。
それでも、3Dガウシアン・スプレイティングのスケーリングは困難に満ちている。
特に、大規模なシーンは、複数のスケールと異なる視点のオブジェクトの統合に支障をきたし、しばしばガウス派は詳細レベルのバランスを取る必要があるため、効果が損なわれる。
さらに、大規模データセットからのCOLMAPによる初期化点の生成は、計算的に要求され、不完全な再構成をしがちである。
これらの課題に対処するために、NeRF初期化を用いたピラミッド型3Dガウススプラッティング(PyGS)を提案する。
私たちのアプローチは、ピラミッド的な方法で配置されたガウス人の階層的な集合体で、このシーンを表現しています。
ピラミッドの上部はいくつかの大きなガウス層で構成されており、その後の各層にはより小さなガウス層が密集している。
高速に訓練された格子型NeRFを様々な周波数でサンプリングすることにより,これらのピラミッド型ガウスを効果的に初期化する。
我々は、これらのピラミッドガウスをクラスタに分類し、コンパクトな重み付けネットワークを用いて、レンダリング中のカメラ視点を考慮した各クラスタのピラミッドレベルの影響を動的に決定する。
提案手法は,複数の大規模データセットにまたがる大幅な性能向上を実現し,現在の最先端手法の400倍以上のレンダリング時間を実現する。
Neural Radiance Fields (NeRFs) have demonstrated remarkable proficiency in synthesizing photorealistic images of large-scale scenes. However, they are often plagued by a loss of fine details and long rendering durations. 3D Gaussian Splatting has recently been introduced as a potent alternative, achieving both high-fidelity visual results and accelerated rendering performance. Nonetheless, scaling 3D Gaussian Splatting is fraught with challenges. Specifically, large-scale scenes grapples with the integration of objects across multiple scales and disparate viewpoints, which often leads to compromised efficacy as the Gaussians need to balance between detail levels. Furthermore, the generation of initialization points via COLMAP from large-scale dataset is both computationally demanding and prone to incomplete reconstructions. To address these challenges, we present Pyramidal 3D Gaussian Splatting (PyGS) with NeRF Initialization. Our approach represent the scene with a hierarchical assembly of Gaussians arranged in a pyramidal fashion. The top level of the pyramid is composed of a few large Gaussians, while each subsequent layer accommodates a denser collection of smaller Gaussians. We effectively initialize these pyramidal Gaussians through sampling a rapidly trained grid-based NeRF at various frequencies. We group these pyramidal Gaussians into clusters and use a compact weighting network to dynamically determine the influence of each pyramid level of each cluster considering camera viewpoint during rendering. Our method achieves a significant performance leap across multiple large-scale datasets and attains a rendering time that is over 400 times faster than current state-of-the-art approaches. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# 低忠実度シミュレーションによる制約付きロボット群移動のための構造化グラフネットワーク
Structured Graph Network for Constrained Robot Crowd Navigation with Low Fidelity Simulation ( http://arxiv.org/abs/2405.16830v1 ) ライセンス: Link先を確認 | Shuijing Liu, Kaiwen Hong, Neeloy Chakraborty, Katherine Driggs-Campbell, | (参考訳) 低忠実度シミュレータを用いた群集ナビゲーションにおける強化学習(RL)ポリシーの適用可能性について検討した。
動的環境の表現を導入し,人間と障害物の表現を分離する。
人間は検出された状態を通して表現され、障害物は地図とロボットのローカライゼーションに基づいて計算された点雲として表現される。
この表現は、低忠実度シミュレーターで訓練されたRLポリシーを、シム2リアルギャップを減らして現実世界に展開することを可能にする。
さらに,エージェントと障害物間の相互作用をモデル化する時空間グラフを提案する。
このグラフに基づいて、ロボット、人間、人間の相互作用を捉えるために注意機構を用いる。
本手法は実環境とシミュレーション環境の両方におけるナビゲーション性能を大幅に向上させる。
ビデオデモはhttps://sites.google.com/view/constrained-crowdnav/home.comで見ることができる。
We investigate the feasibility of deploying reinforcement learning (RL) policies for constrained crowd navigation using a low-fidelity simulator. We introduce a representation of the dynamic environment, separating human and obstacle representations. Humans are represented through detected states, while obstacles are represented as computed point clouds based on maps and robot localization. This representation enables RL policies trained in a low-fidelity simulator to deploy in real world with a reduced sim2real gap. Additionally, we propose a spatio-temporal graph to model the interactions between agents and obstacles. Based on the graph, we use attention mechanisms to capture the robot-human, human-human, and human-obstacle interactions. Our method significantly improves navigation performance in both simulated and real-world environments. Video demonstrations can be found at https://sites.google.com/view/constrained-crowdnav/home. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# Safe LoRA: 大規模言語モデルにおける安全性リスク低減のための銀のライニング
Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models ( http://arxiv.org/abs/2405.16833v1 ) ライセンス: Link先を確認 | Chia-Yi Hsu, Yu-Lin Tsai, Chih-Hsun Lin, Pin-Yu Chen, Chia-Mu Yu, Chun-Ying Huang, | (参考訳) Llama-2やGPT-4のような大きな言語モデル(LLM)は、ゼロショットのパフォーマンスが目覚ましいが、カスタマイズされたデータセットやドメイン固有のタスク、その他のプライベートなニーズに対するパフォーマンス向上には、微調整が必要である。
しかし、LLMのパラメータを微調整するには、ハードウェアリソースがかなり必要であり、典型的なユーザにとっては実用的ではない。
そのため、LoRAのようなパラメータ効率のよい微調整が登場し、ユーザーはかなりの計算資源を必要とせず、全てのパラメータを微調整するよりも性能が劣る。
残念ながら、最近の研究では、データが悪意のあるコンテンツを含んでいない場合でも、微調整がLLMの安全性のリスクを高めることが示されている。
この課題に対処するために,選択した層からのLORA重みの投影を安全に整合した部分空間に導入し,実用性を維持しつつLLM微調整の安全性リスクを効果的に低減し,オリジナルのLORA実装に簡単な一直線パッチであるSafe LoRAを提案する。
Safe LoRAはトレーニングフリーでデータフリーなアプローチであることに注意が必要だ。
我々の広範な実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同じような安全性を保っていることを示している。
さらに、微調整データセットに良性データと悪質データの両方が混在している場合、Safe LoRAは下流タスクのパフォーマンスを維持しながら悪意データによる悪影響を軽減する。
While large language models (LLMs) such as Llama-2 or GPT-4 have shown impressive zero-shot performance, fine-tuning is still necessary to enhance their performance for customized datasets, domain-specific tasks, or other private needs. However, fine-tuning all parameters of LLMs requires significant hardware resources, which can be impractical for typical users. Therefore, parameter-efficient fine-tuning such as LoRA have emerged, allowing users to fine-tune LLMs without the need for considerable computing resources, with little performance degradation compared to fine-tuning all parameters. Unfortunately, recent studies indicate that fine-tuning can increase the risk to the safety of LLMs, even when data does not contain malicious content. To address this challenge, we propose Safe LoRA, a simple one-liner patch to the original LoRA implementation by introducing the projection of LoRA weights from selected layers to the safety-aligned subspace, effectively reducing the safety risks in LLM fine-tuning while maintaining utility. It is worth noting that Safe LoRA is a training-free and data-free approach, as it only requires the knowledge of the weights from the base and aligned LLMs. Our extensive experiments demonstrate that when fine-tuning on purely malicious data, Safe LoRA retains similar safety performance as the original aligned model. Moreover, when the fine-tuning dataset contains a mixture of both benign and malicious data, Safe LoRA mitigates the negative effect made by malicious data while preserving performance on downstream tasks. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# ロードバランシングとマスタリーフノードを備えた高速フィードフォワードネットワークの実現
Enhancing Fast Feed Forward Networks with Load Balancing and a Master Leaf Node ( http://arxiv.org/abs/2405.16836v1 ) ライセンス: Link先を確認 | Andreas Charalampopoulos, Nikolas Chatzis, Foivos Ntoulas-Panagiotopoulos, Charilaos Papaioannou, Alexandros Potamianos, | (参考訳) 高速フィードフォワードネットワーク(FFFs)は、入力空間の異なる領域が広いネットワーク内のニューロンの異なるサブセットを活性化する観察を利用するニューラルネットワークのクラスである。
FFFは、入力空間をニューロンの微分可能な二分木を用いて分割し、推論中に二分木を降下させ、計算効率を向上させる。
筆者らは,Mixture of Experts (MoE) 研究に触発され,FFFアーキテクチャにロードバランシングとマスタリーフ技術を導入し,性能の向上とトレーニングプロセスの簡素化を図る。
文献で見いだされた実験を再現し、これらの手法を用いて強化されたFFFモデルに関する結果を示す。
提案したアーキテクチャとトレーニングのレシピは、元のFFFアーキテクチャと比較して、トレーニングとテストの精度が最大16.3%、絶対的な分類精度が3%向上する。
また, 従来研究で報告されていた結果に比べて, 結果のばらつきは小さい。
これらの結果は、より正確で効率的なモデルを開発するために、MoEにインスパイアされた技術をFFFに統合する可能性を示している。
Fast feedforward networks (FFFs) are a class of neural networks that exploit the observation that different regions of the input space activate distinct subsets of neurons in wide networks. FFFs partition the input space into separate sections using a differentiable binary tree of neurons and during inference descend the binary tree in order to improve computational efficiency. Inspired by Mixture of Experts (MoE) research, we propose the incorporation of load balancing and Master Leaf techniques into the FFF architecture to improve performance and simplify the training process. We reproduce experiments found in literature and present results on FFF models enhanced using these techniques. The proposed architecture and training recipe achieves up to 16.3% and 3% absolute classification accuracy increase in training and test accuracy, respectively, compared to the original FFF architecture. Additionally, we observe a smaller variance in the results compared to those reported in prior research. These findings demonstrate the potential of integrating MoE-inspired techniques into FFFs for developing more accurate and efficient models. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# 知識伝達による生成モデルの精度向上
Enhancing Accuracy in Generative Models via Knowledge Transfer ( http://arxiv.org/abs/2405.16837v1 ) ライセンス: Link先を確認 | Xinyu Tian, Xiaotong Shen, | (参考訳) 本稿では,生成モデルの精度と知識伝達が生成精度に与える影響について検討する。
具体的には、対象タスクの生成モデルについて検討し、ソースタスクから事前学習したモデルを用いて微調整を行う。
ソースとターゲットタスクをブリッジする"Shared Embedding"の概念をベースとして,Kullback-Leibler分散のような分散メトリクス下での伝達学習のための新しいフレームワークを導入する。
このフレームワークは、データ分布が異なるにもかかわらず、多様なタスク間の固有の類似性を活用することの重要性を強調している。
提案理論は,共有構造が対象タスクの生成精度を向上し,共有構造を識別するソースモデルの能力と,ソースからターゲット学習への効果的な知識伝達に依存することを示唆している。
本フレームワークの実用性を実証するために,拡散流と正規化流という2つの特定の生成モデルの理論的意味を考察する。
その結果, トランスファー以外のモデルに比べて, 拡散モデルの進展が見られ, トランスファーおよび非トランスファー設定におけるフローの正規化に関する新たな知見が得られた。
これらの結果は,これらのモデルの生成能力向上における知識伝達の顕著な寄与を浮き彫りにしている。
This paper investigates the accuracy of generative models and the impact of knowledge transfer on their generation precision. Specifically, we examine a generative model for a target task, fine-tuned using a pre-trained model from a source task. Building on the "Shared Embedding" concept, which bridges the source and target tasks, we introduce a novel framework for transfer learning under distribution metrics such as the Kullback-Leibler divergence. This framework underscores the importance of leveraging inherent similarities between diverse tasks despite their distinct data distributions. Our theory suggests that the shared structures can augment the generation accuracy for a target task, reliant on the capability of a source model to identify shared structures and effective knowledge transfer from source to target learning. To demonstrate the practical utility of this framework, we explore the theoretical implications for two specific generative models: diffusion and normalizing flows. The results show enhanced performance in both models over their non-transfer counterparts, indicating advancements for diffusion models and providing fresh insights into normalizing flows in transfer and non-transfer settings. These results highlight the significant contribution of knowledge transfer in boosting the generation capabilities of these models. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# 局所性、相関、情報および非エルミート量子系
Locality, Correlations, Information, and non-Hermitian Quantum Systems ( http://arxiv.org/abs/2405.16842v1 ) ライセンス: Link先を確認 | Brian Barch, | (参考訳) 局所非エルミタン(NH)量子系は、リーブ・ロビンソン(LR)境界の概ね崩壊を示し、新しい局所性対策が既存の測度では見られない光を放ちうるかどうかの研究を動機付けている。
本稿では,Hermitian系とNH系の両方における局所性と情報拡散の尺度として,連結相関関数(CC)の拡張について論じる。
エルミート系において、$\delta\rho = \rho-\rho_A\otimes\rho_B$ は CC の線型結合として記述することができ、$\Vert\delta\rho\Vert_2$ 上の LR の配置が可能となる。
さらに、局所性を回復する形でCCをNH系に拡張し、計量形式を用いて局所性だけでなくLR境界も回復する改良CCを導出する。
これらのCCでも、NHハミルトニアンが非局所エンタングルメント生成が可能な必要条件を設定するために、あるNHケースで$\Vert\delta\rho\Vert_2$の上限が破られることが分かる。
数値シミュレーションは、NH横フィールドイジングモデルに対して正確な対角化を行い、LR境界の破壊と回復を実証する。
Local non-Hermitian (NH) quantum systems generically exhibit breakdown of Lieb-Robinson (LR) bounds, motivating study of whether new locality measures might shed light not seen by existing measures. In this paper we discuss extensions of the connected correlation function (CC) as measures of locality and information spreading in both Hermitian and NH systems. We find that in Hermitian systems, $\delta\rho = \rho-\rho_A\otimes\rho_B$ can be written as a linear combination of CCs, allowing placement of a LR bound on $\Vert\delta\rho\Vert_2$, which we show generically extends to a LR bound on mutual information. Additionally, we extend the CC to NH systems in a form that recovers locality, and use the metric formalism to derive a modified CC which recovers not just locality but even LR bounds. We find that even with these CCs, the bound on $\Vert\delta\rho\Vert_2$ breaks down in certain NH cases, which can be used to place a necessary condition on which NH Hamiltonians are capable of nonlocal entanglement generation. Numerical simulations are provided by means of exact diagonalization for the NH Transverse-Field Ising Model, demonstrating both breakdown and recovery of LR bounds. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# 進行観察による非確率帯域
Non-stochastic Bandits With Evolving Observations ( http://arxiv.org/abs/2405.16843v1 ) ライセンス: Link先を確認 | Yogev Bar-On, Yishay Mansour, | (参考訳) 動作フィードバックが時間とともに進化する敵環境を包含するために,遅延フィードバックや破損フィードバックなどの事前確立されたモデルを統一・一般化する新しいオンライン学習フレームワークを導入する。
この設定では、観測された損失は任意であり、得られた真の損失と相関せず、各ラウンドは以前の観測を逆向きに更新する。
本手法では,全情報量と帯域幅の両設定に対する最小化アルゴリズムを提案する。
我々のアルゴリズムは、多くの特別なケースにまたがる既知の後悔境界と一致し、以前にも知られていない境界も導入する。
We introduce a novel online learning framework that unifies and generalizes pre-established models, such as delayed and corrupted feedback, to encompass adversarial environments where action feedback evolves over time. In this setting, the observed loss is arbitrary and may not correlate with the true loss incurred, with each round updating previous observations adversarially. We propose regret minimization algorithms for both the full-information and bandit settings, with regret bounds quantified by the average feedback accuracy relative to the true loss. Our algorithms match the known regret bounds across many special cases, while also introducing previously unknown bounds. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# 自己回帰学習型変圧器のメザ最適化について:創発性と機能
On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability ( http://arxiv.org/abs/2405.16845v1 ) ライセンス: Link先を確認 | Chenyu Zheng, Wei Huang, Rongzhen Wang, Guoqiang Wu, Jun Zhu, Chongxuan Li, | (参考訳) 自己回帰訓練されたトランスフォーマーは、特に下流タスクに対処するコンテキスト内学習(ICL)能力によって、世界に大きな革命をもたらした。
近年のいくつかの研究では、トランスフォーマーは自己回帰(AR)プリトレーニング中にメザ最適化を学習し、ICLを実装することが示唆されている。
すなわち、トレーニングされたトランスの前方通過は、内部目的関数をコンテキスト内で最適化するのと等価である。
しかし、実際の非凸トレーニング力学が理想的なメザ最適化に収束するかどうかはまだ不明である。
このギャップを埋めるために、勾配流によって自己回帰的に訓練された一層線形因果自己アテンションモデルの非凸ダイナミクスを、ARプロセス$x_{t+1} = W x_t$で生成する。
まず,データ分布の一定の条件下では,正規最小二乗問題(OLS)を最小化するために勾配降下の1ステップを実装することで,自己回帰的に訓練された変換器が$W$を学習することを示す。
次に、学習した$\widehat{W}$を次トーケン予測に適用し、メザ最適化仮説を検証する。
次に、同じデータ条件下で、得られたメザ最適化器の能力限界について検討する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が分布を回復するのに十分かつ必要な条件であることを示す。
さらに、第1のデータ条件を超えて探索解析を行い、一般に、トレーニングされたトランスフォーマーは、OLS問題に対してバニラ勾配降下を行わないことを示す。
最後に,シミュレーションの結果を理論的に検証した。
Autoregressively trained transformers have brought a profound revolution to the world, especially with their in-context learning (ICL) ability to address downstream tasks. Recently, several studies suggest that transformers learn a mesa-optimizer during autoregressive (AR) pretraining to implement ICL. Namely, the forward pass of the trained transformer is equivalent to optimizing an inner objective function in-context. However, whether the practical non-convex training dynamics will converge to the ideal mesa-optimizer is still unclear. Towards filling this gap, we investigate the non-convex dynamics of a one-layer linear causal self-attention model autoregressively trained by gradient flow, where the sequences are generated by an AR process $x_{t+1} = W x_t$. First, under a certain condition of data distribution, we prove that an autoregressively trained transformer learns $W$ by implementing one step of gradient descent to minimize an ordinary least squares (OLS) problem in-context. It then applies the learned $\widehat{W}$ for next-token prediction, thereby verifying the mesa-optimization hypothesis. Next, under the same data conditions, we explore the capability limitations of the obtained mesa-optimizer. We show that a stronger assumption related to the moments of data is the sufficient and necessary condition that the learned mesa-optimizer recovers the distribution. Besides, we conduct exploratory analyses beyond the first data condition and prove that generally, the trained transformer will not perform vanilla gradient descent for the OLS problem. Finally, our simulation results verify the theoretical results. | 翻訳日:2024-05-28 17:00:31 公開日:2024-05-27 |
# TokenUnify: 混合トークン予測を備えたスケーラブルな自己回帰型ビジュアル事前トレーニング
TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction ( http://arxiv.org/abs/2405.16847v1 ) ライセンス: Link先を確認 | Yinda Chen, Haoyuan Shi, Xiaoyu Liu, Te Shi, Ruobing Zhang, Dong Liu, Zhiwei Xiong, Feng Wu, | (参考訳) 自己回帰的次トーケン予測は、大規模言語モデルの標準的な事前学習手法であるが、その視覚タスクへの応用は、画像データの非逐次的性質によって妨げられ、累積誤差につながる。
ほとんどのビジョンモデルはマスク付きオートエンコーダ(MAE)ベースの事前トレーニングを採用しており、スケーラビリティの問題に直面している。
これらの課題に対処するために,ランダムトークン予測,次トーケン予測,次全トークン予測を統合した,新しい事前学習手法である \textbf{TokenUnify} を導入する。
本稿では,TokenUnifyが視覚自己回帰における累積誤差を軽減していることを示す理論的証拠を提供する。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットであり、実験的な検証のための統一されたベンチマークを提供する。
TokenUnifyは計算複雑性を低減させるだけでなく、下流のEMニューロンセグメンテーションタスクにおけるセグメンテーション性能を既存の手法と比較して45倍に向上させる。
さらに、TokenUnifyはMAEや従来の自己回帰手法よりも優れたスケーラビリティを示し、言語とビジョンモデルの事前学習戦略のギャップを効果的に埋める。
コードは \url{https://github.com/ydchen0806/TokenUnify} で入手できる。
Autoregressive next-token prediction is a standard pretraining method for large-scale language models, but its application to vision tasks is hindered by the non-sequential nature of image data, leading to cumulative errors. Most vision models employ masked autoencoder (MAE) based pretraining, which faces scalability issues. To address these challenges, we introduce \textbf{TokenUnify}, a novel pretraining method that integrates random token prediction, next-token prediction, and next-all token prediction. We provide theoretical evidence demonstrating that TokenUnify mitigates cumulative errors in visual autoregression. Cooperated with TokenUnify, we have assembled a large-scale electron microscopy (EM) image dataset with ultra-high resolution, ideal for creating spatially correlated long sequences. This dataset includes over 120 million annotated voxels, making it the largest neuron segmentation dataset to date and providing a unified benchmark for experimental validation. Leveraging the Mamba network inherently suited for long-sequence modeling on this dataset, TokenUnify not only reduces the computational complexity but also leads to a significant 45\% improvement in segmentation performance on downstream EM neuron segmentation tasks compared to existing methods. Furthermore, TokenUnify demonstrates superior scalability over MAE and traditional autoregressive methods, effectively bridging the gap between pretraining strategies for language and vision models. Code is available at \url{https://github.com/ydchen0806/TokenUnify}. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# 自律運転における多モードアライメントバイアスを用いた物体検出のための再校正法
A re-calibration method for object detection with multi-modal alignment bias in autonomous driving ( http://arxiv.org/abs/2405.16848v1 ) ライセンス: Link先を確認 | Zhihang Song, Lihui Peng, Jianming Hu, Danya Yao, Yi Zhang, | (参考訳) 自律走行における多モード物体検出は、異なるセンサからの補完情報を融合させることにより、大きなブレークスルーを達成した。
LiDARやカメラなどのセンサーとの融合の校正は常に、以前の研究では正確である。
しかし実際には、キャリブレーション行列は車両が工場を出る際に固定されるが、振動、バンプ、データラグはキャリブレーションバイアスを引き起こす可能性がある。
核融合検出性能に対するキャリブレーションの影響は比較的少ないため、フレキシブルキャリブレーション依存性のマルチセンサ検出法は常に魅力的である。
本稿では,SOTA検出方式EPNet++の実験を行い,キャリブレーションの偏りをわずかに示し,性能を著しく低下させることを示した。
また,マルチモーダルキャリブレーションバイアスの性能とロバスト性を改善するために,セマンティックセグメンテーションに基づく再校正モデルを提案する。
Multi-modal object detection in autonomous driving has achieved great breakthroughs due to the usage of fusing complementary information from different sensors. The calibration in fusion between sensors such as LiDAR and camera is always supposed to be precise in previous work. However, in reality, calibration matrices are fixed when the vehicles leave the factory, but vibration, bumps, and data lags may cause calibration bias. As the research on the calibration influence on fusion detection performance is relatively few, flexible calibration dependency multi-sensor detection method has always been attractive. In this paper, we conducted experiments on SOTA detection method EPNet++ and proved slight bias on calibration can reduce the performance seriously. We also proposed a re-calibration model based on semantic segmentation which can be combined with a detection algorithm to improve the performance and robustness of multi-modal calibration bias. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# Sync4D:物理ベースの4D生成のためのビデオガイド制御可能なダイナミクス
Sync4D: Video Guided Controllable Dynamics for Physics-Based 4D Generation ( http://arxiv.org/abs/2405.16849v1 ) ライセンス: Link先を確認 | Zhoujie Fu, Jiacheng Wei, Wenhao Shen, Chaoyue Song, Xiaofeng Yang, Fayao Liu, Xulei Yang, Guosheng Lin, | (参考訳) 本研究では, カジュアルにキャプチャした参照ビデオを用いて, 3次元ガウシアンに制御可能なダイナミックスを作成する手法を提案する。
提案手法は,オブジェクトの動作を参照ビデオから様々なカテゴリで生成した様々な3Dガウスに転送することで,高精度かつカスタマイズ可能なモーション転送を実現する。
本研究では, 混合スキンを用いた非パラメトリック形状再構成を用いて, 参照物体の形状と動きを抽出する。
このプロセスでは、参照対象をスキンウェイトに基づいて動作関連部分に分割し、生成されたターゲット形状と形状対応を確立する。
既存の手法では, 形状と時間的矛盾に対処するため, 物理シミュレーションを統合し, 目標形状を一致運動で駆動する。
この積分は、信頼性と真のダイナミクスを保証するために変位損失によって最適化される。
提案手法は,人間,四重奏曲,明瞭な対象を含む多様な参照入力をサポートし,任意の長さのダイナミックスを生成し,忠実度と適用性を向上させる。
拡散ビデオ生成モデルに大きく依存する手法とは異なり,本手法は,形状整合性と時間整合性の両方を維持しつつ,特定かつ高品質なモーショントランスファーを提供する。
In this work, we introduce a novel approach for creating controllable dynamics in 3D-generated Gaussians using casually captured reference videos. Our method transfers the motion of objects from reference videos to a variety of generated 3D Gaussians across different categories, ensuring precise and customizable motion transfer. We achieve this by employing blend skinning-based non-parametric shape reconstruction to extract the shape and motion of reference objects. This process involves segmenting the reference objects into motion-related parts based on skinning weights and establishing shape correspondences with generated target shapes. To address shape and temporal inconsistencies prevalent in existing methods, we integrate physical simulation, driving the target shapes with matched motion. This integration is optimized through a displacement loss to ensure reliable and genuine dynamics. Our approach supports diverse reference inputs, including humans, quadrupeds, and articulated objects, and can generate dynamics of arbitrary length, providing enhanced fidelity and applicability. Unlike methods heavily reliant on diffusion video generation models, our technique offers specific and high-quality motion transfer, maintaining both shape integrity and temporal consistency. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# UniCompress:知識蒸留によるマルチデータ医用画像圧縮の強化
UniCompress: Enhancing Multi-Data Medical Image Compression with Knowledge Distillation ( http://arxiv.org/abs/2405.16850v1 ) ライセンス: Link先を確認 | Runzhao Yang, Yinda Chen, Zhihong Zhang, Xiaoyu Liu, Zongren Li, Kunlun He, Zhiwei Xiong, Jinli Suo, Qionghai Dai, | (参考訳) 医用画像圧縮の分野では、インプリシットニューラル表現(INR)ネットワークは、その柔軟な圧縮比のため、顕著な汎用性を示しているが、長いエンコーディング時間をもたらす1対1のフィッティングアプローチによって制約されている。
InRネットワークを用いて複数の医療データブロックを初めて圧縮し,INRの圧縮能力を革新的に拡張する手法である ``\textbf{UniCompress}' について述べる。
ウェーブレット変換と量子化を用いて、INRネットワークへの先行入力として周波数領域情報を含むコードブックを導入する。
これにより、INRの表現力が向上し、異なる画像ブロックに対して特異な条件付けが提供される。
さらに, 暗黙表現の知識蒸留手法を導入し, 複雑なモデル知識をより管理可能な形式に単純化し, 圧縮率の向上を図る。
CTと電子顕微鏡(EM)データセットの徹底的なテストにより、UniCompressは従来のINR法やHEVCのような商用圧縮ソリューション、特に複雑で高圧縮のシナリオで性能を向上することを示した。
特に、既存のINR技術と比較して、UniCompressは圧縮速度の4$\sim$5倍に向上し、医用画像圧縮の分野で大きな進歩を遂げた。
コードは公開されます。
In the field of medical image compression, Implicit Neural Representation (INR) networks have shown remarkable versatility due to their flexible compression ratios, yet they are constrained by a one-to-one fitting approach that results in lengthy encoding times. Our novel method, ``\textbf{UniCompress}'', innovatively extends the compression capabilities of INR by being the first to compress multiple medical data blocks using a single INR network. By employing wavelet transforms and quantization, we introduce a codebook containing frequency domain information as a prior input to the INR network. This enhances the representational power of INR and provides distinctive conditioning for different image blocks. Furthermore, our research introduces a new technique for the knowledge distillation of implicit representations, simplifying complex model knowledge into more manageable formats to improve compression ratios. Extensive testing on CT and electron microscopy (EM) datasets has demonstrated that UniCompress outperforms traditional INR methods and commercial compression solutions like HEVC, especially in complex and high compression scenarios. Notably, compared to existing INR techniques, UniCompress achieves a 4$\sim$5 times increase in compression speed, marking a significant advancement in the field of medical image compression. Codes will be publicly available. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# グラフ推論のためのシナプス遅延を伴う時間スパイクニューラルネットワーク
Temporal Spiking Neural Networks with Synaptic Delay for Graph Reasoning ( http://arxiv.org/abs/2405.16851v1 ) ライセンス: Link先を確認 | Mingqing Xiao, Yixin Zhu, Di He, Zhouchen Lin, | (参考訳) スパイキングニューラルネットワーク(SNN)は生物学的にインスパイアされたニューラルネットワークモデルとして研究され、その計算能力とエネルギー効率は、正確なスパイキング時間とイベント駆動型計算によるスパーススパイクによって区別される。
重要な疑問は、SNNが、特に時間領域を最適に活用する、概念と関係の人間的なグラフベースの推論をエミュレートする方法である。
本稿では,SNNがシナプス遅延と時間符号化とを併用すると,グラフ推論の実行(知識)に長けていることを明らかにする。
スパイキング時間は、神経一般化経路定式化によって関係特性を符号化する追加次元として機能することが判明した。
実験結果は,関係処理における時間的遅延の有効性を強調し,多種多様なグラフ推論タスクにおける模範的性能を示す。
スパイキングモデルでは、非スパイキングモデルと比較して20ドル(約2万2000円)の省エネを実現し、生物学的にインスパイアされたSNNの能力と潜在能力をより深めていると理論上推定されている。
コードはhttps://github.com/pkuxmq/GRSNNで公開されている。
Spiking neural networks (SNNs) are investigated as biologically inspired models of neural computation, distinguished by their computational capability and energy efficiency due to precise spiking times and sparse spikes with event-driven computation. A significant question is how SNNs can emulate human-like graph-based reasoning of concepts and relations, especially leveraging the temporal domain optimally. This paper reveals that SNNs, when amalgamated with synaptic delay and temporal coding, are proficient in executing (knowledge) graph reasoning. It is elucidated that spiking time can function as an additional dimension to encode relation properties via a neural-generalized path formulation. Empirical results highlight the efficacy of temporal delay in relation processing and showcase exemplary performance in diverse graph reasoning tasks. The spiking model is theoretically estimated to achieve $20\times$ energy savings compared to non-spiking counterparts, deepening insights into the capabilities and potential of biologically inspired SNNs for efficient reasoning. The code is available at https://github.com/pkuxmq/GRSNN. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# 一段階拡散モデルのためのEM蒸留
EM Distillation for One-step Diffusion Models ( http://arxiv.org/abs/2405.16852v1 ) ライセンス: Link先を確認 | Sirui Xie, Zhisheng Xiao, Diederik P Kingma, Tingbo Hou, Ying Nian Wu, Kevin Patrick Murphy, Tim Salimans, Ben Poole, Ruiqi Gao, | (参考訳) 拡散モデルは複雑な分布を学習できるが、サンプリングには計算コストのかかる反復過程が必要である。
既存の蒸留法は効率的なサンプリングを可能にするが、非常に少ないサンプリングステップによる性能劣化、トレーニングデータアクセスへの依存、全分布を捕捉できないモード探索最適化など、顕著な制限がある。
本稿では, 最小限の知覚品質を損なう1段階生成モデルに拡散モデルを蒸留するEM蒸留法を提案する。
提案手法は期待最大化レンズ(EM)を用いて導出され, 拡散教師と推定発電機潜伏者の共同分布から生成パラメータを更新する。
本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
さらに,モード探索KLを最小化する既存手法との興味深い関係を明らかにする。
EMD は、ImageNet-64 と ImageNet-128 の FID スコアの観点から、既存の一段階生成法よりも優れており、テキスト-画像拡散モデルの蒸留に関する先行研究と好意的に比較できる。
While diffusion models can learn complex distributions, sampling requires a computationally expensive iterative process. Existing distillation methods enable efficient sampling, but have notable limitations, such as performance degradation with very few sampling steps, reliance on training data access, or mode-seeking optimization that may fail to capture the full distribution. We propose EM Distillation (EMD), a maximum likelihood-based approach that distills a diffusion model to a one-step generator model with minimal loss of perceptual quality. Our approach is derived through the lens of Expectation-Maximization (EM), where the generator parameters are updated using samples from the joint distribution of the diffusion teacher prior and inferred generator latents. We develop a reparametrized sampling scheme and a noise cancellation technique that together stabilizes the distillation process. We further reveal an interesting connection of our method with existing methods that minimize mode-seeking KL. EMD outperforms existing one-step generative methods in terms of FID scores on ImageNet-64 and ImageNet-128, and compares favorably with prior work on distilling text-to-image diffusion models. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# LLMを信頼できるか? 知識伝達によるLLMの過信バイアス軽減
Can We Trust LLMs? Mitigate Overconfidence Bias in LLMs through Knowledge Transfer ( http://arxiv.org/abs/2405.16856v1 ) ライセンス: Link先を確認 | Haoyan Yang, Yixuan Wang, Xingyin Xu, Hanyuan Zhang, Yirong Bian, | (参考訳) この研究は、LLMの信頼性を改善するために、過信バイアスを軽減することを検討する。
そこで我々は,「大きな」LLMが,詳細かつシーケンシャルな推論経路を通じて,「小さな」LLMに知識を与えるような,思考の連鎖を利用した知識伝達(KT)手法を提案する。
この方法は、より大規模なモデルの高度な推論を用いて、より小さなモデルを微調整し、より正確な予測をキャリブレーションされた信頼性で作成することができる。
KT法がバニラと質問応答ペア(QA)の微調整法よりも優れていることを示した。
KT法はバニラ法とQA法をそれぞれ平均55.3%、43.1%で上回った。
これらの知見は、KT法がモデル信頼性と精度を高める可能性を示し、様々な文脈における信頼性レベルに整合した正確な出力を提供する。
The study explores mitigating overconfidence bias in LLMs to improve their reliability. We introduce a knowledge transfer (KT) method utilizing chain of thoughts, where "big" LLMs impart knowledge to "small" LLMs via detailed, sequential reasoning paths. This method uses advanced reasoning of larger models to fine-tune smaller models, enabling them to produce more accurate predictions with calibrated confidence. Experimental evaluation using multiple-choice questions and sentiment analysis across diverse datasets demonstrated the KT method's superiority over the vanilla and question-answer pair (QA) fine-tuning methods. The most significant improvement in three key metrics, where the KT method outperformed the vanilla and QA methods by an average of 55.3% and 43.1%, respectively. These findings underscore the KT method's potential in enhancing model trustworthiness and accuracy, offering precise outputs with well-matched confidence levels across various contexts. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# 等角および球面表現を用いた教師学習モデルを用いた単眼パノラマ画像の深さ推定
Estimating Depth of Monocular Panoramic Image with Teacher-Student Model Fusing Equirectangular and Spherical Representations ( http://arxiv.org/abs/2405.16858v1 ) ライセンス: Link先を確認 | Jingguo Liu, Yijun Xu, Shigang Li, Jianfeng Li, | (参考訳) 接続性と歪みは、360度等角画像を処理する際に対処しなければならない2つの問題である。
本論文では, 単眼パノラマ画像の深さを, 正方形および球形表現を融合した教師学生モデルを用いて推定する手法を提案する。
正方形表現を立方体写像表現や接表現と融合させる既存の方法とは対照的に、球面上のサンプリングはより均一であり、歪みにもより効果的に対処できるため、球面表現の方がよい選択である。
この処理では、球面上のサンプリング点を持つ新しい球面畳み込みカーネル計算を開発し、球面表現から特徴を抽出し、その特徴と正方形表現から抽出した特徴とを合成するためにセグメンテーション・フィーチャー・フュージョン(SFF)手法を用いる。
教師-学生モデルを用いて深度推定の軽量化を行う既存の手法とは対照的に,教師-学生モデルを用いて深度画像の潜時的特徴を学習する。
これにより、入力正方形画像から抽出した特徴写像だけでなく、トレーニングセットの深度マップの基底真理から学習した蒸留知識を用いて、等方形画像の深度マップを推定する訓練モデルが得られる。
実験では, 提案手法をよく知られた360度単眼深度推定ベンチマークデータセットで検証し, 評価指標として既存手法より優れていた。
Disconnectivity and distortion are the two problems which must be coped with when processing 360 degrees equirectangular images. In this paper, we propose a method of estimating the depth of monocular panoramic image with a teacher-student model fusing equirectangular and spherical representations. In contrast with the existing methods fusing an equirectangular representation with a cube map representation or tangent representation, a spherical representation is a better choice because a sampling on a sphere is more uniform and can also cope with distortion more effectively. In this processing, a novel spherical convolution kernel computing with sampling points on a sphere is developed to extract features from the spherical representation, and then, a Segmentation Feature Fusion(SFF) methodology is utilized to combine the features with ones extracted from the equirectangular representation. In contrast with the existing methods using a teacher-student model to obtain a lighter model of depth estimation, we use a teacher-student model to learn the latent features of depth images. This results in a trained model which estimates the depth map of an equirectangular image using not only the feature maps extracted from an input equirectangular image but also the distilled knowledge learnt from the ground truth of depth map of a training set. In experiments, the proposed method is tested on several well-known 360 monocular depth estimation benchmark datasets, and outperforms the existing methods for the most evaluation indexes. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# ジェンダーバイアスをビジョンランゲージタスクに移行するための2段階のフレームワーク
Think Before You Act: A Two-Stage Framework for Mitigating Gender Bias Towards Vision-Language Tasks ( http://arxiv.org/abs/2405.16860v1 ) ライセンス: Link先を確認 | Yunqi Zhang, Songda Li, Chunyuan Deng, Luyi Wang, Hui Zhao, | (参考訳) 視覚言語モデル(VLM)におけるジェンダーバイアスは有害なステレオタイプや差別を強化することができる。
本稿では,視覚言語タスクに対するジェンダーバイアスの軽減に焦点をあてる。
対象の幻覚を,VLMにおける性バイアスの本質として認識する。
既存のVLMは、画像に精通した属性や慣れ親しんだ属性にフォーカスする傾向があるが、文脈化されたニュアンスを無視する。
さらに、ほとんどのVLMは、無視された特徴を推測するために、特定のオブジェクトと性別属性の共起に依存し、最終的に性別バイアスをもたらす。
本稿では,ジェンダーバイアスを軽減するためのタスク依存生成フレームワークGAMAを提案する。
GAMAは物語生成と回答推論の2つの段階から構成される。
物語生成中、GAMAは全面的だが性的に難解な物語を生み出し、局所化画像の特徴、特に性別属性に早めに集中するのを防ぐ。
回答推論の間、GAMAはイメージ、生成された物語、タスク固有の質問プロンプトを統合し、異なる視覚言語タスクに対する回答を推測する。
このアプローチは、モデルが性別の属性と答えを再考することを可能にする。
我々はGAMAに関する広範な実験を行い、その偏りと一般化能力を実証した。
Gender bias in vision-language models (VLMs) can reinforce harmful stereotypes and discrimination. In this paper, we focus on mitigating gender bias towards vision-language tasks. We identify object hallucination as the essence of gender bias in VLMs. Existing VLMs tend to focus on salient or familiar attributes in images but ignore contextualized nuances. Moreover, most VLMs rely on the co-occurrence between specific objects and gender attributes to infer the ignored features, ultimately resulting in gender bias. We propose GAMA, a task-agnostic generation framework to mitigate gender bias. GAMA consists of two stages: narrative generation and answer inference. During narrative generation, GAMA yields all-sided but gender-obfuscated narratives, which prevents premature concentration on localized image features, especially gender attributes. During answer inference, GAMA integrates the image, generated narrative, and a task-specific question prompt to infer answers for different vision-language tasks. This approach allows the model to rethink gender attributes and answers. We conduct extensive experiments on GAMA, demonstrating its debiasing and generalization ability. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# NCIDiff:タンパク質ポケット内における3次元分子生成の信頼性向上のための非共有相互作用生成拡散モデル
NCIDiff: Non-covalent Interaction-generative Diffusion Model for Improving Reliability of 3D Molecule Generation Inside Protein Pocket ( http://arxiv.org/abs/2405.16861v1 ) ライセンス: Link先を確認 | Joongwon Lee, Wonho Zhung, Woo Youn Kim, | (参考訳) 深層生成モデリングの進歩は、薬物発見のパラダイムを変えてきた。
このようなアプローチの中で、タンパク質ポケットの3次元構造を利用するターゲットアウェア法は、可塑性結合モードでリガンド分子を生成するために注目された。
ドッキングスコアは生成リガンドの質を表面的に評価するが、結合構造の綿密な検査により、ポケットと生成リガンド間の局所的な相互作用の不整合が明らかになる。
ここでは、タンパク質-リガンド複合体全体の普遍的なパターンである非共有相互作用(NCI)を明示的に生成することで、この問題に対処する。
提案モデルであるNCIDiffは,NCIタイプのタンパク質リガンドエッジと,サンプリング中にリガンド分子の3次元グラフを同時に認識する。
NCI生成戦略により、我々のモデルはより信頼性の高いNCIを持つリガンドを生成する。
我々はさらに,NCIの塗布技術を採用し,生成分子の品質をさらに向上させた。
最後に,NCIDiffのドラッグデザインタスクへの適用性について述べる。
Advancements in deep generative modeling have changed the paradigm of drug discovery. Among such approaches, target-aware methods that exploit 3D structures of protein pockets were spotlighted for generating ligand molecules with their plausible binding modes. While docking scores superficially assess the quality of generated ligands, closer inspection of the binding structures reveals the inconsistency in local interactions between a pocket and generated ligands. Here, we address the issue by explicitly generating non-covalent interactions (NCIs), which are universal patterns throughout protein-ligand complexes. Our proposed model, NCIDiff, simultaneously denoises NCI types of protein-ligand edges along with a 3D graph of a ligand molecule during the sampling. With the NCI-generating strategy, our model generates ligands with more reliable NCIs, especially outperforming the baseline diffusion-based models. We further adopted inpainting techniques on NCIs to further improve the quality of the generated molecules. Finally, we showcase the applicability of NCIDiff on drug design tasks for real-world settings with specialized objectives by guiding the generation process with desired NCI patterns. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# 格子セルの等方性等方性仮説の検討
An Investigation of Conformal Isometry Hypothesis for Grid Cells ( http://arxiv.org/abs/2405.16865v1 ) ライセンス: Link先を確認 | Dehong Xu, Ruiqi Gao, Wen-Hao Zhang, Xue-Xin Wei, Ying Nian Wu, | (参考訳) 本稿では、格子細胞の応答マップにおける六角形周期パターンの出現の潜在的説明として、共形アイソメトリ仮説を考察する。
この仮説は、格子細胞の集団の活動が神経空間における高次元ベクトルを形成し、エージェントの2次元物理空間における自己位置を表すことを示唆している。
エージェントが2次元の物理空間を移動すると、ベクターは神経空間の2次元多様体で回転し、繰り返しニューラルネットワークによって駆動される。
共形等方性仮説は、神経空間におけるこの2次元多様体は、2次元物理空間の共形等方的埋め込みであり、神経空間におけるベクトルの局所変位は、物理空間におけるエージェントの局所変位に比例するという意味で提唱する。
したがって、2次元多様体は、内部計量を備えた2次元物理空間の内部写像を形成する。
本稿では,この仮説が格子細胞の六角形周期パターンの下にあることを示す数値実験を行う。
我々はまた、この仮説をさらに支持するために理論的解析を行う。
さらに、格子セルの繰り返しニューラルネットワークが共形等尺性仮説を自動で満たすように、エージェントの入力速度の共形変調を提案する。
要約すると、我々の研究はグリッドセルの等角等方性仮説の数値的および理論的証拠を提供し、グリッドセル以降の規範モデルをさらに発展させる基盤となるかもしれない。
This paper investigates the conformal isometry hypothesis as a potential explanation for the emergence of hexagonal periodic patterns in the response maps of grid cells. The hypothesis posits that the activities of the population of grid cells form a high-dimensional vector in the neural space, representing the agent's self-position in 2D physical space. As the agent moves in the 2D physical space, the vector rotates in a 2D manifold in the neural space, driven by a recurrent neural network. The conformal isometry hypothesis proposes that this 2D manifold in the neural space is a conformally isometric embedding of the 2D physical space, in the sense that local displacements of the vector in neural space are proportional to local displacements of the agent in the physical space. Thus the 2D manifold forms an internal map of the 2D physical space, equipped with an internal metric. In this paper, we conduct numerical experiments to show that this hypothesis underlies the hexagon periodic patterns of grid cells. We also conduct theoretical analysis to further support this hypothesis. In addition, we propose a conformal modulation of the input velocity of the agent so that the recurrent neural network of grid cells satisfies the conformal isometry hypothesis automatically. To summarize, our work provides numerical and theoretical evidences for the conformal isometry hypothesis for grid cells and may serve as a foundation for further development of normative models of grid cells and beyond. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# UAV追跡のためのクラスタリングに基づく学習とポース推定
Clustering-based Learning for UAV Tracking and Pose Estimation ( http://arxiv.org/abs/2405.16867v1 ) ライセンス: Link先を確認 | Jiaping Xiao, Phumrapee Pisutsin, Cheng Wen Tsao, Mir Feroskhan, | (参考訳) UAV追跡とポーズ推定は、UAV形成制御や反UAV対策など、様々なUAV関連ミッションにおいて重要な役割を担っている。
3D空間におけるUAVの正確な検出と追跡は、特にアジャイル飛行において、異なる飛行環境から微小UAVのスパースな特徴を抽出することが必要であるため、特に難しい問題である。
一般的に、カメラとLiDARは、飛行中のUAV軌道を捉えるために使用される2種類のセンサーである。
しかし、両方のセンサーはUAV分類とポーズ推定に制限がある。
本技術報告では,CVPR 2024 UG2+ Challenge Track 5におけるNTU-ICG法について紹介する。
本研究は,UAV追跡のためのクラスタリングに基づく学習検出手法であるCL-Detを開発し,Livox AviaとLiDAR 360の2種類のLiDARを用いてポーズ推定を行う。
2つのデータソースから得られる情報を組み合わせて、ドローンを3Dで見つける。
まず、Livox AviaデータとLiDAR 360データのタイムスタンプを調整し、その後、関心のあるオブジェクト(OOI)のポイントクラウドを環境から分離します。
OOIsの点雲はDBSCAN法を用いてクラスタ化され、UAV位置と推定される最大のクラスターの中点を持つ。
さらに, 過去の推定値を用いて, 欠落したデータの埋め合わせを行う。
提案手法は,CVPR 2024 UG2+ Challengeの最終リーダーボードにおいて,競争力のあるポーズ推定性能を示し,第5位にランクインする。
UAV tracking and pose estimation plays an imperative role in various UAV-related missions, such as formation control and anti-UAV measures. Accurately detecting and tracking UAVs in a 3D space remains a particularly challenging problem, as it requires extracting sparse features of micro UAVs from different flight environments and continuously matching correspondences, especially during agile flight. Generally, cameras and LiDARs are the two main types of sensors used to capture UAV trajectories in flight. However, both sensors have limitations in UAV classification and pose estimation. This technical report briefly introduces the method proposed by our team "NTU-ICG" for the CVPR 2024 UG2+ Challenge Track 5. This work develops a clustering-based learning detection approach, CL-Det, for UAV tracking and pose estimation using two types of LiDARs, namely Livox Avia and LiDAR 360. We combine the information from the two data sources to locate drones in 3D. We first align the timestamps of Livox Avia data and LiDAR 360 data and then separate the point cloud of objects of interest (OOIs) from the environment. The point cloud of OOIs is clustered using the DBSCAN method, with the midpoint of the largest cluster assumed to be the UAV position. Furthermore, we utilize historical estimations to fill in missing data. The proposed method shows competitive pose estimation performance and ranks 5th on the final leaderboard of the CVPR 2024 UG2+ Challenge. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# RCDN:動的特徴に基づく3次元ニューラルモデリングによるロバストカメラ非感受性協調知覚に向けて
RCDN: Towards Robust Camera-Insensitivity Collaborative Perception via Dynamic Feature-based 3D Neural Modeling ( http://arxiv.org/abs/2405.16868v1 ) ライセンス: Link先を確認 | Tianhang Wang, Fan Lu, Zehan Zheng, Guang Chen, Changjun Jiang, | (参考訳) 協調的知覚は、複数のエージェントのマルチビューセンサー入力に基づいて、オクルージョンのような単一エージェント知覚の制約に対処することを目的としている。
しかし、既存の作業の多くは、すべてのエージェントのマルチビューカメラが継続的に利用可能である、という理想的な条件を前提としている。
実際には、カメラは、コラボレーション中に非常に騒々しく、曖昧にされ、あるいは失敗するかもしれない。
本研究では,カメラ視点の故障による問題を克服すると同時に,キャリブレーションコストの低い協調性能を安定させるという,新しい堅牢なカメラ非感受性問題を導入する。
上記の問題に対処するために,ロバストカメラ非感度協調認識システムであるRCDNと,新しい動的特徴に基づく3次元ニューラルモデリング機構を提案する。
RCDNの重要な直感は、複数のエージェントが送信した知覚的メッセージの回復のために、協調的なニューラルネットワークレンダリングフィールド表現を構築することである。
協調的なニューラルネットワークレンダリングをモデル化するために、RCDNはまず、高速なハッシュグリッドモデリングを通じて、他のエージェントと幾何学的BEV特徴に基づく時間不変の静的フィールドを確立する。
静的背景場に基づいて、提案した時間変化動的場は、適切な位置を持つ前景に対する対応する運動ベクトルをモデル化することができる。
RCDNを検証するために、異なるカメラフェールシナリオ下で手動ラベリングを備えた新しい大規模データセットであるOPV2V-Nを開発した。
OPV2V-Nで行った大規模な実験により、RCDNは他のベースラインに移植でき、極端にカメラに敏感な設定でその堅牢性を向上させることができた。
コードとデータセットは近く公開されます。
Collaborative perception is dedicated to tackling the constraints of single-agent perception, such as occlusions, based on the multiple agents' multi-view sensor inputs. However, most existing works assume an ideal condition that all agents' multi-view cameras are continuously available. In reality, cameras may be highly noisy, obscured or even failed during the collaboration. In this work, we introduce a new robust camera-insensitivity problem: how to overcome the issues caused by the failed camera perspectives, while stabilizing high collaborative performance with low calibration cost? To address above problems, we propose RCDN, a Robust Camera-insensitivity collaborative perception with a novel Dynamic feature-based 3D Neural modeling mechanism. The key intuition of RCDN is to construct collaborative neural rendering field representations to recover failed perceptual messages sent by multiple agents. To better model collaborative neural rendering field, RCDN first establishes a geometry BEV feature based time-invariant static field with other agents via fast hash grid modeling. Based on the static background field, the proposed time-varying dynamic field can model corresponding motion vectors for foregrounds with appropriate positions. To validate RCDN, we create OPV2V-N, a new large-scale dataset with manual labelling under different camera failed scenarios. Extensive experiments conducted on OPV2V-N show that RCDN can be ported to other baselines and improve their robustness in extreme camera-insensitivity settings. Our code and datasets will be available soon. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# ロバストなマルチモーダル知識グラフ補完のためのモダリティ知識エキスパートの混合
Mixture of Modality Knowledge Experts for Robust Multi-modal Knowledge Graph Completion ( http://arxiv.org/abs/2405.16869v1 ) ライセンス: Link先を確認 | Yichi Zhang, Zhuo Chen, Lingbing Guo, Yajing Xu, Binbin Hu, Ziqi Liu, Wen Zhang, Huajun Chen, | (参考訳) マルチモーダル知識グラフ補完(MMKGC)は、与えられたマルチモーダル知識グラフ(MMKG)において、大規模トリプルに隠された構造情報とエンティティのマルチモーダル特徴を協調的にモデル化することにより、新たな知識トリプルを自動的に発見することを目的としている。
既存の手法は、エレガントなエンティティ・ワイド・マルチモーダル・フュージョン戦略の構築に重点を置いている傾向にあるが、様々な関係文脈下でモダリティ内に隠されたマルチパースペクティブ・フィーチャの利用を見落としている。
この問題に対処するために,Mixture of Modality Knowledge Expert (略してMoMoK) を用いたMMKGCフレームワークを導入し,複雑な関係文脈下で適応型マルチモーダル埋め込みを学習する。
関係誘導型モダリティ知識エキスパートを設計し、関係認識型モダリティ埋め込みを取得し、複数のモダリティからの予測を統合して総合的な意思決定を行う。
さらに、専門家同士の情報を最小化することで、専門家を混乱させます。
4つの公開MMKGベンチマークの実験は、複雑なシナリオ下でのMoMoKの優れた性能を示す。
Multi-modal knowledge graph completion (MMKGC) aims to automatically discover new knowledge triples in the given multi-modal knowledge graphs (MMKGs), which is achieved by collaborative modeling the structural information concealed in massive triples and the multi-modal features of the entities. Existing methods tend to focus on crafting elegant entity-wise multi-modal fusion strategies, yet they overlook the utilization of multi-perspective features concealed within the modalities under diverse relational contexts. To address this issue, we introduce a novel MMKGC framework with Mixture of Modality Knowledge experts (MoMoK for short) to learn adaptive multi-modal embedding under intricate relational contexts. We design relation-guided modality knowledge experts to acquire relation-aware modality embeddings and integrate the predictions from multi-modalities to achieve comprehensive decisions. Additionally, we disentangle the experts by minimizing their mutual information. Experiments on four public MMKG benchmarks demonstrate the outstanding performance of MoMoK under complex scenarios. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# ContrastAlign:マルチモーダル3次元物体検出のためのコントラスト学習によるロバストなBEV特徴アライメントを目指して
ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection ( http://arxiv.org/abs/2405.16873v1 ) ライセンス: Link先を確認 | Ziying Song, Feiyang Jia, Hongyu Pan, Yadan Luo, Caiyan Jia, Guoxin Zhang, Lin Liu, Yang Ji, Lei Yang, Li Wang, | (参考訳) 3Dオブジェクト検出タスクの分野では、LiDARとカメラセンサーの不均一な特徴を統一されたBird's Eye View(BEV)表現に融合することが広く採用されているパラダイムである。
しかし、既存の手法は、しばしば不正確なセンサーキャリブレーションによって妥協され、LiDARカメラのBEV融合における特徴的不一致をもたらす。
さらに、このような不正確さは、カメラブランチの深さ推定の誤差をもたらし、最終的にLiDARとカメラBEVの特徴の不一致を引き起こす。
本研究では,異種モードのアライメントを向上し,融合プロセスの堅牢性を向上させるために,コントラストアライメントを用いた新しいコントラストアライメント手法を提案する。
具体的には、LiDAR BEV機能内で直接LiDARインスタンス機能を出力するL-Instanceモジュールを含む。
次に,カメラBEV機能上でのRoI(Region of Interest)プールによるカメラインスタンス機能の予測を行うC-Instanceモジュールを紹介する。
異種多様度にまたがる類似のインスタンス機能を生成するために,コントラスト学習を利用するインスタンスフュージョンモジュールを提案する。
次に、グラフマッチングを使用して、隣接するカメラインスタンス機能と類似度インスタンス機能との類似度を計算し、インスタンス機能のアライメントを完了します。
MAPは70.3%であり, nuScenes 検証セットでは BEVFusion を 1.8% 上回っている。
BEVFusionを7.3%改善し,騒音の悪さを解消した。
In the field of 3D object detection tasks, fusing heterogeneous features from LiDAR and camera sensors into a unified Bird's Eye View (BEV) representation is a widely adopted paradigm. However, existing methods are often compromised by imprecise sensor calibration, resulting in feature misalignment in LiDAR-camera BEV fusion. Moreover, such inaccuracies result in errors in depth estimation for the camera branch, ultimately causing misalignment between LiDAR and camera BEV features. In this work, we propose a novel ContrastAlign approach that utilizes contrastive learning to enhance the alignment of heterogeneous modalities, thereby improving the robustness of the fusion process. Specifically, our approach includes the L-Instance module, which directly outputs LiDAR instance features within LiDAR BEV features. Then, we introduce the C-Instance module, which predicts camera instance features through RoI (Region of Interest) pooling on the camera BEV features. We propose the InstanceFusion module, which utilizes contrastive learning to generate similar instance features across heterogeneous modalities. We then use graph matching to calculate the similarity between the neighboring camera instance features and the similarity instance features to complete the alignment of instance features. Our method achieves state-of-the-art performance, with an mAP of 70.3%, surpassing BEVFusion by 1.8% on the nuScenes validation set. Importantly, our method outperforms BEVFusion by 7.3% under conditions with misalignment noise. | 翻訳日:2024-05-28 16:50:47 公開日:2024-05-27 |
# CoCoGesture: 野生におけるコヒーレントな3Dジェスチャー生成を目指して
CoCoGesture: Toward Coherent Co-speech 3D Gesture Generation in the Wild ( http://arxiv.org/abs/2405.16874v1 ) ライセンス: Link先を確認 | Xingqun Qi, Hengyuan Zhang, Yatian Wang, Jiahao Pan, Chen Liu, Peng Li, Xiaowei Chi, Mengfei Li, Qixun Zhang, Wei Xue, Shanghang Zhang, Wenhan Luo, Qifeng Liu, Yike Guo, | (参考訳) 3Dジェスチャーの合成は、仮想アバターアニメーションの大幅な進歩を見せている。
しかし, 従来の手法では, 3次元音声のジェスチャーデータに制限があるため, 目立たない人間の音声入力による頑健で不合理なジェスチャーがしばしば発生する。
本稿では,未確認の音声プロンプトから鮮明かつ多様なジェスチャー合成を可能にする新しいフレームワークであるCoCoGestureを提案する。
私たちの重要な洞察は、カスタム設計のトレーニングパラダイムに基づいています。
事前学習段階では、豊富な姿勢多様体を学習することにより、大規模な一般化可能なジェスチャー拡散モデルを定式化することを目的とする。
したがって、3Dデータの不足を軽減するため、まず、GES-Xと呼ばれる4.3K話者に40M以上のメッシュ化された姿勢インスタンスを含む大規模3Dジェスチャーデータセットを構築した。
そして, 大規模非条件拡散モデルを1Bパラメータにスケールアップし, ジェスチャーの専門家として事前学習する。
微妙な段階では、人間の声を条件として組み込んだ音声制御ネットがジェスチャー生成を誘導する。
本稿では,事前学習した拡散モデルのトレーニング可能なコピーを用いて音声制御ネットを構築する。
さらに、人間の音声から埋め込まれた音声を適応的に融合させる新しいMixture-of-Gesture-Experts (MoGE)ブロックを設計する。
このような効果的な方法では、鮮明で多様なジェスチャー生成を保ちながら、音声の埋め込みが動作特徴と時間的調整されることが保証される。
広汎な実験により,提案したCoCoGestureは,ゼロショット音声・ジェスチャー生成における最先端手法よりも優れていた。
データセットは、https://mattie-e.github.io/GES-X/で公開される。
Deriving co-speech 3D gestures has seen tremendous progress in virtual avatar animation. Yet, the existing methods often produce stiff and unreasonable gestures with unseen human speech inputs due to the limited 3D speech-gesture data. In this paper, we propose CoCoGesture, a novel framework enabling vivid and diverse gesture synthesis from unseen human speech prompts. Our key insight is built upon the custom-designed pretrain-fintune training paradigm. At the pretraining stage, we aim to formulate a large generalizable gesture diffusion model by learning the abundant postures manifold. Therefore, to alleviate the scarcity of 3D data, we first construct a large-scale co-speech 3D gesture dataset containing more than 40M meshed posture instances across 4.3K speakers, dubbed GES-X. Then, we scale up the large unconditional diffusion model to 1B parameters and pre-train it to be our gesture experts. At the finetune stage, we present the audio ControlNet that incorporates the human voice as condition prompts to guide the gesture generation. Here, we construct the audio ControlNet through a trainable copy of our pre-trained diffusion model. Moreover, we design a novel Mixture-of-Gesture-Experts (MoGE) block to adaptively fuse the audio embedding from the human speech and the gesture features from the pre-trained gesture experts with a routing mechanism. Such an effective manner ensures audio embedding is temporal coordinated with motion features while preserving the vivid and diverse gesture generation. Extensive experiments demonstrate that our proposed CoCoGesture outperforms the state-of-the-art methods on the zero-shot speech-to-gesture generation. The dataset will be publicly available at: https://mattie-e.github.io/GES-X/ | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# 拡散モデルのための伝達学習
Transfer Learning for Diffusion Models ( http://arxiv.org/abs/2405.16876v1 ) ライセンス: Link先を確認 | Yidong Ouyang, Liyan Xie, Hongyuan Zha, Guang Cheng, | (参考訳) 特定の生成モデルである拡散モデルは、近年では前例のない性能を達成し、高品質な合成サンプルを一貫して製造している。
彼らの顕著な成功の重要な前提は、かなりの数のトレーニングサンプルが存在することである。
その結果、既存の訓練済みモデルから限られたデータを持つ特定の対象領域に知識を伝達する様々な微調整および正規化手法が提案されている。
本稿では,従来の微調整法や正規化法とは異なる新しいアプローチであるTransfer Guided Diffusion Process (TGDP)を紹介する。
対象領域に対する最適拡散モデルは、ソース領域上の事前学習拡散モデルと、ドメイン分類器からの追加ガイダンスを統合することを証明した。
さらに、TGDPをデータと対応するラベルの共分散をモデル化するための条件付きバージョンに拡張し、モデル性能を高めるために2つの追加正規化用語を付加する。
ガウス混合シミュレーションと心電図(ECG)データセットにおけるTGDPの有効性を検証した。
Diffusion models, a specific type of generative model, have achieved unprecedented performance in recent years and consistently produce high-quality synthetic samples. A critical prerequisite for their notable success lies in the presence of a substantial number of training samples, which can be impractical in real-world applications due to high collection costs or associated risks. Consequently, various finetuning and regularization approaches have been proposed to transfer knowledge from existing pre-trained models to specific target domains with limited data. This paper introduces the Transfer Guided Diffusion Process (TGDP), a novel approach distinct from conventional finetuning and regularization methods. We prove that the optimal diffusion model for the target domain integrates pre-trained diffusion models on the source domain with additional guidance from a domain classifier. We further extend TGDP to a conditional version for modeling the joint distribution of data and its corresponding labels, together with two additional regularization terms to enhance the model performance. We validate the effectiveness of TGDP on Gaussian mixture simulations and on real electrocardiogram (ECG) datasets. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# セルフアテンションは時系列予測に有効か?
Are Self-Attentions Effective for Time Series Forecasting? ( http://arxiv.org/abs/2405.16877v1 ) ライセンス: Link先を確認 | Dongbin Kim, Jinseong Park, Jaewook Lee, Hoki Kim, | (参考訳) 時系列予測は、複数のドメインやさまざまなシナリオにわたるアプリケーションにとって不可欠である。
トランスフォーマーモデルは予測の環境を劇的に変化させてきたが、その効果については議論が続いている。
最近の研究では、より単純な線形モデルは複雑なトランスフォーマーベースのアプローチよりも優れており、より合理化されたアーキテクチャの可能性を強調している。
本稿では,トランスフォーマーのアーキテクチャ全体から時系列予測における自己注意の有効性に焦点を移す。
この目的のために我々は,従来のトランスフォーマーフレームワークを再考するアーキテクチャであるクロスアテンションのみの時系列トランス (CATS) を導入し,その代わりに自己アテンションを排除し,クロスアテンション機構を活用する。
将来的な水平方向依存パラメータをクエリとして確立し,パラメータ共有を向上することにより,長期予測精度を向上するだけでなく,パラメータ数やメモリ使用量を削減することができる。
様々なデータセットにわたる大規模な実験により、我々のモデルは最小平均二乗誤差で優れた性能を示し、既存のモデルと比較してパラメータが少ないことが示される。
Time series forecasting is crucial for applications across multiple domains and various scenarios. Although Transformer models have dramatically shifted the landscape of forecasting, their effectiveness remains debated. Recent findings have indicated that simpler linear models might outperform complex Transformer-based approaches, highlighting the potential for more streamlined architectures. In this paper, we shift focus from the overall architecture of the Transformer to the effectiveness of self-attentions for time series forecasting. To this end, we introduce a new architecture, Cross-Attention-only Time Series transformer (CATS), that rethinks the traditional Transformer framework by eliminating self-attention and leveraging cross-attention mechanisms instead. By establishing future horizon-dependent parameters as queries and enhanced parameter sharing, our model not only improves long-term forecasting accuracy but also reduces the number of parameters and memory usage. Extensive experiment across various datasets demonstrates that our model achieves superior performance with the lowest mean squared error and uses fewer parameters compared to existing models. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# グラフコントラスト事前学習と多目的微調整による教師なし生成特徴変換
Unsupervised Generative Feature Transformation via Graph Contrastive Pre-training and Multi-objective Fine-tuning ( http://arxiv.org/abs/2405.16879v1 ) ライセンス: Link先を確認 | Wangyang Ying, Dongjie Wang, Xuanming Hu, Yuanchun Zhou, Charu C. Aggarwal, Yanjie Fu, | (参考訳) フィーチャートランスフォーメーションは、データのAIパワーを強化するために、オリジナルの機能から新機能セットを導き出すことである。
材料性能スクリーニングのような多くの科学領域では、特徴変換は材料公式の相互作用や構成をモデル化し、性能ドライバを発見するが、教師付きラベルは高価で長い実験から収集される。
この問題は、教師なし特徴変換学習(Unsupervised Feature Transformation Learning, UFTL)の課題を動機付けている。
手動変換、教師付きフィードバック誘導検索、PCAといった以前の文献では、ドメイン知識や高価な教師付きフィードバックに依存しているか、大きな検索スペースに悩まされているか、非線形の特徴-機能相互作用を見落としている。
UFTLは、複雑な特徴の相互作用を捉え、大きな検索空間を避ける、新しい教師なしパラダイムをどうやって設計するか?
このギャップを埋めるために、グラフ、コントラスト、生成学習を結合し、UFTLのための測定前ファインチューンパラダイムを開発する。
教師なし特徴集合の実用性評価のために,特徴値の整合性維持の視点を提案し,教師なし指標のような平均値の累積ゲインを開発し,特徴集合の実用性を評価する。
教師なし特徴集合表現事前学習では,特徴集合を特徴集合間相互作用グラフとみなし,特徴集合をベクトルに埋め込む教師なしグラフコントラスト学習エンコーダを開発する。
生成的変換ファインタニングでは,特徴集合を特徴クロスシーケンス,特徴変換を逐次生成とみなす。
本研究では,事前学習した特徴セットエンコーダと,特徴セットユーティリティ評価器から抽出した勾配情報を調整して,変換された特徴生成器を最適化する,深い特徴変換モデルを開発する。
Feature transformation is to derive a new feature set from original features to augment the AI power of data. In many science domains such as material performance screening, while feature transformation can model material formula interactions and compositions and discover performance drivers, supervised labels are collected from expensive and lengthy experiments. This issue motivates an Unsupervised Feature Transformation Learning (UFTL) problem. Prior literature, such as manual transformation, supervised feedback guided search, and PCA, either relies on domain knowledge or expensive supervised feedback, or suffers from large search space, or overlooks non-linear feature-feature interactions. UFTL imposes a major challenge on existing methods: how to design a new unsupervised paradigm that captures complex feature interactions and avoids large search space? To fill this gap, we connect graph, contrastive, and generative learning to develop a measurement-pretrain-finetune paradigm for UFTL. For unsupervised feature set utility measurement, we propose a feature value consistency preservation perspective and develop a mean discounted cumulative gain like unsupervised metric to evaluate feature set utility. For unsupervised feature set representation pretraining, we regard a feature set as a feature-feature interaction graph, and develop an unsupervised graph contrastive learning encoder to embed feature sets into vectors. For generative transformation finetuning, we regard a feature set as a feature cross sequence and feature transformation as sequential generation. We develop a deep generative feature transformation model that coordinates the pretrained feature set encoder and the gradient information extracted from a feature set utility evaluator to optimize a transformed feature generator. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# オープンソースソフトウェアにおける商業参加の体系的文献レビュー
Systematic Literature Review of Commercial Participation in Open Source Software ( http://arxiv.org/abs/2405.16880v1 ) ライセンス: Link先を確認 | Xuetao Li, Yuxia Zhang, Cailean Osborne, Minghui Zhou, Zhi Jin, Hui Liu, | (参考訳) オープンソースソフトウェア(OSS)は情報技術だけでなく,私たちの社会生活にも重要な役割を果たしています。
OSSのさまざまなアドバンテージに惹かれ、商用企業の増加は、オープンソース開発への広範な参加を招き、幅広い影響を与えています。
本稿ではOSSへの企業参加に関する既存研究の総合的な体系的文献レビュー(SLR)を行う。
我々は92件の論文を収集し,その研究テーマに基づいて組織化し,参加動機,コントリビューションモデル,OSS開発への影響の3つの主要な方向性について検討した。
企業のモチベーションは、主に経済、技術、社会的側面から見出された。
既存の研究では、OSSプロジェクトにおける企業のコントリビューションモデルは主に、その目的とOSSコミュニティの形成方法によって分類されている。
また、商用参加がOSS開発にどのように影響するかについても調査した。
我々はOSSの商業参加に関する研究課題と有望な研究方向性を結論づける。
本研究はOSS開発における商業的関与の包括的理解に寄与する。
Open source software (OSS) has been playing a fundamental role in not only information technology but also our social lives. Attracted by various advantages of OSS, increasing commercial companies take extensive participation in open source development and have had a broad impact. This paper provides a comprehensive systematic literature review (SLR) of existing research on company participation in OSS. We collected 92 papers and organized them based on their research topics, which cover three main directions, i.e., participation motivation, contribution model, and impact on OSS development. We found the explored motivations of companies are mainly from economic, technological, and social aspects. Existing studies categorize companies' contribution models in OSS projects mainly through their objectives and how they shape OSS communities. Researchers also explored how commercial participation affects OSS development. We conclude with research challenges and promising research directions on commercial participation in OSS. This study contributes to a comprehensive understanding of commercial participation in OSS development. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# Scorch: 疎いディープラーニングのためのライブラリ
Scorch: A Library for Sparse Deep Learning ( http://arxiv.org/abs/2405.16883v1 ) ライセンス: Link先を確認 | Bobby Yan, Alexander J. Root, Trevor Gale, David Broman, Fredrik Kjolstad, | (参考訳) ディープラーニングモデルのサイズの急激な成長は、従来の密集計算パラダイムの能力を損なう。
スパース計算の活用は、大規模モデルのトレーニングとデプロイでますます人気になっているが、既存のディープラーニングフレームワークではスパース演算に対する広範なサポートがない。
このギャップを埋めるために、我々はPyTorchエコシステムに効率的なスパーステンソル計算をシームレスに統合するライブラリであるScorchを紹介した。
Scorchはスパーステンソルのためのフレキシブルで直感的なインターフェースを提供し、多様なスパースデータ構造をサポートする。
Scorch氏は、自動ループ順序付け、タイリング、フォーマット推論など、重要な最適化を自動化するコンパイラスタックを紹介した。
Scorchは、その実行を高密度データとスパースデータの両方に適応させるランタイムと組み合わせることで、ユーザビリティを犠牲にすることなく、手書きのPyTorch Sparse(torch.sparse)操作を大幅に高速化する。
さらに重要なのは、手動最適化されたPyTorch実装を欠いた複雑なスパース操作の効率的な計算を可能にすることだ。
この柔軟性は、新しいスパースアーキテクチャの探索に不可欠である。
複数のドメインにわたる多様なディープラーニングモデルにおいて、Scorchの使いやすさとパフォーマンス向上を実証する。
最小限のコードの変更だけで、ScorchはPyTorch Sparse上の1.05-5.78xのスピードアップをエンドツーエンドタスクで達成する。
Scorchのシームレスな統合とパフォーマンスの向上は、PyTorchエコシステムに価値ある追加となる。
Scorchは、深層学習を拡大し、他のスパースライブラリの開発を知らせるツールとして、より広い範囲でのスパーシティの探索を可能にすると信じています。
The rapid growth in the size of deep learning models strains the capabilities of traditional dense computation paradigms. Leveraging sparse computation has become increasingly popular for training and deploying large-scale models, but existing deep learning frameworks lack extensive support for sparse operations. To bridge this gap, we introduce Scorch, a library that seamlessly integrates efficient sparse tensor computation into the PyTorch ecosystem, with an initial focus on inference workloads on CPUs. Scorch provides a flexible and intuitive interface for sparse tensors, supporting diverse sparse data structures. Scorch introduces a compiler stack that automates key optimizations, including automatic loop ordering, tiling, and format inference. Combined with a runtime that adapts its execution to both dense and sparse data, Scorch delivers substantial speedups over hand-written PyTorch Sparse (torch.sparse) operations without sacrificing usability. More importantly, Scorch enables efficient computation of complex sparse operations that lack hand-optimized PyTorch implementations. This flexibility is crucial for exploring novel sparse architectures. We demonstrate Scorch's ease of use and performance gains on diverse deep learning models across multiple domains. With only minimal code changes, Scorch achieves 1.05-5.78x speedups over PyTorch Sparse on end-to-end tasks. Scorch's seamless integration and performance gains make it a valuable addition to the PyTorch ecosystem. We believe Scorch will enable wider exploration of sparsity as a tool for scaling deep learning and inform the development of other sparse libraries. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# Match, Compare, Select? エンティティマッチングのための大規模言語モデルの検討
Match, Compare, or Select? An Investigation of Large Language Models for Entity Matching ( http://arxiv.org/abs/2405.16884v1 ) ライセンス: Link先を確認 | Tianshu Wang, Hongyu Lin, Xiaoyang Chen, Xianpei Han, Hao Wang, Zhenyu Zeng, Le Sun, | (参考訳) エンティティマッチング(EM)は、エンティティ解決における重要なステップである。
近年,大規模言語モデル (LLM) に基づくエンティティマッチングは大きな可能性を秘めている。
しかしながら、現在のLLMベースのエンティティマッチングアプローチは、通常、異なるレコード間のグローバルな一貫性を無視したバイナリマッチングパラダイムに従う。
本稿では,異なる視点からのレコードインタラクションを組み込んだLCMに基づくエンティティマッチング手法について検討する。
具体的には、マッチング、比較、選択の3つの代表的な戦略を総合的に比較し、多様なシナリオにおけるそれぞれの利点と課題を分析します。
そこで本研究では,複数の戦略とLCMの合成を利用するコンポジションエンティティマッチング(ComEM)フレームワークをさらに設計する。
このように、ComEMは異なる側面の利点の恩恵を受けることができ、効率性と効率性の両方の改善を達成できます。
実験結果から,ComEMは各種データセットの性能向上を達成できるだけでなく,実世界のアプリケーションにおけるLCMベースのエンティティマッチングのコストを低減できることがわかった。
Entity matching (EM) is a critical step in entity resolution. Recently, entity matching based on large language models (LLMs) has shown great promise. However, current LLM-based entity matching approaches typically follow a binary matching paradigm that ignores the global consistency between different records. In this paper, we investigate various methodologies for LLM-based entity matching that incorporate record interactions from different perspectives. Specifically, we comprehensively compare three representative strategies: matching, comparing, and selecting, and analyze their respective advantages and challenges in diverse scenarios. Based on our findings, we further design a compositional entity matching (ComEM) framework that leverages the composition of multiple strategies and LLMs. In this way, ComEM can benefit from the advantages of different sides and achieve improvements in both effectiveness and efficiency. Experimental results show that ComEM not only achieves significant performance gains on various datasets but also reduces the cost of LLM-based entity matching in real-world application. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# Hawk: オープンワールドビデオの異常を理解するための学習
Hawk: Learning to Understand Open-World Video Anomalies ( http://arxiv.org/abs/2405.16886v1 ) ライセンス: Link先を確認 | Jiaqi Tang, Hao Lu, Ruizheng Wu, Xiaogang Xu, Ke Ma, Cheng Fang, Bin Guo, Jiangbo Lu, Qifeng Chen, Ying-Cong Chen, | (参考訳) ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
しかしながら、現在のVADシステムは、シーンの表面的意味理解と最小限のユーザインタラクションによって制限されることが多い。
さらに、既存のデータセットにおける一般的なデータ不足は、オープンワールドシナリオにおける適用性を制限している。
本稿では,対話型大規模視覚言語モデル(VLM)を利用して映像の異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
異常ビデオと正常ビデオの動作情報の違いを認識して、Hawkは運動モダリティを明示的に統合し、異常識別を強化する。
動きの注意力を高めるために、動画のブランチに動きのモダリティに焦点を合わせることによって、動きとビデオ空間内での補助的な一貫性損失を構築する。
さらに, 動きから言語への解釈を改善するために, 動きと言語表現との明確な監督関係を確立する。
さらに、言語記述による8000以上の異常ビデオの注釈付け、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にし、また、ユーザによるオープンワールドの質問に対して、8,000以上の質問回答ペアを作成しました。
以上の結果から,Hawkはビデオ記述生成と質問応答の両方において,既存のベースラインを超え,SOTA性能を実現していることが示された。
私たちのコード/データセット/デモはhttps://github.com/jqtangust/hawk.comでリリースされます。
Video Anomaly Detection (VAD) systems can autonomously monitor and identify disturbances, reducing the need for manual labor and associated costs. However, current VAD systems are often limited by their superficial semantic understanding of scenes and minimal user interaction. Additionally, the prevalent data scarcity in existing datasets restricts their applicability in open-world scenarios. In this paper, we introduce Hawk, a novel framework that leverages interactive large Visual Language Models (VLM) to interpret video anomalies precisely. Recognizing the difference in motion information between abnormal and normal videos, Hawk explicitly integrates motion modality to enhance anomaly identification. To reinforce motion attention, we construct an auxiliary consistency loss within the motion and video space, guiding the video branch to focus on the motion modality. Moreover, to improve the interpretation of motion-to-language, we establish a clear supervisory relationship between motion and its linguistic representation. Furthermore, we have annotated over 8,000 anomaly videos with language descriptions, enabling effective training across diverse open-world scenarios, and also created 8,000 question-answering pairs for users' open-world questions. The final results demonstrate that Hawk achieves SOTA performance, surpassing existing baselines in both video description generation and question-answering. Our codes/dataset/demo will be released at https://github.com/jqtangust/hawk. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# インテリジェントショップフロアのための大規模言語モデルに基づくマルチエージェント製造システム
A Large Language Model-based multi-agent manufacturing system for intelligent shopfloor ( http://arxiv.org/abs/2405.16887v1 ) ライセンス: Link先を確認 | Zhen Zhao, Dunbing Tang, Haihua Zhu, Zequn Zhang, Kai Chen, Changchun Liu, Yuchen Ji, | (参考訳) 生産性が向上するにつれて、多品種・小バッチ生産に対する顧客の需要が増加し、製造システムに対するより高い要求が進んでいる。
この需要により生産タスクが頻繁に変更される場合、従来の製造システムはすぐには対応できないことが多い。
この問題に対処するために, マルチエージェント製造システムを提案する。
しかし、技術的制限のため、この種のエージェント間の交渉は予め定義されたヒューリスティックなルールによって実現され、多変量および小規模バッチ生産を扱うには十分な知性がない。
そこで本研究では,知的店舗用大規模言語モデル(LLM)を用いた多エージェント製造システムを提案する。
このシステムは多様なエージェントを記述し、協調方法を定義する。
エージェントの役割は、Machine Server Agent(MSA)、Bid Inviter Agent(BIA)、Bidder Agent(BA)、Thinking Agent(TA)、Decision Agent(DA)である。
LLMのサポートにより、TAとDAは、事前に定義されたプログラムを人工的に実行するのとは対照的に、ショップフロアの状態を分析し、最も適したマシンを選択する能力を得る。
BAとBIAの交渉は、製造資源をつなぐ上で最も重要なステップである。
TAとDAのサポートにより、BAが返却した各マシンの情報に依存して、BIAは注文の配信を確定する。
MSAは、エージェントと物理的なショップフロアを接続する責任を負う。
本システムは,これらの異なる役割を担ったエージェントの協調によるワークピースの配布と送信を目的としており,他のスケジューリング手法と区別する。
また, 本システムの性能評価のための比較実験を行った。
As productivity advances, the demand of customers for multi-variety and small-batch production is increasing, thereby putting forward higher requirements for manufacturing systems. When production tasks frequent changes due to this demand, traditional manufacturing systems often cannot response promptly. The multi-agent manufacturing system is proposed to address this problem. However, because of technical limitations, the negotiation among agents in this kind of system is realized through predefined heuristic rules, which is not intelligent enough to deal with the multi-variety and small batch production. To this end, a Large Language Model-based (LLM-based) multi-agent manufacturing system for intelligent shopfloor is proposed in the present study. This system delineates the diverse agents and defines their collaborative methods. The roles of the agents encompass Machine Server Agent (MSA), Bid Inviter Agent (BIA), Bidder Agent (BA), Thinking Agent (TA), and Decision Agent (DA). Due to the support of LLMs, TA and DA acquire the ability of analyzing the shopfloor condition and choosing the most suitable machine, as opposed to executing a predefined program artificially. The negotiation between BAs and BIA is the most crucial step in connecting manufacturing resources. With the support of TA and DA, BIA will finalize the distribution of orders, relying on the information of each machine returned by BA. MSAs bears the responsibility for connecting the agents with the physical shopfloor. This system aims to distribute and transmit workpieces through the collaboration of the agents with these distinct roles, distinguishing it from other scheduling approaches. Comparative experiments were also conducted to validate the performance of this system. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# Part123:シングルビュー画像からの部品認識3D再構成
Part123: Part-aware 3D Reconstruction from a Single-view Image ( http://arxiv.org/abs/2405.16888v1 ) ライセンス: Link先を確認 | Anran Liu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Zhiyang Dou, Hao-Xiang Guo, Ping Luo, Wenping Wang, | (参考訳) 近年,拡散モデルが出現し,一視点再構築の新たな機会が開けている。
しかし,既存の手法はすべて,任意の構造情報を持たないクローズドメッシュとして対象対象を表現しているため,多くの下流アプリケーションにとって重要な部分ベース構造は無視される。
さらに、生成されたメッシュは通常、大きなノイズ、不滑らかな表面、ぼやけたテクスチャに悩まされており、3Dセグメンテーション技術を用いて良好な部分セグメントを得るのは難しい。
本稿では,一視点画像からのパート認識3D再構成のための新しいフレームワークであるPart123を提案する。
まず、拡散モデルを用いて、与えられた画像から多視点一貫性の画像を生成し、次に任意のオブジェクトに対して強力な一般化能力を示すセグメンション・エキシング・モデル(SAM)を用いて、多視点セグメンテーションマスクを生成する。
2次元のパートベース情報を3次元再構成に効果的に組み込んで不整合を処理するために,ニューラルレンダリングフレームワークにコントラスト学習を導入し,マルチビューセグメンテーションマスクに基づく部分認識特徴空間を学習する。
クラスタリングに基づくアルゴリズムも開発され、再構成されたモデルから3次元部分分割結果を自動的に導出する。
実験の結果,本手法は様々な物体に高品質な分割部を有する3次元モデルを生成することができることがわかった。
既存の非構造復元法と比較して,本手法の3Dモデルは,特徴保存再構築,プリミティブフィッティング,3次元形状編集などの重要な応用に有用である。
Recently, the emergence of diffusion models has opened up new opportunities for single-view reconstruction. However, all the existing methods represent the target object as a closed mesh devoid of any structural information, thus neglecting the part-based structure, which is crucial for many downstream applications, of the reconstructed shape. Moreover, the generated meshes usually suffer from large noises, unsmooth surfaces, and blurry textures, making it challenging to obtain satisfactory part segments using 3D segmentation techniques. In this paper, we present Part123, a novel framework for part-aware 3D reconstruction from a single-view image. We first use diffusion models to generate multiview-consistent images from a given image, and then leverage Segment Anything Model (SAM), which demonstrates powerful generalization ability on arbitrary objects, to generate multiview segmentation masks. To effectively incorporate 2D part-based information into 3D reconstruction and handle inconsistency, we introduce contrastive learning into a neural rendering framework to learn a part-aware feature space based on the multiview segmentation masks. A clustering-based algorithm is also developed to automatically derive 3D part segmentation results from the reconstructed models. Experiments show that our method can generate 3D models with high-quality segmented parts on various objects. Compared to existing unstructured reconstruction methods, the part-aware 3D models from our method benefit some important applications, including feature-preserving reconstruction, primitive fitting, and 3D shape editing. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# PivotMesh:Pivot Vertices Guidanceによるジェネリック3Dメッシュ生成
PivotMesh: Generic 3D Mesh Generation via Pivot Vertices Guidance ( http://arxiv.org/abs/2405.16890v1 ) ライセンス: Link先を確認 | Haohan Weng, Yikai Wang, Tong Zhang, C. L. Philip Chen, Jun Zhu, | (参考訳) コンパクトで精密な3Dメッシュの生成は、現在の3D生成モデルにとって大きな課題となる。
神経表現から高密度メッシュを抽出するのとは違い、最近の研究は、人間によって作られたよりコンパクトな結果を生成するネイティブメッシュ分布(すなわち三角形の集合)をモデル化しようとする試みもある。
しかしながら、メッシュトポロジの複雑さと多様性のため、これらの手法は通常、特定のカテゴリを持つ小さなデータセットに限られており、拡張が困難である。
本稿では,汎用的でスケーラブルなメッシュ生成フレームワークであるPivotMeshを紹介する。
我々はトランスフォーマーベースのオートエンコーダを用いてメッシュを離散トークンにエンコードし、それらを顔レベルから頂点レベルに階層的にデコードする。
その後、複雑な型をモデル化するために、まず粗いメッシュ表現としてピボット頂点を生成し、次に同じ自動回帰変換器で完全なメッシュトークンを生成する。
これにより、メッシュ分布を直接モデル化するよりも難易度が低くなり、モデル制御性がさらに向上する。
PivotMeshは、Shapenetのような小さなデータセットとObjaverseやObjaverse-xlのような大規模なデータセットの両方から効果的に学習することで、その汎用性を示している。
大規模な実験の結果、PivotMeshはさまざまなカテゴリにわたってコンパクトでシャープな3Dメッシュを生成することができ、ネイティブメッシュモデリングの大きな可能性を強調している。
Generating compact and sharply detailed 3D meshes poses a significant challenge for current 3D generative models. Different from extracting dense meshes from neural representation, some recent works try to model the native mesh distribution (i.e., a set of triangles), which generates more compact results as humans crafted. However, due to the complexity and variety of mesh topology, these methods are typically limited to small datasets with specific categories and are hard to extend. In this paper, we introduce a generic and scalable mesh generation framework PivotMesh, which makes an initial attempt to extend the native mesh generation to large-scale datasets. We employ a transformer-based auto-encoder to encode meshes into discrete tokens and decode them from face level to vertex level hierarchically. Subsequently, to model the complex typology, we first learn to generate pivot vertices as coarse mesh representation and then generate the complete mesh tokens with the same auto-regressive Transformer. This reduces the difficulty compared with directly modeling the mesh distribution and further improves the model controllability. PivotMesh demonstrates its versatility by effectively learning from both small datasets like Shapenet, and large-scale datasets like Objaverse and Objaverse-xl. Extensive experiments indicate that PivotMesh can generate compact and sharp 3D meshes across various categories, highlighting its great potential for native mesh modeling. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# 顔のプライバシを保存するテキスト・ツー・イメージ生成のための匿名化プロンプト学習
Anonymization Prompt Learning for Facial Privacy-Preserving Text-to-Image Generation ( http://arxiv.org/abs/2405.16895v1 ) ライセンス: Link先を確認 | Liang Shi, Jie Zhang, Shiguang Shan, | (参考訳) 安定拡散のようなテキスト間拡散モデルは、テキスト記述から非常にリアルな画像を生成する。
しかし、そのような高品質なコンテンツの生成は懸念を喚起する。
重要な問題は、識別可能な顔画像の正確な描写であり、悪意のあるディープフェイク生成とプライバシー侵害につながる可能性がある。
本稿では,この問題を解決するために匿名化プロンプト学習(APL)を提案する。
具体的には、テキスト・ツー・イメージ拡散モデルに対して学習可能なプロンプトプレフィックスをトレーニングし、特定の個人の画像を生成するように促された場合でも、モデルに匿名化された顔のアイデンティティを生成するように強制する。
広汎な定量および定性的実験は、APLの匿名化性能を実証し、特定の個人を匿名化することで、非同一性固有の画像生成の品質を損なうことなく、匿名化することができる。
さらに、学習したプロンプトプレフィックスのプラグ・アンド・プレイ特性を明らかにし、様々な事前訓練されたテキスト・ツー・イメージ・モデルに対して、ディープフェイクのリスクに対する転送可能なプライバシとセキュリティ保護の効果的な適用を可能にする。
Text-to-image diffusion models, such as Stable Diffusion, generate highly realistic images from text descriptions. However, the generation of certain content at such high quality raises concerns. A prominent issue is the accurate depiction of identifiable facial images, which could lead to malicious deepfake generation and privacy violations. In this paper, we propose Anonymization Prompt Learning (APL) to address this problem. Specifically, we train a learnable prompt prefix for text-to-image diffusion models, which forces the model to generate anonymized facial identities, even when prompted to produce images of specific individuals. Extensive quantitative and qualitative experiments demonstrate the successful anonymization performance of APL, which anonymizes any specific individuals without compromising the quality of non-identity-specific image generation. Furthermore, we reveal the plug-and-play property of the learned prompt prefix, enabling its effective application across different pretrained text-to-image models for transferrable privacy and security protection against the risks of deepfakes. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# 適応型モデルに基づく強化学習エージェント構築のための部分モデル
Partial Models for Building Adaptive Model-Based Reinforcement Learning Agents ( http://arxiv.org/abs/2405.16899v1 ) ライセンス: Link先を確認 | Safa Alver, Ali Rahimi-Kalahroudi, Doina Precup, | (参考訳) 神経科学において、研究対象がモデルに基づく行動を示すかどうかを決定するための重要な行動テストの1つは、その環境の局所的な変化への適応性を研究することである。
しかし、強化学習においては、現代のモデルに基づくエージェントはそのような変化に対する適応性に乏しいことが最近の研究で示されている。
この主な理由は、現代のエージェントが単一のタスク設定におけるサンプル効率を改善するように設計されているため、他の設定で起こりうる課題を考慮していないからである。
局所的な適応設定では、特に重要な課題は、局所的な変化の後、十分に正確なモデルを構築し維持することである。
モデルとリプレイバッファは分散シフト処理能力に欠けたモノリシックな構造であるため、ディープモデルベースのエージェントではこれは難しい。
本研究では,この課題を克服し,局所的に適応的なモデルベースエージェントを構築することが可能であることを示す。
状態空間の異なる部分を異なるモデルでモデル化することにより、エージェントは状態空間全体にわたって正確なモデルを維持するだけでなく、環境の局所的な変化に迅速に適応することができる。
我々は、ディープダイナQ、PlaNet、Dreamerなどのエージェントで部分モデルを使用することで、環境の局所的な変化に効果的に適応できることを示す。
In neuroscience, one of the key behavioral tests for determining whether a subject of study exhibits model-based behavior is to study its adaptiveness to local changes in the environment. In reinforcement learning, however, recent studies have shown that modern model-based agents display poor adaptivity to such changes. The main reason for this is that modern agents are typically designed to improve sample efficiency in single task settings and thus do not take into account the challenges that can arise in other settings. In local adaptation settings, one particularly important challenge is in quickly building and maintaining a sufficiently accurate model after a local change. This is challenging for deep model-based agents as their models and replay buffers are monolithic structures lacking distribution shift handling capabilities. In this study, we show that the conceptually simple idea of partial models can allow deep model-based agents to overcome this challenge and thus allow for building locally adaptive model-based agents. By modeling the different parts of the state space through different models, the agent can not only maintain a model that is accurate across the state space, but it can also quickly adapt it in the presence of a local change in the environment. We demonstrate this by showing that the use of partial models in agents such as deep Dyna-Q, PlaNet and Dreamer can allow for them to effectively adapt to the local changes in their environments. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# ガイド画像とメンタルワークロード検出のための脳波信号の分類における繰り返し・畳み込みニューラルネットワーク
Recurrent and Convolutional Neural Networks in Classification of EEG Signal for Guided Imagery and Mental Workload Detection ( http://arxiv.org/abs/2405.16901v1 ) ライセンス: Link先を確認 | Filip Postepski, Grzegorz M. Wojcik, Krzysztof Wrobel, Katarzyna Zemla, Grzegorz Sedek, | (参考訳) ガイド画像技術は、精神病から腫瘍学まで様々な疾患に悩まされている患者の快適さを高めるために世界中のセラピストによって使用されていると報告されており、様々な方法で成功している。
セラピストへの支援は、被験者が深くリラックスする時期を推定することができる。
本稿では,26名の学生を対象に,高密度アレイ脳波増幅器を用いたガイド画像緩和技術と精神作業負荷に関する調査を行った。
この研究は、これらの2つの状態の違いを検知し、深層学習法と、EEGNet、Long Short-Term Memory-based Classifier、1D Convolutional Neural Network、Long Short-Term Memoryのハイブリッドモデルなどの繰り返しニューラルネットワークを用いて、それらを分類できるかどうかを検証することを目的としている。
データ処理パイプラインは、最初のデータクリーニング、前処理、後処理を通じて、データ取得から提供される。
この分類は、2つのデータセットに基づいており、そのうちの1つは26個の認知電極を使用しており、もう1つは256個のチャネルから収集された信号を用いている。
これまでのところ、議論されているアプリケーションではそのような比較は行われていない。
分類結果は、各ケースの精度、リコール、精度、F1スコア、損失などの検証指標によって示される。
認知電極の分類としてすべての電極から信号を収集する必要はないことが判明し、完全な信号に類似した結果が得られ、入力を256チャネルに拡張しても大きな価値が得られないことが判明した。
ディスカッションでは、最適な分類器が提案され、プロジェクトの今後の発展についていくつかの提案がなされた。
The Guided Imagery technique is reported to be used by therapists all over the world in order to increase the comfort of patients suffering from a variety of disorders from mental to oncology ones and proved to be successful in numerous of ways. Possible support for the therapists can be estimation of the time at which subject goes into deep relaxation. This paper presents the results of the investigations of a cohort of 26 students exposed to Guided Imagery relaxation technique and mental task workloads conducted with the use of dense array electroencephalographic amplifier. The research reported herein aimed at verification whether it is possible to detect differences between those two states and to classify them using deep learning methods and recurrent neural networks such as EEGNet, Long Short-Term Memory-based classifier, 1D Convolutional Neural Network and hybrid model of 1D Convolutional Neural Network and Long Short-Term Memory. The data processing pipeline was presented from the data acquisition, through the initial data cleaning, preprocessing and postprocessing. The classification was based on two datasets: one of them using 26 so-called cognitive electrodes and the other one using signal collected from 256 channels. So far there have not been such comparisons in the application being discussed. The classification results are presented by the validation metrics such as: accuracy, recall, precision, F1-score and loss for each case. It turned out that it is not necessary to collect signals from all electrodes as classification of the cognitive ones gives the results similar to those obtained for the full signal and extending input to 256 channels does not add much value. In Disscussion there were proposed an optimal classifier as well as some suggestions concerning the prospective development of the project. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# 帰納的知識グラフ補完モデルにおける異なる視点からの予測
Predicting from a Different Perspective in Re-ranking Model for Inductive Knowledge Graph Completion ( http://arxiv.org/abs/2405.16902v1 ) ライセンス: Link先を確認 | Yuki Iwamoto, Ken Kameiwa, | (参考訳) ルール推論モデルは知識グラフ補完の帰納的設定において大きな力を発揮している。
この設定では、モデルは完全に目に見えないエンティティで構成された知識グラフでテストされる。
これらのモデルは、部分グラフを利用して関係パターンを規則として学習する。
同じ入力だが異なるルールはモデルの予測に違いをもたらす。
本稿では,モデルのこの挙動に着目した。
本稿では,ReDistLP (Re-level with a Distinct Model for Link Prediction) という再ランクモデルを提案する。
このモデルは、初期検索者と再ランカとの予測の差を利用して、再ランク付けの有効性を高める。
ReDistLPは3つのデータセットのうち2つで最先端のメソッドよりも優れています。
Rule-induction models have been shown great power in the inductive setting of knowledge graph completion. In this setting, the models are tested on a knowledge graph entirely composed of unseen entities. These models learn relation patterns as rules by utilizing subgraphs. The same input but different rules cause differences in the model's predictions. In this paper, we focus on this behavior of the model. We propose a re-ranking-based model called ReDistLP (Re-ranking with a Distinct Model for Link Prediction). This model enhances the effectiveness of re-ranking by leveraging the difference in the predictions between the initial retriever and the re-ranker. ReDistLP outperforms the state-of-the-art methods in 2 out of 3 datasets. | 翻訳日:2024-05-28 16:41:02 公開日:2024-05-27 |
# 共変量シフトに基づく分類のためのビシニティーインフォームド解析の力の調和
Harnessing the Power of Vicinity-Informed Analysis for Classification under Covariate Shift ( http://arxiv.org/abs/2405.16906v1 ) ライセンス: Link先を確認 | Mitsuhiro Fujikawa, Yohei Akimoto, Jun Sakuma, Kazuto Fukuchi, | (参考訳) 転送学習は、ソース分布からのデータを活用することにより、ターゲット分布上の予測精度を高め、様々なアプリケーションにおいて大きなメリットを示す。
本稿では,周辺情報,すなわちデータポイントの局所構造を利用して,境界特徴分布が異なるが条件付きラベル分布が同じである移動学習環境である共変量シフトに基づく分類における過大な誤差を解析する新しい異種性尺度を提案する。
提案手法を用いて過大な誤差を特徴付けるとともに,従来の手法と比較して高速あるいは競合的な収束率を示す。
特に本手法は,現実のアプリケーションによく現れる絶対的でない連続性仮定が成立する状況において有効である。
我々の理論解析は、伝達学習における現在の理論的発見と経験的観察のギャップを橋渡しする。
Transfer learning enhances prediction accuracy on a target distribution by leveraging data from a source distribution, demonstrating significant benefits in various applications. This paper introduces a novel dissimilarity measure that utilizes vicinity information, i.e., the local structure of data points, to analyze the excess error in classification under covariate shift, a transfer learning setting where marginal feature distributions differ but conditional label distributions remain the same. We characterize the excess error using the proposed measure and demonstrate faster or competitive convergence rates compared to previous techniques. Notably, our approach is effective in situations where the non-absolute continuousness assumption, which often appears in real-world applications, holds. Our theoretical analysis bridges the gap between current theoretical findings and empirical observations in transfer learning, particularly in scenarios with significant differences between source and target distributions. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# GTA:オフライン強化学習のためのガイダンスによる生成軌道拡張
GTA: Generative Trajectory Augmentation with Guidance for Offline Reinforcement Learning ( http://arxiv.org/abs/2405.16907v1 ) ライセンス: Link先を確認 | Jaewoo Lee, Sujin Yun, Taeyoung Yun, Jinkyoo Park, | (参考訳) オフライン強化学習(Offline Reinforcement Learning (Offline RL))は、オンラインインタラクションなしで静的データセットから効果的な意思決定ポリシーを学ぶという課題を提示している。
ノイズ注入やデータ合成などのデータ拡張技術は、学習状態領域を滑らかにすることでQ関数近似を改善することを目的としている。
しかし、これらの手法は、オフラインデータセットの質を直接的に改善するに足りず、亜最適結果をもたらすことが多い。
そこで本稿では,高次かつ動的に検証可能なトラジェクトリを増大させることにより,オフラインデータの強化を目的とした新しい生成データ拡張手法である,生成トラジェクトリ拡張(Generative Trajectory Augmentation)を提案する。
GTAはデータ拡張フレームワークに拡散モデルを適用します。
GTAは元のトラジェクトリを部分的にノイズし、増幅された戻り値の条件付けにより、分類子なしのガイダンスでノイズを発生させる。
以上の結果から,GTAは汎用データ拡張戦略として,高密度かつ疎度な報酬設定において,広く使われているオフラインRLアルゴリズムの性能を向上させることが示唆された。
さらに、GTAによって強化されたデータの品質分析を行い、GTAがデータの品質を改善することを示す。
私たちのコードはhttps://github.com/Jaewoopudding/GTAで利用可能です。
Offline Reinforcement Learning (Offline RL) presents challenges of learning effective decision-making policies from static datasets without any online interactions. Data augmentation techniques, such as noise injection and data synthesizing, aim to improve Q-function approximation by smoothing the learned state-action region. However, these methods often fall short of directly improving the quality of offline datasets, leading to suboptimal results. In response, we introduce \textbf{GTA}, Generative Trajectory Augmentation, a novel generative data augmentation approach designed to enrich offline data by augmenting trajectories to be both high-rewarding and dynamically plausible. GTA applies a diffusion model within the data augmentation framework. GTA partially noises original trajectories and then denoises them with classifier-free guidance via conditioning on amplified return value. Our results show that GTA, as a general data augmentation strategy, enhances the performance of widely used offline RL algorithms in both dense and sparse reward settings. Furthermore, we conduct a quality analysis of data augmented by GTA and demonstrate that GTA improves the quality of the data. Our code is available at https://github.com/Jaewoopudding/GTA | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# 大規模言語モデルは単語の本質的不確かさを忠実に表現できるか?
Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words? ( http://arxiv.org/abs/2405.16908v1 ) ライセンス: Link先を確認 | Gal Yona, Roee Aharoni, Mor Geva, | (参考訳) 我々は,大きな言語モデル (LLM) は,自然言語における本質的な不確実性を表現することができるべきであると仮定する。
例えば、LLMが同じ質問に対して矛盾する2つの回答を出力する確率が等しく高い場合、その反応は、その答えをヘッジすることで、この不確実性を反映するべきである(例:「私は確信していないが、私は......」)。
我々は、モデル固有のアサーションに対する信頼のギャップと、それらが伝達される決定性に基づいて、忠実な応答の不確実性を定式化する。
この例レベルの計量は、モデルがその不確かさを反映しているかどうかを確実に示し、過度かつ不十分なヘッジの両方をペナルティ化する。
我々は,複数の知識集約型質問応答タスクにおいて,不確実性を忠実に伝達する多種多様なLCMを評価した。
以上の結果から,現代LLMは不確実性を忠実に伝えるのが苦手であり,信頼性を向上させるためには,より良い整合性が必要であるという強い証拠が得られた。
We posit that large language models (LLMs) should be capable of expressing their intrinsic uncertainty in natural language. For example, if the LLM is equally likely to output two contradicting answers to the same question, then its generated response should reflect this uncertainty by hedging its answer (e.g., "I'm not sure, but I think..."). We formalize faithful response uncertainty based on the gap between the model's intrinsic confidence in the assertions it makes and the decisiveness by which they are conveyed. This example-level metric reliably indicates whether the model reflects its uncertainty, as it penalizes both excessive and insufficient hedging. We evaluate a variety of aligned LLMs at faithfully communicating uncertainty on several knowledge-intensive question answering tasks. Our results provide strong evidence that modern LLMs are poor at faithfully conveying their uncertainty, and that better alignment is necessary to improve their trustworthiness. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# テキストに基づく3次元人間の動作検索のためのクロスデータセットによる研究
A Cross-Dataset Study for Text-based 3D Human Motion Retrieval ( http://arxiv.org/abs/2405.16909v1 ) ライセンス: Link先を確認 | Léore Bensabath, Mathis Petrovich, Gül Varol, | (参考訳) 本研究はテキストに基づく3次元人体動作検索の研究成果であり,特にクロスデータセットの一般化に焦点を当てたものである。
データセット固有の人体表現などの実践的な理由から、既存の作業は通常、同じデータセットからパーティションをトレーニングし、テストする。
ここでは、すべてのデータセットに統一されたSMPLボディフォーマットを使用し、ひとつのデータセットでトレーニングを実行し、他方でテストし、データセットの組み合わせでトレーニングすることができます。
以上の結果から,HumanML3D,KIT Motion-Language,BABELなどの標準テキストモーションベンチマークにはデータセットバイアスが存在することが示唆された。
テキスト拡張はドメインのギャップをある程度埋めるのに役立ちますが、そのギャップは残っています。
また,BABELでは,訓練中にカテゴリー的動作ラベルを使わずに,最初のゼロショット動作認識結果も提供し,今後の研究への新たな道を開く。
We provide results of our study on text-based 3D human motion retrieval and particularly focus on cross-dataset generalization. Due to practical reasons such as dataset-specific human body representations, existing works typically benchmarkby training and testing on partitions from the same dataset. Here, we employ a unified SMPL body format for all datasets, which allows us to perform training on one dataset, testing on the other, as well as training on a combination of datasets. Our results suggest that there exist dataset biases in standard text-motion benchmarks such as HumanML3D, KIT Motion-Language, and BABEL. We show that text augmentations help close the domain gap to some extent, but the gap remains. We further provide the first zero-shot action recognition results on BABEL, without using categorical action labels during training, opening up a new avenue for future research. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# 自律運転システムの厳密なシミュレーションに基づくテスト-4つのオープンオートパイロットのアキレス腱を狙う
Rigorous Simulation-based Testing for Autonomous Driving Systems -- Targeting the Achilles' Heel of Four Open Autopilots ( http://arxiv.org/abs/2405.16914v1 ) ライセンス: Link先を確認 | Changwen Li, Joseph Sifakis, Rongjie Yan, Jian Zhang, | (参考訳) シミュレーションベースのテストは、自律運転システムを検証する主要なアプローチである。
本稿では,ローカルな知識や状況に依存した交通ルールに従って自動操縦が決定を下すという事実を考慮し,シナリオを単純なものに分割した厳密なテスト手法を提案する。
これにより、オートパイロットは3種類のビスタを入力として受け取り、それぞれが特定の駆動動作と対応する制御ポリシーを特徴付ける動的システムであると考えられる。
本発明のビスタ型試験方法は、障害をクリアするために、慎重な行動から進行への遷移を特徴とする臨界状況下で、車両をテスト対象とする臨界構成のテストケースを生成する。
これらが生成したテストケースは現実的であり、車両の動的特性の知識に基づいて、安全制御ポリシーが可能である初期条件を決定する。
制約分析(Constraint analysis)は、最も重要なテストケースを特定し、その成功は、あまり重要でないテストケースの有効性を示唆する。
したがって、テストカバレッジは大幅に単純化できる。
重要なテストケースでは、Apollo、Autoware、CarlaとLGSVLのオートパイロットに重大な欠陥がある。
欠陥としては、事故、ソフトウェア障害、交通規則違反などがあり、これはランダムなシミュレーションによって検出が難しい。
我々の結果は、現実の観察を裏付け、自律運転システムには、許容可能な安全保証を提供するまでの長い道のりがあることを確認します。
Simulation-based testing remains the main approach for validating Autonomous Driving Systems. We propose a rigorous test method based on breaking down scenarios into simple ones, taking into account the fact that autopilots make decisions according to traffic rules whose application depends on local knowledge and context. This leads us to consider the autopilot as a dynamic system receiving three different types of vistas as input, each characterizing a specific driving operation and a corresponding control policy. The test method for the considered vista types generates test cases for critical configurations that place the vehicle under test in critical situations characterized by the transition from cautious behavior to progression in order to clear an obstacle. The test cases thus generated are realistic, i.e., they determine the initial conditions from which safe control policies are possible, based on knowledge of the vehicle's dynamic characteristics. Constraint analysis identifies the most critical test cases, whose success implies the validity of less critical ones. Test coverage can therefore be greatly simplified. Critical test cases reveal major defects in Apollo, Autoware, and the Carla and LGSVL autopilots. Defects include accidents, software failures, and traffic rule violations that would be difficult to detect by random simulation, as the test cases lead to situations characterized by finely-tuned parameters of the vehicles involved, such as their relative position and speed. Our results corroborate real-life observations and confirm that autonomous driving systems still have a long way to go before offering acceptable safety guarantees. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# 多言語多様性は視覚言語表現を改善する
Multilingual Diversity Improves Vision-Language Representations ( http://arxiv.org/abs/2405.16915v1 ) ライセンス: Link先を確認 | Thao Nguyen, Matthew Wallingford, Sebastin Santy, Wei-Chiu Ma, Sewoong Oh, Ludwig Schmidt, Pang Wei Koh, Ranjay Krishna, | (参考訳) 大規模なWebcrawled Image-textデータセットは、近年のマルチモーダル学習の基盤となっている。
これらのデータセットは、標準的なコンピュータビジョンベンチマークでうまく動作するモデルをトレーニングする目的で設計されており、その多くが英語中心(例えば、ImageNet)であることが示されている。
その結果、既存のデータキュレーション技術は、主に英語のイメージテキストペアを使用し、潜在的に有用な非英語のサンプルの多くを捨てる。
私たちの仕事はこの実践に疑問を投げかける。
マルチリンガルデータは、文化的に健全な概念を学ぶためのゲートウェイを提供するだけでなく、モノリンガルデータとは異なる共通の概念を描いているため、本質的に豊かである。
そこで我々は、英語の視覚タスクに関して、非英語起源のサンプルをもっと多く使用することにより、パフォーマンス上のメリットを探求する体系的な研究を行う。
生のWebクローラからすべての多言語画像テキストペアを英語に翻訳し、再フィルタリングすることにより、結果として得られるトレーニングセットにおける(翻訳された)多言語データの頻度を高めることができる。
このデータセットの事前トレーニングは、ImageNet上の英語のみまたは英語が支配するデータセット、ImageNetの分散シフト、画像-英語-テキスト検索、およびDataCompベンチマークから平均38タスクでパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
さらに、画像空間と(翻訳された)テキスト空間において、英語と非英語のデータが著しく異なることを定量的に示す。
我々の研究成果は、非英語や地理的に多様なタスクが関与するだけでなく、大規模にモデル能力を高めるために、多文化的・多言語的なデータを含めることについて、今後の研究を意図的に進めることを願っている。
Massive web-crawled image-text datasets lay the foundation for recent progress in multimodal learning. These datasets are designed with the goal of training a model to do well on standard computer vision benchmarks, many of which, however, have been shown to be English-centric (e.g., ImageNet). Consequently, existing data curation techniques gravitate towards using predominantly English image-text pairs and discard many potentially useful non-English samples. Our work questions this practice. Multilingual data is inherently enriching not only because it provides a gateway to learn about culturally salient concepts, but also because it depicts common concepts differently from monolingual data. We thus conduct a systematic study to explore the performance benefits of using more samples of non-English origins with respect to English vision tasks. By translating all multilingual image-text pairs from a raw web crawl to English and re-filtering them, we increase the prevalence of (translated) multilingual data in the resulting training set. Pre-training on this dataset outperforms using English-only or English-dominated datasets on ImageNet, ImageNet distribution shifts, image-English-text retrieval and on average across 38 tasks from the DataComp benchmark. On a geographically diverse task like GeoDE, we also observe improvements across all regions, with the biggest gain coming from Africa. In addition, we quantitatively show that English and non-English data are significantly different in both image and (translated) text space. We hope that our findings motivate future work to be more intentional about including multicultural and multilingual data, not just when non-English or geographically diverse tasks are involved, but to enhance model capabilities at large. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# 不安定な谷 - 平坦性の観点からの敵対的ロバスト性を探る
The Uncanny Valley: Exploring Adversarial Robustness from a Flatness Perspective ( http://arxiv.org/abs/2405.16918v1 ) ライセンス: Link先を確認 | Nils Philipp Walter, Linara Adilova, Jilles Vreeken, Michael Kamp, | (参考訳) 損失面の平坦性は一般化と正に相関するだけでなく、入力の摂動は重みの摂動に非直線的に関係するため、逆の堅牢性にも関係する。
本稿では,1層のパラメータに対する逆例と相対平坦度の関係を実証的に解析する。
反復的な一階のホワイトボックス攻撃において, ラベルが反転するまでは, ラベルの周囲で測定された損失面の平坦度は, ラベルが反転するまでシャープになるが, 攻撃を継続すると, ラベルが反転し続ける平らな谷にぶつかる。
この現象は、さまざまなモデルアーキテクチャやデータセットで見られます。
実験結果は大規模言語モデル (LLM) にも拡張されるが, 入力空間の離散性や比較的弱い攻撃により, 敵対例が真に平坦な領域に到達することは滅多にない。
最も重要なことに、この現象は平坦性だけでは、例の周りの函数の挙動を保証できない限り、逆の強靭性を説明することができないことを示している。
我々は、ロバストモデルに対する低大域リプシッツ定数と組み合わさって、損失曲面の第3微分をバウンドすることで、相対平坦性と対向ロバスト性とを理論的に結合する。
Flatness of the loss surface not only correlates positively with generalization but is also related to adversarial robustness, since perturbations of inputs relate non-linearly to perturbations of weights. In this paper, we empirically analyze the relation between adversarial examples and relative flatness with respect to the parameters of one layer. We observe a peculiar property of adversarial examples: during an iterative first-order white-box attack, the flatness of the loss surface measured around the adversarial example first becomes sharper until the label is flipped, but if we keep the attack running it runs into a flat uncanny valley where the label remains flipped. We find this phenomenon across various model architectures and datasets. Our results also extend to large language models (LLMs), but due to the discrete nature of the input space and comparatively weak attacks, the adversarial examples rarely reach a truly flat region. Most importantly, this phenomenon shows that flatness alone cannot explain adversarial robustness unless we can also guarantee the behavior of the function around the examples. We theoretically connect relative flatness to adversarial robustness by bounding the third derivative of the loss surface, underlining the need for flatness in combination with a low global Lipschitz constant for a robust model. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# VoCoT:大規模マルチモードモデルにおける視覚的接地型マルチステップ推論
VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models ( http://arxiv.org/abs/2405.16919v1 ) ライセンス: Link先を確認 | Zejun Li, Ruipu Luo, Jiwen Zhang, Minghui Qiu, Zhongyu Wei, | (参考訳) 大規模マルチモーダルモデル(LMM)は多種多様なタスクにまたがる印象的な能力を示してきたが、複雑なタスクを扱う上での有効性は、一般的なシングルステップ推論パラダイムによって制限されてきた。
そこで本稿では,LMMを用いた推論に適した,多段階の視覚的基盤を持つオブジェクト中心の連鎖推論フレームワークであるVoCoTを提案する。
VoCoT の特徴は,(1) オブジェクト間の共有オブジェクトレベルの情報を取り巻くオブジェクト中心の推論経路,(2) 多モードのインターリーブとアライメントによるオブジェクト概念の視覚的接地表現により,LMM の長期的生成におけるモダリティギャップを効果的に橋渡しする,という2つの特徴である。
さらに,VoCoTを用いた推論に適応してLMMを容易にするための命令データセットを構築した。
オープンソースのLMMアーキテクチャにVoCoTを導入することで、VolCanoを紹介します。
7Bパラメータと限られた入力解像度しか持たないVolCanoは、複雑な推論を必要とするタスクにおいて、GPT-4Vを含むSOTAモデルよりも優れた性能を示す。
私たちのコード、データ、モデルはhttps://github.com/RupertLuo/VoCoT.comで公開されます。
While large multi-modal models (LMMs) have exhibited impressive capabilities across diverse tasks, their effectiveness in handling complex tasks has been limited by the prevailing single-step reasoning paradigm. To this end, this paper proposes VoCoT, a multi-step Visually grounded object-centric Chain-of-Thought reasoning framework tailored for inference with LMMs. VoCoT is characterized by two key features: (1) object-centric reasoning paths that revolve around cross-modal shared object-level information, and (2) visually grounded representation of object concepts in a multi-modal interleaved and aligned manner, which effectively bridges the modality gap within LMMs during long-term generation. Additionally, we construct an instruction dataset to facilitate LMMs in adapting to reasoning with VoCoT. By introducing VoCoT into the prevalent open-source LMM architecture, we introduce VolCano. With only 7B parameters and limited input resolution, VolCano demonstrates excellent performance across various scenarios, surpassing SOTA models, including GPT-4V, in tasks requiring complex reasoning. Our code, data and model will be available at https://github.com/RupertLuo/VoCoT. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# 連続学習のためのシナプス記憶の統合と知的可塑性の理論
Theories of synaptic memory consolidation and intelligent plasticity for continual learning ( http://arxiv.org/abs/2405.16922v1 ) ライセンス: Link先を確認 | Friedemann Zenke, Axel Laborieux, | (参考訳) 人間と動物は生涯学習する。
このような継続的な学習は知性にとって不可欠である。
本章では、複雑な内部シナプス力学を持つ可塑性機構が、ニューラルネットワークにおけるその機能を実現する上で果たす役割について検討する。
理論的な研究を調査することで、継続学習の基本的な2つの実現方法が浮き彫りになる。
第一に、シナプスの可塑性機構はいくつかの行動に関連する時間スケールで内部状態を維持し、進化させなければならない。
第二に、可塑性アルゴリズムは内部の状態を活用して、個々のシナプスにおける可塑性をインテリジェントに制御し、既存の記憶との有害な干渉を避けながら、新しい記憶のシームレスな統合を促進する必要がある。
本章では,これらの原理を深層ニューラルネットワークに適用し,連続学習能力を維持する上でのシナプス的メタ塑性の重要性を明らかにする。
最後に、脳の超能力である連続学習能力を理解し、同様のメカニズムを人工知能システムに活用するためのさらなる研究の道筋について概説する。
Humans and animals learn throughout life. Such continual learning is crucial for intelligence. In this chapter, we examine the pivotal role plasticity mechanisms with complex internal synaptic dynamics could play in enabling this ability in neural networks. By surveying theoretical research, we highlight two fundamental enablers for continual learning. First, synaptic plasticity mechanisms must maintain and evolve an internal state over several behaviorally relevant timescales. Second, plasticity algorithms must leverage the internal state to intelligently regulate plasticity at individual synapses to facilitate the seamless integration of new memories while avoiding detrimental interference with existing ones. Our chapter covers successful applications of these principles to deep neural networks and underscores the significance of synaptic metaplasticity in sustaining continual learning capabilities. Finally, we outline avenues for further research to understand the brain's superb continual learning abilities and harness similar mechanisms for artificial intelligence systems. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# SA-GS:幾何学的制約を伴う大規模シーン再構成のための意味認識型ガウス切削法
SA-GS: Semantic-Aware Gaussian Splatting for Large Scene Reconstruction with Geometry Constrain ( http://arxiv.org/abs/2405.16923v1 ) ライセンス: Link先を確認 | Butian Xiong, Xiaoyu Ye, Tze Ho Elden Tse, Kai Han, Shuguang Cui, Zhen Li, | (参考訳) ガウススプラッターの出現に伴い、近年の取り組みは大規模な景観幾何学的復元に焦点が当てられている。
しかし、これらの取り組みのほとんどはメモリ削減や空間空間分割に集中しており、意味空間の情報を無視している。
本稿では, セマンティック・アウェアな3Dガウス・スプラットを用いた精密な3次元形状再構成のためのSA-GSという新しい手法を提案する。
具体的には、SAMやDINOのような大きな視覚モデルに格納された事前情報を利用してセマンティックマスクを生成する。
次に、幾何複雑性測定関数を導入し、ソフト正規化として機能し、特定の意味領域における各ガウスプレートの形状を導出する。
さらに,異なる意味領域におけるガウススプラッツの期待数を推定し,これらの領域におけるガウススプラッツの下位境界を効果的に提供する手法を提案する。
その後,新しい確率密度に基づく抽出法を用いて点雲を抽出し,ガウススプラッツを下流タスクに不可欠な点雲に変換する。
提案手法は,高精細なセマンティックな問合せの可能性を秘めつつ,高精細な画像に基づく再構築結果の維持にも有効である。
我々は,地上の真実として高精度な点雲と新たなデータセットを用いた,公開可能な大規模シーン再構築データセットに関する広範な実験を行った。
提案手法は,現在最先端のガウススプラッツ法よりも幾何的測定値において有意差で優れていることを示す。
コードと追加の結果は近いうちにプロジェクトのページで公開されます。
With the emergence of Gaussian Splats, recent efforts have focused on large-scale scene geometric reconstruction. However, most of these efforts either concentrate on memory reduction or spatial space division, neglecting information in the semantic space. In this paper, we propose a novel method, named SA-GS, for fine-grained 3D geometry reconstruction using semantic-aware 3D Gaussian Splats. Specifically, we leverage prior information stored in large vision models such as SAM and DINO to generate semantic masks. We then introduce a geometric complexity measurement function to serve as soft regularization, guiding the shape of each Gaussian Splat within specific semantic areas. Additionally, we present a method that estimates the expected number of Gaussian Splats in different semantic areas, effectively providing a lower bound for Gaussian Splats in these areas. Subsequently, we extract the point cloud using a novel probability density-based extraction method, transforming Gaussian Splats into a point cloud crucial for downstream tasks. Our method also offers the potential for detailed semantic inquiries while maintaining high image-based reconstruction results. We provide extensive experiments on publicly available large-scale scene reconstruction datasets with highly accurate point clouds as ground truth and our novel dataset. Our results demonstrate the superiority of our method over current state-of-the-art Gaussian Splats reconstruction methods by a significant margin in terms of geometric-based measurement metrics. Code and additional results will soon be available on our project page. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# 変圧器による脱ミステイスト型因果発見
Demystifying amortized causal discovery with transformers ( http://arxiv.org/abs/2405.16924v1 ) ライセンス: Link先を確認 | Francesco Montagna, Max Cairney-Leeming, Dhanya Sridhar, Francesco Locatello, | (参考訳) 観察データからの因果発見のための教師付き学習アプローチは、従来の手法が識別可能性に向けている明確な仮定を避けつつも、しばしば競争性能を達成する。
本研究では,CSIvA (Ke et al , 2023) モデルについて検討する。
まず、既存の識別可能性理論とギャップを埋め、トレーニングデータ分布の制約がテスト観測の事前を暗黙的に定義していることを示す。
古典的なアプローチとは対照的に、テストデータに十分な事前がある場合には、優れたパフォーマンスが得られ、基礎となるモデルは識別可能である。
同時に、私たちは新たなトレードオフを見つけました。
因果モデルの異なるクラスから生成されたデータセットのトレーニングは、明らかに独立して識別可能であり、テストの一般化を改善する。
同定可能な因果関係モデルの混在による曖昧なケースは(正式にはそれを証明している)起こりそうにないため、パフォーマンスは依然として保証されている。
全体としては, 因果発見は同定可能性理論に従わなければならないが, 仮定の定式化の方法と異なり, ノイズのタイプによる仮定に依存している。
Supervised learning approaches for causal discovery from observational data often achieve competitive performance despite seemingly avoiding explicit assumptions that traditional methods make for identifiability. In this work, we investigate CSIvA (Ke et al., 2023), a transformer-based model promising to train on synthetic data and transfer to real data. First, we bridge the gap with existing identifiability theory and show that constraints on the training data distribution implicitly define a prior on the test observations. Consistent with classical approaches, good performance is achieved when we have a good prior on the test data, and the underlying model is identifiable. At the same time, we find new trade-offs. Training on datasets generated from different classes of causal models, unambiguously identifiable in isolation, improves the test generalization. Performance is still guaranteed, as the ambiguous cases resulting from the mixture of identifiable causal models are unlikely to occur (which we formally prove). Overall, our study finds that amortized causal discovery still needs to obey identifiability theory, but it also differs from classical methods in how the assumptions are formulated, trading more reliance on assumptions on the noise type for fewer hypotheses on the mechanisms. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# OED: ワンステージのエンド・ツー・エンドな動的シーングラフ生成を目指して
OED: Towards One-stage End-to-End Dynamic Scene Graph Generation ( http://arxiv.org/abs/2405.16925v1 ) ライセンス: Link先を確認 | Guan Wang, Zhimin Li, Qingchao Chen, Yang Liu, | (参考訳) ダイナミックシーングラフ生成(DSGG)は、ビデオの空間時間領域内の視覚的関係を特定することに焦点を当てている。
従来のアプローチでは、通常、オブジェクト検出、時間的関連付け、およびマルチリレーショナル分類からなる多段階パイプラインを使用する。
しかし、これらの手法は複数の段階の分離による固有の制限を示し、これらのサブプロブレムの独立な最適化は準最適解をもたらす可能性がある。
これらの制限を緩和するために,DSGGパイプラインの合理化を目的とした,OEDと呼ばれるワンステージのエンドツーエンドフレームワークを提案する。
このフレームワークは、設定された予測問題としてタスクを再構成し、ペアワイズ機能を活用してシーングラフ内の各対象物対を表現する。
さらに、DSGGのもう一つの課題は、時間的依存を捉えることであり、我々は、追加のトラッカーや手作りのトラジェクトリの制約を伴わずに、時間的コンテキストを集約するプログレッシブ・リファインド・モジュール(PRM)を導入し、ネットワークのエンドツーエンドの最適化を可能にする。
Action Genomeベンチマークで行った大規模な実験は、我々の設計の有効性を実証している。
コードとモデルは \url{https://github.com/guanw-pku/OED} で公開されている。
Dynamic Scene Graph Generation (DSGG) focuses on identifying visual relationships within the spatial-temporal domain of videos. Conventional approaches often employ multi-stage pipelines, which typically consist of object detection, temporal association, and multi-relation classification. However, these methods exhibit inherent limitations due to the separation of multiple stages, and independent optimization of these sub-problems may yield sub-optimal solutions. To remedy these limitations, we propose a one-stage end-to-end framework, termed OED, which streamlines the DSGG pipeline. This framework reformulates the task as a set prediction problem and leverages pair-wise features to represent each subject-object pair within the scene graph. Moreover, another challenge of DSGG is capturing temporal dependencies, we introduce a Progressively Refined Module (PRM) for aggregating temporal context without the constraints of additional trackers or handcrafted trajectories, enabling end-to-end optimization of the network. Extensive experiments conducted on the Action Genome benchmark demonstrate the effectiveness of our design. The code and models are available at \url{https://github.com/guanw-pku/OED}. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# カンボジアは世界最大のカシュー生産国?
Is Cambodia the World's Largest Cashew Producer? ( http://arxiv.org/abs/2405.16926v1 ) ライセンス: Link先を確認 | Veasna Chaya, Ate Poortinga, Keo Nimol, Se Sokleap, Mon Sophorn, Phy Chhin, Andrea McMahon, Andrea Puzzi Nicolau, Karis Tenneson, David Saah, | (参考訳) カンボジアの農業の景観は、特にカシューセクターで急速に変化している。
国内最大のカシュー生産国となるという急激な発展と野望にもかかわらず、プランテーション地域に関する包括的なデータや、この拡大による環境への影響は欠落している。
本研究は,カンボジアのカシュープランテーションにおける詳細な土地利用データのギャップを解消し,農業発展の意義を評価するものである。
カンボジア全域で8万以上の訓練ポリゴンを収集し,高精度なカシュープランテーションマッピングのための高分解能光学およびSAR衛星データを用いて,畳み込みニューラルネットワークを訓練した。
その結果,カンボジアは栽培面積で上位5位,世界産カシュー生産では上位3位,高収率で上位3位であった。
重要な耕作地はカンポントム、クラティー、ラタナク・キリ州にある。
環境管理、特に森林保護と急速な農業拡大のバランスをとることが重要である。
カンボジアのカシュー生産は、高収率の木と高級ナッツによって、さらなる成長が見込まれている。
しかし、持続可能な拡大には、農業の実践と経済・環境戦略を統合して、地域価値を高め、森林地帯を保護する必要がある。
高度なマッピング技術は、これらの目的をサポートし、カンボジアのカシュー産業の持続可能な発展を保証する包括的なツールを提供する。
Cambodia's agricultural landscape is rapidly transforming, particularly in the cashew sector. Despite the country's rapid emergence and ambition to become the largest cashew producer, comprehensive data on plantation areas and the environmental impacts of this expansion are lacking. This study addresses the gap in detailed land use data for cashew plantations in Cambodia and assesses the implications of agricultural advancements. We collected over 80,000 training polygons across Cambodia to train a convolutional neural network using high-resolution optical and SAR satellite data for precise cashew plantation mapping. Our findings indicate that Cambodia ranks among the top five in terms of cultivated area and the top three in global cashew production, driven by high yields. Significant cultivated areas are located in Kampong Thom, Kratie, and Ratanak Kiri provinces. Balancing rapid agricultural expansion with environmental stewardship, particularly forest conservation, is crucial. Cambodia's cashew production is poised for further growth, driven by high-yielding trees and premium nuts. However, sustainable expansion requires integrating agricultural practices with economic and environmental strategies to enhance local value and protect forested areas. Advanced mapping technologies offer comprehensive tools to support these objectives and ensure the sustainable development of Cambodia's cashew industry. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# 知識グラフ構築における不確実性管理--調査
Uncertainty Management in the Construction of Knowledge Graphs: a Survey ( http://arxiv.org/abs/2405.16929v1 ) ライセンス: Link先を確認 | Lucas Jarnac, Yoan Chabot, Miguel Couceiro, | (参考訳) 知識グラフ(KG)は、データ表現の柔軟性と多数のアプリケーション、例えば語彙共有、Q/A、レコメンデーションシステムによって、企業にとって重要な資産です。
KGを構築するには、様々な異種情報源から知識を抽出する自動手法に頼るのが一般的である。
しかし、騒々しく不確実な世界では、知識は信頼できないかもしれないし、データソース間の衝突が起こるかもしれない。
信頼できないデータを統合することは、KGの使用に直接影響を与えるため、そのような衝突を解決する必要がある。
これは、統合する最適なデータを選択することで手動で行うことができる。
この最初のアプローチは非常に正確ですが、コストがかかり、時間がかかります。
そのため、近年の取り組みは、KGへの統合を通じて抽出された知識の不確実性を扱う必要があるため、課題となる自動的アプローチに重点を置いている。
我々は、この方向の最先端のアプローチと、オープンかつエンタープライズなKGの構築と、その品質維持方法について調査する。
次に、異なる知識抽出法を記述し、さらなる不確実性を導入する。
また,KG構築における知識の不確実性に対処するために,埋め込みモデルを用いたKG完了,知識アライメント,知識融合など,知識獲得後の下流課題についても論じる。
我々は、不確実性を考慮したKGの構築における課題と視点について、議論を締めくくった。
Knowledge Graphs (KGs) are a major asset for companies thanks to their great flexibility in data representation and their numerous applications, e.g., vocabulary sharing, Q/A or recommendation systems. To build a KG it is a common practice to rely on automatic methods for extracting knowledge from various heterogeneous sources. But in a noisy and uncertain world, knowledge may not be reliable and conflicts between data sources may occur. Integrating unreliable data would directly impact the use of the KG, therefore such conflicts must be resolved. This could be done manually by selecting the best data to integrate. This first approach is highly accurate, but costly and time-consuming. That is why recent efforts focus on automatic approaches, which represents a challenging task since it requires handling the uncertainty of extracted knowledge throughout its integration into the KG. We survey state-of-the-art approaches in this direction and present constructions of both open and enterprise KGs and how their quality is maintained. We then describe different knowledge extraction methods, introducing additional uncertainty. We also discuss downstream tasks after knowledge acquisition, including KG completion using embedding models, knowledge alignment, and knowledge fusion in order to address the problem of knowledge uncertainty in KG construction. We conclude with a discussion on the remaining challenges and perspectives when constructing a KG taking into account uncertainty. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# 障害物から機会へ:合成データによる半教師あり学習の強化
From Obstacle to Opportunity: Enhancing Semi-supervised Learning with Synthetic Data ( http://arxiv.org/abs/2405.16930v1 ) ライセンス: Link先を確認 | Zerun Wang, Jiafeng Mao, Liuyu Xiang, Toshihiko Yamasaki, | (参考訳) 半教師付き学習(SSL)では、ラベルのないデータを使ってモデルの性能を向上させることができる。
近年、ますます強力な生成モデルが利用可能になってきており、多くの合成画像が公開画像にアップロードされている。
したがって、これらの情報源からラベルのないデータを収集する場合、合成画像を含めることは避けられない。
これにより、SSL上でのラベルなしデータと実画像と合成画像が混在する影響を考えることができる。
本稿では,この問題を解決するために,Real and Synthetic hybrid SSL (RS-SSL) という新たなタスクを構築した。
我々は、現在のSSLメソッドが合成データを十分に活用することができず、時に負の影響を受けることを発見した。
そこで,合成画像から生じる問題を解析し,RS-SSL問題に対処する新たなSSL手法 RSMatch を提案する。
RSMatchは、ラベルのない画像の合成データをよりよく利用してSSL性能を向上させることができる。
この効果はアブレーション研究と可視化によってさらに検証される。
Semi-supervised learning (SSL) can utilize unlabeled data to enhance model performance. In recent years, with increasingly powerful generative models becoming available, a large number of synthetic images have been uploaded to public image sets. Therefore, when collecting unlabeled data from these sources, the inclusion of synthetic images is inevitable. This prompts us to consider the impact of unlabeled data mixed with real and synthetic images on SSL. In this paper, we set up a new task, Real and Synthetic hybrid SSL (RS-SSL), to investigate this problem. We discover that current SSL methods are unable to fully utilize synthetic data and are sometimes negatively affected. Then, by analyzing the issues caused by synthetic images, we propose a new SSL method, RSMatch, to tackle the RS-SSL problem. Extensive experimental results show that RSMatch can better utilize the synthetic data in unlabeled images to improve the SSL performance. The effectiveness is further verified through ablation studies and visualization. | 翻訳日:2024-05-28 16:31:14 公開日:2024-05-27 |
# CudaSIFT-SLAM:実人の内視鏡におけるフルプロシージャマッピングのためのマルチマップ視覚SLAM
CudaSIFT-SLAM: multiple-map visual SLAM for full procedure mapping in real human endoscopy ( http://arxiv.org/abs/2405.16932v1 ) ライセンス: Link先を確認 | Richard Elvira, Juan D. Tardós, José M. M. Montiel, | (参考訳) 単一の視覚的同時位置決めとマッピング(V-SLAM)は、現在、モバイルロボティクスや拡張現実では不可能なツールであり、堅牢に機能している。
しかし、人間の大腸内視鏡は、閉塞、ぼかし、光の変化、テクスチャの欠如、変形、水噴流、ツールの相互作用といった深刻な課題を生じさせ、追跡損失が頻繁に発生する。
最上位のマルチマップV-SLAMであるORB-SLAM3は、ORB機能とDBoW2バグ・オブ・ワードに基づく位置認識アルゴリズムの低性能のため、サブマップをマージしたり、カメラを再ローカライズすることで、それらから回復することができない。
CudaSIFT-SLAMは人間の大腸全摘をリアルタイムで処理できる最初のV-SLAMシステムである。
ORB-SLAM3の限界を克服するために、ORB機能の代わりにSIFTを使用し、DBoW2ダイレクトインデックスをより計算的に要求されるブルートフォースマッチングに置き換える。
CudaSIFTは、SIFT抽出とブルートフォースマッチングのためのGPU実装である。
我々は,C3VDファントム結腸データセットとEndomapperデータセットからの完全な実大腸内視鏡を用いて,我々のシステムをベンチマークし,サブマップのマージと再配置の能力を実証し,はるかに長いサブマップを得た。
我々のシステムは,C3VDデータセットのフレームの88%をリアルタイムでマッピングすることに成功した。
実検大腸内視鏡検査では, 閉塞およびぼやけたフレームの出現率が高いにもかかわらず, 慎重に調査した領域では53%, フルシークエンスでは38%, ORB-SLAM3では70%改善した。
Monocular visual simultaneous localization and mapping (V-SLAM) is nowadays an irreplaceable tool in mobile robotics and augmented reality, where it performs robustly. However, human colonoscopies pose formidable challenges like occlusions, blur, light changes, lack of texture, deformation, water jets or tool interaction, which result in very frequent tracking losses. ORB-SLAM3, the top performing multiple-map V-SLAM, is unable to recover from them by merging sub-maps or relocalizing the camera, due to the poor performance of its place recognition algorithm based on ORB features and DBoW2 bag-of-words. We present CudaSIFT-SLAM, the first V-SLAM system able to process complete human colonoscopies in real-time. To overcome the limitations of ORB-SLAM3, we use SIFT instead of ORB features and replace the DBoW2 direct index with the more computationally demanding brute-force matching, being able to successfully match images separated in time for relocation and map merging. Real-time performance is achieved thanks to CudaSIFT, a GPU implementation for SIFT extraction and brute-force matching. We benchmark our system in the C3VD phantom colon dataset, and in a full real colonoscopy from the Endomapper dataset, demonstrating the capabilities to merge sub-maps and relocate in them, obtaining significantly longer sub-maps. Our system successfully maps in real-time 88 % of the frames in the C3VD dataset. In a real screening colonoscopy, despite the much higher prevalence of occluded and blurred frames, the mapping coverage is 53 % in carefully explored areas and 38 % in the full sequence, a 70 % improvement over ORB-SLAM3. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# 自己学習による知識検索インデックス作成のための大規模言語モデルの構築
Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning ( http://arxiv.org/abs/2405.16933v1 ) ライセンス: Link先を確認 | Xun Liang, Simin Niu, Zhiyu li, Sensen Zhang, Shichao Song, Hanyu Wang, Jiawei Yang, Feiyu Xiong, Bo Tang, Chenyang Xi, | (参考訳) Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)にリアルタイム知識を注入するコスト効率の高いアプローチを提供する。
それでも、高品質な知識リポジトリの構築と検証にはかなりの努力が必要である。
Pseudo-Graph Retrieval-Augmented Generation (PG-RAG) という名称の事前検索フレームワークを提案する。
結果として得られた簡潔でよく組織された精神指標は、共通のトピックや補完的な事実を通して相互に関連付けられ、擬似グラフデータベースを形成する。
PG-RAGは、検索フェーズの間、ノートをめくって、事実のパスを特定し、その後関連するコンテキストを探索する人間の行動を模倣する。
多くの人々が採った経路の原則に従うことが最善であり、高度に相関した事実経路を統合し、構造化され洗練された副グラフ補助LSMを提供する。
PG-RAGを3種類の質問応答データセットで検証した。
単一ドキュメントタスクでは、PG-RAGは現在の最高のベースラインであるKGP-LLaMAを、すべての主要な評価指標で大幅に上回り、全体的なパフォーマンスは平均11.6%向上した。
具体的には、BLEUのスコアは約14.3%増加し、QE-F1は23.7%改善した。
複数文書のシナリオでは、PG-RAGの平均値が最良基準値よりも少なくとも2.35%高い。
特に、BLEUのスコアとQE-F1は、それぞれ7.55%と12.75%の安定な改善を示した。
コード:https://github.com/IAAR-Shanghai/PGRAG。
Retrieval-Augmented Generation (RAG) offers a cost-effective approach to injecting real-time knowledge into large language models (LLMs). Nevertheless, constructing and validating high-quality knowledge repositories require considerable effort. We propose a pre-retrieval framework named Pseudo-Graph Retrieval-Augmented Generation (PG-RAG), which conceptualizes LLMs as students by providing them with abundant raw reading materials and encouraging them to engage in autonomous reading to record factual information in their own words. The resulting concise, well-organized mental indices are interconnected through common topics or complementary facts to form a pseudo-graph database. During the retrieval phase, PG-RAG mimics the human behavior in flipping through notes, identifying fact paths and subsequently exploring the related contexts. Adhering to the principle of the path taken by many is the best, it integrates highly corroborated fact paths to provide a structured and refined sub-graph assisting LLMs. We validated PG-RAG on three specialized question-answering datasets. In single-document tasks, PG-RAG significantly outperformed the current best baseline, KGP-LLaMA, across all key evaluation metrics, with an average overall performance improvement of 11.6%. Specifically, its BLEU score increased by approximately 14.3%, and the QE-F1 metric improved by 23.7%. In multi-document scenarios, the average metrics of PG-RAG were at least 2.35% higher than the best baseline. Notably, the BLEU score and QE-F1 metric showed stable improvements of around 7.55% and 12.75%, respectively. Our code: https://github.com/IAAR-Shanghai/PGRAG. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# ヴィジュアル・ランゲージ・トランスフォーマーはヴィジュアル・コモンセンスを排除しているか? : VCRの実証研究
Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR ( http://arxiv.org/abs/2405.16934v1 ) ライセンス: Link先を確認 | Zhenyang Li, Yangyang Guo, Kejie Wang, Xiaolin Chen, Liqiang Nie, Mohan Kankanhalli, | (参考訳) Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。
この目標を達成するためには、予測された答えの理由として許容できる合理的な根拠を提供する必要がある。
ベンチマークデータセットの進歩は、Vision-Language Transformers (VL Transformers)の最近の進歩に大きく影響している。
これらのモデルは、まずいくつかの一般的な大規模視覚テキストデータセット上で事前訓練され、その後、学習された表現は下流のVCRタスクに転送される。
魅力的な性能にもかかわらず、本論文はVLトランスフォーマーが視覚的コモンセンスを示さないことを示唆し、これがVCRの鍵となる。
具体的には、既存のVLトランスフォーマーの欠点をいくつか挙げる:事前学習、予期せぬ言語バイアス、二つの分離不能なサブタスクの限定モデルアーキテクチャ、重要なオブジェクトタグ相関の無視。
これらの結果から,データセット,評価指標,トレーニングトリックといった側面から,今後の方向性を仮に提案する。
この研究は、研究者がVCRの直感と目標を再考し、視覚的推論における残りの課題に取り組むのに役立つと信じています。
Visual Commonsense Reasoning (VCR) calls for explanatory reasoning behind question answering over visual scenes. To achieve this goal, a model is required to provide an acceptable rationale as the reason for the predicted answers. Progress on the benchmark dataset stems largely from the recent advancement of Vision-Language Transformers (VL Transformers). These models are first pre-trained on some generic large-scale vision-text datasets, and then the learned representations are transferred to the downstream VCR task. Despite their attractive performance, this paper posits that the VL Transformers do not exhibit visual commonsense, which is the key to VCR. In particular, our empirical results pinpoint several shortcomings of existing VL Transformers: small gains from pre-training, unexpected language bias, limited model architecture for the two inseparable sub-tasks, and neglect of the important object-tag correlation. With these findings, we tentatively suggest some future directions from the aspect of dataset, evaluation metric, and training tricks. We believe this work could make researchers revisit the intuition and goals of VCR, and thus help tackle the remaining challenges in visual reasoning. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# 顔認識と偽造防止モデルにおける敵対的攻撃
Adversarial Attacks on Both Face Recognition and Face Anti-spoofing Models ( http://arxiv.org/abs/2405.16940v1 ) ライセンス: Link先を確認 | Fengfan Zhou, Qianyu Zhou, Xiangtai Li, Xuequan Lu, Lizhuang Ma, Hefei Ling, | (参考訳) Face Anti-Spoofing (FAS) モデルが組み込まれており、それらの多くを検出できるため、完全なFRシステムでは敵の攻撃は効果が低いことが証明されている。
そこで本研究では,FR と FAS モデルの両方を同時に攻撃する新たな手法を提案し,FR システムに対する敵攻撃の実践性を高めることを目的とする。
特に、我々は、FRモデルとFASモデルの両方に対するブラックボックス攻撃のキャパシティを改善するために、スタイル整列分散バイアス(SDB)と呼ばれる新しいアタック手法を導入する。
具体的には、SDBフレームワークは3つの重要なコンポーネントで構成されています。
まず,FASモデルの転送性を高めるために,スコアを用いたスプーフ画像の分布から,対向顔例を最適化する分散対応スコアバイアスモジュールを設計する。
次に, 実写画像と, スプーフ画像に初期化される敵画像との実質的なスタイルの違いを軽減するために, 実写画像と敵対画像のスタイルを整列するインスタンススタイルアライメントモジュールを導入する。
さらに、FRモデルとFASモデルの勾配の衝突を軽減するため、ヘッセン近似を用いて勾配間の格差を最小限に抑えるための勾配整合性維持モジュールを提案する。
大規模実験により,提案手法の対人攻撃に対する優位性を実証した。
Adversarial attacks on Face Recognition (FR) systems have proven highly effective in compromising pure FR models, yet adversarial examples may be ineffective to the complete FR systems as Face Anti-Spoofing (FAS) models are often incorporated and can detect a significant number of them. To address this under-explored and essential problem, we propose a novel setting of adversarially attacking both FR and FAS models simultaneously, aiming to enhance the practicability of adversarial attacks on FR systems. In particular, we introduce a new attack method, namely Style-aligned Distribution Biasing (SDB), to improve the capacity of black-box attacks on both FR and FAS models. Specifically, our SDB framework consists of three key components. Firstly, to enhance the transferability of FAS models, we design a Distribution-aware Score Biasing module to optimize adversarial face examples away from the distribution of spoof images utilizing scores. Secondly, to mitigate the substantial style differences between live images and adversarial examples initialized with spoof images, we introduce an Instance Style Alignment module that aligns the style of adversarial examples with live images. In addition, to alleviate the conflicts between the gradients of FR and FAS models, we propose a Gradient Consistency Maintenance module to minimize disparities between the gradients using Hessian approximation. Extensive experiments showcase the superiority of our proposed attack method to state-of-the-art adversarial attacks. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# PASTA : 拡散モデルを用いたPETクロスモーダル翻訳のための病理MRI
PASTA: Pathology-Aware MRI to PET Cross-Modal Translation with Diffusion Models ( http://arxiv.org/abs/2405.16942v1 ) ライセンス: Link先を確認 | Yitong Li, Igor Yakushev, Dennis M. Hedderich, Christian Wachinger, | (参考訳) ポジトロン・エミッション・トモグラフィ(PET)は、脳疾患の診断のための、確立された機能的イメージング技術である。
しかし、PETの高コストと放射線曝露は広く使用されることを制限している。
対照的に、MRI(MRI)にはこれらの制限がない。
神経変性の変化も捉えるが、MRIはPETよりも感度の低い診断ツールである。
このギャップを埋めるために、MRIから合成PETを生成することを目的としている。
本稿では,条件付き拡散モデルに基づく新しい画像翻訳フレームワークであるPASTAを紹介する。
最先端の手法と比較して、PASTAは、高度にインタラクティブなデュアルアームアーキテクチャとマルチモーダル条件の統合によって達成される、ターゲットモダリティにおける構造的および病理的詳細の保存に長けている。
サイクル交換一貫性とボリューム生成戦略は、高品質な3DPETスキャンを生成するPASTAの能力を高める。
PASTA から合成したPET スキャンが最高の定量値に到達しただけでなく,病理検査の精度も良好に保たれた。
アルツハイマー分類では、合成スキャンの性能はMRIよりも4%向上し、実際のPETの性能にほぼ達する。
コードはhttps://github.com/ai-med/PASTA.comで入手できる。
Positron emission tomography (PET) is a well-established functional imaging technique for diagnosing brain disorders. However, PET's high costs and radiation exposure limit its widespread use. In contrast, magnetic resonance imaging (MRI) does not have these limitations. Although it also captures neurodegenerative changes, MRI is a less sensitive diagnostic tool than PET. To close this gap, we aim to generate synthetic PET from MRI. Herewith, we introduce PASTA, a novel pathology-aware image translation framework based on conditional diffusion models. Compared to the state-of-the-art methods, PASTA excels in preserving both structural and pathological details in the target modality, which is achieved through its highly interactive dual-arm architecture and multi-modal condition integration. A cycle exchange consistency and volumetric generation strategy elevate PASTA's capability to produce high-quality 3D PET scans. Our qualitative and quantitative results confirm that the synthesized PET scans from PASTA not only reach the best quantitative scores but also preserve the pathology correctly. For Alzheimer's classification, the performance of synthesized scans improves over MRI by 4%, almost reaching the performance of actual PET. Code is available at https://github.com/ai-med/PASTA. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# シミュレーションゲーム界における深部強化学習と生体ニューロンのサンプル効率
Biological Neurons Compete with Deep Reinforcement Learning in Sample Efficiency in a Simulated Gameworld ( http://arxiv.org/abs/2405.16946v1 ) ライセンス: Link先を確認 | Moein Khajehnejad, Forough Habibollahi, Aswin Paul, Adeel Razi, Brett J. Kagan, | (参考訳) 生物学的システムと機械学習アルゴリズムは、タスク完了の大幅な改善を示すために必要なサンプルの数を比較するにはどうすればよいか?
我々は,in vitro生物ニューラルネットワークの学習効率と最先端の深部強化学習(RL)アルゴリズムを比較し,ゲーム「ポン」の簡易シミュレーションを行った。
DishBrainは、高密度のマルチ電極アレイを用いてin vitroニューラルネットワークをシリコ計算で具現化するシステムで、同じゲーム環境における3つの最先端深部RLアルゴリズム(DQN、A2C、PPO)の学習速度と性能を比較検討した。
これにより、生物学的神経系と深部RLとの有意義な比較が可能となった。
サンプルが実世界の時間コースに限られている場合、これらの非常に単純な生物学的文化でさえ、様々なゲーム性能特性の深いRLアルゴリズムよりも優れており、試料効率が高いことが示唆されている。
最終的に、高次元データ入力の影響を評価するために複数の種類の情報入力をテストしても、生物学的ニューロンは、すべての深層強化学習エージェントよりも速く学習することを示した。
How do biological systems and machine learning algorithms compare in the number of samples required to show significant improvements in completing a task? We compared the learning efficiency of in vitro biological neural networks to the state-of-the-art deep reinforcement learning (RL) algorithms in a simplified simulation of the game `Pong'. Using DishBrain, a system that embodies in vitro neural networks with in silico computation using a high-density multi-electrode array, we contrasted the learning rate and the performance of these biological systems against time-matched learning from three state-of-the-art deep RL algorithms (i.e., DQN, A2C, and PPO) in the same game environment. This allowed a meaningful comparison between biological neural systems and deep RL. We find that when samples are limited to a real-world time course, even these very simple biological cultures outperformed deep RL algorithms across various game performance characteristics, implying a higher sample efficiency. Ultimately, even when tested across multiple types of information input to assess the impact of higher dimensional data input, biological neurons showcased faster learning than all deep reinforcement learning agents. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# 事前学習拡散モデルに基づくゼロショット映像セマンティックセマンティックセグメンテーション
Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models ( http://arxiv.org/abs/2405.16947v1 ) ライセンス: Link先を確認 | Qian Wang, Abdelrahman Eldesokey, Mohit Mendiratta, Fangneng Zhan, Adam Kortylewski, Christian Theobalt, Peter Wonka, | (参考訳) 本稿では,事前学習した拡散モデルに基づくビデオセマンティックセグメンテーション(VSS)の最初のゼロショット手法を提案する。
増大する研究方向は、画像意味論の深い理解を利用して下流の視覚タスクを実行するために拡散モデルを用いている。
しかし、これらのアプローチの大半はセマンティック対応やセグメンテーションのような画像関連タスクに重点を置いており、VSSのようなビデオタスクにはあまり重点を置いていない。
理想的には、拡散に基づく画像セマンティックセグメンテーションアプローチは、フレーム単位でビデオに適用できる。
しかし、ビデオデータに固有の時間情報のモデリングがないため、ビデオ上でのパフォーマンスが低いことが判明した。
そこで本研究では,この課題に対処し,事前学習画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
本稿では,シーン変化に対応するために自動回帰更新を行う拡散特徴に基づくシーンコンテキストモデルの構築を提案する。
このコンテキストモデルは、時間的に一貫したフレームごとの粗いセグメンテーションマップを予測する。
そこで本研究では,これらの地図をさらに改良するために,時間的に予測を集約し,より確実な予測をもたらす対応型改良戦略を提案する。
最後に,粗い地図を高精細度に高精細化するためのマスク変調手法を提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセマンティック・アプローチを,トレーニングや微調整を伴わずに,様々なVSSベンチマークで大幅に向上することが示された。
さらに、VSSで明示的にトレーニングされていないにもかかわらず、VSPWデータセット上のVSSアプローチを監督している。
We introduce the first zero-shot approach for Video Semantic Segmentation (VSS) based on pre-trained diffusion models. A growing research direction attempts to employ diffusion models to perform downstream vision tasks by exploiting their deep understanding of image semantics. Yet, the majority of these approaches have focused on image-related tasks like semantic correspondence and segmentation, with less emphasis on video tasks such as VSS. Ideally, diffusion-based image semantic segmentation approaches can be applied to videos in a frame-by-frame manner. However, we find their performance on videos to be subpar due to the absence of any modeling of temporal information inherent in the video data. To this end, we tackle this problem and introduce a framework tailored for VSS based on pre-trained image and video diffusion models. We propose building a scene context model based on the diffusion features, where the model is autoregressively updated to adapt to scene changes. This context model predicts per-frame coarse segmentation maps that are temporally consistent. To refine these maps further, we propose a correspondence-based refinement strategy that aggregates predictions temporally, resulting in more confident predictions. Finally, we introduce a masked modulation approach to upsample the coarse maps to the full resolution at a high quality. Experiments show that our proposed approach outperforms existing zero-shot image semantic segmentation approaches significantly on various VSS benchmarks without any training or fine-tuning. Moreover, it rivals supervised VSS approaches on the VSPW dataset despite not being explicitly trained for VSS. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# 強化学習とスタイナーツリーを用いた高速ML駆動アナログ回路レイアウト
Fast ML-driven Analog Circuit Layout using Reinforcement Learning and Steiner Trees ( http://arxiv.org/abs/2405.16951v1 ) ライセンス: Link先を確認 | Davide Basso, Luca Bortolussi, Mirjana Videnovic-Misic, Husni Habal, | (参考訳) 本稿では,アナログICのレイアウトフェーズにおいてしばしば発生するボトルネックを軽減するために,人工知能による手法を提案する。
フロアプランニング問題をマルコフ決定プロセスとして構成し、確立したトポロジカル制約の下での自動配置生成のための強化学習を活用する。
その結果,大域的なルーティングステップのためのSteinerツリーベースの手法を導入し,各回路ブロックを接続するためのガイドパスを生成する。
最後に、これらのソリューションを手続き生成フレームワークに統合することにより、回路設計と検証ステップの分割を橋渡しする統一パイプラインを提案する。
実験の結果、完全なレイアウトの生成の有効性を示し、最終的には手作業と比較してランタイムを1.5%に削減した。
This paper presents an artificial intelligence driven methodology to reduce the bottleneck often encountered in the analog ICs layout phase. We frame the floorplanning problem as a Markov Decision Process and leverage reinforcement learning for automatic placement generation under established topological constraints. Consequently, we introduce Steiner tree-based methods for the global routing step and generate guiding paths to be used to connect every circuit block. Finally, by integrating these solutions into a procedural generation framework, we present a unified pipeline that bridges the divide between circuit design and verification steps. Experimental results demonstrate the efficacy in generating complete layouts, eventually reducing runtimes to 1.5% compared to manual efforts. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# 埋込みシステムにおける資源効率の高いクレーター検出器の評価
Evaluation of Resource-Efficient Crater Detectors on Embedded Systems ( http://arxiv.org/abs/2405.16953v1 ) ライセンス: Link先を確認 | Simon Vellas, Bill Psomas, Kalliopi Karadima, Dimitrios Danopoulos, Alexandros Paterakis, George Lentaris, Dimitrios Soudris, Konstantinos Karantzalos, | (参考訳) 火星のクレーターのリアルタイム分析は、安全な着陸や地質探査を含むミッションクリティカルな活動に不可欠である。
この研究は、宇宙船上のクレーター検出に最新のブレークスルーを活用している。
我々は、マーズクレーターデータセットを用いて複数のYOLOネットワークを厳格にベンチマークし、低消費電力デバイスの最適化に焦点をあてて、組込みシステムの性能を分析した。
我々はこのプロセスを、コスト効率の良い商用オフ・ザ・シェルフベースの小型衛星の新しい波に最適化する。
Google Coral Edge TPU、AMD Versal SoC VCK190、Nvidia Jetson Nano、Jetson AGX Orinなど、さまざまなプラットフォーム上で実装されている。
本研究は, 最適なネットワークデバイスペアリング, 資源制約ハードウェア上でのクレーター検出の実現可能性の向上, および高効率でレジリエンスな地球外イメージングの新たな先例を定めている。
コードネームはhttps://github.com/billpsomas/mars_crater_detection。
Real-time analysis of Martian craters is crucial for mission-critical operations, including safe landings and geological exploration. This work leverages the latest breakthroughs for on-the-edge crater detection aboard spacecraft. We rigorously benchmark several YOLO networks using a Mars craters dataset, analyzing their performance on embedded systems with a focus on optimization for low-power devices. We optimize this process for a new wave of cost-effective, commercial-off-the-shelf-based smaller satellites. Implementations on diverse platforms, including Google Coral Edge TPU, AMD Versal SoC VCK190, Nvidia Jetson Nano and Jetson AGX Orin, undergo a detailed trade-off analysis. Our findings identify optimal network-device pairings, enhancing the feasibility of crater detection on resource-constrained hardware and setting a new precedent for efficient and resilient extraterrestrial imaging. Code at: https://github.com/billpsomas/mars_crater_detection. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# 非凸領域における運動量を伴うSGDの収束:新しい時間窓解析
Convergence of SGD with momentum in the nonconvex case: A novel time window-based analysis ( http://arxiv.org/abs/2405.16954v1 ) ライセンス: Link先を確認 | Junwen Qiu, Bohao Ma, Andre Milzarek, | (参考訳) 非凸条件下での運動量を伴う確率勾配降下法(SGDM)の収束挙動を解析するための時間窓解析手法を提案する。
その人気にもかかわらず、SGDMの収束挙動は、非凸シナリオでは理解されていない。
これは主に、十分な降下特性が欠如していることと、確率的誤差をほぼ確実な意味で制御することの難しさが原因である。
これらの課題に対処するために、従来の分析のように連続的な反復音の降下を調べるのではなく、特定の時間窓上でのSGDMの挙動について検討する。
この時間窓ベースのアプローチは収束解析を単純化し、カルディカ・ロジャシエヴィチ(KL)特性の下でSGDMに対する最初の反復収束結果を確立することができる。
基礎となるKL指数と利用ステップサイズスキームに基づいて、SGDMの局所収束率をさらに特徴付ける。
We propose a novel time window-based analysis technique to investigate the convergence behavior of the stochastic gradient descent method with momentum (SGDM) in nonconvex settings. Despite its popularity, the convergence behavior of SGDM remains less understood in nonconvex scenarios. This is primarily due to the absence of a sufficient descent property and challenges in controlling stochastic errors in an almost sure sense. To address these challenges, we study the behavior of SGDM over specific time windows, rather than examining the descent of consecutive iterates as in traditional analyses. This time window-based approach simplifies the convergence analysis and enables us to establish the first iterate convergence result for SGDM under the Kurdyka-Lojasiewicz (KL) property. Based on the underlying KL exponent and the utilized step size scheme, we further characterize local convergence rates of SGDM. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# 科学計算パイプライン統合のためのPythonの機能プログラミングパラダイム
Functional Programming Paradigm of Python for Scientific Computation Pipeline Integration ( http://arxiv.org/abs/2405.16956v1 ) ライセンス: Link先を確認 | Chen Zhang, Lecheng Jia, Wei Zhang, Ning Wen, | (参考訳) 現代のデータ処理の出現は、異なる技術アプローチの輸入を伴う学際性への傾向を増している。
したがって、様々なライブラリの統合を容易にするために、統合されたデータ制御システムが必要である。
この統合は、プロトタイプ検証の高速化、アルゴリズム性能の最適化、メンテナンスコストの最小化において重要な意味を持つ。
本稿では,異なるデータマッピング操作のパイプラインの統合を目的とした,Pythonアーキテクチャとプログラミング実践における関連スイートに基づく,新しい関数型プログラミング(FP)パラダイムを提案する。
特に、このソリューションは、上記の課題に対して堅牢で柔軟なソリューションを提供する科学計算フローの統合を目的としている。
The advent of modern data processing has led to an increasing tendency towards interdisciplinarity, which frequently involves the importation of different technical approaches. Consequently, there is an urgent need for a unified data control system to facilitate the integration of varying libraries. This integration is of profound significance in accelerating prototype verification, optimising algorithm performance and minimising maintenance costs. This paper presents a novel functional programming (FP) paradigm based on the Python architecture and associated suites in programming practice, designed for the integration of pipelines of different data mapping operations. In particular, the solution is intended for the integration of scientific computation flows, which affords a robust yet flexible solution for the aforementioned challenges. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# ReLU活性化を伴うガウスニューラルネットの大規模偏差
Large Deviations of Gaussian Neural Networks with ReLU activation ( http://arxiv.org/abs/2405.16958v1 ) ライセンス: Link先を確認 | Quirin Vogel, | (参考訳) 我々は、ガウス重みと(最も線形に成長する)活性化関数を持つディープニューラルネットワークに対して、大きな偏差原理を証明した。
これは、有界かつ連続な活性化関数が考慮された初期の研究を一般化する。
実際には、ReLUのような線形に増加する活性化関数が最も一般的に用いられる。
さらに、ReLUの場合、レート関数の以前の式と電源列拡張を単純化する。
We prove a large deviation principle for deep neural networks with Gaussian weights and (at most linearly growing) activation functions. This generalises earlier work, in which bounded and continuous activation functions were considered. In practice, linearly growing activation functions such as ReLU are most commonly used. We furthermore simplify previous expressions for the rate function and a give power-series expansions for the ReLU case. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# 対数正規化機能によるアルツハイマー病の手書き動作の機械学習による解析
A Machine Learning Approach to Analyze the Effects of Alzheimer's Disease on Handwriting through Lognormal Features ( http://arxiv.org/abs/2405.16959v1 ) ライセンス: Link先を確認 | Tiziana D'Alessandro, Cristina Carmona-Duarte, Claudio De Stefano, Moises Diaz, Miguel A. Ferrer, Francesco Fontanella, | (参考訳) アルツハイマー病は神経変性疾患の中でも最も切迫した疾患の1つであり、認知能力の低下が進行し、最悪の場合、日常生活に干渉するほど重篤になる。
現在, 治療法は存在せず, 早期診断が必要である。
手書き解析は、アルツハイマー病を含む特定の神経疾患を検出し、理解するための潜在的なツールと考えられている。
手書き解析だけではアルツハイマー病の確定診断は得られないが、いくつかの洞察を与え、総合的な評価に使用することができる。
Sigma-lognormalモデルは運動解析のために考案され、手書きにも適用できる。
このモデルは、新しい特徴と重要な特徴の計算の基盤となる、対数正規パラメータのセットを出力として返す。
本稿では,Sigma-lognormalモデルから抽出した手書き機能に機械学習を適用した手法を提案する。
本研究の目的は、アルツハイマーの診断と研究を支援する支援システムを開発し、抽出した特徴の有効性を評価し、最終的にそれらの関係を研究することである。
Alzheimer's disease is one of the most incisive illnesses among the neurodegenerative ones, and it causes a progressive decline in cognitive abilities that, in the worst cases, becomes severe enough to interfere with daily life. Currently, there is no cure, so an early diagnosis is strongly needed to try and slow its progression through medical treatments. Handwriting analysis is considered a potential tool for detecting and understanding certain neurological conditions, including Alzheimer's disease. While handwriting analysis alone cannot provide a definitive diagnosis of Alzheimer's, it may offer some insights and be used for a comprehensive assessment. The Sigma-lognormal model is conceived for movement analysis and can also be applied to handwriting. This model returns a set of lognormal parameters as output, which forms the basis for the computation of novel and significant features. This paper presents a machine learning approach applied to handwriting features extracted through the sigma-lognormal model. The aim is to develop a support system to help doctors in the diagnosis and study of Alzheimer, evaluate the effectiveness of the extracted features and finally study the relation among them. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# DCPI-Depth: 教師なし単眼深度推定に先立って強調した高密度対応
DCPI-Depth: Explicitly Infusing Dense Correspondence Prior to Unsupervised Monocular Depth Estimation ( http://arxiv.org/abs/2405.16960v1 ) ライセンス: Link先を確認 | Mengtan Zhang, Yi Feng, Qijun Chen, Rui Fan, | (参考訳) 教師なしの方法でモノクロビデオから奥行きを知覚する学習への関心が高まっている。
この分野での重要な課題は、特に弱いテクスチャを持つ領域や動的オブジェクトが存在する領域において、挑戦的なシナリオにおいて、堅牢で正確な深さ推定を達成することである。
この研究は、既存のフレームワークに明示的な幾何学的制約を与えるために、事前に密接な対応を深く掘り下げることによって、3つの大きな貢献をする。
第1の新規性は文脈幾何学的深度整合性損失であり、推定エゴモーションに基づく密接な対応から三角した深度マップを用いて、文脈情報から深度知覚の学習を誘導する。
第二の新規性は、光学流の発散と深度勾配の間に明らかで導出可能な関係が存在するという観察から生じる。
したがって、差分特性相関損失は、局所的な変動に特に重点を置いた深度推定を洗練させるように設計されている。
第3の新規性は双方向ストリーム協調調整戦略であり、剛性と光学的流れの相互作用を強化し、前者がより正確な対応を奨励し、後者が静的シーン仮説の下で様々なシナリオに適応できるようにする。
DCPI-Depthは、これらすべての革新的なコンポーネントを組み込んだフレームワークで、2つの双方向および協調的なストリームを結合する。
具体的には、テクスチャレスおよび動的領域における正確な深さ推定を示し、より合理的な滑らかさを示す。
There has been a recent surge of interest in learning to perceive depth from monocular videos in an unsupervised fashion. A key challenge in this field is achieving robust and accurate depth estimation in challenging scenarios, particularly in regions with weak textures or where dynamic objects are present. This study makes three major contributions by delving deeply into dense correspondence priors to provide existing frameworks with explicit geometric constraints. The first novelty is a contextual-geometric depth consistency loss, which employs depth maps triangulated from dense correspondences based on estimated ego-motion to guide the learning of depth perception from contextual information, since explicitly triangulated depth maps capture accurate relative distances among pixels. The second novelty arises from the observation that there exists an explicit, deducible relationship between optical flow divergence and depth gradient. A differential property correlation loss is, therefore, designed to refine depth estimation with a specific emphasis on local variations. The third novelty is a bidirectional stream co-adjustment strategy that enhances the interaction between rigid and optical flows, encouraging the former towards more accurate correspondence and making the latter more adaptable across various scenarios under the static scene hypotheses. DCPI-Depth, a framework that incorporates all these innovative components and couples two bidirectional and collaborative streams, achieves state-of-the-art performance and generalizability across multiple public datasets, outperforming all existing prior arts. Specifically, it demonstrates accurate depth estimation in texture-less and dynamic regions, and shows more reasonable smoothness. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# 手術時ステガナシスにおける共変量シフトへのブラインドデータ適応
Blind Data Adaptation to tackle Covariate Shift in Operational Steganalysis ( http://arxiv.org/abs/2405.16961v1 ) ライセンス: Link先を確認 | Rony Abecidan, Vincent Itier, Jérémie Boulanger, Patrick Bas, Tomáš Pevný, | (参考訳) 非倫理的な目的のための画像操作の拡散は、ソーシャルネットワークにおいて大きな課題となっている。
画像ステガノグラフィー(Image Steganography)は、個人が疑念を喚起することなく、デジタル画像に違法な情報を隠せるようにする手法である。
このような技術は、重大なセキュリティリスクを生じさせ、秘密の通信のために操作された画像を検出することができる効果的なステガナリシス法を開発することが重要である。
機械学習モデルで顕著な進歩が達成されているが、重要な問題は、ステガナリシスモデルのトレーニングに使用される制御データセットと、法医学者の現実のデータセットとの相違であり、標準化されたステガナリシスモデルの実用性を著しく損なうことである。
本稿では,対象とする画像の限られたセットに関する重要な情報がない現実的なシナリオに焦点をあてる。
ソースとターゲット残差の幾何的アライメントと分布マッチングを活用することで、ステガナリシスにおける特定のターゲットと整合したソースをエミュレートする新しい手法であるTAD(Target Alignment through Data Adaptation)を開発した。
エミュレータは、画像残像の分布を整列するように訓練された光畳み込みネットワークによって表現される。
ステガナシスの共変量変化と戦う従来の方法に対する我々の戦略の可能性を実験的に検証した。
The proliferation of image manipulation for unethical purposes poses significant challenges in social networks. One particularly concerning method is Image Steganography, allowing individuals to hide illegal information in digital images without arousing suspicions. Such a technique pose severe security risks, making it crucial to develop effective steganalysis methods enabling to detect manipulated images for clandestine communications. Although significant advancements have been achieved with machine learning models, a critical issue remains: the disparity between the controlled datasets used to train steganalysis models against real-world datasets of forensic practitioners, undermining severely the practical effectiveness of standardized steganalysis models. In this paper, we address this issue focusing on a realistic scenario where practitioners lack crucial information about the limited target set of images under analysis, including details about their development process and even whereas it contains manipulated images or not. By leveraging geometric alignment and distribution matching of source and target residuals, we develop TADA (Target Alignment through Data Adaptation), a novel methodology enabling to emulate sources aligned with specific targets in steganalysis, which is also relevant for highly unbalanced targets. The emulator is represented by a light convolutional network trained to align distributions of image residuals. Experimental validation demonstrates the potential of our strategy over traditional methods fighting covariate shift in steganalysis. | 翻訳日:2024-05-28 16:21:29 公開日:2024-05-27 |
# 線形表現による認知から表現へのLLM旅の探索
Exploring the LLM Journey from Cognition to Expression with Linear Representations ( http://arxiv.org/abs/2405.16964v1 ) ライセンス: Link先を確認 | Yuzi Yan, Jialian Li, Yipin Zhang, Dong Yan, | (参考訳) 本稿では,多言語モデル(LLM)における認知的・表現的能力の進化と相互作用について,バイチュアン7Bとバイチュアン33Bに着目して詳細に検討する。
モデルの認知的・表現的能力は,事前学習,監視ファインチューニング(SFT),人間フィードバックからの強化学習(RLHF)の3つの重要なフェーズにまたがる線形表現を通して定義し,検討する。
認知能力は、人間の認知における神経信号処理と同様、ネットワーク内のニューロン出力ベクトルによって伝達される情報の量と品質として定義される。
表現能力は、単語レベルの出力を生成するモデルの能力として定義される。
SFT, RLHFでは, 認知能力が発達する傾向がみられ, 認知能力が発達する傾向がみられた。
統計的分析は2つの能力の間に有意な相関があることを確認し、認知能力が表現力を制限する可能性があることを示唆している。
また,これらの分岐発達軌跡の理論的基盤とLLMの建築設計との関係についても検討した。
さらに,認識能力と表現能力のギャップを埋める,少数ショット学習や繰り返しサンプリングなど,最適化に依存しない様々な戦略を評価する。
この研究は、隠れた空間と出力空間の間の潜在的なつながりを明らかにし、それらのトレーニングプロセスの解釈可能性と制御可能性に関する貴重な洞察に寄与する。
This paper presents an in-depth examination of the evolution and interplay of cognitive and expressive capabilities in large language models (LLMs), with a specific focus on Baichuan-7B and Baichuan-33B, an advanced bilingual (Chinese and English) LLM series. We define and explore the model's cognitive and expressive capabilities through linear representations across three critical phases: Pretraining, Supervised Fine-Tuning (SFT), and Reinforcement Learning from Human Feedback (RLHF). Cognitive capability is defined as the quantity and quality of information conveyed by the neuron output vectors within the network, similar to the neural signal processing in human cognition. Expressive capability is defined as the model's capability to produce word-level output. Our findings unveil a sequential development pattern, where cognitive abilities are largely established during Pretraining, whereas expressive abilities predominantly advance during SFT and RLHF. Statistical analyses confirm a significant correlation between the two capabilities, suggesting that cognitive capacity may limit expressive potential. The paper also explores the theoretical underpinnings of these divergent developmental trajectories and their connection to the LLMs' architectural design. Moreover, we evaluate various optimization-independent strategies, such as few-shot learning and repeated sampling, which bridge the gap between cognitive and expressive capabilities. This research reveals the potential connection between the hidden space and the output space, contributing valuable insights into the interpretability and controllability of their training processes. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# 任意不均一データのための2遅延非同期SGD
Dual-Delayed Asynchronous SGD for Arbitrarily Heterogeneous Data ( http://arxiv.org/abs/2405.16966v1 ) ライセンス: Link先を確認 | Xiaolu Wang, Yuchang Sun, Hoi-To Wai, Jun Zhang, | (参考訳) 我々は、中央サーバのオーケストレーションの下で、複数のワーカに分散したデータによる分散学習問題を考察する。
Asynchronous Stochastic Gradient Descent (SGD) は並列化に伴う同期オーバーヘッドを低減するために広く研究されている。
しかし、非同期SGDアルゴリズムの性能は、労働者の局所データ間の有界な相似性条件に依存することが多い。
この制限を克服するために、データ不均一性の悪影響を和らげるために設計された、textit{dual-delayed asynchronous SGD (DuDe-ASGD)}アルゴリズムを導入する。
DuDe-ASGDは非同期トレーニング中にすべてのワーカーから静的勾配をフルに利用し、モデルパラメータとサーバのイテレーションで使用されるデータサンプルに2つの異なる時間ラグをもたらす。
さらに、インクリメンタルアグリゲーション戦略を採用することで、DuDe-ASGDは従来の非同期SGDアルゴリズムと同等のイテレーション毎の計算コストを維持できる。
本分析により,DuDe-ASGDは,作業者間のデータが極めて不均一であっても,スムーズな非凸問題に対して,最小限の収束率が得られることを示した。
数値実験により、DuDe-ASGDは既存の非同期および同期SGDベースのアルゴリズムと良好に比較できることが示された。
We consider the distributed learning problem with data dispersed across multiple workers under the orchestration of a central server. Asynchronous Stochastic Gradient Descent (SGD) has been widely explored in such a setting to reduce the synchronization overhead associated with parallelization. However, the performance of asynchronous SGD algorithms often depends on a bounded dissimilarity condition among the workers' local data, a condition that can drastically affect their efficiency when the workers' data are highly heterogeneous. To overcome this limitation, we introduce the \textit{dual-delayed asynchronous SGD (DuDe-ASGD)} algorithm designed to neutralize the adverse effects of data heterogeneity. DuDe-ASGD makes full use of stale stochastic gradients from all workers during asynchronous training, leading to two distinct time lags in the model parameters and data samples utilized in the server's iterations. Furthermore, by adopting an incremental aggregation strategy, DuDe-ASGD maintains a per-iteration computational cost that is on par with traditional asynchronous SGD algorithms. Our analysis demonstrates that DuDe-ASGD achieves a near-minimax-optimal convergence rate for smooth nonconvex problems, even when the data across workers are extremely heterogeneous. Numerical experiments indicate that DuDe-ASGD compares favorably with existing asynchronous and synchronous SGD-based algorithms. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# 想像時間に移動する量子粒子のイマジナリーパス
Imaginary past of a quantum particle moving on imaginary time ( http://arxiv.org/abs/2405.16967v1 ) ライセンス: Link先を確認 | Anton Uranga, Elena Akhmatskaya, Dmitri Sokolovski, | (参考訳) 古典的な運動方程式の複素時間への解析的連続性は、トンネル粒子が虚時間$i|\mathcal T|$の障壁に費やすことを示唆している。
これは、トンネルに有限時間かかることを意味しているのか、それともトンネルを瞬間的な過程と見なすべきなのか?
小さな交流場における断熱極限の検証は、障壁を横切るのに要する時間として$|\mathcal T|$を指すことが知られている。
しかし、この話は半分に過ぎない。
送信された粒子の歴史を探索し、通過時間が0に近いかのように、磁場の過去の振る舞いを「記憶」する。
その後の矛盾は、質問が不適切であることを示唆し、その理由を説明します。
The analytical continuation of classical equations of motion to complex times suggests that a tunnelling particle spends in the barrier an imaginary duration $i|\mathcal T|$. Does this mean that it takes a finite time to tunnel, or should tunnelling be seen as an instantaneous process? It is well known that examination of the adiabatic limit in a small additional AC field points towards $|\mathcal T|$ being the time it takes to traverse the barrier. However, this is only half the story. We probe the transmitted particle's history, and find that it "remembers" very little of the field's past behaviour, as if the transit time were close to zero. The ensuing contradiction suggests that the question is ill-posed, and we explain why. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# 翻訳品質測定のマルチランジ理論:MQMスコアリングモデルと統計的品質制御
The Multi-Range Theory of Translation Quality Measurement: MQM scoring models and Statistical Quality Control ( http://arxiv.org/abs/2405.16969v1 ) ライセンス: Link先を確認 | Arle Lommel, Serge Gladkoff, Alan Melby, Sue Ellen Wright, Ingemar Strandvik, Katerina Gasova, Angelika Vaasa, Andy Benzo, Romina Marazzato Sparano, Monica Faresi, Johani Innis, Lifeng Han, Goran Nenadic, | (参考訳) 2024年は、分析翻訳品質評価のためのMultidimensional Quality Metrics(MQM)フレームワークの10周年である。
MQMエラー型は翻訳とローカライゼーション産業の実践者によって広く使われ、多くの派生プロジェクトの基盤となっている。
毎年開催される機械翻訳会議(WMT)は、MQMエラータイプロジを用いた人的および自動翻訳品質評価のタスクを共有した。
計量は2つの柱の上にあり、エラーのタイプロジーとスコアリングモデルである。
スコアリングモデルは、アノテーションデータから品質スコアを算出し、エラータイプと重大度数を数値スコアに変換して、コンテンツが仕様を満たしているかどうかを判断する。
以前は、生のスコアリングモデルのみが発表されていた。
今年4月、MQM評議会はリニア・キャリブレーション・スコーリング・モデル(Linear Calibrated Scoring Model)を発表し、非線形・スコーリング・モデル(Non-Linear Scoring Model)も発表した。
本稿では,最新のMQM開発について詳述し,3つのサンプルサイズ範囲にわたる翻訳品質測定への普遍的アプローチを示す。
また、統計品質制御が、単一の文から始まる非常に小さなサンプルサイズに使用されるべき理由も説明している。
The year 2024 marks the 10th anniversary of the Multidimensional Quality Metrics (MQM) framework for analytic translation quality evaluation. The MQM error typology has been widely used by practitioners in the translation and localization industry and has served as the basis for many derivative projects. The annual Conference on Machine Translation (WMT) shared tasks on both human and automatic translation quality evaluations used the MQM error typology. The metric stands on two pillars: error typology and the scoring model. The scoring model calculates the quality score from annotation data, detailing how to convert error type and severity counts into numeric scores to determine if the content meets specifications. Previously, only the raw scoring model had been published. This April, the MQM Council published the Linear Calibrated Scoring Model, officially presented herein, along with the Non-Linear Scoring Model, which had not been published before. This paper details the latest MQM developments and presents a universal approach to translation quality measurement across three sample size ranges. It also explains why Statistical Quality Control should be used for very small sample sizes, starting from a single sentence. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# メモリ支援計測デバイス非依存量子秘密共有
Memory-assisted measurement-device-independent quantum secret sharing ( http://arxiv.org/abs/2405.16970v1 ) ライセンス: Link先を確認 | Cheng Zhang, Qi Zhang, Wei Zhong, Ming-Ming Du, Shu-Ting Shen, Xi-Yun Li, An-Lei Zhang, Lan Zhou, Yu-Bo Sheng, | (参考訳) 測定デバイスに依存しない量子秘密共有(MDI-QSS)は、不完全な測定装置に関連するすべてのセキュリティホールを排除し、実用的な実験条件下でのQSのセキュリティを大幅に強化する。
MDI-QSSは、通信ユーザに対して、同時測定のために単一の光子を計測者に送信することを要求する。
しかし,伝送された光子の非同期化は,MDI-QSSの実用的性能を大幅に制限するものであり,本論文では,QM-assistedsynchronous of three heralded single-photon sourcesを用いて3つの同時単一光子状態を生成する高効率量子メモリ(QM)支援MDI-QSSプロトコルを提案する。
完全光学偏光非感光型ストレージループを用いたQMは、帯域幅、ストレージ効率、耐雑音性において優れた性能を有し、現在の実験条件下では実現可能である。
デコイ状態法と組み合わせて、有限サイズ効果を考慮せずに、対称モデルにおけるセキュア鍵レートの数値シミュレーションを行う。
シミュレーションの結果、我々のQM支援MDI-QSSプロトコルは、QMなしの既存のMDI-QSSプロトコルと比較して、キーレートと最大光子伝送距離を大幅に改善していることがわかった。
我々のプロトコルは、近い将来、高効率なMDI-QSSを実現するための有望な方法を提供する。
Measurement-device-independent quantum secret sharing (MDI-QSS) can eliminate all the security loopholes associated with imperfect measurement devices and greatly enhance QS's security under practical experimental condition. MDI-QSS requires each communication user to send single photon to the measurement party for the coincident measurement. However, the unsynchronization of the transmitted photons greatly limits MDI-QSS's practical performance.In the paper, we propose a high-efficient quantum memory (QM)-assisted MDI-QSS protocol, which employs the QM-assisted synchronization of three heralded single-photon sources to efficiently generate three simultaneous single-photon states. The QM constructed with all-optical, polarization-insensitive storage loop has superior performance in terms of bandwidth, storage efficiency, and noise resistance, and is feasible under current experiment conditions. Combining with the decoy-state method, we perform the numerical simulation of the secure key rate in the symmetric model without considering the finite-size effect. The simulation results show that our QM-assisted MDI-QSS protocol exhibit largely improved secure key rate and maximal photon transmission distance compared with all existing MDI-QSS protocols without QM. Our protocol provides a promising way for implementing the high-efficient long-distance MDI-QSS in the near future. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# GANに基づく語彙データ合成改善のための相関・平均損失関数とベンチマークフレームワーク
A Correlation- and Mean-Aware Loss Function and Benchmarking Framework to Improve GAN-based Tabular Data Synthesis ( http://arxiv.org/abs/2405.16971v1 ) ライセンス: Link先を確認 | Minh H. Vu, Daniel Edler, Carl Wibom, Tommy Löfstedt, Beatrice Melin, Martin Rosvall, | (参考訳) 科学の進歩はデータの共有に依存している。
医療において、個人データが頻繁に関わる場合、生成的敵ネットワーク(GAN)によって生成された合成表型データは、有望な道を提供する。
しかし、既存のGANは、潜在的な不均衡と依存関係を持つ連続変数とカテゴリー変数の混合を含む、現実世界の表データの複雑さを捉えるのに苦労している。
本稿では,GANの正則化としてこれらの課題に対処するために,新しい相関・平均認識損失関数を提案する。
厳密な評価を確保するため,実世界の10のデータセットと8つの確立された表状GANベースラインを用いた総合的なベンチマークフレームワークを構築した。
提案した損失関数は、真のデータ分布を捕捉する既存の手法に比べて統計的に有意な改善を示し、GANで生成された合成データの品質を著しく向上させる。
ベンチマークフレームワークは、強化された合成データ品質により、ダウンストリーム機械学習(ML)タスクのパフォーマンスが向上し、最終的にはデータの共有が容易になることを示している。
Advancements in science rely on data sharing. In medicine, where personal data are often involved, synthetic tabular data generated by generative adversarial networks (GANs) offer a promising avenue. However, existing GANs struggle to capture the complexities of real-world tabular data, which often contain a mix of continuous and categorical variables with potential imbalances and dependencies. We propose a novel correlation- and mean-aware loss function designed to address these challenges as a regularizer for GANs. To ensure a rigorous evaluation, we establish a comprehensive benchmarking framework using ten real-world datasets and eight established tabular GAN baselines. The proposed loss function demonstrates statistically significant improvements over existing methods in capturing the true data distribution, significantly enhancing the quality of synthetic data generated with GANs. The benchmarking framework shows that the enhanced synthetic data quality leads to improved performance in downstream machine learning (ML) tasks, ultimately paving the way for easier data sharing. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# 位相空間スクイーズ法によるチップスケール点源サニャック干渉計
Chip-Scale Point-Source Sagnac Interferometer by Phase-Space Squeezing ( http://arxiv.org/abs/2405.16972v1 ) ライセンス: Link先を確認 | Yiftach Halevy, Yali Cina, Omer Feldman, David Groswasser, Yonathan Japha, Ron Folman, | (参考訳) 物質波干渉法は科学と技術の両方に不可欠である。
相空間のスクイージングは原子の有利な源であることが示され、運動量の拡散は減少する。
ここでは、逆のスクイーズが同様に有利であることを示す。
点として、回転検出を可能にする点源原子干渉計(PSI)におけるそのような音源の影響を解析する。
圧縮PSI(SPSI)が短サイクル時間と高い繰り返し率を促進しつつ、感度とダイナミックレンジを向上させる方法について述べる。
パラメータ空間において、値の数値が桁違いに改善される領域を示し、あるコンパクト性の定義の下では、SPSIは4桁以上のオーダーで優れていることを示す。
これにより、SPSIは、標準サイズのデバイスの性能を向上させるか、チップスケールのデバイスに小型化しながら性能を維持するか、実際のアプリケーションへの扉を開くことができる。
Matter-wave interferometry is essential to both science and technology. Phase-space squeezing has been shown to be an advantageous source of atoms, whereby the spread in momentum is decreased. Here, we show that the opposite squeezing may be just as advantageous. As a case in point, we analyze the effect of such a source on point source atom interferometry (PSI), which enables rotation sensing. We describe how a squeezed PSI (SPSI) increases the sensitivity and dynamic range while facilitating short cycle times and high repetition rates. We present regions in parameter space for which the figures of merit are improved by orders of magnitude and show that under some definition of compactness, the SPSI is superior by more than four orders of magnitude. The SPSI thus enables either enhancing the performance for standard size devices or maintaining the performance while miniaturizing to a chip-scale device, opening the door to real-life applications. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# 自律運転のための集合認識データセット:総合的なレビュー
Collective Perception Datasets for Autonomous Driving: A Comprehensive Review ( http://arxiv.org/abs/2405.16973v1 ) ライセンス: Link先を確認 | Sven Teufel, Jörg Gamerdinger, Jan-Patrick Kirchner, Georg Volk, Oliver Bringmann, | (参考訳) 複雑な都市環境における自動運転車の安全な運転を確保するためには、環境の完全な認識が必要である。
しかし、環境条件、センサーの制限、閉塞のため、これは必ずしも単一の観点からは可能ではない。
この問題に対処するためには、集団認識が効果的な方法である。
現実的かつ大規模なデータセットは、集合認識法の訓練と評価に不可欠である。
本稿では,自律運転の文脈における集合認識データセットの総合的技術的レビューを初めて提供する。
この調査は既存のV2VおよびV2Xデータセットを分析し、センサーのモダリティ、環境条件、シナリオの多様性といった異なる基準に基づいて分類する。
その焦点は、コネクテッド・オートマチック・車両の開発に応用することにある。
本研究の目的は,すべてのデータセットの重要な基準を特定し,その強度,弱点,異常を提示することである。
最後に、この調査は、どのデータセットが総合的な3Dオブジェクトの検出、追跡、セマンティックセグメンテーションに最も適しているかを推奨することで締めくくります。
To ensure safe operation of autonomous vehicles in complex urban environments, complete perception of the environment is necessary. However, due to environmental conditions, sensor limitations, and occlusions, this is not always possible from a single point of view. To address this issue, collective perception is an effective method. Realistic and large-scale datasets are essential for training and evaluating collective perception methods. This paper provides the first comprehensive technical review of collective perception datasets in the context of autonomous driving. The survey analyzes existing V2V and V2X datasets, categorizing them based on different criteria such as sensor modalities, environmental conditions, and scenario variety. The focus is on their applicability for the development of connected automated vehicles. This study aims to identify the key criteria of all datasets and to present their strengths, weaknesses, and anomalies. Finally, this survey concludes by making recommendations regarding which dataset is most suitable for collective 3D object detection, tracking, and semantic segmentation. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# 定常スピン鎖における遺伝量子資源
Inherent quantum resources in the stationary spin chains ( http://arxiv.org/abs/2405.16974v1 ) ライセンス: Link先を確認 | Marcin Płodzień, Jan Chwedeńczuk, Maciej Lewenstein, | (参考訳) 多数のボディの量子相関を生成する標準的な方法は、動的プロトコル(英語版)によって、初期積状態は、後に古典的でない相関を生成する相互作用によって変換される。
ここでは、多体ベル相関がスピン-1/2鎖の固有状態に本質的に存在することを示す。
特に,Lipkin-Meshkov-Glickモデルの固有状態と熱状態が多体ベル相関を持つことを示す。
我々はベル相関が全磁化の変動に不連続に変化する量子化値に乗じることができることを示した。
最後に,これらの多体ベル相関は,対角性障害と対角性障害の両方が存在する場合にも持続することを示した。
The standard way to generate many-body quantum correlations is via a dynamical protocol: an initial product state is transformed by interactions that generate non-classical correlations at later times. Here, we show that many-body Bell correlations are inherently present in the eigenstates of a variety of spin-1/2 chains. In particular, we show that the eigenstates and thermal states of the collective Lipkin-Meshkov-Glick model possess many-body Bell correlations. We demonstrate that the Bell correlations can take on quantized values that change discontinuously with variations in the total magnetization. Finally, we show that these many-body Bell correlations persist even in the presence of both diagonal and off-diagonal disorder. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# 流体力学と固有状態熱化仮説
Hydrodynamics and the eigenstate thermalization hypothesis ( http://arxiv.org/abs/2405.16975v1 ) ライセンス: Link先を確認 | Luca Capizzi, Jiaozi Wang, Xiansong Xu, Leonardo Mazza, Dario Poletti, | (参考訳) 固有状態熱化仮説(ETH)は、固有エネルギー基底における局所作用素の対角行列および対角行列要素の性質を記述する。
本稿では,その関係について述べる。
i)ETHの対角方向外部分のエネルギー差が小さいときの特異な挙動
(II)エネルギー密度の関数としてのETHの対角部の滑らかなプロファイル。
この関係は局所作用素の自己相関関数の崩壊から成り立つが、これは流体力学によって記述される局所保存量の存在によって制約される。
我々は,2つの非可積分スピン-1イジングモデル,1つの拡散率と1つの超拡散率の数値シミュレーションを用いて,我々の予測を相関付け,最大18スピンの量子典型を用いて実行する。
The eigenstate thermalization hypothesis (ETH) describes the properties of diagonal and off-diagonal matrix elements of local operators in the eigenenergy basis. In this work, we propose a relation between (i) the singular behaviour of the off-diagonal part of ETH at small energy differences, and (ii) the smooth profile of the diagonal part of ETH as a function of the energy density. We establish this connection from the decay of the autocorrelation functions of local operators, which is constrained by the presence of local conserved quantities whose evolution is described by hydrodynamics. We corroborate our predictions with numerical simulations of two non-integrable spin-1 Ising models, one diffusive and one super-diffusive, which we perform using dynamical quantum typicality up to 18 spins. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# OSLO:One-Shot Label専用メンバーシップ推論攻撃
OSLO: One-Shot Label-Only Membership Inference Attacks ( http://arxiv.org/abs/2405.16978v1 ) ライセンス: Link先を確認 | Yuefeng Peng, Jaechul Roh, Subhransu Maji, Amir Houmansadr, | (参考訳) 対象モデルのトレーニングセットにおけるサンプルのメンバシップを,単に \emph{a single query} を用いて高精度に推定し,予測されたハードラベルのみを返すOne-Shot Label-Only (OSLO) メンバシップ推論攻撃(MIAs)を導入する。
これは、$\sim6000$クエリを必要とする最先端のラベルのみの攻撃とは対照的だが、OSLOよりも攻撃精度が低い。
OSLOは転送ベースのブラックボックス攻撃を利用する。
中心となる考え方は、メンバーのサンプルは非メンバーよりも敵の摂動に対する抵抗が強いことである。
我々はOSLOを最先端のラベルオンリー攻撃と比較し、1つのクエリしか必要とせず、同じ偽陽性率(FPR)の下での精度と真正率(TPR)において、従来の攻撃よりも有意に優れていたことを示す。
例えば、以前のラベルのみのMIAと比較して、OSLOは7$\times$から28$\times$のTPRをResNetモデルのCIFAR10上の0.1\% FPRで達成している。
我々はOSLOに対する防御機構を複数評価した。
We introduce One-Shot Label-Only (OSLO) membership inference attacks (MIAs), which accurately infer a given sample's membership in a target model's training set with high precision using just \emph{a single query}, where the target model only returns the predicted hard label. This is in contrast to state-of-the-art label-only attacks which require $\sim6000$ queries, yet get attack precisions lower than OSLO's. OSLO leverages transfer-based black-box adversarial attacks. The core idea is that a member sample exhibits more resistance to adversarial perturbations than a non-member. We compare OSLO against state-of-the-art label-only attacks and demonstrate that, despite requiring only one query, our method significantly outperforms previous attacks in terms of precision and true positive rate (TPR) under the same false positive rates (FPR). For example, compared to previous label-only MIAs, OSLO achieves a TPR that is 7$\times$ to 28$\times$ stronger under a 0.1\% FPR on CIFAR10 for a ResNet model. We evaluated multiple defense mechanisms against OSLO. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# DSU-Net:動的スネークU-Netによる2次元地震波の第一波検出
DSU-Net: Dynamic Snake U-Net for 2-D Seismic First Break Picking ( http://arxiv.org/abs/2405.16980v1 ) ライセンス: Link先を確認 | Hongtao Wang, Rongyu Feng, Liangyi Wu, Mutian Liu, Yinuo Cui, Chunxia Zhang, Zhenbo Guo, | (参考訳) 地震探査において、第1破片(FB)の同定は地下速度モデルを確立する上で重要な要素である。
ディープニューラルネットワークに基づく様々な自動ピッキング技術が開発され、この手順が高速化されている。
最も一般的なクラスは、セマンティックセグメンテーションネットワークを使用して、2次元(2-D)ピックと呼ばれるショットコレクションを選択することである。
一般的に、2次元セグメンテーションに基づくピック法は、ショットのイメージを入力し、各カラムの最大値がFBの位置であるバイナリセグメンテーションマップを出力する。
しかし, 現在のセグメンテーションネットワークでは, セグメンテーションの水平連続性を確保することは困難である。
さらに、FBジャンプはいくつかの領域に存在し、現在のネットワークがそのようなジャンプを検出するのは容易ではない。
したがって、できるだけ選び、水平連続性を確保することが重要である。
この問題を解決するために, 2次元地震波FBピッキングタスクのための新しいセグメンテーションネットワークを提案し, 動的ヘビ畳み込みをU-Netに導入し, 動的セグメンテーションネットワークをDSU-Netと呼ぶ。
具体的には,従来のダイナミックスネーク・コンボリューション(DSConv)をCVで開発し,ショット集合の浅部における水平連続特性を抽出できる新しいDSConvモジュールを提案する。
多くの実験により、DSU-Netは他の2次元セグメンテーションモデルよりも精度と堅牢性を示し、2次元地震探査において最先端(SOTA)性能を達成することが示されている。
特に、FBジャンプを効果的に検出し、FBの水平連続性をより確実にする。
さらに,DSConvモジュールの最適構造とピッキングの堅牢性について,アブレーション実験とアンチノイズ実験をそれぞれ検証した。
In seismic exploration, identifying the first break (FB) is a critical component in establishing subsurface velocity models. Various automatic picking techniques based on deep neural networks have been developed to expedite this procedure. The most popular class is using semantic segmentation networks to pick on a shot gather called 2-dimensional (2-D) picking. Generally, 2-D segmentation-based picking methods input an image of a shot gather, and output a binary segmentation map, in which the maximum of each column is the location of FB. However, current designed segmentation networks is difficult to ensure the horizontal continuity of the segmentation. Additionally, FB jumps also exist in some areas, and it is not easy for current networks to detect such jumps. Therefore, it is important to pick as much as possible and ensure horizontal continuity. To alleviate this problem, we propose a novel semantic segmentation network for the 2-D seismic FB picking task, where we introduce the dynamic snake convolution into U-Net and call the new segmentation network dynamic-snake U-Net (DSU-Net). Specifically, we develop original dynamic-snake convolution (DSConv) in CV and propose a novel DSConv module, which can extract the horizontal continuous feature in the shallow feature of the shot gather. Many experiments have shown that DSU-Net demonstrates higher accuracy and robustness than the other 2-D segmentation-based models, achieving state-of-the-art (SOTA) performance in 2-D seismic field surveys. Particularly, it can effectively detect FB jumps and better ensure the horizontal continuity of FB. In addition, the ablation experiment and the anti-noise experiment, respectively, verify the optimal structure of the DSConv module and the robustness of the picking. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# ソフトウェアコンポーネントにおける開発者の感性を特徴づける:Gentooの探索的研究
Characterising Developer Sentiment in Software Components: An Exploratory Study of Gentoo ( http://arxiv.org/abs/2405.16981v1 ) ライセンス: Link先を確認 | Tien Rahayu Tulili, Ayushi Rastogi, Andrea Capiluppi, | (参考訳) 共同ソフトウェア開発はチーム内で行われ、共有された成果物に協力し、オンラインプラットフォーム上での開発について議論する。
開発とさまざまなチームの複雑さのため、ソフトウェアコンポーネントは、しばしば並行作業やチームのための効果的なコンテナとして機能します。
過去の調査では、特にオープンソース環境では、チームメンバ間のコミュニケーションが極めて有害になり、開発チームを離れたメンバに繋がることを示した。
これは、前メンバーが活動していたプロジェクトの進化とメンテナンスに直接的な影響を与える。
研究の目的は2つある: まず、開発者間のコミュニケーションにおけるポジティブな感情とネガティブな感情を、よりきめ細かな粒度で評価するアプローチを提案する。
本分析は, メッセージ全体ではなく, 単一文をコミュニケーションの最もきめ細かい粒度として評価する。
前回の研究では、文レベルでの高い肯定性や否定性は、著者や読者に間接的に影響を及ぼす可能性があることが判明した。
このようにして、我々は、Gentooの特定の経路を、最も負の感情の影響を受けやすいものとして強調し、同じ経路に沿って、負の感情がどのように進化し変化したかを示すことができる。
メーリングリストの分析と開発ログから得られる情報から開発者の感情を導出することにより、開発パスが歴史的にポジティブな感情やネガティブな感情にどのように影響されたかの縦断的な画像を得た。
我々の研究は、近年、Gentoo開発者間のコミュニケーションにおいて、負の感情が一般的に減少していることを示している。
また、協調的なソフトウェア開発成果物として、ファイルパスが開発者の感情にどう影響するかも示しています。
Collaborative software development happens in teams, that cooperate on shared artefacts, and discuss development on online platforms. Due to the complexity of development and the variety of teams, software components often act as effective containers for parallel work and teams. Past research has shown how communication between team members, especially in an open-source environment, can become extremely toxic, and lead to members leaving the development team. This has a direct effect on the evolution and maintenance of the project in which the former members were active in. The purpose of our study is two-fold: first, we propose an approach to evaluate, at a finer granularity, the positive and negative emotions in the communication between developers; and second, we aim to characterise a project's development paths, or components, as more or less impacted by the emotions. Our analysis evaluates single sentences rather than whole messages as the finest granularity of communication. The previous study found that the high positivity or negativity at the sentence level may indirectly impact the writer him/herself, or the reader. In this way, we could highlight specific paths of Gentoo as the most affected by negative emotions, and show how negative emotions have evolved and changed along the same paths. By joining the analysis of the mailing lists, from which we derive the sentiment of the developers, with the information derived from the development logs, we obtained a longitudinal picture of how development paths have been historically affected by positive or negative emotions. Our study shows that, in recent years, negative emotions have generally decreased in the communication between Gentoo developers. We also show how file paths, as collaborative software development artefacts, were more or less impacted by the emotions of the developers. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# ビジョン・アンド・ランゲージナビゲーションによる事前学習型変圧器
Vision-and-Language Navigation Generative Pretrained Transformer ( http://arxiv.org/abs/2405.16994v1 ) ライセンス: Link先を確認 | Wen Hanlin, | (参考訳) Vision-and-Language Navigation (VLN) の分野では、エージェントは言語命令で案内された現実世界のシーンをナビゲートする。
エージェントをナビゲーションのプロセスを通して指示に従うように設定することは、VLNのドメイン内で重要な課題である。
この課題に対処するために、一般的なアプローチは、しばしばエンコーダに頼って、過去の位置とアクションを明示的に記録し、モデルの複雑さとリソース消費を増加させる。
我々の提案であるVLN-GPT(Vision-and-Language Navigation Generative Pretrained Transformer)は、トランスフォーマーデコーダモデル(GPT2)を採用し、過去の符号化モジュールの必要性を回避している。
この方法では、トラジェクトリシーケンスを介して直接履歴情報にアクセスでき、効率が向上する。
さらに,本モデルでは,トレーニングプロセスを模倣学習によるオフライン事前学習と強化学習によるオンライン微調整に分離する。
この区別により、より集中的なトレーニング目標とパフォーマンスの向上が可能になる。
VLNデータセットのパフォーマンス評価は、VLN-GPTが複雑な最先端エンコーダベースモデルを上回ることを示している。
In the Vision-and-Language Navigation (VLN) field, agents are tasked with navigating real-world scenes guided by linguistic instructions. Enabling the agent to adhere to instructions throughout the process of navigation represents a significant challenge within the domain of VLN. To address this challenge, common approaches often rely on encoders to explicitly record past locations and actions, increasing model complexity and resource consumption. Our proposal, the Vision-and-Language Navigation Generative Pretrained Transformer (VLN-GPT), adopts a transformer decoder model (GPT2) to model trajectory sequence dependencies, bypassing the need for historical encoding modules. This method allows for direct historical information access through trajectory sequence, enhancing efficiency. Furthermore, our model separates the training process into offline pre-training with imitation learning and online fine-tuning with reinforcement learning. This distinction allows for more focused training objectives and improved performance. Performance assessments on the VLN dataset reveal that VLN-GPT surpasses complex state-of-the-art encoder-based models. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# 幾何学的構造整合学習による雑音対応の緩和
Mitigating Noisy Correspondence by Geometrical Structure Consistency Learning ( http://arxiv.org/abs/2405.16996v1 ) ライセンス: Link先を確認 | Zihua Zhao, Mengxi Chen, Tianjie Dai, Jiangchao Yao, Bo han, Ya Zhang, Yanfeng Wang, | (参考訳) クロスモーダルなデータペアのミスマッチを指すノイズ対応は、人間のアノテーションまたはWebクローリングデータセットで広く使われている。
このようなデータを活用するための先行的なアプローチは、主にマルチモーダル学習におけるクロスモーダルおよびイントラモーダル幾何学的構造の影響を補正することなく、一様雑音ラベル学習の適用を考察する。
実際、両構造は、十分に確立されたときの構造的差異を通してノイズ対応を識別するのに有効であることがわかった。
この観測から着想を得た幾何学的構造整合性(GSC)法を導入し,実際の対応性を推定する。
特に、GSCは、モジュラリティの内および間における幾何学的構造の保存を保証し、構造的差異に基づいてノイズのあるサンプルの正確な識別を可能にする。
これらの推測された真の対応ラベルを利用して、GSCはノイズのあるサンプルをフィルタリングすることで幾何学構造の学習を洗練させる。
4つのクロスモーダルデータセットに対する実験により、GSCがノイズの多いサンプルを効果的に識別し、現在の先行手法よりも大幅に優れていることが確認された。
Noisy correspondence that refers to mismatches in cross-modal data pairs, is prevalent on human-annotated or web-crawled datasets. Prior approaches to leverage such data mainly consider the application of uni-modal noisy label learning without amending the impact on both cross-modal and intra-modal geometrical structures in multimodal learning. Actually, we find that both structures are effective to discriminate noisy correspondence through structural differences when being well-established. Inspired by this observation, we introduce a Geometrical Structure Consistency (GSC) method to infer the true correspondence. Specifically, GSC ensures the preservation of geometrical structures within and between modalities, allowing for the accurate discrimination of noisy samples based on structural differences. Utilizing these inferred true correspondence labels, GSC refines the learning of geometrical structures by filtering out the noisy samples. Experiments across four cross-modal datasets confirm that GSC effectively identifies noisy samples and significantly outperforms the current leading methods. | 翻訳日:2024-05-28 16:11:45 公開日:2024-05-27 |
# UIT-DarkCow team at ImageCLEFmedical Caption 2024: Diagnostic Captioning for Radiology Images efficiency with Transformer Models (特集:ユビキタス・バイオサイバネティックスとバイオサイバネティックス)
UIT-DarkCow team at ImageCLEFmedical Caption 2024: Diagnostic Captioning for Radiology Images Efficiency with Transformer Models ( http://arxiv.org/abs/2405.17002v1 ) ライセンス: Link先を確認 | Quan Van Nguyen, Quang Huy Pham, Dan Quang Tran, Thang Kien-Bao Nguyen, Nhat-Hao Nguyen-Dang, Bao-Thien Nguyen-Tat, | (参考訳) 目的:本研究は,医療従事者が臨床ミスを減らし,生産性を向上させるために,診断キャプション(診断キャプション)と呼ばれる放射線画像からの自動テキスト生成を開発することに焦点を当てる。
本研究の目的は, 医療現場における臨床実習と深層学習研究に大きな影響を与える, 報告の質と効率を向上させるツールを提供することである。
方法:ImageCLEFmedical2024キャプション評価キャンペーンに参加して,トランスフォーマーモデルを用いたキャプション予測タスクについて検討した。
我々はTransformer encoder-decoderとQuery Transformerアーキテクチャを組み込んだ手法を開発した。
これらのモデルは放射線画像から診断キャプションを生成するために訓練され評価された。
結果:VisionDiagnostor-BioBARTモデルによるBERTScoreは0.6267。
このパフォーマンスは、私たちのチームであるDarkCowに貢献し、リーダーボードで3位を獲得しました。
結論: 診断キャプションモデルでは, 高品質なレポートを効率よく作成することで, 医療従事者を支援することに大きな期待が持たれている。
このアプローチは、医療画像部門のデータ処理とパフォーマンスの最適化を向上し、最終的には医療提供の恩恵を受ける。
Purpose: This study focuses on the development of automated text generation from radiology images, termed diagnostic captioning, to assist medical professionals in reducing clinical errors and improving productivity. The aim is to provide tools that enhance report quality and efficiency, which can significantly impact both clinical practice and deep learning research in the biomedical field. Methods: In our participation in the ImageCLEFmedical2024 Caption evaluation campaign, we explored caption prediction tasks using advanced Transformer-based models. We developed methods incorporating Transformer encoder-decoder and Query Transformer architectures. These models were trained and evaluated to generate diagnostic captions from radiology images. Results: Experimental evaluations demonstrated the effectiveness of our models, with the VisionDiagnostor-BioBART model achieving the highest BERTScore of 0.6267. This performance contributed to our team, DarkCow, achieving third place on the leaderboard. Conclusion: Our diagnostic captioning models show great promise in aiding medical professionals by generating high-quality reports efficiently. This approach can facilitate better data processing and performance optimization in medical imaging departments, ultimately benefiting healthcare delivery. | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# オープンワールドグラフ学習のためのグラフ凝縮
Graph Condensation for Open-World Graph Learning ( http://arxiv.org/abs/2405.17003v1 ) ライセンス: Link先を確認 | Xinyi Gao, Tong Chen, Wentao Zhang, Yayong Li, Xiangguo Sun, Hongzhi Yin, | (参考訳) グラフデータの急増するボリュームは、グラフニューラルネットワーク(GNN)のトレーニングにおいて重要な計算上の課題を示し、様々なアプリケーションにおいてその効率を著しく損なう。
この課題に対処するために、グラフ凝縮(GC)は、性能を維持しながら効率よくGNNを訓練するコンパクトだが代表的なグラフの合成に焦点を当て、有望な加速解として登場した。
GNNのスケーラブルな利用を促進する可能性にもかかわらず、既存のGCメソッドは、凝縮グラフと単に観察された静的グラフ分布との整合に限られている。
この制限は凝縮グラフの一般化能力を著しく制限し、特に動的分布変化に適応する。
しかし、現実のシナリオでは、グラフは動的で常に進化しており、新しいノードとエッジが継続的に統合されている。
したがって、凝縮グラフの限定的な一般化能力のため、効率的なGNNトレーニングにGCを使用するアプリケーションは、動的実世界の状況下でのグラフ構造や分布の進化に直面した場合、準最適GNNに終止符を打つことになる。
この問題を解決するために,構造対応の分散シフトを統合して,進化するグラフパターンをシミュレートし,時間的環境を利用して分散凝縮を行う,オープンワールドグラフ凝縮(OpenGC)を提案する。
このアプローチは、元のグラフから時間的不変パターンを抽出し、縮合グラフの一般化能力を高め、その後、GNNが訓練する。
実世界のグラフと合成進化グラフの両方に関する大規模な実験により、OpenGCは、オープンワールドグラフ環境の動的変化に適応して、最先端(SOTA)GCメソッドより優れていることが示された。
The burgeoning volume of graph data presents significant computational challenges in training graph neural networks (GNNs), critically impeding their efficiency in various applications. To tackle this challenge, graph condensation (GC) has emerged as a promising acceleration solution, focusing on the synthesis of a compact yet representative graph for efficiently training GNNs while retaining performance. Despite the potential to promote scalable use of GNNs, existing GC methods are limited to aligning the condensed graph with merely the observed static graph distribution. This limitation significantly restricts the generalization capacity of condensed graphs, particularly in adapting to dynamic distribution changes. In real-world scenarios, however, graphs are dynamic and constantly evolving, with new nodes and edges being continually integrated. Consequently, due to the limited generalization capacity of condensed graphs, applications that employ GC for efficient GNN training end up with sub-optimal GNNs when confronted with evolving graph structures and distributions in dynamic real-world situations. To overcome this issue, we propose open-world graph condensation (OpenGC), a robust GC framework that integrates structure-aware distribution shift to simulate evolving graph patterns and exploit the temporal environments for invariance condensation. This approach is designed to extract temporal invariant patterns from the original graph, thereby enhancing the generalization capabilities of the condensed graph and, subsequently, the GNNs trained on it. Extensive experiments on both real-world and synthetic evolving graphs demonstrate that OpenGC outperforms state-of-the-art (SOTA) GC methods in adapting to dynamic changes in open-world graph environments. | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# データボリュームロバスト性を考慮したニューラルネットワークによる貨物列車の高能率視覚異常検出
Efficient Visual Fault Detection for Freight Train via Neural Architecture Search with Data Volume Robustness ( http://arxiv.org/abs/2405.17004v1 ) ライセンス: Link先を確認 | Yang Zhang, Mingying Li, Huilin Pan, Moyun Liu, Yang Zhou, | (参考訳) 深層学習に基づく断層検出手法は大きな成功を収めた。
貨物列車の視覚的故障検出では、クラス間コンポーネント(スケールのばらつき)とクラス内コンポーネントの間に大きな特性差があり、検出器のスケールアウェアネスが伴う。
さらに、タスク特化ネットワークの設計は人間の専門知識に大きく依存している。
その結果、モデル設計プロセスを自動化するニューラルアーキテクチャサーチ(NAS)は、その有望な性能のためにかなりの注目を集めている。
しかし、NASは巨大な検索空間と膨大なデータ量のために計算集約的である。
本研究では,貨物列車の視覚的故障検出のためのNASに基づく効率的なフレームワークを提案し,マルチスケール表現能力を有するタスク固有検出ヘッドを探索する。
まず,頭部の有効受容場を発見するためのスケールアウェア検索空間を設計する。
第2に,特に設計した検索空間に基づく検索コスト削減のためのデータボリュームのロバスト性について検討し,メモリ削減と検索効率の向上を目的とした新しい共有戦略を提案する。
その結果, ボトムビューとサイドビューで46.8mAP, 47.9mAPの精度が得られた。
我々のフレームワークは最先端の手法よりも優れており、データ量を減らすことで探索コストを線形的に削減する。
Deep learning-based fault detection methods have achieved significant success. In visual fault detection of freight trains, there exists a large characteristic difference between inter-class components (scale variance) but intra-class on the contrary, which entails scale-awareness for detectors. Moreover, the design of task-specific networks heavily relies on human expertise. As a consequence, neural architecture search (NAS) that automates the model design process gains considerable attention because of its promising performance. However, NAS is computationally intensive due to the large search space and huge data volume. In this work, we propose an efficient NAS-based framework for visual fault detection of freight trains to search for the task-specific detection head with capacities of multi-scale representation. First, we design a scale-aware search space for discovering an effective receptive field in the head. Second, we explore the robustness of data volume to reduce search costs based on the specifically designed search space, and a novel sharing strategy is proposed to reduce memory and further improve search efficiency. Extensive experimental results demonstrate the effectiveness of our method with data volume robustness, which achieves 46.8 and 47.9 mAP on the Bottom View and Side View datasets, respectively. Our framework outperforms the state-of-the-art approaches and linearly decreases the search costs with reduced data volumes. | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# 立場:意思決定のパラダイムシフトとしてのファンデーションエージェント
Position: Foundation Agents as the Paradigm Shift for Decision Making ( http://arxiv.org/abs/2405.17009v1 ) ライセンス: Link先を確認 | Xiaoqian Liu, Xingzhou Lou, Jianbin Jiao, Junge Zhang, | (参考訳) 決定的要求は、知覚、記憶、推論の間の相互作用を複雑にし、最適なポリシーを識別する。
従来の意思決定手法は、サンプル効率の低下と一般化の低さに関連する課題に直面している。
対照的に、言語とビジョンの基盤モデルは、様々な新しいタスクに迅速に適応することを示した。
そこで我々は,エージェントの学習パラダイムの変革的変化として,基礎エージェントの構築を提唱する。
この提案は、基礎的特徴と大きな言語モデル(LLM)の成功に動機づけられた課題を持つ基礎的エージェントの定式化に支えられている。
さらに,大規模な対話型データ収集や生成から,自己指導型事前学習・適応,LLMとの知識・価値アライメントに至るまで,基礎的エージェントのロードマップを規定する。
最後に、現実のユースケースで支援される基礎エージェントの定式化と定式化の傾向から導かれる重要な研究課題を指摘し、より包括的で影響力のある未来に向けての分野を推進すべく、技術面と理論面の両方に対処する。
Decision making demands intricate interplay between perception, memory, and reasoning to discern optimal policies. Conventional approaches to decision making face challenges related to low sample efficiency and poor generalization. In contrast, foundation models in language and vision has showcased rapid adaptation to diverse new tasks. Therefore, we advocate for the construction of foundation agents as a transformative shift in the learning paradigm of agents. This proposal is underpinned by the formulation of foundation agents with its fundamental characteristics and challenges motivated by the success of large language models (LLMs). Moreover, we specify the roadmap of foundation agents from large interactive data collection or generation, to self-supervised pretraining and adaptation, and knowledge and value alignment with LLMs. Lastly, we pinpoint critical research questions derived from the formulation and delineate trends for foundation agents supported by real-world use cases, addressing both technical and theoretical aspects to propel the field towards a more comprehensive and impactful future. | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# MotionLLM:大規模言語モデルを用いたマルチモーダル運動言語学習
MotionLLM: Multimodal Motion-Language Learning with Large Language Models ( http://arxiv.org/abs/2405.17013v1 ) ライセンス: Link先を確認 | Qi Wu, Yubo Zhao, Yifan Wang, Yu-Wing Tai, Chi-Keung Tang, | (参考訳) 近年のMM-LLM(Multimodal Large Language Models)の進歩は,様々なモダリティに適用した場合の一般化やロバスト性において有望な可能性を示している。
従来の研究は言語モデリングを含む様々な手法で3次元のモーション生成を達成しているが、多くは慎重に設計されており、単一のモーション生成に限定されている。
MM-LLMsの成功にインスパイアされたMotionLLMは、単人・多人動作生成と、微調整事前学習によるモーションキャプションを実現するための、シンプルで汎用的なフレームワークである。
具体的には、動作を離散LLM理解可能なトークンにエンコードし、量子化し、その結果、動作トークンとテキストトークンの両方からなる統一語彙が生成される。
アダプタを用いてトレーニングしたLSMのパラメータは1-3%に過ぎず、我々の単一人間のモーション生成は、これらの拡散モデルや他の訓練されたスクラッチトランスフォーマーベースモデルに匹敵する結果が得られる。
さらに,本手法はスケーラブルで柔軟性があり,単動作の自動回帰生成による多動運動生成を容易に拡張できることが示唆された。
プロジェクトページ:https://knoxzhao.github.io/MotionLLM
Recent advancements in Multimodal Large Language Models (MM-LLMs) have demonstrated promising potential in terms of generalization and robustness when applied to different modalities. While previous works have already achieved 3D human motion generation using various approaches including language modeling, they mostly % are mostly carefully designed use specialized architecture and are restricted to single-human motion generation. Inspired by the success of MM-LLMs, we propose MotionLLM, a simple and general framework that can achieve single-human, multi-human motion generation, and motion captioning by fine-tuning pre-trained LLMs. Specifically, we encode and quantize motions into discrete LLM-understandable tokens, which results in a unified vocabulary consisting of both motion and text tokens. With only 1--3% parameters of the LLMs trained by using adapters, our single-human motion generation achieves comparable results to those diffusion models and other trained-from-scratch transformer-based models. Additionally, we show that our approach is scalable and flexible, allowing easy extension to multi-human motion generation through autoregressive generation of single-human motions. Project page: https://knoxzhao.github.io/MotionLLM | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# $\text{Di}^2\text{Pose}$: Occluded 3D Human Pose Estimationのための離散拡散モデル
$\text{Di}^2\text{Pose}$: Discrete Diffusion Model for Occluded 3D Human Pose Estimation ( http://arxiv.org/abs/2405.17016v1 ) ライセンス: Link先を確認 | Weiquan Wang, Jun Xiao, Chunping Wang, Wei Liu, Zhao Wang, Long Chen, | (参考訳) 連続拡散モデルにより, 単分子的3次元ポーズ推定(HPE)における不確実性と不確定性に対処する効果が示された。
その強みにもかかわらず、大規模な検索空間の必要性と、相当な訓練データに対する需要により、これらのモデルは生体力学的に非現実的なポーズを生成する傾向にある。
この課題は、2D画像から3D構造を推測する複雑さが増すオクルージョンシナリオにおいて特に顕著である。
これらの制約に対応するため、離散拡散モデルの利点を生かした3D HPEを隠蔽する新しいフレームワークであるDisdisrete Diffusion Pose(\text{Di}^2\text{Pose}$)を導入する。
具体的には、$\text{Di}^2\text{Pose}$ は2段階のプロセスを用いており、まず 3D のポーズを \emph{pose Quantization step} を通じて離散表現に変換する。
この方法論的な革新は、物理的に実行可能な構成に向けて探索空間を限定的に制限し、潜在空間内の人間のポーズにどうオクルージョンが影響するかを理解するためのモデルの能力を強化する。
様々なベンチマーク(例えば、Human3.6M, 3DPW, 3DPW-Occ)で実施された大規模な評価は、その効果を実証している。
Continuous diffusion models have demonstrated their effectiveness in addressing the inherent uncertainty and indeterminacy in monocular 3D human pose estimation (HPE). Despite their strengths, the need for large search spaces and the corresponding demand for substantial training data make these models prone to generating biomechanically unrealistic poses. This challenge is particularly noticeable in occlusion scenarios, where the complexity of inferring 3D structures from 2D images intensifies. In response to these limitations, we introduce the Discrete Diffusion Pose ($\text{Di}^2\text{Pose}$), a novel framework designed for occluded 3D HPE that capitalizes on the benefits of a discrete diffusion model. Specifically, $\text{Di}^2\text{Pose}$ employs a two-stage process: it first converts 3D poses into a discrete representation through a \emph{pose quantization step}, which is subsequently modeled in latent space through a \emph{discrete diffusion process}. This methodological innovation restrictively confines the search space towards physically viable configurations and enhances the model's capability to comprehend how occlusions affect human pose within the latent space. Extensive evaluations conducted on various benchmarks (e.g., Human3.6M, 3DPW, and 3DPW-Occ) have demonstrated its effectiveness. | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# 平均場制御ゲームのための大規模強化Qラーニングアルゴリズムの解析
Analysis of Multiscale Reinforcement Q-Learning Algorithms for Mean Field Control Games ( http://arxiv.org/abs/2405.17017v1 ) ライセンス: Link先を確認 | Andrea Angiuli, Jean-Pierre Fouque, Mathieu Laurière, Mengrui Zhang, | (参考訳) 平均場制御ゲーム (MFCG) は, [Angiuli et al , 2022a] に導入され, グループ数と大きさの無限の極限において, 多数のエージェント間の競争ゲームを表す。
本稿では,3次元強化Q-Learning(RL)アルゴリズムのモデルフリーアプローチによるMFCGの収束を代表エージェントの観点から証明する。
我々の分析では、有限状態と作用空間に対して、無限の地平線上の各離散時間ステップで更新されるQテーブルを用いている。
Angiuli et al , 2023] では,MFG と MFC の2時間スケールアルゴリズムの収束が,MFC の場合において複数の集団分布に従う必要性を別々に強調した。
ここでは,この機能をMFCGに組み込むとともに,適切な比で3回の更新率を0に下げる。
本手法は,[Borkar, 1997]における2時間スケール解析の3つの時間スケールを一般化した手法である。
本稿では,アルゴリズムの性能を解析し,収束の証明における様々な仮説を満たす簡単な例を示す。
Mean Field Control Games (MFCG), introduced in [Angiuli et al., 2022a], represent competitive games between a large number of large collaborative groups of agents in the infinite limit of number and size of groups. In this paper, we prove the convergence of a three-timescale Reinforcement Q-Learning (RL) algorithm to solve MFCG in a model-free approach from the point of view of representative agents. Our analysis uses a Q-table for finite state and action spaces updated at each discrete time-step over an infinite horizon. In [Angiuli et al., 2023], we proved convergence of two-timescale algorithms for MFG and MFC separately highlighting the need to follow multiple population distributions in the MFC case. Here, we integrate this feature for MFCG as well as three rates of update decreasing to zero in the proper ratios. Our technique of proof uses a generalization to three timescales of the two-timescale analysis in [Borkar, 1997]. We give a simple example satisfying the various hypothesis made in the proof of convergence and illustrating the performance of the algorithm. | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# 計算学習理論を用いたランダムテストセットサイズの境界
Bounding Random Test Set Size with Computational Learning Theory ( http://arxiv.org/abs/2405.17019v1 ) ライセンス: Link先を確認 | Neil Walkinshaw, Michael Foster, Jose Miguel Rojas, Robert M Hierons, | (参考訳) ランダムテストは、ランダムにインプットを生成したり、事前に定義された運用プロファイルからランダムにインプットを選択することで機能する。
この状況と他のテストコンテキストで長く続いた質問は、次のとおりである。
この方法でさらなるテストを実行すると、これまでテストされていない(そして潜在的にバグのある)ソフトウェア動作が調査されないことは、どの時点で確実なのだろうか?
これは、正確なモデルを推論するために、トレーニング例がいくつ必要かという機械学習の問題に類似している。
本稿では,機械学習におけるこの問題に対する確率論的アプローチ(計算学習理論に基づく)が,テストコンテキストにどのように適用できるかを示す。
これにより、与えられたレベルの妥当性を達成するのに必要なテストの数に上限を付けることができます。
私たちは、サンプルのテスト実行を観察することなく、ソースコードのカバレッジターゲット(例えばコード行数)の数だけを知ることで、これを最初に実現しました。
大規模なJavaユニットと自律運転システムで、この境界を検証します。
Random testing approaches work by generating inputs at random, or by selecting inputs randomly from some pre-defined operational profile. One long-standing question that arises in this and other testing contexts is as follows: When can we stop testing? At what point can we be certain that executing further tests in this manner will not explore previously untested (and potentially buggy) software behaviors? This is analogous to the question in Machine Learning, of how many training examples are required in order to infer an accurate model. In this paper we show how probabilistic approaches to answer this question in Machine Learning (arising from Computational Learning Theory) can be applied in our testing context. This enables us to produce an upper bound on the number of tests that are required to achieve a given level of adequacy. We are the first to enable this from only knowing the number of coverage targets (e.g. lines of code) in the source code, without needing to observe a sample test executions. We validate this bound on a large set of Java units, and an autonomous driving system. | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# Trncated Modular Exponentiation Operators: A Strategy for Quantum Factoring
Truncated Modular Exponentiation Operators: A Strategy for Quantum Factoring ( http://arxiv.org/abs/2405.17021v1 ) ライセンス: Link先を確認 | Robert L. Singleton Jr, | (参考訳) Modular Exponentiation (ME) 演算子はShorアルゴリズムの基本的な構成要素の1つであり、ほとんどの量子リソースがデプロイされる場所である。
本稿では、作業レジスタが状態$\vert 1 \rangle$から始まるという単純な観察に依存するME演算子を構築する方法を提案する。
したがって、一般的な入力を受け入れるME演算子$U$を作成する必要はないが、代わりに、状態の周期列$\vert f(x) \rangle$ for $x \in \{0, 1, \cdots, r-1\}$に対して$f(x)$は周期$r$を持つME関数である。
演算子$U$は$r$レベルに分割することができ、レベル$x \in \{0, 1, \cdots, r-1\}$のゲートは状態$\vert f(x) \rangle$を状態$\vert f(x+1) \rangle$にインクリメントする。
x$ 以下のゲートは状態 $\vert f(x+1) \rangle$ に影響しない。
もし演算子$U$を知っていたら、ME関数の期間$r$を知っていて、Shorのアルゴリズムは必要ないでしょう。
しかし、ME演算子は極めて寛容であり、レベルが省略された近似形式は、正確な演算子と同様に、要因を抽出できることを示す。
私はこれを、ME演算子の要求レベルの半分以下を使用することで、$N = 21, 33, 35, 143, 247$の数値を分解して示します。
この手順は連続分数法が近似位相値のみを必要とするため機能する。
これは、ME演算子の回路をより多くのゲートで埋める分解戦略の基礎であり、様々な合成演算子$U^p$($p$は2のパワーである)間の相関は、不足レベルを補う。
Modular exponentiation (ME) operators are one of the fundamental components of Shor's algorithm, and the place where most of the quantum resources are deployed. I propose a method for constructing the ME operators that relies upon the simple observation that the work register starts in state $\vert 1 \rangle$. Therefore, we do not have to create an ME operator $U$ that accepts a general input, but rather, one that takes an input from the periodic sequence of states $\vert f(x) \rangle$ for $x \in \{0, 1, \cdots, r-1\}$, where $f(x)$ is the ME function with period $r$. The operator $U$ can be partitioned into $r$ levels, where the gates in level $x \in \{0, 1, \cdots, r-1\}$ increment the state $\vert f(x) \rangle$ to the state $\vert f(x+1) \rangle$. The gates below $x$ do not affect the state $\vert f(x+1) \rangle$. The obvious problem with this method is that it is self-defeating: If we knew the operator $U$, then we would know the period $r$ of the ME function, and there would be no need for Shor's algorithm. I show, however, that the ME operators are very forgiving, and truncated approximate forms in which levels have been omitted are able to extract factors just as well as the exact operators. I demonstrate this by factoring the numbers $N = 21, 33, 35, 143, 247$ by using less than half the requisite number of levels in the ME operators. This procedure works because the method of continued fractions only requires an approximate phase value. This is the basis for a factorization strategy in which we fill the circuits for the ME operators with more and more gates, and the correlations between the various composite operators $U^p$ (where $p$ is a power of two) compensate for the missing levels. | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# 構成的数ショットクラスインクリメンタルラーニング
Compositional Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2405.17022v1 ) ライセンス: Link先を確認 | Yixiong Zou, Shanghang Zhang, Haichen Zhou, Yuhua Li, Ruixuan Li, | (参考訳) FSCIL (Few-shot class-incremental Learning) は, ベースクラスでの(事前)学習後, 少数のサンプルしか持たない新しいクラスから継続的に学習するために提案される。
しかし、これは依然として課題である。
対照的に、人間はいくつかのサンプルで簡単に新しいクラスを認識できる。
認知科学は、そのような人間の能力の重要な構成要素が作曲学習であることを示した。
これには、学習した知識から視覚的プリミティブを識別し、移行したプリミティブを使用して新しい概念を構成することが含まれます。
人間の構成学習を模倣するために,FSCILタスクの認知に着想を得た手法を提案する。
集合の類似性に基づいて合成モデルを定義して構築し、プリミティブな合成モジュールとプリミティブな再利用モジュールを装備する。
プリミティブ・コンポジション・モジュールでは、CKA(Centered Kernel Alignment)類似性を利用してプリミティブ・セット間の類似性を近似し、プリミティブ・コンポジションに基づくトレーニングと評価を行う。
プリミティブ再利用モジュールでは、他のクラスから最も近いプリミティブに置き換えられたプリミティブに基づいて入力を分類することで、プリミティブ再利用可能性を高める。
3つのデータセットによる実験により,本手法の有効性が向上し,最先端の手法よりも優れた結果が得られた。
私たちのコードはhttps://github.com/Zoilsen/Comp-FSCILで利用可能です。
Few-shot class-incremental learning (FSCIL) is proposed to continually learn from novel classes with only a few samples after the (pre-)training on base classes with sufficient data. However, this remains a challenge. In contrast, humans can easily recognize novel classes with a few samples. Cognitive science demonstrates that an important component of such human capability is compositional learning. This involves identifying visual primitives from learned knowledge and then composing new concepts using these transferred primitives, making incremental learning both effective and interpretable. To imitate human compositional learning, we propose a cognitive-inspired method for the FSCIL task. We define and build a compositional model based on set similarities, and then equip it with a primitive composition module and a primitive reuse module. In the primitive composition module, we propose to utilize the Centered Kernel Alignment (CKA) similarity to approximate the similarity between primitive sets, allowing the training and evaluation based on primitive compositions. In the primitive reuse module, we enhance primitive reusability by classifying inputs based on primitives replaced with the closest primitives from other classes. Experiments on three datasets validate our method, showing it outperforms current state-of-the-art methods with improved interpretability. Our code is available at https://github.com/Zoilsen/Comp-FSCIL. | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# SWAT:FPGA上でのウィンドウアテンションベースのトランスフォーマーの高速化
SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs ( http://arxiv.org/abs/2405.17025v1 ) ライセンス: Link先を確認 | Zhenyu Bai, Pranav Dangi, Huize Li, Tulika Mitra, | (参考訳) Transformerモデルでは,コンテキスト長の効率的なサポートが不可欠だ。
自己注意計算の二次的な複雑さは、従来のトランスフォーマーを悩ませている。
スライディングウィンドウベースの静的スパースアテンションは、入力トークンの注意範囲を制限することで問題を緩和し、理論的複雑さを2次から線形に減らす。
窓の注意によって引き起こされる空間は高度に構造化されているが、従来の加速器の微細構造と完全に一致しないため、準最適実装に繋がる。
そこで本研究では,データフロー対応FPGAベースのアクセラレーション設計であるSWATを提案する。
提案するマイクロアーキテクチャは,FPGAの分散メモリと計算資源を考慮した行ワイドデータフロー,カーネル融合最適化,入力定常設計を組み合わせたデータ再利用を最大化する設計に基づいている。
これにより、ベースラインFPGAベースのアクセラレータと比較してレイテンシとエネルギー効率が最大22$\times$と5.7$\times$改善され、GPUベースのソリューションに比べて15$\times$エネルギー効率が向上する。
Efficiently supporting long context length is crucial for Transformer models. The quadratic complexity of the self-attention computation plagues traditional Transformers. Sliding window-based static sparse attention mitigates the problem by limiting the attention scope of the input tokens, reducing the theoretical complexity from quadratic to linear. Although the sparsity induced by window attention is highly structured, it does not align perfectly with the microarchitecture of the conventional accelerators, leading to suboptimal implementation. In response, we propose a dataflow-aware FPGA-based accelerator design, SWAT, that efficiently leverages the sparsity to achieve scalable performance for long input. The proposed microarchitecture is based on a design that maximizes data reuse by using a combination of row-wise dataflow, kernel fusion optimization, and an input-stationary design considering the distributed memory and computation resources of FPGA. Consequently, it achieves up to 22$\times$ and 5.7$\times$ improvement in latency and energy efficiency compared to the baseline FPGA-based accelerator and 15$\times$ energy efficiency compared to GPU-based solution. | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# スーパービジョンバッチ正規化
Supervised Batch Normalization ( http://arxiv.org/abs/2405.17027v1 ) ライセンス: Link先を確認 | Bilal Faye, Mustapha Lebbah, Hanane Azzag, | (参考訳) ニューラルネットワークで広く使われている技術であるバッチ正規化(BN)は、各ミニバッチを同じ平均値と分散値に正規化することにより、一般化と迅速なトレーニングを促進する。
しかし、その効果は多様なデータ分布に直面したときに減少する。
この課題に対処するため,先駆的アプローチであるSupervised Batch Normalization (SBN)を提案する。
従来の単一平均値と分散パラメータを超えて正規化を拡大し、トレーニング前にデータモードの識別を可能にします。
これにより、共通の特徴を共有するサンプルの効果的な正規化が保証される。
我々はコンテキストをモードとして定義し、類似した特徴を持つデータを分類する。
これらのコンテキストは、ドメイン適応のドメインやマルチモーダルシステムのモダリティ、あるいはデータ類似性に基づいたクラスタリングアルゴリズムによって暗黙的に定義されるなど、明示的に定義されている。
本稿では,BN に対するアプローチの優位性を,単一およびマルチタスクのデータセット上での様々な実験を通じて示す。
Vision Transformer と SBN を統合すると、CIFAR-100 上で顕著な \textit{15.13}\% の精度向上が得られる。
さらに、ドメイン適応のシナリオでは、AdaMatchを使用すると、BNと比較してMNISTとSVHNの精度が著しく向上する。
Batch Normalization (BN), a widely-used technique in neural networks, enhances generalization and expedites training by normalizing each mini-batch to the same mean and variance. However, its effectiveness diminishes when confronted with diverse data distributions. To address this challenge, we propose Supervised Batch Normalization (SBN), a pioneering approach. We expand normalization beyond traditional single mean and variance parameters, enabling the identification of data modes prior to training. This ensures effective normalization for samples sharing common features. We define contexts as modes, categorizing data with similar characteristics. These contexts are explicitly defined, such as domains in domain adaptation or modalities in multimodal systems, or implicitly defined through clustering algorithms based on data similarity. We illustrate the superiority of our approach over BN and other commonly employed normalization techniques through various experiments on both single and multi-task datasets. Integrating SBN with Vision Transformer results in a remarkable \textit{15.13}\% accuracy enhancement on CIFAR-100. Additionally, in domain adaptation scenarios, employing AdaMatch demonstrates an impressive \textit{22.25}\% accuracy improvement on MNIST and SVHN compared to BN. | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# 新しいグラディエント一貫性モデルを用いた多視点差分推定
Multi-view Disparity Estimation Using a Novel Gradient Consistency Model ( http://arxiv.org/abs/2405.17029v1 ) ライセンス: Link先を確認 | James L. Gray, Aous T. Naman, David S. Taubman, | (参考訳) 差分推定に対する変分的アプローチは、典型的には、滑らかな領域や小さな距離でのみ適用される線形化輝度定数制約を用いる。
したがって、現在の変動的アプローチは、徐々に画像データを含めるスケジュールに依存している。
本稿では、線形化の有効性を評価するために、勾配一貫性情報を用いて、解析的に着想を得た勾配一貫性モデルの一部として、データ項に適用される重みを決定する。
勾配一貫性モデル(Gradient Consistency Model)は、ソースビューにおける空間勾配とターゲットビューにおける空間勾配とのミスマッチを有するビューペアのデータ項を解析する。
チューニングされたスケジュールや学習されたスケジュールに頼る代わりに、グラディエント一貫性モデルは、アルゴリズムが進むにつれて重みが進化するので、自己スケジューリングである。
グラディエント一貫性モデルは、標準粗大なスキームよりも優れており、最近提案されたビューアプローチを収束率と精度の両方で漸進的に取り入れていることを示す。
Variational approaches to disparity estimation typically use a linearised brightness constancy constraint, which only applies in smooth regions and over small distances. Accordingly, current variational approaches rely on a schedule to progressively include image data. This paper proposes the use of Gradient Consistency information to assess the validity of the linearisation; this information is used to determine the weights applied to the data term as part of an analytically inspired Gradient Consistency Model. The Gradient Consistency Model penalises the data term for view pairs that have a mismatch between the spatial gradients in the source view and the spatial gradients in the target view. Instead of relying on a tuned or learned schedule, the Gradient Consistency Model is self-scheduling, since the weights evolve as the algorithm progresses. We show that the Gradient Consistency Model outperforms standard coarse-to-fine schemes and the recently proposed progressive inclusion of views approach in both rate of convergence and accuracy. | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# SCaRL - 自律運転のための合成多モードデータセット
SCaRL- A Synthetic Multi-Modal Dataset for Autonomous Driving ( http://arxiv.org/abs/2405.17030v1 ) ライセンス: Link先を確認 | Avinash Nittur Ramesh, Aitor Correas-Serrano, María González-Huici, | (参考訳) 本稿では、自律運転ソリューションのトレーニングと検証を可能にするために、合成生成された新しいマルチモーダルデータセットであるSCaRLを提案する。
マルチモーダルデータセットは、自律運転のようなアプリケーションにおいて自律システムに必要な堅牢性と高い精度を達成するために不可欠である。
ディープラーニングベースのソリューションがオブジェクトの検出、分類、追跡タスクに普及するにつれ、カメラ、ライダー、レーダーセンサーを組み合わせたデータセットの需要が高まっている。
自動運転のための既存のリアルタイム/合成データセットには、完全なセンサースイートからの同期データ収集が欠如している。
SCaRLは、RGB、セマンティック/インスタンス、ディープカメラからの同期合成データ、Radarのレンジ・ドップラー・アジムート/標高マップ、およびコヒーレントライダーのセマンティック、ディープ、ドップラーデータの3Dポイントクラウド/2Dマップを提供する。
SCaRLはCARLA Simulatorに基づく大規模なデータセットであり、多様な動的シナリオとトラフィック条件のためのデータを提供する。
SCaRLは、コヒーレントLidarとMIMOレーダーセンサーからの合成同期データを含む最初のデータセットである。
データセットは以下にアクセスできる。 https://fhr-ihs-sva.pages.fraunhofer.de/asp/scarl/
We present a novel synthetically generated multi-modal dataset, SCaRL, to enable the training and validation of autonomous driving solutions. Multi-modal datasets are essential to attain the robustness and high accuracy required by autonomous systems in applications such as autonomous driving. As deep learning-based solutions are becoming more prevalent for object detection, classification, and tracking tasks, there is great demand for datasets combining camera, lidar, and radar sensors. Existing real/synthetic datasets for autonomous driving lack synchronized data collection from a complete sensor suite. SCaRL provides synchronized Synthetic data from RGB, semantic/instance, and depth Cameras; Range-Doppler-Azimuth/Elevation maps and raw data from Radar; and 3D point clouds/2D maps of semantic, depth and Doppler data from coherent Lidar. SCaRL is a large dataset based on the CARLA Simulator, which provides data for diverse, dynamic scenarios and traffic conditions. SCaRL is the first dataset to include synthetic synchronized data from coherent Lidar and MIMO radar sensors. The dataset can be accessed here: https://fhr-ihs-sva.pages.fraunhofer.de/asp/scarl/ | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# Any-step Dynamics Modelはオンラインおよびオフライン強化学習の将来予測を改善する
Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning ( http://arxiv.org/abs/2405.17031v1 ) ライセンス: Link先を確認 | Haoxin Lin, Yu-Yan Xu, Yihao Sun, Zhilong Zhang, Yi-Chen Li, Chengxing Jia, Junyin Ye, Jiaji Zhang, Yang Yu, | (参考訳) 強化学習におけるモデルに基づく手法は、ダイナミックスモデル内のポリシー探索を容易にすることにより、データ効率を向上させるための有望なアプローチを提供する。
しかしながら、動的モデルのシーケンシャルステップを正確に予測することは、現在の状態の予測に次の状態を属性とするブートストラップ予測のため、依然として課題である。
これにより、モデルロールアウト時にエラーが蓄積される。
本稿では,ブートストラップ予測を減らして直接予測することにより,合成誤差を軽減するAny-step Dynamics Model (ADM)を提案する。
ADMは、頻繁なブートストラップなしで将来の状態を予測するための入力として可変長プランを使用することができる。
ADMPO-ON と ADMPO-OFF の2つのアルゴリズムを設計し,オンラインおよびオフラインのモデルベースフレームワークにそれぞれ ADM を適用する。
オンライン環境では、ADMPO-ONは従来の最先端手法と比較してサンプル効率が改善されている。
オフライン環境では、ADMPO-OFFは最近の最先端のオフラインアプローチよりも優れた性能を示すだけでなく、1つのADMのみを用いてモデル不確実性の定量化を提供する。
Model-based methods in reinforcement learning offer a promising approach to enhance data efficiency by facilitating policy exploration within a dynamics model. However, accurately predicting sequential steps in the dynamics model remains a challenge due to the bootstrapping prediction, which attributes the next state to the prediction of the current state. This leads to accumulated errors during model roll-out. In this paper, we propose the Any-step Dynamics Model (ADM) to mitigate the compounding error by reducing bootstrapping prediction to direct prediction. ADM allows for the use of variable-length plans as inputs for predicting future states without frequent bootstrapping. We design two algorithms, ADMPO-ON and ADMPO-OFF, which apply ADM in online and offline model-based frameworks, respectively. In the online setting, ADMPO-ON demonstrates improved sample efficiency compared to previous state-of-the-art methods. In the offline setting, ADMPO-OFF not only demonstrates superior performance compared to recent state-of-the-art offline approaches but also offers better quantification of model uncertainty using only a single ADM. | 翻訳日:2024-05-28 16:01:56 公開日:2024-05-27 |
# FUGNN: グラフニューラルネットワークにおけるフェアネスとユーティリティの調和
FUGNN: Harmonizing Fairness and Utility in Graph Neural Networks ( http://arxiv.org/abs/2405.17034v1 ) ライセンス: Link先を確認 | Renqiang Luo, Huafei Huang, Shuo Yu, Zhuoyang Han, Estrid He, Xiuzhen Zhang, Feng Xia, | (参考訳) フェアネスを意識したグラフニューラルネットワーク(GNN)は、フェアネスの優先順位付けが実用性を損なう可能性があるため、難しいトレードオフに直面していることが多い。
本研究では,スペクトルグラフ理論のレンズによるフェアネスの再検討を行い,スペクトルグラフ学習の枠組み内でのフェアネスと有用性を考察する。
我々は,GNNにおける感度特徴とスペクトルの相関関係を理論的解析を用いて検討し,異なるスペクトル下での畳み込み後の特徴と元の感度特徴との類似性を明らかにする。
本分析により,最大等級固有値に関連付けられた固有ベクトルが方向類似性を示す場合に,類似性の影響の低減が明らかとなった。
これらの理論的知見に基づいて、フェアネスとユーティリティの対立を調和させる新しいスペクトルグラフ学習手法であるFUGNNを提案する。
FUGNNは、スペクトルを切断し、符号化プロセス中に固有ベクトル分布を最適化することにより、アルゴリズムの公正性と有用性を保証する。
公平を意識した固有ベクトル選択は、実用性の犠牲を同時に最小化しつつ、繊細な特徴に対する畳み込みの影響を低減する。
FUGNNはさらにトランスアーキテクチャを通じて固有ベクトルの分布を最適化する。
最適化されたスペクトルをグラフ畳み込みネットワークに組み込むことで、FUGNNはノード表現を効果的に学習する。
6つの実世界のデータセットに対する実験は、ベースライン法よりもFUGNNの方が優れていることを示した。
コードはhttps://github.com/yushuowiki/FUGNNで公開されている。
Fairness-aware Graph Neural Networks (GNNs) often face a challenging trade-off, where prioritizing fairness may require compromising utility. In this work, we re-examine fairness through the lens of spectral graph theory, aiming to reconcile fairness and utility within the framework of spectral graph learning. We explore the correlation between sensitive features and spectrum in GNNs, using theoretical analysis to delineate the similarity between original sensitive features and those after convolution under different spectrum. Our analysis reveals a reduction in the impact of similarity when the eigenvectors associated with the largest magnitude eigenvalue exhibit directional similarity. Based on these theoretical insights, we propose FUGNN, a novel spectral graph learning approach that harmonizes the conflict between fairness and utility. FUGNN ensures algorithmic fairness and utility by truncating the spectrum and optimizing eigenvector distribution during the encoding process. The fairness-aware eigenvector selection reduces the impact of convolution on sensitive features while concurrently minimizing the sacrifice of utility. FUGNN further optimizes the distribution of eigenvectors through a transformer architecture. By incorporating the optimized spectrum into the graph convolution network, FUGNN effectively learns node representations. Experiments on six real-world datasets demonstrate the superiority of FUGNN over baseline methods. The codes are available at https://github.com/yushuowiki/FUGNN. | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# グラウバー生成モデル:二項分類による離散拡散モデル
Glauber Generative Model: Discrete Diffusion Models via Binary Classification ( http://arxiv.org/abs/2405.17035v1 ) ライセンス: Link先を確認 | Harshit Varma, Dheeraj Nagaraj, Karthikeyan Shanmugam, | (参考訳) 離散拡散モデルの新たなクラスであるGlauber Generative Model (GGM)を導入し、離散空間から与えられた分布から新しいサンプルを得る。
GGMは、熱浴力学(またはグラウバー力学)と呼ばれる離散マルコフ連鎖を展開させ、離散トークンの連成分布からサンプルにノイズトークンの列を分解する。
我々の新しい概念的枠組みは、マルコフ連鎖を二項分類タスクのクラスを解くために学習するタスクを正確に削減するものである。
より具体的には、モデルは与えられたトークンをノイズシーケンスで信号またはノイズとして分類することを学ぶ。
対照的に、離散拡散モデルに関する先行研究は、回帰問題を解くか、重要度を学習するか、あるいは変分近似によって与えられる損失関数を最小化する。
本稿では,言語モデリングや画像生成にGGMを適用し,VQGANなどの画像トークンを用いて画像の識別を行う。
言語生成において既存の離散拡散モデルより優れており、データセット固有の画像トークンーザを使わずに、画像生成に強い性能を示す。
また,本モデルでは,テキストや画像の入力などのゼロショット制御設定でも良好に動作可能であることを示す。
We introduce the Glauber Generative Model (GGM), a new class of discrete diffusion models, to obtain new samples from a distribution given samples from a discrete space. GGM deploys a discrete Markov chain called the heat bath dynamics (or the Glauber dynamics) to denoise a sequence of noisy tokens to a sample from a joint distribution of discrete tokens. Our novel conceptual framework provides an exact reduction of the task of learning the denoising Markov chain to solving a class of binary classification tasks. More specifically, the model learns to classify a given token in a noisy sequence as signal or noise. In contrast, prior works on discrete diffusion models either solve regression problems to learn importance ratios, or minimize loss functions given by variational approximations. We apply GGM to language modeling and image generation, where images are discretized using image tokenizers like VQGANs. We show that it outperforms existing discrete diffusion models in language generation, and demonstrates strong performance for image generation without using dataset-specific image tokenizers. We also show that our model is capable of performing well in zero-shot control settings like text and image infilling. | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# BDC-Occ: バイナリ化された運用ネットワークのためのバイナリ化されたディープコンボリューションユニット
BDC-Occ: Binarized Deep Convolution Unit For Binarized Occupancy Network ( http://arxiv.org/abs/2405.17037v1 ) ライセンス: Link先を確認 | Zongkai Zhang, Zidong Xu, Wenming Yang, Qingmin Liao, Jing-Hao Xue, | (参考訳) 既存の3D占有ネットワークは重要なハードウェアリソースを必要としており、エッジデバイスの配備を妨げている。
バイナリニューラルネットワーク(BNN)は、計算とメモリの要求を大幅に削減する。
しかし、その性能は完全精度のネットワークに比べて顕著に低下する。
さらに、二項化畳み込み層の数を増やして2項化モデルの性能を高めることは困難であり、3次元占有予測の実践性を制限する。
これらのギャップを埋めるため、二項化畳み込み層の数を増やしつつ性能を効果的に向上する二項化深層畳み込みユニット(BDC)を提案する。
まず, 理論的解析により, 1 \times 1 2ナライズド・コンボリューションが最小二ナライズ誤差をもたらすことを示した。
したがって、BDCユニットの1 \times 1にさらに二項化畳み込み層が制約される。
第二に、チャネル単位の重み分岐を導入し、重要でないチャネル特徴による二項化誤差が二項化モデルの性能に与える影響を緩和し、二項化畳み込み層の数を増やしながら性能を向上させる。
さらに,3D占有ネットワークを4つの畳み込みモジュールに分解し,提案したBDCユニットを用いて2項化する。
我々のBDC-Occモデルは既存の3D占有ネットワークをバイナライズするために提案したBDCユニットを適用して作成する。
包括的定量的および定性的実験により、提案したBDC-Occは最先端の2次元占有ネットワークアルゴリズムであることが示された。
Existing 3D occupancy networks demand significant hardware resources, hindering the deployment of edge devices. Binarized Neural Networks (BNN) offer substantially reduced computational and memory requirements. However, their performance decreases notably compared to full-precision networks. Moreover, it is challenging to enhance the performance of binarized models by increasing the number of binarized convolutional layers, which limits their practicability for 3D occupancy prediction. To bridge these gaps, we propose a novel binarized deep convolution (BDC) unit that effectively enhances performance while increasing the number of binarized convolutional layers. Firstly, through theoretical analysis, we demonstrate that 1 \times 1 binarized convolutions introduce minimal binarization errors. Therefore, additional binarized convolutional layers are constrained to 1 \times 1 in the BDC unit. Secondly, we introduce the per-channel weight branch to mitigate the impact of binarization errors from unimportant channel features on the performance of binarized models, thereby improving performance while increasing the number of binarized convolutional layers. Furthermore, we decompose the 3D occupancy network into four convolutional modules and utilize the proposed BDC unit to binarize these modules. Our BDC-Occ model is created by applying the proposed BDC unit to binarize the existing 3D occupancy networks. Comprehensive quantitative and qualitative experiments demonstrate that the proposed BDC-Occ is the state-of-the-art binarized 3D occupancy network algorithm. | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# 触覚ハンドジェスチャ認識の進歩 : 人間と機械の相互作用の強化
Advancements in Tactile Hand Gesture Recognition for Enhanced Human-Machine Interaction ( http://arxiv.org/abs/2405.17038v1 ) ライセンス: Link先を確認 | Chiara Fumelli, Anirvan Dutta, Mohsen Kaboli, | (参考訳) 本研究は,直感的物理的ヒューマン・マシーンインタラクション(HRI/HVI)の強化への関心が高まっている。
導電性繊維で構築した大面積触覚触覚インタフェース(タッチインターフェース)に対して,手動作認識のアプローチを総合的に評価した。
本評価では,手の大きさ,移動速度,加圧レベル,相互作用点などをリアルタイムに解釈できる,従来の特徴工学的手法や,現代の深層学習技術についても検討した。
本研究は, 触覚に基づくジェスチャー認識において, ヒトと機械の相互作用の分野で重要な役割を担っている。
Motivated by the growing interest in enhancing intuitive physical Human-Machine Interaction (HRI/HVI), this study aims to propose a robust tactile hand gesture recognition system. We performed a comprehensive evaluation of different hand gesture recognition approaches for a large area tactile sensing interface (touch interface) constructed from conductive textiles. Our evaluation encompassed traditional feature engineering methods, as well as contemporary deep learning techniques capable of real-time interpretation of a range of hand gestures, accommodating variations in hand sizes, movement velocities, applied pressure levels, and interaction points. Our extensive analysis of the various methods makes a significant contribution to tactile-based gesture recognition in the field of human-machine interaction. | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# BWAreaモデル:制御可能な言語生成のための世界モデル、逆ダイナミクス、およびポリシー
BWArea Model: Learning World Model, Inverse Dynamics, and Policy for Controllable Language Generation ( http://arxiv.org/abs/2405.17039v1 ) ライセンス: Link先を確認 | Chengxing Jia, Pengyuan Wang, Ziniu Li, Yi-Chen Li, Zhilong Zhang, Nan Tang, Yang Yu, | (参考訳) 大規模言語モデル(LLM)は自然言語処理のパラダイムシフトを触媒としているが、制御性の制限は下流アプリケーションにとって大きな課題となっている。
我々は、人間の脳の神経機構、特に言語生成と理解に不可欠であるブロカとヴェルニッケの領域からインスピレーションを得て、この問題に対処することを目指している。
特に、ブロカ地域はヴェルニッケ地域から認知的決定信号を受け取り、言語生成を複雑な意思決定プロセスとして扱い、既存のLLMの完全自己回帰言語生成とは異なる。
同様に,提案システムであるBWAreaモデルでは,言語生成を意思決定タスクとして概念化している。
このモデルには、言語世界モデル、逆ダイナミクスモデル、認知ポリシーの3つのコンポーネントがある。
ヴェルニッケの領域と同様に、逆動力学モデルは、各トークンの背後にある根底にある認知意図、すなわち潜在行動を推論するように設計されている。
BWAreaモデルは、既存のLLMと同様、事前トレーニングと微調整の両方に対応できる。
30Bクリーンな事前学習トークンを用いて,同一サイズ(1Bパラメータ)のLLMと競合する性能を持つBWAreaモデルを訓練した。
完全自動回帰LDMとは異なり、汚いデータが意図せずに現れる場合、事前学習性能は劣化しない。
このことは、BWAreaモデルの分解された構造が、残酷なデータ選択とラベル付けの労力を減らすことの利点を示している。
最後に、BWAreaモデルが、下流の報酬指標を用いて認知ポリシーを微調整することで、より簡単な調整を容易にすることで、制御性を向上させることを明らかにした。
TextWorldとBigBench Hardという2つのスイートの10タスクのうち、9タスクにおいて、自動回帰LDMよりも優れたパフォーマンスを示す。
Large language models (LLMs) have catalyzed a paradigm shift in natural language processing, yet their limited controllability poses a significant challenge for downstream applications. We aim to address this by drawing inspiration from the neural mechanisms of the human brain, specifically Broca's and Wernicke's areas, which are crucial for language generation and comprehension, respectively. In particular, Broca's area receives cognitive decision signals from Wernicke's area, treating the language generation as an intricate decision-making process, which differs from the fully auto-regressive language generation of existing LLMs. In a similar vein, our proposed system, the BWArea model, conceptualizes language generation as a decision-making task. This model has three components: a language world model, an inverse dynamics model, and a cognitive policy. Like Wernicke's area, the inverse dynamics model is designed to deduce the underlying cognitive intentions, or latent actions, behind each token. The BWArea model is amenable to both pre-training and fine-tuning like existing LLMs. With 30B clean pre-training tokens, we have trained a BWArea model, which achieves competitive performance with LLMs of equal size (1B parameters). Unlike fully auto-regressive LLMs, its pre-training performance does not degenerate if dirty data unintentionally appears. This shows the advantage of a decomposed structure of BWArea model in reducing efforts in laborious data selection and labeling. Finally, we reveal that the BWArea model offers enhanced controllability via fine-tuning the cognitive policy with downstream reward metrics, thereby facilitating alignment with greater simplicity. On 9 out of 10 tasks from two suites, TextWorld and BigBench Hard, our method shows superior performance to auto-regressive LLMs. | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# LabObf:ラベル難読化による垂直的フェデレーション学習のためのラベル保護スキーム
LabObf: A Label Protection Scheme for Vertical Federated Learning Through Label Obfuscation ( http://arxiv.org/abs/2405.17042v1 ) ライセンス: Link先を確認 | Ying He, Mingyang Niu, Jingyu Hua, Yunlong Mao, Xu Huang, Chen Li, Sheng Zhong, | (参考訳) 垂直連合学習における最も一般的なアーキテクチャの1つである分割学習は、プライバシー保護の特性により、業界で広く利用されている。
このアーキテクチャでは、ラベルを保持する当事者は、機能データ不足によりモデルパフォーマンスを改善するために、他の当事者との協力を求めます。
それぞれの参加者は、自身の特徴データから隠れ表現を学習し、ラベルホルダーが保持するトップモデルに埋め込みベクトルをアップロードして最終的な予測を行う、自己定義ボトムモデルを持っている。
この設計により、参加者はデータを直接交換することなく共同トレーニングを行うことができる。
しかし、既存の研究によると、悪意のある参加者は、アップロードされた埋め込みからラベル情報を推測し、プライバシーの漏洩につながる可能性がある。
本稿では,まず,埋め込みを手動で修正して既存の防衛戦略を損なう埋め込み拡張攻撃を提案する。
その後,従来の1ホットベクトルラベルを複数の数値ソフトラベルにランダムにマッピングし,ラベルを推測する難しさを著しく増大させる「LabObf」という新しいラベル難読化防御戦略を提案する。
本研究では, 4種類のデータセットに対して実験を行い, 実験結果から, LabObfはモデル精度を維持しつつ, 攻撃者の成功率をほぼランダムに推定できることを示した。
Split learning, as one of the most common architectures in vertical federated learning, has gained widespread use in industry due to its privacy-preserving characteristics. In this architecture, the party holding the labels seeks cooperation from other parties to improve model performance due to insufficient feature data. Each of these participants has a self-defined bottom model to learn hidden representations from its own feature data and uploads the embedding vectors to the top model held by the label holder for final predictions. This design allows participants to conduct joint training without directly exchanging data. However, existing research points out that malicious participants may still infer label information from the uploaded embeddings, leading to privacy leakage. In this paper, we first propose an embedding extension attack that manually modifies embeddings to undermine existing defense strategies, which rely on constraining the correlation between the embeddings uploaded by participants and the labels. Subsequently, we propose a new label obfuscation defense strategy, called `LabObf', which randomly maps each original one-hot vector label to multiple numerical soft labels with values intertwined, significantly increasing the difficulty for attackers to infer the labels. We conduct experiments on four different types of datasets, and the results show that LabObf can reduce the attacker's success rate to near random guessing while maintaining an acceptable model accuracy. | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# 知識グラフと大規模言語モデルを用いた興味深い研究アイデアの生成と評価
Generation and human-expert evaluation of interesting research ideas using knowledge graphs and large language models ( http://arxiv.org/abs/2405.17044v1 ) ライセンス: Link先を確認 | Xuemei Gu, Mario Krenn, | (参考訳) 何百万もの研究論文にアクセス可能な高度な人工知能(AI)システムは、人間だけでは考えられないかもしれない新しい研究アイデアを刺激する可能性がある。
しかし、これらのAI生成のアイデアはどれくらい興味深いのか、そして、どのように品質を改善することができるのか?
ここでは,5800万以上の科学論文から構築された知識グラフを用いて,GPT-4へのインタフェースを通じて,パーソナライズされた研究アイデアを生成するシステムであるSciMuseを紹介する。
我々はマックス・プランク・ソサエティの100人以上の研究グループリーダーと大規模な人間評価を行い、その関心度に基づいて4000以上のパーソナライズされた研究思想をランク付けした。
この評価により、科学的な関心と知識グラフのコア特性の関係を理解することができる。
データ効率のよい機械学習は、高い精度で研究の関心を予測でき、生成した研究のアイデアの関心レベルを最適化できる。
この研究は、予期せぬコラボレーションを触媒し、科学者にとって興味深い道筋を示唆する、人工的な科学的なミューズへの一歩を表している。
Advanced artificial intelligence (AI) systems with access to millions of research papers could inspire new research ideas that may not be conceived by humans alone. However, how interesting are these AI-generated ideas, and how can we improve their quality? Here, we introduce SciMuse, a system that uses an evolving knowledge graph built from more than 58 million scientific papers to generate personalized research ideas via an interface to GPT-4. We conducted a large-scale human evaluation with over 100 research group leaders from the Max Planck Society, who ranked more than 4,000 personalized research ideas based on their level of interest. This evaluation allows us to understand the relationships between scientific interest and the core properties of the knowledge graph. We find that data-efficient machine learning can predict research interest with high precision, allowing us to optimize the interest-level of generated research ideas. This work represents a step towards an artificial scientific muse that could catalyze unforeseen collaborations and suggest interesting avenues for scientists. | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# 絡み合ったアンシラ成分を持つ修正6状態暗号プロトコル
Modified Six State Cryptographic Protocol with Entangled Ancilla Component States ( http://arxiv.org/abs/2405.17046v1 ) ライセンス: Link先を確認 | Rashi Jain, Satyabrata Adhikari, | (参考訳) 現実的な状況では、混乱を伴わずに、2つの遠方の当事者間で安全にコミュニケーションすることは極めて困難である。
これらの障害は外部ノイズによるものか、または送信機と受信機の間に座っている盗聴器の干渉によるものかもしれない。
本研究では,盗聴器が絡み合ったアンシラ状態を構築したとしても,シークレットキーの発生状況の存在を調査し,インターセプトされたキュービットから情報を取り出す方法を提案する。
この課題を達成するために、Eveが単一変換を構築できる6状態QKDプロトコルを検討、修正し、すべてのアンシラ成分を出力に絡み合わせることができる。
そして,アリスとボブとアリスとイブの相互情報を算出し,イブの存在下においても秘密鍵が生成される地域を特定する。
一般に、アリスとイヴの相互情報は乱Dにのみ依存するだけでなく、アンシラ成分状態のコンカレンスにも依存することを示した。
さらに,イヴが絡み合ったアンシラ状態を特定の方法で操作した場合,アリスとイヴの無秩序な相互情報を導出できることが示唆された。
このようにして、もし障害が十分に大きいとしても、秘密鍵がアリスとボブの間に生成可能であることを示すことができる。
さらに,6状態QKDプロトコルは6状態QKDプロトコルが秘密鍵を生成することができないことを示す。
In a realistic situation, it is very difficult to communicate securely between two distant parties without introducing any disturbances. These disturbances might occur either due to external noise or may be due to the interference of an eavesdropper sitting in between the sender and the receiver. In this work, we probe here the existence of the possibility of the situation of generation of a secret key even if the eavesdropper is able to construct an entangled ancilla state in such a way that she can extract information from the intercepted qubit. To achieve this task, we consider and modify the six-state QKD protocol in which Eve can construct the unitary transformation that may make all ancilla components entangled at the output. Then, we calculate the mutual information between Alice and Bob and Alice and Eve, and identify the region where the secret key is generated even in the presence of Eve. We find that, in general, the mutual information of Alice and Eve depends not only on the disturbance D, but here we have shown that it also depends on the concurrence of the ancilla component states. We have further shown that it is possible to derive the disturbance-free mutual information of Alice and Eve, if Eve manipulates her entangled ancilla state in a particular manner. Thus, in this way, we are able to show that a secret key can be generated between Alice and Bob even if the disturbance is large enough. Moreover, we show that Bruss's six state QKD protocol failed to generate the secret key in the region where the modified six-state QKD protocol can generate the secret key. | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# 言語からの解釈可能なロボットマニピュレーション
Interpretable Robotic Manipulation from Language ( http://arxiv.org/abs/2405.17047v1 ) ライセンス: Link先を確認 | Boyuan Zheng, Jianlong Zhou, Fang Chen, | (参考訳) 人間は自然に言語命令を使って知識を伝えるが、これは機械にとって、特にマルチタスクロボット操作環境の文脈において、はるかに複雑であることを示すプロセスである。
自然言語は、人間が新しい知識を得るための主要な媒体であり、人間が理解できる概念を機械で学習できる形式に翻訳するための直感的な橋を提供する。
この統合を促進するために,操作タスクに特化して設計された,Ex-PERACTと呼ばれる説明可能な行動クローニングエージェントを導入する。
このエージェントは、自然言語を組み込んで学習プロセスを強化する階層構造によって区別される。
トップレベルでは、モデルは個別のスキルコードを学ぶことを任務とし、下位レベルでは、ポリシーネットワークは問題をボクセル化されたグリッドに変換し、離散化されたアクションをボクセルグリッドにマップする。
提案手法は,RLBenchベンチマークを用いた8つの操作課題にまたがって評価し,Ex-PERACTが競合する政策性能を達成するだけでなく,複雑な環境下でのヒューマンインストラクションとマシン実行のギャップを効果的に橋渡しすることを示した。
Humans naturally employ linguistic instructions to convey knowledge, a process that proves significantly more complex for machines, especially within the context of multitask robotic manipulation environments. Natural language, moreover, serves as the primary medium through which humans acquire new knowledge, presenting a potentially intuitive bridge for translating concepts understandable by humans into formats that can be learned by machines. In pursuit of facilitating this integration, we introduce an explainable behavior cloning agent, named Ex-PERACT, specifically designed for manipulation tasks. This agent is distinguished by its hierarchical structure, which incorporates natural language to enhance the learning process. At the top level, the model is tasked with learning a discrete skill code, while at the bottom level, the policy network translates the problem into a voxelized grid and maps the discretized actions to voxel grids. We evaluate our method across eight challenging manipulation tasks utilizing the RLBench benchmark, demonstrating that Ex-PERACT not only achieves competitive policy performance but also effectively bridges the gap between human instructions and machine execution in complex environments. | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# スパース多項式最適化を用いた二元ニューラルネットワークの検証特性
Verifying Properties of Binary Neural Networks Using Sparse Polynomial Optimization ( http://arxiv.org/abs/2405.17049v1 ) ライセンス: Link先を確認 | Jianting Yang, Srećko Ðurašinović, Jean-Bernard Lasserre, Victor Magron, Jun Zhao, | (参考訳) 本稿では,BNN(Binary Neural Networks)の特性を検証する手法について検討し,敵攻撃に対する堅牢性に着目した。
計算とメモリの必要性は低いが、BNNはフル精度のシステムと同様、入力の摂動にも敏感である。
この問題を解決するための確立された方法は、主に、NP複雑性を特徴とするSatisfiability Modulo TheoriesとMixed-Integer Linear Programmingの技術に基づいており、スケーラビリティの問題に直面していることが多い。
スパース多項式最適化から導かれる半有限プログラミング緩和を用いた代替手法を提案する。
我々のアプローチは連続的な入力空間と互換性があり、浮動小数点計算に伴う数値問題を緩和するだけでなく、より厳密な一階半定緩和の戦略的利用によって検証のスケーラビリティを向上させる。
本手法の有効性を, 共に$\|に対するロバスト性を検証する。
\|_\infty$と$\|。
\|_2$ベースの敵攻撃。
This paper explores methods for verifying the properties of Binary Neural Networks (BNNs), focusing on robustness against adversarial attacks. Despite their lower computational and memory needs, BNNs, like their full-precision counterparts, are also sensitive to input perturbations. Established methods for solving this problem are predominantly based on Satisfiability Modulo Theories and Mixed-Integer Linear Programming techniques, which are characterized by NP complexity and often face scalability issues. We introduce an alternative approach using Semidefinite Programming relaxations derived from sparse Polynomial Optimization. Our approach, compatible with continuous input space, not only mitigates numerical issues associated with floating-point calculations but also enhances verification scalability through the strategic use of tighter first-order semidefinite relaxations. We demonstrate the effectiveness of our method in verifying robustness against both $\|.\|_\infty$ and $\|.\|_2$-based adversarial attacks. | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# HeNCler: 学習された非対称類似性による不テロ親和性グラフのノードクラスタリング
HeNCler: Node Clustering in Heterophilous Graphs through Learned Asymmetric Similarity ( http://arxiv.org/abs/2405.17050v1 ) ライセンス: Link先を確認 | Sonny Achten, Francesco Tonin, Volkan Cevher, Johan A. K. Suykens, | (参考訳) ヘテロ親和性グラフのクラスタリングノードは、従来の手法でしばしば見過ごされる非対称な関係のため、ユニークな課題を呈する。
これらの問題に対処するために、HeNCler(Heterophilous Node Clusteringの新しいアプローチ)を紹介します。
我々の手法は、重み付きカーネル特異値分解を定義して、非対称な類似性グラフを作成し、有向グラフと無向グラフの両方に適用することから始まる。
さらに、この定式化の二重問題は非対称なスペクトルクラスタリングと一致し、ホモフィリーに頼らずに学習グラフの類似性を解釈する。
両手法の計算困難を回避し,主問題を直接解く能力を実証する。
HeNClerは異種グラフコンテキスト内のノードクラスタリングタスクの性能を著しく向上させる。
Clustering nodes in heterophilous graphs presents unique challenges due to the asymmetric relationships often overlooked by traditional methods, which moreover assume that good clustering corresponds to high intra-cluster and low inter-cluster connectivity. To address these issues, we introduce HeNCler - a novel approach for Heterophilous Node Clustering. Our method begins by defining a weighted kernel singular value decomposition to create an asymmetric similarity graph, applicable to both directed and undirected graphs. We further establish that the dual problem of this formulation aligns with asymmetric kernel spectral clustering, interpreting learned graph similarities without relying on homophily. We demonstrate the ability to solve the primal problem directly, circumventing the computational difficulties of the dual approach. Experimental evidence confirms that HeNCler significantly enhances performance in node clustering tasks within heterophilous graph contexts. | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# BeamVQ:物理を意識した自己学習による時空間予測モデル
BeamVQ: Aligning Space-Time Forecasting Model via Self-training on Physics-aware Metrics ( http://arxiv.org/abs/2405.17051v1 ) ライセンス: Link先を確認 | Hao Wu, Xingjian Shi, Ziyue Huang, Penghao Zhao, Wei Xiong, Jinbao Xue, Yangyu Tao, Xiaomeng Huang, Weiyan Wang, | (参考訳) データ駆動型ディープラーニングは、複雑な物理時空システムをモデル化するための新しいパラダイムとして登場した。
これらのデータ駆動手法は、統計メトリクスを最適化することでパターンを学習し、従来のモデル駆動数値法とは異なり、物理法則の遵守を無視する傾向にある。
したがって、物理的に現実的でない予測をしばしば生成する。
一方、データ駆動モデルから大量の高品質な予測をサンプリングすることで、いくつかの予測は他の予測よりも物理的に妥当になり、将来何が起こるかに近いものになるだろう。
本研究では,ベクトル量子化によるemph{Beam search by Vector Quantization} (BeamVQ)を提案する。
BeamVQの鍵は、物理を意識したメトリクスでフィルタリングされた自己生成サンプルのモデルをトレーニングすることだ。
異なるバックボーンアーキテクチャを柔軟にサポートするために、BeamVQはコードバンクを活用してエンコーダ・デコーダモデルを連続状態空間に変換する。
その後、ビームサーチを用いて高品質なシークエンスをサンプリングし、高い物理認識スコアを持つシークエンスを保持し、新しいデータセットをトレーニングする。
総合的な実験によると、BeamVQは5つのデータセット上の10のバックボーンに対して平均的な統計的スキルスコアを32%以上向上させただけでなく、物理学を意識したメトリクスを大幅に強化した。
Data-driven deep learning has emerged as the new paradigm to model complex physical space-time systems. These data-driven methods learn patterns by optimizing statistical metrics and tend to overlook the adherence to physical laws, unlike traditional model-driven numerical methods. Thus, they often generate predictions that are not physically realistic. On the other hand, by sampling a large amount of high quality predictions from a data-driven model, some predictions will be more physically plausible than the others and closer to what will happen in the future. Based on this observation, we propose \emph{Beam search by Vector Quantization} (BeamVQ) to enhance the physical alignment of data-driven space-time forecasting models. The key of BeamVQ is to train model on self-generated samples filtered with physics-aware metrics. To be flexibly support different backbone architectures, BeamVQ leverages a code bank to transform any encoder-decoder model to the continuous state space into discrete codes. Afterwards, it iteratively employs beam search to sample high-quality sequences, retains those with the highest physics-aware scores, and trains model on the new dataset. Comprehensive experiments show that BeamVQ not only gave an average statistical skill score boost for more than 32% for ten backbones on five datasets, but also significantly enhances physics-aware metrics. | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# SelfCP: 凍結した大言語モデルを使って1/12に長いプロンプトを圧縮する
SelfCP: Compressing Long Prompt to 1/12 Using the Frozen Large Language Model Itself ( http://arxiv.org/abs/2405.17052v1 ) ライセンス: Link先を確認 | Jun Gao, | (参考訳) ロングプロンプトは、LLM(Large Language Models)を使用する場合、ハードウェアコストを大幅に削減する。
残念なことに、要約のような多くのタスクは、必然的に長いタスクインプットを導入し、文脈内学習の幅広い適用により、即時長が爆発的になる。
本稿では,LLMの言語理解能力に触発されて,LLM \textbf{itself} を用いてlong \textbf{C}ompress long \textbf{P}rompt をコンパクトな仮想トークンに変換する SelfCP を提案する。
SelfCPは、まずエンコーダとしてプロンプトを圧縮し、次にデコーダとして応答を生成する。
具体的には、長いプロンプトを前提として、圧縮のために長いセグメント内に特別なトークンを配置し、LLMに$k$仮想トークンを生成するように指示する。
その後、仮想トークンは非圧縮プロンプトと結合し、同じLSMに入力されて応答を生成する。
一般に、SelfCPはプロンプトの無条件および条件圧縮を促進し、標準タスクと特定の目的に適合する。
エンコーダとデコーダは凍結されているため、SelfCPは17Mのトレーニング可能なパラメータしか持たず、様々なバックボーンに最適な適応を可能にする。
2つのLLMバックボーンでSelfCPを実装し、ドメイン内および外部のタスクで評価する。
その結果、圧縮された仮想トークンは、12 \times$大きな元のプロンプトを効果的に置き換えることができることがわかった。
Long prompt leads to huge hardware costs when using Large Language Models (LLMs). Unfortunately, many tasks, such as summarization, inevitably introduce long task-inputs, and the wide application of in-context learning easily makes the prompt length explode. Inspired by the language understanding ability of LLMs, this paper proposes SelfCP, which uses the LLM \textbf{itself} to \textbf{C}ompress long \textbf{P}rompt into compact virtual tokens. SelfCP applies a general frozen LLM twice, first as an encoder to compress the prompt and then as a decoder to generate responses. Specifically, given a long prompt, we place special tokens within the lengthy segment for compression and signal the LLM to generate $k$ virtual tokens. Afterward, the virtual tokens concatenate with the uncompressed prompt and are fed into the same LLM to generate the response. In general, SelfCP facilitates the unconditional and conditional compression of prompts, fitting both standard tasks and those with specific objectives. Since the encoder and decoder are frozen, SelfCP only contains 17M trainable parameters and allows for convenient adaptation across various backbones. We implement SelfCP with two LLM backbones and evaluate it in both in- and out-domain tasks. Results show that the compressed virtual tokens can substitute $12 \times$ larger original prompts effectively | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# WirelessLLM: 大規模言語モデルをワイヤレスインテリジェンスに活用する
WirelessLLM: Empowering Large Language Models Towards Wireless Intelligence ( http://arxiv.org/abs/2405.17053v1 ) ライセンス: Link先を確認 | Jiawei Shao, Jingwen Tong, Qiong Wu, Wei Guo, Zijian Li, Zehong Lin, Jun Zhang, | (参考訳) 無線技術の急速な進化とネットワークインフラの複雑化は、通信ネットワークの設計、構成、管理のパラダイムシフトを必要とする。
大規模言語モデル(LLM)の最近の進歩は、無線通信システムに革命をもたらす可能性への関心を喚起している。
しかし、無線システムにおけるLLMの研究は、通信言語理解の直接的な応用に限られている。
本稿では,無線通信ネットワークのユニークな課題と要件に対処するため,LLMを適応・拡張するための総合的なフレームワークであるWirelessLLMを提案する。
まず,WirelessLLMの基盤となる3つの基本原理,すなわち知識のアライメント,知識融合,知識進化の3つを同定する。
そこで我々は,WirelessLLMの構築を可能にする技術について検討し,即時エンジニアリング,検索拡張生成,ツール利用,マルチモーダル事前学習,ドメイン固有の微調整などについて検討した。
さらに、無線ネットワークにおける典型的な問題を解決するために、WirelessLLMの実用性と利点を示す3つのケーススタディを示す。
最後に,本論文の結論として,今後の課題と今後の研究への可能性について概説する。
The rapid evolution of wireless technologies and the growing complexity of network infrastructures necessitate a paradigm shift in how communication networks are designed, configured, and managed. Recent advancements in Large Language Models (LLMs) have sparked interest in their potential to revolutionize wireless communication systems. However, existing studies on LLMs for wireless systems are limited to a direct application for telecom language understanding. To empower LLMs with knowledge and expertise in the wireless domain, this paper proposes WirelessLLM, a comprehensive framework for adapting and enhancing LLMs to address the unique challenges and requirements of wireless communication networks. We first identify three foundational principles that underpin WirelessLLM: knowledge alignment, knowledge fusion, and knowledge evolution. Then, we investigate the enabling technologies to build WirelessLLM, including prompt engineering, retrieval augmented generation, tool usage, multi-modal pre-training, and domain-specific fine-tuning. Moreover, we present three case studies to demonstrate the practical applicability and benefits of WirelessLLM for solving typical problems in wireless networks. Finally, we conclude this paper by highlighting key challenges and outlining potential avenues for future research. | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# 連続学習におけるデータ認識とパラメータ認識のロバスト性の改善
Improving Data-aware and Parameter-aware Robustness for Continual Learning ( http://arxiv.org/abs/2405.17054v1 ) ライセンス: Link先を確認 | Hanxi Xiao, Fan Lyu, | (参考訳) 継続学習(CL)タスクのゴールは、新しい知識と古い知識の可塑性と安定性のバランスを保ちながら、連続的に複数の新しいタスクを継続的に学習することである。
本稿では, 異常勾配と予期せぬモデル更新を生じる不効率な外乱処理から, この不整合が生じることを解析する。
この問題に対処するために、ロバスト連続学習法(RCL)を提案することにより、CLのデータ認識とパラメータ認識の堅牢性を向上する。
データの観点からは、一様性とアライメントの概念に基づいて対照的な損失を発生させ、オフレイアに適用可能な特徴分布を形成する。
パラメータの観点から、最悪の場合の摂動に対する前方戦略を示し、パラメータに頑健な勾配予測を適用する。
3つのベンチマークによる実験結果から,提案手法はロバスト性を効果的に維持し,新たなSOTA(State-of-the-art)結果が得られることが示された。
コードは、https://github.com/HanxiXiao/RCLで入手できる。
The goal of Continual Learning (CL) task is to continuously learn multiple new tasks sequentially while achieving a balance between the plasticity and stability of new and old knowledge. This paper analyzes that this insufficiency arises from the ineffective handling of outliers, leading to abnormal gradients and unexpected model updates. To address this issue, we enhance the data-aware and parameter-aware robustness of CL, proposing a Robust Continual Learning (RCL) method. From the data perspective, we develop a contrastive loss based on the concepts of uniformity and alignment, forming a feature distribution that is more applicable to outliers. From the parameter perspective, we present a forward strategy for worst-case perturbation and apply robust gradient projection to the parameters. The experimental results on three benchmarks show that the proposed method effectively maintains robustness and achieves new state-of-the-art (SOTA) results. The code is available at: https://github.com/HanxiXiao/RCL | 翻訳日:2024-05-28 15:52:11 公開日:2024-05-27 |
# ReflectionCoder: 強化されたワンオフコード生成のためのリフレクションシーケンスから学ぶ
ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation ( http://arxiv.org/abs/2405.17057v1 ) ライセンス: Link先を確認 | Houxing Ren, Mingjie Zhan, Zhongyuan Wu, Aojun Zhou, Junting Pan, Hongsheng Li, | (参考訳) コード生成は、コードの自動補完や数学的推論など、様々なタスクにおいて重要な役割を果たす。
以前の作業では、コンパイラからのフィードバックの統合など、コード生成のパフォーマンスを向上させる多くの方法が提案されていた。
コンパイラフィードバックを統合することで構築されたリフレクションシーケンスを効果的に活用し、ワンオフコード生成性能を向上させる新しい手法であるReflectionCoderを提案する。
さらに,これらのリフレクションシーケンスを効果的に活用するために,リフレクション自己蒸留と動的マスク蒸留を提案する。
また,HumanEval(+),MBPP(+),MultiPl-Eの3つのベンチマークにおいて,本手法で微調整したモデルが最先端性能を実現することを示す。
特に、ReflectionCoder-DeepSeek-Coder-33Bは、HumanEval (+)で82.9 (76.8)、MBPP (+)で84.1 (72.0)のパス@1に達し、GPT-3.5-TurboとClaude-3-opusに匹敵する。
コードドメインを超えて、このアプローチは最終結果にフォーカスし、長い推論パスを必要とする他のドメインに利益をもたらすと信じています。
コードとデータはhttps://github.com/SenseLLM/ReflectionCoder.comで公開されている。
Code generation plays a crucial role in various tasks, such as code auto-completion and mathematical reasoning. Previous work has proposed numerous methods to enhance code generation performance, including integrating feedback from the compiler. Inspired by this, we present ReflectionCoder, a novel approach that effectively leverages reflection sequences constructed by integrating compiler feedback to improve one-off code generation performance. Furthermore, we propose reflection self-distillation and dynamically masked distillation to effectively utilize these reflection sequences. Extensive experiments on three benchmarks, i.e., HumanEval (+), MBPP (+), and MultiPl-E, demonstrate that models fine-tuned with our method achieve state-of-the-art performance. Notably, ReflectionCoder-DeepSeek-Coder-33B reaches pass@1 of 82.9 (76.8) on HumanEval (+) and 84.1 (72.0) on MBPP (+), on par with GPT-3.5-Turbo and Claude-3-opus, and surpasses early GPT-4. Beyond the code domain, we believe this approach can benefit other domains that focus on final results and require long reasoning paths. Code and data are available at https://github.com/SenseLLM/ReflectionCoder. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# 心血管疾患検出における機械学習アルゴリズムの比較検討
Comparative Study of Machine Learning Algorithms in Detecting Cardiovascular Diseases ( http://arxiv.org/abs/2405.17059v1 ) ライセンス: Link先を確認 | Dayana K, S. Nandini, Sanjjushri Varshini R, | (参考訳) 機械学習技術を用いた心血管疾患(CVD)の検出は、早期発見、精度、効率を高めることを目的とした医療診断の大幅な進歩を示している。
本研究では,ロジスティック回帰,決定木,ランダムフォレスト,グラディエントブースティング,サポートベクトルマシン(SVM),K-Nearest Neighbors(KNN),XGBoostなど,さまざまな機械学習アルゴリズムの比較分析を行った。
データ収集、前処理、モデル選択、ハイパーパラメータチューニング、トレーニング、評価、最適なモデルの選択を含む構造化ワークフローを活用することで、この研究は、診断ツールの改善に対する重要なニーズに対処する。
本研究は, 信頼性予測のためのアンサンブル法と高度なアルゴリズムの有効性を強調し, 臨床現場で容易に実装, 適応できるCVD検出のための包括的枠組みを提供する。
The detection of cardiovascular diseases (CVD) using machine learning techniques represents a significant advancement in medical diagnostics, aiming to enhance early detection, accuracy, and efficiency. This study explores a comparative analysis of various machine learning algorithms, including Logistic Regression, Decision Tree, Random Forest, Gradient Boosting, Support Vector Machine (SVM), K-Nearest Neighbors (KNN), and XGBoost. By utilising a structured workflow encompassing data collection, preprocessing, model selection and hyperparameter tuning, training, evaluation, and choice of the optimal model, this research addresses the critical need for improved diagnostic tools. The findings highlight the efficacy of ensemble methods and advanced algorithms in providing reliable predictions, thereby offering a comprehensive framework for CVD detection that can be readily implemented and adapted in clinical settings. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# 量子コンピュータ上のグラフニューラルネットワーク
Graph Neural Networks on Quantum Computers ( http://arxiv.org/abs/2405.17060v1 ) ライセンス: Link先を確認 | Yidong Liao, Xiao-Ming Zhang, Chris Ferrie, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフとして表される構造化データの解析に優れ、ソーシャルネットワーク分析やレコメンデーションシステムなどのアプリケーションで顕著なパフォーマンスを示す強力な機械学習モデルである。
しかし、古典的なGNNは大規模グラフを扱う際にスケーラビリティの問題に直面している。
本稿では,量子コンピュータ上でGNNを実装するためのフレームワークを提案する。
我々は,従来のGNNの基本型であるグラフ畳み込みネットワーク,グラフ注意ネットワーク,メッセージパッシングGNNの3つに対応する量子アルゴリズムを考案した。
SGC(Simplified Graph Convolutional)ネットワークの量子実装の複雑性解析は、時間と空間の複雑さを大幅に改善した古典的手法に比べて、潜在的な量子優位性を示している。
最小回路深さを最適化する場合、量子SGCは入力サイズの対数時間複雑性を達成する(ただし線形空間の複雑さのコストはかかる)。
最小量子ビットの使用を最適化する場合、量子SGCは入力サイズにおける空間複雑性の対数性を示し、古典的なSGCと比較して指数関数的に減少する。
これらの結果は、我々のQuantum GNNフレームワークが大規模グラフを効率的に処理できることを示唆している。
この研究は、量子コンピュータ上でより高度なグラフニューラルネットワークモデルを実装するための道を開き、グラフ構造化データを解析するための量子機械学習の新たな可能性を開く。
Graph Neural Networks (GNNs) are powerful machine learning models that excel at analyzing structured data represented as graphs, demonstrating remarkable performance in applications like social network analysis and recommendation systems. However, classical GNNs face scalability challenges when dealing with large-scale graphs. This paper proposes frameworks for implementing GNNs on quantum computers to potentially address the challenges. We devise quantum algorithms corresponding to the three fundamental types of classical GNNs: Graph Convolutional Networks, Graph Attention Networks, and Message-Passing GNNs. A complexity analysis of our quantum implementation of the Simplified Graph Convolutional (SGC) Network shows potential quantum advantages over its classical counterpart, with significant improvements in time and space complexities. Our complexities can have trade-offs between the two: when optimizing for minimal circuit depth, our quantum SGC achieves logarithmic time complexity in the input sizes (albeit at the cost of linear space complexity). When optimizing for minimal qubit usage, the quantum SGC exhibits space complexity logarithmic in the input sizes, offering an exponential reduction compared to classical SGCs, while still maintaining better time complexity. These results suggest our Quantum GNN frameworks could efficiently process large-scale graphs. This work paves the way for implementing more advanced Graph Neural Network models on quantum computers, opening new possibilities in quantum machine learning for analyzing graph-structured data. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# 多項ロジット関数近似を用いた高能率強化学習
Provably Efficient Reinforcement Learning with Multinomial Logit Function Approximation ( http://arxiv.org/abs/2405.17061v1 ) ライセンス: Link先を確認 | Long-Fei Li, Yu-Jie Zhang, Peng Zhao, Zhi-Hua Zhou, | (参考訳) 本稿では,MNL関数近似を用いたMDPの新しいクラスについて検討し,状態空間上の確率分布の正当性を保証する。
その利点にもかかわらず、非線形関数近似を導入することは、計算効率と統計効率の両方において大きな課題を提起する。
Hwang と Oh [2023] の最もよく知られている方法は、$\widetilde{\mathcal{O}}(\kappa^{-1}dH^2\sqrt{K})$ regret, where $\kappa$ is a problem-dependent amount, $d$ is the feature space dimension, $H$ is the episode length, $K$ is the number of episodes。
この結果は、線形の場合と同じ$Kで達成されるが、この方法はすべての履歴データを保存し、エピソード毎に$\mathcal{O}(K)$の計算コストに悩まされる。
さらに、$\kappa$ の量は指数関数的に小さくなり、線形の場合と比較して後悔に対する大きなギャップが生じる。
本研究は, オンラインアルゴリズムを用いて, 計算コストを$\mathcal{O}(1)$$に抑えることで, 計算上の問題に対処するものである。
そこで我々は,統計的効率を高めるために,局所的な情報を活用する2つのアルゴリズムを設計する。
さらに、$\widetilde{\mathcal{O}}(\kappa^{-1/2}dH^2\sqrt{K})$と$\widetilde{\mathcal{O}}(dH^2\sqrt{K} + \kappa^{-1}d^2H^2)$をそれぞれ改善した後悔を実現する。
最後に、より低い境界を確立し、結果の最適性を$d$と$K$で正当化する。
我々の知る限りでは、強化学習に非線形関数近似を用いながら線形関数近似とほぼ同じ計算効率と統計的効率を達成する最初の研究である。
We study a new class of MDPs that employs multinomial logit (MNL) function approximation to ensure valid probability distributions over the state space. Despite its benefits, introducing non-linear function approximation raises significant challenges in both computational and statistical efficiency. The best-known method of Hwang and Oh [2023] has achieved an $\widetilde{\mathcal{O}}(\kappa^{-1}dH^2\sqrt{K})$ regret, where $\kappa$ is a problem-dependent quantity, $d$ is the feature space dimension, $H$ is the episode length, and $K$ is the number of episodes. While this result attains the same rate in $K$ as the linear cases, the method requires storing all historical data and suffers from an $\mathcal{O}(K)$ computation cost per episode. Moreover, the quantity $\kappa$ can be exponentially small, leading to a significant gap for the regret compared to the linear cases. In this work, we first address the computational concerns by proposing an online algorithm that achieves the same regret with only $\mathcal{O}(1)$ computation cost. Then, we design two algorithms that leverage local information to enhance statistical efficiency. They not only maintain an $\mathcal{O}(1)$ computation cost per episode but achieve improved regrets of $\widetilde{\mathcal{O}}(\kappa^{-1/2}dH^2\sqrt{K})$ and $\widetilde{\mathcal{O}}(dH^2\sqrt{K} + \kappa^{-1}d^2H^2)$ respectively. Finally, we establish a lower bound, justifying the optimality of our results in $d$ and $K$. To the best of our knowledge, this is the first work that achieves almost the same computational and statistical efficiency as linear function approximation while employing non-linear function approximation for reinforcement learning. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# インコンテキスト学習のためのデモ選択と圧縮の統一化
Unifying Demonstration Selection and Compression for In-Context Learning ( http://arxiv.org/abs/2405.17062v1 ) ライセンス: Link先を確認 | Jun Gao, | (参考訳) In-context Learning (ICL)は、様々なシナリオにおいて目覚ましい創発的な能力を示す大規模な言語モデル(LLM)を促進する。
残念なことに、デモを導入することで、迅速な長さが爆発的になり、ハードウェアに大きな負担がかかる。
加えて、ランダムなデモは通常、ICLの限られた改善を達成し、アクセス可能な候補間のデモ選択を必要とする。
従来の研究では、デモ圧縮や選択を独立して行うための追加モジュールが導入されていた。
本稿では、実演選択と圧縮を統一するICLフレームワークUniICLと、単一凍結LLMによる最終応答生成を提案する。
特に、UniICLは、まず実演と推測テキストの入力をそれぞれ短い仮想トークンに投影する。
次に、仮想トークンを候補演示と推論入力の間の潜在空間内の意味的類似性を測定することにより、適切な演示を選択するために適用する。
最後に、選択された仮想デモンストレーションと共に推論テキスト入力を同じ凍結LDMに入力して応答生成を行う。
注目すべきは、UniICLはプロジェクション層から派生した17Mのトレーニング可能なパラメータのみを含むパラメータ効率のよいフレームワークである。
生成タスクと理解タスクの両方のドメイン内および外部データセットに関する実験と分析を行い、多能かつ限定的な実証候補を伴うICLシナリオを包含する。
結果は,UniICLが圧縮,デモ選択,応答生成を効果的に統合し,24GBのCUDAアロケーションを持つIMDbの4ショットICLから64ショットICLまでのベースラインを効率的にスケールアップすることを示した。
In-context learning (ICL) facilitates large language models (LLMs) exhibiting spectacular emergent capabilities in various scenarios. Unfortunately, introducing demonstrations easily makes the prompt length explode, bringing a significant burden to hardware. In addition, random demonstrations usually achieve limited improvements in ICL, necessitating demonstration selection among accessible candidates. Previous studies introduce extra modules to perform demonstration compression or selection independently. In this paper, we propose an ICL framework UniICL, which Unifies demonstration selection and compression, and final response generation via a single frozen LLM. Specifically, UniICL first projects actual demonstrations and inference text inputs into short virtual tokens, respectively. Then, virtual tokens are applied to select suitable demonstrations by measuring semantic similarity within latent space among candidate demonstrations and inference input. Finally, inference text inputs together with selected virtual demonstrations are fed into the same frozen LLM for response generation. Notably, UniICL is a parameter-efficient framework that only contains 17M trainable parameters originating from the projection layer. We conduct experiments and analysis over in- and out-domain datasets of both generative and understanding tasks, encompassing ICL scenarios with plentiful and limited demonstration candidates. Results show that UniICL effectively unifies $12 \times$ compression, demonstration selection, and response generation, efficiently scaling up the baseline from 4-shot to 64-shot ICL in IMDb with 24 GB CUDA allocation | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# 量子プログラミングのためのモデル駆動工学:地上状態エネルギー計算のケーススタディ
Model-Driven Engineering for Quantum Programming: A Case Study on Ground State Energy Calculation ( http://arxiv.org/abs/2405.17065v1 ) ライセンス: Link先を確認 | Furkan Polat, Hasan Tuncer, Armin Moin, Moharram Challenger, | (参考訳) 本研究では、モデル駆動工学の原則を適用して、ゲートベースの量子コンピューティングと量子アニーリングという、2つの主要な量子プログラミング方法論を統合する新しいフレームワークを紹介する。
これは、量子プログラムの適応性、設計、拡張性を高め、様々なコンピューティングプラットフォームにおける設計と運用を容易にすることを目的としている。
この研究の顕著な成果は、ゲートベースの量子コンピュータと量子アニールの間のプログラムのマッピング方法の開発であり、これらのプログラムの自動変換に繋がる可能性がある。
具体的には、基底状態解をターゲットとした変分量子固有解アルゴリズムと量子アニーリングイジングモデルに適用する。
地上ソリューションの発見は、化学実験のシミュレーションからワクチン開発などの医学的応用まで、幅広い科学的応用に不可欠である。
このアプリケーションの成功は、量子プログラミングフレームワークの実用可能性に関するモデル駆動工学を実証し、複雑な問題を解決するために量子コンピューティングが広く使われるための明確な道を開く。
This study introduces a novel framework that brings together two main Quantum Programming methodologies, gate-based Quantum Computing and Quantum Annealing, by applying the Model-Driven Engineering principles. This aims to enhance the adaptability, design and scalability of quantum programs, facilitating their design and operation across diverse computing platforms. A notable achievement of this research is the development of a mapping method for programs between gate-based quantum computers and quantum annealers which can lead to the automatic transformation of these programs. Specifically, this method is applied to the Variational Quantum Eigensolver Algorithm and Quantum Anneling Ising Model, targeting ground state solutions. Finding ground-state solutions is crucial for a wide range of scientific applications, ranging from simulating chemistry lab experiments to medical applications, such as vaccine development. The success of this application demonstrates Model-Driven Engineering for Quantum Programming frameworks's practical viability and sets a clear path for quantum Computing's broader use in solving intricate problems. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# サターン:メモリ・マニピュレーションを用いた高効率生成分子設計
Saturn: Sample-efficient Generative Molecular Design using Memory Manipulation ( http://arxiv.org/abs/2405.17066v1 ) ライセンス: Link先を確認 | Jeff Guo, Philippe Schwaller, | (参考訳) 創薬のための分子設計は、最近、実験的な検証の波に到達し、言語ベースのバックボーンが最もよく使われているアーキテクチャである。
下流の成功の最も重要な要因は、シリコオラクルが所望の端点とよく相関しているかどうかである。
この目的のために、現在の手法では高いスループットでより安価なプロキシオラクルを使用し、高い忠実度で最も有望なサブセットを評価する。
高忠実度オラクルを直接最適化する能力は、生成設計を大幅に強化し、ヒット率を改善することが期待される。
しかし、現在のモデルはそのような見通しを考えるのに十分な効率性を持っておらず、サンプル効率の問題を実証している。
本研究では,Augmented Memoryアルゴリズムを活用し,生成分子設計におけるMambaアーキテクチャの最初の応用例を示す。
データ拡張によるリプレイがサンプル効率を向上し、Mambaがこのメカニズムをシナジスティックに活用する方法を解明する。
サターンは、薬物発見に関連するマルチパラメータ最適化タスクにおいて22のモデルより優れており、高忠実度オークルを直接最適化する可能性を考えるのに十分なサンプル効率を持つ可能性がある。
Generative molecular design for drug discovery has very recently achieved a wave of experimental validation, with language-based backbones being the most common architectures employed. The most important factor for downstream success is whether an in silico oracle is well correlated with the desired end-point. To this end, current methods use cheaper proxy oracles with higher throughput before evaluating the most promising subset with high-fidelity oracles. The ability to directly optimize high-fidelity oracles would greatly enhance generative design and be expected to improve hit rates. However, current models are not efficient enough to consider such a prospect, exemplifying the sample efficiency problem. In this work, we introduce Saturn, which leverages the Augmented Memory algorithm and demonstrates the first application of the Mamba architecture for generative molecular design. We elucidate how experience replay with data augmentation improves sample efficiency and how Mamba synergistically exploits this mechanism. Saturn outperforms 22 models on multi-parameter optimization tasks relevant to drug discovery and may possess sufficient sample efficiency to consider the prospect of directly optimizing high-fidelity oracles. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# トークン化の課題! トークン化の整合化による大規模言語モデルの劣化
Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization ( http://arxiv.org/abs/2405.17067v1 ) ライセンス: Link先を確認 | Dixuan Wang, Yanda Li, Junyuan Jiang, Zepeng Ding, Guochao Jiang, Jiaqing Liang, Deqing Yang, | (参考訳) 大きな言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
それにもかかわらず、LLMは特定のクエリに対して不正確な応答を生成する傾向があることも見いだされた。
この欠損は、LLMが実行しなければならないトークン化ステップに遡ることができるが、これは全てのLLMに固有の必然的な制限である。
実際、誤ったトークン化は、LSMが入力を正確に理解するのを妨げ、不満足な出力につながる重要なポイントである。
LLMのこの欠陥を実証するために、私たちは$\textbf{ADT (Adversarial Dataset for Tokenizer)$と名づけられた敵対的データセットを構築した。
ADTは、手動で構築されたADT-Humanと自動生成されたADT-Autoの2つのサブセットで構成されている。
GPT-4o, Llama-3, Qwen2.5-maxなど, 主要なLLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが実証された。
さらに,我々の自動データ生成手法は効率的かつ堅牢であることが証明されており,オープンソース LLM にも適用可能である。
我々の知る限り、私たちの研究は、トークンセグメンテーションに挑戦する上でLLMの脆弱性を最初に調査し、トークン化プロセスとアルゴリズムを最適化することでLLMの能力を改善するためのその後の研究に光を当てる。
Large Language Models (LLMs) have shown remarkable capabilities in language understanding and generation. Nonetheless, it was also witnessed that LLMs tend to produce inaccurate responses to specific queries. This deficiency can be traced to the tokenization step LLMs must undergo, which is an inevitable limitation inherent to all LLMs. In fact, incorrect tokenization is the critical point that hinders LLMs in understanding the input precisely, thus leading to unsatisfactory output. To demonstrate this flaw of LLMs, we construct an adversarial dataset, named as $\textbf{ADT (Adversarial Dataset for Tokenizer)}$, which draws upon the vocabularies of various open-source LLMs to challenge LLMs' tokenization. ADT consists of two subsets: the manually constructed ADT-Human and the automatically generated ADT-Auto. Our empirical results reveal that our ADT is highly effective on challenging the tokenization of leading LLMs, including GPT-4o, Llama-3, Qwen2.5-max and so on, thus degrading these LLMs' capabilities. Moreover, our method of automatic data generation has been proven efficient and robust, which can be applied to any open-source LLMs. To the best of our knowledge, our study is the first to investigating LLMs' vulnerability in terms of challenging their token segmentation, which will shed light on the subsequent research of improving LLMs' capabilities through optimizing their tokenization process and algorithms. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# ランゲヴィンダイナミクスのポアソン中間点法:拡散モデルにおける効率的な離散化の可能性
The Poisson Midpoint Method for Langevin Dynamics: Provably Efficient Discretization for Diffusion Models ( http://arxiv.org/abs/2405.17068v1 ) ライセンス: Link先を確認 | Saravanan Kandasamy, Dheeraj Nagaraj, | (参考訳) Langevin Dynamicsは、サンプリングと生成モデリングの中心となる確率微分方程式(SDE)であり、時間離散化によって実装されている。
オイラー・マルヤマ離散化に基づくランゲヴィン・モンテカルロ(LMC)は最も単純かつ最も研究されたアルゴリズムである。
LMCは緩やかな収束に悩まされ、品質のよいサンプルを得るためには小さなステップのステップをたくさん必要とします。
これは、多数のステップが最高のサンプルを与える拡散モデルの場合、非常に重要になるが、品質はより少ないステップで急速に低下する。
ランダム化中点法(Randomized Midpoint Method)は, 強対数圏分布からのサンプリングのために, ランゲヴィン力学のより優れた離散化法として提案されている。
しかし、拡散モデルのような重要な応用は、非ログ凹凸密度を含み、時間的に異なるドリフトを含む。
そこで我々は,その変種であるPoisson Midpoint Methodを提案する。
これは非常に弱い仮定の下で LMC の二次的なスピードアップが得られることを証明している。
画像生成のための拡散モデルに本手法を適用し,1000のニューラル・ネットワーク・コールと50-80のニューラル・ネットワーク・コールを併用したDDPMの品質を維持できることを示す。
Langevin Dynamics is a Stochastic Differential Equation (SDE) central to sampling and generative modeling and is implemented via time discretization. Langevin Monte Carlo (LMC), based on the Euler-Maruyama discretization, is the simplest and most studied algorithm. LMC can suffer from slow convergence - requiring a large number of steps of small step-size to obtain good quality samples. This becomes stark in the case of diffusion models where a large number of steps gives the best samples, but the quality degrades rapidly with smaller number of steps. Randomized Midpoint Method has been recently proposed as a better discretization of Langevin dynamics for sampling from strongly log-concave distributions. However, important applications such as diffusion models involve non-log concave densities and contain time varying drift. We propose its variant, the Poisson Midpoint Method, which approximates a small step-size LMC with large step-sizes. We prove that this can obtain a quadratic speed up of LMC under very weak assumptions. We apply our method to diffusion models for image generation and show that it maintains the quality of DDPM with 1000 neural network calls with just 50-80 neural network calls and outperforms ODE based methods with similar compute. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# テキスト・ツー・イメージモデルの学習不要版作成
Training-free Editioning of Text-to-Image Models ( http://arxiv.org/abs/2405.17069v1 ) ライセンス: Link先を確認 | Jinqi Wang, Yunfei Fu, Zhangcan Ding, Bailin Deng, Yu-Kun Lai, Yipeng Qin, | (参考訳) ソフトウェア産業が特定のユーザグループやユースケースに合わせて異なるエディションやバージョンの製品を提供するというプラクティスに触発されて、テキスト・ツー・イメージ・モデルのための新しいタスク、すなわち、トレーニング不要のエディションを提案する。
具体的には、リトレーニングなしでベーステキスト・ツー・イメージモデルのバリエーションを作成することを目的としており、モデルがさまざまなユーザ・グループのニーズに応えたり、異なる機能や機能を提供したりすることを可能にする。
そこで本研究では,テキストエンコーダ(例えばCLIP)の潜在空間における概念部分空間として,与えられたテキスト・ツー・イメージモデルの異なるエディションを定式化できることを提案する。
このような概念のサブスペースでは、すべてのポイントが特定のユーザニーズを満たす(例えば、草/地面/落ち葉に横たわる猫の画像を生成する)。
技術的には、特定のユーザニーズや要求に対応する代表テキスト埋め込みから所望のコンセプト部分空間を得るために、主成分分析(PCA)を適用する。
与えられたプロンプトのテキストをこれらの低次元部分空間に投影することで、再トレーニングなしに効率的なモデル版作成が可能になる。
直感的には、提案したエディションのパラダイムにより、サービスプロバイダは、ユーザのプロンプト(例えば、犬、人など)に関係なく、画像生成を猫に制限する"cat edition"(または他のエディション)にベースモデルをカスタマイズすることができます。
これは、製品分化、ターゲット機能、価格戦略のための新しい次元を導入し、テキストから画像へのジェネレータのための新しいビジネスモデルをアンロックする。
広範にわたる実験結果から,本手法の有効性と,様々なドメインやアプリケーションにまたがるカスタマイズされたテキスト・ツー・イメージ・モデル版の実現の可能性が示された。
Inspired by the software industry's practice of offering different editions or versions of a product tailored to specific user groups or use cases, we propose a novel task, namely, training-free editioning, for text-to-image models. Specifically, we aim to create variations of a base text-to-image model without retraining, enabling the model to cater to the diverse needs of different user groups or to offer distinct features and functionalities. To achieve this, we propose that different editions of a given text-to-image model can be formulated as concept subspaces in the latent space of its text encoder (e.g., CLIP). In such a concept subspace, all points satisfy a specific user need (e.g., generating images of a cat lying on the grass/ground/falling leaves). Technically, we apply Principal Component Analysis (PCA) to obtain the desired concept subspaces from representative text embedding that correspond to a specific user need or requirement. Projecting the text embedding of a given prompt into these low-dimensional subspaces enables efficient model editioning without retraining. Intuitively, our proposed editioning paradigm enables a service provider to customize the base model into its "cat edition" (or other editions) that restricts image generation to cats, regardless of the user's prompt (e.g., dogs, people, etc.). This introduces a new dimension for product differentiation, targeted functionality, and pricing strategies, unlocking novel business models for text-to-image generators. Extensive experimental results demonstrate the validity of our approach and its potential to enable a wide range of customized text-to-image model editions across various domains and applications. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# 一般化付加モデルを用いた時限電力負荷の効率的な中期予測
Efficient mid-term forecasting of hourly electricity load using generalized additive models ( http://arxiv.org/abs/2405.17070v1 ) ライセンス: Link先を確認 | Monika Zimmermann, Florian Ziel, | (参考訳) 正確な中期(週から1年)の電力負荷予測は、発電所運営における戦略的意思決定、供給の安全とグリッドの安定性、エネルギー取引に不可欠である。
多くのモデルは時間的負荷(時間から数日)を効果的に予測するが、中期予測ソリューションは乏しい。
中期の負荷予測では、日、週、年ごとの季節的・自動回帰効果に加えて、天候や休日的な影響を捉え、データにおける社会経済的非定常性も重要なモデリング上の課題を提起している。
これらの課題に対処するために,解釈可能なP-スプラインから構築され,自己回帰後処理によって強化された一般化付加モデル(GAM)を用いた新しい予測手法を提案する。
このモデルは、スムーズな温度、非定常状態をモデル化したETS(Error-Trend-Seasonal)、平日の変動を伴う休日効果のニュアンスな表現、季節情報を入力として利用する。
提案手法は欧州24カ国の負荷データに基づいて評価される。
この分析は、モデルが最先端の手法と比較して予測精度を著しく向上するだけでなく、その完全な解釈可能性を考えると、個々のコンポーネントが予測負荷に与える影響についての貴重な洞察を提供することを示している。
日々のTSO予測に類似したパフォーマンスを達成するために、数秒間数秒の高速な計算時間を数時間の時間データで達成することは、電力システム産業における実用的な応用の可能性を示している。
Accurate mid-term (weeks to one year) hourly electricity load forecasts are essential for strategic decision-making in power plant operation, ensuring supply security and grid stability, and energy trading. While numerous models effectively predict short-term (hours to a few days) hourly load, mid-term forecasting solutions remain scarce. In mid-term load forecasting, besides daily, weekly, and annual seasonal and autoregressive effects, capturing weather and holiday effects, as well as socio-economic non-stationarities in the data, poses significant modeling challenges. To address these challenges, we propose a novel forecasting method using Generalized Additive Models (GAMs) built from interpretable P-splines and enhanced with autoregressive post-processing. This model uses smoothed temperatures, Error-Trend-Seasonal (ETS) modeled non-stationary states, a nuanced representation of holiday effects with weekday variations, and seasonal information as input. The proposed model is evaluated on load data from 24 European countries. This analysis demonstrates that the model not only has significantly enhanced forecasting accuracy compared to state-of-the-art methods but also offers valuable insights into the influence of individual components on predicted load, given its full interpretability. Achieving performance akin to day-ahead TSO forecasts in fast computation times of a few seconds for several years of hourly data underscores the model's potential for practical application in the power system industry. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# 存在グラフに基づく体系的命題式単純化のための新しい枠組み
A novel framework for systematic propositional formula simplification based on existential graphs ( http://arxiv.org/abs/2405.17072v1 ) ライセンス: Link先を確認 | Jordina Francès de Mas, Juliana Bowles, | (参考訳) 本稿では、パースの実在グラフの推論と含意グラフの規則から導かれる命題論理の単純化計算について述べる。
我々の規則は、ネスト形式の命題論理式に適用でき、同値保存であり、単調に減少する変数、節、リテラルの数を保証し、構造的問題情報の保存を最大化することができる。
また、我々の手法は、上位のSAT前処理と見なすことができ、我々のルールの1つ(TWSR)が、既知の同値保存SAT前処理手法のほとんどを一般化し、合理化しているかを示す。
さらに,この2つのルール (EPR と TWSR) の体系的適用に基づく単純化手法を提案する。
最後に、我々のルールを新しいn-ary含意グラフでさらに拡張して、既知の同値保存前処理の手順をすべて捉える方法を示す。
This paper presents a novel simplification calculus for propositional logic derived from Peirce's existential graphs' rules of inference and implication graphs. Our rules can be applied to propositional logic formulae in nested form, are equivalence-preserving, guarantee a monotonically decreasing number of variables, clauses and literals, and maximise the preservation of structural problem information. Our techniques can also be seen as higher-level SAT preprocessing, and we show how one of our rules (TWSR) generalises and streamlines most of the known equivalence-preserving SAT preprocessing methods. In addition, we propose a simplification procedure based on the systematic application of two of our rules (EPR and TWSR) which is solver-agnostic and can be used to simplify large Boolean satisfiability problems and propositional formulae in arbitrary form, and we provide a formal analysis of its algorithmic complexity in terms of space and time. Finally, we show how our rules can be further extended with a novel n-ary implication graph to capture all known equivalence-preserving preprocessing procedures. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# 超高精細画像デライニングに向けて:ベンチマークと効率的な方法
Towards Ultra-High-Definition Image Deraining: A Benchmark and An Efficient Method ( http://arxiv.org/abs/2405.17074v1 ) ライセンス: Link先を確認 | Hongming Chen, Xiang Chen, Chen Wu, Zhuoran Zheng, Jinshan Pan, Xianping Fu, | (参考訳) 画像のデライニングには大きな進歩があったが、既存のアプローチは主に低解像度の画像で行われている。
高解像度画像に対するこれらの手法の有効性はまだ分かっていないが、撮像装置の継続的な進歩を考えると、特に超高精細(UHD)画像に対してである。
本稿では,UHD画像デライニングの課題に焦点をあて,4K解像度で13,000枚の画像対を含む最初の大規模UHD画像デライニングデータセットである4K-Rain13kをコントリビュートする。
本データセットに基づいて,既存のUHD画像処理手法のベンチマーク研究を行う。
さらに,この課題を効果的かつ効果的に解決するためのMLPベースのアーキテクチャ (UDR-Mixer) を開発した。
具体的には、UHD画像の長距離情報をキャプチャする空間的特徴再構成層と、高品質なUHD画像再構成を容易にする周波数特性変調層とを含む。
実験結果から,本手法はモデル複雑性を低く保ちながら,最先端の手法に対して良好に機能することが示された。
コードとデータセットはhttps://github.com/cschenxiang/UDR-Mixer.comから入手できる。
Despite significant progress has been made in image deraining, existing approaches are mostly carried out on low-resolution images. The effectiveness of these methods on high-resolution images is still unknown, especially for ultra-high-definition (UHD) images, given the continuous advancement of imaging devices. In this paper, we focus on the task of UHD image deraining, and contribute the first large-scale UHD image deraining dataset, 4K-Rain13k, that contains 13,000 image pairs at 4K resolution. Based on this dataset, we conduct a benchmark study on existing methods for processing UHD images. Furthermore, we develop an effective and efficient vision MLP-based architecture (UDR-Mixer) to better solve this task. Specifically, our method contains two building components: a spatial feature rearrangement layer that captures long-range information of UHD images, and a frequency feature modulation layer that facilitates high-quality UHD image reconstruction. Extensive experimental results demonstrate that our method performs favorably against the state-of-the-art approaches while maintaining a lower model complexity. The code and dataset will be available at https://github.com/cschenxiang/UDR-Mixer. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# 相互作用-フォース輸送勾配流れ
Interaction-Force Transport Gradient Flows ( http://arxiv.org/abs/2405.17075v1 ) ライセンス: Link先を確認 | Egor Gladin, Pavel Dvurechensky, Alexander Mielke, Jia-Jie Zhu, | (参考訳) 本稿では、カーネルの再生によってモデル化された最適輸送力と相互作用力を組み合わせた原理的構成により、非負および確率測度上の新しい種類の勾配流ジオメトリを提案する。
具体的には、ワッサーシュタインと球面MMDリーマン計量テンソルの不完全畳み込みによる相互作用力輸送(IFT)勾配流とその球面変種を提案する。
次に, 質量保存球状IFT勾配流のJKO分割法に基づく粒子最適化アルゴリズムを開発した。
最後に、アーベルらによって研究されたMDD最小化のサンプリングタスクにIFT勾配流を適用するための理論的大域指数収束保証と経験的シミュレーション結果の両方を提供する。
さらに、球面IFT勾配流は、MDDとKLエネルギーの両方に対して、大域的な指数収束保証を提供することで、両方の世界の最高を享受できることを証明した。
This paper presents a new type of gradient flow geometries over non-negative and probability measures motivated via a principled construction that combines the optimal transport and interaction forces modeled by reproducing kernels. Concretely, we propose the interaction-force transport (IFT) gradient flows and its spherical variant via an infimal convolution of the Wasserstein and spherical MMD Riemannian metric tensors. We then develop a particle-based optimization algorithm based on the JKO-splitting scheme of the mass-preserving spherical IFT gradient flows. Finally, we provide both theoretical global exponential convergence guarantees and empirical simulation results for applying the IFT gradient flows to the sampling task of MMD-minimization studied by Arbel et al. [2019]. Furthermore, we prove that the spherical IFT gradient flow enjoys the best of both worlds by providing the global exponential convergence guarantee for both the MMD and KL energy. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# Text2SPARQLタスクの小さな言語モデルを活用してAIアシストのレジリエンスを改善する
Leveraging small language models for Text2SPARQL tasks to improve the resilience of AI assistance ( http://arxiv.org/abs/2405.17076v1 ) ライセンス: Link先を確認 | Felix Brei, Johannes Frey, Lars-Peter Meyer, | (参考訳) この研究で、10億のパラメータ未満の言語モデルを使用して、微調整後の自然言語をSPARQLクエリに翻訳できることを示します。
学術から実世界までの3つの異なるデータセットを用いて、トレーニングが成功するためには、トレーニングデータが満たさなければならない前提条件を特定します。
目標は、セマンティックWeb技術のユーザに対して、安価なコモディティハードウェアでAIアシストを使用することで、外部要因に対する耐性を高めることだ。
In this work we will show that language models with less than one billion parameters can be used to translate natural language to SPARQL queries after fine-tuning. Using three different datasets ranging from academic to real world, we identify prerequisites that the training data must fulfill in order for the training to be successful. The goal is to empower users of semantic web technology to use AI assistance with affordable commodity hardware, making them more resilient against external factors. | 翻訳日:2024-05-28 15:42:27 公開日:2024-05-27 |
# ユーザレベルのローカル差分プライバシーによる学習
Learning with User-Level Local Differential Privacy ( http://arxiv.org/abs/2405.17079v1 ) ライセンス: Link先を確認 | Puning Zhao, Li Shen, Rongfei Fan, Qingming Li, Huiwen Wu, Jiafei Wu, Zhe Liu, | (参考訳) 分散システムでは、ユーザレベルのプライバシが重要です。
従来の研究は主に中央モデルに焦点が当てられていたが、地方モデルはそれほど注目されていない。
中央モデルでは、ユーザレベルのDPはアイテムレベルのDPよりも強くなっている。
しかし, ローカルモデルでは, ユーザレベルとアイテムレベルのLDPの関係が複雑になるため, 分析は著しく異なる。
本稿では,まず平均推定問題を解析し,確率的最適化,分類,回帰に応用する。
特に、すべてのプライバシレベルで最適なパフォーマンスを達成するための適応戦略を提案する。
さらに,提案手法が対数係数まで最適であることを示す情報理論下界も得られる。
ユーザレベルのDPが常に収束が遅くなる中央DPモデルとは異なり、我々の結果は、局所モデルの下では、収束率は、有界な分布に対するユーザレベルのケースとアイテムレベルのケースとほぼ同じであることを示している。
ヘビーテールの分布では、ユーザーレベルがアイテムレベルよりも速い。
User-level privacy is important in distributed systems. Previous research primarily focuses on the central model, while the local models have received much less attention. Under the central model, user-level DP is strictly stronger than the item-level one. However, under the local model, the relationship between user-level and item-level LDP becomes more complex, thus the analysis is crucially different. In this paper, we first analyze the mean estimation problem and then apply it to stochastic optimization, classification, and regression. In particular, we propose adaptive strategies to achieve optimal performance at all privacy levels. Moreover, we also obtain information-theoretic lower bounds, which show that the proposed methods are minimax optimal up to logarithmic factors. Unlike the central DP model, where user-level DP always leads to slower convergence, our result shows that under the local model, the convergence rates are nearly the same between user-level and item-level cases for distributions with bounded support. For heavy-tailed distributions, the user-level rate is even faster than the item-level one. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# 相似性メカニカルパースペクティブによる効果的層プルーニング
Effective Layer Pruning Through Similarity Metric Perspective ( http://arxiv.org/abs/2405.17081v1 ) ライセンス: Link先を確認 | Ian Pons, Bruno Yamamoto, Anna H. Reali Costa, Artur Jordao, | (参考訳) ディープニューラルネットワークは、認知タスクを解決する機械学習において、主要なパラダイムとなっている。
しかし、そのようなモデルは高い計算オーバーヘッドによって制限され、適用性が制限され、分野の進歩を妨げる。
大規模な研究は、これらのモデルからのプルーニング構造が、ネットワークの複雑さを減らすための簡単なアプローチであることを示した。
この方向では、ほとんどの取り組みは重量やフィルターの除去に重点を置いている。
また、より優れた計算ゲインを促進するため、レイヤープルーニングにも研究が注がれている。
しかし、層プルーニングはしばしば高い圧縮速度でネットワーク予測能力(すなわち精度)を損なう。
この研究は、プルーニング手法によって追求されるすべての基礎特性を満たす効果的なレイヤ・プルーニング戦略を導入する。
提案手法は,CKA(Centered Kernel Alignment)測定値を用いて,未開きモデルの表現とプルーニングの候補層との類似性を推定する。
提案手法が標準アーキテクチャやベンチマーク上で有効であることを確認し,既存のレイヤ・プルーニング手法や最先端のプルーニング手法よりも優れていることを示す。
特に,予測能力を向上させつつ,75%以上の計算を除去する。
高い圧縮条件下では,本手法は無視できる精度低下を示し,他の方法ではモデル精度が著しく低下する。
これらの利点とは別に, 刈り取られたモデルでは, 敵対的, アウト・オブ・ディストリビューションのサンプルに対して堅牢性を示す。
Deep neural networks have been the predominant paradigm in machine learning for solving cognitive tasks. Such models, however, are restricted by a high computational overhead, limiting their applicability and hindering advancements in the field. Extensive research demonstrated that pruning structures from these models is a straightforward approach to reducing network complexity. In this direction, most efforts focus on removing weights or filters. Studies have also been devoted to layer pruning as it promotes superior computational gains. However, layer pruning often hurts the network predictive ability (i.e., accuracy) at high compression rates. This work introduces an effective layer-pruning strategy that meets all underlying properties pursued by pruning methods. Our method estimates the relative importance of a layer using the Centered Kernel Alignment (CKA) metric, employed to measure the similarity between the representations of the unpruned model and a candidate layer for pruning. We confirm the effectiveness of our method on standard architectures and benchmarks, in which it outperforms existing layer-pruning strategies and other state-of-the-art pruning techniques. Particularly, we remove more than 75% of computation while improving predictive ability. At higher compression regimes, our method exhibits negligible accuracy drop, while other methods notably deteriorate model accuracy. Apart from these benefits, our pruned models exhibit robustness to adversarial and out-of-distribution samples. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# 適応的特徴集合による拡散モデルの構築
Ensembling Diffusion Models via Adaptive Feature Aggregation ( http://arxiv.org/abs/2405.17082v1 ) ライセンス: Link先を確認 | Cong Wang, Kuan Tian, Yonghang Guan, Jun Zhang, Zhiwei Jiang, Fei Shen, Xiao Han, Qing Gu, Wei Yang, | (参考訳) テキスト誘導拡散モデルの成功は、オープンソースコミュニティ内で多数の強力な拡散モデルの開発とリリースを刺激した。
これらのモデルは通常、さまざまな専門家データセットに基づいて微調整され、多様な認知能力を示す。
より強力な生成能力を生み出すために複数の高品質モデルを活用することは価値があるが、広く研究されていない。
既存のメソッドは主にパラメータマージ戦略を採用して、新しい静的モデルを生成する。
しかし彼らは、異なるプロンプト、初期ノイズ、デノナイジングステップ、空間的位置など、モデルの発散するデノナイジング能力が異なる状態にわたって動的に変化するという事実を見落としている。
本稿では,様々な状態(プロンプト,初期雑音,デノイングステップ,空間位置など)に応じて特徴レベルの複数のモデルの寄与を動的に調整し,複数の拡散モデルの利点を抑えながら,その不利益を抑える,新しいアンサンブル手法である適応的特徴集約(AFA)を提案する。
具体的には、複数のU-Netデノイザからブロックワイド中間機能を集約した軽量な空間認識ブロックワイズ(SABW)機能アグリゲータを設計する。
中心となる考え方は、様々な状態を包括的に検討することで、各モデルの特徴に対する個別の注意マップを動的に作成することにある。
注目すべきなのは、SABWだけが約5000万のパラメータでトレーニング可能であり、他のモデルは凍結されていることだ。
定量的および定性的な実験は,提案手法の有効性を実証するものである。
コードはhttps://github.com/tenvence/afa/で公開されている。
The success of the text-guided diffusion model has inspired the development and release of numerous powerful diffusion models within the open-source community. These models are typically fine-tuned on various expert datasets, showcasing diverse denoising capabilities. Leveraging multiple high-quality models to produce stronger generation ability is valuable, but has not been extensively studied. Existing methods primarily adopt parameter merging strategies to produce a new static model. However, they overlook the fact that the divergent denoising capabilities of the models may dynamically change across different states, such as when experiencing different prompts, initial noises, denoising steps, and spatial locations. In this paper, we propose a novel ensembling method, Adaptive Feature Aggregation (AFA), which dynamically adjusts the contributions of multiple models at the feature level according to various states (i.e., prompts, initial noises, denoising steps, and spatial locations), thereby keeping the advantages of multiple diffusion models, while suppressing their disadvantages. Specifically, we design a lightweight Spatial-Aware Block-Wise (SABW) feature aggregator that adaptive aggregates the block-wise intermediate features from multiple U-Net denoisers into a unified one. The core idea lies in dynamically producing an individual attention map for each model's features by comprehensively considering various states. It is worth noting that only SABW is trainable with about 50 million parameters, while other models are frozen. Both the quantitative and qualitative experiments demonstrate the effectiveness of our proposed Adaptive Feature Aggregation method. The code is available at https://github.com/tenvence/afa/. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# F-3DGS:3次元ガウス平滑化のための因子座標と表現
F-3DGS: Factorized Coordinates and Representations for 3D Gaussian Splatting ( http://arxiv.org/abs/2405.17083v1 ) ライセンス: Link先を確認 | Xiangyu Sun, Joo Chan Lee, Daniel Rho, Jong Hwan Ko, Usman Ali, Eunbyung Park, | (参考訳) 神経放射野(NeRF)は3次元シーンを表現し,新規な視点を合成する上で大きな進歩を遂げている。
その進歩にもかかわらず、NeRFの計算コストが高いため、リソース制約のある環境やリアルタイムアプリケーションへの展開が困難になっている。
NeRFライクなニューラルレンダリングの代替として、3D Gaussian Splatting (3DGS)は高速なレンダリング速度を提供し、優れた画質を維持している。
しかし、無数のガウシアンを用いて物や場面を表現するため、高品質な表現を実現するにはかなりの記憶を必要とする。
ストレージのオーバーヘッドを軽減するため,F3DGS(Factized 3D Gaussian Splatting)を提案する。
古典行列およびテンソル因子化法に着想を得た本手法は, ガウスの高密度クラスタを効率な因数分解によって表現し, 近似する。
我々は,各軸とそれらの組み合わせについて,限られた量の情報で近似することで,高密度な3次元ガウスを効率的に表現することを目指している。
この方法では、比較的少数の要素をレンダリングするのに必要な、色、スケール、回転といった重要な属性とともに、かなり多くのガウスを符号化することができる。
F-3DGSはレンダリング画像に匹敵する品質を維持しつつ,ストレージコストを大幅に削減できることを示した。
The neural radiance field (NeRF) has made significant strides in representing 3D scenes and synthesizing novel views. Despite its advancements, the high computational costs of NeRF have posed challenges for its deployment in resource-constrained environments and real-time applications. As an alternative to NeRF-like neural rendering methods, 3D Gaussian Splatting (3DGS) offers rapid rendering speeds while maintaining excellent image quality. However, as it represents objects and scenes using a myriad of Gaussians, it requires substantial storage to achieve high-quality representation. To mitigate the storage overhead, we propose Factorized 3D Gaussian Splatting (F-3DGS), a novel approach that drastically reduces storage requirements while preserving image quality. Inspired by classical matrix and tensor factorization techniques, our method represents and approximates dense clusters of Gaussians with significantly fewer Gaussians through efficient factorization. We aim to efficiently represent dense 3D Gaussians by approximating them with a limited amount of information for each axis and their combinations. This method allows us to encode a substantially large number of Gaussians along with their essential attributes -- such as color, scale, and rotation -- necessary for rendering using a relatively small number of elements. Extensive experimental results demonstrate that F-3DGS achieves a significant reduction in storage costs while maintaining comparable quality in rendered images. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# 大規模言語モデルの出力分布における相転移
Phase Transitions in the Output Distribution of Large Language Models ( http://arxiv.org/abs/2405.17088v1 ) ライセンス: Link先を確認 | Julian Arnold, Flemming Holtorf, Frank Schäfer, Niels Lörch, | (参考訳) 物理系において、温度などのパラメータの変化は、ある物質の状態から別の状態への急激な変化である相転移を誘導することができる。
最近、大きな言語モデルでアナロジー現象が観測されている。
通常、相転移を識別するタスクは、人間の分析とシステムの事前理解を必要とし、どの低次元特性をモニターし分析するかを絞り込む。
近年,データから位相遷移を自動的に検出する統計手法が物理学界で提案されている。
これらの手法は主にシステムに依存しないものであり、ここで示すように、大きな言語モデルの振る舞いを研究するために適応することができる。
特に, 統計的距離を用いて生成した出力の分布変化を定量化し, 次点上の確率分布にアクセスして効率的に推定することができる。
この汎用的なアプローチは、振る舞いの新しいフェーズと探索されていないトランジションを発見できる -- 言語モデルの急速な開発と、その創発的な能力を背景に、特にエキサイティングな能力である。
In a physical system, changing parameters such as temperature can induce a phase transition: an abrupt change from one state of matter to another. Analogous phenomena have recently been observed in large language models. Typically, the task of identifying phase transitions requires human analysis and some prior understanding of the system to narrow down which low-dimensional properties to monitor and analyze. Statistical methods for the automated detection of phase transitions from data have recently been proposed within the physics community. These methods are largely system agnostic and, as shown here, can be adapted to study the behavior of large language models. In particular, we quantify distributional changes in the generated output via statistical distances, which can be efficiently estimated with access to the probability distribution over next-tokens. This versatile approach is capable of discovering new phases of behavior and unexplored transitions -- an ability that is particularly exciting in light of the rapid development of language models and their emergent capabilities. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# スパース群ラッソの二重特徴量減少とその適応的変異
Dual feature reduction for the sparse-group lasso and its adaptive variant ( http://arxiv.org/abs/2405.17094v1 ) ライセンス: Link先を確認 | Fabio Feser, Marina Evangelou, | (参考訳) スパース群ラッソは、変数選択とグループ選択の両方を行い、ラッソとグループラッソの強度を同時に利用する。
遺伝子学で広く使われるようになったが、これは集団情報の利用を可能にするスパース集団のペナルティのため、高次元データの分析を常用する分野である。
しかしながら、スパース群ラッソは、縮小複雑性の追加とチューニングを必要とするハイパーパラメータの追加により、ラッソとグループラッソの両方よりも計算上より高価である。
本稿では、スパース群ラッソと適応スパース群ラッソの強いスクリーニング規則を用いて、最適化前の入力空間を縮小する新しい二重特徴量削減法であるデュアル特徴量削減法(DFR)を提案する。
DFRは2層のスクリーニングを施し、スパース群ラッソとアダプティブスパース群ラッソの双対ノルムに基づいている。
合成および実数値的な研究を通じて,提案手法により,様々なシナリオにおける計算コストを大幅に削減できることが示されている。
The sparse-group lasso performs both variable and group selection, making simultaneous use of the strengths of the lasso and group lasso. It has found widespread use in genetics, a field that regularly involves the analysis of high-dimensional data, due to its sparse-group penalty, which allows it to utilize grouping information. However, the sparse-group lasso can be computationally more expensive than both the lasso and group lasso, due to the added shrinkage complexity, and its additional hyper-parameter that needs tuning. In this paper a novel dual feature reduction method, Dual Feature Reduction (DFR), is presented that uses strong screening rules for the sparse-group lasso and the adaptive sparse-group lasso to reduce their input space before optimization. DFR applies two layers of screening and is based on the dual norms of the sparse-group lasso and adaptive sparse-group lasso. Through synthetic and real numerical studies, it is shown that the proposed feature reduction approach is able to drastically reduce the computational cost in many different scenarios. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# 関節セマンティックセグメンテーションと単眼深度推定におけるマルチタスク不確かさの評価
Evaluation of Multi-task Uncertainties in Joint Semantic Segmentation and Monocular Depth Estimation ( http://arxiv.org/abs/2405.17097v1 ) ライセンス: Link先を確認 | Steven Landgraf, Markus Hillemann, Theodor Kapler, Markus Ulrich, | (参考訳) 多くの有望な不確実性定量化手法が提案され、過信や説明可能性の欠如といったディープニューラルネットワークの欠点に対処しているが、関節意味的セグメンテーションや単眼深度推定の文脈における予測的不確かさの定量化はまだ検討されていない。
多くの現実世界のアプリケーションは本質的にマルチモーダルであるため、マルチタスク学習の恩恵を受ける可能性があるため、現在の文献では大きなギャップがある。
この目的のために,マルチタスク学習が両タスクを個別に解くことと比較して,不確実性推定の品質にどのように影響するかを総合的に検討する。
While a number of promising uncertainty quantification methods have been proposed to address the prevailing shortcomings of deep neural networks like overconfidence and lack of explainability, quantifying predictive uncertainties in the context of joint semantic segmentation and monocular depth estimation has not been explored yet. Since many real-world applications are multi-modal in nature and, hence, have the potential to benefit from multi-task learning, this is a substantial gap in current literature. To this end, we conduct a comprehensive series of experiments to study how multi-task learning influences the quality of uncertainty estimates in comparison to solving both tasks separately. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# オフライン強化学習のためのQ値正規化変圧器
Q-value Regularized Transformer for Offline Reinforcement Learning ( http://arxiv.org/abs/2405.17098v1 ) ライセンス: Link先を確認 | Shengchao Hu, Ziqing Fan, Chaoqin Huang, Li Shen, Ya Zhang, Yanfeng Wang, Dacheng Tao, | (参考訳) オフライン強化学習(RL)の最近の進歩は、各状態に対する履歴軌跡とターゲットリターンに基づいて行動分布を学習するパラダイムである条件付きシーケンスモデリング(CSM)の能力を裏付けている。
しかしながら、これらの手法は、個々の軌跡内のサンプルリターンと複数の軌跡間の最適リターンの不整合により、最適トラジェクトリから最適トラジェクトリを縫合するのにしばしば苦労する。
幸運なことに、動的プログラミング(DP)メソッドは、各状態の最適未来を返すために値関数を活用することでソリューションを提供する。
これらの知見に基づいて,Q-value regularized Transformer (QT) を提案する。
QTは行動値関数を学習し、行動値の最大化という用語をCSMのトレーニング損失に統合する。
D4RLベンチマークデータセットに対する実証的な評価は、従来のDP法やCSM法よりもQTの方が優れていることを示している。
Recent advancements in offline reinforcement learning (RL) have underscored the capabilities of Conditional Sequence Modeling (CSM), a paradigm that learns the action distribution based on history trajectory and target returns for each state. However, these methods often struggle with stitching together optimal trajectories from sub-optimal ones due to the inconsistency between the sampled returns within individual trajectories and the optimal returns across multiple trajectories. Fortunately, Dynamic Programming (DP) methods offer a solution by leveraging a value function to approximate optimal future returns for each state, while these techniques are prone to unstable learning behaviors, particularly in long-horizon and sparse-reward scenarios. Building upon these insights, we propose the Q-value regularized Transformer (QT), which combines the trajectory modeling ability of the Transformer with the predictability of optimal future returns from DP methods. QT learns an action-value function and integrates a term maximizing action-values into the training loss of CSM, which aims to seek optimal actions that align closely with the behavior policy. Empirical evaluations on D4RL benchmark datasets demonstrate the superiority of QT over traditional DP and CSM methods, highlighting the potential of QT to enhance the state-of-the-art in offline RL. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# Sok: 音声制御システムのセキュリティ概要と課題,今後の方向性
Sok: Comprehensive Security Overview, Challenges, and Future Directions of Voice-Controlled Systems ( http://arxiv.org/abs/2405.17100v1 ) ライセンス: Link先を確認 | Haozhe Xu, Cong Wu, Yangyang Gu, Xingcan Shang, Jing Chen, Kun He, Ruiying Du, | (参考訳) 音声制御システム(VCS)をスマートデバイスに統合し、日常生活におけるその存在感を高めることで、セキュリティの重要性が強調される。
現在の研究では、VCSの脆弱性が多数発見され、ユーザのプライバシとセキュリティに重大なリスクが提示されている。
しかしながら、これらの脆弱性とそれに対応する解決策の凝集的で体系的な検査はいまだに存在しない。
この包括的な分析の欠如は、VCSデザイナにとって、これらのシステム内のセキュリティ問題を完全に理解し緩和する上での課題である。
このギャップに対処するため,本研究では,既存の文献を体系的に分類・分析するための新たなレンズとして,VCSの階層的モデル構造を導入している。
我々は,その技術的原則に基づいて攻撃を分類し,その方法,目標,ベクトル,行動など,さまざまな属性を徹底的に評価する。
さらに,現在の研究で提案されている防衛機構を統合し,評価し,VCSのセキュリティを強化するための実用的なレコメンデーションを提供する。
我々の研究は、VCSのセキュリティに固有の複雑さを単純化し、デザイナーが潜在的な脅威を効果的に識別し対処するのを支援し、VCSのセキュリティ研究における将来の進歩の基盤を確立することで、大きな貢献をしている。
The integration of Voice Control Systems (VCS) into smart devices and their growing presence in daily life accentuate the importance of their security. Current research has uncovered numerous vulnerabilities in VCS, presenting significant risks to user privacy and security. However, a cohesive and systematic examination of these vulnerabilities and the corresponding solutions is still absent. This lack of comprehensive analysis presents a challenge for VCS designers in fully understanding and mitigating the security issues within these systems. Addressing this gap, our study introduces a hierarchical model structure for VCS, providing a novel lens for categorizing and analyzing existing literature in a systematic manner. We classify attacks based on their technical principles and thoroughly evaluate various attributes, such as their methods, targets, vectors, and behaviors. Furthermore, we consolidate and assess the defense mechanisms proposed in current research, offering actionable recommendations for enhancing VCS security. Our work makes a significant contribution by simplifying the complexity inherent in VCS security, aiding designers in effectively identifying and countering potential threats, and setting a foundation for future advancements in VCS security research. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# DINO-SD:ICRA 2024 RoboDepth Challengeのチャンピオンソリューション
DINO-SD: Champion Solution for ICRA 2024 RoboDepth Challenge ( http://arxiv.org/abs/2405.17102v1 ) ライセンス: Link先を確認 | Yifan Mao, Ming Li, Jian Liu, Jiayang Liu, Zihan Qin, Chunxi Chu, Jialei Xu, Wenbo Zhao, Junjun Jiang, Xianming Liu, | (参考訳) 周囲の視線深度推定は,周囲の視線深度マップを取得するための重要な課題である。
それは、自動運転、AR/VR、そして3D再構成など、現実世界のシナリオに多くの応用がある。
しかし、自律運転データセットのほとんどのデータが昼間のシナリオで収集されていることを考えると、オフ・オブ・ディストリビューション(OoD)データに直面した深度モデルのパフォーマンスは低下する。
OoDデータに基づく深度モデルの堅牢性を向上しようとする研究もあるが、これらの手法には追加のトレーニングデータや湖沼の一般化性が必要である。
本稿では,新しいサラウンドビュー深度推定モデルであるDINO-SDを紹介する。
我々のDINO-SDは追加のデータを必要とせず、強い堅牢性を持っている。
DINO-SDは、ICRA 2024 RoboDepth Challengeのトラック4で最高のパフォーマンスを得られる。
Surround-view depth estimation is a crucial task aims to acquire the depth maps of the surrounding views. It has many applications in real world scenarios such as autonomous driving, AR/VR and 3D reconstruction, etc. However, given that most of the data in the autonomous driving dataset is collected in daytime scenarios, this leads to poor depth model performance in the face of out-of-distribution(OoD) data. While some works try to improve the robustness of depth model under OoD data, these methods either require additional training data or lake generalizability. In this report, we introduce the DINO-SD, a novel surround-view depth estimation model. Our DINO-SD does not need additional data and has strong robustness. Our DINO-SD get the best performance in the track4 of ICRA 2024 RoboDepth Challenge. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# サブトークンの除去による文字レベルの文字入力
Empowering Character-level Text Infilling by Eliminating Sub-Tokens ( http://arxiv.org/abs/2405.17103v1 ) ライセンス: Link先を確認 | Houxing Ren, Mingjie Zhan, Zhongyuan Wu, Hongsheng Li, | (参考訳) 入力タスクでは、完全なトークンが2つの部分に分割されたインスタンスを表すサブトークンが、プレフィックス、ミドル、接尾辞の境界に現れることが多い。
従来の方法ではトークンレベルでのトレーニングモデルに重点を置いていたため、推論段階での文字レベルのインフィルタスクでは、サブ最適化のパフォーマンスが向上した。
代替として、一部のアプローチでは文字レベルの補充を考慮したが、推論におけるサブトークンの予測に頼っていたが、この戦略はサブトークン上でのモデルの難易度が大きいため、文字レベルの補充タスクの能力を低下させた。
本稿では,FIM-SE(Fill-In-the-Middle)とEnding文字制約(Ending文字制約)を併用したFIM-SEを提案する。
提案手法は,任意のサブトークン推論の予測を避けるために,行レベルの形式を用いることで,文字レベルの入力タスクに対処する。
さらに、2つの特別なトークンを組み込んで、残りの不完全な行を表現し、生成指導を強化する。
大規模な実験により,提案手法が従来の手法を超えることが示され,大きな優位性が得られた。
コードはhttps://github.com/SenseLLM/FIM-SEで入手できる。
In infilling tasks, sub-tokens, representing instances where a complete token is segmented into two parts, often emerge at the boundaries of prefixes, middles, and suffixes. Traditional methods focused on training models at the token level, leading to sub-optimal performance in character-level infilling tasks during the inference stage. Alternately, some approaches considered character-level infilling, but they relied on predicting sub-tokens in inference, yet this strategy diminished ability in character-level infilling tasks due to the large perplexity of the model on sub-tokens. In this paper, we introduce FIM-SE, which stands for Fill-In-the-Middle with both Starting and Ending character constraints. The proposed method addresses character-level infilling tasks by utilizing a line-level format to avoid predicting any sub-token in inference. In addition, we incorporate two special tokens to signify the rest of the incomplete lines, thereby enhancing generation guidance. Extensive experiments demonstrate that our proposed approach surpasses previous methods, offering a significant advantage. Code is available at https://github.com/SenseLLM/FIM-SE. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# LLM-Optic:Universal Visual Groundingのための大規模言語モデルの能力公開
LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding ( http://arxiv.org/abs/2405.17104v1 ) ライセンス: Link先を確認 | Haoyu Zhao, Wenhang Ge, Ying-cong Chen, | (参考訳) ビジュアルグラウンドティングは、ユーザが提供するテキストクエリと、画像内のクエリ固有の領域を結びつける重要なツールである。
視覚的接地モデルの進歩にもかかわらず、複雑なクエリを理解する能力は依然として限られている。
この制限を克服するために,LLM-Opticは,Large Language Models (LLMs) を光学レンズとして利用し,複雑なテキスト構造,複数オブジェクト,オブジェクト空間関係を含む複雑なテキストクエリの理解において,既存の視覚的グラウンドディングモデルを強化する革新的な手法である。
LLM-Optic は、まず LLM をテキストグラウンドとして使用し、複雑なテキストクエリを解釈し、ユーザーが発見しようとするオブジェクトを正確に識別する。
次に、事前学習されたビジュアルグラウンドモデルを使用して、テキストグラウンドによる洗練されたクエリが与えられた候補バウンディングボックスを生成する。
その後、LLM-Opticは、候補境界ボックスに数値マークを付加し、テキストと特定の画像領域間の接続を確立することにより、2つの異なるモダリティをリンクする。
最後に、Visual GrounderとしてLarge Multimodal Model (LMM)を使用して、元のテキストクエリに最も適したマークされた候補オブジェクトを選択する。
LLM-Opticにより、任意の人間の言語入力によって指定された任意のオブジェクトを検出できる、普遍的な視覚的グラウンド化を実現した。
重要なこととして,本手法は,追加のトレーニングや微調整を必要とせずに,この強化を実現する。
様々な挑戦的なベンチマークによる大規模な実験により、LLM-Opticは最先端のゼロショット視覚グラウンド機能を実現することが示された。
Visual grounding is an essential tool that links user-provided text queries with query-specific regions within an image. Despite advancements in visual grounding models, their ability to comprehend complex queries remains limited. To overcome this limitation, we introduce LLM-Optic, an innovative method that utilizes Large Language Models (LLMs) as an optical lens to enhance existing visual grounding models in comprehending complex text queries involving intricate text structures, multiple objects, or object spatial relationships, situations that current models struggle with. LLM-Optic first employs an LLM as a Text Grounder to interpret complex text queries and accurately identify objects the user intends to locate. Then a pre-trained visual grounding model is used to generate candidate bounding boxes given the refined query by the Text Grounder. After that, LLM-Optic annotates the candidate bounding boxes with numerical marks to establish a connection between text and specific image regions, thereby linking two distinct modalities. Finally, it employs a Large Multimodal Model (LMM) as a Visual Grounder to select the marked candidate objects that best correspond to the original text query. Through LLM-Optic, we have achieved universal visual grounding, which allows for the detection of arbitrary objects specified by arbitrary human language input. Importantly, our method achieves this enhancement without requiring additional training or fine-tuning. Extensive experiments across various challenging benchmarks demonstrate that LLM-Optic achieves state-of-the-art zero-shot visual grounding capabilities. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# 事前知識のない平均回帰マルコフ決定過程における良い政策の発見
Finding good policies in average-reward Markov Decision Processes without prior knowledge ( http://arxiv.org/abs/2405.17108v1 ) ライセンス: Link先を確認 | Adrienne Tuynman, Rémy Degenne, Emilie Kaufmann, | (参考訳) 我々は、平均回帰マルコフ決定過程(MDP)における$\varepsilon$-optimal Policyの同定を再考する。
そのようなMDPでは、直径、$D$、最適バイアス幅、$H$という2つの複雑さの尺度が文献に現れており、これは$H\leq D$を満たす。
以前の研究は、生成モデルが利用可能である場合にのみ、$\varepsilon$-Optimal Policy IDの複雑さについて研究してきた。
この場合、$D \simeq H$ の MDP が存在し、$\varepsilon$-optimal policy を出力するサンプルの複雑さは $\Omega(SAD/\varepsilon^2)$ であり、$S$ と $A$ は状態空間と行動空間のサイズである。
近年、サンプル複雑性が$SAH/\varepsilon^2$のアルゴリズムが提案されているが、その知識は$H$である。
まず最初に、$H$を見積るために必要なサンプルの複雑さは、$S,A$と$H$の任意の関数によって境界づけられていないことを示し、以前のアルゴリズムを$H$に非依存にすることができる可能性を除外する。
直径推定法に代えて,MDPの事前知識を必要としない$(\varepsilon,\delta)$-PACポリシー識別のための最初のアルゴリズムを提案する。
サンプルの複雑さは、ほぼ最適である小さな$\varepsilon$の状態で、SAD/\varepsilon^2$でスケールする。
オンライン設定では、最初のコントリビューションは下界であり、これは、$H$のサンプル複雑性多項式がこの設定では達成できないことを意味する。
そこで我々は,SAD^2/\varepsilon^2$のサンプル複雑性を持つオンラインアルゴリズムを提案する。
We revisit the identification of an $\varepsilon$-optimal policy in average-reward Markov Decision Processes (MDP). In such MDPs, two measures of complexity have appeared in the literature: the diameter, $D$, and the optimal bias span, $H$, which satisfy $H\leq D$. Prior work have studied the complexity of $\varepsilon$-optimal policy identification only when a generative model is available. In this case, it is known that there exists an MDP with $D \simeq H$ for which the sample complexity to output an $\varepsilon$-optimal policy is $\Omega(SAD/\varepsilon^2)$ where $S$ and $A$ are the sizes of the state and action spaces. Recently, an algorithm with a sample complexity of order $SAH/\varepsilon^2$ has been proposed, but it requires the knowledge of $H$. We first show that the sample complexity required to estimate $H$ is not bounded by any function of $S,A$ and $H$, ruling out the possibility to easily make the previous algorithm agnostic to $H$. By relying instead on a diameter estimation procedure, we propose the first algorithm for $(\varepsilon,\delta)$-PAC policy identification that does not need any form of prior knowledge on the MDP. Its sample complexity scales in $SAD/\varepsilon^2$ in the regime of small $\varepsilon$, which is near-optimal. In the online setting, our first contribution is a lower bound which implies that a sample complexity polynomial in $H$ cannot be achieved in this setting. Then, we propose an online algorithm with a sample complexity in $SAD^2/\varepsilon^2$, as well as a novel approach based on a data-dependent stopping rule that we believe is promising to further reduce this bound. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# ハイパースペクトル画像分類のための超画素単位の低ランク近似に基づく部分ラベル学習
Superpixelwise Low-rank Approximation based Partial Label Learning for Hyperspectral Image Classification ( http://arxiv.org/abs/2405.17110v1 ) ライセンス: Link先を確認 | Shujun Yang, Yu Zhang, Yao Ding, Danfeng Hong, | (参考訳) キャプチャーされたハイパースペクトル画像(HSI)のシーンの十分な事前知識は、専門家または自動ラベルシステムに誤ったラベルまたは曖昧なラベル(例えば、各トレーニングサンプルを候補ラベルのグループに割り当てる。
したがって、あいまいなラベルを持つデータからどのように学習するかは、非常に重要な問題である。
本稿では,HSI分類における部分ラベル学習を考慮に入れた新しい超画素単位の低ランク近似(LRA)に基づく部分ラベル学習手法であるSLAPを提案する。
SLAPは主にトレーニングラベルの曖昧化と予測モデル取得という2つのフェーズで構成されています。
具体的には、第1フェーズにおいて、次の第2フェーズの分類タスクを強化するために識別表現を抽出しながら、後続のラベル伝播プロセスに対する親和性グラフを作成する、超画素単位のLRAモデルを提案する。
そして、トレーニングラベルを曖昧にするために、ラベル伝搬は、トレーニング画素の親和性グラフを介してラベル情報を伝搬する。
第2段階では,不明瞭な学習ラベルと識別表現を利用して分類性能を向上させる。
実験により,最先端手法に対するSLAP法の有効性が検証された。
Insufficient prior knowledge of a captured hyperspectral image (HSI) scene may lead the experts or the automatic labeling systems to offer incorrect labels or ambiguous labels (i.e., assigning each training sample to a group of candidate labels, among which only one of them is valid; this is also known as partial label learning) during the labeling process. Accordingly, how to learn from such data with ambiguous labels is a problem of great practical importance. In this paper, we propose a novel superpixelwise low-rank approximation (LRA)-based partial label learning method, namely SLAP, which is the first to take into account partial label learning in HSI classification. SLAP is mainly composed of two phases: disambiguating the training labels and acquiring the predictive model. Specifically, in the first phase, we propose a superpixelwise LRA-based model, preparing the affinity graph for the subsequent label propagation process while extracting the discriminative representation to enhance the following classification task of the second phase. Then to disambiguate the training labels, label propagation propagates the labeling information via the affinity graph of training pixels. In the second phase, we take advantage of the resulting disambiguated training labels and the discriminative representations to enhance the classification performance. The extensive experiments validate the advantage of the proposed SLAP method over state-of-the-art methods. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# 教師なし表現学習のための拡散ブリッジオートエンコーダ
Diffusion Bridge AutoEncoders for Unsupervised Representation Learning ( http://arxiv.org/abs/2405.17111v1 ) ライセンス: Link先を確認 | Yeongmin Kim, Kwanghyeon Lee, Minsang Park, Byeonghu Na, Il-Chul Moon, | (参考訳) 拡散に基づく表現学習は、潜在表現とサンプル生成の有望な能力により、大きな注目を集めている。
近年の研究では、サンプルから対応する表現を識別し、潜在変数 z の次元を調整するための補助エンコーダが用いられている。
一方、この補助構造は、拡散と補助エンコーダがサンプルからの情報を各モデルの2つの表現に分割するので、情報分割問題を生じさせる。
特に、拡散によってモデル化された情報は、xT上の静的な事前分布のために過正規化される。
この問題に対処するため、Diffusion Bridge AuteEncoders (DBAE)を導入し、フィードフォワードアーキテクチャによるz依存エンドポイントxT推論を可能にする。
この構造は z において情報ボトルネックを生じさせるので、xT はその生成において z に依存する。
これは2つの結果をもたらす。
1)zはサンプルの全情報を保持し、
2) xT は静的ではなく、学習可能な分布となる。
そこで本稿では,DBAEの再構築と生成モデリングを両立させる目的関数を提案し,その理論的正当性について述べる。
実証的な証拠は、DBAEにおける意図された設計の有効性を支持しており、特に下流の推論品質、再構築、絡み合いを高めている。
さらに、DBAEは非条件発生時に高忠実度サンプルを生成する。
Diffusion-based representation learning has achieved substantial attention due to its promising capabilities in latent representation and sample generation. Recent studies have employed an auxiliary encoder to identify a corresponding representation from a sample and to adjust the dimensionality of a latent variable z. Meanwhile, this auxiliary structure invokes information split problem because the diffusion and the auxiliary encoder would divide the information from the sample into two representations for each model. Particularly, the information modeled by the diffusion becomes over-regularized because of the static prior distribution on xT. To address this problem, we introduce Diffusion Bridge AuteEncoders (DBAE), which enable z-dependent endpoint xT inference through a feed-forward architecture. This structure creates an information bottleneck at z, so xT becomes dependent on z in its generation. This results in two consequences: 1) z holds the full information of samples, and 2) xT becomes a learnable distribution, not static any further. We propose an objective function for DBAE to enable both reconstruction and generative modeling, with their theoretical justification. Empirical evidence supports the effectiveness of the intended design in DBAE, which notably enhances downstream inference quality, reconstruction, and disentanglement. Additionally, DBAE generates high-fidelity samples in the unconditional generation. | 翻訳日:2024-05-28 15:32:42 公開日:2024-05-27 |
# マッハ・ツェンダー干渉計における2パラメータ推定におけるハイゼンベルク制限感度
Heisenberg-limited sensitivity in the estimation of two parameters in a Mach-Zehnder interferometer ( http://arxiv.org/abs/2405.17115v1 ) ライセンス: Link先を確認 | Atmadev Rai, Danilo Triggiani, Paolo Facchi, Vincenzo Tamma, | (参考訳) 複数の物理パラメータを同時に推定する際の最終的な量子精度を達成することは、基本的な制限と必要な量子資源を利用する実験的な課題のため、量子力学における課題である。
そこで本研究では,マッハ・ツェンダー干渉計における2つの未知位相パラメータの同時推定において,入力およびホモダイン検出として光のコヒーレント状態を用いてハイゼンベルク限界感度に到達する方法を提案する。
Achieving the ultimate quantum precision in the estimation of multiple physical parameters simultaneously is a challenge in quantum metrology due to fundamental limitations and experimental challenges in harnessing the necessary quantum resources. We propose an experimentally feasible scheme to reach Heisenberg limited sensitivity in the simultaneous estimation of two unknown phase parameters in a Mach-Zehnder interferometer by using a squeezed and a coherent state of light as input and homodyne detections at the outputs. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# 教師なし辞書分類の混合
Mixtures of Unsupervised Lexicon Classification ( http://arxiv.org/abs/2405.17116v1 ) ライセンス: Link先を確認 | Peratham Wiriyathammabhum, | (参考訳) 本稿では,ディリクレプロセスの組み込みによる,モーメント・オブ・モーメント・アン教師付き語彙分類の混合バージョンを提案する。
This paper presents a mixture version of the method-of-moment unsupervised lexicon classification by an incorporation of a Dirichlet process. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# 二重VC次元は埋め込みによるサンプル圧縮を妨害する
Dual VC Dimension Obstructs Sample Compression by Embeddings ( http://arxiv.org/abs/2405.17120v1 ) ライセンス: Link先を確認 | Zachary Chase, Bogdan Chornomaz, Steve Hanneke, Shay Moran, Amir Yehudayoff, | (参考訳) 本研究は、特に極端クラスに焦点を当てた、良好なVCクラスに任意のVCクラスを組み込むことについて研究する。
このような埋め込みは必然的に次元を大きく増やす必要がある。
特に、すべての$d$に対して、$d$の指数よりも小さい任意の極端なVC次元のクラスに組み込むことができないVC次元の$d$を持つクラスが存在することを証明している。
独立性に加えて、この結果は学習理論に重要な意味を持ち、長年にわたって行われたサンプル圧縮予想に対処する最も広範囲に研究されたアプローチの1つの基本的限界が明らかになる。
具体的には、Floyd と Warmuth が提案したアプローチは、任意のVCクラスを同じ次元の極端クラスに埋め込み、次に極端クラスに対して最適なサンプル圧縮スキームを適用する。
しかし,本研究の結果から,この手法がサンプル圧縮予測よりも少なくとも指数関数的に大きい結果をもたらす可能性が示唆された。
VC次元が$d$の任意の極値類は、二元VC次元が少なくとも2d+1$である。
この境界は古典的有界なアスードの 2^{d+1}-1$ よりも指数関数的に小さく、一般概念クラスに適用できる(いくつかのクラスでは不可能であることが知られている)。
実際、より強い結果が証明され、2d+1$上界が極値クラスの双対ラドン数であることが証明される。
この定理は、凸集合に対する古典的ラドンの定理の抽象化を表し、ユークリッド凸性の特異性に頼ることなく、より広い組合せの枠組みにその適用性を拡張する。
この証明はトポロジカルな方法を利用しており、主にトポロジカルなラドン理論の変種に基づいている。
This work studies embedding of arbitrary VC classes in well-behaved VC classes, focusing particularly on extremal classes. Our main result expresses an impossibility: such embeddings necessarily require a significant increase in dimension. In particular, we prove that for every $d$ there is a class with VC dimension $d$ that cannot be embedded in any extremal class of VC dimension smaller than exponential in $d$. In addition to its independent interest, this result has an important implication in learning theory, as it reveals a fundamental limitation of one of the most extensively studied approaches to tackling the long-standing sample compression conjecture. Concretely, the approach proposed by Floyd and Warmuth entails embedding any given VC class into an extremal class of a comparable dimension, and then applying an optimal sample compression scheme for extremal classes. However, our results imply that this strategy would in some cases result in a sample compression scheme at least exponentially larger than what is predicted by the sample compression conjecture. The above implications follow from a general result we prove: any extremal class with VC dimension $d$ has dual VC dimension at most $2d+1$. This bound is exponentially smaller than the classical bound $2^{d+1}-1$ of Assouad, which applies to general concept classes (and is known to be unimprovable for some classes). We in fact prove a stronger result, establishing that $2d+1$ upper bounds the dual Radon number of extremal classes. This theorem represents an abstraction of the classical Radon theorem for convex sets, extending its applicability to a wider combinatorial framework, without relying on the specifics of Euclidean convexity. The proof utilizes the topological method and is primarily based on variants of the Topological Radon Theorem. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# 遅い運転状態における量子作業統計における絡み合いシグネチャ
Entanglement signature in quantum work statistics in the slow-driving regime ( http://arxiv.org/abs/2405.17121v1 ) ライセンス: Link先を確認 | Jian Li, Mark T. Mitchison, Saulo V. Moreira, | (参考訳) 緩やかに駆動された古典システムでは、作業は確率量であり、その確率分布は、散逸した作業の平均と分散が線形に関係していることを示す仕事のゆらぎ-散逸関係を満たすことが知られている。
近年, 瞬時エネルギー固有ベイジにおける量子コヒーレンスの生成は, この線形関係の補正につながることが明らかとなった。
ここでは、複数のシステムを備えたセットアップにおける作業変動の非古典的特徴について調べる。
これを実現するために,我々はまず低速制御プロトコルを一般化し,駆動過程における量子相関の生成を可能にする。
次に, 2量子ビット系に着目して, 絡み合い生成は, 従来の研究から知られている局所的コヒーレンス生成による量子補正とは異なる, 散逸した作業に肯定的な寄与をもたらすことを示す。
この結果から, 緩やかな制御プロトコルにおいて発生する絡み合い, 例えば, クビットクロストークの避けられない結果として, 消散のコストが増大していることが示唆された。
In slowly driven classical systems, work is a stochastic quantity and its probability distribution is known to satisfy the work fluctuation-dissipation relation, which states that the mean and variance of the dissipated work are linearly related. Recently, it was shown that generation of quantum coherence in the instantaneous energy eigenbasis leads to a correction to this linear relation in the slow-driving regime. Here, we go even further by investigating nonclassical features of work fluctuations in setups with more than one system. To do this, we first generalize slow control protocols to encompass multipartite systems, allowing for the generation of quantum correlations during the driving process. Then, focussing on two-qubit systems, we show that entanglement generation leads to a positive contribution to the dissipated work, which is distinct from the quantum correction due to local coherence generation known from previous work. Our results show that entanglement generated during slow control protocols, e.g. as an unavoidable consequence of qubit crosstalk, comes at the cost of increased dissipation. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# TEII:言語間感情検出のための大規模モデルによる思考・説明・対話・反復
TEII: Think, Explain, Interact and Iterate with Large Language Models to Solve Cross-lingual Emotion Detection ( http://arxiv.org/abs/2405.17129v1 ) ライセンス: Link先を確認 | Long Cheng, Qihao Shao, Christine Zhao, Sheng Bi, Gina-Anne Levow, | (参考訳) 言語間感情検出により,グローバルな傾向,世論,社会現象を大規模に分析することができる。
我々は,感情検出サブタスクの評価セットでF1スコア0.6046を達成し,言語間感情検出(EXALT)共有タスクの説明可能性に参加した。
我々のシステムは0.16F1スコアの絶対値でベースラインを上回り、競合するシステムの中では2位にランクインした。
我々は,Large Language Model (LLM) モデルに対する微調整,ゼロショット学習,および少数ショット学習,および非LLM技術に対する埋め込み型 BiLSTM と KNN を用いた実験を行った。
さらに,マルチイテレーションエージェントワークフロー (Multi-Iteration Agentic Workflow) とマルチバイナリ分類エージェントワークフロー (Multi-Binary-Classifier Agentic Workflow) という2つの新しい手法を導入した。
LLMに基づくアプローチは多言語感情検出に優れた性能を示した。
さらに、実験されたモデルをすべて組み合わせたアンサンブルは、どの単一のアプローチよりも高いF1スコアを得た。
Cross-lingual emotion detection allows us to analyze global trends, public opinion, and social phenomena at scale. We participated in the Explainability of Cross-lingual Emotion Detection (EXALT) shared task, achieving an F1-score of 0.6046 on the evaluation set for the emotion detection sub-task. Our system outperformed the baseline by more than 0.16 F1-score absolute, and ranked second amongst competing systems. We conducted experiments using fine-tuning, zero-shot learning, and few-shot learning for Large Language Model (LLM)-based models as well as embedding-based BiLSTM and KNN for non-LLM-based techniques. Additionally, we introduced two novel methods: the Multi-Iteration Agentic Workflow and the Multi-Binary-Classifier Agentic Workflow. We found that LLM-based approaches provided good performance on multilingual emotion detection. Furthermore, ensembles combining all our experimented models yielded higher F1-scores than any single approach alone. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# 直交訓練のための深部モデルの層状内在次元の展開
Exploiting the Layered Intrinsic Dimensionality of Deep Models for Practical Adversarial Training ( http://arxiv.org/abs/2405.17130v1 ) ライセンス: Link先を確認 | Enes Altinisik, Safa Messaoud, Husrev Taha Sencar, Hassan Sajjad, Sanjay Chawla, | (参考訳) 非常に研究されたトピックであるにもかかわらず、Adversarial Training(AT)は2つの主要な理由から、実践的なAIシステムに展開されることはめったにない。
i) 得られる強靭性は、しばしば一般化の低下を伴う
(II)逆例(AEs)の生成は計算上は不当に高価である。
これらの制限に対処するため、多様体予想を利用する新しいATアルゴリズムであるSMAATを提案し、オフマンフォールドAEはより良いロバスト性をもたらすが、オンマンフォールドAEはより良い一般化をもたらすと述べる。
具体的には、SMAATは、中間ディープネット層を最も内在的な次元で摂動させることにより、オフマニフォールドAEのより高い割合を生成することを目的としている。
これにより、AEを生成するのに必要なPGD鎖長を削減できるため、古典的なATと比較して、体系的にスケーラビリティが向上する。
さらに,本研究では,視覚モデルと言語モデル間の一般化と堅牢性傾向の差について,私たちの知る限り,最初の説明を行う。
一方、エンコーダベースの言語モデルでは、一般化は改善されるか変化しないかのいずれかである。
視覚変換器とデコーダをベースとしたモデルでは,ネットワークの初期層では固有次元が低くなる傾向にあり,エンコーダベースのモデルでは後層では固有次元が低くなる傾向にある。
SMAATの有効性を実証する; 堅牢化を含むいくつかの課題について
(i)感情分類器
二 復号器モデルにおける安全フィルタ及び
(iii)RAG設定のレトリバー。
SMAATは標準的なATに比べて25~33%のGPU時間しか必要としないが、全てのアプリケーションにおける堅牢性を著しく改善し、同等の一般化を維持している。
Despite being a heavily researched topic, Adversarial Training (AT) is rarely, if ever, deployed in practical AI systems for two primary reasons: (i) the gained robustness is frequently accompanied by a drop in generalization and (ii) generating adversarial examples (AEs) is computationally prohibitively expensive. To address these limitations, we propose SMAAT, a new AT algorithm that leverages the manifold conjecture, stating that off-manifold AEs lead to better robustness while on-manifold AEs result in better generalization. Specifically, SMAAT aims at generating a higher proportion of off-manifold AEs by perturbing the intermediate deepnet layer with the lowest intrinsic dimension. This systematically results in better scalability compared to classical AT as it reduces the PGD chains length required for generating the AEs. Additionally, our study provides, to the best of our knowledge, the first explanation for the difference in the generalization and robustness trends between vision and language models, ie., AT results in a drop in generalization in vision models whereas, in encoder-based language models, generalization either improves or remains unchanged. We show that vision transformers and decoder-based models tend to have low intrinsic dimensionality in the earlier layers of the network (more off-manifold AEs), while encoder-based models have low intrinsic dimensionality in the later layers. We demonstrate the efficacy of SMAAT; on several tasks, including robustifying (i) sentiment classifiers, (ii) safety filters in decoder-based models, and (iii) retrievers in RAG setups. SMAAT requires only 25-33% of the GPU time compared to standard AT, while significantly improving robustness across all applications and maintaining comparable generalization. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# マルチソース行動を持つ産業レコメンデーターの事前学習における意思決定経路の重要性
Your decision path does matter in pre-training industrial recommenders with multi-source behaviors ( http://arxiv.org/abs/2405.17132v1 ) ライセンス: Link先を確認 | Chunjing Gan, Binbin Hu, Bo Huang, Ziqi Liu, Jian Ma, Zhiqiang Zhang, Wenliang Zhong, Jun Zhou, | (参考訳) ミニアプリを通じて幅広いサービスを提供するオンラインサービスプラットフォームは、興味のあるサービスを見つけるために、これらのプラットフォームを訪問するユーザにとって重要なものとなっている。
効果的なコンテンツ配信を目指して、データ豊富なシナリオから振る舞いを転送することで高品質な表現を学ぶために、クロスドメインレコメンデーションが導入される。
しかし,これらの手法は,ユーザが行動を行う際の意思決定経路の影響を軽視し,最終的には様々な意図に基づいて異なる行動を示す。
そこで本研究では,ドメイン間推薦のための階層的決定経路拡張表現学習であるHIERを提案する。
マルチソース行動間の知識グラフの高次トポロジ情報に対するグラフニューラルネットワークの助けを借りて、よく設計された模範レベルおよび情報ボトルネックに基づくコントラスト学習を通じて決定経路を適応的に学習する。
オンラインおよびオフライン環境での大規模な実験はHIERの優位性を示している。
Online service platforms offering a wide range of services through miniapps have become crucial for users who visit these platforms with clear intentions to find services they are interested in. Aiming at effective content delivery, cross-domain recommendation are introduced to learn high-quality representations by transferring behaviors from data-rich scenarios. However, these methods overlook the impact of the decision path that users take when conduct behaviors, that is, users ultimately exhibit different behaviors based on various intents. To this end, we propose HIER, a novel Hierarchical decIsion path Enhanced Representation learning for cross-domain recommendation. With the help of graph neural networks for high-order topological information of the knowledge graph between multi-source behaviors, we further adaptively learn decision paths through well-designed exemplar-level and information bottleneck based contrastive learning. Extensive experiments in online and offline environments show the superiority of HIER. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# PanoTree:バーチャルリアリティシーンにおける自律的なフォトスポットエクスプローラー
PanoTree: Autonomous Photo-Spot Explorer in Virtual Reality Scenes ( http://arxiv.org/abs/2405.17136v1 ) ライセンス: Link先を確認 | Tomohiro Hayase, Braun Sacha, Hikari Yanagawa, Itsuki Orito, Yuichi Hiroi, | (参考訳) ソーシャルVRプラットフォームは、ユーザーが自分の仮想空間を作成、共有できるようにすることで、社会的、経済的、創造的な活動を可能にする。
ソーシャルVRでは、VRシーン内の写真は訪問者の活動を示す重要な指標である。
VRシーン内の写真スポットの自動識別は、VRシーンの作成とビジター体験の向上を促進することができるが、VRシーンで撮影された写真を定量的に評価し、大きなVRシーンを効率的に探索することは困難である。
我々は、VRシーンにおける自動写真スポットエクスプローラーであるPanoTreeを提案する。
VRシーンで撮影された画像の美学を評価するために、ソーシャルVRプラットフォームが収集した大量の写真に基づいて、ディープスコアリングネットワークをトレーニングし、人間が同様の写真を撮るかどうかを判断する。
さらに,階層的最適最適化(HOO)に基づく探索アルゴリズムを提案し,評価ネットワークから報酬を得て3次元VR空間を効率的に探索する。
本研究は, ランダムに撮影した画像と人間が撮影した画像とを区別することで, 評価ネットワークが人間レベルの性能を達成することを示すものである。
また,自動サムネイル生成,VRワールド作成のサポート,VRシーン内のビジターフロー計画など,探索された写真スポットを用いたアプリケーションについても紹介する。
Social VR platforms enable social, economic, and creative activities by allowing users to create and share their own virtual spaces. In social VR, photography within a VR scene is an important indicator of visitors' activities. Although automatic identification of photo spots within a VR scene can facilitate the process of creating a VR scene and enhance the visitor experience, there are challenges in quantitatively evaluating photos taken in the VR scene and efficiently exploring the large VR scene. We propose PanoTree, an automated photo-spot explorer in VR scenes. To assess the aesthetics of images captured in VR scenes, a deep scoring network is trained on a large dataset of photos collected by a social VR platform to determine whether humans are likely to take similar photos. Furthermore, we propose a Hierarchical Optimistic Optimization (HOO)-based search algorithm to efficiently explore 3D VR spaces with the reward from the scoring network. Our user study shows that the scoring network achieves human-level performance in distinguishing randomly taken images from those taken by humans. In addition, we show applications using the explored photo spots, such as automatic thumbnail generation, support for VR world creation, and visitor flow planning within a VR scene. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# Jump-Teaching: ノイズラベルによる超効率的かつロバストな学習
Jump-teaching: Ultra Efficient and Robust Learning with Noisy Label ( http://arxiv.org/abs/2405.17137v1 ) ライセンス: Link先を確認 | Kangye Ji, Fei Cheng, Zeqing Wang, Bohu Huang, | (参考訳) サンプル選択はラベルノイズに対処する最も簡単な手法であり、トレーニング中に誤ラベル付きサンプルを識別し、モデルの堅牢性の低下を避けることを目的としている。
ワークフローでは、$\textit{selecting potentially clean data}$と$\textit{model update}$が反復的である。
しかし、それらの相互作用と本質的な特徴は、ノイズラベルによる学習の堅牢性と効率を阻害する: 1)~モデルが選択バイアスでクリーンなデータを選択し、モデル更新におけるエラーの蓄積につながる。
2)ほとんどの選択戦略はパートナーネットワークや補助情報を利用してラベルの破損を軽減し,計算資源の増大とスループットの低下を図っている。
そこで我々は,ジャンプ方式の更新を施した1つのネットワークのみを用いて,対話を分離し,より正確な選択のために,損失からより多くの意味情報をマイニングする。
具体的には、各モデル更新のためのクリーンなデータの選択は、前回のイテレーションを除いて、前のモデルの1つに基づいています。
モデル更新の戦略は、フォームでジャンプ動作を示す。
さらに,ネットワークとラベルの出力をそれぞれ同じ意味的特徴空間にマッピングする。
この空間では、より効果的にクリーンサンプルを識別するために、詳細で単純な損失分布が生成される。
提案手法は,ピークメモリフットプリントを最大2.53\times$スピードアップ,0.46\times$ピークメモリフットプリントを実現し,各種ノイズ設定による最先端作業よりも優れたロバスト性を実現する。
Sample selection is the most straightforward technique to combat label noise, aiming to distinguish mislabeled samples during training and avoid the degradation of the robustness of the model. In the workflow, $\textit{selecting possibly clean data}$ and $\textit{model update}$ are iterative. However, their interplay and intrinsic characteristics hinder the robustness and efficiency of learning with noisy labels: 1)~The model chooses clean data with selection bias, leading to the accumulated error in the model update. 2) Most selection strategies leverage partner networks or supplementary information to mitigate label corruption, albeit with increased computation resources and lower throughput speed. Therefore, we employ only one network with the jump manner update to decouple the interplay and mine more semantic information from the loss for a more precise selection. Specifically, the selection of clean data for each model update is based on one of the prior models, excluding the last iteration. The strategy of model update exhibits a jump behavior in the form. Moreover, we map the outputs of the network and labels into the same semantic feature space, respectively. In this space, a detailed and simple loss distribution is generated to distinguish clean samples more effectively. Our proposed approach achieves almost up to $2.53\times$ speedup, $0.46\times$ peak memory footprint, and superior robustness over state-of-the-art works with various noise settings. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# CLIPのシナジーと多様性 - 適応的なバックボーン構成によるパフォーマンス向上
Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling ( http://arxiv.org/abs/2405.17139v1 ) ライセンス: Link先を確認 | Cristian Rodriguez-Opazo, Ehsan Abbasnejad, Damien Teney, Edison Marrese-Taylor, Hamed Damirchi, Anton van den Hengel, | (参考訳) コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
視覚変換器(ViT)から畳み込みネットワーク(ResNet)まで、様々なアーキテクチャがCLIPで訓練され、多様な視覚タスクの一般的なソリューションとして機能している。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
同じデータとトレーニングの目的を使っても、これらのアーキテクチャは明らかに異なる表現、データセット間の異なる分類性能、特定の種類の画像摂動に対する異なるロバスト性を持っている。
以上の結果から, 背骨間の相乗効果は, それぞれの強度を生かしうる可能性が示唆された。
この知見を用いて,複数のバックボーンを適応的にアンサンブルするための,単純かつ強力なアプローチを開発した。
このアプローチでは、クラス毎に1つのラベル付き例を使用して、バックボーンの適応的な組み合わせを調整する。
データセットの大規模な収集では、従来のアンサンブルをはるかに超えて、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
Contrastive Language-Image Pretraining (CLIP) stands out as a prominent method for image representation learning. Various architectures, from vision transformers (ViTs) to convolutional networks (ResNets) have been trained with CLIP to serve as general solutions to diverse vision tasks. This paper explores the differences across various CLIP-trained vision backbones. Despite using the same data and training objective, we find that these architectures have notably different representations, different classification performance across datasets, and different robustness properties to certain types of image perturbations. Our findings indicate a remarkable possible synergy across backbones by leveraging their respective strengths. In principle, classification accuracy could be improved by over 40 percentage with an informed selection of the optimal backbone per test example.Using this insight, we develop a straightforward yet powerful approach to adaptively ensemble multiple backbones. The approach uses as few as one labeled example per class to tune the adaptive combination of backbones. On a large collection of datasets, the method achieves a remarkable increase in accuracy of up to 39.1% over the best single backbone, well beyond traditional ensembles | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# SDL-MVS:リモートセンシングにおける多視点ステレオ再構成のための空間と深度変形可能な学習パラダイム
SDL-MVS: View Space and Depth Deformable Learning Paradigm for Multi-View Stereo Reconstruction in Remote Sensing ( http://arxiv.org/abs/2405.17140v1 ) ライセンス: Link先を確認 | Yong-Qiang Mao, Hanbo Bi, Liangyu Xu, Kaiqiang Chen, Zhirui Wang, Xian Sun, Kun Fu, | (参考訳) リモートセンシング画像に基づくマルチビューステレオに関する研究により,大規模都市3次元再構築の開発が促進された。
しかし、リモートセンシングによるマルチビュー画像データは、取得中のビュー間の閉塞や不均一な明るさの問題に悩まされ、深度推定におけるぼやけた細部の問題に繋がる。
この問題を解決するために,多視点ステレオタスクにおける変形可能な学習手法を再検討し,異なる視点空間における特徴の変形可能な相互作用を学習し,その深さ範囲と間隔を変形的にモデル化し,高精度な深度推定を実現することを目的とした,ビュースペースと深度変形性学習(SDL-MVS)に基づく新しいパラダイムを提案する。
具体的には、3次元フラストラム空間と2次元画像空間のサンプリング点の変形可能な学習を行うプログレッシブ・スペース・デフォルマブル・サンプリング(PSS)機構を提案する。
さらに深度を最適化するために,深度範囲仮説を適応的に調整し,深度間隔仮説の変形可能な離散化を実行することにより,深度を正確に位置決めするDHD(Depth hypothesis deformable Discretization)を導入する。
最後に,SDL-MVSは,視空間と奥行きの変形可能な学習パラダイムを用いて,多視点ステレオにおけるオクルージョンと不均一な明るさの明示的なモデリングを実現し,高精度な多視点深度推定を実現する。
LuoJia-MVSとWHUデータセットの大規模な実験は、我々のSDL-MVSが最先端の性能に達することを示している。
なお、我々のSDL-MVSは、0.086のMAE誤差、<0.6mの精度98.9%、LuoJia-MVSデータセットの<3インターバル98.9%を3つのビューの前提で達成している。
Research on multi-view stereo based on remote sensing images has promoted the development of large-scale urban 3D reconstruction. However, remote sensing multi-view image data suffers from the problems of occlusion and uneven brightness between views during acquisition, which leads to the problem of blurred details in depth estimation. To solve the above problem, we re-examine the deformable learning method in the Multi-View Stereo task and propose a novel paradigm based on view Space and Depth deformable Learning (SDL-MVS), aiming to learn deformable interactions of features in different view spaces and deformably model the depth ranges and intervals to enable high accurate depth estimation. Specifically, to solve the problem of view noise caused by occlusion and uneven brightness, we propose a Progressive Space deformable Sampling (PSS) mechanism, which performs deformable learning of sampling points in the 3D frustum space and the 2D image space in a progressive manner to embed source features to the reference feature adaptively. To further optimize the depth, we introduce Depth Hypothesis deformable Discretization (DHD), which achieves precise positioning of the depth prior by adaptively adjusting the depth range hypothesis and performing deformable discretization of the depth interval hypothesis. Finally, our SDL-MVS achieves explicit modeling of occlusion and uneven brightness faced in multi-view stereo through the deformable learning paradigm of view space and depth, achieving accurate multi-view depth estimation. Extensive experiments on LuoJia-MVS and WHU datasets show that our SDL-MVS reaches state-of-the-art performance. It is worth noting that our SDL-MVS achieves an MAE error of 0.086, an accuracy of 98.9% for <0.6m, and 98.9% for <3-interval on the LuoJia-MVS dataset under the premise of three views as input. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# MVMS-RCN : Multi-sparse-view と Multi-scale Refinement-correction を用いたDual-Domain Unfolding CT 再構成
MVMS-RCN: A Dual-Domain Unfolding CT Reconstruction with Multi-sparse-view and Multi-scale Refinement-correction ( http://arxiv.org/abs/2405.17141v1 ) ライセンス: Link先を確認 | Xiaohong Fan, Ke Chen, Huaming Yi, Yin Yang, Jianping Zhang, | (参考訳) X線CT(CT)は臨床応用において最も重要な診断技術の一つである。
スパースビューCTは、低い放射線線量に対するプロジェクションビューの数を減少させ、放射線照射の潜在的なリスクを軽減する。
既存の深層学習(DL)と深部展開スパルスCT再構成法
1) 投影データを完全に使用していない。
2) 建築設計を必ずしも数学的理論と結びつけてはならない。
3) マルチスパース・ビュー・リコンストラクションの割り当てを柔軟に扱わない。
本稿では,スパルス・ビュー・トモグラフィー再構成のための数学的アイデアと最適DLイメージングアルゴリズムの設計を目的とする。
単一モデルによる異なるサンプリングビューを持つマルチスパースCT再構成において,大きな柔軟性を提供する,新しいデュアルドメイン・ディープ・アンフォールディング統合フレームワークを提案する。
この枠組みは、モデルベース手法の理論的利点と、DLベースの手法の優れた再構成性能を組み合わせ、DLの期待される一般化性をもたらす。
本研究では,拡大投影領域を利用して全視点投影誤差を補正する補正モジュールと,多スケールの幾何誤差補正を蒸留してスパースCTを再構成する画像領域補正モジュールを提案する。
これにより、プロジェクション情報の可能性を探る新たな方法と、ネットワークアーキテクチャの設計に対する新たな視点が得られます。
提案するフレームワークの全てのパラメータは学習可能なエンドツーエンドであり,プラグ・アンド・プレイの再構成に適用できる可能性を持っている。
大規模な実験により、我々のフレームワークは他の最先端の手法よりも優れていることが示された。
ソースコードはhttps://github.com/fanxiaohong/MVMS-RCN.comで公開されています。
X-ray Computed Tomography (CT) is one of the most important diagnostic imaging techniques in clinical applications. Sparse-view CT imaging reduces the number of projection views to a lower radiation dose and alleviates the potential risk of radiation exposure. Most existing deep learning (DL) and deep unfolding sparse-view CT reconstruction methods: 1) do not fully use the projection data; 2) do not always link their architecture designs to a mathematical theory; 3) do not flexibly deal with multi-sparse-view reconstruction assignments. This paper aims to use mathematical ideas and design optimal DL imaging algorithms for sparse-view tomography reconstructions. We propose a novel dual-domain deep unfolding unified framework that offers a great deal of flexibility for multi-sparse-view CT reconstruction with different sampling views through a single model. This framework combines the theoretical advantages of model-based methods with the superior reconstruction performance of DL-based methods, resulting in the expected generalizability of DL. We propose a refinement module that utilizes unfolding projection domain to refine full-sparse-view projection errors, as well as an image domain correction module that distills multi-scale geometric error corrections to reconstruct sparse-view CT. This provides us with a new way to explore the potential of projection information and a new perspective on designing network architectures. All parameters of our proposed framework are learnable end to end, and our method possesses the potential to be applied to plug-and-play reconstruction. Extensive experiments demonstrate that our framework is superior to other existing state-of-the-art methods. Our source codes are available at https://github.com/fanxiaohong/MVMS-RCN. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# 絡み合いによるマルチスタビリティ
Disentanglement-induced multistability ( http://arxiv.org/abs/2405.17145v1 ) ライセンス: Link先を確認 | Eyal Buks, | (参考訳) 可算性(multistability)は、単安定マスター方程式に基づく理論モデルから導出することはできない。
一方、マルチスタビリティは様々な量子系で実験的に観察されている。
絡み合いを引き起こす非線形項を持つマスター方程式が最近提案されている。
このマスター方程式によって支配される力学は、結合スピンからなる量子系に対して探索される。
加算された非線形項が乗算可能性をもたらすことが判明した。
外部に印加された磁場に対するスピンの応答を評価し, 相転移と動的不安定性の両方を見出した。
これらの発見は、量子系において自然発散が起こるという仮説を間接的に支持するものである。
Multistability cannot be derived from any theoretical model that is based on a monostable master equation. On the other hand, multistability is experimentally-observed in a variety of quantum systems. A master equation having a nonlinear term that gives rise to disentanglement has been recently proposed . The dynamics governed by this master equation is explored for a quantum system made of coupled spins. It is found that the added nonlinear term can give rise to multistability. The spins' response to an externally applied magnetic field is evaluated, and both a phase transition and a dynamical instability are found. These findings, which originate from disentanglement-induced multistability, indirectly support the hypothesis that spontaneous disentanglement occurs in quantum systems. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# 圧縮ファイルフォーマット理解のための圧縮言語モデル:JPEG探索
Compressed-Language Models for Understanding Compressed File Formats: a JPEG Exploration ( http://arxiv.org/abs/2405.17146v1 ) ライセンス: Link先を確認 | Juan C. Pérez, Alejandro Pardo, Mattia Soldan, Hani Itani, Juan Leon-Alcazar, Bernard Ghanem, | (参考訳) 本研究では,Compressed-Language Models(CLMs),すなわちCompressed File Formats~(CFFs)の生のバイトストリームで動作する言語モデルが,CFFによって圧縮されたファイルを理解することができるかどうかを検討する。
我々は、エントロピー符号化やラン長符号化といった圧縮における鍵となる概念の共通性と代表性を考慮して、JPEGフォーマットを代表的CFFとして重視する。
我々は、CLMがJPEGフォーマットを理解するかどうかを、固有のファイルプロパティの認識、異常のあるファイルの扱い、新しいファイルの生成という、3つの軸に沿って実行する能力を調べて検証する。
本研究は,CLMがこれらのタスクを効果的に実行できることを実証するものである。
これらの結果は,CFFが生成するファイルのバイトストリームを直接操作する場合,圧縮データのセマンティクスをCLMが理解できることを示唆している。
生の圧縮ファイルを直接操作する可能性は、その有用性、コンパクト性、マルチモーダル性、セグメント・ナチュアといった特徴のいくつかを活用することを約束する。
This study investigates whether Compressed-Language Models (CLMs), i.e. language models operating on raw byte streams from Compressed File Formats~(CFFs), can understand files compressed by CFFs. We focus on the JPEG format as a representative CFF, given its commonality and its representativeness of key concepts in compression, such as entropy coding and run-length encoding. We test if CLMs understand the JPEG format by probing their capabilities to perform along three axes: recognition of inherent file properties, handling of files with anomalies, and generation of new files. Our findings demonstrate that CLMs can effectively perform these tasks. These results suggest that CLMs can understand the semantics of compressed data when directly operating on the byte streams of files produced by CFFs. The possibility to directly operate on raw compressed files offers the promise to leverage some of their remarkable characteristics, such as their ubiquity, compactness, multi-modality and segment-nature. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# LCM:Masked Point Modelingのための局所的に制約されたコンパクトポイントクラウドモデル
LCM: Locally Constrained Compact Point Cloud Model for Masked Point Modeling ( http://arxiv.org/abs/2405.17149v1 ) ライセンス: Link先を確認 | Yaohua Zha, Naiqi Li, Yanzi Wang, Tao Dai, Hang Guo, Bin Chen, Zhi Wang, Zhihao Ouyang, Shu-Tao Xia, | (参考訳) Masked Point Modeling (MPM)に基づく事前訓練されたポイントクラウドモデルは、様々なタスクで大幅に改善されている。
しかし、これらのモデルはTransformerに大きく依存しており、二次的な複雑さと限定的なデコーダをもたらし、その実践を妨げている。
この制限に対処するために、我々はまず既存のTransformerベースのMPMを包括的に分析し、点雲解析に冗長性低減が不可欠であるという考えを強調した。
そこで我々は,局所的に制約されたコンパクトエンコーダと局所的に制約されたMambaベースのデコーダからなる,局所的に制約されたコンパクトポイントクラウドモデル(LCM)を提案する。
エンコーダは、パフォーマンスと効率のエレガントなバランスを達成するために、自己アテンションをローカルアグリゲーション層に置き換えます。
MPMのデコーダ入力におけるマスクされたパッチとアンマスクされたパッチ間の情報密度の変化を考慮すると、局所的に制約されたMambaベースのデコーダを導入する。
このデコーダは、高情報密度の未処理パッチからの点雲幾何学情報の知覚を最大化しつつ、線形複雑性を保証する。
大規模な実験結果から,我々のコンパクトモデルは既存のトランスフォーマーモデルよりも性能と効率の両面で大幅に優れており,特にLCMベースのポイント-MAEモデルでは2.24%,0.87%,0.94%の性能向上を達成し,パラメータを88%,計算を73%削減した。
The pre-trained point cloud model based on Masked Point Modeling (MPM) has exhibited substantial improvements across various tasks. However, these models heavily rely on the Transformer, leading to quadratic complexity and limited decoder, hindering their practice application. To address this limitation, we first conduct a comprehensive analysis of existing Transformer-based MPM, emphasizing the idea that redundancy reduction is crucial for point cloud analysis. To this end, we propose a Locally constrained Compact point cloud Model (LCM) consisting of a locally constrained compact encoder and a locally constrained Mamba-based decoder. Our encoder replaces self-attention with our local aggregation layers to achieve an elegant balance between performance and efficiency. Considering the varying information density between masked and unmasked patches in the decoder inputs of MPM, we introduce a locally constrained Mamba-based decoder. This decoder ensures linear complexity while maximizing the perception of point cloud geometry information from unmasked patches with higher information density. Extensive experimental results show that our compact model significantly surpasses existing Transformer-based models in both performance and efficiency, especially our LCM-based Point-MAE model, compared to the Transformer-based model, achieved an improvement of 2.24%, 0.87%, and 0.94% in performance on the three variants of ScanObjectNN while reducing parameters by 88% and computation by 73%. | 翻訳日:2024-05-28 15:22:54 公開日:2024-05-27 |
# 因果的下流作業における煙と鏡
Smoke and Mirrors in Causal Downstream Tasks ( http://arxiv.org/abs/2405.17151v1 ) ライセンス: Link先を確認 | Riccardo Cadei, Lukas Lindorfer, Sylvia Cremer, Cordelia Schmid, Francesco Locatello, | (参考訳) 機械学習とAIは、データ駆動の科学的発見を変換し、いくつかの科学的現象の正確な予測を可能にする。
多くの科学的疑問が本質的に因果関係にあるため、本論文では、ランダム化比較試験(RCT)において、高次元画像として記録されるバイナリ効果を仮定する、治療効果推定の因果推論タスクについて検討する。
最も単純な設定であり、深層学習に最適であるにもかかわらず、理論的には、文献における多くの一般的な選択が偏りのある推定に繋がる可能性がある。
これらの考察の実践的影響を検証するために,本研究では,高次元観察における因果推論タスクのための実世界の最初のベンチマークを,園芸アリ(Lasius ignoreus)がコロニーに付着した微小粒子にどのように反応するかを,衛生的な手入れによって調査した。
最先端の視覚バックボーンから微調整した6つの480モデルと比較すると,サンプリングとモデリングの選択が因果推定の精度に大きく影響し,分類精度が代役ではないことがわかった。
さらに解析を検証し、因果モデルを制御する合成生成された視覚データセット上で繰り返し検討した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
さらに,科学における因果問題への回答を支援するために,表現学習手法のガイドラインを強調した。
すべてのコードとデータがリリースされる。
Machine Learning and AI have the potential to transform data-driven scientific discovery, enabling accurate predictions for several scientific phenomena. As many scientific questions are inherently causal, this paper looks at the causal inference task of treatment effect estimation, where we assume binary effects that are recorded as high-dimensional images in a Randomized Controlled Trial (RCT). Despite being the simplest possible setting and a perfect fit for deep learning, we theoretically find that many common choices in the literature may lead to biased estimates. To test the practical impact of these considerations, we recorded the first real-world benchmark for causal inference downstream tasks on high-dimensional observations as an RCT studying how garden ants (Lasius neglectus) respond to microparticles applied onto their colony members by hygienic grooming. Comparing 6 480 models fine-tuned from state-of-the-art visual backbones, we find that the sampling and modeling choices significantly affect the accuracy of the causal estimate, and that classification accuracy is not a proxy thereof. We further validated the analysis, repeating it on a synthetically generated visual data set controlling the causal model. Our results suggest that future benchmarks should carefully consider real downstream scientific questions, especially causal ones. Further, we highlight guidelines for representation learning methods to help answer causal questions in the sciences. All code and data will be released. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# CoSLight: 交通信号制御を支援する共同作業者選択と意思決定
CoSLight: Co-optimizing Collaborator Selection and Decision-making to Enhance Traffic Signal Control ( http://arxiv.org/abs/2405.17152v1 ) ライセンス: Link先を確認 | Jingqing Ruan, Ziyue Li, Hua Wei, Haoyuan Jiang, Jiaming Lu, Xuantang Xiong, Hangyu Mao, Rui Zhao, | (参考訳) 強化学習に基づく交通信号制御において,効果的な多区間協調が重要である。
既存の作業は主に近隣の交差点を協力者として選択している。
しかし、非常に多くの混雑、あるいはある程度の広範囲の混雑は、非隣人が協力し合わなかったために引き起こされる。
これらの問題に対処するために、我々は、協力者選択を学習すべき第2のポリシーとして分離し、元の信号制御ポリシーを同時に更新することを提案する。
具体的には、リアルタイムで選択ポリシーは、フェーズレベルと交差点レベルの特徴に応じて、最適なチームメイトを適応的に選択する。
合成と実世界の両方のデータセットに対する実証的な結果は、我々のアプローチの優位性に対する堅牢な検証を提供し、既存の最先端手法よりも大幅に改善されている。
コードはhttps://github.com/AnonymousAccountss/CoSLightで入手できる。
Effective multi-intersection collaboration is pivotal for reinforcement-learning-based traffic signal control to alleviate congestion. Existing work mainly chooses neighboring intersections as collaborators. However, quite an amount of congestion, even some wide-range congestion, is caused by non-neighbors failing to collaborate. To address these issues, we propose to separate the collaborator selection as a second policy to be learned, concurrently being updated with the original signal-controlling policy. Specifically, the selection policy in real-time adaptively selects the best teammates according to phase- and intersection-level features. Empirical results on both synthetic and real-world datasets provide robust validation for the superiority of our approach, offering significant improvements over existing state-of-the-art methods. The code is available at https://github.com/AnonymousAccountss/CoSLight. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# ステラー光曲線のスケーリング法則
The Scaling Law in Stellar Light Curves ( http://arxiv.org/abs/2405.17156v1 ) ライセンス: Link先を確認 | Jia-Shu Pan, Yuan-Sen Ting, Yang Huang, Jie Yu, Ji-Feng Liu, | (参考訳) 恒星の光曲線として知られる恒星からの一連のフラックスを分析することで、恒星の性質に関する貴重な情報を明らかにすることができる。
しかし、現在のほとんどの手法は要約統計の抽出に依存しており、ディープラーニングを用いた研究は教師付きアプローチに限られている。
本研究では、天文時系列データから学習するときに現れるスケーリング法則について、自己監督技術を用いて検討する。
GPT-2アーキテクチャを用いることで,パラメータ数が10^4$から10^9$に増加するにつれて,性能の低下の兆候がなく,学習表現が向上することを示す。
本研究では, 自監督トランスフォーマーモデルを用いて, 恒星の表面重力を下流の課題として推定した場合の, 最先端の教師付き学習モデルと比較して, サンプル効率を310倍に向上させることを示した。
本研究は,大規模自己回帰生成モデルを用いて恒星の光度曲線を解析するための基礎研究である。
Analyzing time series of fluxes from stars, known as stellar light curves, can reveal valuable information about stellar properties. However, most current methods rely on extracting summary statistics, and studies using deep learning have been limited to supervised approaches. In this research, we investigate the scaling law properties that emerge when learning from astronomical time series data using self-supervised techniques. By employing the GPT-2 architecture, we show the learned representation improves as the number of parameters increases from $10^4$ to $10^9$, with no signs of performance plateauing. We demonstrate that a self-supervised Transformer model achieves 3-10 times the sample efficiency compared to the state-of-the-art supervised learning model when inferring the surface gravity of stars as a downstream task. Our research lays the groundwork for analyzing stellar light curves by examining them through large-scale auto-regressive generative models. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# ハイゼンベルクXYZと固有デコヒーレンスモデルによる非局所相関の生成とロバスト性: (x,y)-スピン-軌道相互作用と$x$-磁場
Generation and robustness of non-local correlations induced by Heisenberg XYZ and intrinsic decoherence models: (x,y)-spin-orbit interactions and $x$- magnetic field ( http://arxiv.org/abs/2405.17157v1 ) ライセンス: Link先を確認 | F. Aljuaydi, S. N. Almutairi, A. -B. A. Mohamed, | (参考訳) 本研究は、局所量子フィッシャー情報(LQFI)、局所量子不確実性(LQU)、対数ネガティビティの絡み合いの非局所相関(NLC)力学において、スピン軌道ジアルシンスキー・モリヤ(DM)相互作用によって支えられるスピンスピンハイゼンベルクXYZ相互作用の役割を調べるためにミルバーン固有デコヒーレンスモデルを用いている。
2ビットのハイゼンベルクXYZ(non-X)状態の非局所相関生成は、適用されたx方向外部不均一磁場(EIMF)の均一性と不均一性の影響の下で研究される。
その結果,スピンスピンのハイゼンベルクXYZとx,y-スピン-軌道相互作用は,弱い外部磁場の存在下で非局所的相関性を高める能力が高いことが示された。
上昇した非局所相関はスピンスピンとx,yスピン軌道相互作用を強化し、EIMFの不均一性と均一性を高めることで改善することができる。
非局所相関振動の振幅とゆらぎが増大する。
スピンスピン相互作用を強化することにより, 内在性脱コヒーレンス(NLCsの内在性脱コヒーレンスに対する堅牢性)の存在下でのNLCs世代劣化を減少させることができる。
これらは、x,yスピン軌道相互作用の強度を増大させ、EIMFの不均一性と均一性を増加させることによって増大することができる。
In this work, the Milburn intrinsic decoherence model is used to investigate the role of spin-spin Heisenberg XYZ interaction supported by spin-orbit Dzyaloshinsky Moriya (DM) interactions of x and y directions together in the non-local correlation (NLC) dynamics of Local quantum Fisher information (LQFI), local quantum uncertainty (LQU), and Log-negativity's entanglement. The two-qubit Heisenberg XYZ (non-X) states' nonlocal correlation generations are explored under the effects of the uniformity and the inhomogeneity of an applied x-direction external inhomogeneous magnetic field (EIMF). Our meticulous exploration of the obtained results shows that the spin-spin Heisenberg XYZ and x,y-spin-orbit interactions have a high capability to raise non-local correlations in the presence of a weak external magnetic field. The raised non-local correlation can be improved by strengthening the spin-spin and x,y spin-orbit interactions and increasing the EIMF's inhomogeneity and uniformity. Non-local correlation oscillations' amplitudes and fluctuations are increased. The degradations of the NLCs' generations in the presence of intrinsic decoherence (NLCs' robustness against intrinsic decoherence) can be decreased by strengthening the spin-spin interactions. They can be increased by increasing the intensities of x,y spin-orbit interactions as well as increasing the EIMF's inhomogeneity and uniformity. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# PatchScaler:超解法のための効率的パッチ非依存拡散モデル
PatchScaler: An Efficient Patch-independent Diffusion Model for Super-Resolution ( http://arxiv.org/abs/2405.17158v1 ) ライセンス: Link先を確認 | Yong Liu, Hang Dong, Jinshan Pan, Qingji Dong, Kai Chen, Rongxiang Zhang, Xing Mei, Lean Fu, Fei Wang, | (参考訳) 拡散モデルは、その印象的なコンテンツ生成機能により、超解像の品質を著しく向上させる。
提案手法は,画像中のすべての画像パッチが,高解像度画像の再構成に同じサンプリングステップを必要とするという観測結果から,パッチレベルの再構成の困難さに応じて,特徴パッチを異なるグループに分割するパッチ適応型グループサンプリング (PGS) を開発し,各グループに最適な設定を割り当てることにより,より高速に高速化し,より高速なテクスチャ・テクスチャ・テクスチャ・テクスチャ・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション(SR)法を提案する。
Diffusion models significantly improve the quality of super-resolved images with their impressive content generation capabilities. However, the huge computational costs limit the applications of these methods.Recent efforts have explored reasonable inference acceleration to reduce the number of sampling steps, but the computational cost remains high as each step is performed on the entire image.This paper introduces PatchScaler, a patch-independent diffusion-based single image super-resolution (SR) method, designed to enhance the efficiency of the inference process.The proposed method is motivated by the observation that not all the image patches within an image need the same sampling steps for reconstructing high-resolution images.Based on this observation, we thus develop a Patch-adaptive Group Sampling (PGS) to divide feature patches into different groups according to the patch-level reconstruction difficulty and dynamically assign an appropriate sampling configuration for each group so that the inference speed can be better accelerated.In addition, to improve the denoising ability at each step of the sampling, we develop a texture prompt to guide the estimations of the diffusion model by retrieving high-quality texture priors from a patch-independent reference texture memory.Experiments show that our PatchScaler achieves favorable performance in both quantitative and qualitative evaluations with fast inference speed.Our code and model are available at \url{https://github.com/yongliuy/PatchScaler}. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# ストップ! 義理の名において:NLPにおける個人名とソシオドモグラフィー属性を異にする
Stop! In the Name of Flaws: Disentangling Personal Names and Sociodemographic Attributes in NLP ( http://arxiv.org/abs/2405.17159v1 ) ライセンス: Link先を確認 | Vagrant Gautam, Arjun Subramonian, Anne Lauscher, Os Keyes, | (参考訳) 個人名は同時に個人を区別し、特定の社会において重要な方法で分類する。
自然言語処理コミュニティは、様々なタスクにおいて、人名と社会デマログラフィーの特徴を関連付けてきたが、研究者は、それを行う上で確立された方法論的な問題に、様々な度合いで取り組んできた。
今後の研究の指針として,名称と命名に関する学際的背景を示す。
次に,社会デマロジカルな属性を連想させ,妥当性の問題(例えば,体系的誤り,構成的妥当性)と倫理的懸念(例えば,害,差分的影響,文化的過敏性)について調査する。
最後に、自然言語処理における名前や社会デマログラフの特徴を扱う際に、妥当性や倫理的落とし穴を避けるための規範的勧告とともに、指導的質問を提供する。
Personal names simultaneously differentiate individuals and categorize them in ways that are important in a given society. While the natural language processing community has thus associated personal names with sociodemographic characteristics in a variety of tasks, researchers have engaged to varying degrees with the established methodological problems in doing so. To guide future work, we present an interdisciplinary background on names and naming. We then survey the issues inherent to associating names with sociodemographic attributes, covering problems of validity (e.g., systematic error, construct validity), as well as ethical concerns (e.g., harms, differential impact, cultural insensitivity). Finally, we provide guiding questions along with normative recommendations to avoid validity and ethical pitfalls when dealing with names and sociodemographic characteristics in natural language processing. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# ロングレンジ伝搬のためのディープグラフネットワークにハミルトン建築バイアスを注入する
Injecting Hamiltonian Architectural Bias into Deep Graph Networks for Long-Range Propagation ( http://arxiv.org/abs/2405.17163v1 ) ライセンス: Link先を確認 | Simon Heilig, Alessio Gravina, Alessandro Trenta, Claudio Gallicchio, Davide Bacciu, | (参考訳) グラフ内の情報拡散のダイナミクスは、特に長距離伝播を考える場合、グラフ表現学習に大きな影響を与える重要なオープン問題である。
これは、神経の流れを通して情報の伝播と伝達の程度を制御し、規制する原則的なアプローチを要求する。
ハミルトン力学系の保存則に基づいてグラフ内の神経情報の流れをモデル化する新しいフレームワークである(ポート-)ハミルトニアンディープグラフネットワークを導入する。
我々は,非散逸的長距離伝播と非保守的挙動の両立した理論的,実践的な枠組みの下で和解し,両コンポーネント間の平衡を測る機械システムからツールを導入する。
提案手法は一般的なメッセージパッシングアーキテクチャに適用可能であり,情報保存に関する理論的保証を提供する。
試行錯誤実験により, 単純なグラフ畳み込みアーキテクチャを長距離ベンチマークの最先端性能にプッシュする上で, ポート・ハミルトニアン方式の有効性が証明された。
The dynamics of information diffusion within graphs is a critical open issue that heavily influences graph representation learning, especially when considering long-range propagation. This calls for principled approaches that control and regulate the degree of propagation and dissipation of information throughout the neural flow. Motivated by this, we introduce (port-)Hamiltonian Deep Graph Networks, a novel framework that models neural information flow in graphs by building on the laws of conservation of Hamiltonian dynamical systems. We reconcile under a single theoretical and practical framework both non-dissipative long-range propagation and non-conservative behaviors, introducing tools from mechanical systems to gauge the equilibrium between the two components. Our approach can be applied to general message-passing architectures, and it provides theoretical guarantees on information conservation in time. Empirical results prove the effectiveness of our port-Hamiltonian scheme in pushing simple graph convolutional architectures to state-of-the-art performance in long-range benchmarks. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# WeiPer:クラス投影の重み摂動を用いたOOD検出
WeiPer: OOD Detection using Weight Perturbations of Class Projections ( http://arxiv.org/abs/2405.17164v1 ) ライセンス: Link先を確認 | Maximilian Granz, Manuel Heurich, Tim Landgraf, | (参考訳) 画像データにおけるオフ・オブ・ディストリビューション(OOD)検出の最近の進歩は、事前訓練されたニューラルネットワーク分類器が、OODデータからイン・ディストリビューション(ID)を適切に分離できることを示し、モデル自体のクラス識別能力を活用している。
直接ロジット情報を使用する方法や、モデルの垂直層アクティベーションを処理する方法が提案されている。
WeiPer"では、最後の完全に接続された層にクラスプロジェクションの摂動を導入し、入力のよりリッチな表現を生成します。
この簡単な手法により,様々な手法のOOD検出性能が向上し,拡張されたWeiPer空間の特性を利用した距離ベース手法を提案する。
我々は,OpenOODフレームワークの複数のベンチマーク,特にOODサンプルがトレーニングセット分布に近い位置にある困難な環境で,最先端のOOD検出結果を実現する。
理論的モチベーションと経験的観察で得られた知見をサポートし,WeiPerがなぜ機能するのかについての知見を提供するために,広範囲にわたる検証を実施している。
Recent advances in out-of-distribution (OOD) detection on image data show that pre-trained neural network classifiers can separate in-distribution (ID) from OOD data well, leveraging the class-discriminative ability of the model itself. Methods have been proposed that either use logit information directly or that process the model's penultimate layer activations. With "WeiPer", we introduce perturbations of the class projections in the final fully connected layer which creates a richer representation of the input. We show that this simple trick can improve the OOD detection performance of a variety of methods and additionally propose a distance-based method that leverages the properties of the augmented WeiPer space. We achieve state-of-the-art OOD detection results across multiple benchmarks of the OpenOOD framework, especially pronounced in difficult settings in which OOD samples are positioned close to the training set distribution. We support our findings with theoretical motivations and empirical observations, and run extensive ablations to provide insights into why WeiPer works. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# Few-shot Low-Dose CT 再構成のための分割ハンケル拡散モデル
Partitioned Hankel-based Diffusion Models for Few-shot Low-dose CT Reconstruction ( http://arxiv.org/abs/2405.17167v1 ) ライセンス: Link先を確認 | Wenhao Zhang, Bin Huang, Shuyue Chen, Xiaoling Xu, Weiwen Wu, Qiegen Liu, | (参考訳) 低線量CT(LDCT)は放射線リスクを緩和することで臨床応用において重要な役割を担っている。
それでも、放射線線量を減らすことは、画像の品質を著しく低下させる。
同時に、一般的なディープラーニング手法は広範なデータを必要とし、プライバシ、コスト、時間の制約を懸念する。
そこで本研究では,分割ハンケル拡散(PHD)モデルを用いた低用量CT再構成法を提案する。
事前学習段階では、投影データはまず複数の分割されたハンケル行列に変換される。
構造化テンソルはこれらの行列から抽出され、多重拡散モデルによる事前学習を容易にする。
反復再構成段階では、反復確率微分方程式解法とデータ一貫性制約を併用して、取得した投影データを更新する。
さらに、ペナル化した最小二乗法と全変分法を導入し、その結果の画質を向上させる。
その結果, 画像品質を保ちながら, 工芸品や騒音を低減し, 有効かつ実用的なモデルとしてPHDモデルを検証した。
Low-dose computed tomography (LDCT) plays a vital role in clinical applications by mitigating radiation risks. Nevertheless, reducing radiation doses significantly degrades image quality. Concurrently, common deep learning methods demand extensive data, posing concerns about privacy, cost, and time constraints. Consequently, we propose a few-shot low-dose CT reconstruction method using Partitioned Hankel-based Diffusion (PHD) models. During the prior learning stage, the projection data is first transformed into multiple partitioned Hankel matrices. Structured tensors are then extracted from these matrices to facilitate prior learning through multiple diffusion models. In the iterative reconstruction stage, an iterative stochastic differential equation solver is employed along with data consistency constraints to update the acquired projection data. Furthermore, penalized weighted least-squares and total variation techniques are introduced to enhance the resulting image quality. The results approximate those of normal-dose counterparts, validating PHD model as an effective and practical model for reducing artifacts and noise while preserving image quality. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# 機械学習による4サイクルの予測:米国とユーロゾンを事例として
Forecasting Four Business Cycle Phases Using Machine Learning: A Case Study of US and EuroZone ( http://arxiv.org/abs/2405.17170v1 ) ライセンス: Link先を確認 | Elvys Linhares Pontes, Mohamed Benjannet, Raymond Yung, | (参考訳) ビジネスサイクルを理解することは、経済の安定の構築、事業計画の指導、投資決定の実行に不可欠である。
ビジネス・サイクル(ビジネス・サイクル)とは、長期にわたる経済活動の拡大と縮小のパターンをいう。
経済分析は本質的に複雑で、無数の要因(マクロ経済指標、政治的決定など)を取り入れている。
この複雑さは、経済の現在の状態を決定し、今後数ヶ月で将来の軌道を予測する際に、すべての変数を十分に考慮するのは難しい。
本研究の目的は、米国とユーロゾーンにおけるビジネスフェーズ(拡大、減速、景気後退、景気回復)を予測し、経済状況を自動的に分析する機械学習モデルの能力を検討することである。
我々は、ビジネスサイクルのフェーズを分類するための3つの異なる機械学習アプローチを比較し、その中で、MLR(Multinomial Logistic Regression)が最良の結果を得た。
具体的には、MLRは65.25%(Top1)、84.74%(Top2)、75%(Top1)、92.14%(Top2)の精度を達成した。
これらの結果は、ビジネスサイクルを正確に予測する機械学習技術の可能性を示し、経済と金融の分野における情報的意思決定を支援する。
Understanding the business cycle is crucial for building economic stability, guiding business planning, and informing investment decisions. The business cycle refers to the recurring pattern of expansion and contraction in economic activity over time. Economic analysis is inherently complex, incorporating a myriad of factors (such as macroeconomic indicators, political decisions). This complexity makes it challenging to fully account for all variables when determining the current state of the economy and predicting its future trajectory in the upcoming months. The objective of this study is to investigate the capacity of machine learning models in automatically analyzing the state of the economic, with the goal of forecasting business phases (expansion, slowdown, recession and recovery) in the United States and the EuroZone. We compared three different machine learning approaches to classify the phases of the business cycle, and among them, the Multinomial Logistic Regression (MLR) achieved the best results. Specifically, MLR got the best results by achieving the accuracy of 65.25% (Top1) and 84.74% (Top2) for the EuroZone and 75% (Top1) and 92.14% (Top2) for the United States. These results demonstrate the potential of machine learning techniques to predict business cycles accurately, which can aid in making informed decisions in the fields of economics and finance. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# DreamMat: 幾何学および光認識拡散モデルによる高品質PBR材料生成
DreamMat: High-quality PBR Material Generation with Geometry- and Light-aware Diffusion Models ( http://arxiv.org/abs/2405.17176v1 ) ライセンス: Link先を確認 | Yuqing Zhang, Yuan Liu, Zhiyu Xie, Lei Yang, Zhongyuan Liu, Mengzhou Yang, Runze Zhang, Qilong Kou, Cheng Lin, Wenping Wang, Xiaogang Jin, | (参考訳) 2次元拡散モデルは、しばしば焼き込みシェーディング効果を含み、下流のアプリケーションに非現実的なレンダリング効果をもたらす。
RGBテクスチャの代わりに物理ベースレンダリング(PBR)素材を生成することは、有望な解決策である。
しかしながら、2次元拡散モデルから直接PBR材料パラメータを蒸留することは、アルベドの焼入れシェーディング効果などの誤った材料分解に苦しむ。
上記の問題を解決するための革新的なアプローチであるDreamMatを導入し、テキスト記述から高品質なPBR材料を生成する。
この不正確な物質蒸留の主な理由は, 大規模2次元拡散モデルが最終シェーディング色を生成するためにのみ訓練されることであり, 蒸留中の材料の分解に制約が不十分であることが判明した。
この問題に対処するために、我々はまず、所定の照明環境において新しい光認識2D拡散モデルを作成し、この特定の照明条件上でシェーディング結果を生成する。
そして、同じ環境光を蒸留に応用することにより、DreamMatは、与えられた幾何学と整合性だけでなく、アルベドの焼成陰影効果のない高品質のPBR材料を生成することができる。
大規模な実験により,本手法により作製した材料は,ゲームや映画などの下流業務に好適なベースライン方式に比べて,ユーザにとってより視覚的な魅力を示し,レンダリング品質が著しく向上していることが示された。
2D diffusion model, which often contains unwanted baked-in shading effects and results in unrealistic rendering effects in the downstream applications. Generating Physically Based Rendering (PBR) materials instead of just RGB textures would be a promising solution. However, directly distilling the PBR material parameters from 2D diffusion models still suffers from incorrect material decomposition, such as baked-in shading effects in albedo. We introduce DreamMat, an innovative approach to resolve the aforementioned problem, to generate high-quality PBR materials from text descriptions. We find out that the main reason for the incorrect material distillation is that large-scale 2D diffusion models are only trained to generate final shading colors, resulting in insufficient constraints on material decomposition during distillation. To tackle this problem, we first finetune a new light-aware 2D diffusion model to condition on a given lighting environment and generate the shading results on this specific lighting condition. Then, by applying the same environment lights in the material distillation, DreamMat can generate high-quality PBR materials that are not only consistent with the given geometry but also free from any baked-in shading effects in albedo. Extensive experiments demonstrate that the materials produced through our methods exhibit greater visual appeal to users and achieve significantly superior rendering quality compared to baseline methods, which are preferable for downstream tasks such as game and film production. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# 逆ロバスト表現学習のためのスペクトル正規化
Spectral regularization for adversarially-robust representation learning ( http://arxiv.org/abs/2405.17181v1 ) ライセンス: Link先を確認 | Sheng Yang, Jacob A. Zavatone-Veth, Cengiz Pehlevan, | (参考訳) ニューラルネットワーク分類器の敵攻撃に対する脆弱性は、安全クリティカルなアプリケーションへの展開において大きな障害となる。
トレーニング中のネットワークパラメータの規則化は、対向的堅牢性と一般化性能を改善するために使用できる。
通常、ネットワークは正規化されたエンドツーエンドで、すべての層にパラメータが正規化によって影響を受ける。
しかし、自己教師付き学習(SSL)のような学習表現が鍵となる環境では、推論を行う際に特徴表現の後のレイヤは破棄される。
これらのモデルでは、機能領域への正規化がより適しています。
この目的のために、下流分類タスクにおけるブラックボックスの対角的堅牢性を促進する表現学習のための新しいスペクトル正規化器を提案する。
教師付き分類設定では,ネットワークのすべての層を正規化する手法よりも,テスト精度とロバスト性の向上に有効であることが実証的に示されている。
そこで,本手法は,自己教師型学習で学習した表現や,他の分類課題から受け継いだ表現を用いて,分類器の対角ロバスト性を向上させることを示す。
全体として、我々の研究は、表象構造が敵の強靭性にどのように影響するかを明らかにし始めます。
The vulnerability of neural network classifiers to adversarial attacks is a major obstacle to their deployment in safety-critical applications. Regularization of network parameters during training can be used to improve adversarial robustness and generalization performance. Usually, the network is regularized end-to-end, with parameters at all layers affected by regularization. However, in settings where learning representations is key, such as self-supervised learning (SSL), layers after the feature representation will be discarded when performing inference. For these models, regularizing up to the feature space is more suitable. To this end, we propose a new spectral regularizer for representation learning that encourages black-box adversarial robustness in downstream classification tasks. In supervised classification settings, we show empirically that this method is more effective in boosting test accuracy and robustness than previously-proposed methods that regularize all layers of the network. We then show that this method improves the adversarial robustness of classifiers using representations learned with self-supervised training or transferred from another classification task. In all, our work begins to unveil how representational structure affects adversarial robustness. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# 連続時間動的リンク予測アルゴリズムの性能調査
Exploring the Performance of Continuous-Time Dynamic Link Prediction Algorithms ( http://arxiv.org/abs/2405.17182v1 ) ライセンス: Link先を確認 | Raphaël Romero, Maarten Buyl, Tijl De Bie, Jefrey Lijffijt, | (参考訳) ダイナミックリンク予測(DLP)は、進化するネットワークにおける将来のリンクの予測に対処する。
しかし、DLPアルゴリズムの性能を正確に表現することは、この分野の進歩を妨げるかもしれない課題を引き起こす。
重要な点として、一般的な評価パイプラインは、観測された相互作用(正)のスコアをランダムに生成されたもの(負)と比較する、ランキングまたは二分分類のメトリクスを計算する。
しかし、DLPアルゴリズムの違いを完全に捉えるのに1つの計量だけでは不十分であり、過度に楽観的な性能評価を行う傾向がある。
代わりに、詳細な評価は、異なるノード、エッジ、時間セグメントにわたるパフォーマンスの変動を反映すべきである。
本研究では,このような総合的な評価を行うためのツールをコントリビュートする。
1) DLPの難易度に及ぼす時間ベースの列車試験分割の影響を示す簡易かつ強力な可視化手法であるBirth-Death図を提案する。
2) 評価時に使用可能な陰性サンプリング手法の徹底的な分類について述べる。
(3) 異なる陰性サンプリング戦略の効果に関する実証的研究を行った。
種々の実世界のデータセットにおけるヒューリスティックスと最先端メモリベースの手法の比較により,テストエリアアンダー・ザ・カーブ(AUC)における異なる負のサンプリング戦略を用いることによる強い効果が確認された。
さらに、予測の視覚的な探索を行い、時間とともにどの種類のエラーが顕著であるかを洞察する。
Dynamic Link Prediction (DLP) addresses the prediction of future links in evolving networks. However, accurately portraying the performance of DLP algorithms poses challenges that might impede progress in the field. Importantly, common evaluation pipelines usually calculate ranking or binary classification metrics, where the scores of observed interactions (positives) are compared with those of randomly generated ones (negatives). However, a single metric is not sufficient to fully capture the differences between DLP algorithms, and is prone to overly optimistic performance evaluation. Instead, an in-depth evaluation should reflect performance variations across different nodes, edges, and time segments. In this work, we contribute tools to perform such a comprehensive evaluation. (1) We propose Birth-Death diagrams, a simple but powerful visualization technique that illustrates the effect of time-based train-test splitting on the difficulty of DLP on a given dataset. (2) We describe an exhaustive taxonomy of negative sampling methods that can be used at evaluation time. (3) We carry out an empirical study of the effect of the different negative sampling strategies. Our comparison between heuristics and state-of-the-art memory-based methods on various real-world datasets confirms a strong effect of using different negative sampling strategies on the test Area Under the Curve (AUC). Moreover, we conduct a visual exploration of the prediction, with additional insights on which different types of errors are prominent over time. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# 重要なことを記憶する: マルチトラバースからの創発的シーン分解
Memorize What Matters: Emergent Scene Decomposition from Multitraverse ( http://arxiv.org/abs/2405.17187v1 ) ライセンス: Link先を確認 | Yiming Li, Zehong Wang, Yue Wang, Zhiding Yu, Zan Gojcic, Marco Pavone, Chen Feng, Jose M. Alvarez, | (参考訳) 人間は自然に永久的な要素の記憶を保持するが、短命の瞬間はしばしば記憶のひび割れを乗り越える。
この選択的保持は、ロボット知覚、局所化、マッピングに不可欠である。
ロボットにこの能力を付与するために,3次元ガウスマッピング(3DGM)を導入する。
3DGMは、同じ領域から複数のRGBビデオをガウスベースの環境マップに変換し、同時に2D短命なオブジェクトセグメンテーションを実行する。
私たちのキーとなる観察は、オブジェクトが頻繁に変化する間、環境は横断的に一貫しているということです。
これにより、環境オブジェクトの分解を実現するために、繰り返し発生するトラバーサルからの自己超越を活用できる。
より具体的には、3DGMは、堅牢な微分可能なレンダリング問題としてマルチトラバース環境マッピングを定式化し、環境のピクセルとオブジェクトをそれぞれインレーヤとアウトレーヤとして扱う。
3DGMは、3Dマッピングと2Dセグメンテーションを人間の介入なしに共同で行う。
We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and Neural rendering。
本手法の有効性と可能性を検証した。
Humans naturally retain memories of permanent elements, while ephemeral moments often slip through the cracks of memory. This selective retention is crucial for robotic perception, localization, and mapping. To endow robots with this capability, we introduce 3D Gaussian Mapping (3DGM), a self-supervised, camera-only offline mapping framework grounded in 3D Gaussian Splatting. 3DGM converts multitraverse RGB videos from the same region into a Gaussian-based environmental map while concurrently performing 2D ephemeral object segmentation. Our key observation is that the environment remains consistent across traversals, while objects frequently change. This allows us to exploit self-supervision from repeated traversals to achieve environment-object decomposition. More specifically, 3DGM formulates multitraverse environmental mapping as a robust differentiable rendering problem, treating pixels of the environment and objects as inliers and outliers, respectively. Using robust feature distillation, feature residuals mining, and robust optimization, 3DGM jointly performs 3D mapping and 2D segmentation without human intervention. We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and neural rendering. Extensive results verify the effectiveness and potential of our method for self-driving and robotics. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# SkatingVerse Workshop & Challenge: 方法と成果
The SkatingVerse Workshop & Challenge: Methods and Results ( http://arxiv.org/abs/2405.17188v1 ) ライセンス: Link先を確認 | Jian Zhao, Lei Jin, Jianshu Li, Zheng Zhu, Yinglei Teng, Jiaojiao Zhao, Sadaf Gulshad, Zheng Wang, Bo Zhao, Xiangbo Shu, Yunchao Wei, Xuecheng Nie, Xiaojie Jin, Xiaodan Liang, Shin'ichi Satoh, Yandong Guo, Cewu Lu, Junliang Xing, Jane Shen Shengmei, | (参考訳) SkatingVerse Workshop & Challengeは、人間の行動理解のための新規で正確な方法の研究を促進することを目的としている。
SkatingVerse Challengeで使用されるSkatingVerseデータセットが公開された。
データセットにはトレーニングサブセットとテストサブセットの2つのサブセットがある。
トレーニングサブセットは19,993RGBビデオシーケンスで構成され、テストサブセットは8,586RGBビデオシーケンスで構成されている。
世界中から参加する約10チームがSkatingVerse Challengeに出場した。
本稿では,SkatingVerse Workshop & Challengeの概要を紹介する。
提案されたリーダーボードは、人間の行動理解チャレンジに関心のある研究者のために再開される。
ベンチマークデータセットとその他の情報は、https://skatingverse.github.io/で見ることができる。
The SkatingVerse Workshop & Challenge aims to encourage research in developing novel and accurate methods for human action understanding. The SkatingVerse dataset used for the SkatingVerse Challenge has been publicly released. There are two subsets in the dataset, i.e., the training subset and testing subset. The training subsets consists of 19,993 RGB video sequences, and the testing subsets consists of 8,586 RGB video sequences. Around 10 participating teams from the globe competed in the SkatingVerse Challenge. In this paper, we provide a brief summary of the SkatingVerse Workshop & Challenge including brief introductions to the top three methods. The submission leaderboard will be reopened for researchers that are interested in the human action understanding challenge. The benchmark dataset and other information can be found at: https://skatingverse.github.io/. | 翻訳日:2024-05-28 15:13:09 公開日:2024-05-27 |
# SoK: マルウェア分析のためのトランスフォーマーの活用
SoK: Leveraging Transformers for Malware Analysis ( http://arxiv.org/abs/2405.17190v1 ) ライセンス: Link先を確認 | Pradip Kunwar, Kshitiz Aryal, Maanak Gupta, Mahmoud Abdelsalam, Elisa Bertino, | (参考訳) トランスフォーマーの導入は、生成AIの基礎となるトランスフォーマーとして、AI研究と応用にとって重要なブレークスルーとなった。
トランスフォーマーのための有望なアプリケーションドメインはサイバーセキュリティ、特にマルウェアドメイン分析である。
理由は、長いシーケンシャルな特徴を扱い、文脈的関係を理解する上で、トランスフォーマーモデルの柔軟性である。
しかし,マルウェア解析におけるトランスフォーマーの利用はまだ初期段階であるため,既存の文献を評価・体系化・文脈化して今後の研究を促進することが重要である。
The Systematization of Knowledge (SoK) paper to provide a comprehensive analysis of transformer-based approach designed for malware analysis。
既存の知識の体系的な分析に基づいて、我々は以下の分類体系を構築し、提案する。
(a)異なる変圧器が様々な用途に適応し、整理し、変更される方法、及び
b) 機能タイプと表現能力の多様性がどの程度反映されているか。
また,マルウェア解析にトランスフォーマーを用いることで,複数の研究ルートを探索するためのデータセットのインベントリを提供し,今後の研究方向性とオープンな課題について議論する。
本論文は,既存の研究から詳細な知見を得た研究コミュニティを支援し,マルウェア解析にトランスフォーマーを用いた新たな研究を実施するための基礎資料として機能すると考えられる。
The introduction of transformers has been an important breakthrough for AI research and application as transformers are the foundation behind Generative AI. A promising application domain for transformers is cybersecurity, in particular the malware domain analysis. The reason is the flexibility of the transformer models in handling long sequential features and understanding contextual relationships. However, as the use of transformers for malware analysis is still in the infancy stage, it is critical to evaluate, systematize, and contextualize existing literature to foster future research. This Systematization of Knowledge (SoK) paper aims to provide a comprehensive analysis of transformer-based approaches designed for malware analysis. Based on our systematic analysis of existing knowledge, we structure and propose taxonomies based on: (a) how different transformers are adapted, organized, and modified across various use cases; and (b) how diverse feature types and their representation capabilities are reflected. We also provide an inventory of datasets used to explore multiple research avenues in the use of transformers for malware analysis and discuss open challenges with future research directions. We believe that this SoK paper will assist the research community in gaining detailed insights from existing work and will serve as a foundational resource for implementing novel research using transformers for malware analysis. | 翻訳日:2024-05-28 15:03:23 公開日:2024-05-27 |
# MCGAN: 回帰型発電機損失によるGANトレーニングの強化
MCGAN: Enhancing GAN Training with Regression-Based Generator Loss ( http://arxiv.org/abs/2405.17191v1 ) ライセンス: Link先を確認 | Baoren Xiao, Hao Ni, Weixin Yang, | (参考訳) 高忠実度データを生成する強力なツールとして,GAN(Generative Adversarial Network)が登場している。
しかし、既存のアプローチの主なボトルネックは、ジェネレータトレーニングの監督の欠如である。
この問題に対処するため,モンテカルロガン (MCGAN) と呼ばれるアルゴリズムを提案する。
この手法は、革新的生成損失関数、すなわち回帰損失を利用して、回帰タスクとしてジェネレータ訓練を再構成し、実データの判別器の出力と偽データの予測判別器との間の平均2乗誤差を最小化することにより、ジェネレータ訓練を可能にする。
判別可能性や最適性を含む回帰損失の望ましい解析特性を実証し,本手法が有効発電機訓練のための判別器に弱い条件を必要とすることを示す。
これらの特性は、回帰損失の強い監督を生かして、GANの最適性を保ちながら、トレーニング安定性を向上させるためのこのアプローチの強みを正当化する。
CIFAR-10とCIFAR-100データセットの数値結果から、提案したMCGANは、品質、正確性、トレーニング安定性、学習空間において、既存の最先端GANモデルを大幅に改善することを示した。
さらに,提案アルゴリズムは,空間画像,時間時系列,時空間映像データを生成するために,様々なバックボーンモデルとの統合に優れた柔軟性を示す。
Generative adversarial networks (GANs) have emerged as a powerful tool for generating high-fidelity data. However, the main bottleneck of existing approaches is the lack of supervision on the generator training, which often results in undamped oscillation and unsatisfactory performance. To address this issue, we propose an algorithm called Monte Carlo GAN (MCGAN). This approach, utilizing an innovative generative loss function, termly the regression loss, reformulates the generator training as a regression task and enables the generator training by minimizing the mean squared error between the discriminator's output of real data and the expected discriminator of fake data. We demonstrate the desirable analytic properties of the regression loss, including discriminability and optimality, and show that our method requires a weaker condition on the discriminator for effective generator training. These properties justify the strength of this approach to improve the training stability while retaining the optimality of GAN by leveraging strong supervision of the regression loss. Numerical results on CIFAR-10 and CIFAR-100 datasets demonstrate that the proposed MCGAN significantly and consistently improves the existing state-of-the-art GAN models in terms of quality, accuracy, training stability, and learned latent space. Furthermore, the proposed algorithm exhibits great flexibility for integrating with a variety of backbone models to generate spatial images, temporal time-series, and spatio-temporal video data. | 翻訳日:2024-05-28 15:03:23 公開日:2024-05-27 |
# 量子パリティ検出器:希少探索のためのmeVしきい値を用いた量子ビット型粒子検出方式
Quantum Parity Detectors: a qubit based particle detection scheme with meV thresholds for rare-event searches ( http://arxiv.org/abs/2405.17192v1 ) ライセンス: Link先を確認 | Karthik Ramanathan, John E. Parker, Lalit M. Joshi, Andrew D. Beyer, Pierre M. Echternach, Serge Rosenblum, Brandon J. Sandoval, Sunil R. Golwala, | (参考訳) 粒子暗黒物質の性質を決定することや基本ニュートリノ特性を測定することを目的とした、次世代の希少物質探索は、現在より100-1000倍低いmeVスケールでしきい値を持つ粒子検出器の恩恵を受ける。
量子パリティ検出器(QPD)は、超伝導量子ビットの膨大な感度を利用して準粒子トンネル現象を検知する新しい種類の量子デバイスである。
想定されたように、結晶基板内の粒子相互作用によって生成されたフォノンは、表面パターンの超伝導量子ビット要素内で最終的に準粒子カスケードを引き起こす。
このプロセスはデバイスの基本電荷パリティを二進法で変更し、エネルギー沈着の初期特性を導出することができる。
我々は,QPDの動作機構,ノイズ源,および期待感度を,電荷量子ビット型および読み出し機構のスペクトルに基づいて明らかにし,サブeVエネルギ沈着に対する感度を示すためのR&D経路を詳述する。
The next generation of rare-event searches, such as those aimed at determining the nature of particle dark matter or in measuring fundamental neutrino properties, will benefit from particle detectors with thresholds at the meV scale, 100-1000x lower than currently available. Quantum parity detectors (QPDs) are a novel class of proposed quantum devices that use the tremendous sensitivity of superconducting qubits to quasiparticle tunneling events as their detection concept. As envisioned, phonons generated by particle interactions within a crystalline substrate cause an eventual quasiparticle cascade within a surface patterned superconducting qubit element. This process alters the fundamental charge parity of the device in a binary manner, which can be used to deduce the initial properties of the energy deposition. We lay out the operating mechanism, noise sources, and expected sensitivity of QPDs based on a spectrum of charge-qubit types and readout mechanisms and detail an R&D pathway to demonstrating sensitivity to sub-eV energy deposits. | 翻訳日:2024-05-28 15:03:23 公開日:2024-05-27 |
# 双曲空間における大マルジン分類器の凸緩和
Convex Relaxation for Solving Large-Margin Classifiers in Hyperbolic Space ( http://arxiv.org/abs/2405.17198v1 ) ライセンス: Link先を確認 | Sheng Yang, Peihan Liu, Cengiz Pehlevan, | (参考訳) 双曲空間はユークリッド空間と比較して、固有の階層構造を持つデータを扱う上での卓越した性能でますます認識されている。
しかし、双曲空間での学習は重大な課題を引き起こす。
特に、サポートベクトルマシンを双曲空間に拡張することは、一般に非凸最適化問題である。
双曲型SVMを解く試みは、主に射影勾配降下を用いており、一般にハイパーパラメータや初期化に敏感であり、しばしば準最適解につながる。
本研究では、まず問題を多項式最適化に書き換えることにより、半定値緩和とスパースモーメント・オブ・二乗緩和を適用し、オプティマを効果的に近似する。
広範な実験から, これらの手法は, 投射勾配降下法よりも優れた性能を示すことが示された。
Hyperbolic spaces have increasingly been recognized for their outstanding performance in handling data with inherent hierarchical structures compared to their Euclidean counterparts. However, learning in hyperbolic spaces poses significant challenges. In particular, extending support vector machines to hyperbolic spaces is in general a constrained non-convex optimization problem. Previous and popular attempts to solve hyperbolic SVMs, primarily using projected gradient descent, are generally sensitive to hyperparameters and initializations, often leading to suboptimal solutions. In this work, by first rewriting the problem into a polynomial optimization, we apply semidefinite relaxation and sparse moment-sum-of-squares relaxation to effectively approximate the optima. From extensive empirical experiments, these methods are shown to perform better than the projected gradient descent approach. | 翻訳日:2024-05-28 15:03:23 公開日:2024-05-27 |
# ゲーム理論から見た視覚言語モデルの構成的知識の診断
Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View ( http://arxiv.org/abs/2405.17201v1 ) ライセンス: Link先を確認 | Jin Wang, Shichao Dong, Yapeng Zhu, Kelu Yao, Weidong Zhao, Chao Li, Ping Luo, | (参考訳) 構成的推論能力は通常、人間の知覚を特徴づける基本的なスキルとみなされる。
近年の研究では、現在のビジョン言語モデル(VLM)には、そのような能力に関する十分な知識が欠けていることが示されている。
そこで本研究では,VLMによって符号化された合成表現を徹底的に診断し,この弱点の原因を体系的に明らかにすることを提案する。
具体的には,構成的理解,例えば関係性,属性の異なる側面から,VLMの脆弱性を評価するためのゲーム理論的な新しい視点からの評価手法を提案する。
総合的な実験結果から,VLMの合成推論能力の欠如を理解するためのいくつかの知見を実証し,検証し,今後の研究に有用で信頼性の高いガイダンスを提供する。
製品はhttps://vlms-compositionality-gametheory.github.io/で更新される。
Compositional reasoning capabilities are usually considered as fundamental skills to characterize human perception. Recent studies show that current Vision Language Models (VLMs) surprisingly lack sufficient knowledge with respect to such capabilities. To this end, we propose to thoroughly diagnose the composition representations encoded by VLMs, systematically revealing the potential cause for this weakness. Specifically, we propose evaluation methods from a novel game-theoretic view to assess the vulnerability of VLMs on different aspects of compositional understanding, e.g., relations and attributes. Extensive experimental results demonstrate and validate several insights to understand the incapabilities of VLMs on compositional reasoning, which provide useful and reliable guidance for future studies. The deliverables will be updated at https://vlms-compositionality-gametheory.github.io/. | 翻訳日:2024-05-28 15:03:23 公開日:2024-05-27 |
# LLMの効率的なマルチプロンプト評価
Efficient multi-prompt evaluation of LLMs ( http://arxiv.org/abs/2405.17202v1 ) ライセンス: Link先を確認 | Felipe Maia Polo, Ronald Xu, Lucas Weber, Mírian Silva, Onkar Bhardwaj, Leshem Choshen, Allysson Flavio Melo de Oliveira, Yuekai Sun, Mikhail Yurochkin, | (参考訳) LLMの比較のための最も一般的なベンチマークは限られたプロンプトテンプレートに依存しており、LLMの能力をフルに捉えておらず、リーダーボード上での結果の再現性に影響を与える可能性がある。
近年の多くの研究は、迅速な感度を実証的に検証し、LCM評価の変化を提唱している。
本稿では,評価対象の1つのプロンプトを見つけるのではなく,多くのプロンプト変種にまたがる性能分布を推定する問題を考察する。
PromptEvalは,プロンプトと実測値を用いた精度評価を行うために,プロンプトと実例をまたいで,多数のプロンプトをまたいで性能を推定する手法である。
結果の分布は、様々な堅牢なパフォーマンス指標(例えば、上位95%の量子化、中央値)を構築するために、パフォーマンス量子化を得るのに使うことができる。
MMLU, BIG-bench Hard, LMentryの3つのベンチマークにおいて, PromptEvalが連続的に性能分布を推定し, その有効性を実証した。
例えば、PromptEvalはMMLU上で100のプロンプトテンプレートにまたがるパフォーマンスの定量値を正確に見積もることができ、予算は2つの単発評価に相当する。
コードとデータはhttps://github.com/felipemaiapolo/prompt-eval.comで確認できます。
Most popular benchmarks for comparing LLMs rely on a limited set of prompt templates, which may not fully capture the LLMs' abilities and can affect the reproducibility of results on leaderboards. Many recent works empirically verify prompt sensitivity and advocate for changes in LLM evaluation. In this paper, we consider the problem of estimating the performance distribution across many prompt variants instead of finding a single prompt to evaluate with. We introduce PromptEval, a method for estimating performance across a large set of prompts borrowing strength across prompts and examples to produce accurate estimates under practical evaluation budgets. The resulting distribution can be used to obtain performance quantiles to construct various robust performance metrics (e.g., top 95% quantile or median). We prove that PromptEval consistently estimates the performance distribution and demonstrate its efficacy empirically on three prominent LLM benchmarks: MMLU, BIG-bench Hard, and LMentry. For example, PromptEval can accurately estimate performance quantiles across 100 prompt templates on MMLU with a budget equivalent to two single-prompt evaluations. Our code and data can be found at https://github.com/felipemaiapolo/prompt-eval. | 翻訳日:2024-05-28 15:03:23 公開日:2024-05-27 |
# スペクトルリファイナ:乱流の高精度時空間ニューラル演算子の微調整
Spectral-Refiner: Fine-Tuning of Accurate Spatiotemporal Neural Operator for Turbulent Flows ( http://arxiv.org/abs/2405.17211v1 ) ライセンス: Link先を確認 | Shuhao Cao, Francesco Brarda, Ruipeng Li, Yuanzhe Xi, | (参考訳) 作用素型ニューラルネットワークの最近の進歩は、時空間微分方程式(PDE)の解を近似する有望な結果を示している。
しかしながら、これらのニューラルネットワークは、しばしばかなりのトレーニング費用を要し、多くの科学や工学の分野において要求される精度を常に達成するとは限らない。
本稿では,ボヒナー空間間の写像を学習する時空間フーリエニューラル演算子(SFNO)と,これらの問題に対処する新しい学習フレームワークを提案する。
この新しいパラダイムは、従来の数値PDE理論と技法の知恵を利用して、一般的に採用されているエンドツーエンドのニューラル演算子のトレーニングと評価のパイプラインを洗練する。
具体的には,Navier-Stokes Equations (NSE) による乱流モデリングの学習問題において,提案アーキテクチャは,ほとんどのモデルパラメータの凍結を結論として,SFNOのいくつかのエポックを用いてトレーニングを開始する。
そして、最後の線形スペクトル畳み込み層を周波数乱れなく微調整する。
この最適化は演算子学習の損失として初めて負のソボレフノルムを用いており、Parsevalの同一性によってほぼ正確に評価される信頼性の高い関数型 \emph{a reari} 誤差推定器によって定義される。
この設計により、ニューラルネットワークオペレータは低周波エラーに効果的に対処でき、デエイリアスフィルタのリリーフは高周波エラーに対処できる。
2次元NSEのための一般的なベンチマークの数値実験は、エンドツーエンド評価や従来の数値PDEソルバと比較して計算効率と精度の両方が大幅に向上した。
Recent advancements in operator-type neural networks have shown promising results in approximating the solutions of spatiotemporal Partial Differential Equations (PDEs). However, these neural networks often entail considerable training expenses, and may not always achieve the desired accuracy required in many scientific and engineering disciplines. In this paper, we propose a new Spatiotemporal Fourier Neural Operator (SFNO) that learns maps between Bochner spaces, and a new learning framework to address these issues. This new paradigm leverages wisdom from traditional numerical PDE theory and techniques to refine the pipeline of commonly adopted end-to-end neural operator training and evaluations. Specifically, in the learning problems for the turbulent flow modeling by the Navier-Stokes Equations (NSE), the proposed architecture initiates the training with a few epochs for SFNO, concluding with the freezing of most model parameters. Then, the last linear spectral convolution layer is fine-tuned without the frequency truncation. The optimization uses a negative Sobolev norm for the first time as the loss in operator learning, defined through a reliable functional-type \emph{a posteriori} error estimator whose evaluation is almost exact thanks to the Parseval identity. This design allows the neural operators to effectively tackle low-frequency errors while the relief of the de-aliasing filter addresses high-frequency errors. Numerical experiments on commonly used benchmarks for the 2D NSE demonstrate significant improvements in both computational efficiency and accuracy, compared to end-to-end evaluation and traditional numerical PDE solvers. | 翻訳日:2024-05-28 15:03:23 公開日:2024-05-27 |
# オートフォーマル化ユークリッド幾何学
Autoformalizing Euclidean Geometry ( http://arxiv.org/abs/2405.17216v1 ) ライセンス: Link先を確認 | Logan Murphy, Kaiyu Yang, Jialiang Sun, Zhaoyu Li, Anima Anandkumar, Xujie Si, | (参考訳) オートフォーマル化(Autoformalization)とは、非公式な数学を機械で検証可能な形式的な定理や証明に自動的に翻訳することである。
ユークリッド幾何学は、自己形式化を研究するための興味深く制御可能な領域を提供する。
本稿では,ドメイン知識,SMTソルバ,および大規模言語モデル(LLM)を組み合わせたユークリッド幾何学の自動形式化のためのニューロシンボリックフレームワークを提案する。
ユークリッド幾何学の課題の1つは、非公式な証明は図式に依存し、形式化が難しいテキストにギャップを残すことである。
この問題に対処するために、定理プロバーを使用して、そのような図式情報を自動的に埋め込むので、LCMは明示的なテキストステップを自動生成するだけで、モデルにとって容易になる。
また、自動形式化定理文の自動意味評価も提供する。
LeanEuclidは、EuclidのElementsとLeanの証明アシスタントで形式化されたUniGeoデータセットの問題からなる自動形式化ベンチマークです。
GPT-4 と GPT-4V を用いた実験では、形状問題に対する最先端 LLM の機能と限界が示されている。
データとコードはhttps://github.com/loganrjmurphy/LeanEuclid.comで公開されている。
Autoformalization involves automatically translating informal math into formal theorems and proofs that are machine-verifiable. Euclidean geometry provides an interesting and controllable domain for studying autoformalization. In this paper, we introduce a neuro-symbolic framework for autoformalizing Euclidean geometry, which combines domain knowledge, SMT solvers, and large language models (LLMs). One challenge in Euclidean geometry is that informal proofs rely on diagrams, leaving gaps in texts that are hard to formalize. To address this issue, we use theorem provers to fill in such diagrammatic information automatically, so that the LLM only needs to autoformalize the explicit textual steps, making it easier for the model. We also provide automatic semantic evaluation for autoformalized theorem statements. We construct LeanEuclid, an autoformalization benchmark consisting of problems from Euclid's Elements and the UniGeo dataset formalized in the Lean proof assistant. Experiments with GPT-4 and GPT-4V show the capability and limitations of state-of-the-art LLMs on autoformalizing geometry problems. The data and code are available at https://github.com/loganrjmurphy/LeanEuclid. | 翻訳日:2024-05-28 15:03:23 公開日:2024-05-27 |
# Collage - AIツールのテキストとユーザインターフェースの断片化を探る
Collage is the New Writing: Exploring the Fragmentation of Text and User Interfaces in AI Tools ( http://arxiv.org/abs/2405.17217v1 ) ライセンス: Link先を確認 | Daniel Buschek, | (参考訳) このエッセイは、4つの面を持つ前衛文学から移されたAI書記ツールの設計のためのコラージュの概念を提案し、探求する。
1) 文中のテキストの断片化。
2 口頭弁論(内容対命令)
3)複数のソース(例えばテキストの提案)からの資料の統合、及び
4)手書き文字からスニペットの選択・配置等の編集・構成決定へ移行すること。
このエッセイでは、コラージュを分析レンズとして使用し、最近のAI書記ツールのユーザーインターフェース設計を分析し、新しいデザインの方向性を刺激する建設レンズとして使用している。
最後に、批判的な視点は、著者が歴史的に文学的コラージュからAI書記ツールに表現した懸念に関するものである。
このエッセイは、幅広い視点で、AI記述ツールに関する設計理論を前進させる上で、文学的概念がどのように役立つかを探求する。
これは、将来の書記ツールの作成者に対して、新しい技術の可能性だけでなく、過去の書記イノベーションにも関与するよう促している。
This essay proposes and explores the concept of Collage for the design of AI writing tools, transferred from avant-garde literature with four facets: 1) fragmenting text in writing interfaces, 2) juxtaposing voices (content vs command), 3) integrating material from multiple sources (e.g. text suggestions), and 4) shifting from manual writing to editorial and compositional decision-making, such as selecting and arranging snippets. The essay then employs Collage as an analytical lens to analyse the user interface design of recent AI writing tools, and as a constructive lens to inspire new design directions. Finally, a critical perspective relates the concerns that writers historically expressed through literary collage to AI writing tools. In a broad view, this essay explores how literary concepts can help advance design theory around AI writing tools. It encourages creators of future writing tools to engage not only with new technological possibilities, but also with past writing innovations. | 翻訳日:2024-05-28 15:03:23 公開日:2024-05-27 |
# RLAIF-V:超GPT-4V信頼性のためのオープンソースAIフィードバックによるMLLMの調整
RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness ( http://arxiv.org/abs/2405.17220v1 ) ライセンス: Link先を確認 | Tianyu Yu, Haoye Zhang, Yuan Yao, Yunkai Dang, Da Chen, Xiaoman Lu, Ganqu Cui, Taiwen He, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun, | (参考訳) フィードバックから学ぶことで、マルチモーダルな大規模言語モデル(MLLM)の幻覚をヒトの好みに合わせることで減少させる。
従来の手法は労働集約的で時間を要する手動ラベリングに頼っているが、近年では自動ラベリングとしてモデルを用いた手法が人間の介入なしに有望な結果を示している。
しかし、これらの手法はGPT-4Vのような高価なプロプライエタリなモデルに大きく依存しており、スケーラビリティの問題を引き起こしている。
さらに、このパラダイムは本質的にプロプライエタリなモデルを蒸留して、パフォーマンスギャップを素早く埋める一時的なソリューションを提供する。
このギャップは縮小し続けており、コミュニティはすぐに、同等の機能のラベルモデルを使用してMLLMを調整するという重要な課題に直面している。
本稿では,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させる新しいフレームワークであるRLAIF-Vを紹介する。
RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。
自動評価と人的評価の両方における7つのベンチマークの大規模な実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
34Bモデルをラベルとして使用することにより、RLAIF-V 7Bモデルはオブジェクト幻覚を82.9 %、全体的な幻覚を42.1 %削減し、ラベルモデルを上回ります。
RLAIF-Vはまた、オープンソースのMLLMの自己アライメントの可能性を明らかにし、12Bモデルは自身のフィードバックから学習し、全体の幻覚率を29.5 %以下に抑えることができ、GPT-4V (45.9 %)を大きなマージンで上回っている。
その結果、先端MLLMの有効性を高めるために、将来性のある経路に光を当てた。
Learning from feedback reduces the hallucination of multimodal large language models (MLLMs) by aligning them with human preferences. While traditional methods rely on labor-intensive and time-consuming manual labeling, recent approaches employing models as automatic labelers have shown promising results without human intervention. However, these methods heavily rely on costly proprietary models like GPT-4V, resulting in scalability issues. Moreover, this paradigm essentially distills the proprietary models to provide a temporary solution to quickly bridge the performance gap. As this gap continues to shrink, the community is soon facing the essential challenge of aligning MLLMs using labeler models of comparable capability. In this work, we introduce RLAIF-V, a novel framework that aligns MLLMs in a fully open-source paradigm for super GPT-4V trustworthiness. RLAIF-V maximally exploits the open-source feedback from two perspectives, including high-quality feedback data and online feedback learning algorithm. Extensive experiments on seven benchmarks in both automatic and human evaluation show that RLAIF-V substantially enhances the trustworthiness of models without sacrificing performance on other tasks. Using a 34B model as labeler, RLAIF-V 7B model reduces object hallucination by 82.9\% and overall hallucination by 42.1\%, outperforming the labeler model. Remarkably, RLAIF-V also reveals the self-alignment potential of open-source MLLMs, where a 12B model can learn from the feedback of itself to achieve less than 29.5\% overall hallucination rate, surpassing GPT-4V (45.9\%) by a large margin. The results shed light on a promising route to enhance the efficacy of leading-edge MLLMs. | 翻訳日:2024-05-28 15:03:23 公開日:2024-05-27 |
# オンライン深層学習の機会と課題についての一考察
A Retrospective of the Tutorial on Opportunities and Challenges of Online Deep Learning ( http://arxiv.org/abs/2405.17222v1 ) ライセンス: Link先を確認 | Cedric Kulbach, Lucas Cazzonelli, Hoang-Anh Ngo, Minh-Huong Le-Nguyen, Albert Bifet, | (参考訳) 機械学習のアルゴリズムは、今日の世界では欠かせないものになっている。
彼らは、手元にあるデータに基づいて意思決定方法をサポートし、加速します。
このアクセラレーションは、ある時点で有効であったデータ構造が、将来的にはもはや有効ではないことを意味する。
これらの変化したデータ構造では、機械学習(ML)システムを新しいデータに漸進的に適応させる必要がある。
これはオンライン学習や継続的ML技術を用いて行われる。
ディープラーニング技術は、事前に定義されたデータセット上では例外的なパフォーマンスを示しているが、オンライン、ストリーミング、継続的学習には広く適用されていない。
ECML PKDD 2023で開かれたチュートリアル"Opportunities and Challenges of Online Deep Learning"の振り返りでは、機会の概要に加えて、フレームワークRiverとDeep-Riverを使用したオンライン学習環境におけるニューラルネットワークの適用に関する潜在的な落とし穴も紹介する。
Machine learning algorithms have become indispensable in today's world. They support and accelerate the way we make decisions based on the data at hand. This acceleration means that data structures that were valid at one moment could no longer be valid in the future. With these changing data structures, it is necessary to adapt machine learning (ML) systems incrementally to the new data. This is done with the use of online learning or continuous ML technologies. While deep learning technologies have shown exceptional performance on predefined datasets, they have not been widely applied to online, streaming, and continuous learning. In this retrospective of our tutorial titled Opportunities and Challenges of Online Deep Learning held at ECML PKDD 2023, we provide a brief overview of the opportunities but also the potential pitfalls for the application of neural networks in online learning environments using the frameworks River and Deep-River. | 翻訳日:2024-05-28 15:03:23 公開日:2024-05-27 |
# 近接量子デバイス上でのアルゴリズム性能向上のための相乗的動的デカップリングと回路設計
Synergistic Dynamical Decoupling and Circuit Design for Enhanced Algorithm Performance on Near-Term Quantum Devices ( http://arxiv.org/abs/2405.17230v1 ) ライセンス: Link先を確認 | Yanjun Ji, Ilia Polian, | (参考訳) 動的デカップリング(DD)は、短期量子デバイスにおけるエラーを軽減するための有望な手法である。
しかし、その有効性はハードウェアの特性とアルゴリズムの実装の詳細に依存する。
本稿では,量子デバイス上でのアルゴリズムの性能とロバスト性を最大化するために,動的デカップリングと最適化回路設計の相乗効果について検討する。
8つのIBM量子デバイスを利用することで、ハードウェア機能とアルゴリズム設計がDDの有効性にどのように影響するかを分析する。
本分析では,回路忠実度,スケジューリング時間,ハードウェアネイティブゲートセットなどの要因を考慮に入れた。
また、特定のゲート分解、DDシーケンス、最適化レベルを含むアルゴリズム実装の詳細の影響についても検討する。
その結果,DDの有効性とアルゴリズム固有の性能との逆関係が明らかとなった。
さらに,性能向上におけるゲート指向性と回路対称性の重要性を強調した。
本研究は、DDプロトコルと回路設計の最適化に有用な洞察を提供し、ハードウェアの特徴とアルゴリズム設計の両方を活かし、短期量子アルゴリズムの高品質で信頼性の高い実行に活用する全体的なアプローチの重要性を強調した。
Dynamical decoupling (DD) is a promising technique for mitigating errors in near term quantum devices. However, its effectiveness depends on both hardware characteristics and algorithm implementation details. This paper explores the synergistic effects of dynamical decoupling and optimized circuit design in maximizing the performance and robustness of algorithms on near term quantum devices. By utilizing eight IBM quantum devices, we analyze how hardware features and algorithm design impact the effectiveness of DD for error mitigation. Our analysis takes into account factors such as circuit fidelity, scheduling duration, and hardware native gate set. We also examine the influence of algorithmic implementation details including specific gate decompositions, DD sequences, and optimization levels. The results reveal an inverse relationship between the effectiveness of DD and the inherent performance of the algorithm. Furthermore, we emphasize the importance of gate directionality and circuit symmetry in improving performance. This study offers valuable insights for optimizing DD protocols and circuit designs, highlighting the significance of a holistic approach that leverages both hardware features and algorithm design for high quality and reliable execution of near term quantum algorithms. | 翻訳日:2024-05-28 15:03:23 公開日:2024-05-27 |
# CLAQ:LDMの低ビット後量子化の限界を押し上げる
CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs ( http://arxiv.org/abs/2405.17233v1 ) ライセンス: Link先を確認 | Haoyu Wang, Bei Liu, Hang Shao, Bo Xiao, Ke Zeng, Guanglu Wan, Yanmin Qian, | (参考訳) 大規模言語モデル(LLM)のパラメータ量子化は近年,メモリコストの削減と計算効率の向上に注目が集まっている。
初期のアプローチは広く採用されている。
しかし、既存のメソッドは低ビット(例えば2ビットから3ビット)のシナリオではパフォーマンスが悪い。
本稿では,LLM量子化のための3種類の適応戦略を導入することで,カラムレベル適応量量子化(CLAQ)フレームワークを提案する。
まず、K-Meansクラスタリングに基づくアルゴリズムを提案し、パラメータ行列の各列に対する量子化セントロイドの動的生成を可能にする。
第2に、異なる列に異なるビット幅を動的に割り当てることのできる、外周誘導適応精度探索戦略を設計する。
最後に、強化モデル性能のトレードオフとして、元の浮動小数点精度にいくつかのパラメータを保持するために、動的外れ値予約方式を開発した。
LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM 実験により, 提案手法が様々なビット設定, 特に極低ビットシナリオにおいて, 最先端の成果を達成できることが実証された。
コードはまもなくリリースされる。
Parameter quantization for Large Language Models (LLMs) has attracted increasing attentions recently in reducing memory costs and improving computational efficiency. Early approaches have been widely adopted. However, the existing methods suffer from poor performance in low-bit (such as 2 to 3 bits) scenarios. In this paper, we present a novel and effective Column-Level Adaptive weight Quantization (CLAQ) framework by introducing three different types of adaptive strategies for LLM quantization. Firstly, a K-Means clustering based algorithm is proposed that allows dynamic generation of quantization centroids for each column of a parameter matrix. Secondly, we design an outlier-guided adaptive precision search strategy which can dynamically assign varying bit-widths to different columns. Finally, a dynamic outlier reservation scheme is developed to retain some parameters in their original float point precision, in trade off of boosted model performance. Experiments on various mainstream open source LLMs including LLaMA-1, LLaMA-2 and Yi demonstrate that our methods achieve the state-of-the-art results across different bit settings, especially in extremely low-bit scenarios. Code will be released soon. | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# インテクスト学習のためのベンチマーク
Benchmarking General Purpose In-Context Learning ( http://arxiv.org/abs/2405.17234v1 ) ライセンス: Link先を確認 | Fan Wang, Chuan Lin, Yang Cao, Yu Kang, | (参考訳) インコンテキスト学習(ICL)の能力は、汎用知能の構築にますますアピールしている。
この概念を一歩進めると、私たちは人間や多くの動物と平行して、主に学習能力を継承するが、記憶を洗練させ、生涯にわたる幅広い経験を通じて多様なスキルと知識を得る。
この並列処理は、汎用インコンテキスト学習(GPICL)への我々のアプローチを刺激する。
本稿では,GPICLの機能のトレーニングと評価を目的とした,軽量で洞察に富んだベンチマークを2つ導入する。
それぞれのベンチマークは、生成と相互作用、最小限の伝達可能な知識、長期依存によって特徴づけられる幅広い多様なタスクを含んでいる。
これらの特徴は、主に熟練度を高めるためにコンテキストや相互作用に依存するモデルにとって重要な課題である。
これらのベンチマークがGPICLの研究を前進させるだけでなく、汎用知能の幅広い分野に大きく貢献することを期待している。
In-context learning (ICL) capabilities is becoming increasingly appealing towards building general intelligence. Taking this concept one step further, we draw a parallel to humans and many animals, who inherit primarily learning capabilities but refine their memory and acquire diverse skills and knowledge through extensive lifelong experiences. This parallel inspires our approach to general purpose in-context learning (GPICL). This paper introduces two lightweight but insightful benchmarks specifically crafted to train and evaluate GPICL functionalities. Each benchmark encompasses a wide range of diverse tasks characterized by generation and interaction, minimal transferable knowledge, and long-term dependency. These features present significant challenges for models that primarily rely on context or interactions to enhance their proficiency. We hope that these benchmarks will not only advance research in GPICL but also contribute significantly to the broader field of general intelligence. | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# LLMを用いたセキュリティ脆弱性検出のための静的解析
LLM-Assisted Static Analysis for Detecting Security Vulnerabilities ( http://arxiv.org/abs/2405.17238v1 ) ライセンス: Link先を確認 | Ziyang Li, Saikat Dutta, Mayur Naik, | (参考訳) ソフトウェアはセキュリティ上の脆弱性がある。
プログラム分析ツールによる検出は,実効性に限界がある。
大規模な言語モデル(LLM)は印象的なコード生成機能を示しているが、このような脆弱性を検出するためにコードに対して複雑な推論を行うことはできない。
本研究では,LLMと静的解析を体系的に組み合わせ,セキュリティ脆弱性を検出するためのリポジトリ全体の推論を行うIRISを提案する。
新しいデータセットであるCWE-Bench-Javaをキュレートし、現実世界のJavaプロジェクトで120のセキュリティ脆弱性を手作業で検証します。
これらのプロジェクトは複雑で、平均30万行のコードと最大700万行のコードがある。
CWE-Bench-Javaの120の脆弱性のうち、IRISはGPT-4を使用して69を検知し、最先端の静的解析ツールは27しか検出していない。
さらに、IRISは誤報の件数を80%以上減少させる。
Software is prone to security vulnerabilities. Program analysis tools to detect them have limited effectiveness in practice. While large language models (or LLMs) have shown impressive code generation capabilities, they cannot do complex reasoning over code to detect such vulnerabilities, especially because this task requires whole-repository analysis. In this work, we propose IRIS, the first approach that systematically combines LLMs with static analysis to perform whole-repository reasoning to detect security vulnerabilities. We curate a new dataset, CWE-Bench-Java, comprising 120 manually validated security vulnerabilities in real-world Java projects. These projects are complex, with an average of 300,000 lines of code and a maximum of up to 7 million. Out of 120 vulnerabilities in CWE-Bench-Java, IRIS detects 69 using GPT-4, while the state-of-the-art static analysis tool only detects 27. Further, IRIS also significantly reduces the number of false alarms (by more than 80% in the best case). | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# 擬似地中真実の生成を伴わない教師なしメイクアップ転送のためのコンテンツスタイルデカップリング
Content-Style Decoupling for Unsupervised Makeup Transfer without Generating Pseudo Ground Truth ( http://arxiv.org/abs/2405.17240v1 ) ライセンス: Link先を確認 | Zhaoyang Sun, Shengwu Xiong, Yaxiong Chen, Yi Rong, | (参考訳) モデルトレーニングを指導する真の目標が存在しないことは、メイクアップ転送タスクの大きな問題の1つである。
既存の手法の多くは擬似基底真理(PGT)を合成することでこの問題に対処している。
しかし、生成されたPGTは、しばしば準最適であり、その不正確さは最終的に性能劣化を引き起こす。
この問題を軽減するために,本論文では,純粋に教師なしの方法で動作し,PGTの生成による負の効果を排除した,コンテンツ型デカップリング・メイクアップ・トランスファー(CSD-MT)手法を提案する。
具体的には、周波数特性分析に基づいて、顔画像の低周波(LF)成分がメイクスタイル情報とより関連しているのに対し、高周波(HF)成分はその内容の詳細とより関連していると仮定する。
この仮定により、CSD-MTは周波数分解により、各顔画像のコンテンツとメイクスタイル情報を分離することができる。
その後、CSD-MTは、転送された結果と入力画像の2種類の情報の一貫性を最大化し、メイク転送を実現する。
2つの新たに設計された損失関数も導入され、転送性能がさらに向上した。
CSD-MT法の有効性について検討した。
私たちのコードはhttps://github.com/Snowfallingplum/CSD-MTで公開しています。
The absence of real targets to guide the model training is one of the main problems with the makeup transfer task. Most existing methods tackle this problem by synthesizing pseudo ground truths (PGTs). However, the generated PGTs are often sub-optimal and their imprecision will eventually lead to performance degradation. To alleviate this issue, in this paper, we propose a novel Content-Style Decoupled Makeup Transfer (CSD-MT) method, which works in a purely unsupervised manner and thus eliminates the negative effects of generating PGTs. Specifically, based on the frequency characteristics analysis, we assume that the low-frequency (LF) component of a face image is more associated with its makeup style information, while the high-frequency (HF) component is more related to its content details. This assumption allows CSD-MT to decouple the content and makeup style information in each face image through the frequency decomposition. After that, CSD-MT realizes makeup transfer by maximizing the consistency of these two types of information between the transferred result and input images, respectively. Two newly designed loss functions are also introduced to further improve the transfer performance. Extensive quantitative and qualitative analyses show the effectiveness of our CSD-MT method. Our code is available at https://github.com/Snowfallingplum/CSD-MT. | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# NeurTV: 神経領域の総変化
NeurTV: Total Variation on the Neural Domain ( http://arxiv.org/abs/2405.17241v1 ) ライセンス: Link先を確認 | Yisi Luo, Xile Zhao, Kai Ye, Deyu Meng, | (参考訳) 近年,多くの画像応用において,全変動(TV)が成功しているのを目撃している。
しかし、従来のテレビは元のピクセル領域で定義されており、その可能性を制限する。
本稿では,ニューラルドメイン上に定義された新しいテレビレギュラー化を提案する。
具体的には、離散データはディープニューラルネットワーク(DNN)によって連続的に暗黙的に表現され、DNN出力の導関数w.r.t.入力座標を用いてデータの局所的相関をキャプチャする。
オリジナルドメインのクラシックTVと比較して、NeurTVと呼ばれるニューラルドメインのテレビは2つの利点がある。
まず、NeurTVはメッシュグリッドに限らず、メッシュグリッドと非メシュグリッドの両方のデータに適している。
第二に、NeurTVは、任意の方向のデータと、ニューラルネットワークの暗黙的かつ連続的な性質に起因するあらゆるデリバティブの順序の局所的相関をより正確に捉えることができる。
我々はNeurTVを変分近似の枠組みで理論的に再解釈し、従来のテレビとNeurTVの接続を構築し、任意の解像度でNeurTVを開発できるようにする。
メッシュグリッドデータ(例えば、色とハイパースペクトルの画像)と非メシュグリッドデータ(例えば、点雲と空間転写学)による大規模な数値実験は、提案手法の有効性を示す。
Recently, we have witnessed the success of total variation (TV) for many imaging applications. However, traditional TV is defined on the original pixel domain, which limits its potential. In this work, we suggest a new TV regularization defined on the neural domain. Concretely, the discrete data is continuously and implicitly represented by a deep neural network (DNN), and we use the derivatives of DNN outputs w.r.t. input coordinates to capture local correlations of data. As compared with classical TV on the original domain, the proposed TV on the neural domain (termed NeurTV) enjoys two advantages. First, NeurTV is not limited to meshgrid but is suitable for both meshgrid and non-meshgrid data. Second, NeurTV can more exactly capture local correlations across data for any direction and any order of derivatives attributed to the implicit and continuous nature of neural domain. We theoretically reinterpret NeurTV under the variational approximation framework, which allows us to build the connection between classical TV and NeurTV and inspires us to develop variants (e.g., NeurTV with arbitrary resolution and space-variant NeurTV). Extensive numerical experiments with meshgrid data (e.g., color and hyperspectral images) and non-meshgrid data (e.g., point clouds and spatial transcriptomics) showcase the effectiveness of the proposed methods. | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# 教師なし強化学習のためのサプライズ適応型固有モチベーション
Surprise-Adaptive Intrinsic Motivation for Unsupervised Reinforcement Learning ( http://arxiv.org/abs/2405.17243v1 ) ライセンス: Link先を確認 | Adriana Hugessen, Roger Creus Castanyer, Faisal Mohamed, Glen Berseth, | (参考訳) 教師なし強化学習(RL)のエントロピー最小化とエントロピー最大化(好奇心)は、環境の自然エントロピーのレベルによって異なる環境において有効であることが示されている。
しかし、どちらの手法も環境全体にわたって知的な振る舞いを一貫して学習するエージェントをもたらすものではない。
任意の環境における創発的行動を促す単一のエントロピーに基づく方法を見つけるために,マルチアームバンディット問題としての選択をフレーミングすることで,エントロピー条件に応じて,その目的をオンラインで適応できるエージェントを提案する。
我々は,その環境におけるエントロピーを制御できるエージェントの能力を捉えた,バンディット固有のフィードバックシグナルを考案した。
本研究では,ハイエントロピーと低エントロピーの双方において,エージェントがエントロピーを制御し,創発的行動を示すことを実証し,ベンチマークタスクで熟練した振る舞いを学習できることを実証する。
トレーニングされたエージェントのビデオと要約された発見は、プロジェクトのページ https://sites.google.com/view/surprise-adaptive-agentsで見ることができる。
Both entropy-minimizing and entropy-maximizing (curiosity) objectives for unsupervised reinforcement learning (RL) have been shown to be effective in different environments, depending on the environment's level of natural entropy. However, neither method alone results in an agent that will consistently learn intelligent behavior across environments. In an effort to find a single entropy-based method that will encourage emergent behaviors in any environment, we propose an agent that can adapt its objective online, depending on the entropy conditions by framing the choice as a multi-armed bandit problem. We devise a novel intrinsic feedback signal for the bandit, which captures the agent's ability to control the entropy in its environment. We demonstrate that such agents can learn to control entropy and exhibit emergent behaviors in both high- and low-entropy regimes and can learn skillful behaviors in benchmark tasks. Videos of the trained agents and summarized findings can be found on our project page https://sites.google.com/view/surprise-adaptive-agents | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# Galaxy: In-situ Transformer推論のためのリソース効率の良い協調エッジAIシステム
Galaxy: A Resource-Efficient Collaborative Edge AI System for In-situ Transformer Inference ( http://arxiv.org/abs/2405.17245v1 ) ライセンス: Link先を確認 | Shengyuan Ye, Jiangsu Du, Liekang Zeng, Wenzhong Ou, Xiaowen Chu, Yutong Lu, Xu Chen, | (参考訳) トランスフォーマーベースのモデルでは、スマートホームにおける音声アシスタントなど、エッジに強力なインテリジェントなアプリケーションが多数存在する。
従来のデプロイメントアプローチでは、推論ワークロードをリモートクラウドサーバにオフロードすることで、バックボーンネットワークにかなりのプレッシャーを発生させると同時に、ユーザのプライバシの懸念も高まる。
これに対処するため、最近、エッジインテリジェンスとしてin-situ推論が認識されているが、集中的なワークロードとオンデバイスコンピューティングリソースの制限による大きな課題に直面している。
本稿では,多くのエッジ環境がアイドルリソースを伴う信頼されたエッジデバイスのリッチな集合で構成されているという認識を活用し,異種エッジデバイス間のリソース壁を壊して効率的なトランスフォーマー推論高速化を実現する,協調的なエッジAIシステムであるGalaxyを提案する。
Galaxyは、協調推論をオーケストレーションするための新しいハイブリッドモデル並列化と、リソースポテンシャルを完全に活用するための異質性を考慮した並列化計画を導入している。
さらに、Galaxyは、帯域制限エッジ環境下での推論遅延に対するテンソル同期の影響を軽減するために、タイルベースの通信と計算のきめ細かいオーバーラップを考案している。
プロトタイプ実装に基づく大規模な評価は、Galaxyが様々なエッジ環境設定下で最先端のアプローチを著しく上回り、最大2.5倍のレイテンシ削減を実現していることを示している。
Transformer-based models have unlocked a plethora of powerful intelligent applications at the edge, such as voice assistant in smart home. Traditional deployment approaches offload the inference workloads to the remote cloud server, which would induce substantial pressure on the backbone network as well as raise users' privacy concerns. To address that, in-situ inference has been recently recognized for edge intelligence, but it still confronts significant challenges stemming from the conflict between intensive workloads and limited on-device computing resources. In this paper, we leverage our observation that many edge environments usually comprise a rich set of accompanying trusted edge devices with idle resources and propose Galaxy, a collaborative edge AI system that breaks the resource walls across heterogeneous edge devices for efficient Transformer inference acceleration. Galaxy introduces a novel hybrid model parallelism to orchestrate collaborative inference, along with a heterogeneity-aware parallelism planning for fully exploiting the resource potential. Furthermore, Galaxy devises a tile-based fine-grained overlapping of communication and computation to mitigate the impact of tensor synchronizations on inference latency under bandwidth-constrained edge environments. Extensive evaluation based on prototype implementation demonstrates that Galaxy remarkably outperforms state-of-the-art approaches under various edge environment setups, achieving up to 2.5x end-to-end latency reduction. | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# 視覚言語モデリング入門
An Introduction to Vision-Language Modeling ( http://arxiv.org/abs/2405.17247v1 ) ライセンス: Link先を確認 | Florian Bordes, Richard Yuanzhe Pang, Anurag Ajay, Alexander C. Li, Adrien Bardes, Suzanne Petryk, Oscar Mañas, Zhiqiu Lin, Anas Mahmoud, Bargav Jayaraman, Mark Ibrahim, Melissa Hall, Yunyang Xiong, Jonathan Lebensold, Candace Ross, Srihari Jayakumar, Chuan Guo, Diane Bouchacourt, Haider Al-Tahan, Karthik Padthe, Vasu Sharma, Hu Xu, Xiaoqing Ellen Tan, Megan Richards, Samuel Lavoie, Pietro Astolfi, Reyhane Askari Hemmat, Jun Chen, Kushal Tirumala, Rim Assouel, Mazda Moayeri, Arjang Talattof, Kamalika Chaudhuri, Zechun Liu, Xilun Chen, Quentin Garrido, Karen Ullrich, Aishwarya Agrawal, Kate Saenko, Asli Celikyilmaz, Vikas Chandra, | (参考訳) 近年のLarge Language Models (LLM) の人気に続き、視覚領域に拡張する試みがいくつか行われている。
慣れ親しんだ環境から、高レベルのテキスト記述だけで画像を生成する生成モデルまで、視覚言語モデル(VLM)のアプリケーションは、テクノロジーとの関係に大きな影響を与えます。
しかし、これらのモデルの信頼性を改善するためには、多くの課題に対処する必要がある。
言語は離散的であるが、概念を常に容易に区別できないような、より高次元空間において、視覚は進化する。
視覚を言語にマッピングするメカニズムをより深く理解するために、私たちはVLMを紹介します。
まず、VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。
そこで本研究では,VLMの評価手法について論じる。
本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
Following the recent popularity of Large Language Models (LLMs), several attempts have been made to extend them to the visual domain. From having a visual assistant that could guide us through unfamiliar environments to generative models that produce images using only a high-level text description, the vision-language model (VLM) applications will significantly impact our relationship with technology. However, there are many challenges that need to be addressed to improve the reliability of those models. While language is discrete, vision evolves in a much higher dimensional space in which concepts cannot always be easily discretized. To better understand the mechanics behind mapping vision to language, we present this introduction to VLMs which we hope will help anyone who would like to enter the field. First, we introduce what VLMs are, how they work, and how to train them. Then, we present and discuss approaches to evaluate VLMs. Although this work primarily focuses on mapping images to language, we also discuss extending VLMs to videos. | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# カテゴリデータのためのトランスフォーマーインテクスト学習
Transformer In-Context Learning for Categorical Data ( http://arxiv.org/abs/2405.17248v1 ) ライセンス: Link先を確認 | Aaron T. Wang, Ricardo Henao, Lawrence Carin, | (参考訳) 最近の研究は、関数データを用いた文脈内学習のレンズを通してトランスフォーマーを理解することを目指している。
言語モデルに近づき、カテゴリー的結果、非線形的基礎モデル、非線形的注意を考慮し、その行を拡張します。
文脈データは、$\textsf{C}=(x_1,c_1,\dots,x_N,c_{N})$の形式で、各$c_i\in\{0,\dots,C-1\}$は、共変量$x_i\in\mathbb{R}^d$に依存するカテゴリ分布から引き出される。
文脈データの集合である$m$thの文脈結果、$\textsf{C}_m$は潜在関数 $f_m(x)\in\textsf{F}$ でモデル化される。
クラス $c\in\{0,\dots,C-1\}$ の確率は、ソフトマックスによる$f_m(x)$の出力成分の観点でモデル化される。
Transformerパラメータは、$M$コンテキスト例、$\{\textsf{C}_m\}_{m=1,M}$でトレーニングされ、新しい$f_{M+1}(x)\in\textsf{F}$に対して新しいコンテキストデータ $\textsf{C}_{M+1}$に適用される。
ゴールは、新しいクエリ $x_{N_{M+1}+1}$ に対して、Transformer が各カテゴリ $c\in\{0,\dots,C-1\}$ の確率を構成することである。
f_m(x)$ の各成分は再生カーネルヒルベルト空間 (RKHS) に存在し、$\textsf{F}$ を指定していると仮定する。
解析と広範な実験により、トランスフォーマーの前方通過(RKHSカーネルによって定義された注意)は、ソフトマックスに付随する潜在ベクトル関数に連結された基底関数の勾配勾配の形式を実装することが示唆された。
我々は、ImageNetデータセットを用いて、この数発の学習方法論の最初の実世界の実演であると考えられるものを提示する。
Recent research has sought to understand Transformers through the lens of in-context learning with functional data. We extend that line of work with the goal of moving closer to language models, considering categorical outcomes, nonlinear underlying models, and nonlinear attention. The contextual data are of the form $\textsf{C}=(x_1,c_1,\dots,x_N,c_{N})$ where each $c_i\in\{0,\dots,C-1\}$ is drawn from a categorical distribution that depends on covariates $x_i\in\mathbb{R}^d$. Contextual outcomes in the $m$th set of contextual data, $\textsf{C}_m$, are modeled in terms of latent function $f_m(x)\in\textsf{F}$, where $\textsf{F}$ is a functional class with $(C-1)$-dimensional vector output. The probability of observing class $c\in\{0,\dots,C-1\}$ is modeled in terms of the output components of $f_m(x)$ via the softmax. The Transformer parameters may be trained with $M$ contextual examples, $\{\textsf{C}_m\}_{m=1,M}$, and the trained model is then applied to new contextual data $\textsf{C}_{M+1}$ for new $f_{M+1}(x)\in\textsf{F}$. The goal is for the Transformer to constitute the probability of each category $c\in\{0,\dots,C-1\}$ for a new query $x_{N_{M+1}+1}$. We assume each component of $f_m(x)$ resides in a reproducing kernel Hilbert space (RKHS), specifying $\textsf{F}$. Analysis and an extensive set of experiments suggest that on its forward pass the Transformer (with attention defined by the RKHS kernel) implements a form of gradient descent of the underlying function, connected to the latent vector function associated with the softmax. We present what is believed to be the first real-world demonstration of this few-shot-learning methodology, using the ImageNet dataset. | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# 知識グラフ補完のためのLLMの適合性評価
Assessing LLMs Suitability for Knowledge Graph Completion ( http://arxiv.org/abs/2405.17249v1 ) ライセンス: Link先を確認 | Vasile Ionut Remus Iga, Gheorghe Cosmin Silaghi, | (参考訳) 最近の研究は、ゼロやフューショットのパラダイムであっても、知識グラフの補完のような知識グラフに関連するタスクを解決するために、LLM(Large Language Models)の能力を示している。
しかし、答えを幻覚させることや、結果が非決定的な方法で出力されることが知られており、ユーザの要求を満たすとしても、誤った合理的な応答につながる。
知識グラフ関連タスクにおける機会と課題を明らかにするため、静的知識グラフの知識グラフ補完において、タスク指向対話システムの使用事例において、ゼロとワンショットの文脈でTELeR分類に従って構築されたプロンプトを用いて、Mixtral-8x7B-Instruct-v0.1とgpt-3.5-turbo-0125という2つの優れたLLMを実験した。
厳密な測定方法とフレキシブルな測定方法の両方を用いて評価すると,LLMが十分な情報と関連する事例をカプセル化すれば,そのようなタスクに適合する可能性が示唆された。
Recent work shown the capability of Large Language Models (LLMs) to solve tasks related to Knowledge Graphs, such as Knowledge Graph Completion, even in Zero- or Few-Shot paradigms. However, they are known to hallucinate answers, or output results in a non-deterministic manner, thus leading to wrongly reasoned responses, even if they satisfy the user's demands. To highlight opportunities and challenges in knowledge graphs-related tasks, we experiment with two distinguished LLMs, namely Mixtral-8x7B-Instruct-v0.1, and gpt-3.5-turbo-0125, on Knowledge Graph Completion for static knowledge graphs, using prompts constructed following the TELeR taxonomy, in Zero- and One-Shot contexts, on a Task-Oriented Dialogue system use case. When evaluated using both strict and flexible metrics measurement manners, our results show that LLMs could be fit for such a task if prompts encapsulate sufficient information and relevant examples. | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# GenWarp: セマンティック保存ジェネレータによる新しいビューへのシングルイメージ
GenWarp: Single Image to Novel Views with Semantic-Preserving Generative Warping ( http://arxiv.org/abs/2405.17251v1 ) ライセンス: Link先を確認 | Junyoung Seo, Kazumi Fukuda, Takashi Shibuya, Takuya Narihira, Naoki Murata, Shoukang Hu, Chieh-Hsin Lai, Seungryong Kim, Yuki Mitsufuji, | (参考訳) 単一の画像から新しいビューを生成することは、3Dシーンの複雑さと、モデルをトレーニングする既存のマルチビューデータセットの多様性が制限されているため、依然として難しい課題である。
大規模テキスト・トゥ・イメージ(T2I)モデルと単眼深度推定(MDE)を併用した最近の研究は、線内画像の処理において有望であることを示している。
これらの方法では、入力ビューは、推定深度マップを持つ新しいビューに幾何学的にワープされ、そのワープイメージはT2Iモデルによって塗装される。
しかし、入力ビューを新しい視点に変換する際には、ノイズの多い深度マップや意味的な詳細が失われることに苦労する。
本稿では,T2I生成モデルが,自己注意で横断的な注目を増進することで,どの位置をワープするか,どこで生成するかを学習することを可能にする意味保存型生成ワープフレームワークである,単一ショット新規ビュー合成のための新しいアプローチを提案する。
提案手法は,ソースビュー画像に生成モデルを条件付けし,幾何学的ワープ信号を組み込むことにより,既存の手法の限界に対処する。
定性的かつ定量的な評価は、我々のモデルがドメイン内シナリオとドメイン外シナリオの両方で既存のメソッドより優れていることを示す。
プロジェクトページはhttps://GenWarp-NVS.github.io/.comで公開されている。
Generating novel views from a single image remains a challenging task due to the complexity of 3D scenes and the limited diversity in the existing multi-view datasets to train a model on. Recent research combining large-scale text-to-image (T2I) models with monocular depth estimation (MDE) has shown promise in handling in-the-wild images. In these methods, an input view is geometrically warped to novel views with estimated depth maps, then the warped image is inpainted by T2I models. However, they struggle with noisy depth maps and loss of semantic details when warping an input view to novel viewpoints. In this paper, we propose a novel approach for single-shot novel view synthesis, a semantic-preserving generative warping framework that enables T2I generative models to learn where to warp and where to generate, through augmenting cross-view attention with self-attention. Our approach addresses the limitations of existing methods by conditioning the generative model on source view images and incorporating geometric warping signals. Qualitative and quantitative evaluations demonstrate that our model outperforms existing methods in both in-domain and out-of-domain scenarios. Project page is available at https://GenWarp-NVS.github.io/. | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# 時空ネットワークのガウス埋め込み
Gaussian Embedding of Temporal Networks ( http://arxiv.org/abs/2405.17253v1 ) ライセンス: Link先を確認 | Raphaël Romero, Jefrey Lijffijt, Riccardo Rastelli, Marco Corneli, Tijl De Bie, | (参考訳) 低次元潜在空間における連続時間時間グラフのノードの表現は、予測から可視化まで幅広い応用がある。
しかし、タイムスタンプ相互作用による連続時間関係データの解析は、その空間性によってユニークな課題をもたらす。
単にノードを潜在空間の軌跡として埋め込むことは、この空間の空間性を見落とし、潜在位置に関する不確実性を定量化する必要性を強調している。
本稿では,TGNE(\textbf{T}emporal \textbf{G}aussian \textbf{N}etwork \textbf{E}mbedding)を提案する。
TGNEはノードを潜在空間内のガウス分布の断片的線形軌跡として埋め込み、軌道上の構造情報と不確実性の両方をキャプチャする。
元のグラフを再構成し、不確実性をモデル化するTGNEの有効性を評価する。
その結果、TGNEは観測されたエッジに基づく未観測エッジの相互作用を再構築するための共通のベースラインと比較して、競合する時間変化の埋め込み位置を生成することを示した。
さらに、不確実性推定は、ネットワーク内の時間変化度分布と一致し、グラフの時間的ダイナミクスに関する貴重な洞察を提供する。
再現性を高めるため,TGNE のオープンソース実装を \url{https://github.com/aida-ugent/tgne} で提供する。
Representing the nodes of continuous-time temporal graphs in a low-dimensional latent space has wide-ranging applications, from prediction to visualization. Yet, analyzing continuous-time relational data with timestamped interactions introduces unique challenges due to its sparsity. Merely embedding nodes as trajectories in the latent space overlooks this sparsity, emphasizing the need to quantify uncertainty around the latent positions. In this paper, we propose TGNE (\textbf{T}emporal \textbf{G}aussian \textbf{N}etwork \textbf{E}mbedding), an innovative method that bridges two distinct strands of literature: the statistical analysis of networks via Latent Space Models (LSM)\cite{Hoff2002} and temporal graph machine learning. TGNE embeds nodes as piece-wise linear trajectories of Gaussian distributions in the latent space, capturing both structural information and uncertainty around the trajectories. We evaluate TGNE's effectiveness in reconstructing the original graph and modelling uncertainty. The results demonstrate that TGNE generates competitive time-varying embedding locations compared to common baselines for reconstructing unobserved edge interactions based on observed edges. Furthermore, the uncertainty estimates align with the time-varying degree distribution in the network, providing valuable insights into the temporal dynamics of the graph. To facilitate reproducibility, we provide an open-source implementation of TGNE at \url{https://github.com/aida-ugent/tgne}. | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# モース理論による試料繊維の表面改質
Surface reconstruction of sampled textiles via Morse theory ( http://arxiv.org/abs/2405.17257v1 ) ライセンス: Link先を確認 | Franco Coltraro, Jaume Amorós, Maria Alberich-Carramiñana, Carme Torras, | (参考訳) 本研究では,3次元スキャナーを用いて,点雲試料から空間内の形状と位置を同定し,計算トポロジからのツールを用いた衣服の知覚問題について検討する。
サンプル繊維表面の直接トポロジカルな研究に基づいて再構成アルゴリズムを提案し,モース関数を用いてその細胞の分解を得られるようにした。
中間三角法や局所暗黙の方程式は使われず、再建によって引き起こされる工芸品を避ける。
点サンプルの表面トポロジー、密度、正則性に関する事前知識は、アルゴリズムの実行には必要ない。
その結果,Morse細胞(すなわちトポロジカルディスク)の結合として表面を断片的に分解し,ノイズフィルタやメッシュ非依存的リパラメトリゼーションなどのタスクに適した,表面トポロジを決定する小さなランクの細胞複合体が得られた。
このアルゴリズムは、任意の次元の周囲空間に埋め込まれた境界の有無にかかわらず滑らかな曲面に適用することができる。
In this work, we study the perception problem for garments using tools from computational topology: the identification of their geometry and position in space from point-cloud samples, as obtained e.g. with 3D scanners. We present a reconstruction algorithm based on a direct topological study of the sampled textile surface that allows us to obtain a cellular decomposition of it via a Morse function. No intermediate triangulation or local implicit equations are used, avoiding reconstruction-induced artifices. No a priori knowledge of the surface topology, density or regularity of the point-sample is required to run the algorithm. The results are a piecewise decomposition of the surface as a union of Morse cells (i.e. topological disks), suitable for tasks such as noise-filtering or mesh-independent reparametrization, and a cell complex of small rank determining the surface topology. This algorithm can be applied to smooth surfaces with or without boundary, embedded in an ambient space of any dimension. | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# $\textit{Trans-LoRA}$: to data-free Transferable Parameter Efficient Finetuning
$\textit{Trans-LoRA}$: towards data-free Transferable Parameter Efficient Finetuning ( http://arxiv.org/abs/2405.17258v1 ) ライセンス: Link先を確認 | Runqian Wang, Soumya Ghosh, David Cox, Diego Antognini, Aude Oliva, Rogerio Feris, Leonid Karlinsky, | (参考訳) 低ランクアダプタ(LoRA)とその変種は、少数の追加パラメータしか必要とせず、完全なモデルファインチューン性能と密に一致したパラメータ効率の微調整(PEFT)技術として人気がある。
これらの追加のLoRAパラメータは、適応されるベースモデルに固有のものである。
ベースモデルを非推奨にし、新しいモデルに置き換える必要がある場合、関連するすべてのLoRAモジュールを再トレーニングする必要がある。
このような再トレーニングは、オリジナルのベースモデルのためにLoRAをトレーニングするために使用されるデータにアクセスする必要がある。
LoRAモジュールとベースモデルが、プロプライエタリなクライアントタスクデータをホストできないサービスプロバイダによってホストされている、商用クラウドアプリケーションには特に問題があります。
この課題に対処するために、ベースモデル間のLoRAのロスレス、ほぼデータなし転送のための新しいメソッドである$\textit{Trans-LoRA}$を提案する。
我々のアプローチは、LoRAモジュールの転送に合成データに依存する。
大規模言語モデルを用いて,$\textit{observed}$ Task Dataサブセットのデータ生成過程を近似する合成データ生成器を設計する。
得られた合成データセットのトレーニングは、LoRAモジュールを新しいモデルに転送する。
LLamaモデルとGemmaモデルの両方を用いたアプローチの有効性を示す。
提案手法は,異なるベースモデルファミリ内および異なるPEFTメソッド間のモデル間のロラ転送を,多種多様なタスクで実現し,損失のない(主に改善された)ロラ転送を実現する。
Low-rank adapters (LoRA) and their variants are popular parameter-efficient fine-tuning (PEFT) techniques that closely match full model fine-tune performance while requiring only a small number of additional parameters. These additional LoRA parameters are specific to the base model being adapted. When the base model needs to be deprecated and replaced with a new one, all the associated LoRA modules need to be re-trained. Such re-training requires access to the data used to train the LoRA for the original base model. This is especially problematic for commercial cloud applications where the LoRA modules and the base models are hosted by service providers who may not be allowed to host proprietary client task data. To address this challenge, we propose $\textit{Trans-LoRA}$ -- a novel method for lossless, nearly data-free transfer of LoRAs across base models. Our approach relies on synthetic data to transfer LoRA modules. Using large language models, we design a synthetic data generator to approximate the data-generating process of the $\textit{observed}$ task data subset. Training on the resulting synthetic dataset transfers LoRA modules to new models. We show the effectiveness of our approach using both LLama and Gemma model families. Our approach achieves lossless (mostly improved) LoRA transfer between models within and across different base model families, and even between different PEFT methods, on a wide variety of tasks. | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# ニューラルPDEサロゲートを用いた二相流の加速シミュレーション
Accelerating Simulation of Two-Phase Flows with Neural PDE Surrogates ( http://arxiv.org/abs/2405.17260v1 ) ライセンス: Link先を確認 | Yoeri Poels, Koen Minartz, Harshit Bansal, Vlado Menkovski, | (参考訳) シミュレーションは物理系をよりよく理解するための強力なツールであるが、一般に計算に高価な数値法を必要とする。
このようなシミュレーションの下流の応用は、例えば多くの自由度を持つ逆設計の場合など、多くの前方解を必要とする場合、計算不可能となる。
本研究では,2相流問題に対するスケーリングシミュレーションを支援するツールとして,ニューラルPDEソルバを検討・拡張し,特に孔内からの油流出のシミュレーションを行う。
この問題に対する既存の数値的手法を、ドメインの様々なジオメトリを含むより複雑な設定に拡張し、挑戦的なデータセットを生成する。
さらに,UNet,DRN,U-FNOの3つの顕著なPDE解法について検討し,油流出問題の特徴として,(1)幾何学上の空間条件,(2)境界における周期性,(3)近似質量保存について検討した。
我々は全ての手法をスケールし、その速度精度トレードオフをベンチマークし、質的特性を評価し、アブレーション研究を行う。
提案手法は, 最大3桁の速さで液滴力学を正確にモデル化し, 拡張によりベースラインよりも性能が向上し, 導入した様々な測地が, 従来検討されていた油流出問題よりもはるかに困難であることがわかった。
Simulation is a powerful tool to better understand physical systems, but generally requires computationally expensive numerical methods. Downstream applications of such simulations can become computationally infeasible if they require many forward solves, for example in the case of inverse design with many degrees of freedom. In this work, we investigate and extend neural PDE solvers as a tool to aid in scaling simulations for two-phase flow problems, and simulations of oil expulsion from a pore specifically. We extend existing numerical methods for this problem to a more complex setting involving varying geometries of the domain to generate a challenging dataset. Further, we investigate three prominent neural PDE solver methods, namely the UNet, DRN and U-FNO, and extend them for characteristics of the oil-expulsion problem: (1) spatial conditioning on the geometry; (2) periodicity in the boundary; (3) approximate mass conservation. We scale all methods and benchmark their speed-accuracy trade-off, evaluate qualitative properties, and perform an ablation study. We find that the investigated methods can accurately model the droplet dynamics with up to three orders of magnitude speed-up, that our extensions improve performance over the baselines, and that the introduced varying geometries constitute a significantly more challenging setting over the previously considered oil expulsion problem. | 翻訳日:2024-05-28 14:53:29 公開日:2024-05-27 |
# 拡散は画像の超解像にGANを上回るか?
Does Diffusion Beat GAN in Image Super Resolution? ( http://arxiv.org/abs/2405.17261v1 ) ライセンス: Link先を確認 | Denis Kuznedelev, Valerii Startsev, Daniil Shlenskii, Sergey Kastryulin, | (参考訳) 最近の文献では、拡散に基づくモデルは、画像超解像(ISR)問題において、GANベースのモデルよりも優れているという意見が有力である。
しかし、ほとんどの研究では拡散型ISRモデルはGANベースラインよりも長く訓練され、より大きなネットワークを利用した。
これにより、拡散モデルの優越性は、拡散パラダイムがISRタスクに適しているか、あるいはそれが現代の研究で使われるスケールと計算資源の増加の結果であるのかという疑問が提起される。
我々の研究では、DiffusionベースのスーパーレゾリューションとGANベースのスーパーレゾリューションを比較し、アーキテクチャ、モデル、データセットサイズ、計算予算の両アプローチが一致している。
本稿では,GANモデルを用いてDiffusionモデルに匹敵する結果が得られることを示す。
さらに、テキストコンディショニングや拡張などの設計選択がISRモデルの性能に及ぼす影響について検討し、下流タスクへの影響を示す。
スケールしたGANの推論コードと重みを公開します。
There is a prevalent opinion in the recent literature that Diffusion-based models outperform GAN-based counterparts on the Image Super Resolution (ISR) problem. However, in most studies, Diffusion-based ISR models were trained longer and utilized larger networks than the GAN baselines. This raises the question of whether the superiority of Diffusion models is due to the Diffusion paradigm being better suited for the ISR task or if it is a consequence of the increased scale and computational resources used in contemporary studies. In our work, we compare Diffusion-based and GAN-based Super Resolution under controlled settings, where both approaches are matched in terms of architecture, model and dataset size, and computational budget. We show that a GAN-based model can achieve results comparable to a Diffusion-based model. Additionally, we explore the impact of design choices such as text conditioning and augmentation on the performance of ISR models, showcasing their effect on several downstream tasks. We will release the inference code and weights of our scaled GAN. | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# 単層エアロゾル光深度再構成のための深い特徴ガウス過程
Deep Feature Gaussian Processes for Single-Scene Aerosol Optical Depth Reconstruction ( http://arxiv.org/abs/2405.17262v1 ) ライセンス: Link先を確認 | Shengjie Liu, Lu Zhang, | (参考訳) リモートセンシングデータは、エアロゾル光深度(AOD)の検索による大気汚染の大規模監視のための低コストなソリューションを提供するが、しばしば雲汚染によって制限される。
AOD再建のための既存の方法は時間情報に依存している。
しかし、高空間分解能のリモートセンシングデータでは、多時間観測は利用できないことが多い。
本稿では,畳み込みニューラルネットワークからの深部表現学習を活用し,単一シーンAOD再構成のためのDeep Feature Gaussian Processes (DFGP)を提案する。
ディープラーニングを使用することで、変数をより説明可能なパワーで特徴空間に変換する。
ガウス過程を用いて、観測されたAODと空間領域と特徴領域の欠落AODとの相関を明示的に考察する。
実世界の雲パターンを持つ2つのAODデータセットを用いた実験により、提案手法は深部CNNとランダムフォレストより優れ、MODIS AODではR$^2$ 0.7431、EMIT AODではR$^2$ 0.9211、深部CNNではR$^2$ 0.6507、R$^2$ 0.8619であった。
提案手法はAOD再建において一般的なランダム林に比べてR$^2$を0.35以上増加させた。
この研究で使用されたデータとコードは、 \url{https://skrisliu.com/dfgp} で入手できる。
Remote sensing data provide a low-cost solution for large-scale monitoring of air pollution via the retrieval of aerosol optical depth (AOD), but is often limited by cloud contamination. Existing methods for AOD reconstruction rely on temporal information. However, for remote sensing data at high spatial resolution, multi-temporal observations are often unavailable. In this letter, we take advantage of deep representation learning from convolutional neural networks and propose Deep Feature Gaussian Processes (DFGP) for single-scene AOD reconstruction. By using deep learning, we transform the variables to a feature space with better explainable power. By using Gaussian processes, we explicitly consider the correlation between observed AOD and missing AOD in spatial and feature domains. Experiments on two AOD datasets with real-world cloud patterns showed that the proposed method outperformed deep CNN and random forest, achieving R$^2$ of 0.7431 on MODIS AOD and R$^2$ of 0.9211 on EMIT AOD, compared to deep CNN's R$^2$ of 0.6507 and R$^2$ of 0.8619. The proposed methods increased R$^2$ by over 0.35 compared to the popular random forest in AOD reconstruction. The data and code used in this study are available at \url{https://skrisliu.com/dfgp}. | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# テキスト生成のためのインテクスト学習におけるノイズロバスト性について
On the Noise Robustness of In-Context Learning for Text Generation ( http://arxiv.org/abs/2405.17264v1 ) ライセンス: Link先を確認 | Hongfu Gao, Feipeng Zhang, Wenyu Jiang, Jun Shu, Feng Zheng, Hongxin Wei, | (参考訳) 大規模言語モデル (LLM) は、大量の注釈付き例から選択したデモの品質に大きく依存する、コンテキスト内学習 (ICL) による下流タスクにおける印象的なパフォーマンスを示している。
最近の研究は、テキスト分類において、コンテキスト内学習はノイズの多い実演に対して堅牢であると主張している。
本研究では,テキスト生成タスクにおいて,ノイズの多いアノテーションがテキスト内学習の性能を著しく損なうことを示す。
この問題を回避するため、我々は「ノイズの多い」候補者を、よりクリーンになりやすい近隣住民に置き換える、ローカル・パープレキシティ・ランキング(LPR)と呼ばれるシンプルで効果的なアプローチを提案する。
本手法は, ノイズラベルによるパープレキシティ偏差を解析し, パープレキシティを固有パープレキシティに分解し, パープレキシティに一致するパープレキシティを求める。
したがって、LPRの背後にある重要な考え方は、セマンティック空間において隣人の間でランク付けを行うことによって、マッチングの難易度を分離することである。
提案手法では,提案手法の有効性を保ちつつ,入力ラベルのペアが一致していない場合を防止する。
大規模な実験はLPRの有効性を実証し、ノイズのあるアノテーションを持つ一般的なベンチマークにおいて、EMスコアを最大18.75まで改善した。
Large language models (LLMs) have shown impressive performance on downstream tasks by in-context learning (ICL), which heavily relies on the quality of demonstrations selected from a large set of annotated examples. Recent works claim that in-context learning is robust to noisy demonstrations in text classification. In this work, we show that, on text generation tasks, noisy annotations significantly hurt the performance of in-context learning. To circumvent the issue, we propose a simple and effective approach called Local Perplexity Ranking (LPR), which replaces the "noisy" candidates with their nearest neighbors that are more likely to be clean. Our method is motivated by analyzing the perplexity deviation caused by noisy labels and decomposing perplexity into inherent perplexity and matching perplexity. Our key idea behind LPR is thus to decouple the matching perplexity by performing the ranking among the neighbors in semantic space. Our approach can prevent the selected demonstrations from including mismatched input-label pairs while preserving the effectiveness of the original selection methods. Extensive experiments demonstrate the effectiveness of LPR, improving the EM score by up to 18.75 on common benchmarks with noisy annotations. | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# FedHPL: Prompt Tuning と Logit Distillation による効率的不均一フェデレーション学習
FedHPL: Efficient Heterogeneous Federated Learning with Prompt Tuning and Logit Distillation ( http://arxiv.org/abs/2405.17267v1 ) ライセンス: Link先を確認 | Yuting Ma, Lechao Cheng, Yaxiong Wang, Zhun Zhong, Xiaohua Xu, Meng Wang, | (参考訳) フェデレートラーニング(FL)は、分散クライアントが生データをローカルに保持しながら、中央サーバでモデルを協調的にトレーニングできる、一般的なプライバシ保護パラダイムである。
実際には、異なるモデルアーキテクチャ、さまざまなデータ分散、およびローカルクライアントにまたがる限られたリソースは、必然的にモデル性能の低下と収束速度の低下を引き起こす。
しかし、既存のFLメソッドは上記の不均一な課題のいくつかしか解決できず、明らかに性能上の制限がある。
特に、これらの課題を克服するための統一フレームワークはまだ検討されていない。
そこで我々は,$\textbf{Fed}$erated learning framework for $\textbf{H}$eterogeneous settings based on $\textbf{P}$rompt tuning and $\textbf{L}$ogit distillationを提案する。
具体的には、学習可能な数個の視覚的プロンプトを活用する局所的プロンプトチューニング方式を用いて、下流タスクの凍結事前学習基盤モデルを効率的に微調整し、限られたローカルリソースとデータ不均一性の下での訓練とモデル性能の向上を図る。
さらに, モデルの不均一性を扱うグローバルロジット蒸留法を設計し, 局所訓練を指導する。
より詳しくは、ロジットを活用して、局所的な知識を暗黙的に捉え、グローバルなクライアント固有のロジットを生成するために重み付けされた知識集約機構を設計する。
我々は、FedHPLの一般化誤差に関する理論的保証を提供する。
モデルとデータの多様な設定下での様々なベンチマークデータセットの実験は、我々のフレームワークが計算オーバーヘッドやトレーニングラウンドが少なくて最先端のFLアプローチより優れていることを示した。
Federated learning (FL) is a popular privacy-preserving paradigm that enables distributed clients to collaboratively train models with a central server while keeping raw data locally. In practice, distinct model architectures, varying data distributions, and limited resources across local clients inevitably cause model performance degradation and a slowdown in convergence speed. However, existing FL methods can only solve some of the above heterogeneous challenges and have obvious performance limitations. Notably, a unified framework has not yet been explored to overcome these challenges. Accordingly, we propose FedHPL, a parameter-efficient unified $\textbf{Fed}$erated learning framework for $\textbf{H}$eterogeneous settings based on $\textbf{P}$rompt tuning and $\textbf{L}$ogit distillation. Specifically, we employ a local prompt tuning scheme that leverages a few learnable visual prompts to efficiently fine-tune the frozen pre-trained foundation model for downstream tasks, thereby accelerating training and improving model performance under limited local resources and data heterogeneity. Moreover, we design a global logit distillation scheme to handle the model heterogeneity and guide the local training. In detail, we leverage logits to implicitly capture local knowledge and design a weighted knowledge aggregation mechanism to generate global client-specific logits. We provide a theoretical guarantee on the generalization error bound for FedHPL. The experiments on various benchmark datasets under diverse settings of models and data demonstrate that our framework outperforms state-of-the-art FL approaches, with less computation overhead and training rounds. | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# DPN:ミニマックス車両ルーティング問題におけるニューラルソルバーの分離とナビゲーション
DPN: Decoupling Partition and Navigation for Neural Solvers of Min-max Vehicle Routing Problems ( http://arxiv.org/abs/2405.17272v1 ) ライセンス: Link先を確認 | Zhi Zheng, Shunyu Yao, Zhenkun Wang, Xialiang Tong, Mingxuan Yuan, Ke Tang, | (参考訳) min-maxの車両ルーティング問題(min-max VRP)は、いくつかのルートを割り当て、最長ルートの長さを最小化することを目的として、与えられたすべての顧客を横断する。
近年,強化学習(RL)に基づく逐次計画手法は,解法効率と最適性に優位性を示した。
しかし、これらの手法は、学習表現における問題固有の特性を利用することができず、最適経路の復号化にはあまり効果がない。
本稿では,Min-max VRPの逐次計画過程を,異なる経路の顧客分割と各経路の顧客ナビゲーション(パーティションとナビゲーション)の2つの複合最適化タスクとして考察する。
min-max VRPインスタンスを効果的に処理するために,パーティション・アンド・ナビゲーション・エンコーダ(P&Nエンコーダ)を提案する。
さらに、復号経路に固有の対称性を利用し、効果的なエージェント置換対称損失関数(APS)を開発する。
実験結果から,DPN法が従来の学習手法よりはるかに優れていることが示された。
私たちのコードは利用可能です
The min-max vehicle routing problem (min-max VRP) traverses all given customers by assigning several routes and aims to minimize the length of the longest route. Recently, reinforcement learning (RL)-based sequential planning methods have exhibited advantages in solving efficiency and optimality. However, these methods fail to exploit the problem-specific properties in learning representations, resulting in less effective features for decoding optimal routes. This paper considers the sequential planning process of min-max VRPs as two coupled optimization tasks: customer partition for different routes and customer navigation in each route (i.e., partition and navigation). To effectively process min-max VRP instances, we present a novel attention-based Partition-and-Navigation encoder (P&N Encoder) that learns distinct embeddings for partition and navigation. Furthermore, we utilize an inherent symmetry in decoding routes and develop an effective agent-permutation-symmetric (APS) loss function. Experimental results demonstrate that the proposed Decoupling-Partition-Navigation (DPN) method significantly surpasses existing learning-based methods in both single-depot and multi-depot min-max VRPs. Our code is available at | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# 大行列関数の勾配
Gradients of Functions of Large Matrices ( http://arxiv.org/abs/2405.17277v1 ) ライセンス: Link先を確認 | Nicholas Krämer, Pablo Moreno-Muñoz, Hrittik Roy, Søren Hauberg, | (参考訳) 科学および確率論的機械学習モデル(偏微分方程式、ガウス過程、ベイズニューラルネットワークなど)のチューニングは、データセットやパラメータの数によってサイズが大きくなる行列の関数を評価することに依存することが多い。
これらの量を評価する最先端技術は、ほとんど常にランツォとアルノルニの反復に基づいているが、この研究は、数値線型代数のこれらのワークホースを効率的に区別する方法を説明する最初のものである。
そこで、Lanczos と Arnoldi の繰り返しに対する既知の随伴系を導出し、JAX で実装し、結果のコードが PDE の微分に関して Diffrax と競合することを示す。
これらはすべて、問題固有のコードの最適化なしに実現されます。
https://github.com/pnkraemer/experiments-lanczos-adjointsでコードを検索し、pip install matfreeでライブラリをインストールする。
Tuning scientific and probabilistic machine learning models -- for example, partial differential equations, Gaussian processes, or Bayesian neural networks -- often relies on evaluating functions of matrices whose size grows with the data set or the number of parameters. While the state-of-the-art for evaluating these quantities is almost always based on Lanczos and Arnoldi iterations, the present work is the first to explain how to differentiate these workhorses of numerical linear algebra efficiently. To get there, we derive previously unknown adjoint systems for Lanczos and Arnoldi iterations, implement them in JAX, and show that the resulting code can compete with Diffrax when it comes to differentiating PDEs, GPyTorch for selecting Gaussian process models and beats standard factorisation methods for calibrating Bayesian neural networks. All this is achieved without any problem-specific code optimisation. Find the code at https://github.com/pnkraemer/experiments-lanczos-adjoints and install the library with pip install matfree. | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# EF-Calib:連続時間軌道を用いたイベント・フレームカメラの時空間校正
EF-Calib: Spatiotemporal Calibration of Event- and Frame-Based Cameras Using Continuous-Time Trajectories ( http://arxiv.org/abs/2405.17278v1 ) ライセンス: Link先を確認 | Shaoan Wang, Zhanhua Xin, Yaoqing Hu, Dongyue Li, Mingzhu Zhu, Junzhi Yu, | (参考訳) バイオインスパイアされた非同期トリガカメラであるイベントカメラは、低レイテンシと高ダイナミックレンジのため、フレームベースのカメラと融合する見込みがある。
しかし、イベントベースのカメラとフレームベースのカメラの両方を組み込んだステレオビジョンシステムの校正は大きな課題である。
本稿では,連続時間軌道を用いたイベント・フレームベースカメラの時空間キャリブレーションフレームワークであるEF-Calibを提案する。
カメラタイプとそれに対応するイベント認識アルゴリズムの両方に適用可能な,新しいキャリブレーションパターンを提案する。
イベントの非同期性を活用して、カメラポーズを連続的に表現するための導出可能なB-スプラインを導入し、分析的ヤコビアンによる内在パラメータ、外在パラメータ、時間オフセットの校正を可能にする。
EF-Calibのキャリブレーション性能を評価するために, 固有パラメータ, 外部パラメータ, 時間オフセットのキャリブレーション実験を行った。
実験結果から, EF-Calibは, 現在のSOTAと比較して最も正確な内在パラメータ, フレームベースの結果と比較して外在パラメータの精度, 正確な時間オフセット推定を実現していることがわかった。
EF-Calibは、イベントとフレームを融合するシステムを調整するための便利で正確なツールボックスを提供する。
この論文のコードは、https://github.com/wsakobe/EF-Calib.comでオープンソース化される。
Event camera, a bio-inspired asynchronous triggered camera, offers promising prospects for fusion with frame-based cameras owing to its low latency and high dynamic range. However, calibrating stereo vision systems that incorporate both event and frame-based cameras remains a significant challenge. In this letter, we present EF-Calib, a spatiotemporal calibration framework for event- and frame-based cameras using continuous-time trajectories. A novel calibration pattern applicable to both camera types and the corresponding event recognition algorithm is proposed. Leveraging the asynchronous nature of events, a derivable piece-wise B-spline to represent camera pose continuously is introduced, enabling calibration for intrinsic parameters, extrinsic parameters, and time offset, with analytical Jacobians provided. Various experiments are carried out to evaluate the calibration performance of EF-Calib, including calibration experiments for intrinsic parameters, extrinsic parameters, and time offset. Experimental results show that EF-Calib achieves the most accurate intrinsic parameters compared to current SOTA, the close accuracy of the extrinsic parameters compared to the frame-based results, and accurate time offset estimation. EF-Calib provides a convenient and accurate toolbox for calibrating the system that fuses events and frames. The code of this paper will also be open-sourced at: https://github.com/wsakobe/EF-Calib. | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# 組立環境における補助移動ロボットのソーシャル・アウェア共有制御ナビゲーション
Socially-Aware Shared Control Navigation for Assistive Mobile Robots in the Built Environment ( http://arxiv.org/abs/2405.17279v1 ) ライセンス: Link先を確認 | Yifan Xu, Qianwei Wang, Vineet Kamat, Carol Menassa, | (参考訳) 障害のある人(特に1人以上の身体障害のある人)の数が増加するにつれて、建設環境における自立的モビリティをサポートし、介護者の負担を軽減する支援ロボティクス技術への需要が高まっている。
現在の補助移動プラットフォーム(例えば、ロボット車椅子)は、しばしばユーザの好みや制御を取り入れず、信頼と効率を低下させる。
既存の共有制御アルゴリズムでは、ナビゲーションフレームワークや経路計画アルゴリズム内にユーザコントロールの好みを組み込むことはできない。
さらに、既存のロボット車椅子のダイナミックなローカルプランナーアルゴリズムは、人々の社会的空間を考慮に入れておらず、そのようなプラットフォームがこれらの領域を侵害し不快を引き起こす可能性がある。
これらの懸念に対処するため、この研究は、モバイルロボットプラットフォームを支援するための、新しい社会的に認識された共有自律型ナビゲーションシステムを導入する。
ナビゲーションフレームワークはGlobal PlannerとLocal Plannerで構成されています。
グローバルプランナを実装するため,提案手法では,ユーザの嗜好が混雑する地域から遠ざかるように明示的に認識される,新たなユーザ設定フィールド(UPF)理論をグローバル計画フレームワーク内に導入する。
ローカルプランナに対しては,動的制御バリア関数(SS-MPC-DCBF)を用いたソーシャルな共有制御に基づくモデル予測制御を提案する。
評価の結果,Global Plannerはベースラインと比較してユーザの好みと密接に一致し,ローカルプランナーは動的シナリオと静的シナリオの安全性と効率を向上することを示した。
この統合されたアプローチは信頼と自律性を促進し、構築された環境における補助モビリティ技術の受容に不可欠である。
As the number of Persons with Disabilities (PWD), particularly those with one or more physical impairments, increases, there is an increasing demand for assistive robotic technologies that can support independent mobility in the built environment and reduce the burden on caregivers. Current assistive mobility platforms (e.g., robotic wheelchairs) often fail to incorporate user preferences and control, leading to reduced trust and efficiency. Existing shared control algorithms do not allow the incorporation of the user control preferences inside the navigation framework or the path planning algorithm. In addition, existing dynamic local planner algorithms for robotic wheelchairs do not take into account the social spaces of people, potentially leading such platforms to infringe upon these areas and cause discomfort. To address these concerns, this work introduces a novel socially-aware shared autonomy-based navigation system for assistive mobile robotic platforms. Our navigation framework comprises a Global Planner and a Local Planner. To implement the Global Planner, the proposed approach introduces a novel User Preference Field (UPF) theory within its global planning framework, explicitly acknowledging user preferences to adeptly navigate away from congested areas. For the Local Planner, we propose a Socially-aware Shared Control-based Model Predictive Control with Dynamic Control Barrier Function (SS-MPC-DCBF) to adjust movements in real-time, integrating user preferences for safer, more autonomous navigation. Evaluation results show that our Global Planner aligns closely with user preferences compared to baselines, and our Local Planner demonstrates enhanced safety and efficiency in dynamic and static scenarios. This integrated approach fosters trust and autonomy, crucial for the acceptance of assistive mobility technologies in the built environment. | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# スペイン語テキストの自動自然言語生成のためのライブラリ
A Library for Automatic Natural Language Generation of Spanish Texts ( http://arxiv.org/abs/2405.17280v1 ) ライセンス: Link先を確認 | Silvia García-Méndez, Milagros Fernández-Gavilanes, Enrique Costa-Montenegro, Jonathan Juncal-Martínez, F. Javier González-Castaño, | (参考訳) 本稿では,名詞,動詞,形容詞の最小セットからスペイン語文の自然言語生成システム(NLG)を提案する。
語彙と文法の言語知識に基づいて、システムは、ユーザが提示する主語セットから完全で一貫性があり、正しく綴られた文を生成することができる。
このシステムは、統合可能でポータブルで効率的なように設計されており、設計によって他の言語に容易に適応でき、広範囲のデジタルデバイスに組み込むことが可能である。
開発期間中、我々はスペイン語の補足辞書「aLexiS」も作成しました。
NLGライブラリは自動および手動で評価されている(注釈)。
このシステムは、拡張コミュニケーションや管理報告やニュースの自動生成など、さまざまなアプリケーションドメインで使用することができる。
In this article we present a novel system for natural language generation (NLG) of Spanish sentences from a minimum set of meaningful words (such as nouns, verbs and adjectives) which, unlike other state-of-the-art solutions, performs the NLG task in a fully automatic way, exploiting both knowledge-based and statistical approaches. Relying on its linguistic knowledge of vocabulary and grammar, the system is able to generate complete, coherent and correctly spelled sentences from the main word sets presented by the user. The system, which was designed to be integrable, portable and efficient, can be easily adapted to other languages by design and can feasibly be integrated in a wide range of digital devices. During its development we also created a supplementary lexicon for Spanish, aLexiS, with wide coverage and high precision, as well as syntactic trees from a freely available definite-clause grammar. The resulting NLG library has been evaluated both automatically and manually (annotation). The system can potentially be used in different application domains such as augmentative communication and automatic generation of administrative reports or news. | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# R-ODE:リッチな曲率でインフォームされたらわかる
R-ODE: Ricci Curvature Tells When You Will be Informed ( http://arxiv.org/abs/2405.17282v1 ) ライセンス: Link先を確認 | Li Sun, Jingbin Hu, Mengjie Li, Hao Peng, | (参考訳) 情報拡散予測は、オンラインソーシャルネットワークの構造や組織を理解する上で基本的であり、噂の拡散や影響力の最大化、政治宣伝などを妨げる重要な役割を担っている。
これまでのところ、ほとんどの既存のソリューションは、主に、過去のカスケードで知らせられるであろう次のユーザーを予測するが、拡散プロセスにおける重要な要素である時間を無視している。
このような制限は、最初にタイムアウェアなパーソナライズされた情報拡散予測の問題を提起する動機となり、ターゲットユーザがいつ通知されるかを伝える。
本稿では, リッチ曲率の新しい幾何学的視点からこの問題に対処し, リッチ曲率制御正規微分方程式(R-ODE)を提案する。
拡散過程において、R-ODEは、相互関連ユーザは表現空間の動的システムに組織化されており、カスケードは連続領域からサンプリングされた観察を与える。
感染するたびに、メッセージは最大のリッチ曲率に沿って拡散し、輸送の労力が減ることを示す。
連続領域では、メッセージはユーザの動きをトリガーし、その空間内の軌道は、グラフニューラルネットワークを持つODEによってパラメータ化される。
その結果、R−ODEは、観測から学習した移動軌跡により、対象ユーザの感染時間を予測する。
広範囲な実験により、R-ODEのパーソナライズされた時間予測能力を評価し、R-ODEが最先端のベースラインより優れていることを示す。
Information diffusion prediction is fundamental to understand the structure and organization of the online social networks, and plays a crucial role to blocking rumor spread, influence maximization, political propaganda, etc. So far, most existing solutions primarily predict the next user who will be informed with historical cascades, but ignore an important factor in the diffusion process - the time. Such limitation motivates us to pose the problem of the time-aware personalized information diffusion prediction for the first time, telling the time when the target user will be informed. In this paper, we address this problem from a fresh geometric perspective of Ricci curvature, and propose a novel Ricci-curvature regulated Ordinary Differential Equation (R-ODE). In the diffusion process, R-ODE considers that the inter-correlated users are organized in a dynamic system in the representation space, and the cascades give the observations sampled from the continuous realm. At each infection time, the message diffuses along the largest Ricci curvature, signifying less transportation effort. In the continuous realm, the message triggers users' movement, whose trajectory in the space is parameterized by an ODE with graph neural network. Consequently, R-ODE predicts the infection time of a target user by the movement trajectory learnt from the observations. Extensive experiments evaluate the personalized time prediction ability of R-ODE, and show R-ODE outperforms the state-of-the-art baselines. | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# 非教師対象発見のための繰り返し複素重み付きオートエンコーダ
Recurrent Complex-Weighted Autoencoders for Unsupervised Object Discovery ( http://arxiv.org/abs/2405.17283v1 ) ライセンス: Link先を確認 | Anand Gopalakrishnan, Aleksandar Stanić, Jürgen Schmidhuber, Michael Curtis Mozer, | (参考訳) 現在の最先端の同期モデルでは、複雑な値のアクティベーションを持つオブジェクトバインディングを符号化し、フィードフォワードアーキテクチャにおいて実際の値の重みを持つ計算を行う。
複雑な重み付き再帰的アーキテクチャの計算上の優位性について論じる。
本稿では,各反復において,隠蔽層ボトルネックが特定の位相関係における特徴の統計的に規則的な構成を符号化する,完全畳み込み型オートエンコーダであるSynCxを提案する。
結合は、単に複雑な重み付けとアクティベーションの間の行列ベクトル積演算によって達成され、現在の同期モデルに組み込まれた追加のメカニズムは不要である。
SynCxは、教師なしのオブジェクト発見において、現在のモデルよりも優れているか、強い競争力を持っている。
SynCxはまた、同様の色のオブジェクトを追加の監督なしに分離できないなど、現在のモデルの特定の系統的なグループ化エラーを回避する。
Current state-of-the-art synchrony-based models encode object bindings with complex-valued activations and compute with real-valued weights in feedforward architectures. We argue for the computational advantages of a recurrent architecture with complex-valued weights. We propose a fully convolutional autoencoder, SynCx, that performs iterative constraint satisfaction: at each iteration, a hidden layer bottleneck encodes statistically regular configurations of features in particular phase relationships; over iterations, local constraints propagate and the model converges to a globally consistent configuration of phase assignments. Binding is achieved simply by the matrix-vector product operation between complex-valued weights and activations, without the need for additional mechanisms that have been incorporated into current synchrony-based models. SynCx outperforms or is strongly competitive with current models for unsupervised object discovery. SynCx also avoids certain systematic grouping errors of current models, such as the inability to separate similarly colored objects without additional supervision. | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# 共通コア状態標準とNAEP項目仕様のNLP横断歩道
An NLP Crosswalk Between the Common Core State Standards and NAEP Item Specifications ( http://arxiv.org/abs/2405.17284v1 ) ライセンス: Link先を確認 | Gregory Camilli, | (参考訳) 自然言語処理(NLP)は、教育評価の分野で急速に普及している。
本稿では,項目仕様とコンテンツ標準の横断歩道を確立する際に,主題の専門家を支援するためのNLPベースの手順について述べる。
本稿では,文章やテキストの埋め込みベクトルに基づく多変量類似性(multivariate similarity)の提案と実証により,最近の研究を拡張した。
特に、各コンテンツ標準と複数のアイテム仕様との整合性を確立するためのハイブリッド回帰手順が示される。
この手順は、数学のCCSS(Common Core State Standards)と、2026年の国家教育進歩評価(National Assessment of Educational Progress、NAEP)の項目仕様との一致を評価するために使用される。
Natural language processing (NLP) is rapidly developing for applications in educational assessment. In this paper, I describe an NLP-based procedure that can be used to support subject matter experts in establishing a crosswalk between item specifications and content standards. This paper extends recent work by proposing and demonstrating the use of multivariate similarity based on embedding vectors for sentences or texts. In particular, a hybrid regression procedure is demonstrated for establishing the match of each content standard to multiple item specifications. The procedure is used to evaluate the match of the Common Core State Standards (CCSS) for mathematics at grade 4 to the corresponding item specifications for the 2026 National Assessment of Educational Progress (NAEP). | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# オピニオンガイドによる強化学習
Opinion-Guided Reinforcement Learning ( http://arxiv.org/abs/2405.17287v1 ) ライセンス: Link先を確認 | Kyanna Dagenais, Istvan David, | (参考訳) 人的指導は、学習エージェントの性能を向上させるために強化学習においてしばしば望まれる。
しかし、人間の洞察は、よく定式化された議論よりも単なる意見や教育的な推測であることが多い。
意見は、例えば、問題に関する部分的な情報や無知のために不確実性にさらされるが、ハードエビデンスが発生するよりも早く現れる。
このように、意見による強化学習エージェントの指導は、より優れた学習プロセスの可能性を提供するが、形式的な方法で意見のモデリングと管理の課題が伴う。
本稿では,強化学習エージェントを意見を通じて指導する手法を提案する。
この目的のために、アドバイザーの意見をモデル化し、管理するためのエンドツーエンドの手法を提供する。
提案手法の有用性を評価するため, 総合的・人間的助言者, 異なるレベルの不確実性, および複数の助言戦略のもとで評価を行った。
結果から, たとえ不確実であっても, 強化学習エージェントの性能は向上し, より高い報奨率, より効率的な探索, より優れた強化政策が得られたことが示唆された。
簡単なトポロジカルランニングの例で我々のアプローチを実証するが、我々のアプローチはより高次元の複雑な問題にも適用できる。
Human guidance is often desired in reinforcement learning to improve the performance of the learning agent. However, human insights are often mere opinions and educated guesses rather than well-formulated arguments. While opinions are subject to uncertainty, e.g., due to partial informedness or ignorance about a problem, they also emerge earlier than hard evidence could be produced. Thus, guiding reinforcement learning agents through opinions offers the potential for more performant learning processes, but comes with the challenge of modeling and managing opinions in a formal way. In this article, we present a method to guide reinforcement learning agents through opinions. To this end, we provide an end-to-end method to model and manage advisors' opinions. To assess the utility of the approach, we evaluate it with synthetic and human advisors, at different levels of uncertainty, and under multiple advise strategies. Our results indicate that opinions, even if uncertain, improve the performance of reinforcement learning agents, resulting in higher rewards, more efficient exploration, and a better reinforced policy. Although we demonstrate our approach in a simplified topological running example, our approach is applicable to complex problems with higher dimensions as well. | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# 効率的なアンサンブルはトレーニングデータ属性を改善する
Efficient Ensembles Improve Training Data Attribution ( http://arxiv.org/abs/2405.17293v1 ) ライセンス: Link先を確認 | Junwei Deng, Ting-Wei Li, Shichang Zhang, Jiaqi Ma, | (参考訳) トレーニングデータ属性(TDA)手法は、トレーニングデータポイントがモデル予測に与える影響を定量化することを目的としており、ミスラベル検出、データ選択、著作権補償などのデータ中心AIに広く応用されている。
しかし、この分野の既存の手法は、リトレーニングベースと勾配ベースに分類されるが、計算効率と帰属効果のトレードオフに苦慮している。
リトレーニングベースの手法は複雑な非凸モデルに正確に対応できるが、計算は禁じられるが、勾配ベースの手法は効率的であるが、非凸モデルではしばしば失敗する。
近年の研究では、複数の独立に訓練されたモデルのアンサンブルによる勾配に基づく手法の強化により、帰属効果が著しく向上することが示されている。
しかし、このアプローチは大規模アプリケーションでは実用的ではない。
そこで本研究では,高コストで完全独立な学習が,勾配に基づく手法のアンサンブルには不要であることに気付き,より効率的なアンサンブル戦略であるDROPOUT ENSEMBLEとLORA ENSEMBLEの2つを提案する。
これらの戦略は、トレーニング時間(最大80%)、サービス時間(最大60%)、スペースコスト(最大80%)を著しく削減し、単純で独立したアンサンブルに類似した帰属効果を維持した。
提案手法は,多種多様なデータセットやモデルを用いた多種多様なTDA手法に対して有効であることを示すとともに,TDA手法のParetoフロンティアを改良し,計算効率と帰属効率を向上することを示した。
Training data attribution (TDA) methods aim to quantify the influence of individual training data points on the model predictions, with broad applications in data-centric AI, such as mislabel detection, data selection, and copyright compensation. However, existing methods in this field, which can be categorized as retraining-based and gradient-based, have struggled with the trade-off between computational efficiency and attribution efficacy. Retraining-based methods can accurately attribute complex non-convex models but are computationally prohibitive, while gradient-based methods are efficient but often fail for non-convex models. Recent research has shown that augmenting gradient-based methods with ensembles of multiple independently trained models can achieve significantly better attribution efficacy. However, this approach remains impractical for very large-scale applications. In this work, we discover that expensive, fully independent training is unnecessary for ensembling the gradient-based methods, and we propose two efficient ensemble strategies, DROPOUT ENSEMBLE and LORA ENSEMBLE, alternative to naive independent ensemble. These strategies significantly reduce training time (up to 80%), serving time (up to 60%), and space cost (up to 80%) while maintaining similar attribution efficacy to the naive independent ensemble. Our extensive experimental results demonstrate that the proposed strategies are effective across multiple TDA methods on diverse datasets and models, including generative settings, significantly advancing the Pareto frontier of TDA methods with better computational efficiency and attribution efficacy. | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# 支配サブネットの特定のための光と物質との結合
Coupling Light with Matter for Identifying Dominant Subnetworks ( http://arxiv.org/abs/2405.17296v1 ) ライセンス: Link先を確認 | Airat Kamaletdinov, Natalia G. Berloff, | (参考訳) 物理ニューラルネットワークの一形態である複素数値発振器ネットワークを用いて、支配的なサブネットを識別し、より大きなネットワーク内の間接的相関を明らかにする。
このアプローチは、低消費電力、高速な処理速度、および後処理のない協調ノードと反規制ノードの即時同定など、大きな利点を提供する。
本手法の有効性は,生物ネットワークへの応用を通じて実証され,他のネットワークタイプにも適用可能であることも提案する。
We present a novel light-matter platform that uses complex-valued oscillator networks, a form of physical neural networks, to identify dominant subnetworks and uncover indirect correlations within larger networks. This approach offers significant advantages, including low energy consumption, high processing speed, and the immediate identification of co- and counter-regulated nodes without post-processing. The effectiveness of this approach is demonstrated through its application to biological networks, and we also propose its applicability to a wide range of other network types. | 翻訳日:2024-05-28 14:43:44 公開日:2024-05-27 |
# 線形分離データを超えた2層ネットワークの単純性バイアス
Simplicity Bias of Two-Layer Networks beyond Linearly Separable Data ( http://arxiv.org/abs/2405.17299v1 ) ライセンス: Link先を確認 | Nikita Tsoy, Nikola Konstantinov, | (参考訳) 単純性バイアス(Simplicity bias)は、ニューラルネットワークの分布外一般化を制限する潜在的な理由として認識されている(Shah et al , 2020)。
重要な意味にもかかわらず、この現象は線形分離性(Lyu et al , 2021)のような強いデータセット仮定の下でのみ理論的に確認され、特徴付けられる。
本研究では,2層ニューラルネットワークの文脈における一般データセットの単純さバイアスを,小さな重みで初期化し,勾配流を訓練した上で特徴付ける。
具体的には、初期のトレーニング段階では、隠れた層のサイズに依存しないいくつかの方向をネットワークがクラスタ化することを示す。
さらに、XORのようなパターンを持つデータセットに対しては、学習した特徴を正確に識別し、後続のトレーニング段階で単純さのバイアスが増すことを示す。
これらの結果から,訓練中期に学習した特徴がOOD伝達に有用である可能性が示唆された。
我々はこの仮説を画像データの実験で支持する。
Simplicity bias, the propensity of deep models to over-rely on simple features, has been identified as a potential reason for limited out-of-distribution generalization of neural networks (Shah et al., 2020). Despite the important implications, this phenomenon has been theoretically confirmed and characterized only under strong dataset assumptions, such as linear separability (Lyu et al., 2021). In this work, we characterize simplicity bias for general datasets in the context of two-layer neural networks initialized with small weights and trained with gradient flow. Specifically, we prove that in the early training phases, network features cluster around a few directions that do not depend on the size of the hidden layer. Furthermore, for datasets with an XOR-like pattern, we precisely identify the learned features and demonstrate that simplicity bias intensifies during later training stages. These results indicate that features learned in the middle stages of training may be more useful for OOD transfer. We support this hypothesis with experiments on image data. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# 同時現実の量子違反
Quantum violations of simultaneous reality ( http://arxiv.org/abs/2405.17300v1 ) ライセンス: Link先を確認 | R. A. Caetano, R. M. Angelo, | (参考訳) 基礎
一 地方因果の物理的原則及び
(二)アインシュタイン、ポドルスキー、ローゼン(EPR)といった現実の要素の特定の概念は、2つの非可換可観測物が物理的現実の同時的要素である可能性を示す議論を提起した。
ここでは、同時現実の操作的基準を導入することで、量子力学とは正反対、すなわち、非可換可観測物が一般に現実の同時的要素となるのを実際に妨げていることを示す。
さらに, 基準が違反する程度を定量化するための尺度を導入し, 適合性や相関関係との関連性について検討する。
量子現象の新たな解釈法が示唆された。
With basis on (i) the physical principle of local causality and (ii) a certain notion of elements of reality, Einstein, Podolsky, and Rosen (EPR) put forward an argument showing that physical instances may exist in which two non-commuting observables can be simultaneous elements of the physical reality. Here, by introducing an operational criterion of simultaneous reality, we show the very opposite, that is, quantum mechanics actually prevents non-commuting observables to be simultaneous elements of reality in general. In addition, we introduce a measure to quantify the extent to which the criterion is violated and explore the implications of such a measure in connection with incompatibility and correlations. Our findings suggest new manners of intepreting quantum phenomena. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# 非アベリアホップ・ウラー絶縁体
Non-Abelian Hopf-Euler insulators ( http://arxiv.org/abs/2405.17305v1 ) ライセンス: Link先を確認 | Wojciech J. Jankowski, Arthur S. Morris, Zory Davoyan, Adrien Bouhon, F. Nur Ünal, Robert-Jan Slager, | (参考訳) 時空間($\mathcal{PT}$)反転対称性で保護された1つのバルクホップ指数を持つ3次元の3バンド非アベリア位相絶縁体のクラスについて論じる。
これらの位相はまた、オイラー標数クラスによって与えられる部分次元位相不変量を持ち、結果として真のホップ・オイラー絶縁体となる。
このような系は自然に3次元ブリルアンゾーンのヘリカル・ノルダル構造を実現し、ホップ不変量によって記述される連結数の物理的表現を与える。
これらの系の原子価バンド間のギャップを開き、完全な「フラッグ」位相を見つけ、3バンドのマルチギャップポントリャーギン不変量を示す。
以前に報告された$\mathcal{PT}$-symmetric four-band real Hopf insulatorは$\mathbb{Z} \oplus \mathbb{Z}$ invariantであるが、これらの位相は複素二バンドホップ絶縁体の2つのコピーと一意に等価ではない。
これらの非チャート位相は、2次元オイラー絶縁体の次元拡大によって得ることができ、(1)ホップ不変量によって量子化された光バルク積分円形シフト効果、(2)実空間ワニエ関数における量子幾何学的呼吸、(3)境界上の表面オイラー位相などをサポートすることを示す。
その結果, これらの系は, メタマテリアルや超低温原子の合成次元を利用して直接シミュレートできるため, 実空間量子幾何学の新たな実験的実現の道を開いた。
We discuss a class of three-band non-Abelian topological insulators in three dimensions which carry a single bulk Hopf index protected by spatiotemporal ($\mathcal{PT}$) inversion symmetry. These phases may also host subdimensional topological invariants given by the Euler characteristic class, resulting in real Hopf-Euler insulators. Such systems naturally realize helical nodal structures in the 3D Brillouin zone, providing a physical manifestation of the linking number described by the Hopf invariant. We show that, by opening a gap between the valence bands of these systems, one finds a fully-gapped `flag' phase, which displays a three-band multi-gap Pontryagin invariant. Unlike the previously reported $\mathcal{PT}$-symmetric four-band real Hopf insulator, which hosts a $\mathbb{Z} \oplus \mathbb{Z}$ invariant, these phases are not unitarily equivalent to two copies of a complex two-band Hopf insulator. We show that these uncharted phases can be obtained through dimensional extension of two-dimensional Euler insulators, and that they support (1) an optical bulk integrated circular shift effect quantized by the Hopf invariant, (2) quantum-geometric breathing in the real space Wannier functions, and (3) surface Euler topology on boundaries. Consequently, our findings pave a way for novel experimental realizations of real-space quantum-geometry, as these systems may be directly simulated by utilizing synthethic dimensions in metamaterials or ultracold atoms. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# 拡散モデルによる制御可能なより長い画像アニメーション
Controllable Longer Image Animation with Diffusion Models ( http://arxiv.org/abs/2405.17306v1 ) ライセンス: Link先を確認 | Qiang Wang, Minghua Liu, Junjun Hu, Fan Jiang, Mu Xu, | (参考訳) 静的画像からリアルなアニメーションビデオを生成することは、コンピュータビジョンにおける重要な研究領域である。
物理シミュレーションと運動予測に基づく手法は顕著な進歩を遂げているが、それらはしばしば特定の物体のテクスチャや運動軌道に限られており、非常に複雑な環境や物理力学を示せなかった。
本稿では,映像拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は,動画から運動場情報を抽出し,移動軌跡や強みを学習することにより,移動領域の運動方向と速度を正確に制御する。
現在の事前訓練されたビデオ生成モデルは、通常30フレーム未満の非常に短いビデオを生成することに限定される。
対照的に、画像アニメーションタスクに特化して調整されたノイズ再構成に基づく効率的な長周期ビデオ生成手法を提案し、コンテンツシーンと動き調整の整合性を維持しつつ、100フレーム以上のビデオの作成を容易にする。
具体的には、デノイズ過程をシーン輪郭の形状と動きの詳細の精細化の2つの相に分解する。
次に、長距離雑音相関を保ちながら生成したフレーム列を制御するために、ノイズを再スケジュールする。
提案手法の優位性を示すため,商業ツールと学術手法の両方を含む10の基準線を用いた広範囲な実験を行った。
プロジェクトページ: \url{https://wangqiang9.github.io/Controllable.github.io/}
Generating realistic animated videos from static images is an important area of research in computer vision. Methods based on physical simulation and motion prediction have achieved notable advances, but they are often limited to specific object textures and motion trajectories, failing to exhibit highly complex environments and physical dynamics. In this paper, we introduce an open-domain controllable image animation method using motion priors with video diffusion models. Our method achieves precise control over the direction and speed of motion in the movable region by extracting the motion field information from videos and learning moving trajectories and strengths. Current pretrained video generation models are typically limited to producing very short videos, typically less than 30 frames. In contrast, we propose an efficient long-duration video generation method based on noise reschedule specifically tailored for image animation tasks, facilitating the creation of videos over 100 frames in length while maintaining consistency in content scenery and motion coordination. Specifically, we decompose the denoise process into two distinct phases: the shaping of scene contours and the refining of motion details. Then we reschedule the noise to control the generated frame sequences maintaining long-distance noise correlation. We conducted extensive experiments with 10 baselines, encompassing both commercial tools and academic methodologies, which demonstrate the superiority of our method. Our project page: \url{https://wangqiang9.github.io/Controllable.github.io/} | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# Peer2PIR: IPFS用のプライベートクエリ
Peer2PIR: Private Queries for IPFS ( http://arxiv.org/abs/2405.17307v1 ) ライセンス: Link先を確認 | Miti Mazmudar, Shannon Veitch, Rasoul Akhavan Mahdavi, | (参考訳) InterPlanetary File System (IPFS) は、分散ファイルシステムにデータを格納するためのピアツーピアネットワークであり、152か国に190,000以上のピアをホストしている。
その名声にもかかわらず、IPFSがピアに提供しているプライバシー特性は著しく制限されている。
ネットワーク内のクエリはすべて、ピアがクエリしているコンテンツを他のピアにリークする。
我々は、IPFSのプライバシー漏洩を3つの機能(ピアルーティング、プロバイダ広告、コンテンツ検索)にわたって解決し、究極的には、ネットワーク内のコンテンツをプライベートにナビゲートし、検索する権限を仲間に与えます。
プライベート情報検索(PIR)が我々のタスクに最も適したツールであると主張する。
私たちの研究は、分散システムへのPIRの統合に固有の、新たな課題を強調し、対処します。
我々は、新しいプライベートプロトコルを提示し、今日のIPFSと比較して最小限のオーバーヘッドを発生させることを示す。
また、独立性のある分散システムの文脈において、最先端のPIRプロトコルを体系的に比較する。
The InterPlanetary File System (IPFS) is a peer-to-peer network for storing data in a distributed file system, hosting over 190,000 peers spanning 152 countries. Despite its prominence, the privacy properties that IPFS offers to peers are severely limited. Any query within the network leaks to other peers the content for which a peer is querying. We address IPFS' privacy leakage across three functionalities (peer routing, provider advertisements, and content retrieval), ultimately empowering peers to privately navigate and retrieve content in the network. We argue that private information retrieval (PIR) is the most suitable tool for our task. Our work highlights and addresses novel challenges inherent to integrating PIR into distributed systems. We present our new, private protocols and demonstrate that they incur minimal overheads compared to IPFS today. We also include a systematic comparison of state-of-art PIR protocols in the context of distributed systems which may be of independent interest. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# モノのインターネットと次世代ネットワークのためのグラフニューラルネットワークの調査
Survey of Graph Neural Network for Internet of Things and NextG Networks ( http://arxiv.org/abs/2405.17309v1 ) ライセンス: Link先を確認 | Sabarish Krishna Moorthy, Jithin Jagannath, | (参考訳) モノのインターネット(IoT)デバイスが指数関数的に増加し、6Gがデータレートとコネクテッドデバイスを推し進めることで、データの急増が引き起こされた。
その結果、データ駆動機械学習の潜在能力を最大限に活用することが、重要な推力の1つとなった。
無線技術の進歩に加えて、利用可能なリソースを効率的に利用し、ユーザの要求を満たすことが重要である。
グラフニューラルネットワーク(GNN)は、高いパフォーマンスと精度、スケーラビリティ、適応性、リソース効率のために、本質的に複雑なネットワーク構造を示す洞察を効果的にモデル化し、抽出するための、有望なパラダイムとして登場した。
GNNがIoTとNext Generation(NextG)ネットワークのコンテキストで行ったアプリケーションと進歩に焦点を当てた総合的な調査が欠如している。
このギャップを埋めるために、この調査はGNNの用語、アーキテクチャ、および異なるタイプのGNNについて詳細な説明を提供することから始まる。
次に、データ融合と侵入検出の観点から、IoTにGNNを適用する際の進歩に関する総合的な調査を行う。
その後,GNNがスペクトル認識に与える影響を調査した。
次に、GNNがネットワークシステムや戦術システムにどのように活用されているかについて詳細な説明を行う。
本調査では,研究者が無線ネットワークの文脈でGNNについてより深く学び,その最先端のユースケースを理解しながら,他の機械学習アプローチとは対照的な総合的なリソースを提供することを目的としている。
最後に、IoTおよびNextG NetworksにおけるGNNの利用をさらに動機付けるための課題と今後の研究方向性についても論じました。
The exponential increase in Internet of Things (IoT) devices coupled with 6G pushing towards higher data rates and connected devices has sparked a surge in data. Consequently, harnessing the full potential of data-driven machine learning has become one of the important thrusts. In addition to the advancement in wireless technology, it is important to efficiently use the resources available and meet the users' requirements. Graph Neural Networks (GNNs) have emerged as a promising paradigm for effectively modeling and extracting insights which inherently exhibit complex network structures due to its high performance and accuracy, scalability, adaptability, and resource efficiency. There is a lack of a comprehensive survey that focuses on the applications and advances GNN has made in the context of IoT and Next Generation (NextG) networks. To bridge that gap, this survey starts by providing a detailed description of GNN's terminologies, architecture, and the different types of GNNs. Then we provide a comprehensive survey of the advancements in applying GNNs for IoT from the perspective of data fusion and intrusion detection. Thereafter, we survey the impact GNN has made in improving spectrum awareness. Next, we provide a detailed account of how GNN has been leveraged for networking and tactical systems. Through this survey, we aim to provide a comprehensive resource for researchers to learn more about GNN in the context of wireless networks, and understand its state-of-the-art use cases while contrasting to other machine learning approaches. Finally, we also discussed the challenges and wide range of future research directions to further motivate the use of GNN for IoT and NextG Networks. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# 量子散逸$XX$モデルの励起力学:断片作用素空間におけるワニエ・スターク局在
Exact dynamics of quantum dissipative $XX$ models: Wannier-Stark localization in the fragmented operator space ( http://arxiv.org/abs/2405.17310v1 ) ライセンス: Link先を確認 | Alexander Teretenkov, Oleg Lychkovskiy, | (参考訳) 我々は、Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) 方程式によって支配される1次元近傍の$XX$ spin-$1/2$鎖の散逸ダイナミクスに対処する。
散逸がなければ、モデルは可積分である。
可積分性を総称的に破壊する散逸項の幅広いクラスを同定するが、モデルの作用素空間は断片化され、様々な次元の多くの動的非随伴部分空間に残される。
十分に小さな部分空間では、ハイゼンベルク表現におけるGKSL方程式は容易に解ける。
我々は、散逸項の特定の選択に対するそのような正確な解の例を示す。
オブザーバブルは対応する作用素部分空間におけるワニエ・スターク局所化を経験する。
その結果、観測変数の期待値は、本質的にはいくつかの離散減衰モードの線形結合であり、長時間のダイナミクスは最も遅いモードによって支配される。
我々は,この後者モードに対応する複素リウビリア固有値について,散逸強度の関数として検討する。
振動と非振動崩壊を分離する臨界散逸強度において例外的な点が見つかる。
また、演算子部分空間全体の単一減衰モードにつながる異なるタイプの散逸についても記述する。
最後に、GKSL方程式の正確な解は、散逸スピン鎖に双対する閉スピンはしごのクエンチダイナミクスを記述するシュリンガー方程式の正確な解を含むことを指摘した。
We address dissipative dynamics of the one-dimensional nearest-neighbour $XX$ spin-$1/2$ chain governed by the Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) equation. In the absence of dissipation the model is integrable. We identify a broad class of dissipative terms that generically destroy integrability but leave the operator space of the model fragmented into an extensive number of dynamically disjoint subspaces of varying dimensions. In sufficiently small subspaces the GKSL equation in the Heisenberg representation can be easily solved, sometimes in a closed analytical form. We provide an example of such an exact solution for a specific choice of dissipative terms. It is found that observables experience the Wannier-Stark localization in the corresponding operator subspace. As a result, the expectation values of the observables are linear combinations of essentially a few discrete decay modes, the long time dynamics being governed by the slowest mode. We examine the complex Liouvillian eigenvalue corresponding to this latter mode as a function of the dissipation strength. We find an exceptional point at a critical dissipation strength that separates oscillating and non-oscillating decay. We also describe a different type of dissipation that leads to a single decay mode in the whole operator subspace. Finally, we point out that our exact solutions of the GKSL equation entail exact solutions of the Schr\"odinger equation describing the quench dynamics in closed spin ladders dual to the dissipative spin chains. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# 仮想ノードによる確率的グラフのリライト
Probabilistic Graph Rewiring via Virtual Nodes ( http://arxiv.org/abs/2405.17311v1 ) ライセンス: Link先を確認 | Chendi Qian, Andrei Manolache, Christopher Morris, Mathias Niepert, | (参考訳) メッセージパッシンググラフニューラルネットワーク(MPNN)は、グラフベースの機械学習の強力なパラダイムとして登場した。
その効果にもかかわらず、MPNNは、制限された受容フィールドと構造的ボトルネックが、グラフ内の情報フローを妨げるという、過剰な取得や過剰な監視といった課題に直面している。
グラフトランスフォーマーはこれらの問題に対処することを約束するが、そのスケーラビリティはノード数に関する二次的な複雑さのために制限されており、より大きなグラフでは現実的ではない。
本稿では,<emph{implicit} Probabilistic graph rewiringをMPNNに組み込む新しいアプローチである,<emph{implicitly rewired message-passing Neural Network} (IPR-MPNNs)を提案する。
少数の仮想ノード、すなわち与えられたグラフに追加ノードを追加し、それを既存のノードに接続することで、IPR-MPNNは長距離メッセージの伝搬を可能にし、二次的な複雑さを回避する。
理論的には、IPR-MPNNが従来のMPNNの表現性を上回ることを示す。
経験的に、我々は、アンダーリーチングとオーバースキャッシングの効果を緩和し、複数のグラフデータセットにまたがって最先端のパフォーマンスを達成する能力を示すことによって、我々のアプローチを検証する。
特に、IPR-MPNNは、計算効率を著しく向上させながら、グラフ変換器より優れている。
Message-passing graph neural networks (MPNNs) have emerged as a powerful paradigm for graph-based machine learning. Despite their effectiveness, MPNNs face challenges such as under-reaching and over-squashing, where limited receptive fields and structural bottlenecks hinder information flow in the graph. While graph transformers hold promise in addressing these issues, their scalability is limited due to quadratic complexity regarding the number of nodes, rendering them impractical for larger graphs. Here, we propose \emph{implicitly rewired message-passing neural networks} (IPR-MPNNs), a novel approach that integrates \emph{implicit} probabilistic graph rewiring into MPNNs. By introducing a small number of virtual nodes, i.e., adding additional nodes to a given graph and connecting them to existing nodes, in a differentiable, end-to-end manner, IPR-MPNNs enable long-distance message propagation, circumventing quadratic complexity. Theoretically, we demonstrate that IPR-MPNNs surpass the expressiveness of traditional MPNNs. Empirically, we validate our approach by showcasing its ability to mitigate under-reaching and over-squashing effects, achieving state-of-the-art performance across multiple graph datasets. Notably, IPR-MPNNs outperform graph transformers while maintaining significantly faster computational efficiency. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# All-day Depth Completion
All-day Depth Completion ( http://arxiv.org/abs/2405.17315v1 ) ライセンス: Link先を確認 | Vadim Ezhov, Hyoungseob Park, Zhaoyang Zhang, Rishi Upadhyay, Howard Zhang, Chethan Chinder Chandrappa, Achuta Kadambi, Yunhao Ba, Julie Dorsey, Alex Wong, | (参考訳) そこで本稿では,照明条件の異なる日夜の深度推定手法を提案する。
光度測定は低照度領域では非形式的であるため、マルチセンサフュージョンアプローチによりこの問題に対処し、カメラ画像とともに画像平面上に投影された追加の同期スパース点雲(LiDARから)を画像上に投影する。
提案手法の要点は,スパースから(粗い)深度マップへのマッピングと予測の不確かさを学習することにより,多量の合成データを用いて3次元シーン構造を近似することにある。
光度強度が局所的な形状を推定できない低照度領域では、シーン深さの粗い近似が先行として機能し、不確実性マップを画像とともに使用して、不確実性駆動残差学習(URL)方式で洗練を導出する。
その結果得られた深度完全ネットワークは、両モードの相補的な強度を利用する。深さはスパースだが、照明やメートル法には敏感であり、画像は密度が高いが、スケールのあいまいさには敏感である。
SpaDeはプラグイン・アンド・プレイ方式で使用することができ、既存のメソッドでスパースディープを前処理するときに25%改善できる。
私たちはnuScenesデータセットのURLをデモし、すべてのベースラインを平均11.65%改善し、昼間に特別にテストされた場合の11.23%、夜間のシーンでは13.12%としています。
We propose a method for depth estimation under different illumination conditions, i.e., day and night time. As photometry is uninformative in regions under low-illumination, we tackle the problem through a multi-sensor fusion approach, where we take as input an additional synchronized sparse point cloud (i.e., from a LiDAR) projected onto the image plane as a sparse depth map, along with a camera image. The crux of our method lies in the use of the abundantly available synthetic data to first approximate the 3D scene structure by learning a mapping from sparse to (coarse) dense depth maps along with their predictive uncertainty - we term this, SpaDe. In poorly illuminated regions where photometric intensities do not afford the inference of local shape, the coarse approximation of scene depth serves as a prior; the uncertainty map is then used with the image to guide refinement through an uncertainty-driven residual learning (URL) scheme. The resulting depth completion network leverages complementary strengths from both modalities - depth is sparse but insensitive to illumination and in metric scale, and image is dense but sensitive with scale ambiguity. SpaDe can be used in a plug-and-play fashion, which allows for 25% improvement when augmented onto existing methods to preprocess sparse depth. We demonstrate URL on the nuScenes dataset where we improve over all baselines by an average 11.65% in all-day scenarios, 11.23% when tested specifically for daytime, and 13.12% for nighttime scenes. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# 検出領域フィルタリングと検出履歴認識による小鳥の追跡
Tracking Small Birds by Detection Candidate Region Filtering and Detection History-aware Association ( http://arxiv.org/abs/2405.17323v1 ) ライセンス: Link先を確認 | Tingwei Liu, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide, | (参考訳) 本論文は,パノラマ映像に現れる小鳥の追跡に焦点をあてる。
追跡対象のサイズが小さければ(小さめの物体追跡)、素早く動き、物体の検出と関連が苦しむ。
これらの問題に対処するため,適応スライシング支援ハイパー推論(Adaptive Slicing Aided Hyper Inference, 適応SAHI)を提案する。
NUBird2022データセットの実験により,提案手法の有効性が検証された。
This paper focuses on tracking birds that appear small in a panoramic video. When the size of the tracked object is small in the image (small object tracking) and move quickly, object detection and association suffers. To address these problems, we propose Adaptive Slicing Aided Hyper Inference (Adaptive SAHI), which reduces the candidate regions to apply detection, and Detection History-aware Similarity Criterion (DHSC), which accurately associates objects in consecutive frames based on the detection history. Experiments on the NUBird2022 dataset verifies the effectiveness of the proposed method by showing improvements in both accuracy and speed. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# 線形潜在帯域におけるオフラインデータの活用
Leveraging Offline Data in Linear Latent Bandits ( http://arxiv.org/abs/2405.17324v1 ) ライセンス: Link先を確認 | Chinmaya Kausik, Kevin Tan, Ambuj Tewari, | (参考訳) 推薦システム、医療、教育といった一連の意思決定領域は、しばしば、非観測潜在状態が軌道のモデルを決定づける枠組みである、潜在帯域でモデル化できる人口の不均一性を持つ。
潜在バンディットフレームワークは説得力があるが、その一般化の程度は不明確である。
まず、決定過程に対するデ・フィネッティの定理を定め、$\textit{every}$交換可能でコヒーレントなステートレスな決定過程が遅延バンディットであることを示す。
遅延バンディットフレームワークは、シーケンシャルな意思決定への関心が高まっている問題である、オフラインデータセットによるオンライン学習に特に適している。
オフラインの潜伏バンドデータを利用して各潜伏状態の複雑なモデルを学ぶことができ、エージェントはオンラインで潜伏状態を学び、最適に振る舞うことができる。
遅延状態は未知の$d_K$-dimensional subspace for $d_K \ll d_A$である。
我々は、この部分空間を短いオフライン軌道から保証付きで学習する新しい原理的手法であるSOLDを提案する。
次に、このサブスペースをオンラインで活用する2つの方法、LOCAL-UCBとProBALL-UCBを提供する。
LOCAL-UCB は $\tilde O(\min(d_A\sqrt{T}, d_K\sqrt{T}(1+\sqrt{d_AT/d_KN})) を楽しめます。
ProBALL-UCBは若干保証が弱いが、より実用的で計算効率が良い。
最後に,MovieLensの合成データと実写映画レコメンデーションデータの両方を用いて,本手法の有効性を確立した。
Sequential decision-making domains such as recommender systems, healthcare and education often have unobserved heterogeneity in the population that can be modeled using latent bandits $-$ a framework where an unobserved latent state determines the model for a trajectory. While the latent bandit framework is compelling, the extent of its generality is unclear. We first address this by establishing a de Finetti theorem for decision processes, and show that $\textit{every}$ exchangeable and coherent stateless decision process is a latent bandit. The latent bandit framework lends itself particularly well to online learning with offline datasets, a problem of growing interest in sequential decision-making. One can leverage offline latent bandit data to learn a complex model for each latent state, so that an agent can simply learn the latent state online to act optimally. We focus on a linear model for a latent bandit with $d_A$-dimensional actions, where the latent states lie in an unknown $d_K$-dimensional subspace for $d_K \ll d_A$. We present SOLD, a novel principled method to learn this subspace from short offline trajectories with guarantees. We then provide two methods to leverage this subspace online: LOCAL-UCB and ProBALL-UCB. We demonstrate that LOCAL-UCB enjoys $\tilde O(\min(d_A\sqrt{T}, d_K\sqrt{T}(1+\sqrt{d_AT/d_KN})))$ regret guarantees, where the effective dimension is lower when the size $N$ of the offline dataset is larger. ProBALL-UCB enjoys a slightly weaker guarantee, but is more practical and computationally efficient. Finally, we establish the efficacy of our methods using experiments on both synthetic data and real-life movie recommendation data from MovieLens. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# ML支援粒子軌道再構成とヒットクラスタリングの新しいアプローチ
Novel Approaches for ML-Assisted Particle Track Reconstruction and Hit Clustering ( http://arxiv.org/abs/2405.17325v1 ) ライセンス: Link先を確認 | Uraz Odyurt, Nadezhda Dobreva, Zef Wolffs, Yue Zhao, Antonio Ferrer Sánchez, Roberto Ruiz de Austri Bazan, José D. Martín-Guerrero, Ana-Lucia Varbanescu, Sascha Caron, | (参考訳) 軌道再構成は高エネルギー物理学(HEP)の重要な側面であり、主要な実験において重要な役割を果たしている。
本研究では,粒子軌道再構成と衝突クラスタリングのための未探索経路を探索する。
まず,単純化されたシミュレータ(REDVID)を用いて,簡易に構成されたトレーニングデータを生成することにより,アルゴリズム設計の取り組みを強化する。
我々は、最適なネットワークアーキテクチャの開発を導く上で、このデータの有効性を実証する。
さらに,この課題に対する画像分割ネットワークの適用について検討し,正確なトラック再構築の可能性を探る。
さらに、ヒットシーケンスとして扱うことで、異なる視点からタスクにアプローチし、シーケンス翻訳問題を追跡する。
具体的には、追跡のためのTransformerアーキテクチャの利用について検討する。
予備的な発見は詳しく述べられている。
この新たなアプローチを考慮し,軌道再建における新たな洞察と潜在的な進歩を明らかにすることを目的とする。
本研究は、未調査の手法に光を当て、HEPにおける粒子トラックの再構築とヒットクラスタリングの分野における貴重な知見を提供する。
Track reconstruction is a vital aspect of High-Energy Physics (HEP) and plays a critical role in major experiments. In this study, we delve into unexplored avenues for particle track reconstruction and hit clustering. Firstly, we enhance the algorithmic design effort by utilising a simplified simulator (REDVID) to generate training data that is specifically composed for simplicity. We demonstrate the effectiveness of this data in guiding the development of optimal network architectures. Additionally, we investigate the application of image segmentation networks for this task, exploring their potential for accurate track reconstruction. Moreover, we approach the task from a different perspective by treating it as a hit sequence to track sequence translation problem. Specifically, we explore the utilisation of Transformer architectures for tracking purposes. Our preliminary findings are covered in detail. By considering this novel approach, we aim to uncover new insights and potential advancements in track reconstruction. This research sheds light on previously unexplored methods and provides valuable insights for the field of particle track reconstruction and hit clustering in HEP. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# 合成生存データ生成に必要な時間条件
Conditioning on Time is All You Need for Synthetic Survival Data Generation ( http://arxiv.org/abs/2405.17333v1 ) ライセンス: Link先を確認 | Mohd Ashhad, Ricardo Henao, | (参考訳) 合成データ生成は、プライバシ、公正性、データアクセシビリティを高めるための道を提供する、かなりの約束を持っている。
合成表データを生成する様々な方法が利用可能であるにもかかわらず、特に生存分析のような特殊な応用において課題は持続する。
生存データ生成における重要な障害の1つは検閲であり、特定のインスタンスに対する観測(ターゲット)イベントの正確なタイミングを知らないことが示される。
既存の手法では、観測された(検閲されていない)イベントと検閲されたイベントの両方のイベント時間の実際の分布を正確に再現することは困難である。
そこで,本稿では,イベント時刻に条件付き共変量を生成して合成サバイバルデータを生成するための簡単なパラダイムを提案する。これにより,表計算上のオーバーヘッドを伴わずに,また,検閲の基盤となる(通常未知の)生成機構を仮定することなく,既存の条件生成モデルを再利用することができる。
本手法は実世界のデータセットに対する広範な実験により評価する。
提案手法は,サバイバルデータの生成において,複数の競争ベースラインを上回りながら,トレーニングした下流サバイバルモデルの性能を向上し,実データでテストする。
Synthetic data generation holds considerable promise, offering avenues to enhance privacy, fairness, and data accessibility. Despite the availability of various methods for generating synthetic tabular data, challenges persist, particularly in specialized applications such as survival analysis. One significant obstacle in survival data generation is censoring, which manifests as not knowing the precise timing of observed (target) events for certain instances. Existing methods face difficulties in accurately reproducing the real distribution of event times for both observed (uncensored) events and censored events, i.e., the generated event-time distributions do not accurately match the underlying distributions of the real data. So motivated, we propose a simple paradigm to produce synthetic survival data by generating covariates conditioned on event times (and censoring indicators), thus allowing one to reuse existing conditional generative models for tabular data without significant computational overhead, and without making assumptions about the (usually unknown) generation mechanism underlying censoring. We evaluate this method via extensive experiments on real-world datasets. Our methodology outperforms multiple competitive baselines at generating survival data, while improving the performance of downstream survival models trained on it and tested on real data. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# XFormParser: 単純かつ効果的なマルチモーダル多言語半構造化ホルムパーザ
XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser ( http://arxiv.org/abs/2405.17336v1 ) ライセンス: Link先を確認 | Xianfu Cheng, Hang Zhang, Jian Yang, Xiang Li, Weixiao Zhou, Kui Wu, Fei Liu, Wei Zhang, Tao Sun, Tongliang Li, Zhoujun Li, | (参考訳) ドキュメントAIの分野では、半構造化フォーム解析が重要な役割を果たす。
このタスクはキー情報抽出(KIE)の技術を活用し、プレーンテキストから画像と構造的レイアウトを含む複雑なモーダルデータまでの入力を扱う。
事前訓練されたマルチモーダルモデルの出現は、PDFや画像などの異なるフォーマットのフォーム文書からキー情報を抽出するきっかけとなった。
それでも、フォームパーシングの取り組みは、多言語構文解析におけるサブパー機能や、テキストやビジュアルに富んだコンテキストでのリコールの減少といった、注目すべき課題によって、いまだに悩まされている。
本研究では,包括的事前学習言語モデルと革新的にアマルガメート・セマンティック・エンティティ認識 (SER) と関係抽出 (RE) を統一したフレームワークに固定した,単純だが効果的な \textbf{M}ultimodal と \textbf{M}ultilingual semi-structured \textbf{FORM} \textbf{PARSER} (\textbf{XFormParser}) を導入する。
さらに, 各種産業文脈における多言語形式の解析要求に特化して, InDFormBench というグラウンドブレーキングベンチマークデータセットを開発した。
確立したマルチリンガルベンチマークとInDFormBenchの厳格なテストを通じて、XFormParserは、F1スコアの改善を最大1.79倍にすることで、言語固有の設定内でのREタスクにおける最先端(SOTA)モデルを上回る、非並列の有効性を実証した。
本フレームワークは,既存のSOTAベンチマークと比較して,多言語・ゼロショットの両文脈におけるタスク間の性能を著しく向上させる。
コードはhttps://github.com/zhbuaa0/layoutlmft.comで公開されている。
In the domain of document AI, semi-structured form parsing plays a crucial role. This task leverages techniques from key information extraction (KIE), dealing with inputs that range from plain text to intricate modal data comprising images and structural layouts. The advent of pre-trained multimodal models has driven the extraction of key information from form documents in different formats such as PDFs and images. Nonetheless, the endeavor of form parsing is still encumbered by notable challenges like subpar capabilities in multi-lingual parsing and diminished recall in contexts rich in text and visuals. In this work, we introduce a simple but effective \textbf{M}ultimodal and \textbf{M}ultilingual semi-structured \textbf{FORM} \textbf{PARSER} (\textbf{XFormParser}), which is anchored on a comprehensive pre-trained language model and innovatively amalgamates semantic entity recognition (SER) and relation extraction (RE) into a unified framework, enhanced by a novel staged warm-up training approach that employs soft labels to significantly refine form parsing accuracy without amplifying inference overhead. Furthermore, we have developed a groundbreaking benchmark dataset, named InDFormBench, catering specifically to the parsing requirements of multilingual forms in various industrial contexts. Through rigorous testing on established multilingual benchmarks and InDFormBench, XFormParser has demonstrated its unparalleled efficacy, notably surpassing the state-of-the-art (SOTA) models in RE tasks within language-specific setups by achieving an F1 score improvement of up to 1.79\%. Our framework exhibits exceptionally improved performance across tasks in both multi-language and zero-shot contexts when compared to existing SOTA benchmarks. The code is publicly available at https://github.com/zhbuaa0/layoutlmft. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# 大規模言語モデルを用いたコスト効率の高い知識ベース質問応答
Cost-efficient Knowledge-based Question Answering with Large Language Models ( http://arxiv.org/abs/2405.17337v1 ) ライセンス: Link先を確認 | Junnan Dong, Qinggang Zhang, Chuang Zhou, Hao Chen, Daochen Zha, Xiao Huang, | (参考訳) 知識に基づく質問応答(KBQA)は、ドメイン知識を必要とする多くのシナリオで広く使われている。
大規模言語モデル(LLM)はKBQAに機会をもたらすが、そのコストは著しく高く、事前トレーニング中にドメイン固有の知識が欠如している。
我々は,予測精度とコスト削減の両面から,知識グラフ(KGM)のLCMと,それ以前の小さなモデルを組み合わせることを動機としている。
しかし、精度とコストが2つの異なる指標として容易に最適化されるわけではないため、依然として困難である。
異なるモデルが多様な知識で優れているため、モデル選択にも精通している。
そこで本研究では,KBQA と LLM を併用した新たなコスト効率戦略である Coke を提案する。
まず, クラスタレベルのトンプソンサンプリングを用いて, KGM または LLM の精度予測を定式化する。
文脈対応ポリシーは、質問セマンティクスの対象となる専門家モデルをさらに区別するために最適化される。
全体的な決定は、失敗に対する歴史的支出によるコストの後悔によって制限される。
大規模な実験では、パレート・フロンティアを最大20.89%のGPT-4手数料で削減し、ベンチマークデータセットで2.74%高い精度を達成するコークの優れた性能を示している。
Knowledge-based question answering (KBQA) is widely used in many scenarios that necessitate domain knowledge. Large language models (LLMs) bring opportunities to KBQA, while their costs are significantly higher and absence of domain-specific knowledge during pre-training. We are motivated to combine LLMs and prior small models on knowledge graphs (KGMs) for both inferential accuracy and cost saving. However, it remains challenging since accuracy and cost are not readily combined in the optimization as two distinct metrics. It is also laborious for model selection since different models excel in diverse knowledge. To this end, we propose Coke, a novel cost-efficient strategy for KBQA with LLMs, modeled as a tailored multi-armed bandit problem to minimize calls to LLMs within limited budgets. We first formulate the accuracy expectation with a cluster-level Thompson Sampling for either KGMs or LLMs. A context-aware policy is optimized to further distinguish the expert model subject to the question semantics. The overall decision is bounded by the cost regret according to historical expenditure on failures. Extensive experiments showcase the superior performance of Coke, which moves the Pareto frontier with up to 20.89% saving of GPT-4 fees while achieving a 2.74% higher accuracy on the benchmark datasets. | 翻訳日:2024-05-28 14:33:59 公開日:2024-05-27 |
# 物理インフォームドリアルNVPによる衛星電力系統故障検出
Physics-Informed Real NVP for Satellite Power System Fault Detection ( http://arxiv.org/abs/2405.17339v1 ) ライセンス: Link先を確認 | Carlo Cena, Umberto Albertin, Mauro Martini, Silvia Bucci, Marcello Chiaberge, | (参考訳) 極端な条件と限られたアクセシビリティによって特徴づけられる、宇宙環境によって引き起こされる固有の課題は、衛星の故障を特定し予防するための堅牢で信頼性の高い技術の必要性を高めている。
宇宙セクターの故障検出方法は、ミッションの成功を確実にし、貴重な資産を保護するために必要である。
本稿では,人工知能(AI)に基づく故障検出手法を提案し,その性能をNASAが実験室で開発した電力システム(EPS)データセットであるADAPT(Advanced Diagnostics and Prognostics Testbed)で評価する。
本研究では,物理インフォームド(PI)実数値非体積保存(Real NVP)モデルを宇宙システムにおける故障検出に適用することに焦点を当てた。
この手法の有効性は、GRU(Gated Recurrent Unit)やAutoencoderベースの技術など、他のAIアプローチと体系的に比較される。
その結果,我々の物理インフォームド・アプローチは既存の故障検出方法よりも優れており,衛星ESSサブシステム障害の特異な課題に対処する上での適合性を示している。
さらに、我々は、宇宙探査や衛星ミッションに欠かせないロバスト性、信頼性、電力制約など、特定の宇宙ニーズに対応するために、物理学によるAIモデルの損失の競争上の優位性を明らかにした。
The unique challenges posed by the space environment, characterized by extreme conditions and limited accessibility, raise the need for robust and reliable techniques to identify and prevent satellite faults. Fault detection methods in the space sector are required to ensure mission success and to protect valuable assets. In this context, this paper proposes an Artificial Intelligence (AI) based fault detection methodology and evaluates its performance on ADAPT (Advanced Diagnostics and Prognostics Testbed), an Electrical Power System (EPS) dataset, crafted in laboratory by NASA. Our study focuses on the application of a physics-informed (PI) real-valued non-volume preserving (Real NVP) model for fault detection in space systems. The efficacy of this method is systematically compared against other AI approaches such as Gated Recurrent Unit (GRU) and Autoencoder-based techniques. Results show that our physics-informed approach outperforms existing methods of fault detection, demonstrating its suitability for addressing the unique challenges of satellite EPS sub-system faults. Furthermore, we unveil the competitive advantage of physics-informed loss in AI models to address specific space needs, namely robustness, reliability, and power constraints, crucial for space exploration and satellite missions. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# 大規模言語モデルにおける道徳的コンパスの探索と評価
Exploring and steering the moral compass of Large Language Models ( http://arxiv.org/abs/2405.17345v1 ) ライセンス: Link先を確認 | Alejandro Tlaie, | (参考訳) 大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となり、重要な倫理的疑問を提起している。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
いくつかの最先端のモデルを倫理的ジレンマの選択に適用し、プロプライエタリなものはすべて実用的であり、オープンウェイトのものはすべて、主に価値に基づく倫理と一致していることがわかった。
さらに、Moral Foundations Questionnaireを使用する場合、Llama 2を除いて調査したすべてのモデルは、強力なリベラルバイアスを示しました。
最後に、研究モデルの一つに因果的に介入するために、新しい類似性特異的なアクティベーションステアリング手法を提案する。
この手法により、モデルの倫理的コンパスを異なる倫理学派に確実に操ることができた。
これらの結果は、既に展開されているLCMには倫理的次元があることを示しており、概して見過ごされている。
Large Language Models (LLMs) have become central to advancing automation and decision-making across various sectors, raising significant ethical questions. This study proposes a comprehensive comparative analysis of the most advanced LLMs to assess their moral profiles. We subjected several state-of-the-art models to a selection of ethical dilemmas and found that all the proprietary ones are mostly utilitarian and all of the open-weights ones align mostly with values-based ethics. Furthermore, when using the Moral Foundations Questionnaire, all models we probed - except for Llama 2- displayed a strong liberal bias. Lastly, in order to causally intervene in one of the studied models, we propose a novel similarity-specific activation steering technique. Using this method, we were able to reliably steer the model's moral compass to different ethical schools. All of these results showcase that there is an ethical dimension in already deployed LLMs, an aspect that is generally overlooked. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# 人間のフィードバックによるプロンプト最適化
Prompt Optimization with Human Feedback ( http://arxiv.org/abs/2405.17346v1 ) ライセンス: Link先を確認 | Xiaoqiang Lin, Zhongxiang Dai, Arun Verma, See-Kiong Ng, Patrick Jaillet, Bryan Kian Hsiang Low, | (参考訳) 大規模言語モデル (LLM) は様々なタスクにおいて顕著な性能を示した。
しかし、LLMの性能は入力のプロンプトに大きく依存しており、このことが近年、プロンプト最適化に関する多くの研究を生み出している。
しかしながら、以前の作品では、各プロンプトの品質を評価するために、数値スコアの可用性が要求されることが多い。
残念なことに、人間がブラックボックスのLSMと対話する場合、そのようなスコアを得るのは不可能であり、信頼できないことが多い。
代わりに、通常、人間のユーザーから好みのフィードバックを得るのは非常に簡単で信頼性が高い、すなわち、ユーザの1対のプロンプトから生成された応答を示し、どちらが好まれるかをユーザに尋ねる。
そこで本研究では,人間の嗜好フィードバックのみを用いて,ブラックボックスLLMのプロンプトを最適化することを目的とした,人間のフィードバックによる迅速な最適化(POHF)の問題について検討する。
デュエルバンディットからインスピレーションを得て、各イテレーションで優先フィードバックをクエリする一対のプロンプトを選択する理論的に原理化された戦略を設計し、従って自動POHF(Automatic POHF)というアルゴリズムを導入する。
我々は,APOHFアルゴリズムをユーザ命令の最適化,テキストから画像への生成モデルの迅速な最適化,フィードバックによる応答最適化など,様々なタスクに適用する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
我々のコードは \url{https://github.com/xqlin98/APOHF} で参照できます。
Large language models (LLMs) have demonstrated remarkable performances in various tasks. However, the performance of LLMs heavily depends on the input prompt, which has given rise to a number of recent works on prompt optimization. However, previous works often require the availability of a numeric score to assess the quality of every prompt. Unfortunately, when a human user interacts with a black-box LLM, attaining such a score is often infeasible and unreliable. Instead, it is usually significantly easier and more reliable to obtain preference feedback from a human user, i.e., showing the user the responses generated from a pair of prompts and asking the user which one is preferred. Therefore, in this paper, we study the problem of prompt optimization with human feedback (POHF), in which we aim to optimize the prompt for a black-box LLM using only human preference feedback. Drawing inspiration from dueling bandits, we design a theoretically principled strategy to select a pair of prompts to query for preference feedback in every iteration, and hence introduce our algorithm named automated POHF (APOHF). We apply our APOHF algorithm to various tasks, including optimizing user instructions, prompt optimization for text-to-image generative models, and response optimization with human feedback (i.e., further refining the response using a variant of our APOHF). The results demonstrate that our APOHF can efficiently find a good prompt using a small number of preference feedback instances. Our code can be found at \url{https://github.com/xqlin98/APOHF}. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# 観測量子ドットの力学における近藤-世野交叉
Kondo-Zeno crossover in the dynamics of a monitored quantum dot ( http://arxiv.org/abs/2405.17348v1 ) ライセンス: Link先を確認 | Matthieu Vanhoecke, Marco Schirò, | (参考訳) 金属浴に結合した量子ドットの力学について検討し, 電荷密度の連続モニタリングを行った。
測定ノイズ上で平均化された力学は、局所マルコフのデプションを持つ散逸的アンダーソン不純物モデルにより記述され、ベクトル化されたヒルベルト空間における非閉近似の拡張を用いて解決する。
浴槽と監視プロトコルに突然結合した初期偏光スピンの崩壊時間スケールは, 相互作用によって制御された近藤スクリーニングから量子ゼノ効果へのクロスオーバーを示し, 脱落・監視速度が増大するにつれて, 脱落とともに減少する寿命を示す。
リンドブラディアン上のシュリーファー・ヴォルフ変換を用いて、複素数値スピン-スピン交換を持つ非エルミート・コンドモデルによって弱散逸時に記述される長時間力学の有効モデルが導出される。
ダブルロン生成による脱落反応の加熱が増加すると、スピン崩壊が制御される。
We study the dynamics of a quantum dot coupled to a metallic bath and subject to continuous monitoring of its charge density. The dynamics averaged over measurement noise is described by a dissipative Anderson impurity model with local Markovian dephasing, that we solve using an extension of the Non-Crossing Approximation in the vectorized Hilbert space. We show that the decay time scale of an initially polarised spin which is suddenly coupled to the bath and to the monitoring protocol displays a crossover from Kondo screening, with a lifetime controlled by interactions, to Quantum Zeno effect, with a lifetime which decreases with bare dissipation as the dephasing or monitoring rate is increased. Using a Schrieffer-Wolff transformation on the Lindbladian we derive an effective model for the long-time dynamics which is described at weak dissipation by a non-Hermitian Kondo model with complex-valued spin-spin exchange. As the dephasing is increased heating due to doublon production takes over and control the spin decay. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# DOF-GS:Refocusing,Defocus Rendering, Blurectomyのための調整可能な3次元ガウス切削法
DOF-GS: Adjustable Depth-of-Field 3D Gaussian Splatting for Refocusing,Defocus Rendering and Blur Removal ( http://arxiv.org/abs/2405.17351v1 ) ライセンス: Link先を確認 | Yujie Wang, Praneeth Chakravarthula, Baoquan Chen, | (参考訳) 3Dガウススプラッティング技術は近年,高品質なリアルタイムレンダリングを実現するため,3次元シーン再構成と新しいビュー合成が進歩している。
しかしながら、これらのアプローチは、画像のモデリングにおいて基礎となるピンホールカメラの仮定によって本質的に制限されており、したがって、All-in-Focus (AiF) のシャープな画像入力に対してのみ有効である。
これは、撮像素子の深度(DOF)が制限されているため、画像がしばしばデフォーカスのぼやけを示す現実世界のシナリオにおいて、それらの適用性に大きく影響する。
加えて、既存の3Dガウススティング(3DGS)法もDOF効果のレンダリングをサポートしていない。
これらの課題に対処するために、我々は、調整可能なDOF効果のレンダリング、デフォーカスブラーの除去、およびデフォーカスブラーの劣化したマルチビュー画像からの3Dシーンの再フォーカスを可能にするDOF-GSを導入する。
この目的のために、有限開口カメラモデルとCircle-of-Confusion (CoC) でガイドされた明示的で微分可能なデフォーカスレンダリングを併用することにより、従来のガウススティングパイプラインを再想像する。
提案フレームワークは、カメラモデルの開口と焦点距離をオンデマンドで変化させることにより、DOF効果を動的に調整する。
また、最適化後の3Dシーンの様々なDOF効果のレンダリングを可能にし、焦点を絞ったトレーニング画像からAiF画像を生成する。
さらに、レンダリングされた非焦点画像とAiF画像を協調的に最適化することにより、再構成されたシーンの細部をさらに強化する共同最適化戦略を考案した。
実験結果から, DOF-GSは, デフォーカスのぼかしによって妥協された入力に対して, 高速なオールインフォーカスレンダリングを実現し, トレーニングプロセスはGPUメモリの消費をわずかに増加させることが示唆された。
さらに,デフォーカスのぼかしにより劣化した入力画像から3Dシーンの調整可能なデフォーカスレンダリングと再フォーカスを行う手法の応用を実証する。
3D Gaussian Splatting-based techniques have recently advanced 3D scene reconstruction and novel view synthesis, achieving high-quality real-time rendering. However, these approaches are inherently limited by the underlying pinhole camera assumption in modeling the images and hence only work for All-in-Focus (AiF) sharp image inputs. This severely affects their applicability in real-world scenarios where images often exhibit defocus blur due to the limited depth-of-field (DOF) of imaging devices. Additionally, existing 3D Gaussian Splatting (3DGS) methods also do not support rendering of DOF effects. To address these challenges, we introduce DOF-GS that allows for rendering adjustable DOF effects, removing defocus blur as well as refocusing of 3D scenes, all from multi-view images degraded by defocus blur. To this end, we re-imagine the traditional Gaussian Splatting pipeline by employing a finite aperture camera model coupled with explicit, differentiable defocus rendering guided by the Circle-of-Confusion (CoC). The proposed framework provides for dynamic adjustment of DOF effects by changing the aperture and focal distance of the underlying camera model on-demand. It also enables rendering varying DOF effects of 3D scenes post-optimization, and generating AiF images from defocused training images. Furthermore, we devise a joint optimization strategy to further enhance details in the reconstructed scenes by jointly optimizing rendered defocused and AiF images. Our experimental results indicate that DOF-GS produces high-quality sharp all-in-focus renderings conditioned on inputs compromised by defocus blur, with the training process incurring only a modest increase in GPU memory consumption. We further demonstrate the applications of the proposed method for adjustable defocus rendering and refocusing of the 3D scene from input images degraded by defocus blur. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# アルツハイマー病予測における経時的データの重要性の評価
Assessing the significance of longitudinal data in Alzheimer's Disease forecasting ( http://arxiv.org/abs/2405.17352v1 ) ライセンス: Link先を確認 | Batuhan K. Karaman, Mert R. Sabuncu, | (参考訳) 本研究では,アルツハイマー病(AD)の進行を予測するための縦型患者データの重要性を特徴付けるために,トランスフォーマーエンコーダモデルを用いた。
アルツハイマー病の縦断的予測モデル(LongForMAD)は,多モーダルデータを含む患者訪問の順序に埋め込まれた総合的時間的情報を活用し,単一ビジットデータのみから得られる以上の病気進行の深い理解を提供する。
認知正常群 (CN) と軽度認知障害群 (MCI) の5年間にわたる経験的分析を行った。
以上の結果から,より拡張された患者履歴を取り入れたモデルでは,現在情報のみに依存しているモデルよりも優れており,今後のAD進行の予測精度を高める上で,より深い歴史的文脈が重要であることが示唆された。
本研究は,ADの早期検出とモニタリングを促進するため,臨床環境における経時的データの導入を支援する。
私たちのコードは \url{https://github.com/batuhankmkaraman/LongForMAD} で利用可能です。
In this study, we employ a transformer encoder model to characterize the significance of longitudinal patient data for forecasting the progression of Alzheimer's Disease (AD). Our model, Longitudinal Forecasting Model for Alzheimer's Disease (LongForMAD), harnesses the comprehensive temporal information embedded in sequences of patient visits that incorporate multimodal data, providing a deeper understanding of disease progression than can be drawn from single-visit data alone. We present an empirical analysis across two patient groups-Cognitively Normal (CN) and Mild Cognitive Impairment (MCI)-over a span of five follow-up years. Our findings reveal that models incorporating more extended patient histories can outperform those relying solely on present information, suggesting a deeper historical context is critical in enhancing predictive accuracy for future AD progression. Our results support the incorporation of longitudinal data in clinical settings to enhance the early detection and monitoring of AD. Our code is available at \url{https://github.com/batuhankmkaraman/LongForMAD}. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# 離散時間量子ウォークを用いた量子探索のための位相最適化
Optimizing topology for quantum probing with discrete-time quantum walks ( http://arxiv.org/abs/2405.17354v1 ) ライセンス: Link先を確認 | Simone Cavazzoni, Paolo Bordone, Matteo G. A. Paris, | (参考訳) 離散時間量子ウォーク(DTQW)は、この運動が特定の内部自由度の値によって条件付けられているとき、粒子の離散的な位置における運動を記述するための便利な数学的枠組みである。
そのため、また自由度に位置分布が本質的に依存していることから、DTQWは量子力学の有望な候補として自然に現れる。
本稿では,歩行者の内的自由度に利害のパラメータが符号化されるシナリオにおいて,DTQWを量子プローブとして用いることを検討するとともに,歩行者の空間のトポロジが到達可能な精度に与える影響について検討する。
特に、直線上の歩行器の回転によるパラメータの符号化を検討し始め、量子フィッシャー情報(QFI)と位置フィッシャー情報(FI)を評価し、全ての符号化方式でQFIを最大化する位置空間における最適初期状態を明示的に決定する。
これにより、位置空間における干渉の役割を理解し、最適位相を導入し、コインパラメータのQFIを最大化し、位置FIをQFIに等しくする。
Discrete-time quantum walk (DTQW) represents a convenient mathematical framework for describing the motion of a particle on a discrete set of positions when this motion is conditioned by the values of certain internal degrees of freedom, which are usually referred to as the {\em coin} of the particle. As such, and owing to the inherent dependence of the position distribution on the coin degrees of freedom, DTQWs naturally emerge as promising candidates for quantum metrology. In this paper, we explore the use of DTQWs as quantum probes in scenarios where the parameter of interest is encoded in the internal degree of freedom of the walker, and investigate the role of the topology of the walker's space on the attainable precision. In particular, we start considering the encoding of the parameter by rotations for a walker on the line, and evaluate the quantum Fisher information (QFI) and the position Fisher information (FI), explicitly determining the optimal initial state in position space that maximizes the QFI across all encoding schemes. This allows us to understand the role of interference in the position space and to introduce an optimal topology, which maximizes the QFI of the coin parameter and makes the position FI equal to the QFI. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# 可逆的なマジック状態操作のための物理実装可能性
Physical Implementability for Reversible Magic State Manipulation ( http://arxiv.org/abs/2405.17356v1 ) ライセンス: Link先を確認 | Yu-Ao Chen, Gilad Gour, Xin Wang, Lei Zhang, Chenghong Zhu, | (参考訳) マジック状態は普遍的な量子計算を達成するのに不可欠である。
本研究では、奇数次元におけるマジック状態の操作のための可逆的枠組みを導入し、状態のトレースと離散ウィグナー表現の肯定性を保持する写像の下で、マジック状態間の正確な変換に必要な、十分な条件を記述した。
確率的定式化を利用して、このような可逆的なマジック状態変換のユニークな尺度としてマジックマナが出現することを実証する。
可逆性を維持することの難しさとコストを特徴付ける物理実装性の概念を提案する。
この結果は, エンタングルメント理論と類似して, 正の制約を超えると, マジック操作の正確な可逆理論が実現し, 量子資源の可逆性と量子力学の基本原理との潜在的な矛盾が示唆されることを示している。
可逆的な操作のための物理的実装性は、量子リソースの理解と定量化の新しい視点を提供し、可逆的な量子リソース操作のコストを理解するための運用フレームワークに寄与する。
Magic states are essential for achieving universal quantum computation. This study introduces a reversible framework for the manipulation of magic states in odd dimensions, delineating a necessary and sufficient condition for the exact transformations between magic states under maps that preserve the trace of states and positivity of discrete Wigner representation. Utilizing the stochastic formalism, we demonstrate that magic mana emerges as the unique measure for such reversible magic state transformations. We propose the concept of physical implementability for characterizing the hardness and cost of maintaining reversibility. Our findings show that, analogous to the entanglement theory, going beyond the positivity constraint enables an exact reversible theory of magic manipulation, thereby hinting at a potential incongruity between the reversibility of quantum resources and the fundamental principles of quantum mechanics. Physical implementability for reversible manipulation provides a new perspective for understanding and quantifying quantum resources, contributing to an operational framework for understanding the cost of reversible quantum resource manipulation. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# DoRA:動的ランク分布を考慮したパラメータ効率の良いファインチューニング
DoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution ( http://arxiv.org/abs/2405.17357v1 ) ライセンス: Link先を確認 | Yulong Mao, Kaiyu Huang, Changhao Guan, Ganglin Bao, Fengran Mo, Jinan Xu, | (参考訳) 微調整された大規模な事前学習モデルは、本質的にリソース集約的なタスクである。
モデルの性能を高めることができるが、かなりの計算コストを発生させ、下流タスクの実践的な応用に挑戦する。
Low-Rank Adaptation (LoRA)のような既存のパラメータ効率の細かいチューニング(PEFT)手法は、ウェイト行列間の差分パラメータ予算要件を無視したバイパスフレームワークに依存しており、最適以下の微調整結果をもたらす可能性がある。
この問題に対処するために,動的低ランク適応法(DoRA)を導入する。
DoRAは、高いランクのLoRA層を構造化シングルランクのコンポーネントに分解し、トレーニング中の特定のタスクに重点を置いたパラメータ予算を動的に刈り取ることができる。
実験結果から,DoRAはLoRAやフルモデルファインチューニングと比較して競争性能が向上し,ストレージパラメータの予算が同じであれば,各種の強力なベースラインよりも優れることが示された。
私たちのコードはhttps://github.com/Yulongmao1/DoRA/で利用可能です。
Fine-tuning large-scale pre-trained models is inherently a resource-intensive task. While it can enhance the capabilities of the model, it also incurs substantial computational costs, posing challenges to the practical application of downstream tasks. Existing parameter-efficient fine-tuning (PEFT) methods such as Low-Rank Adaptation (LoRA) rely on a bypass framework that ignores the differential parameter budget requirements across weight matrices, which may lead to suboptimal fine-tuning outcomes. To address this issue, we introduce the Dynamic Low-Rank Adaptation (DoRA) method. DoRA decomposes high-rank LoRA layers into structured single-rank components, allowing for dynamic pruning of parameter budget based on their importance to specific tasks during training, which makes the most of the limited parameter budget. Experimental results demonstrate that DoRA can achieve competitive performance compared with LoRA and full model fine-tuning, and outperform various strong baselines with the same storage parameter budget. Our code is available at https://github.com/Yulongmao1/DoRA/ | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# POMDPの解法における変圧器の再考
Rethinking Transformers in Solving POMDPs ( http://arxiv.org/abs/2405.17358v1 ) ライセンス: Link先を確認 | Chenhao Lu, Ruizhe Shi, Yuyao Liu, Kaizhe Hu, Simon S. Du, Huazhe Xu, | (参考訳) 実世界のシナリオにおける強化学習(RL)のような連続的な意思決定アルゴリズムは、必然的に部分観測可能な環境に直面している。
本稿では、部分的に観測可能なマルコフ決定プロセス(POMDP)におけるトランスフォーマー(transformers)という一般的なアーキテクチャの有効性を精査し、その理論的限界を明らかにする。
我々はトランスフォーマーがモデル化に苦慮している正規言語がPOMDPに還元可能であることを確立する。
このことはトランスフォーマーがPOMDP固有の帰納バイアスを学習する上で大きな課題となる。
本稿では、RLのシーケンスモデルとしてのトランスフォーマーの一般的な信念に疑問を呈し、ポイントワイズ・リカレント構造を導入することを提案する。
Deep Linear Recurrent Unit (LRU) は、部分的に観測可能なRLの代替としてよく適しており、Transformerの準最適性能とLRUのかなりの強度を強調した実証的な結果である。
Sequential decision-making algorithms such as reinforcement learning (RL) in real-world scenarios inevitably face environments with partial observability. This paper scrutinizes the effectiveness of a popular architecture, namely Transformers, in Partially Observable Markov Decision Processes (POMDPs) and reveals its theoretical limitations. We establish that regular languages, which Transformers struggle to model, are reducible to POMDPs. This poses a significant challenge for Transformers in learning POMDP-specific inductive biases, due to their lack of inherent recurrence found in other models like RNNs. This paper casts doubt on the prevalent belief in Transformers as sequence models for RL and proposes to introduce a point-wise recurrent structure. The Deep Linear Recurrent Unit (LRU) emerges as a well-suited alternative for Partially Observable RL, with empirical results highlighting the sub-optimal performance of the Transformer and considerable strength of LRU. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# 1層デコーダオンリー変換器は2層RNNである:認証ロバストネスへの応用
A One-Layer Decoder-Only Transformer is a Two-Layer RNN: With an Application to Certified Robustness ( http://arxiv.org/abs/2405.17361v1 ) ライセンス: Link先を確認 | Yuhao Zhang, Aws Albarghouthi, Loris D'Antoni, | (参考訳) 本稿では,1層デコーダのみのトランスが2層リカレントニューラルネットワーク(RNN)と等価であることを示す。
この知見に基づいて,任意の摂動空間に対するデコーダのみの変換器の堅牢性を検証する新しい手法ARC-Tranを提案する。
ARC-Tranと比較して、現在の堅牢性検証技術は、単語置換のような特定のおよび保存される摂動、またはLSTMのような再帰的なモデルに限られている。
ARC-Tranは、ミスマッチを防ぐための位置エンコーディングを慎重に管理し、重要な洞察を活用して正確でスケーラブルな検証を行うことによって、これらの制限に対処する。
本評価の結果, ARC-Tran(1) は既存の手法よりも任意の摂動空間に頑健なモデルであり, (2) 結果の精度が高いことがわかった。
This paper reveals a key insight that a one-layer decoder-only Transformer is equivalent to a two-layer Recurrent Neural Network (RNN). Building on this insight, we propose ARC-Tran, a novel approach for verifying the robustness of decoder-only Transformers against arbitrary perturbation spaces. Compared to ARC-Tran, current robustness verification techniques are limited either to specific and length-preserving perturbations like word substitutions or to recursive models like LSTMs. ARC-Tran addresses these limitations by meticulously managing position encoding to prevent mismatches and by utilizing our key insight to achieve precise and scalable verification. Our evaluation shows that ARC-Tran (1) trains models more robust to arbitrary perturbation spaces than those produced by existing techniques and (2) shows high certification accuracy of the resulting models. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# 大気化学機構のための線形解法GPU実装におけるスレッドブロック配置の最適化
Optimized thread-block arrangement in a GPU implementation of a linear solver for atmospheric chemistry mechanisms ( http://arxiv.org/abs/2405.17363v1 ) ライセンス: Link先を確認 | Christian Guzman Ruiz, Mario Acosta, Oriol Jorba, Eduardo Cesar Galobardes, Matthew Dawson, Guillermo Oyarzun, Carlos Pérez García-Pando, Kim Serradell, | (参考訳) 地球系モデル(ESM)は、大気化学プロセスを解決するために重要なハードウェア資源とエネルギー消費を必要とする。
最近の研究では、GPUアクセラレータ上でこれらのモデルを実行することで、パフォーマンスが改善されている。
それにもかかわらず、より多くのGPUリソースを利用するための改善の余地はあります。
本研究は,Block-cellsと呼ばれるGPU上でのケミカルソルバの計算負荷の最適化分布を提案する。
さらに、NVIDIA GPUで計算負荷を分散するための異なる構成を評価する。
テストベッドとして,CAMP(Chemic Across Multiple Phases)フレームワークの線形解法を用いる。
典型的な大気条件下での中間複雑化学機構を用いる。
結果は、シングルCPUスレッド参照ケースと比較して35倍のスピードアップを示した。
参照ケースのノードの全リソース(40の物理コア)を使用しても、Block-cellsバージョンは50%パフォーマンスが向上する。
Block-cellsアプローチは、GPUアーキテクチャにおける化学解決器の計算負担を軽減することを約束している。
Earth system models (ESM) demand significant hardware resources and energy consumption to solve atmospheric chemistry processes. Recent studies have shown improved performance from running these models on GPU accelerators. Nonetheless, there is room for improvement in exploiting even more GPU resources. This study proposes an optimized distribution of the chemical solver's computational load on the GPU, named Block-cells. Additionally, we evaluate different configurations for distributing the computational load in an NVIDIA GPU. We use the linear solver from the Chemistry Across Multiple Phases (CAMP) framework as our test bed. An intermediate-complexity chemical mechanism under typical atmospheric conditions is used. Results demonstrate a 35x speedup compared to the single-CPU thread reference case. Even using the full resources of the node (40 physical cores) on the reference case, the Block-cells version outperforms them by 50%. The Block-cells approach shows promise in alleviating the computational burden of chemical solvers on GPU architectures. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# EM-GANSim:3次元屋内シーンのための条件付きGANを用いたリアルタイム・高精度EMシミュレーション
EM-GANSim: Real-time and Accurate EM Simulation Using Conditional GANs for 3D Indoor Scenes ( http://arxiv.org/abs/2405.17366v1 ) ライセンス: Link先を確認 | Ruichen Wang, Dinesh Manocha, | (参考訳) 本稿では,3次元屋内環境における無線通信シミュレーションに用いるリアルタイム電磁(EM)伝搬のための新しい機械学習手法(EM-GANSim)を提案する。
提案手法では,電磁伝搬理論に固執しながら,符号化幾何と送信機位置を組み込んだ条件付き生成共振器ネットワーク(GAN)を用いる。
全体的な物理的にインスパイアされた学習は、ヒートマップを用いて表現される3Dシーンの電力分布を予測することができる。
我々の全体的な精度は、平均2乗誤差値の低い値から証明されるように、レイトレーシングに基づくEMシミュレーションに匹敵する。
さらに,本手法は計算時間を劇的に削減し,複雑なベンチマークで5倍の高速化を実現している。
実際には、3D屋内環境のあらゆる場所で数ミリ秒で信号強度を計算することができる。
また,3次元モデルとEM線トレーシングシミュレーション熱マップの大規模なデータセットも提示する。
我々の知る限り、EM-GANSimは複雑な3次元屋内環境におけるEMシミュレーションのための最初のリアルタイムアルゴリズムである。
コードとデータセットをリリースする予定です。
We present a novel machine-learning (ML) approach (EM-GANSim) for real-time electromagnetic (EM) propagation that is used for wireless communication simulation in 3D indoor environments. Our approach uses a modified conditional Generative Adversarial Network (GAN) that incorporates encoded geometry and transmitter location while adhering to the electromagnetic propagation theory. The overall physically-inspired learning is able to predict the power distribution in 3D scenes, which is represented using heatmaps. Our overall accuracy is comparable to ray tracing-based EM simulation, as evidenced by lower mean squared error values. Furthermore, our GAN-based method drastically reduces the computation time, achieving a 5X speedup on complex benchmarks. In practice, it can compute the signal strength in a few milliseconds on any location in 3D indoor environments. We also present a large dataset of 3D models and EM ray tracing-simulated heatmaps. To the best of our knowledge, EM-GANSim is the first real-time algorithm for EM simulation in complex 3D indoor environments. We plan to release the code and the dataset. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# 人工膝関節とハンドヘルド式スマートフォンによる人工膝関節の再建
Fusing uncalibrated IMUs and handheld smartphone video to reconstruct knee kinematics ( http://arxiv.org/abs/2405.17368v1 ) ライセンス: Link先を確認 | J. D. Peiffer, Kunal Shah, Shawana Anarwala, Kayan Abdou, R. James Cotton, | (参考訳) ビデオとウェアラブルセンサーのデータは、人間の動きを補完する情報を提供する。
ビデオは世界の全身を総合的に理解し、ウェアラブルセンサーは特定の身体セグメントを高解像度で測定する。
これらのモダリティを融合し、生体力学的に正確なキネマティクスを得るための堅牢な方法として、臨床評価とモニタリングにかなりの有用性がある。
複数のビデオセンサー融合法が存在するが、ほとんどの場合、時間集約的で、しばしば脆く、センサー本体の校正プロセスがすでに行われていると仮定する。
そこで本研究では,ハンドヘルドスマートフォンの映像と非校正型ウェアラブルセンサデータを時間分解能で組み合わせる手法を提案する。
単眼でビデオのみのバイオメカニカルリコンストラクションは、マーカーレスモーションキャプチャに比べて、歩行中に膝に数度の誤差しかなく、すでにうまく機能しています。
ビデオとウェアラブルセンサーデータの融合による再構成により、このエラーはさらに減少する。
歩行障害のない人,下肢義肢使用者,脳卒中歴のある人を対象に,これを検証した。
また、センサデータによって視覚的閉塞の期間を追跡できることも示している。
Video and wearable sensor data provide complementary information about human movement. Video provides a holistic understanding of the entire body in the world while wearable sensors provide high-resolution measurements of specific body segments. A robust method to fuse these modalities and obtain biomechanically accurate kinematics would have substantial utility for clinical assessment and monitoring. While multiple video-sensor fusion methods exist, most assume that a time-intensive, and often brittle, sensor-body calibration process has already been performed. In this work, we present a method to combine handheld smartphone video and uncalibrated wearable sensor data at their full temporal resolution. Our monocular, video-only, biomechanical reconstruction already performs well, with only several degrees of error at the knee during walking compared to markerless motion capture. Reconstructing from a fusion of video and wearable sensor data further reduces this error. We validate this in a mixture of people with no gait impairments, lower limb prosthesis users, and individuals with a history of stroke. We also show that sensor data allows tracking through periods of visual occlusion. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# シーケンスパターン認識に基づく身体部位の関節角度予測
Predict joint angle of body parts based on sequence pattern recognition ( http://arxiv.org/abs/2405.17369v1 ) ライセンス: Link先を確認 | Amin Ahmadi Kasani, Hedieh Sajedi, | (参考訳) 職場での臓器の位置や移動は、痛みや身体的な損傷を引き起こす可能性がある。
そのため、エルゴノミストは職場の視覚的観察に基づく人間工学的リスクアセスメントを利用するか、職場で撮影された写真や動画をレビューする。
写真の労働者が完璧な状態になっていない場合もあります。
作業員の身体の一部は、カメラの視野にはないかもしれないし、物体によって隠蔽されるかもしれないし、自己隠蔽によって、これは人間の姿勢認識における主要な問題である。
画像に写っていないときの身体部位の位置を予測することは困難であり、幾何学的な数学的手法はこの目的に完全に適していない。
そこで我々は,3次元人間のモデル,特に痛みを伴う姿勢,および異なる視点からの実際の人間の写真に対する人工的な画像を用いたデータセットを作成した。
撮影した各画像は、3Dモデルまたは人間のモデルごとに予め定義された関節角度に基づいていた。
身体の一部が見えない画像など、さまざまな画像を作成しました。
いずれにせよ, 関節角度は事前に推定されるため, 入力画像を既定の身体部分間の関節接続のシーケンスに変換し, 畳み込みニューラルネットワークを用いて所望の関節角度を抽出することにより, 検討することができる。
その結果,12.89の根平均二乗誤差(RMSE)と4.7の絶対誤差(MAE)が得られた。
The way organs are positioned and moved in the workplace can cause pain and physical harm. Therefore, ergonomists use ergonomic risk assessments based on visual observation of the workplace, or review pictures and videos taken in the workplace. Sometimes the workers in the photos are not in perfect condition. Some parts of the workers' bodies may not be in the camera's field of view, could be obscured by objects, or by self-occlusion, this is the main problem in 2D human posture recognition. It is difficult to predict the position of body parts when they are not visible in the image, and geometric mathematical methods are not entirely suitable for this purpose. Therefore, we created a dataset with artificial images of a 3D human model, specifically for painful postures, and real human photos from different viewpoints. Each image we captured was based on a predefined joint angle for each 3D model or human model. We created various images, including images where some body parts are not visible. Nevertheless, the joint angle is estimated beforehand, so we could study the case by converting the input images into the sequence of joint connections between predefined body parts and extracting the desired joint angle with a convolutional neural network. In the end, we obtained root mean square error (RMSE) of 12.89 and mean absolute error (MAE) of 4.7 on the test dataset. | 翻訳日:2024-05-28 14:23:58 公開日:2024-05-27 |
# エルゴディック線形二次レギュレータのメタラーニングのためのモデル非依存ゼロ階ポリシー最適化
Model-Agnostic Zeroth-Order Policy Optimization for Meta-Learning of Ergodic Linear Quadratic Regulators ( http://arxiv.org/abs/2405.17370v1 ) ライセンス: Link先を確認 | Yunian Pan, Quanyan Zhu, | (参考訳) 近年、メタラーニングは、画像分類、ロボット工学、コンピュータゲーム、制御システムに重要な応用をもたらす、有望な機械学習トピックとして提案されている。
本稿では,エルゴディック線形二次規制器における不確実性と不均一性を扱うためにメタラーニングを用いることの問題点について検討する。
我々は、ゼロ階最適化手法を典型的なメタラーニング手法と統合し、不均一だが類似の線形力学系の集合を学習するタスクに適用するポリシーヘシアンの推定を省略するアルゴリズムを提案する。
誘導されたメタオブジェクト関数は、線形力学系の集合がメタ学習可能であるときに原コスト関数の重要な特性を継承し、学習可能な風景を学習可能な集合に投影することなく最適化することができる。
本稿では,メタオブジェクトの勾配の有界性と滑らかさを解析して,厳密な勾配降下過程に対する収束結果について述べる。
この視点を裏付ける数値的な例も提示する。
Meta-learning has been proposed as a promising machine learning topic in recent years, with important applications to image classification, robotics, computer games, and control systems. In this paper, we study the problem of using meta-learning to deal with uncertainty and heterogeneity in ergodic linear quadratic regulators. We integrate the zeroth-order optimization technique with a typical meta-learning method, proposing an algorithm that omits the estimation of policy Hessian, which applies to tasks of learning a set of heterogeneous but similar linear dynamic systems. The induced meta-objective function inherits important properties of the original cost function when the set of linear dynamic systems are meta-learnable, allowing the algorithm to optimize over a learnable landscape without projection onto the feasible set. We provide a convergence result for the exact gradient descent process by analyzing the boundedness and smoothness of the gradient for the meta-objective, which justify the proposed algorithm with gradient estimation error being small. We also provide a numerical example to corroborate this perspective. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# BehaviorGPT:次世代予測による自律運転のためのスマートエージェントシミュレーション
BehaviorGPT: Smart Agent Simulation for Autonomous Driving with Next-Patch Prediction ( http://arxiv.org/abs/2405.17372v1 ) ライセンス: Link先を確認 | Zikang Zhou, Haibo Hu, Xinhong Chen, Jianping Wang, Nan Guan, Kui Wu, Yung-Hui Li, Yu-Kai Huang, Chun Jason Xue, | (参考訳) 交通機関間の現実的な相互作用をシミュレーションすることは、自律運転システムの安全性を効果的に検証するために重要である。
既存の先導シミュレータは主にエンコーダ・デコーダ構造を使用して、将来のシミュレーションのために過去の軌道をエンコードする。
しかし、そのようなパラダイムはモデルアーキテクチャを複雑にし、歴史と将来の軌跡を手作業で分離することで、データ利用が低くなる。
これらの課題に対処するために、複数のエージェントのシーケンシャルな動きをシミュレートするデコーダのみの自己回帰型アーキテクチャであるBehaviorGPT(BehaviorGPT)を提案する。
重要なことに、我々のアプローチは従来の"歴史"と"未来"の分離を捨て、各ステップを"現在の"ステップとして扱います。
さらに,Next-Patch Prediction Paradigm (NP3)を導入し,トラジェクトリのパッチレベルをモデル化し,長距離空間・時間的相互作用を捉える。
BehaviorGPTはWaymo Sim Agents Benchmarkでいくつかの指標にランクインし、マルチエージェントとエージェントマップのインタラクションにおける例外的なパフォーマンスを示している。
現実性スコア0.741の最先端モデルより優れており、ミネード計量を1.540に改善し、約91.6%のモデルパラメータを削減した。
Simulating realistic interactions among traffic agents is crucial for efficiently validating the safety of autonomous driving systems. Existing leading simulators primarily use an encoder-decoder structure to encode the historical trajectories for future simulation. However, such a paradigm complicates the model architecture, and the manual separation of history and future trajectories leads to low data utilization. To address these challenges, we propose Behavior Generative Pre-trained Transformers (BehaviorGPT), a decoder-only, autoregressive architecture designed to simulate the sequential motion of multiple agents. Crucially, our approach discards the traditional separation between "history" and "future," treating each time step as the "current" one, resulting in a simpler, more parameter- and data-efficient design that scales seamlessly with data and computation. Additionally, we introduce the Next-Patch Prediction Paradigm (NP3), which enables models to reason at the patch level of trajectories and capture long-range spatial-temporal interactions. BehaviorGPT ranks first across several metrics on the Waymo Sim Agents Benchmark, demonstrating its exceptional performance in multi-agent and agent-map interactions. We outperformed state-of-the-art models with a realism score of 0.741 and improved the minADE metric to 1.540, with an approximately 91.6% reduction in model parameters. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# 安全景観のナビゲーション:大規模言語モデルの微調整におけるリスクの測定
Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models ( http://arxiv.org/abs/2405.17374v1 ) ライセンス: Link先を確認 | ShengYun Peng, Pin-Yu Chen, Matthew Hull, Duen Horng Chau, | (参考訳) 安全アライメントは、人間の嗜好に沿う大きな言語モデル(LLM)の行動を導く鍵であり、推論時に有害な行動を制限している。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
一般のオープンソース LLM のモデルパラメータ空間において,ランダムな摂動モデル重み付けは,その近傍で元のアライメントモデルの安全性を保ちながら,"安全盆地" と呼ばれる新しい現象が普遍的に観測されている。
我々の発見は,LLMファインタニングの安全性を安全景観を探索することで測定する新しいVISAGE安全指標を提案するきっかけとなった。
整列モデルの安全性の景観を可視化することで,モデルからモデルを引き離すことによって,微調整がいかに安全性を損なうかを理解することができる。
LLMの安全性の展望はまた、モデルを保護する上でシステムプロンプトが重要な役割を担い、そのような保護が安全盆地内の摂動する変種に伝達されることを強調している。
安全景観研究から得られたこれらの観察は、LLM安全コミュニティにおける今後の研究に新たな洞察を与えてくれる。
Safety alignment is the key to guiding the behaviors of large language models (LLMs) that are in line with human preferences and restrict harmful behaviors at inference time, but recent studies show that it can be easily compromised by finetuning with only a few adversarially designed training examples. We aim to measure the risks in finetuning LLMs through navigating the LLM safety landscape. We discover a new phenomenon observed universally in the model parameter space of popular open-source LLMs, termed as "safety basin": randomly perturbing model weights maintains the safety level of the original aligned model in its local neighborhood. Our discovery inspires us to propose the new VISAGE safety metric that measures the safety in LLM finetuning by probing its safety landscape. Visualizing the safety landscape of the aligned model enables us to understand how finetuning compromises safety by dragging the model away from the safety basin. LLM safety landscape also highlights the system prompt's critical role in protecting a model, and that such protection transfers to its perturbed variants within the safety basin. These observations from our safety landscape research provide new insights for future work on LLM safety community. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# 不均質クライアントにおける音声認識のための早期実行アーキテクチャを用いた動的モデルのフェデレーション
Federating Dynamic Models using Early-Exit Architectures for Automatic Speech Recognition on Heterogeneous Clients ( http://arxiv.org/abs/2405.17376v1 ) ライセンス: Link先を確認 | Mohamed Nabih Ali, Alessio Brutti, Daniele Falavigna, | (参考訳) 自動音声認識モデルは、訓練のために大量の音声記録を必要とする。
しかし、このようなデータの収集はしばしば面倒で、プライバシー上の懸念につながります。
フェデレートラーニングは、データを異なるクライアントにローカルに保ちながら、共有予測モデルを協調的に学習する効果的な分散化手法として広く利用されている。
残念なことに、クライアントデバイスは計算量や通信資源が限られており、大規模なモデルでは現実的な困難が伴う。
さらに、エッジデバイスを特徴付ける不均一性は、それらすべてに適合する単一のモデルを生成するのに、サブ最適である。
異なるアーキテクチャを持つ複数のモデルを用いた最近の文献とは違って、本研究では、早期解を用いた動的アーキテクチャを用いて、入力および操作条件に応じて処理(すなわち、トラバース層)を適応させることができることを提案する。
このソリューションは、部分的なトレーニングメソッドの領域に該当し、2つのメリットをもたらします。
公開データセットを用いた実験により,提案手法は有効であり,基礎的統合学習戦略と組み合わせることができることがわかった。
Automatic speech recognition models require large amounts of speech recordings for training. However, the collection of such data often is cumbersome and leads to privacy concerns. Federated learning has been widely used as an effective decentralized technique that collaboratively learns a shared prediction model while keeping the data local on different clients. Unfortunately, client devices often feature limited computation and communication resources leading to practical difficulties for large models. In addition, the heterogeneity that characterizes edge devices makes it sub-optimal to generate a single model that fits all of them. Differently from the recent literature, where multiple models with different architectures are used, in this work, we propose using dynamical architectures which, employing early-exit solutions, can adapt their processing (i.e. traversed layers) depending on the input and on the operation conditions. This solution falls in the realm of partial training methods and brings two benefits: a single model is used on a variety of devices; federating the models after local training is straightforward. Experiments on public datasets show that our proposed approach is effective and can be combined with basic federated learning strategies. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# 表現学習の完全性はどのように影響するか : ディープニューラルネットワークにおける表現のトレーニングダイナミクスについて
How Does Perfect Fitting Affect Representation Learning? On the Training Dynamics of Representations in Deep Neural Networks ( http://arxiv.org/abs/2405.17377v1 ) ライセンス: Link先を確認 | Yuval Sharon, Yehuda Dar, | (参考訳) 本稿では,深層ニューラルネットワーク(DNN)における表現が学習中にどのように進化するかを明らかにする。
トレーニングされたDNNがトレーニングデータに完全に適合し始めると、トレーニングがずっと継続する、過度にパラメータ化された学習設定に重点を置いています。
本研究は,学習過程全体に沿った学習表現の進化について考察する。
トレーニングプロセスを通じて,DNNレイヤの表現的類似性,各レイヤの表現性について検討する。
そこで我々は,(1)中心核アライメント(CKA)の類似性,(2)DNN層でトレーニングする線形分類器プローブの決定領域の類似性,という2つの類似性指標を用いた。
我々の広範な実験により、相対層深度、DNN幅、アーキテクチャに依存する層に現れるトレーニングダイナミックスパターンが発見された。
深層層での表現は、エポックな2重降下が起こると、より深く進化することを示す。
Vision Transformerでは、完全整合しきい値がすべてのエンコーダブロックにおける表現の進化の遷移をもたらすことを示す。
In this paper, we elucidate how representations in deep neural networks (DNNs) evolve during training. We focus on overparameterized learning settings where the training continues much after the trained DNN starts to perfectly fit its training data. We examine the evolution of learned representations along the entire training process, including its perfect fitting regime, and with respect to the epoch-wise double descent phenomenon. We explore the representational similarity of DNN layers, each layer with respect to its own representations throughout the training process. For this, we use two similarity metrics: (1) The centered kernel alignment (CKA) similarity; (2) Similarity of decision regions of linear classifier probes that we train for the DNN layers. Our extensive experiments discover training dynamics patterns that can emerge in layers depending on the relative layer-depth, DNN width, and architecture. We show that representations at the deeper layers evolve much more in the training when an epoch-wise double descent occurs. For Vision Transformer, we show that the perfect fitting threshold creates a transition in the evolution of representations across all the encoder blocks. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# RTL-Repo:大規模RTL設計プロジェクトにおけるLCMの評価ベンチマーク
RTL-Repo: A Benchmark for Evaluating LLMs on Large-Scale RTL Design Projects ( http://arxiv.org/abs/2405.17378v1 ) ライセンス: Link先を確認 | Ahmed Allam, Mohamed Shalan, | (参考訳) 大きな言語モデル (LLM) はレジスタ転送レベル (RTL) の設計タスクを支援する可能性を実証している。
それでも、実際のRTLプロジェクトの複雑さを正確に反映したベンチマークには、大きなギャップがある。
そこで本稿では,大規模RTL設計プロジェクトにおけるLCMの評価を目的としたベンチマークであるRTL-Repoを提案する。
RTL-Repoには、パブリックGitHubリポジトリから抽出された4000以上のVerilogコードサンプルの包括的なデータセットが含まれており、各サンプルは対応するリポジトリの完全なコンテキストを提供する。
GPT-4, GPT-3.5, Starcoder2, VeriGen や RTLCoder といったVerilog 固有のモデルと合わせて, RTL-Repo ベンチマークの最先端モデルを評価し, 複雑なプロジェクトに対して Verilog コードを生成する際の性能を比較した。
RTL-Repoベンチマークは、ハードウェア設計コミュニティにとって、実世界のRTL設計シナリオにおけるLLMのパフォーマンスを評価し比較し、複雑なマルチファイルRTLプロジェクトにおけるVerilogコード生成に特化したLLMをトレーニングするための貴重なリソースを提供する。
RTL-RepoはオープンソースでGithubで公開されている。
Large Language Models (LLMs) have demonstrated potential in assisting with Register Transfer Level (RTL) design tasks. Nevertheless, there remains to be a significant gap in benchmarks that accurately reflect the complexity of real-world RTL projects. To address this, this paper presents RTL-Repo, a benchmark specifically designed to evaluate LLMs on large-scale RTL design projects. RTL-Repo includes a comprehensive dataset of more than 4000 Verilog code samples extracted from public GitHub repositories, with each sample providing the full context of the corresponding repository. We evaluate several state-of-the-art models on the RTL-Repo benchmark, including GPT-4, GPT-3.5, Starcoder2, alongside Verilog-specific models like VeriGen and RTLCoder, and compare their performance in generating Verilog code for complex projects. The RTL-Repo benchmark provides a valuable resource for the hardware design community to assess and compare LLMs' performance in real-world RTL design scenarios and train LLMs specifically for Verilog code generation in complex, multi-file RTL projects. RTL-Repo is open-source and publicly available on Github. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# 2次元位相の分類:基底状態を文字列ネットにマッピングする
Classifying 2D topological phases: mapping ground states to string-nets ( http://arxiv.org/abs/2405.17379v1 ) ライセンス: Link先を確認 | Isaac H. Kim, Daniel Ranard, | (参考訳) ギャップ可能な境界を持つ2つの空間次元における位相位相の予想的分類を簡易な設定で証明する。
格子ハミルトニアンの2つのギャップ状の基底状態は、一定の深さの量子回路で接続できる場合、物質の同じ量子相(位相相)にある。
レヴィン=ウェンの弦-ネットモデルは、ギャップ可能な境界を持つすべての可能なギャップ付き位相を消し去ると推測され、これらの位相はユニタリモジュラーテンソル圏によってラベル付けされる。
このことは、各位相が、絡み合いブートストラップ公理を満たす相関長ゼロの代表状態、あるいは厳密な領域法則を持つという仮定のもとに証明する。
我々の技術開発は、これらの状態を定数深さ量子回路を用いて文字列ネット状態に変換することである。
We prove the conjectured classification of topological phases in two spatial dimensions with gappable boundary, in a simplified setting. Two gapped ground states of lattice Hamiltonians are in the same quantum phase of matter, or topological phase, if they can be connected by a constant-depth quantum circuit. It is conjectured that the Levin-Wen string-net models exhaust all possible gapped phases with gappable boundary, and these phases are labeled by unitary modular tensor categories. We prove this under the assumption that every phase has a representative state with zero correlation length satisfying the entanglement bootstrap axioms, or a strict form of area law. Our main technical development is to transform these states into string-net states using constant-depth quantum circuits. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# 様々な長さ、一定速度:雷の注意を伴う効率的な言語モデリング
Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention ( http://arxiv.org/abs/2405.17381v1 ) ライセンス: Link先を確認 | Zhen Qin, Weigao Sun, Dong Li, Xuyang Shen, Weixuan Sun, Yiran Zhong, | (参考訳) 固定メモリ使用時の各種シーケンス長のトレーニング速度を一定に維持する最初の線形アテンション実装であるLightning Attentionを提案する。
累積和演算 (cumsum) の問題により, 従来の線形アテンション実装では, カジュアルな設定では理論的優位性は得られない。
しかし、この問題は、異なる注意計算戦略を利用して、異なる注意部分を計算することで効果的に解決できる。
具体的には、アテンション計算をブロック内とブロック間に分割し、従来のアテンション計算をブロック内とブロック間を線形アテンションカーネルのトリックに使用した。
これにより、線形注意計算における累積の必要がなくなる。
さらに、GPUハードウェアを最大限に活用するために、前方と後方の両方の手順を通じてタイリング技術が採用されている。
有効性を保ちながら精度を高めるために,我々の雷の注意に合わせた新しいアーキテクチャであるTransNormerLLM(TNL)を導入する。
モデルのサイズやシーケンス長の異なる標準および自己コンパイルされたデータセットに対して厳密なテストを行う。
TNLは他の言語モデルよりも特に効率的である。
さらに,TNLは従来の変圧器構造を用いて,最先端のLLMと同等に動作することを示す。
ソースコードはgithub.com/OpenNLPLab/TransnormerLLMで公開されている。
We present Lightning Attention, the first linear attention implementation that maintains a constant training speed for various sequence lengths under fixed memory consumption. Due to the issue with cumulative summation operations (cumsum), previous linear attention implementations cannot achieve their theoretical advantage in a casual setting. However, this issue can be effectively solved by utilizing different attention calculation strategies to compute the different parts of attention. Specifically, we split the attention calculation into intra-blocks and inter-blocks and use conventional attention computation for intra-blocks and linear attention kernel tricks for inter-blocks. This eliminates the need for cumsum in the linear attention calculation. Furthermore, a tiling technique is adopted through both forward and backward procedures to take full advantage of the GPU hardware. To enhance accuracy while preserving efficacy, we introduce TransNormerLLM (TNL), a new architecture that is tailored to our lightning attention. We conduct rigorous testing on standard and self-collected datasets with varying model sizes and sequence lengths. TNL is notably more efficient than other language models. In addition, benchmark results indicate that TNL performs on par with state-of-the-art LLMs utilizing conventional transformer structures. The source code is released at github.com/OpenNLPLab/TransnormerLLM. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# ReMoDetect:LLMの世代を認識したリワードモデル
ReMoDetect: Reward Models Recognize Aligned LLM's Generations ( http://arxiv.org/abs/2405.17382v1 ) ライセンス: Link先を確認 | Hyunseok Lee, Jihoon Tack, Jinwoo Shin, | (参考訳) 大規模言語モデル(LLM)の顕著な機能とアクセシビリティは、社会的リスク(例えば偽ニュース生成)を大幅に増加させ、安全な使用のためにLLM生成テキスト(LGT)検出方法の開発を必要としている。
しかし,LGTの検出はLLMの多さから困難であり,各LLMを個別に考慮するのは現実的ではないため,これらのモデルで共有される共通特性を特定することが重要である。
本稿では,近年の強力なLDM,すなわちアライメントトレーニング,すなわち人間の好むテキストを生成するためのLDMのトレーニングに注目する。
我々の重要な発見は、これらの整列 LLM が人間の嗜好を最大化するように訓練されているため、人文テキストよりも高い推定選好のテキストを生成するため、報酬モデル(すなわち、人間の嗜好分布をモデル化するために訓練された LLM )を使用することで、そのようなテキストを容易に検出できるということである。
この発見に基づいて、報酬モデルの検出能力をさらに向上させる2つのトレーニングスキーム、すなわち、報酬モデルを提案する。
(i)報酬モデルにLGTの配向をさらに優先させる連続的な選好微調整
(II)LGTと人文テキストの中間選好テキストコーパスとして機能する人/LLM混合テキスト(協調LLMを用いた人文テキストからの言い換えテキスト)の報酬モデリングにより、意思決定境界をよりよく学習する。
提案手法では,12個のLCMにまたがる6つのテキスト領域について検討し,その評価方法について述べる。
コードはhttps://github.com/hyunseoklee-ai/reward_llm_detect.comで公開されている。
The remarkable capabilities and easy accessibility of large language models (LLMs) have significantly increased societal risks (e.g., fake news generation), necessitating the development of LLM-generated text (LGT) detection methods for safe usage. However, detecting LGTs is challenging due to the vast number of LLMs, making it impractical to account for each LLM individually; hence, it is crucial to identify the common characteristics shared by these models. In this paper, we draw attention to a common feature of recent powerful LLMs, namely the alignment training, i.e., training LLMs to generate human-preferable texts. Our key finding is that as these aligned LLMs are trained to maximize the human preferences, they generate texts with higher estimated preferences even than human-written texts; thus, such texts are easily detected by using the reward model (i.e., an LLM trained to model human preference distribution). Based on this finding, we propose two training schemes to further improve the detection ability of the reward model, namely (i) continual preference fine-tuning to make the reward model prefer aligned LGTs even further and (ii) reward modeling of Human/LLM mixed texts (a rephrased texts from human-written texts using aligned LLMs), which serves as a median preference text corpus between LGTs and human-written texts to learn the decision boundary better. We provide an extensive evaluation by considering six text domains across twelve aligned LLMs, where our method demonstrates state-of-the-art results. Code is available at https://github.com/hyunseoklee-ai/reward_llm_detect. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# 統一的な視点から線形複素数列モデルの秘密を解き明かす
Unlocking the Secrets of Linear Complexity Sequence Model from A Unified Perspective ( http://arxiv.org/abs/2405.17383v1 ) ライセンス: Link先を確認 | Zhen Qin, Xuyang Shen, Weigao Sun, Dong Li, Stan Birchfield, Richard Hartley, Yiran Zhong, | (参考訳) 本稿では,線形注意,状態空間モデル,長畳み込み,線形RNNなど,様々なシーケンスモデリング手法と線形複雑度を結合した総合的ソリューションLCSMを提案する。
目的は、結合的で合理化された視点から各コンポーネントの影響を分析することで、これらのモデルの理解を深めることである。
具体的には、これらのモデルのモデリングプロセスを、拡張、オシレーション、およびShrink(EOS)の3つの異なるステージに区分し、それぞれ独自の設定を持つ。
拡張ステージでは、入力信号を高次元のメモリ状態に投影する。
その後、Oscillationステージのメモリ状態で再帰操作が行われる。
最後に、記憶状態をShrinkステージ内の低次元空間に投影する。
我々は、言語モデリングと検索タスクにおける異なるステージ設定の影響を分析するための総合的な実験を行う。
この結果から,データ駆動手法は言語モデリングの3段階の有効性に欠かせないが,手作り手法では検索タスクの性能が向上することが示唆された。
We present the Linear Complexity Sequence Model (LCSM), a comprehensive solution that unites various sequence modeling techniques with linear complexity, including linear attention, state space model, long convolution, and linear RNN, within a single framework. The goal is to enhance comprehension of these models by analyzing the impact of each component from a cohesive and streamlined viewpoint. Specifically, we segment the modeling processes of these models into three distinct stages: Expand, Oscillation, and Shrink (EOS), with each model having its own specific settings. The Expand stage involves projecting the input signal onto a high-dimensional memory state. This is followed by recursive operations performed on the memory state in the Oscillation stage. Finally, the memory state is projected back to a low-dimensional space in the Shrink stage. We perform comprehensive experiments to analyze the impact of different stage settings on language modeling and retrieval tasks. Our results show that data-driven methods are crucial for the effectiveness of the three stages in language modeling, whereas hand-crafted methods yield better performance in retrieval tasks. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# アナログデジタル量子シミュレータの熱化と臨界
Thermalization and Criticality on an Analog-Digital Quantum Simulator ( http://arxiv.org/abs/2405.17385v1 ) ライセンス: Link先を確認 | Trond I. Andersen, Nikita Astrakhantsev, Amir Karamlou, Julia Berndtsson, Johannes Motruk, Aaron Szasz, Jonathan A. Gross, Tom Westerhout, Yaxing Zhang, Ebrahim Forati, Dario Rossi, Bryce Kobrin, Agustin Di Paolo, Andrey R. Klots, Ilya Drozdov, Vladislav D. Kurilovich, Andre Petukhov, Lev B. Ioffe, Andreas Elben, Aniket Rath, Vittorio Vitale, Benoit Vermersch, Rajeev Acharya, Laleh Aghababaie Beni, Kyle Anderson, Markus Ansmann, Frank Arute, Kunal Arya, Abraham Asfaw, Juan Atalaya, Brian Ballard, Joseph C. Bardin, Andreas Bengtsson, Alexander Bilmes, Gina Bortoli, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Michael Broughton, David A. Browne, Brett Buchea, Bob B. Buckley, David A. Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Anthony Cabrera, Juan Campero, Hung-Shen Chang, Zijun Chen, Ben Chiaro, Jahan Claes, Agnetta Y. Cleland, Josh Cogan, Roberto Collins, Paul Conner, William Courtney, Alexander L. Crook, Sayan Das, Dripto M. Debroy, Laura De Lorenzo, Alexander Del Toro Barba, Sean Demura, Michel Devoret, Paul Donohoe, Andrew Dunsworth, Clint Earle, Alec Eickbusch, Aviv Moshe Elbag, Mahmoud Elzouka, Catherine Erickson, Lara Faoro, Reza Fatemi, Vinicius S. Ferreira, Leslie Flores Burgos, Austin G. Fowler, Brooks Foxen, Suhas Ganjam, Robert Gasca, William Giang, Craig Gidney, Dar Gilboa, Marissa Giustina, Raja Gosula, Alejandro Grajales Dau, Dietrich Graumann, Alex Greene, Steve Habegger, Michael C. Hamilton, Monica Hansen, Matthew P. Harrigan, Sean D. Harrington, Stephen Heslin, Paula Heu, Gordon Hill, Markus R. Hoffmann, Hsin-Yuan Huang, Trent Huang, Ashley Huff, William J. Huggins, Sergei V. Isakov, Evan Jeffrey, Zhang Jiang, Cody Jones, Stephen Jordan, Chaitali Joshi, Pavol Juhas, Dvir Kafri, Hui Kang, Kostyantyn Kechedzhi, Trupti Khaire, Tanuj Khattar, Mostafa Khezri, Mária Kieferová, Seon Kim, Alexei Kitaev, Paul V. Klimov, Alexander N. Korotkov, Fedor Kostritsa, John Mark Kreikebaum, David Landhuis, Brandon W. Langley, Pavel Laptev, Kim-Ming Lau, Loïck Le Guevel, Justin Ledford, Joonho Lee, Kenny Lee, Yuri D. Lensky, Brian J. Lester, Wing Yan Li, Alexander T. Lill, Wayne Liu, William P. Livingston, Aditya Locharla, Daniel Lundahl, Aaron Lunt, Sid Madhuk, Ashley Maloney, Salvatore Mandrà, Leigh S. Martin, Orion Martin, Steven Martin, Cameron Maxfield, Jarrod R. McClean, Matt McEwen, Seneca Meeks, Kevin C. Miao, Amanda Mieszala, Sebastian Molina, Shirin Montazeri, Alexis Morvan, Ramis Movassagh, Charles Neill, Ani Nersisyan, Michael Newman, Anthony Nguyen, Murray Nguyen, Chia-Hung Ni, Murphy Yuezhen Niu, William D. Oliver, Kristoffer Ottosson, Alex Pizzuto, Rebecca Potter, Orion Pritchard, Leonid P. Pryadko, Chris Quintana, Matthew J. Reagor, David M. Rhodes, Gabrielle Roberts, Charles Rocque, Eliott Rosenberg, Nicholas C. Rubin, Negar Saei, Kannan Sankaragomathi, Kevin J. Satzinger, Henry F. Schurkus, Christopher Schuster, Michael J. Shearn, Aaron Shorter, Noah Shutty, Vladimir Shvarts, Volodymyr Sivak, Jindra Skruzny, Spencer Small, W. Clarke Smith, Sofia Springer, George Sterling, Jordan Suchard, Marco Szalay, Alex Sztein, Douglas Thor, Alfredo Torres, M. Mert Torunbalci, Abeer Vaishnav, Sergey Vdovichev, Benjamin Villalonga, Catherine Vollgraff Heidweiller, Steven Waltman, Shannon X. Wang, Theodore White, Kristi Wong, Bryan W. Woo, Cheng Xing, Z. Jamie Yao, Ping Yeh, Bicheng Ying, Juhwan Yoo, Noureldin Yosri, Grayson Young, Adam Zalcman, Ningfeng Zhu, Nicholas Zobrist, Hartmut Neven, Ryan Babbush, Sergio Boixo, Jeremy Hilton, Erik Lucero, Anthony Megrant, Julian Kelly, Yu Chen, Vadim Smelyanskiy, Guifre Vidal, Pedram Roushan, Andreas M. Lauchli, Dmitry A. Abanin, Xiao Mi, | (参考訳) 相互作用粒子が熱平衡にどのように近づくかを理解することは、量子シミュレーターの大きな課題である。
このようなシステムの完全なポテンシャルをこの目標に向けて解き放つには、柔軟な初期状態の準備、正確な時間進化、そして最終状態のキャラクタリゼーションのための広範なプローブが必要である。
本稿では,69個の超伝導量子ビットからなる量子シミュレータについて述べる。
二次元(2次元)XY量子マグネットをエミュレートし,反強磁性初期状態からのランプ後の量子状態の研究に幅広い計測技術を利用する。
古典的Kosterlitz-Thouless相転移のシグネチャと、相関領域の量子的粗さと古典的粗さの相互作用に起因するKibble-Zurekスケーリング予測からの強い偏差を観察する。
この解釈は、可変エネルギー密度を初期状態に注入することで、固有状態熱化仮説(ETH)の効果を研究することができる。
最後に, 対角二量体状態でデジタル的にシステムを作成し, 熱化時のエネルギーと渦の輸送を画像化する。
これらの結果は、超伝導アナログデジタル量子プロセッサの多体スペクトルにおける状態の生成と熱化ダイナミクスの顕在化に対する有効性を確立した。
Understanding how interacting particles approach thermal equilibrium is a major challenge of quantum simulators. Unlocking the full potential of such systems toward this goal requires flexible initial state preparation, precise time evolution, and extensive probes for final state characterization. We present a quantum simulator comprising 69 superconducting qubits which supports both universal quantum gates and high-fidelity analog evolution, with performance beyond the reach of classical simulation in cross-entropy benchmarking experiments. Emulating a two-dimensional (2D) XY quantum magnet, we leverage a wide range of measurement techniques to study quantum states after ramps from an antiferromagnetic initial state. We observe signatures of the classical Kosterlitz-Thouless phase transition, as well as strong deviations from Kibble-Zurek scaling predictions attributed to the interplay between quantum and classical coarsening of the correlated domains. This interpretation is corroborated by injecting variable energy density into the initial state, which enables studying the effects of the eigenstate thermalization hypothesis (ETH) in targeted parts of the eigenspectrum. Finally, we digitally prepare the system in pairwise-entangled dimer states and image the transport of energy and vorticity during thermalization. These results establish the efficacy of superconducting analog-digital quantum processors for preparing states across many-body spectra and unveiling their thermalization dynamics. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# MindMerger: 英語以外の言語でのLLM推論の効率化
MindMerger: Efficient Boosting LLM Reasoning in non-English Languages ( http://arxiv.org/abs/2405.17386v1 ) ライセンス: Link先を確認 | Zixian Huang, Wenhao Zhu, Gong Cheng, Lei Li, Fei Yuan, | (参考訳) 推論機能は、Large Language Models (LLM) にとって重要であるが、英語と非英語の間には顕著なギャップがある。
この格差を埋めるために、英語以外の言語で推論能力を取り戻すために微調整のLLMを動作させるものや、英語の翻訳テキストのような外部モデルの出力に非英語の入力を置き換えて、非英語を理解することの難しさを回避するものなどがある。
残念なことに、これらの手法は、LLMの高度な推論と有用な言語理解能力の組み込まれていないことが多い。
LLMにおける推論と言語理解の考え方をよりよく活用するために,多言語モデルからの外部言語理解能力とLLMを融合して多言語推論性能を向上させるMindMergerを提案する。
さらに,LLMに外部機能を組み込むための2段階の訓練手法を導入し,LLMの外部能力と内蔵能力の協調的活用を訓練する。
3つの多言語推論データセットと言語理解データセットの実験は、MindMergerが、特に低リソース言語において、すべてのベースラインを一貫して上回っていることを示している。
LLMのパラメータを更新せずに、MGSMデータセット上のすべての言語と低リソース言語で平均精度が6.7%と8.0%向上した。
Reasoning capabilities are crucial for Large Language Models (LLMs), yet a notable gap exists between English and non-English languages. To bridge this disparity, some works fine-tune LLMs to relearn reasoning capabilities in non-English languages, while others replace non-English inputs with an external model's outputs such as English translation text to circumvent the challenge of LLM understanding non-English. Unfortunately, these methods often underutilize the built-in skilled reasoning and useful language understanding capabilities of LLMs. In order to better utilize the minds of reasoning and language understanding in LLMs, we propose a new method, namely MindMerger, which merges LLMs with the external language understanding capabilities from multilingual models to boost the multilingual reasoning performance. Furthermore, a two-step training scheme is introduced to first train to embeded the external capabilities into LLMs and then train the collaborative utilization of the external capabilities and the built-in capabilities in LLMs. Experiments on three multilingual reasoning datasets and a language understanding dataset demonstrate that MindMerger consistently outperforms all baselines, especially in low-resource languages. Without updating the parameters of LLMs, the average accuracy improved by 6.7% and 8.0% across all languages and low-resource languages on the MGSM dataset, respectively. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# 非一意量子機械学習
Non-Unitary Quantum Machine Learning ( http://arxiv.org/abs/2405.17388v1 ) ライセンス: Link先を確認 | Jamie Heredge, Maxwell West, Lloyd Hollenberg, Martin Sevior, | (参考訳) 本稿では,LCU(Linear Combination of Unitaries)法を利用して,量子機械学習における通常のユニタリ制約を克服する新しい確率的量子アルゴリズムを提案する。
我々の貢献の中にはResidual Networks(ResNet)の量子ネイティブ実装があり、古典的にシミュレートするのが難しいモデルの複雑さを維持しながら、不規則な高原を避けるための道を示す。
さらに、残差接続の強度の制御を一般化することにより、LCU成功確率の下限が任意の所望値に設定可能であることを示す。
また、畳み込みネットワークから平均的なプーリング層を量子アナログとして実装する。
実験により,MNISTデータベースではLCU成功確率が安定であり,従来の手法に比べて画像サイズが2次的である可能性が示唆された。
最後に,量子符号化データに対する既約部分空間投影のための一般的なフレームワークを提案する。
これを用いて、Schur-Weyl双対性による点雲データに対する新しい回転不変符号化を実演する。
また、このフレームワークが符号化における対称性の量をパラメータ化し制御するためにどのように使用できるかを示し、非不変または完全置換不変エンコーディングと比較した場合、部分置換不変エンコードクラウドデータに対する分類性能の向上を示す。
これらの新しいアルゴリズムフレームワークは、すべて同じLCU方式で構築されており、さらに新しいアルゴリズムがLCU技術を利用して実現できることを示唆している。
We introduce several novel probabilistic quantum algorithms that overcome the normal unitary restrictions in quantum machine learning by leveraging the Linear Combination of Unitaries (LCU) method. Among our contributions are quantum native implementations of Residual Networks (ResNet); demonstrating a path to avoiding barren plateaus while maintaining the complexity of models that are hard to simulate classically. Furthermore, by generalising to allow control of the strength of residual connections, we show that the lower bound of the LCU success probability can be set to any arbitrary desired value. We also implement a quantum analogue of average pooling layers from convolutional networks. Our empirical analysis demonstrates that the LCU success probability remains stable for the MNIST database, unlocking a potential quadratic advantage in terms of image size compared to classical techniques. Finally, we propose a general framework for irreducible subspace projections for quantum encoded data. Using this, we demonstrate a novel rotationally invariant encoding for point cloud data via Schur-Weyl duality. We also show how this framework can be used to parameterise and control the amount of symmetry in an encoding; demonstrating improved classification performance for partially permutation invariant encoded point cloud data when compared to non-invariant or fully permutation invariant encodings. These new general algorithmic frameworks are all constructed under the same LCU method, suggesting that even more novel algorithms could be achieved by utilising the LCU technique. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# KSW: Khmer Stop Word based Dictionary for Keyword extract (英語)
KSW: Khmer Stop Word based Dictionary for Keyword Extraction ( http://arxiv.org/abs/2405.17390v1 ) ライセンス: Link先を確認 | Nimol Thuon, Wangrui Zhang, Sada Thuon, | (参考訳) 本稿では,Khmer固有のキーワード抽出手法であるKSWについて紹介する。
Khmer言語のための自然言語処理リソースが限られているため、効果的なキーワード抽出が大きな課題となっている。
KSWはこの問題に対処するため、調整済みの停止語辞書を開発し、停止語を除去する前処理手法を実装し、意味のあるキーワードの抽出を強化した。
実験により,KSWは従来の手法に比べて精度と関連性を大幅に向上し,Khmerテキスト処理と情報検索の進歩の可能性を強調した。
停止語辞書を含むKSWリソースは、以下のGitHubリポジトリで利用できる。
This paper introduces KSW, a Khmer-specific approach to keyword extraction that leverages a specialized stop word dictionary. Due to the limited availability of natural language processing resources for the Khmer language, effective keyword extraction has been a significant challenge. KSW addresses this by developing a tailored stop word dictionary and implementing a preprocessing methodology to remove stop words, thereby enhancing the extraction of meaningful keywords. Our experiments demonstrate that KSW achieves substantial improvements in accuracy and relevance compared to previous methods, highlighting its potential to advance Khmer text processing and information retrieval. The KSW resources, including the stop word dictionary, are available at the following GitHub repository: (https://github.com/back-kh/KSWv2-Khmer-Stop-Word-based-Dictionary-for-Keyword-Extraction.git). | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# データセット学習の双対性と創発的臨界性
Dataset-learning duality and emergent criticality ( http://arxiv.org/abs/2405.17391v1 ) ライセンス: Link先を確認 | Ekaterina Kukleva, Vitaly Vanchurin, | (参考訳) ニューラルネットワークでは、非学習変数の活性化ダイナミクスは、学習変数の学習力学と強く結びついている。
活性化パスの間、境界ニューロン(eg、入力ニューロン)はバルクニューロン(eg、隠されたニューロン)にマッピングされ、学習パスの間、バルクニューロンと境界ニューロンの両方がトレーニング可能な変数(eg、重み、バイアス)の変化にマッピングされる。
例えば、フィードフォワードニューラルネットワークでは、前方伝播はアクティベーションパス、後方伝播は学習パスである。
この2つの写像の構成は、非トレーニング可能な境界変数(例えば、データセット)の部分空間と、訓練可能な変数(すなわち、学習)の接部分空間との間の双対写像を確立することを示す。
一般に、データセット学習双対性は高次元空間間の複素非線形写像であるが、学習平衡においては、問題は線形化され、多くの弱い結合した一次元問題に還元することができる。
双対性を用いて臨界性の出現、あるいはトレーニング可能な変数のゆらぎのパワー-法則分布を研究する。
特に,非臨界状態のデータセットからでも,学習システムに臨界が出現し,アクティベーション関数や損失関数を変化させることで,ゆるい分布を修正可能であることを示す。
In artificial neural networks, the activation dynamics of non-trainable variables is strongly coupled to the learning dynamics of trainable variables. During the activation pass, the boundary neurons (e.g., input neurons) are mapped to the bulk neurons (e.g., hidden neurons), and during the learning pass, both bulk and boundary neurons are mapped to changes in trainable variables (e.g., weights and biases). For example, in feed-forward neural networks, forward propagation is the activation pass and backward propagation is the learning pass. We show that a composition of the two maps establishes a duality map between a subspace of non-trainable boundary variables (e.g., dataset) and a tangent subspace of trainable variables (i.e., learning). In general, the dataset-learning duality is a complex non-linear map between high-dimensional spaces, but in a learning equilibrium, the problem can be linearized and reduced to many weakly coupled one-dimensional problems. We use the duality to study the emergence of criticality, or the power-law distributions of fluctuations of the trainable variables. In particular, we show that criticality can emerge in the learning system even from the dataset in a non-critical state, and that the power-law distribution can be modified by changing either the activation function or the loss function. | 翻訳日:2024-05-28 14:14:13 公開日:2024-05-27 |
# EASI-Tex: 単一画像からのエッジ対応メッシュテクスチャ
EASI-Tex: Edge-Aware Mesh Texturing from Single Image ( http://arxiv.org/abs/2405.17393v1 ) ライセンス: Link先を確認 | Sai Raj Kishore Perla, Yizhi Wang, Ali Mahdavi-Amiri, Hao Zhang, | (参考訳) 本稿では,1つのRGB画像から与えられた3Dメッシュオブジェクトへオブジェクトのテクスチャをシームレスに転送するために,偏差条件付き拡散モデルを用いた単一画像メッシュテクスチャの新しい手法を提案する。
2つの対象が同じ圏に属しているとは仮定せず、仮にそうであっても、その幾何学と部分比例において大きな相違がある可能性がある。
提案手法は,制御ネットを介してメッシュを記述したエッジと,IP-Adapterを用いて入力画像から抽出した特徴を用いて,メッシュと入力テクスチャの基盤となるテクスチャを最適化やトレーニングなしで生成する。
また,入力画像からすべての詳細を忠実に取得する際に,事前学習したIPアダプタが不足している場合に対して,単一の概念に対する拡散モデルを高速にパーソナライズする新しい手法であるImage Inversionを導入する。
EASI-Texと命名されたエッジ対応の単一画像メッシュテクスチャ手法の有効性と有効性を示す実験結果が得られた。
We present a novel approach for single-image mesh texturing, which employs a diffusion model with judicious conditioning to seamlessly transfer an object's texture from a single RGB image to a given 3D mesh object. We do not assume that the two objects belong to the same category, and even if they do, there can be significant discrepancies in their geometry and part proportions. Our method aims to rectify the discrepancies by conditioning a pre-trained Stable Diffusion generator with edges describing the mesh through ControlNet, and features extracted from the input image using IP-Adapter to generate textures that respect the underlying geometry of the mesh and the input texture without any optimization or training. We also introduce Image Inversion, a novel technique to quickly personalize the diffusion model for a single concept using a single image, for cases where the pre-trained IP-Adapter falls short in capturing all the details from the input image faithfully. Experimental results demonstrate the efficiency and effectiveness of our edge-aware single-image mesh texturing approach, coined EASI-Tex, in preserving the details of the input texture on diverse 3D objects, while respecting their geometry. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# 状態空間モデルの表現能力:形式言語の視点から
The Expressive Capacity of State Space Models: A Formal Language Perspective ( http://arxiv.org/abs/2405.17394v1 ) ライセンス: Link先を確認 | Yash Sarrof, Yana Veitsman, Michael Hahn, | (参考訳) 近年,線形状態空間モデル(SSM)に基づくリカレントモデルは言語モデリング(LM)において有望な性能を示した。
しかし、そのようなモデルの本質的な能力についてはほとんど理解されておらず、優れたLMアーキテクチャの探索に有用なガイダンスを提供することができる。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
SSMとトランスフォーマーは重なり合うが、異なる強度を持つ。
スターレス状態追跡では、SSMはトランスフォーマーが正確に表現するのに苦労する問題に対する単純で正確な解決策を実装している。
また、スタックをシミュレートすることなく、最適なメモリで境界階層構造をモデル化することもできる。
一方,現在のSSMでは,表現力を制限する設計選択が可能である。
本稿では,SSM と LM 研究の意義を論じ,最近の SSM である Mamba で実証実験を行った。
Recently, recurrent models based on linear state space models (SSMs) have shown promising performance in language modeling (LM), competititve with transformers. However, there is little understanding of the in-principle abilities of such models, which could provide useful guidance to the search for better LM architectures. We present a comprehensive theoretical study of the capacity of such SSMs as it compares to that of transformers and traditional RNNs. We find that SSMs and transformers have overlapping but distinct strengths. In star-free state tracking, SSMs implement straightforward and exact solutions to problems that transformers struggle to represent exactly. They can also model bounded hierarchical structure with optimal memory even without simulating a stack. On the other hand, we identify a design choice in current SSMs that limits their expressive power. We discuss implications for SSM and LM research, and verify results empirically on a recent SSM, Mamba. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# 摂動位置符号化による3次元人物位置推定におけるオクルージョンハンドリング
Occlusion Handling in 3D Human Pose Estimation with Perturbed Positional Encoding ( http://arxiv.org/abs/2405.17397v1 ) ライセンス: Link先を確認 | Niloofar Azizi, Mohsen Fayyaz, Horst Bischof, | (参考訳) 人間の行動を理解することは、基本的に正確な3Dポーズ推定に依存する。
Graph Convolutional Networks (GCNs)は先進的な進歩を示し、かなり軽量なアーキテクチャで最先端のパフォーマンスを提供する。
グラフ構造化データの文脈では、グラフラプラシア行列の固有ベクトルを位置符号化に活用することが効果的である。
しかし、このアプローチでは、入力グラフのエッジが欠落しているシナリオを扱う方法を規定していない。
そこで本研究では,固有基底から一貫した正規成分を抽出する新しい位置符号化手法PerturbPEを提案する。
本手法では,複数の摂動を適用し,その平均値を用いて固有基底から一貫した正則成分を抽出する。
PerturbPEは、摂動固有ベクトルを計算するためにレイリー・シュロディンガー摂動理論(RSPT)を利用する。
このラベル付け技術を用いることで、モデルの堅牢性と一般化性が向上する。
以上の結果から,Human3.6Mデータセットでは,咬合が1つのエッジの欠如をもたらす場合において,最大12\%のパフォーマンス向上が観察された。
さらに、我々の新しいアプローチは、2つのエッジが欠落しているシナリオのパフォーマンスを大幅に向上させ、最先端のベンチマークを新たに設定する。
Understanding human behavior fundamentally relies on accurate 3D human pose estimation. Graph Convolutional Networks (GCNs) have recently shown promising advancements, delivering state-of-the-art performance with rather lightweight architectures. In the context of graph-structured data, leveraging the eigenvectors of the graph Laplacian matrix for positional encoding is effective. Yet, the approach does not specify how to handle scenarios where edges in the input graph are missing. To this end, we propose a novel positional encoding technique, PerturbPE, that extracts consistent and regular components from the eigenbasis. Our method involves applying multiple perturbations and taking their average to extract the consistent and regular component from the eigenbasis. PerturbPE leverages the Rayleigh-Schrodinger Perturbation Theorem (RSPT) for calculating the perturbed eigenvectors. Employing this labeling technique enhances the robustness and generalizability of the model. Our results support our theoretical findings, e.g. our experimental analysis observed a performance enhancement of up to $12\%$ on the Human3.6M dataset in instances where occlusion resulted in the absence of one edge. Furthermore, our novel approach significantly enhances performance in scenarios where two edges are missing, setting a new benchmark for state-of-the-art. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# Vista: 高い忠実度とVersatile制御性を備えた汎用駆動型世界モデル
Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability ( http://arxiv.org/abs/2405.17398v1 ) ライセンス: Link先を確認 | Shenyuan Gao, Jiazhi Yang, Li Chen, Kashyap Chitta, Yihang Qiu, Andreas Geiger, Jun Zhang, Hongyang Li, | (参考訳) 世界モデルは異なる行動の結果を予測することができ、これは自動運転にとって最重要事項である。
それでも、既存の駆動世界モデルには、目に見えない環境への一般化、重要な詳細の予測精度、フレキシブルなアプリケーションに対するアクション制御性に制限がある。
本稿では,高忠実度かつ多目的な制御性を有する一般化可能な運転世界モデルであるVistaを提案する。
既存の手法の体系的診断に基づいて,これらの制約に対処するための重要な要素をいくつか紹介する。
実世界のダイナミクスを高精度に予測するために,移動インスタンスと構造情報の学習を促進するために,2つの新たな損失を提案する。
また,コヒーレントなロングホライゾンロールアウトの先行として,過去のフレームを注入する有効な潜在代替手法も考案した。
動作制御性には,高レベルな意図(コマンド,ゴールポイント)から低レベルな操作(軌道,角度,速度)まで,効率的な学習戦略を通じて多種多様な制御を組み込む。
大規模なトレーニングの後、Vistaの機能はさまざまなシナリオにシームレスに一般化できる。
複数のデータセットに対する大規模な実験によると、Vistaは比較の70%以上で最も高度な汎用ビデオジェネレータを上回り、FIDでは55%、FVDでは27%を上回っている。
さらに,Vista自体の能力を活用して,現実の行動評価に基礎となる真実の行動にアクセスすることなく,一般化可能な報酬を確立する。
World models can foresee the outcomes of different actions, which is of paramount importance for autonomous driving. Nevertheless, existing driving world models still have limitations in generalization to unseen environments, prediction fidelity of critical details, and action controllability for flexible application. In this paper, we present Vista, a generalizable driving world model with high fidelity and versatile controllability. Based on a systematic diagnosis of existing methods, we introduce several key ingredients to address these limitations. To accurately predict real-world dynamics at high resolution, we propose two novel losses to promote the learning of moving instances and structural information. We also devise an effective latent replacement approach to inject historical frames as priors for coherent long-horizon rollouts. For action controllability, we incorporate a versatile set of controls from high-level intentions (command, goal point) to low-level maneuvers (trajectory, angle, and speed) through an efficient learning strategy. After large-scale training, the capabilities of Vista can seamlessly generalize to different scenarios. Extensive experiments on multiple datasets show that Vista outperforms the most advanced general-purpose video generator in over 70% of comparisons and surpasses the best-performing driving world model by 55% in FID and 27% in FVD. Moreover, for the first time, we utilize the capacity of Vista itself to establish a generalizable reward for real-world action evaluation without accessing the ground truth actions. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# トランスフォーマーは正しい埋め込みで算数ができる
Transformers Can Do Arithmetic with the Right Embeddings ( http://arxiv.org/abs/2405.17399v1 ) ライセンス: Link先を確認 | Sean McLeish, Arpit Bansal, Alex Stein, Neel Jain, John Kirchenbauer, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Jonas Geiping, Avi Schwarzschild, Tom Goldstein, | (参考訳) 算術的タスクにおける変換器の性能の低下は、大きな桁の内にある各桁の正確な位置を追跡できないことが原因のようである。
我々は、各桁に埋め込みを加えて、その数字の開始に対してその位置を符号化することでこの問題を解決した。
この修正によって、インプットインジェクションやリカレントレイヤなどのアーキテクチャ変更により、パフォーマンスがさらに向上することを示す。
位置解決により, 変圧器の論理的外挿能力について検討できる。
彼らは、トレーニングデータよりも大きく、より複雑である算術的な問題を解けるだろうか?
たった20桁の数値を1日で1つのGPUでトレーニングすれば、100桁の加算問題に対して最大99%の精度で最先端のパフォーマンスを達成できることがわかった。
最後に、これらの増加が、ソートや乗算を含む他の多段階推論タスクの改善を解放することを示す。
The poor performance of transformers on arithmetic tasks seems to stem in large part from their inability to keep track of the exact position of each digit inside of a large span of digits. We mend this problem by adding an embedding to each digit that encodes its position relative to the start of the number. In addition to the boost these embeddings provide on their own, we show that this fix enables architectural modifications such as input injection and recurrent layers to improve performance even further. With positions resolved, we can study the logical extrapolation ability of transformers. Can they solve arithmetic problems that are larger and more complex than those in their training data? We find that training on only 20 digit numbers with a single GPU for one day, we can reach state-of-the-art performance, achieving up to 99% accuracy on 100 digit addition problems. Finally, we show that these gains in numeracy also unlock improvements on other multi-step reasoning tasks including sorting and multiplication. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# RB-Modulation:確率的最適制御を用いた拡散モデルの学習自由パーソナライズ
RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control ( http://arxiv.org/abs/2405.17401v1 ) ライセンス: Link先を確認 | Litu Rout, Yujia Chen, Nataniel Ruiz, Abhishek Kumar, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu, | (参考訳) 拡散モデルの学習自由なパーソナライズのための新しいプラグアンドプレイソリューションである参照ベース変調(RB-Modulation)を提案する。
既存のトレーニング不要アプローチは困難を呈する
(a)追加の様式や内容の記載がない場合の参照画像からのスタイル抽出
(b)参照スタイル画像からの不要なコンテンツ漏洩、及び
(c) 文体と内容の効果的な構成。
RB-Modulationは、スタイル記述子が所望の属性を端末コストでエンコードする、新しい確率的最適コントローラ上に構築されている。
その結果、ドリフトは上記の困難を克服するだけでなく、参照スタイルへの忠実さを確保し、与えられたテキストプロンプトに固執する。
また、RB-Modulationが参照画像からコンテンツやスタイルを分離することのできる、クロスアテンションベースの機能アグリゲーションスキームも導入する。
理論的正当化と実証的な証拠により,本フレームワークは,学習自由な方法で内容やスタイルの正確な抽出と制御を実証する。
さらに,外部アダプタやコントロールネットへの依存から逸脱したコンテンツやスタイルのシームレスな構成を可能にする。
We propose Reference-Based Modulation (RB-Modulation), a new plug-and-play solution for training-free personalization of diffusion models. Existing training-free approaches exhibit difficulties in (a) style extraction from reference images in the absence of additional style or content text descriptions, (b) unwanted content leakage from reference style images, and (c) effective composition of style and content. RB-Modulation is built on a novel stochastic optimal controller where a style descriptor encodes the desired attributes through a terminal cost. The resulting drift not only overcomes the difficulties above, but also ensures high fidelity to the reference style and adheres to the given text prompt. We also introduce a cross-attention-based feature aggregation scheme that allows RB-Modulation to decouple content and style from the reference image. With theoretical justification and empirical evidence, our framework demonstrates precise extraction and control of content and style in a training-free manner. Further, our method allows a seamless composition of content and style, which marks a departure from the dependency on external adapters or ControlNets. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# THREAD: 再帰的なスプーンでより深く考える
THREAD: Thinking Deeper with Recursive Spawning ( http://arxiv.org/abs/2405.17402v1 ) ライセンス: Link先を確認 | Philip Schroeder, Nathaniel Morgan, Hongyin Luo, James Glass, | (参考訳) 大規模言語モデル(LLM)は、さまざまな設定にまたがって印象的な機能を示しているが、コンテキストの長さと複雑さが増大するにつれて、いまだに苦戦している。
この課題に対処するため、我々はThReaD(ThReaD)とThing Recursivelyを提案する。
THREADフレームは、実行のスレッドとしてモデルを生成するもので、コンテキストに基づいて、完了まで実行したり、新しいスレッドを動的に生成することができる。
生成によって、スレッドは、子スレッドに作業(例えば、思考、情報検索)をオフロードすることができる。
事実上、これはモデルが必要に応じてトークンを生成するのに使用される中間的な作業量に適応することを可能にする。
LLMタスク解決と質問応答の設定にTHREADを適用し、動的スレッディングにより、モデルが与えられたタスクや質問を再帰的に分解し、個別の子スレッドで解決できる、より単純なサブプロブレムにすることができる。
我々は、エージェントタスクの多様なベンチマークとデータ基底型質問応答を用いて、数ショットの学習アプローチを用いて実装されたTHREADをテストする。
THREADは、ALFWorld、TextCraft、WebShopなどのベンチマークとDataCommons QAとMIMIC-III ICU QAという2つの新しいベンチマークで、GPT-4とGPT-3.5で最先端のパフォーマンスを実現している。
加えて、THREADはLlama-3-8bやCodeLlama-7bなど、より小さなモデルで既存のフレームワークを10%から50%上回っている。
Large language models (LLMs) have shown impressive capabilities across diverse settings, but still struggle as the length and complexity of the context increases. To address this challenge, we propose Thinking Recursively and Dynamically (ThReaD). THREAD frames model generation as a thread of execution that, based on the context, can run to completion or dynamically spawn new threads. By spawning, threads can offload work (e.g., thinking, retrieving information) to child threads, which only return tokens needed for the parent thread to do its work. In effect, this enables the model to adapt, as needed, the amount of intermediate work used to produce tokens. We apply THREAD in the settings of LLM task solving and question answering, where the dynamic threading allows the model to recursively decompose the given task or question into progressively simpler sub-problems that can be solved by separate child threads. We test THREAD, implemented using a few-shot learning approach, on diverse benchmarks for agent tasks and data-grounded question answering. THREAD achieves state-of-the-art performance with GPT-4 and GPT-3.5 on these benchmarks, including ALFWorld, TextCraft, and WebShop, along with two new benchmarks, DataCommons QA and MIMIC-III ICU QA. In addition, THREAD outperforms existing frameworks by 10% to 50% absolute points with smaller models, including Llama-3-8b and CodeLlama-7b. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# 時間ステップのクローズアップは拡散モデルトレーニングの3倍のスピードアップである
A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model Training ( http://arxiv.org/abs/2405.17403v1 ) ライセンス: Link先を確認 | Kai Wang, Yukun Zhou, Mingjia Shi, Zhihang Yuan, Yuzhang Shang, Xiaojiang Peng, Hanwang Zhang, Yang You, | (参考訳) 拡散モデルの訓練は常に計算集約的なタスクである。
本稿では,時間ステップをよく見ることに基づく,拡散モデル学習のための新しい高速化手法を提案する。
私たちの主要な発見は次のとおりです。
一 プロセス増分に基づいて、タイムステップを加速、減速及び収束領域に経験的に分割することができる。
二 これらの時間段階は不均衡であり、多くは収束領域に集中している。
三 集中した段階が拡散訓練に限られた利益をもたらすこと。
そこで本研究では,他の領域からのステップのサンプリング確率を高めつつ,収束領域からのステップの頻度を減少させる非対称サンプリング戦略を設計する。
さらに,急激なプロセス増加を伴う時間ステップの重要性を強調する重み付け戦略を提案する。
プラグアンドプレイでアーキテクチャに依存しないアプローチとして、SpeeDは、さまざまな拡散アーキテクチャ、データセット、タスクをまたいだ3回のアクセラレーションを一貫して達成している。
特に,本手法は単純設計のため,最小限のオーバーヘッドで拡散モデルトレーニングのコストを大幅に削減する。
我々の研究は、より多くの研究者がより低コストで拡散モデルを訓練することを可能にする。
Training diffusion models is always a computation-intensive task. In this paper, we introduce a novel speed-up method for diffusion model training, called, which is based on a closer look at time steps. Our key findings are: i) Time steps can be empirically divided into acceleration, deceleration, and convergence areas based on the process increment. ii) These time steps are imbalanced, with many concentrated in the convergence area. iii) The concentrated steps provide limited benefits for diffusion training. To address this, we design an asymmetric sampling strategy that reduces the frequency of steps from the convergence area while increasing the sampling probability for steps from other areas. Additionally, we propose a weighting strategy to emphasize the importance of time steps with rapid-change process increments. As a plug-and-play and architecture-agnostic approach, SpeeD consistently achieves 3-times acceleration across various diffusion architectures, datasets, and tasks. Notably, due to its simple design, our approach significantly reduces the cost of diffusion model training with minimal overhead. Our research enables more researchers to train diffusion models at a lower cost. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# グラフニューラルネットワークのためのスペクトルグリーディコアセット
Spectral Greedy Coresets for Graph Neural Networks ( http://arxiv.org/abs/2405.17404v1 ) ライセンス: Link先を確認 | Mucong Ding, Yinhan He, Jundong Li, Furong Huang, | (参考訳) ノード分類タスクにおける大規模グラフの普及は、グラフニューラルネットワーク(GNN)の現実的な応用を著しく妨げている。
ノードサンプリング、グラフ粗大化、データセット凝縮は、データの効率を高める効果的な戦略である。
しかし、グラフノードの相互依存のため、データ例のサブセットを選択するコアセット選択は、大きなグラフ上でのGNNトレーニングの高速化に成功せず、特別な処理が保証されている。
本稿では,GNNのグラフコアセットについて検討し,そのスペクトル埋め込みに基づいてegoグラフ(すなわちノード周辺部分グラフ)を選択することにより,相互依存の問題を回避する。
我々は,GNNのコアセット選択問題を,広範に広がるエゴグラフの粗い選択と,それらのトポロジを多様化するための洗練された選択の2つの相に分解する。
我々は、両方の目的をほぼ最適化する欲求的アルゴリズムを設計する。
我々のスペクトルグレディグラフコアセット(SGGC)は、数百万のノードを持つグラフにスケールし、モデル事前学習の必要性を排除し、低ホモフィリーグラフに適用する。
10個のデータセットに対する大規模な実験により、SGGCは他のコアセット法よりも広いマージンで優れ、GNNアーキテクチャ全体にわたってよく一般化され、グラフの凝縮よりもはるかに高速であることが示された。
The ubiquity of large-scale graphs in node-classification tasks significantly hinders the real-world applications of Graph Neural Networks (GNNs). Node sampling, graph coarsening, and dataset condensation are effective strategies for enhancing data efficiency. However, owing to the interdependence of graph nodes, coreset selection, which selects subsets of the data examples, has not been successfully applied to speed up GNN training on large graphs, warranting special treatment. This paper studies graph coresets for GNNs and avoids the interdependence issue by selecting ego-graphs (i.e., neighborhood subgraphs around a node) based on their spectral embeddings. We decompose the coreset selection problem for GNNs into two phases: a coarse selection of widely spread ego graphs and a refined selection to diversify their topologies. We design a greedy algorithm that approximately optimizes both objectives. Our spectral greedy graph coreset (SGGC) scales to graphs with millions of nodes, obviates the need for model pre-training, and applies to low-homophily graphs. Extensive experiments on ten datasets demonstrate that SGGC outperforms other coreset methods by a wide margin, generalizes well across GNN architectures, and is much faster than graph condensation. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# Human4DiT:4Dディフュージョントランスを用いたフリービューヒューマンビデオ生成
Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer ( http://arxiv.org/abs/2405.17405v1 ) ライセンス: Link先を確認 | Ruizhi Shao, Youxin Pang, Zerong Zheng, Jingxiang Sun, Yebin Liu, | (参考訳) 任意の視点で1つの画像から高画質の時空間コヒーレントな人間ビデオを生成するための新しい手法を提案する。
我々のフレームワークは、正確な条件注入のためのU-Netの強みと、視点と時間にまたがる大域的相関を捉える拡散変換器を組み合わせたものである。
コアは、4D空間の効率的なモデリングを可能にするため、ビュー、時間、空間次元に注意を向けるカスケード型4Dトランスフォーマーアーキテクチャである。
高精度な条件付けは、人間のアイデンティティ、カメラパラメータ、時間信号などを変換器に注入することで実現される。
このモデルをトレーニングするために、画像、ビデオ、多視点データ、および3D/4Dスキャンにまたがる多次元データセットを多次元トレーニング戦略とともにキュレートする。
提案手法は,複雑な動きや視点の変化に苦しむGANやUNetに基づく拡散モデルに基づく従来の手法の限界を克服する。
広範にわたる実験を通じて,現実的で一貫性のある自由視点映像を合成し,バーチャルリアリティやアニメーションなどの分野における先進的マルチメディアアプリケーションへの道を開いた。
プロジェクトのWebサイトはhttps://human4dit.github.ioです。
We present a novel approach for generating high-quality, spatio-temporally coherent human videos from a single image under arbitrary viewpoints. Our framework combines the strengths of U-Nets for accurate condition injection and diffusion transformers for capturing global correlations across viewpoints and time. The core is a cascaded 4D transformer architecture that factorizes attention across views, time, and spatial dimensions, enabling efficient modeling of the 4D space. Precise conditioning is achieved by injecting human identity, camera parameters, and temporal signals into the respective transformers. To train this model, we curate a multi-dimensional dataset spanning images, videos, multi-view data and 3D/4D scans, along with a multi-dimensional training strategy. Our approach overcomes the limitations of previous methods based on GAN or UNet-based diffusion models, which struggle with complex motions and viewpoint changes. Through extensive experiments, we demonstrate our method's ability to synthesize realistic, coherent and free-view human videos, paving the way for advanced multimedia applications in areas such as virtual reality and animation. Our project website is https://human4dit.github.io. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# ハイブリッドおよびリカレントニューラルネットワークアーキテクチャを用いたDeep Learning Calabi-Yau 4つのフォールド
Deep Learning Calabi-Yau four folds with hybrid and recurrent neural network architectures ( http://arxiv.org/abs/2405.17406v1 ) ライセンス: Link先を確認 | H. L. Dao, | (参考訳) 本研究では,ハイブリッド畳み込みと純粋に反復するニューラルネットワークアーキテクチャに基づくディープラーニングを,約100万の完全交点(CICY4)のデータセットに適用して,ホッジ数$h^{1,1},h^{2,1},h^{3,1},h^{2,2}$のマシン学習を行った。
特に,12種類のニューラルネットワークモデルを探索,実験した。そのうち9つは畳み込みリカレント(CNN-RNN)ハイブリッドであり,RNNユニットはGRU(Gated Recurrent Unit)またはLong Short Term Memory(LSTM)である。
残りの4つのモデルはLSTMに基づく純粋にリカレントなニューラルネットワークである。
h^{1,1}, h^{2,1}, h^{3,1}, h^{2,2}$ 予測精度 72% のトレーニング比で、我々の最高の個別モデルは CNN-LSTM-400, LSTM隠蔽サイズ 400 のハイブリッド CNN-LSTM, 99.74%, 98.07%, 95.19%, 81.01%, LSTM-448, 隠蔽サイズ 448, 99.74%, 97.51%, 94.24%, 78.63% である。
これらの結果はトップ2、3または4モデルのアンサンブルを形成することで改善された。
私たちのベストアンサンブルは上位3モデルで構成され、99.80%、98.40%、95.80%、83.02%の精度を達成した。
80%のトレーニング比率で、LSTM-448とLSTM-424の上位2つはLSTMベースであり、隠されたサイズは448と424である。
72%のトレーニング比と比較して、精度は99.85%、98.66%、96.26%、84.77%、99.88%、98.91%、96.96%、86.78%に達した。
In this work, we report the results of applying deep learning based on hybrid convolutional-recurrent and purely recurrent neural network architectures to the dataset of almost one million complete intersection Calabi-Yau four-folds (CICY4) to machine-learn their four Hodge numbers $h^{1,1}, h^{2,1}, h^{3,1}, h^{2,2}$. In particular, we explored and experimented with twelve different neural network models, nine of which are convolutional-recurrent (CNN-RNN) hybrids with the RNN unit being either GRU (Gated Recurrent Unit) or Long Short Term Memory (LSTM). The remaining four models are purely recurrent neural networks based on LSTM. In terms of the $h^{1,1}, h^{2,1}, h^{3,1}, h^{2,2}$ prediction accuracies, at 72% training ratio, our best performing individual model is CNN-LSTM-400, a hybrid CNN-LSTM with the LSTM hidden size of 400, which obtained 99.74%, 98.07%, 95.19%, 81.01%, our second best performing individual model is LSTM-448, an LSTM-based model with the hidden size of 448, which obtained 99.74%, 97.51%, 94.24%, and 78.63%. These results were improved by forming ensembles of the top two, three or even four models. Our best ensemble, consisting of the top three models, achieved the accuracies of 99.80%, 98.40%, 95.80%, 83.02%. At 80% training ratio, the top two performing models LSTM-448 and LSTM-424 are both LSTM-based with the hidden sizes of 448 and 424. Compared with the 72% training ratio, there is a significant improvement of accuracies, which reached 99.85%, 98.66%, 96.26%, 84.77% for the best individual model and 99.88%, 98.91%, 96.96%, 86.78% for the best ensemble. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# ペラペタペタペタペタの憎悪 : ヘイト・サブレディットの行動予測
The Peripatetic Hater: Predicting Movement Among Hate Subreddits ( http://arxiv.org/abs/2405.17410v1 ) ライセンス: Link先を確認 | Daniel Hickey, Daniel M. T. Fessler, Kristina Lerman, Keith Burghardt, | (参考訳) 多くのオンラインヘイトグループは、人種、ジェンダーのアイデンティティ、セックス、その他の特徴に基づいて、他人を分離するために存在している。
これらのコミュニティのアクセシビリティにより、ユーザは複数のタイプのヘイトグループ(人種差別的なコミュニティや偽善的なコミュニティなど)に参加できる。
しかし、複数のタイプのヘイトグループに参加することのダイナミクスや、これらのグループが周産期ユーザーに与える影響についてはほとんど分かっていない。
本稿では,ヘイトサブレッディットを分類する新しい手法と,それらが分離するアイデンティティを考案し,ユーザが近視的になる方法(異なるタイプのヘイトサブレッディットに随伴する)をよりよく理解するために利用する。
ヘイト分類技術は、人身認証されたLSMを使用して、168個のサブレディットから攻撃された保護されたアイデンティティを抽出する。
次に、アイデンティティ攻撃のサブレディットをクラスタ化して、人種差別、反LGBTQ、偽造という3つの幅広い憎悪のカテゴリを見つけます。
ユーザーの最初のヘイトサブレディットでアクティブになることは、異なるカテゴリーのヘイトサブレディットに追加のヘイトサブレディットでアクティブになる可能性があることを示す。
また、特に異なるカテゴリーのヘイトグループに加入するユーザーは、ヘイトグループ全体においてより活発になり、より広いヘイトグループレキシコンを開発する。
ですから私たちは,ポストテキストの読み書きに基づいて,ヘイトカテゴリがアクティブになることを予測できるような,AIモデルをトレーニングする動機を持っています。
このモデルの正確さは、しばしば彼らが最終的に参加する憎しみのサブレディットの言語を使用して、ペパテティックなユーザーによって部分的に駆動される可能性がある。
これらの結果は、ソーシャルメディアプラットフォーム上のヘイトコミュニティにまつわるユニークなリスクを浮き彫りにしている。
Many online hate groups exist to disparage others based on race, gender identity, sex, or other characteristics. The accessibility of these communities allows users to join multiple types of hate groups (e.g., a racist community and misogynistic community), which calls into question whether these peripatetic users could be further radicalized compared to users that stay in one type of hate group. However, little is known about the dynamics of joining multiple types of hate groups, nor the effect of these groups on peripatetic users. In this paper, we develop a new method to classify hate subreddits, and the identities they disparage, which we use to better understand how users become peripatetic (join different types of hate subreddits). The hate classification technique utilizes human-validated LLMs to extract the protected identities attacked, if any, across 168 subreddits. We then cluster identity-attacking subreddits to discover three broad categories of hate: racist, anti-LGBTQ, and misogynistic. We show that becoming active in a user's first hate subreddit can cause them to become active in additional hate subreddits of a different category. We also find that users who join additional hate subreddits, especially of a different category, become more active in hate subreddits as a whole and develop a wider hate group lexicon. We are therefore motivated to train an AI model that we find usefully predicts the hate categories users will become active in based on post text read and written. The accuracy of this model may be partly driven by peripatetic users often using the language of hate subreddits they eventually join. Overall, these results highlight the unique risks associated with hate communities on a social media platform, as discussion of alternative targets of hate may lead users to target more protected identities. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# 古典的次元化の一モデルに向けて:UMAPとt-SNEの確率論的視点
Towards One Model for Classical Dimensionality Reduction: A Probabilistic Perspective on UMAP and t-SNE ( http://arxiv.org/abs/2405.17412v1 ) ライセンス: Link先を確認 | Aditya Ravuri, Neil D. Lawrence, | (参考訳) 本稿では,ProbDR で導入された一般化 Wishart モデルに対応する MAP 推論手法として,次元削減手法である UMAP と t-SNE を概ね再キャスト可能であることを示す。
この解釈はこれらのアルゴリズムについてより深い理論的洞察を与え、類似の次元減少法を研究できるツールを導入している。
This paper shows that the dimensionality reduction methods, UMAP and t-SNE, can be approximately recast as MAP inference methods corresponding to a generalized Wishart-based model introduced in ProbDR. This interpretation offers deeper theoretical insights into these algorithms, while introducing tools with which similar dimensionality reduction methods can be studied. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# マルチアルゴリズム分析とユーザフレンドリーな可視化による音楽ジャンル分類の強化
Enhancing Music Genre Classification through Multi-Algorithm Analysis and User-Friendly Visualization ( http://arxiv.org/abs/2405.17413v1 ) ライセンス: Link先を確認 | Navin Kamuni, Dheerendra Panwar, | (参考訳) 本研究の目的は,異なる種類の音楽の認識方法をアルゴリズムに教えることである。
ユーザーは分析のために曲を提出する。
アルゴリズムはこれまでこれらの歌を聴いていないので、それぞれの歌をユニークにする方法を理解する必要があります。
このプログラムは、曲を異なる部分に分割し、リズム、メロディ、トーンなどの学習を教師あり学習を通じて行う。
音楽の分類において考慮すべき重要なことは、そのジャンルであり、非常に複雑である。
正確性を確保するために、5つの異なるアルゴリズムを使い、それぞれが独立して曲を分析します。
これにより、各曲の特徴をより完全に理解できるようになる。
そこで本研究の目的は,各楽曲のジャンルを正確に同定することである。
分析が完了すると、結果はグラフツールを使用して表示され、ユーザが簡単に理解し、フィードバックを提供することができる。
The aim of this study is to teach an algorithm how to recognize different types of music. Users will submit songs for analysis. Since the algorithm hasn't heard these songs before, it needs to figure out what makes each song unique. It does this by breaking down the songs into different parts and studying things like rhythm, melody, and tone via supervised learning because the program learns from examples that are already labelled. One important thing to consider when classifying music is its genre, which can be quite complex. To ensure accuracy, we use five different algorithms, each working independently, to analyze the songs. This helps us get a more complete understanding of each song's characteristics. Therefore, our goal is to correctly identify the genre of each submitted song. Once the analysis is done, the results are presented using a graphing tool, making it easy for users to understand and provide feedback. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# 協調的ビデオ拡散:カメラ制御による一貫性のあるマルチビデオ生成
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control ( http://arxiv.org/abs/2405.17414v1 ) ライセンス: Link先を確認 | Zhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein, | (参考訳) ビデオ生成の研究は、テキストプロンプトや画像から高品質なビデオを生成することができるように、最近大きく進歩した。
映像生成プロセスに制御を追加することは、前進する重要な目標であり、カメラ軌道上で映像生成モデルを条件付ける最近のアプローチは、その方向に進む。
しかし、複数の異なるカメラの軌跡から同じシーンのビデオを生成することは依然として困難である。
このマルチビデオ生成問題の解決策は、編集可能なカメラトラジェクトリを含む大規模な3Dシーン生成を可能にする。
このビジョンに向けた重要なステップとして,共同ビデオ拡散(CVD)を導入する。
CVDフレームワークは、エピポーラアテンション機構を使用して、異なるカメラポーズからレンダリングされた同じビデオの対応するフレーム間の一貫性を促進する新しいクロスビデオ同期モジュールを含む。
ビデオ生成のための最先端のカメラ制御モジュールの上に訓練されたCVDは、大規模な実験で示されているように、ベースラインよりもはるかに優れた一貫性を持つ異なるカメラ軌跡からレンダリングされた複数のビデオを生成する。
プロジェクトページ: https://collaborative videodiffusion.github.io/
Research on video generation has recently made tremendous progress, enabling high-quality videos to be generated from text prompts or images. Adding control to the video generation process is an important goal moving forward and recent approaches that condition video generation models on camera trajectories make strides towards it. Yet, it remains challenging to generate a video of the same scene from multiple different camera trajectories. Solutions to this multi-video generation problem could enable large-scale 3D scene generation with editable camera trajectories, among other applications. We introduce collaborative video diffusion (CVD) as an important step towards this vision. The CVD framework includes a novel cross-video synchronization module that promotes consistency between corresponding frames of the same video rendered from different camera poses using an epipolar attention mechanism. Trained on top of a state-of-the-art camera-control module for video generation, CVD generates multiple videos rendered from different camera trajectories with significantly better consistency than baselines, as shown in extensive experiments. Project page: https://collaborativevideodiffusion.github.io/. | 翻訳日:2024-05-28 14:04:26 公開日:2024-05-27 |
# 視覚強化学習における非有界データ強化の試み
A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning ( http://arxiv.org/abs/2405.17416v1 ) ライセンス: Link先を確認 | Abdulaziz Almuzairee, Nicklas Hansen, Henrik I. Christensen, | (参考訳) Q$-learningアルゴリズムは、データ効率のために現実世界のアプリケーションにアピールするが、視覚的な観察からトレーニングされた場合、過度に適合し、トレーニングする傾向がある。
以前の研究、すなわちSVEAは、データ拡張の選択的応用は、トレーニングを不安定にすることなく、RLエージェントの視覚的一般化を改善することができることを示した。
我々は、データ拡張のためのレシピを再検討し、その効果を測光特性の増強に制限する仮定を求める。
これらの制限に対処し、より広い種類の拡張を扱う一般化されたレシピであるSADAを提案する。
提案するDMControl Generalization Benchmarkの拡張とMeta-WorldとDistracting Control SuiteのタスクであるDMC-GB2にその効果をベンチマークし、我々のメソッドであるSADAが、様々な拡張セットにわたるRLエージェントのトレーニング安定性と一般化を大幅に改善することを発見した。
可視化、コード、ベンチマーク:https://aalmuzairee.github.io/SADA/
$Q$-learning algorithms are appealing for real-world applications due to their data-efficiency, but they are very prone to overfitting and training instabilities when trained from visual observations. Prior work, namely SVEA, finds that selective application of data augmentation can improve the visual generalization of RL agents without destabilizing training. We revisit its recipe for data augmentation, and find an assumption that limits its effectiveness to augmentations of a photometric nature. Addressing these limitations, we propose a generalized recipe, SADA, that works with wider varieties of augmentations. We benchmark its effectiveness on DMC-GB2 -- our proposed extension of the popular DMControl Generalization Benchmark -- as well as tasks from Meta-World and the Distracting Control Suite, and find that our method, SADA, greatly improves training stability and generalization of RL agents across a diverse set of augmentations. Visualizations, code, and benchmark: see https://aalmuzairee.github.io/SADA/ | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# エンドツーエンドロボットマニピュレーションのための自己補正型マルチモーダル大言語モデル
Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation ( http://arxiv.org/abs/2405.17418v1 ) ライセンス: Link先を確認 | Jiaming Liu, Chenxuan Li, Guanqun Wang, Lily Lee, Kaichen Zhou, Sixiang Chen, Chuyan Xiong, Jiaxin Ge, Renrui Zhang, Shanghang Zhang, | (参考訳) ロボット操作ポリシーは、新しいタスクやオブジェクトインスタンスに直面すると、満足のいく動作性能を示す。
したがって、実用ロボットシステムには、自動検出と自己修正の失敗動作の能力が不可欠である。
近年,Multimodal Large Language Models (MLLMs) は視覚指導における有望性を示し,様々なタスクにおいて強い推論能力を示している。
エンド・ツー・エンドのロボットエージェントとして一般のMLLMを解き放つために,自己補正型(SC)-MLLMを導入する。
具体的には、まずパラメータ効率の良い微調整を行い、言語モデリング問題として再編成されたポーズ予測能力をMLLMに与える。
実行障害に直面した場合、我々のモデルは低レベルの動作エラーの原因(位置と回転誤差)を識別し、専門家からの迅速なフィードバックを適応的に求める。
フィードバックに基づいて、SC-MLLMは現在の障害シーンを再考し、修正されたアクションを生成する。
さらに,提案手法は,モデルが現在のシーン構成への適応性を高め,専門家の介入頻度を低減し,有効に修正されたサンプルに対する継続的なポリシー学習手法を設計する。
SC-MLLMを評価するために,シミュレーションと実環境設定の両方で広範な実験を行った。
SC-MLLMは従来の最先端ロボットMLLM (ManipLLM) と比較して操作精度を著しく向上させ, 対象物では57\%から79\%に, 未知の新規物では47\%から69\%に増加した。
Robot manipulation policies have shown unsatisfactory action performance when confronted with novel task or object instances. Hence, the capability to automatically detect and self-correct failure action is essential for a practical robotic system. Recently, Multimodal Large Language Models (MLLMs) have shown promise in visual instruction following and demonstrated strong reasoning abilities in various tasks. To unleash general MLLMs as an end-to-end robotic agent, we introduce a Self-Corrected (SC)-MLLM, equipping our model not only to predict end-effector poses but also to autonomously recognize and correct failure actions. Specifically, we first conduct parameter-efficient fine-tuning to empower MLLM with pose prediction ability, which is reframed as a language modeling problem. When facing execution failures, our model learns to identify low-level action error causes (i.e., position and rotation errors) and adaptively seeks prompt feedback from experts. Based on the feedback, SC-MLLM rethinks the current failure scene and generates the corrected actions. Furthermore, we design a continuous policy learning method for successfully corrected samples, enhancing the model's adaptability to the current scene configuration and reducing the frequency of expert intervention. To evaluate our SC-MLLM, we conduct extensive experiments in both simulation and real-world settings. SC-MLLM agent significantly improve manipulation accuracy compared to previous state-of-the-art robotic MLLM (ManipLLM), increasing from 57\% to 79\% on seen object categories and from 47\% to 69\% on unseen novel categories. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# MultiOOD:マルチモーダルのアウト・オブ・ディストリビューション検出
MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities ( http://arxiv.org/abs/2405.17419v1 ) ライセンス: Link先を確認 | Hao Dong, Yue Zhao, Eleni Chatzi, Olga Fink, | (参考訳) 自律運転やロボット支援手術などの安全クリティカルなアプリケーションに機械学習モデルをデプロイするためには、OOD(out-of-distriion)サンプルの検出が重要である。
既存の研究は主に画像データにおける一過性のシナリオに焦点を当てている。
しかし、現実世界のアプリケーションは本質的にマルチモーダルであるため、OOD検出の有効性を高めるために複数のモーダルからの情報を活用することが不可欠である。
より現実的なMultimodal OOD検出の基礎を確立するために,多種多様なデータセットサイズと様々なモダリティの組み合わせを特徴とする,第一種ベンチマークであるMultiOODを導入する。
我々はまず,既存のOOD検出アルゴリズムをMultiOOD上で評価した。
このことは、OOD検出に複数のモダリティを活用することの重要性を浮き彫りにしている。
In-distriion (ID) と OOD データ間のモダリティ予測の不一致の観測と OOD 性能との強い相関性から,本アルゴリズムはトレーニング中にそのような不一致を助長するためのAgree-to-Disagree (A2D) アルゴリズムを提案する。
さらに,近隣クラスからの情報を活用し,OOD検出性能を高めるためにA2Dを補完することにより,より広い特徴空間を探索する新しい外部合成手法NP-Mixを導入する。
MultiOODの大規模な実験により、A2DとNP-Mixによるトレーニングは既存のOOD検出アルゴリズムを大幅に改善することが示された。
ソースコードとMultiOODベンチマークはhttps://github.com/donghao51/MultiOOD.comで公開されています。
Detecting out-of-distribution (OOD) samples is important for deploying machine learning models in safety-critical applications such as autonomous driving and robot-assisted surgery. Existing research has mainly focused on unimodal scenarios on image data. However, real-world applications are inherently multimodal, which makes it essential to leverage information from multiple modalities to enhance the efficacy of OOD detection. To establish a foundation for more realistic Multimodal OOD Detection, we introduce the first-of-its-kind benchmark, MultiOOD, characterized by diverse dataset sizes and varying modality combinations. We first evaluate existing unimodal OOD detection algorithms on MultiOOD, observing that the mere inclusion of additional modalities yields substantial improvements. This underscores the importance of utilizing multiple modalities for OOD detection. Based on the observation of Modality Prediction Discrepancy between in-distribution (ID) and OOD data, and its strong correlation with OOD performance, we propose the Agree-to-Disagree (A2D) algorithm to encourage such discrepancy during training. Moreover, we introduce a novel outlier synthesis method, NP-Mix, which explores broader feature spaces by leveraging the information from nearest neighbor classes and complements A2D to strengthen OOD detection performance. Extensive experiments on MultiOOD demonstrate that training with A2D and NP-Mix improves existing OOD detection algorithms by a large margin. Our source code and MultiOOD benchmark are available at https://github.com/donghao51/MultiOOD. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# Fittest Representation の生存例 : モジュラー付加による検討
Survival of the Fittest Representation: A Case Study with Modular Addition ( http://arxiv.org/abs/2405.17420v1 ) ライセンス: Link先を確認 | Xiaoman Delores Ding, Zifan Carl Guo, Eric J. Michaud, Ziming Liu, Max Tegmark, | (参考訳) ニューラルネットワークがタスクを解くために複数の異なるアルゴリズムを学習できる場合、トレーニング中にどのように"選択"するのでしょうか?
この問題にアプローチするために、私たちはエコロジーからインスピレーションを得ます。複数の種が共存すると、最終的には平衡に達し、一部は生き残り、他の種は死にます。
対照的に、初期化時のニューラルネットワークには、リソース制約からのプレッシャーの下で互いに競合する多くのソリューション(表現とアルゴリズム)が含まれており、最終的には「最も適した」ことが一般的である。
このフィトテスト仮説の生存について研究するために、モジュラー加算を行うニューラルネットワークのケーススタディを行い、これらのネットワークの異なるフーリエ周波数における複数の円形表現が、このような競合ダイナミクスを実行し、最後に数円しか残っていないことを発見した。
高い初期信号と勾配の周波数である「最適」が生き残る可能性が高くなる。
埋め込み次元を増大させることで、より生き残った周波数も観測できる。
種間の力学を記述するロトカ・ボルテラ方程式に着想を得た結果、円の力学は線形微分方程式の集合によってうまく特徴づけられることが判明した。
モジュール化の追加による結果から,複雑な表現を単純なコンポーネントに分解し,それらの基本的な相互作用と組み合わせることで,表現のトレーニング力学に関する洞察を与えることが可能であることが示唆された。
When a neural network can learn multiple distinct algorithms to solve a task, how does it "choose" between them during training? To approach this question, we take inspiration from ecology: when multiple species coexist, they eventually reach an equilibrium where some survive while others die out. Analogously, we suggest that a neural network at initialization contains many solutions (representations and algorithms), which compete with each other under pressure from resource constraints, with the "fittest" ultimately prevailing. To investigate this Survival of the Fittest hypothesis, we conduct a case study on neural networks performing modular addition, and find that these networks' multiple circular representations at different Fourier frequencies undergo such competitive dynamics, with only a few circles surviving at the end. We find that the frequencies with high initial signals and gradients, the "fittest," are more likely to survive. By increasing the embedding dimension, we also observe more surviving frequencies. Inspired by the Lotka-Volterra equations describing the dynamics between species, we find that the dynamics of the circles can be nicely characterized by a set of linear differential equations. Our results with modular addition show that it is possible to decompose complicated representations into simpler components, along with their basic interactions, to offer insight on the training dynamics of representations. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# MoSca:カジュアルビデオのダイナミックガウス融合を4Dモーションスキャフォールドで実現
MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds ( http://arxiv.org/abs/2405.17421v1 ) ライセンス: Link先を確認 | Jiahui Lei, Yijia Weng, Adam Harley, Leonidas Guibas, Kostas Daniilidis, | (参考訳) 野生でカジュアルに撮影されたモノクロビデオから動的シーンの新たなビューを再構築し、合成するために設計された神経情報処理システムである4D Motion Scaffolds(MoSca)を紹介した。
このような困難かつ不適切な逆問題に対処するために、基礎となる視覚モデルからの事前知識を活用し、映像データを基礎となる動き/変形をコンパクトかつ円滑に符号化するMoSca(MoSca)表現に引き上げる。
シーンの幾何学と外観は変形場から切り離され、世界規模でモスカに固定され、ガウススプラッティングによって最適化される。
さらに、動的なレンダリングプロセス中に、他のポーズ推定ツールを必要とせずに、カメラのポーズをシームレスに初期化し、洗練することができる。
動的レンダリングベンチマークでは、最先端のパフォーマンスが実証されている。
We introduce 4D Motion Scaffolds (MoSca), a neural information processing system designed to reconstruct and synthesize novel views of dynamic scenes from monocular videos captured casually in the wild. To address such a challenging and ill-posed inverse problem, we leverage prior knowledge from foundational vision models, lift the video data to a novel Motion Scaffold (MoSca) representation, which compactly and smoothly encodes the underlying motions / deformations. The scene geometry and appearance are then disentangled from the deformation field, and are encoded by globally fusing the Gaussians anchored onto the MoSca and optimized via Gaussian Splatting. Additionally, camera poses can be seamlessly initialized and refined during the dynamic rendering process, without the need for other pose estimation tools. Experiments demonstrate state-of-the-art performance on dynamic rendering benchmarks. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# 半スーパービジョン3次元物体検出のための硬さを考慮したシーン合成
Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection ( http://arxiv.org/abs/2405.17422v1 ) ライセンス: Link先を確認 | Shuai Zeng, Wenzhao Zheng, Jiwen Lu, Haibin Yan, | (参考訳) 3Dオブジェクト検出は、対象物の3D情報を復元し、自律運転知覚の基本的なタスクとして機能することを目的としている。
その性能はラベル付きトレーニングデータの規模に大きく依存するが、ポイントクラウドデータの高品質なアノテーションを得るにはコストがかかる。
従来の手法では、未ラベルサンプルの擬似ラベルをトレーニング用サプリメントとして生成することに重点を置いているが、3Dポイントクラウドデータの構造的性質は、現実的なシーンを合成するためのオブジェクトや背景の合成を容易にする。
そこで本研究では,適応型合成シーンを生成するためのハードネス対応シーン合成(HASS)手法を提案する。
我々は、未ラベルオブジェクトの擬似ラベルを取得し、オブジェクトと背景の異なる構成で多様なシーンを生成する。
シーン合成は擬似ラベルの品質に敏感なため,低品質な擬似ラベルの効果を低減し,動的擬似データベースを維持し,合成シーンの多様性と品質を確保するため,難易度対応戦略を提案する。
広範に使用されているKITTIとWaymoデータセットの大規模な実験結果から,既存の半教師付き学習法よりも優れた3次元物体検出法であるHASS法が得られた。
コード:https://github.com/wzzheng/HASS。
3D object detection aims to recover the 3D information of concerning objects and serves as the fundamental task of autonomous driving perception. Its performance greatly depends on the scale of labeled training data, yet it is costly to obtain high-quality annotations for point cloud data. While conventional methods focus on generating pseudo-labels for unlabeled samples as supplements for training, the structural nature of 3D point cloud data facilitates the composition of objects and backgrounds to synthesize realistic scenes. Motivated by this, we propose a hardness-aware scene synthesis (HASS) method to generate adaptive synthetic scenes to improve the generalization of the detection models. We obtain pseudo-labels for unlabeled objects and generate diverse scenes with different compositions of objects and backgrounds. As the scene synthesis is sensitive to the quality of pseudo-labels, we further propose a hardness-aware strategy to reduce the effect of low-quality pseudo-labels and maintain a dynamic pseudo-database to ensure the diversity and quality of synthetic scenes. Extensive experimental results on the widely used KITTI and Waymo datasets demonstrate the superiority of the proposed HASS method, which outperforms existing semi-supervised learning methods on 3D object detection. Code: https://github.com/wzzheng/HASS. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# プライバシーに配慮したビジュアル言語モデル
Privacy-Aware Visual Language Models ( http://arxiv.org/abs/2405.17423v1 ) ライセンス: Link先を確認 | Laurens Samson, Nimrod Barazani, Sennay Ghebreab, Yuki M. Asano, | (参考訳) 本稿では,視覚言語モデル(VLM)がプライバシに敏感な情報をどう扱うかという理解を深めることを目的としている。
この目的のために,パスポートや指紋などの8つのセンシティブなカテゴリの画像を含む新しいベンチマークPrivBenchを導入する。
このベンチマークで10の最先端のVLMを評価し、一般的にはプライバシの理解が限定されていることを観察し、モデル改善のための重要な領域を強調した。
これに基づいて、視覚的プライバシに関する知識を備えたVLMの装備を目的とした、新しいインストラクションチューニングデータセットであるPrivTuneを紹介します。
トレーニング済みの2つのVLM(TinyLLaVaとMiniGPT-v2)をこの小さなデータセットでチューニングすることで、感度の高いコンテンツを認識する能力が向上し、GPT4-Vよりも優れています。
同時に、プライバシチューニングはVQAなどの標準ベンチマーク上でのVLMのパフォーマンスに最小限の影響しか与えないことを示す。
本稿では,VLMを現実のデータを安全に扱えるようにするための重要な課題を概説し,プライバシを意識したVLM構築に向けた第一歩を踏み出すための簡単なレシピを提供する。
This paper aims to advance our understanding of how Visual Language Models (VLMs) handle privacy-sensitive information, a crucial concern as these technologies become integral to everyday life. To this end, we introduce a new benchmark PrivBench, which contains images from 8 sensitive categories such as passports, or fingerprints. We evaluate 10 state-of-the-art VLMs on this benchmark and observe a generally limited understanding of privacy, highlighting a significant area for model improvement. Based on this we introduce PrivTune, a new instruction-tuning dataset aimed at equipping VLMs with knowledge about visual privacy. By tuning two pretrained VLMs, TinyLLaVa and MiniGPT-v2, on this small dataset, we achieve strong gains in their ability to recognize sensitive content, outperforming even GPT4-V. At the same time, we show that privacy-tuning only minimally affects the VLMs performance on standard benchmarks such as VQA. Overall, this paper lays out a crucial challenge for making VLMs effective in handling real-world data safely and provides a simple recipe that takes the first step towards building privacy-aware VLMs. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# LARM:ロングホライゾン・エボディード・インテリジェンスのための大規模自動回帰モデル
LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence ( http://arxiv.org/abs/2405.17424v1 ) ライセンス: Link先を確認 | Zhuoling Li, Xiaogang Xu, Zhenhua Xu, SerNam Lim, Hengshuang Zhao, | (参考訳) 現実世界と対話する必要があるため、エンボディエージェントは包括的事前知識、長期計画能力、迅速な応答速度を持つ必要がある。
最近の大規模言語モデル(LLM)ベースのエージェントは有望なパフォーマンスを実現しているが、いくつかの制限がある。
例えば、LLMの出力は記述文であり、特定の動作を決定する際には曖昧である。
これらの制約に対処するため、我々はLARM(Big Auto-Regressive Model)を導入する。
LARMはテキストとマルチビューの両方を入力として利用し、その後のアクションを自動回帰的に予測する。
LARMを訓練するために、自動回帰ノード送信構造と呼ばれる新しいデータフォーマットを開発し、対応するデータセットを組み立てる。
LARMは二段階の訓練制度を採用し、Minecraftの機械装置の収穫に成功し、従来のベストメソッドの最高性能よりもはるかに複雑な意思決定チェーンを要求した。
さらに、LARMの速度は6.8倍速い。
Due to the need to interact with the real world, embodied agents are required to possess comprehensive prior knowledge, long-horizon planning capability, and a swift response speed. Despite recent large language model (LLM) based agents achieving promising performance, they still exhibit several limitations. For instance, the output of LLMs is a descriptive sentence, which is ambiguous when determining specific actions. To address these limitations, we introduce the large auto-regressive model (LARM). LARM leverages both text and multi-view images as input and predicts subsequent actions in an auto-regressive manner. To train LARM, we develop a novel data format named auto-regressive node transmission structure and assemble a corresponding dataset. Adopting a two-phase training regimen, LARM successfully harvests enchanted equipment in Minecraft, which demands significantly more complex decision-making chains than the highest achievements of prior best methods. Besides, the speed of LARM is 6.8x faster. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# ニューロンから中性子へ:解釈可能性のケーススタディ
From Neurons to Neutrons: A Case Study in Interpretability ( http://arxiv.org/abs/2405.17425v1 ) ライセンス: Link先を確認 | Ouail Kitouni, Niklas Nolte, Víctor Samuel Pérez-Díaz, Sokratis Trifinopoulos, Mike Williams, | (参考訳) 機械的解釈可能性(MI)は、ニューラルネットワークが予測を行う方法を完全に理解する道のりを約束する。
以前の研究は、たとえ単純な算術を訓練しても、モデルが初期化やハイパーパラメータに依存する様々なアルゴリズム(時には同時に)を実装できることを示していた。
これは、ニューロンレベルの解釈可能性技術が適用性に制限があることを意味するか?
高次元ニューラルネットワークはトレーニングデータの低次元表現を学習することができると我々は主張する。
このような表現は、機械的解釈可能性レンズを通して理解することができ、驚くほど人間由来のドメイン知識に忠実な洞察を提供する。
このことは、解釈可能性に対するそのようなアプローチが、問題を解決するために訓練されたモデルから問題に対する新しい理解を導き出すのに有用であることを示している。
そこで本研究では,核データを再現する訓練モデルを用いて,核物理学の概念を抽出する。
Mechanistic Interpretability (MI) promises a path toward fully understanding how neural networks make their predictions. Prior work demonstrates that even when trained to perform simple arithmetic, models can implement a variety of algorithms (sometimes concurrently) depending on initialization and hyperparameters. Does this mean neuron-level interpretability techniques have limited applicability? We argue that high-dimensional neural networks can learn low-dimensional representations of their training data that are useful beyond simply making good predictions. Such representations can be understood through the mechanistic interpretability lens and provide insights that are surprisingly faithful to human-derived domain knowledge. This indicates that such approaches to interpretability can be useful for deriving a new understanding of a problem from models trained to solve it. As a case study, we extract nuclear physics concepts by studying models trained to reproduce nuclear data. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# 自律運転における鳥の視線知覚ロバスト性の評価と改善
Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving ( http://arxiv.org/abs/2405.17426v1 ) ライセンス: Link先を確認 | Shaoyuan Xie, Lingdong Kong, Wenwei Zhang, Jiawei Ren, Liang Pan, Kai Chen, Ziwei Liu, | (参考訳) 近年の鳥眼視(BEV)表現の進歩は、車内3D知覚に顕著な可能性を秘めている。
しかし、これらの手法は標準ベンチマークでは目覚ましい結果を得たが、様々な条件下での頑健さは十分に評価されていない。
本研究では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを提案する。
このスイートには、さまざまな種類のカメラの破損タイプが含まれており、それぞれが3つの重度レベルを調べている。
また,マルチモーダルモデルを用いた場合の完全なセンサ故障の影響についても検討した。
RoboBEVを通じて、検出、マップセグメンテーション、深さ推定、占有率予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
分析の結果,分布内データセットにおけるモデルの性能と分布外課題に対するレジリエンスとの間には顕著な相関関係が認められた。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
さらに、広範囲な時間的情報を活用することにより、モデルの堅牢性が大幅に向上することが観察された。
そこで我々は,CLIPモデルに基づく効果的なロバストネス向上戦略を設計した。
本研究から得られた知見は,精度と実世界のロバストネスをシームレスに組み合わせた将来のBEVモデル開発への道を開くものである。
Recent advancements in bird's eye view (BEV) representations have shown remarkable promise for in-vehicle 3D perception. However, while these methods have achieved impressive results on standard benchmarks, their robustness in varied conditions remains insufficiently assessed. In this study, we present RoboBEV, an extensive benchmark suite designed to evaluate the resilience of BEV algorithms. This suite incorporates a diverse set of camera corruption types, each examined over three severity levels. Our benchmarks also consider the impact of complete sensor failures that occur when using multi-modal models. Through RoboBEV, we assess 33 state-of-the-art BEV-based perception models spanning tasks like detection, map segmentation, depth estimation, and occupancy prediction. Our analyses reveal a noticeable correlation between the model's performance on in-distribution datasets and its resilience to out-of-distribution challenges. Our experimental results also underline the efficacy of strategies like pre-training and depth-free BEV transformations in enhancing robustness against out-of-distribution data. Furthermore, we observe that leveraging extensive temporal information significantly improves the model's robustness. Based on our observations, we design an effective robustness enhancement strategy based on the CLIP model. The insights from this study pave the way for the development of future BEV models that seamlessly combine accuracy with real-world robustness. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# Reason3D:大規模言語モデルによる3次元セグメンテーションの探索と推論
Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model ( http://arxiv.org/abs/2405.17427v1 ) ライセンス: Link先を確認 | Kuan-Chih Huang, Xiangtai Li, Lu Qi, Shuicheng Yan, Ming-Hsuan Yang, | (参考訳) マルチモーダル大言語モデル(LLM)の最近の進歩は、様々な領域、特に概念推論においてその可能性を示している。
これらの発展にもかかわらず、3D環境を理解するための応用は依然として限られている。
本稿では,包括的3次元理解を目的としたLLMであるReason3Dを紹介する。
Reason3Dは、ポイントクラウドデータとテキストプロンプトを入力として、テキスト応答とセグメンテーションマスクを生成し、3D推論セグメンテーション、階層検索、参照表現、詳細なマスク出力による質問応答などの高度なタスクを容易にする。
具体的には,階層型マスクデコーダを提案する。
このデコーダは、対象の一般領域をカバーする粗い位置推定を生成する。
この基礎推定は、オブジェクトの識別とセグメンテーションの精度を大幅に向上させる、細かな、粗いセグメンテーション戦略を促進する。
Reason3Dが大規模ScanNetおよびMatterport3Dデータセットにおいて、3D表現参照、3D質問応答、3D推論セグメンテーションタスクにおいて顕著な結果が得られることを検証する。
コードとモデルは、https://github.com/KuanchihHuang/Reason3D.comで入手できる。
Recent advancements in multimodal large language models (LLMs) have shown their potential in various domains, especially concept reasoning. Despite these developments, applications in understanding 3D environments remain limited. This paper introduces Reason3D, a novel LLM designed for comprehensive 3D understanding. Reason3D takes point cloud data and text prompts as input to produce textual responses and segmentation masks, facilitating advanced tasks like 3D reasoning segmentation, hierarchical searching, express referring, and question answering with detailed mask outputs. Specifically, we propose a hierarchical mask decoder to locate small objects within expansive scenes. This decoder initially generates a coarse location estimate covering the object's general area. This foundational estimation facilitates a detailed, coarse-to-fine segmentation strategy that significantly enhances the precision of object identification and segmentation. Experiments validate that Reason3D achieves remarkable results on large-scale ScanNet and Matterport3D datasets for 3D express referring, 3D question answering, and 3D reasoning segmentation tasks. Code and models are available at: https://github.com/KuanchihHuang/Reason3D. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# NV-Embed:ジェネリスト埋め込みモデルとしてのLCMの訓練技術の改善
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models ( http://arxiv.org/abs/2405.17428v1 ) ライセンス: Link先を確認 | Chankyu Lee, Rajarshi Roy, Mengyao Xu, Jonathan Raiman, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping, | (参考訳) デコーダのみの大規模言語モデル (LLM) ベースの埋め込みモデルは、高密度ベクトルベースの検索を含む汎用テキスト埋め込みタスクにおいてBERTやT5ベースの埋め込みモデルよりも優れている。
本研究では,多目的埋め込みモデルとしてのLLMの性能を向上し,そのシンプルさと再現性を維持しつつ,多種多様なアーキテクチャ設計と訓練手順を備えたNV-Embedモデルを提案する。
モデルアーキテクチャでは,LLMからの最後の<EOS>トークンを埋め込んだ場合と比較して,検索および下流タスクの精度を一貫して向上する,プール埋め込みを得るための潜在注意層を提案する。
表現学習の強化を目的として, コントラストトレーニングにおいて, LLMの因果注意マスクを除去する。
モデル学習には2段階のコントラスト命令チューニング手法を導入する。
まず、検索データセットの命令による対照的なトレーニングを適用し、バッチ内陰性とキュレートされたハードネガティブな例を利用する。
ステージ2では、さまざまな非検索データセットを命令チューニングにブレンドし、非検索タスクの精度を向上するだけでなく、検索性能も向上する。
これらの手法を組み合わせることで,NV-Embedモデルは,検索,再分類,分類,クラスタリング,意味的テキスト類似性タスクを含む56のタスクで,MTEB(Massive Text Embedding Benchmark)で1位,69.32のスコアを記録した。
特に,MTEBベンチマーク(BEIR)では,15の検索タスクにおいて59.36の最高スコアを達成した。
私たちはこのモデルを、https://huggingface.co/nvidia/NV-Embed-v1でオープンソース化します。
Decoder-only large language model (LLM)-based embedding models are beginning to outperform BERT or T5-based embedding models in general-purpose text embedding tasks, including dense vector-based retrieval. In this work, we introduce the NV-Embed model with a variety of architectural designs and training procedures to significantly enhance the performance of LLM as a versatile embedding model, while maintaining its simplicity and reproducibility. For model architecture, we propose a latent attention layer to obtain pooled embeddings, which consistently improves retrieval and downstream task accuracy compared to mean pooling or using the last <EOS> token embedding from LLMs. To enhance representation learning, we remove the causal attention mask of LLMs during contrastive training. For model training, we introduce a two-stage contrastive instruction-tuning method. It first applies contrastive training with instructions on retrieval datasets, utilizing in-batch negatives and curated hard negative examples. At stage-2, it blends various non-retrieval datasets into instruction tuning, which not only enhances non-retrieval task accuracy but also improves retrieval performance. Combining these techniques, our NV-Embed model, using only publicly available data, has achieved a record-high score of 69.32, ranking No. 1 on the Massive Text Embedding Benchmark (MTEB) (as of May 24, 2024), with 56 tasks, encompassing retrieval, reranking, classification, clustering, and semantic textual similarity tasks. Notably, our model also attains the highest score of 59.36 on 15 retrieval tasks in the MTEB benchmark (also known as BEIR). We will open-source the model at: https://huggingface.co/nvidia/NV-Embed-v1. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# GaussianFormer:視覚に基づく3Dセマンティック動作予測のためのガウス的シーン
GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction ( http://arxiv.org/abs/2405.17429v1 ) ライセンス: Link先を確認 | Yuanhui Huang, Wenzhao Zheng, Yunpeng Zhang, Jie Zhou, Jiwen Lu, | (参考訳) 3Dセマンティック占有予測は,周辺環境の3次元微粒な形状とセマンティックスを得ることを目的としており,視覚中心の自律運転の堅牢性にとって重要な課題である。
既存のほとんどの手法では、シーン表現としてボクセルのような密度の高い格子を用いており、占有の空間性やオブジェクトスケールの多様性を無視し、リソースのバランスの取れない割り当てにつながる。
そこで本研究では,各ガウスがフレキシブルな関心領域とセマンティックな特徴を表現している3Dセマンティック・ガウスを,スパースな3Dセマンティック・ガウスで表現するオブジェクト中心の表現を提案する。
我々は、注意機構を通じて画像から情報を集約し、位置、共分散、意味論を含む3Dガウスの性質を反復的に洗練する。
そこで我々は,隣接するガウス人のみを一定の位置に集約した3次元占有予測を生成するための効率的なガウス・ボクセル分割法を提案する。
我々は広く採用されているnuScenesとKITTI-360データセットについて広範な実験を行った。
実験の結果、GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現していることが示された。
コードは、https://github.com/huang-yh/GaussianFormer.comで入手できる。
3D semantic occupancy prediction aims to obtain 3D fine-grained geometry and semantics of the surrounding scene and is an important task for the robustness of vision-centric autonomous driving. Most existing methods employ dense grids such as voxels as scene representations, which ignore the sparsity of occupancy and the diversity of object scales and thus lead to unbalanced allocation of resources. To address this, we propose an object-centric representation to describe 3D scenes with sparse 3D semantic Gaussians where each Gaussian represents a flexible region of interest and its semantic features. We aggregate information from images through the attention mechanism and iteratively refine the properties of 3D Gaussians including position, covariance, and semantics. We then propose an efficient Gaussian-to-voxel splatting method to generate 3D occupancy predictions, which only aggregates the neighboring Gaussians for a certain position. We conduct extensive experiments on the widely adopted nuScenes and KITTI-360 datasets. Experimental results demonstrate that GaussianFormer achieves comparable performance with state-of-the-art methods with only 17.8% - 24.8% of their memory consumption. Code is available at: https://github.com/huang-yh/GaussianFormer. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# Matryoshka Multimodal Models
Matryoshka Multimodal Models ( http://arxiv.org/abs/2405.17430v1 ) ライセンス: Link先を確認 | Mu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee, | (参考訳) LLaVAのような大規模マルチモーダルモデル(LMM)は、視覚言語学的推論において強い性能を示している。
これらのモデルはまず、画像を固定された多数のビジュアルトークンに埋め込み、次に大きな言語モデル(LLM)にフィードする。
しかし、この設計は高解像度の画像やビデオなどの密集した視覚シナリオに対して過度に多くのトークンを発生させ、非常に非効率になる。
トークンのプルーニング/マージ方法は存在するが、各画像に対して単一の長さの出力を生成し、情報密度対効率のトレードオフには柔軟性がない。
マルチモーダルモデル(M3: Matryoshka Multimodal Models,M3: Matryoshka Multimodal Models)を提案する。
M3は既存のデータセットに必要な粒度を分析するためのフレームワークを提供しており、COCOスタイルのベンチマークでは、すべての576トークンと同様の精度を得るためには、約9のビジュアルトークンしか必要としない。
Large Multimodal Models (LMMs) such as LLaVA have shown strong performance in visual-linguistic reasoning. These models first embed images into a fixed large number of visual tokens and then feed them into a Large Language Model (LLM). However, this design causes an excessive number of tokens for dense visual scenarios such as high-resolution images and videos, leading to great inefficiency. While token pruning/merging methods do exist, they produce a single length output for each image and do not afford flexibility in trading off information density v.s. efficiency. Inspired by the concept of Matryoshka Dolls, we propose M3: Matryoshka Multimodal Models, which learns to represent visual content as nested sets of visual tokens that capture information across multiple coarse-to-fine granularities. Our approach offers several unique benefits for LMMs: (1) One can explicitly control the visual granularity per test instance during inference, e.g. , adjusting the number of tokens used to represent an image based on the anticipated complexity or simplicity of the content; (2) M3 provides a framework for analyzing the granularity needed for existing datasets, where we find that COCO-style benchmarks only need around ~9 visual tokens to obtain accuracy similar to that of using all 576 tokens; (3) Our approach provides a foundation to explore the best trade-off between performance and visual token length at sample level, where our investigation reveals that a large gap exists between the oracle upper bound and current fixed-scale representations. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |
# 分数チャーン絶縁体の結晶不変量
Crystalline invariants of fractional Chern insulators ( http://arxiv.org/abs/2405.17431v1 ) ライセンス: Link先を確認 | Ryohei Kobayashi, Yuxuan Zhang, Naren Manjunath, Maissam Barkeshli, | (参考訳) 結晶対称性の存在下では、位相的に順序付けられた状態は対称性で保護された不変量のホストを取得することができる。
これらは、格子欠陥に対する分数量化応答に加えて、エノンの結晶対称性の分数化のパターンを決定する。
ここでは、高対称性点を中心とする部分回転の基底状態期待値を用いて結晶不変量を抽出する方法を示す。
共形場理論とG-交叉テンソル圏の手法を用いて、部分回転から得られる不変量の理論を開発し、アベリアおよび非アベリア位相順序の両方に適用する。
次に、分数チャーン絶縁体の射影パルトン波関数に対するモンテカルロの数値計算を行い、理論と数値の間の顕著な一致を示す。
位相的順序を考えると、ホール導電率、充填率、部分回転不変量は系の結晶不変量を完全に特徴づけていることが示される。
この結果はまた、空間回転対称性によって保護された連続分数量子ホール状態の不変量も得られる。
In the presence of crystalline symmetry, topologically ordered states can acquire a host of symmetry-protected invariants. These determine the patterns of crystalline symmetry fractionalization of the anyons in addition to fractionally quantized responses to lattice defects. Here we show how ground state expectation values of partial rotations centered at high symmetry points can be used to extract crystalline invariants. Using methods from conformal field theory and G-crossed braided tensor categories, we develop a theory of invariants obtained from partial rotations, which apply to both Abelian and non-Abelian topological orders. We then perform numerical Monte Carlo calculations for projected parton wave functions of fractional Chern insulators, demonstrating remarkable agreement between theory and numerics. For the topological orders we consider, we show that the Hall conductivity, filling fraction, and partial rotation invariants fully characterize the crystalline invariants of the system. Our results also yield invariants of continuum fractional quantum Hall states protected by spatial rotational symmetry. | 翻訳日:2024-05-28 13:52:58 公開日:2024-05-27 |