このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241027となっている論文です。

PDF登録状況(公開日: 20241027)

TitleAuthorsAbstract論文公表日・翻訳日
# x^{2q+1}$ over $\mathbb{F}_{q^2}$の微分スペクトルとウォルシュスペクトルについて

On the differential and Walsh spectra of $x^{2q+1}$ over $\mathbb{F}_{q^2}$ ( http://arxiv.org/abs/2407.07710v2 )

ライセンス: Link先を確認
Sihem Mesnager, Huawei Wu, (参考訳) q$ を奇素数とし、$\mathbb{F}_{q^2}$ を$q^2$元を持つ有限体とする。 本稿では、パワー関数 $F(x)=x^{2q+1}$ over $\mathbb{F}_{q^2}$ の微分スペクトルを決定する。 また、$\mathbb{F}_{q^2}$の特性が$$$であるとき、ウォルシュスペクトルの値分布を$F$とし、それを4$値とし、得られた結果を用いて4$の巡回符号の重量分布を決定する。

Let $q$ be an odd prime power and let $\mathbb{F}_{q^2}$ be the finite field with $q^2$ elements. In this paper, we determine the differential spectrum of the power function $F(x)=x^{2q+1}$ over $\mathbb{F}_{q^2}$. When the characteristic of $\mathbb{F}_{q^2}$ is $3$, we also determine the value distribution of the Walsh spectrum of $F$, showing that it is $4$-valued, and use the obtained result to determine the weight distribution of a $4$-weight cyclic code.
翻訳日:2024-11-08 22:40:08 公開日:2024-10-27
# MOMAland: 多目的マルチエージェント強化学習のためのベンチマークセット

MOMAland: A Set of Benchmarks for Multi-Objective Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2407.16312v2 )

ライセンス: Link先を確認
Florian Felten, Umut Ucak, Hicham Azmani, Gao Peng, Willem Röpke, Hendrik Baier, Patrick Mannion, Diederik M. Roijers, Jordan K. Terry, El-Ghazali Talbi, Grégoire Danoy, Ann Nowé, Roxana Rădulescu, (参考訳) 交通システム、電力網、サプライチェーンの管理といった困難なタスクの多くは、複数の競合する目標をバランスさせ、様々な独立した意思決定者(DM)の行動を調整する必要がある複雑な意思決定プロセスを含む。 このようなタスクの形式化と対処の1つの視点は、多目的マルチエージェント強化学習(MOMARL)である。 MOMARLは強化学習(RL)を、学習プロセスにおいて複数の目的を考える必要がある複数のエージェントの問題に拡張する。 強化学習研究において、ベンチマークは進歩、評価、再現性を促進するために不可欠である。 ベンチマークの重要性は、シングルエージェントRL(e g , Gymnasium)、マルチエージェントRL(e g , PettingZoo)、シングルエージェントマルチオブジェクトRL(e g , MO-Gymnasium)など、さまざまなRLパラダイム向けに開発された多数のベンチマークフレームワークの存在によって裏付けられている。 MOMARL分野の進歩を支援するため,多目的マルチエージェント強化学習のための最初の標準化環境であるMOMAlandを紹介した。 MOMAlandはこの新興分野における総合的なベンチマークの必要性に対処し、エージェントの数、状態表現、報酬構造、ユーティリティを考慮した10以上の多様な環境を提供する。 将来の研究のための強力なベースラインを提供するため、MOMAlandはそのような設定でポリシーを学習できるアルゴリズムも含んでいる。

Many challenging tasks such as managing traffic systems, electricity grids, or supply chains involve complex decision-making processes that must balance multiple conflicting objectives and coordinate the actions of various independent decision-makers (DMs). One perspective for formalising and addressing such tasks is multi-objective multi-agent reinforcement learning (MOMARL). MOMARL broadens reinforcement learning (RL) to problems with multiple agents each needing to consider multiple objectives in their learning process. In reinforcement learning research, benchmarks are crucial in facilitating progress, evaluation, and reproducibility. The significance of benchmarks is underscored by the existence of numerous benchmark frameworks developed for various RL paradigms, including single-agent RL (e.g., Gymnasium), multi-agent RL (e.g., PettingZoo), and single-agent multi-objective RL (e.g., MO-Gymnasium). To support the advancement of the MOMARL field, we introduce MOMAland, the first collection of standardised environments for multi-objective multi-agent reinforcement learning. MOMAland addresses the need for comprehensive benchmarking in this emerging field, offering over 10 diverse environments that vary in the number of agents, state representations, reward structures, and utility considerations. To provide strong baselines for future research, MOMAland also includes algorithms capable of learning policies in such settings.
翻訳日:2024-11-08 15:34:26 公開日:2024-10-27
# 符号なし距離場のニューラルサーフェス検出

Neural Surface Detection for Unsigned Distance Fields ( http://arxiv.org/abs/2407.18381v2 )

ライセンス: Link先を確認
Federico Stella, Nicolas Talabot, Hieu Le, Pascal Fua, (参考訳) SDF(Signed Distance Fields)からの抽出は、マーチングキューブのような従来のアルゴリズムを用いて行うことができる。 しかし、これらのアルゴリズムは表面上の符号フリップに依存するため、Unsigned Distance Fields (UDF) に直接使用することはできない。 本研究では,UDF を局所的に SDF に変換する深層学習手法を導入し,既存のアルゴリズムを用いて効果的に三角測量できる手法を提案する。 既存の手法よりも表面検出の精度がよいことを示す。 さらに、並列化可能ながら、目に見えない形状やデータセットをうまく一般化する。 また、UDF上で動作可能な最先端のデュアルメッシュ方式であるDualMeshUDFと併用して、この手法の柔軟性を実証し、その結果を改善し、パラメータを調整する必要をなくした。

Extracting surfaces from Signed Distance Fields (SDFs) can be accomplished using traditional algorithms, such as Marching Cubes. However, since they rely on sign flips across the surface, these algorithms cannot be used directly on Unsigned Distance Fields (UDFs). In this work, we introduce a deep-learning approach to taking a UDF and turning it locally into an SDF, so that it can be effectively triangulated using existing algorithms. We show that it achieves better accuracy in surface detection than existing methods. Furthermore it generalizes well to unseen shapes and datasets, while being parallelizable. We also demonstrate the flexibily of the method by using it in conjunction with DualMeshUDF, a state of the art dual meshing method that can operate on UDFs, improving its results and removing the need to tune its parameters.
翻訳日:2024-11-08 15:01:09 公開日:2024-10-27
# 高精細データセットの高精細・高精細・高精細映像符号化・復号化

High-Quality, ROS Compatible Video Encoding and Decoding for High-Definition Datasets ( http://arxiv.org/abs/2408.00538v2 )

ライセンス: Link先を確認
Jian Li, Bowen Xu, Sören Schwertfeger, (参考訳) ロボットデータセットは科学的ベンチマークやアルゴリズムの開発において重要であり、例えば、同時局所化とマッピング(SLAM)がある。 現代のロボットデータセットは、高解像度と高フレームレートのビデオデータを備えている。 データセットの保存と共有は、特に複数のカメラがデータセットに使用される場合、非常にコストがかかります。 したがって、このビデオデータを圧縮形式で保存することが不可欠である。 本稿では,ロボット・データセットにおける最新のビデオエンコーダの利用について検討する。 ROS 1 と ROS 2 フレームワーク内で mp4 ビデオを再生し、同期再生をシミュレーション時間でサポートするソフトウェアを提供する。 さらに、異なるエンコーダとそれらの設定を評価し、その結果のサイズ、品質、エンコード時間の観点から最適な構成を求める。 この作業を通じて、適切なストレージ制約下で、高品質なビデオデータセットを保存および共有することが可能であることを示す。

Robotic datasets are important for scientific benchmarking and developing algorithms, for example for Simultaneous Localization and Mapping (SLAM). Modern robotic datasets feature video data of high resolution and high framerates. Storing and sharing those datasets becomes thus very costly, especially if more than one camera is used for the datasets. It is thus essential to store this video data in a compressed format. This paper investigates the use of modern video encoders for robotic datasets. We provide a software that can replay mp4 videos within ROS 1 and ROS 2 frameworks, supporting the synchronized playback in simulated time. Furthermore, the paper evaluates different encoders and their settings to find optimal configurations in terms of resulting size, quality and encoding time. Through this work we show that it is possible to store and share even highest quality video datasets within reasonable storage constraints.
翻訳日:2024-11-08 13:29:21 公開日:2024-10-27
# ニューロモルフィックハードウェアにおける個別ブレーキインテント検出のためのFew-Shot Transfer Learning

Few-Shot Transfer Learning for Individualized Braking Intent Detection on Neuromorphic Hardware ( http://arxiv.org/abs/2408.03336v2 )

ライセンス: Link先を確認
Nathan Lutes, Venkata Sriram Siddhardh Nadendla, K. Krishnamurthy, (参考訳) 目的:本研究は、脳チップのAkida AKD1000ニューロモルフィックシステム上で、従来の脳波データを用いたグループレベルのモデルではなく、個々のレベルを開発するための、畳み込みスパイクニューラルネットワーク(CSNN)のトレーニングと実装に、数発のトランスファー学習手法を使用することを検討する。 主な結果:少なくとも90%の精度,真の正の速度,真の負の速度を達成しつつ,グループレベルのモデルを3つの訓練エポックに迅速に適応させることにより,個人固有の制動意図予測モデルを開発するための方法論の有効性を示す。 さらに、Akida AKD1000プロセッサをIntel Xeonの中央処理ユニットと比較すると、97%以上の電力削減とレイテンシのたった1.3*増加によるニューロモルフィックハードウェアのエネルギー効率が示されている。 同様の結果は、19チャンネル中5チャンネルのサブセットを用いて、その後のアブレーション研究で得られた。

Objective: This work explores use of a few-shot transfer learning method to train and implement a convolutional spiking neural network (CSNN) on a BrainChip Akida AKD1000 neuromorphic system-on-chip for developing individual-level, instead of traditionally used group-level, models using electroencephalographic data. Main Results: Efficacy of the above methodology to develop individual-specific braking intention predictive models by rapidly adapting the group-level model in as few as three training epochs while achieving at least 90% accuracy, true positive rate and true negative rate is presented. Further, results show the energy-efficiency of the neuromorphic hardware through a power reduction of over 97% with only a $1.3* increase in latency when using the Akida AKD1000 processor for network inference compared to an Intel Xeon central processing unit. Similar results were obtained in a subsequent ablation study using a subset of five out of 19 channels.
翻訳日:2024-11-08 12:44:50 公開日:2024-10-27
# 2レベル系の複雑性

Complexity of two-level systems ( http://arxiv.org/abs/2408.05557v2 )

ライセンス: Link先を確認
Imre Varga, (参考訳) 純量子系の場合のいわゆる相関エントロピーと、本質的には基底依存のない熱平衡の場合の熱エントロピーに基づいて、2レベルの系、egスピン、qubits、磁気モーメントの複雑さを解析する。 複雑さはシャノンエントロピーとR'enyiエントロピーの2階の違いとして定義される。 このシステムは,エネルギー状態のノイズの有無,あるいは外対角結合における障害の有無のいずれかにおいて,障害の強度を制御パラメータの特別な選択のために最大化することができる。 このようなノイズや障害依存は、基礎のない分析を提供し、有意義な洞察を与えることが示されている。 また、有限温度での常磁性体に対する熱平衡におけるスピンの同様のエントロピー複雑性、T$および磁場$B$、および平均場近似におけるイジングモデルの場合についても検討する。 結果として、全ての例は、エントロピック複雑性パラメータの研究が、これらのシステムの振る舞いをより深く理解するのに役立つという重要な証拠を提供する。

Complexity of two-level systems, e.g. spins, qubits, magnetic moments etc, are analysed based on the so-called correlational entropy in the case of pure quantum systems and the thermal entropy in case of thermal equilibrium that are suitable quantities essentially free from basis dependence. The complexity is defined as the difference between the Shannon-entropy and the second order R\'enyi-entropy, where the latter is connected to the traditional participation measure or purity. It is shown that the system attains maximal complexity for special choice of control parameters, i.e. strength of disorder either in the presence of noise of the energy states or the presence of disorder in the off diagonal coupling. It is shown that such a noise or disorder dependence provides a basis free analysis and gives meaningful insights. We also look at similar entropic complexity of spins in thermal equilibrium for a paramagnet at finite temperature, $T$ and magnetic field $B$, as well as the case of an Ising model in the mean-field approximation. As a result all examples provide important evidence that the investigation of the entropic complexity parameters help to get deeper understanding in the behavior of these systems.
翻訳日:2024-11-08 11:49:24 公開日:2024-10-27
# フェデレーション学習におけるプライバシと公正性に関する多言語文献レビュー

A Multivocal Literature Review on Privacy and Fairness in Federated Learning ( http://arxiv.org/abs/2408.08666v2 )

ライセンス: Link先を確認
Beatrice Balbierer, Lukas Heinlein, Domenique Zipperling, Niklas Kühl, (参考訳) フェデレートラーニング(Federated Learning)は、データ共有の必要性を排除することによって、AIアプリケーションに革命をもたらす方法を提供する。 しかし、研究によると、情報はまだトレーニング中に抽出可能であることが示されており、差分プライバシー命令のようなプライバシー保護対策が加えられている。 実世界のフェデレーション学習アプリケーションを実装するには、パフォーマンスの公平な分布から非差別的行動まで、公平性を考慮する必要がある。 特に、リスクの高いアプリケーション(例えば医療)では、過去の差別的エラーの繰り返しを避けることが最重要である。 近年の研究では、プライバシとフェアネスの間に固有の緊張関係が示されており、フェデレートラーニングにおけるプライバシとフェアネスを統合するための現在の方法を検討するために、多言語文献レビューを実施している。 分析の結果,プライバシと公正性の関係は無視され,現実世界のアプリケーションにとって重大なリスクが生じたことが示唆された。 我々は、プライバシ、公平性、パフォーマンスの関係を探求する必要性を強調し、統合された学習フレームワークの作成を提唱する。

Federated Learning presents a way to revolutionize AI applications by eliminating the necessity for data sharing. Yet, research has shown that information can still be extracted during training, making additional privacy-preserving measures such as differential privacy imperative. To implement real-world federated learning applications, fairness, ranging from a fair distribution of performance to non-discriminative behaviour, must be considered. Particularly in high-risk applications (e.g. healthcare), avoiding the repetition of past discriminatory errors is paramount. As recent research has demonstrated an inherent tension between privacy and fairness, we conduct a multivocal literature review to examine the current methods to integrate privacy and fairness in federated learning. Our analyses illustrate that the relationship between privacy and fairness has been neglected, posing a critical risk for real-world applications. We highlight the need to explore the relationship between privacy, fairness, and performance, advocating for the creation of integrated federated learning frameworks.
翻訳日:2024-11-08 07:18:07 公開日:2024-10-27
# クラスタリングとアライメント: モジュール追加におけるトレーニングダイナミクスの理解

Clustering and Alignment: Understanding the Training Dynamics in Modular Addition ( http://arxiv.org/abs/2408.09414v2 )

ライセンス: Link先を確認
Tiberiu Musat, (参考訳) 最近の研究によると、ニューラルネットワークは多くの単純な問題に対して解釈可能なアルゴリズムを学習している。 しかし、これらのアルゴリズムがトレーニング中にどのように現れるかはほとんど分かっていない。 本稿では,モジュール付加問題に対する2次元埋め込みを用いた小型ニューラルネットワークのトレーニング力学について検討する。 埋め込みベクトルは、グリッドと円という2つのタイプの構造に整理される傾向があることを私は観察する。 これらの構造を考察し,クラスタリングとアライメントという2組の組込みによって示される2つの単純な傾向の結果として,それらの出現を説明する。 埋め込みの異なるペア間の相互作用力として,これらの傾向の明示的な式を提案する。 私の公式がこれらの構造の出現を完全に説明できることを示すために、同じ構造が出現することを示す等価粒子シミュレーションを構築した。 セットアップにおける体重減少の役割について議論し、正規化とトレーニングのダイナミクスを結びつける新しいメカニズムを明らかにします。 私の発見をサポートするために、私はインタラクティブなデモをhttps://modular-addition.vercel.app/.comで公開しています。

Recent studies have revealed that neural networks learn interpretable algorithms for many simple problems. However, little is known about how these algorithms emerge during training. In this article, I study the training dynamics of a small neural network with 2-dimensional embeddings on the problem of modular addition. I observe that embedding vectors tend to organize into two types of structures: grids and circles. I study these structures and explain their emergence as a result of two simple tendencies exhibited by pairs of embeddings: clustering and alignment. I propose explicit formulae for these tendencies as interaction forces between different pairs of embeddings. To show that my formulae can fully account for the emergence of these structures, I construct an equivalent particle simulation where I show that identical structures emerge. I discuss the role of weight decay in my setup and reveal a new mechanism that links regularization and training dynamics. To support my findings, I also release an interactive demo available at https://modular-addition.vercel.app/.
翻訳日:2024-11-08 06:55:48 公開日:2024-10-27
# インテクスト学習における覚書化

Memorization in In-Context Learning ( http://arxiv.org/abs/2408.11546v2 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu, Steven Bethard, Eduardo Blanco, Ellen Riloff, (参考訳) In-context Learning (ICL) は,大規模言語モデル(LLM)の性能向上に有効な手法であることが証明されている。 しかし、この性能改善の正確なメカニズムは不明である。 この研究は、ICLが記憶されたトレーニングデータをどのように表すのかを初めて示し、この記憶と下流タスク(ゼロショット、少数ショット、多ショット)におけるパフォーマンスの相関について検討した。 ICLは,(1)ゼロショット学習と比較して暗記を顕著に表す,(2)ラベルのない実演は,表向きの暗記において最も有効な要素である,(3)少数ショット状態における表向きの暗記が高水準(約40%)に達すると性能が向上する,(4)ゼロショット学習を上回る場合のパフォーマンスと暗記との間には,非常に強い相関関係がある,といった特徴がある。 全体として、我々の研究はメモリ化をICLに影響を及ぼす新しい要因として明らかにし、重要な疑問を提起している。

In-context learning (ICL) has proven to be an effective strategy for improving the performance of large language models (LLMs) with no additional training. However, the exact mechanism behind this performance improvement remains unclear. This study is the first to show how ICL surfaces memorized training data and to explore the correlation between this memorization and performance on downstream tasks across various ICL regimes: zero-shot, few-shot, and many-shot. Our most notable findings include: (1) ICL significantly surfaces memorization compared to zero-shot learning in most cases; (2) demonstrations, without their labels, are the most effective element in surfacing memorization; (3) ICL improves performance when the surfaced memorization in few-shot regimes reaches a high level (about 40%); and (4) there is a very strong correlation between performance and memorization in ICL when it outperforms zero-shot learning. Overall, our study uncovers memorization as a new factor impacting ICL, raising an important question: to what extent do LLMs truly generalize from demonstrations in ICL, and how much of their success is due to memorization?
翻訳日:2024-11-08 06:11:36 公開日:2024-10-27
# FungiTastic: 画像分類のためのマルチモーダルデータセットとベンチマーク

FungiTastic: A multi-modal dataset and benchmark for image categorization ( http://arxiv.org/abs/2408.13632v2 )

ライセンス: Link先を確認
Lukas Picek, Klara Janouskova, Milan Sulc, Jiri Matas, (参考訳) 我々は、20年間にわたって継続的に収集された真菌の記録に基づいて、新しい挑戦的なベンチマークとデータセットであるFungiTasticを紹介した。 データセットは専門家によってラベル付けされ、キュレーションされ、5kの細粒度カテゴリー(種)の350kのマルチモーダル観測で構成されている。 菌類観測には、写真や追加データ、気象・気候データ、衛星画像、身体部分のセグメンテーションマスクが含まれる。 FungiTasticは、前例のないラベルの信頼性に関するDNA配列の真実をテストセットを含む数少ないベンチマークの1つである。 ベンチマークはサポートするように設計されています (i)標準閉集合分類 (ii)オープンセット分類 (三)マルチモーダル分類 (4)少人数の学習。 (v)ドメインシフトなど。 我々は,多くのユースケースに適したベースラインメソッド,HuggingFace上で多数の事前トレーニング済みモデル,モデルトレーニングのためのフレームワークを提供する。 データセットの機能とベースラインを記述する包括的なドキュメントは、https://bohemianvra.github.io/FungiTastic/とhttps://www.kaggle.com/datasets/picekl/fungitasticで公開されている。

We introduce a new, challenging benchmark and a dataset, FungiTastic, based on fungal records continuously collected over a twenty-year span. The dataset is labeled and curated by experts and consists of about 350k multimodal observations of 5k fine-grained categories (species). The fungi observations include photographs and additional data, e.g., meteorological and climatic data, satellite images, and body part segmentation masks. FungiTastic is one of the few benchmarks that include a test set with DNA-sequenced ground truth of unprecedented label reliability. The benchmark is designed to support (i) standard closed-set classification, (ii) open-set classification, (iii) multi-modal classification, (iv) few-shot learning, (v) domain shift, and many more. We provide baseline methods tailored for many use-cases, a multitude of ready-to-use pre-trained models on HuggingFace and a framework for model training. A comprehensive documentation describing the dataset features and the baselines are available at https://bohemianvra.github.io/FungiTastic/ and https://www.kaggle.com/datasets/picekl/fungitastic.
翻訳日:2024-11-08 05:15:13 公開日:2024-10-27
# 知的倉庫における多エージェント目標割り当てと経路探索--協調型多エージェント深層強化学習の視点から

Multi-Agent Target Assignment and Path Finding for Intelligent Warehouse: A Cooperative Multi-Agent Deep Reinforcement Learning Perspective ( http://arxiv.org/abs/2408.13750v2 )

ライセンス: Link先を確認
Qi Liu, Jianqi Gao, Dongjie Zhu, Pengbin Chen, Jingxiang Guo, Yanjie Li, (参考訳) 多エージェント目標割り当てと経路計画(TAPF)はインテリジェントウェアハウスにおける2つの重要な問題である。 しかし、ほとんどの文献はこれら2つの問題のうちの1つだけを別々に扱う。 本研究では,協調型多エージェント深層強化学習(RL)の観点から,目標の割り当てと経路計画を同時に解く手法を提案する。 我々の知る限り、これはインテリジェントウェアハウスにおけるTAPF問題を、協調的なマルチエージェントディープRLにモデル化する最初の作業であり、マルチエージェントディープRLに基づいてTAPFを同時に処理する最初の作業である。 さらに、以前の文献ではエージェントの物理力学をほとんど考慮していない。 本研究では, エージェントの物理力学を考察する。 実験結果から,提案手法は様々なタスク設定において良好に動作し,目的の割り当てが合理的に解決され,計画された経路が最短であることが示唆された。 さらに,本手法はベースラインよりも時間効率が高い。

Multi-agent target assignment and path planning (TAPF) are two key problems in intelligent warehouse. However, most literature only addresses one of these two problems separately. In this study, we propose a method to simultaneously solve target assignment and path planning from a perspective of cooperative multi-agent deep reinforcement learning (RL). To the best of our knowledge, this is the first work to model the TAPF problem for intelligent warehouse to cooperative multi-agent deep RL, and the first to simultaneously address TAPF based on multi-agent deep RL. Furthermore, previous literature rarely considers the physical dynamics of agents. In this study, the physical dynamics of the agents is considered. Experimental results show that our method performs well in various task settings, which means that the target assignment is solved reasonably well and the planned path is almost shortest. Moreover, our method is more time-efficient than baselines.
翻訳日:2024-11-08 05:15:13 公開日:2024-10-27
# 知的倉庫における多エージェント目標割り当てと経路探索--協調型多エージェント深層強化学習の視点から

Multi-Agent Target Assignment and Path Finding for Intelligent Warehouse: A Cooperative Multi-Agent Deep Reinforcement Learning Perspective ( http://arxiv.org/abs/2408.13750v3 )

ライセンス: Link先を確認
Qi Liu, Jianqi Gao, Dongjie Zhu, Zhongjian Qiao, Pengbin Chen, Jingxiang Guo, Yanjie Li, (参考訳) 多エージェント目標割り当てと経路計画(TAPF)はインテリジェントウェアハウスにおける2つの重要な問題である。 しかし、ほとんどの文献はこれら2つの問題のうちの1つだけを別々に扱う。 本研究では,協調型多エージェント深層強化学習(RL)の観点から,目標の割り当てと経路計画を同時に解く手法を提案する。 我々の知る限り、これはインテリジェントウェアハウスにおけるTAPF問題を、協調的なマルチエージェントディープRLにモデル化する最初の作業であり、マルチエージェントディープRLに基づいてTAPFを同時に処理する最初の作業である。 さらに、以前の文献ではエージェントの物理力学をほとんど考慮していない。 本研究では, エージェントの物理力学を考察する。 実験結果から,提案手法は様々なタスク設定において良好に動作し,目的の割り当てが合理的に解決され,計画された経路が最短であることが示唆された。 さらに,本手法はベースラインよりも時間効率が高い。

Multi-agent target assignment and path planning (TAPF) are two key problems in intelligent warehouse. However, most literature only addresses one of these two problems separately. In this study, we propose a method to simultaneously solve target assignment and path planning from a perspective of cooperative multi-agent deep reinforcement learning (RL). To the best of our knowledge, this is the first work to model the TAPF problem for intelligent warehouse to cooperative multi-agent deep RL, and the first to simultaneously address TAPF based on multi-agent deep RL. Furthermore, previous literature rarely considers the physical dynamics of agents. In this study, the physical dynamics of the agents is considered. Experimental results show that our method performs well in various task settings, which means that the target assignment is solved reasonably well and the planned path is almost shortest. Moreover, our method is more time-efficient than baselines.
翻訳日:2024-11-08 05:15:13 公開日:2024-10-27
# 大規模言語モデルに対する最適化ハイパーパラメータ法則

Optimization Hyper-parameter Laws for Large Language Models ( http://arxiv.org/abs/2409.04777v2 )

ライセンス: Link先を確認
Xingyu Xie, Shuicheng Yan, Kim-Chuan Toh, Tianwen Wei, (参考訳) 大規模言語モデルは、AIの大幅な進歩を推進してきたが、そのトレーニングはリソース集約的で、ハイパーパラメータの選択に非常に敏感である。 スケーリング法則は、モデルのサイズとデータ要件に関する貴重なガイダンスを提供するが、トレーニング中に進化する学習速度(LR)スケジュールのような動的ハイパーパラメータの選択には不足している。 このギャップを埋めるために、最適化ハイパーパラメータ法(Opt-Laws)を提案する。これは、ハイパーパラメータとトレーニング結果の関係を効果的に把握し、潜在的に最適なスケジュールの選択を可能にするフレームワークである。 確率微分方程式に基づいて、Opt-Lawsは、新しい数学的解釈可能性を導入し、いくつかの人気LRスケジュールに対する堅牢な理論的基盤を提供する。 様々なモデルサイズとデータスケールにわたる広範な検証は、トレーニング損失を正確に予測し、トレーニング前、継続トレーニング、微調整シナリオにおいて最適なLRスケジュール候補を特定できるOpt-Lawsの能力を示している。 このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。

Large Language Models have driven significant AI advancements, yet their training is resource-intensive and highly sensitive to hyper-parameter selection. While scaling laws provide valuable guidance on model size and data requirements, they fall short in choosing dynamic hyper-parameters, such as learning-rate (LR) schedules, that evolve during training. To bridge this gap, we present Optimization Hyper-parameter Laws (Opt-Laws), a framework that effectively captures the relationship between hyper-parameters and training outcomes, enabling the pre-selection of potential optimal schedules. Grounded in stochastic differential equations, Opt-Laws introduce novel mathematical interpretability and offer a robust theoretical foundation for some popular LR schedules. Our extensive validation across diverse model sizes and data scales demonstrates Opt-Laws' ability to accurately predict training loss and identify optimal LR schedule candidates in pre-training, continual training, and fine-tuning scenarios. This approach significantly reduces computational costs while enhancing overall model performance.
翻訳日:2024-11-07 22:49:49 公開日:2024-10-27
# Denoising: イメージング、逆問題、マシンラーニングのための強力なビルディングブロック

Denoising: A Powerful Building-Block for Imaging, Inverse Problems, and Machine Learning ( http://arxiv.org/abs/2409.06219v3 )

ライセンス: Link先を確認
Peyman Milanfar, Mauricio Delbracio, (参考訳) デノイング(Denoising)は、重要なパターンを強調する信号におけるランダムなゆらぎを減少させるプロセスであり、現代の科学的調査の始まり以来、基本的な問題となっている。 近年のデノナイジング技術、特に撮像技術は、いくつかの測定方法によって理論上の限界に近づき、顕著な成功を収めている。 しかし、数万件の研究論文にもかかわらず、ノイズ除去以外の広範囲にわたるノイズ除去の応用は、完全には認められていない。 これは、多様で多様な文学が原因であり、明確な概要を困難にしている。 本稿は、このギャップに対処することを目的としている。 本稿では, 難聴者, その構造, 望ましい性質について, 明確な視点を提示する。 我々は、画像、逆問題、機械学習における複雑なタスクに欠かせないビルディングブロックへと進化していくことの重要性を強調した。 その長い歴史にも拘わらず、コミュニティは予期せぬ、画期的なデノベーションの使い方を明らかにし続け、科学と工学の実践の基盤としての地位をさらに固めている。

Denoising, the process of reducing random fluctuations in a signal to emphasize essential patterns, has been a fundamental problem of interest since the dawn of modern scientific inquiry. Recent denoising techniques, particularly in imaging, have achieved remarkable success, nearing theoretical limits by some measures. Yet, despite tens of thousands of research papers, the wide-ranging applications of denoising beyond noise removal have not been fully recognized. This is partly due to the vast and diverse literature, making a clear overview challenging. This paper aims to address this gap. We present a clarifying perspective on denoisers, their structure, and desired properties. We emphasize the increasing importance of denoising and showcase its evolution into an essential building block for complex tasks in imaging, inverse problems, and machine learning. Despite its long history, the community continues to uncover unexpected and groundbreaking uses for denoising, further solidifying its place as a cornerstone of scientific and engineering practice.
翻訳日:2024-11-07 22:16:23 公開日:2024-10-27
# 量子想像時間進化の系列展開をサンプリングした有限温度系の量子多体シミュレーション

Quantum many-body simulation of finite-temperature systems with sampling a series expansion of a quantum imaginary-time evolution ( http://arxiv.org/abs/2409.07070v2 )

ライセンス: Link先を確認
Norifumi Matsumoto, Shoichiro Tsutsui, Yuya O. Nakagawa, Yuichiro Hidaka, Shota Kanasugi, Kazunori Maruyama, Hirotaka Oshima, Shintaro Sato, (参考訳) 有限温度での熱平衡特性のシミュレーションは、量子多体系の研究に不可欠である。 量子コンピュータは、量子モンテカルロ技法の符号問題のような古典的コンピュータが直面する課題を克服し、有限温度で大規模システムをシミュレートすることを可能にすることが期待されている。 フォールトトレラント量子コンピューティング(FTQC)デバイスに適した従来の手法は、大規模な量子多体システムを研究するために設計されているが、多数のアンシラ量子ビットと多くの基本ゲートを持つディープ量子回路を必要とするため、量子ビットと量子ゲートの可用性が制限されたFTQC時代の初期段階には適さない。 本稿では、この初期段階の量子デバイスに適した手法を提案し、有限温度で観測可能な天体の熱平衡期待値を算出する。 提案手法は, 単純な量子回路をサンプリングし, 対応する統計的アンサンブルを生成するMCMC-SPU (MCMC-SPU) アルゴリズムを用いて, マルコフ連鎖モンテカルロ (Markov-chain Monte Carlo) と命名した。 提案手法は, アンシラ量子ビットにおける測定結果のポストセレクションに伴う資源需要と確率の減衰の問題に対処する。 本稿では,一次元横フィールドイジングモデルを用いた数値シミュレーションによる提案手法の有効性を実証的な例として検証する。

Simulating thermal-equilibrium properties at finite temperature is crucial for studying quantum many-body systems. Quantum computers are expected to enable us to simulate large systems at finite temperatures, overcoming challenges faced by classical computers, like the sign problem of the quantum Monte-Carlo technique. Conventional methods suitable for fault-tolerant quantum computing (FTQC) devices are designed for studying large-scale quantum many-body systems but require a large number of ancilla qubits and a deep quantum circuit with many basic gates, making them unsuitable for the early stage of the FTQC era, at which the availability of qubits and quantum gates is limited. In this paper, we propose a method suitable for quantum devices in this early stage to calculate the thermal-equilibrium expectation value of an observable at finite temperatures. Our proposal, named the Markov-chain Monte Carlo with sampled pairs of unitaries (MCMC-SPU) algorithm, involves sampling simple quantum circuits and generating the corresponding statistical ensembles. This approach addresses the issues of resource demand and the decay in probability associated with postselection of measurement outcomes on ancilla qubits. We validate our proposal with numerical simulation on the one-dimensional transverse-field Ising model as an illustrative example.
翻訳日:2024-11-07 21:53:46 公開日:2024-10-27
# S-STE: 効率的な2:4スパース事前学習のための連続処理機能

S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training ( http://arxiv.org/abs/2409.09099v2 )

ライセンス: Link先を確認
Yuezhou Hu, Jun Zhu, Jianfei Chen, (参考訳) ディープニューラルネットワーク(DNN)のトレーニングには費用がかかる。 幸運なことに、Nvidia AmpereとHopper GPUは2:4の間隔を実装することで、行列乗算を密度の高い同等値の2倍の速さで加速することができる。 しかし、従来のSTEベースの2:4事前学習手法(例えば、STEとSR-STE)は、不連続なプルーニング機能のために最適化の難しさに悩まされている。 本研究では,従来のN:Mスパーストレーニングのボトルネックを包括的に分析し,不連続な3つの欠点を認識させる。 本稿では,S-STEを提案する。S-STEは,2:4スパースに連続的に重みを投影し,スパークウェイトをテンソルごとの固定スケーリング係数で再スケールする,単純な2:4トレーニング手法である。 さらに、活性化勾配とFP8量子化のプロセス全体に対して、最小分散非バイアス推定を採用する。 その結果,提案手法は以前の2:4の事前学習レシピよりも優れており,完全なパラメータモデルでも同等であることがわかった。

Training deep neural networks (DNNs) is costly. Fortunately, Nvidia Ampere and Hopper GPUs can accelerate matrix multiplications twice as fast as a dense equivalent by implementing 2:4 sparsity. However, previous STE-based 2:4 pre-training methods (e.g. STE with hard-thresholding, SR-STE) suffer from optimization difficulties because of discontinuous pruning function. In this study, we comprehensively analyse the bottleneck of traditional N:M sparse training and recognize three drawbacks with discontinuity: incorrect descending direction, inability to predict the amount of descent and sparse mask oscillation. In the light of this statement, we propose S-STE, a simple yet powerful 2:4 training method that contains two parts: to continuously project weights to be 2:4 sparse, and to rescale sparse weights with a per-tensor fixed scaling factor. Besides, we adopt minimum-variance unbiased estimation for activation gradient and FP8 quantization for whole process. Results show that our method surpass previous 2:4 pre-training recipes and is comparable even with full parameter models.
翻訳日:2024-11-07 20:57:42 公開日:2024-10-27
# SuperCoder2.0: 自律型プログラマとしてのLCMの実現可能性を探る技術レポート

SuperCoder2.0: Technical Report on Exploring the feasibility of LLMs as Autonomous Programmer ( http://arxiv.org/abs/2409.11190v2 )

ライセンス: Link先を確認
Anmol Gautam, Kishore Kumar, Adarsh Jha, Mukunda NS, Ishaan Bhola, (参考訳) 我々は,人工知能によるソフトウェア開発の強化を目的とした,高度な自律システムであるSuperCoder2.0を紹介する。 このシステムは、AIネイティブな開発アプローチとインテリジェントエージェントを組み合わせて、完全に自律的なコーディングを可能にする。 主な重点分野は、エラー出力トレースバックを備えたリトライ機構、リンティング問題を最小化するために抽象構文木(ast)解析を使用した包括的なコード書き換えと置換、検索拡張生成のためのコード埋め込み技術、特定の行数を特定するのではなく、問題解決のためのローカライズ方法に焦点を当てている。 この手法では、コードベースのナビゲーションとバグのローカライゼーションに3段階の階層的な検索スペース削減アプローチが採用されている:Retrieval Augmented Generation (RAG)とRepository File Level Mapを使用して候補ファイルを識別し、(2)File Level Schematic Mapを使用して最も関連性の高いファイルに絞り込み、(3)これらのファイル内で「関連する場所」を抽出する。 コード編集は、CodeGenerationとCodeEditingという2つのモジュールを通じて実行され、異なる温度値で複数のソリューションを生成し、コード整合性を維持するためにメソッドやクラス全体を置き換える。 フィードバックループはリポジトリレベルのテストケースを実行し、ソリューションを検証する。 SWE-bench Liteデータセットで実施された実験は、SuperCoder2.0の有効性を示し、上位5候補の84.33%で正しいファイルローカライゼーションを実現し、テストインスタンスの34%の解決に成功した。 このパフォーマンスは、SuperCoder2.0をSWE-benchのリーダーボードで世界第4位に位置づけている。 多様なリポジトリや問題タイプを扱うシステムの能力は、自律ソフトウェア開発の汎用ツールとしての可能性を強調している。 今後の作業は、コード編集プロセスの洗練と、改良された自然言語からコードマッピングのための高度な埋め込みモデルを探求することに集中する。

We present SuperCoder2.0, an advanced autonomous system designed to enhance software development through artificial intelligence. The system combines an AI-native development approach with intelligent agents to enable fully autonomous coding. Key focus areas include a retry mechanism with error output traceback, comprehensive code rewriting and replacement using Abstract Syntax Tree (ast) parsing to minimize linting issues, code embedding technique for retrieval-augmented generation, and a focus on localizing methods for problem-solving rather than identifying specific line numbers. The methodology employs a three-step hierarchical search space reduction approach for code base navigation and bug localization:utilizing Retrieval Augmented Generation (RAG) and a Repository File Level Map to identify candidate files, (2) narrowing down to the most relevant files using a File Level Schematic Map, and (3) extracting 'relevant locations' within these files. Code editing is performed through a two-part module comprising CodeGeneration and CodeEditing, which generates multiple solutions at different temperature values and replaces entire methods or classes to maintain code integrity. A feedback loop executes repository-level test cases to validate and refine solutions. Experiments conducted on the SWE-bench Lite dataset demonstrate SuperCoder2.0's effectiveness, achieving correct file localization in 84.33% of cases within the top 5 candidates and successfully resolving 34% of test instances. This performance places SuperCoder2.0 fourth globally on the SWE-bench leaderboard. The system's ability to handle diverse repositories and problem types highlights its potential as a versatile tool for autonomous software development. Future work will focus on refining the code editing process and exploring advanced embedding models for improved natural language to code mapping.
翻訳日:2024-11-07 20:13:03 公開日:2024-10-27
# 実験データからの三部交絡:$B^0\to K^{*0}μ^+μ^-$

Tripartite entanglement from experimental data: $B^0\to K^{*0}μ^+μ^-$ as a case study ( http://arxiv.org/abs/2409.13033v1 )

ライセンス: Link先を確認
Roberto A. Morales, Alejandro Szynkman, (参考訳) 本研究では,スピン零粒子の3体崩壊を1つのベクトルとフェルミオン対に分解した三分体と2つの量子ビットからなる三分子状態に対応する専用実験データから,ヘリシティ振幅の再構成に基づく角度解析を開発する。 最終状態のスピン密度行列から, エンタングルメント量化器を解析し, 角測定の不確かさの誤差伝搬において, 対応する意義を第2次まで決定した。 解析の応用として、LHCbの協力によって記録されたデータを用いて、B^0\to K^{*0}\mu^+\mu^-$崩壊における最終状態の完全な量子トモグラフィーを行った。 最終状態の真の量子エンタングルメントの存在と、カオンミューオンとディミューオンのサブシステムの両方に存在することを発見した。 近年、B$中間子崩壊は実験的側面と理論的側面の両方から大きな注目を集めており、提案された観測物はそれらを研究するための新しい視点を提供する。 さらに、ヘリシティ振幅再構成のための完全な実験データが利用可能であれば、この分析は他のいくつかのプロセスにも適用することができる。

We develop an angular analysis based on the reconstruction of the helicity amplitudes from dedicated experimental data corresponding to the tripartite state composed by one qutrit and two qubits, which arises in the three-body decays of a spin zero particle into one vector and a fermion pair. Starting from the associated spin density matrix of the final state, entanglement quantifiers were investigated and the corresponding significances were determined up to second order in the error propagation of the uncertainties of the angular measurements. As an application of our analysis, we performed a full quantum tomography of the final state in the $B^0\to K^{*0}\mu^+\mu^-$ decays using data recorded by LHCb collaboration. We found the presence of genuine quantum entanglement of the final state and also in both kaon-muon and di-muon subsystems. In recent years, $B$ meson decays received significant attention from both experimental and theoretical sides, and the proposed observables provide novel perspectives for studying them. Furthermore, this analysis could be also applied to other several processes if the complete experimental data were available for the helicity amplitudes reconstruction.
翻訳日:2024-11-07 12:14:24 公開日:2024-10-27
# 実験データからの三部交絡:$B^0\to K^{*0}μ^+μ^-$

Tripartite entanglement from experimental data: $B^0\to K^{*0}μ^+μ^-$ as a case study ( http://arxiv.org/abs/2409.13033v2 )

ライセンス: Link先を確認
Roberto A. Morales, Alejandro Szynkman, (参考訳) 本研究では,スピン零粒子の3体崩壊を1つのベクトルとフェルミオン対に分解した三分体と2つの量子ビットからなる三分子状態に対応する専用実験データから,ヘリシティ振幅の再構成に基づく角度解析を開発する。 最終状態のスピン密度行列から, エンタングルメント量化器を解析し, 角測定の不確かさの誤差伝搬において, 対応する意義を第2次まで決定した。 解析の応用として、LHCbの協力によって記録されたデータを用いて、B^0\to K^{*0}\mu^+\mu^-$崩壊における最終状態の完全な量子トモグラフィーを行った。 最終状態の真の量子エンタングルメントの存在と、カオンミューオンとディミューオンのサブシステムの両方に存在することを発見した。 近年、B$中間子崩壊は実験的側面と理論的側面の両方から大きな注目を集めており、提案された観測物はそれらを研究するための新しい視点を提供する。 さらに、ヘリシティ振幅再構成のための完全な実験データが利用可能であれば、この分析は他のいくつかのプロセスにも適用することができる。

We develop an angular analysis based on the reconstruction of the helicity amplitudes from dedicated experimental data corresponding to the tripartite state composed by one qutrit and two qubits, which arises in the three-body decays of a spin zero particle into one vector and a fermion pair. Starting from the associated spin density matrix of the final state, entanglement quantifiers were investigated and the corresponding significances were determined up to second order in the error propagation of the uncertainties of the angular measurements. As an application of our analysis, we performed a full quantum tomography of the final state in the $B^0\to K^{*0}\mu^+\mu^-$ decays using data recorded by LHCb collaboration. We found the presence of genuine quantum entanglement of the final state and also in both kaon-muon and di-muon subsystems. In recent years, $B$ meson decays received significant attention from both experimental and theoretical sides, and the proposed observables provide novel perspectives for studying them. Furthermore, this analysis could be also applied to other several processes if the complete experimental data were available for the helicity amplitudes reconstruction.
翻訳日:2024-11-07 12:14:24 公開日:2024-10-27
# NeuroPath: 人間のコネクトームのドットを接合する神経経路変換器

NeuroPath: A Neural Pathway Transformer for Joining the Dots of Human Connectomes ( http://arxiv.org/abs/2409.17510v2 )

ライセンス: Link先を確認
Ziquan Wei, Tingting Dan, Jiaqi Ding, Guorong Wu, (参考訳) 現代のイメージング技術は、2つの異なる脳領域間の接続性の研究を可能にしていますが、解剖学的構造が脳機能をどのようにサポートするのか、そして自然に機能的な変動が目覚ましい認知を如何に生み出すのかを深く理解しています。 一方、ニューロイメージングデータと表現型特徴との間の非線形マッピングを確立するために、機械学習の領域において大きな努力がなされている。 しかし、現在のアプローチにおける神経科学的な洞察の欠如は、過渡的な神経活動から認知行動を理解する上で大きな課題となる。 この課題に対処するために,ネットワーク神経科学の問題を高次トポロジーのための表現型グラフ表現学習問題に定式化することで,構造接続(SC)と機能接続(FC)の結合機構に注目する。 具体的には、SCによって物理的に配線された神経経路(パターン)によって、FCのユビキタスインスタンスがどのようにサポートされるのかを特徴付けるために、トポロジカルデトゥールの概念を導入し、脳の構造と機能によって相互作用する環状ループを形成する。 機械学習のclich\'eでは、SC-FCカップリングの基礎となるマルチホップデトゥール経路により、Transformer内に新しいマルチヘッド自己アテンション機構を考案し、SCとFCのペアグラフからマルチモーダル特徴表現をキャプチャする。 本稿では,ニューロパス(NeuroPath)とよばれるバイオインスパイアされた深層モデルを提案し,これまでにない量のニューロイメージから有意な結合性特徴表現を求める。 我々は、HCPやUK Biobankなどの大規模公開データセットを教師付き・ゼロショット学習で評価し、NeuroPathによる最先端のパフォーマンスはネットワーク神経科学に大きな可能性を示唆している。

Although modern imaging technologies allow us to study connectivity between two distinct brain regions in-vivo, an in-depth understanding of how anatomical structure supports brain function and how spontaneous functional fluctuations emerge remarkable cognition is still elusive. Meanwhile, tremendous efforts have been made in the realm of machine learning to establish the nonlinear mapping between neuroimaging data and phenotypic traits. However, the absence of neuroscience insight in the current approaches poses significant challenges in understanding cognitive behavior from transient neural activities. To address this challenge, we put the spotlight on the coupling mechanism of structural connectivity (SC) and functional connectivity (FC) by formulating such network neuroscience question into an expressive graph representation learning problem for high-order topology. Specifically, we introduce the concept of topological detour to characterize how a ubiquitous instance of FC (direct link) is supported by neural pathways (detour) physically wired by SC, which forms a cyclic loop interacted by brain structure and function. In the clich\'e of machine learning, the multi-hop detour pathway underlying SC-FC coupling allows us to devise a novel multi-head self-attention mechanism within Transformer to capture multi-modal feature representation from paired graphs of SC and FC. Taken together, we propose a biological-inspired deep model, coined as NeuroPath, to find putative connectomic feature representations from the unprecedented amount of neuroimages, which can be plugged into various downstream applications such as task recognition and disease diagnosis. We have evaluated NeuroPath on large-scale public datasets including HCP and UK Biobank under supervised and zero-shot learning, where the state-of-the-art performance by our NeuroPath indicates great potential in network neuroscience.
翻訳日:2024-11-06 16:20:44 公開日:2024-10-27
# NeuroPath: 人間のコネクトームのドットを接合する神経経路変換器

NeuroPath: A Neural Pathway Transformer for Joining the Dots of Human Connectomes ( http://arxiv.org/abs/2409.17510v3 )

ライセンス: Link先を確認
Ziquan Wei, Tingting Dan, Jiaqi Ding, Guorong Wu, (参考訳) 現代のイメージング技術は、2つの異なる脳領域間の接続性の研究を可能にしていますが、解剖学的構造が脳機能をどのようにサポートするのか、そして自然に機能的な変動が目覚ましい認知を如何に生み出すのかを深く理解しています。 一方、ニューロイメージングデータと表現型特徴との間の非線形マッピングを確立するために、機械学習の領域において大きな努力がなされている。 しかし、現在のアプローチにおける神経科学的な洞察の欠如は、過渡的な神経活動から認知行動を理解する上で大きな課題となる。 この課題に対処するために,ネットワーク神経科学の問題を高次トポロジーのための表現型グラフ表現学習問題に定式化することで,構造接続(SC)と機能接続(FC)の結合機構に注目する。 具体的には、SCによって物理的に配線された神経経路(パターン)によって、FCのユビキタスインスタンスがどのようにサポートされるのかを特徴付けるために、トポロジカルデトゥールの概念を導入し、脳の構造と機能によって相互作用する環状ループを形成する。 機械学習のclich\'eでは、SC-FCカップリングの基礎となるマルチホップデトゥール経路により、Transformer内に新しいマルチヘッド自己アテンション機構を考案し、SCとFCのペアグラフからマルチモーダル特徴表現をキャプチャする。 本稿では,ニューロパス(NeuroPath)とよばれるバイオインスパイアされた深層モデルを提案し,これまでにない量のニューロイメージから有意な結合性特徴表現を求める。 我々は、HCPやUK Biobankなどの大規模公開データセットを教師付き・ゼロショット学習で評価し、NeuroPathによる最先端のパフォーマンスはネットワーク神経科学に大きな可能性を示唆している。

Although modern imaging technologies allow us to study connectivity between two distinct brain regions in-vivo, an in-depth understanding of how anatomical structure supports brain function and how spontaneous functional fluctuations emerge remarkable cognition is still elusive. Meanwhile, tremendous efforts have been made in the realm of machine learning to establish the nonlinear mapping between neuroimaging data and phenotypic traits. However, the absence of neuroscience insight in the current approaches poses significant challenges in understanding cognitive behavior from transient neural activities. To address this challenge, we put the spotlight on the coupling mechanism of structural connectivity (SC) and functional connectivity (FC) by formulating such network neuroscience question into an expressive graph representation learning problem for high-order topology. Specifically, we introduce the concept of topological detour to characterize how a ubiquitous instance of FC (direct link) is supported by neural pathways (detour) physically wired by SC, which forms a cyclic loop interacted by brain structure and function. In the clich\'e of machine learning, the multi-hop detour pathway underlying SC-FC coupling allows us to devise a novel multi-head self-attention mechanism within Transformer to capture multi-modal feature representation from paired graphs of SC and FC. Taken together, we propose a biological-inspired deep model, coined as NeuroPath, to find putative connectomic feature representations from the unprecedented amount of neuroimages, which can be plugged into various downstream applications such as task recognition and disease diagnosis. We have evaluated NeuroPath on large-scale public datasets including HCP and UK Biobank under supervised and zero-shot learning, where the state-of-the-art performance by our NeuroPath indicates great potential in network neuroscience.
翻訳日:2024-11-06 16:20:44 公開日:2024-10-27
# 低ランク適応と微分プライバシーの関係について

On the Implicit Relation Between Low-Rank Adaptation and Differential Privacy ( http://arxiv.org/abs/2409.17538v2 )

ライセンス: Link先を確認
Saber Malekmohammadi, Golnoosh Farnadi, (参考訳) 自然言語処理における重要なアプローチは、一般的なドメインデータに対する大規模な事前学習モデルと、特定のタスクやドメインへの適応である。 モデルのサイズが大きくなるにつれて、パラメータの完全な微調整はますます非現実的になる。 これを解決するために、言語モデルの低ランクタスク適応のためのいくつかの手法、例えばLoRAやFLoRAが提案されている。 これらの方法は、事前訓練されたモデルの重みを固定し、トレーニング可能な低ランク分解行列を、アダプタと呼ばれるトランスアーキテクチャのいくつかの層に組み込む。 このアプローチは、ダウンストリームタスクに必要なトレーニング可能なパラメータの数を大幅に削減する。 本研究では,データプライバシのレンズによる低ランク適応について検討する。 理論的には、LoRAとFLoRAで使用される低ランク適応は、適応パラメータのバッチ勾配にランダムノイズを注入することと等価であることを示し、インジェクトされたノイズの分散を定量化する。 誘導雑音の分布とガウス分布の合計変動距離を同じ分散で制限したベリー・エッシー型を定式化することにより、低ランク適応のダイナミクスがアダプタの微分プライベート微調整のダイナミクスに近いことを示す。 最後に、Johnson-Lindenstrauss lemmaを用いて、勾配スケーリングで拡張された場合、低ランク適応は、アダプタを微調整するために固定ノイズスケールのDPSGDアルゴリズムの実行に非常に近いことを示す。 これらの理論的な結果は、既存の微調整アルゴリズムとは異なり、低ランク適応は暗黙的に微調整データのプライバシーを提供することを示している。

A significant approach in natural language processing involves large-scale pre-training models on general domain data followed by their adaptation to specific tasks or domains. As models grow in size, full fine-tuning all of their parameters becomes increasingly impractical. To address this, some methods for low-rank task adaptation of language models have been proposed, e.g., LoRA and FLoRA. These methods keep the pre-trained model weights fixed and incorporate trainable low-rank decomposition matrices into some layers of the transformer architecture, called adapters. This approach significantly reduces the number of trainable parameters required for downstream tasks compared to full fine-tuning all parameters. In this work, we look at low-rank adaptation from the lens of data privacy. We show theoretically that the low-rank adaptation used in LoRA and FLoRA is equivalent to injecting some random noise into the batch gradients w.r.t the adapter parameters, and we quantify the variance of the injected noise. By establishing a Berry-Esseen type bound on the total variation distance between distribution of the injected noise and a Gaussian distribution with the same variance, we show that the dynamics of low-rank adaptation is close to that of differentially private fine-tuning of the adapters. Finally, using Johnson-Lindenstrauss lemma, we show that when augmented with gradient scaling, low-rank adaptation is very close to performing DPSGD algorithm with a fixed noise scale to fine-tune the adapters. These theoretical findings suggest that unlike other existing fine-tuning algorithms, low-rank adaptation provides privacy w.r.t the fine-tuning data implicitly.
翻訳日:2024-11-06 16:20:44 公開日:2024-10-27
# MECD:複数イベントの因果関係の発見をビデオ推論で解き放つ

MECD: Unlocking Multi-Event Causal Discovery in Video Reasoning ( http://arxiv.org/abs/2409.17647v2 )

ライセンス: Link先を確認
Tieyuan Chen, Huabin Liu, Tianyao He, Yihang Chen, Chaofan Gan, Xiao Ma, Cheng Zhong, Yang Zhang, Yingxue Wang, Hui Lin, Weiyao Lin, (参考訳) ビデオ因果推論は、因果的観点からの映像コンテンツの高レベルな理解の実現を目的としている。 しかし、現在のビデオ推論タスクはスコープに限られており、主に質問応答パラダイムで実行され、単一のイベントと単純な因果関係のみを含む短いビデオに焦点を当てている。 このギャップを埋めるために、新しいタスクとデータセット、Multi-Event Causal Discovery (MECD)を導入します。 時系列的に長いビデオに分散したイベント間の因果関係を明らかにすることを目的としている。 イベントの視覚的セグメントとテキスト的記述が与えられたため、MECDはこれらのイベント間の因果関係を識別し、なぜ、どのように最終的な結果イベントが発生したかを説明する包括的な構造化されたイベントレベルのビデオ因果図を導出する必要がある。 MECDに対処するために,効率的なマスクベースのイベント予測モデルを用いて,前提イベントがマスクされている場合とマスクされていない場合の予測結果イベントを比較し,因果関係を推定する新しいフレームワークを考案した。 さらに,前庭調整や対物推論などの因果推論技術を統合し,因果関係の解明や因果関係の解明など,MECDの課題に対処する。 GPT-4o と VideoLLaVA をそれぞれ5.7% と4.1% で比較した。

Video causal reasoning aims to achieve a high-level understanding of video content from a causal perspective. However, current video reasoning tasks are limited in scope, primarily executed in a question-answering paradigm and focusing on short videos containing only a single event and simple causal relationships, lacking comprehensive and structured causality analysis for videos with multiple events. To fill this gap, we introduce a new task and dataset, Multi-Event Causal Discovery (MECD). It aims to uncover the causal relationships between events distributed chronologically across long videos. Given visual segments and textual descriptions of events, MECD requires identifying the causal associations between these events to derive a comprehensive, structured event-level video causal diagram explaining why and how the final result event occurred. To address MECD, we devise a novel framework inspired by the Granger Causality method, using an efficient mask-based event prediction model to perform an Event Granger Test, which estimates causality by comparing the predicted result event when premise events are masked versus unmasked. Furthermore, we integrate causal inference techniques such as front-door adjustment and counterfactual inference to address challenges in MECD like causality confounding and illusory causality. Experiments validate the effectiveness of our framework in providing causal relationships in multi-event videos, outperforming GPT-4o and VideoLLaVA by 5.7% and 4.1%, respectively.
翻訳日:2024-11-06 16:10:55 公開日:2024-10-27
# MECD:複数イベントの因果関係の発見をビデオ推論で解き放つ

MECD: Unlocking Multi-Event Causal Discovery in Video Reasoning ( http://arxiv.org/abs/2409.17647v3 )

ライセンス: Link先を確認
Tieyuan Chen, Huabin Liu, Tianyao He, Yihang Chen, Chaofan Gan, Xiao Ma, Cheng Zhong, Yang Zhang, Yingxue Wang, Hui Lin, Weiyao Lin, (参考訳) ビデオ因果推論は、因果的観点からの映像コンテンツの高レベルな理解の実現を目的としている。 しかし、現在のビデオ推論タスクはスコープに限られており、主に質問応答パラダイムで実行され、単一のイベントと単純な因果関係のみを含む短いビデオに焦点を当てている。 このギャップを埋めるために、新しいタスクとデータセット、Multi-Event Causal Discovery (MECD)を導入します。 時系列的に長いビデオに分散したイベント間の因果関係を明らかにすることを目的としている。 イベントの視覚的セグメントとテキスト的記述が与えられたため、MECDはこれらのイベント間の因果関係を識別し、なぜ、どのように最終的な結果イベントが発生したかを説明する包括的な構造化されたイベントレベルのビデオ因果図を導出する必要がある。 MECDに対処するために,効率的なマスクベースのイベント予測モデルを用いて,前提イベントがマスクされている場合とマスクされていない場合の予測結果イベントを比較し,因果関係を推定する新しいフレームワークを考案した。 さらに,前庭調整や対物推論などの因果推論技術を統合し,因果関係の解明や因果関係の解明など,MECDの課題に対処する。 GPT-4o と VideoLLaVA をそれぞれ5.7% と4.1% で比較した。

Video causal reasoning aims to achieve a high-level understanding of video content from a causal perspective. However, current video reasoning tasks are limited in scope, primarily executed in a question-answering paradigm and focusing on short videos containing only a single event and simple causal relationships, lacking comprehensive and structured causality analysis for videos with multiple events. To fill this gap, we introduce a new task and dataset, Multi-Event Causal Discovery (MECD). It aims to uncover the causal relationships between events distributed chronologically across long videos. Given visual segments and textual descriptions of events, MECD requires identifying the causal associations between these events to derive a comprehensive, structured event-level video causal diagram explaining why and how the final result event occurred. To address MECD, we devise a novel framework inspired by the Granger Causality method, using an efficient mask-based event prediction model to perform an Event Granger Test, which estimates causality by comparing the predicted result event when premise events are masked versus unmasked. Furthermore, we integrate causal inference techniques such as front-door adjustment and counterfactual inference to address challenges in MECD like causality confounding and illusory causality. Experiments validate the effectiveness of our framework in providing causal relationships in multi-event videos, outperforming GPT-4o and VideoLLaVA by 5.7% and 4.1%, respectively.
翻訳日:2024-11-06 16:10:55 公開日:2024-10-27
# 実空間におけるスペーサーベクトルの非近似性

Inapproximability of Sparsest Vector in a Real Subspace ( http://arxiv.org/abs/2410.02636v1 )

ライセンス: Link先を確認
Vijay Bhattiprolu, Euiwoong Lee, (参考訳) 我々は、実部分空間において最も狭い非零ベクトルを見つけるための強い不近似性を確立する。 我々は、任意の定数係数(あるいは準多項式時間におけるほぼ多項式因子)内の部分空間における最も広いベクトルを近似することは、NP-Hard(ランダム化還元の下で)であることが示される。 我々は,格子型暗号の基本問題である最短ベクトル問題(SVP)に対して,最先端の非近似状態として回復する。 私たちの証明は驚くほど単純で、PCPの定理さえ無視する。 我々は、整数格子および誤り訂正符号における最小距離問題(MDC)の不近似性理論からホモジェナイゼーションフレームワークに着想を得た。 組み合わせて使う (a)テンソルコードによるemph{product testingと (b)非同次二次方程式をスパースベクトル問題に埋め込むために、高次元空間における乱符号の余集合としての代入をエンコードする。 a) は、Ausstrin と Khot の有限体上の MDC の硬さの単純証明に着想を得たものである。 b) は、ミキアシオのSVPの硬さの半デランドマイゼーションに着想を得たものである。 我々の削減にはパフォーマンスの課題が伴う (a) over the reals. +1/-1ランダム行列の核のテンソル化が適切な積テストをもたらすことを証明している(なお許す)。 (b)。 この証明はリトルウッド=オフォード理論との関係を明らかにし、ルデルソンとヴェルシニンの強力な反集中の結果に依存する。 この研究の主な動機は、実数上の問題に対する不適応性理論の開発である。 解析的ベクトルの変種は、小さな集合の展開、量子分離性、凸集合上の多項式の最大化につながり、これら全てが同様の障壁を不適応性に導く。 私たちが開発するアプローチは、これらの問題の一部の難しさを前進させる可能性がある。

We establish strong inapproximability for finding the sparsest nonzero vector in a real subspace. We show that it is NP-Hard (under randomized reductions) to approximate the sparsest vector in a subspace within any constant factor (or almost polynomial factors in quasipolynomial time). We recover as a corollary state of the art inapproximability for the shortest vector problem (SVP), a foundational problem in lattice based cryptography. Our proof is surprisingly simple, bypassing even the PCP theorem. We are inspired by the homogenization framework from the inapproximability theory of minimum distance problems (MDC) in integer lattices and error correcting codes. We use a combination of (a) \emph{product testing via tensor codes} and (b) \emph{encoding an assignment as a coset of a random code in higher dimensional space} in order to embed non-homogeneous quadratic equations into the sparsest vector problem. (a) is inspired by Austrin and Khot's simplified proof of hardness of MDC over finite fields, and (b) is inspired by Micciancio's semi-derandomization of hardness of SVP. Our reduction involves the challenge of performing (a) over the reals. We prove that tensoring of the kernel of a +1/-1 random matrix furnishes an adequate product test (while still allowing (b)). The proof exposes a connection to Littlewood-Offord theory and relies on a powerful anticoncentration result of Rudelson and Vershynin. Our main motivation in this work is the development of inapproximability theory for problems over the reals. Analytic variants of sparsest vector have connections to small set expansion, quantum separability and polynomial maximization over convex sets, all of which cause similar barriers to inapproximability. The approach we develop could lead to progress on the hardness of some of these problems.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-27
# 実空間におけるスペーサーベクトルの非近似性

Inapproximability of Sparsest Vector in a Real Subspace ( http://arxiv.org/abs/2410.02636v2 )

ライセンス: Link先を確認
Vijay Bhattiprolu, Euiwoong Lee, (参考訳) 我々は、実部分空間において最も狭い非零ベクトルを見つけるための強い不近似性を確立する。 我々は、任意の定数係数(あるいは準多項式時間におけるほぼ多項式因子)内の部分空間における最も広いベクトルを近似することは、NP-Hard(ランダム化還元の下で)であることが示される。 我々は,格子型暗号の基本問題である最短ベクトル問題(SVP)に対して,最先端の非近似状態として回復する。 私たちの証明は驚くほど単純で、PCPの定理さえ無視する。 我々は、整数格子および誤り訂正符号における最小距離問題(MDC)の不近似性理論からホモジェナイゼーションフレームワークに着想を得た。 組み合わせて使う (a)テンソルコードによるemph{product testingと (b)非同次二次方程式をスパースベクトル問題に埋め込むために、高次元空間における乱符号の余集合としての代入をエンコードする。 a) は、Ausstrin と Khot の有限体上の MDC の硬さの単純証明に着想を得たものである。 b) は、ミキアシオのSVPの硬さの半デランドマイゼーションに着想を得たものである。 我々の削減にはパフォーマンスの課題が伴う (a) over the reals. +1/-1ランダム行列の核のテンソル化が適切な積テストをもたらすことを証明している(なお許す)。 (b)。 この証明はリトルウッド=オフォード理論との関係を明らかにし、ルデルソンとヴェルシニンの強力な反集中の結果に依存する。 この研究の主な動機は、実数上の問題に対する不適応性理論の開発である。 解析的ベクトルの変種は、小さな集合の展開、量子分離性、凸集合上の多項式の最大化につながり、これら全てが同様の障壁を不適応性に導く。 私たちが開発するアプローチは、これらの問題の一部の難しさを前進させる可能性がある。

We establish strong inapproximability for finding the sparsest nonzero vector in a real subspace. We show that it is NP-Hard (under randomized reductions) to approximate the sparsest vector in a subspace within any constant factor (or almost polynomial factors in quasipolynomial time). We recover as a corollary state of the art inapproximability for the shortest vector problem (SVP), a foundational problem in lattice based cryptography. Our proof is surprisingly simple, bypassing even the PCP theorem. We are inspired by the homogenization framework from the inapproximability theory of minimum distance problems (MDC) in integer lattices and error correcting codes. We use a combination of (a) \emph{product testing via tensor codes} and (b) \emph{encoding an assignment as a coset of a random code in higher dimensional space} in order to embed non-homogeneous quadratic equations into the sparsest vector problem. (a) is inspired by Austrin and Khot's simplified proof of hardness of MDC over finite fields, and (b) is inspired by Micciancio's semi-derandomization of hardness of SVP. Our reduction involves the challenge of performing (a) over the reals. We prove that tensoring of the kernel of a +1/-1 random matrix furnishes an adequate product test (while still allowing (b)). The proof exposes a connection to Littlewood-Offord theory and relies on a powerful anticoncentration result of Rudelson and Vershynin. Our main motivation in this work is the development of inapproximability theory for problems over the reals. Analytic variants of sparsest vector have connections to small set expansion, quantum separability and polynomial maximization over convex sets, all of which cause similar barriers to inapproximability. The approach we develop could lead to progress on the hardness of some of these problems.
翻訳日:2024-11-04 01:52:35 公開日:2024-10-27
# 収束を伴う幾何学的協調フィルタリング

Geometric Collaborative Filtering with Convergence ( http://arxiv.org/abs/2410.03064v1 )

ライセンス: Link先を確認
Hisham Husain, Julien Monteil, (参考訳) 潜在変数協調フィルタリング手法は、その単純さと有効性からユーザクリックインタラクションをモデル化する標準的な手法である。 しかしながら、これらの手法の数学的性質、特にアイデンティティに対する過度な適合を防止するための研究は限られており、そのような手法は通常、アイテム間の幾何を見渡す損失関数を利用する。 本研究では,協調フィルタリングにおける一般化ギャップの概念を導入し,これを潜在協調フィルタリングモデルに対して解析する。 本稿では,損失関数を生じさせる幾何上界と,項目メタタの幾何を有意に活用して推薦を改善する方法を提案する。 これらの損失を最小限に抑え、GeoCFと呼ばれる新しい潜在協調フィルタリングアルゴリズムのレシピを提供する。 次に、提案したGeoCFアルゴリズムが、Movielens20MとNetflixのデータセットおよび2つの大規模内部データセットにおいて、既存のすべてのメソッドより優れていることを示す。 本研究は,協調フィルタリングの一般化をよりよく理解するための理論的に健全な手法を提案する。

Latent variable collaborative filtering methods have been a standard approach to modelling user-click interactions due to their simplicity and effectiveness. However, there is limited work on analyzing the mathematical properties of these methods in particular on preventing the overfitting towards the identity, and such methods typically utilize loss functions that overlook the geometry between items. In this work, we introduce a notion of generalization gap in collaborative filtering and analyze this with respect to latent collaborative filtering models. We present a geometric upper bound that gives rise to loss functions, and a way to meaningfully utilize the geometry of item-metadata to improve recommendations. We show how these losses can be minimized and gives the recipe to a new latent collaborative filtering algorithm, which we refer to as GeoCF, due to the geometric nature of our results. We then show experimentally that our proposed GeoCF algorithm can outperform other all existing methods on the Movielens20M and Netflix datasets, as well as two large-scale internal datasets. In summary, our work proposes a theoretically sound method which paves a way to better understand generalization of collaborative filtering at large.
翻訳日:2024-11-03 04:06:08 公開日:2024-10-27
# 収束を伴う幾何学的協調フィルタリング

Geometric Collaborative Filtering with Convergence ( http://arxiv.org/abs/2410.03064v2 )

ライセンス: Link先を確認
Hisham Husain, Julien Monteil, (参考訳) 潜在変数協調フィルタリング手法は、その単純さと有効性からユーザクリックインタラクションをモデル化する標準的な手法である。 しかしながら、これらの手法の数学的性質、特にアイデンティティに対する過度な適合を防止するための研究は限られており、そのような手法は通常、アイテム間の幾何を見渡す損失関数を利用する。 本研究では,協調フィルタリングにおける一般化ギャップの概念を導入し,これを潜在協調フィルタリングモデルに対して解析する。 本稿では,損失関数を生じさせる幾何上界と,項目メタタの幾何を有意に活用して推薦を改善する方法を提案する。 これらの損失を最小限に抑え、GeoCFと呼ばれる新しい潜在協調フィルタリングアルゴリズムのレシピを提供する。 次に、提案したGeoCFアルゴリズムが、Movielens20MとNetflixのデータセットおよび2つの大規模内部データセットにおいて、既存のすべてのメソッドより優れていることを示す。 本研究は,協調フィルタリングの一般化をよりよく理解するための理論的に健全な手法を提案する。

Latent variable collaborative filtering methods have been a standard approach to modelling user-click interactions due to their simplicity and effectiveness. However, there is limited work on analyzing the mathematical properties of these methods in particular on preventing the overfitting towards the identity, and such methods typically utilize loss functions that overlook the geometry between items. In this work, we introduce a notion of generalization gap in collaborative filtering and analyze this with respect to latent collaborative filtering models. We present a geometric upper bound that gives rise to loss functions, and a way to meaningfully utilize the geometry of item-metadata to improve recommendations. We show how these losses can be minimized and gives the recipe to a new latent collaborative filtering algorithm, which we refer to as GeoCF, due to the geometric nature of our results. We then show experimentally that our proposed GeoCF algorithm can outperform other all existing methods on the Movielens20M and Netflix datasets, as well as two large-scale internal datasets. In summary, our work proposes a theoretically sound method which paves a way to better understand generalization of collaborative filtering at large.
翻訳日:2024-11-03 04:06:08 公開日:2024-10-27
# 階層的普遍値関数近似器

Hierarchical Universal Value Function Approximators ( http://arxiv.org/abs/2410.08997v1 )

ライセンス: Link先を確認
Rushiv Arora, (参考訳) 強化学習値関数の多目的収集のための普遍的な近似器を構築するための重要な進歩があり、パラメータ化された方法で状態の長期的な戻りを推定する重要な要素である。 本稿では,階層的普遍値関数近似器(H-UVFA)を導入することで,階層的強化学習に拡張する。 これにより、時間的抽象化設定で期待されるスケーリング、計画、一般化のメリットを活用できます。 本研究では,2つの階層値関数($Q(s, g, o; \theta)$と$Q(s, g, o, a; \theta)$)における状態,目標,選択肢,行動の埋め込みを学習するための教師付き強化学習手法を開発した。 最後に,HUVFAの一般化を実証し,それに対応するUVFAよりも優れた性能を示す。

There have been key advancements to building universal approximators for multi-goal collections of reinforcement learning value functions -- key elements in estimating long-term returns of states in a parameterized manner. We extend this to hierarchical reinforcement learning, using the options framework, by introducing hierarchical universal value function approximators (H-UVFAs). This allows us to leverage the added benefits of scaling, planning, and generalization expected in temporal abstraction settings. We develop supervised and reinforcement learning methods for learning embeddings of the states, goals, options, and actions in the two hierarchical value functions: $Q(s, g, o; \theta)$ and $Q(s, g, o, a; \theta)$. Finally we demonstrate generalization of the HUVFAs and show they outperform corresponding UVFAs.
翻訳日:2024-10-30 20:36:41 公開日:2024-10-27
# 階層的普遍値関数近似器

Hierarchical Universal Value Function Approximators ( http://arxiv.org/abs/2410.08997v2 )

ライセンス: Link先を確認
Rushiv Arora, (参考訳) 強化学習値関数の多目的収集のための普遍的な近似器を構築するための重要な進歩があり、パラメータ化された方法で状態の長期的な戻りを推定する重要な要素である。 本稿では,階層的普遍値関数近似器(H-UVFA)を導入することで,階層的強化学習に拡張する。 これにより、時間的抽象化設定で期待されるスケーリング、計画、一般化のメリットを活用できます。 本研究では,2つの階層値関数($Q(s, g, o; \theta)$と$Q(s, g, o, a; \theta)$)における状態,目標,選択肢,行動の埋め込みを学習するための教師付き強化学習手法を開発した。 最後に,HUVFAの一般化を実証し,それに対応するUVFAよりも優れた性能を示す。

There have been key advancements to building universal approximators for multi-goal collections of reinforcement learning value functions -- key elements in estimating long-term returns of states in a parameterized manner. We extend this to hierarchical reinforcement learning, using the options framework, by introducing hierarchical universal value function approximators (H-UVFAs). This allows us to leverage the added benefits of scaling, planning, and generalization expected in temporal abstraction settings. We develop supervised and reinforcement learning methods for learning embeddings of the states, goals, options, and actions in the two hierarchical value functions: $Q(s, g, o; \theta)$ and $Q(s, g, o, a; \theta)$. Finally we demonstrate generalization of the HUVFAs and show they outperform corresponding UVFAs.
翻訳日:2024-10-30 20:36:41 公開日:2024-10-27
# LOBG:視覚言語モデルにおけるより優れた一般化のためのLess Overfitting

LOBG:Less Overfitting for Better Generalization in Vision-Language Model ( http://arxiv.org/abs/2410.10247v1 )

ライセンス: Link先を確認
Chenhao Ding, Xinyuan Gao, Songlin Dong, Yuhang He, Qiang Wang, Alex Kot, Yihong Gong, (参考訳) VLM(Vision-Language Models)の既存の迅速な学習手法は、VLMの下流タスクへの転送能力を効果的に強化しているが、過度なオーバーフィッティングによる一般化の著しい低下に悩まされている。 この問題に対処するために,視覚言語モデルのためのLOBGというフレームワークを提案する。 具体的には、CLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。 オーバーフィッティングをさらに緩和するため,機能レベルにおける構造的トポロジ保存(STP)の損失を解消し,機能空間に全体可塑性を付与し,最適化時に機能空間を効果的に再形成できることを示した。 さらに、出力レベルでの階層ロジット消耗(HLD)を用いて出力を制約し、出力端でのSTPを補完した。 実験結果から,本手法は一般化能力を大幅に向上し,最先端手法と比較して過度な適合を緩和することが示された。

Existing prompt learning methods in Vision-Language Models (VLM) have effectively enhanced the transfer capability of VLM to downstream tasks, but they suffer from a significant decline in generalization due to severe overfitting. To address this issue, we propose a framework named LOBG for vision-language models. Specifically, we use CLIP to filter out fine-grained foreground information that might cause overfitting, thereby guiding prompts with basic visual concepts. To further mitigate overfitting, we devel oped a structural topology preservation (STP) loss at the feature level, which endows the feature space with overall plasticity, allowing effective reshaping of the feature space during optimization. Additionally, we employed hierarchical logit distilation (HLD) at the output level to constrain outputs, complementing STP at the output end. Extensive experimental results demonstrate that our method significantly improves generalization capability and alleviates overfitting compared to state-of-the-art approaches.
翻訳日:2024-10-30 02:14:55 公開日:2024-10-27
# LOBG:視覚言語モデルにおけるより優れた一般化のためのLess Overfitting

LOBG:Less Overfitting for Better Generalization in Vision-Language Model ( http://arxiv.org/abs/2410.10247v2 )

ライセンス: Link先を確認
Chenhao Ding, Xinyuan Gao, Songlin Dong, Yuhang He, Qiang Wang, Alex Kot, Yihong Gong, (参考訳) VLM(Vision-Language Models)の既存の迅速な学習手法は、VLMの下流タスクへの転送能力を効果的に強化しているが、過度なオーバーフィッティングによる一般化の著しい低下に悩まされている。 この問題に対処するために,視覚言語モデルのためのLOBGというフレームワークを提案する。 具体的には、CLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。 オーバーフィッティングをさらに緩和するため,機能レベルにおける構造的トポロジ保存(STP)の損失を解消し,機能空間に全体可塑性を付与し,最適化時に機能空間を効果的に再形成できることを示した。 さらに、出力レベルでの階層ロジット消耗(HLD)を用いて出力を制約し、出力端でのSTPを補完した。 実験結果から,本手法は一般化能力を大幅に向上し,最先端手法と比較して過度な適合を緩和することが示された。

Existing prompt learning methods in Vision-Language Models (VLM) have effectively enhanced the transfer capability of VLM to downstream tasks, but they suffer from a significant decline in generalization due to severe overfitting. To address this issue, we propose a framework named LOBG for vision-language models. Specifically, we use CLIP to filter out fine-grained foreground information that might cause overfitting, thereby guiding prompts with basic visual concepts. To further mitigate overfitting, we devel oped a structural topology preservation (STP) loss at the feature level, which endows the feature space with overall plasticity, allowing effective reshaping of the feature space during optimization. Additionally, we employed hierarchical logit distilation (HLD) at the output level to constrain outputs, complementing STP at the output end. Extensive experimental results demonstrate that our method significantly improves generalization capability and alleviates overfitting compared to state-of-the-art approaches.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-27