Fugu-MT 論文翻訳(概要): Task-level Distributionally Robust Optimization for Large Language Model-based Dense Retrieval

論文の概要: Task-level Distributionally Robust Optimization for Large Language Model-based Dense Retrieval

arxiv url: http://arxiv.org/abs/2408.10613v2
Date: Thu, 12 Dec 2024 03:24:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:55.833715
Title: Task-level Distributionally Robust Optimization for Large Language Model-based Dense Retrieval
Title（参考訳）: 大規模言語モデルに基づくDense Retrievalのためのタスクレベル分布ロバスト最適化
Authors: Guangyuan Ma, Yongliang Ma, Xing Wu, Zhenpeng Su, Ming Zhou, Songlin Hu,
Abstract要約: 本稿では,大規模言語モデルに基づくDense Retrievalファインタニングのためのタスクレベル分散ロバスト最適化(tDRO)を提案する。 tDROはドメインの重みをパラメータ化し、拡張されたドメイン勾配で更新する。実験では、大規模検索ベンチマークの最適改善と、最大30%のデータセット使用率の削減が示されている。
参考スコア（独自算出の注目度）: 32.104911827710936
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Model-based Dense Retrieval (LLM-DR) optimizes over numerous heterogeneous fine-tuning collections from different domains. However, the discussion about its training data distribution is still minimal. Previous studies rely on empirically assigned dataset choices or sampling ratios, which inevitably lead to sub-optimal retrieval performances. In this paper, we propose a new task-level Distributionally Robust Optimization (tDRO) algorithm for LLM-DR fine-tuning, targeted at improving the universal domain generalization ability by end-to-end reweighting the data distribution of each task. The tDRO parameterizes the domain weights and updates them with scaled domain gradients. The optimized weights are then transferred to the LLM-DR fine-tuning to train more robust retrievers. Experiments show optimal improvements in large-scale retrieval benchmarks and reduce up to 30% dataset usage after applying our optimization algorithm with a series of different-sized LLM-DR models.
Abstract（参考訳）: 大規模言語モデルに基づくDense Retrieval(LLM-DR)は、異なるドメインからの多数の異種微調整コレクションを最適化する。しかし、トレーニングデータ配布に関する議論は依然として最小限である。先行研究は経験的に割り当てられたデータセットの選択やサンプリング比率に依存しており、必然的に準最適検索性能に繋がる。本稿では,LLM-DRファインチューニングのためのタスクレベル分散ロバスト最適化(tDRO)アルゴリズムを提案する。 tDROはドメインの重みをパラメータ化し、拡張されたドメイン勾配で更新する。最適化された重量はLLM-DRファインチューニングに転送され、より堅牢なレトリバーを訓練する。実験により、大規模検索ベンチマークの最適改善と、異なるサイズのLCM-DRモデルを用いて最適化アルゴリズムを適用した後、最大30%のデータセット使用率の削減が示された。

関連論文リスト

Aligning Distributionally Robust Optimization with Practical Deep Learning Needs [70.87757502315293]
従来のLearning (DL)メソッドはすべてのサンプルを平等に扱うが、DROと現在のDLプラクティスの間には大きなギャップがある。本稿では,重み付けグループを扱える改良DRO目標に対する適応アルゴリズムを導入することにより,このギャップを埋めることを目的とする。
論文参考訳（メタデータ） (2025-08-22T18:17:44Z)
Chunks as Arms: Multi-Armed Bandit-Guided Sampling for Long-Context LLM Preference Optimization [56.97588709890706]
LongMab-POは、長文モデリングタスクのための高品質で多様な応答を生成する新しいフレームワークである。実験の結果,LongMab-POは嗜好データペアの多様性と品質を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-08-19T16:33:55Z)
Data Mixing Optimization for Supervised Fine-Tuning of Large Language Models [5.626695215498112]
最適化問題としてデータミキシングを枠組み化し,検証損失を最小限に抑える新しい手法を提案する。提案手法は, 効率的なデータ転送をモデル化し, スケール法則を微調整に活用することにより, 損失をパラメタライズする。提案アルゴリズムは,全領域にわたる総合的,個人的パフォーマンスに優れることを示す。
論文参考訳（メタデータ） (2025-08-16T07:28:39Z)
Adaptive Sample Scheduling for Direct Preference Optimization [37.75208455935495]
DPOのためのサンプルスケジューリングという,新しい問題を紹介します。モデルの進化状態に基づいてトレーニングサンプルを動的かつ適応的にスケジュールすることを目的としている。トレーニングバッチ毎にサンプルを適応的に選択する,効率的かつ効率的なアルゴリズムであるSamSを提案する。
論文参考訳（メタデータ） (2025-06-08T10:26:09Z)
Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。 DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-05T23:54:53Z)
Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-08T09:14:38Z)
Rethinking Data: Towards Better Performing Domain-Specific Small Language Models [0.0]
本稿では,小言語モデル(LM)の微調整について述べる。 LMトレーニングパイプラインの各段階でのデータ品質を改善することで、これを実現する。我々は、異なるデータサブセット上の異なるパラメータで微調整されたモデルをマージすることで、モデル一般化能力を向上させる。
論文参考訳（メタデータ） (2025-03-03T12:19:12Z)
DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文参考訳（メタデータ） (2024-11-21T12:02:39Z)
Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-17T11:47:56Z)
Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。 OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文参考訳（メタデータ） (2024-10-06T03:49:28Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文参考訳（メタデータ） (2024-06-17T04:35:17Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Low-Rank Representations Meets Deep Unfolding: A Generalized and Interpretable Network for Hyperspectral Anomaly Detection [41.50904949744355]
現在のハイパースペクトル異常検出(HAD)ベンチマークデータセットは、低解像度、単純なバックグラウンド、検出データの小さなサイズに悩まされている。これらの要因は、ロバスト性の観点からよく知られた低ランク表現(LRR)モデルの性能も制限する。我々は、複雑なシナリオにおけるHADアルゴリズムの堅牢性を改善するために、新しいHADベンチマークデータセットであるAIR-HADを構築した。
論文参考訳（メタデータ） (2024-02-23T14:15:58Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
Towards Optimization and Model Selection for Domain Generalization: A Mixup-guided Solution [43.292274574847234]
そこで本研究では,ドメイン一般化のためのMixupガイドによる最適化と選択手法を提案する。最適化のために、好みの方向を導出するアウト・オブ・ディストリビューション・データセットを利用する。モデル選択のために、ターゲット分布に近づいた検証データセットを生成する。
論文参考訳（メタデータ） (2022-09-01T02:18:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。