Fugu-MT 論文翻訳(概要): An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation

論文の概要: An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation

arxiv url: http://arxiv.org/abs/2406.01549v2
Date: Thu, 4 Jul 2024 14:21:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 22:44:48.651328
Title: An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation
Title（参考訳）: 検索再生における効果的なノイズフィルタリングのための情報基盤の展望
Authors: Kun Zhu, Xiaocheng Feng, Xiyuan Du, Yuxuan Gu, Weijiang Yu, Haotian Wang, Qianglong Chen, Zheng Chu, Jingchang Chen, Bing Qin,
Abstract要約: 情報ボトルネック理論を検索強化世代に導入する。提案手法では,圧縮と地盤出力の相互情報を同時に最大化することにより,ノイズのフィルタリングを行う。我々は,情報ボトルネックの定式化を導出し,新たな包括的評価を行う。
参考スコア（独自算出の注目度）: 35.76451156732993
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Retrieval-augmented generation integrates the capabilities of large language models with relevant information retrieved from an extensive corpus, yet encounters challenges when confronted with real-world noisy data. One recent solution is to train a filter module to find relevant content but only achieve suboptimal noise compression. In this paper, we propose to introduce the information bottleneck theory into retrieval-augmented generation. Our approach involves the filtration of noise by simultaneously maximizing the mutual information between compression and ground output, while minimizing the mutual information between compression and retrieved passage. In addition, we derive the formula of information bottleneck to facilitate its application in novel comprehensive evaluations, the selection of supervised fine-tuning data, and the construction of reinforcement learning rewards. Experimental results demonstrate that our approach achieves significant improvements across various question answering datasets, not only in terms of the correctness of answer generation but also in the conciseness with $2.5\%$ compression rate.
Abstract（参考訳）: Retrieval-augmented Generationは、大規模コーパスから取得した関連情報と、大規模言語モデルの機能を統合しているが、現実のノイズの多いデータに直面すると、課題に遭遇する。最近の解決策の1つは、関連するコンテンツを見つけるためにフィルタモジュールを訓練するが、最適な雑音圧縮しか達成しないことである。本稿では,情報ボトルネック理論を検索強化世代に導入することを提案する。提案手法では,圧縮と地盤出力の相互情報を同時に最大化するとともに,圧縮と回収された通過の相互情報を最小化することにより,雑音のフィルタリングを行う。さらに,新たな総合評価,教師付き微調整データの選定,強化学習報酬の構築に活用するための情報ボトルネックの定式を導出する。実験の結果,提案手法は,回答生成の正確性だけでなく,2.5 %$圧縮率の簡潔性においても,様々な質問応答データセットに対して顕著な改善が得られた。

関連論文リスト

Noise-Robust Abstractive Compression in Retrieval-Augmented Language Models [0.0]
抽象圧縮は、より小さなランガウジュモデルを用いてクエリ関連コンテキストを凝縮する。検索された文書は、しばしば、クエリに答えることに関係のない情報や、事実の不正なコンテンツのために誤解を招く情報を含んでいる。 ACoRNは、多くの精度でドキュメントを削減したデータセットを抽出し、現実世界のシナリオで非常に有用である。
論文参考訳（メタデータ） (2025-11-19T00:51:27Z)
ACoRN: Noise-Robust Abstractive Compression in Retrieval-Augmented Language Models [26.585985828583304]
抽象圧縮は、より小さなランガウジュモデルを用いてクエリ関連コンテキストを凝縮する。検索された文書には、質問に答えることに関係のない情報や、事実の誤りによって誤解を招く情報が含まれていることが多い。この挙動は、抽象圧縮機は正しい解答に必要な重要な情報を省略する傾向にあることを示している。
論文参考訳（メタデータ） (2025-04-17T06:05:35Z)
Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文参考訳（メタデータ） (2024-09-29T03:33:35Z)
Deep learning-based shot-domain seismic deblending [1.6411821807321063]
我々は,各帆行の最後に獲得した未完成のショットコレクションを利用する。これらのデータを手動でブレンドすることで、地上の真実をうまく制御したトレーニングデータが得られる。隣接するブレンドショット集合を含むマルチチャネル入力を用いてディープニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2024-09-13T07:32:31Z)
Reduced Effectiveness of Kolmogorov-Arnold Networks on Functions with Noise [9.492965765929963]
データセットのノイズは、Kolmogorov-Arnoldネットワークの性能を著しく低下させる。ノイズの影響を軽減するため,重畳法と重畳法を組み合わせたオーバーサンプリング手法を提案する。オーバーサンプリングとフィルタリングの両方の手法を適用することで、ノイズの有害な影響を低減できると結論付けている。
論文参考訳（メタデータ） (2024-07-20T14:17:10Z)
BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering [58.403898834018285]
BlendFilterは、知識フィルタリングと組み合わせたクエリ生成を統合することで、検索強化された大規模言語モデルを高める新しいアプローチである。我々は3つのオープンドメイン質問応答ベンチマークで広範な実験を行い、我々の革新的なBlendFilterが最先端のベースラインをはるかに上回っていることを明らかにした。
論文参考訳（メタデータ） (2024-02-16T23:28:02Z)
Learning to Abstain From Uninformative Data [20.132146513548843]
本研究では,一般的なノイズ発生過程下での学習と行動の問題について検討する。この問題において、データ分布はラベルに高ノイズの非形式的なサンプルのかなりの割合を有する。本稿では,選択学習理論に着想を得た損失を生かして,これらの条件下での学習に新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-09-25T15:55:55Z)
Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。 SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文参考訳（メタデータ） (2023-06-01T19:04:17Z)
FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion [17.274784447811665]
我々は、高品質な波形再構成のためのVITSのエンドツーエンドフレームワークを採用する。 We disentangle content information by imposing an information bottleneck to WavLM features。本稿では,抽出したコンテンツ情報の純度を向上させるために,分光器サイズに基づくデータ拡張を提案する。
論文参考訳（メタデータ） (2022-10-27T13:32:38Z)
Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文参考訳（メタデータ） (2022-09-28T15:16:58Z)
Self-supervised Sequential Information Bottleneck for Robust Exploration in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文参考訳（メタデータ） (2022-09-12T15:41:10Z)
Improving Multi-Turn Response Selection Models with Complementary Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。 2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文参考訳（メタデータ） (2020-02-18T06:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。