Fugu-MT 論文翻訳(概要): Towards Robust Text Retrieval with Progressive Learning

論文の概要: Towards Robust Text Retrieval with Progressive Learning

arxiv url: http://arxiv.org/abs/2311.11691v1
Date: Mon, 20 Nov 2023 11:44:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-21 19:04:15.908907
Title: Towards Robust Text Retrieval with Progressive Learning
Title（参考訳）: プログレッシブラーニングによるロバストテキスト検索に向けて
Authors: Tong Wu, Yulei Qin, Enwei Zhang, Zihan Xu, Yuting Gao, Ke Li, Xing Sun
Abstract要約: テキスト検索のための埋め込み手法であるPEGを提案する。トレーニング中の負のサンプルを80,000まで増やし,クエリ毎に5つのハードネガティブを抽出した。 PEGは1億以上のデータに基づいてトレーニングされており、幅広いドメインを含んでいる。
参考スコア（独自算出の注目度）: 31.81063977662941
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval augmentation has become an effective solution to empower large language models (LLMs) with external and verified knowledge sources from the database, which overcomes the limitations and hallucinations of LLMs in handling up-to-date and domain-specific information. However, existing embedding models for text retrieval usually have three non-negligible limitations. First, the number and diversity of samples in a batch are too restricted to supervise the modeling of textual nuances at scale. Second, the high proportional noise are detrimental to the semantic correctness and consistency of embeddings. Third, the equal treatment to easy and difficult samples would cause sub-optimum convergence of embeddings with poorer generalization. In this paper, we propose the PEG, a progressively learned embeddings for robust text retrieval. Specifically, we increase the training in-batch negative samples to 80,000, and for each query, we extracted five hard negatives. Concurrently, we incorporated a progressive learning mechanism, enabling the model to dynamically modulate its attention to the samples throughout the entire training process. Additionally, PEG is trained on more than 100 million data, encompassing a wide range of domains (e.g., finance, medicine, and tourism) and covering various tasks (e.g., question-answering, machine reading comprehension, and similarity matching). Extensive experiments conducted on C-MTEB and DuReader demonstrate that PEG surpasses state-of-the-art embeddings in retrieving true positives, highlighting its significant potential for applications in LLMs. Our model is publicly available at https://huggingface.co/TownsWu/PEG.
Abstract（参考訳）: 検索の強化は、LLMの最新の情報やドメイン固有の情報を扱う際の限界と幻覚を克服し、データベースから外部および検証された知識ソースで大きな言語モデル(LLM)を強化する効果的なソリューションとなっている。しかし、既存のテキスト検索の埋め込みモデルは、通常、無視できない制限が3つある。まず、バッチ内のサンプルの数と多様性は、大規模なテキストニュアンスモデリングを監督するには制限されすぎます。第二に、高い比例雑音は埋め込みの意味的正しさと一貫性を損なう。第三に、簡単で難しいサンプルに対する同等の処理は、より低い一般化を伴う埋め込みの準最適収束を引き起こす。本稿では,ロバストテキスト検索のための段階的に学習された埋め込みであるPEGを提案する。具体的には、トレーニング中の負のサンプルを80,000まで増やし、クエリ毎に5つのハードネガティブを抽出した。同時に,学習過程全体を通して,モデルが標本に対する注意を動的に調整できるプログレッシブ学習機構を組み込んだ。さらに、PEGは1億以上のデータに基づいて訓練されており、幅広い領域(金融、医療、観光など)を包含し、様々なタスク(質問応答、機械読解、類似性マッチングなど)をカバーしている。 C-MTEBとDuReaderで実施された大規模な実験は、PEGが真の正の検索において最先端の埋め込みを超越していることを示し、LLMの応用の可能性を強調している。私たちのモデルはhttps://huggingface.co/TownsWu/PEG.comで公開されています。

関連論文リスト

Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。 Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-05-18T14:08:03Z)
Multimodal Distillation-Driven Ensemble Learning for Long-Tailed Histopathology Whole Slide Images Analysis [16.01677300903562]
マルチインスタンス学習(MIL)は計算病理学において重要な役割を担い、WSIデータセットの弱い教師付き分析を可能にする。 MILに基づくアンサンブル学習手法を提案し,共有アグリゲータを持つエキスパートデコーダを用いて多様な分布を学習する。本稿では,病理文対に事前学習したテキストエンコーダを用いて知識を抽出するマルチモーダル蒸留フレームワークを提案する。 MDE-MILは,特定のデータ分布に着目した複数の専門分野を統合し,長期的課題に対処する。
論文参考訳（メタデータ） (2025-03-02T14:31:45Z)
Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [37.54523122932728]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。データ多様性の低い問題に対処するため、私たちのパイプラインは知識グラフ(KG)を使用してエンティティや量を取り出す。高いデータノイズに対処するため、GCSEモデルは偽硬陰性サンプルの影響を制限するためにガウス分解関数を使用する。
論文参考訳（メタデータ） (2024-09-19T16:29:58Z)
THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。 THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文参考訳（メタデータ） (2024-09-17T16:55:25Z)
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文参考訳（メタデータ） (2024-08-05T23:20:32Z)
MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training [9.023648972811458]
RagVLは、知識強化されたリグレードとノイズ注入トレーニングを備えた、新しいフレームワークである。我々はMLLMに簡単な命令テンプレートを付与し、そのランク付け能力を誘導する。例えば、データとトークンレベルでのトレーニング中に視覚ノイズを注入して、ジェネレータの堅牢性を高める。
論文参考訳（メタデータ） (2024-07-31T08:43:17Z)
Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文参考訳（メタデータ） (2024-06-17T04:35:17Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Negotiated Representations for Machine Mearning Application [0.0]
オーバーフィッティング(Overfitting)は、機械学習モデルが長時間トレーニングされ、提供されたトレーニングラベルに対するトレーニングサンプルの正確な適合度に過度にフォーカスされた場合に発生する現象である。本稿では,事前に決定されたクラスラベルを用いて,サンプルの出力表現を交渉可能にすることによって,機械学習モデルの分類精度を高める手法を提案する。
論文参考訳（メタデータ） (2023-11-19T19:53:49Z)
Generative Negative Text Replay for Continual Vision-Language Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。大量のデータは、通常ストリーミング形式で収集される。本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文参考訳（メタデータ） (2022-10-31T13:42:21Z)
Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文参考訳（メタデータ） (2021-12-15T04:19:52Z)
Bridging the Gap Between Clean Data Training and Real-World Inference for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文参考訳（メタデータ） (2021-04-13T17:54:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。