論文の概要: Towards Context-Robust LLMs: A Gated Representation Fine-tuning Approach
- arxiv url: http://arxiv.org/abs/2502.14100v1
- Date: Wed, 19 Feb 2025 20:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:40.719255
- Title: Towards Context-Robust LLMs: A Gated Representation Fine-tuning Approach
- Title(参考訳): コンテクスト・ロバストLLMに向けて--Gated Representation Fine-tuning アプローチ
- Authors: Shenglai Zeng, Pengfei He, Kai Guo, Tianqi Zheng, Hanqing Lu, Yue Xing, Hui Liu,
- Abstract要約: 外部コンテキストで強化された大規模言語モデル(LLM)は、不完全なエビデンスを扱う上で、しばしば課題に直面します。
本稿では,内部知識と外部コンテキストを効果的にバランスさせる,コンテキストローバスト LLM の概念を提案する。
Grftは軽量かつプラグアンドプレイのゲート表現微調整方式である。
- 参考スコア(独自算出の注目度): 27.675737282610175
- License:
- Abstract: Large Language Models (LLMs) enhanced with external contexts, such as through retrieval-augmented generation (RAG), often face challenges in handling imperfect evidence. They tend to over-rely on external knowledge, making them vulnerable to misleading and unhelpful contexts. To address this, we propose the concept of context-robust LLMs, which can effectively balance internal knowledge with external context, similar to human cognitive processes. Specifically, context-robust LLMs should rely on external context only when lacking internal knowledge, identify contradictions between internal and external knowledge, and disregard unhelpful contexts. To achieve this goal, we introduce Grft, a lightweight and plug-and-play gated representation fine-tuning approach. Grft consists of two key components: a gating mechanism to detect and filter problematic inputs, and low-rank representation adapters to adjust hidden representations. By training a lightweight intervention function with only 0.0004\% of model size on fewer than 200 examples, Grft can effectively adapt LLMs towards context-robust behaviors.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、検索強化生成(RAG)など外部の文脈で強化され、不完全な証拠を扱う際の課題に直面していることが多い。
外部の知識に過度に依存する傾向があり、誤解を招くような状況に弱い。
そこで本研究では,人間の認知プロセスと同様,内的知識と外部的コンテキストとのバランスを効果的に保ち得る,コンテキストローバストLLMの概念を提案する。
具体的には、内的知識の欠如、内的知識と外的知識の矛盾を識別し、無害なコンテキストを無視して、外部的コンテキストに依存する必要がある。
この目的を達成するために、Grftは軽量かつプラグアンドプレイのゲート表現微調整手法である。
Grftは、問題のある入力を検出しフィルタするゲーティング機構と、隠れた表現を調整するローランクな表現アダプタの2つの重要なコンポーネントで構成されている。
200例未満のモデルサイズで0.0004\%の軽量介入関数をトレーニングすることにより、GrftはLLMをコンテキストロストな振る舞いに効果的に適応させることができる。
関連論文リスト
- On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Adaptive Contrastive Decoding in Retrieval-Augmented Generation for Handling Noisy Contexts [24.5315425886482]
文脈の影響を効果的に活用するための適応型コントラスト復号法(ACD)を提案する。
ACDは、ベースラインよりもオープンドメインの質問応答タスクの改善を示している。
論文 参考訳(メタデータ) (2024-08-02T08:03:38Z) - Retrieval Meets Reasoning: Dynamic In-Context Editing for Long-Text Understanding [11.5386284281652]
動的インテキスト編集による情報検索を再現する新しい手法を提案する。
長大な文脈を拡張可能な外部知識として扱うことにより,本手法は対話的に関連情報を収集・統合する。
実験結果から,提案手法はコンテキスト限定LLMを効果的に活用し,マルチホップ推論に有効であることを示す。
論文 参考訳(メタデータ) (2024-06-18T06:54:28Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts? [45.233517779029334]
応答が生成されたコンテキストと検索されたコンテキストに関連付けられているかどうかを識別する。
実験では、誤った情報を提供する場合でも、生成されたコンテキストを優先する複数のLSMにおいて、重大なバイアスが示される。
論文 参考訳(メタデータ) (2024-01-22T12:54:04Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Rethinking with Retrieval: Faithful Large Language Model Inference [91.66406351103484]
我々は検索(RR)で再考する新しいポストプロセッシング手法を提案する。
RRは、チェーン・オブ・シークレット・プロンプトから得られた推論ステップに基づいて、関連する外部知識を検索する。
複雑な3つの推論課題に対する GPT-3 を用いた広範囲な実験により RR の有効性を評価する。
論文 参考訳(メタデータ) (2022-12-31T22:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。