Fugu-MT 論文翻訳(概要): GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation

論文の概要: GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation

arxiv url: http://arxiv.org/abs/2502.05911v1
Date: Sun, 09 Feb 2025 14:11:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:50.36199
Title: GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation
Title（参考訳）: GRAIT: 効果的な幻覚軽減のためのグラディエント駆動リフェールアウェアインストラクションチューニング
Authors: Runchuan Zhu, Zinco Jiang, Jiang Wu, Zhipeng Ma, Jiahe Song, Fengshuo Bai, Dahua Lin, Lijun Wu, Conghui He,
Abstract要約: Refusal-Aware Instruction Tuning (RAIT) は、Large Language Models (LLM) を強化することを目的としている。効果的なRAITは、幻覚を最小化するために、未知の質問を効果的に拒否すること、正しく答えられる質問が拒否されないように過度に拒否すること、の2つの主要な課題に対処しなければならない。 GraITは幻覚を効果的に最小化するために勾配駆動型サンプル選択を採用し、(2)微調整中に適応的な重み付け機構を導入し、過剰な拒絶のリスクを低減する。
参考スコア（独自算出の注目度）: 62.63014905981601
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Refusal-Aware Instruction Tuning (RAIT) aims to enhance Large Language Models (LLMs) by improving their ability to refuse responses to questions beyond their knowledge, thereby reducing hallucinations and improving reliability. Effective RAIT must address two key challenges: firstly, effectively reject unknown questions to minimize hallucinations; secondly, avoid over-refusal to ensure questions that can be correctly answered are not rejected, thereby maintain the helpfulness of LLM outputs. In this paper, we address the two challenges by deriving insightful observations from the gradient-based perspective, and proposing the Gradient-driven Refusal Aware Instruction Tuning Framework GRAIT: (1) employs gradient-driven sample selection to effectively minimize hallucinations and (2) introduces an adaptive weighting mechanism during fine-tuning to reduce the risk of over-refusal, achieving the balance between accurate refusals and maintaining useful responses. Experimental evaluations on open-ended and multiple-choice question answering tasks demonstrate that GRAIT significantly outperforms existing RAIT methods in the overall performance. The source code and data will be available at https://github.com/opendatalab/GRAIT .
Abstract（参考訳）: Refusal-Aware Instruction Tuning (RAIT) は、Large Language Models (LLM) を強化することを目的としている。効果的なRAITは、幻覚を最小化するために、未知の質問を効果的に拒否すること、正しく答えられる質問が拒否されないように過度に拒否すること、LLM出力の有用性を維持すること、の2つの主要な課題に対処する必要がある。本稿では、勾配に基づく視点から洞察に富んだ観察を導き、グラディエント駆動のリファレント・アウェア・インストラクション・チューニング・フレームワーク(GRAIT)を提案することにより、2つの課題に対処する:(1) 幻覚を効果的に最小化するためにグラディエント駆動のサンプル選択を採用し、(2) 微調整中に適応重み付け機構を導入し、過剰なリファレンスリスクを低減し、正確なリファレンスと有用な応答のバランスを保つ。 GRAIT が既存の RAIT 手法よりも性能的に優れていることを示す。ソースコードとデータはhttps://github.com/opendatalab/GRAIT で入手できる。

関連論文リスト

Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning [68.57166425493283]
Refusal-Aware Instruction Tuning (RAIT) により、Large Language Models (LLM) は未知の質問に答えることを拒否できる。この粗末なアプローチは、LLMが正しく答えられる可能性のある質問に答えることを過剰に拒否する可能性がある。本稿では,CRaFT(Certainty Represented Knowledge Flow for Refusal-Aware Instructions Tuning)を提案する。
論文参考訳（メタデータ） (2024-10-09T14:12:51Z)
Wrong-of-Thought: An Integrated Reasoning Framework with Multi-Perspective Verification and Wrong Information [14.071887353084126]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の性能向上に欠かせない技術となっている。 2つのコアモジュールを含むWrong-of-Thought (WoT)を提案する。 8つの一般的なデータセットと5つのLLMの実験は、WoTが以前のベースラインをすべて越えていることを示している。
論文参考訳（メタデータ） (2024-10-06T12:27:21Z)
PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead [24.611413814466978]
検索拡張生成(RAG)により強化された大言語モデル(LLM)は、Web検索のための新しいパラダイムを導入した。既存のコンテキスト認識を強化する方法は、しばしば非効率であり、推論中に時間やメモリオーバーヘッドが発生する。そこで我々は,LLMの文脈認識をゼロ推論オーバーヘッドで向上する位置埋め込み非依存再重み付け(PEAR)を提案する。
論文参考訳（メタデータ） (2024-09-29T15:40:54Z)
Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文参考訳（メタデータ） (2024-07-16T06:32:45Z)
Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction Tuning [18.283963879468466]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚のような課題に直面している。本研究では,モデルの知識境界を認識する能力を向上させるために,不確実性感性チューニングと呼ばれる新しい手法を提案する。実験結果から,提案手法が不確実性領域の同定能力を高めることが示唆された。
論文参考訳（メタデータ） (2024-06-14T14:56:04Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。 Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文参考訳（メタデータ） (2023-10-02T03:12:06Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文参考訳（メタデータ） (2023-09-05T11:32:48Z)
PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine [24.888093229577965]
提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
論文参考訳（メタデータ） (2023-08-23T09:46:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。