Fugu-MT 論文翻訳(概要): Ask Again, Then Fail: Large Language Models' Vacillations in Judgement

論文の概要: Ask Again, Then Fail: Large Language Models' Vacillations in Judgement

arxiv url: http://arxiv.org/abs/2310.02174v2
Date: Mon, 26 Feb 2024 08:26:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 19:21:47.991878
Title: Ask Again, Then Fail: Large Language Models' Vacillations in Judgement
Title（参考訳）: もう一度聞くと失敗する: 大きな言語モデルによる判断の空白
Authors: Qiming Xie, Zengzhi Wang, Yi Feng, and Rui Xia
Abstract要約: 我々は、現在の会話言語モデルは、フォローアップ質問に直面した場合、判断を揺るがすことが多いことを観察する。この矛盾を定量化するために,フォローアップ質問機構と2つの指標を導入する。トレーニングベースのフレームワークUnwavering-FQを開発した。
参考スコア（独自算出の注目度）: 28.74246375289661
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We observe that current conversational language models often waver in their judgements when faced with follow-up questions, even if the original judgement was correct. This wavering presents a significant challenge for generating reliable responses and building user trust. To comprehensively assess this issue, we introduce a Follow-up Questioning Mechanism along with two metrics to quantify this inconsistency, confirming its widespread presence in current language models. To mitigate this issue, we explore various prompting strategies for closed-source models; moreover, we develop a training-based framework Unwavering-FQ that teaches language models to maintain their originally correct judgements through synthesized high-quality preference data. Our experimental results confirm the effectiveness of our framework and its ability to enhance the general capabilities of models (https://github.com/NUSTM/LLMs-Waver-In-Judgements).
Abstract（参考訳）: 現在の会話言語モデルは、たとえ元の判断が正しいとしても、後続の疑問に直面して判断を揺らぐことが多い。このウェーブリングは、信頼性の高い応答を生成し、ユーザ信頼を構築する上で大きな課題となる。この問題を包括的に評価するために、2つの指標と共にフォローアップ質問機構を導入し、この不整合を定量化し、現在の言語モデルにおけるその広がりを確認した。この問題を軽減するため,我々はクローズドソースモデルのための様々なプロンプト戦略を探求する。さらに,高品質な選好データを合成することで,言語モデルに元々正しい判断を維持するためのトレーニングベースのフレームワークunwavering-fqを開発した。実験の結果、我々のフレームワークの有効性とモデルの汎用能力を高める能力を確認した(https://github.com/NUSTM/LLMs-Waver-In-Judgements)。

関連論文リスト

Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文参考訳（メタデータ） (2025-06-06T10:45:42Z)
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation [1.2576388595811496]
本稿では,モデル性能推定における暗記の影響を低減する言語推論問題を生成するための枠組みを提案する。このフレームワークを言語推論のための挑戦的なベンチマークであるlingOLY-TOOの開発に適用する。
論文参考訳（メタデータ） (2025-03-04T19:57:47Z)
Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文参考訳（メタデータ） (2024-10-22T09:25:21Z)
Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation [12.921225188504643]
本稿では,ペア応答の品質に対するロバストな不確実性推定を導入した不確実性認識リワードモデル(URM)を提案する。実験結果から,提案したプロキシを言語モデルトレーニングに組み込むことによる大きなメリットが示された。
論文参考訳（メタデータ） (2024-05-10T12:14:11Z)
Evidence from counterfactual tasks supports emergent analogical reasoning in large language models [3.9189409002585562]
大規模な言語モデルでは、ゼロショット方式で幅広いテキストベースの類似問題を解くことができるという証拠を報告する。最近の2つの注釈は、アルファベットの標準配列が任意に置換されるいわゆる反事実的タスクの証拠を引用して、これらの結果に異議を唱えている。ここでは、これらの批判に回答し、本研究で使用した試験材料に関する誤解を明らかにし、言語モデルがこれらの新しい対実的タスク変種に一般化できることを示す。
論文参考訳（メタデータ） (2024-04-14T21:51:02Z)
Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文参考訳（メタデータ） (2024-04-03T11:36:12Z)
Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文参考訳（メタデータ） (2023-11-14T18:59:15Z)
Improving the Reliability of Large Language Models by Leveraging Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-07T12:06:53Z)
Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。次に、そのような反実的な入力に対するモデルの応答を評価する。
論文参考訳（メタデータ） (2023-03-05T08:00:30Z)
Realistic Conversational Question Answering with Answer Selection based on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文参考訳（メタデータ） (2023-02-10T09:42:07Z)
Towards Improving Faithfulness in Abstractive Summarization [37.19777407790153]
本稿では,抽象的な要約における忠実度を改善するために,FES(Fithfulness Enhanced Summarization Model)を提案する。我々のモデルはCNN/DMとXSumの実験において強いベースラインを上回ります。
論文参考訳（メタデータ） (2022-10-04T19:52:09Z)
Learning from Lexical Perturbations for Consistent Visual Question Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。 VQA Perturbed Pairings (VQA P2) も提案する。
論文参考訳（メタデータ） (2020-11-26T17:38:03Z)
Knowledge-Grounded Dialogue Generation with Pre-trained Language Models [74.09352261943911]
我々は、事前学習された言語モデルを用いた知識基底対話生成について研究する。本稿では,知識選択モジュールを用いた事前学習言語モデルによって定義された等価応答生成を提案する。
論文参考訳（メタデータ） (2020-10-17T16:49:43Z)
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文参考訳（メタデータ） (2020-10-05T20:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。