Fugu-MT 論文翻訳(概要): Developing a Framework for Auditing Large Language Models Using Human-in-the-Loop

論文の概要: Developing a Framework for Auditing Large Language Models Using Human-in-the-Loop

arxiv url: http://arxiv.org/abs/2402.09346v2
Date: Fri, 16 Feb 2024 16:58:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 12:39:07.470710
Title: Developing a Framework for Auditing Large Language Models Using Human-in-the-Loop
Title（参考訳）: Human-in-the-Loop を用いた大規模言語モデル監査フレームワークの開発
Authors: Maryam Amirizaniani, Jihan Yao, Adrian Lavergne, Elizabeth Snell Okada, Aman Chadha, Tanya Roosta, Chirag Shah
Abstract要約: 例えば、バイアス、矛盾、幻覚などがある。有効な方法は、同じ質問の異なるバージョンを用いてLLMを探索することである。この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要である。
参考スコア（独自算出の注目度）: 8.159685593135407
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: As LLMs become more pervasive across various users and scenarios, identifying potential issues when using these models becomes essential. Examples include bias, inconsistencies, and hallucination. Although auditing the LLM for these problems is desirable, it is far from being easy or solved. An effective method is to probe the LLM using different versions of the same question. This could expose inconsistencies in its knowledge or operation, indicating potential for bias or hallucination. However, to operationalize this auditing method at scale, we need an approach to create those probes reliably and automatically. In this paper we propose an automatic and scalable solution, where one uses a different LLM along with human-in-the-loop. This approach offers verifiability and transparency, while avoiding circular reliance on the same LLMs, and increasing scientific rigor and generalizability. Specifically, we present a novel methodology with two phases of verification using humans: standardized evaluation criteria to verify responses, and a structured prompt template to generate desired probes. Experiments on a set of questions from TruthfulQA dataset show that we can generate a reliable set of probes from one LLM that can be used to audit inconsistencies in a different LLM. The criteria for generating and applying auditing probes is generalizable to various LLMs regardless of the underlying structure or training mechanism.
Abstract（参考訳）: LLMがさまざまなユーザやシナリオに広まるにつれて、これらのモデルを使用する際の潜在的な問題を特定することが不可欠になります。例えば、バイアス、矛盾、幻覚などがある。これらの問題に対するLCMの監査は望ましいが、簡単あるいは解決には程遠い。有効な方法は、同じ質問の異なるバージョンを用いてLLMを探索することである。これは知識や操作の不整合を露呈し、偏見や幻覚の可能性を示唆する。しかしながら、この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要です。本稿では,ループ内の人間とともに異なるllmを使用する自動かつスケーラブルなソリューションを提案する。このアプローチは検証可能性と透明性を提供し、同じllmへの循環依存を回避し、科学的厳密さと一般化性を高める。具体的には,人間を用いた2段階の検証を行う新しい手法を提案する。応答の検証のための標準評価基準と,所望のプローブを生成するための構造化されたプロンプトテンプレートである。 TruthfulQAデータセットからの一連の質問に対する実験は、異なるLLMの不整合を監査するために使用できる、あるLLMから信頼できるプローブセットを生成することができることを示している。監査プローブの生成および適用基準は、基礎となる構造や訓練機構にかかわらず、様々なLCMに対して一般化可能である。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
LLMs Can Generate a Better Answer by Aggregating Their Own Responses [83.69632759174405]
大きな言語モデル(LLM)はタスク間で顕著な機能を示しているが、複雑な問題に直面している場合、追加のプロンプト技術を必要とすることが多い。この制限は、共通LLMポストトレーニング手順が差別的判断タスクの明示的な監督を欠いているという事実に起因している、と我々は主張する。本稿では,モデルの識別機能を必要とせず,解答品質を向上させる手法である生成自己集合(GSA)を提案する。
論文参考訳（メタデータ） (2025-03-06T05:25:43Z)
ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
大規模言語モデル(LLM)は、会話型AIシステムにおいて、ユーザの問い合わせに対する応答を生成するために広く使われている。本研究では,文書コーパスから多様なスコープ外質問を効率的に生成する誘導幻覚に基づく手法を提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。 LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文参考訳（メタデータ） (2024-08-09T14:34:32Z)
Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。私たちの評価は幻覚を構成するものに関して微妙な点を呈する。既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文参考訳（メタデータ） (2024-06-05T17:49:47Z)
Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文参考訳（メタデータ） (2024-05-30T03:00:47Z)
Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文参考訳（メタデータ） (2024-03-15T02:38:26Z)
AuditLLM: A Tool for Auditing Large Language Models Using Multiprobe Approach [8.646131951484696]
AuditLLMは様々な大規模言語モデル(LLM)のパフォーマンスを方法論的に監査するために設計された新しいツールである。堅牢で信頼性があり、一貫性のあるLCMは、同じ質問の可変なフレーズ付きバージョンに対する意味論的に類似した応答を生成することが期待されている。あるレベルの矛盾が潜在的なバイアス、幻覚、その他の問題の指標であることが示されている。
論文参考訳（メタデータ） (2024-02-14T17:31:04Z)
Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。 RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文参考訳（メタデータ） (2023-11-07T18:43:34Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文参考訳（メタデータ） (2023-03-15T19:31:21Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)
Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文参考訳（メタデータ） (2023-02-22T17:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。