論文の概要: Harmonic LLMs are Trustworthy
- arxiv url: http://arxiv.org/abs/2404.19708v1
- Date: Tue, 30 Apr 2024 17:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:26:28.685776
- Title: Harmonic LLMs are Trustworthy
- Title(参考訳): ハーモニックLLMは信頼できる
- Authors: Nicholas S. Kersting, Mohammad Rahman, Suchismitha Vedala, Yang Wang,
- Abstract要約: 局所的な調和性からの偏差に基づいて,ブラックボックスLCMのロバスト性をリアルタイムに検証する直感的な手法を提案する。
- 参考スコア(独自算出の注目度): 3.8119386967826294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an intuitive method to test the robustness (stability and explainability) of any black-box LLM in real-time, based upon the local deviation from harmoniticity, denoted as $\gamma$. To the best of our knowledge this is the first completely model-agnostic and unsupervised method of measuring the robustness of any given response from an LLM, based upon the model itself conforming to a purely mathematical standard. We conduct human annotation experiments to show the positive correlation of $\gamma$ with false or misleading answers, and demonstrate that following the gradient of $\gamma$ in stochastic gradient ascent efficiently exposes adversarial prompts. Measuring $\gamma$ across thousands of queries in popular LLMs (GPT-4, ChatGPT, Claude-2.1, Mixtral-8x7B, Smaug-72B, Llama2-7B, and MPT-7B) allows us to estimate the liklihood of wrong or hallucinatory answers automatically and quantitatively rank the reliability of these models in various objective domains (Web QA, TruthfulQA, and Programming QA). Across all models and domains tested, human ratings confirm that $\gamma \to 0$ indicates trustworthiness, and the low-$\gamma$ leaders among these models are GPT-4, ChatGPT, and Smaug-72B.
- Abstract(参考訳): 実時間におけるブラックボックスLEMのロバスト性(安定性と説明可能性)を実時間で検証するための直観的手法を提案する。
我々の知る限りでは、これは LLM からの任意の応答のロバスト性を測定するための、完全にモデルに依存しない教師なしの手法としては初めてであり、モデル自体が純粋に数学的標準に準拠している。
人間のアノテーション実験により、$\gamma$の正の相関を偽あるいは誤解を招く答えと示し、確率勾配における$\gamma$の勾配に従えば、敵のプロンプトを効果的に露出することを示した。
一般的なLLM(GPT-4, ChatGPT, Claude-2.1, Mixtral-8x7B, Smaug-72B, Llama2-7B, MPT-7B)における何千ドルものクエリに対して$\gamma$を計測することで、さまざまな目的領域(Web QA, TruthfulQA, Programming QA)におけるこれらのモデルの信頼性を自動で評価することができる。
テストされたすべてのモデルとドメインで、人間の評価では、$\gamma \to 0$は信頼性を示し、これらのモデルの低い$\gamma$リーダーはGPT-4、ChatGPT、Smaug-72Bである。
関連論文リスト
- RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness [94.03511733306296]
我々は,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させるフレームワークであるRLAIF-Vを紹介する。
RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。
実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは,大規模言語モデルのマルチエージェント環境におけるゲーミング能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
その結果, GPT-3.5は強い強靭性を示すが, 限定的な一般化性を示し, Chain-of-Thoughtのような手法で拡張できることがわかった。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Generation, Distillation and Evaluation of Motivational
Interviewing-Style Reflections with a Foundational Language Model [2.33956825429387]
本稿では,基礎言語モデルからより小さなモデルへの反射の発生を蒸留する方法を提案する。
まず、ゼロショットプロンプトを用いたGPT-4は、ほぼ100%の成功率で反射を生成できることを示す。
また, 蒸留モデルの品質評価において, GPT-4は労働集約的な作業に有効であることを示す。
論文 参考訳(メタデータ) (2024-02-01T22:54:31Z) - Split and Merge: Aligning Position Biases in Large Language Model based
Evaluators [23.38206418382832]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - Ensemble of Averages: Improving Model Selection and Boosting Performance
in Domain Generalization [63.28279815753543]
ドメイン一般化(Domain Generalization, DG)設定では、特定のトレーニングドメインセットでトレーニングされたモデルが、シフトしたテストドメイン上でのカオスなパフォーマンスで悪名高い。
まず、モデルパラメータを最適化パスに沿って平均化する単純なプロトコルが、トレーニングの初期段階から始まって、ドメインの一般化性を大幅に向上させることを示す。
独立に訓練されたモデルのアンサンブルもまた、DG設定においてカオスな振る舞いを持つことを示す。
論文 参考訳(メタデータ) (2021-10-21T00:08:17Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。