論文の概要: Harmonic LLMs are Trustworthy
- arxiv url: http://arxiv.org/abs/2404.19708v2
- Date: Thu, 25 Jul 2024 16:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 18:57:36.108288
- Title: Harmonic LLMs are Trustworthy
- Title(参考訳): ハーモニックLLMは信頼できる
- Authors: Nicholas S. Kersting, Mohammad Rahman, Suchismitha Vedala, Yang Wang,
- Abstract要約: 我々は,ブラックボックスLLMの強靭性を実時間でテストする直感的な手法を,その局所的な調和性偏差を$gamma$と表現して導入する。
WebQA、ProgrammingQA、TrthfulQAの3つのドメインで、数千のクエリにまたがる10の一般的なLCMで$gamma$を測定します。
- 参考スコア(独自算出の注目度): 3.8119386967826294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an intuitive method to test the robustness (stability and explainability) of any black-box LLM in real-time via its local deviation from harmoniticity, denoted as $\gamma$. To the best of our knowledge this is the first completely model-agnostic and unsupervised method of measuring the robustness of any given response from an LLM, based upon the model itself conforming to a purely mathematical standard. To show general application and immediacy of results, we measure $\gamma$ in 10 popular LLMs (ChatGPT, Claude-2.1, Claude3.0, GPT-4, GPT-4o, Smaug-72B, Mixtral-8x7B, Llama2-7B, Mistral-7B and MPT-7B) across thousands of queries in three objective domains: WebQA, ProgrammingQA, and TruthfulQA. Across all models and domains tested, human annotation confirms that $\gamma \to 0$ indicates trustworthiness, and conversely searching higher values of $\gamma$ easily exposes examples of hallucination, a fact that enables efficient adversarial prompt generation through stochastic gradient ascent in $\gamma$. The low-$\gamma$ leaders among the models in the respective domains are GPT-4o, GPT-4, and Smaug-72B, providing evidence that mid-size open-source models can win out against large commercial models.
- Abstract(参考訳): 我々は,任意のブラックボックスLSMの強靭性(安定性と説明可能性)を実時間でテストする直感的な手法を提案する。
我々の知る限りでは、これは LLM からの任意の応答のロバスト性を測定するための、完全にモデルに依存しない教師なしの手法としては初めてであり、モデル自体が純粋に数学的標準に準拠している。
一般的な適用と結果の即時性を示すため、WebQA, ProgrammingQA, TruthfulQAという3つのドメインで数千のクエリに対して$\gamma$を10のLLM(ChatGPT, Claude-2.1, Claude3.0, GPT-4, GPT-4o, Smaug-72B, Mixtral-8x7B, Llama2-7B, Mistral-7B, MPT-7B)で測定する。
検査されたすべてのモデルとドメインで、$\gamma \to 0$は信頼度を示し、逆に$\gamma$のより高い値を求めると幻覚の例が明らかになる。
GPT-4o、GPT-4、Smaug-72Bは、中規模のオープンソースモデルが大規模な商用モデルに勝てるという証拠を提供する。
関連論文リスト
- Multi-stage Large Language Model Pipelines Can Outperform GPT-4o in Relevance Assessment [6.947361774195549]
関連性評価タスクを複数の段階に分割するモジュール分類パイプラインを提案する。
我々のアプローチの1つは、OpenAIのGPT-4o miniよりも18.4%のKrippendorffの$alpha$精度が向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T07:33:39Z) - Large Language Model Confidence Estimation via Black-Box Access [30.490207799344333]
大規模言語モデル(LLM)の応答に対する信頼度をブラックボックスやクエリアクセスで推定する問題について検討する。
そこで我々は,新しい特徴を設計し,その信頼性を推定するために,これらの特徴に対する(解釈可能な)モデル(つまりロジスティック回帰)を訓練する,シンプルで汎用的なフレームワークを提案する。
我々は,Flan-ul2,-13b,Mistral-7b,GPT-4の4つのベンチマークQ&Aタスクおよび2つのベンチマーク要約タスクにおけるPegasus-large,BART-largeの信頼性を推定する上で,我々の単純なフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-06-01T02:08:44Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - Ensemble of Averages: Improving Model Selection and Boosting Performance
in Domain Generalization [63.28279815753543]
ドメイン一般化(Domain Generalization, DG)設定では、特定のトレーニングドメインセットでトレーニングされたモデルが、シフトしたテストドメイン上でのカオスなパフォーマンスで悪名高い。
まず、モデルパラメータを最適化パスに沿って平均化する単純なプロトコルが、トレーニングの初期段階から始まって、ドメインの一般化性を大幅に向上させることを示す。
独立に訓練されたモデルのアンサンブルもまた、DG設定においてカオスな振る舞いを持つことを示す。
論文 参考訳(メタデータ) (2021-10-21T00:08:17Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。