論文の概要: VibeCheck: Discover and Quantify Qualitative Differences in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.12851v1
- Date: Thu, 10 Oct 2024 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:11:02.431972
- Title: VibeCheck: Discover and Quantify Qualitative Differences in Large Language Models
- Title(参考訳): VibeCheck: 大規模言語モデルにおける定性的差異の発見と定量化
- Authors: Lisa Dunlap, Krishna Mandal, Trevor Darrell, Jacob Steinhardt, Joseph E Gonzalez,
- Abstract要約: 大規模言語モデル(LLM)は、ユーザが直感的に認識するが定量化に苦慮する出力に微妙に特徴を呈することが多い。
モデル(ビブ)の特性を適切に定義し,識別し,ユーザ整合性を持たせることで,一対のLLMを自動比較するシステムであるVibeCheckを紹介する。
要約や数学,キャプションなど,さまざまなモデルやタスク上でVibeCheckを実行して,モデル動作の違いに関する洞察を提供する。
- 参考スコア(独自算出の注目度): 82.8909754663003
- License:
- Abstract: Large language models (LLMs) often exhibit subtle yet distinctive characteristics in their outputs that users intuitively recognize, but struggle to quantify. These "vibes" - such as tone, formatting, or writing style - influence user preferences, yet traditional evaluations focus primarily on the single axis of correctness. We introduce VibeCheck, a system for automatically comparing a pair of LLMs by discovering identifying traits of a model ("vibes") that are well-defined, differentiating, and user-aligned. VibeCheck iteratively discover vibes from model outputs, then utilizes a panel of LLM judges to quantitatively measure the utility of each vibe. We validate that the vibes generated by VibeCheck align with those found in human discovery and run VibeCheck on pairwise preference data from real-world user conversations with llama-3-70b VS GPT-4. VibeCheck reveals that Llama has a friendly, funny, and somewhat controversial vibe. These vibes predict model identity with 80% accuracy and human preference with 61% accuracy. Lastly, we run VibeCheck on a variety of models and tasks including summarization, math, and captioning to provide insight into differences in model behavior. Some of the vibes we find are that Command X prefers to add concrete intros and conclusions when summarizing in comparison to TNGL, Llama-405b often over-explains its thought process on math problems compared to GPT-4o, and GPT-4 prefers to focus on the mood and emotions of the scene when captioning compared to Gemini-1.5-Flash.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザが直感的に認識するが、定量化に苦慮する出力に微妙だが独特な特徴を示すことが多い。
これらの"ビーブ"(トーン、フォーマッティング、書体スタイルなど)はユーザの好みに影響しますが、従来の評価は主に正しさの単一の軸に焦点を当てています。
モデル(ビブ)の特徴を適切に定義し,識別し,ユーザ整合性を持たせることによって,一対のLLMを自動比較するシステムであるVibeCheckを紹介した。
VibeCheckは、モデル出力からビブを反復的に発見し、LLM審査員のパネルを使用して各ビブの有用性を定量的に測定する。
実世界のユーザとラマ3-70bのVS GPT-4との会話から,VibeCheckが生成するバイブが人間の発見と一致し,VibeCheckをペアで選好することを示す。
VibeCheckは、ラマは友好的で、面白く、やや物議を醸していると明かす。
これらのビブはモデル識別を80%精度で予測し、人間の好みを61%精度で予測する。
最後に、モデルを要約、数学、キャプションなど、さまざまなモデルやタスク上でVibeCheckを実行し、モデルの振る舞いの違いに関する洞察を提供する。
Llama-405b は GPT-4o と比較して数学の問題についての思考過程を過度に説明し、GPT-4 は Gemini-1.5-Flash と比較して、シーンの気分や感情にフォーカスする。
関連論文リスト
- Stereotype or Personalization? User Identity Biases Chatbot Recommendations [54.38329151781466]
大規模言語モデル(LLM)は,ユーザが何を望んでいるのか,何者なのかを反映したレコメンデーションを生成する。
モデルが、ユーザが意図的に自身のアイデンティティを明らかにするかどうかに関わらず、人種的にステレオタイプなレコメンデーションを生成することがわかった。
実験の結果,ユーザの識別がモデルレコメンデーションに大きく影響しているにもかかわらず,モデル応答はユーザクエリに応答して,この事実を難読化することがわかった。
論文 参考訳(メタデータ) (2024-10-08T01:51:55Z) - Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。
持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。
この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文 参考訳(メタデータ) (2024-08-05T03:05:02Z) - Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models [67.62126108440003]
マルチモーダルチャットモデルを評価するための新しいオープンベンチマークとフレームワークであるVibe-Evalを紹介する。
Vibe-Evalは、100の難易度を含む269の視覚的理解プロンプトで構成され、専門家によって書かれたゴールド標準応答が完備している。
本稿では,人間と自動評価のトレードオフについて論じるとともに,Reka Coreを用いた自動モデル評価が人的判断と大まかに相関していることを示す。
論文 参考訳(メタデータ) (2024-05-03T17:59:55Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。