Fugu-MT 論文翻訳(概要): VibeCheck: Discover and Quantify Qualitative Differences in Large Language Models

論文の概要: VibeCheck: Discover and Quantify Qualitative Differences in Large Language Models

arxiv url: http://arxiv.org/abs/2410.12851v1
Date: Thu, 10 Oct 2024 17:59:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.512643
Title: VibeCheck: Discover and Quantify Qualitative Differences in Large Language Models
Title（参考訳）: VibeCheck: 大規模言語モデルにおける定性的差異の発見と定量化
Authors: Lisa Dunlap, Krishna Mandal, Trevor Darrell, Jacob Steinhardt, Joseph E Gonzalez,
Abstract要約: 大規模言語モデル(LLM)は、ユーザが直感的に認識するが定量化に苦慮する出力に微妙に特徴を呈することが多い。モデル(ビブ)の特性を適切に定義し,識別し,ユーザ整合性を持たせることで,一対のLLMを自動比較するシステムであるVibeCheckを紹介する。要約や数学,キャプションなど,さまざまなモデルやタスク上でVibeCheckを実行して,モデル動作の違いに関する洞察を提供する。
参考スコア（独自算出の注目度）: 82.8909754663003
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) often exhibit subtle yet distinctive characteristics in their outputs that users intuitively recognize, but struggle to quantify. These "vibes" - such as tone, formatting, or writing style - influence user preferences, yet traditional evaluations focus primarily on the single axis of correctness. We introduce VibeCheck, a system for automatically comparing a pair of LLMs by discovering identifying traits of a model ("vibes") that are well-defined, differentiating, and user-aligned. VibeCheck iteratively discover vibes from model outputs, then utilizes a panel of LLM judges to quantitatively measure the utility of each vibe. We validate that the vibes generated by VibeCheck align with those found in human discovery and run VibeCheck on pairwise preference data from real-world user conversations with llama-3-70b VS GPT-4. VibeCheck reveals that Llama has a friendly, funny, and somewhat controversial vibe. These vibes predict model identity with 80% accuracy and human preference with 61% accuracy. Lastly, we run VibeCheck on a variety of models and tasks including summarization, math, and captioning to provide insight into differences in model behavior. Some of the vibes we find are that Command X prefers to add concrete intros and conclusions when summarizing in comparison to TNGL, Llama-405b often over-explains its thought process on math problems compared to GPT-4o, and GPT-4 prefers to focus on the mood and emotions of the scene when captioning compared to Gemini-1.5-Flash.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ユーザが直感的に認識するが、定量化に苦慮する出力に微妙だが独特な特徴を示すことが多い。これらの"ビーブ"(トーン、フォーマッティング、書体スタイルなど)はユーザの好みに影響しますが、従来の評価は主に正しさの単一の軸に焦点を当てています。モデル(ビブ)の特徴を適切に定義し,識別し,ユーザ整合性を持たせることによって,一対のLLMを自動比較するシステムであるVibeCheckを紹介した。 VibeCheckは、モデル出力からビブを反復的に発見し、LLM審査員のパネルを使用して各ビブの有用性を定量的に測定する。実世界のユーザとラマ3-70bのVS GPT-4との会話から,VibeCheckが生成するバイブが人間の発見と一致し,VibeCheckをペアで選好することを示す。 VibeCheckは、ラマは友好的で、面白く、やや物議を醸していると明かす。これらのビブはモデル識別を80%精度で予測し、人間の好みを61%精度で予測する。最後に、モデルを要約、数学、キャプションなど、さまざまなモデルやタスク上でVibeCheckを実行し、モデルの振る舞いの違いに関する洞察を提供する。 Llama-405b は GPT-4o と比較して数学の問題についての思考過程を過度に説明し、GPT-4 は Gemini-1.5-Flash と比較して、シーンの気分や感情にフォーカスする。

関連論文リスト

Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文参考訳（メタデータ） (2025-02-21T20:29:02Z)
G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o [15.929657348606018]
G-VEvalはG-Evalにインスパイアされた新しい測度であり、新しい GPT-4o で駆動される。 G-VEvalは、大規模なマルチモーダルモデルでチェーン・オブ・シント推論を使用しており、参照フリー、参照オンリー、組み合わせの3つのモードをサポートしている。また,ビデオキャプション評価のための新しいデータセットであるMSVD-Evalを提案する。
論文参考訳（メタデータ） (2024-12-18T09:23:12Z)
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。 AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文参考訳（メタデータ） (2024-12-03T17:41:23Z)
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models [13.04745908368858]
オープンソースT2Vモデルによる幻覚映像の大規模データセットであるViBeを紹介する。 10種類のT2Vモデルを用いて、837のMSキャプションから3,782本の動画を手動で作成した。提案するベンチマークには、幻覚映像のデータセットと、ビデオ埋め込みを用いた分類フレームワークが含まれる。
論文参考訳（メタデータ） (2024-11-16T19:23:12Z)
Stereotype or Personalization? User Identity Biases Chatbot Recommendations [54.38329151781466]
大規模言語モデル(LLM)は,ユーザが何を望んでいるのか,何者なのかを反映したレコメンデーションを生成する。モデルが、ユーザが意図的に自身のアイデンティティを明らかにするかどうかに関わらず、人種的にステレオタイプなレコメンデーションを生成することがわかった。実験の結果,ユーザの識別がモデルレコメンデーションに大きく影響しているにもかかわらず,モデル応答はユーザクエリに応答して,この事実を難読化することがわかった。
論文参考訳（メタデータ） (2024-10-08T01:51:55Z)
Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文参考訳（メタデータ） (2024-08-05T03:05:02Z)
WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.87483437694706]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文参考訳（メタデータ） (2024-06-16T20:53:25Z)
Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models [67.62126108440003]
マルチモーダルチャットモデルを評価するための新しいオープンベンチマークとフレームワークであるVibe-Evalを紹介する。 Vibe-Evalは、100の難易度を含む269の視覚的理解プロンプトで構成され、専門家によって書かれたゴールド標準応答が完備している。本稿では,人間と自動評価のトレードオフについて論じるとともに,Reka Coreを用いた自動モデル評価が人的判断と大まかに相関していることを示す。
論文参考訳（メタデータ） (2024-05-03T17:59:55Z)
Can We Talk Models Into Seeing the World Differently? [29.55195958914328]
視覚言語モデル(VLM)は、言語プロンプトを通じて視覚コンテンツにアクセスする直感的な方法を提供する。我々は、特によく研究されている視覚のみの偏見(テクスチャ対形状偏見)と、グローバル情報に対する局所的な優位性)について検討する。驚くべきことに、マルチモダリティだけで、モデルの振る舞いに重要な影響を与えることが証明されます。
論文参考訳（メタデータ） (2024-03-14T09:07:14Z)
HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。 HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文参考訳（メタデータ） (2023-10-23T04:49:09Z)
Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文参考訳（メタデータ） (2023-05-23T07:54:37Z)
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文参考訳（メタデータ） (2023-03-15T19:31:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。