論文の概要: MetaCheckGPT -- A Multi-task Hallucination Detection Using LLM Uncertainty and Meta-models
- arxiv url: http://arxiv.org/abs/2404.06948v1
- Date: Wed, 10 Apr 2024 11:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 14:40:47.755570
- Title: MetaCheckGPT -- A Multi-task Hallucination Detection Using LLM Uncertainty and Meta-models
- Title(参考訳): メタチェックGPT -- LLM不確かさとメタモデルを用いたマルチタスク幻覚検出
- Authors: Rahul Mehta, Andrew Hoblitzell, Jack O'Keefe, Hyeju Jang, Vasudeva Varma,
- Abstract要約: 本稿では,SemEval-2024 Task 6コンペティションにおける優勝ソリューションについて述べる。
本稿では,モデル評価と統合のための大規模言語モデル(LLM)のメタ回帰フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.322071110929338
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents our winning solution for the SemEval-2024 Task 6 competition. We propose a meta-regressor framework of large language models (LLMs) for model evaluation and integration that achieves the highest scores on the leader board. Our approach leverages uncertainty signals present in a diverse basket of LLMs to detect hallucinations more robustly.
- Abstract(参考訳): 本稿では,SemEval-2024 Task 6コンペティションにおける優勝ソリューションについて述べる。
本稿では,モデル評価と統合のための大規模言語モデル(LLM)のメタ回帰フレームワークを提案する。
提案手法は,LLMの多種多様なバスケットに存在する不確実性信号を利用して,より堅牢な幻覚検出を行う。
関連論文リスト
- Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts [21.066098443321966]
MLLM(Multimodal Large Language Models)に適したMixture of Experts(MoE)アーキテクチャであるAwaker2.5-VLを提案する。
Awaker2.5-VLのトレーニングと推論を高速化するために、我々のモデルの各専門家はローランク適応(LoRA)構造として考案される。
複数の最新のベンチマークの実験では、Awaker2.5-VLの有効性が示されている。
論文 参考訳(メタデータ) (2024-11-16T02:10:14Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Probing the Robustness of Theory of Mind in Large Language Models [6.7932860553262415]
LLMにおけるToM探索のための68タスクの新しいデータセットを提案する。
データセットとデータセットを用いた4つのSotAオープンソースLLMのToM性能の評価(Kosinski, 2023)。
エージェントが環境における自動状態変化の知識を持っているという認識を必要とするタスクにおいて、全てのLLMが不整合性を示す傾向がみられた。
論文 参考訳(メタデータ) (2024-10-08T18:13:27Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal
Contributions in Vision and Language Models & Tasks [20.902155496422417]
視覚と言語モデルは、各モダリティにおける関連情報に焦点をあてるのではなく、個々のモダリティにおける不正な指標を利用する。
MM-SHAPは,シェープリー値に基づく性能非依存のマルチモーダリティスコアである。
論文 参考訳(メタデータ) (2022-12-15T21:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。