論文の概要: Benchmarking and Confidence Evaluation of LALMs For Temporal Reasoning
- arxiv url: http://arxiv.org/abs/2505.13115v1
- Date: Mon, 19 May 2025 13:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.62379
- Title: Benchmarking and Confidence Evaluation of LALMs For Temporal Reasoning
- Title(参考訳): 時間推論のためのLALMのベンチマークと信頼性評価
- Authors: Debarpan Bhattacharya, Apoorva Kulkarni, Sriram Ganapathy,
- Abstract要約: 大規模音声言語モデル(LALM)は、従来の分類や生成タスクとは異なる関連タスクの推論に基づいて評価する必要がある。
オープンソースのLALMをベンチマークし、TREAデータセットのタスクにおいて、それらが人間の能力に一貫して遅れていることを観察する。
分析の結果,精度と不確かさの指標が必ずしも相関しているわけではないことが示唆され,高感度アプリケーションにおけるLALMの全体評価の必要性が示唆された。
- 参考スコア(独自算出の注目度): 30.308743810639758
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The popular success of text-based large language models (LLM) has streamlined the attention of the multimodal community to combine other modalities like vision and audio along with text to achieve similar multimodal capabilities. In this quest, large audio language models (LALMs) have to be evaluated on reasoning related tasks which are different from traditional classification or generation tasks. Towards this goal, we propose a novel dataset called temporal reasoning evaluation of audio (TREA). We benchmark open-source LALMs and observe that they are consistently behind human capabilities on the tasks in the TREA dataset. While evaluating LALMs, we also propose an uncertainty metric, which computes the invariance of the model to semantically identical perturbations of the input. Our analysis shows that the accuracy and uncertainty metrics are not necessarily correlated and thus, points to a need for wholesome evaluation of LALMs for high-stakes applications.
- Abstract(参考訳): テキストベースの大規模言語モデル(LLM)の成功は、視覚や音声などの他のモダリティとテキストを組み合わせることで、同様のマルチモーダル機能を実現するために、マルチモーダルコミュニティの注目を集めている。
この探索では、従来の分類や生成タスクとは異なる関連するタスクの推論に基づいて、大規模音声言語モデル(LALM)を評価する必要がある。
本研究の目的は,音声の時間的推論評価(TREA)と呼ばれる新しいデータセットを提案することである。
オープンソースのLALMをベンチマークし、TREAデータセットのタスクにおいて、それらが人間の能力に一貫して遅れていることを観察する。
LALMを評価しながら、入力のセマンティックに同一な摂動に対するモデルの不変性を計算する不確実性計量も提案する。
解析の結果,精度と不確かさの指標が必ずしも相関しているわけではないことが示唆され,LALMの高精度な評価の必要性が示唆された。
関連論文リスト
- What are they talking about? Benchmarking Large Language Models for Knowledge-Grounded Discussion Summarization [19.616500850017363]
本研究の目的は,既存の対話要約システムにおける外部オブザーバの混乱の限界に対処することである。
タスク出力を背景と意見の要約としてモデル化し、2つの標準化された要約パターンを定義する。
我々は,構造化プロンプトおよび自己回帰パラダイムの下で12個のLDMを評価した。
論文 参考訳(メタデータ) (2025-05-18T15:52:24Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。
また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-22T23:32:42Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。