論文の概要: PALM-Bench: A Comprehensive Benchmark for Personalized Audio-Language Models
- arxiv url: http://arxiv.org/abs/2601.03531v1
- Date: Wed, 07 Jan 2026 02:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.175617
- Title: PALM-Bench: A Comprehensive Benchmark for Personalized Audio-Language Models
- Title(参考訳): PALM-Bench:パーソナライズドオーディオ言語モデルのための総合ベンチマーク
- Authors: Yuwen Wang, Xinyuan Qian, Tian-Hao Zhang, Jiaran Gao, Yuchen Pan, Xin Wang, Zhou Pan, Chen Wei, Yiming Wang,
- Abstract要約: LALM(Large Audio-Language Models)は、音声の理解と生成において強力な性能を示す。
パーソナライズされたLALM(Personalized LALMs)のタスクを,個人的コンテキスト内での個人的概念と推論の認識のために形式化する。
代表的なオープンソースLALMに関する実験では、既存のトレーニング不要のプロンプトと教師付き微調整戦略が改善しながらも、パーソナライズされた知識のモデリングに限られていることが示されている。
- 参考スコア(独自算出の注目度): 21.26163892337167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio-Language Models (LALMs) have demonstrated strong performance in audio understanding and generation. Yet, our extensive benchmarking reveals that their behavior is largely generic (e.g., summarizing spoken content) and fails to adequately support personalized question answering (e.g., summarizing what my best friend says). In contrast, human conditions their interpretation and decision-making on each individual's personal context. To bridge this gap, we formalize the task of Personalized LALMs (PALM) for recognizing personal concepts and reasoning within personal context. Moreover, we create the first benchmark (PALM-Bench) to foster the methodological advances in PALM and enable structured evaluation on several tasks across multi-speaker scenarios. Our extensive experiments on representative open-source LALMs, show that existing training-free prompting and supervised fine-tuning strategies, while yield improvements, remains limited in modeling personalized knowledge and transferring them across tasks robustly. Data and code will be released.
- Abstract(参考訳): LALM(Large Audio-Language Models)は、音声の理解と生成において強力な性能を示す。
しかし、我々の広範なベンチマークでは、彼らの行動は概ね汎用的(音声コンテンツの要約など)であり、パーソナライズされた質問応答(例えば、私の親友の言うことを要約する)を適切にサポートできないことが明らかになっている。
対照的に、人間は個々の個人の状況に対する解釈と意思決定を条件にしている。
パーソナライズされたLALM(Personalized LALMs, パーソナライズされたLALM)のタスクを, このギャップを埋めるために, 個人的概念と個人的文脈内での推論を形式化する。
さらに,PALMの方法論的進歩を育むための最初のベンチマーク(PALM-Bench)を作成し,マルチスピーカシナリオにおける複数のタスクの構造化評価を可能にする。
代表的なオープンソースLALMに関する広範な実験により、既存のトレーニングフリーのプロンプトと教師付き微調整戦略は改善されているものの、パーソナライズされた知識をモデリングし、タスク間で堅牢に伝達することに制限されていることが示された。
データとコードはリリースされる。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。