論文の概要: PALM-Bench: A Comprehensive Benchmark for Personalized Audio-Language Models
- arxiv url: http://arxiv.org/abs/2601.03531v1
- Date: Wed, 07 Jan 2026 02:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.175617
- Title: PALM-Bench: A Comprehensive Benchmark for Personalized Audio-Language Models
- Title(参考訳): PALM-Bench:パーソナライズドオーディオ言語モデルのための総合ベンチマーク
- Authors: Yuwen Wang, Xinyuan Qian, Tian-Hao Zhang, Jiaran Gao, Yuchen Pan, Xin Wang, Zhou Pan, Chen Wei, Yiming Wang,
- Abstract要約: LALM(Large Audio-Language Models)は、音声の理解と生成において強力な性能を示す。
パーソナライズされたLALM(Personalized LALMs)のタスクを,個人的コンテキスト内での個人的概念と推論の認識のために形式化する。
代表的なオープンソースLALMに関する実験では、既存のトレーニング不要のプロンプトと教師付き微調整戦略が改善しながらも、パーソナライズされた知識のモデリングに限られていることが示されている。
- 参考スコア(独自算出の注目度): 21.26163892337167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio-Language Models (LALMs) have demonstrated strong performance in audio understanding and generation. Yet, our extensive benchmarking reveals that their behavior is largely generic (e.g., summarizing spoken content) and fails to adequately support personalized question answering (e.g., summarizing what my best friend says). In contrast, human conditions their interpretation and decision-making on each individual's personal context. To bridge this gap, we formalize the task of Personalized LALMs (PALM) for recognizing personal concepts and reasoning within personal context. Moreover, we create the first benchmark (PALM-Bench) to foster the methodological advances in PALM and enable structured evaluation on several tasks across multi-speaker scenarios. Our extensive experiments on representative open-source LALMs, show that existing training-free prompting and supervised fine-tuning strategies, while yield improvements, remains limited in modeling personalized knowledge and transferring them across tasks robustly. Data and code will be released.
- Abstract(参考訳): LALM(Large Audio-Language Models)は、音声の理解と生成において強力な性能を示す。
しかし、我々の広範なベンチマークでは、彼らの行動は概ね汎用的(音声コンテンツの要約など)であり、パーソナライズされた質問応答(例えば、私の親友の言うことを要約する)を適切にサポートできないことが明らかになっている。
対照的に、人間は個々の個人の状況に対する解釈と意思決定を条件にしている。
パーソナライズされたLALM(Personalized LALMs, パーソナライズされたLALM)のタスクを, このギャップを埋めるために, 個人的概念と個人的文脈内での推論を形式化する。
さらに,PALMの方法論的進歩を育むための最初のベンチマーク(PALM-Bench)を作成し,マルチスピーカシナリオにおける複数のタスクの構造化評価を可能にする。
代表的なオープンソースLALMに関する広範な実験により、既存のトレーニングフリーのプロンプトと教師付き微調整戦略は改善されているものの、パーソナライズされた知識をモデリングし、タスク間で堅牢に伝達することに制限されていることが示された。
データとコードはリリースされる。
関連論文リスト
- Enhancing Speech Large Language Models through Reinforced Behavior Alignment [5.647822820528311]
本稿では,言語生成能力を高めるためのRBA(Reinforced Behavior Alignment)というフレームワークを提案する。
RBAは、人間のアノテーションから教師付き微調整に頼るのではなく、自己合成手法を用いて、広範囲で高忠実なアライメントデータを生成する。
実験により,本手法はSpeechLMの指示追従能力を効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-08-25T07:31:48Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。