Fugu-MT 論文翻訳(概要): Same Words, Different Judgments: Modality Effects on Preference Alignment

論文の概要: Same Words, Different Judgments: Modality Effects on Preference Alignment

arxiv url: http://arxiv.org/abs/2602.22710v1
Date: Thu, 26 Feb 2026 07:34:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.577753
Title: Same Words, Different Judgments: Modality Effects on Preference Alignment
Title（参考訳）: 同じ言葉, 異なる判断: 主観的アライメントに対するモダリティの影響
Authors: Aaron Broukhim, Nadir Weibel, Eshin Jolly,
Abstract要約: 我々は100のプロンプトで同一のセマンティックコンテンツをテキストと音声で評価する。オーディオの好みはテキストと同じくらい信頼性があり、レイター間の合意は良好なレベルに達する。オーディオラッカーは、より狭い決定しきい値、長さバイアスの低減、よりユーザ指向の評価基準を示す。
参考スコア（独自算出の注目度）: 8.352948546053776
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Preference-based reinforcement learning (PbRL) is the dominant framework for aligning AI systems to human preferences, but its application to speech remains underexplored. We present a controlled cross-modal study of human and synthetic preference annotations, comparing text and audio evaluations of identical semantic content across 100 prompts. Audio preferences prove as reliable as text, with inter-rater agreement reaching good levels (ICC(2,k) $\approx$ .80) at $\sim$9 raters -- the first ICC-based reliability characterization in the preference annotation literature for either modality. However, modality reshapes how people judge: audio raters exhibit narrower decision thresholds, reduced length bias, and more user-oriented evaluation criteria, with near-chance cross-modality agreement. Synthetic ratings further align with human judgments and predict inter-rater agreement, supporting their use both for triaging ambiguous pairs and as full replacements for human annotations.
Abstract（参考訳）: 嗜好に基づく強化学習(PbRL)は、AIシステムと人間の嗜好を整合させる主要なフレームワークであるが、その音声への応用は未解明のままである。本稿では,100のプロンプトにまたがる同一のセマンティックコンテンツについて,テキストと音声による評価を比較検討する。オーディオの嗜好はテキストと同じくらい信頼性が高く、ICC(2,k)$\approx$ .80)を$\sim$9のレーダで達成している。しかし、モダリティは、人々の判断の仕方に反する: オーディオラッカーは、より狭い決定しきい値を示し、長さバイアスを減らし、よりユーザ指向の評価基準を、近距離の相互モダリティ合意で示します。合成格付けは、人間の判断とレータ間の合意を更に一致させ、あいまいなペアをトリアージするためにも、人間のアノテーションを完全に置き換えるためにも、それらの使用をサポートする。

関連論文リスト

AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。 AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文参考訳（メタデータ） (2026-01-21T07:35:36Z)
ORCA: Open-ended Response Correctness Assessment for Audio Question Answering [41.72231074041232]
本研究では,予測精度と不確実性の両方を予測するために,ベータ分布を用いた人的判断の変動をモデル化するフレームワークORCAを提案する。我々は15のLALMから11,721のアノテーションを収集し,0.82(クリッペンドルフのα)のアノテータ間契約を達成した。
論文参考訳（メタデータ） (2025-11-28T14:41:48Z)
Aligning Text-to-Music Evaluation with Human Preferences [63.08368388389259]
本稿では,TTM(生成音響テキスト・ツー・ミュージック)モデルの評価のための基準ベース分散指標の設計空間について検討する。私たちは、合成データと人間の嗜好データの両方に標準のFAD設定が矛盾しているだけでなく、既存の指標のほとんどすべてがデシデラタを効果的に捉えていないことに気付きました。我々は,自己教師型音声埋め込みモデルから表現に基づいて計算したMAUVE Audio Divergence(MAD)を提案する。
論文参考訳（メタデータ） (2025-03-20T19:31:04Z)
Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文参考訳（メタデータ） (2025-02-21T20:29:02Z)
Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文参考訳（メタデータ） (2024-09-23T02:34:42Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。 Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文参考訳（メタデータ） (2024-04-05T13:58:51Z)
Learning Personalized Alignment for Evaluating Open-ended Text Generation [44.565686959174585]
PerSEは、特定の人間の好みに合わせてアライメントを評価するために設計された解釈可能な評価フレームワークである。テキスト内個人プロファイルから特定の好みを推測し、生成されたコンテンツと個人の好みとの整合性を評価するように調整される。当社の13B LLaMA-2ベースのPerSEは、ケダル相関が15.8%増加し、ゼロショットレビュアーによる13.7%の精度向上を示している。
論文参考訳（メタデータ） (2023-10-05T04:15:48Z)
TRScore: A Novel GPT-based Readability Scorer for ASR Segmentation and Punctuation model evaluation and selection [1.4720080476520687]
自動音声認識における読みやすさの鍵は、触覚と可読性である。人間の評価は高価で時間がかかり、サーバ間の大きな変動に悩まされる。本稿では,GPTモデルを用いた新しい可読性尺度 TRScore について述べる。
論文参考訳（メタデータ） (2022-10-27T01:11:32Z)
Using multiple reference audios and style embedding constraints for speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文参考訳（メタデータ） (2021-10-09T04:24:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。