Fugu-MT 論文翻訳(概要): Point of Order: Action-Aware LLM Persona Modeling for Realistic Civic Simulation

論文の概要: Point of Order: Action-Aware LLM Persona Modeling for Realistic Civic Simulation

arxiv url: http://arxiv.org/abs/2511.17813v1
Date: Fri, 21 Nov 2025 22:07:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-25 18:34:24.443189
Title: Point of Order: Action-Aware LLM Persona Modeling for Realistic Civic Simulation
Title（参考訳）: 秩序のポイント:リアルな市民シミュレーションのための行動認識型LLMペルソナモデリング
Authors: Scott Merrill, Shashank Srivastava,
Abstract要約: この研究は、公開Zoomレコードをペルソナプロファイルや実用的なアクションタグといったメタデータを備えた、話者対応のトランスクリプトに変換するパイプラインを導入している。地方自治体の審議会、学校委員会会議、市議会セッションの3つの審議会データセットをリリースする。この「アクション認識」データを用いて特定の参加者をモデル化する微調整LDMは、パープレキシティを67%減少させる。
参考スコア（独自算出の注目度）: 9.827138852806305
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models offer opportunities to simulate multi-party deliberation, but realistic modeling remains limited by a lack of speaker-attributed data. Transcripts produced via automatic speech recognition (ASR) assign anonymous speaker labels (e.g., Speaker_1), preventing models from capturing consistent human behavior. This work introduces a reproducible pipeline to transform public Zoom recordings into speaker-attributed transcripts with metadata like persona profiles and pragmatic action tags (e.g., [propose_motion]). We release three local government deliberation datasets: Appellate Court hearings, School Board meetings, and Municipal Council sessions. Fine-tuning LLMs to model specific participants using this "action-aware" data produces a 67% reduction in perplexity and nearly doubles classifier-based performance metrics for speaker fidelity and realism. Turing-style human evaluations show our simulations are often indistinguishable from real deliberations, providing a practical and scalable method for complex realistic civic simulations.
Abstract（参考訳）: 大規模言語モデルは、マルチパーティの熟考をシミュレートする機会を提供するが、現実的なモデリングは、話者対応データの欠如によって制限される。自動音声認識(ASR)によって生成されたトランスクリプトは匿名話者ラベル(例: Speaker_1)を割り当てる。この研究は、公開Zoomレコードをペルソナプロファイルや実用的なアクションタグ(例: [propose_motion])などのメタデータを備えた、話者対応のトランスクリプトに変換する再現可能なパイプラインを導入している。地方自治体の審議会、学校委員会会議、市議会セッションの3つの審議会データセットをリリースする。この「行動認識」データを用いて特定の参加者をモデル化するための微調整LDMは、難易度を67%削減し、話者の忠実度とリアリズムの分類器に基づくパフォーマンス指標をほぼ2倍に削減する。チューリングスタイルの人間による評価では、シミュレーションは実際の議論と区別できないことが多く、複雑な現実的な市民シミュレーションのための実用的でスケーラブルな方法を提供する。

関連論文リスト

PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。 PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文参考訳（メタデータ） (2026-01-20T15:00:36Z)
A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [8.717610965852037]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。応答を話者対応音声合成により合成音声に変換する。マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文参考訳（メタデータ） (2025-06-04T15:42:53Z)
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
dMel: Speech Tokenization made Simple [16.679015298503593]
そこで本研究では,メルフィルタバンクチャネルを離散化した新しい音声表現(dmel)を提案する。提案手法は, 音声コンテンツの保存, ドメイン外データの堅牢性, 学習自由, 自然, ストリーム可能な表現の両面において, 優れた性能を示す。
論文参考訳（メタデータ） (2024-07-22T17:51:53Z)
Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks, Methods, and Applications [20.842799581850617]
音声信号から3次元顔形状を推定する作業について検討する。既存の作業は主に決定論的であり、限られた話者を持つ小さなデータセット上で、音声信号から3D顔メッシュへの1対1のマッピングを学ぶことに集中している。
論文参考訳（メタデータ） (2023-11-30T01:14:43Z)
Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。 SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文参考訳（メタデータ） (2023-11-04T04:54:17Z)
Disentangling Voice and Content with Self-Supervision for Speaker Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文参考訳（メタデータ） (2023-10-02T12:02:07Z)
Simulating realistic speech overlaps improves multi-talker ASR [36.39193360559079]
本稿では,複数話者の重なり合う音声を現実的な音声重なりでシミュレートする改良手法を提案する。この表現により、N-gramのような統計言語モデルに基づいて、実際の会話から重なり合う音声パターンを学習することができる。実験では,提案手法を用いて学習したマルチストーカーASRモデルを用いて,複数データセット間の単語誤り率を一貫した改善を行った。
論文参考訳（メタデータ） (2022-10-27T18:29:39Z)
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文参考訳（メタデータ） (2021-10-09T15:06:09Z)
End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文参考訳（メタデータ） (2021-05-05T14:55:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。