論文の概要: Text-to-Stage: Spatial Layouts from Long-form Narratives
- arxiv url: http://arxiv.org/abs/2603.17832v1
- Date: Wed, 18 Mar 2026 15:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.790067
- Title: Text-to-Stage: Spatial Layouts from Long-form Narratives
- Title(参考訳): テキスト・トゥ・ステージ:長文物語からの空間レイアウト
- Authors: Jefferson Hernandez, Swarnadeep Saha, Chenxi Whitehouse, Sanjeel Parekh, Calvin Murdock, Yuliang Li, W. Owen Brimijoin, Vamsi Krishna Ithapu, Ishwarya Ananthabhotla,
- Abstract要約: 構造化されていないテキストから空間的推論を実証する言語モデルの能力について検討する。
ドラマトゥルギーにインスパイアされた決定論的評価スイートと,トレーニングと推論のレシピを紹介する。
古典英語文学のテキストのみのコーパスの実験では、バニラモデルよりも改善が示されている。
- 参考スコア(独自算出の注目度): 26.910880317766384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we probe the ability of a language model to demonstrate spatial reasoning from unstructured text, mimicking human capabilities and automating a process that benefits many downstream media applications. Concretely, we study the narrative-to-play task: inferring stage-play layouts (scenes, speaker positions, movements, and room types) from text that lacks explicit spatial, positional, or relational cues. We then introduce a dramaturgy-inspired deterministic evaluation suite and, finally, a training and inference recipe that combines rejection SFT using Best-of-N sampling with RL from verifiable rewards via GRPO. Experiments on a text-only corpus of classical English literature demonstrate improvements over vanilla models across multiple metrics (character attribution, spatial plausibility, and movement economy), as well as alignment with an LLM-as-a-judge and subjective human preferences.
- Abstract(参考訳): 本研究では,非構造化テキストから空間的推論を実証し,人間の能力を模倣し,下流メディアアプリケーションに有用なプロセスを自動化する言語モデルの能力について検討する。
具体的には, 空間的, 位置的, 関係性に欠けるテキストから, ステージプレイレイアウト(シーン, 話者の位置, 動き, 部屋タイプ)を推定する。
次に、ドラマトゥルギーにインスパイアされた決定論的評価スイートを紹介し、最後に、Best-of-Nサンプリングを用いた拒絶SFTと、GRPOによる検証可能な報酬からRLを組み合わせたトレーニングと推論のレシピを紹介した。
古典英語文学のテキストのみのコーパスの実験では、複数の指標(属性属性、空間的可視性、移動経済)にわたるバニラモデルよりも改善され、LLM-as-a-judgeや主観的な人間の嗜好と一致している。
関連論文リスト
- SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space [11.534994345027362]
MLLM(Multimodal large language model)は、推論セグメンテーションなどの視覚言語タスクにおいて顕著な機能を示す。
そこで本研究では,従来の問合せの意味を保ちつつ,セグメンテーション性能を劣化させつつ,文法的に正しい言い回しを生成する,新しい逆の言い回しタスクを提案する。
テキストオートエンコーダの低次元意味潜在空間で動作するブラックボックスであるSPARTAを導入する。
論文 参考訳(メタデータ) (2025-10-28T14:09:05Z) - Classifying Unreliable Narrators with Large Language Models [23.817691955577835]
本稿では,複数のドメインからのナラティブを人間に注釈付けしたデータセットTUNaを提案する。
ナレーション内,ナレーション間,テキスト間不確実性の分類タスクを定義する。
実世界のテキストデータに基づいて,信頼できないナレーター分類を行うために,文献からの学習を提案する。
論文 参考訳(メタデータ) (2025-06-11T23:17:12Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Contextual Speech Extraction: Leveraging Textual History as an Implicit Cue for Target Speech Extraction [50.630431647192054]
本稿では,ターゲット音声抽出(TSE)の新しい手法について検討する。
対象の音声を抽出するためには、テキストの文脈にのみ依存する。
3つのCSEモデルを示し、その性能を3つのデータセットで分析する。
論文 参考訳(メタデータ) (2025-03-11T18:26:10Z) - Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs [50.0874045899661]
本稿では,文字のテキストワークに現れる言語パターンと独特の思考パターンの両方を再現するモデルである characterBot を紹介する。
著名な中国の作家ル・ジュンをケーススタディとして、17冊のエッセイ集から派生した4つの訓練課題を提案する。
これには、外部の言語構造と知識を習得することに焦点を当てた事前訓練タスクと、3つの微調整タスクが含まれる。
言語的正確性と意見理解の3つのタスクにおいて、キャラクタボットを評価し、適応されたメトリクスのベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-02-18T16:11:54Z) - Towards Aligning Language Models with Textual Feedback [43.55450701925131]
ALT(Alignment with Textual feedback)は、言語モデルとユーザの好みをテキストで表わすアプローチである。
本稿では, 有害度低減, 要約, 対話応答生成など, さまざまなタスクにおけるテキストフィードバックの有効性と効率について検討する。
論文 参考訳(メタデータ) (2024-07-24T03:32:05Z) - PSST: A Benchmark for Evaluation-driven Text Public-Speaking Style Transfer [16.07576878783396]
公的なテキストを公用語に変換することを目的とした,PSST(Public-Speaking Style Transfer)という新しいタスクを導入する。
言語学的観点からの実世界のデータ分析に基礎を置き、公用語のスタイルを重要なサブスタイルに分解する。
そこで本研究では,その特徴を分析し,スタイリングされたテキストの問題点を特定するための,きめ細かい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-14T18:50:51Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。