Fugu-MT 論文翻訳(概要): Hierarchical Encoders for Modeling and Interpreting Screenplays

論文の概要: Hierarchical Encoders for Modeling and Interpreting Screenplays

arxiv url: http://arxiv.org/abs/2004.14532v1
Date: Thu, 30 Apr 2020 01:15:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 03:57:39.293458
Title: Hierarchical Encoders for Modeling and Interpreting Screenplays
Title（参考訳）: 画面のモデリングと解釈のための階層エンコーダ
Authors: Gayatri Bhat, Avneesh Saluja, Melody Dye, and Jan Florjanczyk
Abstract要約: リッチな構造化テキストを符号化するためのニューラルアーキテクチャを提案する。本研究は,特にスクリーンプレイに取り組みながら,その基盤となるアプローチを多岐にわたる構造化文書に一般化する方法について論じる。
参考スコア（独自算出の注目度）: 1.4674456578222843
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While natural language understanding of long-form documents is still an open challenge, such documents often contain structural information that can inform the design of models for encoding them. Movie scripts are an example of such richly structured text - scripts are segmented into scenes, which are further decomposed into dialogue and descriptive components. In this work, we propose a neural architecture for encoding this structure, which performs robustly on a pair of multi-label tag classification datasets, without the need for handcrafted features. We add a layer of insight by augmenting an unsupervised "interpretability" module to the encoder, allowing for the extraction and visualization of narrative trajectories. Though this work specifically tackles screenplays, we discuss how the underlying approach can be generalized to a range of structured documents.
Abstract（参考訳）: 長文文書の自然言語理解は依然としてオープンな課題であるが、そのような文書には符号化のためのモデルの設計を知らせる構造情報が含まれることが多い。映画スクリプトは、リッチな構造化されたテキストの例であり、スクリプトはシーンに分割され、さらに対話や記述的なコンポーネントに分解される。本研究では,手作りの特徴を必要とせず,複数ラベルのタグ分類データセット上でロバストに動作させる,この構造を符号化するニューラルアーキテクチャを提案する。我々は,教師なしの「解釈可能性」モジュールをエンコーダに追加することにより,物語の軌跡の抽出と可視化を可能にし,洞察層を追加する。この研究は特にスクリーンプレイに取り組むが、基礎となるアプローチを様々な構造化ドキュメントに一般化する方法について議論する。

関連論文リスト

The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation [95.18045807704284]
対話・シネマティック・ビデオ生成のためのエンドツーエンドのエージェント・フレームワークを提案する。 ScripterAgentは粗い対話を微粒で実行可能なシネマティックスクリプトに変換するように訓練されている。本フレームワークは,テスト対象のすべてのビデオモデルに対して,スクリプトの忠実度と時間的忠実度を大幅に向上させる。
論文参考訳（メタデータ） (2026-01-25T08:10:28Z)
Enabling Stroke-Level Structural Analysis of Hieroglyphic Scripts without Language-Specific Priors [13.56721856255538]
ヒエログリフ・ストローク・アナライザー(HieroSA)は、ヒエログリフと古代ヒエログリフの文字イメージを明示的で解釈可能な線分表現に変換するフレームワークである。 HieroSAは文字内構造や意味を効果的に捉え、言語固有の先行詞の必要性を回避している。
論文参考訳（メタデータ） (2026-01-09T03:30:12Z)
In-Video Instructions: Visual Signals as Generative Control [79.44662698914401]
フレーム内に埋め込まれた視覚信号を命令として解釈することにより、制御可能な画像・映像生成に機能を利用することができるかを検討する。 In-Video Instructionは、オーバーレイテキスト、矢印、軌跡などの要素を通じて、視覚領域に直接ユーザーガイダンスをエンコードする。 Veo 3.1、Kling 2.5、Wan 2.2を含む最先端の3つのジェネレータの実験では、ビデオモデルがそのような視覚的に埋め込まれた命令を確実に解釈し実行できることが示されている。
論文参考訳（メタデータ） (2025-11-24T18:38:45Z)
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文参考訳（メタデータ） (2024-10-28T16:11:35Z)
OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文参考訳（メタデータ） (2024-03-26T17:59:24Z)
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model [7.707324214953882]
SceneScriptは、構造化言語コマンドのシーケンスとして、フルシーンモデルを生成するメソッドである。本手法は,符号化された視覚データから直接構造化言語コマンドのセットを推論する。提案手法は,3次元オブジェクト検出において,構造的レイアウト推定における最先端の成果と競合する結果を与える。
論文参考訳（メタデータ） (2024-03-19T18:01:29Z)
From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。また,高効率な階層分割モデルMiniSegを導入する。
論文参考訳（メタデータ） (2024-02-27T15:59:37Z)
Instruct-SCTG: Guiding Sequential Controlled Text Generation through Instructions [42.67608830386934]
Instruct-SCTGは、命令調整言語モデルを利用して構造的に一貫性のあるテキストを生成するシーケンシャルフレームワークである。本フレームワークは,自然言語命令を用いて,所望の人体構造に整合して記事を生成する。
論文参考訳（メタデータ） (2023-12-19T16:20:49Z)
Redundancy-aware Transformer for Video Question Answering [71.98116071679065]
本稿では,ビデオQAを冗長性に認識してモデル化することを目的とした,トランスフォーマーに基づく新しいアーキテクチャを提案する。隣接するフレームの冗長性に対処するために,隣接するフレームのオブジェクトレベルの変化を強調するビデオエンコーダ構造を導入する。クロスモーダルな冗長性については、新たな適応サンプリングを融合モジュールに装備し、視覚と言語間の相互作用を明確に区別する。
論文参考訳（メタデータ） (2023-08-07T03:16:24Z)
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文参考訳（メタデータ） (2023-07-13T17:57:13Z)
DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text Diffusion [40.246665336996934]
エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。 DiffuSIAは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。
論文参考訳（メタデータ） (2023-05-19T08:30:11Z)
Unsupervised Learning of Hierarchical Conversation Structure [50.29889385593043]
ゴール指向の会話は、しばしば意味のあるサブ対話構造を持つが、ドメインに依存しやすい。この研究は、ターンやサブダイアログのセグメントラベルを含む階層的な会話構造を学習するための教師なしのアプローチを導入する。復号化構造は3つの会話レベル理解タスクのための言語ニューラルネットワークの強化に有用であることが示されている。
論文参考訳（メタデータ） (2022-05-24T17:52:34Z)
Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。 SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。 2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文参考訳（メタデータ） (2021-12-02T09:24:45Z)
DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文参考訳（メタデータ） (2021-01-28T03:21:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。