論文の概要: Hierarchical Encoders for Modeling and Interpreting Screenplays
- arxiv url: http://arxiv.org/abs/2004.14532v1
- Date: Thu, 30 Apr 2020 01:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:57:39.293458
- Title: Hierarchical Encoders for Modeling and Interpreting Screenplays
- Title(参考訳): 画面のモデリングと解釈のための階層エンコーダ
- Authors: Gayatri Bhat, Avneesh Saluja, Melody Dye, and Jan Florjanczyk
- Abstract要約: リッチな構造化テキストを符号化するためのニューラルアーキテクチャを提案する。
本研究は,特にスクリーンプレイに取り組みながら,その基盤となるアプローチを多岐にわたる構造化文書に一般化する方法について論じる。
- 参考スコア(独自算出の注目度): 1.4674456578222843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While natural language understanding of long-form documents is still an open
challenge, such documents often contain structural information that can inform
the design of models for encoding them. Movie scripts are an example of such
richly structured text - scripts are segmented into scenes, which are further
decomposed into dialogue and descriptive components. In this work, we propose a
neural architecture for encoding this structure, which performs robustly on a
pair of multi-label tag classification datasets, without the need for
handcrafted features. We add a layer of insight by augmenting an unsupervised
"interpretability" module to the encoder, allowing for the extraction and
visualization of narrative trajectories. Though this work specifically tackles
screenplays, we discuss how the underlying approach can be generalized to a
range of structured documents.
- Abstract(参考訳): 長文文書の自然言語理解は依然としてオープンな課題であるが、そのような文書には符号化のためのモデルの設計を知らせる構造情報が含まれることが多い。
映画スクリプトは、リッチな構造化されたテキストの例であり、スクリプトはシーンに分割され、さらに対話や記述的なコンポーネントに分解される。
本研究では,手作りの特徴を必要とせず,複数ラベルのタグ分類データセット上でロバストに動作させる,この構造を符号化するニューラルアーキテクチャを提案する。
我々は,教師なしの「解釈可能性」モジュールをエンコーダに追加することにより,物語の軌跡の抽出と可視化を可能にし,洞察層を追加する。
この研究は特にスクリーンプレイに取り組むが、基礎となるアプローチを様々な構造化ドキュメントに一般化する方法について議論する。
関連論文リスト
- Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。
文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。
本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文 参考訳(メタデータ) (2024-10-28T16:11:35Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model [7.707324214953882]
SceneScriptは、構造化言語コマンドのシーケンスとして、フルシーンモデルを生成するメソッドである。
本手法は,符号化された視覚データから直接構造化言語コマンドのセットを推論する。
提案手法は,3次元オブジェクト検出において,構造的レイアウト推定における最先端の成果と競合する結果を与える。
論文 参考訳(メタデータ) (2024-03-19T18:01:29Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Instruct-SCTG: Guiding Sequential Controlled Text Generation through
Instructions [42.67608830386934]
Instruct-SCTGは、命令調整言語モデルを利用して構造的に一貫性のあるテキストを生成するシーケンシャルフレームワークである。
本フレームワークは,自然言語命令を用いて,所望の人体構造に整合して記事を生成する。
論文 参考訳(メタデータ) (2023-12-19T16:20:49Z) - Redundancy-aware Transformer for Video Question Answering [71.98116071679065]
本稿では,ビデオQAを冗長性に認識してモデル化することを目的とした,トランスフォーマーに基づく新しいアーキテクチャを提案する。
隣接するフレームの冗長性に対処するために,隣接するフレームのオブジェクトレベルの変化を強調するビデオエンコーダ構造を導入する。
クロスモーダルな冗長性については、新たな適応サンプリングを融合モジュールに装備し、視覚と言語間の相互作用を明確に区別する。
論文 参考訳(メタデータ) (2023-08-07T03:16:24Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text
Diffusion [40.246665336996934]
エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。
DiffuSIAは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。
論文 参考訳(メタデータ) (2023-05-19T08:30:11Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。