論文の概要: Presentations are not always linear! GNN meets LLM for Document-to-Presentation Transformation with Attribution
- arxiv url: http://arxiv.org/abs/2405.13095v1
- Date: Tue, 21 May 2024 13:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 04:12:17.824222
- Title: Presentations are not always linear! GNN meets LLM for Document-to-Presentation Transformation with Attribution
- Title(参考訳): プレゼンテーションは必ずしも線形ではない! GNN がドキュメントからプレゼンテーションへの変換のための LLM と attribution
- Authors: Himanshu Maheshwari, Sambaran Bandyopadhyay, Aparna Garimella, Anandhavelu Natarajan,
- Abstract要約: このような非線形なコンテンツマッピングをスライドに組み込むことは困難であり、その内容が文書に忠実であることを保証することは困難である。
入力文書からグラフを学習し,グラフニューラルネットワークとLLMを組み合わせてプレゼンテーションを生成する,新しいグラフベースソリューションを提案する。
- 参考スコア(独自算出の注目度): 21.473482276335194
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatically generating a presentation from the text of a long document is a challenging and useful problem. In contrast to a flat summary, a presentation needs to have a better and non-linear narrative, i.e., the content of a slide can come from different and non-contiguous parts of the given document. However, it is difficult to incorporate such non-linear mapping of content to slides and ensure that the content is faithful to the document. LLMs are prone to hallucination and their performance degrades with the length of the input document. Towards this, we propose a novel graph based solution where we learn a graph from the input document and use a combination of graph neural network and LLM to generate a presentation with attribution of content for each slide. We conduct thorough experiments to show the merit of our approach compared to directly using LLMs for this task.
- Abstract(参考訳): 長い文書のテキストからプレゼンテーションを自動的に生成することは、困難で有用な問題である。
フラットな要約とは対照的に、プレゼンテーションはより良く非線形な物語、すなわちスライドの内容は、与えられた文書の異なる部分と非連続的な部分から得る必要がある。
しかし、このような非直線的なコンテンツマッピングをスライドに組み込むことは困難であり、その内容が文書に忠実であることを保証することは困難である。
LLMは幻覚を起こす傾向があり、その性能は入力文書の長さとともに低下する。
そこで本研究では,入力文書からグラフを学習し,グラフニューラルネットワークとLLMの組み合わせを用いて,各スライドに対するコンテンツの属性によるプレゼンテーションを生成する,新しいグラフベースソリューションを提案する。
本研究は, LLM を直接使用した場合と比較して, アプローチのメリットを示すため, 徹底的な実験を行う。
関連論文リスト
- Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - LLMs as Zero-shot Graph Learners: Alignment of GNN Representations with LLM Token Embeddings [7.302176015732192]
Token Embedding-Aligned Graph Language Model (TEA-GLM) という新しいフレームワークを紹介する。
我々はGNNを事前訓練し、その表現をLLMのトークン埋め込みと整列する。
次に、GNNの表現を固定数のグラフトークン埋め込みに変換する線形プロジェクタを訓練する。
論文 参考訳(メタデータ) (2024-08-25T04:32:45Z) - Enhancing Presentation Slide Generation by LLMs with a Multi-Staged End-to-End Approach [21.8104104944488]
ドキュメントからリッチなプレゼンテーションを生成するための既存のアプローチは、しばしば半自動的であるか、良い物語の重要性を無視してスライドに平らな要約を配置するだけである。
LLMとVLMを組み合わせた多段階のエンドツーエンドモデルを提案する。
我々は,LLMを最先端のプロンプトで直接適用するよりも,自動計測と人的評価の点で,提案した多段階ソリューションの方が優れていることを実験的に示した。
論文 参考訳(メタデータ) (2024-06-01T07:49:31Z) - Parameter-Efficient Tuning Large Language Models for Graph Representation Learning [62.26278815157628]
Graph-awareを導入します。
GPEFT - グラフ表現学習のための新しい手法。
グラフニューラルネットワーク(GNN)を用いて、隣接するノードからグラフプロンプトに構造情報をエンコードする。
我々は8つの異なるテキストリッチグラフで実施した総合的な実験を通じて,リンク予測評価において hit@1 と Mean Reciprocal Rank (MRR) の平均 2% の改善を観察し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-04-28T18:36:59Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Large Language Model with Graph Convolution for Recommendation [21.145230388035277]
テキスト情報は、時々品質の低いものになり、現実世界のアプリケーションにとってその効果を阻害する。
大きな言語モデルにカプセル化された知識と推論機能によって、LCMを活用することが、記述改善の有望な方法として現れます。
本稿では,ユーザ・イテムグラフの高次関係を捉えるために,LLMを抽出するグラフ対応畳み込みLLM法を提案する。
論文 参考訳(メタデータ) (2024-02-14T00:04:33Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。