論文の概要: Doc To The Future: Infomorphs for Interactive, Multimodal Document Transformation and Generation
- arxiv url: http://arxiv.org/abs/2602.23366v1
- Date: Sun, 14 Dec 2025 16:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:07.922146
- Title: Doc To The Future: Infomorphs for Interactive, Multimodal Document Transformation and Generation
- Title(参考訳): Doc to the Future: インタラクティブでマルチモーダルなドキュメント変換と生成のためのInfomorphs
- Authors: Balasaravanan Thoravi Kumaravel,
- Abstract要約: 我々は、制御された合成をサポートし、形式やモダリティをまたいだ情報の再構成を行うモジュール型、ユーザステアブル、AI強化された変換である「インフォモルフ」の概念を導入する。
本稿では,ユーザ意図と所望の情報コンテキストを組み合わせ,インフォモーフィック駆動型文書作成を実現する設計空間を提案する。
DocuCraftは、ページ抽出、コンテンツ要約、再フォーマット、生成といった操作を実行するインフォモーフィックをチェーンして、各ステージで生成AIを活用して、リッチでクロスドキュメント、クロスモーダルな変換をサポートする。
- 参考スコア(独自算出の注目度): 4.665470854146965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating new documents by synthesizing information from existing sources is an important part of knowledge work in many domains. This process often involves gathering content from multiple documents, organizing it, and then transforming it into new forms such as reports, slides, or spreadsheets. While recent advances in Generative AI have shown potential in automating parts of this process, they often provide limited user control over the handling of multimodal inputs and outputs. In this work, we introduce the notion of "infomorphs" which are modular, user-steerable, AI-augmented transformations that support controlled synthesis, and restructuring of information across formats and modalities. We propose a design space that leverage infomorph-driven workflows to enable flexible, interactive, and multimodal document creation by combining Generative AI techniques with user intent and desired information context. As a concrete instantiation of this design space, we present DocuCraft, a canvas-based interface to visually compose infomorph workflows. DocuCraft allows users to chain together infomorphs that perform operations such as page extraction, content summarization, reformatting, and generation, leveraging Generative AI at each stage to support rich, cross-document and cross-modal transformations. We demonstrate the capabilities of DocuCraft through an example-driven usage scenario that spans across different facets of common knowledge work tasks illustrating its support for fluid, human-in-the-loop document synthesis and highlights opportunities for more transparent and modular interaction for Generative AI-assisted information work.
- Abstract(参考訳): 既存の資料から情報を合成して新しい文書を作成することは、多くの領域における知識労働の重要な部分である。
このプロセスは、複数のドキュメントからコンテンツを集め、それを整理し、レポート、スライド、スプレッドシートなどの新しい形式に変換する。
Generative AIの最近の進歩は、このプロセスの一部を自動化する可能性を示しているが、多くの場合、マルチモーダル入力と出力の処理に対する制限されたユーザコントロールを提供する。
本研究では、制御された合成をサポートし、形式やモダリティをまたいだ情報の再構成を行うモジュール型、ユーザステアブル、AI強化された変換である「インフォモーフィック」の概念を紹介する。
本稿では,インフォモーフィック駆動型ワークフローを利用して,汎用AI技術とユーザ意図と望ましい情報コンテキストを組み合わせることで,フレキシブル,インタラクティブ,マルチモーダルなドキュメント作成を実現する設計空間を提案する。
このデザイン空間の具体的インスタンス化として,インフォモーフィックワークフローを視覚的に構成するキャンバスベースのインタフェースであるDocuCraftを提案する。
DocuCraftは、ページ抽出、コンテンツ要約、再フォーマット、生成といった操作を実行するインフォモーフィックをチェーンして、各ステージで生成AIを活用して、リッチでクロスドキュメント、クロスモーダルな変換をサポートする。
私たちは、サンプル駆動の使用シナリオを通じてDocuCraftの能力を実演します。これは、流体、人間-イン-ザ-ループ文書合成のサポートを実証し、ジェネレーティブAI支援情報ワークのためのより透明でモジュール化されたインタラクションの機会を強調します。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Bridging Collaborative Filtering and Large Language Models with Dynamic Alignment, Multimodal Fusion and Evidence-grounded Explanations [1.3702600718499687]
軽量モジュールによる新しいユーザインタラクションを組み込んだオンライン適応機構を開発した。
我々は、協調的な信号と視覚的および音声的特徴をシームレスに結合する統一表現を作成します。
提案手法では,凍結ベースモデルの効率性を維持しつつ,計算オーバーヘッドを最小限に抑え,実世界の展開に有効である。
論文 参考訳(メタデータ) (2025-10-02T02:43:24Z) - Textual-to-Visual Iterative Self-Verification for Slide Generation [46.99825956909532]
欠落したプレゼンテーションスライドを生成するタスクを,コンテンツ生成とレイアウト生成という2つの重要なコンポーネントに分解する。
提案手法は,アライメント,論理フロー,視覚的魅力,可読性の観点から,ベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-21T12:21:09Z) - ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation [87.39861573270173]
本稿では,各ユーザプロンプトに自動的にワークフローをカスタマイズすることを目的とする,プロンプト適応型ワークフロー生成の新しいタスクを紹介する。
本稿では,この課題に対処する2つの LLM ベースの手法を提案する。ユーザ・参照データから学習するチューニングベース手法と,既存のフローを選択するために LLM を使用するトレーニングフリー手法である。
本研究は,現場における既存研究の方向性を補完し,テキスト・画像生成の品質向上のための新たな経路を提供することを示す。
論文 参考訳(メタデータ) (2024-10-02T16:43:24Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [57.98933460388985]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - DocSynthv2: A Practical Autoregressive Modeling for Document Generation [43.84027661517748]
本稿では, 単純で効果的な自己回帰構造モデルの開発を通じて, Doc Synthv2と呼ばれる新しい手法を提案する。
我々のモデルは、レイアウトとテキストの両方を統合する点で際立ったものであり、既存のレイアウト生成アプローチを超える一歩を踏み出している。
論文 参考訳(メタデータ) (2024-06-12T16:00:16Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Towards Flexible Multi-modal Document Models [27.955214767628107]
本研究では,様々な設計課題を共同で解決できる包括的モデルの構築を試みる。
われわれのモデルはFlexDMで表され、ベクトルグラフィック文書をマルチモーダル要素の調和した集合として扱う。
実験の結果、我々の単一のFlexDMが様々な設計タスクをうまく解決できることがわかった。
論文 参考訳(メタデータ) (2023-03-31T17:59:56Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - Augmenting Transformers with KNN-Based Composite Memory for Dialogue [22.677844670431885]
我々は、KNNベースの情報フェッチング(KIF)モジュールを用いた生成トランスフォーマーニューラルネットワークの拡張を提案する。
我々はこれらのモジュールを生成ダイアログモデリングに適用し、会話の話題や流れを維持するために情報を柔軟に検索し、組み込むという課題を解決した。
本稿では,ウィキペディアや画像,人文音声からの対話に必要な関連知識を識別し,本手法の有効性を実証し,この情報を活用することにより,自動評価と人文評価によるモデル性能の向上が図られることを示す。
論文 参考訳(メタデータ) (2020-04-27T12:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。