論文の概要: Prompt Orchestration Markup Language
- arxiv url: http://arxiv.org/abs/2508.13948v1
- Date: Tue, 19 Aug 2025 15:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.99174
- Title: Prompt Orchestration Markup Language
- Title(参考訳): Prompt Orchestration Markup Language
- Authors: Yuge Zhang, Nan Chen, Jiahang Xu, Yuqing Yang,
- Abstract要約: POMLは、論理構造のためのコンポーネントベースのマークアップと、シームレスなデータ統合のための特別なタグを採用している。
動的プロンプトのテンプレートと、バージョン管理とコラボレーションを改善するための包括的な開発者ツールキット(IDEサポート、SDK)が含まれている。
複雑なアプリケーション統合(PomLink)と精度性能(TableQA)への影響を示す2つのケーススタディを通じてPOMLを検証する。
- 参考スコア(独自算出の注目度): 6.387927675038904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) require sophisticated prompting, yet current practices face challenges in structure, data integration, format sensitivity, and tooling. Existing methods lack comprehensive solutions for organizing complex prompts involving diverse data types (documents, tables, images) or managing presentation variations systematically. To address these gaps, we introduce POML (Prompt Orchestration Markup Language). POML employs component-based markup for logical structure (roles, tasks, examples), specialized tags for seamless data integration, and a CSS-like styling system to decouple content from presentation, reducing formatting sensitivity. It includes templating for dynamic prompts and a comprehensive developer toolkit (IDE support, SDKs) to improve version control and collaboration. We validate POML through two case studies demonstrating its impact on complex application integration (PomLink) and accuracy performance (TableQA), as well as a user study assessing its effectiveness in real-world development scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は高度なプロンプトを必要とするが、現在のプラクティスでは構造、データ統合、フォーマットの感度、ツーリングといった課題に直面している。
既存の手法では、多様なデータ型(ドキュメント、テーブル、画像)を含む複雑なプロンプトを整理したり、プレゼンテーションのバリエーションを体系的に管理するための包括的なソリューションが欠如している。
これらのギャップに対処するため、POML(Prompt Orchestration Markup Language)を導入します。
POMLは、論理構造(ロール、タスク、例)のためのコンポーネントベースのマークアップ、シームレスなデータ統合のための特別なタグ、プレゼンテーションからコンテンツを分離するCSSライクなスタイリングシステム、フォーマットの感度を低下させる。
動的プロンプトのテンプレートと、バージョン管理とコラボレーションを改善するための包括的な開発者ツールキット(IDEサポート、SDK)が含まれている。
複雑なアプリケーション統合(PomLink)と精度パフォーマンス(TableQA)に与える影響を実証する2つのケーススタディと、実際の開発シナリオにおけるその有効性を評価するユーザスタディを通じて、POMLを検証する。
関連論文リスト
- Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding [42.506971197471195]
ドキュメント解析のために約3.8Mの事前学習データペアで構成されるDocMark-Pileと、グラウンドド命令に従うための624kの微調整データアノテーションを備えたDocMark-Instructの2つのきめ細かい構造化データセットを紹介した。
提案手法は,様々なビジュアル文書理解ベンチマークにおいて,既存の最先端MLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-05-08T17:37:36Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models [9.611864685207056]
本稿では,識別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへ,感情認識タスクを再構築するための新しいアプローチであるインストラクタCを提案する。
InstructERCは、3つの重要な貢献をしている:(1)モデルがマルチグラニュラリティ対話監視情報を明示的に統合するのに役立つ単純で効果的なテンプレートモジュール、(2)話者識別と感情予測タスクという2つの追加の感情アライメントタスクを導入し、会話における対話の役割の関係と将来の感情傾向を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2023-09-21T09:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。