論文の概要: VTS-Guided AI Interaction Workflow for Business Insights
- arxiv url: http://arxiv.org/abs/2507.00347v1
- Date: Tue, 01 Jul 2025 00:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.143581
- Title: VTS-Guided AI Interaction Workflow for Business Insights
- Title(参考訳): ビジネスインサイトのためのVTSベースのAIインタラクションワークフロー
- Authors: Sun Ding, Ude Enebeli, Atilhan, Manay, Ryan Pua, Kamal Kotak,
- Abstract要約: VTS-AIは、エビデンスベースの観察、リンク、思考を強調するビジュアル思考戦略を統合している。
問題にタグを付け、ソースページにリンクし、検索可能なYAMLファイルに格納されたアクションレバーにロールする。
18ページのビジネスレポートのテストでは、VTS-AIはワンショットのChatGPTプロンプトの速度と一致したが、よりリッチな結果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern firms face a flood of dense, unstructured reports. Turning these documents into usable insights takes heavy effort and is far from agile when quick answers are needed. VTS-AI tackles this gap. It integrates Visual Thinking Strategies, which emphasize evidence-based observation, linking, and thinking, into AI agents, so the agents can extract business insights from unstructured text, tables, and images at scale. The system works in three tiers (micro, meso, macro). It tags issues, links them to source pages, and rolls them into clear action levers stored in a searchable YAML file. In tests on an 18-page business report, VTS-AI matched the speed of a one-shot ChatGPT prompt yet produced richer findings: page locations, verbatim excerpts, severity scores, and causal links. Analysts can accept or adjust these outputs in the same IDE, keeping human judgment in the loop. Early results show VTS-AI spots the direction of key metrics and flags where deeper number-crunching is needed. Next steps include mapping narrative tags to financial ratios, adding finance-tuned language models through a Model-Context Protocol, and building a Risk & Safety Layer to stress-test models and secure data. These upgrades aim to make VTS-AI a production-ready, audit-friendly tool for rapid business analysis.
- Abstract(参考訳): 現代の企業は、密集した非構造的なレポートの洪水に直面している。
これらのドキュメントを有用な洞察に変えるには、多大な労力がかかり、迅速な回答が必要な場合には、アジャイルには程遠い。
VTS-AIはこのギャップに対処する。
これは、エビデンスベースの観察、リンク、思考を強調するビジュアル思考戦略をAIエージェントに統合することで、エージェントは非構造化テキスト、テーブル、大規模な画像からビジネスインサイトを抽出することができる。
このシステムは3層(ミクロ、メソ、マクロ)で動作する。
問題にタグを付け、ソースページにリンクし、検索可能なYAMLファイルに格納された明確なアクションレバーにロールする。
18ページのビジネスレポートのテストでは、VTS-AIはワンショットのChatGPTプロンプトの速度と一致し、ページ位置、動詞の抜粋、重度スコア、因果リンクといった、よりリッチな結果を生み出した。
アナリストはこれらのアウトプットを同じIDEで受け入れたり調整したりすることができ、人間の判断をループに保持することができる。
初期の結果は、VTS-AIが重要なメトリクスとフラグの方向を見つけ、より深い数字のクレンチングが必要であることを示している。
次のステップには、ナラティブタグを財務比率にマッピングすること、Model-Context Protocolを通じて金融調整された言語モデルの追加、ストレステストモデルとセキュアなデータに対するリスクと安全層の構築が含まれる。
これらのアップグレードは、VTS-AIを迅速なビジネス分析のためのプロダクション対応で監査しやすいツールにすることを目的としている。
関連論文リスト
- EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge [25.51206687438354]
我々は6つのTSシナリオをカバーする包括的なベンチマークである$textitEmergentTTS-Evalを紹介した。
我々のフレームワークはテストケースの生成と評価の両方を自動化するので、ベンチマークが容易にアクセスできます。
我々は、EmergentTTS-Eval上で、11Labs、Deepgram、OpenAIの4o-mini-TTSといった最先端のオープンソースおよびプロプライエタリなTSシステムを評価した。
論文 参考訳(メタデータ) (2025-05-29T02:36:24Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - Knowledge Graph Prompting for Multi-Document Question Answering [46.29217406937293]
我々は,多文書質問応答(MD-QA)を促す上で,適切なコンテキストを定式化するための知識グラフプロンプティング(KGP)手法を提案する。
グラフ構築のために、パスや文書構造(例えば、ページ/テーブル)を象徴するノードを持つ複数のドキュメントに知識グラフ(KG)を作成する。
論文 参考訳(メタデータ) (2023-08-22T18:41:31Z) - BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual
Questions [41.825273034537204]
視覚言語モデル(VLM)は、テキストで注入された画像を正確に解釈することはできない。
本稿では,Visual Assistantを用いたInstructBLIPの拡張版であるBLIVAを紹介する。
我々のモデルは、テキストリッチなVQAベンチマークの処理や、一般的な(特にテキストリッチではない)VQAベンチマークの実行において、パフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2023-08-19T07:53:43Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。