論文の概要: InfoTech Assistant : A Multimodal Conversational Agent for InfoTechnology Web Portal Queries
- arxiv url: http://arxiv.org/abs/2412.16412v1
- Date: Sat, 21 Dec 2024 00:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:42:47.898947
- Title: InfoTech Assistant : A Multimodal Conversational Agent for InfoTechnology Web Portal Queries
- Title(参考訳): InfoTech Assistant : InfoTechnology Webポータルクエリのためのマルチモーダル対話エージェント
- Authors: Sai Surya Gadiraju, Duoduo Liao, Akhila Kudupudi, Santosh Kasula, Charitha Chalasani,
- Abstract要約: InfoTech Assistantはブリッジの評価とインフラ技術におけるクエリに対処する。
Webデータスクレイピング、大言語モデル(LLM)、レトリーバル拡張生成(RAG)を統合することで、InfoTech Assistantは正確でコンテキストに関連のある応答を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This pilot study presents the development of the InfoTech Assistant, a domain-specific, multimodal chatbot engineered to address queries in bridge evaluation and infrastructure technology. By integrating web data scraping, large language models (LLMs), and Retrieval-Augmented Generation (RAG), the InfoTech Assistant provides accurate and contextually relevant responses. Data, including textual descriptions and images, are sourced from publicly available documents on the InfoTechnology website and organized in JSON format to facilitate efficient querying. The architecture of the system includes an HTML-based interface and a Flask back end connected to the Llama 3.1 model via LLM Studio. Evaluation results show approximately 95 percent accuracy on domain-specific tasks, with high similarity scores confirming the quality of response matching. This RAG-enhanced setup enables the InfoTech Assistant to handle complex, multimodal queries, offering both textual and visual information in its responses. The InfoTech Assistant demonstrates strong potential as a dependable tool for infrastructure professionals, delivering high accuracy and relevance in its domain-specific outputs.
- Abstract(参考訳): このパイロット研究は、橋梁評価およびインフラ技術におけるクエリに対処するために設計されたドメイン固有のマルチモーダルチャットボットであるInfoTech Assistantの開発について述べる。
Webデータスクレイピング、大言語モデル(LLM)、レトリーバル拡張生成(RAG)を統合することで、InfoTech Assistantは正確でコンテキストに関連のある応答を提供する。
テキスト記述や画像を含むデータはInfoTechnologyのWebサイトで公開されているドキュメントからソースされ、効率的なクエリを容易にするためにJSON形式で整理される。
システムのアーキテクチャはHTMLベースのインターフェースと、LLM Studioを介してLlama 3.1モデルに接続されたFraskバックエンドを含んでいる。
評価の結果、ドメイン固有のタスクに対して約95%の精度が示され、高い類似性スコアが応答マッチングの品質を確認している。
このRAG強化されたセットアップにより、InfoTech Assistantは複雑なマルチモーダルクエリを処理でき、応答中のテキスト情報と視覚情報の両方を提供する。
InfoTech Assistantは、インフラストラクチャの専門家にとって信頼できるツールとして強力な可能性を示し、そのドメイン固有のアウトプットに高い精度と関連性を提供します。
関連論文リスト
- Data Therapist: Eliciting Domain Knowledge from Subject Matter Experts Using Large Language Models [17.006423792670414]
我々は、ドメインの専門家が混在開始プロセスを通じて暗黙の知識を外部化するのに役立つWebベースのツールであるData Therapistを紹介します。
得られた構造化知識ベースは、人間と自動化された可視化設計の両方に通知することができる。
論文 参考訳(メタデータ) (2025-05-01T11:10:17Z) - PASemiQA: Plan-Assisted Agent for Question Answering on Semi-Structured Data with Text and Relational Information [20.77423140407461]
PASemiQAは,半構造化データ中のテキストと関係情報を協調的に活用して質問に答える手法である。
PASemiQAは,様々な領域から得られた各種半構造化データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2025-02-28T14:26:47Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - GUIDE: Graphical User Interface Data for Execution [0.0]
GUIDEは、MLLM(Multimodal Large Language Model)アプリケーションの開発に適した、新しいデータセットである。
私たちのデータセットは、Apollo(62.67%)、Gmail(.43%)、Calendar(22.92%)など、さまざまなWebサイトのさまざまなデータを含んでいる。
論文 参考訳(メタデータ) (2024-04-09T11:59:41Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Adapting Foundation Models for Information Synthesis of Wireless
Communication Specifications [1.1269650322296965]
NextGen Communications Copilotは、無線通信仕様の情報合成のための対話型人工知能ツールである。
このシステムは、無線技術仕様のデータベースから抽出された簡潔でクエリ依存のコンテキスト情報を備えたユーザクエリを付加する。
論文 参考訳(メタデータ) (2023-08-08T04:21:14Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - UKP-SQUARE: An Online Platform for Question Answering Research [50.35348764297317]
我々は、研究者向けのオンラインQAプラットフォームであるUKP-SQUAREを紹介した。
UKP-SQUAREでは、ユーザフレンドリーなWebインターフェースと統合テストを通じて、モダンスキルの大規模なコレクションをクエリし、分析することができる。
論文 参考訳(メタデータ) (2022-03-25T15:00:24Z) - Building a Legal Dialogue System: Development Process, Challenges and
Opportunities [1.433758865948252]
本稿では,ドメイン固有の会話エージェントの設計において直面する課題に対する重要な原則と解決策について述べる。
ユーザクエリに応答し、連絡先の詳細やケース関連情報を含むユーザ情報を記録する機能を提供する。
論文 参考訳(メタデータ) (2021-09-01T13:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。