論文の概要: AutoS$^2$earch: Unlocking the Reasoning Potential of Large Models for Web-based Source Search
- arxiv url: http://arxiv.org/abs/2502.09913v1
- Date: Fri, 14 Feb 2025 04:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:44:44.287342
- Title: AutoS$^2$earch: Unlocking the Reasoning Potential of Large Models for Web-based Source Search
- Title(参考訳): AutoS$^2$earch: Webベースのソース検索のための大規模モデルの推論ポテンシャルを解き放つ
- Authors: Zhengqiu Zhu, Yatai Ji, Jiaheng Huang, Yong Zhao, Sihang Qiu, Rusheng Ju,
- Abstract要約: AutoS$2$earchは、Webアプリケーションのゼロショットソースサーチに大規模なモデルを活用する新しいフレームワークである。
私たちの仕事は、Webエンジニアリングを使用して、他の産業アプリケーションでこのような自律的なシステムを設計する上で、貴重な洞察を提供する。
- 参考スコア(独自算出の注目度): 4.915120364754745
- License:
- Abstract: Web-based management systems have been widely used in risk control and industrial safety. However, effectively integrating source search capabilities into these systems, to enable decision-makers to locate and address the hazard (e.g., gas leak detection) remains a challenge. While prior efforts have explored using web crowdsourcing and AI algorithms for source search decision support, these approaches suffer from overheads in recruiting human participants and slow response times in time-sensitive situations. To address this, we introduce AutoS$^2$earch, a novel framework leveraging large models for zero-shot source search in web applications. AutoS$^2$earch operates on a simplified visual environment projected through a web-based display, utilizing a chain-of-thought prompt designed to emulate human reasoning. The multi-modal large language model (MLLMs) dynamically converts visual observations into language descriptions, enabling the LLM to perform linguistic reasoning on four directional choices. Extensive experiments demonstrate that AutoS$^2$earch achieves performance nearly equivalent to human-AI collaborative source search while eliminating dependency on crowdsourced labor. Our work offers valuable insights in using web engineering to design such autonomous systems in other industrial applications.
- Abstract(参考訳): Webベースの管理システムは、リスク管理と産業安全に広く利用されている。
しかし、これらのシステムに効率的にソース検索機能を統合することで、意思決定者がハザード(例えばガス漏れ検出)を発見・解決できるようになることは、依然として課題である。
これまでの取り組みでは、WebクラウドソーシングとAIアルゴリズムをソース検索決定サポートに使用することを検討してきたが、これらのアプローチは、人間の採用におけるオーバーヘッドと、時間に敏感な状況における応答時間の低下に悩まされている。
これを解決するために、Webアプリケーションにおけるゼロショットソース検索に大規模なモデルを活用する新しいフレームワークであるAutoS$^2$earchを紹介します。
AutoS$2$earchは、人間の推論をエミュレートするチェーン・オブ・シークレットを利用して、Webベースのディスプレイを通じて投影されたシンプルな視覚環境で動作する。
MLLM(Multi-modal large language model)は、視覚的観察を動的に言語記述に変換し、LLMが4つの方向選択で言語推論を行うことを可能にする。
大規模な実験により、AutoS$^2$earchは、クラウドソースの作業への依存を排除しつつ、人間とAIの協調的なソースサーチとほぼ同等のパフォーマンスを達成することが示された。
私たちの仕事は、Webエンジニアリングを使用して、他の産業アプリケーションでこのような自律的なシステムを設計する上で、貴重な洞察を提供する。
関連論文リスト
- Selective Exploration and Information Gathering in Search and Rescue Using Hierarchical Learning Guided by Natural Language Input [5.522800137785975]
本稿では,大規模言語モデル(LLM)と階層的強化学習(HRL)フレームワークを連携させるシステムを提案する。
提案システムは,人間の利害関係者からの言語入力を実用的なRLインサイトへ翻訳し,検索戦略を調整するように設計されている。
LLMによる人為的情報の利用とHRLによるタスク実行の構造化により、長い地平線とスパース報酬を特徴とする環境におけるエージェントの学習効率と意思決定プロセスを大幅に改善する。
論文 参考訳(メタデータ) (2024-09-20T12:27:47Z) - GoNoGo: An Efficient LLM-based Multi-Agent System for Streamlining Automotive Software Release Decision-Making [5.254038213371586]
大規模言語モデル(LLM)はこれらの課題に対して有望な解決策を提供する。
GoNoGoは、機能要件と工業的制約の両方を満たしながら、自動車ソフトウェアデプロイメントの合理化を目的としている。
GoNoGoは3ショットの例で、レベル2までのタスクで100%の成功率を実現し、より複雑なタスクでも高いパフォーマンスを維持します。
論文 参考訳(メタデータ) (2024-08-19T08:22:20Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z) - Large Language Models for Power Scheduling: A User-Centric Approach [6.335540414370735]
本稿では、任意のユーザの音声要求(VRQ)をリソース割り当てベクトルに変換することで、リソーススケジューリング問題に対する新しいアーキテクチャを提案する。
具体的には、要求を最適化問題(OP)に変換するためのLLM意図認識エージェント、LLM OPパラメータ識別エージェント、OP解決エージェントを設計する。
論文 参考訳(メタデータ) (2024-06-29T15:47:28Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。