論文の概要: MATE: LLM-Powered Multi-Agent Translation Environment for Accessibility Applications
- arxiv url: http://arxiv.org/abs/2506.19502v1
- Date: Tue, 24 Jun 2025 10:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.597775
- Title: MATE: LLM-Powered Multi-Agent Translation Environment for Accessibility Applications
- Title(参考訳): MATE:LLMを利用したアクセシビリティのためのマルチエージェント翻訳環境
- Authors: Aleksandr Algazinov, Matt Laing, Paul Laban,
- Abstract要約: マルチモーダルアクセシビリティMASであるMATEは、ユーザのニーズに基づいてモダリティ変換を行う。
MATEは、医療など幅広い分野、産業、分野に適用することができる。
ModCon-Task-Identifierは、ユーザ入力から正確なモダリティ変換タスクを抽出できるモデルである。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accessibility remains a critical concern in today's society, as many technologies are not developed to support the full range of user needs. Existing multi-agent systems (MAS) often cannot provide comprehensive assistance for users in need due to the lack of customization stemming from closed-source designs. Consequently, individuals with disabilities frequently encounter significant barriers when attempting to interact with digital environments. We introduce MATE, a multimodal accessibility MAS, which performs the modality conversions based on the user's needs. The system is useful for assisting people with disabilities by ensuring that data will be converted to an understandable format. For instance, if the user cannot see well and receives an image, the system converts this image to its audio description. MATE can be applied to a wide range of domains, industries, and areas, such as healthcare, and can become a useful assistant for various groups of users. The system supports multiple types of models, ranging from LLM API calling to using custom machine learning (ML) classifiers. This flexibility ensures that the system can be adapted to various needs and is compatible with a wide variety of hardware. Since the system is expected to run locally, it ensures the privacy and security of sensitive information. In addition, the framework can be effectively integrated with institutional technologies (e.g., digital healthcare service) for real-time user assistance. Furthermore, we introduce ModCon-Task-Identifier, a model that is capable of extracting the precise modality conversion task from the user input. Numerous experiments show that ModCon-Task-Identifier consistently outperforms other LLMs and statistical models on our custom data. Our code and data are publicly available at https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.
- Abstract(参考訳): アクセシビリティは今日の社会において重要な関心事であり、多くの技術が全ユーザーニーズをサポートするために開発されていない。
既存のマルチエージェントシステム(MAS)は、クローズドソース設計によるカスタマイズの欠如のため、必要なユーザに対して包括的な支援を提供することができないことが多い。
その結果、障害のある人は、デジタル環境と対話しようとすると、しばしば重大な障壁に遭遇する。
ユーザのニーズに応じてモダリティ変換を行うマルチモーダルアクセシビリティMASであるMATEを紹介する。
このシステムは、データが理解可能なフォーマットに変換されることを保証することで、障害者を支援するのに有用である。
例えば、ユーザーがよく見えず画像を受け取れない場合、システムはこの画像をその音声記述に変換する。
MATEは、医療などの幅広い分野、産業、地域に適用することができ、様々なユーザーグループにとって有用なアシスタントとなることができる。
このシステムは、LLM API呼び出しからカスタム機械学習(ML)分類器の使用まで、さまざまなタイプのモデルをサポートしている。
この柔軟性により、システムは様々なニーズに適応でき、様々なハードウェアと互換性がある。
システムはローカルで実行されることが期待されているため、機密情報のプライバシーとセキュリティを確保する。
さらに、リアルタイムのユーザ支援のために、このフレームワークを制度技術(デジタルヘルスケアサービスなど)と効果的に統合することができる。
さらに,ユーザ入力から正確なモダリティ変換タスクを抽出できるModCon-Task-Identifierを導入する。
多くの実験により、ModCon-Task-Identifierは、我々のカスタムデータ上で他のLLMや統計モデルよりも一貫して優れていることが示されている。
私たちのコードとデータはhttps://github.com/AlgazinovAleksandr/Multi-Agent-MATEで公開されています。
関連論文リスト
- Learnware of Language Models: Specialized Small Language Models Can Do Big [50.285859986475394]
本稿では,学習用パラダイムを言語モデルに適用するための予備的試みを示す。
我々は,8Bパラメータを持つ特殊SLMの学習装置を約100個構成した学習装置をシミュレートした。
各タスク固有の推論に対して1つの適切な学習ウェアを選択することで、システムは全てのベンチマークでベースSLMよりも優れる。
論文 参考訳(メタデータ) (2025-05-19T17:54:35Z) - Can Multimodal Large Language Models be Guided to Improve Industrial Anomaly Detection? [5.979778557940213]
従来の産業異常検出モデルは、しばしば柔軟性と適応性に苦しむ。
MLLM(Multimodal Large Language Models)の最近の進歩は、これらの制限を克服することを約束している。
IADのためのMLLM性能を向上させるために設計された,新しいマルチエキスパートフレームワークであるEchoを提案する。
論文 参考訳(メタデータ) (2025-01-27T05:41:10Z) - MMFactory: A Universal Solution Search Engine for Vision-Language Tasks [35.262080125288115]
MMFactoryは、様々な利用可能なモデルにまたがるソリューション検索エンジンのように振る舞う普遍的なフレームワークである。
タスク記述と少数のサンプル出力ペアに基づいて、MMFactoryは多様なプログラム型ソリューションのプールを提案することができる。
MMFactoryはまた、メトリクスを提案し、パフォーマンス/リソース特性をベンチマークすることで、ユーザが独自の設計制約を満たすソリューションを選択することができる。
論文 参考訳(メタデータ) (2024-12-24T00:59:16Z) - ROMAS: A Role-Based Multi-Agent System for Database monitoring and Planning [11.589862354606476]
本稿では,ローコード開発とワンクリック展開を実現しつつ,様々なシナリオに適応する役割ベースM ulti-A gentシステムであるROMASを提案する。
ROMAS は DB-GPT [Xue et al., 2023a, 2024b] に効果的にデプロイされている。
論文 参考訳(メタデータ) (2024-12-18T05:45:39Z) - A General-Purpose Device for Interaction with LLMs [3.052172365469752]
本稿では,大規模言語モデル(LLM)と高度なハードウェアの統合について検討する。
我々は,LLMとの対話性の向上を目的とした汎用デバイスの開発に焦点をあてる。
論文 参考訳(メタデータ) (2024-08-02T23:43:29Z) - An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。
MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。
本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文 参考訳(メタデータ) (2024-07-05T02:01:49Z) - LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z) - NExT-GPT: Any-to-Any Multimodal LLM [75.5656492989924]
我々は,NExT-GPTという汎用的なMM-LLMシステムを提案する。
NExT-GPTは入力を知覚し、テキスト、画像、ビデオ、オーディオの任意の組み合わせで出力を生成することができる。
モーダリティ・スイッチング・インストラクション・チューニング(MosIT)を導入し,複雑なモーダリティ・セマンティック・理解とコンテンツ生成によってNExT-GPTが強化されたMosITの高品質なデータセットを手作業でキュレートする。
論文 参考訳(メタデータ) (2023-09-11T15:02:25Z) - Families In Wild Multimedia: A Multimodal Database for Recognizing
Kinship [63.27052967981546]
マルチタスク MM キンシップデータセットを初めて公開する。
FIW MMを構築するために,データを自動収集,注釈付け,作成する機構を開発した。
結果は、改善の異なる領域で将来の研究を刺激するエッジケースを強調します。
論文 参考訳(メタデータ) (2020-07-28T22:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。