Fugu-MT 論文翻訳(概要): An EcoSage Assistant: Towards Building A Multimodal Plant Care Dialogue Assistant

論文の概要: An EcoSage Assistant: Towards Building A Multimodal Plant Care Dialogue Assistant

arxiv url: http://arxiv.org/abs/2401.06807v1
Date: Wed, 10 Jan 2024 19:06:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 10:14:54.532403
Title: An EcoSage Assistant: Towards Building A Multimodal Plant Care Dialogue Assistant
Title（参考訳）: エコセージアシスタント:マルチモーダル植物ケア対話アシスタントの構築に向けて
Authors: Mohit Tomar, Abhisek Tiwari, Tulika Saha, Prince Jha, Sriparna Saha
Abstract要約: 我々は、会話を通じて植物を心配する人々を支援することを目的として、植物ケアアシスタントを構築するための最初の試みを行っている。本研究では,植物ケアの専門家とユーザ間の約1Kの対話を含む植物ケア対話データセットPlandationalを提案する。まず、様々な大規模言語モデル(LLM)と視覚言語モデル(VLM)の助けを借りてデータセットをベンチマークする。
参考スコア（独自算出の注目度）: 19.15902264945402
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In recent times, there has been an increasing awareness about imminent environmental challenges, resulting in people showing a stronger dedication to taking care of the environment and nurturing green life. The current $19.6 billion indoor gardening industry, reflective of this growing sentiment, not only signifies a monetary value but also speaks of a profound human desire to reconnect with the natural world. However, several recent surveys cast a revealing light on the fate of plants within our care, with more than half succumbing primarily due to the silent menace of improper care. Thus, the need for accessible expertise capable of assisting and guiding individuals through the intricacies of plant care has become paramount more than ever. In this work, we make the very first attempt at building a plant care assistant, which aims to assist people with plant(-ing) concerns through conversations. We propose a plant care conversational dataset named Plantational, which contains around 1K dialogues between users and plant care experts. Our end-to-end proposed approach is two-fold : (i) We first benchmark the dataset with the help of various large language models (LLMs) and visual language model (VLM) by studying the impact of instruction tuning (zero-shot and few-shot prompting) and fine-tuning techniques on this task; (ii) finally, we build EcoSage, a multi-modal plant care assisting dialogue generation framework, incorporating an adapter-based modality infusion using a gated mechanism. We performed an extensive examination (both automated and manual evaluation) of the performance exhibited by various LLMs and VLM in the generation of the domain-specific dialogue responses to underscore the respective strengths and weaknesses of these diverse models.
Abstract（参考訳）: 近年,環境問題に対する意識が高まり,環境への配慮やグリーンライフの育成への献身が強まっている。現在の16億ドルの屋内園芸産業は、この成長傾向を反映しており、金銭的価値だけでなく、自然界と再接続したいという人間の願望も表している。しかし、最近のいくつかの調査では、不適切なケアの静かさが主な原因で、私たちのケア内の植物の運命に光を当てている。このように、植物ケアの複雑さを通じて個人を援助し指導することのできる、アクセス可能な専門知識の必要性は、これまで以上に重要になっている。本研究は,植物に対する懸念をコミュニケーションを通じて支援することを目的とした,植物ケアアシスタントの構築に向けた最初の試みである。本研究では,植物ケアの専門家とユーザ間の約1Kの対話を含む植物ケア対話データセットPlandationalを提案する。エンドツーエンドのアプローチは2つあります。 i) 各種大規模言語モデル(LLM)と視覚言語モデル(VLM)の助けを借りて、まずデータセットをベンチマークし、このタスクにおけるインストラクションチューニング(ゼロショットおよび少数ショットプロンプト)と微調整技術の影響について検討する。 (ii)最後に,ゲート機構を用いたアダプタベースのモダリティ注入を取り入れ,対話生成を支援するマルチモーダル植物ケアフレームワークであるecosageを構築した。多様なモデルの強みと弱みを強調するために,ドメイン特化対話応答の生成において,様々なllmとvlmが提示する性能を広範囲に検討した(自動評価と手動評価の両方)。

関連論文リスト

Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions [110.43343503158306]
本稿では、手動支援タスクを視覚言語アクションフレームワークに組み込み、そのアシスタントは、自我中心のビジョンとコマンドに従ってインストラクターにサービスを提供する。この設定の下で、我々は、マルチモーダルデータの11.4時間1.2Mフレームを持つ、最初の大規模人・物・人間のインタラクションデータセットであるInterVLAを達成した。我々は,エゴセントリックな人の動き推定,相互作用合成,および包括的分析による相互作用予測に関する新しいベンチマークを構築した。
論文参考訳（メタデータ） (2025-08-06T17:46:23Z)
MIRAGE: A Benchmark for Multimodal Information-Seeking and Reasoning in Agricultural Expert-Guided Conversations [9.649908672930815]
MIRAGEは、自然なユーザクエリ、専門家が承認したレスポンス、イメージベースのコンテキストを組み合わせることで、専門家のコンサルテーションの完全な複雑さを捉えます。 MIRAGEは35,000以上の実際のユーザ-専門家のインタラクションによって構築され、多様な作物の健康、害虫診断、作物管理シナリオにまたがる。このベンチマークには7,000以上のユニークな生物学的実体が含まれており、植物種、害虫、病気をカバーしている。
論文参考訳（メタデータ） (2025-06-25T03:07:54Z)
EarthMind: Towards Multi-Granular and Multi-Sensor Earth Observation with Large Multimodal Models [96.18182289276649]
我々は,多粒子・多センサ地球観測(EO)データ理解のための新しい視覚言語フレームワークであるEarthMindを提案する。 EarthMind は,(1) 画素レベルの理解を高めるために LLM 内で注意を喚起する空間アテンション・プロンプティング (SAP) と、(2) 異質なモダリティを共有空間に整合させるクロスモーダル・フュージョン (Cross-modal Fusion) の2つのコアコンポーネントを備えている。マルチセンサ・フュージョン評価を容易にするため,2000以上のマルチセンサ・イメージ・クエクション・ペアを用いた総合ベンチマーク「EarthMind-Bench」を提案する。
論文参考訳（メタデータ） (2025-06-02T13:36:05Z)
Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文参考訳（メタデータ） (2025-03-28T14:08:40Z)
TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。 TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文参考訳（メタデータ） (2025-03-26T15:58:16Z)
Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents [23.960719833886984]
M-CoDAL(M-CoDAL)は、安全クリティカルな状況下でのコミュニケーションをよりよく理解するために、実施エージェント向けに設計されたマルチモーダル対話システムである。提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。
論文参考訳（メタデータ） (2024-10-18T03:26:06Z)
Enhancing IoT based Plant Health Monitoring through Advanced Human Plant Interaction using Large Language Models and Mobile Applications [0.0]
本稿では、植物が人間に「話す」ことを可能にする新しい植物コミュニケーションアプリケーションの開発について述べる。このアプリは、リアルタイムの対話機能を備えたシームレスなユーザー体験を提供する。植物とのコネクティビティを育むことで、このシステムは植物ケアのプラクティスを強化し、持続可能性を促進し、AIとIoT技術のための革新的なアプリケーションを導入します。
論文参考訳（メタデータ） (2024-09-24T09:26:47Z)
Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文参考訳（メタデータ） (2024-09-13T18:28:12Z)
PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文参考訳（メタデータ） (2024-08-18T13:51:01Z)
Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,GUI環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含んでいる、という一般的なシナリオが提案されている。実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文参考訳（メタデータ） (2024-08-05T15:16:22Z)
Challenges in automatic and selective plant-clearing [0.32985979395737786]
持続可能な森林環境下では, 自動的, 選択的プラントクリーニングの課題に対処する。このような自律システムは、安価でメンテナンスが容易でありながら、気象条件、植物の多様性、地形、雑草に対する高い堅牢性を必要とする。特に、スペクトル画像の堅牢性の欠如について論じ、参照データベースのサイズの影響を調査し、制御されていない環境で動作しているAIシステム特有の問題について論じる。
論文参考訳（メタデータ） (2024-04-22T09:01:14Z)
Building Emotional Support Chatbots in the Era of LLMs [64.06811786616471]
我々は,Large Language Models (LLMs) の計算能力で人間の洞察を合成する革新的な方法論を導入する。また,ChatGPTの文脈内学習の可能性を利用して,ExTESと呼ばれる感情支援対話データセットを生成する。次に、LLaMAモデルに高度なチューニング手法を展開し、多様なトレーニング戦略の影響を検証し、最終的に感情的支援の相互作用に細心の注意を払ってLLMを出力する。
論文参考訳（メタデータ） (2023-08-17T10:49:18Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
MPCHAT: Towards Multimodal Persona-Grounded Conversation [54.800425322314105]
我々はペルソナに基づく対話をマルチモーダル領域に拡張し、2つの主要な貢献をする。まず,MPCHATという対話データセットを提案する。第2に,マルチモーダル・ペルソナを組み込んだ多モーダル・ペルソナの対話タスクが,統計的に有意な性能向上をもたらすことを実証的に示す。
論文参考訳（メタデータ） (2023-05-27T06:46:42Z)
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-05-04T17:59:28Z)
Domain Generalization for Crop Segmentation with Standardized Ensemble Knowledge Distillation [42.39035033967183]
サービスロボットは、周囲を理解し、野生のターゲットを識別するリアルタイム認識システムが必要です。しかし、既存の方法はしばしば、新しい作物や環境条件への一般化において不足している。本稿では,知識蒸留を用いた領域一般化手法を提案する。
論文参考訳（メタデータ） (2023-04-03T14:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。