論文の概要: An EcoSage Assistant: Towards Building A Multimodal Plant Care Dialogue
Assistant
- arxiv url: http://arxiv.org/abs/2401.06807v1
- Date: Wed, 10 Jan 2024 19:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 10:14:54.532403
- Title: An EcoSage Assistant: Towards Building A Multimodal Plant Care Dialogue
Assistant
- Title(参考訳): エコセージアシスタント:マルチモーダル植物ケア対話アシスタントの構築に向けて
- Authors: Mohit Tomar, Abhisek Tiwari, Tulika Saha, Prince Jha, Sriparna Saha
- Abstract要約: 我々は、会話を通じて植物を心配する人々を支援することを目的として、植物ケアアシスタントを構築するための最初の試みを行っている。
本研究では,植物ケアの専門家とユーザ間の約1Kの対話を含む植物ケア対話データセットPlandationalを提案する。
まず、様々な大規模言語モデル(LLM)と視覚言語モデル(VLM)の助けを借りてデータセットをベンチマークする。
- 参考スコア(独自算出の注目度): 19.15902264945402
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent times, there has been an increasing awareness about imminent
environmental challenges, resulting in people showing a stronger dedication to
taking care of the environment and nurturing green life. The current $19.6
billion indoor gardening industry, reflective of this growing sentiment, not
only signifies a monetary value but also speaks of a profound human desire to
reconnect with the natural world. However, several recent surveys cast a
revealing light on the fate of plants within our care, with more than half
succumbing primarily due to the silent menace of improper care. Thus, the need
for accessible expertise capable of assisting and guiding individuals through
the intricacies of plant care has become paramount more than ever. In this
work, we make the very first attempt at building a plant care assistant, which
aims to assist people with plant(-ing) concerns through conversations. We
propose a plant care conversational dataset named Plantational, which contains
around 1K dialogues between users and plant care experts. Our end-to-end
proposed approach is two-fold : (i) We first benchmark the dataset with the
help of various large language models (LLMs) and visual language model (VLM) by
studying the impact of instruction tuning (zero-shot and few-shot prompting)
and fine-tuning techniques on this task; (ii) finally, we build EcoSage, a
multi-modal plant care assisting dialogue generation framework, incorporating
an adapter-based modality infusion using a gated mechanism. We performed an
extensive examination (both automated and manual evaluation) of the performance
exhibited by various LLMs and VLM in the generation of the domain-specific
dialogue responses to underscore the respective strengths and weaknesses of
these diverse models.
- Abstract(参考訳): 近年,環境問題に対する意識が高まり,環境への配慮やグリーンライフの育成への献身が強まっている。
現在の16億ドルの屋内園芸産業は、この成長傾向を反映しており、金銭的価値だけでなく、自然界と再接続したいという人間の願望も表している。
しかし、最近のいくつかの調査では、不適切なケアの静かさが主な原因で、私たちのケア内の植物の運命に光を当てている。
このように、植物ケアの複雑さを通じて個人を援助し指導することのできる、アクセス可能な専門知識の必要性は、これまで以上に重要になっている。
本研究は,植物に対する懸念をコミュニケーションを通じて支援することを目的とした,植物ケアアシスタントの構築に向けた最初の試みである。
本研究では,植物ケアの専門家とユーザ間の約1Kの対話を含む植物ケア対話データセットPlandationalを提案する。
エンドツーエンドのアプローチは2つあります。
i) 各種大規模言語モデル(LLM)と視覚言語モデル(VLM)の助けを借りて、まずデータセットをベンチマークし、このタスクにおけるインストラクションチューニング(ゼロショットおよび少数ショットプロンプト)と微調整技術の影響について検討する。
(ii)最後に,ゲート機構を用いたアダプタベースのモダリティ注入を取り入れ,対話生成を支援するマルチモーダル植物ケアフレームワークであるecosageを構築した。
多様なモデルの強みと弱みを強調するために,ドメイン特化対話応答の生成において,様々なllmとvlmが提示する性能を広範囲に検討した(自動評価と手動評価の両方)。
関連論文リスト
- Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents [23.960719833886984]
M-CoDAL(M-CoDAL)は、安全クリティカルな状況下でのコミュニケーションをよりよく理解するために、実施エージェント向けに設計されたマルチモーダル対話システムである。
提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。
このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。
論文 参考訳(メタデータ) (2024-10-18T03:26:06Z) - Enhancing IoT based Plant Health Monitoring through Advanced Human Plant Interaction using Large Language Models and Mobile Applications [0.0]
本稿では、植物が人間に「話す」ことを可能にする新しい植物コミュニケーションアプリケーションの開発について述べる。
このアプリは、リアルタイムの対話機能を備えたシームレスなユーザー体験を提供する。
植物とのコネクティビティを育むことで、このシステムは植物ケアのプラクティスを強化し、持続可能性を促進し、AIとIoT技術のための革新的なアプリケーションを導入します。
論文 参考訳(メタデータ) (2024-09-24T09:26:47Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Challenges in automatic and selective plant-clearing [0.32985979395737786]
持続可能な森林環境下では, 自動的, 選択的プラントクリーニングの課題に対処する。
このような自律システムは、安価でメンテナンスが容易でありながら、気象条件、植物の多様性、地形、雑草に対する高い堅牢性を必要とする。
特に、スペクトル画像の堅牢性の欠如について論じ、参照データベースのサイズの影響を調査し、制御されていない環境で動作しているAIシステム特有の問題について論じる。
論文 参考訳(メタデータ) (2024-04-22T09:01:14Z) - Building Emotional Support Chatbots in the Era of LLMs [64.06811786616471]
我々は,Large Language Models (LLMs) の計算能力で人間の洞察を合成する革新的な方法論を導入する。
また,ChatGPTの文脈内学習の可能性を利用して,ExTESと呼ばれる感情支援対話データセットを生成する。
次に、LLaMAモデルに高度なチューニング手法を展開し、多様なトレーニング戦略の影響を検証し、最終的に感情的支援の相互作用に細心の注意を払ってLLMを出力する。
論文 参考訳(メタデータ) (2023-08-17T10:49:18Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - MPCHAT: Towards Multimodal Persona-Grounded Conversation [54.800425322314105]
我々はペルソナに基づく対話をマルチモーダル領域に拡張し、2つの主要な貢献をする。
まず,MPCHATという対話データセットを提案する。
第2に,マルチモーダル・ペルソナを組み込んだ多モーダル・ペルソナの対話タスクが,統計的に有意な性能向上をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2023-05-27T06:46:42Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Domain Generalization for Crop Segmentation with Standardized Ensemble Knowledge Distillation [42.39035033967183]
サービスロボットは、周囲を理解し、野生のターゲットを識別するリアルタイム認識システムが必要です。
しかし、既存の方法はしばしば、新しい作物や環境条件への一般化において不足している。
本稿では,知識蒸留を用いた領域一般化手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T14:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。