Fugu-MT 論文翻訳(概要): LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education

論文の概要: LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education

arxiv url: http://arxiv.org/abs/2402.06264v3
Date: Wed, 18 Sep 2024 00:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-19 23:25:58.897538
Title: LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education
Title（参考訳）: LLaVA-Docent:芸術鑑賞教育を支援するマルチモーダル大言語モデルによる授業チューニング
Authors: Unggi Lee, Minji Jeon, Yunseo Lee, Gyuri Byun, Yoorim Son, Jaeyoon Shin, Hongkyu Ko, Hyeoncheol Kim,
Abstract要約: 芸術鑑賞は、ほとんどの学生にとって馴染みの無い、挑戦的な努力と認識されることが多いが、ジェネレーティブなAIによって可能となる会話パートナーによって、よりアクセスしやすくなっている。本研究では,芸術鑑賞教育におけるマルチモーダル大言語モデル(MLLM)の適用について検討し,美術鑑賞のための個人教師として機能するモデルであるLLaVA-Docentの開発に焦点をあてる。
参考スコア（独自算出の注目度）: 0.7865450695289844
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite the development of various AI systems to support learning in various domains, AI assistance for art appreciation education has not been extensively explored. Art appreciation, often perceived as an unfamiliar and challenging endeavor for most students, can be more accessible with a generative AI enabled conversation partner that provides tailored questions and encourages the audience to deeply appreciate artwork. This study explores the application of multimodal large language models (MLLMs) in art appreciation education, with a focus on developing LLaVA-Docent, a model designed to serve as a personal tutor for art appreciation. Our approach involved design and development research, focusing on iterative enhancement to design and develop the application to produce a functional MLLM-enabled chatbot along with a data design framework for art appreciation education. To that end, we established a virtual dialogue dataset that was generated by GPT-4, which was instrumental in training our MLLM, LLaVA-Docent. The performance of LLaVA-Docent was evaluated by benchmarking it against alternative settings and revealed its distinct strengths and weaknesses. Our findings highlight the efficacy of the MMLM-based personalized art appreciation chatbot and demonstrate its applicability for a novel approach in which art appreciation is taught and experienced.
Abstract（参考訳）: 様々な分野における学習を支援する様々なAIシステムの開発にもかかわらず、芸術鑑賞教育のためのAI支援は広く研究されていない。芸術鑑賞は、ほとんどの学生にとって馴染みの無い、挑戦的な努力と認識されることが多いが、生成可能なAIによってよりアクセスしやすくなり、適切な質問を提供し、聴衆にアートワークを深く理解するよう促す。本研究では,芸術鑑賞教育におけるマルチモーダル大言語モデル(MLLM)の適用について検討し,美術鑑賞のための個人教師として機能するモデルであるLLaVA-Docentの開発に焦点をあてる。我々のアプローチはデザインと開発の研究であり、芸術鑑賞教育のためのデータデザインフレームワークとともに、機能的MLLM対応チャットボットを作成するためのアプリケーションの設計と開発を反復的に進めることに焦点をあてた。そこで我々は,MLLM,LLaVA-Docentのトレーニングに役立ったGPT-4によって生成された仮想対話データセットを構築した。 LLaVA-Docentの性能は、代替設定に対してベンチマークすることで評価され、その異なる長所と短所を明らかにした。本研究は,MMLMをベースとしたパーソナライズされた美術鑑賞チャットボットの有効性を明らかにするとともに,芸術鑑賞を指導・経験する新しいアプローチへの適用性を実証するものである。

関連論文リスト

PCGRLLM: Large Language Model-Driven Reward Design for Procedural Content Generation Reinforcement Learning [4.173530949970536]
この研究はPCGRLLM(PCGRLLM)を導入し、フィードバック機構といくつかの推論に基づくプロンプトエンジニアリング技術を採用している。 2つの最先端LCMを用いた2次元環境におけるストーリー・ツー・リワード生成タスクにおける提案手法の評価を行った。
論文参考訳（メタデータ） (2025-02-15T21:00:40Z)
CognArtive: Large Language Models for Automating Art Analysis and Decoding Aesthetic Elements [1.0579965347526206]
芸術は普遍言語であり、様々な方法で解釈できる。大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MLLM) の可用性は,これらのモデルがアートワークの評価と解釈にどのように使用できるのかという疑問を提起する。
論文参考訳（メタデータ） (2025-02-04T18:08:23Z)
MaestroMotif: Skill Design from Artificial Intelligence Feedback [67.17724089381056]
MaestroMotifはAI支援スキルデザインの手法であり、高性能で適応可能なエージェントを生成する。本稿では,AIを活用したスキルデザイン手法であるMaestroMotifについて述べる。
論文参考訳（メタデータ） (2024-12-11T16:59:31Z)
Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文参考訳（メタデータ） (2024-12-03T03:59:03Z)
A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks [5.0453036768975075]
MLLM(Large Language Model)は、テキスト、画像、ビデオ、オーディオを統合し、モーダルな理解と生成のためのAIシステムを実現する。 Bookは、スケーラビリティ、堅牢性、およびクロスモーダル学習における重要な課題に対処しながら、MLLM実装の顕著な点について検討している。倫理的考察、責任あるAI開発、そして今後の方向性に関する議論をまとめると、この権威あるリソースは理論的な枠組みと実践的な洞察の両方を提供する。
論文参考訳（メタデータ） (2024-11-09T20:56:23Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents [78.15899922698631]
MAIC(Massive AI-empowered Course)は、LLM駆動のマルチエージェントシステムを活用して、AIが強化された教室を構築するオンライン教育の新たな形態である。中国一の大学である清華大学で予備的な実験を行う。
論文参考訳（メタデータ） (2024-09-05T13:22:51Z)
Exploring the landscape of large language models: Foundations, techniques, and challenges [8.042562891309414]
この記事では、コンテキスト内学習の力学と微調整アプローチのスペクトルについて光を当てている。革新的な強化学習フレームワークを通じて、LLMが人間の好みとより緊密に連携する方法について検討する。 LLMデプロイメントの倫理的側面は議論され、マインドフルで責任あるアプリケーションの必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-04-18T08:01:20Z)
Large Language Models for Education: A Survey and Outlook [69.02214694865229]
各視点の技術的進歩を体系的にレビューし、関連するデータセットとベンチマークを整理し、教育におけるLSMの展開に伴うリスクと課題を特定する。本調査は、LLMの力を利用して教育実践を変革し、より効果的なパーソナライズされた学習環境を育むための、教育者、研究者、政策立案者のための総合的な技術図を提供することを目的とする。
論文参考訳（メタデータ） (2024-03-26T21:04:29Z)
Taking the Next Step with Generative Artificial Intelligence: The Transformative Role of Multimodal Large Language Models in Science Education [13.87944568193996]
MLLM(Multimodal Large Language Models)は、テキスト、音声、視覚入力を含むマルチモーダルデータを処理できる。本稿では,科学教育の中心的な側面におけるMLLMの変革的役割について,模範的な革新的な学習シナリオを提示することによって考察する。
論文参考訳（メタデータ） (2024-01-01T18:11:43Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Prototyping the use of Large Language Models (LLMs) for adult learning content creation at scale [0.6628807224384127]
本稿では,Large Language Models (LLM) の非同期コース生成における利用について検討する。 LLMを利用したコースプロトタイプを開発し,ロバストなHuman-in-the-loopプロセスを実装した。最初の発見は、このアプローチを採用することで、正確さや明快さを損なうことなく、コンテンツ作成を高速化できることを示している。
論文参考訳（メタデータ） (2023-06-02T10:58:05Z)
Scaling Evidence-based Instructional Design Expertise through Large Language Models [0.0]
本稿では,大規模言語モデル(LLM),特にGPT-4を教育設計の分野で活用することを検討する。本研究は,エビデンスに基づく教育設計の専門知識のスケールアップに着目し,理論教育学と実践実践のギャップを埋めることを目的としている。我々は,AIによるコンテンツ生成のメリットと限界について論じ,教育資料の品質確保に人的監督が必要であることを強調した。
論文参考訳（メタデータ） (2023-05-31T17:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。