Fugu-MT 論文翻訳(概要): LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education

論文の概要: LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education

arxiv url: http://arxiv.org/abs/2402.06264v1
Date: Fri, 9 Feb 2024 09:25:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 17:27:23.803777
Title: LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education
Title（参考訳）: LLaVA-Docent:芸術鑑賞教育を支援するマルチモーダル大言語モデルによる授業チューニング
Authors: Unggi Lee, Minji Jeon, Yunseo Lee, Gyuri Byun, Yoorim Son, Jaeyoon Shin, Hongkyu Ko, Hyeoncheol Kim
Abstract要約: 美術鑑賞教育は、芸術資源へのアクセスが制限されていること、特に不利な学生にとって、しばしば妨げられている。本研究では,LLaVA-Docentの開発に焦点をあて,マルチモーダル大規模言語モデル(MLLM)の美術鑑賞教育への応用について検討する。
参考スコア（独自算出の注目度）: 0.8204217278232556
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Art appreciation is vital in nurturing critical thinking and emotional intelligence among learners. However, traditional art appreciation education has often been hindered by limited access to art resources, especially for disadvantaged students, and an imbalanced emphasis on STEM subjects in mainstream education. In response to these challenges, recent technological advancements have paved the way for innovative solutions. This study explores the application of multi-modal large language models (MLLMs) in art appreciation education, focusing on developing LLaVA-Docent, a model that leverages these advancements. Our approach involved a comprehensive literature review and consultations with experts in the field, leading to developing a robust data framework. Utilizing this framework, we generated a virtual dialogue dataset that was leveraged by GPT-4. This dataset was instrumental in training the MLLM, named LLaVA-Docent. Six researchers conducted quantitative and qualitative evaluations of LLaVA-Docent to assess its effectiveness, benchmarking it against the GPT-4 model in a few-shot setting. The evaluation process revealed distinct strengths and weaknesses of the LLaVA-Docent model. Our findings highlight the efficacy of LLaVA-Docent in enhancing the accessibility and engagement of art appreciation education. By harnessing the potential of MLLMs, this study makes a significant contribution to the field of art education, proposing a novel methodology that reimagines the way art appreciation is taught and experienced.
Abstract（参考訳）: 芸術鑑賞は、学習者の批判的思考と感情的知性を育む上で不可欠である。しかし、伝統的な美術鑑賞教育は、特に不利な学生の芸術資源へのアクセスが制限されることや、主流の教育におけるSTEM科目への不均衡がしばしば妨げられている。これらの課題に応えて、最近の技術進歩は革新的な解決策の道を開いた。本研究では,これらの進歩を生かしたLLaVA-Docentの開発に焦点をあて,マルチモーダル大言語モデル(MLLM)を芸術鑑賞教育に適用することを検討する。我々のアプローチは、この分野の専門家との包括的な文献レビューと相談を伴い、堅牢なデータフレームワークの開発に繋がった。このフレームワークを利用して,GPT-4で活用した仮想対話データセットを作成した。このデータセットは、LLaVA-Docentという名前のMLLMのトレーニングに役立った。 6人の研究者がllava-docentの定量的・質的評価を行い、数発でgpt-4モデルと比較した。評価結果からLLaVA-Docentモデルの強度と弱点が明らかとなった。 LLaVA-Docentは,美術鑑賞教育のアクセシビリティとエンゲージメントを高めるのに有効である。本研究は,MLLMの潜在能力を生かして,芸術教育の分野に多大な貢献をし,芸術鑑賞の指導・経験方法を再考する新たな方法論を提案する。

関連論文リスト

PCGRLLM: Large Language Model-Driven Reward Design for Procedural Content Generation Reinforcement Learning [4.173530949970536]
この研究はPCGRLLM(PCGRLLM)を導入し、フィードバック機構といくつかの推論に基づくプロンプトエンジニアリング技術を採用している。 2つの最先端LCMを用いた2次元環境におけるストーリー・ツー・リワード生成タスクにおける提案手法の評価を行った。
論文参考訳（メタデータ） (2025-02-15T21:00:40Z)
CognArtive: Large Language Models for Automating Art Analysis and Decoding Aesthetic Elements [1.0579965347526206]
芸術は普遍言語であり、様々な方法で解釈できる。大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MLLM) の可用性は,これらのモデルがアートワークの評価と解釈にどのように使用できるのかという疑問を提起する。
論文参考訳（メタデータ） (2025-02-04T18:08:23Z)
MaestroMotif: Skill Design from Artificial Intelligence Feedback [67.17724089381056]
MaestroMotifはAI支援スキルデザインの手法であり、高性能で適応可能なエージェントを生成する。本稿では,AIを活用したスキルデザイン手法であるMaestroMotifについて述べる。
論文参考訳（メタデータ） (2024-12-11T16:59:31Z)
Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文参考訳（メタデータ） (2024-12-03T03:59:03Z)
A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks [5.0453036768975075]
MLLM(Large Language Model)は、テキスト、画像、ビデオ、オーディオを統合し、モーダルな理解と生成のためのAIシステムを実現する。 Bookは、スケーラビリティ、堅牢性、およびクロスモーダル学習における重要な課題に対処しながら、MLLM実装の顕著な点について検討している。倫理的考察、責任あるAI開発、そして今後の方向性に関する議論をまとめると、この権威あるリソースは理論的な枠組みと実践的な洞察の両方を提供する。
論文参考訳（メタデータ） (2024-11-09T20:56:23Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents [78.15899922698631]
MAIC(Massive AI-empowered Course)は、LLM駆動のマルチエージェントシステムを活用して、AIが強化された教室を構築するオンライン教育の新たな形態である。中国一の大学である清華大学で予備的な実験を行う。
論文参考訳（メタデータ） (2024-09-05T13:22:51Z)
Exploring the landscape of large language models: Foundations, techniques, and challenges [8.042562891309414]
この記事では、コンテキスト内学習の力学と微調整アプローチのスペクトルについて光を当てている。革新的な強化学習フレームワークを通じて、LLMが人間の好みとより緊密に連携する方法について検討する。 LLMデプロイメントの倫理的側面は議論され、マインドフルで責任あるアプリケーションの必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-04-18T08:01:20Z)
Large Language Models for Education: A Survey and Outlook [69.02214694865229]
各視点の技術的進歩を体系的にレビューし、関連するデータセットとベンチマークを整理し、教育におけるLSMの展開に伴うリスクと課題を特定する。本調査は、LLMの力を利用して教育実践を変革し、より効果的なパーソナライズされた学習環境を育むための、教育者、研究者、政策立案者のための総合的な技術図を提供することを目的とする。
論文参考訳（メタデータ） (2024-03-26T21:04:29Z)
Taking the Next Step with Generative Artificial Intelligence: The Transformative Role of Multimodal Large Language Models in Science Education [13.87944568193996]
MLLM(Multimodal Large Language Models)は、テキスト、音声、視覚入力を含むマルチモーダルデータを処理できる。本稿では,科学教育の中心的な側面におけるMLLMの変革的役割について,模範的な革新的な学習シナリオを提示することによって考察する。
論文参考訳（メタデータ） (2024-01-01T18:11:43Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Prototyping the use of Large Language Models (LLMs) for adult learning content creation at scale [0.6628807224384127]
本稿では,Large Language Models (LLM) の非同期コース生成における利用について検討する。 LLMを利用したコースプロトタイプを開発し,ロバストなHuman-in-the-loopプロセスを実装した。最初の発見は、このアプローチを採用することで、正確さや明快さを損なうことなく、コンテンツ作成を高速化できることを示している。
論文参考訳（メタデータ） (2023-06-02T10:58:05Z)
Scaling Evidence-based Instructional Design Expertise through Large Language Models [0.0]
本稿では,大規模言語モデル(LLM),特にGPT-4を教育設計の分野で活用することを検討する。本研究は,エビデンスに基づく教育設計の専門知識のスケールアップに着目し,理論教育学と実践実践のギャップを埋めることを目的としている。我々は,AIによるコンテンツ生成のメリットと限界について論じ,教育資料の品質確保に人的監督が必要であることを強調した。
論文参考訳（メタデータ） (2023-05-31T17:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。