Fugu-MT 論文翻訳(概要): An Empirical Study of Perceptions of General LLMs and Multimodal LLMs on Hugging Face

論文の概要: An Empirical Study of Perceptions of General LLMs and Multimodal LLMs on Hugging Face

arxiv url: http://arxiv.org/abs/2604.05782v1
Date: Tue, 07 Apr 2026 12:19:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-08 17:42:09.816083
Title: An Empirical Study of Perceptions of General LLMs and Multimodal LLMs on Hugging Face
Title（参考訳）: ハグ面上の一般LLMと多モードLLMの知覚に関する実証的研究
Authors: Yujian Liu, Xiao Yu, Jacky Keung, Xing Hu, Xin Xia, Xiaoxue Ma,
Abstract要約: 我々は,多様なモデルと活発なコミュニティを持つ主要なモデルハブであるHugging Faceについて,ユーザディスカッションを行った。我々の分析によると、LSMアクセス障壁、生成品質、デプロイメントと起動の複雑さが最も重要な関心事であることがわかった。
参考スコア（独自算出の注目度）: 14.74493586860506
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have rapidly evolved from general-purpose systems to multimodal models capable of processing text, images, and audio. As both general-purpose LLMs (GLLMs) and multimodal LLMs (MLLMs) gain widespread adoption, understanding user perceptions in real-world settings becomes increasingly important. However, existing studies often rely on surveys or platform-specific data (e.g., Reddit or GitHub issues), which either constrain user feedback through predefined questions or overemphasize failure-driven, debugging-oriented discussions, thus failing to capture diverse, experience-driven, and cross-model user perspectives in practice. To address this issue, we conduct an empirical study of user discussions on Hugging Face, a major model hub with diverse models and active communities. We collect and manually annotate 662 discussion threads from 38 representative models (21 GLLMs and 17 MLLMs), and develop a three-level taxonomy to systematically characterize user concerns. Our analysis reveals that LLM access barriers, generation quality, and deployment and invocation complexity are the most prominent concerns, alongside issues such as documentation limitations and resource constraints. Based on these findings, we derive actionable implications for improving LLM ecosystem.
Abstract（参考訳）: 大規模言語モデル(LLM)は、汎用システムからテキスト、画像、音声を処理するマルチモーダルモデルへと急速に進化してきた。汎用LLM (GLLM) とマルチモーダルLLM (MLLM) の両方が広く普及するにつれて、現実世界の設定におけるユーザ認識の理解がますます重要になっている。しかし、既存の研究はしばしば調査やプラットフォーム固有のデータ(RedditやGitHubの問題など)に依存しており、事前に定義された質問を通じてユーザーのフィードバックを制限するか、障害駆動のデバッグ指向の議論を過度に強調する。この問題に対処するため,多様なモデルと活発なコミュニティを持つ主要なモデルハブであるHugging Faceについて,ユーザディスカッションに関する実証的研究を行った。我々は38の代表的なモデル(21のGLLMと17のMLLM)から62の議論スレッドを手動で収集し、ユーザの関心を体系的に特徴付ける3段階の分類法を開発した。我々の分析では、ドキュメントの制限やリソースの制約といった問題とともに、LCMアクセス障壁、生成品質、デプロイメントと起動の複雑さが最も重要な関心事であることがわかった。これらの知見に基づき, LLMの生態系改善に有効な意味を導出する。

関連論文リスト

A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文参考訳（メタデータ） (2025-08-07T08:52:11Z)
LLM-Driven Dual-Level Multi-Interest Modeling for Recommendation [12.89199121698673]
大規模言語モデル (LLM) は、その豊富な知識と強力な推論能力により、多言語分析において大きな可能性を示す。より効果的なレコメンデーションのためのLLM駆動型デュアルレベル多目的モデリングフレームワークを提案する。実世界のデータセットの実験は、最先端の手法に対する我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2025-07-15T02:13:54Z)
Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。 GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文参考訳（メタデータ） (2025-03-17T04:07:47Z)
Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges [15.850548556536538]
大規模言語モデル(LLMs)は、自然言語の理解に精通したディープラーニングモデルのクラスである。これらのモデルの先進的なサブセットであるMultimodal Large Language Models (MLLM)は、複数のデータモダリティを処理および解釈するためにLLM機能を拡張している。本調査は,LLMの最近の進歩を概観する。
論文参考訳（メタデータ） (2024-12-04T11:14:06Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)
Beyond Text: Unveiling Multimodal Proficiency of Large Language Models with MultiAPI Benchmark [11.572835837392867]
この研究は、包括的な大規模APIベンチマークデータセットのパイオニアであるMultiAPIを紹介した。 235の多様なAPIコールと2,038のコンテキストプロンプトで構成されており、マルチモーダルタスクを扱うツール拡張LDMのユニークなプラットフォーム評価を提供する。 LLMはAPIコール決定の熟練度を示すが,ドメイン識別や関数選択,引数生成といった課題に直面している。
論文参考訳（メタデータ） (2023-11-21T23:26:05Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。