Fugu-MT 論文翻訳(概要): GPT Sonograpy: Hand Gesture Decoding from Forearm Ultrasound Images via VLM

論文の概要: GPT Sonograpy: Hand Gesture Decoding from Forearm Ultrasound Images via VLM

arxiv url: http://arxiv.org/abs/2407.10870v1
Date: Mon, 15 Jul 2024 16:18:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 14:20:24.733901
Title: GPT Sonograpy: Hand Gesture Decoding from Forearm Ultrasound Images via VLM
Title（参考訳）: GPTソノグラフ:VLMによる前腕超音波画像からの手のジェスチャーデコード
Authors: Keshav Bimbraw, Ye Wang, Jing Liu, Toshiaki Koike-Akino,
Abstract要約: GPT-4oは、微調整がなくても、前腕超音波データから手の動きを復号できることを示す。また,GPT-4oは,テキスト内学習の少ない場面で改善可能であることを示す。
参考スコア（独自算出の注目度）: 13.437876467054686
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large vision-language models (LVLMs), such as the Generative Pre-trained Transformer 4-omni (GPT-4o), are emerging multi-modal foundation models which have great potential as powerful artificial-intelligence (AI) assistance tools for a myriad of applications, including healthcare, industrial, and academic sectors. Although such foundation models perform well in a wide range of general tasks, their capability without fine-tuning is often limited in specialized tasks. However, full fine-tuning of large foundation models is challenging due to enormous computation/memory/dataset requirements. We show that GPT-4o can decode hand gestures from forearm ultrasound data even with no fine-tuning, and improves with few-shot, in-context learning.
Abstract（参考訳）: Generative Pre-trained Transformer 4-omni (GPT-4o)のような大規模視覚言語モデル(LVLM)は、医療、工業、学術分野を含む無数のアプリケーションのための強力な人工知能(AI)支援ツールとして大きな可能性を秘めている。このような基礎モデルは、幅広い一般的なタスクでうまく機能するが、微調整なしでは、しばしば特殊タスクでしか機能しない。しかし、巨大な基盤モデルの完全な微調整は、膨大な計算/メモリ/データセットの要求のために困難である。 GPT-4oは、微調整がなくても、前腕超音波データから手の動きを復号できることを示す。

関連論文リスト

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning [112.51671310005604]
GLM-4.1V-9B-Thinkingは、汎用マルチモーダル理解と推論を促進するために設計された視覚言語モデル(VLM)である。モデルの潜在能力を最大限に活用するために,カリキュラムサンプリングを用いた強化学習を提案する。オープンソースのGLM-4.1V-9B-Thinkingは、同等の大きさのモデル間で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-01T17:55:04Z)
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation [14.95468978198402]
OpenAIは強力なGPT-4oイメージモデルを導入した。この知見にインスパイアされたUniWorld-V1は、強力な大言語モデルから抽出された意味的特徴に基づいて構築された統合生成フレームワークである。
論文参考訳（メタデータ） (2025-06-03T17:59:33Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies [47.129504708849446]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。 LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文参考訳（メタデータ） (2024-02-27T10:44:52Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文参考訳（メタデータ） (2024-01-16T01:57:24Z)
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones [18.954681684239358]
本稿では,様々な視覚言語タスクを対象とした効率的なトレーニングと推論を目的とした,オープンソースのMLLMであるTinyGPT-Vを紹介する。言語モデル280億のパラメータで、TinyGPT-VはVQAと画像推論タスクにおいて、より大きなパラメータに匹敵する結果を達成している。
論文参考訳（メタデータ） (2023-12-28T07:11:41Z)
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。 GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。 GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文参考訳（メタデータ） (2023-09-29T17:34:51Z)
Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文参考訳（メタデータ） (2023-04-17T17:59:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。