論文の概要: An Architecture-Led Hybrid Report on Body Language Detection Project
- arxiv url: http://arxiv.org/abs/2512.23028v1
- Date: Sun, 28 Dec 2025 18:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.328987
- Title: An Architecture-Led Hybrid Report on Body Language Detection Project
- Title(参考訳): ボディランゲージ検出プロジェクトに関するアーキテクチャとハイブリッドレポート
- Authors: Thomson Tong, Diba Darooneh,
- Abstract要約: 本報告では、2つの近代視覚言語モデル(VLM)のアーキテクチャによる分析について述べる。
アーキテクチャプロパティがBodyLanguageDetectionで実装された実用的なビデオからアーティファクトパイプラインにどのようにマップされているかを説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report provides an architecture-led analysis of two modern vision-language models (VLMs), Qwen2.5-VL-7B-Instruct and Llama-4-Scout-17B-16E-Instruct, and explains how their architectural properties map to a practical video-to-artifact pipeline implemented in the BodyLanguageDetection repository [1]. The system samples video frames, prompts a VLM to detect visible people and generate pixel-space bounding boxes with prompt-conditioned attributes (emotion by default), validates output structure using a predefined schema, and optionally renders an annotated video. We first summarize the shared multimodal foundation (visual tokenization, Transformer attention, and instruction following), then describe each architecture at a level sufficient to justify engineering choices without speculative internals. Finally, we connect model behavior to system constraints: structured outputs can be syntactically valid while semantically incorrect, schema validation is structural (not geometric correctness), person identifiers are frame-local in the current prompting contract, and interactive single-frame analysis returns free-form text rather than schema-enforced JSON. These distinctions are critical for writing defensible claims, designing robust interfaces, and planning evaluation.
- Abstract(参考訳): 本稿では,2つの現代視覚言語モデル(VLM)であるQwen2.5-VL-7B-InstructとLlama-4-Scout-17B-16E-Instructをアーキテクチャ主導で解析し,そのアーキテクチャ特性をBodyLanguageDetectionリポジトリに実装した実用的なビデオ・ツー・アーティファクトパイプラインにどのようにマップするかを説明する。
このシステムは、ビデオフレームをサンプリングし、VLMに視覚的人物を検知させ、プロンプト条件付き属性(デフォルトではエモーション)でピクセル空間境界ボックスを生成し、事前定義されたスキーマを使用して出力構造を検証し、任意にアノテーション付きビデオをレンダリングする。
まず、共有マルチモーダル基盤(視覚トークン化、トランスフォーマーアテンション、インストラクション後続)を要約し、投機的内部を使わずにエンジニアリング上の選択を正当化するのに十分なレベルで各アーキテクチャを記述する。
最後に、モデル動作をシステム制約に接続する: 構造化されたアウトプットは、セマンティックに正しくない間に構文的に有効であり、スキーマ検証は構造的(幾何学的正確性ではない)であり、人物識別子は現在のプロンプト契約においてフレームローカルであり、対話的な単一フレーム分析は、スキーマ強化JSONではなく自由形式のテキストを返す。
これらの区別は、防御可能なクレームを書き、堅牢なインターフェースを設計し、計画評価を作成するために重要である。
関連論文リスト
- Referring Video Object Segmentation with Cross-Modality Proxy Queries [23.504655272754587]
Referring Video Object segmentation (RVOS)は、与えられたテキスト表現によって参照される対象オブジェクトのピクセルレベルマップを生成することを目的とした、新たなクロスモーダルタスクである。
近年のアプローチでは、条件付きクエリによるモダリティアライメントに対処し、クエリ応答に基づくメカニズムを用いて対象オブジェクトを追跡する。
本稿では,視覚とテキストのセマンティクスを統合するためのプロキシクエリセットを導入するProxyFormerという新しいRVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-11-26T07:45:41Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - IUT-Plug: A Plug-in tool for Interleaved Image-Text Generation [23.61167100602915]
IUT-Plugはイメージ理解ツリー(IUT)に基盤を置くモジュールである
動的IUT-Plug抽出モジュールは、視覚シーンを階層的なシンボル構造に解析する。
協調した物語フローと画像合成機構は、相互整合性を保証する。
論文 参考訳(メタデータ) (2025-10-13T03:19:45Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - VSR: A Unified Framework for Document Layout Analysis combining Vision,
Semantics and Relations [40.721146438291335]
視覚、意味論、関係性を組み合わせた文書レイアウト解析のための統一フレームワークVSRを提案する。
人気のある3つのベンチマークでは、vsrは以前のモデルを大きく上回っている。
論文 参考訳(メタデータ) (2021-05-13T12:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。