論文の概要: Artificial Behavior Intelligence: Technology, Challenges, and Future Directions
- arxiv url: http://arxiv.org/abs/2505.03315v1
- Date: Tue, 06 May 2025 08:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.280796
- Title: Artificial Behavior Intelligence: Technology, Challenges, and Future Directions
- Title(参考訳): 人工知能 : 技術, 課題, 今後の方向性
- Authors: Kanghyun Jo, Jehwan Choi, Kwanho Kim, Seongmin Kim, Duy-Linh Nguyen, Xuan-Thuy Vo, Adri Priadana, Tien-Dat Tran,
- Abstract要約: 本稿では,ABI(Artificial Behavior Intelligence)の技術的枠組みを定義する。
ABIは、人間の姿勢、表情、感情、行動シーケンス、文脈的手がかりを包括的に分析し、解釈する。
ポーズ推定、顔と感情の認識、シーケンシャルな行動分析、文脈認識モデリングなど、ABIの本質的なコンポーネントについて詳述する。
- 参考スコア(独自算出の注目度): 1.5237607855633524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and predicting human behavior has emerged as a core capability in various AI application domains such as autonomous driving, smart healthcare, surveillance systems, and social robotics. This paper defines the technical framework of Artificial Behavior Intelligence (ABI), which comprehensively analyzes and interprets human posture, facial expressions, emotions, behavioral sequences, and contextual cues. It details the essential components of ABI, including pose estimation, face and emotion recognition, sequential behavior analysis, and context-aware modeling. Furthermore, we highlight the transformative potential of recent advances in large-scale pretrained models, such as large language models (LLMs), vision foundation models, and multimodal integration models, in significantly improving the accuracy and interpretability of behavior recognition. Our research team has a strong interest in the ABI domain and is actively conducting research, particularly focusing on the development of intelligent lightweight models capable of efficiently inferring complex human behaviors. This paper identifies several technical challenges that must be addressed to deploy ABI in real-world applications including learning behavioral intelligence from limited data, quantifying uncertainty in complex behavior prediction, and optimizing model structures for low-power, real-time inference. To tackle these challenges, our team is exploring various optimization strategies including lightweight transformers, graph-based recognition architectures, energy-aware loss functions, and multimodal knowledge distillation, while validating their applicability in real-time environments.
- Abstract(参考訳): 自律運転、スマートヘルスケア、監視システム、ソーシャルロボティクスなど、さまざまなAIアプリケーションドメインにおいて、人間の行動を理解し予測することが、コア機能として現れている。
本稿では、人間の姿勢、表情、感情、行動シーケンス、文脈的手がかりを包括的に分析し、解釈する人工知能(ABI)の技術枠組みを定義する。
ポーズ推定、顔と感情の認識、シーケンシャルな行動分析、文脈認識モデリングなど、ABIの本質的なコンポーネントについて詳述する。
さらに,大規模言語モデル(LLM)やビジョン基礎モデル,マルチモーダル統合モデルなど,大規模事前学習モデルにおける近年の進歩の転換可能性を強調し,行動認識の精度と解釈性を大幅に向上させる。
我々の研究チームは、ABIドメインに強い関心を持ち、特に複雑な人間の振る舞いを効率的に推測できるインテリジェント軽量モデルの開発に重点を置いて、積極的に研究を行っている。
本稿では、限られたデータからの行動知能の学習、複雑な行動予測の不確かさの定量化、低消費電力リアルタイム推論のためのモデル構造最適化など、現実のアプリケーションにABIをデプロイするために対処すべき技術的課題をいくつか挙げる。
これらの課題に対処するため、我々のチームは、軽量トランスフォーマー、グラフベースの認識アーキテクチャ、エネルギー認識損失関数、マルチモーダル知識蒸留など、様々な最適化戦略を検討中で、リアルタイム環境での適用性を検証しています。
関連論文リスト
- Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems [133.45145180645537]
大規模言語モデル(LLM)の出現は、人工知能の変革的シフトを触媒している。
これらのエージェントがAI研究と実践的応用をますます推進するにつれて、その設計、評価、継続的な改善は複雑で多面的な課題を呈している。
この調査は、モジュール化された脳にインスパイアされたアーキテクチャ内でインテリジェントエージェントをフレーミングする、包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-03-31T18:00:29Z) - Body Discovery of Embodied AI [14.90599757805173]
ボディディスカバリー・オブ・エボダイドAI(Body Discovery of Embodied AI)は、エンボディメントを認識し、神経信号機能を要約するタスクに焦点を当てている。
この課題は、AIボディの正確な定義と、動的環境における実施を識別する複雑なタスクを含んでいる。
仮想環境を用いたアルゴリズムのテストに適したシミュレータを開発した。
論文 参考訳(メタデータ) (2025-03-25T09:21:10Z) - Empowering Edge Intelligence: A Comprehensive Survey on On-Device AI Models [16.16798813072285]
人工知能(AI)技術の急速な進歩により、エッジと端末デバイスへのAIモデルの展開が増加している。
この調査は、オンデバイスAIモデルの現状、技術的な課題、今後のトレンドを包括的に調査する。
論文 参考訳(メタデータ) (2025-03-08T02:59:51Z) - Visual Error Patterns in Multi-Modal AI: A Statistical Approach [0.0]
MLLM(Multi-modal large language model)は、テキストと視覚データの統合に優れるが、曖昧さや不完全な視覚刺激を解釈する際に体系的な課題に直面する。
本研究では3D、回転、顔と面の欠如といった特徴を特徴とする幾何的刺激のデータセットを用いて、統計モデルを用いてこれらの誤差を駆動する要因を分析する。
論文 参考訳(メタデータ) (2024-11-27T01:20:08Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Integration of cognitive tasks into artificial general intelligence test
for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文 参考訳(メタデータ) (2024-02-04T15:50:42Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。