論文の概要: OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.10635v1
- Date: Wed, 11 Feb 2026 08:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.596003
- Title: OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization
- Title(参考訳): OmniSapiens:不均一性を考慮した社会行動処理の基礎モデル
- Authors: Keane Ong, Sabri Boughorbel, Luwei Xiao, Chanakya Ekbote, Wei Dai, Ao Qu, Jingyao Wu, Rui Mao, Ehsan Hoque, Erik Cambria, Gianmarco Mengaldo, Paul Pu Liang,
- Abstract要約: 異種タスクとサンプルのバランスをとるRL法であるHARPO(Heterogeneity-Aware Relative Policy Optimization)を紹介する。
HARPOを用いて,社会行動処理の基礎モデルであるOmnisapiens-7B 2.0を開発した。
既存の行動基盤モデルとは対照的に、Omnisapiens-7B 2.0は行動タスク間で最高のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 50.11607985532808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To develop socially intelligent AI, existing approaches typically model human behavioral dimensions (e.g., affective, cognitive, or social attributes) in isolation. Although useful, task-specific modeling often increases training costs and limits generalization across behavioral settings. Recent reasoning RL methods facilitate training a single unified model across multiple behavioral tasks, but do not explicitly address learning across different heterogeneous behavioral data. To address this gap, we introduce Heterogeneity-Aware Relative Policy Optimization (HARPO), an RL method that balances leaning across heterogeneous tasks and samples. This is achieved by modulating advantages to ensure that no single task or sample carries disproportionate influence during policy optimization. Using HARPO, we develop and release Omnisapiens-7B 2.0, a foundation model for social behavior processing. Relative to existing behavioral foundation models, Omnisapiens-7B 2.0 achieves the strongest performance across behavioral tasks, with gains of up to +16.85% and +9.37% on multitask and held-out settings respectively, while producing more explicit and robust reasoning traces. We also validate HARPO against recent RL methods, where it achieves the most consistently strong performance across behavioral tasks.
- Abstract(参考訳): 社会的にインテリジェントなAIを開発するために、既存のアプローチは通常、人間の行動次元(感情的、認知的、社会的属性など)を分離してモデル化する。
有用ではあるが、タスク固有のモデリングは、しばしばトレーニングコストを増大させ、行動設定の一般化を制限する。
近年の推論RL法は、複数の行動課題にまたがる単一統一モデルを訓練するのに役立つが、異なる異種行動データにまたがる学習に明示的に対処するものではない。
このギャップに対処するために、不均一なタスクやサンプルに傾くRL法であるHARPO(Heterogeneity-Aware Relative Policy Optimization)を導入する。
これは、政策最適化中に単一のタスクやサンプルが不均等な影響を受けないように、利点を調整することで達成される。
HARPOを用いて,社会行動処理の基礎モデルであるOmnisapiens-7B 2.0を開発した。
既存の行動基盤モデルとは対照的に、Omnisapiens-7B 2.0 は行動タスクの中でも最強のパフォーマンスを達成し、最大+16.85%と+9.37%のゲインをそれぞれマルチタスクとホールトアウト設定で達成し、より明示的で堅牢な推論トレースを生成する。
また、最近のRL手法に対してHARPOを検証し、動作タスク間で最も強い性能を達成する。
関連論文リスト
- HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.55730315685837]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。
私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。
次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文 参考訳(メタデータ) (2026-01-22T09:27:27Z) - Human Behavior Atlas: Benchmarking Unified Psychological and Social Behavior Understanding [50.34821397821815]
Human Behavior Atlasは、テキスト、オーディオ、視覚的モダリティにまたがる10万以上のサンプルで構成されている。
統合作業は冗長性とコストを低減し、タスク間の効率的なスケーリングを可能にし、ドメイン間の行動特徴の一般化を促進する。
論文 参考訳(メタデータ) (2025-10-06T15:16:45Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Multi-Timescale Modeling of Human Behavior [0.18199355648379031]
本稿では,行動情報を複数の時間スケールで処理し,将来の行動を予測するLSTMネットワークアーキテクチャを提案する。
我々は、仮想Minecraftベースのテストベッドでシミュレーションした都市検索・救助シナリオで収集したデータに基づいて、アーキテクチャを評価する。
論文 参考訳(メタデータ) (2022-11-16T15:58:57Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。