論文の概要: Human-AI Collaborative Autonomous Experimentation With Proxy Modeling for Comparative Observation
- arxiv url: http://arxiv.org/abs/2603.12618v1
- Date: Fri, 13 Mar 2026 03:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.883454
- Title: Human-AI Collaborative Autonomous Experimentation With Proxy Modeling for Comparative Observation
- Title(参考訳): プロキシモデリングによる人間とAIの協調的自律実験による比較観察
- Authors: Arpan Biswas, Hiroshi Funakubo, Yongtao Liu,
- Abstract要約: 本稿では,人間とAIエージェントの協調作業を通じて,プロキシモデルによるベイズ最適化(px-BO)を提案する。
我々のアプローチは、従来のデータ駆動探索よりも検索を改善するために、ドメインエキスパートのより良いコントロールを提供しました。
- 参考スコア(独自算出の注目度): 1.05460929917527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimization for different tasks like material characterization, synthesis, and functional properties for desired applications over multi-dimensional control parameters need a rapid strategic search through active learning such as Bayesian optimization (BO). However, such high-dimensional experimental physical descriptors are complex and noisy, from which realization of a low-dimensional mathematical scalar metrics or objective functions can be erroneous. Moreover, in traditional purely data-driven autonomous exploration, such objective functions often ignore the subtle variation and key features of the physical descriptors, thereby can fail to discover unknown phenomenon of the material systems. To address this, here we present a proxy-modelled Bayesian optimization (px-BO) via on-the-fly teaming between human and AI agents. Over the loop of BO, instead of defining a mathematical objective function directly from the experimental data, we introduce a voting system on the fly where the new experimental outcome will be compared with existing experiments, and the human agents will choose the preferred samples. These human-guided comparisons are then transformed into a proxy-based objective function via fitting Bradley-Terry (BT) model. Then, to minimize human interaction, this iteratively trained proxy model also acts as an AI agent for future surrogate human votes. Finally, these surrogate votes are periodically validated by human agents, and the corrections are then learned by the proxy model on-the-fly. We demonstrated the performance of the proposed px-BO framework into simulated and BEPS data generated from PTO sample. We find that our approach provided better control of the domain experts for an improved search over traditional data-driven exploration, thus, signifies the importance of human-AI teaming in an accelerated and meaningful material space exploration.
- Abstract(参考訳): 多次元制御パラメータよりも望まれるアプリケーションに対する材料特性、合成、機能特性などの様々なタスクの最適化には、ベイズ最適化(BO)のような活発な学習を通して、迅速な戦略的探索が必要である。
しかし、そのような高次元の実験的な物理的記述子は複雑でノイズがあり、そこから低次元の数学的スカラー測度や目的関数の実現は誤って行うことができる。
さらに、従来の純粋にデータ駆動の自律探索では、そのような目的関数は物理的記述子の微妙な変化や重要な特徴を無視することが多いため、物質系の未知の現象を発見できない。
この問題に対処するために、人間とAIエージェント間のオンザフライコラボレーションを通じて、プロキシモデルによるベイズ最適化(px-BO)を提案する。
BOのループ上では,実験データから直接数学的目的関数を定義する代わりに,既存の実験と新たな実験結果を比較する投票システムを導入し,人間のエージェントが好むサンプルを選択する。
これらの人間誘導比較はBradley-Terry(BT)モデルに適合させることでプロキシベースの目的関数に変換される。
そして、人間のインタラクションを最小限に抑えるために、この反復的に訓練されたプロキシモデルは、将来の投票を代理するAIエージェントとしても機能する。
最後に、これらの代理票は、定期的に人間のエージェントによって検証され、その修正は、オンザフライでプロキシモデルによって学習される。
提案したpx-BOフレームワークの性能をPTOサンプルから生成したシミュレーションおよびBEPSデータに示す。
提案手法は,従来のデータ駆動探索よりも優れた探索を行うために,ドメインエキスパートのより優れた制御を提供し,かつ,加速された有意義な宇宙探査において,人間とAIの連携の重要性を示唆するものである。
関連論文リスト
- Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - ALMERIA: Boosting pairwise molecular contrasts with scalable methods [0.0]
ALMERIAは、一対の分子コントラストに基づく化合物の類似性と活性予測を推定するためのツールである。
大量のデータを利用するスケーラブルなソフトウェアと手法を使って実装されている。
分子活性予測の最先端性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-04-28T16:27:06Z) - A dynamic Bayesian optimized active recommender system for
curiosity-driven Human-in-the-loop automated experiments [8.780395483188242]
ベイズ最適化アクティブレコメンデーションシステム(BOARS)によるループ実験ワークフローにおける新しいタイプの人間の開発について述べる。
この研究は、実験領域にわたるシステムの好奇心駆動的な探索に、人間の強化された機械学習アプローチの有用性を示す。
論文 参考訳(メタデータ) (2023-04-05T14:54:34Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Investigations of Performance and Bias in Human-AI Teamwork in Hiring [30.046502708053097]
AIによる意思決定では、効果的なハイブリッドチームワーク(ヒューマンAI)は、AIのパフォーマンスにのみ依存するものではない。
本研究では,モデルの予測性能とバイアスの両方が,推薦型意思決定タスクにおいてどのように人間に伝達されるかを検討する。
論文 参考訳(メタデータ) (2022-02-21T17:58:07Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Contextual Latent-Movements Off-Policy Optimization for Robotic
Manipulation Skills [41.140532647789456]
本稿では,低次元非線形潜在力学の獲得のために,実験軌道の扱いに関する新しい考え方を提案する。
LAAMPO (Latent-Movements Policy Optimization) と呼ばれる新しい文脈外RLアルゴリズムを導入する。
LAMPOは、文献における一般的なアプローチに対するサンプル効率のよいポリシーを提供する。
論文 参考訳(メタデータ) (2020-10-26T17:53:30Z) - Multimodal Deep Generative Models for Trajectory Prediction: A
Conditional Variational Autoencoder Approach [34.70843462687529]
本研究では,人間の行動予測に対する条件付き変分オートエンコーダアプローチに関する自己完結型チュートリアルを提供する。
本チュートリアルの目的は,人間の行動予測における最先端の手法の分類をレビューし,構築することである。
論文 参考訳(メタデータ) (2020-08-10T03:18:27Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。