論文の概要: Evaluating Deep Human-in-the-Loop Optimization for Retinal Implants Using Sighted Participants
- arxiv url: http://arxiv.org/abs/2502.00177v2
- Date: Sun, 27 Apr 2025 23:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 18:43:11.113005
- Title: Evaluating Deep Human-in-the-Loop Optimization for Retinal Implants Using Sighted Participants
- Title(参考訳): 目視による網膜インプラントの深部ヒューマン・イン・ザ・ループ最適化の評価
- Authors: Eirini Schoinas, Adyah Rastogi, Anissa Carter, Jacob Granley, Michael Beyeler,
- Abstract要約: ヒューマン・イン・ザ・ループ最適化(HILO)は,ユーザのフィードバックに基づいて刺激パラメータを反復的に精製することで視覚補綴をパーソナライズするための有望なアプローチである。
従来の研究はHILOのシミュレーション効果を示したが、ヒトの被験者に対する効果は検証されていない。
そこで本研究では,実環境下での刺激戦略の最適化能力を評価するために,人工視覚を視認する視力を用いたHILOの評価を行った。
- 参考スコア(独自算出の注目度): 2.3301643766310374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-in-the-loop optimization (HILO) is a promising approach for personalizing visual prostheses by iteratively refining stimulus parameters based on user feedback. Previous work demonstrated HILO's efficacy in simulation, but its performance with human participants remains untested. Here we evaluate HILO using sighted participants viewing simulated prosthetic vision to assess its ability to optimize stimulation strategies under realistic conditions. Participants selected between phosphenes generated by competing encoders to iteratively refine a deep stimulus encoder (DSE). We tested HILO in three conditions: standard optimization, threshold misspecifications, and out-of-distribution parameter sampling. Participants consistently preferred HILO-generated stimuli over both a naive encoder and the DSE alone, with log odds favoring HILO across all conditions. We also observed key differences between human and simulated decision-making, highlighting the importance of validating optimization strategies with human participants. These findings support HILO as a viable approach for adapting visual prostheses to individuals. Clinical relevance: Validating HILO with sighted participants viewing simulated prosthetic vision is an important step toward personalized calibration of future visual prostheses.
- Abstract(参考訳): ヒューマン・イン・ザ・ループ最適化(HILO)は,ユーザのフィードバックに基づいて刺激パラメータを反復的に精製することで視覚補綴をパーソナライズするための有望なアプローチである。
以前の研究はHILOのシミュレーション効果を示したが、ヒトの被験者に対する効果は検証されていない。
そこで本研究では,実環境下での刺激戦略の最適化能力を評価するために,人工視覚を視認する視力を用いたHILOの評価を行った。
競合するエンコーダが生成するホスフェイン間で選択された参加者は、ディープ刺激エンコーダ(DSE)を反復的に精製する。
HILOは, 標準最適化, しきい値の不特定, 分布外パラメータサンプリングの3つの条件で試験した。
参加者はナイーブエンコーダとDSE単独よりもHILO産生刺激を常に好んでおり、全ての条件でHILOを好んでいる。
また、人間とシミュレートされた意思決定の主な違いを観察し、人間の参加者との最適化戦略を検証することの重要性を強調した。
これらの知見は人体に視覚補綴を適応するための有効なアプローチとしてHILOを支持する。
臨床関連性: 人工視覚を視認する視力のある被験者によるHILOの検証は, 将来の視覚補綴のパーソナライズ・キャリブレーションに向けた重要なステップである。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment [73.14105098897696]
本研究では,人間の嗜好フィードバックをはるかに少なくして視覚的報酬を学習するための表現適応型選好学習(RAPL)を提案する。
RAPLは、エンドユーザの視覚表現に合わせて微調整された事前学習された視覚エンコーダに焦点を合わせ、特徴マッチングによって密集した視覚報酬を構築する。
RAPLは人間の嗜好に沿った報酬を学習し、より効率的に嗜好データを使用し、ロボットの具体化を一般化できることを示す。
論文 参考訳(メタデータ) (2024-12-06T08:04:02Z) - A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs [34.71750379630014]
トピックレベルの幻覚を緩和するために,モデル自体をガイドする自己修正的アプローチであるトピックレベルの優先上書き(TPO)を導入する。
以上の結果から,TPOは信頼性の最先端性を達成し,対象幻覚の92%,全体幻覚の38%を著しく低減した。
論文 参考訳(メタデータ) (2024-11-26T09:42:07Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases [76.9127853906115]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
論文 参考訳(メタデータ) (2024-02-13T15:55:41Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z) - Human-in-the-Loop Optimization for Deep Stimulus Encoding in Visual
Prostheses [2.7309692684728617]
神経補綴は、失われた感覚機能を回復し、人間の能力を増強する可能性を示しているが、現在の装置が生み出す感覚は、しばしば不自然または歪んでいるように見える。
この2つの基本的制約を克服する,斬新で現実的なアプローチを提案する。
提案手法は、パーソナライズされた刺激エンコーダを迅速に学習し、回復した視覚の質を劇的に改善し、患者からのフィードバックに頑健であることを示す。
論文 参考訳(メタデータ) (2023-06-16T18:49:51Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles [16.916111322004557]
ブラックボックスの客観的関数は、ランクのオラクルを通してのみ測定できる。
ゼロ階最適化アルゴリズムZO-RankSGDを導入する。
また,ZO-RankSGDは,数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-03-07T09:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。