論文の概要: Evaluating Deep Human-in-the-Loop Optimization for Retinal Implants Using Sighted Participants
- arxiv url: http://arxiv.org/abs/2502.00177v1
- Date: Fri, 31 Jan 2025 21:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:05.343453
- Title: Evaluating Deep Human-in-the-Loop Optimization for Retinal Implants Using Sighted Participants
- Title(参考訳): 目視による網膜インプラントの深部ヒューマン・イン・ザ・ループ最適化の評価
- Authors: Eirini Schoinas, Adyah Rastogi, Anissa Carter, Jacob Granley, Michael Beyeler,
- Abstract要約: ヒューマン・イン・ザ・ループ最適化(HILO)は,ユーザのフィードバックに基づいて刺激パラメータを反復的に精製することで視覚補綴をパーソナライズするための有望なアプローチである。
従来の研究はHILOのシミュレーション効果を示したが、ヒトの被験者に対する効果は検証されていない。
そこで本研究では,実環境下での刺激戦略の最適化能力を評価するために,人工視覚を視認する視力を用いたHILOの評価を行った。
- 参考スコア(独自算出の注目度): 2.3301643766310374
- License:
- Abstract: Human-in-the-loop optimization (HILO) is a promising approach for personalizing visual prostheses by iteratively refining stimulus parameters based on user feedback. Previous work demonstrated HILO's efficacy in simulation, but its performance with human participants remains untested. Here we evaluate HILO using sighted participants viewing simulated prosthetic vision to assess its ability to optimize stimulation strategies under realistic conditions. Participants selected between phosphenes generated by competing encoders to iteratively refine a deep stimulus encoder (DSE). We tested HILO in three conditions: standard optimization, threshold misspecifications, and out-of-distribution parameter sampling. Participants consistently preferred HILO-generated stimuli over both a na\"ive encoder and the DSE alone, with log odds favoring HILO across all conditions. We also observed key differences between human and simulated decision-making, highlighting the importance of validating optimization strategies with human participants. These findings support HILO as a viable approach for adapting visual prostheses to individuals.
- Abstract(参考訳): ヒューマン・イン・ザ・ループ最適化(HILO)は,ユーザのフィードバックに基づいて刺激パラメータを反復的に精製することで視覚補綴をパーソナライズするための有望なアプローチである。
以前の研究はHILOのシミュレーション効果を示したが、ヒトの被験者に対する効果は検証されていない。
そこで本研究では,実環境下での刺激戦略の最適化能力を評価するために,人工視覚を視認する視力を用いたHILOの評価を行った。
競合するエンコーダが生成するホスフェイン間で選択された参加者は、ディープ刺激エンコーダ(DSE)を反復的に精製する。
HILOは, 標準最適化, しきい値の不特定, 分布外パラメータサンプリングの3つの条件で試験した。
参加者は、すべての条件でHILOを好んで、na\型エンコーダとDSEのみよりもHILO生成刺激を常に好んだ。
また、人間とシミュレートされた意思決定の主な違いを観察し、人間の参加者との最適化戦略を検証することの重要性を強調した。
これらの知見は人体に視覚補綴を適応するための有効なアプローチとしてHILOを支持する。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs [34.71750379630014]
トピックレベルの幻覚を緩和するために,モデル自体をガイドする自己修正的アプローチであるトピックレベルの優先上書き(TPO)を導入する。
以上の結果から,TPOは信頼性の最先端性を達成し,対象幻覚の92%,全体幻覚の38%を著しく低減した。
論文 参考訳(メタデータ) (2024-11-26T09:42:07Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z) - Human-in-the-Loop Optimization for Deep Stimulus Encoding in Visual
Prostheses [2.7309692684728617]
神経補綴は、失われた感覚機能を回復し、人間の能力を増強する可能性を示しているが、現在の装置が生み出す感覚は、しばしば不自然または歪んでいるように見える。
この2つの基本的制約を克服する,斬新で現実的なアプローチを提案する。
提案手法は、パーソナライズされた刺激エンコーダを迅速に学習し、回復した視覚の質を劇的に改善し、患者からのフィードバックに頑健であることを示す。
論文 参考訳(メタデータ) (2023-06-16T18:49:51Z) - Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles [16.916111322004557]
ブラックボックスの客観的関数は、ランクのオラクルを通してのみ測定できる。
ゼロ階最適化アルゴリズムZO-RankSGDを導入する。
また,ZO-RankSGDは,数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-03-07T09:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。