Fugu-MT 論文翻訳(概要): Evaluating Deep Human-in-the-Loop Optimization for Retinal Implants Using Sighted Participants

論文の概要: Evaluating Deep Human-in-the-Loop Optimization for Retinal Implants Using Sighted Participants

arxiv url: http://arxiv.org/abs/2502.00177v1
Date: Fri, 31 Jan 2025 21:41:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:53.361437
Title: Evaluating Deep Human-in-the-Loop Optimization for Retinal Implants Using Sighted Participants
Title（参考訳）: 目視による網膜インプラントの深部ヒューマン・イン・ザ・ループ最適化の評価
Authors: Eirini Schoinas, Adyah Rastogi, Anissa Carter, Jacob Granley, Michael Beyeler,
Abstract要約: ヒューマン・イン・ザ・ループ最適化(HILO)は,ユーザのフィードバックに基づいて刺激パラメータを反復的に精製することで視覚補綴をパーソナライズするための有望なアプローチである。従来の研究はHILOのシミュレーション効果を示したが、ヒトの被験者に対する効果は検証されていない。そこで本研究では,実環境下での刺激戦略の最適化能力を評価するために,人工視覚を視認する視力を用いたHILOの評価を行った。
参考スコア（独自算出の注目度）: 2.3301643766310374
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human-in-the-loop optimization (HILO) is a promising approach for personalizing visual prostheses by iteratively refining stimulus parameters based on user feedback. Previous work demonstrated HILO's efficacy in simulation, but its performance with human participants remains untested. Here we evaluate HILO using sighted participants viewing simulated prosthetic vision to assess its ability to optimize stimulation strategies under realistic conditions. Participants selected between phosphenes generated by competing encoders to iteratively refine a deep stimulus encoder (DSE). We tested HILO in three conditions: standard optimization, threshold misspecifications, and out-of-distribution parameter sampling. Participants consistently preferred HILO-generated stimuli over both a na\"ive encoder and the DSE alone, with log odds favoring HILO across all conditions. We also observed key differences between human and simulated decision-making, highlighting the importance of validating optimization strategies with human participants. These findings support HILO as a viable approach for adapting visual prostheses to individuals.
Abstract（参考訳）: ヒューマン・イン・ザ・ループ最適化(HILO)は,ユーザのフィードバックに基づいて刺激パラメータを反復的に精製することで視覚補綴をパーソナライズするための有望なアプローチである。以前の研究はHILOのシミュレーション効果を示したが、ヒトの被験者に対する効果は検証されていない。そこで本研究では,実環境下での刺激戦略の最適化能力を評価するために,人工視覚を視認する視力を用いたHILOの評価を行った。競合するエンコーダが生成するホスフェイン間で選択された参加者は、ディープ刺激エンコーダ(DSE)を反復的に精製する。 HILOは, 標準最適化, しきい値の不特定, 分布外パラメータサンプリングの3つの条件で試験した。参加者は、すべての条件でHILOを好んで、na\型エンコーダとDSEのみよりもHILO生成刺激を常に好んだ。また、人間とシミュレートされた意思決定の主な違いを観察し、人間の参加者との最適化戦略を検証することの重要性を強調した。これらの知見は人体に視覚補綴を適応するための有効なアプローチとしてHILOを支持する。

関連論文リスト

Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2025-07-24T15:19:23Z)
Mitigating Hallucination Through Theory-Consistent Symmetric Multimodal Preference Optimization [58.64721525687295]
マルチモーダル大言語モデル(MLLM)における幻覚を緩和するための効果的なアプローチとして、直接選好最適化(DPO)が登場している。我々は、直接選好監督(応答対)を伴う対称選好学習を行うシンメトリ・マルチモーダル選好最適化(SymMPO)を提案する。従来の順序的嗜好学習に加えて、SymMPOは、左右の選好ペア間の選好ギャップを定量的に調節する、選好マージン整合性損失を導入している。
論文参考訳（メタデータ） (2025-06-13T12:29:15Z)
Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。 Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。 DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文参考訳（メタデータ） (2025-02-08T01:20:09Z)
Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment [73.14105098897696]
本研究では,人間の嗜好フィードバックをはるかに少なくして視覚的報酬を学習するための表現適応型選好学習(RAPL)を提案する。 RAPLは、エンドユーザの視覚表現に合わせて微調整された事前学習された視覚エンコーダに焦点を合わせ、特徴マッチングによって密集した視覚報酬を構築する。 RAPLは人間の嗜好に沿った報酬を学習し、より効率的に嗜好データを使用し、ロボットの具体化を一般化できることを示す。
論文参考訳（メタデータ） (2024-12-06T08:04:02Z)
A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs [34.71750379630014]
トピックレベルの幻覚を緩和するために,モデル自体をガイドする自己修正的アプローチであるトピックレベルの優先上書き(TPO)を導入する。以上の結果から,TPOは信頼性の最先端性を達成し,対象幻覚の92%,全体幻覚の38%を著しく低減した。
論文参考訳（メタデータ） (2024-11-26T09:42:07Z)
VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文参考訳（メタデータ） (2024-10-12T07:56:47Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。 LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文参考訳（メタデータ） (2024-05-22T10:21:50Z)
Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文参考訳（メタデータ） (2024-04-02T11:40:38Z)
Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文参考訳（メタデータ） (2024-03-08T09:20:12Z)
Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases [76.9127853906115]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
論文参考訳（メタデータ） (2024-02-13T15:55:41Z)
Who Are We Missing? A Principled Approach to Characterizing the Underrepresented Population [5.568543786710628]
最適化に基づく最適化手法であるROOT(Rashomon Set of Optimal Trees)を導入する。 ROOTは、ターゲット平均処理効果推定値の分散を最小化して、ターゲットサブポピュレーション分布を最適化する。我々の枠組みは、意思決定の精度を高め、多様な集団における将来の試行を通知するための体系的なアプローチを提供する。
論文参考訳（メタデータ） (2024-01-25T21:11:35Z)
Interactive Hyperparameter Optimization in Multi-Objective Problems via Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文参考訳（メタデータ） (2023-09-07T09:22:05Z)
Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文参考訳（メタデータ） (2023-06-30T09:07:37Z)
Human-in-the-Loop Optimization for Deep Stimulus Encoding in Visual Prostheses [2.7309692684728617]
神経補綴は、失われた感覚機能を回復し、人間の能力を増強する可能性を示しているが、現在の装置が生み出す感覚は、しばしば不自然または歪んでいるように見える。この2つの基本的制約を克服する,斬新で現実的なアプローチを提案する。提案手法は、パーソナライズされた刺激エンコーダを迅速に学習し、回復した視覚の質を劇的に改善し、患者からのフィードバックに頑健であることを示す。
論文参考訳（メタデータ） (2023-06-16T18:49:51Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles [16.916111322004557]
ブラックボックスの客観的関数は、ランクのオラクルを通してのみ測定できる。ゼロ階最適化アルゴリズムZO-RankSGDを導入する。また,ZO-RankSGDは,数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2023-03-07T09:20:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。