Fugu-MT 論文翻訳(概要): OASST-ETC Dataset: Alignment Signals from Eye-tracking Analysis of LLM Responses

論文の概要: OASST-ETC Dataset: Alignment Signals from Eye-tracking Analysis of LLM Responses

arxiv url: http://arxiv.org/abs/2503.10927v2
Date: Wed, 26 Mar 2025 13:24:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 14:57:01.340596
Title: OASST-ETC Dataset: Alignment Signals from Eye-tracking Analysis of LLM Responses
Title（参考訳）: OASST-ETCデータセット:LLM応答の眼球追跡解析からのアライメント信号
Authors: Angela Lopez-Cardona, Sebastian Idesis, Miguel Barreda-Ángeles, Sergi Abadal, Ioannis Arapakis,
Abstract要約: OASST-ETCは、24人の参加者の読書パターンを捉えた新しいアイトラッキングコーパスである。分析の結果,好ましくない反応と好ましくない反応の読解パターンが明らかとなった。
参考スコア（独自算出の注目度）: 3.6046810704919063
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Large Language Models (LLMs) have significantly advanced natural language processing, aligning them with human preferences remains an open challenge. Although current alignment methods rely primarily on explicit feedback, eye-tracking (ET) data offers insights into real-time cognitive processing during reading. In this paper, we present OASST-ETC, a novel eye-tracking corpus capturing reading patterns from 24 participants, while evaluating LLM-generated responses from the OASST1 dataset. Our analysis reveals distinct reading patterns between preferred and non-preferred responses, which we compare with synthetic eye-tracking data. Furthermore, we examine the correlation between human reading measures and attention patterns from various transformer-based models, discovering stronger correlations in preferred responses. This work introduces a unique resource for studying human cognitive processing in LLM evaluation and suggests promising directions for incorporating eye-tracking data into alignment methods. The dataset and analysis code are publicly available.
Abstract（参考訳）: 大きな言語モデル(LLM)は、かなり高度な自然言語処理を持っているが、それらを人間の好みに合わせることは、依然としてオープンな課題である。現在のアライメント手法は主に明示的なフィードバックに依存しているが、視線追跡(ET)データは読み上げ時のリアルタイム認知処理に関する洞察を提供する。本稿では,OASST1データセットからLLM生成応答を評価しながら,24人の参加者から読み出しパターンを抽出する新しいアイトラッキングコーパスであるOASST-ETCを提案する。分析の結果,好ましくない反応と好ましくない反応の読影パターンが明らかになり,合成眼球追跡データと比較した。さらに, 各種変圧器モデルからの読解と注意パターンの相関について検討し, 好みの応答においてより強い相関関係を見いだした。本研究では、LLM評価において、人間の認知処理を研究するためのユニークなリソースを導入し、視線追跡データをアライメント手法に組み込むための有望な方向性を提案する。データセットと分析コードは公開されている。

関連論文リスト

Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning [12.054910727620154]
視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-24T09:49:53Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
Training Large Recommendation Models via Graph-Language Token Alignment [53.3142545812349]
本稿では,グラフ言語トークンアライメントによる大規模推薦モデルのトレーニングを行う新しいフレームワークを提案する。インタラクショングラフからアイテムとユーザノードを事前訓練されたLLMトークンにアライメントすることで、GLTAはLLMの推論能力を効果的に活用する。さらに、エンドツーエンドのアイテム予測のためのトークンアライメントを最適化するために、GLLM(Graph-Language Logits Matching)を導入する。
論文参考訳（メタデータ） (2025-02-26T02:19:10Z)
Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文参考訳（メタデータ） (2025-02-11T08:05:56Z)
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。 LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文参考訳（メタデータ） (2025-01-14T14:49:14Z)
Towards More Effective Table-to-Text Generation: Assessing In-Context Learning and Self-Evaluation with Open-Source Models [0.0]
本研究では,ベンチマークデータセット間の言語モデル(LM)における様々なコンテキスト内学習戦略の有効性について検討する。我々は、チェーンオブ思考推論を用いた大規模言語モデル(LLM)の自己評価アプローチを採用し、BERTScoreのような人力対応メトリクスとの相関性を評価する。本研究はテーブル・ツー・テキスト・ジェネレーションの改善における実例の顕著な影響を浮き彫りにし, LLM の自己評価には可能性があるが, 人間の判断と現在の整合性は向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-10-15T09:19:42Z)
ELCoRec: Enhance Language Understanding with Co-Propagation of Numerical and Categorical Features for Recommendation [38.64175351885443]
大規模言語モデルは自然言語処理(NLP)領域で栄えている。レコメンデーション指向の微調整モデルによって示された知性にもかかわらず、LLMはユーザーの行動パターンを完全に理解するのに苦労している。既存の作業は、その重要な情報を導入することなく、与えられたテキストデータに対してのみLLMを微調整するだけである。
論文参考訳（メタデータ） (2024-06-27T01:37:57Z)
Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文参考訳（メタデータ） (2024-05-31T20:15:10Z)
C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-02-17T11:28:08Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)
A Comparative Study on Textual Saliency of Styles from Eye Tracking, Annotations, and Language Models [21.190423578990824]
我々は、スタイリスティックテキストの人間の処理のための視線追跡データセットである eyeStyliency を提示する。収集したアイデータセットを用いて,テキスト上でのサリエンシスコアを導出する様々な手法を開発した。視線追跡データはユニークですが、人間のアノテーションとモデルに基づく重要度スコアの両方と交差しています。
論文参考訳（メタデータ） (2022-12-19T21:50:36Z)
Reinforced Approximate Exploratory Data Analysis [7.974685452145769]
まず,対話型データ探索環境におけるサンプリングの影響について検討し,近似誤差を導入する。本稿では, サンプル選択を最適化し, 分析および洞察フローの持続性を維持するための, 深層強化学習(DRL)に基づくフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-12T20:20:22Z)
A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。 DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文参考訳（メタデータ） (2020-04-20T13:26:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。