論文の概要: Evaluating Epistemic Guardrails in AI Reading Assistants: A Behavioral Audit of a Minimal Prototype
- arxiv url: http://arxiv.org/abs/2604.27275v1
- Date: Thu, 30 Apr 2026 00:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.846445
- Title: Evaluating Epistemic Guardrails in AI Reading Assistants: A Behavioral Audit of a Minimal Prototype
- Title(参考訳): AI読解支援者におけるてんかん性ガードレールの評価--最小プロトタイプの行動監査
- Authors: Matthew Christian Agustin,
- Abstract要約: エピステムガードレールは、人工知能システムが読み書きに参加する方法に関する制約である。
TextWalkは、回答プロファイラではなく共読器として設計された最小限の読み取り支援プロトタイプで、12の分析テキストに対して固定10プロンプトプロトコルを適用している。
その結果, 強いベースライン安定性, 解釈的調査中の測定可能なひずみ, 直接境界応力下での部分回復, 圧力下での後期安定化が確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) reading assistants are increasingly used in settings that require interpretation rather than simple retrieval. In these contexts, the central risk is not only error or unsafe output, but interpretive displacement: the transfer of meaning-making work from reader to system. This paper examines that problem through the concept of epistemic guardrails, defined here as constraints on how an artificial intelligence (AI) system participates in reading and interpretation. Using TextWalk, a minimal reading-support prototype designed as a co-reader rather than an answer-provider, the study applies a fixed ten-prompt protocol to twelve analytical texts spanning four categories of argumentative prose. The protocol escalates from baseline reading support to interpretive inquiry, boundary stress, and explicit shortcut pressure, enabling guardrails to be examined as behavioral properties observable in interaction rather than as static instruction features. Results show strong baseline stability, measurable strain during interpretive inquiry, partial recovery under direct boundary stress, and late-stage stabilization under escalation pressure. The most consequential weaknesses did not appear as overt collapse, but in a middle zone between support and substitution, where the system remained grounded and pedagogical while redistributing too much interpretive labor away from the reader. The paper contributes a protocol for evaluating epistemic guardrails as interactional phenomena in conversational AI reading assistants, an empirical account of their behavioral dynamics under pressure, and an emerging model of interpretive boundary function in reading-support AI.
- Abstract(参考訳): 大規模言語モデル(LLM)の読み出しアシスタントは、単純な検索よりも解釈を必要とする設定でますます使われている。
これらの文脈では、中心的なリスクは、エラーや安全でない出力だけでなく、解釈的変位(読み手からシステムへの意味作り作業の移動)である。
本稿では、人工知能(AI)システムが読み書きにどのように関与するかの制約として定義されている、てんかん性ガードレールの概念を通してこの問題を考察する。
回答プロファイラではなく共読器として設計された最小限の読解支援プロトタイプであるTextWalkを用いて、議論的散文の4つのカテゴリにまたがる12の分析テキストに対して、固定された10プロンプトプロトコルを適用した。
このプロトコルは、ベースライン読み上げ支援から解釈的調査、境界応力、明示的なショートカット圧力までをエスカレートし、ガードレールを静的な命令機能ではなく、相互作用で観測可能な動作特性として検討することができる。
その結果, 高いベースライン安定性, 解釈的調査中の測定可能なひずみ, 直接境界応力下での部分回復, エスカレーション圧力下での後期安定化が確認された。
最も重大な弱点は、過度に崩壊したとは見えなかったが、支持と置換の間の中間領域では、システムは根絶され、教育的でありながら、読み手から多くの解釈的労働力を再分配した。
本稿では,対話型AI読解アシスタントにおける相互作用現象としてのてんかん性ガードレールの評価プロトコル,圧力下での行動力学の実証的説明,読解支援型AIにおける解釈的境界関数の新しいモデルを提案する。
関連論文リスト
- When AI reviews science: Can we trust the referee? [73.47745294608072]
私たちは、トレーニングとデータ検索、デスクレビュー、深いレビュー、反論、システムレベルといった、レビューライフサイクル全体のアタックをマップします。
評価スコアに高名度フレーミング, 断定力, 反抗薬効, 文脈中毒の因果効果を分離するために, 2つの高度なLCMベースの審判を用いた。
論文 参考訳(メタデータ) (2026-04-26T08:03:32Z) - Causal Imitation Learning Under Measurement Error and Distribution Shift [6.038778620145853]
ノイズ測定によってのみ、決定関連状態の一部が観察される場合、オフライン模倣学習(IL)について検討する。
本稿では,変数間の因果関係を明示的にモデル化することによって,測定誤差下でのILの一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:06:53Z) - The Epistemic Suite: A Post-Foundational Diagnostic Methodology for Assessing AI Knowledge Claims [0.7233897166339268]
本稿では,AI出力の生成と受信の状況を理解するための診断手法であるEpistemic Suiteを紹介する。
真実や虚偽を判断する代わりに、スイートは20個の診断レンズを通して、信頼の洗浄、物語の圧縮、異動した権威、一時的な漂流などのパターンを明らかにする。
論文 参考訳(メタデータ) (2025-09-20T00:29:38Z) - Are All Prompt Components Value-Neutral? Understanding the Heterogeneous Adversarial Robustness of Dissected Prompt in Large Language Models [11.625319498017733]
PromptAnatomyは、プロンプトを機能コンポーネントに分解する自動化フレームワークです。
提案手法であるComPerturbを用いて,各コンポーネントを選択的に摂動することで,逆例を生成する。
補完的なリソースとして,PromptAnatomyフレームワークを用いて4つの公開命令チューニングデータセットを注釈付けする。
論文 参考訳(メタデータ) (2025-08-03T02:46:30Z) - Abstract Counterfactuals for Language Model Agents [3.7540612510652176]
抽象対物(Abstract Counterfactuals)は、環境内の行動と相互作用の高レベルな特徴を強調するフレームワークである。
トークンレベルと潜時空間の両方の介入を考慮して,テキストベースのゲームと対実テキスト生成の実験を行う。
論文 参考訳(メタデータ) (2025-06-03T14:44:26Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Reliability Analysis of Psychological Concept Extraction and
Classification in User-penned Text [9.26840677406494]
私たちはLoSTデータセットを使って、Redditユーザーの投稿に低い自尊心があることを示唆するニュアンスのあるテキストキューをキャプチャします。
以上の結果から, PLM の焦点を Trigger と Consequences からより包括的な説明に移行する必要性が示唆された。
論文 参考訳(メタデータ) (2024-01-12T17:19:14Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。