論文の概要: SemLink: A Semantic-Aware Automated Test Oracle for Hyperlink Verification using Siamese Sentence-BERT
- arxiv url: http://arxiv.org/abs/2604.05711v1
- Date: Tue, 07 Apr 2026 11:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.778717
- Title: SemLink: A Semantic-Aware Automated Test Oracle for Hyperlink Verification using Siamese Sentence-BERT
- Title(参考訳): SemLink: Siamese Sentence-BERTを使用したハイパーリンク検証のためのセマンティック・アウェア自動テストOracle
- Authors: Guan-Yan Yang, Wei-Ling Wen, Shu-Yuan Ku, Farn Wang, Kuo-Hui Yeh,
- Abstract要約: Webアプリケーションは、異なる情報リソースを接続するためにハイパーリンクに大きく依存します。
HTTPステータスコードをチェックすることで、主にクラッシュオラクルとして機能する従来の検証ツールは、セマンティックな不整合を検出するのに失敗することが多い。
本稿ではセマンティックハイパーリンク検証のための新しい自動テストオラクルであるSemLinkを提案する。
- 参考スコア(独自算出の注目度): 1.5984927623688912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web applications rely heavily on hyperlinks to connect disparate information resources. However, the dynamic nature of the web leads to link rot, where targets become unavailable, and more insidiously, semantic drift, where a valid HTTP 200 connection exists, but the target content no longer aligns with the source context. Traditional verification tools, which primarily function as crash oracles by checking HTTP status codes, often fail to detect semantic inconsistencies, thereby compromising web integrity and user experience. While Large Language Models (LLMs) offer semantic understanding, they suffer from high latency, privacy concerns, and prohibitive costs for large-scale regression testing. In this paper, we propose SemLink, a novel automated test oracle for semantic hyperlink verification. SemLink leverages a Siamese Neural Network architecture powered by a pre-trained Sentence-BERT (SBERT) backbone to compute the semantic coherence between a hyperlink's source context (anchor text, surrounding DOM elements, and visual features) and its target page content. To train and evaluate our model, we introduce the Hyperlink-Webpage Positive Pairs (HWPPs) dataset, a rigorously constructed corpus of over 60,000 semantic pairs. Our evaluation demonstrates that SemLink achieves a Recall of 96.00%, comparable to state-of-the-art LLMs (GPT-5.2), while operating approximately 47.5 times faster and requiring significantly fewer computational resources. This work bridges the gap between traditional syntactic checkers and expensive generative AI, offering a robust and efficient solution for automated web quality assurance.
- Abstract(参考訳): Webアプリケーションは、異なる情報リソースを接続するためにハイパーリンクに大きく依存します。
しかし、Webのダイナミックな性質は、ターゲットが利用不能になり、より深刻にセマンティックなドリフト、有効なHTTP 200接続が存在するが、ターゲットコンテンツは、ソースコンテキストともはや一致しないリンクロートに繋がる。
HTTPステータスコードをチェックすることで主にクラッシュオラクルとして機能する従来の検証ツールは、セマンティックな不整合を検出するのに失敗し、Webの整合性とユーザエクスペリエンスを損なう。
大きな言語モデル(LLM)はセマンティックな理解を提供するが、レイテンシ、プライバシー上の懸念、大規模回帰テストの禁止コストに悩まされている。
本稿ではセマンティックハイパーリンク検証のための新しい自動テストオラクルであるSemLinkを提案する。
SemLinkは、トレーニング済みのSBERT(Sentence-BERT)バックボーンをベースとしたSiamese Neural Networkアーキテクチャを活用し、ハイパーリンクのソースコンテキスト(アンカーテキスト、DOM要素の周辺、視覚的特徴)とそのターゲットページコンテンツ間のセマンティックコヒーレンスを計算する。
我々のモデルをトレーニングし、評価するために、6万以上のセマンティックペアからなる厳密に構築されたコーパスであるHyperlink-Webpage Positive Pairs(HWPPs)データセットを紹介した。
評価の結果、SemLinkは96.00%のリコールを実現し、最先端のLCM(GPT-5.2)に匹敵する性能を示した。
この作業は、従来の構文チェッカーと高価な生成AIのギャップを埋め、Web品質の自動保証のための堅牢で効率的なソリューションを提供する。
関連論文リスト
- Multi-Agent Taint Specification Extraction for Vulnerability Detection [49.27772068704498]
コンテナ分析を使用した静的アプリケーションセキュリティテスト(SAST)ツールは、高品質な脆弱性検出結果を提供するものとして広く見なされている。
本稿では,Large Language Models (LLM) のセマンティック理解と従来の静的プログラム解析を戦略的に組み合わせたマルチエージェントシステムであるSemTaintを提案する。
私たちは、SemTaintを最先端のSASTツールであるCodeQLと統合し、これまでCodeQLで検出できなかった162の脆弱性の106を検出して、その効果を実証しています。
論文 参考訳(メタデータ) (2026-01-15T21:31:51Z) - WALT: Web Agents that Learn Tools [66.73502484310121]
WALTは、Webサイト機能を再利用不能なツールにリバースエンジニアリングするフレームワークである。
WALTはアドホックなスキルを仮説化するのではなく、既にウェブサイトに設計されている自動化の堅牢な実装を公開している。
VisualWebArenaとWebArenaでは、WALTはより少ないステップとLLM依存の推論でより高い成功を達成している。
論文 参考訳(メタデータ) (2025-10-01T23:41:47Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - Generative AI-aided Joint Training-free Secure Semantic Communications
via Multi-modal Prompts [89.04751776308656]
本稿では,多モデルプロンプトを用いたGAI支援型SemComシステムを提案する。
セキュリティ上の懸念に応えて、フレンドリーなジャマーによって支援される隠蔽通信の応用を紹介する。
論文 参考訳(メタデータ) (2023-09-05T23:24:56Z) - Automated Vulnerability Detection in Source Code Using Quantum Natural
Language Processing [0.0]
CとC++のオープンソースコードは、関数レベルの脆弱性識別のための大規模で古典的な機械学習および量子機械学習システムを作成するために利用可能である。
我々は、深層ニューラルネットワークモデルLong Short Term Memory(LSTM)と量子機械学習モデルLong Short Term Memory(QLSTM)に基づく、効率的でスケーラブルな脆弱性検出手法を開発した。
意味的および構文的特徴を持つQLSTMは、極めて正確な脆弱性を検出し、従来のものよりも高速に実行される。
論文 参考訳(メタデータ) (2023-03-13T23:27:42Z) - Pre-training for Information Retrieval: Are Hyperlinks Fully Explored? [19.862211305690916]
本稿では,事前学習におけるハイパーリンクの利用を検討するために,プログレッシブハイパーリンク予測(PHP)フレームワークを提案する。
2つの大規模アドホック検索データセットと6つの質問回答データセットの実験結果は、既存の事前学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-14T12:03:31Z) - Anchor Prediction: A Topic Modeling Approach [2.0411082897313984]
我々はアノテーションを提案し、これをアンカー予測と呼ぶ。
ソースドキュメントとターゲットドキュメントが与えられた場合、このタスクはソースドキュメント内のアンカーを自動的に識別する。
本稿では,文書間のリンクをモデル化するコンテキスト型関係トピックモデルCRTMを提案する。
論文 参考訳(メタデータ) (2022-05-29T11:26:52Z) - Neuro-Symbolic Artificial Intelligence (AI) for Intent based Semantic
Communication [85.06664206117088]
6Gネットワークはデータ転送のセマンティクスと有効性(エンドユーザ)を考慮する必要がある。
観測データの背後にある因果構造を学習するための柱としてNeSy AIが提案されている。
GFlowNetは、無線システムにおいて初めて活用され、データを生成する確率構造を学ぶ。
論文 参考訳(メタデータ) (2022-05-22T07:11:57Z) - Automated Recovery of Issue-Commit Links Leveraging Both Textual and
Non-textual Data [2.578242050187029]
自動コミット-イシューリンクに対する最先端のアプローチは、精度の低下に悩まされ、信頼性の低い結果に繋がる。
本稿では,2つの情報チャネルを活用することで,このような制限を克服するハイブリッドリンクを提案する。
我々は、競合するアプローチであるFRLinkとDeepLinkに対して、12のプロジェクトのデータセットでHybrid-Linkerを評価した。
論文 参考訳(メタデータ) (2021-07-05T09:38:44Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。